Насколько CommerceTXT сокращает использование токенов?

В среднем CommerceTXT сокращает объём обрабатываемых данных до 5-10% от исходного HTML, что эквивалентно экономии токенов на 90-95%.

Чем CommerceTXT лучше других методов очистки HTML?

CommerceTXT стандартизирован, сохраняет семантическую структуру данных через Schema.org и требует меньше кастомной настройки по сравнению с парсерами на основе CSS-селекторов или регулярных выражений.

Кому стоит использовать CommerceTXT?

Разработчикам RAG-систем, аналитикам данных, командам, внедряющим AI-агентов для автоматизации работы с веб-контентом, и всем, кто хочет снизить затраты на обработку токенов.

CommerceTXT: стандарт для RAG-агентов, экономия токенов на 95%

Проблема, которую решает CommerceTXT

Каждый разработчик RAG-агентов сталкивается с одной и той же проблемой: веб-страницы содержат огромное количество HTML-разметки, рекламы, навигационных элементов и другого шума. При обработке таких страниц модели потребляют тысячи токенов, что приводит к высоким затратам и снижению качества ответов. Традиционные методы очистки HTML часто теряют важные данные или требуют сложной настройки.

В среднем, только 5% текста на коммерческой веб-странице содержит полезную информацию. Остальные 95% — это шум, который заставляет вашу LLM тратить токены впустую.

Что такое CommerceTXT?

CommerceTXT — это открытый стандарт для структурированного представления данных с веб-страниц, специально разработанный для RAG-агентов. Вместо передачи полного HTML, инструменты, поддерживающие CommerceTXT, извлекают только семантически значимую информацию и представляют её в компактном, машиночитаемом формате с поддержкой Schema.org.

💡

CommerceTXT не является конкретной библиотекой, а скорее спецификацией, которую могут реализовывать различные инструменты веб-скрапинга. Это позволяет создать единый конвейер для обработки данных из разных источников.

Как работает CommerceTXT?

Стандарт определяет набор правил для преобразования веб-страниц в иерархическую текстовую структуру, где каждый элемент соответствует определённому типу контента (заголовок, описание, цена, характеристики и т.д.). Данные аннотируются с использованием микроформатов Schema.org, что позволяет LLM легко понимать контекст.

1Извлечение структуры

Инструмент анализирует DOM-дерево страницы и идентифицирует ключевые семантические блоки: продукт, статьи, отзывы, таблицы.

2Сокращение и аннотация

Каждый блок очищается от лишней разметки и стилей, а затем аннотируется с использованием стандартных свойств Schema.org (например, name, description, price).

3Формирование вывода

Данные выводятся в компактном текстовом формате с чёткими разделителями, что сокращает объём до 5-10% от исходного HTML.

Сравнение с альтернативами

Метод	Токены	Сохранение структуры	Простота реализации
Полный HTML	100% (база)	Отличная	Очень просто
BeautifulSoup + кастомные правила	30-50%	Хорошая	Сложно, требует поддержки
Readability-библиотеки	20-40%	Средняя	Просто
CommerceTXT	5-10%	Отличная (семантическая)	Средне (стандартизировано)

Как видно из таблицы, CommerceTXT предлагает наилучшее соотношение сокращения токенов и сохранения полезной структуры. В отличие от кастомных решений, он стандартизирован, что упрощает интеграцию в различные проекты.

Примеры использования

Интеграция в RAG-пайплайн

Вот как можно использовать CommerceTXT в связке с популярными инструментами для создания production-ready AI-агента:

from commercetxt_extractor import extract_to_ctxt
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Загрузка и преобразование веб-страницы
html_content = fetch_webpage("https://example.com/product/123")
ctxt_content = extract_to_ctxt(html_content)

# Сохранение в временный файл
with open("temp.ctxt", "w") as f:
    f.write(ctxt_content)

# Загрузка как документ LangChain
loader = TextLoader("temp.ctxt")
documents = loader.load()

# Текстовый сплиттер (теперь токенов в разы меньше!)
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits = text_splitter.split_documents(documents)

Локальные агенты

Для локальных ИИ-ассистентов, где ресурсы ограничены, сокращение токенов критически важно. CommerceTXT позволяет обрабатывать больше документов без апгрейда железа.

# Использование CLI-инструмента CommerceTXT
commercetxt-cli --url "https://online-store.com/item/456" --output product_data.ctxt

# Затем загрузка в векторную БД с помощью llama.cpp
llama-embed -m embedding-model.bin -f product_data.ctxt -o embeddings.json

Кому подойдет CommerceTXT?

Разработчики RAG-систем, которые хотят снизить затраты на токены и улучшить качество ответов.
Аналитики данных, занимающиеся сбором и структурированием информации с веб-сайтов.
Команды, внедряющие AI-агенты для автоматизации работы с коммерческим контентом, как описано в статье про тренды AI-агентов 2026.
Стартапы и компании, которые хотят создать масштабируемую инфраструктуру для обработки веб-данных без привязки к конкретным парсерам.

Если вы работаете с мультимодальными данными, вам также может быть интересен наш материал про мультимодальный RAG в 2025, где рассматриваются современные подходы к обработке разных типов контента.

Перспективы и развитие

CommerceTXT находится на ранней стадии развития, но уже привлекает внимание сообщества благодаря своему потенциалу. Открытая спецификация позволяет любому разработчику создать совместимый инструмент. В будущем мы можем ожидать появления:

Стандартных плагинов для популярных фреймворков веб-скрапинга (Scrapy, Playwright).
Интеграции с облачными сервисами для обработки документов.
Поддержки в LLM-ориентированных инструментах, таких как LangChain и LlamaIndex.

Для тех, кто работает с эмбеддинг-моделями, экономия токенов также означает возможность использовать более качественные модели, как обсуждалось в сравнении BGE M3 vs EmbeddingGemma vs Qwen3.

Заключение

CommerceTXT представляет собой значительный шаг в эволюции RAG-технологий, предлагая стандартизированный способ борьбы с избыточностью веб-контента. Сокращение использования токенов на 95% — это не просто экономия, это возможность создавать более сложных и точных агентов, способных обрабатывать больше информации в реальном времени. Как и в случае с ускорением вывода моделей, оптимизация входных данных становится ключевым фактором эффективности AI-систем.

Разработчикам, которые только начинают погружаться в мир AI-агентов, рекомендуется изучить основы на примере агентных workflow, а затем внедрять такие стандарты, как CommerceTXT, для создания по-настоящему производственных решений.

CommerceTXT: новый стандарт для RAG-агентов, который сокращает токены на 95%