Проблема, которую решает CommerceTXT
Каждый разработчик RAG-агентов сталкивается с одной и той же проблемой: веб-страницы содержат огромное количество HTML-разметки, рекламы, навигационных элементов и другого шума. При обработке таких страниц модели потребляют тысячи токенов, что приводит к высоким затратам и снижению качества ответов. Традиционные методы очистки HTML часто теряют важные данные или требуют сложной настройки.
В среднем, только 5% текста на коммерческой веб-странице содержит полезную информацию. Остальные 95% — это шум, который заставляет вашу LLM тратить токены впустую.
Что такое CommerceTXT?
CommerceTXT — это открытый стандарт для структурированного представления данных с веб-страниц, специально разработанный для RAG-агентов. Вместо передачи полного HTML, инструменты, поддерживающие CommerceTXT, извлекают только семантически значимую информацию и представляют её в компактном, машиночитаемом формате с поддержкой Schema.org.
Как работает CommerceTXT?
Стандарт определяет набор правил для преобразования веб-страниц в иерархическую текстовую структуру, где каждый элемент соответствует определённому типу контента (заголовок, описание, цена, характеристики и т.д.). Данные аннотируются с использованием микроформатов Schema.org, что позволяет LLM легко понимать контекст.
1Извлечение структуры
Инструмент анализирует DOM-дерево страницы и идентифицирует ключевые семантические блоки: продукт, статьи, отзывы, таблицы.
2Сокращение и аннотация
Каждый блок очищается от лишней разметки и стилей, а затем аннотируется с использованием стандартных свойств Schema.org (например, name, description, price).
3Формирование вывода
Данные выводятся в компактном текстовом формате с чёткими разделителями, что сокращает объём до 5-10% от исходного HTML.
Сравнение с альтернативами
| Метод | Токены | Сохранение структуры | Простота реализации |
|---|---|---|---|
| Полный HTML | 100% (база) | Отличная | Очень просто |
| BeautifulSoup + кастомные правила | 30-50% | Хорошая | Сложно, требует поддержки |
| Readability-библиотеки | 20-40% | Средняя | Просто |
| CommerceTXT | 5-10% | Отличная (семантическая) | Средне (стандартизировано) |
Как видно из таблицы, CommerceTXT предлагает наилучшее соотношение сокращения токенов и сохранения полезной структуры. В отличие от кастомных решений, он стандартизирован, что упрощает интеграцию в различные проекты.
Примеры использования
Интеграция в RAG-пайплайн
Вот как можно использовать CommerceTXT в связке с популярными инструментами для создания production-ready AI-агента:
from commercetxt_extractor import extract_to_ctxt
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
# Загрузка и преобразование веб-страницы
html_content = fetch_webpage("https://example.com/product/123")
ctxt_content = extract_to_ctxt(html_content)
# Сохранение в временный файл
with open("temp.ctxt", "w") as f:
f.write(ctxt_content)
# Загрузка как документ LangChain
loader = TextLoader("temp.ctxt")
documents = loader.load()
# Текстовый сплиттер (теперь токенов в разы меньше!)
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits = text_splitter.split_documents(documents)Локальные агенты
Для локальных ИИ-ассистентов, где ресурсы ограничены, сокращение токенов критически важно. CommerceTXT позволяет обрабатывать больше документов без апгрейда железа.
# Использование CLI-инструмента CommerceTXT
commercetxt-cli --url "https://online-store.com/item/456" --output product_data.ctxt
# Затем загрузка в векторную БД с помощью llama.cpp
llama-embed -m embedding-model.bin -f product_data.ctxt -o embeddings.jsonКому подойдет CommerceTXT?
- Разработчики RAG-систем, которые хотят снизить затраты на токены и улучшить качество ответов.
- Аналитики данных, занимающиеся сбором и структурированием информации с веб-сайтов.
- Команды, внедряющие AI-агенты для автоматизации работы с коммерческим контентом, как описано в статье про тренды AI-агентов 2026.
- Стартапы и компании, которые хотят создать масштабируемую инфраструктуру для обработки веб-данных без привязки к конкретным парсерам.
Если вы работаете с мультимодальными данными, вам также может быть интересен наш материал про мультимодальный RAG в 2025, где рассматриваются современные подходы к обработке разных типов контента.
Перспективы и развитие
CommerceTXT находится на ранней стадии развития, но уже привлекает внимание сообщества благодаря своему потенциалу. Открытая спецификация позволяет любому разработчику создать совместимый инструмент. В будущем мы можем ожидать появления:
- Стандартных плагинов для популярных фреймворков веб-скрапинга (Scrapy, Playwright).
- Интеграции с облачными сервисами для обработки документов.
- Поддержки в LLM-ориентированных инструментах, таких как LangChain и LlamaIndex.
Для тех, кто работает с эмбеддинг-моделями, экономия токенов также означает возможность использовать более качественные модели, как обсуждалось в сравнении BGE M3 vs EmbeddingGemma vs Qwen3.
Заключение
CommerceTXT представляет собой значительный шаг в эволюции RAG-технологий, предлагая стандартизированный способ борьбы с избыточностью веб-контента. Сокращение использования токенов на 95% — это не просто экономия, это возможность создавать более сложных и точных агентов, способных обрабатывать больше информации в реальном времени. Как и в случае с ускорением вывода моделей, оптимизация входных данных становится ключевым фактором эффективности AI-систем.
Разработчикам, которые только начинают погружаться в мир AI-агентов, рекомендуется изучить основы на примере агентных workflow, а затем внедрять такие стандарты, как CommerceTXT, для создания по-настоящему производственных решений.