CommerceTXT: стандарт для RAG-агентов, экономия токенов на 95% | AiManual
AiManual Logo Ai / Manual.
29 Дек 2025 Инструмент

CommerceTXT: новый стандарт для RAG-агентов, который сокращает токены на 95%

Обзор CommerceTXT — открытого стандарта для RAG-агентов, который сокращает токены на 95% за счёт структурирования веб-данных. Примеры кода и сравнение.

Проблема, которую решает CommerceTXT

Каждый разработчик RAG-агентов сталкивается с одной и той же проблемой: веб-страницы содержат огромное количество HTML-разметки, рекламы, навигационных элементов и другого шума. При обработке таких страниц модели потребляют тысячи токенов, что приводит к высоким затратам и снижению качества ответов. Традиционные методы очистки HTML часто теряют важные данные или требуют сложной настройки.

В среднем, только 5% текста на коммерческой веб-странице содержит полезную информацию. Остальные 95% — это шум, который заставляет вашу LLM тратить токены впустую.

Что такое CommerceTXT?

CommerceTXT — это открытый стандарт для структурированного представления данных с веб-страниц, специально разработанный для RAG-агентов. Вместо передачи полного HTML, инструменты, поддерживающие CommerceTXT, извлекают только семантически значимую информацию и представляют её в компактном, машиночитаемом формате с поддержкой Schema.org.

💡
CommerceTXT не является конкретной библиотекой, а скорее спецификацией, которую могут реализовывать различные инструменты веб-скрапинга. Это позволяет создать единый конвейер для обработки данных из разных источников.

Как работает CommerceTXT?

Стандарт определяет набор правил для преобразования веб-страниц в иерархическую текстовую структуру, где каждый элемент соответствует определённому типу контента (заголовок, описание, цена, характеристики и т.д.). Данные аннотируются с использованием микроформатов Schema.org, что позволяет LLM легко понимать контекст.

1Извлечение структуры

Инструмент анализирует DOM-дерево страницы и идентифицирует ключевые семантические блоки: продукт, статьи, отзывы, таблицы.

2Сокращение и аннотация

Каждый блок очищается от лишней разметки и стилей, а затем аннотируется с использованием стандартных свойств Schema.org (например, name, description, price).

3Формирование вывода

Данные выводятся в компактном текстовом формате с чёткими разделителями, что сокращает объём до 5-10% от исходного HTML.

Сравнение с альтернативами

МетодТокеныСохранение структурыПростота реализации
Полный HTML100% (база)ОтличнаяОчень просто
BeautifulSoup + кастомные правила30-50%ХорошаяСложно, требует поддержки
Readability-библиотеки20-40%СредняяПросто
CommerceTXT5-10%Отличная (семантическая)Средне (стандартизировано)

Как видно из таблицы, CommerceTXT предлагает наилучшее соотношение сокращения токенов и сохранения полезной структуры. В отличие от кастомных решений, он стандартизирован, что упрощает интеграцию в различные проекты.

Примеры использования

Интеграция в RAG-пайплайн

Вот как можно использовать CommerceTXT в связке с популярными инструментами для создания production-ready AI-агента:

from commercetxt_extractor import extract_to_ctxt
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Загрузка и преобразование веб-страницы
html_content = fetch_webpage("https://example.com/product/123")
ctxt_content = extract_to_ctxt(html_content)

# Сохранение в временный файл
with open("temp.ctxt", "w") as f:
    f.write(ctxt_content)

# Загрузка как документ LangChain
loader = TextLoader("temp.ctxt")
documents = loader.load()

# Текстовый сплиттер (теперь токенов в разы меньше!)
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits = text_splitter.split_documents(documents)

Локальные агенты

Для локальных ИИ-ассистентов, где ресурсы ограничены, сокращение токенов критически важно. CommerceTXT позволяет обрабатывать больше документов без апгрейда железа.

# Использование CLI-инструмента CommerceTXT
commercetxt-cli --url "https://online-store.com/item/456" --output product_data.ctxt

# Затем загрузка в векторную БД с помощью llama.cpp
llama-embed -m embedding-model.bin -f product_data.ctxt -o embeddings.json

Кому подойдет CommerceTXT?

  • Разработчики RAG-систем, которые хотят снизить затраты на токены и улучшить качество ответов.
  • Аналитики данных, занимающиеся сбором и структурированием информации с веб-сайтов.
  • Команды, внедряющие AI-агенты для автоматизации работы с коммерческим контентом, как описано в статье про тренды AI-агентов 2026.
  • Стартапы и компании, которые хотят создать масштабируемую инфраструктуру для обработки веб-данных без привязки к конкретным парсерам.

Если вы работаете с мультимодальными данными, вам также может быть интересен наш материал про мультимодальный RAG в 2025, где рассматриваются современные подходы к обработке разных типов контента.

Перспективы и развитие

CommerceTXT находится на ранней стадии развития, но уже привлекает внимание сообщества благодаря своему потенциалу. Открытая спецификация позволяет любому разработчику создать совместимый инструмент. В будущем мы можем ожидать появления:

  1. Стандартных плагинов для популярных фреймворков веб-скрапинга (Scrapy, Playwright).
  2. Интеграции с облачными сервисами для обработки документов.
  3. Поддержки в LLM-ориентированных инструментах, таких как LangChain и LlamaIndex.

Для тех, кто работает с эмбеддинг-моделями, экономия токенов также означает возможность использовать более качественные модели, как обсуждалось в сравнении BGE M3 vs EmbeddingGemma vs Qwen3.

Заключение

CommerceTXT представляет собой значительный шаг в эволюции RAG-технологий, предлагая стандартизированный способ борьбы с избыточностью веб-контента. Сокращение использования токенов на 95% — это не просто экономия, это возможность создавать более сложных и точных агентов, способных обрабатывать больше информации в реальном времени. Как и в случае с ускорением вывода моделей, оптимизация входных данных становится ключевым фактором эффективности AI-систем.

Разработчикам, которые только начинают погружаться в мир AI-агентов, рекомендуется изучить основы на примере агентных workflow, а затем внедрять такие стандарты, как CommerceTXT, для создания по-настоящему производственных решений.