Интернет до интернета: почему Usenet — это сокровище

Вы когда-нибудь задумывались, чем кормили нейросети до того, как ChatGPT заполонил всё вокруг? Если да — у меня для вас новость: вышел корпус Usenet с 1980 по 2013 год, и он стоит того, чтобы на него посмотреть. 103 миллиарда токенов, собранных с форумов и групп новостей, где люди обсуждали всё — от программирования на FORTRAN до рецептов печенья. И главное: ни одного токена, сгенерированного LLM. Никакого загрязнения. Чистый, как слеза младенца, доэпоховый текст.

Почему это важно? Потому что 90% современных датасетов уже содержат AI-контент. Обучаешь на них модель — получаешь «рекурсивное вырождение», где нейронка учится у нейронки. Usenet — как машина времени, переносящая нас в 80-е, когда слово «нейросеть» знали только фантасты.

1 Что внутри и как он устроен

Датасет выложен на Hugging Face под именем usenet-1980-2013. Он включает сообщения из всех иерархий Usenet, которые только сохранились (а сохранилось много — спасибо архивам Google Groups и частным коллекционерам). Текст нормализован, убраны заголовки и метаданные, оставлена только «голая» переписка. Размер в сыром виде — около 350 ГБ, после токенизации BPE — 103B токенов. Временной диапазон: с 22 февраля 1980 года (самое старое сообщение в датасете) по 31 декабря 2013-го — обрезано ровно в тот момент, когда LLM начали появляться в открытом доступе.

Токенизация выполнена тем же токенизатором, что используется в Llama 3 и Qwen 2.5 — так что можно сразу грузить в любой популярный фреймворк. Хотите дообучить маленькую модель на 12 ГБ VRAM? Usenet — отличная кандидатура для первого шага.

Характеристика	Значение
Период	1980–2013
Количество токенов	103B (BPE)
Язык	Преимущественно английский, есть вкрапления других
Загрязнение AI	Отсутствует (гарантированно)
Формат	Parquet + raw text
Лицензия	CC-BY-4.0

2 А что, других чистых датасетов нет?

Есть, конечно. FineWeb, Dolma, The Pile, C4 — все они содержат доинтернетный контент, но проблема в том, что в них просачивается контент после 2020 года. FineWeb, например, отфильтровывает AI-тексты, но не на 100%. А Usenet — это «hard cutoff»: если сообщение написано после 2013 года, его просто нет. Без компромиссов.

💡

Сравнение: The Pile (1.5B токенов) — хорошо, но мало. C4 (175B) — много, но есть мусор. Usenet (103B) — золотая середина: достаточно большой для дообучения, при этом полностью «аналоговый».

Ближайший аналог — Dolma (1.6B документов, ~200B токенов), но он включает данные из Reddit после 2015 года, где уже вовсю мелькают AI-ответы. Usenet же — это, по сути, «аналоговый Reddit» без ботов. Единственное, чего в нём не хватает — картинок и структурированных кодовых репозиториев (GitHub тогда ещё не придумали). Зато сколько дискуссий о C++ и Lisp! Если вы тренируете кодеров, советую заглянуть в статью о реально работающих AI-моделях — там объясняется, почему старые обсуждения «железа» и алгоритмов до сих пор ценнее свежих.

3 Как это можно использовать: простой сценарий fine-tuning

Допустим, у вас есть Llama-3.2-1B, и вы хотите, чтобы она лучше понимала технический сленг 90-х (потому что в продакшне всплывают legacy-код или старые мануалы). Берёте Usenet, фильтруете группы comp.* (компьютерные), sci.* (научные) — и прогоняете через LoRA. Результат: модель начинает генерировать ответы в стиле «man-страниц» из 1995 года. Не верите? Проверьте — с новым корпусом даже 1-битные LLM могут подтянуть качество, если дать им «родные» данные.

Ещё один сценарий — создание бенчмарков. Если вам нужно протестировать модель на ретро-задачах (например, распознавание ссылок на FTP или цитирование RFC), Usenet — неисчерпаемый источник. Никакой утечки тестовых данных, потому что эти вопросы никто никогда не генерировал через нейросеть.

Предупреждение: не пытайтесь учить модель на всём корпусе сразу, если у вас не 100 A100. 103B токенов — это много. Начните с подвыборки: возьмите только 1990-1995 годы, там концентрация технических текстов максимальна.

4 Подводные камни: что нужно знать

Кодировки. Сообщения 80-х могут быть в ASCII, EBCDIC или в древних кодировках вроде KOI8-R. Создатели корпуса почистили основную массу, но встречаются артефакты. Рекомендую перед обучением прогнать через нормализатор Unicode.
Спам. В 2000-х Usenet заполонили рекламные посты. Хорошая новость: они помечены в метаданных, их можно отфильтровать. Плохая новость: если не отфильтровать, модель научится генерировать «Buy Viagra now!».
Тематический перекос. Очень много тем про Unix, математику, научную фантастику и политику. Если вам нужны медицинские или юридические тексты — Usenet не лучший выбор. Там их мало.
Размер. Скачать 350 ГБ через Hugging Face займёт время. Используйте datasets.load_dataset(streaming=True), чтобы не хранить всё локально.

5 Кому это реально нужно?

В первую очередь — исследователям, которые изучают эволюцию языка и технологий. Если вы хотите понять, как менялся дискурс о нейросетях с 1980 по 2013, этот корпус — бесценен.

Во вторую — разработчикам малых моделей. Когда каждый мегабайт данных на счету, а чистота важна как никогда, Usenet даёт 103B токенов без риска повторить «галлюцинации» из генеративных датасетов. Кстати, если вы собираетесь запускать fine-tuning на скромном железе, почитайте как сократить счёт за Cursor в 10 раз — экономия бюджета может пригодиться на аренду GPU.

В третью — создателям ретро-чатботов и симуляторов прошлого. Хотите сделать LLM, которая говорит как системный администратор 1995 года? Берите Usenet и не благодарите.

Лично я уже закинул этот датасет в пайплайн дообучения Qwen3-0.6B для задач с эмбеддингами — результаты обещают быть интересными. Если захотите повторить, держите в уме: чистые данные сейчас дороже любых новых архитектур. А Usenet — это почти единственный крупный источник, где можно быть уверенным, что за вас никто не «думал» до нейросети.

Подписаться на канал

Корпус Usenet 1980–2013: 103B токенов без AI-загрязнения для точной настройки моделей