Публикация AiManual

Локальная суммаризация arXiv с Ollama и Gemma 4: полный пайплайн от установки до Cloudflare DB

Пошаговый гайд: как собрать пайплайн для суммаризации arXiv статей на локальной LLM (Ollama + Gemma 4) и сохранить результаты в Cloudflare D1. Примеры кода, про

8 мин чтения 08.06.2026

Коротко

Что будет в материале

01
Глухая стена исследователя: 300 новых статей в день и одна надежда
02
Что мы строим? (и зачем нам Cloudflare, если всё локально)
03
Шаг 1. Ставим Ollama и забираем Gemma 4
04
Шаг 2. Векторизация статей с nomic-embed-text

Глухая стена исследователя: 300 новых статей в день и одна надежда

Каждое утро на arXiv вываливается тонна препринтов. ML, NLP, computer vision — ты не успеваешь читать даже заголовки. Платить за Semantic Scholar API? Скучно. Использовать ChatGPT? Он либо врёт, либо ссылается на несуществующие работы. Решение, которое не требует интернета, не сливает твои данные в облако и работает на твоём железе — локальный пайплайн на Ollama и Gemma 4. Добавляем к этому nomic-embed-text для векторизации и Cloudflare D1 как базу с семантическим поиском. Получается система, которая за вечер перелопатит недельный архив arXiv и выдаст тебе выжимку. Без цензуры, без лимитов, без ежемесячной подписки.

Дисклеймер: всё тестировалось на Ubuntu 24.04 с NVIDIA RTX 4090 (24 ГБ VRAM). На меньшем железе придётся использовать 4-битные квантованные версии Gemma 4. Но даже 8 ГБ хватит для Instruct-модели в Q4_K_M.

Что мы строим? (и зачем нам Cloudflare, если всё локально)

Идея проста: парсим свежие статьи с arXiv, скармливаем их Gemma 4, получаем саммари на русском (или английском — кому как удобнее), сохраняем полученные саммари вместе с эмбеддингами в векторную базу. Потом можно искать по ним семантически: "покажи все статьи про LoRA в LLM за последнюю неделю". Базу решено хранить не на локальной SQLite, а в Cloudflare D1 — дешево, доступно из любого места, не требует поднимать свой сервер.

💡

Cloudflare Workers и D1 — идеальная пара для такого кейса: Workers запускается по HTTP-запросу, D1 хранит данные, а ты не платишь за idle. Идеально для еженедельного запуска по cron.

Шаг 1. Ставим Ollama и забираем Gemma 4

Если у тебя ещё нет Ollama — беги ставить. В 2026 году это стандарт де-факто: одна команда, и модель уже на твоём диске. Сравнение с альтернативами — в отдельной статье, но кратко: Ollama выигрывает простотой установки и управления моделями, хотя по сырой производительности llama.cpp может быть чуть быстрее на одинаковом квантовании.

# Установка Ollama (если ещё нет)
curl -fsSL https://ollama.com/install.sh | sh

# Скачиваем Gemma 4 Instruct (последняя версия на июнь 2026 — Gemma 4 27B)
ollama pull gemma4:27b-instruct-q4_K_M

# Проверяем, что модель работает
ollama run gemma4:27b-instruct-q4_K_M -- 'Привет, сократи текст: ...'

Здесь мы берем 4-битное квантование — баланс между качеством и потреблением памяти. Полная 27B весит ~54 ГБ, а Q4_K_M укладывается в 18 ГБ VRAM. Если у тебя карта на 12 ГБ — бери 9B-версию.

Шаг 2. Векторизация статей с nomic-embed-text

Чтобы потом делать семантический поиск по саммари, нужны эмбеддинги. nomic-embed-text — одна из лучших локальных моделей для текстовой векторизации. Ставится аналогично через Ollama:

ollama pull nomic-embed-text
# Версия на июнь 2026 — v1.5 (8192 токена контекста, 768 размерность)

Важно: nomic-embed-text лучше работает с английским текстом. Если будешь векторизовать русские саммари — качество может упасть. В таком случае рассмотри multilingual-e5-large. Но для arXiv это не критично.

Шаг 3. Скрипт суммаризации на Python

Основной «движок» пайплайна. Я написал небольшой скрипт, который забирает последние 100 статей из заданной категории (например, cs.CL), для каждой генерирует саммари через Ollama, затем получает эмбеддинг и отправляет всё в Cloudflare D1 через Workers API.

1 Парсинг arXiv

Используем стандартный arxiv API. Без лишних зависимостей.

2 Промпт для Gemma 4

Тут ключевой момент. Нельзя просто скормить полный текст — модель уйдёт в «реферат». Нужен конкретный промпт, который заставит её выделять главное и писать на русском (если нужно). Вот рабочий вариант:

prompt = f"""Ты — научный ассистент. Напиши краткое саммари (3-5 предложений) следующей статьи с arXiv. Выдели основную идею, метод и результат. Язык — русский.

Заголовок: {title}
Авторы: {authors}

Текст:
{abstract[:4096]}  # обрезаем до 4096 токенов

Саммари:"""

response = ollama.chat(model='gemma4:27b-instruct-q4_K_M', messages=[{'role': 'user', 'content': prompt}])

Почему обрезаем до 4096? Потому что Gemma 4 поддерживает 128K контекста, но на суммаризации коротких абстрактов этого хватает, а время генерации резко падает.

3 Получение эмбеддинга

import ollama

emb = ollama.embeddings(model='nomic-embed-text', prompt=summary)['embedding']
# emb — список float длиной 768

4 Сохранение в Cloudflare D1

Тут используем Workers API. Создаём ферму в Cloudflare Dashboard (D1 database), получаем токен. Пишем простой endpoint, который принимает JSON с id, title, summary, embedding, url и записывает в таблицу.

// Cloudflare Worker
addEventListener('fetch', event => {
  event.respondWith(handleRequest(event.request))
})

async function handleRequest(request) {
  const { id, title, summary, embedding, url } = await request.json()
  const vector = `[${embedding.join(',')}]`  // для D1 храним как TEXT
  
  await DB.prepare(
    'INSERT INTO papers (id, title, summary, embedding, url) VALUES (?, ?, ?, ?, ?)'
  ).bind(id, title, summary, vector, url).run()
  
  return new Response('OK', { status: 200 })
}

Совет: чтобы не перегружать D1 при каждой вставке, собирай батч по 50 статей и отправляй одним запросом. Workers имеет лимит 100 запросов в секунду, а D1 — до 1000 операций записи в секунду. За глаза хватит.

Шаг 4. Семантический поиск (опционально, но чертовски полезно)

Когда база наполнилась, можно написать второго Worker'а, который принимает текстовый запрос, векторизует его той же nomic-embed-text (через Ollama) и ищет ближайшие по косинусной близости эмбеддинги. В D1 нет встроенного векторного индекса, поэтому для поиска придётся либо загрузить все векторы и посчитать косинусное сходство в Worker'е (если статей меньше 10 000), либо использовать Cloudflare Vectorize (отдельный продукт). Vectorize — это managed векторная база от Cloudflare, доступна с середины 2025. На июнь 2026 она уже стабильна. Рекомендую переложить векторный поиск туда, а D1 оставить для метаданных.

Сравнение с альтернативами: почему не Semantic Scholar или GPT-4 API?

Коротко: приватность, цена, контроль. Сравнение локальных моделей и облачных API в 2026 году — отдельная история, но если коротко: при объеме 500 статей в неделю API обойдётся в $50–100 (входные токены + выходные), а локальный пайплайн — только электричество и амортизация GPU. Плюс ты не светишь свою область интересов перед корпорациями. Подробный разбор — в статье API vs локальные модели в 2026: почему железо всё ещё выгодно после ценового обвала.

Из альтернатив внутри локального мира: GPT4All — проще, но меньше моделей; llama.cpp — мощнее, но требует скиллов. Мы выбрали Ollama как компромисс. Подробнее — в гиде Ollama vs другие: полный гид по запуску LLM офлайн на своем ПК.

Типичные грабли и как на них не наступить

Ollama не видит GPU? Проверь, что установлены NVIDIA Container Toolkit и драйверы. Без GPU Gemma 4 на CPU будет генерировать одно саммари 2–3 минуты.
Cloudflare D1 не принимает вектор? D1 не умеет хранить float массивы. Мы храним эмбеддинг как строку JSON. При поиске парсим. Если станет больше 1000 записей — переезжай на Vectorize.
arXiv блокирует частые запросы? Не чаще 1 запроса в 3 секунды. Большинство статей имеют одинаковые поля, кэшируй повторяющиеся.
Gemma 4 галлюцинирует факты? Да, если контекст мал. Всегда указывай в промпте «только на основе предоставленного текста», и не доверяй цифрам без перепроверки.

Кому этот пайплайн реально нужен?

Исследователям, которые следят за конкретной областью (NLP, CV, RL). Аспирантам, пишущим обзор литературы. Разработчикам, которые собирают корпус статей для RAG. Менеджерам, которым нужно быстро понять тренды, не вникая в детали. Если ты просыпаешься с мыслью «а что нового по LoRA?» — это твой инструмент.

Не рекомендую тем, кто читает 2–3 статьи в неделю. Проще открыть браузер. Но если твой RSS-ридер захлебывается от уведомлений — бери Ollama, ставь Gemma 4, настраивай Cloudflare и забудь про рутину.

Кстати, если захочешь защитить свой пайплайн от утечек модели или данных — прочитай когда ваш ИИ становится утечкой: полный гайд по защите локальных LLM. Там описаны практики, которые спасут от случайной отправки корпоративных данных наружу.

Как НЕ надо делать

Типичная ошибка новичка — скормить модели сразу 50 статей и ждать чуда. Ollama не умеет батчиться из коробки, каждая генерация последовательна. Если запустить цикл for по 100 статьям, ты будешь ждать час. Правильно: использовать многопоточность (например, 4 воркера) или очередь через Redis. Но для первой версии хватит и последовательного подхода, пока ты пьёшь кофе.

Ещё одна ошибка — не фильтровать дубликаты статей. arXiv часто выкладывает обновлённые версии (v2, v3). Добавь проверку по arXiv ID и храни в D1 поле version.

Итоговый совет: начни с малого

Не пытайся объять необъятное. Скачай Ollama, поставь Gemma 4 9B, напиши скрипт для одной категории (cs.LG), сохрани 20 саммари в D1. Убедись, что тебе это удобно. Потом расширяй до 5 категорий, добавляй семантический поиск, подключай Vectorize. Через месяц ты удивишься, как жил без этого.

И помни: локальный ИИ — это не про скорость, это про свободу. Ты не зависишь от API, не платишь за токены, не боишься, что модель изменится. Как писалось в статье локальный ИИ за бетонной стеной — свои данные, свои модели, свои правила.

Подписаться на канал