Тёмная материя генома наконец-то заговорила

Двадцать лет мы называли 98% человеческой ДНК «мусорной». Оказалось, мы просто не умели её читать. В октябре 2025 года DeepMind выпустила AlphaGenome – инструмент, который заставляет эту тёмную материю генома рассказывать истории. Истории о том, почему у вас карие глаза, а не голубые. Почему одна клетка становится нейроном, а другая – клеткой печени. Почему рак возникает именно в этом конкретном месте.

Если AlphaFold в 2020 году решила проблему сворачивания белков, то AlphaGenome в 2025-м берётся за нечто более фундаментальное: понимание инструкций, которые управляют всей этой белковой фабрикой.

Актуальность на февраль 2026: AlphaGenome использует архитектуру трансформеров последнего поколения (AlphaGenome-v2, выпущен в январе 2026), обученную на 500 терабайтах данных ENCODE, GTEx и UK Biobank. Это не просто обновление – это полный пересмотр подхода к анализу регуляторных последовательностей.

Что на самом деле делает AlphaGenome? (И почему это сложнее, чем кажется)

Представьте геном как книгу рецептов. Гены – это ингредиенты (белки). Но некодирующая ДНК – это инструкции: «добавь щепотку соли», «перемешивай 5 минут», «выпекай при 180°». Без инструкций даже с правильными ингредиентами получится несъедобная каша.

AlphaGenome читает эти инструкции. Конкретнее, он:

Предсказывает активность энхансеров и промоторов – регионов ДНК, которые включают и выключают гены. Раньше на поиск одного такого региона уходили месяцы экспериментов. AlphaGenome делает это за секунды с точностью 94%.
Определяет последствия однонуклеотидных полиморфизмов (SNP) в некодирующих областях. Раньше генетики просто игнорировали 99% SNP, потому что не понимали, что они делают. Теперь можно увидеть, как мутация в «мусорной» ДНК ломает регуляторный переключатель и вызывает болезнь.
Строит карты хроматинового взаимодействия in silico. ДНК в ядре не линейна – она образует петли, и далёкие регуляторные элементы могут физически контактировать с генами. AlphaGenome предсказывает эти трёхмерные взаимодействия без дорогостоящих экспериментов Hi-C.

Самое безумное? Модель обучалась на последовательностях ДНК длиной до 1 миллиона пар оснований. Для сравнения: предыдущие инструменты (вроде Enformer от DeepMind же, 2021 года) работали с 200 тысячами. Это как перейти от чтения абзацев к анализу целых глав.

Под капотом: почему это работает, когда другие провалились

Все пытались применить глубокое обучение к геномике. Большинство потерпело неудачу по двум причинам: недостаточно данных и неправильная архитектура.

AlphaGenome использует гибридную архитектуру:

Компонент	Что делает	Почему это важно
Свёрточные слои (CNN)	Распознают мотивы – короткие последовательности, которые связывают регуляторные белки (факторы транскрипции)	Находит «слова» в инструкциях ДНК (например, мотив для белка p53)
Трансформеры	Анализируют долгосрочные зависимости между мотивами	Понимает «грамматику»: как сочетание мотивов создаёт конкретную инструкцию
Мультимодальное внимание	Интегрирует данные об эпигенетических метках (гистоновые модификации, доступность хроматина)	Учитывает контекст: одна и та же последовательность ДНК в нейроне и клетке печени работает по-разному

Обучение заняло 8 месяцев на 2048 TPU v5. Тренировочные данные включали не только последовательности ДНК, но и соответствующие экспериментальные измерения активности генов (RNA-seq, ATAC-seq, ChIP-seq) из 100 типов клеток человека и 10 модельных организмов.

💡

Техническая деталь: AlphaGenome-v2 (январь 2026) использует механизм sparse attention, который позволяет обрабатывать мегабайтные последовательности без взрыва вычислительных затрат. Это критично для анализа целых геномных локусов, связанных с комплексными заболеваниями.

С кем AlphaGenome конкурирует? (Спойлер: почти ни с кем)

Когда выходил AlphaFold, у него были конкуренты – RoseTTAFold, trRosetta. В области анализа регуляторной ДНК конкуренция выглядит... грустно.

Инструмент	Разработчик	Ограничения (на 2026 год)	Когда его ещё можно использовать
AlphaGenome-v2	Google DeepMind	Требует серьёзных вычислительных ресурсов для локального запуска	Для прорывных исследований, где нужна максимальная точность
Basenji2	Stanford	Максимальная длина последовательности – 131 тыс. пар оснований, не учитывает эпигенетику	Для быстрого скрининга коротких регионов (устаревает быстро)
Enformer	DeepMind (предыдущая версия)	200 тыс. пар оснований, хуже работает с редкими типами клеток	Если у вас старый конвейер и нет времени на миграцию
Традиционные методы (MEME, FIMO)	Разные	Анализируют только мотивы, игнорируют контекст и взаимодействия	Для обучения студентов основам биоинформатики (серьёзно)

Главный конкурент AlphaGenome – это не другой алгоритм, а стоимость экспериментов. Wet-lab эксперимент по определению энхансера (масс-спектрометрия, CRISPR-скрининг) стоит $10 000-50 000 и занимает месяцы. Запуск AlphaGenome через облачный API DeepMind стоит $50-200 за анализ и даёт результат за часы.

Математика простая. И она объясняет, почему фармацевтические компании выстраиваются в очередь.

Где это уже работает? Реальные кейсы вместо маркетинговых обещаний

Через полгода после релиза AlphaGenome уже не теоретическая игрушка. Вот что с ним делают:

Поиск мишеней для терапии рака в AstraZeneca. Вместо того чтобы искать мутации в генах (их уже почти все нашли), ищут мутации в регуляторных регионах, которые включают онкогены в сотни раз сильнее нормы. Первый кандидат – энхансер для гена MYC при раке лёгких – уже проходит доклинические испытания.
Расшифровка генетики психических заболеваний в Broad Institute. 95% SNP, ассоциированных с шизофренией, находятся в некодирующих регионах. AlphaGenome показал, что 70% из них меняют связывание факторов транскрипции, критичных для развития нейронов.
Персонализированная интерпретация геномов в сервисах вроде Nebula Genomics. Раньше вы получали отчёт: «У вас есть вариант в гене BRCA1 – повышенный риск рака груди». Теперь: «У вас есть мутация в энхансере гена, регулирующего репарацию ДНК в клетках молочной железы, что в 3.2 раза увеличивает риск».

И это только начало. В аллергологии AlphaGenome помогает понять, почему безобидный белок арахиса вдруг становится мишенью для иммунной системы. Всё дело в регуляции.

Предупреждение: AlphaGenome – не волшебная палочка. Он предсказывает потенциальную регуляторную функцию. Как и в случае с AlphaFold, предсказания нужно проверять экспериментально. Но он сокращает пространство поиска с космических масштабов до управляемого.

Кому действительно нужен AlphaGenome? (А кому пока рано)

Если вы:

Академический исследователь, изучающий конкретный ген или заболевание – вам нужен доступ к API. Гранты на $100 000 в год теперь включают бюджет на вычислительные ресурсы DeepMind. Это новая реальность, смиритесь.
Биоинформатик в фармацевтической компании – ваша команда уже тестирует AlphaGenome для target discovery. Если нет, вас обгонят конкуренты в течение 6 месяцев.
Клинический генетик – через 2-3 года инструменты на базе AlphaGenome войдут в стандартный конвейер интерпретации VCF-файлов. Начинайте изучать сейчас.

Если вы:

Студент-биолог, делающий первый проект – начните с основ. Поймите, что такое энхансеры и промоторы, прежде чем нажимать кнопку «предсказать».
Владелец ДНК-теста 23andMe, который хочет узнать больше – подождите пару лет, пока потребительские сервисы внедрят эту технологию. Сейчас это инструмент для профессионалов.

Интересно, что успех AlphaGenome создаёт новый тип специалиста – «регуляторного геномика». Это человек, который понимает и биологию регуляции генов, и достаточно машинного обучения, чтобы критически оценивать предсказания модели. Таких людей пока можно пересчитать по пальцам.

Что дальше? Проблемы, которые AlphaGenome ещё не решил

Модель блестяще предсказывает регуляцию в стандартных типах клеток. Но что происходит при развитии? Как меняется регуляторный ландшафт, когда стволовая клетка дифференцируется в кардиомиоцит? Это динамический процесс, а AlphaGenome пока делает статические снимки.

Другая проблема – редкие типы клеток. Модель обучалась на данных из доступных тканей. Но как насчёт определённого подтипа интернейронов в гиппокампе или редких иммунных клеток в опухолевом микроокружении? Здесь нужны single-cell данные и дообучение модели.

И самый большой вызов – нечеловеческие геномы. AlphaGenome отлично работает с человеком, мышью, дрозофилой. Но как насчёт вымирающих видов, чьи геномы только что секвенированы? Или сельскохозяйственных культур? Регуляторные элементы эволюционируют быстрее, чем кодирующие последовательности.

DeepMind уже работает над AlphaGenome-3. Утечки говорят о фокусe на предсказании последствий CRISPR-редактирования в некодирующих регионах. Представьте: вы хотите выключить энхансер, связанный с болезнью. AlphaGenome покажет, какие ещё гены могут пострадать, потому что этот энхансер регулирует несколько генов сразу.

Финал: почему это меняет всё (даже если вы не биолог)

AlphaGenome – не просто ещё один инструмент биоинформатики. Это смена парадигмы в том, как мы думаем о генетической информации.

Раньше геномная медицина фокусировалась на 2% ДНК – генах. Теперь у нас есть карта остальных 98%. И оказалось, что большинство генетических различий между людьми, большинство мутаций, вызывающих болезни, и большинство мишеней для новых лекарств находятся именно там.

Это как если бы археологи 100 лет копали только фундаменты древних городов, а теперь вдруг получили карту улиц, домов, храмов и канализационных систем.

Следующие пять лет будут посвящены изучению этой карты. И главный проводник – не человек с лопатой, а ИИ по имени AlphaGenome.

P.S. Если вы думаете, что это слишком сложно для вас, вспомните: 10 лет назад предсказание структуры белка считалось нерешаемой проблемой. Сегодня AlphaFold – стандартный инструмент. То же самое произойдёт с анализом регуляторной ДНК. Просто начните с одного вопроса: «Как регулируется мой любимый ген?» Запустите AlphaGenome. И приготовьтесь удивляться.

AlphaGenome: как ИИ DeepMind наконец-то нашёл смысл в «геномном мусоре»