15 мая, 2018

FANTOM. Молекулярный зоопарк

О том, как молекулярные биологи и биоинформатики пытаются прочитать длинное и очень сложное «руководство пользователя» к геному, мы беседуем с членом-корреспондентом РАН, доктором физ.-мат. наук, зав. лабораторией системной биологии и вычислительной генетики ИОГен РАН Всеволодом Макеевым. Возглавляемая им биоинформатическая группа участвует в проекте FANTOM.

Всеволод Макеев. Фотография из личного архива.

Беседовала Надежда Маркина

Мегапроект FANTOM — уже сейчас свершение выдающееся. Японский центр RIKEN много лет изучает, как работают гены в различных тканях. В проект вовлечены ученые десятков стран. В конце лета коллаборация отчиталась первым полным атласом микроРНК. Это этап FANTOM5. А сейчас уже идет фантастический FANTOM6. Никто не знает, что человечество выудит из полного описания работы генов. Но задача ставится именно такая: понять, как работает программа генома целиком.

Всеволод, что же это за Фантом, за которым уже несколько лет гоняются молекулярные биологи с помощью биоинформатиков? Почему FANTOM5?

FANTOM расшифровывается как Functional Annotation, а «m» означает млекопитающее. То есть, функциональная аннотация [генома] млекопитающих. Изначально «m» это была мышь, но где-то на 4–5 стадии проекта начали подключать другие виды, и в первую очередь появился человек. Была идея добавить и свинью, но до свиньи дело не дошло. Так что сейчас в проекте два рабочих вида — человек и мышь. FANTOM5 означает пятую стадию. Кстати, сейчас уже идет FANTOM6.

В чем суть проекта?

После успешного завершения проекта «Геном человека» стало понятно, в каких местах в геноме закодированы белки. Но инструкции «как делать белки» составляют меньше 2% всего генома. Следующий этап — разобраться с устройством некодирующей части генома, тех участков, где закодированы не белки, а, возможно, что-то другое. Эти участки определяют, почему в разных клеточных типах, в разных тканях, активны разные гены. А из-за того, что разные гены активны в разных типах клеток, клетки печени, например, не похожи на клетки мозга и т.д.

Но эта задача ставилась и в более раннем проекте ENCODE. По выражению его руководителей, геном прочитан, осталось прочитать «руководство пользователя» к нему — «мануал», чтобы понять, как он работает. В чем разница между этими проектами?

В проекте ENCODE была более широкая задача — некодирующие области генома изучали самыми разными методами. В основном задачу решали на клеточных линиях — измененных клетках, подобных раковым, которые могут бесконечно размножаться, с такими клетками проще работать. Нормальных клеточных типов было очень мало. Задача проекта FANTOM более узкая: найти точки в геноме, с которых начинается «чтение», так называемые промоторы. Технология появилась в 2003 году в японском исследовательском центре RIKEN, в Йокогаме. Ее авторы — Йошихиде Хаясизаки (Yoshihide Hayasizaki ) и итальянец Пьеро Карнинчи (Piero Carninci), который довольно давно работает в Японии. Эта технология позволяет в разных типах клеток наблюдать за активностью промоторов — стартовых площадок для начала синтеза РНК, причем не только той РНК, которая делает белки, но всех возможных типов РНК. И когда японцы поняли, что у них есть такая замечательная технология, они ее расширили на большой проект. Привлекли исследователей из разных стран — сейчас в Йокогаме работает очень много европейцев, многие уже с японскими женами, с японскими детьми. В общем, такой интернациональный коллектив.

Каковы конкретные задачи проекта?

Для начала сделать каталог активности генов в разных клетках. У человека где-то 20 тысяч генов, которые кодируют белки, ну может быть, 18 тысяч. Но промоторов, то есть участков, с которых начинается синтез РНК, транскрипция, раз в десять больше, где-то в районе 180 тысяч. В среднем у каждого гена несколько промоторов: они обеспечивают альтернативные старты транскрипции (то есть ее начало в разных точках), и эти альтернативные старты обычно служат признаками характерных тканей. Например, существует белок HNF4 — важный фактор дифференцировки клеток печени. У гена HNF4 есть два промотора: один работает в эмбриональной печени (и в некоторых других тканях), другой — во взрослой печени. И когда развивается рак печени, то вначале включается «детский» промотор, а потом уже все ломается, и он перестает работать совсем.

В разных тканях работают разные промоторы?

В разных тканях работают разные гены, в результате чего производятся разные типы белков. А для одних и тех же генов часто работают разные промоторы, в результате чего производятся слегка (или не слегка) измененные белки. А кроме этого есть еще большое количество промоторов так называемых некодирующих РНК.

Когда начался проект FANTOM и каковы были его этапы?

Собственно FANTOM начался с 2001 года. При этом группа Хаясизаки работала над созданием энциклопедии всех генов мыши с 1995 года. Проект FANTOM проходил через различные этапы. На этапе FANTOM3 его участники определили местоположение промоторов всех матричных РНК и аккуратно подтвердили существование некодирующих РНК. На этапе FANTOM4 они взяли клетки одной ткани и посмотрели все промоторы, которые есть в геноме. На пятом — взяли большое количество разных тканей и сравнили активность промоторов в клетках разных типов, уже, в основном, клеток человека, а не мыши.

Один из основных результатов проекта — это подтверждение существования длинных некодирующих РНК. Отдельные примеры таких РНК были давно известны как некий казус, потом в 2002 году появились данные, что это массовое явление, но люди достаточно долго в это не очень верили. В проекте FANTOM3 было убедительно показано, что существуют тысячи типов длинных некодирующих РНК длиной в десятки тысяч пар оснований. Они выполняют самые разнообразные функции, при том, что не кодируют никаких белков. Их изучение стало основной задачей идущего сейчас этапа — FANTOM6, в котором мы тоже участвуем. Оказалось, кстати, что знание стартов транскрипции позволяет решать самые неожиданные задачи. Например, есть участки в геноме, которые регулируют работу генов, но расположены от самих генов на большом расстоянии — так называемые энхансеры. В проекте FANTOM5 удалось определить большое количество таких энхансеров, причем показать, в каких типах клеток эти энхансеры активны, то есть участвуют в регуляции. В разных типах клеток активны энхансеры, расположенные в разных местах.

А некодирующие РНК участвуют в регуляции работы генов?

Они делают самые разные вещи. Многие из них, например, микроРНК, регулируют трансляцию — производство белков с матричных РНК. В основном, блокируют, прикрепляясь к некодирующей области матричной РНК и привлекая ферменты, которые ее разрушают. Но микроРНК синтезируются в виде предшественников, а они как раз и относятся к длинным некодирующим РНК. Сами микроРНК маленькие — несколько десятков «букв» длиной, а их предшественники — огромные молекулы по 20, по 30 тысяч нуклеотидов. Есть длинные некодируюшие РНК, которые усиливают трансляцию — энхансеры трансляции. Это в перспективе может быть очень коммерчески выгодно как способ увеличить выход белка в биотехнологическом производстве (а сейчас довольно много лекарств производится в эукариотических клетках). Но вообще, про очень небольшое количество длинных некодирующих РНК известно, что они делают.

Кроме того, существует большое количество промоторов, с помощью которых синтезируется неизвестно что. Существует очень много участков, с которых идет транскрипция, а зачем — никто не знает. Иногда синтезированная РНК сразу разрушается. Эта картина транскрипции очень сильно зависит от клеточного типа: в мозгу она одна, в печени другая и т.д.

Робот RIKEN.jpg Одно из больших достижений проекта FANTOM — то, что удается в одном и том же месте, на одном и том же оборудовании, одними и теми же руками делать всю молекулярную биологию. При этом почти исключаются системные ошибки, которые неизбежно возникают, если с одними образцами работают в разных местах. В RIKEN фантастическое молекулярно-биологическое оборудование, которое производит потрясающее впечатление: роботы, которые подготавливают биологический материал, установки ЯМР для анализа структур белков, к которым с потолка тянутся трубы с жидким гелием… Это огромная индустрия получения биологических данных. Но для их интерпретации понадобились биоинформатики.

Как ваша группа подключилась к проекту и какую конкретную задачу вы в нем решали?

Это было инициировано с японской стороны. В ходе работы по проекту у них стали накапливаться такие большие объемы данных, что они не были в состоянии проанализировать их самостоятельно. Они повесили на сайт приглашение для всех, кто хочет поработать с их данными и решить какие-то задачи, с условием не публиковаться до выхода главной статьи. Мы откликнулись на это предложение, потому что уже лет 20 занимаемся исследованием регуляции переключения генов.

Результаты FANTOM5 были опубликованы в 2014, если не ошибаюсь, когда одновременно вышло несколько статей в Nature и других журналах?

Да, но поскольку этап формально еще не кончен, то данные по нему продолжают публиковаться, сейчас статей уже около 50.

Можете резюмировать научный итог FANTOM5?

Создан полный атлас транскрипции для почти 200 типов клеток. Закартированы все предшественники микроРНК. Открыто огромное количество длинных некодирующих РНК. Все эти ресурсы лежат в интернете, они доступны мировому сообществу.

Какие же задачи решает FANTOM6?

Основная — исследовать длинные некодирующие РНК. Для некоторого количества их функция уже известна, например, предшественниками микроРНК служат примерно 10% длинных некодирующих РНК. Но остальные 90% — это невероятный молекулярный зоопарк — они делают самые разные вещи, и совершенно непонятно, что среди них можно еще найти. Сейчас исследователи пытаются сделать атлас, показывающий, в каких клетках какие длинные некодирующие РНК синтезируются, и предположить, что они могут делать.

Всеволод, расскажите про другой международный проект, соревнование, в котором вы участвовали и на первом этапе заняли первое место, ENCODE-DREAM.

У этого проекта другая направленность. FANTOM — это в первую очередь экспериментальный проект, а ENCODE-DREAM — чисто теоретический. Он был объявлен в форме соревнования между группами биоинформатиков. Такие соревнования организует команда DREAM (Dialogue on Reverse Engineering Assessment and Methods). От ENCODE поступает некий ограниченный набор данных для нескольких клеточных линий. С этим набором данных участникам надо научиться предсказывать, в каких местах генома в неизвестной клеточной линии будут связываться регуляторные белки. Нужно обучить этому машину. У ENCODE был результат эксперимента, который они не публиковали, дожидаясь ответов от участников. Это все происходило в два тура.

И в первом туре вы победили?

Да, мы показали лучший результат среди 30 с лишним команд.

А расскажите о роли Чебурашки в вашей победе. Он красуется с вами на фотографии как член команды.

Фото команды ENCODE-Dream.jpg Чебурашкой мы называли первую программу-предсказалку, которая очень грубо, но верно, предсказывает некоторое количество мест связывания белка. Мы так у себя называем программы, которые пишутся «на коленке». А потом результаты предсказаний Чебурашки использовались для обучения уже большой и сложной предсказательной программы. Чебурашка остался нашим талисманом. Когда мы пытались объяснить зарубежным коллегам, кто это такой, появилось определение «советский покемон». И сразу стало понятно.

Что было дальше?

Был второй тур, в котором победила американка китайского происхождения, а мы разделили 4 и 5 места. Но мы продолжаем дорабатывать свою программу, пытаемся превратить ее в полностью автоматизированную систему.

Каково значение этой работы, сначала — для фундаментальной науки? В научных кругах несколько лет назад ходила байка, что Господь, создавая жизнь, действовал как настоящий программист — сама программа гораздо меньше, чем комментарии к ней. Приближает ли нас, скажем, проект FANTOM, к прочтению комментариев? То есть, к настоящей расшифровке генома (потому что секвенирование — это прочтение манускрипта, но не расшифровка)?

Ну, на мой взгляд, пока очень трудно сказать, что в биологии является программой, что — данными, и что — комментарием. В каком-то смысле, участки ДНК, кодирующие белки, — это скорее аналог данных, с которыми работает программа. Система их читает и как-то использует. В этом же смысле регуляторные участки, которыми мы занимаемся, — это как раз «программа», то есть описание правил, по которым в ответ на какие-то входные данные (например, наличие в клетке белка определенного типа) принимаются какие-то решения (например, какую РНК производить). Комментарии — это в человеческом программировании. Послания от одного программиста другому, они игнорируются компьютером, который выполняет программу. Есть ли такие комментарии в геноме? И кто может быть автор или адресат таких посланий? Я не знаю таких примеров, и я не знаю, как придумать исследование, которое ответит на этот вопрос без непосредственного взаимодействия с автором или адресатом этих комментариев. Но и само изучение программы, по которой реализуется наследственная информация, является головокружительным, как раньше говорили «дерзанием разума». Раньше исследователи могли понять только маленькие элементы этой программы — что нужно изменить в регуляторной ДНК, чтобы включить или выключить один ген, или несколько генов. В результате родилась генетическая инженерия, событие, имевшее большие последствия для самых разных аспектов человеческого существования. Сейчас исследование впервые подходит к пониманию всей программы целиком, и на нынешней стадии трудно представить, какие тут могут быть последствия.

Ну и, конечно, следующий вопрос, какое значение это может иметь для медицины?

Попытка понять, как организм устроен, важна для фундаментальной медицины, чтобы придумать новые типы воздействия на организм и лучше предсказать последствия этих воздействий. Например, это важно для разработки лекарств. Сейчас многие с интересом смотрят на микроРНК как на потенциальные лекарственные агенты или мишени для действия лекарств. Можно подобрать микроРНК, которые будут блокировать размножение вирусов и таким образом бороться с инфекциями. Полезно знать, в каких группах клеток какие микроРНК могут быть, и что нужно, чтобы эти микроРНК возникли естественным путем, не будучи туда привнесены в процессе терапии.

А, например, когда в геномном исследовании ассоциаций (GWAS) находят участки, ассоциированные с заболеваниями, в некодирующей области генома?

Да, это тоже очень важно. Если есть какие-то ассоциации с заболеванием, которые находятся в регуляторной области гена, а вы знаете, что в каком-то клеточном типе этот ген всегда неактивен, то видимо, болезнь не будет связана с этим типом клеток. А, скажем, если этот ген активен в клетках костной ткани, или включается в этих клетках в определенных условиях, то болезнь надо искать там. Есть очень странные синдромы, связанные с очень небольшим количеством специальных клеток. Например, есть эпителиальные клетки, снабженные ресничками, которые выводят пыль из дыхательных путей, и если нарушена работа одного гена, то они работают неправильно. Человек, который понял, как там все устроено, работал с микроскопическими животными, которым реснички нужны для движения, удивительно, что у них действует аналогичный ген, так что на этой модели удалось разобраться с патологией эпителиальных клеток. То есть, если вы знаете, что ген, поломка которого вызывает заболевание, работает в конкретном типе клеток, то знание, как именно этот тип клеток устроен, может помочь в поиске механизма возникновения болезни.

Что вы скажете про нишу российских ученых в мировой науке. Очевидно, что наши биоинформатики вполне конкурентноспособны. А ученые в других областях науки? Например, там, где необходимо сложное оборудование?

Ну, любое оборудование сейчас можно купить, если есть деньги. Скорее, проблема России в том, что российские ученые чисто географически удалены от других центров научной жизни. В Европе гораздо проще и ближе поехать на какой-нибудь семинар в другую европейскую страну, а общение ученых между собой очень стимулирует. А так, я бы не сказал, что есть какая-то принципиальная разница. И я бы не выделял биоинформатиков. Они имели некое преимущество, когда было сложно с экспериментальным оборудованием, просто потому что им меньше нужно, а компьютеры были дешевые. Но биоинформатики нуждаются в источниках данных и в том, чтобы их данные экспериментально проверяли.

Довольно много хороших работ в области биологии в последнее время сделано в России. Вот очень красивая работа по общей биологии, сделанная в НИИ физико-химической биологии МГУ: есть такая зверюшка, интошия, очень на вид примитивная, предполагали, что это предок многоклеточных. Intoshia linei.jpg Но вот его секвенировали, и оказалось, что это родственник моллюсков — довольно высокоорганизованное существо, у него есть гены, необходимые для построения мышц и нервной системы, просто он упростился в своей эволюции. Это открытие пойдет в учебники. У нас была сделана хорошая совместная работа по изучению генетических вариантов в регуляторных областях. Мы биоинформатически предсказали связь одного из генетических вариантов с разными аутоиммуннными заболеваниями, причем предсказали не очень надежно, руководствуясь достаточно неопределенным предположением, как могут выглядеть кандидатные участки. А потом наши коллеги в Институте молекулярной биологии РАН это подтвердили — сделали очень тонкую молекулярно-биологическую работу, без всяких зарубежных соавторов. Так что в России можно и нужно делать хорошие фундаментальные работы.

Другое дело, что на Западе таких работ больше, и групп сильных больше. Там наука существенно масштабнее. И есть синергические процессы — заводятся какие-то стартапы, пытаются проводить исследования, служащие для целей индустрии или фармацевтики, привлекают финансирование из индустрии. Существует инфраструктура, финансовая, юридическая, обеспечивающая такое взаимодействие. Чтобы ученые не боялись, что они ничего не получат, делясь своими знаниями и умениями, а капиталисты не боялись, что они ничего не получат, делясь своими деньгами. Скорее, в этом проблема. А ученые у нас хорошие.