Генеалогическое древо всего человечества содержит 27 миллионов наших предков

На модерации Отложенный

Самое большое генеалогическое древо из когда-либо созданных описывает всю историю человечества и позволяет проследить историю нашего вида. В его основу легло несколько тысяч последовательностей генома человека.

На сегодняшний день созданы сотни тысяч геномов современного человека и тысячи геномов древнего человека. Однако разные методы и качество данных затрудняют их сравнение. Кроме того, каждый человеческий геном содержит сегменты предков разного возраста. Ученые из University of Oxford’s Big Data Institute применили метод древовидной записи к геномам древних и современных людей, чтобы создать объединенное генеалогическое древо человечества. Этот метод учитывает отсутствующие и ошибочные данные и использует древние геномы для калибровки времени их слияния. Это позволяет определить, как геномы изменились с течением времени и между популяциями, а также дает подробную картину эволюции нашего вида.

Наборы геномных данных, как правило, весьма неоднородны. Образцы из разных времен, географических мест и популяций обрабатываются, секвенируются и анализируются с использованием различных методов. Результирующие наборы данных содержат подлинные вариации, но также и сложные модели пропусков и ошибок. Это затрудняет объединение данных и препятствует усилиям по созданию наиболее полной картины геномной изменчивости человека.

 

 

Распространение человеческих популяций согласно новому генеалогическому древу. Изображение: Wohns et al./Science, 2022

 

Чтобы решить эти проблемы, авторы исследования, вышедшего в Science, использовали основополагающее представление о том, что наследственные отношения всех людей, которые когда-либо жили, могут быть описаны единой генеалогией.

В своей работе они представили статистические и вычислительные методы для вывода единой генеалогии современных и древних образцов. Также ученые их проверили с использованием компьютерного моделирования и анализа эмпирических данных, выделив точки различий и совпадений. Потом на основе этого исследователи провели теоретические линии происхождения между геномами и получили представление о том, какие генные варианты (или аллели), вероятно, были у общих предков этих людей.

Кроме того, что ученые смогли отобразить эти генеалогические отношения, они еще и попытались выяснить, где именно в мире жили общие предки секвенированных людей.

Местоположение оценивалось на основе возраста отобранных геномов и места, где был отобран каждый геном. Хотя, конечно, эта оценка может быть очень приблизительной.

 

 

Каждая линия отражает отношения предков и потомков. Ширина линии соответствует тому, сколько раз отношения наблюдались в данных. Цвет линий меняется в зависимости от предполагаемого возраста предков. Изображение: Wohns et al./ Science, 2022

 

Чтобы построить единое генеалогическое древо, исследователи сначала собрали воедино геномные данные из нескольких крупных наборов данных разных проектов. Они включали 3601 высококачественную последовательность генома современных людей, и 8 — древних, в числе которых есть геномы неандертальца и денисовца.

В результате генеалогическая структура представляет собой анализ 27 миллионов фрагментов гаплотипов предков и 231 миллиона родословных, связывающих геномы из этих наборов данных. Также ученые использовали  дополнительные 3589 древних образцов более низкого качества для ограничения и датирования взаимосвязей.

Древо, созданное в исследовании, показывает довольно много информации о генеалогии всего человечества. В целом, авторы работы реконструировали человеческую историю максимально точно с учетом имеющихся данных. Однако с большим количеством образцов генома и более сложным программным обеспечением генеалогическое древо могло бы быть еще точнее.

Здесь важно, что в процессе работы были созданы методы, главное преимущество которых — в их потенциальной возможности работать даже с миллионами образцов. Чем больше данных, тем точнее будет результат.

Сейчас члены команды работают над созданием новых алгоритмов машинного обучения, чтобы получить более точные данные о том, где и когда жили наши предки. Теоретически, тот же метод построения древа поможет лучше понять генетические основы болезней человека: можно определить точку происхождения аллелей, связанных с болезнью, а затем реконструировать, как и когда эти варианты генов распространяются в разных популяциях. И, наконец, метод можно использовать для отслеживания истории эволюции других организмов, таких как пчелы или крупный рогатый скот, и даже вирусов.