Компьютерная эволюционная биология

Содержание

Слайд 2

Понятие координированных замен аминокислотных остатков Иссле­дование наборов гомологичных последовательностей изофункциональных белков

Понятие координированных замен аминокислотных остатков

Иссле­дование наборов гомологичных последовательностей изофункциональных белков является

одним из важнейших методов анализа в молеку­лярной биологии. Предполагается, что в ходе эволюции функция и пространственная структура белков остаются практически постоянными. Это означает, что физико-химические характерис­тики белка, обусловливающие специфическую укладку полипептидной цепи и функциональные особенности белка, в ходе эволюции также дол­жны поддерживаться на постоянном уровне.
Согласно существующим представлениям, возможны три механиз­ма консервативности таких характеристик. Пер­вый механизм обусловлен инвариантностью функционально важных по­зиций белка. Это означает, что любые мутации в них приводят к нару­шению функции белка. Второй механизм обусловлен консервативными заменами амино­кислот в позициях белка. Эти замены происходят таким образом, что физико-химические свойства остатка существенно не меняются. Со­гласно третьему механизму, дополнительный вклад в консервативность могут вносить координированные замены аминокислотных остатков. Это замены в парах или группах позиций белка, которые фиксируются зависимым образом. В последнее время методы выявления и анализа подобных замен интенсивно развиваются. Информация, полученная в ходе анализа парных координированных за­мен, позволяет получать важные данные о структуре и функции белка, предсказывать взаимные контакты остатков и улучшать распознавание типов укладки полипептидных цепей.
Слайд 3

Обзор подходов к анализу координированных замен Под координированными заменами аминокислот понимаются

Обзор подходов к анализу координированных замен

Под координированными заменами аминокислот понимаются за­

мены двух или нескольких аминокислотных остатков в позициях белко­вой последовательности, которые в ходе эволюции фиксируются зави­симым образом. Это означает, что вероятности фиксации различных ти­пов аминокислот в позиции белка i зависят от типа аминокислотного остатка в позиции белка j. Предполагается, что данный режим эволюции пары позиций белка реализуется в случае, если остатки в этих позициях взаимодействуют прямым или опосредованным образом. В качестве примера таких взаимодействий обычно рассматривают стерический контакт остатков.
О заменах остатков, компенсаторных по отношению
к их суммарному объе­му, говорят,
если повреждающий эффект от замены остатка
в одной по­зиции белка может быть скомпенсирован
заменой в другой позиции пос­ледовательности,
так что общий эффект двух замен оказывается
нейт­ральным. Примером замен, компенсаторных
по отношению к суммарному заряду, могут служить замены
остатков, фор­мирующие солевой мостик.
Слайд 4

Экспериментальные свидетельства кооперативного эффекта замен остатков Тот факт, что стабильность или

Экспериментальные свидетельства кооперативного эффекта замен остатков

Тот факт, что стабильность или активность

белка зависит от со­вместного набора аминокислот в паре (или группе) позиций, может про­являться в экспериментах по измерению стабильности (активности) белка как неаддитивность эффекта нескольких аминокислотных замен. В частности, если при проведении двойных замен в белковой последовательности об­наружится, что изменение стабильности белка не равно суммарному изменению стабильности, полученному в результате каждой из этих за­мен, то это означает, что между остатками существуют взаимодействия. Яновский и сотрудники проанализировали замены аминокислот в районе активного сайта протеина А триптофан синтетазы и обнаружили, что одиночные замены приводят к потере функциональной активности белка. Однако функция белка может быть восстановлена в результате одновременной замены другого остатка, удаленного на расстояние в 33 позиции по первичной структуре от первого. На основании этих данных авторы предположили, что между двумя удаленными районами полипептидной цепи существу­ют функциональные взаимодействия в структуре белка, и предложили схему этих взаимодействий.
Слайд 5

В работе [Vemet et al., 1992] проанализированы замены аминокислотных остатков в

В работе [Vemet et al., 1992] проанализированы замены аминокислотных остатков в

зоне контакта двух субъединиц папаина. Авторами показано, что вклад в стабильность остатков в паре позиций белка 32 и 162, формирующих междоменный контакт, не является аддитивным. Характер изменения стабильности мутантных белков отражал стерические взаимодействия остатков, поскольку замены, которые приводили к сильному изменению суммарного объема боковых групп этих двух ос­татков, являлись дестабилизирующими. Зависимость функции белка от специфического сочетания остатков в нескольких его позициях была также продемонстрирована в работе [Desjarlias, Berg, 1992]. Авторы проанализировали базу данных последо­вательностей ДНК-связывающих доменов типа «цинковый палец» и обнаружили в этих мотивах взаимозависимые замены остатков в трех по­зициях ДНК-связывающей спирали (13-й, 15-й и 16-й). Остатки в этих позициях ответственны за специфическое распознавание сайтов ДНК. Авторы показали, что специфическое распознавание мутантными доме­ нами типа «цинковый палец» двух различных сайтов ДНК зависит не только от типа аминокислотного остатка в позиции 13 (Arg или Gin), но и от типов остатков в двух других позициях последовательности. Более того, для правильного распознавания необходимы специфические соче­тания типов аминокислот в трех этих позициях.
Слайд 6

Малкольм и сотрудники рассматривали лизоцимы двух видов птиц отряда Курообразных (Galliformes).

Малкольм и сотрудники рассматривали лизоцимы двух видов птиц отряда Курообразных (Galliformes).

Анализировались три позиции белка в районе петли, связывающей субдомены лизоцима. Последовательности различались по всем трем анализируемым позициям. Были реконструированы белки, представляющие собой вероятные промежуточные формы на пути эволюции от одной последовательности к другой в результате единичных замен. Выяснилось, что 2 из 6 анализируемых мутантов обладают большей термостабильностью, нежели оба белка дикого типа. Это факт указывает на кооперативный характер замен в исследованных позициях лизоцимов.
Мэтью и Фершт анализировали термостабильность тетрамерной формы р53 человека и его мутантных производных. Проводились замены остатков, как единичные, так и множественные, в позициях гидрофобного ядра, которые в белках млекопитающих являются консервативными (позиции 330, 332, 340, 341, 344 и 348).
Слайд 7

Выявление и анализ координированных замен в последовательностях гомологичных белков. Задача выявления

Выявление и анализ координированных замен в последовательностях гомологичных белков.

Задача выявления

и анализа координированных замен:
рассматривается набор гомологичных аминокислотных последо­вательностей изофункционального белкового семейства;
предполагается, что все анализируемые белки имеют сходную про­странственную структуру;
по набору последовательностей требуется выявить позиции белка, замены в которых происходят зависимым образом (координированно);
на основании информации о зависимых заменах аминокислот не­ обходимо выявить особенности пространственной структуры и функции анализируемых белков.
Оценка степени зависимости позиций в белке включает несколько подзадач:
выбор меры зависимости аминокислотных замен, оценка значи­мости выявленных корреляций;
учет эволюционной зависимости анализируемых последователь­ностей при оценке значимости выявленных корреляций;
учет дальних корреляций, обусловленных опосредованными взаи­модействиями аминокислотных остатков в белке;
выбор критерия правильности предсказания координированных замен и интерпретация полученных результатов;
выявление групп позиций, замены в которых происходят коорди­нированным образом;
анализ взаимосвязи между зависимыми заменами остатков и их функциональной роли в белках.
Слайд 8

Основные методы анализа координированных замен можно услов­но разделить на две группы.

Основные методы анализа координированных замен можно услов­но разделить на две группы.

В первую входят методы, которые основа­ны на использовании мер корреляции, ориентированных на специфику конкретной задачи. К ним можно отнести анализ паттернов аминокислотных остатков в столбцах множественного выравнивания, анализ частот встречаемости амино­кислотных замен в парах позиций выравнивания и частот одновременных замен остатков в ходе эволюции семейства белков. Во вторую группу входят методы анализа или их модификации, широко известные в статистике. В частности, это работы, основанные на применении теории информации, линейных коэффициентов корреляции физико-химических ха­рактеристик остатков или мер взаимного сходства остат­ков, методы максимального правдоподобия.
Слайд 9

Проблема учета эволюционной зависимости последовательностей. При оценке зависимости аминокислотных замен в

Проблема учета эволюционной зависимости последовательностей.

При оценке зависимости аминокислотных замен в парах

позиций последова­тельностей белковых семейств возникает важная проблема. Она состоит в том, что такие последовательности не являются статистическими независимыми. Отсутствие статистической независимости су­щественным образом может сказываться на оценке уровня значимости обнаруженных корреляций. Поэтому филогенетический эффект необходимо учитывать при анализе белковых данных.
Слайд 10

Использование информационных мер для оценки парной зависимости аминокислотных замен. При оценке

Использование информационных мер для оценки парной зависимости аминокислотных замен.

При оценке

корреляций аминокислотных замен некоторые подходы используют меры зависимости, основанные на тео­рии информации. В монографии [Clarke, 1995] для оценки степени за­висимости замен в парах позиций использовалась мера на основе пар­ной информации
где Раi , аj - вероятность (наблюдаемая частота) появления пары амино­кислот типа аi, аj в позициях i, j; Раi - вероятность (наблюдаемая частота) появления остатка типа аi, в позиции i.
Эта мера имеет смысл «взвешенной информации». Вес вклада в величину С для пары аi, аj равен частоте ее встречаемости. Преимущество описанной выше меры обосновывается эмпирическими наблюдениями. Автор ука­зывает, что взвешивание приводит к выявлению большего числа пар позиций, зависимость аминокислотных замен в которых находит при­емлемое структурное или функциональное обоснование. Статистичес­кая значимость величины С определялась в этой работе с помощью перестановочного теста.
Слайд 11

В работе [Clarke, 1995] анализировались последовательности ДНК связывающего домена класса «гомеодомен».

В работе [Clarke, 1995] анализировались последовательности ДНК связывающего домена класса «гомеодомен».

Для учета эволюционной зависимости последовательностей анализ проводился в три этапа. На первом этапе вычислялись ковариационные меры С для пар позиций с использованием полной выборки, содержащей 263 последовательности. Затем в парах остатков с наибольшим значением меры С выбирались типы аминокислот, вносящих наибольший вклад в величину С. После­довательности, содержащие данные типы аминокислот в указанных по­зициях, удалялись. Размер новой выборки составил 173 последователь­ности. Для них данная процедура повторялась. В итоге получен набор из 87 последовательностей. В результате выявлено 16 пар остатков с вы­сокими значениями ковариационной меры С. Дальнейший анализ показал, что 2 пары остатков из 16 в структуре гомеодомена формируют солевой мостик (19-30 и 17-52), остатки 31 и 42 образуют взаимоисключающие контакты с сахарофосфатным остовом ДНК. Это означает, что в различных структурах белка с сахарофосфат­ным остовом может контактировать только один из пары остатков 31 и 42.
Слайд 12

Метод оценки парных корреляций с использованием информаци­онного подхода был предложен в

Метод оценки парных корреляций с использованием информаци­онного подхода был предложен в

работе [Korber et al., 1993]. Степень зависимости аминокислотных замен в паре позиций находилась через величину взаимной информации M (i, j):
Величины энтропии для i-й позиции Н(i) и для пары позиций Н(i, j) выражаются следующим образом:
Здесь P (Si) — частота встречаемости аминокислоты типа Si в пози­ции P(Sj,Sj) — частоты встречаемости пары аминокислот Si и s'j в позициях i и j, соответственно. Значимость обнаруженной статистичес­кой зависимости оценивалась на основе перестановочного теста.
Слайд 13

Этот информационный подход получил дальнейшее развитие в ра­ботах Гиро и соавторов,

Этот информационный подход получил дальнейшее развитие в ра­ботах Гиро и соавторов,

которые использовали в качестве меры зависимости сходную величину - сумму взвешенных услов­ных энтропий:
Для оценки значимости полученных зависимостей в работе [Lapedes et al., 1997] предложен подход, использующий численное моделирова­ние для оценки «корректного» порога для величины взаимной парной информации. Проводилась симуляция эволюции белкового семейства согласно модели независимых замен в позициях белка и эволюционно­му дереву анализируемых последовательностей. По распределению величин парной информации оценивалось ее критическое значение, такое, что вероятность наблюдать его для независимых позиций белка будет достаточно низкой. Полученное крити­ческое значение использовалось далее для оценки значимости выявлен­ных зависимостей при анализе реальных данных.
Слайд 14

В целом результаты, полученные О.Б. Птициным и М.В. Волькенштейном, Герштейном и

В целом результаты, полученные О.Б. Птициным и М.В. Волькенштейном, Герштейном и

соавторами и Кларк, согласуются с гипотезой о том, что достаточным условием для формирования ядра является гидрофобная природа его остатков, а стерические ограничения при заменах амино­кислот легко компенсируются перестройками белковой глобулы.
Таким образом, при проведении анализа координированных замен необходимо использовать меры зависимости замен, которые по возмож­ности наиболее адекватно отражают взаимодействия аминокислотных остатков. Вместе с тем, требуется учитывать как филогенетические осо­бенности анализируемой выборки, так и опосредованные взаимодействия в белках. Важными моментами такого анализа являются оценка вклада координированных замен в постоянство интегральных физико-химичес­ких характеристик белка, а также сопоставление данных, полученных в ходе корреляционного анализа, с данными о структурно-функциональ­ной организации и эволюции исследуемых белков.
Слайд 15

АНАЛИЗ РЕЖИМА АДАПТИВНОЙ ЭВОЛЮЦИИ В БЕЛКАХ ВИРУСА ГЕПАТИТА С Вирус гепатита

АНАЛИЗ РЕЖИМА АДАПТИВНОЙ ЭВОЛЮЦИИ В БЕЛКАХ ВИРУСА ГЕПАТИТА С

Вирус гепатита

С (ВГС) является основной причиной инфекцион­ ных хронических заболеваний печени. Вирус относит­ся к семейству Flaviviridae, к роду Hepacivirus, к тому же семейству относится ряд вирусов, вызывающих различные тропические лихорадки. Раз­меры вириона, по данным разных методов анализа, составляют около 30-60 нм. У ВГС + РНК геном имеет одну открытую рамку считывания, ограниченную с 5'- и З'-концов некодирующими областями. Открытая рамка считывания кодирует полипептид-поли­протеин, величина которого варьирует у разных изолятов вируса от 3008 до 3037 аминокислотных остатков. Этот полипротеин расщепляется ви­русными и клеточными сигнальными протеазами на структурные и неструктурные белки.
Функциональное изучение белков ВГС за­труднено, так как существуют значительные сложности с культивирова­нием вируса in vitro, а также почти невозможно моделировать заболева­ние на лабораторных животных, поскольку единственным модельным объектом в природе является шимпанзе. Между тем, персистируя в ходе хронической инфекции в организме человека дли­ тельное время, а также отличаясь большой скоростью размножения и высокой мутабильностью своего РНК-генома, популяция вируса обла­дает возможностью, эволюционируя, уходить от иммунного ответа хозя­ина. Другим потенциальным источником изменчивости может служить обмен генетическим материалом с другими популяциями ВГС. Возмож­ность подобного обмена между отдаленными популяциями облегчается высокой подвижностью такого хозяина, как человек. Повышение измен­чивости ВГС чрезвычайно затрудняет борьбу с ним. Поэтому важную роль в изучении ВГС и закономерностей его эволюции играют современные теоретические методы анализа его геномных последовательностей. Одним из таких подходов является сравнительный и эволюцион­ный анализ последовательностей геномов ВГС.
Слайд 16

Сравнительный анализ, в частности, позволил выявить шесть основных групп генотипов, обозначаемых

Сравнительный анализ, в частности, позволил выявить шесть основных групп генотипов, обозначаемых

цифрами 1-6, а в пределах генотипа - подтипы, соответствующие основным группам в популяциях в порядке их открытия (а, Ь, с...к). Другим важным методом сравнитель­ного анализа служит выявление режима адаптивной эволюции в последовательностях ВГС, кодирующих белки. Этот подход основан на срав­нении скоростей фиксации синонимических и несинонимических замен в последовательностях ДНК, кодирующих белки. Синонимические замены не приводят к изменениям типов аминокислот в белках, поэто­му при условии отбора по структуре или функции белка они являются нейтральными. Следовательно, значительное увеличение скоростей фиксации несинонимических замен, по сравнению с синони­мическими, является одним из признаков наличия адаптивного отбора. Участки белка, подверженные адаптивному отбору, могут являться функ­ционально значимыми участками молекулы, а адаптивный режим эволюции в целом для гена может свидетельствовать о приобретении дан­ным геном новой функции.
Информация о позициях белков, подверженных дви­жущему отбору, может быть важной как для функционального анализа белков ВГС, так и для оценки перспектив борьбы с ним (поиск мише­ней для фармакологических препаратов, антигенных детерминант для вакцинации и т.д.). Настоящая работа посвящена исследованию адап­тивного режима эволюции белков вируса гепатита С человека, выявле­нию на основе этих данных особенностей их структурно-функциональ­ной организации, характера их взаимодействия с клетками иммунной системы, а также возможностей для их коэволюции в системе «человек- вирус».
Слайд 17

Материалы и методы. Последовательности ВГС. Последовательнос­ти для анализа были взяты из

Материалы и методы. Последовательности ВГС.

Последовательнос­ти для анализа были взяты из базы

данных последовательностей белков ВГС HCV sequence database, доступной по адресу http://hcv.lanl.gov/content/ sequence/HCV. Рассматривались аминокислот­ные и нуклеотидные последовательности, так как для построения каче­ственного филогенетического дерева необходимо аминокислотное вы­равнивание, а для анализа скоростей накопления синонимических и не­ синонимических замен используются нуклеотидные выравнивания. Для анализа требовались выборки размером не менее 25-30 выравниваний последовательностей, имеющих значительную гомологию. Исходя из этого были составлены выборки следующего со­става: 1 (1а + 1с); 2 (2а + 2Ь + 2с); 3 (За + ЗЬ + Зс); 4,5,6 (4а + 4Ь + 4с + 5а + 5Ь + 5с + 6а + 6Ь + 6с). Последняя выборка была объединена из нескольких генотипов, вследствие того, что в базе данных количество по­следовательностей для отдельного генотипа оказалось мало. Отдельно была составлена выборка последовательностей генотипа lb, поскольку это наиболее изученный гено­тип ВГС, для которого существует наибольшее количество данных.
Слайд 18

Выявление адаптивного режима эволюции. Мы использовали крите­рий отношения скоростей синонимических и

Выявление адаптивного режима эволюции.

Мы использовали крите­рий отношения скоростей синонимических и несинонимических

замен ω= dN/ds, где dN- скорость фиксации несинонимических замен на сайт, ds - скорость фиксации синонимических замен на сайт. Предполагалось, что кодон подвержен адаптивному отбору, если ско­рость фиксации синонимических замен ds была меньше скорости фик­сации несинонимических замен dN, т.е. ω > 1. Для оценки параметра со использовался пакет программ PAML. Данный пакет для оценки ω использует метод максимального правдоподобия. Оценка ω производится с использованием моделей эволюции, описываю­щих замены в отдельных кодонах последовательности. Эти модели от­личались наборами параметров (количеством классов кодонов, разным гипотетическим давлением отбора и распределением для классов сай­тов). Мы исследовали различные модели, описывающие замены в ко­донах и реализованные в программе PAML, под номерами от 0 до 9. Анализи­ровали полный набор моделей, предлагаемый программой PAML. Для каждого кодона последовательности оценивалось среднее взвешенное по всем моделям PAML значение константы ω, с учетом значения функции максимального правдоподобия так, что значениям параметра ω в моде­ лях с большим значением функции правдоподобия придавался больший вес. После этого дополнительно оценивали число адаптивных позиций в белках, т.е. число позиций, для которых ω > 1 при р > 0,9. Выравнива­ния последовательностей проводились с помощью программы CLUSTALW. Филогенетические деревья строились с использо­ванием программы РHYML.
Слайд 19

Оценка статистической зависимости между режимом эволюции ко­ дона и его функциональной

Оценка статистической зависимости между режимом эволюции ко­ дона и его функциональной

нагрузкой.

Для оценки статистической зависи­мости между адаптивным режимом эволюции кодонов и функцией со­ ответствующих аминокислотных остатков был проведен перестановоч­ный тест. В ходе этого теста каждому кодону сопоставлялось два при­ знака. Первый признак S отражал характер замен (адаптивный/нейтраль­ный). Если в какой-либо из исследованных нами моделей величина па­раметра ω превышала 1 с вероятностью более 0,9, то для такого кодона признак режима эволюции принимал значение 1 (адаптивный), в противном случае признак принимал значение 0 (нейтральный). Второй признак F отражал функциональную нагрузку кодона. Если аминокис­лотный остаток принадлежал функциональному сайту, то для такого ко­ дона его значение было равно 1, в противном случае - 0.

Слайд 20

C помощью описанных методов был проведен анализ всех белков генома ВГС.

C помощью описанных методов был проведен анализ всех белков генома ВГС.

Результаты анализа адаптивного режи­ма эволюции для белков вируса гепатита С приведены в таблице. Из этой таблицы видно, что среднее значение константы ω по всем белкам не превышает величину 0,3. Это свидетельствует о том, что в кодирующей части генома ВГС фиксируются преимущественно синонимические замены, т.е. белки ВГС эволюционируют преимущественно под давле­нием стабилизирующего отбора. В ходе эволюции вируса такие факторы, как стабильность и консервативность пространственной структуры этих белков, являются до­минирующими.
Слайд 21

Для всех белков вируса было проведено сопоставление адап­тивных позиций с сайтами

Для всех белков вируса было проведено сопоставление адап­тивных позиций с сайтами

иммунного ответа и с функциональными сай­тами, была оценена значимость взаимосвязи между адаптивным режи­мом эволюции и функциональным свойством позиции. Для того чтобы определить вклад каждого из указанных факторов в обеспечение адаптивного режима эволюции, использовался статисти­ческий тест, который позволяет оценить значимость взаимосвязи между адаптивным режимом эволюции и функциональной ролью позиции белка.
Слайд 22

Из таблицы видно, что большинство белков ВГС содержит пози­ции, подверженные адаптивной

Из таблицы видно, что большинство белков ВГС содержит пози­ции, подверженные адаптивной

эволюции. Белок Core эволюционирует адаптивно в основном под воздействием иммунной системы. В нем вы­ явлено достаточно высокое количество адаптивных позиций и проде­монстрирован высокий уровень значимости взаимосвязи между адаптив­ными позициями и сайтами CTL и рецепторами Т-хелперов. Белки Е1 и Е2 образуют гетеродимер, который экспонирован на по­верхности вирусной мембраны. Считается, что данный гетеродимер опос­редует взаимодействие вируса с клеточными рецепторами на мембранах гепатоцитов и является основной мишенью для воздействия В-клеточных антител в острую фазу болезни. Для белка NS2 в целом не обнаружена существенная взаимосвязь с иммунной системой, хотя отдельные адаптивные позиции избирательно ассоциированы с сайтами или CTL или Т-хелперов. Можно пред­положить, что поскольку NS2 играет важную роль в процессинге по­липротеина, основная часть адаптивно эволюционирующих позиций связана с совершенствованием этой его функции. В белке NS3 выявлено достаточно много позиций, эволюциониру­ющих адаптивно, в то же время из-за большого размера белка их доля остается достаточно низкой. В целом можно утверждать, что для данного белка характерен баланс между интенсивной адаптивной эволюцией, связанной с иммунным ответом, и стабилизирующим отбором, направ­ленным на поддержание консервативной пространственной структуры, обеспечивающей функциональную активность данного белка.