Компьютерные методы анализа нуклеотидных последовательностей

Содержание

Слайд 2

Раздел дисциплины Методы изучения генома, основные понятия и определения. Биоинформационные подходы,

Раздел дисциплины

Методы изучения генома, основные понятия и определения.
Биоинформационные подходы, позволяющие планировать

эксперименты. Дизайн праймеров.
Анализ данных секвенирования.
Базы данных, извлечение и депонирование информации. Поиск гомологичных последовательностей.
Выравнивания и филогенетические деревья.
Определение функционально важных областей.
Предсказание структуры и свойств биополимеров.
Слайд 3

Основная литература: 1. И.В. Бабкин, Н.В. Тикунова, С.В. Нетесов. Компьютерные методы

Основная литература:
1. И.В. Бабкин, Н.В. Тикунова, С.В. Нетесов. Компьютерные методы анализа

нуклеотидных последовательностей. Новосибирский государственный университет, 2017.
2. Леск А. Введение в биоинформатику. Изд-во «Бином», Москва, 2009.
3. Игнасимуту С. Основы биоинформатики. Изд-во «Регулярная и хаотичная динамика», Ижевск, 2007.
4. Лукашов В.В. Молекулярная эволюция и филогенетический анализ. Изд-во «Бином», Москва, 2009.
Дополнительная литература:
1. Сетубал Ж., Мейданис Ж. Введение в вычислительную молекулярную биологию. Изд-во «Регулярная и хаотичная динамика», Ижевск, 2007.
Слайд 4

Полезные Интернет-сайты: 1. httphttp://http://wwwhttp://www.http://www.ncbihttp://www.ncbi.http://www.ncbi.nlmhttp://www.ncbi.nlm.http://www.ncbi.nlm.nihhttp://www.ncbi.nlm.nih.http://www.ncbi.nlm.nih.govhttp://www.ncbi.nlm.nih.gov/ 2. httphttp://http://wwwhttp://www.http://www.ebihttp://www.ebi.http://www.ebi.achttp://www.ebi.ac.http://www.ebi.ac.ukhttp://www.ebi.ac.uk/ 3. http://web.expasy.org/ 4. httphttp://http://evolutionhttp://evolution.http://evolution.geneticshttp://evolution.genetics.http://evolution.genetics.washingtonhttp://evolution.genetics.washington.http://evolution.genetics.washington.eduhttp://evolution.genetics.washington.edu/http://evolution.genetics.washington.edu/phyliphttp://evolution.genetics.washington.edu/phylip/http://evolution.genetics.washington.edu/phylip/softwarehttp://evolution.genetics.washington.edu/phylip/software.http://evolution.genetics.washington.edu/phylip/software.htmlhttp://evolution.genetics.washington.edu/phylip/software.html#http://evolution.genetics.washington.edu/phylip/software.html#methods 5.

Полезные Интернет-сайты:
1. httphttp://http://wwwhttp://www.http://www.ncbihttp://www.ncbi.http://www.ncbi.nlmhttp://www.ncbi.nlm.http://www.ncbi.nlm.nihhttp://www.ncbi.nlm.nih.http://www.ncbi.nlm.nih.govhttp://www.ncbi.nlm.nih.gov/
2. httphttp://http://wwwhttp://www.http://www.ebihttp://www.ebi.http://www.ebi.achttp://www.ebi.ac.http://www.ebi.ac.ukhttp://www.ebi.ac.uk/
3. http://web.expasy.org/
4. httphttp://http://evolutionhttp://evolution.http://evolution.geneticshttp://evolution.genetics.http://evolution.genetics.washingtonhttp://evolution.genetics.washington.http://evolution.genetics.washington.eduhttp://evolution.genetics.washington.edu/http://evolution.genetics.washington.edu/phyliphttp://evolution.genetics.washington.edu/phylip/http://evolution.genetics.washington.edu/phylip/softwarehttp://evolution.genetics.washington.edu/phylip/software.http://evolution.genetics.washington.edu/phylip/software.htmlhttp://evolution.genetics.washington.edu/phylip/software.html#http://evolution.genetics.washington.edu/phylip/software.html#methods
5. httphttp://http://blasthttp://blast.http://blast.ncbihttp://blast.ncbi.http://blast.ncbi.nlmhttp://blast.ncbi.nlm.http://blast.ncbi.nlm.nihhttp://blast.ncbi.nlm.nih.http://blast.ncbi.nlm.nih.govhttp://blast.ncbi.nlm.nih.gov/http://blast.ncbi.nlm.nih.gov/Blasthttp://blast.ncbi.nlm.nih.gov/Blast.http://blast.ncbi.nlm.nih.gov/Blast.cgi
6. httphttp://http://maffthttp://mafft.http://mafft.cbrchttp://mafft.cbrc.http://mafft.cbrc.jphttp://mafft.cbrc.jp/http://mafft.cbrc.jp/alignmenthttp://mafft.cbrc.jp/alignment/http://mafft.cbrc.jp/alignment/serverhttp://mafft.cbrc.jp/alignment/server/http://mafft.cbrc.jp/alignment/server/indexhttp://mafft.cbrc.jp/alignment/server/index.http://mafft.cbrc.jp/alignment/server/index.html
7. httphttp://http://unafoldhttp://unafold.http://unafold.rnahttp://unafold.rna.http://unafold.rna.albanyhttp://unafold.rna.albany.http://unafold.rna.albany.eduhttp://unafold.rna.albany.edu/?http://unafold.rna.albany.edu/?qhttp://unafold.rna.albany.edu/?q=http://unafold.rna.albany.edu/?q=mfoldhttp://unafold.rna.albany.edu/?q=mfold/http://unafold.rna.albany.edu/?q=mfold/DNAhttp://unafold.rna.albany.edu/?q=mfold/DNA-http://unafold.rna.albany.edu/?q=mfold/DNA-Foldinghttp://unafold.rna.albany.edu/?q=mfold/DNA-Folding-http://unafold.rna.albany.edu/?q=mfold/DNA-Folding-Form
8. http://molbiol.ru/ 

Слайд 5

Освежим свою память ДНК, РНК, нуклеотид, нуклеозид Основная парадигма молекулярной биологии

Освежим свою память

ДНК, РНК, нуклеотид, нуклеозид
Основная парадигма молекулярной биологии

Слайд 6

Терминология: Вектор – самореплицирующая молекула ДНК (например, бактериальная плазмида), используемая в

Терминология:
Вектор – самореплицирующая молекула ДНК (например, бактериальная плазмида), используемая в

генетической инженерии для переноса генов от организма-донора в организм-реципиент, а также для клонирования нуклеотидных последовательностей
Выравнивание - процесс или результат согласования нуклеотидных или аминокислотных остатков двух или более биологических последовательностей для достижения максимальных уровней идентичности.
Глобальное выравнивание - выравнивание двух последовательностей нуклеиновых кислот или белков по всей их длине.
Локальное выравнивание - выравнивание областей с высоким коэффициентом сходства двух последовательностей нуклеиновых кислот или белков.
 Гомология – сходство, объясняемое происхождением от общего предка. Гомологичные биологические компоненты (гены, белки, структуры) называются гомологами. Идентичность - доля одинаковых остатков в одинаковых положениях у двух выровненных (нуклеотидных или аминокислотных) последовательностей, часто выраженная в процентах.
Домен - дискретная часть белка, которая предположительно складывается независимо от остальной части белка и обладает собственными функциями.
Контиг представляет собой набор перекрывающихся сегментов ДНК, которые в совокупности представляют собой консенсусную область ДНК. В задаче сборки генома контиги представляют собой продолжительные участки ДНК (строки из нуклеотидов), полученные в процессе сборки.
Рид (read) – короткая секвенированная нуклеотидная последовательность.
Слайд 7

Современная молекулярная биология немыслима без привлечения компьютеров. История 1202 г. —

Современная молекулярная биология немыслима без привлечения компьютеров.  История
1202 г. — Леонардо

Пизанский (Фибоначчи) опубликовал книгу «Liber abaci», которая содержала решение задачи о размножении кроликов.
1925 и 1926 гг. — Вито Вольтерра и Альфред Лотка предложили математическую модель совместного существования «хищник—жертва».
1950 г. — Пер Виктор Эдман предложил метод секвенирования пептидов.
1951 г. — Лайнус Полинг открыл белковую α-спираль, что ознаменовало рождение новой науки — структурной биологии.
1953 г. — Джеймс Уотсон и Френсис Крик открыли структуру ДНК в форме двух комплементарных цепей, образующих двойную спираль.
1953 г. — Первый расчет состояния идеализированной молекулярной системы методом Монте-Карло.
1957 г. — Первый расчет молекулярной динамики идеализированной молекулярной системы.
1964 г. — Первая система компьютерной визуализации молекул.
1967 г. — Создание метода самосогласованных силовых полей — основы современной молекулярной динамики.
Слайд 8

1967 г. — Пер Эдман совместно с Джофри Бэггом создали первый

1967 г. — Пер Эдман совместно с Джофри Бэггом создали первый

автоматический белковый секвенатор.
1970 г. — Полина Хогевег предложила термин «биоинформатика».
1970 г. — Первый алгоритм выравнивания последовательностей.
1975 г. — Фредерик Сенгер предложил первый метод секвенирования ДНК.
1975 г. — Первая работа по изучению белок—белковых взаимодействий с применением компьютеров.
1977 г. — Фредерик Сенгер опубликовал метод определения последовательности ДНК, «метод терминаторов», который лег в основу современного автоматического секвенирования в капиллярных секвенаторах.
1977 г. — Секвенировали геном бактерифага φX-174 — первый полный геном; первый случай использования «метода дробовика».
1977 г. — Первый расчет молекулярной динамики белковой глобулы.
1981 г. — Секвенировали митохондриальную ДНК человека: 16 659 нуклеотидных пар (п.н.).
1982 г. — Первая программа для молекулярного докинга.
1984 г. — Секвенировали геном вируса Эпштейна—Барр: 172 281 п.н.
Слайд 9

1986 г. — Первый автоматический ДНК-секвенатор (Applied Biosystems, США). 1990 г.

1986 г. — Первый автоматический ДНК-секвенатор (Applied Biosystems, США).
1990 г.

— Разработали программу BLAST.
1990 г. — Запустили международный проект «Геном человека».
1995 г. — Секвенировали первый бактериальный геном (Haemophilus influenzae).
1996 г. — Полная последовательность генома дрожжей Saccharomyces cerevisiae (первый геном эукариот).
1999 г. — Корпорация Celera закончила секвенирование генома Drosophila melanogaster — самого «популярного» объекта в молекулярной генетике.
1999 г. — Опубликовали полную последовательность одной из хромосом человека.
2000 г. — Окончание секвенирования генома человека (в общих чертах).
2003 г. — Реальное окончание секвенирования генома человека.
2006 г. — Публикация полной последовательности последней человеческой хромосомы: фактическое завершение проекта «Геном человека».
Слайд 10

Используемые форматы данных FASTA-формат >Rattus_norvegicus | Rattus norvegicus heat shock 20kDa

Используемые форматы данных FASTA-формат

>Rattus_norvegicus | Rattus norvegicus heat shock 20kDa protein (Loc192245),

mRNA
GCAGGATGGAGATCCGGGTGCCTGTGCAGCCTTCTTGGCTGCGCCGTGCTTCAGCTCCTTTACCGGGTTTTTCCACTCCGGGACGCCTCTTTGACCAGCGTTTCGGCGAAGGGCTGCTTGAGGCAGAGCTGGCTTC 
>Homo_sapiens | Homo sapiens cDNA FLJ32389 fis, clone SKMUS1000138, highly similar to HEATSHOCK 20 KDA LIKEPROTEIN P20.
ACTGCAACGCGGAGGAGCAGGATGGAGATCCCTGTGCCTGTGCAGCCGTCTTGGCTGCGCCGCGCCTCGGCCCCGTTGCCCGGACTTTCGGCGCCCGGACGCCTCTTTGACCAGCGCTTCGGCGAGGGGCTGCTG 
>Mus_musculus | Mus musculus similar to heat shock 20kDa protein (LOC243912), mRNA.
GGCAGCGTAGGAACAGGATGGAGATCCCCGTGCCTGTGCAGCCTTCTTGGCTGCGCCGTGCTTCAGCTCCTTTACCAGGTTTCTCTGCTCCGGGACGCCTCTTTGACCA
Слайд 11

Буквенные обозначения нуклеотидов

Буквенные обозначения нуклеотидов

Слайд 12

Nexus файл #NEXUS Begin data; Dimensions ntax=4 nchar=15; Format datatype=dna missing=?

Nexus файл

#NEXUS
Begin data;
Dimensions ntax=4 nchar=15;
Format datatype=dna missing=? gap=-;
Matrix
Species1 atgctagctagctcg
Species2 atgcta??tag-tag
Species3 atgttagctag-tgg
Species4

atgttagctag-tag
;
End;
Слайд 13

Nexus файл Файлы данных Nexus всегда начинаются с символов #nexus, но

Nexus файл

Файлы данных Nexus всегда начинаются с символов #nexus, но в остальном организованы

в основные блоки. Некоторые блоки распознаются большинством программ, использующих формат файла Nexus, тогда как другие блоки являются частными (распознаются только одной программой).
Блоки в свою очередь организованы в команды после которых стоит точка с запятой . Очень важно помнить, что все команды должны заканчиваться точкой с запятой .
Слайд 14

GB-формат

GB-формат

Слайд 15

GB-формат

GB-формат

Слайд 16

GB-формат

GB-формат