Биоинформатическая обработка NGS-данных

Сентябрь 7, 2022

Главная
Алгебра
Биоинформатическая обработка NGS-данных

Содержание

2. Center for Research Informatics, The University of Chicago, Chicago, IL, USA Контроль качества Предварительная обработка Выравнивание
3. FastQ Текстовый формат, позволяющий хранить не только нуклеотидную последовательность, но и данные о качестве прочтения каждого
4. Quality control (QC) Предварительная обработка: удаление адаптеров с 3’-конца, обрезка концов с низким качеством прочтения Cutadapt,
5. Выравнивание (alignment ) AAC - GCTAACGGTAA AACCGCGAAC - - TAA AACGCTAACGGTAA AACCGCGAACTAA BWA, Bowtie2, Novoalign На
6. Определение вариантов (variant calling) На этом этапе программа определяет варианты, отличающиеся от референсной последовательности (SNPs, SNVs,
7. VCF Стандартный формат для хранения данных о ДНК полиморфизмах, таких как: замены (SNPs), вставки, делеции и
8. Аннотация, фильтрация, приоритизация Проводится аннотирование вариантов и предсказание их влияния на кодируемый белок на основе анализа
9. Визуализация Integrative Genomic Viewer (IGV) http://www.broadinstitute.org/igv Thorvaldsdóttir et al.
10. Типы мутаций Nonsense Однонуклеотидные замены, приводящие к возникновению преждевременного терминирующего кодона Мутации с заменой нуклеотида Missense
11. Мутации вызванные инсерцией или делецией одного или нескольких нуклеотидов Нормальная ДНК GAA-TGA-CTG-TCT-GGA Нормальный белок Лей-Тре-Асп-Арг-Про Мутантная
12. Базы данных геномных вариантов человека Медицинская генетика 2017, №7. Руководство по интерпретации данных, полученных методами массового
13. Программы предсказания патогенности вариантов нуклеотидной последовательности (In silico) Медицинская генетика 2017, №7. Руководство по интерпретации данных,
14. MutationTaster www.mutationtaster.org Polyphen2 http://genetics.bwh.harvard.edu/pph2/
15. Критерии для интерпретации вариантов Для каждого варианта нуклеотидной последовательности специалист подбирает подходящие признаки, которые затем объединяет
16. Правила комбинирования критериев для интерпретации вариантов Медицинская генетика 2017, №7. Руководство по интерпретации данных, полученных методами
17. Пример медицинского заключения Медицинская генетика 2017, №7. Руководство по интерпретации данных, полученных методами массового параллельного секвенирования
19. Скачать презентацию

Слайд 2

Center for Research Informatics, The University of Chicago, Chicago, IL, USA
Контроль

качества

Предварительная
обработка

Выравнивание

Постобработка
полученных данных

Определение
вариантов

Аннотация

Фильтрация,
Приоритизация

Слайд 3

FastQ
Текстовый формат, позволяющий хранить не только нуклеотидную последовательность, но и данные

о качестве прочтения каждого нуклеотида
Содержит 4 строки:
Идентификатор последовательности
Прочтение
Комментарий
Phred quality score

Clinical Applications for Next-Generation Sequencing, Academic press, 2015

Слайд 4

Quality control (QC)
Предварительная обработка: удаление адаптеров с 3’-конца, обрезка концов с

низким качеством прочтения
Cutadapt, Trimmomatic

Контроль качества прочтений по ряду параметров
FastQC

Слайд 5

Выравнивание (alignment )
AAC - GCTAACGGTAA
AACCGCGAAC - - TAA
AACGCTAACGGTAA
AACCGCGAACTAA
BWA, Bowtie2, Novoalign
На

выходе файл в формате SAM/BAM
SAM = Sequence Alignment Map
BAM = Binary Alignment Map
После выравнивания производится постобработка полученных данных с целью минимизировать количество ошибок, генерируемых на следующем этапе

Этап картирования на референсный геном

Референс

Рид

Слайд 6

Определение вариантов (variant calling)
На этом этапе программа определяет варианты, отличающиеся от

референсной последовательности (SNPs, SNVs, InDels)
SAMtools и GATK
На выходе = VCF (Variant Call Format)
Вариативность в геномах:
SNP = Single Nucleotide Polymorphysm (однонуклеотидный полиморфизм)
InDel = инсерция или делеция одного и более нуклеотидов

Слайд 7

VCF
Стандартный формат для хранения данных о ДНК полиморфизмах, таких как: замены

(SNPs), вставки, делеции и структурные варианты (SVs)

P.Danecek et al.

Слайд 8

Аннотация, фильтрация, приоритизация
Проводится аннотирование вариантов и предсказание их влияния на кодируемый

белок на основе анализа геномных координат фрагмента
(поиск по базам данных известных мутаций )
ANNOVAR, SnpEff
Убираются варианты с низким покрытием и низким качеством
Варианты ранжируются по частоте, приоритет отдается более редким мутациям
(предполагается, что у них большая степень вероятности вызвать заболевание)
Приоритизация вариантов по функциональному эффекту
(чей эффект наиболее склонен вызвать заболевание)
Например: нонсенс мутация обычно наносит больший вред, чем миссенс мутация
Для неизвестных вариантов предсказывается возможная патогенность на основе разработанных утилит

Слайд 9

Визуализация
Integrative Genomic Viewer (IGV)
http://www.broadinstitute.org/igv
Thorvaldsdóttir et al.

Слайд 10

Типы мутаций
Nonsense
Однонуклеотидные замены, приводящие к возникновению преждевременного терминирующего кодона
Мутации

с заменой нуклеотида

Missense
Однонуклеотидные мутации, приводящие к замене аминокислоты в белке

Слайд 11

Мутации вызванные инсерцией или делецией одного или нескольких нуклеотидов

Нормальная

ДНК GAA-TGA-CTG-TCT-GGA
Нормальный белок Лей-Тре-Асп-Арг-Про

Мутантная ДНК GAA-GAC-TGT-CTG-GA
Мутантный белок Лей-Лей-Тре-Асп-

Делеция T

Frameshift
(со сдвигом рамки считывания)

Слайд 12

Базы данных геномных вариантов человека
Медицинская генетика 2017, №7. Руководство по интерпретации

данных,
полученных методами массового параллельного секвенирования (MGS).

Слайд 13

Программы предсказания патогенности вариантов нуклеотидной последовательности (In silico)
Медицинская генетика 2017, №7.

Руководство по интерпретации данных,
полученных методами массового параллельного секвенирования (MGS).

Слайд 14

MutationTaster
www.mutationtaster.org
Polyphen2
http://genetics.bwh.harvard.edu/pph2/

Слайд 15

Критерии для интерпретации вариантов
Для каждого варианта нуклеотидной последовательности специалист подбирает

подходящие признаки, которые затем объединяет в соответствии с приведенными критериями:
1. Патогенный (p): Очень сильный (pvs1), Сильный (ps1-4), Средний (pm1-5), Вспомогательный (pp1-5)
2. Вероятно патогенный
3. Неопределенного значения
4. Доброкачественный(b): Очень сильный (ba1), Сильный (bs1-4), Вспомогательный (bp1-6)
5. Вероятно доброкачественный
Если вариант не отвечает критериям любого набора, или доказательства патогенности и доброкачественности противоречивы, то такой вариант следует считать вариантом неопределенного значения

Слайд 16

Правила комбинирования критериев для интерпретации вариантов
Медицинская генетика 2017, №7. Руководство

по интерпретации данных,
полученных методами массового параллельного секвенирования (MGS).

Слайд 17

Пример медицинского заключения
Медицинская генетика 2017, №7. Руководство по интерпретации данных,
полученных

методами массового параллельного секвенирования (MGS).

Биоинформатическая обработка NGS-данных

Содержание

Center for Research Informatics, The University of Chicago, Chicago, IL, USAКонтроль

FastQТекстовый формат, позволяющий хранить не только нуклеотидную последовательность, но и данные

Quality control (QC)Предварительная обработка: удаление адаптеров с 3’-конца, обрезка концов с

Выравнивание (alignment )AAC - GCTAACGGTAAAACCGCGAAC - - TAAAACGCTAACGGTAA AACCGCGAACTAABWA, Bowtie2, NovoalignНа

Определение вариантов (variant calling)На этом этапе программа определяет варианты, отличающиеся от

VCFСтандартный формат для хранения данных о ДНК полиморфизмах, таких как: замены

Аннотация, фильтрация, приоритизацияПроводится аннотирование вариантов и предсказание их влияния на кодируемый

Визуализация Integrative Genomic Viewer (IGV) http://www.broadinstitute.org/igvThorvaldsdóttir et al.

Типы мутаций NonsenseОднонуклеотидные замены, приводящие к возникновению преждевременного терминирующего кодона Мутации

Мутации вызванные инсерцией или делецией одного или нескольких нуклеотидов Нормальная

Базы данных геномных вариантов человекаМедицинская генетика 2017, №7. Руководство по интерпретации

Программы предсказания патогенности вариантов нуклеотидной последовательности (In silico)Медицинская генетика 2017, №7.

MutationTasterwww.mutationtaster.orgPolyphen2http://genetics.bwh.harvard.edu/pph2/

Критерии для интерпретации вариантов Для каждого варианта нуклеотидной последовательности специалист подбирает

Правила комбинирования критериев для интерпретации вариантов Медицинская генетика 2017, №7. Руководство

Пример медицинского заключенияМедицинская генетика 2017, №7. Руководство по интерпретации данных, полученных

Похожие презентации