Биоинформатическая обработка NGS-данных

Содержание

Слайд 2

Center for Research Informatics, The University of Chicago, Chicago, IL, USA

Center for Research Informatics, The University of Chicago, Chicago, IL, USA

Контроль

качества

Предварительная
обработка

Выравнивание

Постобработка
полученных данных

Определение
вариантов

Аннотация

Фильтрация,
Приоритизация

Слайд 3

FastQ Текстовый формат, позволяющий хранить не только нуклеотидную последовательность, но и

FastQ

Текстовый формат, позволяющий хранить не только нуклеотидную последовательность, но и данные

о качестве прочтения каждого нуклеотида
Содержит 4 строки:
Идентификатор последовательности
Прочтение
Комментарий
Phred quality score

Clinical Applications for Next-Generation Sequencing, Academic press, 2015

Слайд 4

Quality control (QC) Предварительная обработка: удаление адаптеров с 3’-конца, обрезка концов

Quality control (QC)

Предварительная обработка: удаление адаптеров с 3’-конца, обрезка концов с

низким качеством прочтения
Cutadapt, Trimmomatic

Контроль качества прочтений по ряду параметров
FastQC

Слайд 5

Выравнивание (alignment ) AAC - GCTAACGGTAA AACCGCGAAC - - TAA AACGCTAACGGTAA

Выравнивание (alignment )

AAC - GCTAACGGTAA
AACCGCGAAC - - TAA

AACGCTAACGGTAA
AACCGCGAACTAA

BWA, Bowtie2, Novoalign
На

выходе файл в формате SAM/BAM
SAM = Sequence Alignment Map
BAM = Binary Alignment Map
После выравнивания производится постобработка полученных данных с целью минимизировать количество ошибок, генерируемых на следующем этапе

Этап картирования на референсный геном

Референс

Рид

Слайд 6

Определение вариантов (variant calling) На этом этапе программа определяет варианты, отличающиеся

Определение вариантов (variant calling)

На этом этапе программа определяет варианты, отличающиеся от

референсной последовательности (SNPs, SNVs, InDels)
SAMtools и GATK
На выходе = VCF (Variant Call Format)
Вариативность в геномах:
SNP = Single Nucleotide Polymorphysm (однонуклеотидный полиморфизм)
InDel = инсерция или делеция одного и более нуклеотидов
Слайд 7

VCF Стандартный формат для хранения данных о ДНК полиморфизмах, таких как:

VCF

Стандартный формат для хранения данных о ДНК полиморфизмах, таких как: замены

(SNPs), вставки, делеции и структурные варианты (SVs)

P.Danecek et al.

Слайд 8

Аннотация, фильтрация, приоритизация Проводится аннотирование вариантов и предсказание их влияния на

Аннотация, фильтрация, приоритизация

Проводится аннотирование вариантов и предсказание их влияния на кодируемый

белок на основе анализа геномных координат фрагмента
(поиск по базам данных известных мутаций )
ANNOVAR, SnpEff
Убираются варианты с низким покрытием и низким качеством
Варианты ранжируются по частоте, приоритет отдается более редким мутациям
(предполагается, что у них большая степень вероятности вызвать заболевание)
Приоритизация вариантов по функциональному эффекту
(чей эффект наиболее склонен вызвать заболевание)
Например: нонсенс мутация обычно наносит больший вред, чем миссенс мутация
Для неизвестных вариантов предсказывается возможная патогенность на основе разработанных утилит
Слайд 9

Визуализация Integrative Genomic Viewer (IGV) http://www.broadinstitute.org/igv Thorvaldsdóttir et al.

Визуализация

Integrative Genomic Viewer (IGV)
http://www.broadinstitute.org/igv

Thorvaldsdóttir et al.

Слайд 10

Типы мутаций Nonsense Однонуклеотидные замены, приводящие к возникновению преждевременного терминирующего кодона

Типы мутаций

Nonsense
Однонуклеотидные замены, приводящие к возникновению преждевременного терминирующего кодона

Мутации

с заменой нуклеотида

Missense
Однонуклеотидные мутации, приводящие к замене аминокислоты в белке

Слайд 11

Мутации вызванные инсерцией или делецией одного или нескольких нуклеотидов Нормальная ДНК

Мутации вызванные инсерцией или делецией одного или нескольких нуклеотидов


Нормальная

ДНК GAA-TGA-CTG-TCT-GGA
Нормальный белок Лей-Тре-Асп-Арг-Про

Мутантная ДНК GAA-GAC-TGT-CTG-GA
Мутантный белок Лей-Лей-Тре-Асп-

Делеция T

Frameshift
(со сдвигом рамки считывания)

Слайд 12

Базы данных геномных вариантов человека Медицинская генетика 2017, №7. Руководство по

Базы данных геномных вариантов человека

Медицинская генетика 2017, №7. Руководство по интерпретации

данных,
полученных методами массового параллельного секвенирования (MGS).
Слайд 13

Программы предсказания патогенности вариантов нуклеотидной последовательности (In silico) Медицинская генетика 2017,

Программы предсказания патогенности вариантов нуклеотидной последовательности (In silico)

Медицинская генетика 2017, №7.

Руководство по интерпретации данных,
полученных методами массового параллельного секвенирования (MGS).
Слайд 14

MutationTaster www.mutationtaster.org Polyphen2 http://genetics.bwh.harvard.edu/pph2/

MutationTaster
www.mutationtaster.org

Polyphen2
http://genetics.bwh.harvard.edu/pph2/

Слайд 15

Критерии для интерпретации вариантов Для каждого варианта нуклеотидной последовательности специалист подбирает

Критерии для интерпретации вариантов

Для каждого варианта нуклеотидной последовательности специалист подбирает

подходящие признаки, которые затем объединяет в соответствии с приведенными критериями:
1. Патогенный (p): Очень сильный (pvs1), Сильный (ps1-4), Средний (pm1-5), Вспомогательный (pp1-5)
2. Вероятно патогенный
3. Неопределенного значения
4. Доброкачественный(b): Очень сильный (ba1), Сильный (bs1-4), Вспомогательный (bp1-6)
5. Вероятно доброкачественный
Если вариант не отвечает критериям любого набора, или доказательства патогенности и доброкачественности противоречивы, то такой вариант следует считать вариантом неопределенного значения
Слайд 16

Правила комбинирования критериев для интерпретации вариантов Медицинская генетика 2017, №7. Руководство

Правила комбинирования критериев для интерпретации вариантов

Медицинская генетика 2017, №7. Руководство

по интерпретации данных,
полученных методами массового параллельного секвенирования (MGS).
Слайд 17

Пример медицинского заключения Медицинская генетика 2017, №7. Руководство по интерпретации данных,

Пример медицинского заключения

Медицинская генетика 2017, №7. Руководство по интерпретации данных,
полученных

методами массового параллельного секвенирования (MGS).