NGS data analysis: from FASTQ to VCF

Содержание

Слайд 2

Слайд 3

Слайд 4

Слайд 5

Слайд 6

Стандарт от создателей GATK DePristo, Mark A., et al. "A framework

Стандарт от создателей GATK

DePristo, Mark A., et al. "A framework for

variation discovery and genotyping using next-generation DNA sequencing data." Nature genetics 43.5 (2011): 491-498.
Слайд 7

1. Получение данных (Fastq)

1. Получение данных (Fastq)

Слайд 8

2. Контроль качества - FastQC (http://www.bioinformatics. babraham.ac.uk/projects/fastqc/ )

2. Контроль качества - FastQC (http://www.bioinformatics. babraham.ac.uk/projects/fastqc/ )

Слайд 9

2. Контроль качества - Что такое Q-score? Q = -10 log10 P Или P = 10-Q/10

2. Контроль качества - Что такое Q-score?

Q = -10 log10 P

Или P = 10-Q/10
Слайд 10

Слайд 11

Слайд 12

Слайд 13

Слайд 14

Слайд 15

Слайд 16

Слайд 17

Слайд 18

NGSrich https://sourceforge.net/projects/ngsrich/

NGSrich https://sourceforge.net/projects/ngsrich/

Слайд 19

Слайд 20

3. Выравнивание ридов на геном – Как это выглядит Нужно: Риды

3. Выравнивание ридов на геном – Как это выглядит

Нужно:
Риды – FastQ
Референс /

Индекс

Что такое покрытие и сколько его нужно?

Слайд 21

Слайд 22

4. Проверка качества выравнивания - MapQ и его распределение Score –

4. Проверка качества выравнивания - MapQ и его распределение

Score – Precision
20 – 0.99
30 –

0.999
Слайд 23

5. Поиск вариантов - Как это работает

5. Поиск вариантов - Как это работает

Слайд 24

VCF – формат данных

VCF – формат данных

Слайд 25

6. Контроль качества вариантов Сравнение платформ и методов Hwang, Sohyun, et

6. Контроль качества вариантов Сравнение платформ и методов

Hwang, Sohyun, et al. "Systematic

comparison of variant calling pipelines using gold standard personal exome variants." Scientific reports 5 (2015).
Слайд 26

Alignment and Variant Calling Broken Down 2012 2 VCFs from 23andMe

Alignment and Variant Calling Broken Down

2012 2 VCFs from 23andMe
BWA 0.6.1
GATK

(early & late 2012)
2013 Real Time Genomics
v3.1.2 2013-05-02
Called on Trio
2014 Rerun
BWA 0.7.6 (2014-01-31)
FreeBayes

2014 – BWA-MEM/ FreeBayes

Слайд 27

7. Аннотация вариантов – Предсказание эффекта

7. Аннотация вариантов – Предсказание эффекта

Слайд 28

7. Аннотация вариантов – SnpEff, SIFT, PolyPhen, VEP

7. Аннотация вариантов – SnpEff, SIFT, PolyPhen, VEP

Слайд 29

VCF-Annotate Пример запуска: vcf-annotate -f +/d=8/Q=10/q=10/-a > Ключ Описание [стандартное значение]

VCF-Annotate

Пример запуска: vcf-annotate -f +/d=8/Q=10/q=10/-a >
Ключ Описание [стандартное значение]
1, StrandBias FLOAT

Min P-value for strand bias (INFO/PV4) [0.0001]
2, BaseQualBias FLOAT Min P-value for baseQ bias (INFO/PV4) [0]
3, MapQualBias FLOAT Min P-value for mapQ bias (INFO/PV4) [0]
4, EndDistBias FLOAT Min P-value for end distance bias (INFO/PV4) [0.0001]
a, MinAB INT Minimum number of alternate bases (INFO/DP4) [2]
c, SnpCluster INT1,INT2 Filters clusters of 'INT1' or more SNPs within a run of 'INT2' bases []
D, MaxDP INT Maximum read depth (INFO/DP or INFO/DP4) [10000000]
d, MinDP INT Minimum read depth (INFO/DP or INFO/DP4) [2]
H, HWE FLOAT Minimum P-value for HWE (plus F<0) (INFO/HWE and INFO/G3) [0.0001]
q, MinMQ INT Minimum RMS mapping quality for SNPs (INFO/MQ) [10]
Q, Qual INT Minimum value of the QUAL field [10]
r, RefN Reference base is N []
v, VDB FLOAT Minimum Variant Distance Bias (INFO/VDB) [0.015]
W, GapWin INT Window size for filtering adjacent gaps [3]
w, SnpGap INT SNP within INT bp around a gap to be filtered [10]
Слайд 30

Аннотация вариантов Chr Start End Ref Alt Func Gene GeneDetail ExonicFunc

Аннотация вариантов

Chr Start End Ref Alt Func Gene
GeneDetail ExonicFunc AAChange 1000G

ALL
1000G AFR
1000G AMR
1000G EAS
1000G EUR
1000G SAS
ExAC Freq ExAC AFR ExAC AMR ExAC EAS ExAC FIN ExAC NFE ExAC OTH ExAC SAS ESP6500si ALL ESP6500si AA ESP6500si EA CG46
NCI60
dbSNP COSMIC ID COSMIC DIS

http://wannovar.wglab.org/

ClinVar SIG
ClinVar DIS ClinVar STATUS ClinVar ID ClinVar DB ClinVar DBID GWAS DIS GWAS OR GWAS BETA GWAS PUBMED GWAS SNP GWAS P
SIFT score SIFT pred
Polyphen2 HDIV score Polyphen2 HDIV pred Polyphen2 HVAR score Polyphen2 HVAR pred LRT score
LRT pred MutationTaster score MutationTaster pred MutationAssessor score MutationAssessor pred FATHMM score FATHMM pred RadialSVM score RadialSVM pred
LR score LR pred
VEST3 score CADD raw CADD phred GERP++ RS
phyloP46way placental phyloP100way vertebrate SiPhy 29way logOdds

Способ приписать каждому варианту аннотацию

Слайд 31

Слайд 32

ClinVar Submitters: OMIM: Johns Hopkins Samuels Lab for Molecular Medicine Invitae

ClinVar

Submitters:
OMIM: Johns Hopkins
Samuels
Lab for Molecular Medicine
Invitae
Emory Genetics Lab
Star rating system
0-4 stars

– level of review

ClinVar is designed to provide a freely accessible, public archive of reports of the relationships among human variations and phenotypes, with supporting evidence.

Слайд 33

HGMD Data mines academic papers for reported functional variants Also takes

HGMD

Data mines academic papers for reported functional variants
Also takes submissions, corrections

reviewed by team
First available in 1996
Originally 10k variants
105k in Public (2014)
148k in “Pro” (2014)
Слайд 34

7. Аннотация вариантов – База 1000 человеческих геномов

7. Аннотация вариантов – База 1000 человеческих геномов

Слайд 35

7. Аннотация вариантов – База 1000 человеческих геномов

7. Аннотация вариантов – База 1000 человеческих геномов

Слайд 36

NHLBI Exome Sequencing Project (ESP) http://evs.gs.washington.edu/EVS/

NHLBI Exome Sequencing Project (ESP)
http://evs.gs.washington.edu/EVS/

Слайд 37

7. Аннотация вариантов – The Exome Aggregation Consortium (ExAC)

7. Аннотация вариантов – The Exome Aggregation Consortium (ExAC)

Слайд 38

7. Аннотация вариантов – The Exome Aggregation Consortium (ExAC)

7. Аннотация вариантов – The Exome Aggregation Consortium (ExAC)

Слайд 39

7. Аннотация вариантов – The Exome Aggregation Consortium (ExAC)

7. Аннотация вариантов – The Exome Aggregation Consortium (ExAC)

Слайд 40

Слайд 41

Disease gene related Medically actionable deleterious variants Deleterious variants in ACMG

Disease gene related

Medically actionable deleterious variants

Deleterious variants in ACMG gene list

Deleterious

variants

VUS in dominant gene or homozygous in recessive gene

Deleterious variant in gene with no known disease

Слайд 42

Start: 235,689 847 234,842 224,914 9,928 9,069 807 859 40 242

Start: 235,689

847

234,842

224,914

9,928

9,069

807

859

40

242

13

59

565

0

624

624

255

20

20

20

0

0

598

644

Слайд 43

Резюме по анализу экзомов Детальное изучение клиники и семейной истории для

Резюме по анализу экзомов

Детальное изучение клиники и семейной истории для формирования

клинико-генетической гипотезы
2 основных подхода: анализ по списку генов и поиск ab initio
Привлечение информации о консервативности и популяционных данных, агрегированных в базах данных
В идеале: ведение собственной базы экзомных данных для учета локальных частот SNVs
Выбор кандидатных SNVs всегда должен осуществляться на основе данных по экспрессии гена, функции и локализации белка, через призму его возможной этиопатогенетической роли в заболевании.
Слайд 44

Слайд 45

Слайд 46

Верификация результата

Верификация результата