Genetische Assoziationsstudien - uni-leipzig.de...Heritabilität - Anteil der Varianz eines Merkmals...
Transcript of Genetische Assoziationsstudien - uni-leipzig.de...Heritabilität - Anteil der Varianz eines Merkmals...
Genetische Assoziationsstudien
Prof. Dr. Markus Scholz
IMISE, Leipzig
AG Genetische Statistik
www.imise.uni-leipzig.de/genstat
,
Ausrichtung:
• Statistik und Bioinformatik molekulargenetischer Daten
• Schwerpunkt Genetik und Genexpression, Array-Analysen
• Anwendungsorientiert
Inhalte:
• Biologische Grundlagen
• Statistische Grundlagen
• Populationsgenetik
• Statistische Konzepte in der Genetik
• Genetische Studiendesigns
• Array-Präprozessierung (SNP, Genexpression)
• Assoziationsstudien (Schwerpunkt Genetik, Genexpression)
• Softwaretools, Online Ressourcen, Data mining
• Integrative Analysen (multi-omics)
Modul: Statistische Aspekte der Analyse molekular-
biologischer und genetischer Daten (09-202-2413)
Konzepte in der Genetischen Statistik
Genotyp-Phänotyp-Beziehung
Definition:
• Eine Genotyp-Phänotyp Beziehung besteht, wenn
genetische Varianten ursächlich für Unterschiede im
Phänotyp sind
Der Grad der Abhängigkeit des Phänotyps vom Genotyp wird durch
Heritabilität gemessen
Monogenetische Genotyp-Phänotyp Beziehungen sind in Stammbäumen
gut erkennbar
Komplexere Genotyp-Phänotyp Beziehungen sind oft nicht leicht zu
erkennen
,
Heritabilität
- Anteil der Varianz eines Merkmals in einer Population, die durch
genetische Faktoren erklärt wird.
- Gilt nur für eine bestimmte Population in einer konkreten Umgebung
- Heritabilität bezieht sich auf eine Population, nicht auf ein Individuum!
Schätzung der Vererbbarkeit:
(1) Zwillingsstudien:
Vergleich der Merkmalskonkordanz zwischen ein- (MZ) und zweieiigen
Zwillingen (DZ) Falconers Gleichung
(2) Familienstudien:
Gemischte Modelle
(3) Studien mit molekularen Markern
6
Konkordanz bei Zwillingen
Nussbaum, R. L., McInnes, R. R., & Willard, H.F.
(2004). Genetics of Disorders with Complex Inheritance.
7
Geschätzte Heritabilität
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%E
ye c
olo
r
Hai
r cu
rlin
ess
Type
-1 d
iabe
tes
Hei
ght
Schi
zoph
ren
ia
Epile
psy
Gra
ves'
dis
ease
Cel
iac
dise
ase
Poly
cyst
ic o
vary
syn
drom
e
Bip
olar
dis
orde
r
Ob
esit
y
Alz
heim
er's
dis
ease
An
ore
xia
ne
rvo
sa
Pso
ria
sis
Aut
ism
Me
na
rch
e, a
ge
at
Nic
otin
e de
pend
ence
Sexu
al o
rien
tati
on
Alc
ohol
ism
Lupu
s
Rhe
um
atoi
d ar
thri
tis
Thyr
oid
canc
er
Bod
y m
ass
inde
x
Dep
ress
ion
Hea
rt d
isea
se
Pros
tate
can
cer
Bre
ast c
ance
r
Ova
rian
can
cer
Stro
ke
Ast
hma
Hyp
erte
nsi
on
Ost
eoar
thri
tis
Park
inso
n's
dise
ase
Lon
gevi
ty
Type
-2 d
iabe
tes
Ga
llst
on
e d
ise
ase
Test
icul
ar c
ance
r
Cer
vica
l can
cer
Scia
tica
Co
lon
can
cer
Lung
can
cer
Leuk
emia
Stom
ach
canc
er
Heritability Est.
http://www.snpedia.com/index.php/Heritability
8
Polygenetische Erkrankungen
Polygentische Erkrankungen entstehen durch das Zusammenwirken
verschiedener Defekte in einer Anzahl in Frage kommender Gene
Genetischen Ursachen erklären oft nur Teil des Erkrankungsrisikos
Umwelteinflüsse (oft unbekannter Natur) spielen eine wichtige Rolle
Meist ist eine Häufung in Familien zu beobachten, aber kein den
Mendelschen Regeln folgender Erbgang
Hämolytische Erkrankung des Neugeborenen – 2 Loci
(D und ABO)
Morbus Hirschsprung – mind. 5 Loci
Bluthochdruck, Erkrankungen der Herzkranzgefäße, Diabetes, –
eine größere Zahl von Loci
Sichtbarer Phenotype
Organe, Gewebe, und Zellen
Genom
Transkriptom
Proteom
Genotyp-Phänotyp-Beziehungen meist
komplexer Natur
Epigenetische Regulation
Posttranslationale Regulation
,
Ideale Population
,
Modellannahmen für genetische Statistik:
unendlich große (sehr große Individuenzahl)
keine Selektion
keine Mutation
keine Migration
zufällige Partnerwahl (random mating)
getrennte Generationen (keine Verpaarungen zwischen z.B.
Elterngeneration und Kindergeneration)
Hardy-Weinberg Gleichgewicht (HWE) (1)
,
Seien an einem genetischen Lokus die Allele A und B vorhanden.
Betrachte Genotyphäufigkeiten:
P(AA)=p1 P(AB)=p2 P(BB)=1-p1-p2
Die Allelhäufigkeit läßt sich daraus berechnen:
P(A)=p1+p2/2 P(B)=1-P(A)
Unter Annahme zufälliger Partnerwahl erhält man:
P(AA)=P(A)2 P(AB)=2*P(A)*P(B) P(BB)=P(B)2
Also eine charakteristische Verteilung der Genotypen in Abhängigkeit von der
Allelfrequenz das so genannte Hardy-Weinberg-Gleichgewicht (HWE).
Hardy-Weinberg Gleichgewicht (2)
,
Aus Ziegler & König
De Finetti Diagramm:
- das Dreieck repräsentiert
rechnerisch mögliche
Genotypverteilungen
- die dicke Kurve entspricht
den Genotyp-Verteilungen
im Hardy-Weinberg-
Gleichgewicht
Hardy-Weinberg-Gleichgewicht (3)
,
Verallgemeinerung auf m Allele:
,
Test auf Hardy-Weinberg-Gleichgewicht (1)
Erweiterungen:
- Für kleine Allelfrequenzen oder kleine Fallzahlen gibt es exakte Tests
in Analogie zu Fishers exaktem Test.
- Für gemischte Populationen gibt es stratifizierte Tests.
Chi2-Test des Hardy-Weinberg-Gleichgewichts (2 Allele, n=n11+n12+n22 Beobachtungen):
(𝑂 − 𝐸)2
𝐸=(𝑛11 − 𝑛 ∙ 𝑃 (𝐴)
2)2
𝑛 ∙ 𝑃 (𝐴)2+(𝑛12 − 𝑛 ∙ 2𝑃 𝐴 𝑃 (𝐵))
2
𝑛 ∙ 2𝑃 𝐴 𝑃 (𝐵)+(𝑛22 − 𝑛 ∙ 𝑃 (𝐵)
2)2
𝑛 ∙ 𝑃 (𝐵)2∼ χ1
(𝑂 − 𝐸)2
𝐸∼ χ𝑑𝑓 𝑑𝑓 =
𝑚(𝑚 − 1)
2
Chi2-Test des Hardy-Weinberg-Gleichgewichts (m Allele):
Hypothesentest für das Hardy-Weinberg-Gleichgewicht (HWE) mit
H0: Die beobachteten Häufigkeiten der Genotypen sind im HWE.
Verwerfe H0, wenn bei einem Test zum Signifikanzniveau 𝛼 die
Prüfgröße (𝑂−𝐸)2
𝐸 größer ist als der kritische Wert 𝜒𝑑𝑓;1−𝛼
2 .
,
Test auf Hardy-Weinberg-Gleichgewicht (2)
Beachte: Wenn H0 nicht abgelehnt wird, ist das kein Beweis für HWE.
Wenn man HWE beweisen will, benötigt man Äquivalenztests für diese
Situation.
,
Übungsaufgabe 1
AA AB BB
824 1326 463
Angenommen ein bestimmter Phänotyp wird durch die Genotypen zweier
Allele A und B kodiert und es werden die folgenden Häufigkeiten beobachtet:
Bestimmen Sie die Allelfrequenz und die erwartete Genotypverteilung
unter HWE
Wird bei den beobachteten absoluten Häufigkeiten der Genotypen das
HWE signifikant verletzt? Testen Sie zu einem Signifikanzniveau von 5%.
Übungsaufgabe 1
Wichtige Quantile der Chi2 – Verteilung
Anzahl der
Freiheitsgrade
Wahrscheinlichkeit α
m 0,99 0,975 0,95 0,05 0,025 0,01
1 0,00016 0,00098 0,0039 3,841 5,024 6,635
2 0,020 0,051 0,103 5,991 7,378 9,210
3 0,115 0,216 0,352 7,815 9,348 11,340
4 0,297 0,484 0,711 9,488 11,140 13,280
5 0,554 0,831 1,15 11,070 12,830 15,090
df
,
Übungsaufgabe 1 (Lösung)
O (Observed)
p(AA) p(AB) p(BB)
nAA/N nAB/N nBB/N
0.315 0.507 0.177
p(A)=p(AA)+p(AB)/2=0.569
p(B)=1-p(A)=0.431
E (Expected)
p(A) 2 2p(A)p(B) p(B)2
0.324 0.490 0.186
n=nAA+nAB+nBB=2613
,
Übungsaufgabe 1 (Lösung)
H0: Die beobachteten Häufigkeiten der Genotypen sind im HWE.
Teste H0 mit 𝛼=0.05 für n=2613 Beobachtungen und m=2 Allele:
Prüfgröße: (𝑂−𝐸)2
𝐸=3.142,
Kritischer Wert: 𝑑𝑓 =𝑚(𝑚−1)
2=1, 𝜒𝑑𝑓;1−𝛼
2 =3.841.
Weil 3.142<3.841 wird H0 nicht verworfen, d.h. das HWE wird für
die beobachteten absoluten Genotyp-Häufigkeiten nicht verletzt.
Zusatzaufgabe p-Wert: P(𝜒12 > Prüfgröße) = 0.076.
Verwandtschaftsanalyse
,
Die Unabhängigkeit von Elementen einer Stichprobe ist eine grund-
legende Annahme in der Statistik. Durch Verwandtschaft ist diese
Annahme verletzt.
IBD: Ein Genlokus in den Individuen X und Y heißt „identical by
descent“, wenn er von einem gemeinsamen Vorfahren ererbt wurde.
IBS: Ein Genlokus in den Individuen X und Y heißt „identical by
state“, wenn er sich nicht zwischen den Individuen X und Y
unterscheidet.
IBS ist leicht festzustellen. Liegen keine Familienstammbäume vor,
muß IBD geschätzt werden.
IBD sharing - Beispiele
,
Burton, Lancet, 2005
Verwandtschaftsanalyse - Beispiel (1)
,
Relatedness
Fre
qu
en
cy
0.0 0.2 0.4 0.6 0.8 1.0
02
46
81
01
2 KORA
Relatedness
Fre
qu
en
cy
0.0 0.2 0.4 0.6 0.8 1.00
50
10
01
50
20
0 Sorbs
Verwandtschaftsschätzer nach Wang, Genetics (2002):
Sorben = convenience sample KORA = Zufallsstichprobe Gross et al., 2011
Verwandtschaftsanalyse – Beispiel (2)
,
Gross et al., 2011
Lower
Bound
Number of
pairs in KORA
Number of
pairs in Sorbs
Odds ratio
(KORA = reference category)
[95% CI]
0.1 79 1889 68 [54;86]
0.2 38 1186 88 [64;126]
0.4 24 666 79 [52;123]
0.6 1 1 3 [0;222]
SNP-Arraydaten
Genetische Marker
Prof. Dr. Markus Scholz , 26
Spezielle Nukleotid-Sequenz mit mindestens einem Unterschied
zwischen mindestens zwei Individuen
leicht meßbar
vererbbar nach Mendelschen Regeln
niedrige Mutationsrate
Kodominanz (Unterscheidbarkeit aller möglichen Genotypen)
Beispiele: Mikrosatelliten, SNPs (single nucleotide polymorphism)
SNPs werden heutzutage fast ausschließlich verwendet
Ca. 100 Mio. SNPs bekannt (1000 Genomes Projekt)
Microarrays können bis zu 5 Mio. SNPs parallel messen
Messung
• Entnahme von Gewebeproben (z.B. Blut, Speichel)
• Extraktion der DNA
• DNA wird amplifiziert (PCR) und mit den Arrays
hybridisiert
• Platten werden gescannt
• Helligkeitswerte der Pixel einer Platte stehen für Allele-
Intensitäten (Hybridisierungsintensität mit spezifischen
Probes) CEL-Files
• Intensitäten lassen sich mittels bioinformatischer
Methoden übersetzen in „Genotyp einer Person an
einem SNP“ „Calling“
Calling-Algorithmen
,
• Bei der Genotypisierung mittels Micro-Arrays werden
Hybridisierungsintensitäten gemessen, die i.d.R.
mittels Clusteranalysen in Genotypen umgerechnet
werden
• Clusterplots Genotypen
• Wichtige Algorithmen: DM (dynamic model), BRLMM
(Bayesian robust linear model), Birdseed, Chiamo
• Software Tools: Genotyping Console (Affymetrix,
Windows), GenomeStudio (Illumina), Powertools
(Affymetrix, Linux), TaqMan OpenArray Genotyping
System (Applied Biosystems, Windows)
Clusterplotvarianten
,
Lo
g(A
llel B
)
Lo
g(A
llel A
*Alle
l B
)
Log(Allel A) Log(Allel A/Allel B)
BB AB
BB
AA
AB
AA
Genotyping Consols (Affymetrix)
,
• Clusterplots
einzelner SNPs
können visuali-
siert werden
• hier schlechte
Qualität
• Inspektion nur
für einzelne
SNPs möglich
Qualitätsprobleme von SNP-Array-Daten
,
Irregularitäten in den Cluster-Plots sind eine Hauptquelle für
Genotypisierungsfehler.
Anney et al., Am J Med Genet B
Neuropsychiatr Genet 2008
Problemstellung
,
• Genotypisierung ist immer fehlerbehaftet
• Ziel: Eliminierung/Verringerung der Fehler(quellen)
durch geeignete Filter (QC = Quality Control)
• am Ende des Prozesses soll eine Matrix/Tabelle stehen
welche jeder Person an jedem SNP einen
vertrauenswürdigen Genotyp zuweist
• wir betrachten dies am Beispiel eines „Axiom CEU
Array“ von Affymetrix mit Daten aus der LIFE-Studie
Typische SNP-Quali-Filter
,
• Autosomale SNPs
• SNP Call-Rate
• Clusterplot-basierte Maße (speziell für AXIOM):
• Fishers Linear Discriminant (FLD)
• Homozygote Ratio Offset (HomRO)
• Heterozygous Cluster Strength Offset (HetSO)
• Abweichung vom Hardy Weinberg Equilibrium (HWE)
• Frequenz des selteneren Alleles (Minor allele frequency,
MAF) oder min. 2maliges Vorkommen des Minorallels
• Platten-Assoziation (speziell für AXIOM Technologie)
Der „perfekte“ Clusterplot
,
• AB-Cluster bei 0 (x-Achse)
• AA-, BB-Cluster bei 2 bzw. -2
(x-Achse)
• AB-Clustermittelpunkt über
der Verbindungslinie der AA-,
BB-Clustermittelpunkte
• Keine oder nur wenige
Punkte, die sich nicht
eindeutig den Clustern
zuordnen lassen
Übungsaufgabe 2
• Auswertung von Clusterplots
• Schauen Sie sich die folgenden Clusterplots an
• Entscheiden Sie, ob die gezeigten SNPs für
Analysen verwendet werden könnten
,
, 36
, 37
Qualitätsanalyse von SNP-Array-Daten
Überblick
,
Chip-/Plattenweise:
• Dish-QC
• Chip-/Plattenweise Call rate
• irreguläres Verhältnis von Dish-QC und Call rate
• implausible Verwandtschaft
• Auffälligkeiten / Implausi-bilitäten bei Geschlechts-analyse
• PCA-Outlier
• Auffälligkeiten in Plattencharakteristiken
SNP-weise:
• Cluster-Plot-Irregularitäten
• SNP Call rate
• Hardy-Weinberg Equilibrium
• Minor-Allelhäufigkeit
• Batcheffekte
• Spezielle Marker (Gonosomal, pseudo-autosomale Regionen)
Ausschluss weniger Individuen (<5%) und ungefähr 5%-15%
der genotypisierten SNPs
Grundlagen (genomweiter)
Assoziationsstudien
Grundidee genetischer
Assoziationsstudien mit SNPs
,
Krank Gesund
SNP Allel A 500 8 00
SNP Allel B 500 12 00
Häufigkeit von A 50% 40%
SNP dient als Stellvertreter (proxy) eines Krankheitslokus.
SNP muß nicht selbst kausal sein, sondern es genügt
LD mit kausaler Variante.
Ursprung Genetischer Assoziationen
,
Variante B:
Indirekte
Kausalität
Variante A:
Direkte
Kausalität
,
Kopplungsungleichgewicht
(Linkage-disequilibrium LD)
Auf ein- und demselben Chromosom benachbarte Marker werden
gemeinsam vererbt, wenn zwischen ihnen keine Rekombination
stattfindet.
Der Verteilung benachbarter Marker ist deshalb i.d.R. nicht
stochastisch unabhängig. Es besteht eine Assoziation zwischen
benachbarten Markern.
Für die Wahrscheinlichkeitsverteilung der Genotypen der Marker X
und Y gilt dann:
,
Vorhandener
SNP A / a Neu entstandener
SNP B / b in
Nachbarschaft zu
A
Rekombinations-
ereignis
Karsten Krug Diploma thesis 2007 Volle Kombinatorik
Schrittweise Verringerung von LD
Entstehen und Vergehen von
Kopplungsungleichgewichten
Genotypfrequenz vs. Haplotypfrequenz
,
Gemessen / beobachtbar sind i.d.R. nur Genotypen. LD beschreibt
aber den Zusammenhang auf Chromosomenebene (Haplotypen).
Zugrundeliegende (versteckte) Haplotypfrequenzen:
Beobachtbare Genotypfrequenzen:
Dilemma:
Individuen mit dieser
Genotypkonstellation
lassen sich nicht
eindeutig einer
Haplotypkonstellation
zuordnen
Doppeltheterozygoten-Problem
,
Lokus 1 Lokus 2
Genotyp
Mögliche Haplotypen
AB + ab Ab + aB
??
Aa Bb
Das Problem der Haplotypzuordung bei doppelt (mehrfach) Heterozygoten kann nur
näherungsweise durch den Vergleich verschiedener Individuen gelöst werden.
Diesen Prozeß nennt man Phasierung. Eine wichtige Voraussetzung hierfür ist HWE.
Methoden zur Phasierung / Schätzen der
Haplotypfrequenzen
,
Expectation-Maximisation (EM) Algorithmus: z.B. implemetiert
in der Software fastPHASE
Fixpunktanalyse des EM-Algorithmus, Lösen der resultierenden
kubischen Gleichungen (unpubliziert)
Hidden-Markov Modelle (später): implementiert in der Software
MACH
Messen von LD
,
Alle LD-Maße können als
Zusammenhangsmaße auf
Vierfeldertafeln beschrieben
werden. Formale Tests auf
Unabhängigkeit sind i.d.R.
uninteressant. Interessant ist
vielmehr die Stärke des
Zusammenhangs.
p00 p01
p0.
p10
p11
p1.
p.0
p.1
1
LD-Maße (1)
,
Abweichung von Unabhängigkeit
D standardisiert auf [-1,1] (Lewontin’s D’)
p0 .* p .0 + D
p0 .* p .1 - D
p0.
p1 .* p .0 - D
p1 .* p .1 + D
p1.
p. 0
p.1
1
Dieses Maß hängt von den Allelfrequenzen ab und ist ±1 für Tafeln
mit einer Null.
LD-Maße (2)
Dr. Markus Scholz , 49
Korrelationskoeffizient r
r [-1,1] hängt von der Allelfrequenz ab und ist maximal für Tafeln mit
einer verschwindenden Diagonale.
Übungsaufgabe 3
Für zwei SNP-Loci mit den Allelen A/G bzw. C/T werden folgende
Haplotyphäufigkeiten beobachtet:
AC: 550
GC: 150
AT: 50
GT: 250
Bestimmen Sie die Allelfrequenzen und das Kopplungsungleich-
gewicht (D‘, r2) zwischen den Loci
Übungsaufgabe 3 (Lösung)
C T
A 0,55 0,05 0,6
G 0,15 0,25 0,4
0,7 0,3
D=0,13
Dmax=0,18
D‘=0,72
r2 = 0,34
Faustregel zur Verwendung
unterschiedlicher LD Maße
,
D‘ ist ein Maß für stattgehabte Rekombinationen zwischen zwei
Markern
r2 misst den Grad der Übereinstimmung von markerbasierten
Teststatistiken z.B. in Assoziationsstudien
r2 ist zudem wichtig für die Konzepte „Tagging“, „Pruning“ und
„Imputation“
LD-Struktur in einer Region
,
r2 D‘
LD Struktur sieht für unterschiedliche Maße deutlich unterschiedlich aus.
Ursprung Genetischer Assoziationen
,
Variante B:
Indirekte
Kausalität
Variante A:
Direkte
Kausalität
Hohes r2
Genetische Modelle (1)
,
Allgemeines genetisches
Modell ohne Kovariablen
Genetische Modelle (2)
,
Additives Modell am flexibelsten
Dominat B = Rezessiv A
Heterozygotenvorteil selten (Beispiel Sichelzellanämie / Malaria)
Problem: Genetisches Modell i.d.R. unbekannt
Rationale genomweiter Assoziationsstudien
(GWAS)
,
Ziel: Identifikation genetischer Modifikatoren beobachtbarer Phänotypen
Hinweise für Vererbbarkeit aus z.B. Zwillingsstudien
„Komplexe Erkrankungen“ -> Polygenetische Effekte: Häufige Varianten mit geringer Penetranz, seltene Varianten mit höherer (?) Penetranz
Kandidatengenansätze häufig nicht replizierbar -> hypothesenfreie Ansätze -> Screening des Genomes mittels Marker (SNPs)
Aktuell ca. 1900 publizierte GWAS, mehrere hundert verschiedenen Phänotypen
Published GWA Reports
58
Published GWAs
59
Stand 05/14: 1920 Publikationen und
13380 SNPs.
Das Problem des Multiplen Testens
Bei einem Test beträgt die Wahrscheinlichkeit, dass man die
Nullhypothese fälschlicherweise ablehnt α
typischer Wert für α ist 0,05
beim mehrmaligen Testen von Hypothesen innerhalb einer
Stichprobe kommt es zu einer sogenannten α-Fehler-
Kumulierung
Testet man zum Beispiel 1 Mio. genetische Varianten erhält man
schon durch Zufall 50.000 signifikante Ergebnisse
Bonferroni-Korrektur
Man möchte die Wahrscheinlichkeit für ein falsch-positives
Ergebnis bei allen Tests auf α begrenzen – Kontrolle der
family-wise error rate (FWER)
Bei L unabhängigen durchgeführten Tests folgt dann
d.h. man teilt das Signifikanzniveau durch die Anzahl der
getesteten Hypothesen
Zum Beispiel bei genomweiten Studien (~ 1 Mio. Tests) wird
häufig 5x10-8 als genomweites Signifikanzniveau genommen
konservativ (viele falsch negative Hypothesen)
LBonferroni
L
Bonferroni
/
)1(1
Power von GWAS – Beispiel Fall/Kontroll Design
,
AF=5% AF=20% AF=40%
OR=1,1 72.000 22.000 15.000
OR=1,2 19.000 5.800 4.000
OR=1,3 8.900 2.700 1.900
Benötigte Fallzahl an Fällen und Kontrollen für 90% Power
bei 0,001% Signifikanz (additives Modell).
Klassisches Mehrstufendesign
,
Hirschhorn & Daly, 2005
Replikationsstufen
Erste Stufe: GWAS
Imputation
Motivation (1)
,
Hintergrund: bei nichteindeutiger Clusterzuordnung der
Intensitäten beider Allele wird Genotyp auf „fehlend“
gesetzt → „Löcher“ im Datensatz
→ durch Imputation können diese fehlenden Genotypen
geschätzt und ersetzt werden. Voraussetzung ist ein
möglichst hohes r2
Mögliches Vorgehen:
• Ausfüllen der Löcher im Datensatz ohne Referenz
• Ausfüllen der Löcher im Datensatz mit Referenz
• Schätzen von nichtgemessenen Genotypen mittels
Referenz
Motivation (2)
,
Nutzen:
• Vervollständigen der Daten für Analysezwecke
• Konstruktion einer gemeinsamen Marker-Menge für
genetische Metaanalysen von Studien mit unterschiedlichen
Genotypisierungsplattformen
• Erhöhung der Power trotz größerem Multiplizitäts-problem
(später)
• Korrektur von Genotypisierungsfehlern (in geringem Maße)
Problem:
• Imputation ist ein Schätzverfahren
• Unsicherheit der resultierenden Genotypen muss bei der
nachfolgenden Analyse geeignet berücksichtigt werden
Imputationsprinzip
Dr. Markus Scholz , 67
Datensatz mit
fehlenden Genotypen
Referenz z.B.
HapMap, 1000 Genomes
-> Haplotypstruktur
Imputierter Datensatz
mit Unsicherheit
Marchini, 2010
Referenzdaten
,
Werden von großen Konsortien für wissenschaftliche
Projekte kostenlos zur Verfügung gestellt
zwei häufig verwendete Referenzen:
• International HapMap Project
• aktuell phase 3 release 28
• 174 CEU samples, ≈ 4 Millionen SNPs
• 1000 Genomes Project
• Meist verwendet Phase 1 Release 3
• 1092 samples und ≈ 38,2 Millionen SNPs
• Aktuell: Phase 3 ≈ 80 Millionen SNPs
Ergebnisse der Imputation
,
snpid chr pos allel1 allel2 ID1_prob_11ID1_prob_12ID1_prob_22ID2_prob_11ID2_prob_12ID2_prob_22
rs11127467 2 2994 C G 0,99 0,01 0 0,02 0,97 0,01
rs10193286 2 5491 C G 0,09 0,9 0,01 0,01 0,1 0,89
rs4632379 2 5672 A G 0,3 0,3 0,4 0,99 0,01 0
rs7594188 2 11494 C T 0,97 0,02 0,01 0,02 0,97 0,01
Wahrscheinlichkeitsverteilung der
Genotypen von Individuum 1 bzw. 2
Homozygot
Allel 2
Homozygot
Allel 1
Heterozygot
Genomweite Assoziationsanalyse
Aufgaben
,
Assoziationstests
• Einzel-SNP, verschiedene genetische Modelle
• Scoring-Tests
• Haplotypbasierte Analysen, Fine-Mapping
• Metaanalyse
• SNPxSNP, SNPxKovariablen Interaktionen
• Subgruppenanalysen (Power-Problem)
Post-Analyse QC
Graphische Aufbereitung
Extraktion von Kandidaten
Replikation
Vergleich mit Online Ressourcen
Pathway-basierte Analysen
GWAS Ergebnisse – Manhattan Plot
Dr. Markus Scholz , 72 Teupser et al., Circ. Card.
Vasc. Gen. 2010
Campesterol (additives Modell)
Keine signifikante
Assoziation -> verworfen
Genomweite Signifikanz
Keine genomweite Signifikanz
aber Kandidaten -> Replikation
GWAS Ergebnisse – Toplisten
,
Teupser et al., 2010
QQ-Plot Analyse (post-hoc
Qualitätsanalyse)
,
Expected T-statisticsExpected T-statistics
Keine offensichtliche
Inflation
Inflation der Teststatistiken
-> erfordert Korrektur
Idee: Die Mehrzahl der SNPs sollte nicht assoziiert sein, d.h. einer Nullverteilung entsprechen.
Das „Chop-stick“ Phänomen
,
Gedankenexperiment:
Phänotyp: Fähigkeit mit Stäbchen zu essen
Studienpopulation: Gemisch aus Europäern und Asiaten
Alle SNPs mit unterschiedlicher Allelfrequenz zwischen Europäern
und Asiaten (viele!) sind mit dem Phänotyp assoziiert Inflation der
Teststatistiken
Dieses Phänomen nennt man Stratifikationsbias. Es ist nicht immer
so leicht zu erkennen wie in diesem Beispiel.
Andere Möglichkeit der Entstehung: Verwandtschaft zwischen den
Individuen
Beispiel
,
Population 1 Population 2
Allel A Allel B Allel A Allel B
Fälle 10 90 40 20
Kontrollen 90 810 20 10
4,3110/110/820*50
120/20/10*40
190/90/810*10
2
1
gepooltOR
OR
OR Grund für den Widerspruch sind die
unterschiedlichen Allelfrequenzen in
den Datensätzen. Dies ist eine
Variante des Simpson Paradoxons.
Möglichkeiten der Bekämpfung von
Stratifikationsbias
,
Stratifizierte Analyse: Vorteil: funktioniert am besten, Nachteil:
erfordert Kenntnis der Strata
Adjustierung auf Hauptkomponenten: Vorteil: einfach
durchführbar, Nachteil: Erhöht Freiheitsgrade der
Assoziationsmodelle, beseitigt Stratifikation nicht immer vollständig,
erfordert genomweite Daten
Local ancestry: Vorteil: Kann mit „Mischlingen“ umgehen, Nachteile
wie bei „Adjustierung auf Hauptkomponenten“, erfordert genomweite
Daten
Gemischte Modelle (Assoziation mit Korrelationsstruktur): Vorteil:
geeignet bei Verwandtschaft, Nachteil: hohe Rechenbelastung
Genomic Control: Einfache, phänomenologische Korrektur bei
geringer Inflation, erfordert genomweite Daten
Regional association plot
78
Gene in der
Region
Tophit
Markers in LD
mit Tophit
LD Legende
Habloblock-
grenzen
Abgleich mit GWAS Katalog
,
Discovery Reported r2 First.Author Journal Disease.Trait
rs715 rs7422339 0,842168 van Meurs JB Am J Clin Nutr Homocysteine levels
rs715 rs7422339 0,842168 Danik JS Circ Cardiovasc Genet Fibrinogen
rs715 rs7422339 0,842168 Kottgen A Nat Genet Chronic kidney disease
rs715 rs7422339 0,842168 Lange LA Hum Mol Genet Homocysteine levels
rs715 rs2216405 0,563705 Suhre K Nature Metabolic traits
rs715 rs2371030 0,371124 Lee Y Carcinogenesis Non-small cell lung cancer
• http://www.genome.gov/gwastudies/
• Ist mein SNP schon im Zusammenhang mit dem betrachteten
Phänotyp beschrieben worden?
• Gibt es pleiotrope Effekte die z.B. auf gemeinsame
Pathomechanismen schließen lassen?
Benachbarte Gene
markername nearestgenes gene_biotype nearestgene
rs146322229
TUFT1 (0kb), MIR554
(18kb), CGN (25kb)
protein_coding, miRNA,
protein_coding tuftelin 1
rs79558903
ATP6V0E1P3 (34kb),
FAM98A (37kb),
RASGRP3 (71kb)
pseudogene, protein_coding,
protein_coding
ATPase, H+ transporting, lysosomal 9kDa, V0
subunit e1 pseudogene 3
rs75867881
chr2:1649346
26:D
PRPS1P1 (140kb),
CYP2C56P (240kb) pseudogene, pseudogene
phosphoribosyl pyrophosphate synthetase 1
pseudogene 1
Weitere Schritte
,
Teupser et al., 2010
GWAS allein ist
nicht genug
Replikation
Teupser et al., 2010
Vorsicht bei kombi-
nierter Analyse!
„Winners curse“