Genetische Assoziationsstudien - uni-leipzig.de...Heritabilität - Anteil der Varianz eines Merkmals...

Genetische Assoziationsstudien

Prof. Dr. Markus Scholz

IMISE, Leipzig

AG Genetische Statistik

www.imise.uni-leipzig.de/genstat

,

Ausrichtung:

• Statistik und Bioinformatik molekulargenetischer Daten

• Schwerpunkt Genetik und Genexpression, Array-Analysen

• Anwendungsorientiert

Inhalte:

• Biologische Grundlagen

• Statistische Grundlagen

• Populationsgenetik

• Statistische Konzepte in der Genetik

• Genetische Studiendesigns

• Array-Präprozessierung (SNP, Genexpression)

• Assoziationsstudien (Schwerpunkt Genetik, Genexpression)

• Softwaretools, Online Ressourcen, Data mining

• Integrative Analysen (multi-omics)

Modul: Statistische Aspekte der Analyse molekular-

biologischer und genetischer Daten (09-202-2413)

Konzepte in der Genetischen Statistik

Genotyp-Phänotyp-Beziehung

Definition:

• Eine Genotyp-Phänotyp Beziehung besteht, wenn

genetische Varianten ursächlich für Unterschiede im

Phänotyp sind

Der Grad der Abhängigkeit des Phänotyps vom Genotyp wird durch

Heritabilität gemessen

Monogenetische Genotyp-Phänotyp Beziehungen sind in Stammbäumen

gut erkennbar

Komplexere Genotyp-Phänotyp Beziehungen sind oft nicht leicht zu

erkennen

,

Heritabilität

- Anteil der Varianz eines Merkmals in einer Population, die durch

genetische Faktoren erklärt wird.

- Gilt nur für eine bestimmte Population in einer konkreten Umgebung

- Heritabilität bezieht sich auf eine Population, nicht auf ein Individuum!

Schätzung der Vererbbarkeit:

(1) Zwillingsstudien:

Vergleich der Merkmalskonkordanz zwischen ein- (MZ) und zweieiigen

Zwillingen (DZ) Falconers Gleichung

(2) Familienstudien:

Gemischte Modelle

(3) Studien mit molekularen Markern

6

Konkordanz bei Zwillingen

Nussbaum, R. L., McInnes, R. R., & Willard, H.F.

(2004). Genetics of Disorders with Complex Inheritance.

7

Geschätzte Heritabilität

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%E

ye c

olo

r

Hai

r cu

rlin

ess

Type

-1 d

iabe

tes

Hei

ght

Schi

zoph

ren

ia

Epile

psy

Gra

ves'

dis

ease

Cel

iac

dise

ase

Poly

cyst

ic o

vary

syn

drom

e

Bip

olar

dis

orde

r

Ob

esit

y

Alz

heim

er's

dis

ease

An

ore

xia

ne

rvo

sa

Pso

ria

sis

Aut

ism

Me

na

rch

e, a

ge

at

Nic

otin

e de

pend

ence

Sexu

al o

rien

tati

on

Alc

ohol

ism

Lupu

s

Rhe

um

atoi

d ar

thri

tis

Thyr

oid

canc

er

Bod

y m

ass

inde

x

Dep

ress

ion

Hea

rt d

isea

se

Pros

tate

can

cer

Bre

ast c

ance

r

Ova

rian

can

cer

Stro

ke

Ast

hma

Hyp

erte

nsi

on

Ost

eoar

thri

tis

Park

inso

n's

dise

ase

Lon

gevi

ty

Type

-2 d

iabe

tes

Ga

llst

on

e d

ise

ase

Test

icul

ar c

ance

r

Cer

vica

l can

cer

Scia

tica

Co

lon

can

cer

Lung

can

cer

Leuk

emia

Stom

ach

canc

er

Heritability Est.

http://www.snpedia.com/index.php/Heritability

8

Polygenetische Erkrankungen

Polygentische Erkrankungen entstehen durch das Zusammenwirken

verschiedener Defekte in einer Anzahl in Frage kommender Gene

Genetischen Ursachen erklären oft nur Teil des Erkrankungsrisikos

Umwelteinflüsse (oft unbekannter Natur) spielen eine wichtige Rolle

Meist ist eine Häufung in Familien zu beobachten, aber kein den

Mendelschen Regeln folgender Erbgang

Hämolytische Erkrankung des Neugeborenen – 2 Loci

(D und ABO)

Morbus Hirschsprung – mind. 5 Loci

Bluthochdruck, Erkrankungen der Herzkranzgefäße, Diabetes, –

eine größere Zahl von Loci

Sichtbarer Phenotype

Organe, Gewebe, und Zellen

Genom

Transkriptom

Proteom

Genotyp-Phänotyp-Beziehungen meist

komplexer Natur

Epigenetische Regulation

Posttranslationale Regulation

,

Ideale Population

,

Modellannahmen für genetische Statistik:

unendlich große (sehr große Individuenzahl)

keine Selektion

keine Mutation

keine Migration

zufällige Partnerwahl (random mating)

getrennte Generationen (keine Verpaarungen zwischen z.B.

Elterngeneration und Kindergeneration)

Hardy-Weinberg Gleichgewicht (HWE) (1)

,

Seien an einem genetischen Lokus die Allele A und B vorhanden.

Betrachte Genotyphäufigkeiten:

P(AA)=p1 P(AB)=p2 P(BB)=1-p1-p2

Die Allelhäufigkeit läßt sich daraus berechnen:

P(A)=p1+p2/2 P(B)=1-P(A)

Unter Annahme zufälliger Partnerwahl erhält man:

P(AA)=P(A)2 P(AB)=2*P(A)*P(B) P(BB)=P(B)2

Also eine charakteristische Verteilung der Genotypen in Abhängigkeit von der

Allelfrequenz das so genannte Hardy-Weinberg-Gleichgewicht (HWE).

Hardy-Weinberg Gleichgewicht (2)

,

Aus Ziegler & König

De Finetti Diagramm:

- das Dreieck repräsentiert

rechnerisch mögliche

Genotypverteilungen

- die dicke Kurve entspricht

den Genotyp-Verteilungen

im Hardy-Weinberg-

Gleichgewicht

Hardy-Weinberg-Gleichgewicht (3)

,

Verallgemeinerung auf m Allele:

,

Test auf Hardy-Weinberg-Gleichgewicht (1)

Erweiterungen:

- Für kleine Allelfrequenzen oder kleine Fallzahlen gibt es exakte Tests

in Analogie zu Fishers exaktem Test.

- Für gemischte Populationen gibt es stratifizierte Tests.

Chi2-Test des Hardy-Weinberg-Gleichgewichts (2 Allele, n=n11+n12+n22 Beobachtungen):

(𝑂 − 𝐸)2

𝐸=(𝑛11 − 𝑛 ∙ 𝑃 (𝐴)

2)2

𝑛 ∙ 𝑃 (𝐴)2+(𝑛12 − 𝑛 ∙ 2𝑃 𝐴 𝑃 (𝐵))

2

𝑛 ∙ 2𝑃 𝐴 𝑃 (𝐵)+(𝑛22 − 𝑛 ∙ 𝑃 (𝐵)

2)2

𝑛 ∙ 𝑃 (𝐵)2∼ χ1

(𝑂 − 𝐸)2

𝐸∼ χ𝑑𝑓 𝑑𝑓 =

𝑚(𝑚 − 1)

2

Chi2-Test des Hardy-Weinberg-Gleichgewichts (m Allele):

Hypothesentest für das Hardy-Weinberg-Gleichgewicht (HWE) mit

H0: Die beobachteten Häufigkeiten der Genotypen sind im HWE.

Verwerfe H0, wenn bei einem Test zum Signifikanzniveau 𝛼 die

Prüfgröße (𝑂−𝐸)2

𝐸 größer ist als der kritische Wert 𝜒𝑑𝑓;1−𝛼

2 .

,

Test auf Hardy-Weinberg-Gleichgewicht (2)

Beachte: Wenn H0 nicht abgelehnt wird, ist das kein Beweis für HWE.

Wenn man HWE beweisen will, benötigt man Äquivalenztests für diese

Situation.

,

Übungsaufgabe 1

AA AB BB

824 1326 463

Angenommen ein bestimmter Phänotyp wird durch die Genotypen zweier

Allele A und B kodiert und es werden die folgenden Häufigkeiten beobachtet:

Bestimmen Sie die Allelfrequenz und die erwartete Genotypverteilung

unter HWE

Wird bei den beobachteten absoluten Häufigkeiten der Genotypen das

HWE signifikant verletzt? Testen Sie zu einem Signifikanzniveau von 5%.

Übungsaufgabe 1

Wichtige Quantile der Chi2 – Verteilung

Anzahl der

Freiheitsgrade

Wahrscheinlichkeit α

m 0,99 0,975 0,95 0,05 0,025 0,01

1 0,00016 0,00098 0,0039 3,841 5,024 6,635

2 0,020 0,051 0,103 5,991 7,378 9,210

3 0,115 0,216 0,352 7,815 9,348 11,340

4 0,297 0,484 0,711 9,488 11,140 13,280

5 0,554 0,831 1,15 11,070 12,830 15,090

df

,

Übungsaufgabe 1 (Lösung)

O (Observed)

p(AA) p(AB) p(BB)

nAA/N nAB/N nBB/N

0.315 0.507 0.177

p(A)=p(AA)+p(AB)/2=0.569

p(B)=1-p(A)=0.431

E (Expected)

p(A) 2 2p(A)p(B) p(B)2

0.324 0.490 0.186

n=nAA+nAB+nBB=2613

,


H0: Die beobachteten Häufigkeiten der Genotypen sind im HWE.

Teste H0 mit 𝛼=0.05 für n=2613 Beobachtungen und m=2 Allele:

Prüfgröße: (𝑂−𝐸)2

𝐸=3.142,

Kritischer Wert: 𝑑𝑓 =𝑚(𝑚−1)

2=1, 𝜒𝑑𝑓;1−𝛼

2 =3.841.

Weil 3.142<3.841 wird H0 nicht verworfen, d.h. das HWE wird für

die beobachteten absoluten Genotyp-Häufigkeiten nicht verletzt.

Zusatzaufgabe p-Wert: P(𝜒12 > Prüfgröße) = 0.076.

Verwandtschaftsanalyse

,

Die Unabhängigkeit von Elementen einer Stichprobe ist eine grund-

legende Annahme in der Statistik. Durch Verwandtschaft ist diese

Annahme verletzt.

IBD: Ein Genlokus in den Individuen X und Y heißt „identical by

descent“, wenn er von einem gemeinsamen Vorfahren ererbt wurde.

IBS: Ein Genlokus in den Individuen X und Y heißt „identical by

state“, wenn er sich nicht zwischen den Individuen X und Y

unterscheidet.

IBS ist leicht festzustellen. Liegen keine Familienstammbäume vor,

muß IBD geschätzt werden.

IBD sharing - Beispiele

,

Burton, Lancet, 2005

Verwandtschaftsanalyse - Beispiel (1)

,

Relatedness

Fre

qu

en

cy

0.0 0.2 0.4 0.6 0.8 1.0

02

46

81

01

2 KORA

Relatedness

Fre

qu

en

cy

0.0 0.2 0.4 0.6 0.8 1.00

50

10

01

50

20

0 Sorbs

Verwandtschaftsschätzer nach Wang, Genetics (2002):

Sorben = convenience sample KORA = Zufallsstichprobe Gross et al., 2011

Verwandtschaftsanalyse – Beispiel (2)

,

Gross et al., 2011

Lower

Bound

Number of

pairs in KORA

Number of

pairs in Sorbs

Odds ratio

(KORA = reference category)

[95% CI]

0.1 79 1889 68 [54;86]

0.2 38 1186 88 [64;126]

0.4 24 666 79 [52;123]

0.6 1 1 3 [0;222]

SNP-Arraydaten

Genetische Marker

Prof. Dr. Markus Scholz , 26

Spezielle Nukleotid-Sequenz mit mindestens einem Unterschied

zwischen mindestens zwei Individuen

leicht meßbar

vererbbar nach Mendelschen Regeln

niedrige Mutationsrate

Kodominanz (Unterscheidbarkeit aller möglichen Genotypen)

Beispiele: Mikrosatelliten, SNPs (single nucleotide polymorphism)

SNPs werden heutzutage fast ausschließlich verwendet

Ca. 100 Mio. SNPs bekannt (1000 Genomes Projekt)

Microarrays können bis zu 5 Mio. SNPs parallel messen

Messung

• Entnahme von Gewebeproben (z.B. Blut, Speichel)

• Extraktion der DNA

• DNA wird amplifiziert (PCR) und mit den Arrays

hybridisiert

• Platten werden gescannt

• Helligkeitswerte der Pixel einer Platte stehen für Allele-

Intensitäten (Hybridisierungsintensität mit spezifischen

Probes) CEL-Files

• Intensitäten lassen sich mittels bioinformatischer

Methoden übersetzen in „Genotyp einer Person an

einem SNP“ „Calling“

Calling-Algorithmen

,

• Bei der Genotypisierung mittels Micro-Arrays werden

Hybridisierungsintensitäten gemessen, die i.d.R.

mittels Clusteranalysen in Genotypen umgerechnet

werden

• Clusterplots Genotypen

• Wichtige Algorithmen: DM (dynamic model), BRLMM

(Bayesian robust linear model), Birdseed, Chiamo

• Software Tools: Genotyping Console (Affymetrix,

Windows), GenomeStudio (Illumina), Powertools

(Affymetrix, Linux), TaqMan OpenArray Genotyping

System (Applied Biosystems, Windows)

Clusterplotvarianten

,

Lo

g(A

llel B

)

Lo

g(A

llel A

*Alle

l B

)

Log(Allel A) Log(Allel A/Allel B)

BB AB

BB

AA

AB

AA

Genotyping Consols (Affymetrix)

,

• Clusterplots

einzelner SNPs

können visuali-

siert werden

• hier schlechte

Qualität

• Inspektion nur

für einzelne

SNPs möglich

Qualitätsprobleme von SNP-Array-Daten

,

Irregularitäten in den Cluster-Plots sind eine Hauptquelle für

Genotypisierungsfehler.

Anney et al., Am J Med Genet B

Neuropsychiatr Genet 2008

Problemstellung

,

• Genotypisierung ist immer fehlerbehaftet

• Ziel: Eliminierung/Verringerung der Fehler(quellen)

durch geeignete Filter (QC = Quality Control)

• am Ende des Prozesses soll eine Matrix/Tabelle stehen

welche jeder Person an jedem SNP einen

vertrauenswürdigen Genotyp zuweist

• wir betrachten dies am Beispiel eines „Axiom CEU

Array“ von Affymetrix mit Daten aus der LIFE-Studie

Typische SNP-Quali-Filter

,

• Autosomale SNPs

• SNP Call-Rate

• Clusterplot-basierte Maße (speziell für AXIOM):

• Fishers Linear Discriminant (FLD)

• Homozygote Ratio Offset (HomRO)

• Heterozygous Cluster Strength Offset (HetSO)

• Abweichung vom Hardy Weinberg Equilibrium (HWE)

• Frequenz des selteneren Alleles (Minor allele frequency,

MAF) oder min. 2maliges Vorkommen des Minorallels

• Platten-Assoziation (speziell für AXIOM Technologie)

Der „perfekte“ Clusterplot

,

• AB-Cluster bei 0 (x-Achse)

• AA-, BB-Cluster bei 2 bzw. -2

(x-Achse)

• AB-Clustermittelpunkt über

der Verbindungslinie der AA-,

BB-Clustermittelpunkte

• Keine oder nur wenige

Punkte, die sich nicht

eindeutig den Clustern

zuordnen lassen

Übungsaufgabe 2

• Auswertung von Clusterplots

• Schauen Sie sich die folgenden Clusterplots an

• Entscheiden Sie, ob die gezeigten SNPs für

Analysen verwendet werden könnten

,

Qualitätsanalyse von SNP-Array-Daten

Überblick

,

Chip-/Plattenweise:

• Dish-QC

• Chip-/Plattenweise Call rate

• irreguläres Verhältnis von Dish-QC und Call rate

• implausible Verwandtschaft

• Auffälligkeiten / Implausi-bilitäten bei Geschlechts-analyse

• PCA-Outlier

• Auffälligkeiten in Plattencharakteristiken

SNP-weise:

• Cluster-Plot-Irregularitäten

• SNP Call rate

• Hardy-Weinberg Equilibrium

• Minor-Allelhäufigkeit

• Batcheffekte

• Spezielle Marker (Gonosomal, pseudo-autosomale Regionen)

Ausschluss weniger Individuen (<5%) und ungefähr 5%-15%

der genotypisierten SNPs

Grundlagen (genomweiter)

Assoziationsstudien

Grundidee genetischer

Assoziationsstudien mit SNPs

,

Krank Gesund

SNP Allel A 500 8 00

SNP Allel B 500 12 00

Häufigkeit von A 50% 40%

SNP dient als Stellvertreter (proxy) eines Krankheitslokus.

SNP muß nicht selbst kausal sein, sondern es genügt

LD mit kausaler Variante.

Ursprung Genetischer Assoziationen

,

Variante B:

Indirekte

Kausalität

Variante A:

Direkte

Kausalität

,

Kopplungsungleichgewicht

(Linkage-disequilibrium LD)

Auf ein- und demselben Chromosom benachbarte Marker werden

gemeinsam vererbt, wenn zwischen ihnen keine Rekombination

stattfindet.

Der Verteilung benachbarter Marker ist deshalb i.d.R. nicht

stochastisch unabhängig. Es besteht eine Assoziation zwischen

benachbarten Markern.

Für die Wahrscheinlichkeitsverteilung der Genotypen der Marker X

und Y gilt dann:

,

Vorhandener

SNP A / a Neu entstandener

SNP B / b in

Nachbarschaft zu

A

Rekombinations-

ereignis

Karsten Krug Diploma thesis 2007 Volle Kombinatorik

Schrittweise Verringerung von LD

Entstehen und Vergehen von

Kopplungsungleichgewichten

Genotypfrequenz vs. Haplotypfrequenz

,

Gemessen / beobachtbar sind i.d.R. nur Genotypen. LD beschreibt

aber den Zusammenhang auf Chromosomenebene (Haplotypen).

Zugrundeliegende (versteckte) Haplotypfrequenzen:

Beobachtbare Genotypfrequenzen:

Dilemma:

Individuen mit dieser

Genotypkonstellation

lassen sich nicht

eindeutig einer

Haplotypkonstellation

zuordnen

Doppeltheterozygoten-Problem

,

Lokus 1 Lokus 2

Genotyp

Mögliche Haplotypen

AB + ab Ab + aB

??

Aa Bb

Das Problem der Haplotypzuordung bei doppelt (mehrfach) Heterozygoten kann nur

näherungsweise durch den Vergleich verschiedener Individuen gelöst werden.

Diesen Prozeß nennt man Phasierung. Eine wichtige Voraussetzung hierfür ist HWE.

Methoden zur Phasierung / Schätzen der

Haplotypfrequenzen

,

Expectation-Maximisation (EM) Algorithmus: z.B. implemetiert

in der Software fastPHASE

Fixpunktanalyse des EM-Algorithmus, Lösen der resultierenden

kubischen Gleichungen (unpubliziert)

Hidden-Markov Modelle (später): implementiert in der Software

MACH

Messen von LD

,

Alle LD-Maße können als

Zusammenhangsmaße auf

Vierfeldertafeln beschrieben

werden. Formale Tests auf

Unabhängigkeit sind i.d.R.

uninteressant. Interessant ist

vielmehr die Stärke des

Zusammenhangs.

p00 p01

p0.

p10

p11

p1.

p.0

p.1

1

LD-Maße (1)

,

Abweichung von Unabhängigkeit

D standardisiert auf [-1,1] (Lewontin’s D’)

p0 .* p .0 + D

p0 .* p .1 - D

p0.

p1 .* p .0 - D

p1 .* p .1 + D

p1.

p. 0

p.1

1

Dieses Maß hängt von den Allelfrequenzen ab und ist ±1 für Tafeln

mit einer Null.

LD-Maße (2)

Dr. Markus Scholz , 49

Korrelationskoeffizient r

r [-1,1] hängt von der Allelfrequenz ab und ist maximal für Tafeln mit

einer verschwindenden Diagonale.

Übungsaufgabe 3

Für zwei SNP-Loci mit den Allelen A/G bzw. C/T werden folgende

Haplotyphäufigkeiten beobachtet:

AC: 550

GC: 150

AT: 50

GT: 250

Bestimmen Sie die Allelfrequenzen und das Kopplungsungleich-

gewicht (D‘, r2) zwischen den Loci


C T

A 0,55 0,05 0,6

G 0,15 0,25 0,4

0,7 0,3

D=0,13

Dmax=0,18

D‘=0,72

r2 = 0,34

Faustregel zur Verwendung

unterschiedlicher LD Maße

,

D‘ ist ein Maß für stattgehabte Rekombinationen zwischen zwei

Markern

r2 misst den Grad der Übereinstimmung von markerbasierten

Teststatistiken z.B. in Assoziationsstudien

r2 ist zudem wichtig für die Konzepte „Tagging“, „Pruning“ und

„Imputation“

LD-Struktur in einer Region

,

r2 D‘

LD Struktur sieht für unterschiedliche Maße deutlich unterschiedlich aus.

Ursprung Genetischer Assoziationen

,

Variante B:

Indirekte

Kausalität

Variante A:

Direkte

Kausalität

Hohes r2

Genetische Modelle (1)

,

Allgemeines genetisches

Modell ohne Kovariablen

Genetische Modelle (2)

,

Additives Modell am flexibelsten

Dominat B = Rezessiv A

Heterozygotenvorteil selten (Beispiel Sichelzellanämie / Malaria)

Problem: Genetisches Modell i.d.R. unbekannt

Rationale genomweiter Assoziationsstudien

(GWAS)

,

Ziel: Identifikation genetischer Modifikatoren beobachtbarer Phänotypen

Hinweise für Vererbbarkeit aus z.B. Zwillingsstudien

„Komplexe Erkrankungen“ -> Polygenetische Effekte: Häufige Varianten mit geringer Penetranz, seltene Varianten mit höherer (?) Penetranz

Kandidatengenansätze häufig nicht replizierbar -> hypothesenfreie Ansätze -> Screening des Genomes mittels Marker (SNPs)

Aktuell ca. 1900 publizierte GWAS, mehrere hundert verschiedenen Phänotypen

Published GWA Reports

58

Published GWAs

59

Stand 05/14: 1920 Publikationen und

13380 SNPs.

Das Problem des Multiplen Testens

Bei einem Test beträgt die Wahrscheinlichkeit, dass man die

Nullhypothese fälschlicherweise ablehnt α

typischer Wert für α ist 0,05

beim mehrmaligen Testen von Hypothesen innerhalb einer

Stichprobe kommt es zu einer sogenannten α-Fehler-

Kumulierung

Testet man zum Beispiel 1 Mio. genetische Varianten erhält man

schon durch Zufall 50.000 signifikante Ergebnisse

Bonferroni-Korrektur

Man möchte die Wahrscheinlichkeit für ein falsch-positives

Ergebnis bei allen Tests auf α begrenzen – Kontrolle der

family-wise error rate (FWER)

Bei L unabhängigen durchgeführten Tests folgt dann

d.h. man teilt das Signifikanzniveau durch die Anzahl der

getesteten Hypothesen

Zum Beispiel bei genomweiten Studien (~ 1 Mio. Tests) wird

häufig 5x10-8 als genomweites Signifikanzniveau genommen

konservativ (viele falsch negative Hypothesen)

LBonferroni

L

Bonferroni

/

)1(1

Power von GWAS – Beispiel Fall/Kontroll Design

,

AF=5% AF=20% AF=40%

OR=1,1 72.000 22.000 15.000

OR=1,2 19.000 5.800 4.000

OR=1,3 8.900 2.700 1.900

Benötigte Fallzahl an Fällen und Kontrollen für 90% Power

bei 0,001% Signifikanz (additives Modell).

Klassisches Mehrstufendesign

,

Hirschhorn & Daly, 2005

Replikationsstufen

Erste Stufe: GWAS

Imputation

Motivation (1)

,

Hintergrund: bei nichteindeutiger Clusterzuordnung der

Intensitäten beider Allele wird Genotyp auf „fehlend“

gesetzt → „Löcher“ im Datensatz

→ durch Imputation können diese fehlenden Genotypen

geschätzt und ersetzt werden. Voraussetzung ist ein

möglichst hohes r2

Mögliches Vorgehen:

• Ausfüllen der Löcher im Datensatz ohne Referenz

• Ausfüllen der Löcher im Datensatz mit Referenz

• Schätzen von nichtgemessenen Genotypen mittels

Referenz

Motivation (2)

,

Nutzen:

• Vervollständigen der Daten für Analysezwecke

• Konstruktion einer gemeinsamen Marker-Menge für

genetische Metaanalysen von Studien mit unterschiedlichen

Genotypisierungsplattformen

• Erhöhung der Power trotz größerem Multiplizitäts-problem

(später)

• Korrektur von Genotypisierungsfehlern (in geringem Maße)

Problem:

• Imputation ist ein Schätzverfahren

• Unsicherheit der resultierenden Genotypen muss bei der

nachfolgenden Analyse geeignet berücksichtigt werden

Imputationsprinzip

Dr. Markus Scholz , 67

Datensatz mit

fehlenden Genotypen

Referenz z.B.

HapMap, 1000 Genomes

-> Haplotypstruktur

Imputierter Datensatz

mit Unsicherheit

Marchini, 2010

Referenzdaten

,

Werden von großen Konsortien für wissenschaftliche

Projekte kostenlos zur Verfügung gestellt

zwei häufig verwendete Referenzen:

• International HapMap Project

• aktuell phase 3 release 28

• 174 CEU samples, ≈ 4 Millionen SNPs

• 1000 Genomes Project

• Meist verwendet Phase 1 Release 3

• 1092 samples und ≈ 38,2 Millionen SNPs

• Aktuell: Phase 3 ≈ 80 Millionen SNPs

Ergebnisse der Imputation

,

snpid chr pos allel1 allel2 ID1_prob_11ID1_prob_12ID1_prob_22ID2_prob_11ID2_prob_12ID2_prob_22

rs11127467 2 2994 C G 0,99 0,01 0 0,02 0,97 0,01

rs10193286 2 5491 C G 0,09 0,9 0,01 0,01 0,1 0,89

rs4632379 2 5672 A G 0,3 0,3 0,4 0,99 0,01 0

rs7594188 2 11494 C T 0,97 0,02 0,01 0,02 0,97 0,01

Wahrscheinlichkeitsverteilung der

Genotypen von Individuum 1 bzw. 2

Homozygot

Allel 2

Homozygot

Allel 1

Heterozygot

Genomweite Assoziationsanalyse

Aufgaben

,

Assoziationstests

• Einzel-SNP, verschiedene genetische Modelle

• Scoring-Tests

• Haplotypbasierte Analysen, Fine-Mapping

• Metaanalyse

• SNPxSNP, SNPxKovariablen Interaktionen

• Subgruppenanalysen (Power-Problem)

Post-Analyse QC

Graphische Aufbereitung

Extraktion von Kandidaten

Replikation

Vergleich mit Online Ressourcen

Pathway-basierte Analysen

GWAS Ergebnisse – Manhattan Plot

Dr. Markus Scholz , 72 Teupser et al., Circ. Card.

Vasc. Gen. 2010

Campesterol (additives Modell)

Keine signifikante

Assoziation -> verworfen

Genomweite Signifikanz

Keine genomweite Signifikanz

aber Kandidaten -> Replikation

GWAS Ergebnisse – Toplisten

,

Teupser et al., 2010

QQ-Plot Analyse (post-hoc

Qualitätsanalyse)

,

Expected T-statisticsExpected T-statistics

Keine offensichtliche

Inflation

Inflation der Teststatistiken

-> erfordert Korrektur

Idee: Die Mehrzahl der SNPs sollte nicht assoziiert sein, d.h. einer Nullverteilung entsprechen.

Das „Chop-stick“ Phänomen

,

Gedankenexperiment:

Phänotyp: Fähigkeit mit Stäbchen zu essen

Studienpopulation: Gemisch aus Europäern und Asiaten

Alle SNPs mit unterschiedlicher Allelfrequenz zwischen Europäern

und Asiaten (viele!) sind mit dem Phänotyp assoziiert Inflation der

Teststatistiken

Dieses Phänomen nennt man Stratifikationsbias. Es ist nicht immer

so leicht zu erkennen wie in diesem Beispiel.

Andere Möglichkeit der Entstehung: Verwandtschaft zwischen den

Individuen

Beispiel

,

Population 1 Population 2

Allel A Allel B Allel A Allel B

Fälle 10 90 40 20

Kontrollen 90 810 20 10

4,3110/110/820*50

120/20/10*40

190/90/810*10

2

1

gepooltOR

OR

OR Grund für den Widerspruch sind die

unterschiedlichen Allelfrequenzen in

den Datensätzen. Dies ist eine

Variante des Simpson Paradoxons.

Möglichkeiten der Bekämpfung von

Stratifikationsbias

,

Stratifizierte Analyse: Vorteil: funktioniert am besten, Nachteil:

erfordert Kenntnis der Strata

Adjustierung auf Hauptkomponenten: Vorteil: einfach

durchführbar, Nachteil: Erhöht Freiheitsgrade der

Assoziationsmodelle, beseitigt Stratifikation nicht immer vollständig,

erfordert genomweite Daten

Local ancestry: Vorteil: Kann mit „Mischlingen“ umgehen, Nachteile

wie bei „Adjustierung auf Hauptkomponenten“, erfordert genomweite

Daten

Gemischte Modelle (Assoziation mit Korrelationsstruktur): Vorteil:

geeignet bei Verwandtschaft, Nachteil: hohe Rechenbelastung

Genomic Control: Einfache, phänomenologische Korrektur bei

geringer Inflation, erfordert genomweite Daten

Regional association plot

78

Gene in der

Region

Tophit

Markers in LD

mit Tophit

LD Legende

Habloblock-

grenzen

Abgleich mit GWAS Katalog

,

Discovery Reported r2 First.Author Journal Disease.Trait

rs715 rs7422339 0,842168 van Meurs JB Am J Clin Nutr Homocysteine levels

rs715 rs7422339 0,842168 Danik JS Circ Cardiovasc Genet Fibrinogen

rs715 rs7422339 0,842168 Kottgen A Nat Genet Chronic kidney disease

rs715 rs7422339 0,842168 Lange LA Hum Mol Genet Homocysteine levels

rs715 rs2216405 0,563705 Suhre K Nature Metabolic traits

rs715 rs2371030 0,371124 Lee Y Carcinogenesis Non-small cell lung cancer

• http://www.genome.gov/gwastudies/

• Ist mein SNP schon im Zusammenhang mit dem betrachteten

Phänotyp beschrieben worden?

• Gibt es pleiotrope Effekte die z.B. auf gemeinsame

Pathomechanismen schließen lassen?

http://www.genome.gov/gwastudies/

http://www.genome.gov/gwastudies/

Benachbarte Gene

markername nearestgenes gene_biotype nearestgene

rs146322229

TUFT1 (0kb), MIR554

(18kb), CGN (25kb)

protein_coding, miRNA,

protein_coding tuftelin 1

rs79558903

ATP6V0E1P3 (34kb),

FAM98A (37kb),

RASGRP3 (71kb)

pseudogene, protein_coding,

protein_coding

ATPase, H+ transporting, lysosomal 9kDa, V0

subunit e1 pseudogene 3

rs75867881

chr2:1649346

26:D

PRPS1P1 (140kb),

CYP2C56P (240kb) pseudogene, pseudogene

phosphoribosyl pyrophosphate synthetase 1

pseudogene 1

Weitere Schritte

,


GWAS allein ist

nicht genug

Replikation


Vorsicht bei kombi-

nierter Analyse!

„Winners curse“

Genetische Assoziationsstudien - uni-leipzig.de...Heritabilität - Anteil der Varianz eines Merkmals...

Documents

Transcript of Genetische Assoziationsstudien - uni-leipzig.de...Heritabilität - Anteil der Varianz eines Merkmals...