Seminar Fortgeschrittene Algorithmische Bioinformatik Oligodesignprobleme von Oliver Arnold & Jan...

Seminar Fortgeschrittene Algorithmische Bioinformatik

Oligodesignprobleme

Oliver Arnold & Jan Hendrik Nielsen

Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme 2

Gliederung

Erster Teil: Einführung in DNA-Chip Design

Einleitung DNA-Chips

Aufbau von cDNA-Chips Aufbau von Oligo-Chips Beobachtung der Genexpression Synthese der Oligonukleotide Merkmale der Oligo-Chips Kriterien für optimale Oligos Anwendungsgebiete

Zweiter Teil: Algorithmen zur Konstruktion von Oligos später ...

DNA-Chips

werden allgemein benutzt um zu ermitteln ob Gene exprimiert sind (kodieren für Proteine)

hauptsächlich 2 Arten von Chips: cDNA Microarrays (Incyte Inc.) Oligonucleotide Microarrays (Affymetrix)

Spots auf dem Chip müssen einzigartig für ein Gen sein (Spezifität)

Spots müssen dieses Gen entdecken (Sensitivität) alle Spots sollten unter den gleichen Bedingungen

funktionieren, z.B. Temperatur (Einheitlichkeit)

Aufbau von cDNA-Chips

10000 Gene auf einem Chip Oberfläche ist aus beschichtetem Glas hohe Sensitivität, wegen langer Probe-Sequenzen aber niedrige Spezifität, wegen vieler Fehl-Hybridisierungen Probes können nicht zwischen ähnlichen oder gleichen

Subsequenzen unterscheiden dadurch auch nicht zwischen Gen-Familien mehrere cDNAs für ein Gen (Fehl-Hybridisierung!)

Aufbau von Oligo-Chips

9000 Gene auf einem Chip Oberfläche für Oligos ist aus

beschichtetem Glas oder Silizium

Oligos sind in Arrays angeordnet (65000-500000 auf einem Chip)

jedes Array (Spot) "erkennt" ein Gen

extrahierte Gene (targets) lagern sich an Oligos (probes) an Hybridisierung

Beobachtung der Genexpression (1)

Extrahieren der Gene (mRNA) aus einem Referenz- und einem Mutationstyp

Reverse Transkription um cDNAs zu erzeugen

Vervielfältigung der cDNAs durch PCR

Markierung der Gene mit unterschiedlich fluoreszierenden Farbstoffen (z.B. rot und grün)

"Fluten" des Chips mit markierten cDNAs

Beobachtung der Genexpression (2)

Temperatur-Erhöhung um Fehl-Hybridisierungen zu denaturieren

Waschen des Chips Beseitigung von ungebundener cDNA

Auswertung der Daten, bzw. Messen der Intensität der Farbstoffe

Synthese der Oligonukleotide

benutzte Methode: Photolitographie Oligos können parallel erzeugt werden Maske mit Löchern wird benutzt

ultraviolettes Licht tritt nur durch die Löcher beschienene Oligos werden "aktiviert" Basen/Nukleotide können sich anlagern Chip wird mit Nukleotiden einer Art "geflutet" ungebundene Basen werden abgewaschen nächste Maske wird benutzt Wiederholung der einzelnen

Schritte (ca. 70 mal)

Merkmale der Oligo-Chips (1)

Oligos werden nur durch bekannte Sequenz-Informationen produziert

jedes Oligo wird mit einem Mismatch-Oligo gepaart, unterscheiden sich nur im Zentrum (durch eine Base)

typischerweise werden 20 Paare von Oligonukleotiden zur Erkennung eines Gens verwendet (ein Spot)

Fehl-Hybridisierungen können erkannt werden Oligos, die weniger (oder gleich) hybridisieren als Mismatch-Oligos,

implizieren geringe Spezifität

Merkmale der Oligo-Chips (2)

es gibt zwei Typen von Oligo-Chips short Oligo-Chips (Länge: 20-25 bp) long Oligo-Chips (Länge: 50-70 bp)

oft wird nur ein Oligonukleotide gebraucht, um ein Gen zu erkennen weniger Fehl-Hybridisierungen

mögliche sich wiederholende oder ähnliche Sequenzen vermeidbar

dadurch höhere Spezifität Chips noch relativ teuer gute Methoden/Algorithmen werden benötigt, um Oligos zu

erzeugen

Kriterien für optimale Oligos

6 Kriterien1. Base Composition Limit: keine der Basen sollte 50% eines

Oligos ausmachen

2. Base Distribution Limit: Folge eines Basentypes sollte nicht 25% eines Oligos überschreiten

3. GC-Content: sollte zwischen 30% und 70% liegen

4. Sekundärstruktur: Oligos sollten keine Dimers oder Hairpins ausbilden

5. Länge eines zusammenhängenden, komplementären Match zu non-targets sollte kleiner als 15 bp sein

6. Anteil der komplementären Nukleotide im Verhältnis zu non-targets sollte kleiner als 75% sein

Kriterien 1, 2 und 4 sind implizit in den anderen Bedingungen enthalten

Anwendungsgebiete (1)

Erkennen von SNP‘s (Single Nucleotide Polymorphism) die zusammenhängende Gensequenz wird durch sich

überschneidene Oligos der Länge 25 bp repräsentiert drei Permutationen von jedem Oligo werden mit auf den Chip

gepackt unterscheiden sich bloß im zentralen Nukleotid

dadurch können alle SNP‘s eines Gens durch den Chip erkannt werden

Anwendungsgebiete (2)

Beobachtung der Effekte, Effizienz und Metabolismus von Medikamenten Leber = Hauptwirkungsstätte bei der Umwandlung von

Medikamenten und Hormonen Untersuchung der Gene aus dem Leber-Gewebe daher

repräsentativ für den ganzen Organismus Vergleiche der Genexpressionen können helfen die Wirkung

von Medikamenten festzustellen Verstehen von Krankheitsverläufen Bestimmen, welche Gene verschiedene Gewebe- und Zell-

Typen exprimieren

Es geht weiter ...

Zweiter Teil: Algorithmen zur Konstruktion von Oligos

Einleitung Worum geht es?

Methoden der DNA-Array-Synthese SADP – Synchronous Array Design Problem

der Epitaxial-Algorithmus der Row-Epitaxial-AlgorithmusMatching

AADP – Asynchronous Array Design Problem Algorithmen für „in-place Optimierung“:

Batched Greedy, Chessboard & der Sequential Algorithmus

Einleitung - Worum geht es? (1)

Oligodesignproblem (siehe vorheriger Teil) Heute 500.000 Proben pro Chip (Tendenz steigend) Prozess der Beleuchtung zur Verkettung von Nukleotiden

fehleranfällig optische Effekte (Beugung, Brechung, etc.) können

unbeabsichtigte Beleuchtung verursachen als Folge: unvorhergesehene Synthese (und vieles mehr…)

Lösung: Auswahl der Platzierung von Nukleotiden Border Minimization Problem (BMP)

Einleitung - Worum geht es? (2)

Border: Grenze zwischen zwei benachbarten Proben maskiert / unmaskiert Anzahl wird als conflicts bezeichnet

Minimization: Verteilung der Proben mit möglichst kleiner Border Length (Summe der Border über alle Masken)

Methoden der DNA-Array-Synthese (1)

Synchrone Synthese: Jede Periode der

Supersequenz S (= ACGT) synthetisiert ein einzelnes Nukleotid

Asynchrone Synthese: Erlaubt willkürliches

Einsetzen der Nukleotide

Methoden der DNA-Array-Synthese (2)

Synchrones, sowie asynchrones Array-Design kann durch Angabe einer mutmaßlichen unteren Grenze errechnet werden. Basierend auf:

dem Hammingabstand bei synchroner Synthese dem LCS bei asynchroner Synthese

Aber: sehr langsam exakt

deshalb nur Verwendung zum Vergleich der später vorgestellten Heuristiken

SADP – Synchronous Array Design Problem

Ursprüngliche Vorgehensweise: Berechnung der Konflikt-Distanz: d(p, p‘) = 2h(p, p‘),

wobei p ≡ Proben und 2h ≡ zweifacher Hammingabstand

danach TSP-Heuristik, um die Nukleotide mit minimiertem Hammingabstand auf einer Site anzuordnen (Hannenhalli et al., 2002; erstes Arraydesign bei Affymetrix)

Aber: es geht "besser" (dieser Ansatz optimiert nur etwa die Hälfte der benachbarten Paare) …

Der "epitaxial placement approach": Ursprung in der VLSI (Very Large Scale Integration) Idee: Zweidimensionale Anordnung von Proben um

einen einzelnen (zufällig gewählten und zentralen) Startpunkt (seed)

Epitaxial-Algorithmus ist nur bis zu einer Chipgröße von 300 x 300 Proben praktikabel

daher: Skalierung durch Aufteilung in K Subsets (chunks) Nachteil:

begrenzte Platzierungsmöglichkeit; Probe kann nicht überall auf dem Array angelegt werden (nur in ihrem Subset)

keine Optimierung der Grenzen zwischen den chunks

Der Epitaxial-Algorithmus

Verbesserung (Kahng et al.): row-epitaxial-algorithm

Drei Haupteigenschaften:

1. Umstrukturierung einer vorab optimierten, bestehenden

Anordnung - erste Platzierung kann durch verschiedene

Algorithmen erfolgen (z.B. Gray Code) muss sehr schnell sein - TSP (Hannenhalli et al.) braucht

zu lange gute initial-Anordnung: lexikographische Sortierung der

Proben (radix sort)

2. Auffüllung der leeren Flächen mit Proben, in einer vordefinierten Reihenfolge (von links nach rechts, Reihe für Reihe)

3. die Proben werden aus den nächsten k0 Reihen gewählt

k0 = Lookahead beim Algorithmus

dadurch Geschwindigkeit des Algorithmus erhöht

je größer k0, desto besser ist das Ergebnis

jedoch schlechtere Laufzeit

Vergleich der bisher vorgestellten Algorithmen

AADP – Asynchronous Array Design Problem

Algorithmen für "in-place Optimierung" Der Batched Greedy Algorithmus:

sucht die Probe mit höchstem "Gewinn" nach Umsetzung

und aktualisiert seine "Gewinnliste"

Die Chessboard Optimization Idee: Maximiere Anzahl unabhängiger Nukleotide Ein Nukleotid ist unabhängig, wenn das Vertauschen

die optimale Einbettung des Anderen nicht beeinflusst. Zweifärben der Array-site (Schachbrett);

alle weißen/schwarzen Felder können untereinander neu

angeordnet werden

Der Sequential Algorithmus ermöglicht optimale Umsortierung der Nukleotide geht Array Reihe für Reihe durch

Nachteil von Batched Greedy, Chessboard: nur unabhängige Nukleotide werden vertauscht Auswirkungen verbreiten sich langsam

Das wird durch die sequentielle Abarbeitung gelöst

Quellenangabe

Paper: [1]Scalable Heuristics for Design of DNA Probe Arrays - Andrew B. Kahng, Ion I.

Măndoiu, Pavel A. Pevzner, Sherief Reda and Alexander Z. Zelikovsky DNA chips: promising toys have become powerful tools - David Gerhold,

Thomas Rushmore and C. Thomas Caskey Picky: oligo microarray design for large genomes - Hui-Hsien Chou, An-Ping

Hsia, Denise L. Mooney and Patrick S. Schnable

Links: [2]http://www.affymetrix.com http://www.charite.de/molbiol/bioinf/tumbiol/Microarrayanalysis/Introduction/ http://www.math.tau.ac.il/~rshamir/algmb/00/scribe00/html/lec11/node11.html http://www.stat.berkeley.edu/users/terry/Classes/s260.1998/Week9b/week9b/

node1.html http://www.lshtm.ac.uk/itd/grf/microarrayoverview.htm http://www.hhmi.org/biointeractive/genomics/microarray.html

Seminar Fortgeschrittene Algorithmische Bioinformatik Oligodesignprobleme von Oliver Arnold & Jan...

Documents

Transcript of Seminar Fortgeschrittene Algorithmische Bioinformatik Oligodesignprobleme von Oliver Arnold & Jan...

Softwarewerkzeuge der Bioinformatik

Direct Mail Letterbox - bvdp.de · Copyright © Juli 2011 Nielsen Media Research GmbH. All rights reserved. 1 Nielsen and the Nielsen logo are trademarks of The Nielsen Company. Direct

Proteinquantifizierung Standardisierung Bioinformatik

Nielsen Daten und Fakten 1. Halbjahr 2018 mobile ... · Nielsen DCM . DATEN UND FAKTEN ZUR INTERNETNUTZUNG – 1. Halbjahr 2018 . AUF BASIS VON NIELSEN DIGITAL CONTENT MEASUREMENT

Algorithmische Mathematik 2

1 Whole Genome Alignment mit Suffixbäumen Fortgeschrittene Algorithmische Bioinformatik SoSe 2005 Emre Kutbay.

DEUTSCHLAND 2014 - nielsen.com file2 © The Nielsen Company (Germany) GmbH NIELSEN – DAS UNTERNEHMEN Verbraucherpreisindex Nielsen ist ein weltweit führendes Informations‐ und

Preislisten nielsen ora 2015

Bioinformatik: Schlüssel zum Lebensplan

Algorithmische Bioinformatik 1 - TUM · Algorithmen zur Textsuche Boyer-Moore-Algorithmus Bestimmung der Shift-Tabelle: ˙>j ZweiterFall(˙>j):manmussalleRändervons durchlaufen.

Digital Facts - Worldwide | Nielsen · 3 Copyright © Juli 2012 Nielsen Media Research GmbH Nielsen Digital Facts FMCG Online-Shops FMCG Online-Shops nach Kategorien Internetbesucher

Algorithmische Farbfilmästhetik. - UZHbed543b6-4a67-4ff8-8f51-b85a... · 2017. 1. 28. · Olivia Kristina Stutz Algorithmische Farbfilmästhetik Einleitung Universität Zürich,

Seminar Fortgeschrittene algorithmische Bioinformatik, SS05 Shift-And und Karp-Rabin Seminar Fortgeschrittene algorithmische Bioinformatik SS 2005 Wadim.

SST - Sequence Search Tree Franziska Brosy Seminar - Fortgeschrittene algorithmische Bioinformatik weitere Form der Ähnlichkeitssuche.

Einführung in die Bioinformatik - ab.inf.uni-tuebingen.de · Einführung in die Bioinformatik Kay Nieselt Integrative Transkriptomik Zentrum für Bioinformatik Tübingen Kay.Nieselt@uni-tuebingen.de

Seminar Algorithmische Geometrie

Algorithmische Bioinformatik · 2015. 10. 13. · – Ohlebusch: "Bioinformatics Algorithms", Verlag Enno Ohlebusch. – David Mount: „Bioinformatics. Sequence and Genome Analysis“,

ENTWICKLUNG€¦ · Nielsen-Gebiet 3a: (Hessen, Rheinland-Pfalz, Saarland) 12,4 2 956 Nielsen-Gebiet 3b: (Baden-Württemberg) 22,3 5 313 Nielsen-Gebiet 4: (Bayern) 16,8 4 013 Nielsen-Gebiet

Algorithmische Komposition und Live-Elektronik

Digitale Öffentlichkeit - Wie algorithmische Prozesse den ... · Digitale Öffentlichkeit Wie algorithmische Prozesse den gesellschaftlichen Diskurs beeinflussen - Arbeitspapier