Post on 07-Jul-2020
1
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 1
Datenintegration in derBioinformatik
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 2
SOAP /HTTP
BPEL
XML
WSDL
Verhalten
Organisation
Daten
Funktionen
Verhalten
Organisation
Daten
Funktionen
InterfaceInterface
Kommunikation
Web Service A Web Service B
Eine Anleihe bei Prof. Reisig(Vorangegangene RingVL)
2
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 3
Verhalten
Organisation
Daten
Funktionen
Verhalten
Organisation
Daten
Funktionen
InterfaceInterface
Kommunikation
Gegenstand heute
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 4
Ursprüngliche Vortragsankündigung:
R. Eckstein, S. Heymann
XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich
(Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")
XML hat auch in der Bioinformatik Einzug gehalten - zum Datenaustausch, aber auch zur Repräsentation der komplexen Informationen. Im ersten Teil werden Aspekte von XML sowie weitergehende Entwicklungen vorgestellt, die für den Life Science Bereich von besonderem Interesse sind. Dazu gehören die konzeptionelle Modellierung von Dokumentschemata sowie für semantische Informationen über die Biodaten. Im zweiten Teil wird ein Überblick für XML-Anwendungen im Life Science Bereich gegeben und ein typisches Anwendungsbeispiel aus dem Forschungsgebiet Biodiversität & Ökologie erläutert: Die Erfassung und Darstellung von Taxonomie-Daten, den Ubergang von klassischen Morphologie-basierten botanischen Schulen zu genbasierter Kladistik. Es wird demonstriert, wie die Konflikte behandelt und die Daten in ein navigierbares Graphenformat transponiert werden. Dabei kommt der GeneViator zum Einsatz.
3
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 5
Die Vortragsankündigung hätte man auch formularbasiert schreiben können:
Referenten: R. Eckstein, S. Heymann
Titel: XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich
Untertitel: (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")
Zusammenfassung: ... Die Erfassung und Darstellung von Taxonomie-Daten, den Ubergang von klassischen Morphologie-basierten botanischen Schulen zu genbasierter Kladistik. Es wird ...
//
Herkömmliche Dokumentkonventionen
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 6
Die Vortragsankündigung hätte man auch formularbasiert schreiben können:
Referenten: R. Eckstein, S. Heymann
Titel: XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich
Untertitel: (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")
Zusammenfassung: ... Die Erfassung und Darstellung von Taxonomie-Daten, den Ubergang von klassischen Morphologie-basierten botanischen Schulen zu genbasierter Kladistik. Es wird ...
//
Herkömmliche Dokumentkonventionen
(Karteikartenprinzip)
4
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 7
Gensequenzen: Beispiel SARS
LOCUS AY274119 29736 bp RNA linear VRL 14-APR-2003
DEFINITION SARS coronavirus TOR2, complete genome.
ACCESSION AY274119
VERSION AY274119.1 GI:29826276
KEYWORDS .
ORGANISM SARS Coronavirus Tor2
.......
BASE COUNT 8475 a 5940 c 6186 g 9135 t
ORIGIN
1 ctacccagga aaagccaacc aacctcgatc tcttgtagat ctgttctcta aacgaacttt
61 aaaatctgtg tagctgtcgc tcggctgcat gcctagtgca cctacgcagt ataaacaata
...
29641 agccctaatg tgtaaaatta attttagtag tgctatcccc atgtgatttt aatagcttct
29701 taggagaatg acaaaaaaaa aaaaaaaaaa aaaaaa
//
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 8
Grösse der Datensammlungen
EMBL July 2002
> 150 GbytesMicroarray
1 Petabyte p.A.Sanger Centre
20 TB an DatenGenome Sequenzenwachsen p.A. um das Vierfache
5
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 9
<vortrag>
<autor> R. Eckstein </autor>
<autor>S. Heymann </autor>
<titel>XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich</titel>
<untertitel>Schwerpunkt "Große Datenräume in Web-basierten Umgebungen„</untertitel>
<zusammenfassung> ... Die Erfassung und Darstellung von Taxonomie-Daten, den Ubergang von klassischen Morphologie-basierten botanischen Schulen zu genbasierter <term ref="http://...">Kladistik</term>. Es wird ... </zusammenfassung>
</vortrag>
Struktur – Verarbeitbarkeit
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 10
<vortrag>
<autor> R. Eckstein </autor>
<autor>S. Heymann </autor>
<titel>XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich</titel>
<untertitel>Schwerpunkt "Große Datenräume in Web-basierten Umgebungen„</untertitel>
<zusammenfassung> ... Die Erfassung und Darstellung von Taxonomie-Daten, den Ubergang von klassischen Morphologie-basierten botanischen Schulen zu genbasierter <term ref="http://...">Kladistik</term>. Es wird ... </zusammenfassung>
</vortrag>
Struktur – Verarbeitbarkeit
Lesbarkeit Struktur Verarbeitbarkeit
6
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 11
<vortrag>
<autor> R. Eckstein </autor>
<autor>S. Heymann </autor>
<titel>XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich</titel>
<untertitel>Schwerpunkt "Große Datenräume in Web-basierten Umgebungen„</untertitel>
<zusammenfassung> ... Die Erfassung und Darstellung von Taxonomie-Daten, den Ubergang von klassischen Morphologie-basierten botanischen Schulen zu genbasierter <term ref= http://www.visualgenomics.ca/gordonp/xml/ > Kladistik</term>. Es wird ... </zusammenfassung>
</vortrag>
Strukturierter Text
EXTENSIBLE MARKUP LANGUAGE
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 12
EXTENSIBLE MARKUP LANGUAGE
Beschreibungssprachen im Bio-Bereich: http://www.visualgenomics.ca/gordonp/xml/
<vortrag>
<autor> R. Eckstein </autor>
<autor>S. Heymann </autor>
<titel>XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich</titel>
<untertitel>Schwerpunkt "Große Datenräume in Web-basierten Umgebungen„</untertitel>
<zusammenfassung> ... Die Erfassung und Darstellung von Taxonomie-Daten, den Ubergang von klassischen Morphologie-basierten botanischen Schulen zu genbasierter <term ref= http://www.visualgenomics.ca/gordonp/xml/ > Kladistik</term>. Es wird ... </zusammenfassung>
</vortrag>
7
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 13
EXTENSIBLE MARKUP LANGUAGE
Beschreibungssprachen im Bio-Bereich: http://www.visualgenomics.ca/gordonp/xml/
<vortrag>
<autor> R. Eckstein </autor>
<autor>S. Heymann </autor>
<titel>XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich</titel>
<untertitel>Schwerpunkt "Große Datenräume in Web-basierten Umgebungen„</untertitel>
<zusammenfassung> ... Die Erfassung und Darstellung von Taxonomie-Daten, den Ubergang von klassischen Morphologie-basierten botanischen Schulen zu genbasierter <term ref= http://www.visualgenomics.ca/gordonp/xml/ > Kladistik</term>. Es wird ... </zusammenfassung>
</vortrag>
Handbücher Dokumenttypdefinitionen
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 14
DTD:
<!ENTITY % local.aa_type.value "">
<!ENTITY % aa_type "type (A|B|C|D|E|F|G|H|I|K|L|M
|N|P|Q|R|S|T|V|W|X|Y|Z
%local.aa_type.value;)
#REQUIRED">
Kompendium aller Erkenntnisse
8
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 15
<!ENTITY % local.aa_type.value ""> (bis 2002)
<!ENTITY % aa_type "type (A|B|C|D|E|F|G|H|I|K|L|M
|N|P|Q|R|S|T|V|W|X|Y|Z
%local.aa_type.value;)
#REQUIRED">
DTD’s: Kompendium neuer Erkenntnisse
<!ENTITY % local.aa_type.value ""> (seit Feb. 2003)
<!ENTITY % aa_type "type (A|B|C|D|E|F|G|H|I|K|L|M
|N|P|Q|R|S|T|V|U|W|X|Y|Z
%local.aa_type.value;)
#REQUIRED">
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 16http://www.visualgenomics.ca/gordonp/xml/
Beispiele aus der Abstammungslehre
9
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 17http://www.visualgenomics.ca/gordonp/xml/
Homo sapiens:
Other names:
man[common name]
Lineage( full )
cellular organisms; Eukaryota; Fungi/Metazoa group; Metazoa;Eumetazoa; Bilateria; Coelomata; Deuterostomia; Chordata;Craniata;Vertebrata; Gnathostomata; Teleostomi; Euteleostomi;Sarcopterygii; Tetrapoda; Amniota; Mammalia; Theria; Eutheria; Primates; Catarrhini; Hominidae; Homo/Pan/Gorilla group; Homo
Beispiele aus der Abstammungslehre
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 18http://www.visualgenomics.ca/gordonp/xml/
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="HTMLOutput.xsl"?>
<!DOCTYPE MultipleClassifications SYSTEM "XMLOutput.dtd">
<MultipleClassifications Order="Alpha">
<!--#NEXUS [18-Dec-2001 16:59:36]-->
<ranks>
<rank RankID="Family"><rankName>Family</rankName><rankValue>10</rankValue></rank>
<rank RankID="Sub-Family"><rankName>Sub-Family</rankName><rankValue>15</rankValue></rank>
<rank RankID="Legion"><rankName>Legion</rankName><rankValue>17</rankValue></rank>
<rank RankID="Tribe"><rankName>Tribe</rankName><rankValue>20</rankValue></rank>
<rank RankID="Sub-Tribe"><rankName>Sub-Tribe</rankName><rankValue>25</rankValue></rank>
<rank RankID="Grex"><rankName>Grex</rankName><rankValue>27</rankValue></rank>
<rank RankID="Genus"><rankName>Genus</rankName><rankValue>30</rankValue></rank>
</ranks>
<taxa>
<taxon RankIDREF="Family" TaxonID="TApiaceae">Apiaceae</taxon>
<taxon RankIDREF="Sub-Family" TaxonID="TPauciiugatae">Pauciiugatae</taxon>
...
Beispiele aus der Abstammungslehre
10
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 19
Hypothese Design Integration
Annotation /Wissens-
Repräsentation
Informations-quellen
InformationFusion
KlinischeBeobachtunge
individualleMedizin
Data Mining
Case-BasedReasoning
DatensammlungKlinische
Bilder/SignaleGenomic/Proteomic
Analyse
Knowledge Repositories
Modell- & Analyse-bibliotheken
Beispiel: Genetik & Medizin
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 20
Herausforderungen…
Formatheterogenität
Datenheterogenität / Anzahl der Datenquellen
Umfang der Daten / Grösse der Datensammlungen
Zugriffsheterogenität
11
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 21
Formatheterogenität
Multimedia: Bilder & Video (e.g. microarrays, 3D, ...)
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 22
Formatheterogenität (cont.)
Text “Annotationen” & Literaturstrukturiert vs. semistrukturiert vs. unstrukturiert
Unterschiedliche Formate, Strukturen, Schemata, Umfänge, …
Web-Schnittstellen, Verteilung als Dateien, Datenbank-Dumps, XML-Dokumente, …
ID TRBG361 standard; RNA; PLN; 1859 BP.XXAC X56734; S46826;XXSV X56734.1XXDT 12-SEP-1991 (Rel. 29, Created)DT 15-MAR-1999 (Rel. 59, Last updated, Version 9)XXDE Trifolium repens mRNA for non-cyanogenic beta-glucosidaseXXKW beta-glucosidase.XXOS Trifolium repens (white clover)OC Eukaryota; Viridiplantae; Streptophyta; Embryophyta.OC Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots. OC eurosids I; Fabales; Fabaceae; Papilionoideae; Trifolieae.XX
12
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 23
Daten-/Inhaltsheterogenität
Genomische, proteomische, transcriptomische, metabalomische, Protein-Protein Interactionen, regulatorische Bio-Netzwerke, Alinierungen, Krankheiten, Patterns & Motifs, Proteine Structuren, Proteinklassifikationen und -familien, spezielle Proteine(Enzyme, Receptoren), …
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 24
Zugriffsheterogenität
13
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 25
Genomisch relevante Bereiche
DNAGenome
RNATranscriptome
Amino AcidsProteome
Pathways Life Evolution
Environment Diseases Experiments
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 26
Inhalt von Datenquellen
DNAGenome
RNATranscriptome
Amino AcidsProteome
Pathways Life Evolution
Environment Diseases Experiments
EMBLRefSeq
LocusLinkEMBL (EST) SWISS-PROT
Interpro
OMIM
TaxonomyBrendaKEGG
Express
Gene Ontology
14
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 27
Datenmodellierung
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 28
Datenmodellierung
EMBL
TAXONOMY
SWISSPROT
KEGG
BIND
ENSEMBL
UniGene
LIMEPCLUST
GO
15
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 29
ANALYSISAnalysis_Key
Analysis_Decision
ALGORITHMAlgorithm_key
Algorithm_Name
SNP_FREQUENCYFrequency_Key
Linkage_KeyPopulation_KeyAllele_KeyAllele_Frequency
SNP_POPULATIONPopulation_Key
Sample_Size
ALLELEAllele_Key
Map_KeyAllele_NameBase_Change
PCR_PROTOCOLProtocol_Key
Method_KeySource_KeyBuffer_Key
STS_SOURCESource_Key
QUALIFIERQualifier_Key
Map_KeyChip_KeyGene_Name
RNA_SOURCERNA_Source_Key
Treatment_KeyGenotype_KeyCell_Line_KeyTissue_KeyDisease_KeySpecies
CHIPChip_Key
Chip_NameSpecies
PARAMETER_SETParameter_Set_Key
GE_RESULTSResults_Key
Analysis_KeyParameter_Set_KeyQualifier_KeyRNA_Source_KeyExpression_LevelAbsent_PresentFold_ChangeType
SCOREScore_Key
Alignment_KeyP_ValueScorePercent_Homology
ALIGNMENTAlignment_Key
Algorithm_keySequence_Key
PARAMETER_SETParametet_Set_Key
Algorithm_key
SEQUENCE_DATABASESeq_DB_Key
Seq_DB_Name
SEQUENCESequence_Key
Map_KeyQualifier_KeySeq_DB_KeyTypeName
MAP_POSITIONMap_Key
DISEASEDisease_Key
Name
TISSUETissue_Key
Name
PCR_BUFFERBuffer_Key
SNP_METHODMethod_Key
ORGANISMOrganism_Key
Seq_DB_KeySpecies
CELL_LINECell_Line_Key
Name
GENOTYPEGenotype_Key
Name
TREATMENTTreatmemt_Key
Name
LinkageLinkage_Key
Disease_LinkLinkage_Distance
Gen-Expressionsdaten
SNP Daten
Homologie-Daten
Daten aus unabhängigen Datenquellen
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 30
Logische Datenintegration
SwissProt
TrEMBL
...KABAT
EMBL
Zugriffs-modul bzw.
-schicht
16
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 31
Logische Datenintegration (cont.)
Quelle 1 Quelle 2 Quelle 3 Quelle 3
Wrapper Wrapper Wrapper Wrapper
MediatorAnfrage/Daten
Anfrage Ergebnis
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 32
Physische IntegrationSwissProt
TrEMBL
...KABAT
EMBL
Datenbank
Modell der realen biologischen Welt
17
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 33
Data Warehousing
E(Extraction)
T(Transformation)
L(Load)
QuelldatenData Warehouse
Quelle1Quelle2
Quelle3
Quelle4
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 34
Gene-EYe Integrationsplattform
Genome Data Store Layer (GDS Schema)
“Datei”-Daten -> Relationale Entititäten (e.g. EMBL)
Daten
Genome DataBase Layer (GDB Schema)
Relationale Entititäten -> Biologische Entitäten (e.g. Gene)
Inhalt
Genome Data Warehouse Layer (GDW Schema)
Biologische Entititäten -> Biologische Konzepte (e.g. Lebenszyklus)
Wissen
Design
18
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 35
GDS: Von der Datei zur Datenbank
Genome Data Store Layer (GDS Schema)
EM
BL scanner
SWALL scanner
TAXO
scanner
InterPro scanner
GDS Admin Tools
EN
SE
MB
L scanner
Data StorageData CleansingUpdate/Admin
GDS Load Tools
EM
BL D
DL
SW
ALL D
DL
TAXO
DD
L
InterPro D
DL
EN
SE
MB
L DD
L
Design
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 36
Modellierung des “Wartungsprozesses”
19
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 37
GDB: von den Daten zur Biologie
Datenspeicherung“Datensäuberung”
(syntaktisch)
Datenintegration“Datensäuberung”
(semantische)
Wird inKooperationmit Experten
definiert
[Data]
Genome Data Store Layer (GDS Schema)
Genome Database Layer (GDB Schema)
EM
BL
SW
ALL
TAXO
InterPro
EN
SE
MB
L
GDB Builder (IBM Clio?)
Gene
Protein
Transcript
Tissue
Variant
GDB Mapper (IBM Clio)
[Definition]
SchemaData
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 38
GDW: Plattform für Forschung
Genome Database Layer (GDB Schema)
Genome Data Warehouse Layer (GDW Schema)Data Mining,
Ontologienutzung,Prozesssimulation(“Virtuelle Zelle”)
GDW Miner
Gene
Protein
Transcript
Tissue
Variant
GDB Explorer
Gene
Protein
Transcript
Tissue
Variant
Ontology
Datenintegration“Datensäuberung”
(semantische)
20
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 39
What are the goals?
Source: Dusan Petricic, Toronto, Ontario -- The Toronto Starhttp://cagle.slate.msn.com/news/gene/gene6.asp Fragen??