Projektverbund Ontoverse Kooperatives vernetztes Wissensmanagement im Bereich Life Sciences

22
1 Projektverbund Projektverbund Ontoverse Ontoverse Kooperatives vernetztes Kooperatives vernetztes Wissensmanagement im Bereich Life Wissensmanagement im Bereich Life Sciences Sciences Christof Rumpf Heinrich-Heine-Universität Düsseldorf 23.06.2005

description

Projektverbund Ontoverse Kooperatives vernetztes Wissensmanagement im Bereich Life Sciences. Christof Rumpf Heinrich-Heine-Universität Düsseldorf 23.06.2005. Antragsrahmen. Projektantrag im BMBF-Förderschwerpunkt eScience und vernetztes Wissensmangement Antragszeitraum 3 Jahre - PowerPoint PPT Presentation

Transcript of Projektverbund Ontoverse Kooperatives vernetztes Wissensmanagement im Bereich Life Sciences

1

Projektverbund Projektverbund OntoverseOntoverseKooperatives vernetztes Wissensmanagement Kooperatives vernetztes Wissensmanagement

im Bereich Life Sciencesim Bereich Life Sciences

Christof Rumpf

Heinrich-Heine-Universität Düsseldorf

23.06.2005

2

AntragsrahmenAntragsrahmen

• Projektantrag im BMBF-Förderschwerpunkt eScience und vernetztes Wissensmangement

• Antragszeitraum 3 Jahre

• Antragsvolumen 2,3 Mio € (ca. 13 Arbeitsplätze + ca. 100.000 € Sachmittel)

3

ProjektpartnerProjektpartner

4

ZieleZiele

• Erstellen einer Ontologie für die biomedizinische Domäne durch Verschmelzung vorhandener Ontologien

• Erstellen eines Informationsextraktionssystems basierend auf der Ontologie

• Erweiterung der Ontologie– webbasiert durch Anwender (Wikipedia)– halbautomatisch bei der Informationsextraktion

5

Was heisst Was heisst OntologieOntologie??

• Erstes Vorkommen des Wortes Ontologie in: Jacob Lorhard (1606) Ogdoas Scholastica.

• Philosophie: Ontologie ist die Wissenschaft vom Sein; Zweig der Metaphysik.

• KI und Wissensrepräsentation: Ontologie als formale Theorie über Eigenschaften und Relationen abstrakter Entitäten (Konzepte) aus einer Sprache (Vokabular, inbes. Nomen).

6

KonzepthierarchienKonzepthierarchien

• Ontologien sind hierarchische Ordnungen von Konzepten (Subsumption)

• primäre hierarchiebildende Relationen:– is_a Ober- / Unterbegriff– part_of Teil- Ganzesbeziehungen

• sekundäre Relationen:– synonym, antonym, subset, definition, has_property,

7

Beispiel: Gene Ontology (GO)Beispiel: Gene Ontology (GO)

Molecular Function 7,493 terms Biological Process 9,640 terms Cellular Component 1,634 terms

Total 18,767 terms

Definitions: 16,696 (93.9 %)

Quelle: ftp://ftp.geneontology.org/pub/go/teaching_resources/presentations/2005-05_Purdue_edimmer.ppt

8

Ausschnitt GO-HierarchieAusschnitt GO-Hierarchie

rote Pfeile: part_ofblaue Pfeile: is_a

Quelle: ftp://ftp.geneontology.org/pub/go/teaching_resources/presentations/2005-05_Purdue_edimmer.ppt

9

GO TermeGO Terme[Term]id: GO:0000001name: mitochondrion inheritancenamespace: biological_processdef: "The distribution of mitochondria\, including the mitochondrial genome\, into daughter cells after mitosis or meiosis\, mediated by interactions between mitochondria and the cytoskeleton." [PMID:10873824, PMID:11389764, SGD:mcc]is_a: GO:0048308 ! organelle inheritanceis_a: GO:0048311 ! mitochondrion distribution

[Term]id: GO:0000002name: mitochondrial genome maintenancenamespace: biological_processdef: "The maintenance of the structure and integrity of the mitochondrial genome." [GO:ai]is_a: GO:0007005 ! mitochondrion organization and biogenesis

[Term]id: GO:0000003name: reproductionalt_id: GO:0019952namespace: biological_processdef: "The production by an organism of new individuals that contain some portion of their genetic material inherited from that organism." [GO:curators, ISBN:0198506732]subset: goslim_genericsubset: goslim_plantsubset: gosubset_prokis_a: GO:0007275 ! development

10

Nutzen von OntologienNutzen von Ontologien

• Ontologien enthalten semantische Relationen zwischen Konzepten und damit Wissen über die Welt bzw. eine Domäne

• Ontologien können der Konsensbildung in der Wissenschaft dienen

• Ontologien unterstützen Information Retrieval und Informationsextraktion

11

Aufbau von OntologienAufbau von Ontologien

• manuell:Experten definieren Konzepte und Relationen – sehr zeitaufwändig

• automatisch:durch maschinelles Lernen auf der Grundlage von Datenbanken oder Texten (Informationsextraktion)

12

OntoverseOntoverse

• In Ontoverse soll eine Ontologie für die biomedizinische Domäne auf drei Wegen entstehen:– Verschmelzen vorhandener Ontologien– webbasierte kooperative manuelle

Erweiterung im Stil von Wikipedias – semantisches Wiki

– halbautomatische Erweiterung durch auf der Ontologie basierende Informationsextraktion

13

Verschmelzen von OntologienVerschmelzen von Ontologien

• Die Architektur der Ontoverse-Ontologie muss alle Relationen und Attribute einer zu verschmelzenden Ontologie abbilden können.

• Beim Verschmelzen müssen vollständige und partielle Übernahme von Konzepten berücksichtigt werden.

• Inkonsistenzen zwischen Ontologien müssen mit Hilfe eines Logikvalidierers erkannt und (manuell) aufgelöst werden.

14

semantisches Wikisemantisches Wiki

• kooperatives Ontologiedesign

• webbasierte Benutzerschnittstelle

• graphisches Visualisierungstool

• Authentifizierung von Autoren mit Signatur

• Markierung von Änderungen in der Ontologie mit Signatur und Zeitstempel (Trustcenter)

15

Informationsextraktion (IE)Informationsextraktion (IE)

• Bei der IE geht es um die automatische Gewinnung von strukturierter Information (relationale Datensätze) aus unstrukturierter Information (Texten).

• Bei der IE müssen Texte maschinell ‚gelesen‘ und partiell ‚verstanden‘ werden.

• Das Ontoverse-IE-System stützt sich auf die Ontoverse-Ontologie und soll gleichzeitig zur überwachten Erweiterung der Ontologie dienen.

PARADIME: 16

Task Specific Template Filling, based on the TDL Model

« Die Spannungen in Mostar nehmen am 1.Jan. 1996 zu, nachdemkroatische Polizisten einen 18jährigen Moslem erschossen haben, der... »

DomainLex:shoot=Fight-Lex

Merge typesandFill template

Templatse Hierarchy

PhrasesHierarchy

Grammatical Functions Hierarchy

Linked Types

Shallow Text Processor

... process=shootSC= subj=croatian Police obj=18 years old Muslim

DatePP = {1/1/1996}LocPP = {Mostar}

Lookup in Domain Lexicon

Select a linking type

Fight-Lex[process=1, subj=2, obj=3,templ=[action=1, attacker=2, attacked=3, ... ] ]

process=1=shootSC= subj=2=croatian Police obj=3=18 years old Muslim

DatePP=4={1/1/1996}LocPP= 5={Mostar}

action=1=shoot attacker=2=croatian Policetempl= attacked=3=18 years old Mulsim date=4= 1/1/1996 loc=5= Mostar

Quelle: Günter Neumann (DFKI)

17

Teilaufgaben der IETeilaufgaben der IE

• Auf den MUC-1-7 (1987-1998) wurden Teilaufgaben der IE spezifiziert und mit precision und recall bewertet (MUC-7):– NE: Named Entity Task (95/92%)– CO: Coreference Task (69/56%)– TE: Template Element Task (87/86%)– TR: Template Relation Task (86/67%)– ST: Scenario-Template-Task (65/42%)

Source: Jakub Piskorski, Feiyu Xu Sommersemester 2001

LanguageTechnology

(ST) Scenario Template requires filling a template structure with extracted information involving several relations or events of interest

intended to be the MUC approximation to a real-world information extraction problem identification of partners, products, profits and capitalization of joint ventures

Generic IE tasks for MUC-7

1997 18February :

:

:/

:2

:1

LtdSystems ionCommunicat GEC Siemens :

_

TIME

unknownTIONCAPITALIZA

SERVICEPRODUCT

PARTNER

PARTNER

NAME

VENTUREJOINT

..............

ONORGANIZATI

..............

ONORGANIZATI

:

:

_

ONORGANIZATI

PRODUCT

OFPRODUCT..............

PRODUCT

19

Module eines IE-SystemsModule eines IE-Systems

• Tokenizer (Text Tokens)• Part-of-Speech-Tagger (Wortarten)• Termerkennung (named entities)• Koreferenzauflösung (nominal, pronominal)• Merger für Objekt-Templates• Dependenz-Parser (grammatische Funktionen)• Merger für Szenario-Templates

PARADIME: 20

The systematic separation of the NLP and the modeling components, dealing with two types of knowledge (1)

The linguistic analysis tools comprise (1) a tokenizer, a morphological analyzer (incl. compound analysis) and a POS filter for the lexical processing, and (2) a fragment recognizer for Named Entities and generic phrases (NP, PP, Verbgroup). On the top of this (3) a dependency based parser computes a flat (partial) analysis of the text, enriched with information about grammatical functions.

[PNDie Siemens GmbH] [Vhat] [year1988][NPeinen Gewinn] [PPvon 150 Millionen DM],

[Compweil] [NPdie Auftraege] [PPim Vergleich] [PPzum Vorjahr] [Cardum 13%] [Vgestiegen sind].

“The siemens company has made a revenue of 150 million marks in 1988, since the orders increased by 13% compared to last year.”

hat

Obj

Gewinn

weil

steigen

Auftrag

PPs

{1988, von(150M)}

Subj

Subj

Siemens

{im(Vergleich) ,zum(Vorjahr), um(13%) }

PPs

SC

Comp

Quelle: Günter Neumann (DFKI)

PARADIME: 21

Translation into meaningful semantic relations

Linguistics„...Uppsala´s main church...“

Ontology

Database

Syntacic relations between „Uppsala“ and „church“

Location

City

Building

Church

hasBuilding

hasChurch

Uppsala Church-1hasChurch

Quelle: Günter Neumann (DFKI)

PARADIME: 22

Iterative Ontology Development

•Design core ontology

•Ontology to extract information

•Use linguistic information to enhance the ontology

Core OntologyOntology after interation

Quelle: Günter Neumann (DFKI)