CLARIN/D-SPIN Technische Infrastruktur

18
CLARIN/D-SPIN Technische Infrastruktur Peter Wittenburg

description

CLARIN/D-SPIN Technische Infrastruktur. Peter Wittenburg. Wer bin ich ?. komme vom MPI für Psycholinguistik dort 30 Jahre verantwortlich für Methoden , Technologie , Infrastruktur , Archivierung , etc seit 2000 involviert in DOBES was ein tolles Projekt war und ist - PowerPoint PPT Presentation

Transcript of CLARIN/D-SPIN Technische Infrastruktur

Page 1: CLARIN/D-SPIN  Technische Infrastruktur

CLARIN/D-SPIN Technische Infrastruktur

Peter Wittenburg

Page 2: CLARIN/D-SPIN  Technische Infrastruktur

Wer bin ich?

komme vom MPI für Psycholinguistik dort 30 Jahre verantwortlich für Methoden, Technologie,

Infrastruktur, Archivierung, etc seit 2000 involviert in DOBES was ein tolles Projekt war und ist Mitglied des MPG IT Ausschusses - kenne die Welt der

Physiker, Chemiker etc seit 2000 Teilnahme an EU Standardisierungs- und Infrastruktur-

Projekten seit 2008 aktive in CLARIN

Page 3: CLARIN/D-SPIN  Technische Infrastruktur

Was soll ich erzählen?

Meine Aufgabe ist es, Ihnen einen kurzen Überblick über die technische Infrastruktur zu geben, an der CLARIN arbeitet und die Ihnen (wahrscheinlich nur den etwas Jüngeren) bei der wissenschaftlichen Arbeit helfen könnte.

Natürlich werden sie mit Argwohn aufpassen, was ich sage, denn wir wissen alle: es gibt nichts umsonst. Was ist also der Preis, was ist der Gewinn und wann ist er einlösbar?

Ich bitte Sie insofern um Nachsicht, als dass ich einiges nur sehr verkürzt oder gar nicht erwähnen kann.

CLARIN/D-SPIN Infrastruktur

N Minuten verlustbehafteteKompression

Page 4: CLARIN/D-SPIN  Technische Infrastruktur

Die Aufgabe

Die entscheidende Frage ist, ob es Wege gibt, die enorme Fragmentierung in unserer Disziplin zu überwinden - die Verschiedenartigkeit der Formate, der Beschreibung linguistischer Phänomene, der unterschiedlichen Sichtbarkeit und Zugriffsgestaltung etc.

und da alle interessierten Wissenschaftler - vor allem in den Humanities - europaweit die gleichen Probleme haben, macht es Sinn, grenzenübergreifend zu denken und zu handeln

CLARIN ist europäisch und D-SPIN ist die deutsche Gruppe.

Ein paar Beispiele sind besser als abstrakte Erklärungen.

Page 5: CLARIN/D-SPIN  Technische Infrastruktur

Schon mal versucht?

Haben Sie schon mal versucht, einen Text mit einer Audio-Aufnahme automatisch abzugleichen?

and you follow then the sign Kleef that’s the Oranje Single yeah then you follow the sign Kleef

Es geht!

Aber ...

Page 6: CLARIN/D-SPIN  Technische Infrastruktur

Schon mal gemacht?

Haben Sie schon mal versucht, ein Lexikon derart aufzubereiten, dass sie es in einem Programm einsetzen und mit anderen Daten zusammenbringen können?

Am MPI und im DOBES Programm hat jede(r) ein anderes Lexikon (Struktur und Attribute, oftmals ist die Struktur auch nur im Kopf).

Ein Fallbeispiel eines respektablen Linguisten: Strukturbeschreibung ist vorhanden, aber nicht umgesetzt. ca. ein halbes Jahr Diskussionen per Email etc letztlich Histogramm mit ca. 200 verschiedenen Strukturen davon 12 ungewollte und nicht korrekte Strukturen dann natürlich script-basierte und manuelle Korrekturen 3 teure Personen und 1 Stud.Ass. waren involviert

Es geht!

Aber ...

Page 7: CLARIN/D-SPIN  Technische Infrastruktur

Schon mal durchlebt?

Haben Sie schon mal ca. 5000 Ressourcen (verschiedene Datentypen, verschiedene Versionen, Ausschnitte, etc) auf Ihrem Notebook managen müssen?

Im DOBES Projekt (Dokumentation Bedrohter Sprachen) zumindest ein Kollege, der diese Schallmauer durchbrochen hat, andere sind dicht dran.

Wie anders als mittels Metadaten Beschreibungen werden Sie den Überblick behalten?

Wenn schon Metadaten dann doch solche, die andere auch direkt verwenden können.

Ich weiss: Metadaten erzeugen und verwalten ist nichts, was man liebt, aber wie anders wollen sie die Wiederverwendbarkeit der Daten garantieren - sogar manchmal Ihrer eigenen.

Es geht!

Aber ...

Page 8: CLARIN/D-SPIN  Technische Infrastruktur

Sind das überhaupt Themen?

Sind Sichtbarkeit, Austauschbarkeit überhaupt Themen? in vielen Fällen (noch) nicht

Beispiele aus der Sicht eines Nicht-Linguisten: in DOBES programmatisch: die Dokumentation ist nicht nur

für den Linguisten selbst - sondern für andere und mehrere Generationen, deren Wünsche wir nicht einmal kennen.

Lexika, Wordnets etc speichern Wissen für viele und werden immer Schlüssel für die Bedeutungserschließung sein.

Programme sind teuer und sollten daher für viele einfach verwendbar sein.

etc etc

Page 9: CLARIN/D-SPIN  Technische Infrastruktur

Zeit des Umdenkens

scheinen in der LRT Gemeinde in einem Prozess des Umdenkens zu sein

ein Teil der Linguisten agieren als “Service Anbieter” für andere

alle Wissenschafts-Disziplinen verwenden Sprachressourcen insbesondere die Geisteswissenschaften

wir sollten sie in die Lage versetzen, Ressourcen und Tools selbsttätig zu verwenden und miteinander zu kombinieren die meisten haben keinen Stab von Mitarbeitern, die clevere

Konversionen etc ausführen können

eine CLARIN/D-SPIN Infrastruktur muss hier ansetzen:

Schaffen einer integrierten und interoperablen Domäne von Sprachressourcen (Daten und Tools)

Page 10: CLARIN/D-SPIN  Technische Infrastruktur

Pfeiler der Integration

Typisches Ziel: Schaffen einer virtuellen Kollektion und das Suchen nach einfachen Mustern

Ingredienten: persistente “Repositorien” mit stabilen Diensten und ein “offener”

Archivierungs Service persistente und eindeutige Identifikatoren für alle Ressourcen und

Services damit alle Verweise stabil bleiben gemeinsame Metadaten-Domäne basierend auf einem (flexiblen)

Standard und Standards für den Austausch Single Identity / Single Sign-On Prinzip basierend auf Vertrauen und natürlich eine clevere Suchmaschine bzw. Statistik-Tools, wobei

natürlich immer die Frage ist, ob Daten oder Code transferiert werden dürfen

Page 11: CLARIN/D-SPIN  Technische Infrastruktur

Pfeiler der Integration

Ingredienten: persistente “Repositorien/Archive”

CLARIN hat Kriterien für solche “neuen Service-Zentren” etabliert

in D haben sich DFKI, IDS, U Tüb, BBAW, U Lei, MPI gemeldet

es wird ein Qualitätscheck geben (Data Seal of Approval)

es wird Geld kosten persistente und eindeutige Identifikatoren für alle Ressourcen und

Services

CLARIN bietet einen Service an (basierend auf einer MPG Entscheidung und Redundanz durch andere europäische Zentren)

für jedes Object und jede Version etc kann eine URL und verschiedene Informationen erzeugt werden, und zurückkommt eine PID, die man in die Metadaten einträgt

die kann dann jeder verwenden und sie werden aufgelöst

was heißt persistent: MPG steht dahinter - reicht das?

Page 12: CLARIN/D-SPIN  Technische Infrastruktur

Pfeiler der Integration

Ingredienten: gemeinsame Metadaten-Domäne

gegenwärtige Sichtbarkeit nicht ausreichend - gibt keinen echten Katalog, keine Systematik und jede Menge “Gemecker”

Erfahrungen von 10 Jahren in der Community mit IMDI, OLAC und TEI weg von fixed Schema hin zu flexiblem Componenten Model semantische Interoperabilität durch die Verwendung von registrierten

“Konzepten” ISOcat (ISO 12620), TEI, DC dh. jeder kann sein eigenes Schema zusammenstellen momentan arbeiten “Experten” an den Element-Definitionen und Entwickler die an der Infrastruktur arbeiten (MPI, DFKI, IDS) wir sorgen dafür, dass alle IMDI/OLAC Investitionen gewahrt bleiben jeder kann mitmachen und prüfen, ob alles drin ist (zB. Zeichensprache) CMDI wird ein Standard in CLARIN ! arbeiten an einem “Virtual Language Observatory”

Page 13: CLARIN/D-SPIN  Technische Infrastruktur

Pfeiler der Integration

Ingredienten:

Single Identity / Single Sign-On Prinzip mit Ihrer “Heimat” Identität müssen sie an all das Herankommen, zu

dem Sie Zugangsberechtigung haben es ist wie bei Schlüsseln: man möchte am liebsten nur einen haben wir arbeiten eng mit dem DFN Verein zusammen wenn Ihre Uni in der DFN AAI (so heisst das) ist, dann gilt das

europaweit IDS/MPI/BBAW nehmen nun an einem ersten Pilotprojekt zusammen

mit NL und Finland teil

Page 14: CLARIN/D-SPIN  Technische Infrastruktur

Pfeiler der Interoperabilität

typisches Ziel: Zusammenstellen von Workflows

Ingredienten für ein schwer anzupackendes Problem: Vereinbarung “standardisierter” Formate für die wesentlichen

Datentypen (Text-Korpora, annotierte Medien, Lexika, etc) CLARIN macht Inventur von Format “Standards&Best Practices” Community Best Practices werden natürlich weiterleben CLARIN muss Konverter explizit und offen machen man wird nicht alles (WORD) unterstützen können

offene Registratur linguistischer Konzepte als Referenz wollen ein pragmatisches Problem lösen (gemeinsame Suche) keiner soll seine Konzepte aufgeben!!! aber vielleicht für viele Konzepte Referenzen möglich CLARIN (zusammen mit ISO) arbeitet an ISOcat

Page 15: CLARIN/D-SPIN  Technische Infrastruktur

Ist es morgen fertig?

schön wär’s

ein steiniger und nicht einfacher Weg wenn wir jetzt aber nicht schrittweise anfangen, wann denn

dann?

nicht alles, was ich erzählt habe, werden Sie interessant gefunden haben, aber eines ist klar: die LRT Community ist in einigen Punkten im Moment anderen voraus

Page 16: CLARIN/D-SPIN  Technische Infrastruktur

Ist morgen schon etwas fertig?

arbeiten an einer Reihe von Dingen

eine Reihe von Anforderungs Spezifikationen sind fertig nicht einfach bei 150 Mitgliedern, dh. ca. 500 Personen

gemeinsame Metadaten Domäne 2009 Basis ist Language Resource and Technology Inventory Ziel ist “Virtual Language Observatory” - erster Schritt momentan alle sind aufgefordert mitzumachen

erste allgemeine Service Angebote in 2009 PID Angebot steht; erste AAI Domäne in 2009 arbeiten mit Hochdruck an typischen Workflows

hier ist D-Spin zu nennen wollen mehr Konvertoren verfügbar machen etc

Page 17: CLARIN/D-SPIN  Technische Infrastruktur

Randbemerkungen

CLARIN/D-SPIN ist eine Infrastrukturinitiative -

kein Forschungsprojekt es baut auf existierenden Resourcen

und Tools auf und will diese integrieren die Infrastruktur Pfeiler müssen

persistent sein, Wissenschaftler müssen

sich auf Dienste verlassen können wir sind nur ein Teil der ganzen Infrastruktur-

Bewegung - viele Disziplinen sind involviert wir bekommen jetzt eine Chance - eine zweite wird

es so schnell nicht geben wir werden von den Hardcore Kollegen etc respektiert

Page 18: CLARIN/D-SPIN  Technische Infrastruktur

Ende

Falls nicht to end in Babylonish scenario nous avons still een beten time om schattingen te improve.

Danke für Ihre Aufmerksamkeit!