Post on 06-Apr-2016
Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und SerbischenInstitut für Slawistik, Universität GrazApril 2007
Korpuserstellung im Kontext eines AM-basierten Frameworks Institut für Informationsverarbeitung in den GeisteswissenschaftenHubert Stigler
Gralis Text-Korpus: "je.*"Gralis Text-Korpus: "je.*"
AgendaAgenda
Workflow zur Erstellung des Gralis Text-Korpus Ein Korpustext aus der BearbeiterInnenperspektive XML-basierte Validierung der Korpustexte Asset Management Systeme (AMS) Anwendungsbeispiel aus der Literaturwissenschaft Ein Korpus-Asset Inhaltsmodell AMS Anwendungsszenarien in der Korpuserstellung
Workflow zur Generierung des Gralis Text-KorpusWorkflow zur Generierung des Gralis Text-Korpus
Korpus-Annotation in der gewohnten Office Umgebung
Generierung der vertikalisierten, alignierten Korpusdateienfür die Sprachen Bosnisch/Bosniakisch, Kroatisch und Serbisch
XML-basierte Validierung der Korpustext-Triples
Makro-basierte Umwandlung des Textdokumentes nach TEI
Ein Korpustext aus der BearbeiterInnenperspektiveEin Korpustext aus der BearbeiterInnenperspektive
Die roten Absatzmarken markieren Segmentgrenzen, die zunächst über ein Makro unter Verwendung von Regular Expressions eingefügt und bei Bedarf im Bearbeitungsvorgang interaktiv – durch Verschieben oder Löschen – in der Office Anwendung korrigiert werden können.
XML-basierte Validierung der KorpustexteXML-basierte Validierung der Korpustexte
Gralis buildCorpus 1.1 © Hubert StiglerSearching for file triples in directory: /data/xo/gralis/data/
-- file triple: Albanija_dospjela_na_listu ok-- file triple: Albanski_politicari ok-- file triple: Albert_Einstein couldn't found hr-- file triple: Americka_vlada_izjavila couldn't validate bs-- file triple: Americki_predsjednik segment error hr: 6; sr: 6; bs: 5-- file triple: Anatole_France ok ...124 file triples were processed121 file triples were written to the corpus files3 non valid triples were foundExecution terminated normally
Im Bulk-Modus werden die in einem Verzeichnis abgelegten Korpustexte validiert und die für die Weiterverarbeitung mit der IMS Corpus Workbench1 benötigten vertikalisierten Korpusdateien erstellt.
1 Developed by Institute for Natural Language Processing, University of Stuttgart
Asset Management SystemeAsset Management Systeme
Dienen der metadatenbasierten Verwaltung von digitalen Ressourcen
Bieten die Möglichkeit, über persistente Zitierbarkeit Assets einfach in webbasierte Kontexte zu integrieren (Lernplattformen, Frameworks u.a.)
Stellen (intelligente) Suchstrategien zur Verfügung Ermöglichen Kollaboration in der Assetbearbeitung und -verwaltung Ermöglichen die Bildung von Sammlungen für unterschiedliche
Zwecke Bieten Möglichkeiten zur fein granulierbaren Vergabe von
Zugriffsrechten
Beispiel: Ulrich Beispiel: Ulrich Schulz-Buschhaus AufsatzwerkSchulz-Buschhaus Aufsatzwerk
http://gams.uni-graz.at/container:usbhttp://gams.uni-graz.at/rss?pid=container:usb
Ein Korpus-Asset InhaltsmodellEin Korpus-Asset Inhaltsmodell
Ein Asset dient als Speichercontainer für beschreibende Metadaten und Datenströme beliebiger Art: Texte, Audio-/Videodateien u.v.m. Zusätzlich bietet ein AMS die Möglichkeit, im sogenannten Inhaltsmodell Objektmethoden (z.B. XSLT-Transformationen u.Ä.) zu definieren, die auf den im Asset enthaltenen Daten operieren.
Zugriffsmethoden
bdef:HTML/get
bdef:PDF/get
bdef:Verticalized/get
Metadaten
Dublin Core
REL-EXTBeschreibt Relationen zu anderen
Assets
Datenströme
THUMBNAILRepräsentiert Asset in Containern und
Collections
TEI-SOURCEPrimärtext des Assets
im TEI-Format
DOCPrimärtext des Assetsim MS WORD Format
Diverse XSLT-Stylesheets zurFormatierung des Assetcontents bdef:LaTeX/get
AMS Anwendungsszenarien in der KorpuserstellungAMS Anwendungsszenarien in der Korpuserstellung
In einem Korpus-Asset werden sowohl Office-Dokumente als auch XML-Repräsentanten aller drei Sprachvarianten eines Korpustextes verwaltet
Während HTML- und PDF-Getter-Methoden des Korpustextes über das Web frei zugänglich sind, stehen Office- und TEI-Datenstrom, sowie LaTeX-Getter-Methode nur autorisierten BenutzerInnen zur Verfügung
Über die HTML- und PDF-Getter-Methoden aller Korpustexte generiert sich ein Webauftritt des Korpus
Alle Korpustexte werden bei der Bearbeitung einem Container zugewiesen, der als Objektmethode in seinem Inhaltsmodell die Generierung der vertikalisierten Korpusdateien für die IMS Corpus Workbench ermöglicht
und, und, und ...
Danke für Ihre Aufmerksamkeit!