wadoku.de
-
Upload
keith-lester -
Category
Documents
-
view
23 -
download
3
description
Transcript of wadoku.de
www.wadoku.deAuf dem Weg vom Wörterbuch
zur Webanwendung
Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung“
in Tübingen am 8.-9. Januar 2007von Dr. Thomas Latka
Vom Wörterbuch zur Webanwendung
Buch DateiWebanwendung mit Datenbank
Ein Autor
100% Einzelleistung
Keine Trennung zwischen Daten und Format
Institutionelle Wissenschaft
Viele Autoren, wenige Organisatoren
50% Qualitätssicherung, 50% Organisation der Community und Technik
Klare Trennung zwischen Daten und Format (Datenbank und Ausgabekanäle)
Wissenschaffung als dauernder, gemeinschaftlicher Prozess
Vom Wörterbuch zur Webanwendung
Ein namentlich bekannter Autor (der berühmt wird)
Einer schreibt, alle anderen lesen.
Ein aktueller Autor, andere können Updates schicken. Einer schreibt, alle anderen lesen.
viele Autoren in einer Community, keine Trennung zwischen Lesern und Autoren
Ergebnis: 100 % Einzelleistung Ergebnis: 90% Community-Leistung
Veröffentlichung: einmalig Veröffentlichung: häufig Veröffentlichung: immer
Medium: Papier Medium: Eine lokale Datei Medium: Internet
Keine Trennung von Daten und Format Nur Daten (teilw. Formatiert und nicht normalisiert, redundant)
Daten sind normalisiert in der Datenbank (ohne Redundanzen), Formatierung je nach Ausgabekanal anders (Web, XML, Print …)
Datenhaltung: Datei Datenhaltung: Datenbank
Umfang: möglichst viele Daten Umfang: möglichst viele Daten Umfang: nur Kerndaten, alle anderen werden gezogen, von dort wo sie am besten gepflegt werden (z.B. Wikipedia, andere Wörterbücher)
Keine Programme Lokale Programme ohne Versionierung und Kollaboration (Word, Excel, Filemaker)
Webbasierte Programme mit intelligenter Suche, Versionierung und Kollaboration: Wikis, GoogleSpreadsheet, Writely
Wissen schaffen, weil man dazu authorisiert ist (Organisation Wissenschaft)
Wissen schaffen, was nützlich ist (Leben fördert), und jeder kann dazu beitragen
Voraussetzung: institutionelle Authorisierung Vorraussetzung: technische Affinität Voraussetzung: Initiative, Spass am gemeinsamen Arbeiten
Technische Voraussetzung zur Erstellung und Nutzung: Schrift (Lesen und Schreiben)
Technische Voraussetzung: lokales Programm (Excel, Filemaker)
Technische Voraussetzung: Webanwendung, die kollaboratives Arbeiten erlaubt, muss programmiert werden
Beispiel: Brockhaus Beispiel: wadoku.csv Beispiel: wadoku.de, wikipedia.de
Wissenschaft als Einzelleistung Wissensschaffung als gemeinschaftlicher Prozess
Anforderung: 100% Manuskript schreiben (einmalig) Anforderung: 90% Dateipflege, 10% Updates integrieren
Anforderung: 80% Erstellen der Anwendung und Organisation der Community, 20% Kontrolle der Datenpflege
Suchlogik: Mensch Suchlogik: liegt außerhalb der Datei, so gut wie lokal installiertes Programm
Suchlogik: über Datenbank und Anwendung anpassbar nach Anforderung
Buch DateiWebanwendung mit Datenbank
www.wadoku.de
• Seit 2001: www.wadoku.de• Basiert auf Ulrich Apels WaDokuJT-Datei• User können neue Einträge erstellen und kommentieren• Hierarchisierte Suchtreffer
Beste Treffer oben• System:
Dedicated Server JavaServerPages & MySQL Database
Entwicklung: 2001-2006
05000
10000150002000025000300003500040000
2002 2003 2004 2005 2006
Hits per Day Visits per Day
• Vier Jahre lang fast keine Änderungen am User-Interface• Steigende Suchanfragen: von 200 Hits pro Tag bis 35.000 Hits pro Tag• Von 10 Visits bis 4.000 Visits pro Tag
Status: Ende 2006
Zugriffe aus:50 % Deutschland40 % Japan 5 % Österreich 3 % Schweiz
Innerhalb Deutschland:25 % NRW12 % Bayern10 % Hessen10 % Berlin 6 % Baden-Würt.
Innerhalb Japan: über 30 % aus Tokio
Status: Ende 2006
70% Wiederkehrende User(Stammkunden)
30% Neue User
60% der User kommen direkt über die URL www.wadoku.de
20 % kommen über Google
Status: Ende 2006
Europäisches Ausland:London ParisMadridGöteburgBudapest Außer Japan:
Peking SeoulShanghaiTaipeiSingapurUSA:
BurlingameMadisonBloomingdaleAmherst
Verbesserungen 2006: Schnellere Suche
Eine einzelne Suche dauert nur wenige Millisekunden:
Aufwendige Komposita-Suche braucht weniger wie eine Sekunde:
Trotz steigender Anfragen konnte die Suche mit optimiertem Index noch schneller gemacht werden:
Verbesserungen 2006: Änderungshistorie
Alle Änderungen der Einträge können nachvollzogen werden. Änderungen werden farblich hervorgehoben.
Verbesserung 2006: Nachschlagen in externe Quellen
Automatisches Nachschlagen aller Einträge in externen Quellen wie: Google, japanischen und englischen Wörterbücher, Wikipedia
http://dictionary.goo.ne.jp
Verbesserung 2006: Bewertung und Löschen von Einträgen
Editoren können Einträge akzeptieren oder zum Löschen markieren
Editoren
Verbesserung 2006: Editierfunktion für Editoren aus dem Forum
• Alle Felder können von den Editoren editiert werden
• Referenzen können per Schnellsuche hinzugefügt werden, und nicht nur per Text
• Kommentare können gelöscht oder bestätigt werden
Beiträge der Community 2006
• Über 4.000 Neueinträge (plus 2.000 Duplikate)
• Über 7.000 Änderungen und Fehlerbeseitigungen
• Bestätigte und gelöschte Kommentare
• Bestätigte oder angezweifelte Einträge
• Neues professionelles Forum:
• 130 registrierte User
• über 900 Beiträge
Seit Ende 2006: Wadoku Wiki (vorallem für Japanische Grammatik)
• Wiki: jeder kann beitragen, wie bei Wikipedia
• Schon jetzt beachtlicher Inhalt:
{Biologie} Baum {m}; Strauch {m} (große Pflanze)
<sense dom=„bio“><trans>
<tr>Baum</tr></trans><trans>
<tr>Strauch</tr><def>große Pflanze</def>
</trans></sense>
<DOM: Biologie> Baum {m}; Strauch {m} (<Expl.: große Pflanze>)
Text-Format
Tag-Format
XML-Format
<sense dom=„bio“><trans>
<tr>Baum</tr></trans><trans>
<tr>Strauch</tr></trans><def>große Pflanze</def>
</sense>
Entscheidung
Str
uktu
r2007: Der Prozess der Strukturanreicherung ist nötig und unumkehrbar
2007: Vom Text zum XML-Format
{Biologie} Baum {m} (große Pflanze)
<sense dom=„bio“><trans>
<tr>Baum</tr><def>große Pflanze</def>
</trans></sense>
<DOM: Biologie> Baum {m} (<Expl.: große Pflanze>)
Baum : m
Text-Format
Tag-Format
XML-Format (+ Tabellen)
bio : Biologie : 生物学
Text2Tag-Converter
Tag2XML-Converter
An TEI (Text Encoding Initiative) angelehntes XML-Schema (XSD)
• TEI: De-facto Standard für die Kodierung und den Austausch von Texten innerhalb der Geisteswissenschaften (www.tei-c.org)
• TEI-Standard etwas vereinfacht und für Japanisch angepasst
• Echtzeit Umrechnung von Tag zu XML (Preview jederzeit)
2007: XML-basierter Index
<sense dom=„bio“><trans>
<tr>Baum</tr><def>große Pflanze</def>
</trans></sense>
XML-Format
Domain-Index Usage-Index POS-Index
XML-Inhalt ist Grundlage für alle weitere Indizierungen
2007: XML basierte Ausgabe in verschiedene Kanäle
<sense dom=„bio“><trans>
<tr>Baum</tr><def>große Pflanze</def>
</trans></sense>
Verschiedene Ausgabekanäle für neutrale XML-Daten möglich
HTML
Verschiedene angepasste Templates für Einsteiger und Profis
Webservice-XML
Verschiedene automatische Dienste
Old School ausgedruckte Wörterbücher
Elektronische Geräte
Denshi-jisho