Biographie-Portal: Probleme der Datenintegration

10
Biographie-Portal: Probleme der Datenintegration Dirk Scholz · Münchener DigitalisierungsZentrum 24. Sep 2010

description

Biographie-Portal: Probleme der Datenintegration. Dirk Scholz · Münchener DigitalisierungsZentrum. 24. Sep 2010. Datensätze nicht homogenisiert; Bsp. „Elisabeth“. l. Elisabeth: Vorlagen. HLS Elisabeth von Österreich - PowerPoint PPT Presentation

Transcript of Biographie-Portal: Probleme der Datenintegration

Page 1: Biographie-Portal: Probleme der Datenintegration

Biographie-Portal: Probleme der Datenintegration

Dirk Scholz · Münchener DigitalisierungsZentrum 24. Sep 2010

Page 2: Biographie-Portal: Probleme der Datenintegration

2

Datensätze nicht homogenisiert; Bsp. „Elisabeth“

l

Page 3: Biographie-Portal: Probleme der Datenintegration

3

Elisabeth: Vorlagen

HLS <bio sprache="de"> <lemma>Elisabeth von Österreich</lemma> <prec>1837-1898</prec> <berufe>Diverses</berufe> </bio>

NDB <ADB-NDB-Gesamtregister_2005> <Stichwort>Elisabeth</Stichwort> <Beruf_Lebensstellung>Kaiserin von Österreich; Königin von Ungarn</Beruf_Lebensstellung> <Geburtsdatum>1837</Geburtsdatum> <Sterbedatum>1898</Sterbedatum> </ADB-NDB-Gesamtregister_2005>

ÖBL <row id="1522"> <stichwort>Elisabeth</stichwort> <text>Amalie Eugenie Kn. von Österr.</text> <vita>(1837 - 1898)</vita> <suche_stichwort>Elisabeth,Habsburg-Lothringen,Oesterreich,Bayern,Wittelsbach,</

suche_stichwort> <suche_text>Amalie Eugenie,Elisabeth,Sisi,</suche_text> <geburtsjahr>1837</geburtsjahr> <sterbejahr>1898</sterbejahr> <sortieren_stichwort>Elisabeth</sortieren_stichwort> <sortieren_text>Amalie Eugenie</sortieren_text> </row>

Page 4: Biographie-Portal: Probleme der Datenintegration

4

Elisabeth: „normierte“ Suchformen

HLS <suchf_stw>elisabeth-oesterreich</suchf_stw> <suchf_stw>oesterreich</suchf_stw> <suchf_stw>autriche</suchf_stw> <suchf_stw>elisabeth-autriche</suchf_stw> <suchf_stw>austria</suchf_stw> <suchf_stw>elisabetta-austria</suchf_stw> <suchf_txt>elisabeth</suchf_txt> <suchf_txt>elisabetta</suchf_txt> NDB <suchf_stw>elisabeth</suchf_stw> <suchf_stw>elisabeth-amalie-eugenie</suchf_stw> <suchf_stw>sissi</suchf_stw> <suchf_stw>sissy</suchf_stw> <suchf_txt>prinzessin-bayern</suchf_txt> ÖBL <suchf_stw>elisabeth</suchf_stw> <suchf_stw>habsburg-lothringen</suchf_stw> <suchf_stw>oesterreich</suchf_stw> <suchf_stw>bayern</suchf_stw> <suchf_stw>wittelsbach</suchf_stw> <suchf_txt>amalie-eugenie</suchf_txt> <suchf_txt>elisabeth</suchf_txt> <suchf_txt>sisi</suchf_txt>

Page 5: Biographie-Portal: Probleme der Datenintegration

5

Ausgeschlossene Namensbestandteile

à aab allealtgraf altgräfinam anauf ausbaron baroninburggraf burggräfinchevalier comtecomtesse contecontessa dd'' dadall' dalladas dedegli deldella delledem derdes didie duduc duchesseduca earledelherr edleedler elerbprinz erbprinzessinés etfreifrau freiherrfreiin frhrfürst fürstingenannt grafgräfin grf

Page 6: Biographie-Portal: Probleme der Datenintegration

6

Suche: Geboren vor 400

Page 7: Biographie-Portal: Probleme der Datenintegration

7

Lebensdaten: normierte Suchformen

<datensatz status="" typ=""> <felder> <feld nr="001" ind=" ">64014</feld> <feld nr="002" ind="b">2009-04-07</feld> <id>NDB:81437</id> <stw>Stilicho</stw>

<daten>um 359-408</daten> <feld nr="814" ind="i">römischer Feldherr</feld> <feld nr="814" ind="n">30470</feld> <berufe>römischer Feldherr</berufe>

<normdaten>349;369*408;408</normdaten> ...

Page 8: Biographie-Portal: Probleme der Datenintegration

8

Lebensdaten: Umwandlungen

static final int umANT = 10; static final int umMA = 5; static final int umFNZ = 3; static final int um1900 = 1; static final int NACH = 10; static final int VOR = 10; //Muster //p.C. wenn nicht ausdrücklich vor Christus final static String toDelete = "Alter/Neuer Stil\\?|begraben |getauft |Juni |p\\.C\\.|September |tot |vor

oder |wohl Ende "; final static String oderDel = "/.*|oder.*"; final static String vorChr = "a\\.C\\.|vor Chr\\.|vor Christus"; final static String nach = "kaum früher als|in oder nach|nicht vor|vermißt|verschleppt|verschollen"; final static String vor = "nicht nach"; final static String jhdStr = "Jahrhundert[´\\?]?|Jahhundert|Jhr\\.|Jh\\.|s\\.";

Page 9: Biographie-Portal: Probleme der Datenintegration

9

Standard-Importformat

<body> <listPerson type="oebl"> <person xml:id="oebl1417864" sex="1"> <persName type="main">Adamkiewicz, Albert</persName> <persName type="search"> <surname>adamkiewicz</surname> <forename>albert</forename> </persName> <persName type="order"> <surname>adamkiewicz</surname> <forename>albert</forename> </persName> <birth> <date type="notBefore">1850-01-01</date> <date type="notAfter">1850-12-31</date> <date type="show">1850</date> </birth> <death> <date type="notBefore">1921-01-01</date> <date type="notAfter">1921-12-31</date> <date type="show">1921</date> </death> <occupation scheme="oebl" xml:lang="de-AT"> <term type="category">Medizin</term> <term type="individual">Pathologe</term> </occupation> <note type="resource"> <ref xml:lang="de-AT" target="http://www.biographien.ac.at/oebl/oebl_A/Adamkiewicz_Albert_1850_1921.xml?frames=yes">OEBL</ref> </note> </person>

Page 10: Biographie-Portal: Probleme der Datenintegration

Vielen Dank für IhreAufmerksamkeit!

Dirk Scholz · Münchener DigitalisierungsZentrum 24. Sep 2010