Download - Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

Transcript
Page 1: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

Identifikation der geographischen Lage von

Zeitungsartikeln (GIR)

Masterarbeit von Tobias Brunner

Betreuung: Dr. R. S. Purves

Page 2: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

Motivation

• Suchmaschinen können mit geographischen Anfragen oft wenig anfangen...

Page 3: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)
Page 4: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)
Page 5: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)
Page 6: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)
Page 7: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

Motivation

• Zeitungsabschnitte Aufgrund von räumlichen Unterteilungen

» Scan von NZZ-Vorderseite

Page 8: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

Forschungsstand und -kontext

• geoCLEF• GIR:

– „Geographic information retrieval (GIR) is concerned with providing access to geo-referenced information sources“ (Larson 2000).

– Toponym Detection– Toponym Resolution / Disambiguation– Indexing

Page 9: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

Toponym Detection

• Erkennung von Ortsnamen• Methoden:

– Gazetteer Lookup• GETTY, Geonames, WorldGazetteer, GNIS,

NIMA, Bevölkerungsstatistik.de

– NER-Systems• Regel-basiert, statistisch• Z.B. GATE

Page 10: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

Toponym Resoultion / Disambiguation

• Zuweisung von Footprint an Toponym

• Problem der Mehrdeutigkeit von Toponymen:– Coocurrence (z.B. in Wikipedia)– Hierarchisch– Map-Distance

Page 11: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

Indexing

• Spatial Index

• Textual Index

Page 12: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

Problemstellung und Zielsetzung

• (1) Statistische Auswertung der Gazetteers

• (2) Zuweisen von Footprint an Zeitungsartikel

• (3) Räumlicher Vergleich der Südostschweizartikel mit den NZZ-Artikeln

Page 13: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

1. Statistische Auswertung

• Methodik:– Statistische Methoden in Java

programmieren– Daten: Swissnames und Geonames

• These: Die räumliche Verteilung von mehrdeutigen Ortsnamen ist gleich wie die allgemeine Verteilung von Ortsnamen.

Page 14: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

• SwissNames (nur Schweiz):– Swisstopo– Kommerziell– 155‘500 Einträge– Hierarchische Angaben (Gemeinde, Kanton)– Typinformationen– Koordinatensystem: H1903

• Geonames (weltweit):– Wiki-style User-Editing– Mehr als 8 Mio. Einträge– Hierarchische Angaben: Land– Typinformationen– Koordinatensystem: WGS84

Page 15: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

Erste Ergebnisse (1)

Verteilung der Distanzen in SwissNames

0

2

4

6

8

10

12

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35

Distanz in 10 km

%

Amb. Gem. undOrtsch

Alle Amb.Siedlungstypen

Stichproben vonGem. und Ortsch.

Stichproben vonallenSiedlungstypen

Page 16: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

Erste Ergebnisse (2)

Verteilung der Distanzen in SwissNames

0

2

4

6

8

10

12

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

Distanz (10 km)

%

Amb. Gem. & Ort.

Amb. Siedlungen

Ambig. SwissNames

Total Gem. & Ort.

Total Siedlungen

Total SwissNames

Page 17: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

Mögliche Erklärung...

Page 18: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

2. Zuweisen von Footprint an Zeitungsartikel

• Methodik:– Toponym Detection:

• Gazetteer Lookup (GATE, SwissNames, Geonames)

– Toponym Resolution / Disambiguation:• Hierarchische Beziehungen• Metonyme: Regeln

Page 19: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

3. Räumlicher Vergleich von Südostschweiz- mit NZZ-Artikeln

• These: Artikel lokaler Zeitungen sind stärker auf ihre Region fokussiert als diejenigen global erhältlicher Zeitungen

• Aufbauend auf 2. Teil der Arbeit

• Statistischer Vergleich der Verteilung der Footprints

Page 20: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

Problempunkte

• SwissNames: mehrmalige punkte• Kombination SwissNames und Geonames• Deutsche Sprache:

– Gross-/Kleinschreibung– Satzstellung

• Zeitungstexte politischer Natur– Metonyme (z.B. Zug, Bern)– Location?

Page 21: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

Zeittafel/Meilensteine

KW Ferien Arbeitsphasen Milestones33/34 Literaturrecherche Beginn35 Datensichtung/Suche36/37 Statistische Datenauswertung38 Ferien39 Ferien Konzeptabgabe40 Statistische Datenauswertung Kleines Kolloquium41 GATE einlesen42 Prozessierungslayout43-51 Programmierung52 Ferien1 Ferien2 Programmierung Abschluss Programmierung3 Manuelle Ground-truth4-8 Evaluation / Durchführung9-15 Arbeit verfassen15 Abgabe der Arbeit22 Masterkollouium

Page 22: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

Zusammenfassung

• GIR• Statistische Auswertung von SwissNames

und Geonames• Zuweisen von Footprints an Zeitungsartikel• Vergleich von Südostschweizartikeln und

NZZ-Artikeln• In Java programmiert

Page 23: Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

Quellen

Cunningham, Hamish et al. (2007): GATE - General Architecture for Text Engineering. http://www.gate.ac.uk, Zugriff: 16.09.2007.

Geonames (2007): http://www.geonames.org, Zugriff 16.09.2007.

Larson, Ray R. (2000): Geographic Information Retrieval and Spatial Browsing. https://sherlock.sims.berkeley.edu/geo_ir/PART1.html, Zugriff: 16.09.2007.

SwissTopo (2006): SwissNames - Georeferenzierte Sammlung der Landeskartennamen. http://www.swisstopo.ch/de/products/digital/names/swissnames, Zugriff: 16.09.2007.


Top Related