Identifikation der geographischen Lage von Zeitungsartikeln (GIR) Masterarbeit von Tobias Brunner...
Transcript of Identifikation der geographischen Lage von Zeitungsartikeln (GIR) Masterarbeit von Tobias Brunner...
Identifikation der geographischen Lage von
Zeitungsartikeln (GIR)
Masterarbeit von Tobias Brunner
Betreuung: Dr. R. S. Purves
Motivation
• Suchmaschinen können mit geographischen Anfragen oft wenig anfangen...
Motivation
• Zeitungsabschnitte Aufgrund von räumlichen Unterteilungen
» Scan von NZZ-Vorderseite
Forschungsstand und -kontext
• geoCLEF• GIR:
– „Geographic information retrieval (GIR) is concerned with providing access to geo-referenced information sources“ (Larson 2000).
– Toponym Detection– Toponym Resolution / Disambiguation– Indexing
Toponym Detection
• Erkennung von Ortsnamen• Methoden:
– Gazetteer Lookup• GETTY, Geonames, WorldGazetteer, GNIS,
NIMA, Bevölkerungsstatistik.de
– NER-Systems• Regel-basiert, statistisch• Z.B. GATE
Toponym Resoultion / Disambiguation
• Zuweisung von Footprint an Toponym
• Problem der Mehrdeutigkeit von Toponymen:– Coocurrence (z.B. in Wikipedia)– Hierarchisch– Map-Distance
Indexing
• Spatial Index
• Textual Index
Problemstellung und Zielsetzung
• (1) Statistische Auswertung der Gazetteers
• (2) Zuweisen von Footprint an Zeitungsartikel
• (3) Räumlicher Vergleich der Südostschweizartikel mit den NZZ-Artikeln
1. Statistische Auswertung
• Methodik:– Statistische Methoden in Java
programmieren– Daten: Swissnames und Geonames
• These: Die räumliche Verteilung von mehrdeutigen Ortsnamen ist gleich wie die allgemeine Verteilung von Ortsnamen.
• SwissNames (nur Schweiz):– Swisstopo– Kommerziell– 155‘500 Einträge– Hierarchische Angaben (Gemeinde, Kanton)– Typinformationen– Koordinatensystem: H1903
• Geonames (weltweit):– Wiki-style User-Editing– Mehr als 8 Mio. Einträge– Hierarchische Angaben: Land– Typinformationen– Koordinatensystem: WGS84
Erste Ergebnisse (1)
Verteilung der Distanzen in SwissNames
0
2
4
6
8
10
12
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35
Distanz in 10 km
%
Amb. Gem. undOrtsch
Alle Amb.Siedlungstypen
Stichproben vonGem. und Ortsch.
Stichproben vonallenSiedlungstypen
Erste Ergebnisse (2)
Verteilung der Distanzen in SwissNames
0
2
4
6
8
10
12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
Distanz (10 km)
%
Amb. Gem. & Ort.
Amb. Siedlungen
Ambig. SwissNames
Total Gem. & Ort.
Total Siedlungen
Total SwissNames
Mögliche Erklärung...
2. Zuweisen von Footprint an Zeitungsartikel
• Methodik:– Toponym Detection:
• Gazetteer Lookup (GATE, SwissNames, Geonames)
– Toponym Resolution / Disambiguation:• Hierarchische Beziehungen• Metonyme: Regeln
3. Räumlicher Vergleich von Südostschweiz- mit NZZ-Artikeln
• These: Artikel lokaler Zeitungen sind stärker auf ihre Region fokussiert als diejenigen global erhältlicher Zeitungen
• Aufbauend auf 2. Teil der Arbeit
• Statistischer Vergleich der Verteilung der Footprints
Problempunkte
• SwissNames: mehrmalige punkte• Kombination SwissNames und Geonames• Deutsche Sprache:
– Gross-/Kleinschreibung– Satzstellung
• Zeitungstexte politischer Natur– Metonyme (z.B. Zug, Bern)– Location?
Zeittafel/Meilensteine
KW Ferien Arbeitsphasen Milestones33/34 Literaturrecherche Beginn35 Datensichtung/Suche36/37 Statistische Datenauswertung38 Ferien39 Ferien Konzeptabgabe40 Statistische Datenauswertung Kleines Kolloquium41 GATE einlesen42 Prozessierungslayout43-51 Programmierung52 Ferien1 Ferien2 Programmierung Abschluss Programmierung3 Manuelle Ground-truth4-8 Evaluation / Durchführung9-15 Arbeit verfassen15 Abgabe der Arbeit22 Masterkollouium
Zusammenfassung
• GIR• Statistische Auswertung von SwissNames
und Geonames• Zuweisen von Footprints an Zeitungsartikel• Vergleich von Südostschweizartikeln und
NZZ-Artikeln• In Java programmiert
Quellen
Cunningham, Hamish et al. (2007): GATE - General Architecture for Text Engineering. http://www.gate.ac.uk, Zugriff: 16.09.2007.
Geonames (2007): http://www.geonames.org, Zugriff 16.09.2007.
Larson, Ray R. (2000): Geographic Information Retrieval and Spatial Browsing. https://sherlock.sims.berkeley.edu/geo_ir/PART1.html, Zugriff: 16.09.2007.
SwissTopo (2006): SwissNames - Georeferenzierte Sammlung der Landeskartennamen. http://www.swisstopo.ch/de/products/digital/names/swissnames, Zugriff: 16.09.2007.