IR Referat - Computerlinguistsik · HTML-Tags, die zur Extraktion von Strukturinformationen...

Information Retrieval

Uni-KölnInstitut für Sprachliche InformationsverarbeitungComputerlinguistik IJ. Hermes13.10.200916-17.30h

ReferentenAdalbert Wrona

Klaus Jettkant

Klassisches Information RetrievalDefinition und EinführungEntwicklungenArten von DatenbankenTerme und IndexierungLemmatisierung und StemmingRetrieval Modelle

Web Information RetrievalDie Größe des Web und seine Abdeckung durch SuchmaschinenStrukturinformationenAnwendung klassischer Verfahren des IR bei SuchmaschinenRankingInformationsstatistische und Informationslinguistische VerfahrenLinktopologische Rankingverfahren

Definition und Einführung

� Information Retrieval ist gezieltes Abrufen von Information aus unstrukturiertem Material (gewöhlich Dokumente), dass in großen Sammlungen gespeichert ist (gewöhnlich auf Rechnern)

� alle Verfahren, die mit der Aufbereitung, Speicherung und Wiedergewinnung (Recherche) von Wissen (Texte, Fakten) zu tun haben

Definition und Einführung

Konzepte� Vagheit: Der Benutzer kann sein "diffuses"

Informationsbedürfnis nicht präzise und formal ausdrücken. Die Anfrage enthält daher vage Bedingungen.

� Unsicherheit: Dem System fehlen Kenntnisse über den Inhalt der Dokumente. Dies führt zu fehlerhaften und fehlenden Antworten. Probleme bei Texten bereiten z. B. Homographe (Wörter, die gleich geschrieben werden; z. B. Bank - Geldinstitut, Sitzgelegenheit) und Synonyme (Bank und Geldinstitut)

Klassisches Information RetrievalDefinition und EinführungEntwicklungen

Arten von DatenbankenTerme und IndexierungLemmatisierung und StemmingRetrieval Modelle

Entwicklungen

Vier Entwicklungen haben das Aufkommen des Information Retrieval in Online Datenbanken im wesentlichen beeinflusst:

1. Wachsende Anerkennung der Bedeutung von Information (Sputnik-Schock)

2. Digitalisierung von Referatorganen, Schriftstücken

3. Entwicklung im Computerbereich: 4. Entwicklung der Telekommunikationsnetze

Arten von Datenbanken

� Referenz- oder Literatur-DB

� Volltext-DB

� Fakten-DB

Terme und Indexierung

� Terme

� Deskriptoren

� Indexierung

� Thesaurus

� Relationen

� Weitere Merkmale

Lemmatisierung / Stemming

� Grundformenreduktion

� Stammformenreduktion

Retrieval Modelle

� Mengentheoretische Modelle: Boolsche Logik

� Algebraische Modelle: Vektor-Raum-Modelle

� Probabilistische Modelle: stochastische Verfahren, Abstufung über Wahrscheinlichkeiten (z.B. Inferenznetze)

Retrieval Modelle

Das Boolesche Retrieval

OR � Es werden die Dokumente gefunden, die entweder

Element der Menge 1 oder Element der Menge 2 oder Element beider Mengen sind

� Es werden die Dokumente gefunden, die sowohl Element der Menge 1 als auch Element der Menge 2 sind

Retrieval Modelle

Das Boolesche Modell

� Es werden die Dokumente gefunden, die Element der Menge 1, aber nicht Element der Menge 2 sind

Retrieval Modelle

Das erweiterte Boolesche Retrieval

� Werte werden mathematisch über einem Interval [0,1] definiert, wobei null für "falsch", eins für "wahr" steht.

Retrieval Modelle

Grenzen und Nachteile der BooleschenRecherche

Die Größe des Web und seine Abdeckung durch Suchmaschinen

Die Betreiber von Suchmaschinen werben in der Regel damit "The Worlds Information" (Google) zugänglich zu machen.

Indexierte Dokumente 2004/2005

• Google: ~8 Mrd. Dokumente

• MSN: ~5 Mrd. Dokumente

• Yahoo: ~5 Mrd. Dokumente

• Teoma: ~2,5 Mrd. Dokumente

Indexierte Dokumente 2005

• Yahoo: 20 Mrd Dokumente

• Google: „etwa drei mal so viel“

Seitdem sind keine Angaben über Indexgrößen veröffentlicht mehr worden.

Strukturinformationen

Für die Erschließung von Web-Dokumenten ist die Einbeziehung der Dokumentstruktur von besonderer Bedeutung.

Unterscheidung der Dokumente aufgrund ihrer Struktur nach

• Free Text (Fließtext)

• Structured Text (strukturierter Text)

• Semistructured Text (schwach strukturierter Text)

Explizit inhaltsbeschreibendeHTML-Tags

� abbr Abkürzung� acronym Akronym� address Adresse� blockquote abgesetztes Zitat� cite Zitat� code Quellcode� usw.

HTML-Tags, die zur Extraktion von Strukturinformationen eingesetzt werden können

� b fett � big, small größere/kleinere

Schrift in Relation� br Zeilenumbruch � font size Schriftgröße � hr Trennlinie � i kursiv� usw.

In den Datenbanken der Suchmaschinen werden die Dokumente (dokumentarische Bezugseinheit - DBE) durch einen Repräsentanten (Dokumentationseinheit) repräsentiert.

Web Information RetrievalDie Größe des Web und seine Abdeckung durch SuchmaschinenStrukturinformationenAnwendung klassischer Verfahren des IR bei Suchmaschinen

RankingInformationsstatistische und Informationslinguistische VerfahrenLinktopologische Rankingverfahren

Anwendung klassischer Verfahren des IR bei Suchmaschinen

Die Unterschiede zwischen klassischem Information Retrieval und Web Retrieval lassen sich in vier Klassen unterteilen:

• Dokumentenkorpus

• Inhalt

• Nutzer

• Eigenarten des IR-Systems

Bei der automatischen Erschließung der Web-Suchmaschinen bleibt stets die Frage offen, ob auch wirklich alle relevante Information gefunden wurde und ob Dokumente ausgeschlossen werden, die als qualitativ nicht relevant angesehen werden können.

Boolesche Retrievalsysteme

• kostengünstige Umsetzung (AND, OR, AND NOT)

• Implementiert in Interfaces der Suchmaschinen

• dennoch keine wirkliche Boolesche Suche

Vektorraummodell

• sucht nach Ähnlichkeiten zwischen Dokumenten und Suchanfrage

• Abfrageterme und Dokumente als Vektor

• Gemeinsamkeiten als Kosinus des Winkels zwischen den Vektoren

Vektorraummodell

Wie man anhand der Eigenschaften des Booleschen und des Vektorraum orientierten Modell sieht, setzen die Betreiber Mischformen von Modellen ein, wie zum Beispiel auch das erweiterte Boolesche Modell, welches um Wertigkeiten von Suchtermen erweitert wurde.

Das probalistische Modell

• Wahrscheinlichkeitsermittlung der Relevanz

• Ähnlichkeit zwischen der Anfrage und dem Dokument

• Ähnlichkeitswert abhängig von der Häufigkeit der Suchbegriffe im Dokument

Ranking

Rankingverfahren sollen erreichen, dass Dokumente innerhalb einer Trefferliste so sortiert werden das die relevantesten Dokumente oben stehen.

Ranking

Anfrageabhängige Faktoren

• Worthäufigkeiten

• Position der Suchbegriffe im Dokument

Anfrageunabhängige Faktoren

• Bestimmung der Qualität bzw. die Autorität eines Dokuments unabhängig von einer Suchanfrage

Ranking

Anfrageabhängige Faktoren im Ranking:

� Dokumentspezifische Wortgewichtung (WDF� Wortabstand� Position der Suchbegriffe� Reihenfolge der Suchbegriffe in der Anfrage� Metatags� Stellung der Suchbegriffe innerhalb des Dokuments� Betonung von Begriffen durch HTML-Elemente� Groß-/Kleinschreibung� Inverse Dokumenthäufigkeit (IDF)� Ankertext� Sprache- Geo-Targeting.

Ranking

Anfrageunabhängige Faktoren im Ranking

� Verzeichnisebene� Anzahl eingehende Links� Linkpopularität� Klickhäufigkeit� Aktualität� Dokumentlänge� Dateiformat� Größe der Site

Informationsstatistische und Informationslinguistische Verfahren

Textstatistische Verfahren gehören zu den klassischen Verfahren des Information Retrieval.

Auswertung von Nutzungsstatistischen bestimmt die Güte eines Dokuments

Informationslinguistische Verfahren dienen der Vorbereitung von Dokumenten zur Indexierung

Informationslinguistische Verfahren

• Worterkennung • Morphologie • Lexikon • Syntax • Semantik • Diskursanalyse • Pragmatik • Stemming• Rechtschreibfehler

Soundex-Algorithmus am Beispiel von „economics"

(1) Der erste Buchstabe des Wortes bleibt erhalten (2) Falls der zweite Buchstabe identisch mit dem ersten

ist, übergehe ihn [E](3) Falls zwei aufeinander folgende Buchstaben im

Ausgangswort identisch sind, übergehe den jeweils zweiten

(4) Falls zwei aufeinander folgende Buchstabenim entstehenden Codewort identisch sind, notiere

beide (5) Übergehe die Buchstaben AEIOUYWH [Ecnmcs](6) Falls ein Buchstabe CGJKQSXZ ist, notiere C [ECnmC](7) Falls ein Buchstabe BFPV ist, notiere B (8) Falls ein Buchstabe DT ist, notiere D (9) Falls ein Buchstabe MN ist, notiere M [ECMMC](10) Die Buchstaben L und R bleiben erhalten (11) Falls der letzte Buchstabe AIOUY, notiere Y

Linktopologisches Rankingverfahren

Neben den Vorgestellten Kriterien zur Bewertung von Qualität und Güte von Dokumenten im Web stellt das Linktopologische Rankingverfahren das wichtigste Verfahren dar

Methoden des Linktopologischen Verfahrens

• Sience Citation Indexing

• PageRank

• Kleinbergs HITS

• Hilltop

Sience Citation Indexing

(Eugene Garfield)

Wissenschaftliches Prinzip der Zitation

PageRank-Verfahren

(Lawrence Page)

Ordnet jedem indexierten Dokument einen statischen PageRank-Wert zu

PageRank-Verfahren

(Lawrence Page)

Kleinbergs HITS

Das Kleinbergs-HITS Verfahren (Hyperlink induced topic search) versucht, die Einschränkungen einfacher Linkzählungen bzw. die themenunabhängige Bewertungen von Webseiten zu überwinden und wichtigsten Seiten (sog. Autoritäten) passend zum Thema der jeweiligen Suchanfrage ermitteln.

Kleinbergs HITS

Hilltop

Hilltop beschreibt ein Verfahren, das die besten Seiten zu populären Themen mit Hilfe von sogenannten Expert Pages finden soll.

Anmerkung zu den Problemstellungen des Linktopologischen Verfahrens

Bibliographie

� LEWANDOWSKI, Dirk; OCKENFELD, Marlies (Hg.): Web Information Retrieval. Technologie zur Informationssuche im Internet. Reihe de Informationswissenschaft der DGI. Band 7, Frankfurt am Main 2005

� BENJAMINS, V. Richard; CASANOVAS, Pompeu; BREUKER, Joost; GANGEMI, Aldo: Law and the Semantic Web. Legal Ontologies, Methodologies, Legal Information Retrieval, and Applications, Berlin Heidelberg, 2005

� BERRY, Michael W.; BROWNE, Murray; DONGARRA, Jack J. (Hg.): Understanding Search Engines. Methematical Modeling and Text Retrieval. Second Edition. Software - Environments - Tools, Philadelphia, 2005

� GROSSMANN, David A.; FRIEDE, Ophir: Information Retrieval. Algorithms and Heuristics. Second Edition, Dordrecht, 2004

� BUßMANN, Hadumod: Lexikon der Sprachwissenschaft, Stuttgart, 1990� MÜLLER, Horst M. (Hg.): Arbeitsbuch Linguistik, Paderborn, 2002� POETSCH, Eleonore: Information Retrieval. Einführung in Grundlagen

und Methoden, Saarbrücken, 1998

� "Yahoo hat über 20 Mrd. Items Indexiert", internetmarketing-news.de

http://www.internetmarketing-news.de/2005/08/09/yahoo-hat-uber-20-mrd-items-indexiert/

� "Größe des Web", The Web Characterization Project des Online Computer Library Center (OCLC)

http://www.oclc.org/research/projects/archive/wcp/

� [Google, MSN, Yahoo, Ask Jeeves]

IR Referat - Computerlinguistsik · HTML-Tags, die zur Extraktion von Strukturinformationen...

Documents

Transcript of IR Referat - Computerlinguistsik · HTML-Tags, die zur Extraktion von Strukturinformationen...

Apocalypse Now? Kritische Diskursanalyse der Berichterstattung der BILD-Zeitung … · 2019. 10. 27. · Apocalypse Now? Diskursanalyse der BILD-Zeitung 605 Leitorgan des Journalismus

Paskoski 2003 Diss Foucault Diskurs d Literatur. Diskursanalyse u Literaturtheorie

จังหวัดเพชรบุรีphetchaburi.go.th/data/comphet/cctv1.pdf · Topic Topic 4: 4: การออกแบบระบบกล้องวงจรปิดCCTV

World Wide Web Homepage DSL LAN Website Online-Community Hyperlink Webserver Chatroom E-Mail.

Handelsblatt Topic

Die Postmodernität der gegenwärtigen politischen Metaphorik am Beispiel der Diskursanalyse der Verdolmetschung politischer Reden (Bachelor-Arbeit)

Decimal periods and their tables: A German research topic ... · Decimal periods and their tables: A German research topic (1765–1801) ... In the same paper, Lambert suggested that

Modulbeschreibung: Master of Arts Empirische ... · Strukturgleichungsmodelle, Mehrebenenmodelle, Experiment, Experteninterview, qualitative komparative Analyse, Diskursanalyse).

Gesellschafts- als Diskursanalyse? - :: Johannes Angermullerjohannes-angermuller.net/pub/pdf/Angermueller2008Gesellschaftsal... · Reuter/Wieser 2006). Für diesen vielgestaltigen

Angermueller Hegemonietheorie und Diskursanalyse

Diskursanalyse in der Policy-Forschung

05. Juni 2008 / VO Politikfeldanalyse Prof. Herbert Gottweis ANNA DURNOVÁ Diskursanalyse in der Policy-Forschung.

The Omen (1976) Diskursanalyse. The Omen - Filmdaten Regie:Richard Donner Drehbuch: David Seltzer Musik: Jerry Goldsmith Kamera:Gilbert Taylor Besetzung:

Vivi Schultz Grønvold Diskursanalyse og ”Kalaaleq” Bachelor ...Vivi Schultz Grønvold Diskursanalyse og ”Kalaaleq” Bachelor projekt Vinter 2007 3 Otto Sandgreen skulle kun

Die „Kritische Diskursanalyse“ des Duisburger Instituts ... · Institut für Staatspolitik Kritik als Ideologie Die „Kritische Diskursanalyse“ des Duisburger Instituts für

Topic Zuerich Schaffert Vortrag Webversion

PM Landkreis Potsdam-Mittelmark Landschaftsrahmenplangis1.potsdam-mittelmark.de/hyperlink/geoportal/download/lrp_2006/… · Güteklasse III: stark verschmutzt Bearbeitung: B üro

Netzwerk EOS - Statusbericht Topic 3: Globaler Wandel und Prozesse der Landoberfläche

Topic Haustüren 2013

Unternehmerinnen Prof. Sissi Closs HsKA und C-Topic Consulting GmbH Prof. Sissi Closs HsKA und C-Topic Consulting GmbH Innovativ und erfolgreich.