Apache berndf/openexpode08-lucene-talk.pdf · PDF fileApache Nutch Crawler + Indexer...

Click here to load reader

  • date post

    23-Apr-2018
  • Category

    Documents

  • view

    220
  • download

    2

Embed Size (px)

Transcript of Apache berndf/openexpode08-lucene-talk.pdf · PDF fileApache Nutch Crawler + Indexer...

  • Apache LuceneMachs wie Google!

    Bernd Fondermannfreier Software [email protected]@apache.org

    1Sonntag, 25. Mai 2008

    mailto:[email protected]:[email protected]:[email protected]:[email protected]

  • Apache

    Apache Software Foundation Software free of charge Betonung liegt auf der Community

    Apache Software License Free + Open + Source problemlos in Closed Source verwendbar

    siehe ASF Session um 16:50 Uhr2Sonntag, 25. Mai 2008

  • Was macht Google, eigentlich?

    3Sonntag, 25. Mai 2008

  • ohne Freitextsuche

    Navigation in Bumen Titel des gesuchten Dokumentes ist

    wesentlicher Anhaltspunkt

    ffnen vieler Dokumente, die nicht gesucht wurden

    zeitaufwendig alle Aktionen werden vom User ausgefhrt Erwartungshaltung des Users: googeln

    4Sonntag, 25. Mai 2008

  • mit Freitextsuche

    alle Treffer auf einer Ebene, keine Bume Treffer innerhalb von Dokumenten relevante Treffer sind schnell zugnglich Vorschau erlaubt direktes Filtern

    5Sonntag, 25. Mai 2008

  • Ablauf einer Freitextsuche

    vor der Suche (Computerprogramm) Texte (Webseiten) finden und einlesen

    (Crawler)

    Index aufbauen Index speichern und bereitstellen Webseite mit Suchformular

    6Sonntag, 25. Mai 2008

  • Ablauf einer Freitextsuche

    whrend der Suche Suchanfrage eingeben (User) Stichworte entgegennehmen (Computer) daraus eine Suchanfrage bilden Index durchsuchen (schnell!) Ergebnisse nach Relevanz sortieren Ergebnis, inkl. Vorschau anzeigen

    7Sonntag, 25. Mai 2008

  • Lucene Produkte

    Apache LuceneSuchmaschinen-

    Framework, Index

    Apache Nutch Crawler + Indexer

    Apache Solr Suchmaschinen-Server

    8Sonntag, 25. Mai 2008

  • Apache Lucene Features

    Indizieren von beliebigen Business-Daten Ablage in speziellen Files Formulierung von Suchanfragen Durchfhrung der Suche (Finden) Rckgabe der Ergebnisse, Ranking

    9Sonntag, 25. Mai 2008

  • Eigene Daten einspeisen

    Text, Text, Text HTML, XML PDF, Office-Formate Product {Name, Datum, Beschreibung,

    Attribute, Typ}

    File {Name, Content, Kind-Files}

    10Sonntag, 25. Mai 2008

  • Sucheanfragen

    premium, top five premium special, premium OR special premium AND -name:premium pre*, pre~ datum:[20070101 TO 20081231]

    11Sonntag, 25. Mai 2008

  • Ergebnisaufbereitung

    Ranking der Ergebnisse Fundstellen in wichtigen Feldern: boosten Vorschau der Fundstellen in Flietexten

    12Sonntag, 25. Mai 2008

  • Apache Nutch

    Crawler und Indexer durchsucht HTML Seiten automatisch extrahiert die relevanten Informationen folgt Links speist Ergebnisse in Lucene ein

    13Sonntag, 25. Mai 2008

  • Apache Solr

    Such-Server Komplettlsung Crawling, Indexing, Caching, Updating Administrations-Interface Optimierungen fr High-Load Plug-in Architektur eigene Dokumente per XML einspeisen

    14Sonntag, 25. Mai 2008

  • Community & Support

    Lucene ist Quasi-Standard bei Such-APIs Support auf den ffentlichen Mailing-Listen sehr aktives Projekt derzeit kein kommerzieller Service Einflu auf Projekt durch aktive Mitarbeit

    15Sonntag, 25. Mai 2008

  • Lucene Limits

    kein verteilter, replizierter Index keine Meinten Sie? Funktion keine Algorithmen zur schnellen Analyse

    groer Datenmengen

    16Sonntag, 25. Mai 2008

  • verwandte Apache Produkte

    Apache Hadoop verteiltes Filesystem

    Apache Hadoop Map/Reduce

    Apache Mahout Maschinenlernen

    Apache Pig Analyse groer Datenmengen

    17Sonntag, 25. Mai 2008

  • Apache Hadoop

    verteiltes, redundantes Filesystem HDFS verteilt ber Rechner, Racks, Datacenter beliebig viele Live-Kopien, kein Offline-

    Backup ntig

    groe Datenmengen, effizient laden verteilte Datenbank HBase Map/Reduce: Distributed Computing

    18Sonntag, 25. Mai 2008

  • Apache Mahout

    maschine learning neues Projekt implementiert herausragende ML-

    Algorithmen

    auf Basis von Map/Reduce experimentell = noch keine Integration in

    Lucene

    19Sonntag, 25. Mai 2008

  • ML-Algorithmen

    Meinten Sie?anhand der vielen

    Suchanfragen

    Autocompletionanhand der beliebtesten

    Suchanfragen

    Naive Bayes Spam-Detection

    20Sonntag, 25. Mai 2008

  • Vielen Dank!

    http://lucene.apache.org http://hadoop.apache.org http://incubator.apache.org/pig http://apache.org http://lucene.apache.org/mahout Fragen und Antworten

    21Sonntag, 25. Mai 2008

    http://lucene.apache.orghttp://lucene.apache.orghttp://hadoop.apache.orghttp://hadoop.apache.orghttp://apache.orghttp://apache.orghttp://apache.orghttp://apache.org