Architecture and implementation of Apache Lucene

Kolloquium zur Masterarbeit

Josiane Gamgo

November 2010

16.11.10 2

AgendaMotivationApache Lucene KonzepteÜberblick über die KomponentenLucene DokumentIndizierungIndex-Suche Case study: Solr

16.11.10 3

Motivation

Bedarf an einer effizienten Suchmaschine für Kunden

Mehr Wissen über Lucene

Mangel an wissenschaftlicher Arbeit über

die interne Struktur von Apache Lucene

16.11.10 4

Erfunden 1998 von Doug Cutting

2001 von Apache von Sourceforge übernommen und

wird bis heute “Apache Lucene” genannt

Ist eine Java-Bibliothek für die Volltextsuche

Benutzt für die Indizierung und für die Suche

Implementiert algorithmen und Modelle der Information

Retrieval

Apache Lucene

16.11.10 5

Konzepte

Lucene-Dokument

Analyzer

Indizierung

QueryParser

Indexsuche

16.11.10 6

Überblick über die Komponenten

16.11.10 Lucene Dokument 7

Lucene Dokument:Architektur Übersicht

Feld: Eigenschaften

Boost factor

Gibt mehr Bedeutung zu einem Feld oder einer Abfrage

fcal.setBoost((float) 0.75);

q.setBoost((float)0.5);

Daten Struktur: Beispiel

Erstellung eines Lucene-Dokuments

Das DocumentHandler Interface

Ein Dokumenten Parser. Z.B. : PDFBOx, SAX

Eine Implementierung des DocumentHandlers

Interface

Implementierung des DocumentHandlers interface

Implementierung des DocumentHandlers Interface

public class PdfHandler implements DocumentHandler{

public Document getDocument(File originalFile) throws DocumentHandlerException {

pdfdoc = PDDocument.load(originalFile);//load original document into a PDDocument

PDFTextStripper stripper = new PDFTextStripper();StringWriter writer = new StringWriter();stripper.writeText(pdfdoc, writer);

PdfContents =writer.getBuffer().toString();PDDocumentInformation metadata = pdfdoc.getDocumentInformation(); 3

doc.add(new Field("contents",PdfContents,Field.Store.NO,Field.Index.ANALYZED,Field.TermVector.YES));doc.add(new Field("path",originalFile.getAbsolutePath(),Field.Store.YES,Field.Index.ANALYZED));doc.add(new Field("filename",originalFile.getName(),Field.Store.YES,Field.Index.ANALYZED));doc.add(fcal);

4fcal = new Field("date of creation",String.valueOf(cal.get(Calendar.DAY_OF_WEEK)),Field.Store.YES,Field.Index.ANALYZED);fcal.setOmitNorms(true);fcal.setBoost((float) 0.75);

Calendar cal = metadata.getCreationDate();

16.11.10 14

Indizierung: Komponenten Übersicht

16.11.10 Indizierung 15

Analyzer: Die Strategie des IndexWriters

TokenStream decorator pattern

Tokenizer

Tokenizer: Beispiel

TokenFilter

TokenFilter Beispiel: PorterStemFilter

(condition)S1-> S2Condition =

(*V*)Y → i, ZB.• Z.b. Query → queri

(m>0)ational → ate(m>1)ate →

• Z.b. Informational → informationate → inform

Erstellung eines Index

Beispiel: Erstellung eines Index für zwei pdf Dateien:

Extracted and analyzed terms

DocIds

literature 1

shares 1

assumption 1

searches 1

motivated 1

information 1

need 1

search 2

engines 2

uses 2

spider 2

search 2

spider 2

information 2

terms(sorted) DocIds

assumption 1

engines 2

information 1

information 2

literature 1

motivated 1

need 1

search 2

searches 1

shares 1

spider 2

spiders 2

uses 2

Terms Dictionary(term,tfq)

Posting lists

all 1 1

assumption 1 1

engines 1 2

information 2 1,2

literature 1 1

motivated 1 1

need 1 1

search 2 2

searches 1 1

shares 1 1

spider 1 2

spiders 1 2

uses 1 2

web 2 1,2

Terms Dictionary( stemmed terms,tfq)

Posting lists

all 1 1

assumpt 1 1

engin 1 2

inform 2 1,2

literatur 1 1

motiv 1 1

need 1 1

search 3 1,2

share 1 1

spider 2 2

us 1 2

web 2 1,2

Indizierungsalgorithmen: IR Versus Lucene

Indizierungsalgorithmen in Information Retrieval(IR)Suffix arraysSignature FilesInverted Files

Lucene IndizierungsalgorithmusBasis-Algorithmus Inkrementell-Algorithmus.

Lucene Indizierungsalgorithmus

Quelle:http://lucene.sourceforge.net/talks/pisa

Lucene Indizierungsalgorithmus

Index Optimierung

Lucene benutzte Puffer kontrollieren: MergeFactorminMergeDocsmaxMergeDocs

Zuerst den Index in den Arbeitspeicher speichernIndexWriter.optimize()IndexWriter.MaxFieldLength

Index Datentypen

16.11.10 30

Indexsuche: Komponenten

16.11.10 Index Suche 31

Lucene Abfrage Sprache(Query Language)

Hat eine Grammatik:Query ::=(clause)*

Clause ::=[“+”,”-”][<TERM>”:”](<TERM>| “(“Query”)”)

Definiert die Syntax eines Lucene Query Token

Lucene Query: Beispiel „web AND search“

Benutzung der Index für Die Suche

Index Search Algorithmus

Quelle: http://lucene.sourceforge.net/papers/riao97.ps

Lucene Retrieval Modell

Ist eine Kombination von Boolean Model und Vector space model

Boolean Model: Beispiel query = “Web AND search”

Lucene Retrieval Modell

Vector space modelErfunden 1945 by Gerard SaltonPrinzip: Gegeben sei ein Dokument Dj, und ein Query Q. Beide werden als Vektoren von t terms Dargestellt. Die Ähnlichkeit zwischen den beiden Vektoren wird berechnet. Je kleiner der Winkel zwischen den beiden ist, desto näher ist das Dokument von den Query. Die Ähnlichkeit ist wie folgt berechnet:

Begriff Gewichtung: tfij - idfi

Die Begriffe, die als Such Ergebnisse dargestellt werden, sollten höhere Begriff frequenz haben und eine geringe frequenz in der Lucene Dokumenten Sammlung haben Die Gewichtung eines Begriff hängt von 3 Faktoren ab: tfij , idfi , und die Länge des Dokuments.

Der Begriff Gewichtung in das Dokument ist das Produkt: tfij x idfi

Lucene Formel zur Berechnung der Such Ergebnisse

Coord(q,d)= tfiq, für ein Begriff I in then query qqueryNorm(q)= Wiq x t.getBoost()t.getBoost() ist der Boost factor, der für den Query definiert istnorm(t,d) enthält länge und boost für jedes Field

16.11.10 39

Case Study: Solr

Ein Open source enterprise search server

Basiert auf Lucene

Komponenten:

SolrDocument

Solr analysis

Solr QueryParser Z.B.:Query= {!func}sum(n,5)

Wesentliche Merkmale: highlighting,faceting, caching.

16.11.10 40

Case Study: Solr

Quelle: http://www.typo3-solr.com/en/what-is-solr/

16.11.10 41

Danke für Ihre Aufmerksamkeit !

Architecture and implementation of Apache Lucene

Technology

Transcript of Architecture and implementation of Apache Lucene

FID Germanistik – Bedarfsermittlung...2019/05/17 · 20. Mai 2019 20 Portal & Admin Interface Apache Solr für TYPO3 TYPO3 Core Apache HTTP Server MySQL Apache Solr OAI Schnittstellen

Editorial - wheregroup.com Q2_2014_0.pdf · Abbildung 3: LiveVolltextsuche mit Apache Lucene/Solr und Mapbender3Suchmodul (Quelle: T. Pignataro, WhereGroup) Infobrief 3 | 2014 Seite

Eine Einführung in den Apache Webserver der Apache Software … · 2009-04-13 · Apache Webserver | Geschichte am 01. Dezember 1995. 1999 formierte sich die Apache Gruppe zur Apache

AH-64 D Longbow Apache AH-64 D Longbow Apache · 2020. 8. 31. · AH-64D Longbow Apache 04046-0389 2005 BY REVELL GmbH & CO. KG PRINTED IN GERMANY AH-64 D Longbow Apache AH-64 D Longbow

Apache camel

Suchen und Finden mit Lucene und Solr

Performance-Analyse von Apache Spark und Apache …edoc.sub.uni-hamburg.de/haw/volltexte/2015/3125/pdf/BA_Horgas.pdf · Tim Horgas Thema der Arbeit Performance-Analyse von Apache

Apache solr

Relevantes schneller finden – mit Lucene und Solr · Warum Solr verwenden und nicht nur Lucene? •Lucene ist lediglich eine Library •Solr ist eine skalierbare Suchplattform und

Apache Webserver und XML Web Services - iks.hs-merseburg.deuheuert/pdf/Anwendung Rechnernetze/Vortraege...Apache Webserver und XML Web Services 1 Apache 2.0 1.1 Entstehung des Apache

Lucenes Welt - ordnen, finden, klassifizieren - inovex GmbH · PDF fileEbay Kleinanzeigen ... Scala over TCP ... Lucene & Hadoop - Hadoop: parallel processing power - Lucene: dynamic,

Vom dokument parser zum lucene index

Tilman Schneider Seminararbeit - regainregain.sourceforge.net/download/Seminararbeit_Lucene_Vortrag.pdf · © 2004 Tilman Schneider Seminararbeit: Jakarta Lucene Folie 1 Jakarta Lucene

Design and Implementation of Graphene Chinese Literature ... · Lucene 是Apache 软件基金会的一个子项目，是一个开放源码的全文检索引擎工具包，并不是个完

Neue Discovery-Services im GBV TouchPoint, Lucene/SOLR... Neue Discovery-Services im GBV TouchPoint, Lucene/SOLR Neue Entwicklungen im Bereich Katalogisierung Göttingen, 29. März

AH-64 D Longbow Apache AH-64 D Longbow ApacheAH-64D Longbow Apache 04046-0389 2005 BY REVELL GmbH & CO. KG PRINTED IN GERMANY AH-64 D Longbow Apache AH-64 D Longbow Apache Aufgrund

Apache Trinidad

Apache OFBiz für Unternehmen

Apache Authentifizierung am LDAP-Server

Mit Solr Wissen suchen und schnell ﬁ nden - … · Anwendung verwendbar ist, die Volltextsuche erfordert. Grenzen von Lucene in Liferay Die Lucene ist eine Technologie, die für