NorthernLight Suchmaschinen – Prinzipien und Allgorithmen Fallstudie Matthias Horbank.

Post on 05-Apr-2015

104 views 0 download

Transcript of NorthernLight Suchmaschinen – Prinzipien und Allgorithmen Fallstudie Matthias Horbank.

NorthernLight

„Suchmaschinen – Prinzipien und Allgorithmen“

Fallstudie

Matthias Horbank

- gegründet September 1995 in Cambridge, Massach.- online seit August 1997- damals 20 Mio. Pages und 1.800 Special Collection Sources- heute über 240 Mio. Pages und 20 Mio. Special Collections

- rein privates Unternehmen- Investoren z.B. Reuters Group. PCL und Hewlett-Packard

Quelle: northernlight.com

Geschichte

Aufbau - Besonderheit Custom Search Folders 1

- Folder sind nicht fest vorgegeben

- werden bei jeder Suchanfrage neu generiert

- Informationen zum Algorithmus unbekannt (patentiert)

- vier Typen: Subject, Source, Document Type, Language

- Folder verschachteln sich, bis max. 26 Einträge pro Folder

Quelle: northernlight.com

Aufbau - Besonderheit Custom Search Folders 2

Aufbau - Besonderheit Custom Search Folders 3

Aufbau - Besonderheit Custom Search Folders 4

Aufbau - Besonderheit Custom Search Folders 5

Aufbau - Special Collections

- enthalten Sammlungen von Artikeln verschiedener Veröffentlichungen

- sie sind i.a. nicht im Internet verfügbar

- können gleichzeitig oder unabhängig vom Web durchsucht werden

- kurzes, kostenloses Summary

- ganzer Artikel gegen Gebühr von ein bis vier Dollar

- Special Collections sollen in wissenschaftskreisen sehr beliebt sein

Quelle: northernlight.com

Technologie

- Server läuft auf Apache 1.3.9 unter Solaris

- Name des Spiders ist Gulliver

- läuft auf drei Hosts: scooby.~, taz.~ und gulliver.northernlight.com

- läßt sich durch Tag „gulliver“ ausschließen

- indiziert 2-3 Mio. Pages pro Tag

Quellen: northernlight.com, The Web Robots Database

Statistiken 1

- Nummer der indizierten Seiten (Stand 15.6.2000, 19:50 Uhr): 242,317,169

- zu prüfen durch:

Quelle: northernlight.com

Statistiken 2

Quelle: searchengineshowdown.com

Statistiken 3

Quelle: Search Engine Watch

Statistiken 4

Quelle: Search Engine Watch

Vielen Dank für die Aufmerksamkeit !

Gestern registrierte .DE-Domains: 54.137

Quelle: nic.de