Recherchieren im Internet: Wie funktionieren Suchmaschinen? · Zahlen und Fakten 82% der...
Transcript of Recherchieren im Internet: Wie funktionieren Suchmaschinen? · Zahlen und Fakten 82% der...
RecherchierenimInternet:WiefunktionierenSuchmaschinen?Steffen-PeterBallstaedt
Vortrag vordemGenealogischen Arbeitskreis Tübingenam17.2.2016
ZahlenundFakten
▶82%derComputernutzersuchen,79%mailen.▶DiehäufigsteAktivitätimInternetistMailen,gleichdanachkommtSuchen.
▶Über50.000AnfrageninderSekundebeiGoogle!
ZahlenundFakten
▶DieAusdehnungdesInternetkannnurgrobgeschätztwerden!
▶Weltweit:über1MilliardeWebsites▶BRD:etwa15MillionenWebsites▶DasInternetverdoppeltsichalle5,32Jahre
▶WiefindeteineSuchmaschineInhaltebzw.DokumenteimWWW?
▶WaskanneineSuchmaschinenichtfinden?▶WiekommtdieTrefferlistezustande(Ranking)?▶WelcheAlternativenzuGooglegibtes?▶WiekannmanpersonenbezogeneDatenimWebsuchen?
AntwortenauffolgendeFragen:
Crawling
▶ AusgehendvonbekanntenWebsiteswerdendieLinksverfolgt.
▶ DieText-Dokumentewerdenerfasstundgespeichert(Dokumentenspeicher).
▶Crawling findetkontinuierlichstatt,nachAktualität undPopularität.
Indexierung
▶ ErstellteineRepräsentationdesDokumentsaussprachstatistischenDaten:Worthäufigkeit,Wortposition,WortinTiteloderÜberschrift.
▶ DerIndexalseineriesigeDatenbankistdasHerzeinerSuchmaschine.
▶ BeieinerSuchanfragewirdnichtaufdieDokumenteimWeb,sondernaufdieseRepräsentationdesWebzugegriffen.
Beispiel:IndexierungvonText-Dokumenten
D1 GenealogieuntersuchtverwandtschaftlicheBeziehungenzwischenMenschen.
D2 HeimatgeschichteistengmitGenealogieverbunden.
D3 EineQuellesindKirchenbücher,eineandereQuellesindPersonenstandsbücher.
D4 MitdemWWWhatdieGenealogieeinenAufschwungerfahren.
IndexderDokumente
Wort Dokument Häufigkeit Position
andere D3 D3,6
Aufschwung D4 D4,8
Beziehungen D1 D1,6
dem D4 D4,2
die D4 D4,4
eine D3 D3:2 D3,1,D3,5
einen D4 D4,7
eng D2 D2,3
erfahren D4 D4,9
Genealogie D1,D2,D4 D1:1D2:1D4:1 D1,1D2,5D4,6
hat D4 D4,4
Heimatgeschichte D2 D2,1
ist D2 D2,2
Kirchenbücher D3 D3,4
Menschen D1 D1,8
mit D2,D4 D2:1D4:1 D2,4D4,1
Personenstandsbücher D3 D3,9
Quelle D3 D3:2 D3,2D3,7
sind D3 D3:2 D3,3D3,8
untersucht D1 D1:1 D1,2
verbunden D2 D2,6
verwandtschaftliche D1 D1,5
WWW D4 D4,3
zwischen D1 D1,7
Suchanfragen,Stichworte
Genealogie D1,D2,D4
Genealogie WWW D4
Genealogie ORWWW D1,D2,D4
„VerwandtschaftlicheBeziehungen“ D1
Searcher
▶ InterpretationderSuchanfrage(dereingegebenStichwörter):– SuchanfrageinderjeweiligenSession– SuchhistoriedesNutzers– angeklickteDokumente– VerweildaueraufeinemTreffer– SuchverhaltenvergleichbarerNutzer
GrenzenfürdieSuchmaschine
▶ BeschränkungdurchdieStrukturdesWWW:nichtalleWebsitessinderreichbar.
▶ BeschränkungdurchdieStrukturderWebsite:nichtalleDokumentesinderreichbar.
unerreichbareDokumente
▶durchPasswortgeschützteBereiche– Beispiel:Intranets
▶ durchSuchformularenutzbareDatenbanken– BeispielTelefonbuch
▶ Social-Media-Dienste– Beispiel:Facebook,Twitter
▶ Inhalte,diefürCrawlergesperrtsind– gewollterAusschluss(robots exclusion)– Filterung:ZensuroderrechtlichunzulässigeInhalte
▶Echtzeitinhalte,diesichständigverändern– Beispiele:Börsenkurse,Wetterdaten
Ranking
▶DieTreffersindnachabsteigenderRelevanzaufgelistet.
▶DieBerechnungdesRankingistbeijederSuchmaschineandersundeinGeheimnis(Algorithmus)!
▶DasRankingwirdalsKombinationundGewichtungverschiedenerFaktorenberechnet(200beiGoogle)
ErzeugungderTrefferliste
Textstatistik
PopularitätPageRank Aktualität Lokalität Persona-
lisierungTechnischeFaktoren
Anfrage
Ranking
Ranking-Kriterien
▶ IndasRankinggehenkeinequalitativen,sondernnurquantitativeGrößenein:– link-statistischeVariablen– nutzer-statistischeVariablen
▶GesponserteLinksmüssengekennzeichnetsein.▶DasRankingkanndurchSuchmaschinen-optimierungbeeinflusstwerden.
▶UmdaspersonalisierteRankingzuerzeugen,speichertdieSuchmaschineDatenüberdenBenutzer,erstellteinBenutzerprofil.
DieseDatenspeichertGoogle
▶dieIP-AdressedesComputers▶dieSuchanfragen(Suchwörter)▶denZeitpunktderSuche▶dieangesteuertenTreffer(auchWerbung)▶VerweildaueraufdenTreffern
- Geschäftsmodell
▶KontextbezogeneWerbungzudenSuchwörtern
▶PersonenbezogeneWerbungüberangelegteBenutzerprofile
▶VerkaufvonpersönlichenDatenundNutzerprofilenanFirmenfürihrepersonenbezogeneWerbung
BewertungderTreffer
▶ ImpressumundKontaktmöglichkeitvorhanden▶ seriöseInstitution,z.B.Hochschule,Verlag,
WissenschaftlicheGesellschaft,Qualitätspresse▶ Autoren/AutorinnenderTextesindbenannt▶ AngabevonQuellen,BelegefürBehauptungen▶ VerlinkungaufseriöseSites▶ PublikationsdatumundletzteÄnderung(last
update)▶ Vorsichtbeikommerziellenundgesponserten
Sites!
UniverselleSuchmaschinen
▶ Startpage:AnfragenwerdenanonymisiertanGoogleweitergeleitet.
▶ Qwant:französischeSuchmaschinemitdeutscherVersion
▶ DuckDuckGo:„DieSuchmaschine,dieSienichtverfolgt.“
Meta-Suchmaschinen
▶HabenkeineneigenenIndexüberCrawlerangelegt.
▶SuchanfragenwerdenanmehrereandereSuchmaschinenweitergeleitet.
▶TrefferausmehrerenTrefferlistenwerdenneugerankt.
▶Meta-SuchmaschinenergebenmehrTreffer,abernichtunbedingtrelevantereTreffer!
Meta-Suchmaschinen
▶ Ixquik:keinepersonenbezogeneDatengespeichert
▶Metager:deutscheSuchmaschinederUniHannover
Spezialsuchmaschinen▶EsgibtCrawlerundSuchmaschinenfürspezielleInhalte:Nachrichten,Jobs,Reise,Personen,Bilder,Videos
▶WissenschaftlicheSuchmaschinenwertennurwissenschaftlicheDokumenteaus:– https://scholar.google.de– http://www.base-search.net
▶Portale/Verzeichnisse fürSpezialsuchmaschinen– www.suchmaschinen-datenbank.dewww.suchlexikon.de
Anfragetypen
▶GezielteSuchenacheinembestimmtenFaktumoderDokumentmitklardefiniertemErgebnis.Optimal:DerersteTrefferistrichtig
▶RecherchezueinemThemanachbisherunbekanntenInformationenohneklaresEnde.Optimal:VielerelevanteTreffer
FormulierenvonSuchanfragen
▶PassendeSuchwörter– nichtzubreiteBedeutung– verschiedeneSchreibweisenbeachten– Synonymebeachten– PhrasensucheinAnführungszeichenbeiZitaten
▶EinengungderSuchanfrage– BoolescheOperatorenkombinierenSuchwörter– ErweiterteSuchemitBefehlen:Filetyp,Sprache
Suchwort-VerknüpfungenmitBooleschenOperatoren
AORB HundORKatze 122.000.000TrefferAANDB Hund(AND)Katze 5.800.000TrefferANOTB HundNOTKatze 90.300.000Treffer
(KarotteORMöhre)(SalatNüsse)-Koriander
Such-Tipps
▶InausländischenVersioneneineruniversalenSuchmaschinesuchen.
▶ GleicheineausländischeSuchmaschineverwenden,z.B.Bing
▶PortaleundVerzeichnissesindLinksammlungenzueinemspeziellenThema.– QualitätsprüfungdurcheinRedakteursteam– nurthemenrelevanteTreffer– VerzeichnisderVerzeichnisse:www.suchlexikon.de
WiefindetmanpersonenbezogeneDatenimWWW?
FriedrichAdolfBallstaedt*4.4.1884inSchrimm✝ 13.11.1941inStettin
▶PhrasensuchemitVornameundNameineineruniversellenSuchmaschine,ev.mitzusätzlichenStichworten– www.google.com
▶PhrasensuchemitandererLänderversion– www.google.fr
▶PhrasensuchemitausländischerSuchmaschine– https://www.yandex.ru
▶PhrasensuchemitandererSpracheinstellung– www.google.de →Einstellungen→ erweiterteSuche→Sprache
direktePersonensuche
direktePersonensuche
▶NamenseingabenineinespeziellePersonensuchmaschine– ListevonsozialenNetzwerken:http://www.yourtraces.com/
▶SammlungvonInformationenüberlebendePersonenistwegenDatenschutz illegal.
direktePersonensuche▶SucheinDatenbanken,indereinePersonvermutetwird(teilweiseregistrier- und/oderkostenpflichtig)
▶GenealogischeDatenbanken– https://familysearch.org/family-trees– http://gav.azurewebsites.net
▶Verzeichnisse/PortalevonDatenbanken– https://de.wikipedia.org/wiki/Genealogie-Datenbank– http://wiki-de.genealogy.net/Genealogische_Datenbank/Linkliste
– http://www.heimatarchiv.de/genealogie/webseiten.html▶Telefonbücher;Branchenverzeichnisseetc.
indirektePersonensuche▶SuchenachDokumenten,indenendiePersonvermutetwird.– Kirchenbuchportale:– www.archion.de– http://search.ancestry.de/search/db.aspx?dbid=2116– Online-Archive:– https://archive.org/details/genealogy&tab=about– https://archivalia.hypotheses.org/category/genealogie
▶ IndenmeisteingescanntenDokumentenistkeineVolltextsuchemöglich.
FazitDiegenealogischeForschungverlegtsichimmermehrinsWeb:▶Erschließung:PrimärquellenwerdendigitalisiertundimWebzurVerfügunggestellt.
▶BearbeitungderDatenerfolgtmitGenealogie-Programmen,z.B.Gen_Plus.
▶DieZusammenführungderDatenfindetweltweitüberdasWebstatt.Standard:meistGEDCOM.
▶ForschungsergebnissewerdenimmerhäufigerimWebpräsentiert,daeinePrint-Veröffentlichungteuerist.
▶DieVisualisierungderBefundez.B.inStammbäumenerfolgtdurchspezielleProgramme,z.B.GRAMPS.
SchwerdurchschaubarerWildwuchsanAngeboten:DieGrenzezwischenlaienhafterAufarbeitungundwissenschaftlicherForschungverwischen.
Fazit
▶EinedeutscheOrganisationzurComputergenealogiewurde1989gegründet.
Organisationen
▶EinZiel:dieEDV-gestütztestandardisierteErschließung,BearbeitungundVeröffentlichunggenealogischerQuellen.
▶FamilyHistory InformationStandardsOrganization,seit2013.
▶„organisation established for the purpose ofdeveloping genealogy and family historyinformation standards onamodernplatform“
Organisationen