SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

36
FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 1 Oktober 2013 396 Analyse von Crawlingproblemen mit Logfiles und BITools Daniel We>e

description

Die Folien des Vortrags von Daniel Wette auf dem SEO DAY 2013 zum Thema: "Analyse von Crawlingproblemen mit Logfiles und BI-Tools"

Transcript of SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

Page 1: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 1 Oktober 2013

Gefällt mir

396

Analyse  von  Crawlingproblemen  mit  Logfiles  und  BI-­‐Tools  

 Daniel  We>e  

Page 2: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 2 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

Welche  Datenquellen  können  mir  bei  der  Analyse  von  Crawling-­‐Problemen  helfen?  

Page 3: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 3 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

Vorhandene  Datenquellen  /  Datensilos  

Sistrix

 und

 Co.  

Link

datenb

anken  

Craw

ler  

GWT  

Server-­‐Logs  

Page 4: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 4 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

•  URLs  von  platzierten  Seiten  •  Anzahl  Indexierter  Seiten            

Google-­‐Crawling-­‐Daten  Verfügbare  Datenquellen  

Page 5: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 5 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

Google-­‐Crawling-­‐Daten  Verfügbare  Datenquellen  

•  URLs  von  platzierten  Seiten  Teilweise  hilfreich  zum  Aufspüren  von  URLs,  welche  eigentlich  nicht  im  Index  sein  sollten,  Infos  aber  auch  in  den  Logs  vorhanden    •  Anzahl  Indexierter  Seiten  Nur  bedingt  nutzbar  ...  Besser  GWT            

Page 6: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 6 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

Google-­‐Crawling-­‐Daten  Verfügbare  Datenquellen  

FAZIT:  Diese  Daten  helfen  uns  nur  wenig  weiter  bzw.  bringen  bei  der  Analyse  keinen  großen  Mehrwert          

Page 7: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 7 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

•  Ziel-­‐URLs  von  eingehenden  Links            

Linkdatenbanken  Verfügbare  Datenquellen  

Page 8: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 8 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

Linkdatenbanken  Verfügbare  Datenquellen  

•  Ziel-­‐URLs  von  eingehenden  Links  Teilweise  hilfreich  zum  Aufspüren  von  URLs,  welche  eigentlich  nicht  im  Index  sein  sollten,  Infos  aber  auch  in  den  Logs  vorhanden              

Page 9: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 9 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

Linkdatenbanken  Verfügbare  Datenquellen  

FAZIT:  Diese  Daten  helfen  uns  nur  wenig  weiter  bzw.  bringen  bei  der  Analyse  keinen  großen  Mehrwert            

Page 10: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 10 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

•  Status  Codes  •  Ladezeiten  •  URL-­‐Struktur  /  Klickebenen  •  HTML-­‐Fehler  (im  HEAD  und  im  BODY)  •  Interne  Pagerank-­‐Berechnung          

Crawler  Verfügbare  Datenquellen  

Page 11: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 11 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

Abbild  einer  „perfekten  Welt“  bzw.  eines  aktuellen  Status    Der  Google-­‐Bot  nutzt  aber  eine  Vielzahl  weiterer  Informa`onsquellen  um  Unterseiten  zu  finden  (Chrome,  Toolbar,  Verlinkungen,  historische  Daten  etc.)        

Crawler  Verfügbare  Datenquellen  

Page 12: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 12 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

FAZIT:  Diese  Informa`onen  helfen  dabei  die  Struktur  einer  Seite  zu  verbessern,  sie  lassen  dabei  aber  die  Historie  der  Domain  außer  acht.  Weiterhin  habe  ich  keine  Informa`onen  darüber  was  der  Googlebot  wirklich  auf  der  Seite  macht.        

Crawler  Verfügbare  Datenquellen  

Page 13: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 13 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

•  Crawling  Fehler  –  DNS  Fehler  –  Serververbindung  –  Robots.txt  –  Serverfehler  –  404  –  Soc  404  –  Zugriff  verweigert  

•  Crawling  Sta`s`ken  –  Gecrawlte  Seiten  pro  Tag  –  Heruntergeladene  Kilobyte  pro  Tag  –  Durchschni>liche  Seitenladezeit  

•  Sitemaps  –  Eingereicht  vs.  Indexiert  

         

Google  Webmaster  Tools  Verfügbare  Datenquellen  

Page 14: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 14 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

•  Crawling  Fehler  Google  liefert  hier  leider  in  vielen  Fällen  nur  „Auszüge“  von  Problemen    •  Crawling  Sta`s`ken  Diese  Daten  sind  soweit  hochaggregiert,  dass  sie  nur  noch  grobe  Anhaltspunkte  liefern  und  damit  auch  nur  wenig  helfen    •  Sitemaps  Auch  hier  erhalte  ich  keine  Detail-­‐Informa`onen            

Google  Webmaster  Tools  Verfügbare  Datenquellen  

Page 15: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 15 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

Fazit:  Die  GWT  helfen  bei  der  Analyse  von  Crawling-­‐Fehlern,  leider  sind  die  Informa`onen  oc  lückenhac  und  zu  hoch  aggregiert  und  teilweise  auch  einfach  nur  FALSCH!          

Google  Webmaster  Tools  Verfügbare  Datenquellen  

Page 16: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 16 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

•  Gesamtbild  über  die  Crawling-­‐Ak`vitäten  des  Google-­‐Bots  

•  Datum/Uhrzeit  •  Bot  •  Aufgerufene  URL  •  Referrer  •  Status  Code          

Server-­‐Logs  Verfügbare  Datenquellen  

Page 17: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 17 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

•  Große  Datenmengen  •  Daten  müssen  umgeformt  und  in  

Datenbanken  eingespielt  werden  •  Daten  müssen  gefiltert  werden  

•  Fazit:  Interessante  Daten  ...  aber  was  kann  ich  genau  damit  machen?  Helfen  sie  mir  wirklich?  

Server-­‐Logs  Verfügbare  Datenquellen  

Page 18: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 18 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

Zusammenführung  von  Server-­‐Logs  mit  Crawling-­‐Daten  

Craw

ler  

Server-­‐Logs  

Coole  Da

ten  

Page 19: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 19 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

Zusammenführung  von  Server-­‐Logs  mit  Crawling-­‐Daten  

Coole  Da

ten  

Page 20: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 20 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

•  Welche  URLs  meiner  Seite  wurden  die  letzten  4  Wochen  gecrawlt?  •  Wie  verteilt  sich  das  auf  die  Klick`efe  in  meinem  Projekt?  •  Wie  hoch  ist  die  durchschni>liche  Crawlrate  von  einzelnen  Seiten  und  von  Seitentypen/

Kategorien?  •  ak`ve  URLs  nach  Status  Code  •  Wie  viel  Prozent  der  Crawlrate  wird  für  nicht  ak`ve  Seiten  verwendet?  •  URLs  welche  nicht  ak`v  sind  (also  im  eigenen  Crawl  nicht  vorhanden)  jedoch  einen  

Status  200  für  den  Googlebot  zurückliefern  •  Welche  ak`ven  URLs  wurden  nicht  gecrawlt?  •  Mi>lerer  Zeitraum  zwischen  Veröffentlichung  und  erstem  Crawl?  •  .  •  .  

         

Analysemöglichkeiten  durch  die  Nutzung  von  Logfiles  mit  Crawling-­‐Daten  

Page 21: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 21 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

Auswertungen  eines  echten  Kundenprojektes  

Page 22: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 22 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

STRUCR:  Keine  wesentlichen  Fehler  gefunden                  

Auswertungen  eines  echten  Kundenprojektes  

Gesamt            :  2785  Seiten  Status  200  :  2687    Status  301  :  48  Status  302  :  21  Status  404  :  32  

Page 23: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 23 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

STRUCR:  Keine  wesentlichen  Fehler  gefunden                  

Auswertungen  eines  echten  Kundenprojektes  

Gesamt            :  2785  Seiten  Status  200  :  2687    Status  301  :  48  Status  302  :  21  Status  404  :  32  

…  und  nun  die  Logfiles  J  

Page 24: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 24 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

STRUCR:  Keine  wesentlichen  Fehler  gefunden                  

Auswertungen  eines  echten  Kundenprojektes  

Gesamt            :  2785  Seiten  Status  200  :  2687    Status  301  :  48  Status  302  :  21  Status  404  :  32  

…  und  nun  die  Logfiles  

Gesamt            :  50.136  Unique  URLs!  Status  200  :  25.400!  Status  301  :  23.197  Status  30X  :  822  Status  404  :  1.640  

Page 25: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 25 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

Auswertungen  eines  echten  Kundenprojektes  

Page 26: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 26 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

               

Auswertungen  eines  echten  Kundenprojektes  

Google:  50136  Unique  URLs   STRUCR:  2.785  Unique  URLs  vs.  

94,45  %  der  von  Google  gecrawlten  URLs  sind  nicht  teil  der  aktuellen  Seitenstruktur  

Page 27: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 27 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

               

Auswertungen  eines  echten  Kundenprojektes  

75,74  %  der  von  Google  gecrawlten  URLs  wurden    

in  dem  Monat  nur  1mal  gecrawlt  

Page 28: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 28 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

               

Auswertungen  eines  echten  Kundenprojektes  

600mal  wurde  die  Startseite  gecrawled  

Page 29: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 29 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

Auswertungen  eines  echten  Kundenprojektes  

0  

100  

200  

300  

400  

500  

600  

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17   18   19   20  

Anzahl  Crawls  pro  Monat  (Top  20)  

Page 30: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 30 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

Auswertungen  eines  echten  Kundenprojektes  

0%  

10%  

20%  

30%  

40%  

50%  

60%  

70%  

80%  

90%  

100%  

0   1   2   3   4  

Crawlrate  vs.  Klickebene  

Crawled  by  Google   Not  crawled  by  Google  

Page 31: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 31 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

Auswertungen  eines  echten  Kundenprojektes  

1  

5  

25  

125  

625  

0   1   2   3   4  

Durchschni>liche  Crawls  pro  Monat  je  Seite  je  Klickebene  

5  

2  

10  9  

Page 32: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 32 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

Auswertungen  eines  echten  Kundenprojektes  

0%  

10%  

20%  

30%  

40%  

50%  

60%  

70%  

80%  

90%  

100%  

0   1   2   3   4  

Visits  vs.  Klickebene  

Seiten  mit  Besuchen   Seiten  ohne  Besuche  

Page 33: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 33 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

Auswertungen  eines  echten  Kundenprojektes  

205  

16  

80  

12  

0  

10  

20  

30  

40  

50  

60  

70  

80  

90  

0  

50  

100  

150  

200  

250  

Kategorieseiten   Produktseiten  

Anzahl  eingehender  Links  vs.  SEO  Visits  

Durchschni>lich  eingehende  Links   Durchschni>liche  Anzahl  SEO  Visits  

Page 34: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 34 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

•  Veraltete  URLs  ohne  eingehende  Links,  welche  aktuell  per  301  redirected  werden  für  den  Bot  gesperrt  oder  vor  einer  Sperrung  noch  einige  Zeit  per  410  antworten.  

•  Bes`mmte  URL-­‐Parameter  generell  für  den  Bot  sperren  (in  diesem  Fall  „recommenda`on-­‐Ids“)  

•  URLs  welche  per  Canonical  „umgebogen“  sind  und  keine  eingehenden  Links  haben  für  den  Bot  sperren  

•  Interne  Linkstruktur  überarbeiten  •  Englische  Version  in  eigene  Domain  „abspalten“  •  404  Seiten  ggf.  durch  410  ersetzen.  

         

Kommende  Maßnahmen  bei  dem  konkreten  Projekt  

Page 35: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 35 Oktober 2013

SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen  

•  Google  vergisst  nichts  …  GAR  NICHTS!  •  Google  besucht  auch  über  1,5  Jahre  später  noch  URLs,  welche  per  301  umgeleitet  

werden,  oder  einen  404  liefern  

•  Der  Googlebot  hat  im  gleichen  Zeitraum  250%  mehr  Unique  URLs  gecrawlt  als  der  Bingbot  

•  Google  arbeitet  sehr  ineffizient!  

•  41,54%  der  „Googlebot“  Requests  kamen  nicht  von  Google  J    

         

Fazit  

Page 36: SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 36 Oktober 2013

Gefällt mir

396

Vielen  Dank  

Bildrechte  /  Lizenzen  Hard  disk  and  database  icon  ©  Scanrail  -­‐  Fotolia.com  error  ©  olly  -­‐  Fotolia.com