Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu...

22
ONLINE-MARKTFORSCHUNG 65 Lektion 3 Das Serverprotokoll als Quelle der Primärforschung Nachdem Sie in der vorangegangenen Lektion erfahren haben, wie Sie das WWW auf vielfältige Weise als Werkzeug der Sekundärforschung einsetzen können, werden Sie sich nun mit der Primärforschung im WWW beschäftigen. Es geht also um „Spurensuche“ im WWW. Auf seinem Weg durch die Internet- Seiten hinterlässt der Nutzer eine breite Datenspur auf diversen Internet- Servern. Diese Datenspur werden Sie hier verstehen und analysieren lernen, Sie erfahren, wie unter Zuhilfenahme weiterer Programme wertvolle Erkenntnisse über das Nutzerverhalten im WWW gewonnen werden können. Abschließend werden auch Grenzen und Schwachstellen dieser Verfahren zur Auswertung des Nutzerverhaltens aufgezeigt. Nach dieser Lektion sind Sie in der Lage, die Aussagekraft von Serverprotokollen zu beurteilen und Webauftritte dahingehend anzulegen, dass eine optimale Erfolgskontrolle durch Logfile-Analyse möglich ist. 3.1 Die Messung der „Website-Activity“ im Serverprotokoll 3.1.1 Das Serverprotokoll Das Serverprotokoll oder auch Logfile ist eine Textdatei, die alle aufgerufenen Dateien eines bestimmten Internetauftrittes (Website) protokolliert. Es stellt die Datenbasis für sämtliche Auswertungen des Nutzerverhaltens auf dieser Website dar. Da jedes angeforderte Webobjekt, also HTML-Dateien (Text), gif-Dateien (Grafiken), jpg-Dateien (Fotos) usw., in einer eigenen Zeile mit etlichen Zusatzinformationen protokolliert wird, kann ein Logfile mit der Zeit eine beachtliche Größe erreichen. (siehe Beispiel 3.1) Logfiles mit einer Dateigröße von mehreren Megabytes sind keine Seltenheit. Wird beispielweise eine Internet-Seite abgerufen, bestehend aus dem HTML- Dokument und 30 Bildern - was keine Seltenheit ist, da ein einziges Bild oftmals nur ein einziges Wort oder auch Strich (zur Gestaltung) darstellt – werden im Logfile dadurch 31 Zeilen hinterlassen. Gut besuchte Seiten weisen einige hundert oder gar tausende Besucher pro Tag auf, die häufig mehr als nur eine Seite betrachten. Das mögliche Ausmaß eines solchen Logfiles wird hier vorstellbar. Die Größe des Serverprotokolls hängt also direkt mit dem „Verkehr“ (Traffic) auf der Website zusammen, der Anzahl der angeforderten Dateien pro Zeiteinheit, oder einfacher: mit der Beliebtheit des Internetauftrittes.

Transcript of Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu...

Page 1: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

65

Lektion 3

Das Serverprotokoll als Quelle der Primärforschung

Nachdem Sie in der vorangegangenen Lektion erfahren haben, wie Sie dasWWW auf vielfältige Weise als Werkzeug der Sekundärforschung einsetzenkönnen, werden Sie sich nun mit der Primärforschung im WWW beschäftigen.

Es geht also um „Spurensuche“ im WWW. Auf seinem Weg durch die Internet-Seiten hinterlässt der Nutzer eine breite Datenspur auf diversen Internet-Servern. Diese Datenspur werden Sie hier verstehen und analysieren lernen,Sie erfahren, wie unter Zuhilfenahme weiterer Programme wertvolleErkenntnisse über das Nutzerverhalten im WWW gewonnen werden können.

Abschließend werden auch Grenzen und Schwachstellen dieser Verfahren zurAuswertung des Nutzerverhaltens aufgezeigt.

Nach dieser Lektion sind Sie in der Lage, die Aussagekraft vonServerprotokollen zu beurteilen und Webauftritte dahingehend anzulegen, dasseine optimale Erfolgskontrolle durch Logfile-Analyse möglich ist.

3.1 Die Messung der „Website-Activity“ im Serverprotokoll

3.1.1 Das Serverprotokoll

Das Serverprotokoll oder auch Logfile ist eine Textdatei, die alle aufgerufenenDateien eines bestimmten Internetauftrittes (Website) protokolliert.

Es stellt die Datenbasis für sämtliche Auswertungen des Nutzerverhaltens auf dieserWebsite dar.

Da jedes angeforderte Webobjekt, also HTML-Dateien (Text), gif-Dateien(Grafiken), jpg-Dateien (Fotos) usw., in einer eigenen Zeile mit etlichenZusatzinformationen protokolliert wird, kann ein Logfile mit der Zeit einebeachtliche Größe erreichen. (siehe Beispiel 3.1)

Logfiles mit einer Dateigröße von mehreren Megabytes sind keine Seltenheit.Wird beispielweise eine Internet-Seite abgerufen, bestehend aus dem HTML-Dokument und 30 Bildern - was keine Seltenheit ist, da ein einziges Bild oftmals nurein einziges Wort oder auch Strich (zur Gestaltung) darstellt – werden im Logfiledadurch 31 Zeilen hinterlassen. Gut besuchte Seiten weisen einige hundert oder gartausende Besucher pro Tag auf, die häufig mehr als nur eine Seite betrachten.Das mögliche Ausmaß eines solchen Logfiles wird hier vorstellbar.

Die Größe des Serverprotokolls hängt also direkt mit dem „Verkehr“ (Traffic) aufder Website zusammen, der Anzahl der angeforderten Dateien pro Zeiteinheit, odereinfacher: mit der Beliebtheit des Internetauftrittes.

Page 2: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

66

Logfiles werden von der Webserver-Software automatisch auf dem Rechnerangelegt, auf dem der Internetauftritt gespeichert und an das Internet angeschlossenist (Webserver).

Da dies meist nicht im eigenen Unternehmen geschieht, sondern aus Kostengründenbei einem Internetdienstleister (Webspace-Provider/Webhosting-Service), müssenSie sich vor einer Auswertung zunächst das Logfile Ihrer Website beschaffen.

Je nach Vertrag senden manche Provider automatisch Monatsprotokolle per E-Mailan eine vereinbarte Adresse, andere bieten die Logfiles per FTP zur Abholung(Download) auf Ihrem Server an. Dieser Download kann aufgrund der oft hohenDateigrößen der Logfiles erhebliche Zeit in Anspruch nehmen.

Aufgabe 3.1:

Wo befindet sich das Serverprotokoll (Logfile) ?

3.1.2 Die Informationen des Serverprotokolls

Serverprotokolle unterscheiden sich in Struktur und Inhalt je nach verwendeterWebserver-Software.

Generell beinhalten Logfiles jedoch immer folgende Daten:

• Informationen über den Internet-Nutzer (Surfer), der Daten abfragt.Dies ist meistens eine IP-Adresse, also die Netzwerkadresse des Rechners, vondem aus der Surfer auf die Website zugreift.

• Datum und Uhrzeit des Zugriffs

• Informationen über die angeforderte Datei, zum Beispiel ein GIF-Bild

• Das Ergebnis der Anforderung:Dies geschieht über den sogenannten Error-Code, eine Zahl welche angibt, obder Zugriff erfolgreich war oder ob es Fehler beim Zugriff gab.

In Beispiel 3.1 sehen Sie einen Auszug aus einem Logfile des Webservers InternetInformation Sever 4 (IIS4) aus dem Hause Microsoft.

Page 3: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

67

Beispiel 3.1: Auszug aus einem Logfile (Internet Information Server 4.0)

Jede Zeile des Protokolls steht für einen neuen Zugriff.

Am Beispiel der ersten Zugriffszeile des Protokolls, also der fünften Zeileinsgesamt, sehen Sie den Aufbau:

Tabelle 3.1: Struktur und Bedeutung einer Logfile-Zeile

07:59:23 192.168.10.110 GET /Index.htm 200

UhrzeitdesZugriffs

IP-Adresse desNutzer-Rechners

Anforderungs-Befehl AngeforderteHTML-Datei

Ergebnisbzw.Error-Code

Der Error-Code 200 bedeutet übrigens soviel wie: „Übertragung erfolgreich“

Er ist damit bei weitem der häufigste Error-Code – obwohl er genau das Gegenteileines Fehlers vermeldet.

Einen wirklichen Fehler dagegen stellt der Error-Code 404 dar. Taucht dieser auf,sollte unverzüglich nachgeforscht werden, wo der Fehler liegt. Der Grund dafürkönnte sein, dass ein Bild kaputt ist oder ein Link nicht funktionierte, weil dieentsprechende Datei nicht mehr auf dem Server oder im richtigen Verzeichnis liegt.

Unter Umständen können derartige Fehlermeldungen aber auch Hinweise auf ernsteHacker-Angriffe sein – beispielweise durch Aufrufen nicht vorhandener Dateienoder seperater Aktivierung von CGI-Programmen. Hier ist eine weitere genaueBeobachtung der einzelnen Logzeilen notwendig.

#Software: Microsoft Internet Information Server 4.0#Version: 1.0#Date: 2000-04-09 07:59:23#Fields: time c-ip cs-method cs-uri-stem sc-status07:59:23 192.168.10.110 GET /Index.htm 20007:59:23 192.168.10.110 GET /frame1.htm 20007:59:23 192.168.10.110 GET /navi1.htm 20007:59:23 192.168.10.110 GET /welcome.htm 20007:59:23 192.168.10.110 GET /res/mdep.css 20007:59:26 192.168.10.110 GET /img/welcome.gif 20007:59:26 192.168.10.110 GET /img/europa.gif 20007:59:26 192.168.10.110 GET /img/den.gif 20007:59:26 192.168.10.110 GET /transparent.gif 20007:59:26 192.168.10.110 GET /img/navback.gif 20007:59:37 192.168.10.110 GET /hts102.class 20007:59:37 192.168.10.110 GET /hs102_f.class 20007:59:37 192.168.10.110 GET /hs102_s.class 20007:59:37 192.168.10.110 GET /hs102_n.class 20007:59:37 192.168.10.110 GET /hs102_v.class 20007:59:37 192.168.10.110 GET /hs102_t.class 200

Page 4: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

68

Neben den Zugriffsinformationen des Logfiles werden, je nach Einstellungen desWebservers, noch weitere Informationen protokolliert; dies geschieht unterUmständen in anderen Protokolldateien.

Solche Zusatzinformationen sind zum Beispiel:

• Betriebssysteme der zugreifenden Rechner: zum Beispiel Windows98 oder LINUX

• Web-Browser-Typ und Version:zum Beispiel Netscape Navigator 4.0 oder Microsoft Internet Explorer 4.02

• Informationen aus Cookie-Dateien (kleine Textdateien auf dem Rechner desBesuchers, in die der Web-Server zu Wiedererkennungszwecken eine Textzeileeintragen kann)

Logfiles können beim Provider in unterschiedlichen Formaten angefordert werden.Man unterscheidet beipielsweise das ausführliche Format und das knappere„common-Format“.Tabelle 3.1 enthält einen Eintrag im common-Format; in Tabelle 3.2 sehen Sie einenBeispieleintrag im wesentlich aussagekräftigeren ausführlichen Format:

Tabelle 3.2: Logfile-Eintrag im ausführlichen Format

213.192.33.149 [27/Mar/2000:12:37:40 +0200] "GET /HTTP/1.0" 200

IP-Adresse desNutzer-Rechners

Datum und Zeit des Zugriffs mitZeitzone (+0200)

Anforderungs-befehl / Protokoll

Error-Code

2750 www.tu-berlin.de

"http://www.stern.de/2000/manager.html"

"Mozilla/2.0 (compatible;MSIE 3.02; Windows NT)"

Datei-Größe

AngefragteDatei

„Referer“ ‡ Webseite, vonder aus verlinkt wurde.

Verwendeter Browser undBetriebssystem

Hier tauchen noch einige neue Begriffe auf:

• „Referer“: Die Seite im Internet, auf welcher der Benutzer den Link auf dieangeforderte Datei angeklickt hat. Dies ist vor allem interessant, umfestzustellen, auf welchen Seiten im Internet Links auf das eigene Angebot zufinden sind.

• Browsertyp: Hier wird der Typ und die Version des vom Benutzerverwendeten Browsers festgehalten. Der Eintrag „Mozilla“ ist das Pseudonymdes Netscape Navigators.

Das Serverprotokoll oder Logfile enthält also sämtliche Informationen über dieBesuche auf der betreffenden Website.

Page 5: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

69

Aufgabe 3.2:

Welche Informationen werden im Logfile mitprotokolliert?

3.2 Maßeinheiten der Website-Activity

Die Informationen des Logfiles stellen nur die Datenbasis für die Messung desNutzerverhaltens dar; ohne Zusammenfassung und Auswertung der immensenMasse an Rohdaten besitzen Logfiles keine Aussagekraft.

Es ist also erforderlich, die einzelnen Zeilen des Logfiles zu „Handlungen“ desBenutzers zusammenfassen.

Eine solche Handlung eines Benutzers ist zum Beispiel das Anklicken eines Linksmit der linken Maustaste. Die entsprechende HTML-Seite wird geladen, mit ihr aberauch alle eingebundenen Bilder (vgl. Abb. 4.1.2).

Im Logfile drückt sich eine solche Handlung in etlichen Zeilen aus:Eine Zeile für den Aufruf der HTML-Seite und jeweils eine weitere Zeile für jedeauf dieser Seite dargestellte Grafik (oder Multimediadatei etc.)

All diese Zeilen müssen also zu der Handlung „Aufruf der HTML-Seite _______durch den Benutzer mit der IP-Adresse ______ um ______ Uhr“ zusammengefasstwerden.

Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt esProgramme, die die Auswertung der Logfiles nach verschiedenenAuswertungskriterien automatisch vornehmen. Diese Programme heißen Logfile-Analyzer und sind in verschiedensten Ausführungen erhältlich.(Ein Beispiel eines solchen Logfile-Analyzers wird in Lektion vier vorgestellt)

Dabei ist anzumerken, dass solche Logfile-Analyzer vor allem statistischenAuswertungen dienen. Sie sind nicht für Detailanalysen oder zur Fehlerverfolgunggeeignet. Um beispielweise beim erwähnten Fehler 404, Seite nicht gefunden,festzustellen, wo der Fehler liegt, führt kein Weg an einer direkten Suche im Logfilevorbei.

Page 6: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

70

Zur Bezifferung der Website-Activity haben sich im Laufe der Zeit folgendeMaßeinheiten etabliert:

• Hits

• PageImpressions (PageViews)

• Visits

• mean time of Visit, PageViews per Visit etc.

Bei den Hits („Treffer/Zugriff“) handelt es sich um reine “Rohzugriffe”, dasbedeutet, es werden im gewählten Zeitraum sämtliche Dateizugriffe gezählt. Diesgeschieht unabhängig von der Dateiart.

Die oben beschriebene Handlung „Seitenaufruf“ kann also etliche Hits zur Folgehaben: einen Hit für die HTML-Datei und einen weiteren Hit für jede eingebundeneGrafik; dementsprechend erreichen die Hit-Zählungen meist beeindruckend hoheZahlen.

Eine PageImpression („Seitenaufruf“ oder „Sichtkontakt“ mit einer Webseite)hingegen zählt einzig und allein die aufgerufenen HTML-Dokumente, egal wieviele weitere Webobjekte in diesen vorhanden sind.

Hier werden also alle Hits, die durch den Aufruf einer HTML-Datei und allereingebundenen Grafiken verursacht werden, zusammengefasst.

Diese Maßeinheit ist schon wesentlich aussagekräftiger als die reine Zahl der Hits,da sie nicht mehr von technischen Fakten (Zahl der Grafiken pro HTML-Seite...)abhängig ist, sondern tatsächlichen Handlungen der Internet-Nutzer gegenüber steht.

Oft wird auch noch der (ältere) Begriff PageView verwendet, der genau dasselbebedeutet.

Ein Visit („Besuch“) ist der komplette Besuch eines bestimmten Nutzers (IP-Adresse) auf der Website. Unabhängig davon, wie viele Seiten der Benutzerwährend seines Besuchs auf der Website aufruft, wird die komplette Sitzung als einVisit gezählt.

Die Anzahl der Visits gibt also Auskunft darüber, wie viele einzelne Besuche aufder Website im Betrachtungszeitraum zu verzeichnen waren.Diese Zahl beinhaltet zwar auch wiederholte Besuche derselben Person, stellt aber injedem Fall ein gutes Maß für die Beliebtheit der Website dar.

Neben diesen grundlegenden Kennzahlen der Website-Activity können natürlichnoch viele weitere aufschlussreiche Werte errechnet werden.So gibt mean time of Visit (“durchschnittliche Besuchsdauer”) die durchschnittlichwährend einer Sitzung verstrichene Zeit an, PageImpressions per Visit(„Seitenaufrufe pro Besuch“) zählt die durchschnittliche Anzahl aufgerufenerWebseiten während eines Besuches an.

Page 7: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

71

Wie folgendes Beispiel zeigt, sind diese Werte durchaus wichtige Indikatoren zurBeliebtheit der Website:

Beispiel 3.2

Die Politiker Meier und Müller betreiben im Kommunalwahlkampf jeweilseine eigene Website zum Stimmenfang.

Nach drei Monaten Wahlkampf werten beide die Logfiles ihrer Internet-Auftritte aus und stellen fest, dass beide Websites die gleiche Anzahl anPageImpressions zu verzeichnen haben:Beide hatten 5000 PageImpressions

Lediglich die Visit-Werte waren unterschiedlich:Meiers Website brachte es auf 1000, Müller erzielte dagegen stolze 4000Visits.

Dieses Ergebnis lässt sich z.B. wie folgt interpretieren:Müller hatte aufgrund besserer Werbung für seine Web-Adresse sehr viel mehrInteressenten als Meier dazu gewonnen, seine Website zu besuchen.Offensichtlich war jedoch das Angebot bereits auf der ersten Seite souninteressant, dass die meisten Besucher die Website sofort wieder verließen(5000 PageImpressions / 4000 Visits = 1,25 betrachtete Seiten pro Visit).

Meier hingegen konnte zwar weniger Wähler überzeugen, seinen Web-Auftrittzu besuchen – die gewonnenen Besucher jedoch zeigten sich mitdurchschnittlich fünf betrachteten Seiten wesentlich interessierter als beiseinem Konkurrenten.

Daraus ließen sich dann folgende Strategien entwickeln:

Meier kann Inhalt und Gestaltung seiner Website (abgesehen vonAktualisierungen) beibehalten, sollte aber mehr Werbung für seinen Internet-Auftritt betreiben.

Müller hingegen sollte seine Website einer gründlichen Überarbeitungunterziehen um so seine Besucher länger zu halten.

Aufgabe 3.3:

Wie heißen Programme zur Auswertung und Analyse vonServerprotokollen/Logfiles?

Page 8: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

72

Aufgabe 3.4:

Warum ist die Anzahl der Hits immer größer als die Anzahl der PageViews?

3.3 Die IVW-Zertifizierung

So wie die Anzeigenpreise in Printmedien ganz wesentlich von der verkauftenAuflagenhöhe abhängen, hängen natürlich auch die erzielbaren Preise fürInternetanzeigen, also zum Beispiel der Banner-Werbung, von der Anzahl dererreichten Surfer ab.

Hier wird, um einen Vergleich zu ermöglichen, meist ein „Tausenderkontaktpreis(TKP)“ festgelegt, also der Preis für 1000 Zugriffe auf die Anzeige.

Bei nicht werbetreibenden Websites dient der ermittelte Traffic, also die Hits,PageImpressions, Visits usw., nur zur Information des Betreibers.Werden auf der Website jedoch Werbebanner verkauft, so dient der Traffic alsAbrechnungsgrundlage für die geschalteten Banner.

Aus diesem Grund besteht natürlich Interesse, genauer festzulegen, was als„Kontakt“ gezählt wird – außerdem sollte die Zählung durch eine unabhängigeStelle erfolgen, um Manipulationen durch den Seitenbetreiber zu vorzubeugen.

Im Print-Bereich, also bei Zeitungen und Zeitschriften, übernimmt dies die 1949gegründete „Informationsgemeinschaft zur Feststellung der Verbreitung vonWerbeträgern e.V.“, kurz IVW.

Sie ist eine Organisation des Zentralverbandes der Deutschen Werbewirtschaft undverfolgt laut Satzung den Zweck „zur Förderung der Wahrheit und Klarheit derWerbung und damit zur Sicherung eines echten Leistungswettbewerbs vergleichbareund objektiv ermittelte Unterlagen über die Verbreitung von Werbeträgern zubeschaffen und bereitzustellen“.

Diese Aufgabe erfüllt die IVW nun auch für die Online-Medien – allerdingsnatürlich nur für die Anbieter von Websites, die dies beantragt haben und IVW-Mitglieder sind (derzeit 181 Online-Anbieter) . Diese Websites sind ivw-zertifiziertund dürfen das ivw-Logo führen.

Page 9: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

73

Als relevante Maßeinheiten erfasst die IVW PageImpressions und Visits derregistrierten Websites und veröffentlicht diese Werte monatsaktuell auf ihrerWebsite unter http://www.ivw.de.

Abb. 3. 1: Monatszahlen der IVW

Seit die „Frame-Technik“ es ermöglicht, eine Bildschirmseite des Browsers ausmehreren HTML-Einzelseiten aufzubauen, führt ein „Klick“ des Besuchers unterUmständen zu mehreren PageImpressions:

Auch wenn der Benutzer nur die nächste Seite des Inhalts betrachten will, wird nichtnur eine neue HTML-(Inhalts-)Seite angezeigt, sondern auch eine neueNavigationsleiste eingeblendet. Dies führt dann zum Beispiel zu zweiPageImpressions. (siehe Abb. 3.2)

Da dies den Anbieter von Frame-basierten Websites einen Vorteil verschaffenwürde, erfasst die IVW immer nur eine HTML-Seite des angezeigten Framesets –und auch da nur sogenannte content-pages, also Seiten mit echtem Inhalt.

Technisch gelöst wird dies wie folgt:

Der Website-Betreiber bindet auf jeder (nach den IVW-Regeln) zählenswertenInhaltsseite ein unsichtbares Mini-Bild ein, das vom IVW-Server geladen wird.Dieses Bild ist auf den entsprechenden Website-Betreiber registriert und kann somiteindeutig zugeordnet werden.

Damit taucht im Serverprotokoll des IVW-Instituts immer dann eine Anforderungdieses Bildes auf, wenn eine relevante PageImpression auf der zertifizierten Websiteerfolgt.

Somit ist also eine hohe Vergleichbarkeit der IVW-Zugriffszahlen gegeben.

Page 10: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

74

Abb. 3.2: IVW-Webseite mit Frames (http://www.allegra.de)

In der obige Abbildung der (IVW-zertifizierten) Website der Frauenzeitschrift„Allegra“ sehen sie Navigations- und Inhalts-Frame eingezeichnet.Nach IVW erzeugt der Aufruf dieser Seite genauso nur eine PageImpression wie dieunten abgebildete Website des Handelsblattes, die ohne Frames gestaltet ist:

Abb. 3.3: IVW-Website ohne Frames (http://www.handelsblatt.com)

Navigationsframe:HTML-Seite 1

Inhalts-Frame:Enthält HTML-Seite 2

Page 11: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

75

Auf der IVW-Homepage kann der potentielle Banner-Kunde dann die Entwicklungdieser beiden Webseiten der Zugriffszahlen verfolgen, gegliedert inPageImpressions und Visits:

Abb. 3.4: PageImpressions und Visits nach IVW

Abb. 3.5: PageImpressions und Visits nach IVW

Wie den Grafiken zu entnehmen ist, hatte die Website der Allegra im MonatJuli/2000 über sechs Millionen ivw-PageImpressions (6.731.681) bei unter einerMillion Visits (872.387) und damit ca. 7,7 PageImpressions pro Visit.

Der Internetauftritt des Handelsblattes kam im selben Monat auf über siebenMillionen ivw-PageImpressions (7.298.484) bei unter drei Millionen Visits(2.625.579) bei ca. 2,8 PageImpressions pro Visit.

Page 12: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

76

Aufgabe 3.5:

Was ist der Unterschied zwischen ivw-PageImpressions und „normalen“PageImpressions?

Aufgabe 3.6:

Wann (unter welchen Voraussetzungen) empfiehlt es sich für Sie, Ihre Websitebei der IVW zu registrieren?

3.4 Technische Schwachstellen der Logfile-Auswertung

Leider ist die Auswertung von Logfiles zur Bestimmung der Nutzungsdaten einesInternetauftrittes nicht frei von (technisch) bedingten Fehlerquellen.

Bei weitem nicht jeder Zugriff auf eine Website nämlich findet auch Eingang in dasentsprechende Server-Logfile – und damit auch Eingang in die Auswertung.Die Ursachen dafür liegen im Einsatz von mehr oder minder intelligentenOptimierungstechniken der Netzwerk-Bandbreite.

3.4.1 Die Cache-Problematik – Surfen von der Festplatte

Wenn Sie mit Ihrem Web-Browser häufiger eine bestimmte Internet-Seite aufrufen,so fällt Ihnen vielleicht auf, dass der erste Aufruf wesentlich länger dauert als jederweitere Besuch auf dieser Seite.

Die IVW ermittelt und publiziert als unabhängige Stelle dieZugriffszahlen der bei ihr registrierten Internetauftritte. Das dabeiverwendete Verfahren ermittelt vergleichbare Zahlen, die von dertechnischen Gestaltung unabhängig sind, als Basis für diePreisberechnung von Werbebannern.

Page 13: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

77

Besonders deutlich wird dies bei Seiten, die als Inhaltsverzeichnis einer Websitedienen – beispielsweise der Titelseite einer Online-Tageszeitung. Hier enthält dieTitelseite die Überschriften der aktuellen Meldungen mit Links auf die jeweiligenArtikel. Nachdem Sie einen bestimmten Artikel gelesen haben, wechseln Sieentweder per Link oder per „Zurück“-Funktion Ihres Browsers wieder auf dieTitelseite, um einen weiteren Artikel auszusuchen – Sie benutzen also immer wiederdieselbe Seite als „Sprungbrett“.

In diesem Fall lädt der Browser nur beim ersten Besuch der Titelseite tatsächlichden Quellcode sowie sämtliche Bilddateien aus dem Internet. Bei jedem weiterenAufruf dieser Seite prüft der Browser nur noch kurz, ob sich der Inhalt der Seite seitIhrem letzten Seitenaufruf geändert hat.Ist dies nicht der Fall, lädt der Browser diese Seite nicht wieder aus dem Internet,sondern aus dem Arbeitsspeicher oder von der Festplatte Ihres Rechners. DiesesVerfahren ist natürlich wesentlich schneller als der Web-Zugriff und verringertdarüber hinaus auch noch die Netzbelastung.

Um das zu ermöglichen, speichern alle modernen Web-Browser beim erstmaligenLaden einer HTML-Seite sämtliche dazugehörige Dateien im Arbeitsspeicher bzw.auf der Festplatte des lokalen Rechners ab. Diesen Zwischenspeicher nennt manCache-Speicher oder Browser-Cache, das dazugehörige Verfahren Browser-Caching. Da für dieses Verfahren jedoch nur ein begrenzter Speicherplatz zurVerfügung steht, wird intern registriert, welche Dateien wie oft aufgerufen werden.Wird für eine neue Seite Platz benötigt, löscht der Browser diejenigen Dateien ausdem Browser-Cache, die am seltensten aufgerufen wurden und deren letzter Aufrufschon die längste Zeit zurückliegt.

Abb. 3.6: Einstellungsfenster des Browser-Cache im MS Internet-Explorer

Page 14: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

78

Diese an und für sich ja sehr positive Technik hat jedoch schwerwiegende Folgenfür die Logfile-Auswertung:

Aufgabe 3.7:

Warum verringert der Einsatz des Browser-Caching die Anzahl der Page-Impressions im Logfile?

Aufgabe 3.8:

Welche Vorteile bietet das Browser-Caching dem Nutzer?

3.4.2 Der Proxy-Server – Cache für Netzwerke

Der Trick mit dem Zwischenspeichern von Internet-Seiten funktioniert nicht nur fürlokale Rechner, sondern auch für ganze Netzwerke hervorragend.

Vor allem größere Firmen mit Internet-Zugang für jeden Arbeitsplatz-Rechnerschalten zu diesem Zweck einen sogenannten Proxy-Server (auch Proxy-Cache-Server) zwischen das firmeninterne Netzwerk (LAN – Local Area Network) unddie Verbindung zum Internet. Häufig befindet sich auch die „Anti-Hacker-Schutz-Software“ des Netzwerkes, die sogenannte Firewall auf demselben Rechner.Gelegentlich erfüllt auch ein Software-Produkt beide Aufgaben – dasZwischenspeichern von Internetseiten (Caching) und den Schutz vor Hacker-Attacken aus dem Internet.

Der Proxy-Server erfüllt also im wesentlichen genau dieselbe Aufgabe wie derBrowser-Cache:

Jede Anfrage eines Netzwerkrechners (Client) an das Internet wird zunächst an denProxy-Server geleitet. Dieser prüft, ob die angeforderte Seite bereits in seinemDatenbestand gespeichert ist.

Seitenaufrufe, die durch den Browser-Cache bedient werden, werden nichtim Logfile registriert. Die erfassten Page-Impressions einer HTML-Seitesind also häufig weit niedriger als die tatsächliche erfolgten Zugriffe.

Page 15: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

79

Ist dies nicht der Fall, so fordert der Proxy-Server (über die Firewall) diese Seite mitallen dazugehörigen Dateien aus dem Internet an, speichert sie auf der Festplatte abund gibt die angeforderten Daten an den Client im LAN weiter.

Client fordert"index.html" an

Proxy sendet "index.html"mit zughörigen Dateien

Proxy-Server fordert "index.html"von Webserver an

Webserver sendet "index.html" mitzugehörigen Dateien an Proxyserver.

Proxy speichert die Dateien ab.

FIREWALL

I N T E R N E TF i r m e n i n t e r n e s N e t z w e r k ( L A N )

Proxy-Server Web-Server

u v

wx

Abb. 3.7: Erster Aufruf einer Internet-Seite über einen Proxy-Server

Fordert nun ein weiterer Netzwerkrechner dieselbe Seite aus dem Internet an, soprüft der Proxy-Server nach einer frei konfigurierbaren Logik lediglich, ob diegespeicherte Seite noch aktuell ist. Ist dies der Fall, so wird keine Verbindung in dasInternet hergestellt – der Client surft auf der Festplatte des ProxyServers.

Client fordert"index.html" an

Proxy sendet "index.html"mit zughörigen Dateien

FIREWALL

I N T E R N E TF i r m e n i n t e r n e s N e t z w e r k ( L A N )

Proxy-Server Web-Server

u

v

Proxy-Serverhat angeforderteDateien bereits

im Speicher -KEINE

ANFRAGE ANWEBSERVER!

Abb. 3.8: Weitere Anforderungen derselben Seite von einem Proxy-Server

Diese Technik findet nicht nur in Firmen-Netzwerken Anwendung, sondern wird,leicht modifiziert auch von Internet-Zugangs-Providern eingesetzt. Hier befindetsich der Proxy-Server zwischen den Kunden des Providers, die sich überModem/ISDN in dessen Netzwerk einwählen, und dem Internet.

Es ist also durchaus möglich, dass Sie, wenn Sie sich von Ihrem Heimrechner ausüber Modem bei einem Provider einwählen, einen wesentlichen Anteil der vonIhnen angeforderten Daten nicht direkt aus dem Internet, sondern von der Festplatteeines Provider-Proxy-Servers erhalten.

Page 16: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

80

Die Vorteile des Einsatzes von Proxy-Servern sind beachtlich:

• Höhere Zugriffsgeschwindigkeit auf InternetinhalteDie Datenübertragungsgeschwindigkeit moderner LANs liegt heute beimindestens 100MBit/s (entspricht rechnerisch 12,5 MByte übertrageneDaten pro Sekunde), der Internetzugang vieler Unternehmensnetzwerke isthäufig auf 2MBit/s (0,25 MByte pro Sekunde) beschränkt. Hier ergebensich erhebliche Geschwindigkeitssteigerungen für häufig abgefragte Inhalte

• KostenersparnisFirmennetzwerke sind meist nicht über Einwähl- oder Aufbauverbindungen(Verbindungen, die nur bei Bedarf hergestellt und nach Gebrauch wiedergetrennt werden), sondern über Standleitungen an das Internet angebunden.Hier erfolgt die Abrechnung im Regelfall nicht über Pauschaltarife(Flatrates) sondern über Volumengebühren.Hier wird jedes MByte übertragener Daten berechnet – nicht dieVerbindungszeit. Inhalte, die also nur einmal übertragen werden undanschließend viele Male von der Festplatte des Proxy-Servers gelesenwerden, ersparen also erhebliche Kosten. Dies kann je nach Netzwerk,Nutzerpräferenzen und Proxy-Server durchaus 20-30 % Einsparungbedeuten.

• Verringerung der Internet-BelastungDurch die Gesamtheit der eingesetzten Proxy-Server wird die Internet-Belastung insgesamt spürbar verringert. Dies kommt wiederum allenNutzern des Internet durch Höhere Datenübertragungsraten und geringereWartezeiten zugute.

Für die Online-Marktforschung sind damit jedoch zwei erhebliche Problemeverbunden:

Das Problem der Verfälschung von Zugriffszahlen (Page-Impressions)tritt durch den Einsatz von Proxy-Servern ebenso wie durch Browser-Caching (sieheunter 3.4.1) auf.So werden zahlreiche Seitenaufrufe nicht mehr durch das Logfile des Webserverserfasst, da sie bereits durch Proxy-Server bedient und somit „abgefangen“ werden.Umso erheblicher ist dies, da es sich vor allem um die beliebtesten Seiten einesWebauftrittes handelt, die aufgrund des Proxy-Caching nicht mehr vom Webserverabgefragt werden.

Im Gegensatz zum reinen Browser-Caching führt der Einsatz von Proxy-Servernjedoch auch zu einer Identitäts-Verfälschung der zugreifenden Nutzer.Wie unter 3.2 bereits erläutert, kann über die IP-Adresse des anfordernden Rechnersaus den einzelnen Hits und Page-Impressions ein Visit, also die gesamte,zusammenhängende Sitzung des Nutzers auf einem Webauftritt rekonstruiertwerden. Das Nachvollziehen eines solchen Visits bietet mit die wertvollstenInformationen zur Erfolgsanalyse.

Page 17: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

81

Und leider führt der Einsatz von Proxy-Servern auch hier zu fehlerhaftenErgebnissen:Im Regelfall gibt der Proxyserver bei der Anforderung einer neuen, in seinerDatensammlung noch nicht aufgenommenen Internet-Seite nicht die IP-Adresse desanfordernden Nutzers an den Web-Server weiter, sondern nur seine eigene IP-Adresse.

Dies hat zur Folge, dass sämtliche Anfragen von Mitarbeitern einer größeren Firmamit Proxy-Server im Protokoll des Web-Servers wie Abfragen eines einzelnenRechners erscheinen – des Proxy-Servers eben. Und bei Firmen wie IBM oderHewlett-Packard können sich eine ganze Menge Mitarbeiter hinter dieser einenAdresse „verstecken“. Das Nachvollziehen einzelner Sitzungen ist somit nicht mehrmöglich.

Auch Netzwerke mit Firewall, also mit Schutzsoftware vor Hacker-Angriffen,arbeiten im Regelfall mit der sogenannten IP-Adressumsetzung. AusSicherheitsgründen wird hierbei nur eine einzige IP-Adresse (die Internet-Adresseder Firewall) nach außen, also ins Internet, gegeben. Das Ergebnis ist dasselbe wieoben geschildert – alle Zugriffe aus dem gesamten Netzwerk erscheinen wie dieSitzungen eines einzelnen Nutzers.

Aufgabe 3.9:

Nennen Sie zwei Kernprobleme, zu denen der Einsatz von Proxy-Servernführen kann.

Aufgabe 3.10:

Warum führt der Einsatz von Proxy-Servern zu verringerter Netzbelastung?

Page 18: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

82

3.4.3 Technische Lösungsmöglichkeiten

Die Lösung der unter 3.4.2 angesprochenen Problematik ist für all jene vonherausragender Bedeutung, die vollständige und umfassende Informationen über dieNutzung ihrer Website benötigen.

In diesem Abschnitt wird nur das Problem der Zugriffszählung von durch Proxy-Server bedienten Seiten-Abrufen behandelt. Möglichkeiten zur Nutzeridentifikationtrotz Proxy-/Firewall-Problematik finden Sie in Kapitel vier.

Der Lösungsansatz für die Erfassung der über Proxy-Server „abgefangenen“Seitenzugriffe liegt in der Art der durch einen Proxy-Server zwischenspeicherbarenInhalte.

Folgende Dateitypen können durch Proxy-Server zwischengespeichert werden:

• HTML-Seiten• JavaScript-oder VBScript-Programme (in HTML-Seiten)• Bilddateien (*.gif, *.jpg, *.png ...)• Director- und Flash- Animationen u.ä.• Java-Applets• Multimedia-Dateien (*.wav, *.mov, *.mp3, *.avi etc.)• alle zum Download angebotenen Dateien

Ist in eine HTML-Seite ein Objekt eingebunden, dessen Speicherung durch denProxy-Server nicht möglich ist, so wird ein Internet-Direktzugriff erzwungen, der alsPage-Impression durch den Webserver erfasst werden kann.

Bei interaktiven, dynamischen Webseiten ist der angezeigte Inhalt von den Eingabendes Benutzers abhängig – der angezeigte Inhalt wird individuell generiert. Diesfindet man vor allem bei Berechnungsformularen, z.B. einem individuellenBeitragsrechner auf der Website einer Versicherung.

Hier gibt der Benutzer seine persönlichen Daten ein und erhält eine HTML-Seite mitseinem individuellen Versicherungstarif.

Ist für die Berechnung dieses Tarifs nur eine einfache (mathematische) Logik, nichtaber der Zugriff auf Datenbanken mit weiteren Informationen erforderlich, so lässtsich ein solcher Beitragsrechner relativ einfach über JavaScript realisieren.

JavaScript ist eine der Programmiersprache C ähnliche Scripting-Sprache, derenProgrammcode direkt in den Quellcode einer HTML-Seite eingebunden und mit auf

Proxy-Server können alle Dateitypen zwischenspeichern, die zur Anzeigeoder Ausführung auf den Client-Rechner heruntergeladen werden müssen.Lediglich Programme, die durch den Server ausgeführt werden und ihreErgebnisse an den Client zur Anzeige senden sind davon ausgenommen

Page 19: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

83

den Client-Browser heruntergeladen wird. Der Client-Browser übernimmt dann dieAusführung dieses Programms ohne weiteren Kontakt zum Webserver zu benötigen.

In diesem Fall kann also der Beitragsrechner – als JavaScript oder VBScript-Programm – auf den Client-Rechner heruntergeladen und dort ausgeführt werden.Dieses Verfahren nennt man Client-sided-Scripting.

Bestimmte Internet-Anwendungen erfordern jedoch den Zugriff auf Datenbankenwie zum Beispiel ein Online-Telefonbuch. Eine Programmausführung auf demRechner des Internet-Nutzers ist hier nicht mehr möglich. Zu diesem Zweck wurdedie sogenannte CGI-Schnittstelle (Common Gateway Interface) in die Web-Server-Software integriert.

Diese Schnittstelle gestattet es, aus einer HTML-Seite heraus vom Nutzereingegebene Daten an den Web-Server zurückzusenden und sie von dort aus einemProgramm auf dem Web-Server-Rechner zur Ausführung zu übergeben. Die vondiesem Programm zurückgegebenen Ergebnisse können dann über die CGI-Schnittstelle als HTML-Code direkt an den Web-Browser des Nutzers als Antwort-Seite geschrieben werden.

Beispiel 3.3

Der Nutzer Helmut Berger möchte sich seinen individuellen Beitrag über denOnline-Auftritt einer Versicherungsgesellschaft errechnen lassen. Herr Bergerist Mitarbeiter einer großen Firma; der Netzwerk-Rechner den er benutzt, istüber einen Proxy-Server mit dem Internet verbunden.

Zunächst wählt Herr Berger den Link „Beitragsrechner“ und fordert somiteinen Versicherungsfragebogen als HTML-Formular vom Web-Server an:

Abb. 3.9: Nutzer fordert HTML-Formular von einem Web-Server an

(Zum Erhalt der Übersichtlichkeit wird in den Grafiken zum Thema CGI derWeg über den Proxy-Server nicht dargestellt)

Falls Herr Berger nicht der erste Mitarbeiter seines Unternehmens ist, derdiesen Fragebogen anfordert, so wird der Fragebogen vom Proxy-Servergeliefert ‡ diese Anfrage findet keinen Eingang in das Logfile des Webserversder Versicherung.

Nun trägt Herr Berger seine persönlichen Daten in die Felder des HTML-Formulars ein und wählt die „Senden“-Schaltfläche durch einen Mausklick an.Damit überträgt das Browser-Programm die eingegebenen Daten von HerrnBerger sowie einen Programmaufruf für das Programm „berechnung.pl“ an denWeb-Server.

Client fordert"fragebogen.html" an

Web-Server sendet"fragebogen.html"

Web-Server

Fragebogen:Name:

Vorname:

Senden

Client-Rechner

u

v

Page 20: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

84

Hierbei besagt die Dateinamens-Endung „*.pl“, dass es sich um ein Programmin der weitverbreiteten CGI-Programmiersprache PEARL handelt. CGI-Programme können neben PEARL in einer Vielzahl andererProgrammiersprachen geschrieben werden – die Auswahl ist meist nur durchdie Web-Server-Software beschränkt.

Mit "Senden" überträgt derClient die eingegebenen

Daten sowie einenCGI-Programmaufruf an

den Web-Server

Web-ServerClient-Rechner

Fragebogen:Name:

Vorname:

Senden

berger

helmut

Web-Server startetCGI-Programm und

übergibt die Nutzerdatenzur Ausführung

berechnung.pl

CGI-Programm

w x

Abb. 3.10: Übertragung der Nutzerdaten und Aufruf des CGI-Programmes

Das CGI-Programm kann nur durch den Web-Server ausgeführt werden, alssogenanntes „Server-sided-Scripting“ kann es nicht durch einen Proxy-Servergespeichert und aufgerufen werden.

Es entsteht also ein Eintrag im Logfile des Web-Servers der Versicherung; indiesem Fall die Anforderung des Programmes „berechnung.pl“.

Das Web-Server-Programm der Versicherung startet nun seinerseits dasProgramm „berechnung.pl“ und übergibt ihm die Daten von Herrn Berger. Istdas Programm mit seiner Berechnung fertig, generiert es eine HTML-Antwortseite mit dem Berechnungsergebnis und übergibt diese über die CGI-Schnittstelle an den Web-Server, der sie daraufhin direkt an den Rechner vonHerrn Berger zurückschickt.

Web-Server sendetHTML-Code der Antwort-

Seite direkt an den Browserdes Clients

Web-ServerClient-Rechner

Antwortseite:

Ihr Beitrag,Herr Berger,beträgtDM 545,- .....

CGI-Programm terminiertund übergibt Antwort

(HTML-Code) an CGI-Schnitstelle des Servers

berechnung.pl

CGI-Programm

yz

Abb. 3.11: Verarbeitung der Daten und Übertragung der Ergebnisse

Diese Antwortseite kann zwar durch den Proxy-Server gespeichert werden,wird jedoch nie wieder angefordert, da jeder Aufruf des CGI-Programms eineeigene Antwortseite generiert.

Herr Berger hat also eine dynamische Webseite angefordert; sie wurdeindividuell für ihn über Server-sided-Scripting mit der ProgrammiersprachePEARL über die CGI-Schnittstelle des Web-Servers erzeugt.

Server-sided-Scripting erzwingt einen Direktzugriff auf den Web-Serverund kann nicht über einen Proxy-Server oder den Browser-Cacheabgefangen werden. Der Programmaufruf wird also jedes Mal im Server-Logfile registriert.

Page 21: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

85

Diesen Sachverhalt kann man sich nun zu Nutze machen, um für jede HTML-Seitedes zu beobachtenden Webauftrittes einen solchen Direktzugriff zu erzwingen.Natürlich könnte man ein Programm schreiben, das jeweils die ganze Seite„generiert“, also auch statische Inhalte in „pseudo-dynamische“ Web-Seitenverpackt – damit jedoch würde man die positiven Effekte des Cachings komplettausschalten.Darüber hinaus wäre der Programmieraufwand erheblich. So behilft man sich hiermit einem Kunstgriff:Jeweils eine 1x1 Bildpunkte große, transparente und damit „unsichtbare“ Bilddateiwird in jede einzelne HTML-Seite eingebunden. Diese Bild-Datei liegt jedoch nicht„fertig“ auf dem Webserver vor, sondern wird von einem CGI-Programm generiert.

Somit wird das CGI-Programm jedes Mal aufgerufen, wenn eine derart präparierteHTML-Seite von einem Benutzer geladen wird. Der HTML-Code, Bilddateien etc.können nach wie vor von einem Proxy-Server zwischengespeichert und von diesemgeladen werden – die positiven Effekte des Caching bleiben also erhalten.

Da mit dem Aufruf des Programmes auch stets registriert wird, von welcher Dateiaus der Aufruf erfolgte, kann bei entsprechender Auswertung des Logfile-Eintragsfür jede HTML-Seite genau ein Programmaufruf registriert werden. Dieser „Hit“ istdann zugleich als PageImpression zu werten, da er pro Seite ja nur einmal auftritt.

Wenn man nur tatsächliche Inhaltsseiten modifiziert, nicht aber Navigations- undWerbeframes etc., dann erhält man den qualifizierten „Content-Page-View“, alsoeinen bereits sehr aussagekräftigen Zähler.

Dieses Verfahren wird von der IVW (siehe 3.3 – Die IVW-Registrierung) generellzur Messung der Seitenzugriffe verwendet. Registrierte Mitglieder erhalten die dafürbenötigte Technik zur Verfügung gestellt, die Zählung erfolgt über einen IVW-Server.

Aufgabe 3.11:

Beschreiben Sie kurz den wesentlichen Unterschied zwischen Client-sided-Scripting und Server-sided-Scripting!

Aufgabe 3.12:

Nennen Sie eine Programmiersprache für Server-sided-Scripting sowie diedafür verwendete Schnittstelle!

Page 22: Das Serverprotokoll als Quelle der Primärforschung · Da diese Zusammenfassung manuell viel zu lange dauern würde, gibt es Programme, die die Auswertung der Logfiles nach verschiedenen

ONLINE-MARKTFORSCHUNG

86

Zusammenfassung

Das Internet bietet – als bislang einziges Medium – fantastische Möglichkeiten derdirekten Erfolgskontrolle.Wir haben Ihnen zunächst das Logfile als Träger wertvoller Informationen über dieZugriffe auf Ihre Internet-Präsenz vorgestellt.

Welche Maßeinheiten für die Website-Activity bislang festgelegt wurden, welcheAussagekraft sie haben und welche Bedeutung dieses Zahlen als Abrechnungsbasisfür Online-Werbung haben, konnten Sie im Zusammenhang mit dem ivw-Zertifizierungs-Verfahren lernen.

Leider ist jedoch auch die Erfolgskontrolle via Logfile-Analyse mit Fehlerquellenund Schwachstellen behaftet. Welche das sind, und wie Sie diese Fehler durchtechnische Kunstgriffe erfolgreich umgehen können haben Sie im letzten Abschnitterfahren.

Sie sind jetzt in der Lage, die Bedeutung der Logfile-Analyse als Marktforschungs-Instrument einzuschätzen, die Ergebnisse zu interpretieren und Schwachstellen zuerkennen bzw. zu beheben.

Wiederholungsaufgaben

3.1 Was ist ein (Webserver-)Logfile und welche Informationen enthält es?

3.2 Warum spricht man im Zusammenhang mit der Logfile-Analyse auch vonErfolgskontrolle?

3.3 Welche Maßeinheiten der Website-Activity kennen Sie? Welche Aussagekrafthaben diese Einheiten jeweils (kurze Beschreibung)?

3.4 Durch welches Verfahren erreicht das IVW die neutrale Zählung vonInhaltsseiten-Zugriffen für werbetreibende Internet-Auftritte – unabhängig vonverwendeter Technik und Seitenstruktur?

3.5 Wer kann seinen Internet-Auftritt durch das IVW zertifizieren lassen?

3.6 Warum werden nicht alle Zugriffe auf die Inhalte einer Internet-Präsenz durchdas Logfile des Webservers erfasst?