Analyse von Mikro-Blogging-Daten

6
STUDENT’S CORNER / MIKRO-BLOGGING-DATEN } Analyse von Mikro-Blogging-Daten Korrelation und Visualisierung von Twitter Hashtags Ricardo Usbeck Motivation Twitter ist ein seit 2006 existierender Mikro- Blogging-Dienst 1 . Die Besonderheit hier ist, dass die Tweets maximal 140 Zeichen umfassen dürfen. Dies prägt die Art und Weise der Verwendung von Twitter entscheidend. Ein durch die Nutzergemeinde erstmals 2008 eingeführtes Feature sind Hashtags [1]. Diese von Twitter seit Ende 2008 übernommenen, besonde- ren Links werden durch „#“ in Tweets annotiert. Nachrichten mit einem Hashtag können nicht nur von befreundeten Nutzern gesehen werden, sondern auch von allen Twitter-Nutzern, die dieses Hashtag verfolgen bzw. suchen. Da es keine einheitlichen Richtlinien oder Me- chanismen gibt, die den Gebrauch von Hashtags steuern, ist der mit ihnen verbundene Inhalt nicht eindeutig. So kann es passieren, dass das gleiche Thema unter zwei oder mehr Hashtags diskutiert wird. Einige Nutzer jedoch sehen nur die jeweiligen Teilinhalte ihrer beobachteten Hashtags, da ihnen die anderen thematisch verbundenen Hashtags unbekannt sind. Ein Beispiel für ein solches Thema ist die Occupy-Bewegung in den USA, für das die Twitter- Gemeinde viele verschiedene Hashtags verwendet. Noch heute tauchen diverse Hashtag-Formen wie z. B. #OccupyWallSt, #OWS und #occupywall- street auf. Dazugehörige Tweets könnten wie folgt aussehen: Tweet 1. It is time to trade your job for an #occupa- tion. Join Occupy! #OWS 1 https://www.twitter.com, Stand: 27.12.2012. 2 http://www.dblp.org, Stand 7. Juli 2012. Tweet 2. Join us at NYSE to #occupywallstreet #OWS Tweet 3. Who is right Tea Party or Occupy? #Occupy- WallSt #tcot #VoteNow Tweet 4. The next #movie will occupy your attention! Watch it now in #HD! Offensichtlich existieren acht verschiedene Hash- tags. Doch wie hängen sie zusammen? Wieviele verschiedene Themen decken sie ab? Analysiert man diese vier Tweets mit klassischen statistischen Zu- sammenhangsmethoden (Kookurrenz), kann man leicht den Zusammenhang der ersten beiden Tweets mit Tweet 3 übersehen. Die hier vorgestellten Analysen von Mikro- Blog-Daten zeigen einige Ansätze zur verbesserten Zusammenhangserkennung von Hashtags auf. Verwandte Arbeiten Mitte 2012 existieren laut DBLP 2 442 Veröffent- lichungen zum Thema Twitter, wobei bei genauer Betrachtung der Anzahl Veröffentlichungen ein deutlicher Anstieg der Popularität dieses For- schungsgebietes seit 2007 zu verzeichnen ist. Einige dieser Publikationen werden im Folgenden besprochen. Die Hauptforschungsrichtungen beziehen sich meist auf soziale oder graphentheoretische Gebiete, wie beispielsweise die Ausbreitung von Informa- DOI 10.1007/s00287-014-0768-6 © Springer-Verlag Berlin Heidelberg 2014 Ricardo Usbeck Universität Leipzig, Martin-Luther-Universität Halle-Wittenberg, F & E, Unister GmbH, Leipzig E-Mail: [email protected]

Transcript of Analyse von Mikro-Blogging-Daten

Page 1: Analyse von Mikro-Blogging-Daten

STUDENT’S CORNER / MIKRO-BLOGGING-DATEN }

Analyse von Mikro-Blogging-DatenKorrelation und Visualisierung von Twitter Hashtags

Ricardo Usbeck

MotivationTwitter ist ein seit 2006 existierender Mikro-Blogging-Dienst1. Die Besonderheit hier ist, dassdie Tweets maximal 140 Zeichen umfassen dürfen.Dies prägt die Art und Weise der Verwendung vonTwitter entscheidend.

Ein durch die Nutzergemeinde erstmals 2008eingeführtes Feature sind Hashtags [1]. Diese vonTwitter seit Ende 2008 übernommenen, besonde-ren Links werden durch „#“ in Tweets annotiert.Nachrichten mit einem Hashtag können nicht nurvon befreundeten Nutzern gesehen werden, sondernauch von allen Twitter-Nutzern, die dieses Hashtagverfolgen bzw. suchen.

Da es keine einheitlichen Richtlinien oder Me-chanismen gibt, die den Gebrauch von Hashtagssteuern, ist der mit ihnen verbundene Inhalt nichteindeutig. So kann es passieren, dass das gleicheThema unter zwei oder mehr Hashtags diskutiertwird. Einige Nutzer jedoch sehen nur die jeweiligenTeilinhalte ihrer beobachteten Hashtags, da ihnendie anderen thematisch verbundenen Hashtagsunbekannt sind.

Ein Beispiel für ein solches Thema ist dieOccupy-Bewegung in den USA, für das die Twitter-Gemeinde viele verschiedene Hashtags verwendet.Noch heute tauchen diverse Hashtag-Formen wiez. B. #OccupyWallSt, #OWS und #occupywall-street auf. Dazugehörige Tweets könnten wie folgtaussehen:

Tweet 1. It is time to trade your job for an #occupa-tion. Join Occupy! #OWS

1 https://www.twitter.com, Stand: 27.12.2012.2http://www.dblp.org, Stand 7. Juli 2012.

Tweet 2. Join us at NYSE to #occupywallstreet#OWS

Tweet 3. Who is right Tea Party or Occupy? #Occupy-WallSt #tcot #VoteNow

Tweet 4. The next #movie will occupy your attention!Watch it now in #HD!

Offensichtlich existieren acht verschiedene Hash-tags. Doch wie hängen sie zusammen? Wievieleverschiedene Themen decken sie ab? Analysiert mandiese vier Tweets mit klassischen statistischen Zu-sammenhangsmethoden (Kookurrenz), kann manleicht den Zusammenhang der ersten beiden Tweetsmit Tweet 3 übersehen.

Die hier vorgestellten Analysen von Mikro-Blog-Daten zeigen einige Ansätze zur verbessertenZusammenhangserkennung von Hashtags auf.

Verwandte ArbeitenMitte 2012 existieren laut DBLP2 442 Veröffent-lichungen zum Thema Twitter, wobei bei genauerBetrachtung der Anzahl Veröffentlichungen eindeutlicher Anstieg der Popularität dieses For-schungsgebietes seit 2007 zu verzeichnen ist.Einige dieser Publikationen werden im Folgendenbesprochen.

Die Hauptforschungsrichtungen beziehen sichmeist auf soziale oder graphentheoretische Gebiete,wie beispielsweise die Ausbreitung von Informa-

DOI 10.1007/s00287-014-0768-6© Springer-Verlag Berlin Heidelberg 2014

Ricardo UsbeckUniversität Leipzig,Martin-Luther-Universität Halle-Wittenberg,F & E, Unister GmbH, LeipzigE-Mail: [email protected]

Page 2: Analyse von Mikro-Blogging-Daten

{ MIKRO-BLOGGING-DATEN

ZusammenfassungSeit dem Entstehen des Web 2.0 gehören Blogszum Kern der neuen Medienlandschaft. Ins-besondere der Mikro-Blogging-Dienst Twitterstellt eine der schnellst wachsenden Informati-onsquellen unserer Zeit dar. Über 200 Millionenregelmäßige Nutzer schreiben täglich mehr als340 Millionen Nachrichten3.

Twitter-Nutzer haben die Möglichkeit übermit # annotierten Worten (sog. Hashtags) Nach-richten explizit zu verschlagworten. DieseSchlagworte sind nicht immer eindeutig undkönnen für mehrere Themen verwendet werden.Den Überblick über mögliche Verbindungenzwischen Hashtags und deren Themen zu be-halten, fällt schwer. Der hier vorgestellte Ansatzerfasst mittels Data-Mining-Methoden Zusam-menhänge zwischen Hashtags und visualisiertdiese. Dadurch soll der Nutzer unterstützt wer-den, einen Überblick über besprochene Themenund deren Hashtags zu bekommen.

tionen oder den Einfluss von Twitter auf dassoziolinguistische Verhalten.

Die bekannteste Web-Applikation in diesem Be-reich ist hashtagify.me [2, 3]. Bei Besuch der Seiteerhält man einen durch ein Popularitätsmaß ange-ordneten Graphen aller Hashtags, die miteinanderin Tweets vorkommen. hashtagify.me ermöglicht aufsehr intuitive Weise die Suche nach einem für deneigenen Inhalt geeigneten Hashtag.

Daneben widmen sich verschiedene For-schergruppen der Stimmungsanalyse mittelsTwitter-Daten. So untersuchen zum Beispiel Davidovet al. [4], welchen Nutzen eine Meinungsbildanalyseaus Hashtags und Smileys ziehen kann.

Ein weiteres großes Forschungsgebiet ist dieNutzbarkeitsanalyse des Tweetstroms zur Vorwar-nung vor Naturkatastrophen, Ausschreitungen undUnruhen. Hossmann et al. [5] schlagen vor, imFalle von Infrastrukturzusammenbrüchen überdezentrale Twitter-Clienten Ersatzstrukturen zuschaffen. Durch Nutzung von WiFi und anderenAd-Hoc-Netzen soll der etablierte Kurznachrich-tendienst die Situationsbewertung für Einsatzstäbestärken.

3https://business.twitter.com/basics/what-is-twitter/, Stand: 27. Dezember 2012.

Tsur et al. [6] untersuchen die Propagierungvon Informationen, jedoch nicht nur auf den Netz-werkstrukturen, sondern insbesondere mithilfe derpopulärsten Hashtags. Diese auch Memes genanntenSchlagworte tauchen über einen kurzen Zeitraumauf, werden oft gebraucht und verschwinden nacheiner kurzen Zeit wieder.

Die meisten Veröffentlichungen bewegen sichvor allem im Bereich Stimmungsanalyse, Neuigkei-tendetektion und soziologischer Forschungsgebieteund sollen hier nicht weiter betrachtet werden. Ins-gesamt ist Twitter durch seine offene Datenpolitikeine sehr gute Forschungsgrundlage und aufgrundseiner besonderen Struktur auch Anziehungspunktvieler Untersuchungen.

Der in dieser Arbeit entwickelte Beitrag zur De-tektion von Korrelationen zwischen Hashtags wurdenach eingehender Literaturrecherche in bestehenderForschung noch nicht untersucht.

MethodikAls Grundlage der Berechnung der Korrelationzwischen Hashtags dient ein Dirichlet-Multinomial-Clustering-Modell (DMC) [7, 8]. Gegenüber einermultivariaten Modellierung bietet das DMC denVorteil, verschiedene Einflussfaktoren ebenfalls ein-fließen zu lassen. So ist es möglich, beim Clusteringneben den Worthäufigkeiten gleichsam Autorenan-gaben, geographische Ortsangaben oder wie hierHashtags zu beachten.

Das hier verwendete DMC ist in Abb. 1 dar-gestellt. Bei dieser Modellierung wird jeder derN-Tweets als eigenständiges Dokument erfasstund enthält die Hashtags Hn und Worte Wn. DerParametervektor Z modelliert das Entstehen vonTweets, indem er die Zuordnung eines Dokumen-tes zu einem Cluster vornimmt. Die Größe dereinzelnen Cluster regelt der Vektor π , wobei proCluster Prototypenvektoren durch das DMC gelerntwerden. Das Modell bedient sich der Dirichlet-Verteilungen (α, β, γ ) als A-priori-Verteilungen fürdie Multinomialverteilungen μ und η.4

Die Verbundverteilung des vollständigen Mo-dells samt Faktorisierung, welche aus der grafischenDarstellung ermittelt werden kann, stellt sich wiefolgt dar:

p(W , H, Z, π, μ, η)

4 Zur Vereinfachung wurden Vektorpfeile stets weggelassen.

Page 3: Analyse von Mikro-Blogging-Daten

Abb. 1 Grafisches Modell des verwendeten Dirichlet-Multinomial-Clustering-Modells. Graue Modellknoten stellen beobachteteVariablen dar (Worte und Hashtags je Dokument)

Abb. 2 Zuordnung der Hashtags zu den Clustern. Grauwerte geben die Clusterzugehörigkeit an (weiß= 100%, schwarz= 0%)

= p(π) · p(μ) · p(η) · p(Z|π) · p(W|Z, μ) · p(H|Z, η)

= Dir(π|α) ·K∏

k=1

Dir(μk|β) ·K∏

k=1

Dir(ηk|γ )

·N∏

n=1

K∏

k=1

πznkk

N∏

n=1

K∏

k=1

[ V∏

v=1

μwnvkv

]znk

·N∏

n=1

K∏

k=1

[ T∏

t=1

ηhntkt

]znk

Dir sei eine Dirichlet-Verteilung, wobei die Varia-blen sich wie folgt zusammensetzen: w ∈ NN×V ,h ∈NN×T , Z ∈ {0, 1}N×K , μ∈RK×V , η∈RK×T ,π ∈RK .

Die Parameter des angepassten DMC werdenmittels Variationaler Inferenz nach Euler [8] durchAktualisierungsgleichungen approximiert.

Die Aktualisierungsgleichungen berechnen da-bei schrittweise neue Zuordnungen der Hashtags,

Worte und Dokumente zu Clustern. Jedes Clusterstellt dabei ein Thema dar.

Bezogen auf die vier oben stehenden Tweets er-rechnet das Modell innerhalb von fünf Iterationendie korrekten Zuordnungen, wie in Abb. 2 zu sehen.Die Iteration der Aktualisierungsgleichung konver-giert immer gegen einen Fixpunkt. So konnten dieHashtags der Tweets 1–3 in einem Cluster zusam-mengefasst werden, während die Hashtags #HD und#movie einem separaten Cluster zugewiesen wurden.

Das so erzeugte Modell ist anschließend Grund-lage, um mittels der Pearson-Korrelation [9] dieZusammenhänge zwischen den einzelnen Hashtagszu errechnen.

Die Pearson-Korrelation (auch Pearsons rgenannt) ist ein statistisches Korrelationsmaß,welches einen Zusammenhang zwischen zwei li-near voneinander abhängigen Variablen X undY herstellt. Bereits 1885 hat Sir Francis Galtondiese Korrelation vorgeschlagen, welche von Karl

Page 4: Analyse von Mikro-Blogging-Daten

{ MIKRO-BLOGGING-DATEN

Pearson 1895 als Korrelation r wie folgt definiertwurde [9]:

r(X, Y)=cov(X, Y)√

var(X) ·√var(Y).

Im Gegensatz zur nach oben unbeschränktenKovarianz, liegt der Wertebereich des Pearson-Koeffizienten im Intervall [– 1, 1], vergleiche [10].

Als Grundlage der Visualisierung wird ein Ent-fernungsmaß definiert, welches sich im Intervall[0, 2] befindet, die Pearson-Distanz:

d(X, Y)= 1 – r(X, Y).

Batch-basiertes ModellUm die Veränderung der Korrelation von Hashtagsüber die Zeit beobachten zu können, muss für jedenZeitausschnitt τ das Modell ausgewertet und eineKorrelationsmatrix erstellt werden.

Dafür wird das Gesamtmodell iterativ für je-des Zeitintervall τ gelernt. Das heißt, alle Tweetszwischen dem Anfangszeitpunkt tα ∈ τ und demEndzeitpunkt tω ∈ τ werden dem Modell als beob-achtete Daten übergeben. So entsteht ein Batch proZeitintervall, der das gelernte Modell und damit dieKorrelation beinhaltet.

DatensatzDa Twitter Nutzern und Entwicklern eine API (engl.Application Programming Interface, Programmier-schnittstelle) zur Verfügung stellt, kann über diese≈ 1%5 des aktuellen Dokumentstromes herunterge-laden werden. Die hier verwendeten Daten wurdenvom 1. Januar 2012 bis zum 30. Juni 2012 gesam-melt. Insgesamt befinden sich 28 140 277 Nutzer imDatensatz, welche 243 356 078 Tweets schrieben.

Der Strom an Tweets wächst mit der Zeit, daimmer mehr Nutzer den Kurznachrichtendienst ver-wenden. In Abb. 4 ist dieses Wachstum zu sehen.Dies wird lediglich beeinflusst von Ausfällen desfür die Arbeit verwendeten Servers sowie von Da-tenverlusten, die durch Programmupdates bedingtsind.

Dabei entstehen bestimmte Verwendungs-trends für Hashtags. So gibt es Hashtags, welchenur in Memes, spontan und massiv auftretendenInternetphänomenen (vgl. Abschnitt ,,VerwandteArbeiten“), verwendet werden und eine nur kurze

5 https://dev.twitter.com/docs/streaming-apis, Stand 22. Dezember 2013.

Abb. 3 Batch-Modell für τ = [τα, τω]

Lebensdauer haben oder periodisch verwendeteHashtags wie beispielsweise #ff (follower-friday).Die Abb. 5 zeigt einige typische Trendlinien fürHashtags.

Da die heruntergeladenen Dokumente inihrer Rohfassung nur schwer vom Algorith-mus zu verarbeiten waren, wurde jeder Tweeteinzeln vorverarbeitet. Dazu wurden die als JSON-Dateien heruntergeladenen Tweets mittels einerSpracherkennungssoftware [11] geparst und nurenglisch-sprachige Tweets erhalten. Ebenfallswurden fehlerhaft codierte Tweets entfernt, so-wie Stopworte aussortiert6. Zusätzlich wurdenInternet-Slang-Begriffe wie „lol“ („laughing-out-loud“) vereinheitlicht. Zuletzt wurden alleTweets von Interpunktionen sowie Großschreibungbereinigt.

Visualisierung der ErgebnisseDie Effektivität des Modells wurde in mehrerenExperimenten auf synthetischen Daten nach-gewiesen [12]. Allerdings sind – ohne visuelleHilfen – Analysen nur schwer durchführbar undKorrelationsmatrizen für den interessierten, aberstofffremden Nutzer kaum zu verwenden.

Die vorgestellte Visualisierung zeigt die Ge-meinsamkeiten und Unterschiede zwischen demDMC und dem einfachen Kookurenzmodell. Eswerden zwei radial nebeneinander angeordnete Gra-phen dargestellt. Die Beziehungen zwischen dem imMittelpunkt des jeweiligen Graphen dargestelltenHashtag und aller mit ihm über ein Kriterium zu-sammenhängenden Hashtags werden ähnlich demAnsatz von hashtagify.me visualisiert. Die Farbe derKante gibt die Stärke des Zusammenhangs an, wobeieine Hitzeskale zum Einsatz kommt. Die so vorge-nommene Visualisierung stellt auf einer geringerenFläche mehr Informationen zur Verfügung als eseine bloße Listendarstellung könnte.

6 http://dev.mysql.com/doc/refman/5.5/en/fulltext-stopwords.html,Stand 22. Dezember 2013.

Page 5: Analyse von Mikro-Blogging-Daten

Abb. 4 Wachstum des verwendeten Datensatzes

Abb. 5 Trendlinien einiger ausgewählter Hashtags

Abb. 6 Beispiel einer Visualisierung bezogen auf das obige Beispiel. Links: Miteinander im Beobachtungszeitraum getwitterte Hash-tags. Rechts: Zusammenhang über die Pearson-Korrelation dargestellt, errechnet über das DMC-Modell, beobachtetes Hashtag „#OWS“

Des Weiteren kann die Visualisierung The-menverläufe entlang der Zeitachse darstellen. Dazuverwendet sie das oben beschriebene Batch-basierteModell.

Wie in Abb. 6 zu sehen, zeigt sich die effizienteAuswertbarkeit der Visualisierung durch die radialeAnordnung und Abbildung der Korrelationsstärke

auf eine Hitzeskale. Ebenfalls zeigt sich die Stärkedes DMC-Modells gegenüber der Kookkurrenz.Existieren keine oder nur wenige direkt miteinan-der getwitterten Hashtags, kann dieses Modell überdas Hintergrundvokabular Zusammenhänge her-stellen (z. B. #tcot). Der Nutzer kann somit rechteinfach den Verlauf ausgewählter Zusammenhänge

Page 6: Analyse von Mikro-Blogging-Daten

{ MIKRO-BLOGGING-DATEN

im zeitlichen Voranschreiten visuell auswerten.Allerdings versagt diese Visualisierung bei einer grö-ßeren Anzahl an Hashtags und Zusammenhängen,welche meist durch größere Zeiteinheiten bedingtsind. Trotzdem kann der Betrachter bereits jetztdaraus lohnenswerte Erkenntnisse ziehen, beispiels-weise die stärksten Einflüsse auf ein bestimmtesHashtag.

Zusammenfassung und AusblickIn dieser Arbeit wurde ein Ansatz zur Identifika-tion von Zusammenhängen zwischen Hashtagsaufgezeigt. Hierzu wurden Data-Mining-Modelleangepasst, implementiert, getestet, optimiert undmiteinander verglichen. Dabei ist die Verwendbar-keit eines mit drei A-priori-Verteilungen versehenenDMC-Modells zur Korrelation von Hashtags ex-perimentell bestätigt worden. Eine Visualisierungunterstützt einen stofffremden Nutzer bei der Arbeitmit dieser Methodik.

Weitere Verbesserungen sind im Bereich derVorverarbeitung anzusiedeln – so beispielsweise dasAuflösen von Links in Tweets zum Nutzen externerInhalte. Insbesondere sind verbesserte Korrelations-maße nötig, um aus den geclusterten Daten sinnvolleErkenntnisse ziehen zu können. In Anbetracht dersteigenden Datenmenge sind ebenfalls die AspekteParallelisierung bzw. Verwendung von Echtzeit-Streaming-Frameworks weitere Schritte auf einergrößeren Forschungsagenda.

Aus diesem Ansatz heraus können Anwen-dungen im Bereich des wissenschaftlichen oderhistorischen Journalismus entstehen, sowie tiefereEinblicke in das Nutzerverhalten auf Twitter er-langt werden. Immer mehr Netzgemeinden wie

Facebook7 oder Google+8 adaptieren Hashtags, waszu einem langfristigen Erfolg dieser Technologieführen wird.

Danksagung

Diese Arbeit wurde unter-stützt vom ESF und demFreistaat Sachsen. Mein

Dank geht an meine Betreuer Alexander Hinneburgund Ivo Hedtke und der F & E Abteilung der UnisterGmbH.

Literatur1. Huang J, Thornton KM, Efthimiadis EN (2010) Conversational tagging in twitter.

In: Proceedings of the 21st ACM conference on Hypertext and hypermedia. HT ’10,New York, NY, USA, ACM, 173–178

2. Infosthetics (2012) Hashtagify: Exploring the connections between twitter hash-tags. http://infosthetics.com/archives/2011/05/hashtagify_exploring_the_connections_between_twitter_hashtags.html, letzter Zugriff 31.7.2012

3. Bennett S (2012) Visually explore twitter hashtags and their relationships withhashtagify, http://www.mediabistro.com/alltwitter/, letzter Zugriff 20.7.2012

4. Davidov D, Tsur O, Rappoport A (2010) Enhanced sentiment learning using twit-ter hashtags and smileys. In: Proceedings of the 23rd International Conference onComputational Linguistics: Posters. COLING ’10, Stroudsburg, PA, USA, Associationfor Computational Linguistics, 241–249

5. Hossmann T, Schatzmann D, Carta P, Legendre F (2012) Twitter in disaster mode:smart probing for opportunistic peers. In: Proceedings of the third ACM interna-tional workshop on Mobile Opportunistic Networks. MobiOpp ’12, New York, NY,USA, ACM, 93–94

6. Tsur O, Rappoport A (2012) What’s in a hashtag?: Content based prediction of thespread of ideas in microblogging communities. In: Proceedings of the fifth ACMinternational conference on Web search and data mining. WSDM ’12, New York,NY, USA, ACM, 643–652

7. Sadamitsu K, Mishina T, Yamamoto M (2007) Topic-based language models usingdirichlet mixtures. Syst Comput Japan 38(12):76–85

8. Bishop CM (2007) Pattern Recognition and Machine Learning (Information Scienceand Statistics). 1st ed, 2006, corr. 2nd printing edn, Springer

9. Rodgers JL, Nicewunder AW (1988) Thirteen ways to look at the correlation coef-ficient. The American Statistician 42(1):59–66

10. Lord F, Novick M (1968) Statistical Theories of Mental Test Scores. Addison-Wesleyseries in behavioral science, Addison-Wesley Pub. Co.

11. Nakatani S (2012) Language detection library for java. code.google.com/p/language-detection/, letzter Zugriff 19.7.2012

12. Usbeck R (2012) Analyse von mikro-blog-daten. Master-Arbeit