Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text...

134
Twitter-Daten in der sozialwissenschaftlichen Forschung: Möglichkeiten und Herausforderungen 7. Oktober 2013, 13:00-18:00 8. Oktober, 9:30-15:00 GESIS Workshop, Köln Dr. Katrin Weller, [email protected], @kwelle

Transcript of Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text...

Page 1: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Twitter-Daten in der sozialwissenschaftlichen Forschung:

Möglichkeiten und Herausforderungen

7. Oktober 2013, 13:00-18:00 8. Oktober, 9:30-15:00

GESIS Workshop, Köln

Dr. Katrin Weller, [email protected], @kwelle

Page 2: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Aufbau des Workshops

Ziele

• Twitter als Datenquelle kennenlernen

• Einschätzen lernen, was mit Twitter-Daten möglich ist, und was nicht

• Überblick über Herangehensweisen, Methoden, Stand der Forschung, Schwierigkeiten

Page 3: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Aufbau des Workshops

1. Einführung in Twitter (mit Übung)

2. Stand der Twitter-Forschung – Ein Überblick

3. Twitter-Tools

4a. Ein erster Blick in die Twitter-Daten

4b. Twitter-Datensätze unter der Lupe

5. Studien planen – was geht, was geht nicht?

6. Übung: Studien planen

7. Diskussion: Datenqualität, Forschungsethik, rechtlicher Rahmen

Page 4: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Unterrichtsmaterialien

• Folien werden online zur Verfügung gestellt: http://katrinweller.net

• Weiterführende Informationen: http://kwelle.wordpress.com/2013/08/14/some-useful-resources-for-starting-twitter-research/#more-100

• Test-Datensätze bitte nicht weitergeben!

Page 5: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Vorstellung

• Interessen, Forschungshintergrund

• Erwartungen

• Konkrete Pläne mit Twitterdaten?

Page 6: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Jack Dorsey (2000): “twttr sketch”. http://www.flickr.com/photos/jackdorsey/182613360/

1. Twitter – Eine Einführung

Page 7: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

gegründet in 2006, eigenständige Plattform seit 2007

Jack Dorsey (2000): “twttr sketch”. http://www.flickr.com/photos/jackdorsey/182613360/

Page 8: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Twitter 2013

Page 9: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Twitter in Zahlen

• March 2012: 140 million active users and 340 million Tweets a day

• December 2012: more than 200 million users

• USA, 2012: 15% of online adults use Twitter

• Germany, 2012: 4% of population

PEW Internet: http://www.pewinternet.org/Reports/2012/Twitter-Use-2012.aspx

Twitter Blog: http://blog.twitter.com/2012/03/twitter-turns-six.html

@twitter: https://twitter.com/twitter/status/281051652235087872

ARD/ZDF online Studie http://www.ard-zdf-onlinestudie.de/fileadmin/Online12/0708-2012_Busemann_Gscheidle.pdf

Page 11: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Randnotizen

• Trends 2012: Olympics, Wahlen in USA.

• Twitter-Nutzer mit den meisten Followern?

• Die meisten Retweets:

https://2012.twitter.com/de/golden-tweets.html

Page 12: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Mar

ch, 2

01

3, h

ttp

://t

wit

terc

ou

nte

r.co

m/p

ages

/10

0

Page 13: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Und wie funktioniert das?

Tweet = max. 140 Zeichen

Page 14: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Followers / Followees

Kwak, H., Lee, C., Park, H., & Moon, S. (2010). What is Twitter, a Social Network or a News Media? In Proceedings of the 19th International World Wide Web (WWW) Conference, April 26-30, 2010, Raleigh NC, USA.

Page 15: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting
Page 16: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Timeline

Page 17: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Retweet (RT)

Kooti, F., Yang, H., Cha, M., Gummadi, K.P. & Mason, W.A. (2012). The Emergence of Conventions in Online Social Networks. Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2012), Dublin.

Page 18: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

@message (@mention) ≠ direct message

Page 19: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

#hashtags

Page 20: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

#hashtags

19 März 2013 6 Oktober 2013

Page 21: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

URLs

Page 22: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Fotos

Page 23: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Nutzerprofile

Page 24: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Übung

Page 25: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Übung 1: Suchen

• Nach Tweets:

– mit und ohne Hashtag

• Nach Personen

– nach dem offiziellen Account der eigenen Institution

– nach einem verifizierten Account

• (Suchen ohne Login: https://twitter.com/search-home)

Page 26: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Übung 2: Account anlegen

Wer keinen eigenen Account anlegen möchte:

Twitter Test-Account: [aus den Folien gelöscht]

Passwort: [aus den Folien gelöscht]

Page 27: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Übung 3: Folgen

• 2-3 interessante Accounts aussuchen und diesen folgen

• Min. einem anderen Kursteilnehmer folgen

• Zurück-folgen!

Page 28: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Übung 4: Tweets schreiben

• zuerst einen ‚normalen‘ Tweet

• dann einen mit Hashtag

• und dann eine @message an einen anderen Kursteilnehmer

• und nun noch ein Retweet

Page 29: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Übung 5: Hashtag auswählen

• Einen gemeinsamen Hashtag für den Workshop festlegen

Page 30: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Übung 6: Trending topics

• Die Trending Topics ansehen

– Für Deutschland

– Weltweit

– Für ein anderes Land oder für die eigene Heimatstadt

Page 31: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Übung 7: Direct message schreiben

• Einem anderen Teilnehmer eine direct message schicken.

Page 32: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Fragen?

Page 33: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

2. Stand der Forschung

Page 34: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Entwicklung der Twitter-Forschung

Page 35: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Twitter vs. Facebook

Scopus (TITLE-ABS-KEY(Twitter) AND PUBYEAR > 2006) (TITLE-ABS-KEY(Facebook) AND PUBYEAR > 2006)

Page 36: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Scopus: Publikationen aus 70 Ländern

36

Page 37: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting
Page 38: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

pointless babble?

Page 39: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Frühe Twitter-Forschung

• Java et al. (2007) identifizieren einen Großteil an Tweets als “daily chatter”.

• Pear Analytics study: 40% of tweets are pointless babble (Kelly, 2009).

Java, A., Song, X., Finin, T., & Tseng, B. (2007). Why we twitter: understanding microblogging usage and communities. In Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 workshop on Web mining and social network analysis (WebKDD/SNA-KDD ’07). ACM, New York, NY, USA, 56-65. DOI=10.1145/1348549.1348556 http://doi.acm.org/10.1145/1348549.1348556 Kelly, R. (2009). Twitter Study. Pear Analytics, retrieved from http://www.pearanalytics.com/wp-content/uploads/2012/12/Twitter-Study-August-2009.pdf

Page 40: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Twitter Evolution

• Kommunikation bei Twitter entwickelt sich weiter

• @-Symbol für Antworten (Honeycutt & Herring, 2009)

• Retweets

Neue Studien untersuchen Kommunikationsstruktur und Netzwerke

Honeycutt, C., and Herring, Susan C. (2009). Beyond microblogging: Conversation and collaboration via Twitter. Proceedings of the Forty-Second Hawaii International Conference on System Sciences.Los Alamitos, CA IEEE Press.

Page 41: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

De-benalizing Twitter!

Rogers, R. (2014). Debanalizing Twitter: The transformation of an object of study. In: K. Weller, A. Bruns, J. Burgess, M. Mahrt, C. Puschmann. (Eds.): Twitter and Society (pp. ix-xxvi). New York et al.: Peter Lang.

Page 42: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Was wird erforscht?

Page 43: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Was wird erforscht?

Page 44: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Ausgewählte Forschungsbereiche

44

Politikwissenschaft

• Kommunikationsverhalten v.a. im Wahlkampf

• Stimmungen im Wahlkampf

• Interaktionen zwischen Parteien

• eDemocracy

Page 45: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Ausgewählte Forschungsbereiche

45

Kommunikations- und Medienwissenschaft

• Übertragung von Methoden der Medienanalyse

• Brand communication

• Crisis communication

• Verschiedene Zielgruppen, verschiedene Kommunikationssituationen

• Rolle von @messages, RTs etc.

Page 46: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Ausgewählte Forschungsbereiche

46

Informatik / Informationswissenschaft

• Information Retrieval in Tweets

• Informationsflüsse

• Netzwerke

• Zitationsanalysen

Page 47: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Twitter in der sozialwissenschaftlichen Forschung?

Weller, K. (2013). What you can get from Twitter – and what not. Presentation at ISSC’s World Social Science Forum (WSSF) 2013. Montreal, Canada. Slides: http://de.slideshare.net/katrinweller/weller-wssf-2013presentation . Extended Abstract: http://kwelle.files.wordpress.com/2013/10/wssf2013_weller_what-do-we-get-from-twitter.pdf

Page 48: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting
Page 49: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

No. Publication Citations Data

[1] Huberman, B. A., Romero, D. M., & Wu, F. (2009). Social networks that matter: Twitter under the microscope. First Monday,

14(1). Retrieved from http://firstmonday.org/ojs/index.php/fm/article/view/2317/2063

155 309740 Twitter users (with followers and

tweets)

[2] Marwick, A. E., & boyd, d. (2011). I tweet honestly, I tweet passionately: Twitter users, context collapse, and the imagined

audience. New Media & Society, 13(1), 114–133. doi:10.1177/1461444810365313

77 Interviews with 181 Twitter users

[3] Junco, R., Heiberger, G., & Loken, E. (2011). The effect of Twitter on college student engagement and grades. Journal of

Computer Assisted Learning, 27(2), 119–132. doi:10.1111/j.1365-2729.2010.00387.x

55 Experiment with 125 students.

[4] Yardi, S., Romero, D., Schoenebeck, G., & boyd, d. (2010). Detecting spam in a Twitter network. First Monday, 15(1). Retrieved

from http://firstmonday.org/ojs/index.php/fm/article/view/2793/2431

28 17,803 tweets from 8,616 users + 1st degree

network (3,048,360 directed edges, 631,416

unique followers, and 715,198 unique friends)

[5] Ritter, A., Cherry, C., & Dolan, B. (2010). Unsupervised modeling of Twitter conversations. In HTL'10 Human Language

Technologies. The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics

(pp. 172–180). Stroudsburg, Pa: Association for Computational Linguistics (ACL). Retrieved from

http://dl.acm.org/citation.cfm?id=1858019

27 1.3 million Twitter conversations, with each

conversation containing between 2 and 243

posts

[6] Petrovic, S., Osborne, M., & Lavrenko, V. (2010). Streaming first story detection with application to Twitter. In HTL'10 Human

Language Technologies. The 2010 Annual Conference of the North American Chapter of the Association for Computational

Linguistics (pp. 181–189). Stroudsburg, Pa: Association for Computational Linguistics (ACL). Retrieved from

http://dl.acm.org/citation.cfm?id=1858020

26 163,500,000 tweets

[7] Jiang, L., Yu, M., Zhou, M., Liu, X., & Zhao, T. (2011). Target-dependent Twitter sentiment classification. In HLT '11 Proceedings

of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies:. Short papers -

Volume 2 (pp. 151–160). Retrieved from http://dl.acm.org/citation.cfm?id=2002492

22 20,000 tweets

[8] Han, B., & Baldwin, T. (2011). Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the

49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Short papers - Volume 2

(pp. 368–378). Retrieved from http://dl.acm.org/citation.cfm?id=2002520

22 449 tweets sampled from 1.5 GB of Twitter data

[9] Gimpel, K., Schneider, N., O'Connor, B., Das, D., Mills, D., Eisenstein, J., Heilmann, M., … (2011). Part-of-speech tagging for

Twitter: Annotation, features, and experiments. In HLT '11 Proceedings of the 49th Annual Meeting of the Association for

Computational Linguistics: Human Language Technologies. Short papers - Volume 2 (pp. 42–47). Retrieved from

http://dl.acm.org/citation.cfm?id=2002747

21 1,827 annotated tweets

[10] Schultz, F., Utz, S., & Göritz, A. (2011). Is the medium the message? Perceptions of and reactions to crisis communication via

twitter, blogs and traditional media. Public Relations Review, 37(1), 20–27. doi:10.1016/j.pubrev.2010.12.001

19 Experiment with 1677 participants

[11] Barbosa, L., & Feng, J. (2010). Robust sentiment detection on twitter from biased and noisy data. In COLING '10 Proceedings of

the 23rd International Conference on Computational Linguistics (pp. 36–44).

19 200,000 annotated tweets

[12] Davidov, D., Tsur, O., & Rappoport, A. (2010). Enhanced sentiment lerarning using Twitter hashtags and smileys. In COLING '10

Proceedings of the 23rd International Conference on Computational Linguistics (pp. 241–249). Retrieved from

http://dl.acm.org/citation.cfm?id=1944566.1944594

19 475,000,000 tweets

[13] Hargittai, E., & Litt, E. (2011). The tweet smell of celebrity success: Explaining variation in Twitter adoption among a diverse

group of young adults. New Media & Society, 13(5), 824–842. doi:10.1177/1461444811405805

18 Survey with 505 young American adults

[14] Zhou, X., Lee, W.-C., Peng, W.-C., Xie, X., Lee, R., & Sumiya, K. Measuring geographical regularities of crowd behaviors for

Twitter-based geo-social event detection, 1. doi:10.1145/1867699.1867701

18 21,623,947 geo-tagged tweets

[15] Gruzd, A., Wellman, B., & Takhteyev, Y. (2011). Imagining Twitter as an Imagined Community. American Behavioral Scientist,

55(10), 1294–1318. doi:10.1177/0002764211409378

17 One person’s Twitter network (652 followers,

114 followings).

3,112 tweets.

[16] Johnson, K. A. (2011). The effect of Twitter posts on students’ perceptions of instructor credibility. Learning, Media and

Technology, 36(1), 21–38. doi:10.1080/17439884.2010.534798

16 Experiments with 120 undergrad students

[17] Alina Mungiu-Pippidi, & Igor Munteanu. (2009). Moldova's "Twitter Revolution". Journal of Democracy, 20(3), 136–142.

doi:10.1353/jod.0.0102

16 none

[18] Larsson, A. O., & Moe, H. (2012). Studying political microblogging: Twitter users in the 2010 Swedish election campaign. New

Media & Society, 14(5), 729–747. doi:10.1177/1461444811422894

15 99,832 tweets

[19] Lasorsa, D. L., Lewis, S. C., & Holton, A. E. (2012). Normalizing Twitter: Journalism practice in an emerging communication

space. Journalism Studies, 13(1), 19–36. doi:10.1080/1461670X.2011.571825

15 22,248 tweets

[20] Takhteyev, Y., Gruzd, A., & Wellman, B. (2012). Geography of Twitter networks. Social Networks, 34(1), 73–81.

doi:10.1016/j.socnet.2011.05.006

14 481,248 tweets, 1,953 user pairs

Wel

ler,

K. (

20

13

). W

hat

yo

u c

an g

et f

rom

Tw

itte

r –

and

wh

at n

ot.

Pre

sen

tati

on

at

ISSC

’s W

orl

d S

oci

al S

cien

ce F

oru

m

(WSS

F) 2

01

3. M

on

trea

l, C

anad

a. S

lides

: h

ttp

://d

e.sl

ides

har

e.n

et/k

atri

nw

elle

r/w

elle

r-w

ssf-

20

13

pre

sen

tati

on

.

Exte

nd

ed A

bst

ract

: htt

p:/

/kw

elle

.file

s.w

ord

pre

ss.c

om

/20

13

/10

/wss

f20

13

_wel

ler_

wh

at-d

o-w

e-ge

t-fr

om

-tw

itte

r.p

df

Page 50: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Methoden?

Angewandte Methoden in den meistzitierten Publikationen: • Interviews mit Twitter-Nutzern, • Experimente, • Quantitative Analysen von Tweets und deren Eigenschaften, • Netzwerkananlysen, • Linguistische Analysen, z.B. word clustering, event detection,

sentiment analysis, • Inhaltsanalysen von Tweets.

Bisher eher selten mehrere in Kombination

Page 51: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Methoden

In der Forschung: viele Case Studies, wenig methodische Standards.

Page 52: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Standard-Metriken?

52

• Anzahl der Tweets

• Anzahl der Nutzer mit min. einem Tweet

• Tweets pro Nutzer

• Structural Analysis of Tweets:

– Original tweets, RTs, (modified RTs), @message

– Tweets mit URLs

Bruns, A., & Stieglitz, S. (2012). Quantitative Approaches to Comparing Communication Patterns on Twitter. Journal of Technology in Human Services, 30(3-4), 160–185. doi:10.1080/15228835.2012.744249

Page 53: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Beispiel für einen Zeitverlauf: #mla09

Zeitachse: Messung in Stunden

An

zah

l der

Tw

eets

pro

Stu

nd

e

Graphik von Cornelius Puschmann

Page 54: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Beispiel für ein Personennetzwerk basierend auf RTs – im Zeitverlauf

Puschmann, C., Weller, K., Dröge, E. (2011): Studying Twitter Conversations as (Dynamic) Graphs: Visualization and Structural Comparison. Poster at General Online Research (GOR 11), Düsseldorf. http://ynada.com/posters/gor11.pdf

Page 55: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Beispiel für Personeninformationen: #www2010

Aktivität einzelner Personen: Tweetanzahl (#www2010)

0

20

40

60

80

100

120

140

160

180

200

An

zah

l Tw

eet

s

Dröge, E., Maghferat, P., Puschmann, C., Verbina, J., & Weller, K. (2011). Konferenz-Tweets. Ein Ansatz zur Analyse der Twitter-Kommunikation bei wisseschaftlichen Konferenzen. In J. Griesbaum, T. Mandl, C. Womser-Hacker (Eds.), Information und Wissen: global, sozial und frei? Proceedings des 12. Internationalen Symposiums für Informationswissenchaft (pp. 98–110). Boizenburg: VWH.

Page 56: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Personeninformationen

Aktivität einzelner Personen: @-Nachrichten (#mla09)

0

5

10

15

20

25

30

35

40

An

zah

l @-N

ach

rich

ten

@-Nachrichten gesendet @-Nachrichten empfangen

Page 57: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Inhaltsanalyse

57

• CAQDAS Computer-Assisted Qualitative Data AnalysiS

– (z.B. MAXQDA, QDAMiner, ATLAS.ti, Qualrus, Nvivo)

– Speech Act Analyse

– Statistische Auswertungen

Einspänner, J., Dang-Anh, M., & Thimm, C. (2014). Computer-assisted content analysis of Twitter data. In: K. Weller, A. Bruns, J. Burgess, M. Mahrt, C. Puschmann. (Eds.): Twitter and Society (pp. 97-108). New York et al.: Peter Lang.

Page 58: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Sentiment Analyse

58

Automatische Berechnung von emotionalen Tonalitäten von Tweets.

Benötigt werden Wörterbücher mit Sentiment-Werten, z.B. ANEW.

Generell mit Vorsicht zu betrachten.

Für deutsche Tweets besonders kritisch.

Thelwall, M. (2014). Sentiment analysis and time series with Twitter. In: K. Weller, A. Bruns, J. Burgess, M. Mahrt, C. Puschmann. (Eds.): Twitter and Society (pp. 83-96). New York et al.: Peter Lang.

Page 59: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Besondere Fallstudien

Page 60: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

60

The Australian Twitter-Sphere

Von Axel Bruns: http://www.cci.edu.au/node/1362

Page 62: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Stimmungen in US-Tweets

62 Pulse of the Nation: http://www.ccs.neu.edu/home/amislove/twittermood/

Page 63: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

63

htt

p:/

/ww

w.je

un

eafr

iqu

e.co

m/A

rtic

le/A

RTJ

AW

EB2

01

30

21

51

65

82

6/i

nt

ern

et-l

ibre

ville

-acc

ra-a

dd

is-a

beb

ares

eau

x-so

ciau

x-le

s-ca

pit

ales

-af

rica

ines

-de

-tw

itte

r-q

uar

tier

-par

-qu

arti

er.h

tml#

Tun

is

Page 64: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

64

1. FC Köln (@fckoeln)

Borussia Mönchengladbach (@VfLBorussia)

BVB Dortmund 09 II (@BVB)

FC Bayern München (@BayMuenchen)

FC Schalke 04 II (@s04, official)

FC Schalke 04 I (@FCSchalke04, inofficial)

Hamburger SV (@HSV)

SV Werder Bremen I (@Werder_Bremen)

SV Werder Bremen II (@werderbremen)

0

10000

20000

30000

40000

50000

60000

70000

80000

Jun 11 Jul 11 Aug 11 Sep 11 Oct 11 Nov 11 Dec 11 Jan 12 Feb 12 Mar 12 Apr 12 May 12 Jun 12

nu

mb

er

of

follo

we

rs

month 1. FC Augsburg (@FCAugsburg) 1. FC Kaiserslautern (@Rote_Teufel)* 1. FC Köln (@fckoeln)1. FC Nürnberg (@1_fc_nuernberg) 1. FSV Mainz 05 (1FSVMainz05) 1899 Hoffenheim (achtzehn99)Bayer 04 Leverkusen (@bayer04fussball) Borussia Mönchengladbach (@VfLBorussia) BVB Dortmund 09 I (@BVBDortmund09)BVB Dortmund 09 II (@BVB) FC Bayern München (@BayMuenchen) FC Schalke 04 II (@s04, official)FC Schalke 04 I (@FCSchalke04, inofficial) Hamburger SV (@HSV) Hannover 96 I (@ichbin96)Hannover 96 II (@hannover96) Hertha BSC Berlin (@HerthaBSC)* SC Freiburg (@sc_freiburg)SV Werder Bremen I (@Werder_Bremen) SV Werder Bremen II (@werderbremen) VfB Stuttgart (@VfB)

Siehe: Bruns, Axel; Weller, Katrin; Harrington, Stephen (2014): Twitter and Sports: Football Fandom in Emerging and Established Markets. In: Weller, Katrin; Bruns, Axel; Burgess, Jean; Mahrt, Merja; Puschmann, Cornelius (Hrsg.): Twitter and Society, New Yort et al.: Peter Lang, S. 263-280 Weller, Katrin; Bruns, Axel (2013): Das Spiel dauert 140 Zeichen: Wie deutsche Fußballvereine Twitter für Marketing und Fan-Kommunikation entdecken. In: Griesbaum, Joachim; Heuwing, Ben; Ruppenhofer, Josef; Werner, Katrin (Hrsg.): HiER 2013. Proceedings des 8. Hildesheimer Evaluierungs- und Retrievalworkshop, Hildesheim: Universität Hildesheim, S. 119-131

Page 66: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

66

Bruns, A., & Burgess, J. (2012). Notes towards the scientific study of Twitter. In Tokar, A., Beurskens, M., Keuneke, S., Mahrt, M., Peters, I., Puschmann, C., van Treeck, T., & Weller, K. (Eds.). (2012). Science and the Internet (pp. 159-169). Düsseldorf: Düsseldorf University Press http://nfgwin.uni-duesseldorf.de/sites/default/files/Bruns.pdf

Page 67: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Diskussion

Welche Themenbereiche/Methoden interessieren besonders?

Eigene Erfahrungen/ Anknüpfungspunkte?

Page 68: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

3. Tools

Page 69: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

TweetDeck https://about.twitter.com/products/tweetdeck

Page 70: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Tweetdeck online http://www.tweetdeck.com/

Page 71: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

TOPSY

Page 72: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting
Page 73: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting
Page 74: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Übung

http://topsy.com

- Bei Topsy suchen nach a) einem Nutzer, b) einem Stichwort, c) einem Hashtag.

- Bei Topsy Analytics zwei Nutzer und zwei Hashtags vergleichen.

- Auffälligkeiten?

Page 75: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Vorsicht: Aktivitätskennwerte

• Klout (siehe Abbildung)

• Tweetstats.com

• Twitalyzer

• Twittercounter

• …

Page 76: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Co-tweeting * follower recommendation * automatic tweets * twitterwalls * data visualization * URL monitoring * follower visualization * communities * hashtag meanings * trends

Page 77: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Foto: http://www.zephoria.org/thoughts/archives/2009/11/24/spectacle_at_we.html

Twitter Walls

Page 78: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Tools zur Datensammlung

Page 79: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Wie erhält man die Daten?

79

API

https://dev.twitter.com/docs/api/1.1 https://dev.twitter.com/blog

Page 80: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Datensammlung?

80

Herausforderungen:

Archivierung in Echtzeit Eingeschränkte Anteile

Page 81: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Twitter APIs

81

• API = Application Programming Interface

• Zugang, um Daten für Anwendungen/Apps zu verwenden

• Nicht explizit für die wissenschaftliche Nutzung vorgesehen

• Streaming API, Rest APIs, Search API

Gaffney, D., & Puschmann, C. (2014). Data collection on Twitter. In A. Bruns, K. Weller, J. Burgess, M. Mahrt & C. Puschmann (Eds.), Twitter and Society (pp. 55-67). New York, NY: Peter Lang.

Page 82: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Twitter APIs

82

STREAMING API

- push-basiert, Live-Stream

- Public stream vs. User stream

- Forscher brauchen Tools, die eine Verbindung zu diesem Stream aufrecht erhalten.

Page 83: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Twitter APIs

83

REST API

• Eingeschränkte Anzahl Anfragen pro Stunde

• Social graph data (wer folgt wem)

• Trending topics

• Und vieles mehr

https://dev.twitter.com/docs/using-search

Page 84: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Twitter APIs

• Nicht explizit für Wissenschaftler entwickelt

• Nicht rückwirkend zugänglich

• Nicht vollständig

Änderungen möglich

Page 85: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

https://dev.twitter.com/console

Eigene User-ID finden: http://www.idfromuser.com/

Page 86: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting
Page 87: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting
Page 88: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Twitter-Daten erheben?

• YourTwapperkeeper

• Per RSS-Feed (z.B. Google reader, Thunderbird)

• Drittanbieter ($)

• Desktopbasierte Programme

• Eigene Programme schreiben

• Gnip / DataSift

Page 89: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

YourTwapperkeeper http://134.99.116.228/yourtwapperkeeper (Password protected)

Page 90: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

YourTwapperkeeper

Page 91: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Tweet Archivist

Page 92: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting
Page 93: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting
Page 94: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

TweetArchivist

Übung:

Verschiedene Suchen ausprobieren: http://www.tweetarchivist.com/SetLanguage

Page 95: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

NodeXL http://nodexl.codeplex.com/

Page 96: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

NodeXL

Page 97: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

GNIP

Page 98: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Rechtlicher Rahmen

Twitter‘s Nutzungsbedingungen

Datenschutzbestimmungen

Page 99: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Rechtlicher Rahmen

• Terms of Services: https://twitter.com/tos

• Twitter Privacy Policy: https://twitter.com/privacy

• Developer’s Rules of the Road: https://dev.twitter.com/terms/api-terms

Page 100: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

„Lessons learnt“

Page 101: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

1.

Man muss die Twitter-Dynamik kennen, um

mit Twitter-Daten arbeiten zu können.

Page 102: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

2.

Twitter als Moving Target: alles kann sich

verändern!

Page 103: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

3.

Ideal: Erst die Forschungsfrage, dann

die Datenerhebung.

Page 104: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

4.

Aber: Twitter-Daten immer rechtzeitig

(live) erheben!

Page 105: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

5.

Man erhält i.d.R. nur einen Ausschnitt aus

Twitter

Page 106: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Diskussion

• Erste Selbsteinschätzung: wo könnten sich Twitter-Daten für meine Forschungsfrage lohnen?

• Was muss ich noch wissen, bevor ich tatsächlich entscheiden kann, ob ich mit Twitter-Daten arbeiten möchte?

Allgemein:

• Fragen / Wünsche / Anregungen

Page 107: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

4. Twitter Daten unter der Lupe

Page 108: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting
Page 109: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Was kommt zuerst?

• Forschungsfrage?

• Daten?

Page 110: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Fallstudie: Twitter bei der Landtagswahl NRW

Übung:

- Notieren, welche Fragestellungen in diesem Zusammenhang interessant sein könnten.

- Überlegen, welche Daten dafür benötigt werden würden.

Page 111: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Dateien

#ltwnrw tweets

Was fällt auf?

Page 112: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

5. Studien planen

Page 113: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Forschungsablauf

Studie planen

Daten erheben

Daten auswerten

(Daten archivieren)

Page 114: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Studien planen

• Was soll untersucht werden?

• Warum brauche ich dafür Twitter-Daten?

• Welche Art Twitter-Daten benötige ich?

• Vorab-Recherche!

Page 115: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Kriterien zur Datenerhebung

115

Typischerweise:

- Tweets eines bestimmten Nutzers

- Tweets, die einen Nutzer erwähnen

- Tweets, die ein Wort (Zeichenkette) oder ein Hashtag enthalten

Diverse weitere, z.B.

- Anzahl und Namen der Follower eines Accounts

- Tweets, die eine bestimmte URL (domain) enthalten

Page 116: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Datensammlung

Nutzer-bezogen

Themen-bezogen

Page 117: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Probleme

• Wie lange sollen Daten gesammelt werden?

• Mit welcher Technik sollen Daten gesammelt werden?

• Mit welchen Suchkriterien sollen Daten gesammelt werden?

• Wie sollen die Daten später ausgewertet werden?

Page 118: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Auswertung

Inhaltsanalysen Quantitative

Analysen

Page 119: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Technische Feinheiten

• Manuelle vs. Button Retweets

• URLs erkennen und auflösen

• @messages vs. @mentions

• Informationen über einzelne Twitter-Nutzer herausfinden

• Hashtag vs. Volltextsuche

Page 120: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Datenbereinigung

• Mehrere Datensätze zusammenfügen und dabei Dubletten entfernen.

• ‚False positives‘ entfernen (z.B. bvb)

• Ggf. Dateiformate für die Bearbeitung in Analysetools anpassen

Page 121: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Datenmanagement

• Versionierung – Metadaten

• Dokumentation des Erhebungs- und Bereinigungsprozesses

• Sicherungskopien

Page 122: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

6. Übung: Studien planen

Page 123: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Studiendesign

Entweder bereits vorhandene Fragestellung – oder gemeinsam Fragen erarbeiten.

• Ausgehend von Fragestellung: welche Daten werden benötigt, wie können diese erhoben werden, was muss beachtet werden?

• Welche Probleme können auftreten?

Kurzpräsentation des eigenen Ansatzes

Page 124: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

7. Diskussion

Page 125: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

125

Big Data vs. Sinnvolle Forschungsfragen

Page 126: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

126

Was ist ein Link, Follower, Tweet etc. wert?

Wie kann man Nutzer-Aktionen interpretieren?

Page 127: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Repräsentativität?

127

beeinflusst von:

• Nutzerzahlen

• Zeitpunkt/Dauer der Datenerhebung

• Datenauswahl

Page 128: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Verlässlichkeit

128

• Verifizierte Accounts

• Verifizierte Inhalte?

• (Datenausfälle)

Page 129: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

129

Page 130: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Forschungsethik

• Anonymisierung/Pseudonymisierung möglich bzw. nötig?

• Richtlinien für den Umgang mit Personendaten?

Aktuelle Hinweise

• So wenig personenbezogene Daten wie möglich teilen

• Tweet-Sammlungen nicht öffentlich zur Verfügung stellen

Page 131: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

131

today vs. tomorrow

Page 132: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Reproduzierbarkeit

132

Die gleichen Daten zweimal erheben?

Mit bestehenden Datensätzen arbeiten?

Page 133: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Fazit?

Page 134: Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the 49th Annual Meeting

Danke für die Teilnahme!