Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text...

Post on 24-Jun-2020

1 views 0 download

Transcript of Twitter-Daten in der sozialwissenschaftlichen Forschung ......Lexical normalisation of short text...

Twitter-Daten in der sozialwissenschaftlichen Forschung:

Möglichkeiten und Herausforderungen

7. Oktober 2013, 13:00-18:00 8. Oktober, 9:30-15:00

GESIS Workshop, Köln

Dr. Katrin Weller, katrin.weller@gesis.org, @kwelle

Aufbau des Workshops

Ziele

• Twitter als Datenquelle kennenlernen

• Einschätzen lernen, was mit Twitter-Daten möglich ist, und was nicht

• Überblick über Herangehensweisen, Methoden, Stand der Forschung, Schwierigkeiten

Aufbau des Workshops

1. Einführung in Twitter (mit Übung)

2. Stand der Twitter-Forschung – Ein Überblick

3. Twitter-Tools

4a. Ein erster Blick in die Twitter-Daten

4b. Twitter-Datensätze unter der Lupe

5. Studien planen – was geht, was geht nicht?

6. Übung: Studien planen

7. Diskussion: Datenqualität, Forschungsethik, rechtlicher Rahmen

Unterrichtsmaterialien

• Folien werden online zur Verfügung gestellt: http://katrinweller.net

• Weiterführende Informationen: http://kwelle.wordpress.com/2013/08/14/some-useful-resources-for-starting-twitter-research/#more-100

• Test-Datensätze bitte nicht weitergeben!

Vorstellung

• Interessen, Forschungshintergrund

• Erwartungen

• Konkrete Pläne mit Twitterdaten?

Jack Dorsey (2000): “twttr sketch”. http://www.flickr.com/photos/jackdorsey/182613360/

1. Twitter – Eine Einführung

gegründet in 2006, eigenständige Plattform seit 2007

Jack Dorsey (2000): “twttr sketch”. http://www.flickr.com/photos/jackdorsey/182613360/

Twitter 2013

Twitter in Zahlen

• March 2012: 140 million active users and 340 million Tweets a day

• December 2012: more than 200 million users

• USA, 2012: 15% of online adults use Twitter

• Germany, 2012: 4% of population

PEW Internet: http://www.pewinternet.org/Reports/2012/Twitter-Use-2012.aspx

Twitter Blog: http://blog.twitter.com/2012/03/twitter-turns-six.html

@twitter: https://twitter.com/twitter/status/281051652235087872

ARD/ZDF online Studie http://www.ard-zdf-onlinestudie.de/fileadmin/Online12/0708-2012_Busemann_Gscheidle.pdf

Randnotizen

• Trends 2012: Olympics, Wahlen in USA.

• Twitter-Nutzer mit den meisten Followern?

• Die meisten Retweets:

https://2012.twitter.com/de/golden-tweets.html

Mar

ch, 2

01

3, h

ttp

://t

wit

terc

ou

nte

r.co

m/p

ages

/10

0

Und wie funktioniert das?

Tweet = max. 140 Zeichen

Followers / Followees

Kwak, H., Lee, C., Park, H., & Moon, S. (2010). What is Twitter, a Social Network or a News Media? In Proceedings of the 19th International World Wide Web (WWW) Conference, April 26-30, 2010, Raleigh NC, USA.

Timeline

Retweet (RT)

Kooti, F., Yang, H., Cha, M., Gummadi, K.P. & Mason, W.A. (2012). The Emergence of Conventions in Online Social Networks. Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2012), Dublin.

@message (@mention) ≠ direct message

#hashtags

#hashtags

19 März 2013 6 Oktober 2013

URLs

Fotos

Nutzerprofile

Übung

Übung 1: Suchen

• Nach Tweets:

– mit und ohne Hashtag

• Nach Personen

– nach dem offiziellen Account der eigenen Institution

– nach einem verifizierten Account

• (Suchen ohne Login: https://twitter.com/search-home)

Übung 2: Account anlegen

Wer keinen eigenen Account anlegen möchte:

Twitter Test-Account: [aus den Folien gelöscht]

Passwort: [aus den Folien gelöscht]

Übung 3: Folgen

• 2-3 interessante Accounts aussuchen und diesen folgen

• Min. einem anderen Kursteilnehmer folgen

• Zurück-folgen!

Übung 4: Tweets schreiben

• zuerst einen ‚normalen‘ Tweet

• dann einen mit Hashtag

• und dann eine @message an einen anderen Kursteilnehmer

• und nun noch ein Retweet

Übung 5: Hashtag auswählen

• Einen gemeinsamen Hashtag für den Workshop festlegen

Übung 6: Trending topics

• Die Trending Topics ansehen

– Für Deutschland

– Weltweit

– Für ein anderes Land oder für die eigene Heimatstadt

Übung 7: Direct message schreiben

• Einem anderen Teilnehmer eine direct message schicken.

Fragen?

2. Stand der Forschung

Entwicklung der Twitter-Forschung

Twitter vs. Facebook

Scopus (TITLE-ABS-KEY(Twitter) AND PUBYEAR > 2006) (TITLE-ABS-KEY(Facebook) AND PUBYEAR > 2006)

Scopus: Publikationen aus 70 Ländern

36

pointless babble?

Frühe Twitter-Forschung

• Java et al. (2007) identifizieren einen Großteil an Tweets als “daily chatter”.

• Pear Analytics study: 40% of tweets are pointless babble (Kelly, 2009).

Java, A., Song, X., Finin, T., & Tseng, B. (2007). Why we twitter: understanding microblogging usage and communities. In Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 workshop on Web mining and social network analysis (WebKDD/SNA-KDD ’07). ACM, New York, NY, USA, 56-65. DOI=10.1145/1348549.1348556 http://doi.acm.org/10.1145/1348549.1348556 Kelly, R. (2009). Twitter Study. Pear Analytics, retrieved from http://www.pearanalytics.com/wp-content/uploads/2012/12/Twitter-Study-August-2009.pdf

Twitter Evolution

• Kommunikation bei Twitter entwickelt sich weiter

• @-Symbol für Antworten (Honeycutt & Herring, 2009)

• Retweets

Neue Studien untersuchen Kommunikationsstruktur und Netzwerke

Honeycutt, C., and Herring, Susan C. (2009). Beyond microblogging: Conversation and collaboration via Twitter. Proceedings of the Forty-Second Hawaii International Conference on System Sciences.Los Alamitos, CA IEEE Press.

De-benalizing Twitter!

Rogers, R. (2014). Debanalizing Twitter: The transformation of an object of study. In: K. Weller, A. Bruns, J. Burgess, M. Mahrt, C. Puschmann. (Eds.): Twitter and Society (pp. ix-xxvi). New York et al.: Peter Lang.

Was wird erforscht?

Was wird erforscht?

Ausgewählte Forschungsbereiche

44

Politikwissenschaft

• Kommunikationsverhalten v.a. im Wahlkampf

• Stimmungen im Wahlkampf

• Interaktionen zwischen Parteien

• eDemocracy

Ausgewählte Forschungsbereiche

45

Kommunikations- und Medienwissenschaft

• Übertragung von Methoden der Medienanalyse

• Brand communication

• Crisis communication

• Verschiedene Zielgruppen, verschiedene Kommunikationssituationen

• Rolle von @messages, RTs etc.

Ausgewählte Forschungsbereiche

46

Informatik / Informationswissenschaft

• Information Retrieval in Tweets

• Informationsflüsse

• Netzwerke

• Zitationsanalysen

Twitter in der sozialwissenschaftlichen Forschung?

Weller, K. (2013). What you can get from Twitter – and what not. Presentation at ISSC’s World Social Science Forum (WSSF) 2013. Montreal, Canada. Slides: http://de.slideshare.net/katrinweller/weller-wssf-2013presentation . Extended Abstract: http://kwelle.files.wordpress.com/2013/10/wssf2013_weller_what-do-we-get-from-twitter.pdf

No. Publication Citations Data

[1] Huberman, B. A., Romero, D. M., & Wu, F. (2009). Social networks that matter: Twitter under the microscope. First Monday,

14(1). Retrieved from http://firstmonday.org/ojs/index.php/fm/article/view/2317/2063

155 309740 Twitter users (with followers and

tweets)

[2] Marwick, A. E., & boyd, d. (2011). I tweet honestly, I tweet passionately: Twitter users, context collapse, and the imagined

audience. New Media & Society, 13(1), 114–133. doi:10.1177/1461444810365313

77 Interviews with 181 Twitter users

[3] Junco, R., Heiberger, G., & Loken, E. (2011). The effect of Twitter on college student engagement and grades. Journal of

Computer Assisted Learning, 27(2), 119–132. doi:10.1111/j.1365-2729.2010.00387.x

55 Experiment with 125 students.

[4] Yardi, S., Romero, D., Schoenebeck, G., & boyd, d. (2010). Detecting spam in a Twitter network. First Monday, 15(1). Retrieved

from http://firstmonday.org/ojs/index.php/fm/article/view/2793/2431

28 17,803 tweets from 8,616 users + 1st degree

network (3,048,360 directed edges, 631,416

unique followers, and 715,198 unique friends)

[5] Ritter, A., Cherry, C., & Dolan, B. (2010). Unsupervised modeling of Twitter conversations. In HTL'10 Human Language

Technologies. The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics

(pp. 172–180). Stroudsburg, Pa: Association for Computational Linguistics (ACL). Retrieved from

http://dl.acm.org/citation.cfm?id=1858019

27 1.3 million Twitter conversations, with each

conversation containing between 2 and 243

posts

[6] Petrovic, S., Osborne, M., & Lavrenko, V. (2010). Streaming first story detection with application to Twitter. In HTL'10 Human

Language Technologies. The 2010 Annual Conference of the North American Chapter of the Association for Computational

Linguistics (pp. 181–189). Stroudsburg, Pa: Association for Computational Linguistics (ACL). Retrieved from

http://dl.acm.org/citation.cfm?id=1858020

26 163,500,000 tweets

[7] Jiang, L., Yu, M., Zhou, M., Liu, X., & Zhao, T. (2011). Target-dependent Twitter sentiment classification. In HLT '11 Proceedings

of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies:. Short papers -

Volume 2 (pp. 151–160). Retrieved from http://dl.acm.org/citation.cfm?id=2002492

22 20,000 tweets

[8] Han, B., & Baldwin, T. (2011). Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the

49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Short papers - Volume 2

(pp. 368–378). Retrieved from http://dl.acm.org/citation.cfm?id=2002520

22 449 tweets sampled from 1.5 GB of Twitter data

[9] Gimpel, K., Schneider, N., O'Connor, B., Das, D., Mills, D., Eisenstein, J., Heilmann, M., … (2011). Part-of-speech tagging for

Twitter: Annotation, features, and experiments. In HLT '11 Proceedings of the 49th Annual Meeting of the Association for

Computational Linguistics: Human Language Technologies. Short papers - Volume 2 (pp. 42–47). Retrieved from

http://dl.acm.org/citation.cfm?id=2002747

21 1,827 annotated tweets

[10] Schultz, F., Utz, S., & Göritz, A. (2011). Is the medium the message? Perceptions of and reactions to crisis communication via

twitter, blogs and traditional media. Public Relations Review, 37(1), 20–27. doi:10.1016/j.pubrev.2010.12.001

19 Experiment with 1677 participants

[11] Barbosa, L., & Feng, J. (2010). Robust sentiment detection on twitter from biased and noisy data. In COLING '10 Proceedings of

the 23rd International Conference on Computational Linguistics (pp. 36–44).

19 200,000 annotated tweets

[12] Davidov, D., Tsur, O., & Rappoport, A. (2010). Enhanced sentiment lerarning using Twitter hashtags and smileys. In COLING '10

Proceedings of the 23rd International Conference on Computational Linguistics (pp. 241–249). Retrieved from

http://dl.acm.org/citation.cfm?id=1944566.1944594

19 475,000,000 tweets

[13] Hargittai, E., & Litt, E. (2011). The tweet smell of celebrity success: Explaining variation in Twitter adoption among a diverse

group of young adults. New Media & Society, 13(5), 824–842. doi:10.1177/1461444811405805

18 Survey with 505 young American adults

[14] Zhou, X., Lee, W.-C., Peng, W.-C., Xie, X., Lee, R., & Sumiya, K. Measuring geographical regularities of crowd behaviors for

Twitter-based geo-social event detection, 1. doi:10.1145/1867699.1867701

18 21,623,947 geo-tagged tweets

[15] Gruzd, A., Wellman, B., & Takhteyev, Y. (2011). Imagining Twitter as an Imagined Community. American Behavioral Scientist,

55(10), 1294–1318. doi:10.1177/0002764211409378

17 One person’s Twitter network (652 followers,

114 followings).

3,112 tweets.

[16] Johnson, K. A. (2011). The effect of Twitter posts on students’ perceptions of instructor credibility. Learning, Media and

Technology, 36(1), 21–38. doi:10.1080/17439884.2010.534798

16 Experiments with 120 undergrad students

[17] Alina Mungiu-Pippidi, & Igor Munteanu. (2009). Moldova's "Twitter Revolution". Journal of Democracy, 20(3), 136–142.

doi:10.1353/jod.0.0102

16 none

[18] Larsson, A. O., & Moe, H. (2012). Studying political microblogging: Twitter users in the 2010 Swedish election campaign. New

Media & Society, 14(5), 729–747. doi:10.1177/1461444811422894

15 99,832 tweets

[19] Lasorsa, D. L., Lewis, S. C., & Holton, A. E. (2012). Normalizing Twitter: Journalism practice in an emerging communication

space. Journalism Studies, 13(1), 19–36. doi:10.1080/1461670X.2011.571825

15 22,248 tweets

[20] Takhteyev, Y., Gruzd, A., & Wellman, B. (2012). Geography of Twitter networks. Social Networks, 34(1), 73–81.

doi:10.1016/j.socnet.2011.05.006

14 481,248 tweets, 1,953 user pairs

Wel

ler,

K. (

20

13

). W

hat

yo

u c

an g

et f

rom

Tw

itte

r –

and

wh

at n

ot.

Pre

sen

tati

on

at

ISSC

’s W

orl

d S

oci

al S

cien

ce F

oru

m

(WSS

F) 2

01

3. M

on

trea

l, C

anad

a. S

lides

: h

ttp

://d

e.sl

ides

har

e.n

et/k

atri

nw

elle

r/w

elle

r-w

ssf-

20

13

pre

sen

tati

on

.

Exte

nd

ed A

bst

ract

: htt

p:/

/kw

elle

.file

s.w

ord

pre

ss.c

om

/20

13

/10

/wss

f20

13

_wel

ler_

wh

at-d

o-w

e-ge

t-fr

om

-tw

itte

r.p

df

Methoden?

Angewandte Methoden in den meistzitierten Publikationen: • Interviews mit Twitter-Nutzern, • Experimente, • Quantitative Analysen von Tweets und deren Eigenschaften, • Netzwerkananlysen, • Linguistische Analysen, z.B. word clustering, event detection,

sentiment analysis, • Inhaltsanalysen von Tweets.

Bisher eher selten mehrere in Kombination

Methoden

In der Forschung: viele Case Studies, wenig methodische Standards.

Standard-Metriken?

52

• Anzahl der Tweets

• Anzahl der Nutzer mit min. einem Tweet

• Tweets pro Nutzer

• Structural Analysis of Tweets:

– Original tweets, RTs, (modified RTs), @message

– Tweets mit URLs

Bruns, A., & Stieglitz, S. (2012). Quantitative Approaches to Comparing Communication Patterns on Twitter. Journal of Technology in Human Services, 30(3-4), 160–185. doi:10.1080/15228835.2012.744249

Beispiel für einen Zeitverlauf: #mla09

Zeitachse: Messung in Stunden

An

zah

l der

Tw

eets

pro

Stu

nd

e

Graphik von Cornelius Puschmann

Beispiel für ein Personennetzwerk basierend auf RTs – im Zeitverlauf

Puschmann, C., Weller, K., Dröge, E. (2011): Studying Twitter Conversations as (Dynamic) Graphs: Visualization and Structural Comparison. Poster at General Online Research (GOR 11), Düsseldorf. http://ynada.com/posters/gor11.pdf

Beispiel für Personeninformationen: #www2010

Aktivität einzelner Personen: Tweetanzahl (#www2010)

0

20

40

60

80

100

120

140

160

180

200

An

zah

l Tw

eet

s

Dröge, E., Maghferat, P., Puschmann, C., Verbina, J., & Weller, K. (2011). Konferenz-Tweets. Ein Ansatz zur Analyse der Twitter-Kommunikation bei wisseschaftlichen Konferenzen. In J. Griesbaum, T. Mandl, C. Womser-Hacker (Eds.), Information und Wissen: global, sozial und frei? Proceedings des 12. Internationalen Symposiums für Informationswissenchaft (pp. 98–110). Boizenburg: VWH.

Personeninformationen

Aktivität einzelner Personen: @-Nachrichten (#mla09)

0

5

10

15

20

25

30

35

40

An

zah

l @-N

ach

rich

ten

@-Nachrichten gesendet @-Nachrichten empfangen

Inhaltsanalyse

57

• CAQDAS Computer-Assisted Qualitative Data AnalysiS

– (z.B. MAXQDA, QDAMiner, ATLAS.ti, Qualrus, Nvivo)

– Speech Act Analyse

– Statistische Auswertungen

Einspänner, J., Dang-Anh, M., & Thimm, C. (2014). Computer-assisted content analysis of Twitter data. In: K. Weller, A. Bruns, J. Burgess, M. Mahrt, C. Puschmann. (Eds.): Twitter and Society (pp. 97-108). New York et al.: Peter Lang.

Sentiment Analyse

58

Automatische Berechnung von emotionalen Tonalitäten von Tweets.

Benötigt werden Wörterbücher mit Sentiment-Werten, z.B. ANEW.

Generell mit Vorsicht zu betrachten.

Für deutsche Tweets besonders kritisch.

Thelwall, M. (2014). Sentiment analysis and time series with Twitter. In: K. Weller, A. Bruns, J. Burgess, M. Mahrt, C. Puschmann. (Eds.): Twitter and Society (pp. 83-96). New York et al.: Peter Lang.

Besondere Fallstudien

60

The Australian Twitter-Sphere

Von Axel Bruns: http://www.cci.edu.au/node/1362

Stimmungen in US-Tweets

62 Pulse of the Nation: http://www.ccs.neu.edu/home/amislove/twittermood/

63

htt

p:/

/ww

w.je

un

eafr

iqu

e.co

m/A

rtic

le/A

RTJ

AW

EB2

01

30

21

51

65

82

6/i

nt

ern

et-l

ibre

ville

-acc

ra-a

dd

is-a

beb

ares

eau

x-so

ciau

x-le

s-ca

pit

ales

-af

rica

ines

-de

-tw

itte

r-q

uar

tier

-par

-qu

arti

er.h

tml#

Tun

is

64

1. FC Köln (@fckoeln)

Borussia Mönchengladbach (@VfLBorussia)

BVB Dortmund 09 II (@BVB)

FC Bayern München (@BayMuenchen)

FC Schalke 04 II (@s04, official)

FC Schalke 04 I (@FCSchalke04, inofficial)

Hamburger SV (@HSV)

SV Werder Bremen I (@Werder_Bremen)

SV Werder Bremen II (@werderbremen)

0

10000

20000

30000

40000

50000

60000

70000

80000

Jun 11 Jul 11 Aug 11 Sep 11 Oct 11 Nov 11 Dec 11 Jan 12 Feb 12 Mar 12 Apr 12 May 12 Jun 12

nu

mb

er

of

follo

we

rs

month 1. FC Augsburg (@FCAugsburg) 1. FC Kaiserslautern (@Rote_Teufel)* 1. FC Köln (@fckoeln)1. FC Nürnberg (@1_fc_nuernberg) 1. FSV Mainz 05 (1FSVMainz05) 1899 Hoffenheim (achtzehn99)Bayer 04 Leverkusen (@bayer04fussball) Borussia Mönchengladbach (@VfLBorussia) BVB Dortmund 09 I (@BVBDortmund09)BVB Dortmund 09 II (@BVB) FC Bayern München (@BayMuenchen) FC Schalke 04 II (@s04, official)FC Schalke 04 I (@FCSchalke04, inofficial) Hamburger SV (@HSV) Hannover 96 I (@ichbin96)Hannover 96 II (@hannover96) Hertha BSC Berlin (@HerthaBSC)* SC Freiburg (@sc_freiburg)SV Werder Bremen I (@Werder_Bremen) SV Werder Bremen II (@werderbremen) VfB Stuttgart (@VfB)

Siehe: Bruns, Axel; Weller, Katrin; Harrington, Stephen (2014): Twitter and Sports: Football Fandom in Emerging and Established Markets. In: Weller, Katrin; Bruns, Axel; Burgess, Jean; Mahrt, Merja; Puschmann, Cornelius (Hrsg.): Twitter and Society, New Yort et al.: Peter Lang, S. 263-280 Weller, Katrin; Bruns, Axel (2013): Das Spiel dauert 140 Zeichen: Wie deutsche Fußballvereine Twitter für Marketing und Fan-Kommunikation entdecken. In: Griesbaum, Joachim; Heuwing, Ben; Ruppenhofer, Josef; Werner, Katrin (Hrsg.): HiER 2013. Proceedings des 8. Hildesheimer Evaluierungs- und Retrievalworkshop, Hildesheim: Universität Hildesheim, S. 119-131

66

Bruns, A., & Burgess, J. (2012). Notes towards the scientific study of Twitter. In Tokar, A., Beurskens, M., Keuneke, S., Mahrt, M., Peters, I., Puschmann, C., van Treeck, T., & Weller, K. (Eds.). (2012). Science and the Internet (pp. 159-169). Düsseldorf: Düsseldorf University Press http://nfgwin.uni-duesseldorf.de/sites/default/files/Bruns.pdf

Diskussion

Welche Themenbereiche/Methoden interessieren besonders?

Eigene Erfahrungen/ Anknüpfungspunkte?

3. Tools

TweetDeck https://about.twitter.com/products/tweetdeck

Tweetdeck online http://www.tweetdeck.com/

TOPSY

Übung

http://topsy.com

- Bei Topsy suchen nach a) einem Nutzer, b) einem Stichwort, c) einem Hashtag.

- Bei Topsy Analytics zwei Nutzer und zwei Hashtags vergleichen.

- Auffälligkeiten?

Vorsicht: Aktivitätskennwerte

• Klout (siehe Abbildung)

• Tweetstats.com

• Twitalyzer

• Twittercounter

• …

Co-tweeting * follower recommendation * automatic tweets * twitterwalls * data visualization * URL monitoring * follower visualization * communities * hashtag meanings * trends

Foto: http://www.zephoria.org/thoughts/archives/2009/11/24/spectacle_at_we.html

Twitter Walls

Tools zur Datensammlung

Wie erhält man die Daten?

79

API

https://dev.twitter.com/docs/api/1.1 https://dev.twitter.com/blog

Datensammlung?

80

Herausforderungen:

Archivierung in Echtzeit Eingeschränkte Anteile

Twitter APIs

81

• API = Application Programming Interface

• Zugang, um Daten für Anwendungen/Apps zu verwenden

• Nicht explizit für die wissenschaftliche Nutzung vorgesehen

• Streaming API, Rest APIs, Search API

Gaffney, D., & Puschmann, C. (2014). Data collection on Twitter. In A. Bruns, K. Weller, J. Burgess, M. Mahrt & C. Puschmann (Eds.), Twitter and Society (pp. 55-67). New York, NY: Peter Lang.

Twitter APIs

82

STREAMING API

- push-basiert, Live-Stream

- Public stream vs. User stream

- Forscher brauchen Tools, die eine Verbindung zu diesem Stream aufrecht erhalten.

Twitter APIs

83

REST API

• Eingeschränkte Anzahl Anfragen pro Stunde

• Social graph data (wer folgt wem)

• Trending topics

• Und vieles mehr

https://dev.twitter.com/docs/using-search

Twitter APIs

• Nicht explizit für Wissenschaftler entwickelt

• Nicht rückwirkend zugänglich

• Nicht vollständig

Änderungen möglich

https://dev.twitter.com/console

Eigene User-ID finden: http://www.idfromuser.com/

Twitter-Daten erheben?

• YourTwapperkeeper

• Per RSS-Feed (z.B. Google reader, Thunderbird)

• Drittanbieter ($)

• Desktopbasierte Programme

• Eigene Programme schreiben

• Gnip / DataSift

YourTwapperkeeper http://134.99.116.228/yourtwapperkeeper (Password protected)

YourTwapperkeeper

Tweet Archivist

TweetArchivist

Übung:

Verschiedene Suchen ausprobieren: http://www.tweetarchivist.com/SetLanguage

NodeXL http://nodexl.codeplex.com/

NodeXL

GNIP

Rechtlicher Rahmen

Twitter‘s Nutzungsbedingungen

Datenschutzbestimmungen

Rechtlicher Rahmen

• Terms of Services: https://twitter.com/tos

• Twitter Privacy Policy: https://twitter.com/privacy

• Developer’s Rules of the Road: https://dev.twitter.com/terms/api-terms

„Lessons learnt“

1.

Man muss die Twitter-Dynamik kennen, um

mit Twitter-Daten arbeiten zu können.

2.

Twitter als Moving Target: alles kann sich

verändern!

3.

Ideal: Erst die Forschungsfrage, dann

die Datenerhebung.

4.

Aber: Twitter-Daten immer rechtzeitig

(live) erheben!

5.

Man erhält i.d.R. nur einen Ausschnitt aus

Twitter

Diskussion

• Erste Selbsteinschätzung: wo könnten sich Twitter-Daten für meine Forschungsfrage lohnen?

• Was muss ich noch wissen, bevor ich tatsächlich entscheiden kann, ob ich mit Twitter-Daten arbeiten möchte?

Allgemein:

• Fragen / Wünsche / Anregungen

4. Twitter Daten unter der Lupe

Was kommt zuerst?

• Forschungsfrage?

• Daten?

Fallstudie: Twitter bei der Landtagswahl NRW

Übung:

- Notieren, welche Fragestellungen in diesem Zusammenhang interessant sein könnten.

- Überlegen, welche Daten dafür benötigt werden würden.

Dateien

#ltwnrw tweets

Was fällt auf?

5. Studien planen

Forschungsablauf

Studie planen

Daten erheben

Daten auswerten

(Daten archivieren)

Studien planen

• Was soll untersucht werden?

• Warum brauche ich dafür Twitter-Daten?

• Welche Art Twitter-Daten benötige ich?

• Vorab-Recherche!

Kriterien zur Datenerhebung

115

Typischerweise:

- Tweets eines bestimmten Nutzers

- Tweets, die einen Nutzer erwähnen

- Tweets, die ein Wort (Zeichenkette) oder ein Hashtag enthalten

Diverse weitere, z.B.

- Anzahl und Namen der Follower eines Accounts

- Tweets, die eine bestimmte URL (domain) enthalten

Datensammlung

Nutzer-bezogen

Themen-bezogen

Probleme

• Wie lange sollen Daten gesammelt werden?

• Mit welcher Technik sollen Daten gesammelt werden?

• Mit welchen Suchkriterien sollen Daten gesammelt werden?

• Wie sollen die Daten später ausgewertet werden?

Auswertung

Inhaltsanalysen Quantitative

Analysen

Technische Feinheiten

• Manuelle vs. Button Retweets

• URLs erkennen und auflösen

• @messages vs. @mentions

• Informationen über einzelne Twitter-Nutzer herausfinden

• Hashtag vs. Volltextsuche

Datenbereinigung

• Mehrere Datensätze zusammenfügen und dabei Dubletten entfernen.

• ‚False positives‘ entfernen (z.B. bvb)

• Ggf. Dateiformate für die Bearbeitung in Analysetools anpassen

Datenmanagement

• Versionierung – Metadaten

• Dokumentation des Erhebungs- und Bereinigungsprozesses

• Sicherungskopien

6. Übung: Studien planen

Studiendesign

Entweder bereits vorhandene Fragestellung – oder gemeinsam Fragen erarbeiten.

• Ausgehend von Fragestellung: welche Daten werden benötigt, wie können diese erhoben werden, was muss beachtet werden?

• Welche Probleme können auftreten?

Kurzpräsentation des eigenen Ansatzes

7. Diskussion

125

Big Data vs. Sinnvolle Forschungsfragen

126

Was ist ein Link, Follower, Tweet etc. wert?

Wie kann man Nutzer-Aktionen interpretieren?

Repräsentativität?

127

beeinflusst von:

• Nutzerzahlen

• Zeitpunkt/Dauer der Datenerhebung

• Datenauswahl

Verlässlichkeit

128

• Verifizierte Accounts

• Verifizierte Inhalte?

• (Datenausfälle)

129

Forschungsethik

• Anonymisierung/Pseudonymisierung möglich bzw. nötig?

• Richtlinien für den Umgang mit Personendaten?

Aktuelle Hinweise

• So wenig personenbezogene Daten wie möglich teilen

• Tweet-Sammlungen nicht öffentlich zur Verfügung stellen

131

today vs. tomorrow

Reproduzierbarkeit

132

Die gleichen Daten zweimal erheben?

Mit bestehenden Datensätzen arbeiten?

Fazit?

Danke für die Teilnahme!