Seminararbeit über Crowdsourcing

Chancen und Möglichkeiten von Crowdsourcing beim Aufbau einer Content Based Image Retrieval Datenbank mit Hilfe von Amazons Mechanical Turk

Christoph Singer

Abstract Um eine Bilddatenbank als Basis für eine inhaltsbasierte Bildsuche aufzubauen ist es nötig, den Inhalt der Bilder in der Datenbank (oder Bild-sammlung) in geeigneter Form zu beschreiben und dafür die in den Bildern sichtbaren Objekte zu markieren und zu benennen. Diese Beschreibung von Bildern kann noch nicht vollständig automatisiert von Programmen erledigt wer-den. Sie erfordert in den meisten Fällen das manuelle Eingreifen durch Menschen. Mit der wachsenden Anzahl von Bildern wird dieser Prozess langwierig und kos-tenintensiv, wenn er durch Experten erledigt wird. Diesem Effekt kann durch den Einsatz vom sogenannten „Crowdsourcing“ entgegengewirkt werden, indem die gesamte Annotationsarbeit in kleine Pakete – sogenannte „Minijobs“ – zerlegt und diese auf eine größere Gruppe von Menschen verteilt wird. Diese Arbeiten lassen sich zum Beispiel mit der Plattform "Mechanical Turk" (www.mturk.com) von Amazon organisieren und realisieren. Durch die parallele Bearbeitung der Bilder entsteht ein großer Zeitvorteil. Ebenfalls werden die Kosten, welche durch die Datenerfassung entstehen, stark gesenkt, da die Minijobs nicht von Spezialisten sondern von interessierten Laien durchgeführt werden. Die Datenerfassung durch Laien besitzt allerdings auch einen Nachteil: Eine mögliche Qualitätsminderung der annotierten Daten. Diesem Effekt kann in sofern entgegengewirkt werden, in dem jedes Bild von mehreren Personen annotiert wird. Allerdings ist es beim Beschreiben der Bilder durch Laien notwendig, dass die Vorgaben klar definiert sind und dem Bearbeiter keine größeren Freiräume gelassen werden. Aus den über allen Benutzern gesammelten Beschreibungsdaten lässt sich anschließend eine Grundwahrheit bestimmen, welche den Inhalt eines Bildes möglichst gut beschreibt.

2

1 Einleitung

Computer sind nicht in der Lage den Inhalt eines Bildes automatisch zu erfas-sen und richtig zu deuten. Um eine inhaltsbasierte Bilddatenbank aufbauen zu können, ist es allerdings notwendig, den Inhalt der Bilder zu kennen, um danach suchen zu können. Das hat zur Folge, dass Bildinhalte weiterhin von Menschen in einer für den Computer verständlichen Form beschrieben werden müssen. Die tex-tuelle Beschreibung der Bilder wird dann zusammen mit der Bilddatei in der Bild-datenbank gespeichert. Die Beschreibung der Bilder muss dabei sehr exakt und normiert erfolgen. Das heißt zum Beispiel, dass für bestimmte Objekte auch im-mer das selbe Wort (z.B. Auto, Kraftfahrzeug, KFZ) verwendet werden muss. Außerdem darf auch wirklich nur der Inhalt des Bildes beschrieben werden und nicht die persönliche Wahrnehmung oder Gefühle, welche man mit dem Bild eventuell verbindet. Das hat zur Folge, dass die Annotation (Beschreibung) der Bilder von Experten durchgeführt werden muss. Sie sind darauf geschult die Grundwahrheit eines Bildes zu erfassen und zu beschreiben. Mit wachsender An-zahl von Bildern wird dieser Prozess allerdings sehr zeit- und kostenintensiv. Um einerseits eine große Anzahl an Bildern in kurzer Zeit annotieren zu können und auf der anderen Seite die Kosten möglichst gering zu halten, kann man auf das Crowdsourcing-Verfahren zurückgreifen. Crowdsourcing bedeutet, dass eine Auf-gabe in Arbeitspakete (auch Minijobs genannt) zerlegt wird, welche dann von ver-schiedenen Personen (meißt Laien) parallel bearbeitet werden. Das wohl bekannteste Crowdsourcing Projekt ist die freie Enzyklopädie Wikipedia. Der In-halt wird von mehreren Millionen Nutzern weltweit gepflegt und somit stets auf dem aktuellen Stand gehalten.

Die definierten Minijobs kann man zum Beispiel über die Internetplattform Mechanical Turk (www.mturk.com) von Amazon mit einer festgelegten Entloh-nung anbieten. Um die Qualität der Annotation dabei weiterhin gewährleisten zu können, müssen verschiedene Punkte berücksichtigt werden, auf welche später genauer eingegangen wird. Aus den einzelnen Annotationen lässt sich anschließend die Grundwahrheit des Bildes berechnen. Um die Qualität der ge-wonnen Daten feststellen zu können wurde ein Experiment durchgeführt, bei welchem ein Bild von zehn verschiedenen Personen annotiert wurde. Die gesam-melten Daten wurden anschließend mit der Grundwahrheit des Bildes verglichen.

3

2 Vorteile von Crowdsourcing “Crowdsourcing beschreibt den Prozess eines Unternehmens eine Aufgabe,

welche bisher von Angestellten erledigt wurde, an ein undefiniertes (und meist großes) Netzwerk in Form eines offenen Angebots auszugliedern.” Durch das Verteilen der Arbeit auf eine größere Gruppe entstehen einige Vorteile gegenüber der Bearbeitung durch eine oder wenige Personen. Zum einen wird dadurch die Zeit, welche es braucht eine Aufgabe zu erledigen drastisch gesenkt. Nimmt man an, dass die Annotation eines Bildes eine Minute dauert (nur textuelle Beschreibung, keine Objekte markieren) schafft eine einzelne Person im besten Fall 60 Bilder pro Stunde. Da die Datenmenge aber stets zunimmt und eine Bild-datenbank meist mehrere tausend Bilder beinhaltet, ist diese Menge durch ein-zelne Personen kaum mehr zu bewältigen. Somit dauert die Annotation von 10000 Bildern durch einen Experten bereits über 166 Stunden. Durch die Verwendung des Crowdsourcing-Verfahrens wird die Arbeit in viele kleine Pakete aufgeteilt. Diese können dann weltweit und parallel von vielen Personen bearbeitet werden. Nehmen 100 Personen diesen Minijob an und annotieren jeweils 100 Bilder, ergibt das im Idealfall eine Gesamtbearbeitungsdauer von 2,5 Stunden. Bei der Rechnung wird davon ausgegangen, dass es sich bei den Bearbeitern um Laien handelt und sie somit nur 40 Bilder pro Stunde annotieren. Um die Qualität der Annotation gewährleisten zu können, wird davon ausgegangen, dass ein Bild von fünf verschiedenen Personen beschrieben wird. Somit errechnet sich eine Ge-samtdauer von 12,5 Stunden für die Annotation von 10000 Bildern.

Ebenso wirkt sich der Einsatz von Crowdsourcing auf den finanziellen Aspekt bei der Annotation von Bildern aus. Bei einem Stundenlohn von 100€ pro Stunde für einen Annotationsexperten ergeben sich bei 10000 Bildern und 166 Stunden Arbeitszeit Gesamtkosten von 16600€. Für die Annotation von Bildern erhalten Laien meist zwischen 3 und 10 Cent (hier wird von 5 Cent ausgegangen). Da jedes Bild fünf mal beschrieben wird sieht die Rechnung wie folgt aus: 10000 Bilder * 5 * 5 Cent = 2500€ Zeit und Kosten zusammengefasst ergibt folgende Tabelle: Annotation durch Experten Crowdsourcing Ersparnis in % Zeit in Stunden 166 12,5 92,47 Kosten in EUR 16600 2500 84,94

Zeit und Kosten für die Annotation von 10000 Bildern

Die Tabelle veranschaulicht, welches Potential hinter der Verwendung von

Crowdsourcing steckt. Desweiteren gibt es noch Dienste wie zum Beispiel LabelMe

(http://labelme.csail.mit.edu/). Hier ist die Mitarbeit unentgeldlich und freiwillig. Im Gegenzug werden die gesammelten Daten jedem zur freien Verfügung gestellt.

4

Es lassen sich eigene Fotos einstellen, welche dann von Menschen weltweit an-notiert werden. Somit fallen hierbei keinerlei Kosten an. Nähere Informationen zu LabelMe finden sich in der entsprechenden Seminararbeit.

Oberfläche des Annotationsdienstes LabelMe

3 Mechanical Turk Amazons Mechanical Turk (MTurk) ist eine Internetplattform um Arbeitgeber

und Arbeitnehmer (auch Turkers genannt) zu verbinden. Bei den angebotenen Minijobs handelt es sich um sogenannte Human Intelligence Tasks (HITs). Diese können nicht automatisiert von Computern erledigt werden. Stattdessen erfordert ihre Bearbeitung menschliche Intelligenz. Dies umfasst zum Beispiel das Feststel-len der Sinnhaftigkeit von Texten, Korrekturlesen, Übersetzungsarbeiten, Erstellen eines Textes, Internetrecherche oder aber auch die Annotation von Bildern. Die Minijobs können entweder direkt über ein Layoutprogramm auf der MTurk-Oberfläche erstellt oder über eine API angebunden werden. Beim Erstellen eines

5

HITs wird dessen Entlohnung und die Zeit, welche zur Bearbeitung benötigt wer-den darf, festgelegt. Die Annotation eines Bildes wird zum Beispiel meist mit einem Betrag zwischen 3 und 10 Cent entlohnt. Arbeitgeber haben über die Plattform Zugriff auf eine große Zahl an Arbeitnehmern. Da die Bearbeitung der HITs meist durch fachfremde Personen erfolgt, ist die Qualität der abgelieferten Arbeit von Person zu Person unterschiedlich und nicht mit der von Experten zu vergleichen. Um diesem Effekt entgegenzuwirken empfiehlt es sich das selbe Bild von mehreren, verschiedenen Personen annotieren zu lassen. Aus den abgege-benen Bildbeschreibungen lässt sich anschliessend ein Mittelwert berechnen, welcher die Grundwahrheit des Bildes wiederspiegelt. Desweiteren kann man beim Erstellen eines Minijobs Kriterien festlegen, welche ein möglicher Bear-beiter erfüllen muss. Es ist zum Beispiel empfehlenswert nur Turkers mit über 95% erfolgreich abgeschlossenen HITs zuzulassen. Somit wird sichergestellt, dass nur Personen den Minijob annehmen können, die bisher fast ausschließlich zu-friedenstellende Arbeiten abgeliefert haben. Desweiteren sollte man dem Bear-beiter so wenig Freiraum wie möglich bei der Beschreibung der Bilder gewähren. Dies kann durch eine intelligente Gestaltung der Benutzeroberfläche erreicht wer-den.

4 Gestaltung und Beschreibung der Annotationsoberfläche Da es sich bei den Bearbeitern auf MTurk zum größten Teil um Laien handelt

müssen einige Dinge bei der Gestaltung der Annotationsoberfläche beachtet wer-den. Die Annotationsoberfläche sollte leicht verständlich und nicht zu überladen sein. Auf Felder zur freien Texteingabe sollte, wenn möglich, verzichtet werden. Stattdessen wird empfohlen Checkboxes und Radiobuttons mit vordefinierten Antwortmöglichkeiten zu verwenden. Hierdurch wird die Auswertung der Ant-worten erleichtert und sichergestellt, dass nicht für gleiche Objekte verschiedene Synonyme zur Beschreibung verwendet werden. Um dem Bearbeiter das Beschreiben des Bildes zu erleichtern sollte er das Bild ohne Scrollen beim Beantworten der Fragen sehen können.

Da man für die Annotation eines Bildes nur einen geringen Centbetrag erhält, versuchen manche Arbeiter mit möglichst geringem Aufwand den Minijob zu er-ledigen. Das beudedet auch, dass dadurch falsche Aussagen entstehen können, nur um möglichst viele HITs in kurzer Zeit zu erledigen. Um dem entgegenzuwirken sollte darauf geachtet werden, dass die ernsthafte Bearbeitung eines HITs nicht viel mehr Aufwand erfordert, als den Minimalaufwand um einen Minijob abzuschliessen. Ausserdem sollte die Oberfläche so gestaltet werden, dass es schwierig wird einen automatisierten Bot zum Bearbeiten des HITs zu schreiben. Dies kann zum Beispiel dadurch erfolgen, dass der Benutzer eine zufällig angezeigte Zeichenfolge zur Bestätigung eingeben muss und erst nach bestandener Prüfung zum nächsten Bild gelangt.

6

Eine Annotationsoberfläche zur einfachen textuellen Beschreibung eines Bildes könnte folgendermaßen gestaltet werden:

Beispiel einer möglichen Annotationsoberfläche zur textuellen Bildbeschreibung

Besteht die Anforderung darin, dass Objekte auf dem Bild markiert werden sol-

len muss die Oberfläche dementsprechend gestaltet werden.

Beispiel einer möglichen Annotationsoberfläche mit der Möglichkeit Objekte zu markieren

7

Die Beschreibung zur Bearbeitung eines Minijobs muss ebenfalls auf den Bearbeiter angepasst werden. Arbeitsanweisungen für Experten zur Annotation eines Bildes sind meist umfangreich und sehr detailiert beschrieben. Da es sich bei den Bearbeitern eines Minijobs auf MTurk allerdings überwiegend um Laien han-delt, und das Lesen der Beschreibung nicht vergütet wird, muss diese entspre-chend angepasst werden. Sie muss kurz, präzise und leicht verständlich formuliert werden und könnte wie folgt aussehen:

1. Radiobuttons schließen sich gegenseitig aus. Bitte wählen sie die passende Beschreibung.

2. Checkboxes sind optional und es können mehrere selektiert werden. 3. Bitte bewerten Sie nur die visuellen Informationen des Bildes. Eine Interpreta-

tion des Bildes ist nicht erwünscht.

Die Verwendung von Screenshots und Beispielbildern trägt ebenfalls zu einem schnellen Verständnis der Aufgabe bei. Durch die intuitiv zu bedienende Ober-fläche und der kurzen Beschreibung des Arbeitspaketes ist die Bearbeitung des Minijobs verständlich und von Jedermann durchführbar. Die Daten können anschließend leicht ausgwertet werden. Anhand der Daten lassen sich dann die Bilder kategorisieren und mit ihren Merkmalen in einer inhaltsbasierten Bild-datenbank abspeichern.

5 Strategien zur Qualitätssicherung Es gibt drei Strategien zur Qualitätssicherung bei Crowdsourcingverfahren.

Diese beschränken sich nicht nur auf die Annotation von Bildern sondern können auch bei anderen Arbeiten Verwendung finden.

Sammeln mehrerer Annotationen

Je mehr Annotationen zu einem Bild vorliegen, desto genauer lässt sich dessen Grundwahrheit ermitteln. Dabei verlässt man sich auf das Prinzip der Schwarmin-telligenz. Somit spiegelt die prozentual am häufigsten gegebene Antwort mit ziehmlicher Sicherheit die Grundwahrheit des Bildes wieder. Somit werden ge-legentliche Leichtsinnsfehler von Bearbeitern ausgeglichen. Außerdem kann es helfen Arbeiter herauszufiltern, welche häufig falsche Antworten geben. Dies kann zum einen darin begründet sein, dass die Aufgabenstellung nicht richtig ver-standen wurde oder, dass sie versuchen einen Minijob so schnell wie möglich zu

8

erledigen. Diese Arbeiter können dann für zukünftige Annotationsarbeiten ges-perrt werden. Ein Nachteil der durch die mehrfache Annotation entsteht ist, dass die Kosten für den Minijob steigen.

Bewertung der Annotationen durch einen neuen Minijob

Die zweite Strategie besteht darin, dass ein Bild erst durch eine oder mehrere Personen annotiert wird und anschließend ein neuer Minijob erstellt wird, in welchem die abgegebenen Annotationen wiederum bewertet werden. Da die Bew-ertung von bereits vorhandenen Annotationen vom Arbeitsaufwand eher gering ist, fallen die Kosten für den Minijob niedrig aus. Möchte man ein gewisses Maß an Qualität bei der Annotation, die Kosten aber möglichst gering halten, ist dieses Verfahren eine gute Möglichkeit.

Oberfläche eines Minijobs zum bewerten von Annotationen

Überprüfung der gemachten Annotation

Bei dieser Strategie enthält der Minijob Bilder, von denen die Annotation bere-its bekannt und geprüft ist. Diese werden zufällig beim Annotationsprozess einge-fügt. Der Bearbeiter selbst sieht keinen Unterschied zu den restlichen Bildern, die er beschreiben soll. Hat er eines dieser Bilder annotiert werden die abgelieferten Daten mit den vorhandenen geprüften Daten verglichen. Besteht zwischen den beiden Annotationen eine zu große Diskrepanz erscheint ein Hinweis. Es wird die korrekte Annotation angezeigt und darauf hingewiesen, worauf zu achten ist. Die-ses Verfahren erfordert jediglich bereits korrekt annotierte Bilder und erzeugt ansonsten keine weiteren Kosten.

9

Es ist jederzeit möglich die unterschiedlichen Strategien zur Qualitätssicherung miteinander zu kombinieren um somit das beste Verhältnis von Kosten und Nutzen zu erreichen.

6 Experiment

6.1 Motivation

Es sollte mit Hilfe des Versuchs festgestellt werden, inwieweit die durch Crowdsourcing gesammelten Daten mit denen eines Experten zu vergleichen sind.

6.2 Versuchsbeschreibung

Es wurde eine Webapplication zum Annotieren von Bildern erstellt. Zehn Be-nutzer wählten auf dieser über eine Maske die Attribute aus, die das Bild am tref-fensten beschreiben. Aus den gesammelten Antworten wurde anschließend die Grundwahrheit des Bildes ermittelt. Die durch Crowdsourcing ermittelte Grund-wahrheit wurde anschliessend mit der verglichen, welche aus den Bilddaten her-vorgeht.

6.3 Versuchsaufbau

Annotationsoberfläche des Selbstversuches

11

Grafische Auswertung der Annotationsdaten:

0

2

4

6

8

Jahreszeit

Frühling

Sommer

Herbst

Winter

0 2 4 6 8

Tageszeit

Früh

Mittag

Abend

Nacht

0

5

10

15

Objekte

Mensch

Tier

Fahrzeug

Gebäude

0

5

10

Landschaft

Stadt

Berge

Meer

ländl. Gebiet

12

Aus den gesammelten Daten ergibt sich, dass es sich um ein Bild einer Stadt zur Mittagszeit, im Sommer handelt. Außerdem sind darauf Fahrzeuge und Ge-bäude zu sehen.

Bildinformationen des annotierten Bildes

Wie man den Bildinformationen entnehmen kann handelt es sich um ein Bild von Tel Aviv, welches am 29.10.2008 um 10:25 Uhr aufgenommen wurde. Fol-glich wurde die Jahreszeit falsch bestimmt. In Isreal herrschen das ganze Jahr über sommerliche Temperaturen. Somit ist die richtige Bestimmung der Jahreszeit sehr schwierig. Ansonsten stimmen die Daten, die durch das Crowdsourcing gewonnen wurden, mit der Grundwahrheit des Bildes überein (Schiffe zählen zu Fahrzeugen). Das Experiment zeigt, dass Crowdsourcing genutzt werden kann um die Grundwahrheit eines Bildes bestimmen zu lassen. Es zeigt allerdings auch, dass Verfahren zur Qualitätssicherung, wie hier die Annotationen des selben Bildes durch mehrere Personen, eingesetzt werden sollten.

7 Fazit Gerade mittelständische Unternehmen oder auch Privatpersonen haben oft

nicht die personellen oder finanziellen Mittel Aufgaben von Experten erledigen zu lassen. Ihnen wird durch Crowdsourcing eine Möglichkeit geboten kostengüngstig und schnell an die benötigten Daten zu gelangen. Dies könnten zum Beispiel an-notierte Bilder von Melanomen sein, um ein Programm zur automatischen Hautkrebserkennung zu entwickeln. Somit sind Softwareprojekte nicht schon vor dem Beginn zum Scheitern verurteilt. Auf Grund der rasant anwachsenden Datenmenge ist Crowdsourcing aber auch für größere Unternehmen interessant und wird in Zukunft immer mehr an Bedeutung gewinnen. Mit Amazon Mechani-cal Turk steht eine Plattform zur Verfügung um schnell und ohne großen Aufwand auf eine breit gefächerte Arbeitnehmergruppe zugreifen zu können. Durch das Festlegen von den benötigten Qualifikationen um einen HIT ausführen zu können

13

wird sichergestellt, dass auch nur Turker zugelassen werden, welche den Minijob gewissenhaft bearbeiten. Um qualitativ hochwertige Daten zu bekommen, sollte auch auf die Strategien zur Qualitätssicherung zurückgegriffen werden. Das Ex-periment hat gezeigt, dass man sich nicht auf die Annotation eines Laien verlassen kann. Man sollte daher die Schwarmintelligenz nutzen und jedes Bild von minde-stens drei verschiedenen Personen anntotieren lassen. Daraus kann dann die Grundwahrheit berechnet werden. Zur weiteren Qualitätssicherung können auch die verschiedenen Strategien miteinander verknüpft werden. Dabei ist darauf zu achten, dass man einen guten Mittelweg zwischen finanziellen Mehraufwand und qualitativ hochwertigen Daten findet.

Amazon Mechanical Turk ist in Deutschland derzeit noch nicht verfügbar. Al-lerdings kann man auf die amerikanische Plattform zurückgreifen. Dies veran-schaulicht auch, dass Crowdsourcing ortsunabhängig funktioniert und man nicht an den regionalen Arbeitsmarkt gebunden ist.

Ein Problem, welches im Zusammenhang mit Crowdsourcing entstehen kann ist, dass die Bearbeitung des Minijobs langweilig wird und somit auf Dauer die Qualität der abgelieferten Arbeit sinkt. Es gibt erste Projekte, die die Annotation von Bildern als ein Spiel umgesetzt haben. Dadurch tritt die eigentliche Arbeit in den Hintergrund, da der Nutzer Spaß am Beschreiben der Bilder hat und somit die Qualität der Annotationen konstant bleibt. Dies bringt sowohl einen Mehrwert für den Benutzer, als auch für den Auftraggeber.

Zusammenfassend lässt sich sagen, dass Crowdsourcing ein großes Potential bietet und in Zukunft immer mehr an Bedeutung gewinnen wird.

14

References 1. Alexander Sorokin, David Forsyth: Utility Data annotation with Amazon Mechanical

Turk 2. Stefanie Nowak, Stefan Rüger: How Reliable are Annotations via Crowdsourcing? 3. Yan-Ying Chen, Winston H. Hsu, Hong-Yuan Mark Liao: Learning Facial Attributes by

Crowdsourcing in Social Media 4. Cryrus Rashtchian, Peter Young, Micah Hodosh, Julia Hockenmaier: Collecting Image

Anntotaions Uzing Amazon’s Mechanical Turk 5. Carl Vondrick, Deva Ramanan, Donald Patterson: Efficently Scaling Up Video Annota-

tion with Crowdsourcing Marketplaces 6. Catherine Wah: Crowdsourcing and Its Applications in Computer Vision

Seminararbeit über Crowdsourcing

Documents

Transcript of Seminararbeit über Crowdsourcing