Erstellung eines Korpuslexikons auf der Basis spontaner ... · Lexikalischer Spracherwerb im...

264
Lexikalischer Spracherwerb im Vorschulalter Eine Annäherung an die Komposition des Lexikons von deutschsprachigen Kindern im Alter von drei bis fünf Jahren Erstellung eines Korpuslexikons auf der Basis spontaner Sprachdaten vorgelegt von Julia Schulze M.A. phil. geb. in Neuruppin von der Fakultät I - Geistes- und Bildungswissenschaften an der Technischen Universität Berlin zur Erlangung des akademischen Grades Doktorin der Philosophie - Dr. phil. - genehmigte Dissertation Promotionsausschuss: Vorsitzender: Prof. Dr. Stefan Weinzierl Gutachter: Prof. Dr. em. Peter Erdmann Gutachter: PD Dr. See Young-Cho Tag der wissenschaftlichen Aussprache: 7. Dezember 2016 Berlin 2017

Transcript of Erstellung eines Korpuslexikons auf der Basis spontaner ... · Lexikalischer Spracherwerb im...

Lexikalischer Spracherwerb im Vorschulalter

Eine Annäherung an die Komposition des Lexikons von deutschsprachigenKindern im Alter von drei bis fünf Jahren

Erstellung eines Korpuslexikons auf der Basis spontaner Sprachdaten

vorgelegt vonJulia Schulze M.A. phil.

geb. in Neuruppin

von der Fakultät I - Geistes- und Bildungswissenschaftenan der Technischen Universität Berlin

zur Erlangung des akademischen Grades

Doktorin der Philosophie- Dr. phil. -

genehmigte Dissertation

Promotionsausschuss:Vorsitzender: Prof. Dr. Stefan WeinzierlGutachter: Prof. Dr. em. Peter ErdmannGutachter: PD Dr. See Young-Cho

Tag der wissenschaftlichen Aussprache: 7. Dezember 2016

Berlin 2017

Inhaltsverzeichnis

1 Einleitung 9

2 Das Lexikon in der Linguistik 132.1 Das Lexikon - Definition . . . . . . . . . . . . . . . . . . . . . . . 142.2 Das Lexikon als Modell . . . . . . . . . . . . . . . . . . . . . . . 16

2.2.1 Modulares Stufenmodell (Levelt) . . . . . . . . . . . . . . 172.2.2 Interaktives Aktivierungsmodell (Dell) . . . . . . . . . . . 192.2.3 Welches ist das richtige Modell? . . . . . . . . . . . . . . 20

2.3 Das Lexikon bis zu einem Alter von drei Jahren . . . . . . . . . . 222.3.1 Von Konstruktionsgrammatiken und anderen Theorien

zum Erwerb des Lexikons . . . . . . . . . . . . . . . . . . 232.3.2 Der Erwerb des Lexikons - allgemeiner Verlauf . . . . . . 292.3.3 Der frühe Wortschatzerwerb nach Kauschke . . . . . . . 33

3 Wortarten in der Linguistik 373.1 Wort und Wortart - Definition . . . . . . . . . . . . . . . . . . . . 373.2 Die Kategorisierung von Wortarten . . . . . . . . . . . . . . . . . 42

3.2.1 Kategorisierung nach Kauschke . . . . . . . . . . . . . . 423.2.2 Stuttgart-Tübingen-Tagsets (STTS) . . . . . . . . . . . . 443.2.3 Die Wahl einer geeigneten Kategorisierung - Auswahl

und Begründung . . . . . . . . . . . . . . . . . . . . . . . 47

4 Beobachtungsstudie - Ziele und Methodik 494.1 Methodik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.1.1 Sprachaufnahmen . . . . . . . . . . . . . . . . . . . . . . 594.1.2 Die Probandinnen und Probanden . . . . . . . . . . . . . 634.1.3 Diktiergerät . . . . . . . . . . . . . . . . . . . . . . . . . . 664.1.4 Transkription der Daten mit FOLKER . . . . . . . . . . . . 664.1.5 Bearbeitung der Audio-Dateien mit AUDACITY . . . . . . 704.1.6 Bearbeitung der Transkripte mit dem EXMARaLDA

Partitur-Editor . . . . . . . . . . . . . . . . . . . . . . . . . 71

3

4 INHALTSVERZEICHNIS

4.1.7 Kriterien für das Taggen der Wortarten nach denRichtlinien der STTS . . . . . . . . . . . . . . . . . . . . . 74

4.1.8 Kriterien für die Lemmatisierung der syntaktischen Wörter 84

5 Die Arbeit mit dem CorpusAnalyser 895.1 Die Inhalte im Überblick . . . . . . . . . . . . . . . . . . . . . . . 905.2 Die Funktionen des CorpusAnalysers . . . . . . . . . . . . . . . 97

5.2.1 01_wave_convert . . . . . . . . . . . . . . . . . . . . . . . 975.2.2 02_create_database . . . . . . . . . . . . . . . . . . . . . 985.2.3 03_import_data . . . . . . . . . . . . . . . . . . . . . . . . 1005.2.4 04_query_db . . . . . . . . . . . . . . . . . . . . . . . . . 101

5.2.4.1 01_tag_count . . . . . . . . . . . . . . . . . . . 1015.2.4.2 02_typetoken . . . . . . . . . . . . . . . . . . . . 1065.2.4.3 03_typetoken_lemma . . . . . . . . . . . . . . . 1105.2.4.4 04_lemma_tag . . . . . . . . . . . . . . . . . . . 1175.2.4.5 05_lemma_bedeutung . . . . . . . . . . . . . . 1225.2.4.6 06_typetoken_bedeutung . . . . . . . . . . . . . 123

5.3 Möglichkeiten für die Arbeit mit dem CorpusAnalyser . . . . . . . 126

6 Analyse der Wortarten 1296.1 Gruppierung der POS-Tags . . . . . . . . . . . . . . . . . . . . . 1306.2 Altersgruppen im Vergleich . . . . . . . . . . . . . . . . . . . . . 133

6.2.1 Verteilung der Tokens . . . . . . . . . . . . . . . . . . . . 1336.2.2 Verteilung der Types . . . . . . . . . . . . . . . . . . . . . 1386.2.3 Das Verhältnis der Types zu den Tokens . . . . . . . . . . 1406.2.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . 143

6.3 Individuelle Unterschiede in den Altersgruppen . . . . . . . . . . 1446.3.1 Gruppe 1281 bis 1495 . . . . . . . . . . . . . . . . . . . . 1466.3.2 Gruppe 1496 bis 1708 . . . . . . . . . . . . . . . . . . . . 1486.3.3 Gruppe 1709 bis 1983 . . . . . . . . . . . . . . . . . . . . 1506.3.4 Vergleich der individuellen Verläufe mit den Altersgruppen 1516.3.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . 164

6.4 Analyse der ersten einhundert Wörter je Kind . . . . . . . . . . . 1666.5 Die Wortartenverteilung bei Erwachsenen . . . . . . . . . . . . . 172

7 Der Grundwortschatz semantisch betrachtet 1777.1 Die Bedeutungskategorien . . . . . . . . . . . . . . . . . . . . . 179

7.1.1 Adjektive . . . . . . . . . . . . . . . . . . . . . . . . . . . 1807.1.2 Adverbien . . . . . . . . . . . . . . . . . . . . . . . . . . . 1817.1.3 Präpositionen . . . . . . . . . . . . . . . . . . . . . . . . . 183

INHALTSVERZEICHNIS 5

7.1.4 Artikel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1847.1.5 Fremdsprachliches Material . . . . . . . . . . . . . . . . . 1847.1.6 Interjektionen . . . . . . . . . . . . . . . . . . . . . . . . . 1847.1.7 Konjunktionen und Subjunktionen . . . . . . . . . . . . . 1857.1.8 Substantive . . . . . . . . . . . . . . . . . . . . . . . . . . 1877.1.9 Pronomen . . . . . . . . . . . . . . . . . . . . . . . . . . . 1917.1.10 Partikeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1927.1.11 Verben . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

7.2 Tendenzen in der Verwendung von Inhaltswörtern . . . . . . . . 1987.2.1 Nomen (n-abstr-eig, n-abstr-hdlg, n-abstr-maß,

n-abstr-vorg, n-abstr-vorst, n-abstr-zeit, n-abstr-zust,n-belebt, n-unbelebt, ne) . . . . . . . . . . . . . . . . . . 198

7.2.2 Verben (v-aux, v-kop, v-mod, v-hdlg, v-vorgang, v-zustand)2037.2.3 Adjektive (ad-part, ad-qual, ad-quant, ad-rel) . . . . . . . 2067.2.4 Adverbien (adv-kaus, adv-komm, adv-lok, adv-mod,

adv-temp) . . . . . . . . . . . . . . . . . . . . . . . . . . . 2117.3 Tendenzen in der Verwendung von Funktionswörtern . . . . . . . 212

7.3.1 Interjektionen (itj) . . . . . . . . . . . . . . . . . . . . . . . 2127.3.2 Konjunktionen (kon-add, kon-adv, kon-alt, kon-kaus,

kon-spez, kon-temp, kon-vgl) und Subjunktionen(sub-fin, sub-kaus, sub-kond, sub-konz, sub-mod-instr,sub-neutr, sub-temp) . . . . . . . . . . . . . . . . . . . . . 213

7.3.3 Pronomen (pav, pdat, pds, piat, pidat, pis, pper, ppos,prels, prf, pwat, pwav, pws) . . . . . . . . . . . . . . . . . 214

7.3.4 Präpositionen (pr-kaus, pr-lok, pr-mod, pr-neutr, pr-temp) 2157.3.5 Partikeln (ptk-abt, ptk-ant, ptk-fok, ptk-gespr, ptk-grad,

ptk-neg, ptkvz, ptkzu) . . . . . . . . . . . . . . . . . . . . 2157.4 Hinweise zur Verwendung des Lexikons . . . . . . . . . . . . . . 216

7.4.1 Beispielhafte Ausgabedateien . . . . . . . . . . . . . . . . 2177.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . 219

8 Diskussion 223

9 Ausblick 245

Abbildungsverzeichnis 249

Tabellenverzeichnis 251

Literaturverzeichnis 253

6 INHALTSVERZEICHNIS

Vorwort

Für Richard - meine Inspiration

Danke Alex

Die vorliegende Arbeit enstand durch die Mitwirkung und Unterstützungzahlreicher Personen, denen ich an dieser Stelle meinen Dank aussprechenmöchte.

Mein besonderer Dank gilt Herrn Prof. Dr. Peter Erdmann und Herrn PDDr. habil. See-Young Cho, die mir zu jeder Zeit mit kompetentem fachlichenRat zur Seite standen. Ich verdanke beiden hilfreiche Unterstützung undviele anregende Gespräche. Sie begleiteten mich während der gesamtenEntstehungszeit dieser Arbeit mit vielen kreativen Ideen und wertvollerprofessioneller Hilfe.

Darüber hinaus bedanke ich mich sehr herzlich bei allen Kindern undMitarbeiterInnen der Kita des Studentenwerks an der Technischen UniversitätBerlin. Ohne die Mitwirkung dieser Menschen hätten die Daten für dieseArbeit nicht erhoben werden können.

Meiner Familie danke ich für den ständigen Zuspruch und die seelischeUnterstützung. Ich bedanke mich für das Verständnis, vor allem dann, wennich nur wenig Zeit für sie hatte.

Nicht zu vergessen sind meine lieben Kommilitoninnen und Unimädels, diedie vorliegende Arbeit Korrektur lasen und mich in meinem Vorhaben immerbestärkten.

7

8 INHALTSVERZEICHNIS

Kapitel 1

Einleitung

Diese Arbeit widmet sich dem Lexikonerwerb, genauer gesagt demfortgeschrittenen Lexikonerwerb von Kindern im Vorschulalter. Untersuchtwird die Komposition des Lexikons deutschsprachiger Kinder im Alter von3;5 bis 5;5 Jahren unter unterschiedlichen Aspekten. An dieser Stelle lässtsich gewiss darüber streiten, ob es sich tatsächlich noch um den Erwerbvon Sprache handelt. Man möchte meinen, dass Kinder in diesem Alterschon richtig sprechen können. Und das tun mit Sicherheit auch die meistenvon ihnen. Nichtsdestotrotz gibt es Unterschiede zwischen dem Lexikonvon Vorschulkindern und dem Lexikon Erwachsener. Die Besonderheitendes kindlichen Wortschatzes sollen in dieser Arbeit herausgearbeitet unddokumentiert werden.

„Although aspects of the sound, communicative, morphological,and syntactic systems continue to develop after the age of 5 years,the acquisition of words exhibits the most significant improvementsafter the preschool years. If the language development of anindividual would was mysteriously halted at the age of 5 years,this individual would possess most of the sound, morphological,syntactic, and communicative systems of her native language.However, her vocabulary, at best, would be 25% of that of a normaladult.“ ([Kuczaj (1999)], S. 134)

Anknüpfend an Kuczajs Zitat stellt sich die Frage, wie genau sich dasVokabular des Vorschulkindes zusammensetzt. Ein Ziel ist es deshalb,die Verteilung jener Wortarten darzustellen und zu analysieren, die Kinderim Alter von 3 bis 5 Jahren verwenden. Des Weiteren möchte ich imHinblick auf die Wortarten relevante inhaltliche Aspekte verdeutlichen undwichtige Entwicklungsschritte im Erwerb des Lexikons unter semantischenGesichtspunkten aufzeigen. Abschließend soll ein Lexikon des Vorschulalterserstellt werden, das den produktiven Wortschatz der hier untersuchten Kinder

9

10 KAPITEL 1. EINLEITUNG

mit entsprechenden Bedeutungskategorien enthält. Bei einer anfänglichenRecherche zu bereits bestehenden Erkenntnissen im Hinblick auf diesesThema stellte sich schnell heraus, dass so gut wie keine Studien, Literaturoder Beschreibungen dazu vorliegen. Dadurch gestaltete sich die Anfertigungder vorliegenden Arbeit zwar sehr mühselig, weil alle gewonnenen Datenund Eindrücke selbst genauestens analysiert werden mussten. Es schafftejedoch auch eine gewisse Freiheit in der Durchführung der Studie undder anschließenden Analyse der Daten. Es sei an dieser Stelle erwähnt,dass alle Ergebnisse auf reinen Beobachtungsdaten beruhen und nichtexperimentell begründet sind. Dennoch sind die Ergebnisse sehr einheitlichund schlüssig im Hinblick auf die bisherige Forschungslage, so dassdavon ausgegangen werden kann, diese als wertvollen Beitrag zu bereitsbestehenden linguistischen Arbeiten im Bereich der Lexikonentwicklungverstehen zu können. In den meisten Fällen soll auf bisher ermittelte Dateneingegangen werden, die die Lexikonentwicklung bis zu einem Alter von 3;0Jahren untersuchten. Dies erschien sinnvoll, da ohne diesen Bezug keineAussagen getroffen werden können. Zu Beginn der Arbeit wird deshalb deraktuelle Forschungsstand im Hinblick auf das mentale Lexikon in Kapitel 2dargestellt. Es werden relevante Lexikonmodelle präsentiert und versucht,diese in Bezug zu den später ermittelten Daten zu setzen. Ferner werdenin diesem Kapitel wichtige Erkenntnisse zum Spracherwerb erörtert. Diein diesem Kapitel erwähnte Konstruktionsgrammatik wird hinzugezogen,da sie meines Erachtens wertvolle Hinweise gibt auf Parallelen zwischendem Syntaxerwerb und dem Erwerb des Lexikons und weil sie als moderneSpracherwerbstheorie meinen Vorstellungen diesbezüglich entspricht. ImAnschluss daran wird der Erwerb des Lexikons sowie dessen Kompositionbis zu einem Alter von 3;0 Jahren auf der Basis einer bereits durchgeführtenUntersuchung beschrieben ([Kauschke (2000)]). Diese Studie wird auchan weiteren Stellen in dieser Arbeit zitiert. Der Grund für die häufigeEinbeziehung dieser Ergebnisse ist, wie bereits erwähnt, dass es zu diesemThema keine weiteren mir bekannten Arbeiten gibt, die als Referenz zurvorliegenden Arbeit herangezogen werden könnten.

In Kapitel 3 wird definiert, was genau als Wort und als Wortart verstandenwird und wie die Begriffe hier verwendet werden. In Anlehnung an diespätere Durchführung und Analyse der Sprachdaten muss zudem einegeeignete Klassifikation der Wortarten vorgenommen werden. Hierzu werdenverschiedene Klassifikationssysteme gesichtet und zwei von ihnen vorgestellt.Insbesondere im Hinblick darauf, dass sich die Sprache des Kindes von jenerdes Erwachsenen unterscheidet, muss das Klassifikationssystem mehrerenAnforderungen genügen. Es sollte alle Wortarten enthalten, die im Lexikon

11

von Kindern im Vorschulalter vertreten sind. Im Idealfall enthält es auch alleWortarten, die im erwachsenen Lexikon vertreten sind, um so einen späterenVergleich zu ermöglichen. Ferner ist es wichtig, ein System auszuwählen, dasallgemein zugänglich ist und den Anspruch einer gewissen Popularität erfüllt.

Im weiteren Verlauf werden in Kapitel 4 die Grundlagen für dasDurchführen der Beobachtungsstudie zur Erlangung von spontanenSprachdaten gelegt. Die Probandinnen und Probanden werden in Bezugauf das Geburtsdatum, das Geschlecht sowie auf weitere soziolinguistischeMerkmale vorgestellt. Anschließend erfolgt eine Vorstellung und Erläuterungaller Softwareprogramme, die in der vorliegenden Arbeit Anwendung finden.Im Verlauf der Analysetätigkeit häufte sich eine enorme Datenmenge an,weshalb zur Verarbeitung selbiger ein elektronisches Korpus erstellt wurde.Durch dessen funktionale Basis als Datenbank können vielfältige Aspekte derSprache untersucht werden, was später gezeigt wird.

Nachfolgend soll in Kapitel 5 eine spezielle Software erläutert werden,die zunächst eigens für die Zwecke der vorliegenden Arbeit konzipiert wurdeund ohne welche die Ergebnisse dieser Arbeit nicht in der Form vorliegenwürden, wie sie es jetzt tun. Da sich durch die ständige und interaktiveWeiterentwicklung des Programms zahlreiche unerwartete Möglichkeiten fürdie Arbeit mit der Software auftaten, wird dieser ein eigenes Kapitel gewidmet.Diesbezüglich werde ich inspirierend weitere Möglichkeiten für linguistischeArbeiten aufzeigen, die dieses Programm bietet.

In Kapitel 6 wird in einer Analyse der aus der Beobachtung erhaltenenSprachdaten die Wortartenverteilung unter unterschiedlichen Aspektenuntersucht, unter anderem im Vergleich zwischen zuvor festgelegtenAltersgruppen sowie unter Beachtung individueller Unterschiede zwischenden Kindern in unterschiedlichen Altersgruppen.

In Kapitel 7 erfolgt schließlich der Hauptteil der vorliegenden Arbeit. Eswird eine Aufstellung aller von den beobachteten Kindern geäußerten Wörter,die in ihrer Form als Lemmata vorliegen, im Hinblick auf ihre semantischeKategorisierung getätigt. Dabei werden, sortiert nach Altersgruppen,alle geäußerten (syntaktischen) Wörter mit den jeweiligen Häufigkeiten,Bedeutungskategorien sowie den jeweiligen Wortartenkategorien annotiert.Als Resultat dieser Arbeit wird ein Lexikon des Vorschulalters in Formeines Korpuslexikons erstellt, das dieser Arbeit als Anhang beigefügt ist.Darin werden alle Lemmata, die in den Daten der vorliegenden Arbeitvorkommen, bezugnehmend auf ihre Bedeutungskategorien aufgeführt undmit authentischen Beispielen versehen. Das erstellte Korpuslexikon bildetdamit sehr übersichtlich den ermittelten Wortschatz der hier untersuchtenKinder ab. Ferner wird eine inhaltliche Analyse aller Wortartenkategorien und

12 KAPITEL 1. EINLEITUNG

hier insbesondere der Inhaltswörter vorgenommen, um die zuvor ermitteltenDaten besser in die bisherige Forschungslandschaft einordnen zu können.

In der anschließenden Diskussion (Kapitel 8) sollen die gewonnenenErgebnisse in Bezug zu den bisherigen Erkenntnissen bezüglich derKomposition des Lexikons gesetzt werden. Ferner wird versucht, aus denermittelten Daten ein konsistentes Bild der Wortartenverteilung von Kindernim Alter zwischen 3;5 und 5;5 Jahren zu schaffen, das den Ansprüchen neuerwissenschaftlicher Erkenntnisse gerecht wird und als Grundlage für weiterelinguistische Arbeiten dienen kann. Diese möglichen weiterführenden Arbeitensollen in Kapitel 9 aufgezeigt werden. Selbstverständlich sind weitere als dortgenannte anschließende Arbeiten möglich und erwünscht.

Kapitel 2

Das Lexikon in der Linguistik

Im Folgenden soll der Begriff Lexikon definiert werden. Zudem werdeneinige ausgewählte Ansätze vorgestellt, die den Erwerb des Lexikons biszu einem Alter von etwa 3;0 Jahren zu erklären versuchen. DetaillierteBeschreibungen der Sprachentwicklung in einem Zeitraum von 3;0 bis5;5 Jahren sind mir nicht bekannt. Es existiert hingegen einige Literaturzur Entwicklung der zunehmenden Diskursfähigkeit bei Kindern, zursich entwickelnden Syntax (z. B. [Klann-Delius (1999)]; [Szagun (2006)];[Tomasello (2005)]) und weiteren linguistischen Teilgebieten. Eine Arbeit, diesich auf die Lexik von älteren Kindern bezieht, liefert Augst (1985). Augsterarbeitete ein Wörterbuch des aktiven gesprochenen Wortschatzes vonKindern kurz vor der Einschulung. Dazu verwendete er über 200 StundenMaterial (Audiomaterial und Mitschriften), das über vier Monate hinwegvon Angehörigen der untersuchten Kinder gesammelt wurde. Das Ergebnisseiner aufbereiteten und analysierten Daten ist ein alphabetischer undnach Sachgebieten geordneter Wortschatz von zehn Kindern im Alter von6 Jahren ([Augst (1985)], S. IV). Da dieser Wortschatz eine thematischabweichende Ausrichtung besitzt als jener, der in der vorliegenden Arbeitim Mittelpunkt steht, soll im Folgenden nicht mehr darauf eingegangenwerden. Stattdessen wird eine Untersuchung von Kauschke (1999, 2000) zuTeilen herangezogen ([Kauschke (1999)]; [Kauschke (2000)]). In Abschnitt2.2 möchte ich auf zwei Modelle eingehen, die das Lexikon in seiner Gänzeabzubilden versuchen. Dabei beziehe ich mich auf die wohl bekanntestenModelle - das Modulare Stufenmodell nach Levelt und das InteraktiveAktivierungsmodell nach Dell. Im Anschluss an die Thematisierung desLexikons werde ich mich den Wortarten in der Linguistik widmen. Wortartenan sich sind zwar nicht der Hauptuntersuchungsgegenstand dieser Arbeit, siewerden aufgrund der Identifikation von Lemmata als Nomen, Verb, Adjektiv,Adverb und als Funktionswörter jedoch zwangsläufig analysiert und sollen

13

14 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK

deshalb nicht gänzlich unbeachtet bleiben. Zudem können sie insbesonderefür weiterführende Arbeiten von Interesse sein.

2.1 Das Lexikon - Definition

„Sprache funktioniert so, indem das Gehirn jedes Menschen einLexikon mit Wörtern und den Konzepten, für die sie stehen (alsoein mentales Lexikon), enthält sowie eine Menge an Regeln, nachdenen die Wörter kombiniert werden, um Beziehungen zwischenden Konzepten zu bezeichnen (also eine mentale Grammatik).“([Pinker (1996)], S. 99)

Dieses Zitat Pinkers definiert zwar nicht das Lexikon an sich, doch es zeigtdeutlich, welche zentrale Rolle das Lexikon bei der Sprachproduktion spielt.Wie später zu sehen sein wird, spielt neben dem Lexikon die Grammatik einewichtige Rolle und insbesondere bei der Beschreibung des Wortschatzesvon älteren Kindern kann die Grammatik nicht völlig außer Acht gelassenwerden. Für Pinker (1996) ist Grammatik ein diskretes kombinatorischesSystem, welches den Gebrauch unendlicher Mittel ermöglicht. Dabei legtdie Grammatik die möglichen Kombinationen von Wörtern fest, die eineBedeutung ausdrücken können ([Pinker (1996)], S. 99 ff.).

Daneben existieren zahlreiche weitere Definitionen für den Begriff Lexikon.Einige von ihnen sollen hier vorgestellt werden und mit der Vorstellung desmentalen Lexikons, wie sie in dieser Arbeit Anwendung findet, in Einklanggebracht werden. Nach Rohde (2005) stellt das Lexikon die Grundgesamtheitaller Wörter einer Einzelsprache dar. Das Vokabular hingegen ist nur einebegrenzte Menge von Wörtern ([Rohde (2005)], S. 4 f.). Clark (1993)beschreibt das Lexikon als Speicher von bereits etablierten Wörtern, die ein/eSprecher/in während des Sprechens in Anspruch nehmen kann und auf dieer/sie während des Hörens zurückgreifen kann ([Clark (1993)], S. 2). Wörtersind demnach die kleinsten semantischen Einheiten in einer Äußerung.Ungeklärt sei allerdings, welche Informationen zusammen mit jedem Wort imLexikon gespeichert werden. Lexikalische Einträge sollten aber mindestensvier Arten der Information über jeden Gegenstand enthalten, so Clark: dieBedeutung (1), die syntaktische Form (2), die morphologische Form (3), diephonologische Gestalt (4). Ein möglicher Lexikoneintrag könnte dann soaussehen:

• Skier

• a) one who skis

2.1. DAS LEXIKON - DEFINITION 15

• b) Noun countable

• c) stem + -er

• d) /skir/

a) und b) sind jene Informationen, die im Lemma enthalten sind, c) und d)geben Aufschluss über die Form ([Clark (1993)], S. 3). Im obigen Beispielhandelt es sich um einen Lexikoneintrag für ein Nomen. Einträge für Verbenwiederum würden ausführlichere Informationen enthalten, z. B. die Anzahl derArgumente, so Clark. Bis zu diesem Punkt wird deutlich, dass mit dem BegriffLexikon, so wie er in dieser Arbeit verwendet wird, keineswegs ein literarischesLexikon bzw. Wörterbuch gemeint sein kann. So unterscheidet auch Aitchison(2003) zwischen mental lexicon (mentales Lexikon) und dictionary(Wörterbuch) und führt zahlreiche Argumente für eine Unterscheidungbeider Begriffe an. Wörterbücher, so Aitchison, listen Wörter alphabetischauf. Allein diese Tatsache sei bereits ein Grund, weshalb ein Wörterbuchnicht mit dem mentalen Lexikon vergleichbar ist. Wären Wörter im mentalenLexikon alphabetisch organisiert, so würden Sprecher, wenn sie Fehlerbeim Sprechen machen, viel öfter einen alphabetisch benachbarten Eintragwählen, so die Autorin ([Aitchison (2003)], S. 10-14). Bei einem Versprecherdes Wortes bewusst, müssten demnach die Wörter bewurzeln oder Beygewählt werden ([Duden (1996)], S. 165). Die Fehler, die beim Versprechentatsächlich auftreten, sind allerdings sehr unterschiedlich und lassen nichtauf eine alphabetische Organisation des mentalen Lexikons schließen.Hinweise darauf, dass es sich um keine alphabetische Anordnung der Wörterim mentalen Lexikon handeln kann, gibt auch die Versprecherforschungund die Erforschung des Tip-of-the-tongue-Phänomens. Brown et al. (1966)untersuchten bereits im Jahre 1966 dieses Phänomen. Befinden sichSprecher in der Situation, dass ihnen ein Wort buchstäblich auf der Zungeliegt, können sie laut Brown et al. oft trotzdem angeben, welcher Artikel zumWort gehört oder wieviele Silben es enthält. Ebenso ist oft die Betonungbekannt oder aber die Nennung bedeutungs- oder formähnlicher Wörtermöglich. Demnach kann ein Wort nicht als Ganzes und schon gar nicht inalphabetischer Reihenfolge im mentalen Lexikon gespeichert sein. Vielmehrmuss es sich um zahlreiche unterschiedliche Eigenschaften handeln, dieeng miteinander verbunden sind und im Normalfall gleichzeitig funktionieren([Brown und McNeill (1966)]; siehe auch [Spalek (2012)]).

Einen weiteren Grund dafür, dass das mentale Lexikon keinesfalls imStile eines Wörterbuches organisiert sein kann, sieht Aitchison (2003) inder Tatsache, dass Menschen ständig neue Wörter zum mentalen Lexikon

16 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK

hinzufügen ([Aitchison (2003)], ebd.). Letzteres kann also nicht fixiert sein,denn Menschen verändern fortwährend die Aussprache und Bedeutungbereits existierender Wörter. Sie erschaffen neue Wörter und Bedeutungenfür mentale Konzepte während des Sprechens. Diese Flexibilität des mentalenLexikons stehe folglich in Kontrast zum festen Vokabular eines Wörterbuches.Auch Kauschke (2012) spricht im Hinblick auf das mentale Lexikon von einemflexiblen System ([Kauschke (2012)]). Demzufolge besteht der Lexikonerwerbim Anwachsen des Wortschatzes sowie im Aufbau des mentalen Lexikonsals Bestandteil des kognitiv-sprachlichen Systems. Das mentale Lexikonist laut Kauschke ein aktives Speichersystem und es ist als Komponentedes Langzeitgedächtnisses zu verstehen. Auch Engelkamp et al. (1999)postulieren die Veränderlichkeit des mentalen Lexikons und schreiben diesemein hohes Maß an Flexibilität zu ([Engelkamp und Rummer (1999)]).

Weiteren Anlass zur Differenzierung in mentales Lexikon und Wörterbuchsei durch die Menge der enthaltenen Informationen gegeben. Das mentaleLexikon enthalte deutlich mehr Informationen über jeden Eintrag als einWörterbuch, so Aitchison. Wörterbücher geben nicht viele Informationenpreis über die Häufigkeiten des Gebrauchs von Wörtern, wohingegenMenschen beim unbewussten Zugriff auf das mentale Lexikon sich darübersehr wohl bewusst sind. Das mentale Lexikon enthält zudem Angaben überdie syntaktischen Muster, die zum jeweiligen Wort passen sowie möglicheAussprachevarianten. Wörterbücher hingegen enthalten oft nur eine möglicheAussprachevariante eines Wortes, obwohl Muttersprachler oft mehrereVarianten verstehen und beherrschen ([Aitchison (2003)], ebd.).

Aitchison hat mit ihrer Argumentation die Unterschiede zwischen demmental lexicon und dem dictionary deutlich gemacht. Da in dieser Arbeitdas mentale Vokabular und dessen Komposition im Lexikon von Kindern imVorschulalter thematisiert wird, soll auch im Folgenden der Begriff (mentales)Lexikon im Sinne von Aitchisons Ausführungen verwendet werden.

2.2 Das Lexikon als Modell

Im folgenden Abschnitt werden zwei Theorien vorgestellt, die versuchen, dasmentale Lexikon modellhaft darzustellen. Ich habe mich dabei auf die zweiwohl populärsten Modelle konzentriert, obgleich es einige weitere gibt. Zumeinen wird das Modulare Stufenmodell von Levelt (1992) vorgestellt, zumanderen möchte ich das Interaktive Aktivierungsmodell nach Dell (1992)näher betrachten ([Levelt (1992)]; [Dell und O’Seaghdha (1992)]). BeideModelle sind nach wie vor von Bedeutung, wenn es um die Beschreibung

2.2. DAS LEXIKON ALS MODELL 17

des Lexikons in der Sprache geht und sollen in dieser Arbeit in Bezug zurKomposition des Lexikons im fortgeschrittenen Spracherwerb gesetzt werden.

2.2.1 Modulares Stufenmodell (Levelt)

Levelt (1992) beschäftigte sich eingehend mit der Funktion des mentalenLexikons und erschuf sehr detaillierte Theorien, die sich mit den lexikalischenVerarbeitungsprozessen beschäftigen ([Levelt (1992)]). Nach Levelt sindfolgende Prozesse beim Zugriff auf lexikalische Information beteiligt: Zunächstmuss durch eine lexikalische Auswahl das passende Wort unter vielentausenden Alternativen im Lexikon erreicht werden. Danach erfolgt diephonologische Enkodierung durch das Berechnen der phonetischen Formaus dem phonologischen Code des ausgewählten Elementes. Um seinekommunikativen Ziele deutlich zu machen, muss der Sprecher seine Nachrichtzunächst enkodieren. Dabei stellt eine Nachricht eine konzeptuelle Strukturdar, die verankert ist in der propositionalen Sprache der Gedanken, so Levelt(ebd.). Der Konzeptualisierer (1) beansprucht alle perzeptuellen, motorischen,emotionalen, konzeptuellen und eventuell weiteren Informationen und liefertdie Nachrichtenstrukturen als Input an den Formulator (2). Die Aufgabe desFormulators ist es, die Nachricht auf eine sprachliche Form abzubilden unddiese grammatisch zu organisieren ([Bierwisch und Schreuder (1992)]). Derendgültige Output ist ein phonetisches Abbild, das durch das artikulatorischemotorische System, den Artikulator (3), ausgeführt wird. Dabei involviertder Formulator zwei Verarbeitungskomponenten: den grammatischen undden phonologischen Enkodierer. Der grammatische Enkodierer bedientsich einer Nachricht als Input, ruft lexikalische Elemente vom mentalenLexikon ab und liefert eine Oberflächenstruktur als Output, so Levelt. Dieendgültigen Elemente sind Lemmata, die unspezifizierte Elemente in ihrerphonologischen Form darstellen, nicht aber in ihrer semantischen undsyntaktischen Form. Die semantische Spezifikation der Lemmata ist wiederuman eine Reihe konzeptueller Bedingungen geknüpft. So müssen zunächstalle anderen Bedingungen erfüllt sein, um eine Nachricht zu erreichen. Dazugehört die syntaktische Spezifikation der Lemmata, die Kategorisierungs-und Subkategorisierungsinformationen beinhaltet. Die Lemmata werdendann erreicht, wenn ihre semantischen Bedingungen in der Nachrichtangetroffen werden. Dadurch werden syntaktische Prozeduren angestoßen,die mit ihren syntaktischen Spezifikationen korrespondieren. Spalek (2012)beschreibt die Modellierung des Lexikons in neueren Arbeiten von Leveltals Netzwerk mit untereinander verbundenen Knoten. Diese Modelle, soSpalek, seien inspiriert von der Informationsweiterleitung, wie sie neuronal im

18 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK

Gehirn stattfindet und bei welcher untereinander verbundene Nervenzellenmit Hilfe elektrischer Signale untereinander kommunizieren. Sobald dieAktivierungsenergie eines Knotens einen Schwellenwert überschreitet,wird dieser Knoten ausgewählt. Der ausgewählte Knoten steht dann zurweiteren Verarbeitung zur Verfügung. Spalek führt weiterhin an, dass währenddes Formulierungsprozesses zunächst eine abstrakte Repräsentation vonder Bedeutung und vom grammatischen Inhalt eines Wortes im Lexikonausgewählt wird. Anhand dieser Repräsentation werde in einem späterenVerarbeitungsschritt auf die Repräsentation der Wortform zurückgegriffen([Spalek (2012)], S. 53-63; vgl. [Levelt, Roelofs und Meyer (1999)]). Im Modellvon Levelt (1992) werden drei Ebenen unterschieden: lexikalische Konzepte(Bedeutung), Lemmaebene (Grammatik) und die Wortformebene (Form)([Levelt, Roelofs und Meyer (1999)]). Das entsprechende lexikalische Konzeptwird aus dem Lexikon ausgewählt, wobei dieser Knoten wiederum mit einemKnoten auf der Lemmaebene verbunden ist, der die abstrakten syntaktischenEigenschaften des Wortes enthält. Der Lemmaknoten wiederum hatVerbindungen zu einem Wortartknoten, z. B. Nomen und dementsprechendzu einem Genusknoten, z. B. Femininum ([Spalek (2012)], S. 62). In LeveltsModell (1992) sind alle Lemmata der gleichen Wortart mit demselbenWortartknoten verbunden und alle Lemmata, die Wörter des gleichengrammatischen Geschlechts repräsentieren, mit demselben Genusknoten.Sobald Aktivierungsenergie von der Konzeptebene auf die Lemmaebenefließt, wird der zum Konzept gehörende Lemmaknoten ausgewählt undaktiviert wiederum die mit ihm verbundenen Wortart- und Genusknoten.Nach Levelt enthält jede Lemmarepräsentation mehrere Optionen, ausdenen je nach Äußerungskontext ausgewählt werden kann. Dabei handelees sich um wortinhärente Eigenschaften (z. B. Nomen und Genus) sowieveränderliche Eigenschaften (Kasus, Numerus, Tempus, Person), die jenach Kontext festgelegt werden. Nachdem ein Lemma ausgewählt wurde,wird der entsprechende Wortformknoten aktiviert und die phonologischeGestalt eines Wortes kodiert. Gleichzeitig werden je nach Bedarf möglicheFlexionsmorpheme aktiviert.

So ausgefeilt dieses Modell des Lexikons auch erscheint, ergeben sichdoch einige Fragen. Angesichts der Tatsache, dass es sich um eine serielleVerarbeitung aller hier aufgeführten Schritte handelt, bei der es quasi keinZurück mehr gibt, erscheint gerade das Phänomen der Versprecher meinesErachtens nicht damit erklärt werden zu können. Es kann zwar erklären,weshalb bei Versprechern oft form- oder bedeutungsähnliche Lexeme erreichtwerden, nämlich aufgrund ihrer ortsnahen Speicherung im Lexikon, wodurches zu einer Aktivierung zweier oder mehrerer Lexeme kommen kann. Es

2.2. DAS LEXIKON ALS MODELL 19

erklärt jedoch nicht, weshalb Versprecher, oft noch bevor sie vollständiggeäußert werden, anscheinend mental korrigiert und letztendlich als korrektesLexem hervorgebracht werden können. Dies spräche meines Erachtens füreine interaktive Verarbeitung (Abschnitt 2.2.2), bei welcher auch Rückschrittezu vorhergehenden Stufen erlaubt sind.

2.2.2 Interaktives Aktivierungsmodell (Dell)

Nach Dell (1992) besteht kein Zweifel daran, dass lexikalischer Zugangdie Abbildung zwischen einer konzeptuellen Repräsentation und derphonologischen Form eines Wortes beinhaltet ([Dell und O’Seaghdha (1992)]).Dells Hypothese ist, dass der lexikalische Zugang, der bei derSprachproduktion eine Rolle spielt, in zwei Schritte aufgeteilt werdenkann: den Lemmatazugang (1), bei dem eine Abbildung erreicht wirdzwischen einem zu lexikalisierenden Konzept und einem Lemma sowie demphonologischen Zugang (2), bei dem ein Lemma in seine phonologischeForm übersetzt wird. Eine Frage, die Dell diesbezüglich beschäftigt,ist der zeitliche Verlauf dieser beiden Schritte. Nach Levelts (1992)Ansicht überlappen sich diese nicht, sondern erfolgen nacheinander([Levelt (1992)]). Dell erklärt, dass es bereits während des Lemmazugangszu einer Aktivierung der phonologischen Information kommt sowie zu einerAktivierung der semantischen Information während des phonologischenZugangs. Formal sieht Dells Interaktives Modell zahlreiche Einheiten vor,die in einem Netzwerk organisiert sind. In diesem Netzwerk erlaubendie Verbindungen eine bidirektionale Aktivierung zwischen den Einheitenan den angrenzenden Stufen. Formal erfolgen in diesem interaktivenLexikonmodell sechs Schritte beim Zugang zum Lexikon in der Produktion(nach ([Dell und O’Seaghdha (1992)], S. 295):

1. Die semantischen Einheiten des zu lexikalisierenden Konzeptes erhaltenexternen Input.

2. Die Aktivierung breitet sich im Netzwerk aus, bestimmt durch dieactivation-update-function.

3. Die am meisten aktivierte Worteinheit wird ausgewählt.

4. Wenn ein Wort bereit ist für die phonologische Enkodierung, erhält eseinen auslösenden Anstoß zur Aktivierung.

5. Die Aktivierung fährt wie zuvor fort mit der Ausbreitung, aber diepassende phonologische Einheit wird zusätzlich signifikant aktiviert.

20 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK

6. Die am meisten aktivierten phonologischen Einheiten werden gewähltund mit freien Slots in einer konstruierten phonologischen Wortformverbunden.

Im Gegensatz zu Levelts Modell des Lexikons sind im InteraktivenAktivierungsmodell interaktive Prozesse zwischen den beteiligtenKomponenten möglich. Dadurch ist augenscheinlich gegeben, dassbeispielsweise bei einer irrtümlichen Wahl eines Lemmas zumentsprechenden Konzept auch ein Weg zurück möglich ist, um Korrekturenvornehmen zu können.

2.2.3 Welches ist das richtige Modell?

Ob eines der eben vorgestellten Modelle das mentale Lexikon in seinerGänze abbilden kann, kann nicht mit Sicherheit gesagt werden. Es gibt jedochexperimentelle Studien, die dies zu überprüfen versuchten sowie zahlreicheMeinungen für oder gegen die Existenz von Modellen, die das Lexikonschemenhaft darstellen. Klabunde (1998) äußerte sich in einem Artikel zurWahl dimensionaler Präpositionen und Adverbien in der Sprachproduktionauch zu der Art und Weise des lexikalischen Zugriffs ([Klabunde (1998)]).Wie viele andere Forscher geht Klabunde davon aus, dass eine Zweiteilungdes lexikalischen Zugriffs angenommen werden kann. In einem ersten Schrittwird dabei semantisch-syntaktische Information einer lexikalischen Einheitverfügbar; in einem zweiten Schritt wird phonologische Information aktiviert.Diese beiden Schritte können ebenso als Lemmaabruf (1) und Lexemabruf(2) dargestellt werden ([Kempen und Huijbers (1983)]). Diese Zweiteilung, soKlabunde, ist in der heutigen Forschungslandschaft weitestgehend akzeptiert.Uneinig sei man sich darüber, ob es sich bei beiden Prozessen um diskretesowie interagierende Abläufe handelt.

In Bezug auf den Lemmaabruf wiederum existieren dekompositionale([Levelt (1989)], S. 181-234) und nichtdekompositionale Ansätze (z. B.[Bierwisch und Schreuder (1992)]; [Roelofs (1992)]; [Roelofs (1996)]). ImHinblick auf dekompositionale Ansätze wird der Abruf der Lemmata durcheine Reihe konzeptuell primitiver Prozesse gesteuert, wobei die Aktivierungweniger, hinreichender Abläufe die Aktivierung eines Lemmas zur Folge hat, soKlabunde (siehe auch [Dell (1986)]). Ein wichtiger Vertreter dieser Theorie istMorton (1960) mit seinem Logogen-Modell sowie die Autoren Dell et al. (1992),die mit ihrem Interaktiven Aktivierungsmodell postulieren, dass Knoten, diefür konzeptuelle Merkmale stehen, mit sogenannten Lemma-Knotenverbunden sind ([Morton (1969)]; [Dell und O’Seaghdha (1992)], siehe auchAbschnitt 2.2.2). Die wohl wichtigste Annahme betrifft das Erreichen von

2.2. DAS LEXIKON ALS MODELL 21

Wortbedeutungen, welche mittels bestimmter Mengen von Merkmalencharakterisiert werden können ([Klabunde (1998)]). Demzufolge soll immergenau ein Lemma eines Wortes erreicht werden, wenn ein Konzeptausgedrückt werden soll und auch dann, wenn das mentale Lexikon imZuge dessen ein passendes Wort enthält ([Levelt (1989)], ebd.). Problemebeim Erreichen eines Lemmas bestehen vor allem dann, wenn es sich umsogenannte Hyperonyme handelt sowie beim Erreichen von Synonymen([Roelofs (1992)]). Wenn Wort A die Bedeutung von B impliziert, ist Bein Hyponym von A und A ein Hyperonym von B. Wenn man nun diekonzeptuellen Bedingungen eines Hyponyms (z. B. father ) hinzuzieht,werden die Bedingungen seiner Hyperonyme ebenso erfüllt. Demzufolgewerden immer alle Hyperonyme eines bestimmten Wortes mit aktiviert([Levelt (1989)], ebd.). Weiterhin können dekompositionale Theorien nichterklären, wie die Prozesse beim Erreichen eines passenden Lemmas sichdiesem wiederum annähern. Im Falle von Synonymie tauchen ähnlicheProbleme auf. Den Abhandlungen Fodors zufolge (1976) haben Äußerungenwie „is a father“ und „is a male parent“ dieselbe untergeordnete Struktur([Fodor (1976)], S. 124-156). Ungeklärt ist in einem solchen Fall, woherder Abrufmechanismus weiß, ob er ein oder mehrere Lemma/ta auswählensoll ([Roelofs (1992)]). Bei nicht-dekompositionalen Theorien gebe es lautRoelofs (1992) keine derartigen Probleme. Folglich sind MALE (x), PARENT(x, y) und FATHER (x, y) alle Teil der zu erreichenden Nachricht. Man sprichtauch von abstrakten Repräsentationen zum Erreichen des Lemmas: z. B.FATHER (x, y) → father ; die Eigenschaften MALE (x) und PARENT (x, y)liegen außerhalb der Nachricht . Des Weiteren nimmt man an, dass einKonzept einer lexikalischen Einheit entspricht. Demnach sind Lemmata mitlexikalischen Konzepten in einer eins-zu-eins-Beziehung verbunden; dielexikalischen Konzepte wiederum besitzen einen Bezug zu konzeptuellenMerkmalen ([Roelofs (1992)]). Nicht nur Klabunde (1998) steht diesemAnsatz mit Skepsis gegenüber. So bleibt die Frage, wie der Ansatz dieKontextabhängigkeit einer lexikalischen Einheit erklären will. In Anlehnungan den nicht-dekompositionalen Ansatz müsste für jede Bedeutung nur einKonzept bestimmt werden. Daraus resultiert jedoch, dass die dynamischeEigenschaft von Wörtern, mehrere Bedeutungen haben zu können, nichtausreichend erklärt werden kann. Das Beispiel: „Ich gehe zur Bank “ machtdas Problem deutlich. Gehe ich nun zur Parkbank, um mich hinzusetzenoder gehe ich zur Bank (Institution), um Geld abzuheben, Geld einzuzahlenoder andere finanzielle Angelegenheiten zu erledigen? Die Bedeutungvon Bank kann also nur im Kontext geklärt werden. Ein weiteres Problem,das Klabunde anspricht, betrifft die Aktivierung von Mehrwortäußerungen

22 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK

([Klabunde (1998)]). Ich möchte an dieser Stelle noch weiter gehen unddies auf Idiome (oder Metaphern) beziehen. Wenn ein Konzept genaueiner lexikalischen Einheit entspricht, wie können dann Idiome wie insGras beißen erklärt werden? Man kann zwar annehmen, dass es - auchunter der Annahme eines nicht-dekompositionalen Ansatzes - als einelexikalische Einheit gespeichert ist. Doch kann an dieser Stelle nicht einfachdie gebräuchliche Bedeutung der Lexeme Gras und beißen angewendetwerden. Die einzige Erklärung wäre, dass das Idiom ins Gras beißen alseine lexikalische Einheit einem anderen Konzept zugeordnet ist als dieeinzelnen syntaktischen Wörter ins, Gras und beißen. Es kann nicht mitSicherheit gesagt werden, ob eines der oben aufgeführten Modelle bzw.Ansätze die Prozesse des mentalen Lexikons korrekt abbildet. Von Interessefür diese Arbeit ist aber, ob anhand der Erwerbsmuster bezüglich derWortartenverteilung der untersuchten Kinder auf die Vorgänge im kindlichenmentalen Lexikon geschlossen werden kann. Auf diese Frage soll im weiterenVerlauf der Arbeit erneut eingegangen werden (siehe vor allem Kapitel 8).

2.3 Das Lexikon bis zu einem Alter von drei Jahren

Um im Verlauf der vorliegenden Arbeit und insbesondere in der späterfolgenden Analyse der hier erhobenen Daten wichtige Bezugspunkte zuerhalten, habe ich mich entschlossen, auf die aktuell vorliegende Datenlagehinsichtlich des Lexikons im Spracherwerb zurückzugreifen. Dies erschien mirsinnvoll, da ohne jegliche Referenzen keine Einordnung in den bisherigenForschungsstand getätigt werden kann. Da, mit Ausnahme der Arbeit vonAugst (1985) ([Augst (1985)]), keine mir bekannten Daten zur Kompositiondes Lexikons ab einem Alter von 3;0 Jahren vorliegen, soll in diesemAbschnitt das Lexikon jüngerer Kinder bis zu einem Alter von 3;0 Jahrenvorgestellt werden. Im Hinblick auf den Zusammenhang des Erwerbs desLexikons und der Syntax erschien es angebracht, die Konstruktionsgrammatikhinzuzuziehen, da diese sich eingehend damit beschäftigt. Ferner möchteich einen allgemeinen Überblick über die einzelnen Schritte geben, die beimErwerb des Wortschatzes involviert sind. Abschließend wird die Kompositiondes Lexikons bis zu 3;0 Jahren beispielhaft an einer von Kauschke (1999)durchgeführten Studie aufgezeigt, da an dieser Stelle viele Parallelen zuTeilen der hier vorliegenden Arbeit vorzufinden sind ([Kauschke (1999)], S.128-157).

2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN 23

2.3.1 Von Konstruktionsgrammatiken und anderen Theorien zumErwerb des Lexikons

Es existieren unterschiedliche Erklärungsansätze, um den Wortschatzdes Kleinkindes zu klassifizieren. Grundlegend sind dabei fast immer dieersten Lexeme, die ein Kind erlernt und die mit den Kategorien, die imWortschatz Erwachsener vorzufinden sind, klassifiziert werden können:Eigennamen, Nomen, Pronomen, Verben, Adjektive, Adverbien u. a. Einemögliche Gruppierung sieht folgendermaßen aus ([Nelson (1973)], zitiert in[Tomasello (2000a)], S. 45):

• general nominals: apple, shoe

• specific nominals: Sarah, Mommy

• action words: throw, dance

• personal social words: bye-bye, thank you

• modifiers: cold, wet

• functors: of, and

Die meisten Forscher konstatieren, dass Nomen generell vor Verben erworbenwerden. Ausnahmen bilden dabei Sprachen wie das Koreanische oder dasChinesische, die als sehr verblastig gelten (z. B. [Gopnik (1988)]). NeuerenErkenntnissen zu Folge erlernen die meisten Kinder viele verschiedeneArten von Wörtern bereits sehr früh in ihrer sprachlichen Entwicklung,unabhängig von ihrer relativen Häufigkeit. Dementsprechend ist davonauszugehen, dass Kinder verschiedene Arten von Referenten in ihrerUmwelt individualisieren können. Ein Großteil der ersten Nomen beziehtsich auf konkrete Objekte. Erst später werden abstrakte Nomen erworben,wobei diese nicht unbedingt leichter zu individualisieren sind als Verbenoder relationale Wörter ([Tomasello (2000a)], S. 47). Um diese und weitereAnnahmen Tomasellos zum Lexikon- und zum Spracherwerb im Allgemeinenaufzugreifen und auszuführen, ist es unvermeidlich, auch andere Aspekte desSpracherwerbs zu betrachten. Während auf der einen Seite die Sprache alsangeborene Fähigkeit postuliert wird ([Chomsky (1959)]; [Chomsky (1967)];[Pinker (1984)]), sind auf der anderen Seite Theorien populär, die davonausgehen, dass Sprache nach und nach in einem item-basierten Lernprozess1

erworben wird ([Tomasello (2000b)]; [Hilpert (2014)]). Chomsky (1967) nimmt1Ich möchte den Begriff item in diesem Zusammenhang nicht ins Deutsche übersetzen, da er folglich

nur schwer wiedergeben würde, was gemeint ist. Item meint eigentlich Einheit und diese Übersetzungpasst auch hier sehr gut.

24 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK

an, dass unser Wissen über Sprache ein wesentlicher Bestandteil unserergenetischen Ausstattung ist ([Chomsky (1967)]). In diesem fest integriertenBestandteil existieren sogenannte Universalien, die wiederum angeboren sindund von denen zwei Arten beschrieben werden: 1) sogenannte Zutaten wieParts-of-speech (Nomen, Verben, Adjektive) oder grammatische Relationenwie Subjekt oder Objekt sowie verschiedene Arten von Lauten (Vokale,Konsonanten) und 2) Regeln, mit denen die Zutaten angewendet werden, umeine Sprache zu konstruieren ([Evans (2014)], S. 68).

Im Laufe der Jahre wurden zahlreiche Kritiker laut, die die Existenzeiner solchen Universalgrammatik weitestgehend widerlegt, zumindest aberangefochten haben (z. B. [Evans (2014)]; [Evans und Levinson (2009)];[Tomasello (2005)]). Diesen Untersuchungen zufolge ist der früheGrammatikerwerb eher item-basiert als dass er bestimmten angeborenenMustern folgt. Eine Frage, die sich in allen Theorien auftut, ist, wie Kinderein funktionierendes grammatisches System erwerben. Ausgehend voneiner regelbasierten Erklärung, wie Chomsky sie postuliert, geht mandavon aus, dass Kinder die formalen, abstrakten Schemata, so wie sie inder Sprache vorkommen, unter Berücksichtigung der ihnen angeborenenUniversalgrammatik einfach lernen müssen. Kinder werden demnach mitden syntaktischen Kategorien sowie Parts-of-speech konfrontiert undkombinieren diese mit Hilfe des Regelapparates zu einer funktionierendenGrammatik. Im Gegensatz dazu bietet eine Erklärung in Anlehnung an dieKonstruktionsgrammatik eine andere Perspektive auf den Spracherwerb, wiesie zum Beispiel von Hilpert (2014) anschaulich dargestellt wird. HilpertsAusführungen zufolge sind die formalen Schemata, die Kinder erwerbenmüssen, eng mit dem lexikalischen Material verbunden, das in ihnenvorkommt. Deshalb nimmt man an, dass Kinder zunächst nur konkretePhrasen lernen, die erst nach und nach abstrakter werden; und zwar dann,wenn das Kind Ähnlichkeiten zwischen verschiedenen konkreten Phrasenentdeckt ([Hilpert (2014)], S. 157). Dies widerspricht nativistischen Theorien,die davon ausgehen, dass die Sprache der Kinder mental durch die gleichenRegeln und Kategorien repräsentiert ist wie die Sprache Erwachsener([Pinker (1984)]). Nach Auffassung eines item-basierten Grammatikerwerbssind die mentalen Repräsentationen des Kindes unterschiedlich von denenerwachsener Sprecher/innen. Denn warum würde ein Kind ansonsten eherviele konkrete Phrasen verwenden, wenn doch die abstrakten StrukturenErwachsener bereits als intergrierter Bestandteil beim Kind vorliegen.Da Kinder abstrakte Strukturen erfahrungsgemäß nicht von Beginn anbeherrschen, spricht dies eher für einen item-basierten Erwerb der Grammatik.Nach dieser konstruktionsbasierten Erklärung (Konstruktionsgrammatik)

2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN 25

erlernen Kinder abstrakte Schemata, von denen man glaubt, dass sie durchhäufiges Hören ähnlich strukturierter Äußerungen hervorgehen und sich nurin gradueller Weise entwickeln ([Tomasello (2000b)]). Dies impliziert auch,dass die kindlichen Konstruktionen eigenständig eingeübt werden müssen.Ein weiteres Kriterium, das für die Konstruktionsgrammatik spricht, führtHilpert (2014) an. Hilpert zufolge betrifft dies die soziokognitiven Grundlagendes Spracherwerbs. Die Konstruktionsgrammatik zweifelt zwar nicht daran,dass Menschen von Geburt an mit einer gewissen Fähigkeit, Sprachezu erlernen, ausgestattet sind. Doch die Frage ist, ob diese angeboreneFähigkeit tatsächlich auch spezifisch für den Erwerb von Sprache ist oder sicheventuell auch auf andere kognitive Fähigkeiten erstreckt ([Hilpert (2014)],S. 158 f.). Auf der Basis experimenteller Befunde fasst Hilpert (2014) jeneFaktoren zusammen, die es dem Menschen ermöglichen, Sprache aufeine sozial begründete Art zu erwerben ([Hilpert (2014)], S. 159-163; vgl.[Tomasello (2005)]). All diese Qualitäten können schon bei Babies beobachtetwerden, die im Begriff sind, Sprache zu erwerben. Nicht alle Faktoren sindhierbei spezifisch menschlich bzw. sprachlich, sondern können zum Teil auchbei Primaten nachgewiesen werden.

1. Joint attention: entsteht in Situationen, in denen das Kind und seineBezugsperson ihre Aufmerksamkeit gleichzeitg auf ein drittes Objektrichten und sich dieser gemeinsamen Aufmerksamkeit bewusst sind.

2. Intention reading: die Fähigkeit von Babies bzw. Kindern, die Handlungenanderer Akteure als sinnvoll und zielgerichtet zu erachten.

3. Schematisierung: erlaubt Kindern Ähnlichkeiten zwischen Phrasen wiemore juice, more apple, more milk zu erkennen und daraus ein Musterzu abstrahieren, wie more X, das eine freie Stelle für andere linguistischeElemente bereit hält.

4. Rollentausch und Imitation: beide Faktoren spielen eine entscheidendeRolle für das triadische Muster der Joint attention. Die Fähigkeit, Laute,die von anderen Personen geäußert werden, zu imitieren, ist essentiell,um Sprache zu erlernen. Umgekehrt muss das Kind lernen, dass esselbst in die Rolle der Laute produzierenden Person schlüpfen kann undso zum Sender wird.

5. Musterwiedererkennung: betrifft die Fähigkeit statistische Regularitäten(Muster) in der Sprache zu erkennen.

Einige dieser Fähigkeiten (zum Beispiel Schematisierung und Musterwieder-erkennung sind keine typisch menschlichen, während die Fähigkeiten Joint

26 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK

attention, Intention reading und Imitation dem Menschen zuzuschreibensind ([Hilpert (2014)], S. 163). Insbesondere weil auch andere Lebewesendiese Qualitäten aufweisen, muss es laut Tomasello (1999) noch einenanderen Grund geben, weshalb Menschen Sprache erlernen. Tomasello(ebd.) zufolge ist kulturelle Intelligenz als typisch menschliche Fähigkeitausschlaggebend für das Erlernen von Sprache, die vor allem die Qualitätendes Intention reading beinhaltet und wodurch sich Sprache als typischmenschliche Fähigkeit auszeichnet ([Tomasello (1999)]; [Tomasello (2003)]).Ausgehend von den Annahmen der Konstruktionsgrammatik zum Erwerb vonSprache im Allgemeinen soll nun noch einmal der Erwerb des Lexikons indiesem Zusammenhang betrachtet werden. In den verschiedenen Versionender Konstruktionsgrammatik geht man davon aus, dass das Verhältnis vonLexikon und Grammatik nicht als modular angesehen wird ([Behrens (2011)]).Vielmehr ist es eine Art Kontinuum, bei dem konkrete Morpheme und Wörterauf der einen Seite stehen und grammatisch abstrakte auf der anderen Seite,so Behrens. In seiner usage-based theory of language acquisition beschreibtTomasello (2000) folgende Prozesse, die grundlegend für den Erwerb desLexikons sind:

1. Voraussetzende Prozesse: segmenting speech, conceptualizingreferents

2. Grundlegende Prozesse: joint-attention, intention-reading, culturallearning

3. Vereinfachende Prozesse: lexical contrast, linguistic context([Tomasello (2000a)], S. 58)

Demnach stellen sich Kinder während ihres ersten Lebensjahres auf dieSprachunterschiede und Muster in ihrer Muttersprache ein. Das Erlerneneines neuen Verbs sei dabei besonders schwierig. Die Gründe dafür sind,dass die unterschiedlichen Zustände eines Verbs kurzlebig sind, wodurchdie referentielle Situation oft nicht greifbar ist, wenn ein Verb geäußertwird. Tomasello et al. (1992) fanden zum Beispiel heraus, dass KinderVerben am besten in direkt bevorstehenden Situationen erlernen, amzweitbesten durch gerade abgeschlossene Aktionen und am schlechtestenin Situationen, die gerade im Gange sind. Für den Erwerb neuer Wörterspielt außerdem der lexikalische Kontrast eine entscheidende Rolle. Dieserhilft Kindern, die jeweiligen Referenten in den unmittelbaren Situationen zuidentifizieren. Mit 3 oder 4 Jahren besitzen Kinder ausreichend syntaktischesWissen, um damit neue Wörter zu erwerben. Das bedeutet also, dass

2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN 27

das Erlernen neuer Wörter untrennbar mit dem Erwerb von Sprache imAllgemeinen verbunden ist. Der Spracherwerb wiederum kann am bestenals Spezialfall kulturellen Lernens beschrieben werden, in welchem Kinderversuchen, die Ziele Erwachsener im Hinlick auf ihre eigenen Ziele zuunterscheiden, so Tomasello ([Tomasello und Kruger (1992)]). In dieservon ihm postulierten Social-Pragmatic-Theory liegt der Fokus auf zweisich von Natur aus beschränkenden Aspekten im Wortlern-Prozess: 1) derstrukturierenden sozialen Welt, in welche Kinder hinein geboren werden und2) den sozial-kognitiven Kapazitäten der Kinder, um in der strukturiertenWelt teilzunehmen (z. B. durch Joint-attention). Menschliche Kommunikationkann immer nur dann stattfinden, wenn es einen common ground zwischenSprecher und Hörer gibt. Sprache wird also ganz nebenbei erworben:

„In social-pragmatic view, then, children acquire linguistic symbolsas a kind of by-product of social interactions with adults, inmuch the same way they learn many other cultural conventions.([Tomasello (2000a)], S. 90)“

Im Gegensatz zu den oben angeführten Theorien (vgl. die Abschnitte 2.2.1,2.2.2, 2.2.3) hat die Social-Pragmatic-Theory zudem eine Erklärung für denBeginn des Spracherwerbs. Der Spracherwerb ist folglich abhängig von derFähigkeit, Aufmerksamkeit mit anderen Menschen zu teilen, um darauswiederum Symbole zu formen. Diese Fähigkeiten setzten mit etwa einemJahr ein ([Tomasello (2005)]). Interessanterweise wurde herausgefunden,dass die lexikalische und grammatische Entwicklung stark interkorrelieren([Anisfeld, Rosenberg, Habermann und Gasparini (1998)]). Demnach weitetsich das Vokabular von Kindern rasant aus, kurz nachdem die Anwendunggrammatischer Strukturen in der Sprache zu verzeichnen ist. Dies könne alseine synergistische Interaktion zwischen Lexikon und Grammatik gedeutetwerden. Bates et al. (1999) fanden diesbezüglich heraus, dass kurz nachdemKinder einen Wortschatz von einigen hundert Wörtern besitzen, dieseernsthaft mit der grammatischen Rede beginnen. Zudem entdeckten sieeine positive Korrelation zwischen den lexikalischen und grammatischenFähigkeiten von Kindern zu allen Zeitpunkten der frühen Entwicklung([Bates und Goodman (1999)]). Erklärungen für diese Korrelationen seienTomasello (2005) zufolge, dass Kinder erst eine gewisse Anzahl anWörtern besitzen müssen, bevor sie syntaktische Konstruktionen verstehen.Das Verstehen von Wörtern helfe also beim Verstehen grammatischerKonstruktionen. Umgekehrt helfe das Wissen um syntaktische Konstruktionenbeim Erlernen neuer Wörter. Es sei zudem möglich, dass das Erlernen vonWörtern und das Erlernen grammatischer Konstruktionen gleichermaßen

28 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK

Teile derselben übergreifenden Prozesse sind ([Tomasello (2000a)], S. 93).Auch Clahsen (1990) und Borer (1984) sehen einen starken

Zusammenhang zwischen der lexikalischen und grammatischen Entwicklung([Clahsen (1990)]; [Borer (1984)]). Die Lexical Learning Hypothesis sieht denSpracherwerb als Wortschatz-Entwicklungsprogramm: Die grammatischeEntwicklung wird dabei geleitet durch das Lernen lexikalischer Elemente. Umneue Sätze zu verstehen, müssen Kinder über individuelle Inputäußerungenhinaus Generalisierungen vornehmen ([Tomasello (2000a)]). Anhänger dieserTheorie stehen dem Prinzip der Universalgrammatik (z. B. [Chomsky (1967)])nicht durchweg negativ gegenüber. Die Universalgrammatik sei vonBeginn des Grammatikerwerbs vorhanden. Kinder müssen nur noch diegrammatischen Eigenschaften (Funktionen) der lexikalischen Elemente,die mit den Parametern verbunden sind, lernen. Nach Borer (1984) äußertsich eine angeborene Regelfähigkeit darin, dass das Kind einen Wert aneiner offenen Stelle eines Parameters ersetzt, der sich aus den Prinzipiender Universalgrammatik herleitet. Am Anfang der Entwicklung besitzt einParameter solche Leerstellen, weshalb das Kind nicht ein ganzes Regelwerkerwerben müsse. Vielmehr würde es jeweils einen Parameter setzen underwirbt so ein Lexikon, das nach und nach aufgefüllt wird ([Borer (1984)], S.1-3; siehe auch [Borer und Wexler (1987)]).

Pinker (1984) präzisiert dieses Konzept dahingehend, dass der Inputsyntaktischer Kategorien nach den Wortarten (die das Kind im Inputwahrnimmt) oder gar anderen Kategorisierungen bewertet werden sollte. Erschlägt daher die Hypothese des Semantischen Bootstrapping vor: Das Kindnutzt die semantischen Eigenschaften der Sprache, um daraus syntaktischeRegeln abzuleiten ([Pinker (1984)], S. 39 f., siehe auch [McNamara (1982)];[Grimshaw (1981)]; [Gleitman (1990)])). Dies ergäbe eine Grammatik,deren syntaktische Kategorien typisch semantische Konzepte enthalten([Sucharowski (1996)], S. 129). Das heißt, dass bestimmte Verhältnissezwischen perzeptuellen und syntaktischen Kategorien, die wiederum durchsemantische Kategorien vermittelt werden, dem Kind helfen können, mit demSyntaxerwerb zu beginnen ([Pinker (1994)]). Dafür sind allerdings bestimmteuniversale Verbindungsregeln (Linking rules) erforderlich, mit denen das Kindausgestattet ist. Eine solche Regel könnte zum Beispiel das Wissen darüberbeinhalten, dass die Agenten von Handlungen immer Subjekte in Aktivsätzendarstellen. Sobald aus dem perzeptuellen Kontext und der Wortbedeutunggeschlossen werden kann, dass ein bestimmtes Wort auf einen Agenteneiner Handlung referiert, kann das Kind schlussfolgern, dass es sich dabeium ein Subjekt handeln muss. Sobald diese Subjektposition als Parameteroder Regel fest verankert ist, kann der Syntaxerwerb zusammen mit weiteren

2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN 29

Wortlernprozessen voranschreiten. Laut Pinker (1994) kann das Kind dannschlussfolgern, dass jedes neue Wort in dieser Position ein Subjekt sein muss.Im Gegensatz zum semantischen Bootstrapping wird beim syntaktischenBootstrapping angenommen, dass der Prozess des Lernens neuerlinguistischer Ausdrücke unter Zuhilfenahme des linguistischen Kontextes,in den die Ausdrücke eingebettet sind, vonstatten geht ([Tomasello (1999)],S. 122). Genau dies würde aber beide Ansätze inkompatibel machen([Bowerman und Brown (2008)], zitiert in [Behrens (2011)], S. 380). Beimsemantischen Bootstrapping wäre die Semantik Voraussetzung für den Erwerbder Syntax, während beim syntaktischen Bootstrapping die syntaktischenKategorien und Relationen den Erwerb der Semantik ermöglichen.

Ob und welche der hier erwähnten Ansätze den Lexikonerwerb korrektwiedergeben, kann an dieser Stelle nicht beurteilt werden. Es macht jedochden Anschein, dass das Erlernen von Wörtern, Wortkategorien und damitverbunden der Aufbau des mentalen Lexikons nicht losgelöst vom allgemeinenProzess des Spracherwerbs betrachtet werden kann.

2.3.2 Der Erwerb des Lexikons - allgemeiner Verlauf

Um den Erwerb des Lexikons zu beschreiben, kann auf zahlreiche Theorienzurückgegriffen werden, die ihrerseits oft sehr spezielle Aspekte beinhalten.Dabei werden so unterschiedliche Sichtweisen zu Tage gebracht, dass nureine Theorie selten eine Grundlage für weiterführende Untersuchungenbilden kann. Einigermaßen einheitlich sind glücklicherweise die bloßenBeschreibungen des Auftretens bestimmter Wortarten zu verschiedenenZeitpunkten des Lexikonerwerbs (vorwiegend für das Deutsche und dasEnglische). Kinder zwischen 1;0 und 1;6 Jahren haben einen Wortschatz vonannähernd 50 Wörtern aufgebaut ([Klann-Delius (1999)], S. 36). Zwischen 1;6und 2;0 Jahren ist der Wortschatz auf 50 bis 200 Wörter angewachsen; abeinem Alter von 2;0 verfügen Kinder über 500 bis 600 Wörter ([Clark (1993)],S. 21 f.). Laut Clark (1993) sind die Entwicklungsverläufe hinsichtlichdes Wortschatzzuwachses immer individuell. Einige Kinder produzierenmonatelang nur ein Wort und keine Mehrwortäußerungen, währendandere Kinder die Einwortphase komplett weglassen und ausschließlichMehrwortäußerungen produzieren ([Clark (1993)], S. 22). Ab 1;9 Jahrenkommt es zu einer sprunghaften Ausweitung des Wortschatzes, wobeiab einem Alter von 3;6 Jahren eine Verlangsamung zu verzeichnen ist([Wode (1988)], S. 144 und S. 150). Auch Dittmann (2006) stellte fest, dassder Wortschatzerwerb starken individuellen Schwankungen unterliegt. In derPraxis bedeutet das, dass Kinder, die sehr früh erste Wörter erwerben, diesen

30 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK

Vorsprung auch im 2. und 3. Lebensjahr behalten ([Dittmann (2006)], S. 45).Laut Wode (1988) kann davon ausgegangen werden, dass der Lexikonerwerbmit etwa 12;0 Jahren im Wesentlichen abgeschlossen ist [Wode (1988)], S.144).

Das Ehepaar Stern (1965) beschäftigte sich bereits zu Beginndes 20. Jahrhunderts mit der sprachlichen Entwicklung des Kindes([Stern und Stern (1928)]; [Stern und Stern (1965)]). Sie teilten denSpracherwerb in Phasen ein, die in der Literatur unter anderem von Augst(1977) wiedergegeben werden. In der Anfangsphase seien Dingwörter,die visuell sichtbare Gegenstände bezeichnen, ein großer Bestandteil desWortschatzes. Dabei bezeichnet das Kind die Aspekte seiner unmittelbarenUmgebung, wie Familienmitglieder, Spielsachen, Nahrung, Tiere und anderes([Augst, Bauer und Stein (1977)], S. 25). Stern&Stern (1965) beschreibendiese Aspekte folgendermaßen:

„Das Kind wählt naturgemäß pädozentrisch; seine Umgebung,seine Interessen: Eltern, Geschwister, Wärterin, Spielsachenund Tiere, Eßbares und Trinkbares, Tönendes und Bewegtes,bilden das ausschließliche Material für seinen ersten Wortschatz.“([Stern und Stern (1965)], S. 195)

Daneben existieren relationale Wörter, die den Zustand von Objektenbeschreiben ([Klann-Delius (1999)], S. 37). Wenn Kinder nach und nachneue Wörter zu ihrem Vokabular hinzufügen, bilden sie nach Erkenntnissenvon Clark (1993) weitere Domänen aus. Demnach können Ausdrücke, diefrüher in einer Domäne verankert waren, in Untergruppen zergliedert werden.Dasselbe passiere mit deiktischen Ausdrücken, die separiert werden inSubjekt (I, me, you), Objekt (me, you) und Possessivpronomen (my, mine,your ) einerseits und Ausdrücken für Orte (here, there), Objekte (this, that)und Zeitangaben (now, yesterday ) andererseits ([Clark (1993)], S. 31 f.).Eine analoge Ausweitung und spätere Unterteilung in einzelne Unterbereichefindet mit nominalen und verbalen Ausdrücken statt, so Clark (ebd.). EineAnalyse der Verteilung der Wortarten und der Struktur des Wortschatzes seierst dann möglich, wenn Kinder begonnen haben, Wörter zu kombinierenund diese in Verbindung mit grammatischen Morphemen zu verwenden.Dies passiert laut Clark (1993) im Englischen zum Beispiel durch den Artikelthe oder das Pluralmorphem -s, welche signalisieren, dass es sich um einNomen handelt. Die Morpheme -ing oder -ed würden hingegen auf einVerb hinweisen ([Clark (1993)], S. 38). Szagun (2006) fand diesbezüglichheraus, dass die ersten Wörter des Kindes folgendermaßen nach Wortartenklassifiziert werden können: 60,5% Nomen, 28,6% Funktionswörter, 6,7%

2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN 31

Verben und 4,7% Adjektive. Dabei gebe es allerdings unterschiedlicheVerteilungen bei sogenannten expressiven Kindern im Gegensatz zureferentiellen Kindern. Erstere würden mehr Funktionswörter als Nomenverwenden, so Szagun ([Szagun (2006)], S. 121 f.). Bei derartigen Aussagenüber die Verteilung der Wortarten im Lexikon sollte nicht vergessen werden,dass auch die Muttersprache bzw. deren Input eine entscheidene Rolle spielt.Im Koreanischen steht das Verb immer am Satzende, die Auslassung vonNomen ist in gegebenen Kontexten erlaubt. Folglich produzieren koreanischeKinder Verben mit überwiegend koreanischer Flexion früher als englischeKinder ([Dittmann (2006)], S. 49). Englischsprachige Kinder hingegenweisen früher ein differenzierteres Benennvokabular auf und sind besser beiAufgaben zur Objektkategorisierung. Koreanischsprachige Kinder verwendenhingegen früher ein differenziertes Verbsystem, so Dittmann (ebd.). AuchMeibauer et al. (1999) führen an, dass Nomen im Deutschen und Englischeneinen überwiegenden Anteil am Gesamtwortschatz und damit auch alsType-Frequenz im Input ausmachen. Zudem bezieht sich ein großer Teilder Arbeiten zum Wortschatzerwerb auf den Erwerb von Objektwörtern undEigennamen, während der Erwerb von Nomen im Allgemeinen, Verben undAdjektiven bisher eher unerforscht ist ([Meibauer und Rothweiler (1999)],S. 9-31). Im Anschluss an die durch Stern&Stern (1965) beschriebeneerste Phase vollzieht sich die Phase der Benennung von Aktionen, inwelcher laut Augst (1977) Tätigkeiten und Vorgänge benannt werden([Augst, Bauer und Stein (1977)], S. 25). Stern&Stern (1965) sehen diedortigen sprachlichen Entwicklungen vor allem im Zusammenhang mit derPhase der Dingwörter :

„Viel mehr geht mit dem starken Aufschwung der Gegenstands-bezeichnungen schon ein leises Einsetzen der TätigkeitswörterHand in Hand; das „Aktionsstadium“ bereitet sich vor.“([Stern und Stern (1965)], S. 196)

In der darauffolgenden Phase kommt es zur lexikalischen Strukturierung derWörter in Wortfelder ; die zwischen 3;0 und 12;0 Jahren angesiedelt ist undunter anderem durch das Auftreten polarer Adjektive und relational definierterVerwandschaftswörter gekennzeichnet ist ([Wode (1988)], S. 144). Dittmann(2006) konstatiert eine hohe Differenzierung des Wortschatzes mit etwa 3;0Jahren, welche als Ausdruck von innerpsychischen Prozessen verstandenwerden kann ([Dittmann (2006)], S. 49). Demzufolge verwenden Kinder indieser Phase zunehmend Nomen für Gefühle und mentale Prozesse (Idee),Verben, die sich auf emotionale Vorgänge beziehen (mögen, brauchen,dürfen, weinen, helfen) und Verben, die mentale Prozesse beschreiben

32 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK

(wissen, glauben). In der neueren Forschung beziehen sich Kinder allerdingsbereits zwischen dem zweiten und dritten Lebensjahr mit Wörtern aufinnere Zustände ([Klann-Delius (1999)], S. 37). Bloom et al. (1993) fandenheraus, dass der Anteil der Nomen, mit denen Objekte bezeichnet werden,einen Anteil von einem Drittel des gesamten Outputs von Kindern zwischen9 und 23 Monaten ausmachten, sowohl in ihrem Vorkommen als Typesals auch als Tokens ([Bloom, Tinker und Margulis (1993)]). In einer Studievon Bates et al. (1994), in der Kinder mit einem durchschnittlichen Altervon 1;8 Jahren untersucht wurden, lag der Anteil der Nomen bei 55%in Relation zu einem umfänglichen Vokabular von 100 bis 200 Wörtern([Bates, Markman, Thal, Fenson, Dale, Reznik, Reilly und Hartung (1994)]).Kauschke (1999) konnte zeigen, dass der Anteil der Nomen zu Gunsteneines Anstiegs von Verben und Funktionswörtern danach wieder abfällt([Kauschke (1999)]; siehe auch Abschnitt 2.3.3).

Die meisten Untersuchungen zum kindlichen Lexikon zielen entwederdarauf ab zu ermitteln, wie viele Wörter das Lexikon des Kindes zuunterschiedlichen Zeitpunkten enthält oder aber es wird die Dominanz vonNomen vs. Verben (und gegebenenfalls weiteren Wortarten) bzw. derenErwerbsfolge insbesondere zu Beginn des Spracherwerbs untersucht (z.B. [Goldfield (2000)]; [Gentner (1982)]; [Bassano (2000)]; [Clark (1993)];[Kauschke (1999)]). Szagun (2006) zeigte, dass viele Wörter im frühenVokabular Nomen sind. Sobald Verben im kindlichen Wortschatz auftauchen,sind diese zunächst Aktionswörter wie gehen, essen oder laufen. Erstspäter kämen Verben hinzu, die kausale Wirkungen beinhalten, im zweitenLebensjahr tauchen die ersten Adjektive im Vokabular auf ([Szagun (2006)],S. 115 ff.). Szagun (2006) untersuchte auf der Grundlage von 22 Kindern dasVorkommen von Nomen, Verben und Adjektiven auf zwei unterschiedlichenWortschatzniveaus. Auf einem frühen Wortschatzniveau wies der produktiveWortschatz der Kinder durchschnittlich 74 Wörter auf, wovon 47,9% Nomen,10% Verben und 4,1% Adjektive waren. Auf dem späten Wortschatzniveaubeinhaltete der Wortschatz durchschnittlich 187 Wörter, wovon 33,1% Nomen,23,4% Verben und 5,1% Adjektive waren. Der Anteil der Funktionswörterbelaufe sich in beiden Altersstufen auf einem annähernd ähnlichen Anteil von37,4% bzw. 38,3% ([Szagun (2006)], S. 121 f.; siehe auch [Szagun (2001a)];[Szagun (2002)]).

Eine Vielzahl der Untersuchungen umfasst die produktive Lexikon-entwicklung, also das expressive Vorkommen von Nomen und Verben imWortschatz ([Kauschke (2007)], S. 59). Die vorwiegende Untersuchungvon Nomen und Verben hängt vermutlich damit zusammen, dass dieseWortkategorien mit einem großen Anteil am Wortschatz vorkommen und

2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN 33

in ihrer Funktion als Inhaltswörter vor allem im Zusammenhang mit dergrammatischen Entwicklung einem stärkeren Wandel unterliegen. Alle übrigenWortklassen sind mit zum Teil nur geringen prozentualen Anteilen vertreten,was einen Vergleich des Vorkommens dieser Wortklassen schwierig macht.Die bevorzugte Untersuchung des produktiven, nicht aber des rezeptivenWortschatzes, ist darin begründet, dass der produktive Wortschatz leichter,wenn auch niemals vollständig, erfasst werden kann. Laut Kauschke (2007)lassen sich jedoch keine Rückschlüsse auf die mentalen Repräsentationder Wortarten ziehen, nur weil Kinder in ihrer Spontansprache Wörterbestimmter Kategorien verwenden (ebd.). Die Schwierigkeit hierbei stelltvermutlich das Alter der Kinder dar, die gerade in sehr frühen Stadiendes Spracherwerbs Wörter verwenden, die den sprachlichen Kategoriendes erwachsenen Lexikons nur schwer zuordenbar sind. Trotz dieserSchwierigkeiten untersuchte Kauschke (1999) die Verteilung der Wortartenbei Kindern im Alter von 13 bis 36 Monaten ([Kauschke (1999)]). Für ihreAuswertungen verwendete sie bei der Kategorisierung der Wortarten einedieser Altersspanne entsprechende Klassifikation (Abschnitt 2.3.3). Kauschke(1999) untersuchte in einer empirischen Studie mehrere Fragestellungenzum Lexikonerwerb bis zu einem Alter von 3;0 Jahren. Diese Studie soll mitihren Ergebnissen im Folgenden näher betrachtet werden, da sie ähnlicheZiele verfolgt wie die vorliegende Arbeit. Der wesentliche Unterschied dervorliegenden Arbeit und der Arbeit von Kauschke besteht in Bezug aufdas Alter der Kinder sowie in der Methodik, wodurch ein aussagekräftigerVergleich beider Arbeiten hier nicht vorgenommen werden kann. Kauschkestellt die Wortartenverteilung deutschsprachiger Kinder zwischen 1;0 und3;0 Jahren dar, während in der vorliegenden Arbeit Kinder von 3;5 bis 5;5Jahren untersucht wurden. Zudem soll später eine inhaltliche Analyse allerKategorien vorgenommen werden, welche bei Kauschke in dieser Form nichtauftaucht (Kapitel 7).

2.3.3 Der frühe Wortschatzerwerb nach Kauschke

Kauschke (1999) untersuchte eine Stichprobe von 32 Kindern (16 Jungen, 16Mädchen), welche aus einem bestehenden Datenkorpus2 ausgewählt wurde.Bei der Untersuchung handelte es sich um eine Längsschnittstudie, die vierErhebungszeitpunkte umfasste. Drei Termine lagen im zweiten Lebensjahr(13, 15, 21 Monate), der Zeitpunkt der letzten Aufnahme mit 36 Monaten

2Die Daten sind dem von der DFG im Schwerpunkt „Spracherwerb“ und von der Köhler-Stiftunggeförderten Projekt „Die Bedeutung der emotionalen Qualität der Mutter-Kind-Aktion für den Erwerb derDialogfähigkeit des Kindes – eine empirische Studie“ unter der Leitung von G. Klann-Delius entnommen([Kauschke (1999)], S. 138).

34 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK

diente als Vergleichspunkt. Die Aufnahmesituation der Daten bestand in derfreien Interaktion zwischen Mutter und Kind in einem Untersuchungsraum. Eswurden Videoaufnahmen erzeugt, mittels welcher im Anschluss Transkripteüber zehn Minuten erstellt wurden. Festgehalten wurden alle verbalen,vokalen und paraverbalen Äußerungen von Kind und Mutter. Für die Analysewurde jedes einzelne Wort extrahiert und in seiner zielsprachlichen Formnotiert. Anschließend wurde jedes auf diese Weise erhaltene Wort in eineDatenbank überführt und die Type-Token-Relation ermittelt. Danach wurdendie Wörter folgenden Wortartenkategorien zugeordnet (vgl. 3.2.1):

• Nomen

• Verben

• Adjektive

• personal-social words

• relationale Wörter

• Pronomen

• Funktionswörter

• Onomatopöien

• Sonstige

Die Datenbank umfasste laut Kauschke (1999) insgesamt 751 verschiedeneWörter, die von allen Kindern 3440 mal als Types und 9115 mal als Tokensgeäußert wurden. Den Ergebnissen nach zu urteilen nimmt die Anzahlder Wörter im Laufe der Zeit zu. Kauschke zufolge ist ein Type-Zuwachszu verzeichnen, was bedeutet, dass die Anzahl unterschiedlicher Wörterin Abhängigkeit vom Alter ansteigt. Demnach konnte ein exponentiellesWachstum im zweiten Lebensjahr festgestellt werden ([Kauschke (1999)]S. 141). Erst im dritten Lebensjahr würde es zu einer Abnahme undeinem anschließenden linearen Verlauf der Types kommen. Hinsichtlich derVerwendungshäufigkeit der Wörter (Tokens) ist das Wachstumsmuster mitdem der Types vergleichbar, so Kauschke. Mit zunehmendem Alter sind keinebedeutsamen Veränderungen mehr feststellbar, was darauf schließen lässt,dass das Verhältnis der Types zu den Tokens gleich bleibt. Hinsichtlich derKomposition des Lexikons fand Kauschke heraus, dass relationale Wörtersowie personal-social-words mit über zwei Dritteln anfangs vorherrschend

2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN 35

sind. Dieser Anteil nimmt während des Verlaufs der Studie sukzessiv ab.Nomen sind den Ergebnissen zufolge von Anfang an im Wortschatz desKindes enthalten, wobei der Anteil zunächst anwächst. Im dritten Lebensjahrverwendet jedoch kein Kind mehr als 25% Nomen, so Kauschke. Verbenseien erstmals mit 15 Monaten zu verzeichnen, welche im Verlauf ansteigenund mit etwa 3;0 Jahren den größten Anteil des Lexikons ausmachen.Auch Adjektive sind von Beginn an vertreten, wobei sich der Anteil von2,5% auf 6% nicht merklich verändert. Etwas später ist ein Anwachsen derFunktionswörter erkennbar. Alle Wortarten (gemessen in Types) zeigen lautKauschke hochsignifikante lineare Trends, mit Ausnahme der Adjektive. Beiletzteren sei weder eine bedeutende Zu- oder Abnahme erkennbar. Insgesamtkönne man von einer Zunahme sprechen bei Nomen, Verben, Pronomen,Funktionswörtern und sonstigen Wörtern. Der Anteil der relationalen Wörter,personal-social words und der Onomatopöien würde dagegen sinken. DerAnteil der Nomen erreicht laut Kauschke mit 21 Monaten ein Maximum, umanschließend wieder zu sinken. Der Anteil der Funktionswörter hingegenhabe zunächst leicht, im dritten Lebensjahr deutlicher zugenommen. Nebendiesen allgemeinen Untersuchungen zur Komposition des Lexikons bis zumdritten Lebensjahr interessierte Kauschke, ob es unter den teilnehmendenKindern der Studie individuelle Unterschiede gibt und ob diese Unterschiedeüber den gesamten Zeitraum erhalten bleiben. Sie fand heraus, dass esdeutliche individuelle Unterschiede hinsichtlich der Menge der verwendetenWörter gab, was durch die Ermittlung der Spannweite in der Types- undTokens-Anzahl zu Tage trat. Die Streuung habe mit jedem Zeitpunkt stärkerzugenommen, das heißt, die Kinder entwickelten sich individuell weiter.Geschlechtsspezifische Unterschiede seien allerdings nicht erkennbargewesen. Individuell unterschiedlich verteilt ist außerdem das Vorkommenund die Stärke der Wortarten, so Kauschke. Folglich gebe es mit 3 Jahrengroße Unterschiede im Anteil der Nomen, Verben, relationalen Wörter undpersonal-social words. Ein Rangordnungstest zeigte zudem, dass einigeKinder durchgehend im unteren, andere durchgehend im oberen Spektrumlagen. Demnach könnte auf starke individuelle Unterschiede zwischen denKindern in der Rate des Lexikonerwerbs geschlossen werden. Kauschkezufolge können aus der Anzahl der geäußerten Wörter im zweiten LebensjahrPrognosen für die Weiterentwicklung des Wortschatzes gemacht werden:Kinder mit einem geringen produktiven Wortschatz im zweiten Lebensjahrhaben diesen Rückstand im Vergleich zu anderen Kindern aus KauschkesStichprobe auch mit 3 Jahren nicht aufgeholt. Vielmehr würden sie weiterhinweniger verschiedene Wörter verwenden ([Kauschke (1999)] S. 151).

36 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK

In einem nächsten Schritt untersuchte Kauschke (2007) zusätzlich denInput, den die analysierten Kinder erhielten ( [Kauschke (2007)], S. 132).Sie erstellte ein Transkript, das auf einem informellen und ungesteuertenGespräch zwischen zwei Erwachsenen beruht. Von diesem Transkript wurdendie ersten 1000 Wörter analysiert, von denen 319 Types darstellten. JedesWort wurde hinsichtlich seiner Wortart klassifiziert. Hinsichtlich der Typesenthielt das Transkript 18,5% Verben und 19% Nomen. Bei den Tokens warenes 16,3% Verben und 9% Nomen. Diese Daten sollen später als Referenz fürdie hier ermittelten Daten dienen und im besten Falle die Frage beantwortenkönnen, ob die Verteilung der Wortarten von Kindern im Vorschulalter jenervon erwachsenen Sprecherinnen und Sprechern entspricht.

Kapitel 3

Wortarten in der Linguistik

Im diesem Kapitel soll – zusammen mit Kapitel 2 – die Basis für dasweitere Vorgehen ergänzt werden. Ein Teilziel ist es, ein geeignetesKlassifikationssystem zur Zuordnung der (transkribierten) Wörter zubestimmten Wortarten auszuwählen (Abschnitte 4.1.4 und 4.1.6). Einesolche Kategorisierung ist deshalb notwendig, weil nur aufgrund dieser eineanschließende Inhaltsanalyse durchgeführt werden kann. Es muss zumBeispiel zunächst geklärt werden, welche der transkribierten Wörter Nomen,Verben, Adjektive, Adverbien sowie Funktionswörter sind. Diese Wortartenbilden zusammen mit den Wörtern und deren Lemmata den Input für einesemantische Analyse (Kapitel 7). Für die Wortartenanalyse soll an dieserStelle auf vorhandene und bewährte Klassifikationen zurückgegriffen werden.Was bis hierher noch recht einfach klingt, entwickelte sich bei genauerRecherche zu einem umfangreichen Prozedere. Nicht nur die Tatsache,dass es unzählige Kategorisierungssysteme gibt, machte die Sache soschwierig. Vielmehr musste auch darauf Rücksicht genommen werden, dasses in dieser Arbeit um den Wortschatz von 3- bis 5-Jährigen geht, der nichtvergleichbar ist mit jenem von erwachsenen Sprecherinnen und Sprechern. ImFolgenden werden zwei unterschiedliche Modelle vorgestellt und deren Vor-und Nachteile im Hinblick auf das vorliegende Thema erörtert. Zuvor sollenjedoch die Begriffe Wort und Wortart, wie sie in dieser Arbeit Anwendungfinden, erläutert und definiert werden.

3.1 Wort und Wortart - Definition

„Wortarten sind Mengen bestimmter Art, und keine Eigenschaften(Merkmale o. ä.): Wortartbegriffe wie „Verb“ sollen zur Bezeichnungvon Mengen dienen, und nicht zur Bezeichnung von Eigenschaften,durch die diese Mengen festgelegt werden.“ ([Budde (2000)], S. 4)

37

38 KAPITEL 3. WORTARTEN IN DER LINGUISTIK

Budde (2000) geht davon aus, dass lexikalische Wörter aus einemsyntaktischen Paradigma P sowie aus einer lexikalischen Bedeutung bbestehen. Diese lexikalischen Wörter seien die im Idiolektsystem verankertenabstraktesten und komplexesten Entitäten, für die der Begriff Wort verwendetwerden kann. Diese Gedanken spiegeln sehr gut die Ideen über das mentaleLexikon wider (Abschnitt 2.1). Zumindest die Rede von einem Idiolektsystemlässt vermuten, dass Budde vom individuellen mentalen Lexikon und nichtvom Vorkommen aller Wörter einer Sprache spricht.

Eine etwas andere Annahme vertritt Lehmann (2005). Ausgehend vonseiner Aussage, dass die Genese von Wortarten durch Grammatikalisierunggeschieht, beschreibt er Wortarten als grammatische Klassen.Dementsprechend sei in einer gegebenen Sprache eine Wortart durchihre Distribution abgegrenzt, wobei die Distribution eines Elementes dieMenge der Kontexte sei, in denen ein Wort auftritt. Je kleiner diese Mengeist, desto eingeschränkter ist die Verteilung des jeweiligen Elementes, soLehmann. Im Verlauf seines Aufsatzes stellt Lehmann u. a. die Genese desAdjektives im Quechua sowie die Genese des Substantives im Nootka dar([Lehmann (2005)], S. 1-5). Diese Darstellungen sollen hier mangels Relevanzfür die kommenden Ausführungen nicht dargestellt werden. Es sei aber kurzLehmanns Fazit erwähnt. Der Autor geht davon aus, dass die Einführung einerneuen Wortart durch Spaltung einer vorhandenen Wortart sowie durch dieEinführung zusätzlicher Klassen vonstatten geht. Schließlich gebe es durchdiesen Prozess mehr Wortarten, die dementsprechend weniger umfangreichseien. Einige sehr interessante und hilfreiche Überlegungen stellten Knoblochet al. (2009) an, die ich an dieser Stelle zum Teil übernehmen und anführenmöchte ([Knobloch und Schaeder (2009)]). Die Autoren äußern einigenützliche Vorüberlegungen, wenn es um die Klassifikation von Wortartengeht. Ich zitiere im Folgenden ausschnitthaft, welche Fragen im Vorfeld einerKlassifikation beantwortet werden sollten:

„1) Was wird klassifiziert? (Lexeme, Wortformen, syntaktischeWörter)

2) Nach welchen Kriterien wird klassifiziert? (nach grammatisch-semantischen, nach morphologischen, nach syntaktischen, miteiner Kombination aus den Kriterien)

3) Zu welchem Zwecke wird klassifiziert? (zur Beschreibungder Muttersprache, für die maschinelle Sprachbearbeitung, fürdie linguistische Theorie, für die Modellierung des kindlichenSpracherwerbs)“

([Knobloch und Schaeder (2009)] S. 22 ff.).

3.1. WORT UND WORTART - DEFINITION 39

Da es oft Ziel sei, den Wortschatz zu klassifizieren, wird häufig nachsyntaktischen Kriterien klassifiziert, um Wörter in ihrer Distributiondarzustellen. Knobloch et al. (2009) sehen in der Regel das syntaktischeWort bzw. dessen lexikalische Basis als häufig untersuchtes Objekt in derWortartenklassifikation. Gerade wenn die Distribution von Wortarten einübergeordnetes Ziel ist, sei es quasi unvermeidbar, Wörter nach ihrensyntaktischen Kriterien zu beurteilen. Eine genaue Einstufung nach denMerkmalen der Syntax ist aber häufig nicht einfach, weil die Basis desSprachbewusstseins das geschriebene oder phonologische Wort ist, so dieAutoren (ebd.).

In der vorliegenden Arbeit bilden syntaktische Wörter die Grundlage füreine spätere Klassifizierung, die wiederum aus den daraus resultierendenLemmata hervorgeht und möglichst unabhängig vom Kontext erfolgensoll. Eine zusätzliche Schwierigkeit stellt die oft noch unvollkommene bzw.abweichende Sprache der hier untersuchten Kinder im Vergleich zur Sprachevon Erwachsenen dar. Oft werden Wörter nicht in ihrer syntaktischen und/oderlexikalischen Zielform verwendet, sind aber phonologisch korrekt. An anderenStellen ist die Aussprache sehr undeutlich, so dass Lücken entstehen, dieden Sprachfluss syntaktisch unterbrechen. Dies soll jedoch kein Hindernisdarstellen und deshalb nicht weiter beachtet werden. Das Ziel ist es, dieWortarten auf der Basis von syntaktischen Wörtern zu analysieren; etwaigegrammatische Fehler bleiben in dieser Arbeit unbeachtet. Auch Knoblochet al. (2009) beschreiben in ihren Ausführungen die Vielfältigkeit bei derKlassifikation von Wortarten. Sie verstehen unter einem Wort die folgendenEinheiten:

„Wort als Einheit der geschriebenen Sprache Wort als Einheitder gesprochenen Sprache (phonologisches Wort) Wortals Einheit des sprachlichen Verlaufs (morphologisches Wort,syntaktisches Wort, grammatisches Wort, Textwort, Wortform,Lex, Token) Wort als Einheit des sprachlichen Systems(lexikalisches Wort, Lexikonwort, Wörterbuchwort, Lexem, Type)“([Knobloch und Schaeder (2009)] S. 40).

Am häufigsten werde zwischen lexikalischem Wort (Lexem) undsyntaktischem Wort unterschieden. Dass auch diese Aussage auf dasVorgehen dieser Arbeit zutrifft, wird später zu sehen sein. Durch dieTranskription der phonologischen Wörter in die graphematische Form, erhältman syntaktische Wörter, welche anschließend ihrer jeweiligen Grundform(Lemma) zugeordnet werden.

40 KAPITEL 3. WORTARTEN IN DER LINGUISTIK

Im Verlauf der Arbeit wird aber auch deutlich, dass es keine einheitlicheDefinition für den Begriff Wort geben kann. Pinker (1996) beschreibt dasWort bespielsweise als eine Spracheinheit, die von morphologischen Regelnerzeugt wird, aber durch syntaktische Regeln nicht aufgespalten werden kann.Einen besonderen Fall bilden Redewendungen, die im mentalen Lexikonvermutlich als Einheit, also als ein Wort mit der/den jeweiligen Bedeutung/enabgespeichert ist/sind. Redewendungen werden als Listeme bezeichnet, dieauswendig gelernt werden müssen und wie Einheiten in der Größe einesWortes auftreten ([Pinker (1996)], S. 170 ff.). Eine ähnliche Meinung vertretenauch Di Sciullo et al. (1987), nach denen Listeme sprachliche Größendarstellen, die von einem Individuum in seinem mentalen Lexikon gespeichertsind und nicht mit syntaktischen Wörtern oder Lexemen verwechselt werdendürfen ([Di Sciullo und Williams (1987)], zitiert in: [Gallmann (1991)]). Listemekönnen demzufolge auch komplexe Gebilde sein, wie Morphe, Phrasenoder ganze Sätze. Lexeme dagegen seien keine Einheiten des mentalenLexikons, da sie Paradigmen syntaktischer Wörter sind ([Gallmann (1991)],S. 12). Laut Gallmann (1991) gehören zu den Lexemen auch erlernteusuelle Bildungen und Ad-hoc-Abbildungen, die wiederum nicht im mentalenLexikon gespeichert sind ([Gallmann (1991)], S. 12). Alle usuellen undokkasionellen Flexionsformen eines Lexems werden laut Gallmann vonder morphologischen Komponente der Grammatik und hier wiederum überdas Inventar an Flexionskategorien bestimmt. An dieser Stelle wird auchersichtlich, dass syntaktische Wörter nicht in Form einer Liste im mentalenLexikon abgespeichert sein können, denn wo und wie wären dann die Listemegespeichert? Zu groß ist die Anzahl an Redewendungen, Idiomen undanderen feststehenden Wendungen, die in ihrer im Lexikon gespeichertenForm eher einem eigenständigen Wort gleichen und dementsprechend nichtin ihre einzelnen Bestandteile zergliedert werden können ohne an Bedeutungzu verlieren. Im Verlauf dieser Arbeit werden Redewendungen nicht weitervon Bedeutung sein, weshalb sie an dieser Stelle nicht in die Definition desBegriffes Wort einfließen sollen. Im weiteren Verlauf soll die Bezeichnungsyntaktisches Wort (auch nur: Wort) für alle in den Daten geäußerten undtranskribierten Wörter verwendet werden; auch, wenn diese mehr als nureinmal vorkommen. Diese bilden in der späteren Analyse (Kapitel 6) diesogenannten Tokens ab. Gallmann (1991) definiert den Begriff syntaktischesWort mit folgenden Worten, die der Anwendungsweise in dieser Arbeitweitgehend entsprechen:

„Ein syntaktisches Wort ist eine abgeschlossene morphologischeEinheit mit bestimmten formalen Merkmalen (=Signifiant) sowie

3.1. WORT UND WORTART - DEFINITION 41

bestimmten grammatischen und/oder inhaltlichen Merkmalen(=Signifé), die eine Position in einer syntaktischen Struktureinnehmen kann.“ ([Gallmann (1991)], S. 2)

Dieser Definition zufolge verfügen alle syntaktischen Wörter überWortartmerkmale und es gibt kein syntaktisches Wort, das nicht hinsichlichder Wortart spezifiziert werden kann (siehe auch Abschnitt 3.2.2). Geht es umdie Abbildung lexikalischen Wissens in Form von Wörterbüchern oder Lexika,dann werden ihre Grundeinheiten als Lemmata abgebildet ([Gallmann (1991)]und siehe Abschnitt 4.1.8).

Zum Erwerb der Wortarten äußert sich Kauschke (2012) vor allem inneueren Arbeiten. Danach beschreibt sie den Erwerb der Wortarten alswichtigen Aspekt des Lexikonerwerbs. Jeder Lexikoneintrag enthält nebenInformationen über die Wortform und die Wortbedeutung auch Informationenüber die syntaktische Kategorie, der das Wort angehört. Die Wortartenergeben sich dann durch eine Einteilung des lexikalischen Inventars inKlassen mit Wörtern ähnlicher Eigenschaften. Zu Beginn der Entwicklungfinden sich vor allem interaktive und relationale Wörter sowie Lautmalereienund Eigennamen (siehe auch Abschnitt 3.2.1). Nomen treten schon früh aufund breiten sich gerade in den frühen Stadien des Spracherwerbs schnellaus. Darauffolgend ist ein linearer Anstieg von Verben beobachtbar. EinAnstieg von Funktionswörtern markiert laut Kauschke die letzte Stufe in derWortartenentwicklung. Gegen Ende des dritten Lebensjahres herrscht in derSpontansprache von Kindern zumeist jene Wortartenverteilung vor, die auchim Input vorzufinden ist ([Kauschke (2012)], S. 60-62). Ein solcher Einflussdes elterlichen Inputs kann in der vorliegenden Arbeit nicht überprüft werden.Es werden jedoch Vermutungen über einen möglichen Einfluss in Abschnitt6.5 angestellt. Ein wesentlicher Punkt, den die Wortartenverteilung im drittenLebensjahr ausmacht, ist laut Kauschke der Anstieg der Funktionswörtersowie ein Verbzuwachs. Dies kann und soll mit den hier ermittelten Datenüberprüft werden.

42 KAPITEL 3. WORTARTEN IN DER LINGUISTIK

3.2 Die Kategorisierung von Wortarten

In diesem Abschnitt sollen zwei Möglichkeiten der Wortartenkategorisierungvorgestellt werden. Dabei wird zunächst nicht unterschieden nachsyntaktisch, semantisch, morphologisch, phonologisch oder lexikalischmotivierten Klassifikationen. Vielmehr wird im Anschluss an die vorgestelltenKlassifikationssysteme eine Bewertung in Bezug auf das hiesige Vorhabenvorgenommen und bei Bedarf die Vor- und Nachteile erläutert.

3.2.1 Kategorisierung nach Kauschke

Bereits in Abschnitt 2.3.3 wurde Kauschkes Forschungsvorhaben zumWortschatzerwerb im Deutschen dargestellt. Im Folgenden möchte ichdie Klassifikation der Wortarten, mit welcher Kauschke (1999, 2000)zu den Ergebnissen ihrer Studie gelang, vorstellen ([Kauschke (1999)];[Kauschke (2000)]). Laut Kauschke (2000) sind Wortarten das Ergebniseiner theoretisch begründeten Klassifikation der Wörter einer Sprache nachForm- und Bedeutungsmerkmalen. Für eine Klassifikation können mehrereAspekte herangezogen werden: morphologische, syntaktische, semantischeund distributionelle. Uneinheitlichkeiten bei der Bestimmung einer Wortartkönnen immer auftauchen, z. B., weil es zu Überschneidungen kommt.Eine weitere Schwierigkeit, die nach Kauschke auftreten kann, ist, dassdie Wortartenzughörigkeit kindlicher Äußerungen noch instabil ist. Dadurchentstehe das Problem, dass die Entwicklung der Wortartenverwendungnicht erforscht werden kann. Erforderlich um einen Entwicklungsverlaufaufzeigen zu können, ist ein einheitliches Klassifikationssystem in allenAltersstufen. Insbesondere zu Beginn der Satzproduktion ergeben sich lautKauschke Veränderungen in der Funktion von Wörtern, weil syntaktischeAspekte hinzukommen und damit neue Kriterien für eine Klassifikationbenötigt werden ([Kauschke (2000)], S. 86). Damit ergab sich die Aufgabe,ein geeignetes Klassifikationssystem zu entwickeln, das einerseits die Wörterdes frühkindlichen Lexikons enthält, ungeachtet der syntaktischen Aspekte.Andererseits sollten auch jene Wortarten erfasst werden, die nach demEinstieg in die Satzproduktion auftreten. In Anlehnung an Blooms (1993)Klassifikationssystem gelangt Kauschke (1999) zu folgender Klassifikation([Bloom, Tinker und Margulis (1993)], S. 445; Tabelle 3.1):

3.2. DIE KATEGORISIERUNG VON WORTARTEN 43

Wortart Untergruppen und Beispiele

Nomen specific: Eigennamen (Holger), specific: Personen und spezifische Objekte

(Mama), general: belebte und unbelebte Objekte (Ball), abstrakte Nomen (Idee),

internal state-Nomen (Angst)

Verben (action words) objektbezogene Handlungen und Tätigkeiten (suchen), nicht objektbez.

Handlungen: Events, Bewegung, Zustand (pullern), innere Handlungen oder

Tätigkeiten z. B.: mentale, emotionale, volitionale „internal state“-Verben

(weinen, glauben)

Adjektive (modifiers) modifizierte Elemente wie Attribute, Eigenschaften und Merkmale (heiß, vier),

innerpsychische Zustände, internal state-Adjektive (böse, toll)

Personal-social words Interaktive und expressive Wörter assertions (ja, nein), social-expressives:

Floskeln, Grüße (hallo, danke), Gesprächssignale (hm), attention getting devices

(guck), auf das persönliche Erleben bezogene expressive Äußerungen, internal

state-Interjektionen (aua)

Relationale Wörter Relationen zwischen Handlungen/Objekten: Auftauchen/Verschwinden (da,

weg), Ort (oben) Funktionen von/mit Objekten (ran, auf), zeitliche Durchführung

von Handlungen (wieder)

Pronomen Personalpronomen (du), Demonstrativpronomen (dies), Possessivpronomen

(sein) u.a.

Funktionswörter Präpositionen (aus), Hilfsverben (haben), Artikel (ein), Konjunktionen (weil),

Fragewörter (warum) u. a.

Onomatopöien lautmalerische Äußerungen (brumm, tatütata)

Sonstige Partikeln (eben, denn), nicht klassifizierbare Wörter

Tabelle 3.1: Wortartenklassifikation nach Kauschke ([Kauschke (1999)], S. 140)

Diese Wortartenklassifikation unterscheidet neun Kategorien, die(offensichtlich) in sich nicht weiter untergliedert sind. Zumindest in ihrerAnalyse und Darstellung der Wortartenverteilung der untersuchten Kindergeht die Autorin nur von den oben genannten Kategorien aus. Dies magfür die von Kauschke verfolgten Zwecke – nämlich der Darstellung einerWortartendistribution von Kindern im Alter von 13 bis 36 Monaten – sinnvollsein. Für die Ziele der vorliegenden Arbeit ist dies in der Form jedoch nichtübertragbar. Die Klasse der Verben müsste weiter aufgeteilt werden in u. a.finite und infinite Verben, Auxiliar- und Kopulaverben sowie Modalverben. DieKlasse der Nomen sollte in Eigennamen und anderen Nomen differenziertwerden können. Insbesondere die Kategorien personal-social words,Relationale Wörter und Funktionswörter sind für die Ziele der vorliegendenArbeit ungeeignet. Die Beispiele und Untergruppen – wie von Kauschkezu jeder Kategorie aufgeführt – kommen zwar im Wortschatz der hieruntersuchten Drei- bis Fünfjährigen vor, man findet sie allerdings in weitausfeiner abgestuften Nuancen. Dadurch soll eine Distribution aufgezeigtwerden, die mit jener des Wortschatzes von Erwachsenen vergleichbarist. Insbesondere die Klasse der Pronomen erfordert für unser Vorhabeneine feinere Klassifikation. So soll – vor allem in späteren Arbeiten –

44 KAPITEL 3. WORTARTEN IN DER LINGUISTIK

unterschieden werden können zwischen Possessiv-, Relativ-, Interrogativ-,Personal- und Demonstrativpronomen, um eventuelle Veränderungen imGebrauch festzustellen. All diese Möglichkeiten hängen jedoch immer vomZiel und Zweck der jeweiligen Untersuchung ab. Geht man von einem aktivenWortschatz von rund 300 Wörtern bei Zweijährigen im Vergleich zu einemWortschatz von rund 500 Wörtern bei Dreijährigen und 5000 Wörtern beiSechsjährigen aus ([Kauschke (1999)], S. 134), so wird klar, dass für eineDarstellung der Wortartenverteilung unterschiedliche syntaktische Klassenherangezogen werden müssen. Eine Einteilung der Verben in viele weitereUntergruppen ist wenig nützlich, wenn die Kategorie Verb gerade erst imBegriff ist, sich zu etablieren und infolgedessen nur in seltenen Fällenvom Kind geäußert wird. Andererseits ist es wenig sinnvoll, die Klasseder Onomatopöien beizubehalten, wenn doch im Alter von 4 Jahren dieDifferenzierung der Klasse der Verben ein hervorstechendes Merkmalim Sprachgebrauch ist, Onomatopöien jedoch in den Hintergrund treten.Aufgrund dieser Umstände soll eine Klassifikation, die den Zwecken dervorliegenden Arbeit entspricht, gefunden werden.

3.2.2 Stuttgart-Tübingen-Tagsets (STTS)

Im Folgenden werden die Stuttgart-Tübingen Tagsets (STTS) vorgestellt,die am Institut für maschinelle Sprachverarbeitung der Universität Stuttgartund am Seminar für Sprachwissenschaft der Universität Tübingen entwickeltwurden.1 Die STTS enthalten insgesamt 54 Tags (Wortartenbezeichner) fürdeutsche Textkorpora. Die unten stehende Tabelle2 (3.2) stellt alle 54 Tagsvor:

Tabelle 3.2: STTS Tag Table (1995/1996)

POS-Tag DESCRIPTION EXAMPLES

ADJA attributives Adjektiv [das] große [Haus]

ADJD adverbiales oder prädikatives Adjektiv [er fährt] schnell, [er ist] schnell

ADV Adverb schon, bald, doch

APPR Präpostion, Zirkumposition links in [der Stadt], ohne [mich]

APPRART Präposition mit Artikel im [Haus], zur [Sache]

APPO Postposition [ihm] zufolge, [der Sache] wegen

1Für weitere Informationen verweise ich auf die folgende Webseite:http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/GermanTagsets.html (letzter Zugriff18.12.2015)

2Für weitere Informationen verweise ich auf die folgende Webseite:http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/TagSets/stts-table.html; siehe auch[Schiller, Teufel, Stöckert und Thielen (2009)], S. 6-7)

3.2. DIE KATEGORISIERUNG VON WORTARTEN 45

APZR Zirkumposition rechts [von jetzt] an

ART bestimmter oder unbestimmter Artikel der, die, das, ein, eine

CARD Kardinalzahl zwei [Männer], [im Jahre] 1994

FM fremdsprachliches Material [Er hat das mit] A big fish [übersetzt]

ITJ Interjektion mhm, ach, tja

KOUI unterordnende Konjunktion mit „zu“ und

Infintiv

um [zu leben], anstatt [zu fragen]

KOUS unterordnende Konjunktion mit Satz weil, dass, damit, wenn, ob

KON nebenordnende Konjunktion und, oder, aber

KOKOM Vergleichskonjunktion als, wie

NN normales Nomen Tisch, Herr, [das] Reisen

NE Eigennamen Hans, Hamburg, HSV

PDS substituierendes

Demonstrativpronomen

dieser, jener

PDAT attribuierendes Demonstrativpronomen jener [Mensch]

PIS substituierendes Indefinitpronomen keiner, viele, man, niemand

PIAT attribuierendes Indefinitpronomen ohne

Determiner

kein [Mensch], irgendein [Glas]

PIDAT attribuierendes Indefinitpronomen mit

Determiner

[ein] wenig [Wasser[, [die] beiden [Brüder]

PPER irreflexives Personalpronomen ich, er, ihm, mich, dir

PPOSS substituierendes Possessivpronomen meins, deiner

PPOSAT attribuierendes Possessivpronomen mein [Buch], deine [Mutter]

PRELS substituierendes Relativpronomen [der Hund], der

PRELAT attribuierendes Relativpronomen [der Mann], dessen [Hund]

PRF reflexives Personalpronomen sich, einander, dich, mir

PWS substituierendes Interrogativpronomen wer, was

PWAT attribuierendes Interrogativpronomen welche [Farbe], wessen [Hut]

PWAV adverbiales Interrogativ- oder

Relativpronomen

warum, wo, wann, worüber, wobei

PAV Pronominaladverb dafür, dabei, deswegen, trotzdem

PTKZU „zu“ vor Infinitoiv zu [gehen]

PTKNEG Negationspartikel nicht

PTKVZ abgetrennter Verbzusatz [er kommt] an, [er fährt] Rad

PTKANT Antwortpartikel ja, nein, bitte, danke

PTKA Partikel bei Adjektiv oder Adverb am [schönsten], zu [schnell]

TRUNC Kompositionserstglied An- [und Abreise]

VVFIN finities Verb, voll [du] gehst, [wir] kommen [an]

46 KAPITEL 3. WORTARTEN IN DER LINGUISTIK

VVIMP Imperativ, voll komm [!]

VVINF Infinitiv, voll gehen, ankommen

VVIZU Infinitiv mit „zu“, voll anzukommen, loszulassen

VVPP Partizip Perfekt, voll gegangen, angekommen

VAFIN finites Verb, aux [du] bist, [wir] werden

VAIMP Imperativ, aux sei [ruhig]!

VAINF Infinitiv, aux werden, sein

VAPP Partizip Perfekt, aux gewesen

VMFIN finities Verb, modal dürfen

VMINF Infinitiv, Modal wollen

VMPP Partizip Perfekt gekonnt, [er hat gehen] können

XY Nichtwort, Sonderzeichen enthaltend 3:7, H2O, D2XW3

\$, Komma ,

\$. satzbeendende Interpunktion . ? ; :

\$( sonstige Satzzeichen; satzintern - [,] ()

Mit den in der Tabelle aufgeführten Tags ist eine überaus detaillierteWortartenklassifikation entstanden. Die Hauptwortarten (Adjektiv, Adverb,Präposition, Konjunktion, Substantiv, Verb, Pronomen, Partikel) wurden nachsyntaktischen Kriterien so weit untergliedert, dass sie für eine Darstellung derWortartenverteilung in vielen Fällen nutzbar sind. Besonders hervorstechendist die Aufsplittung der Kategorie Verb in Vollverb, Auxiliarverb und Modalverbund diese wiederum jeweils in Imperativ (außer Modalverben), Infinitiv,finites Verb und Partizip Perfekt. Auch die Klasse der Pronomen erfuhr einesehr starke Aufsplittung in Demonstrativ-, Indefinit-, Personal-, Possessiv-,Relativ- und Interrogativpronomen mit jeweils weiteren Unterscheidungen.Derart starke Aufsplittungen sind für den Vorgang des Taggens (Bezeichnender Wortarten) selbstverständlich enorm zeitaufwendig, doch ermöglichensie zum einen eine sehr genaue Darstellung der Verteilung der einzelnenWortarten im Sprachgebrauch, zum anderen können Vergleiche innerhalbeiner Klasse unternommen werden, z. B. zwischen dem Vorkommen vonRelativpronomen im Vergleich zum Gesamtvorkommen der Pronomen.

Inwieweit findet ein adäquater Gebrauch der reflexivenPersonalpronomen statt? Stellen Auxiliarverben eine besondereSchwierigkeit im Sprachgebrauch dar und wenn ja, in welchemAlter?

Diese und weitere Fragen sind sehr leicht beantwortbar, wenn die Dateneines Korpus’ mit Hilfe der STTS getaggt und im besten Falle in eine

3.2. DIE KATEGORISIERUNG VON WORTARTEN 47

Datenbank überführt werden, von der aus viele Untersuchungsschrittegemacht werden können. Zugleich – und diesen Aspekt habe ich bereitserwähnt – ist die Vielzahl an Tags auch nachteilig für die Person, die dasTaggen übernimmt, da das Verfahren dadurch sehr zeitaufwendig ist. Auchist es nicht immer eindeutig, welches Tag für ein bestimmtes Wort gewähltwerden muss. Insbesondere bei der Arbeit an einem Korpus, welcheskindliche Sprache enthält, kommt es zu uneindeutigen Fällen bzw. Fällen,in denen sich die syntaktische Kategorisierung nicht mit der semantischenAbsicht des Gesagten deckt. Typische uneindeutige Fälle in dieser Arbeitsind z. B.: „Ich nehme das grüne xxx.“ In diesem Beispiel fehlt recht eindeutigdas Nomen, welches an dieser Stelle akustisch nicht nachvollziehbar war.Ebenso könnte grüne als NN getaggt werden, weil es in diesem Fall ohneNomen (xxx) auftritt und dadurch als substantivierter Infinitiv bezeichnetwerden kann. Als transkribierende Person kann ich durch meine Anwesenheitwährend der Aufnahme und durch angefertigte Mitschriften in diesem Fallnachvollziehen, dass das Kind an Stelle des xxx ein Nomen verwendethat und bezeichne grüne mit dem POS-Tag ADJA. Eine besonders häufigauftretende Diskrepanz zeigt sich bei der Bezeichnung des Verbs sein, dasje nach Kontext Kopulaverb, Auxiliarverb, Vollverb oder gar ein Verb in einemFunktionsverbgefüge sein kann. In den STTS gibt es nur die Möglichkeitsein als Auxiliarverb (VA) oder Vollverb (VV) zu bezeichnen. In den Fällen,in denen sein Auxiliarverb ist, stellt das kein Problem dar. In den überaushäufigen Fällen, in denen es Kopulaverb ist, kann unter Verwendung der STTSnur mit VV gekennzeichnet werden, da ein POS-Tag für Kopulaverben nichtvorliegt. An späterer Stelle in dieser Arbeit werden deshalb alle syntaktischenWörter nochmals nach semantischen Kriterien auf Basis der Regeln derDudengrammatik getaggt, wodurch unter anderem auch das Problem derMultifunktionalität von sein gelöst wird (Kapitel 7). Die eben dargestelltenFälle zeigen, dass es an vielen Stellen zu mehrdeutigen Situationen kommenkann. Das bedeutet jedoch nicht, dass die eine oder andere Form derKategorisierung falsch ist. Vielmehr entstehen derartige Probleme durchunterschiedliche Sichtweisen der taggenden Person und durch das jeweiligeZiel, das mit der Klassifikation der Wortarten verfolgt wird.

3.2.3 Die Wahl einer geeigneten Kategorisierung - Auswahl undBegründung

In diesem Abschnitt möchte ich die Auswahl der für diese Arbeit gewähltenKategorisierung begründen. Ich beziehe mich dabei nur auf die obenaufgeführte Wortartenklassifikation von Kauschke sowie die STTS –

48 KAPITEL 3. WORTARTEN IN DER LINGUISTIK

wohlwissend, dass es viele weitere gibt. Doch es ist an dieser Stelleunmöglich, mich auf alle existierenden Klassifikationsvorschläge zubeziehen.3

Kauschke (1999) verwendet eine Einteilung, die sich besonders für eineAnalyse von Sprache in einem frühen Stadium im Spracherwerb eignet.Für eine Beschreibung des Lexikons Drei- bis Fünfjähriger ist sie jedochnicht ausreichend. Vor allem für einen späteren Vergleich mit der SpracheErwachsener erweisen sich einige Kategorien als unbrauchbar. Die KategorieRelationale Wörter beinhaltet beispielsweise Wörter des Ortes, wie obenoder Funktionen mit Objekten wie ran oder auf. Diese könnten ebensoder Kategorie Adverb angehören bzw. eine Verbpartikel darstellen im Fallevon ran oder auf. Die Kategorie Pronomen ist nicht weiter aufgesplittet.Zur Kategorie Funktionswörter gehören Artikel, Hilfsverben, Konjunktionen,Fragewörter und Präpositionen, die meiner Meinung nach eigene Kategoriendarstellen sollten. Insgesamt halte ich diese Klassifikation zur Beschreibungder Wortartenverteilung bei Ein- bis Dreijährigen für sehr sinnvoll, fürden Wortschatz von Drei- bis Fünfjährigen ist sie hingegen nicht mehrausreichend.

Die STTS sind ein häufig verwendetes Tagset, wenn es darum geht,eine Wortartendistribution zu erstellen. Aufgrund dieser Popularität unddes logischen Aufbaus habe ich mich dazu entschieden, sie für dieseArbeit zu verwenden. Das syntaktische Wort steht im Mittelpunkt derArbeit und es ist relevant bei jenem Schritt der Analyse, bei dem es umdie Wortartenbezeichnung mittels der STTS geht. Dafür müssen zuvordie gesprochenen Wörter in graphematische Wörter transkribiert werden(Abschnitt 4.1.4). Ausgehend vom syntaktischen Wort erweisen sichdie STTS als geeignet. Probleme tauchen dahingehend auf, dass diegesprochene Sprache der Kinder oft unvollständig bzw. unverständlich ist.Diese Probleme können jedoch relativ gut klassiert werden. Es wurdenRegelungen geschaffen, so dass eine Bezeichnung mit den jeweiligenPOS-Tags möglich war (Abschnitt 4.1.7). Die STTS haben zudem den Vorteil,dass Klassen von POS-Tags zusammengefasst werden können, ohne dasseine Wortart verloren geht. Bei Bedarf kann hingegen die ganze Bandbreiteder Wortarten Anwendung finden (Tabelle 3.2) oder es können Kategoriennach individuellem Bedarf zusammengefasst werden (Tabelle 6.1).

3Weitere Literatur zum Thema Wortarten und deren Klassifikation: [Budde (2000),Bergenholtz und Schaeder (1977), Hoffmann (2009), Ruoff (1981), Vogel und Thieroff (2009)]

Kapitel 4

Beobachtungsstudie - Ziele undMethodik

In diesem Kapitel soll die für die Ergebnisse der Arbeit zugrunde liegendeBeobachtungsstudie erläutert werden. Eine Voraussetzung für das Erreichender Ziele dieser Arbeit war es, ein Korpus der Spontansprache vondeutschsprachigen Kindern zwischen 3;5 und 5;5 Jahren zu erstellen.Den Input für dieses Korpus bildeten Sprachaufnahmen, die in der Kitades Studentenwerkes an der Technischen Universität Berlin1 gesammeltwurden. Die Sammlung wurde durch die Methode der teilnehmendenBeobachtung erstellt. Diese Methode schien für den übergeordneten Zweck- dem Sammeln von spontanen Daten - die sinnvollste und zugleich einzigezu sein. Eine Untersuchung der Kinder unter kontrollierten Bedingungen,wie zum Beispiel im Labor, sollte für den Erhalt spontaner Daten unbedingtvermieden werden. Es erwies sich zudem als sehr geeignet, die Daten miteinem Diktiergerät aufzunehmen, weil die beobachteten Kinder jung genugwaren, um sich aufgrund eines technischen Gerätes nicht beobachtet zufühlen. Das sogenannte Beobachterparadoxon konnte somit ausgeschlossenwerden ([Albert und Koster (2002)]). Insgesamt wurden etwa 40 StundenAudiomaterial gesammelt. Von diesem Material wurden 26815 Tokens in dieAnalyse einbezogen. Alle Daten wurden sowohl quantitativ als auch qualitativausgewertet. Dafür wurden diese zunächst mit dem TranskriptionsprogrammFOLKER2 transkribiert und anschließend mit dem EXMARaLDA PartiturEditor (Abschnitt 4.1.6). analysiert. Anschließend wurden alle erstelltenEXMARaLDA-Dateien mit den dazugehörigen Informationen in eineDatenbank importiert. Mit Hilfe dieser Datenbank ([Mack (2014)]) können

1Genauere Informationen zur Kita finden Sie im Internet unterhttp://www.studentenwerk-berlin.de/kita/standorte/kita_tu/index.html.

2Genauere Informationen zu FOLKER finden Sie im Internet unterhttp://agd.ids-mannheim.de/folker.shtml

49

50 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK

relevante Abfragen getätigt und Ergebnisse ausgegeben werden, die überdie Wortartenverteilung in verschiedenen Altersclustern sowie über dieType-Token-Verteilung (Paragraph 4.1) Aufschluss geben. Ferner erfolgte eineKlassifizierung aller Lemmata hinsichtlich ihrer Bedeutungskategorie und eineanschließende Zusammenstellung dieser in einem Lexikon des Vorschulalters(Kapitel 7; Anhang).

Im Verlauf der Arbeit sollen vor allem folgende Fragen überprüft werden:

1. Gibt es im Alter von 3;5 bis 5;5 Jahren individuelle Unterschiede in derVerteilung der Wortarten?

2. Ist hinsichtlich der Verwendung der Wortarten sowie in der inhaltlichenEntwicklung des Lexikons ein Trend erkennbar (individuell oderallgemein) oder bleibt die Komposition des Lexikons zwischen 3;5 und5;5 Jahren konstant?

3. Wie ist das Lexikon der hier untersuchten Kinder zwischen 3;5 und 5;5Jahren komponiert?

4.1 Methodik

Bevor die einzelnen Teilschritte des methodischen Vorgehens näher betrachtetwerden, möchte ich einige allgemeine Möglichkeiten der Untersuchung desWortschatzes bei Kindern aufzeigen. Grundlegend können im Hinblickauf die Zielstellung zwei verschiedene Untersuchungen des Wortschatzesvorgenommen werden: eine Analyse des produktiven und/oder eine Analysedes rezeptiven Wortschatzes. Für welches Vorgehen man sich entscheidet,ist abhängig davon, wofür die Daten verwendet werden sollen und welcheErgebnisse erwartet werden. Bei beiden Methoden ist es nahezu unmöglich,den Wortschatz vollständig zu erfassen.

Um das rezeptive Vokabular eines Kindes zu überprüfen, könnenVokabularchecklisten eingesetzt werden. Diese enthalten eine Zusammen-stellung des kindlichen (Gesamt-)vokabulars. Durch unterschiedlicheMethoden wird das Kind auf das Verständnis jeder Vokabel hin überprüft(siehe auch [Kauschke (2000)], S. 75). Der produktive Wortschatzbleibt bei diesem Verfahren quasi unberührt, wodurch ein Erfassendes Gesamtwortschatzes nicht möglich ist. Die wahrscheinlich ältesteMethodik zur Erfassung des produktiven Vokabulars bieten sogenannteElterntagebücher (z. B. [Stern und Stern (1965)]). Dabei halten Eltern jedesneue Wort ihres Kindes in Verbindung mit weiteren Daten wie Zeitangaben,Gestik, Mimik etc. fest. Ein solches Verfahren bietet sicher umfangreiche

4.1. METHODIK 51

Ergebnisse, die aber einen ebenso umfangreichen Einsatz der Elternverlangen.

Kauschke (2000) bietet weiterhin eine gute Übersicht über den Einsatzvon Beobachtungsmethoden, die ich im Folgenden kurz darstellen möchte,da es sich auch in der vorliegenden Arbeit um eine Beobachtungsstudiehandelt ([Kauschke (2000)], S. 76-82). Beobachtungsdaten können lautKauschke durch Video- und/oder Audioaufnahmen erhoben werden. DieseAufnahmen können an verschiedenen Orten stattfinden: im Labor, zu Hause,in Kindertagesstätten etc. Im Anschluss an die Aufnahmen, müssen dieerhobenen Sprachdaten transkribiert werden, wobei die Auswahl einesgeeigneten Transkriptionssystems abhängig von der jeweiligen Fragestellungist (siehe dazu auch Abschnitt 4.1.4). Nachdem das Transkript bzw. dieTranskripte erstellt wurden, kommen unterschiedliche Auswertungsmethodenzum Einsatz. Diese können quantitative und/oder qualitative Aspekte desLexikons berücksichtigen (ebd.). In der vorliegenden Arbeit werden - wiespäter ersichtlich - quantitative und qualitative Gesichtspunkte untersucht.Die Vorteile einer solchen Erhebung liegen vor allem darin, dass zahlreicheAspekte der Sprache ersichtlich werden. Während bei einer Datenerhebungmittels Fragebögen lediglich das Wissen um die Lexeme deutlich wird,gewähren beispielsweise durch Audio- und / oder Videoaufnahmengewonnene und später transkribierte Daten Einblick in die phonologischeRealisation von Wörtern. Aber auch gestische und mimische Gesichtspunktesowie die Prosodie können untersucht werden. Ebenso können sämtlichephonetische Untersuchungen mittels akustischer Daten vorgenommenwerden. In der vorliegenden Arbeit wurden Audiodaten mit zusätzlichenProtokollen der Interviewerin erhoben. Ein solches Verfahren wurde im Vorfeld(und im Nachhinein) als ausreichend erachtet, da lediglich der Wortschatzuntersucht werden soll. Eine Videoinstallation an jedem der Aufnahmetagewäre zu aufwendig gewesen, zumal das Lexikon in seiner Entwicklung imMittelpunkt der Untersuchung steht, nicht aber die Interaktion zwischen denKindern untersucht werden sollte. Nichtsdestotrotz sollten aufgrund der rechtguten Tonqualität auch phonetische Analysen möglich sein, die mit denvorliegenden Daten bisher jedoch nicht durchgeführt wurden.

Hinsichtlich der zeitlichen Aspekte können zum einen Längsschnittstudien,zum anderen Querschnittstudien durchgeführt werden. Bei einerLängsschnittstudie werden einzelne Kinder über einen längeren Zeitraumbeobachtet, wodurch sich die Entwicklung der sprachlichen Fortschritte gutverfolgen lässt. Eine Querschnittstudie wird zu einem gegebenen Zeitpunktmit mehreren Kindern durchgeführt und soll - wie der Name schon sagt - einenQuerschnitt über die sprachlichen Fähigkeiten aller Kinder aufzeigen. In der

52 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK

vorliegenden Beobachtung handelt es sich um eine Studie mit vielen Aspekteneiner Längsschnittstudie. Oberste Priorität war es, möglichst spontane undnicht elizitierte Daten zu erhalten. Aus diesem Grund wurden die einzelnenKinder nicht an an jedem Aufnahmezeitpunkt einzeln aufgenommen,sondern nur an jenen Tagen, an denen sie freiwillig dazu bereit waren.Dementsprechend können keine (oder nur wenige) Entwicklungsschritteeinzelner Kinder aufgezeigt werden. Wie sich später zeigen wird, ist die fürdiese Arbeit gewählte Vorgehensweise ausreichend, da sie zudem nicht denAnspruch einer experimentellen Untersuchung hat.

Was hier nicht getroffen werden kann und soll ist eine Aussage überdie rezeptiven Sprachleistungen sowie über die Größe des Wortschatzes.Letzterer ist meiner Meinung nach nie vollständig erfassbar, da sowohlproduktive als auch rezeptive Sprachleistungen berücksichtigt werdenmüssen. Da in dieser Arbeit nur die syntaktischen Wörter im Gebrauchbei Kindern im Vorschulalter erfasst werden, sind die erstellten Transkriptevollkommen zweckmäßig (siehe auch [Kauschke (2000)], S. 78).

Wie bereits weiter oben angeführt, werden in der vorliegendenArbeit sowohl quantitative als auch qualitative Aspekte des kindlichenLexikons betrachtet. Aus diesem Grund kommen auch unterschiedlicheAuswertungsmethoden zum Einsatz. Bezüglich der quantitativenGesichtspunkte werden (ansatzweise) einerseits die Tokens (alle voneinem Kind geäußerten und später aufbereiteten syntaktischen Wörter) undandererseits die Types (alle unterschiedlichen von einem Kind geäußertenWörter in Bezug auf ihre Lemmata) berechnet und zudem in Relationzueinander gesetzt, um das Verhältnis der Types zu den Tokens zu ermitteln.In traditionellen Messungen der Type-Token-Relation wird die Gesamtanzahlder Types durch die Gesamtanzahl der Tokens dividiert ([Kauschke (2000)],S. 81). Dies wirft allerdings die Frage auf, was damit genau gemessenwerden soll: altersbedingte Veränderungen und/oder die Abgrenzung vonKindern mit unterschiedlichen individuellen Fähigkeiten? Zudem nimmt dieType-Token-Relation (im Folgenden TTR) ab, je mehr Tokens berücksichtigtwerden, da es laut Kauschke (2000) zu Wiederholungen von Wörtern kommt([Kauschke (2000)], S.81ff.). Mittlerweile wurden verschiedene Möglichkeitenerprobt, um die TTR zu ermitteln und die im Folgenden kurz erörtert werdensollen.

Die Type-Token-Relation In diesem und den folgenden Paragraphen soll dasVerhältnis der Types (alle verschiedenen Wörter im gegebenen Korpus) zuden Tokens (alle Wörter im gegebenen Korpus) unter allgemeinen Aspekten

4.1. METHODIK 53

analysiert werden. Ziel ist es herauszufinden, ob eine Type-Token-Analysemit den Daten der vorliegenden Arbeit notwendig und sinnvoll ist. Eine rechtübersichtliche Definition dazu liefert meiner Meinung nach Wimmer (2005):

„The type-token relation is understood as the ration of thenumber of different words to all words in the text, or with otherwords, the ration of vocabulary richness to the text length.“([Wimmer (2005)], S. 361)

Wimmer erläutert sehr übersichtlich die unterschiedlichen Interpretationen,Methoden zur Berechnung der Type-Token-Ratio sowie auch Möglichkeitenzur Modellierung. Da der Artikel der Autorin sehr umfassend und übersichtlichgestaltet ist und die für die vorliegende Arbeit nötigen Grundlagen zumThema Type-Token-Ratio enthält, möchte ich mich im Folgenden daraufstützen ([Wimmer (2005)]). Wimmer geht auf die Vor- und Nachteile jederMethode im Hinblick auf die jeweils verfolgten Zwecke ein. Demzufolgesei dieses Forschungsinteresse heutzutage nicht nur sehr umfassend,sondern auch äußerst uneinheitlich, da jedes neue Forschungsfeld auch neueUnregelmäßigkeiten mit sich bringe. Dieser Mangel an Uneinheitlichkeit ist auffolgende Aspekte zurückzuführen:

1. Identifikation der Types

2. Interpretation

3. Messung

4. Entstehung und theoretische Annäherung

5. Statistische Prozesse (Stichproben etc.)

Ich möchte nachfolgend nicht auf jeden einzelnen Aspekt eingehen, sondernnur jene betrachten, die für die Zwecke der vorliegenden Arbeit relevantsein können. Deshalb gehe ich vor allem auf die Punkte 1 bis 3 ein und inAnnäherung auf Punkt 4.

Identifikation Laut Wimmer gibt es zwei Möglichkeiten, die Types in einemText zu identifizieren.

i) Es werden unterschiedliche Wortformen betrachtet. Bei dieser Technikwird das Konzept des Lexems bzw. des Lemmas völlig außer Acht gelassen.Das Resultat zeigt lediglich die Formenvielfalt der Sprache, nicht aber dieVielfalt des Vokabulars.

54 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK

ii) Es werden unterschiedliche Lexeme betrachtet. Diese Methodeführt zu komplexen qualitativen Problemen. Die Daten müssten zuvoradäquat vorbereitet werden (von Hand oder mit Hilfe von Programmen).Diese Vorbereitung aber hängt von der linguistischen Schule ab, die dieuntersuchende Person genossen hat. Demzufolge können Probleme folgenderArt entstehen:

a) Im Deutschen sind die unbestimmten Artikel ein, eine, einer,eines vereinigt in dem Lexem ein. Wie verhält es sich dann mitden bestimmten Artikeln der, die, das oder den dazugehörigenPronomen er, sie, es?

In der vorliegenden Arbeit wird mit diesen Erscheinungen folgendermaßenumgegangen: die unbestimmten Artikel werden beim Vorgang derLemmatisierung nur durch die Wortform ein lemmatisiert, ungeachtetdessen, ob es sich um einen femininen, neutralen oder maskulinen Artikelhandelt. Der Kasus ist immer im Nominativ. Die bestimmten Artikel werdenlediglich unterschieden nach Singular (d) und Plural (d-p). Getaggt wird inFällen des unbestimmten und des bestimmten Artikels immer mit ART. DiePronomen er, sie, es wurden im Zuge der Lemmatisierung unterschiedennach Geschlecht und auch sie erhalten das entsprechende Lemma in derNominativ-Form mit der jeweiligen Genuszuweisung. Daraus ergeben sichals mögliche Lemmata nur die Formen ich, du, er, sie, es, wir, ihr und sie.Alle anderen Wortformen, wie z. B. ihm oder mich werden ebenso in ihrerNominativ-Form lemmatisiert. Getaggt wurden solche Pronomen je nachKontext als irreflexives Personalpronomen, also PPER oder als reflexivesPersonalpronomen (PRF).

b) Wie geht man um mit analytischen Konstruktionen wie amschönsten, was in diesem Fall den Superlativ eines Adjektivesdarstellt, dessen andere Formen synthetisch sind?

In der vorliegenden Arbeit kann dieses Problem ebenfalls durch die Strukturder STTS gelöst werden. Für eine solche Konstruktion gibt es klar abgegrenztePOS-Tags. So wird das Tag PTKA für Partikeln in Verbindung mit Adjektivenim Superlativ genutzt, also in diesem Falle für am. Handelt es sich bei am umeine Präposition, würde es mit APPRART getaggt werden. Zudem behält am(PTKA) nach der Lemmatisierung die Wortform am, während die Präpositionam zu an würde, weil es sich in diesem Fall um die Präposition an + Artikelhandelt. Der Superlativ schönsten wird nach der Lemmatisierung in seinerGrundform schön notiert und erhält das POS-Tag (ADJA bzw. ADJD).

4.1. METHODIK 55

c) Wie kann das Problem von Verbformen wie in „ich werde gelobtwerden“. gelöst werden? Handelt es sich hierbei um zweiLemmata, drei oder sogar vier?

Diese Verbform tritt in den zu analysierenden Daten dieser Arbeit nicht auf,wodurch das oben genannte Problem irrelevant ist. Für den hypothetischenFall, dass die aufgeführte Verbform mit Hilfe der STTS getaggt werden würde,ergäbe sich folgende Kennzeichnung: ich (PPER) werde (VAFIN) gelobt(VVPP) werden (VAINF/VVINF). Die dazugehörigen Lemmata wären: ich (ICH)werde (WERDEN) gelobt (LOBEN) werden (WERDEN). Würde an dieser Stellenur lemmatisiert werden, könnte dies durchaus ein Problem bei der späterenZuordnung der Lemmata zu den entsprechenden Wortformen geben. Da diejeweiligen POS-Tags jedoch immer mit den Wörtern und den Lemmata in derDatenbank (Kapitel 5) verknüpft sind, ist eine spätere Zuordnung möglich.In der Datenbank wäre leicht erkennbar, dass das erste Lemma WERDEN

das Tag VAFIN besitzt und das letzte Lemma WERDEN das Tag VAINF bzw.VVINF.

d) Wie geht man mit dem Problem der Homonymität um, welchesdurch ein Programm leicht verdeckt bzw. nicht erfasst werdenkann, z. B. der Artikel ein, die Zahl ein und das Präfix ein (ich tratein).

Auch dieses Problem kann unter der Verwendung der STTS und seinenPOS-Tags nicht auftreten. Der Artikel wird getaggt mit ART, die Zahl wirdgetaggt mit CARD und für das Präfix gibt es das Tag PTKVZ. Das Taggenerfolgt selbstverständlich immer von Hand. Würde es automatisiert werdenkönnen, wäre eine solch genaue Bezeichnung sicher (noch) nicht möglich.Diese Methode erfolgt - zumindest unter diesen Umständen - auf einersyntaktischen Basis, was im Grunde den Zielen dieser Arbeit widerspricht. Dajedoch die STTS die Basis der Wortartenbestimmung bilden, muss in diesenFällen von einer rein lexikalisch basierten Wortartenbestimmung abgesehenwerden.

e) Wie kann das Problem femininer Formen3 von Nomen gelöstwerden, z. B. beau und belle oder actore and actrice?

Die Verwendung von Nomen in der femininen respektive maskulinen Formstellt auch in der vorliegenden Arbeit zum Teil ein Problem dar. In fast allen

3An dieser Stelle möchte ich darauf hinweisen, dass diese Problemstellung, wie schon erwähnt,von Wimmer (2005) formuliert wurde. Selbstverständlich stellen feminine Formen kein Problem dar undmeiner Meinung nach wäre es ebenso möglich, die maskulinen Formen im Zusammenhang mit demTaggen zu problematisieren. Da dies jedoch eine gesonderte Diskussion unter Berücksichtigung vonGenderaspekten erfordern würde, möchte ich hier nicht näher darauf eingehen.

56 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK

Fällen handelt es sich dabei um Nomen, die entweder nur in der einen oderin der anderen Variante verwendet wurden. Es wurde das Wort Erzieheringeäußert, nicht aber Erzieher. Oder es kam zu Äußerungen wie Krieger, nichtaber Kriegerin. In diesen Fällen, in denen also die Verwendung der femininenoder maskulinen Form möglich ist, aber nur eine Form genutzt wurde, wurdediese Form auch nach der Lemmatisierung beibehalten.

Interpretation Hinsichtlich der Interpretation der Type-Token-Ratiosuggeriert Wimmer zwei Möglichkeiten:

i) Das Verhältnis ist charakteristisch für die Vielfalt des Wortschatzes einesTextes.

ii) Das Verhältnis ist ein Modell des Informationsflusses im Text.Der erste Fall (i) ist nur möglich, wenn die Type-Identifikation laut Punkt

ii) (Abschnitt 4.1) stattgefunden hat. Wenn man annimmt, dass dies sogeschehen ist, dann wird das Verhältnis der Types zu den Tokens durch einenIndex oder eine Kurve charakterisiert werden. Es ist zudem bekannt, dass mitsteigender Textlänge das Ansteigen neuer Wörter verlangsamt ist. Folglichmüssen die Indizes relativiert werden und diese Umstände veranlassendie Entwicklung von immer neuen Indizes oder einer Transformationbereits bestehender Indizes, so Wimmer. Demnach seien einige Indizesirrelevant. Dies betreffe auch Graphen, die das Ansteigen neuer Wörterbeschreiben (dargestellt in ihrer logarithmischen Form). Aufgrund dieserMathematisierung würde man sich in einigen Fällen der Unendlichkeitnähern, was linguistisch gesehen nicht möglich ist. Wimmer erläutert, dassMathematiker daraufhin Abhilfe schafften und eine Annäherung gegen einenfiniten Wert erlangten. Eine Möglichkeit war es, den Graphen einfach ander Stelle abzubrechen, an welcher der Text zu Ende ist. Dieser Vorgangwurde dann als Vielfalt des Wortschatzes eines Autors bezeichnet. Tatsachesei jedoch, so Wimmer, dass sich alle Texte eines Autors unterschiedlichenPunkten nähern. Folglich sei jegliche Prognose illusorisch. So kenne jedeerwachsene Person fast alle Wörter ihrer Sprache, auch wenn sie diese nichtalle verwendet. Der Unterschied bestehe in einigen tausend Wörtern, dieman nur in speziellen Wörterbüchern findet. Um ihre Hypothese zu stützennehmen Mathematiker an, dass der Punkt der Annäherung die Anzahl jenerWörter meint, die der Autor für seine eigenen Zwecke einbaut, um seinenText zu schreiben. Wimmer (2005) steht dieser Behauptung mit Skepsisgegenüber und betitelt die Bezeichnung der Type-Token-Ratio als eineMessung der Wortschatzvielfalt als Fehlbezeichnung. Bestenfalls könne die

4.1. METHODIK 57

Type-Token-Ratio als Messung der Wortschatzvielfalt in einem Text fungieren([Wimmer (2005)], S. 362).

Laut Wimmer ist Fall ii) korrekt. In ihrer Begründung zu dieser Entscheidungschreibt sie, dass in einem Text immer Information übermittelt wird. EineMöglichkeit dies zu tun, sei es, neue Wörter einzubringen oder alteWörter auf unterschiedliche Weisen zu kombinieren. In didaktischenTexten fließe die Information langsamer, weil Wiederholungen notwendigsind; in lyrischen Texten hingegen fließe die Information schneller, weilWiederholungen vermieden werden. Ein Transfer der Information bedeute,dass der Sprecher oder Schreiber ein Wissenssystem in den Hörereinbaut, das dem eigenen sehr ähnlich ist und das zwei Dinge benötigt -Inputerhaltung und Inputinformation. Die Inputerhaltung besteht laut Wimmeraus Wiederholungen bekannter Wörter oder ihrer Rekombinationen, dielediglich die Anzahl der Tokens erhöhen. Die Inputinformation erhöht dieAnzahl der Types, schafft neue Beziehungen im Wissensystem und erweitertes. Folglich sei die Erhaltung regulierend und stabilisierend, die Informationselbstorganisierend.

Trotz der Kritik Wimmers, Möglichkeit i) der Interpretation sei zu einigenTeilen Unsinn, wird sie (zumindest teilweise) in dieser Arbeit angewendet.Allerdings muss betont werden, dass die untersuchten Daten vorher adäquataufbereitet wurden - sowohl von Hand als auch mit Hilfe von Programmen.Sofern dies geschehen ist, ist laut Wimmer auch eine Interpretation nachMöglichkeit i) zulässig.

Messung Hinsichtlich der Messung der Type-Token-Relation zeigtWimmer (2005) drei Methoden auf:

i) Der Position jedes Tokens (x) wird die Anzahl der Types (y) bis zu dieserPosition zugeordnet.

Dies sei die gebräuchlichste Methode, die wiederum einen monotonsteigenden Graphen generiert (<token, type>).

ii) Das Dividieren der Anzahl der Types bis zur Position x durch die Positionselbst.

Dies ergebe eine monoton fallende Funktion (<token, type/token>).iii) Die Köhler-Galle-Methode ([Köhler und Galle (1993)])

TTRx =tx+ T − xT

N

N

wobei: x = Position im Text (Anzahl von Tokens bis zu dieser Position x),

58 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK

tx = Anzahl von Types bis zur Position x (inkl.), T = Anzahl von Types imgesamten Text, N = Textlänge (Anzahl von Tokens im gesamten Text); <x,TTRx>.

Methode i) ist für die zu analysierenden Daten dieser Arbeit nichtpraktikabel, da es sich um annähernd 30.000 Tokens handelt.4 Auch Methodeiii) erschien für die hier vorliegenden Daten nicht passend zu sein, da es sichum gesprochene Daten handelt, die nur schwer in eine bestimmte Textlängeumgerechnet werden können. Vielmehr wurde aus praktikablen GründenMethode ii), wenn auch in abgewandelter Form, durchgeführt.

Entwicklung und Modellierung Wimmer beschreibt drei Annäherungen,um die Type-Token-Ratio eines Textes zu beschreiben:

1) Entwurf eines Index’, der den Wortschatz eines Textes beschreibt.In der Mehrheit werde dabei die Lexemanzahl und die Textlänge(Token-Anzahl) berücksichtigt. Aber auch eine spezielleHäufigkeitsklasse (z. B. Hapax Legomena) oder die gesamteVerteilung der Lexeme können Berücksichtigung finden. DieserArt sind beispielsweise die Arbeiten von Ejiri et al. (1993) oderYule (1944), so Wimmer ([Ejiri und Smith (1993)]; [Yule (1944)]).

2) Entwurf eines Graphen, der den Informationsfluss eines Texteserfasst.

3) Ausgehend von einem statistischen Prozess werden neueWörter generiert und die Ergebnisse für unterschiedliche Zweckeverwendet (Wortschatzreichtum, Prognosen, Type-Token-Ratio,Häufigkeitsverteilungen).

Tatsache sei, dass all diese Hinweise, Graphen, Verteilungen etc. akzeptabelsind. Problematisch ist das, was wir erfassen wollen und welche theoretischeTiefe wir erreichen möchten ([Wimmer (2005)], S. 364).

Je nach verwendeter Methode müssen laut Kauschke (2000)entsprechende Effekte berücksichtigt werden, die bei der Interpretationzu Tage treten ([Kauschke (2000)], S. 83). Des Weiteren sollte vorallem aufgrund unterschiedlicher Methoden von einem Vergleich mit denErgebnissen anderer Studien Abstand genommen werden. Demzufolge seidie TTR besonders der Sprechfreudigkeit sowie der allgemeinen Produktivität

4Eine beispielhafte Übersicht findet sich in dem von Wimmer (2005) verfassten Paper([Wimmer (2005)], S. 363).

4.1. METHODIK 59

des jeweiligen Kindes unterworfen, wodurch es zu Einbußen bei derAussagegenauigkeit kommen kann.

Trotz aller Kritik an der Berechnung der TTR soll diese in der vorliegendenArbeit im weiteren Verlauf zu einem kleinen Teil ermittelt werden (Abschnitt6.2.3). Zum einen aus purer Neugier meinerseits, welche Ergebnisse zu Tagetreten; zum anderen bin ich daran interessiert, ob sich bei den Kindern in dendrei Altersguppen Unterschiede auftun.

In Bezug auf qualitative Beschreibungen des kindlichen Lexikons wurdein Kapitel 3 bereits auf die Wortarten eingegangen. Demnach beinhaltetdie Analyse qualitativer Aspekte in dieser Arbeit die Identifizierung jenerWortarten, welche die Kinder im untersuchten Zeitraum verwendeten. DesWeiteren wird im Anschluss daran eine Veranschaulichung der Verteilungdieser Wortarten unter unterschiedlichen Gesichtspunkten vorgenommen. InKapitel 7 werden alle Lemmata nach semantischen Kriterien kategorisiert.Zusätzlich wird im Abschnitt 7.2 eine Analyse der inhaltlichen KategorienNomen, Verb, Adjektiv und Adverb sowie im Abschnitt 7.3 der Funktionswörtervorgenommen. Abschließend wird ein Lexikon des Vorschulalters auf derBasis aller zuvor getätigten Analysen erstellt.

4.1.1 Sprachaufnahmen

Um dem Anspruch dieser Arbeit gerecht zu werden und möglichst spontaneSprache analysieren zu können, führte der Weg zum Erhalt der Sprachdatenin eine Kindertagesstätte. Einzelgespräche im Labor oder auch in der Kitaselbst wurden bereits im Vorfeld ausgeschlossen, da solche Situationen oftunnatürlich sind und Kinder sich oft anders verhalten als im natürlichen Alltag.Vor den eigentlichen Aufnahmen wurden die Eltern an einem Elternabendüber das Vorgehen informiert. Aus rechtlichen Gründen mussten alle Eltern,die sich zu diesen Aufnahmen bereit erklärten, eine Einverständniserklärungunterschreiben. Insgesamt haben die Eltern von 16 Kindern die Erklärungunterschrieben. Von diesen 16 Kindern konnten 12 zur Auswertungherangezogen werden. Gründe für einen Ausschluss der Daten warenbeispielsweise zu leise oder zu kurze Aufnahmen. Äußerten sich Kinder imZeitraum der Sprachaufnahmen gar nicht, dann wurden auch diese nichtin die Auswertung einbezogen. Die Aufnahmen begannen am 15.09.2009und endeten am 28.04.2010. Sie fanden jeweils einmal wöchentlich für circazwei Stunden in der Kita statt. Die Interviewerin stellte sich den Kindernvor und fungierte nach Außen wie eine neue Erzieherin oder Praktikantin.Auf Nachfragen einiger Kinder nach dem Grund meines zweistündigenBesuchs wurde diesen kurz der Ablauf der Aufnahmen erläutert. Keines der

60 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK

Kinder wirkte daraufhin gehemmter in seinen Ausführungen. Es schien, alsseien die Erläuterungen der Interviewerin eher unwichtig und waren schnellvergessen. Des Öfteren wurde die Interviewerin als betreuende Personwahrgenommen, was darauf schließen lässt, dass sich die Kinder spontanverhielten und folglich spontane Sprache verwandten. In den zweistündigenBesuchen spielte die Interviewerin meist mit mehreren Kindern, zum Teilauch gleichzeitig. Dies führte dazu, dass die Kinder oft gleichtzeitig sprachenund sich die Transkription der Aufnahmen sehr mühselig und zeitaufwendiggestaltete. Doch nur auf diese Weise war gegeben, dass sich die Kindermöglichst spontan und ungezwungen verhielten. Ein weiterer Nachteil dernatürlichen Aufnahmesituation war, dass sich auch Kinder an den Aufnahmenbeteiligten, die von Seiten der Eltern aus nicht aufgenommen werdendurften. Diese Daten mussten in einem sehr zeitaufwendigen Verfahren imAnschluss wieder aus den Aufnahmen gelöscht werden. Die unten stehendeÜbersicht zeigt alle Aufnahmen, verbunden mit einer Beschreibung derSituation während der Aufnahme sowie dem Aufnahmedatum. Die einzelnenAufnahmebezeichnungen sind hier bereits nach Kindern aufgeschlüsselt, sodass erkennbar ist, welche Kinder tatsächlich Redeanteile haben. Insgesamtkonnten auf diese Weise circa 40 Stunden auswertbares Audiomaterialgesammelt werden. In der späteren Auswertung wurden alle Kinder insogenannte Altersgruppen eingeteilt. In Gruppe 1 befinden sich alle Kindermit einem Alter von ca. 3;5 bis 4;1 Jahre. Gruppe 2 umfasst die Kinder vonüber 4;1 bis 4;7 Jahren und Gruppe 3 umfasst alle Kinder von über 4;7 bis5;5 Jahren. Für die weitere Arbeit erhalten die Gruppen die Bezeichnungen:Gruppe 1281_1495 (Gruppe 1), Gruppe 1496_1708 (Gruppe 2) und Gruppe1709_1983 (Gruppe 3). Die Bezeichnung der Zeiträume mittels der Angabein Tagen beruht auf der intensiven Arbeit mit spezieller Software sowie einerDatenbank, die jeweils mit diesen Angaben arbeiten (Kapitel 5). Um keineUnstimmigkeiten aufkommen zu lassen, sollen diese Bezeichnungen auch imweiteren Verlauf beibehalten werden.

Nummer der Aufnahme Beschreibung des Kontextes zum Zeitpunkt

der Aufnahme

Datum der Aufnahme

009_AV, 009_MM Gespäch mit AV und MM 15.09.2009

011_MM Karten spielen mit MM 15.09.2009

013_JS, 013_RD Im Sandkasten mit JS und RD 15.09.2009

015_MK, 016_MK, 017_MK Im Garten mit MK 15.09.2009

019_JS, 019_LEO, 019_MK,

019_RD

Im Garten mit JS, RD, MK und LEO 15.09.2009

4.1. METHODIK 61

Nummer der Aufnahme Beschreibung des Kontextes zum Zeitpunkt

der Aufnahme

Datum der Aufnahme

020_LAR, 020_MM, 020_SO,

021_LAR

LAR, MM, SO und IV spielen Halli Galli 22.09.2009

022_LAR, 022_MM Gespräch mit LAR und IV 22.09.2009

023_MK, 023_JS, 024_LUA,

024_MK, 025_LUA

MK und LUA spielen Bauernhof; spielen mit

Steinen; spielen Ritterburg

29.09.2009

026_LUA, 026_MK, 027_AV,

027_LUA, 027_MK, 030_LUA,

030_MK

MK spielt Bauernhof; später Imbiss 06.10.2009

031_AV, 031_JS, 031_LAR,

031_MK, 031_MM, 031_SO

Zuerst spielen mit MM, LAR und SO, später

auch mit MK, KO und FLO (KO und FLO dürfen

nicht aufgenommen werden). Ab und zu spielen

RD und JS mit. Am Ende der Aufnahmen reden

vorwiegend MM und KO und FLO.

20.10.2009

033_JK, 033_JS, 033_MK,

033_RD

MK, ET (wird sehr früh abgeholt) spielen Löwe.

Später kommt JK dazu und spielt „telefonieren“.

RD und JS spielen „Papiermaschine“.

27.10.2009

036_JS, 036_LAR, 036_LEO,

036_LL, 036_LUA, 036_MK,

036_MM, 036_RD

Memory spielen mit MM, einer Erzieherin,

später auch mit OZ (darf nicht aufgenommen

werden). Uno spielen mit MK, dann mit MM.

Lego spielen mit LAR.

17.11.2009

038_JK, 038_LL, 038_MK MM, LL spielen Memory. Danach Versteckspiel

mit MM und LL. Später spielen andere Kinder

Autobahn.

01.12.2009

039_AV, 039_JK, 039_JS,

039_LEO, 039_MA, 039_MK

Malen mit MA, LEO. Kinder gucken

zwischendurch immer wieder zum

Vogelhäuschen, das draußen vor dem Fenster

ist. Danach Bücher angucken.

08.12.2009

040_JK, 040_JS, 040_LAR,

040_LL, 040_MK, 040_MM,

040_RD, 040_SO

MK erzählt, dass er gerade bastelt. Memory

spielen mit MM, LAR, SO (steigt früh wieder aus

dem Spiel aus). Danach andere Spiele. Ab ca.

01:00.00 spielen auch RD und JS mit.

15.12.2009

041_AV, 041_JS, 041_LAR,

041_LEO, 041_MK, 041_MM,

041_RD, 041_SO

Kinder malen mit Glitzerfarbe und Kreide. MM

hat sich gestoßen. Spielen mit LAR, MM und AV

(Memory). Danach Malen. Vorlesen mit MK und

LEO.

05.01.2010

62 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK

Nummer der Aufnahme Beschreibung des Kontextes zum Zeitpunkt

der Aufnahme

Datum der Aufnahme

042_JS, 042_LEO, 042_LUA,

042_MK, 042_MM

MK erzählt, welches Tier er gerade ist. LEO und

MK spielen Käpt’n Sharky. Uno spielen mit MK.

Danach Spiel mit Magneten.

12.01.2010

043_AV, 043_JK, 043_JS,

043_LUA, 043_MK, 043_RD,

044_AV, 044_JK, 044_JS,

044_LEO, 044_MK

RD und JS haben ein „Mensch ärgere dich

nicht“-Spiel gebastelt und spielen dieses

zusammen mit MK. Andere Kinder malen mit

Glitzerfarbe.

19.01.2010

045_JK, 045_JS, 045_LEO,

045_LUA, 045_MK, 045_MM,

046_LUA, 046_MK

MK und LUA sprechen zu Beginn der

Aufnahme. MK zeigt mir eine Schneekugel. Wir

legen Stifte auf eine Waage, um

auszuprobieren, wann Gleichgewicht herrscht.

Memory spielen mit MM, JK, JS, RD und MK.

Gespräche beim Imbiss. Spiel mit Magneten mit

MK.

26.01.2010

047_AV, 047_JK, 047_JS,

047_MK, 047_MM, 047_RD

Spielen mit AV, MK, LEO. Danach spielen mit

RD, JS, JK und LEO (Memory). Kneten am

Tisch.

02.02.2010

048_AV, 048_JK, 048_JS,

048_LEO, 048_MA, 048_MK,

048_RD

AV malt ein Bild für mich und zeigt mir danach

ihre Foto-Mappe. JS, RD und JK spielen Frisbee

im Flur. Die Kinder zeigen mir verschiedene

Sanduhren (vor allem MK und LEO).

09.02.2010

049_JK, 049_Mk, 050_JK,

050_JS, 050_LEO, 050_LUA,

050_MK, 050_RD

Anfangs spielen MK und JK mit Baufix. Kurzes

Spiel mit JS, LEO und JK. Danach spielen alle

Kinder durcheinander „Nicht den Boden

berühren“.

17.02.2010

051_LUA, 051_MK Spielen mit MK, JK, RD und JS. Andere Kinder

toben umher. Türme bauen mit JK.

24.02.2010

052_AV, 052_JS, 052_LEO,

052_LL, 052_LUA, 052_MK,

052_MM, 052_RD, 052_SO

MM, LL, SO und LAR basteln Perlenketten.

Memory spielen mit MM. Malen mit AV. Buch

ansehen mit MK, RD, JS und LEO.

Zwischendurch spricht LUA.

03.03.2010

053_AV, 053_JS, 053_LEO,

053_LUA, 053_MK, 053_RD

MM, SO und LAR basteln Perlenketten. Memory

spielen mit MM. Zwischendurch spricht LUA.

Später malen mit AV. Imbiss: AV, MK und LUA

erzählen.

10.03.2010

4.1. METHODIK 63

Nummer der Aufnahme Beschreibung des Kontextes zum Zeitpunkt

der Aufnahme

Datum der Aufnahme

054_AV, 054_JK, 054_LEO,

054_LUA, 054_MK

AV, MK, LUA, MM, SO, LAR, LL und andere

Kinder befinden sich im Raum. Malen mit AV

und MK. LUA und MK führen ein „Theaterstück“

auf. Die anderen Kinder und ich schauen zu.

Danach wieder malen mit AV. Imbiss: AV, MK

und LUA erzählen.

17.03.2010

055_AV, 055_JS, 055_LEO JS und LEO zeigen mir Tiere in einem Buch.

Kissenschlacht. Danach machen die eben

genannten und weitere Kinder ein

„Farben-Formen-Aktionsspiel“. Imbiss: AV, SO,

LAR, LL und MM erzählen.

24.03.2010

057_AV, 057_LEO, 057_LUA,

057_MK, 057_MM

Malen mit AV. Mit im Raum befinden sich MK,

LUA, LEO, MM, MA, SO, LL und LAR, die ab

und zu reden. Danach bastelt MK ein Spiel.

Versteckspielen mit MK, LUA und LL. Imbiss:

LEO und RD erzählen.

14.04.2010

058_AV, 058_JS, 058_LEO,

058_LL, 058_LUA, 058_MK

Im Garten. Ich gucke zu, wie JS und FLO (darf

nicht aufgenommen werden) Fußball spielen.

AV und LUA klettern. Später Gespräch mit LUA.

28.04.2010

4.1.2 Die Probandinnen und Probanden

Tabelle 4.2 veranschaulicht die Zusammensetzung der Gruppe derTestpersonen (untersuchte Kinder).

Unter den insgesamt 12 untersuchten Kindern befanden sich 5 Jungenund 7 Mädchen. Aufgrund der Struktur der Geburtsdaten wird ersichtlich,dass die meisten Kinder im Jahr 2004 geboren sind. Dies ist ein Grunddafür, weshalb es nur sehr wenige Aufnahmedaten von Dreijährigen gibt,da die Aufnahmen in der Zeit zwischen September 2009 und April 2010liegen. Weiterhin haben alle Kinder unterschiedliche Redeanteile, was durchdas Ziel der Arbeit, möglichst spontane Daten zu erhalten, nicht andersgehandhabt werden konnte. Im Verlauf der Arbeit sollen einerseits dieSprachdaten aller Kinder insgesamt und andererseits die Sprachdaten ineiner Aufteilung in drei Altersgruppen (siehe dazu Kapitel 6) untersuchtwerden. Eine Einteilung in drei Altersgruppen erschien vorab sinnvoll, umeventuell auftretende Entwicklungsunterschiede aufzeigen zu können. Bisherist nicht bekannt, ob es in der Altersspanne von 3;5 bis 5;5 Jahre sprachlich

64 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK

auffällige Entwicklungsschritte gibt. Anhand von Altersgruppen sollen dieseSchritte - sofern sie auftreten - festgehalten werden können. Anschließendsoll überprüft werden, ob es individuelle Unterschiede in der Komposition desLexikons gibt. Aus diesem Grund werden die Daten aller Kinder auch einzelnanalysiert und interpretiert.

Tabelle 4.2 enthält ferner Angaben zu den Eltern (Alter und Beruf), zuden Geschwisterkindern sowie zu möglichen Zweitsprachen (dies ist bei nureinem Kind der Fall). Ich habe diese Angaben hier aufgeführt, da bekannt ist,dass derartige soziolinguistische Aspekte Einfluss auf die Sprachentwicklungund in diesem Fall auch auf die Wortschatzstruktur der untersuchten Kinderhaben können. Es ist nicht verwunderlich, dass die meisten Eltern der hieruntersuchten Kinder entweder studieren oder in einem Beruf arbeiten, derein Studium erfordert, handelt es sich doch bei der Untersuchungsstätte umdie Kindertagesstätte einer Universität. Zwar können keine Angaben gemachtwerden zum ökonomischen Status der Eltern, doch kann wohl von einemausgeprägten akademischen Umfeld gesprochen werden.

Bereits Hetzer et al. (1928) untersuchten die Auswirkungen derNiveauunterschiede auf die erste Entwicklungsphase des Spracherwerbsund fanden auf diversen Gebieten der Sprache einen Rückstand von 3bis 6 Monaten. Kinder aus sozial höher stehenden Schichten würdenfrüher eine größere Anzahl sinnvoller Wörter verwenden und mehr Zwei-und Dreiwortsätze äußern. Die dabei angesprochene Altersgruppe betrifftjüngere Kinder bis zu einem Alter von 2;6 Jahren, weshalb keine Parallelenzu den hier untersuchten älteren Kindern gezogen werden können([Hetzer und Reindorf (1928)]). Laut Oksaar (1987) vergrößern sich dieseUnterschiede sogar mit zunehmendem Alter ([Oksaar (1997)], S. 112).Es kann deshalb angenommen werden, dass die Elternschaft und somitdie Familienstruktur in allen Fällen mindestens der (oberen) Mittelschichtangehört.

Neben dem sozioöknomischen Status können relativ genaue Angabenüber die Familienstruktur vorgenommen werden, insbesondere was dieGeschwisterkinder angeht. Bis auf zwei Kinder haben alle Kinder mindestensein Geschwisterkind (ein Kind bleibt ohne Angabe). Der Einfluss der Größeder Familie auf den Spracherwerb wurde schon früh von Stern&Stern(1928, 1965) untersucht, die ermittelten, dass das Vorhandensein ältererGeschwister die sprachliche Entwicklung vorantreibt ([Stern und Stern (1928)];[Stern und Stern (1965)], S. 293 f.). McCarthy (1954) hingegen fand heraus,dass Kinder, die vorwiegend mit Erwachsenen verkehren, die schnellstesprachliche Entwicklung vorweisen können. Einzelkinder (insbesondereMädchen) seien dabei in allen Aspekten am weitesten fortgeschritten

4.1. METHODIK 65

([McCarthy (1954)]). In der vorliegenden Arbeit wurden derartige Einflüssenicht untersucht. Ein Grund dafür war, dass das Sprachverhalten aller Kinderkeinen Anlass zu einer Untersuchung des Einflusses der Geschwisterkinderauf die Sprachentwicklung gab. Zudem befinden sich alle Kinder in einemweitaus fortgeschrittenem Stadium des Spracherwerbs, so dass ein Urteilnicht eindeutig wäre.

Ein weiterer wichtiger Punkt, vor allem für die Analyse der Daten dieserArbeit, ist der Umgang mit gleichaltrigen Kindern als soziolinguistischesMerkmal, das auch Oksaar (1987) anführt. Ab dem vierten Lebensjahrwird demnach der Kontakt zu anderen Kindern zu einem wichtigen Faktor,der sich in der sprachlichen Entwicklung niederschlägt. Hierbei habenKindertagesstätten eine bedeutende Rolle. Das Kind erfährt eine sozialeInteraktion im Spiel und erhält gleichzeitig die Verhaltensstärkung vonErwachsenen. Beide Faktoren sind für die hier untersuchten Kinder vonBedeutung. Die Kind-Kind-Interaktion ist neben der Familieninteraktion lautOksaar einer der wichtigsten Einflussfaktoren auf die sprachliche Entwicklungsowie auf andere Verhaltensweisen ([Oksaar (1997)], S. 117). Gleasonet al. (1973) konnten zum Beispiel zeigen, dass die Sprechweise in derKommunikation von Kindern sehr variieren kann, je nachdem, ob das Kindmit einem Erwachsenen oder einem anderen Kind spricht ([Gleason (1973)]).Eine derart variierende Kommunikation wurde hier zwar nicht untersucht, alleKinder sprachen jedoch vorwiegend mit Gleichaltrigen bzw. befanden sichstets in einer sozialen Interaktion (z. B. im Spiel) mit anderen Kindern. Dassoziolinguistische Merkmal Geschlecht soll in der vorliegenden Arbeit nur kurzerwähnt werden. Wie bereits angeführt, wurden 5 Jungen und 7 Mädchenin die Analyse miteinbezogen. Aufgrund der unterschiedlichen Redeanteileist es nicht sinnvoll, nach Unterschieden im Wortschatz zwischen Jungenund Mädchen zu suchen. Frühere Studien lassen zudem vermuten, dasszu einem derart frühen Zeitpunkt der Sprachentwicklung keine signifikantenUnterschiede erkennbar sind. Nach Oksaar (1987) finden sich nur geringeGeschlechtsunterschiede für die Vorschulzeit zugunsten der Mädchen, wobeidiese Untersuchungen auf einer Reihe amerikanischer Untersuchungen derdreißiger und vierziger Jahre beruhen. Demnach fangen Mädchen früheran zu sprechen, verfügen über einen größeren Wortschatz und verwendenlängere Sätze. Diese Unterschiede seien allerdings stärker bei Kindern ausniedrigen sozioökonomischen Gruppen beobachtet worden. Alle signifikantenUnterschiede bei Mädchen seien erst ab einem Alter von 5;0 Jahren sichtbar([Oksaar (1997)], S. 118-120). Da die hier untersuchten Kinder zum Zeitpunktder Datenerhebung maximal 5;5 Jahre alt waren, ist eine Untersuchung imHinblick auf Geschlechtsunterschiede vermutlich wenig aufschlussreich und

66 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK

soll deshalb nicht durchgeführt werden.

4.1.3 Diktiergerät

Das Diktiergerät, welches für die Aufnahmen im Kindergarten benutztwurde, war ein Gerät der Marke Philips. Mit dem Philips Voice TracerDVT 860 konnten Aufnahmen im MP3-Format erstellt werden. DasMP3-Format ist im Gegensatz zum Wave-Format besonders geeignet, weilwenig Speicherplatz benötigt wird. Dadurch konnten mehrere StundenAudiomaterial am Stück aufgenommen werden, ohne den Speicherzwischendurch entleeren zu müssen. Für weitere Informationen verweiseich auf die Bedienungsanleitung, die unter folgendem Link erreichbar ist:http://download.p4c.philips.com/files/l/lfh0660_00/lfh0660_00_dfu_deu.pdf(zuletzt besucht am 20.08.2015).

4.1.4 Transkription der Daten mit FOLKER

Für die im Anschluss an die Aufnahmen geleistete Transkription, wurdedas Transkriptionsprogramm FOLKER5 verwendet. Die insgesamt 39Aufnahmen wurden einzeln in FOLKER importiert und die Sprechpassagennacheinander transkribiert. Dieser Teil der Arbeit stellte sich als besonderszeitaufwendig heraus, da die meisten Kinder, wie schon erwähnt, oftdurcheinander oder undeutlich sprachen. Die Transkription erfolgte unterBeachtung der Transkriptionsregeln6 nach FOLKER in Schriftsprache.In FOLKER werden grundlegend cGAT-Minimaltranskripte erstellt,die eine leichte Abwandlung zu GAT-2-Minimaltranskripten darstellen([Selting (2009)]). Laut Transkriptionshandbuch ist eine Abwandlungder GAT-2-Minimaltranskripte zu cGAT notwendig, weil nur so dieFOLKER-Transkripte regelrecht computergestützt weiterverarbeitet werdenkönnen ([Schmidt und Schütte (2011)], S. 34). In den cGAT-Transkriptensind folgende Einheiten enthalten ([Schmidt und Schütte (2011)], S. 34 ff.;Auswahl):

• (syntaktische) Wörter : werden als Folge von Kleinbuchstaben, die an den Grenzendurch Leerzeichen unterbrochen sind, dargestellt (z. B. ich gehe nach hause).Die Transkription kann nach orthografischen oder literarischen Gesichtspunktenerfolgen. Zahlen werden immer ausgeschrieben, Abkürzungen (außer Akronyme) undBindestriche werden nicht verwendet. Infolgedessen werden Wörter, bei denen der

5Auf den folgenden Seiten sind Informationen sowie eine Möglichkeit zum Download von FOLKER zufinden: http://agd.ids-mannheim.de/folker.shtml (letzter Zugriff 18.12.2015).

6http://agd.ids-mannheim.de/download/FOLKER-Transkriptionshandbuch.pdf (letzter Zugriff18.12.2015)

4.1. METHODIK 67

Bindestrich obligatorisch ist, als zwei Wörter transkribiert (z. B. baden württemberg).Wörter, bei denen der Bindestrich optional ist, werden als ein Wort transkribiert (z. B.bildzeitung).

• Verzögerungssignale: werden ausgeschrieben (z. B. äh ähm).

• Lachen, Weinen: wird entweder als Beschreibung ((lacht)), ((weint)) oder bei silbischemLachen entsprechend der verwendeten Silben als hahaha oder hihi etc. notiert.

• Rezeptionssignale: kommen in den Daten der vorliegenden Arbeiten gelegentlich vor.Sie werden in Anlehnung an die Regeln der FOLKER-Transkription als hm, nee, nee_e,ja_a etc. notiert. Bei der späteren Lemmatisierung (Abschnitt 4.1.8) werden zweisilbigeSignale wieder in ihrer einsilbigen Form notiert.

• Pausen: werden in den FOLKER-Dateien mit (.) für eine Mikropause (ca. 0,2 SekundenDauer) bzw. als längere geschätzte Pause durch eine konkrete Angabe notiert (1.5).Im FOLKER-Transkriptionshandbuch sind weitere Pausenarten angegeben; dazugehören eine kurze geschätzte Pause von 0,2 bis 0,5 Sekunden Dauer (-), einemittlere geschätzte Pause von 0,5 bis 0,8 Sekunden Dauer (- -) und eine längeregeschätzte Pause von 0,8 bis 1,0 Sekunden Dauer (- - -). Diese Pausenarten wurdenin den Daten der vorliegenden Arbeit nicht verwendet, da sie zum einen laut demTranskriptionshandbuch nicht vorzugsweise verwendet werden sollten und zumanderen für die Zwecke dieser Arbeit nicht in erster Linie relevant waren. Hier werdenvordergründig die syntaktischen Wörter an sich betrachtet und diese werden zumErreichen der Ziele anschließend in den EXMARaLDA-Partitur-Editor (Abschnitt 4.1.6)importiert und weiter verarbeitet. Alle Pausen sind ab diesem Moment hinfällig, weshalbsie in erster Linie nur nebenbei gesetzt wurden.

• Nonverbales: wird nach den cGAT-Konventionen durch doppelte runde Klammerngekennzeichnet, z. B. ((hustet)) oder ((unverständlich)). In Anbetracht der Wichtigkeitder festgelegten Wörter, nicht aber nebensprachlicher Erscheinungen, wurden in dieserArbeit lediglich unverständliche Wörter mit ((unverständlich)) gekennzeichnet.

• Unverständliches: Ein unverständliches Wort kann nicht nur durch doppelte rundeKlammern gekennzeichnet werden. Insofern die Silbenanzahl erkennbar ist, kann diesedurch die Zeichenkette +++ (für eine Silbe) ++++++ (für zwei Silben) etc. dargestelltwerden.

Weitere Konventionen der cGAT-Minimaltranskription sind im FOLKERTranskriptionshandbuch enthalten. An dieser Stelle sind nur jene Regelnaufgeführt, die in dieser Arbeit Anwendung fanden. Ein Vorteil derTranskription in FOLKER ist die automatische Korrektur der Syntax und derzeitlichen Abfolge, die bei einer korrekten Durchführung durch grüne Häkchenin den Spalten rechts angezeigt wird. Des Weiteren war es möglich, sichüberlappende Äußerungen in FOLKER kenntlich zu machen, indem derzeitliche Start- und Endpunkt der Äußerungen identisch eingestellt wurden.Passagen, in denen Kinder gleichzeitig sprachen und welche sich somitüberlappen, zeigt Abbildung 4.1 in den Zeilen 29 und 30, in denen MM und

68 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK

LAR gleichzeitg gelb äußern. Das Ende einer Äußerung wird in FOLKER nichtgekennzeichnet bzw. geht damit einher, dass das jeweilige Segment in derjeweiligen Zeile endet und ein nächstes Segment in einer neuen Zeile beginnt.Würde man beispielsweise ein Segmentende mit / oder // kennzeichnenwollen, würde dies als Syntaxfehler angezeigt werden.

Abbildung 4.1: Folker-Datei: ic_a_31.flk

FOLKER-Dateien können in unterschiedlichen Html-Formaten7

ausgegeben sowie zur weiteren Bearbeitung in anderen Programmengenutzt werden.8 Im Folgenden ist eine beispielhafte Erstellung einerFOLKER-Transkription für diese Arbeit beschrieben:

Beispiel: Zuerst wird eine entsprechende Wave-Datei in das Programm FOLKERimportiert. Die zuvor im MP3-Format erstellten Audiodateien wurden zuvor mit einemsogenannten Wave-Konverter in das entsprechende Format gebracht. Anschließendwerden einzelne Passagen von standardmäßig zwei Sekunden Länge angehörtund dann im Textfeld verschriftlicht. Neben jedem Textfeld wird außerdem dasSprecherkürzel vermerkt. Anstelle von zwei Sekunden Länge können je nachgesprochener Passage auch kürzere bzw. längere Passagen verschriftlicht werden.Die Zeitspanne muss in diesen Fällen manuell verändert werden, da FOLKERstandardmäßig nur Intervalle von zwei Sekunden Länge vorgibt. Transkribiertwurden in der vorliegenden Arbeit alle Audiodaten der Kinder, von denen die

7https://de.wikipedia.org/wiki/Hypertext_Markup_Language (letzter Zugriff 22.10.2014)8In der vorliegenden Arbeit werden die in FOLKER transkribierten Dateien zur weiteren Analyse in

den EXMARaLDA Partitur Editor überführt (Abschnitt 4.1.6).

4.1. METHODIK 69

Einverständniserklärung der Eltern vorlag. Kinder, die nicht aufgenommen werdendurften, wurden nicht transkribiert bzw. später aus den Aufnahmen gelöscht. DieSprachdaten der Interviewerin wurden nur an den Stellen transkribiert, die für eineninhaltlichen Zusammenhang (für eventuelle spätere Analysen) relevant sein könntenund zum Textverständnis beitragen. Sie gehen nicht in die weitere Analyse mit ein.In FOLKER war es allerdings lediglich möglich, solche überflüssigen Passagen zuüberspringen, nicht aber, diese auch zu löschen. Ein Grund dafür ist der, dass beitatsächlich gelöschten Passagen keine zeitliche Entsprechung zu den jeweiligenWave-Dateien mehr vorhanden wäre, wodurch ein Abspielen des Tons nicht mehrgegeben wäre. Aus diesem Grund wurden alle überflüssigen Passagen im Anschlussmit dem Programm AUDACITY9 bearbeitet.

.

9AUDACITY ist ein Programm zur Bearbeitung und Aufnahme von Audiodaten. NähereInformationen sowie die Möglichkeit zum Download finden Sie unter folgender Adresse:http://audacity.sourceforge.net/?lang=de (letzter Zugiff 18.12.2015).

70 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK

4.1.5 Bearbeitung der Audio-Dateien mit AUDACITY

Aus Gründen der anschließenden Analyse, aber auch aus Datenschutzgründen,wurde in allen überflüssigen Passagen der Ton entfernt. Ein Ausschneidenoder Löschen der Passagen war nicht möglich, da die FOLKER-Dateien indiesem Fall nicht mehr mit den dazu gehörigen Wave-Dateien kompatibelgewesen wären, was das Abspielen, Ansehen oder Bearbeiten derFOLKER-Dateien unmöglich gemacht hätte. AUDACITY bietet die Möglichkeit,einzelne Passagen mit einem sogenannten Silence-Modus zu versehen,wodurch an den ausgewählten Stellen Stille erzeugt wird. Die FOLKER-Dateiic_a_16.flk sieht im Programm Audacity nach der Bearbeitung entsprechenderPassagen mit dem Silence-Modus so aus:

Abbildung 4.2: Folker-Datei: ic_a_16.flk

Die grau markierte Passage (01m06.81s bis 01m26.75s) zeigt einenBereich, in welchem der Ton entfernt wurde. Dies stellt lediglich ein Beispielzur Veranschaulichung dar, alle weiteren überflüssigen Bereiche sindim Beispiel aus Gründen der Übersichtlichkeit noch nicht grau markiert.Da sich die Bearbeitung aller FOLKER-Dateien mit AUDACITY als sehraufwendig herausstellte, konnte ein OpenSource-Programm10 genutzt

10Das Programm zur Korpusanalyse wurde für die Ziele dieser Arbeit von Alexander Mackentwickelt und programmiert. Es ist als OpenSource-Programm unter folgender Adresse zu finden:https://github.com/fiedler-mack/CorpusAnalyser. Eine genaue Beschreibung der einzelnen Funktionen

4.1. METHODIK 71

werden ([Mack (2014)], Kapitel 5, 5.2.1), welches durch einen Algorithmusdiese Passagen eigenständig entfernt. Nachdem alle Dateien auf dieseWeise bearbeitet wurden, fand ein erneuter Kompatibilitätstest mit dendazugehörigen Wave-Dateien statt. Alle bearbeiteten Dateien waren weiterhinabspielbar und standen demnach zur weiteren Bearbeitung zur Verfügung.

4.1.6 Bearbeitung der Transkripte mit dem EXMARaLDA Partitur-Editor

Nachdem eine geeignete Methode zur Bestimmung der Wortarten gefundenwar (Abschnitt 3.2.3), musste ein Bearbeitungsprogramm gefunden werden,das die Bezeichnung der Wortarten (POS-Tags) mit den dazugehörigenWörtern und später auch Lemmata vereint. FOLKER stellte sich dafür alsungeeignet heraus. Mit dem Programm selbst können zwar Transkripteerstellt und zu Text- und Html-Dateien exportiert werden, eine weitereBearbeitung ist allerdings nicht möglich. Der EXMARaLDA Partitur-Editor11

erwies sich hingegen als geeignet. Laut den Entwicklern ist der Editornicht nur zum Datenaustausch mit vielen anderen Systemen kompatibel,sondern erlaubt eine Analyse der Wortarten unter unterschiedlichenTranskriptionskonventionen:

„EXMARaLDA ist ein System für das computergestützteArbeiten mit mündlichen Korpora. Es besteht aus einemTranskriptions- und Annotationseditor (Partitur-Editor), einemTool zum Verwalten von Korpora (Corpus-Manager) undeinem Such- und Analysewerkzeug (EXAKT). EXMARaLDAunterstützt die zeitalignierte Transkription von digitalen Audio-oder Videodaten, eine flexible Annotation nach frei wählbarenAnalysekategorien, die systematische Dokumentation eines Korpusdurch Metadaten, die flexible Ausgabe von Transkriptdaten inverschiedenen Notationsformen und Dokumentformaten, sowiedie computergestützte Recherche in Transkriptions-, Annotationsund Metadaten.“ (http://www.exmaralda.org/tool/exmaralda/ (letzterZugriff 22.10.2014)

Zunächst wurde jede der 39 Dateien in den Editor importiert. Im Editor selbstwerden die Tonspuren der jeweils teilnehmenden Kinder untereinander inden entsprechenden Zeilen angezeigt. Pro FOLKER-Datei wurden meistensmehrere Kinder transkribiert. Dies ist logischerweise in jeder FOLKER-Dateider Fall, da während der Aufnahmesituationen in der Kita immer mehrere

finden Sie im Abschnitt 5.2.11Für weitere Informationen und für die Möglichkeit des Downloads verweise ich auf folgende

Webseite: http://www.exmaralda.org/partitureditor.html (letzter Zugriff 22.10.2014)

72 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK

Kinder gleichzeitig anwesend waren und somit gemeinsam auf einerAufnahmedatei gespeichert sind. In Abbildung 4.3 sind jene Kinder aufgeführt,die zum Zeitpunkt der Aufnahme anwesend waren (hier: AV, MK, LUA, RD,MM, LEO sowie die Interviewerin IV). Um eine Analyse einzelner Kindervornehmen zu können, wurden zunächst die Tonspuren separiert und einzelngespeichert (Abbildung 4.4).

Abbildung 4.3: Beispielhafte EXMARaLDA-Datei mit sieben Sprecherinnen undSprechern

Abbildung 4.4: Separierte Tonspur in einer EXMARaLDA-Datei

Anschließend wurden alle Lücken und unbenutzten Zeitpunkte in denTonspuren entfernt und die syntaktischen Wörter voneinander separiert.Zusätzlich wurde eine Spur (Annotation) angefügt, in welche später die

4.1. METHODIK 73

entsprechenden POS-Tags geschrieben werden konnten (Abbildung 4.5 undAbschnitt 3.2.2).

Abbildung 4.5: Tonspur eines einzelnen Sprechers (RD) mit Annotationsspur

Auf diese Weise entstanden 155 Einzeldateien von insgesamt 12 Kindernzwischen 3;5 und 5;5 Jahren. Aufgrund der Fülle der Daten wurden mehrere(Korrektur-)Durchläufe vorgenommen. Im Anschluss an die Bezeichnung dersyntaktischen Wörter mit den jeweiligen POS-Tags wurde eine dritte Spurin jede der Dateien eingefügt, in die das zum Wort entsprechende Lemmaeingetragen wurde (Abbildung 4.6).

Abbildung 4.6: EXMARaLDA-Datei: MM_lem.exb

Eine Lemmatisierung erwies sich als notwendig, weil ohne diese beider späteren Analyse eine irrtümliche Type-Token-Zuordnung entstehenwürde. Eine Relation der POS-Tags zu den jeweiligen syntaktischenWörtern würde bedeuten, dass zum Beispiel alle Flexionsformen einesVerbs als unterschiedliche Lexeme definiert würden (z. B. spielen - spielte -gespielt). Tatsächlich handelt es sich bei diesem Beispiel um nur ein Lemma,nämlich spielen. Ebenso würden alle deklinierten Nomen und Artikel alsunterschiedlich erkannt, auch wenn sie demselben Lemma angehören. In demBeispiel „Ich habe der Frau das Geld gegeben“, gehört „der “ zum Lemma „die“bzw. „d“. Ein Programm, welches alle Wörter nur aufgrund ihrer äußeren Formerkennt und auswertet, erkennt dies nicht. Deshalb mussten im nächsten

74 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK

Schritt alle Wörter ihrem entsprechenden Lemma zugeordnet werden. Beidiesem Prozedere wurde deutlich, dass eine Lemmatisierung nicht immereindeutig durchgeführt werden kann. Häufig traten Fälle auf, in denen einvom Kontext isoliertes Wort einen Artikel mit dem entsprechenden Lemmadarstellt. Zum Beispiel „das“ in „Ich nehme das“ würde folgendermaßengetaggt werden:

• das (syntaktisches Wort)

• ART (POS)

• das bzw. d (Lemma)

Kontextuell betrachtet handelt es sich zwar um ein Demonstrativpronomen- denn es fehlt das darauf folgende Nomen. Doch um dem Anspruch einerlexikalisch basierten Analyse gerecht zu werden, wurde tatsächlich mit ARTgetaggt sowie mit „das“ bzw. „d“ lemmatisiert (siehe auch Abschnitt 4.1.7 und4.1.8)., da in diesem Fall eine Ellipse vorliegt.

4.1.7 Kriterien für das Taggen der Wortarten nach den Richtlinien derSTTS

In diesem Abschnitt möchte ich alle Kriterien anführen, nach denen ichmich beim Taggen der syntaktischen Wörter mittels der STTS (Abschnitt3.2.2) gerichtet habe. Die Stuttgart Tübingen Tagsets bieten zahlreicheBeschreibungen und Hinweise, nach denen ein Wort mit einem bestimmtenPOS-Tag bezeichnet werden sollte und diese wurden auch hier zu großenTeilen verwendet ([Schiller, Teufel, Stöckert und Thielen (2009)]). Trotz sehrdetaillierter Beschreibungen kann es in einigen Fälle zu Unstimmigkeitenkommen, in denen nicht klar ist, welches POS-Tag verwendet werden muss.Insbesondere vor dem Hintergrund, dass es sich bei den vorliegendenDaten um Audiodateien von Kindern handelt, war es erforderlich, weitere,individuelle Regeln hinzuzuziehen. Es kann zum Beispiel vorkommen,dass je nach Kontext mehrere Bezeichnungen zulässig sind und eineEntscheidung darüber, welches POS-Tag verwendet werden muss, nurim Auge der ausführenden Person liegt. Um diesem Problem möglichsteffizient zu begegnen, wurden unter Zuhilfenahme der Dudengrammatik([Dudenredaktion (2009)]) alle in den STTS vorkommenden POS-Tagsmit den Definitionen des Dudens abgeglichen und daraufhin ein für dieseArbeit einheitliches Definitionssystem zusammengestellt. Die STTS basierenvorwiegend auf einer syntaktischen Kategorisierung, welche eigentlich nichtGegenstand dieser Arbeit ist. Die aufgeführten POS-Tags sind jedoch äußerst

4.1. METHODIK 75

geeignet, um alle Wörter im Korpus zu bezeichnen - auch nach überwiegendlexikalischen Kriterien. Durch ein anschließendes Zusammenführen derPOS-Tags in größere Klassen (Tabelle 6.1) konnte der syntaktische Aspektjedoch größtenteils, wenn auch nicht in allen Fällen, umgangen werden.In Anlehnung an die STTS möchte ich im Folgenden alle Tags mit denDefinitionen der Dudengrammatik in Einklang bringen. Die Reihenfolge istan die Abfolge der POS-Tags in der entsprechenden Tabelle (Tabelle 3.2)angelehnt.

• Adjektive (ADJA und ADJD): Alle Adjektive im hier verwendetenKorpus wurden nach den Regeln der Dudengrammatik getaggt([Dudenredaktion (2009)], S. 338-388). Eine Ausnahme bilden dieKardinalzahlen. Laut Duden sind diese der Wortart Adjektiv zuzuordnenund rein funktionell betrachtet wäre dies auch im vorliegenden Korpusmöglich. Da die STTS dafür eine eigene Kategorie CARD bereithalten, wurden Kardinalzahlen in dieser Arbeit mit dem POS-TagCARD bezeichnet. Die STTS unterscheiden zwischen attributivemAdjektiv (ADJA) und adverbialem bzw. prädikativem Adjektiv (ADJD).Diese Unterscheidung wurde beim Taggen beibehalten, wenn auch dieAdjektive bei der späteren Analyse zusammengefasst als ADJ aufgeführtwerden. Eine häufige Erscheinung ist der elliptische Gebrauch vonNomen in Verbindung mit Adjektiven. In Aussagen wie „Ich möchte gerndas kleine [ ]“ kann ohne den Kontext kleine nicht eindeutig als ADJAgetaggt werden. Es könnte sich ebenso um ein substantiviertes Adjektivhandeln, das dementsprechend als Nomen (NN) getaggt werdenmüsste. Da in dieser Arbeit jedoch die syntaktischen Wörter an sich imMittelpunkt stehen und möglichst isoliert betrachtet werden, wurde kleinedennoch als ADJA12 getaggt.

• Adverbien (ADV und PAV): Eine Abgrenzung des Adverbs gegenüberanderen Wortarten ist nicht immer eindeutig, insbesondere dann,wenn es um Adverbien geht, die ähnlich wie Adjektive steigerbarsind, z. B. oft - öfter (häufiger) - am öftesten (am häufigsten)([Dudenredaktion (2009)], S. 570). Nichtsdestotrotz gibt es Regelnfür die Abgrenzung eines Wortes als Adverb. Die Dudengrammatikunterscheidet zehn Adverbientypen: Lokal-, Temporal-, Modal-, Kausal-,Situierungs-, Interrogativ-, Relativ-, Präpositional- (oder Pronominal-),Konjunktional- und Kommentaradverb. Die STTS unterscheiden nur

12Mir ist bewusst, dass durch die Unterscheidung zwischen ADJA und ADJD ein syntaktischesKriterium zugrunde gelegt wird. In der späteren Analyse werden die Lemmata jedoch zusammengefasstals ADJ betrachtet, wodurch distributionelle Aspekte wieder vernachlässigt werden.

76 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK

zwischen Adverb (ADV) und Pronominaladverb (PAV). Beim Taggennach den Regeln der STTS unterscheide ich dementsprechend ebensonach ADV und PAV, wobei die Pronominaladverbien später zu denAdverbien gezählt werden. Zur Kategorie ADV zählen demnach allenach Duden unterschiedenen Adverbien, bis auf das Pronominaladverb.Das Pronominaladverb (auch Präpositionaladverb) wird laut Dudenmit einer Präposition als zweitem Bestandteil und mit da(r)-, hier- oderwo(r)- als erstem Bestandteil gebildet ([Dudenredaktion (2009)], S.579 sowie Regel 860). Auf Basis dieser Definition wurden die Wörterim Korpus als PAV identifiziert und mit PAV getaggt. Ebenso wurdetrotzdem und außerdem als PAV getaggt, da es in den STTS alsPronominaladverb aufgeführt wird. In der Dudengrammatik entsprichtes den Konjunktionaladverbien (Regel 864), zu denen noch weitereAdverbien gehören.

• Präpositionen (APPR, APPRART, APPO und APZR): Im hieruntersuchten Korpus kommen lediglich Präpositionen (APPR) sowiePräpositionen mit Artikel (APPRART) vor. Postpositionen (APPO)und Zirkumpositionen rechts des Bezugswortes (APZR) kommennicht vor. Die Bezeichnung der Wörter mit den POS-Tags APPR bzw.APPRART wurde größtenteils in Anlehnung an die Ausführungender Dudengrammatik vorgenommen ([Dudenredaktion (2009)], S.600-619). Bei der späteren Analyse (Kapitel 6) wurden die Präpositionenzusammengefasst zum POS-Tag APPR.

• Artikel (ART): Die Dudengrammatik führt den definiten Artikel([Dudenredaktion (2009)], S. 291-302) getrennt vom indefiniten Artikelauf ([Dudenredaktion (2009)], S. 330-337). In den STTS werdender definite und der indefinite Artikel unter dem POS-Tag ARTzusammengefasst. In der vorliegenden Arbeit wurden die Artikeldemnach mit ART bezeichnet, unabhängig davon, ob es sich um einendefiniten oder einen indefiniten Artikel handelt. Nicht nur im vorliegendenKorpus fiel es nicht immer leicht zwischen einem Artikel oder einemPronomen zu unterscheiden. Auch in der Dudengrammatik befindetsich der Eintrag zum Artikel umrahmt von zahlreichen Einträgen zuden verschiedenen Pronomen des Deutschen. Im Grunde erfüllen vielePronomen (z. B. Indefinitpronomen) oft die Funktion eines indefinitenArtikels. Und obwohl diese Arbeit die Lemmata auf der Basis derWortform bzw. in Bezug auf ihre Form im Lexikon untersuchen soll,ist es an dieser Stelle nahezu unmöglich, syntaktische Gesichtspunkteaußer Acht zu lassen. In der Dudengrammatik sind alle Formen

4.1. METHODIK 77

von irgendein unter dem Eintrag zum indefiniten Artikel aufgeführt([Dudenredaktion (2009)], S. 334). Dies erscheint insofern sinnvoll, alsdass man die Formen von irgendein oft stellvertretend für die Formenvon ein syntaktisch im Satz positionieren kann. Da die STTS für nahezualle Pronomen eine gesonderte Kategorie bereithalten, wurden diese inder vorliegenden Arbeit auch als Pronomen (z. B. PDAT, PIAT, PIDAToder PIS) getaggt. In der späteren Analyse wurden bestimmte Gruppenvon Pronomen zusammengefasst.

• Kardinalzahlen (CARD): Die Kardinalzahlen wurden in Anlehnungan die Regeln der Dudengrammatik ([Dudenredaktion (2009)], S.382-388), insbesondere nach den Regeln 510, 511, 512 und 513bezeichnet. Syntaktisch gesehen gehören die Kardinalzahlen laut Duden(ebd.) zu den Zahladjektiven, Zahlpronomen, Zahlsubstantiven undZahladverbien. In der vorliegenden Arbeit wurden damit vor allem Grund-und Ordnungszahlen sowie Jahreszahlen gekennzeichet.

• Fremdsprachliches Material (FM): Mit dem POS-Tag FM wurden alleWörter bezeichnet, die nicht in deutscher Sprache geäußert wurden.

• Interjektionen (ITJ): Die Interjektionen gehören laut der Dudengrammatikzu den Ausdruckspartikeln ([Dudenredaktion (2009)], S. 597-599). In dergesprochenen Sprache dienen sie demzufolge vor allem dem Ausdruckspontaner Emotionen oder Bewertungen. Beispiele für Interjektionen,wie sie in der vorliegenden Arbeit vorkommen sind aua oder hey. Zuden Interjektionen gehören in Einklang mit den STTS in dieser Arbeitauch die Onomatopoetika. In der Dudengrammatik werden diese,ebenso wie die Interjektionen, unter dem Eintrag Partikeln aufgeführt([Dudenredaktion (2009)], S. 599). Da in dieser Arbeit jedoch dieKategorisierung nach den STTS im Vordergrund steht, wurden dieOnomatopoetika zu den Interjektionen gezählt.

• Konjunktionen (KOUI, KOUS, KON und KOKOM): Die Dudengrammatikunterscheidet in ihrer Definition die Konjunktionen und die Subjunktionen([Dudenredaktion (2009)], S. 619-633). Die STTS unterscheidenunterordnende Konjunktionen mit zu und Infinitiv (KOUI), unterordnendeKonjunktionen mit Satz (KOUS), nebenordnende Konjunktionen(KON) und Vergleichskonjunktionen (KOKOM). In der vorliegendenArbeit kommen unterordnende Konjunktionen mit zu und Infinitiv nichtvor. Alle nebenordnenden Konjunktionen (KON) wurden nach denRegeln der Dudengrammatik (Regeln 934 bis 939) bezeichnet. Dieunterordnenden Konjunktionen (KOUS) entsprechen größtenteils den

78 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK

Definitionen in den Regeln 941 bis 947 und 949 bis 952, während dieVergleichkonjunktionen (KOKOM) unter der Regel 940 aufgeführt sind([Dudenredaktion (2009)], S. 625). Die Dudengrammatik geht in ihrenDefintionen verstärkt auf die Funktion des jeweiligen Satzgliedes imSatz ein. So müsste beispielsweise die Subjunktion „als ob“ als einLexem/Satzglied mit KOUS bezeichnet werden. Da in dieser Arbeitjedoch die einzelnen Wortformen untersucht werden, konnte dieseBezeichnung nicht angewandt werden. Vielmehr wurden als und ob alszwei separate Formen getaggt.

• Nomen (NN und NE): Das Nomen wird als flektierbare Wortartbeschrieben ([Dudenredaktion (2009)], S. 145-248). Insbesondereeingegangen wird auf Kasus, Numerus und Genus. All diese nominalenEigenschaften sind in der vorliegenden Arbeit irrelevant, da es nurum das Lemma im Nominativ (Sgl.) geht. Das Genus des jeweiligenNomens wird durch den Artikel näher bestimmt (z. B. die Gabel, dasKind, der Apfel). Da das Nomen jedoch ohne den Artikel getaggt wird,spielt das Genus hier keine bzw. nur eine untergeordnete Rolle. DieDudengrammatik unterscheidet ferner zwischen Konkreta und Abstrakta.Auch diese Unterscheidung wurde bei der Analyse mittels der STTS nichtvorgenommen (siehe aber Kapitel 7 für eine derartige Unterscheidung).Eine weitere Kategorisierung betrifft die Abgrenzung der Eigennamenvon den restlichen Nomen ([Dudenredaktion (2009)], S. 147-151). Dies isteine Unterscheidung, die auch in der vorliegenden Arbeit vorgenommenwurde. Alle Eigennamen wurden mit NE getaggt, alle weiteren Nomenmit NN. Im Hinblick auf die Definition von Eigennamen, die der Dudenvornimmt, gilt dies auch für die Eigennamen, die im Korpus mit NEbezeichnet wurden. Abgrenzungsschwierigkeiten gab es bezüglichsubstantivierter Infinitive sowie bei Substantivierungen von Farbwörtern.Kontextuell gesehen müssten substantivierte Infinitive als NN getaggtwerden (z. B. beim Schwimmen → APPRART + NN). Da es wie bereitserwähnt jedoch lediglich um die separierten Wörter, möglichst losgelöstvom Kontext gehen soll, wurde in solchen Fällen ein POS-Tag aus derKategorie Verb verwendet. Im Beispiel beim Schwimmen also APPRART+ VVINF, auch wenn dies im Kontext wenig Sinn ergibt. Des Weiterenkam es beim Taggen mit NN in einigen Fällen zu Schwierigkeiten beider Lemmatisierung. In Fällen wie das/der/die Kleine im Gegensatz zuein Kleiner/eine Kleine konnte nicht eindeutig ein Lemma zugeordnetwerden. Erst durch das Taggen mit ADJA wurde diese Unstimmigkeitwieder eliminiert. Zudem könnte es sich je nach Kontext in diesem

4.1. METHODIK 79

Fall um eine Ellipse handeln, wodurch eine Bezeichnung mit ADJAnochmals bestärkt wird. In der Dudengrammatik sind diese Fälle unterder Regel 238 aufgeführt mit dem Hinweis, dass für diese Wortarteneigene Gesetzmäßigkeiten gelten im Gegensatz zu den restlichenNomen. Die Regeln zu den substantivierten Farbadjektiven (und Zitaten)sind in der Dudengrammatik einerseits unter dem Eintrag Substantivaufgeführt ([Dudenredaktion (2009)], S. 190-192), andererseits unterdem Eintrag Adjektiv ([Dudenredaktion (2009)], S. 348-351). DieserUmstand lässt bereits vermuten, dass es auch in der vorliegendenArbeit nicht leicht fiel, ein einheitliches Bezeichnungssystem zu finden.Insbesondere Farbwörter kommen im Korpus häufig vor und sindkontextuell gesehen entweder Adjektiv oder Substantiv. In dieser Arbeitwurden sie dennoch durchgehend mit dem POS-Tag ADJA (oder ADJD)als Adjektiv bezeichnet. Gerade in Fällen wie das Blau vs. die Blauewären anderenfalls Probleme bei der Lemmatisierung entstanden.

• Demonstrativ- und Indefinitpronomen (PDAT, PIDAT, PDS,PIS und PIAT): An dieser Stelle möchte ich die Demonstrativ-und Indefinitpronomen zusammen aufführen, da diese auch beider Bezeichnung mit den POS-Tags (später) zu einer Gruppezusammengefasst wurden. Dies waren lediglich persönlicheVorlieben. Man hätte ebenso die Indefinit- und Possessivpronomenzusammenfassen können. Die Dudengrammatik beschreibt in einemumfassenden Eintrag Artikelwörter und Pronomen, unter denensich auch alle in den STTS aufgeführten Pronomen wiederfinden([Dudenredaktion (2009)], S. 249-337). Die attribuierenden (PDAT)und substituierenden Demonstrativpronomen (PDS) sind in derDudengrammatik unter den Regeln 372-382 erläutert. In der vorliegendenArbeit wurden die Demonstrativpronomen vorwiegend entsprechend derRegeln in der Dudengrammatik bezeichnet, wenn auch das attribuierendeDemonstrativpronomen (PDAT) zu Teilen nach den Regeln der STTSmarkiert wurde ([Schiller, Teufel, Stöckert und Thielen (2009)], S. 39).Die attribuierenden Demonstrativpronomen mit Determiner (PIDAT)sind in der Dudengrammatik unter dem Eintrag Indefinitpronomenaufgeführt (Regel 409). In dieser Arbeit konnten die attribuierendenDemonstrativpronomen mit Determiner nur deshalb als PIDAT bezeichnetwerden, weil sie zusammen mit dem Artikel als Einheit betrachtet werden.Dies ist streng genommen eine kontextuelle Analyse, die eigentlichvermieden werden sollte. Da die STTS als System zur Kategorisierungvon Wortarten jedoch bis auf wenige Ausnahmen sehr geeignet sind,

80 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK

wurde an diesen (wenigen) Stellen kontextuell analysiert. Durch dasspätere Zusammenführen der POS-Tags PDS+PDAT+PIDAT+PIS+PIATzu den PIDATS wurde diese teilweise syntaktische Analyse jedochwieder vernachlässigt, weil dadurch die einzelne Wortart wieder inden Vordergrund rückte. Das Wort beide ist unter der Regel 413 unterUmständen als Kardinalzahl einzustufen. Dies ist in der vorliegendenArbeit nicht der Fall und beide ist Indefinitpronomen. In allen anderenFällen wurden die Indefinitpronomen analog zu den Regeln derDudengrammatik als PIS (substituierendes Indefinitpronomen), PIAT(attribuierendes Indefinitipronomen) oder PIDAT (attribuierendesIndefinitpronomen mit Determiner) getaggt.

• irreflexives Personalpronomen (PPER): Die irreflexiven Personal-pronomen wurden analog zu der Regel der Dudengrammatik mit PPERgetaggt ([Dudenredaktion (2009)], S. 263-271).

• Possessivpronomen (PPOSS und PPOSAT): Die STTS unterscheidenzwischen substituierendem (PPOSS) und attribuierendemPossessivpronomen (PPOSAT). Die Dudengrammatik hält einenEintrag zu den Possessivpronomen im Allgemeinen sowie derenbesondere Gebrauchsweisen (Regel 371) bereit. Grundlegend wurdendie Wörter entsprechend der Regeln der Dudengrammatik entwedermit PPOSS oder mit PPOSAT getaggt. Allein die unter Regel 371aufgeführten possessiven Adjektive kommen in dieser Arbeit bzw. imKorpus nicht vor.

• Relativpronomen (PRELS und PRELAT) und reflexives Personal-pronomen (PRF): Bezüglich der Relativpronomen unterscheiden dieSTTS substituierende (PRELS) und attribuierende Relativpronomen(PRELAT). Die Dudengrammatik nimmt diese Unterscheidung nichtexplizit vor, sondern äußert sich zu den verschiedenen Pronomen inihrer Form und Funktion im Satz ([Dudenredaktion (2009)], S. 302-304).Relativpronomen kommen im gesamten Korpus sehr selten vor, wurdenaber in Anlehnung an die in der Dudengrammatik aufgeführten Regelnals Relativpronomen getaggt. Das Reflexivpronomen (PRF) kommtebenfalls nur selten vor und wurde, da es keine Besonderheitenaufweist, nach den Regeln der Dudengrammatik identifiziert und als PRFbezeichnet ([Dudenredaktion (2009)], S. 271-274).

• Interrogativpronomen (PWAT, PWAV und PWS): Die attribuierenden(PWAT) und substituierenden Interrogativpronomen (PWS) bzw.

4.1. METHODIK 81

adverbialen Interrogativ- und Relativpronomen (PWAV)13 sind inder Dudengrammatik definiert und entsprechen in ihrer Einteilungweitestgehend jener der STTS ([Dudenredaktion (2009)], S. 304-309).Das Interrogative wer/was ist in den STTS unter dem POS-Tag PWSaufgeführt. Alle Wörter, die mit PWS bezeichnet wurden, entsprechenden Regeln in den STTS und weitestgehend der Regel 406 in derDudengrammatik ([Schiller, Teufel, Stöckert und Thielen (2009)], S.51 ff.). Das Interrogative welch- hat in attribuierender Form in denSTTS die Entsprechung PWAT (attribuierendes Interrogativpronomen).Wörter, die dieses Tag erhielten, entsprechen den Definitionen derDudengrammatik (Regel 407). Das substituierende welch- wurde mitdem POS-Tag PWS markiert. Welch- kann allerdings in Ausnahmefällenauch ein substituierendes Indefinitpronomen (PIS) darstellen; nämlichdann, wenn welch- im Sinne von einige verwendet wird. In diesen Fällenwurde es mit dem POS-Tag PIS bezeichnet. Das adverbiale Interrogativ-und Relativpronomen (PWAV) ist in der Dudengrammatik unter demEintrag Adverb verortet ([Dudenredaktion (2009)], S. 577-578). DieRegeln zum Interrogativadverb (Regel 856) und Relativadverb (Regel857) entsprechen dem POS-Tag PWAV in den STTS. Da in dieser Arbeiteine Kategorisierung der Wortarten auf der Einteilung der STTS basiert,wurden auch hier die Interrogativ- und Relativpronomen den Pronomenzugeordnet, auch, wenn diese laut Dudengrammatik den Adverbienangehören.

• Partikeln (PTKZU, PTKNEG, PTKVZ, PTKANT und PTKA): DieDudengrammatik differenziert in Gradpartikeln, Fokuspartikeln,Negationspartikeln, Abtönungspartikeln, Gesprächspartikeln,Interjektionen und Onomatopoetika ([Dudenredaktion (2009)], S.588-599). Die Interjektionen wurden hier außer Acht gelassen, dasie bereits an anderer Stelle (ITJ) gesondert aufgeführt wurden. DieNegationspartikeln können analog zu den in den STTS aufgeführtenNegationspartikeln (PTKNEG) verstanden werden. Die STTSunterscheiden weiterhin Partikeln mit zu vor Infinfitiv, z. B. zu (gehen).Diese sind in der Dudengrammatik nicht unter dem Eintrag Partikeln zufinden, sondern an anderer Stelle bei den Verben und diesbezüglichbeim Infinitiv mit zu. Im vorliegenden Korpus wurde dennoch jedes zu,das separat vor einem Infinitiv steht, mit PTKZU gekennzeichnet (z.B. Es ist schön zu singen → ART VVFIN ADJD PTKZU VVINF, aber:

13An dieser Stelle wurde die Kategorisierung der STTS-Guidelines([Schiller, Teufel, Stöckert und Thielen (2009)], S. 54) beibehalten, womit alle POS-Tags der KategoriePWAV sowohl Interrogativ- als auch Relativpronomen sein können.

82 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK

Es macht Spaß, ihr vorzulesen → ART VVFIN NN PPER VVIZU). DieGradpartikeln, Fokuspartikeln und Abtönungspartikeln entsprechenweitestgehend den Partikeln bei einem Adjektiv oder Adverb in denSTTS (PTKA). Eine weitere Kategorie stellen die Gesprächspartikelndar (Regel 800), die je nach Kontext den Antwortpartikeln (PTKANT)entsprechen. In den meisten Fällen wurden sie aber mit PTKAbezeichnet werden, nämlich dann, wenn sie tatsächlich die Funktioneines Füllwortes bzw. einer Partikel übernehmen, wie im folgendenBeispiel: Der (ART) Ball (NN) ist (VVFIN) ja (PTKA) klein (ADJD)!

• Verben (VVFIN, VVIMP, VVINF, VVIZU, VVPP, VAFIN, VAIMP, VAINF,VAPP, VMFIN, VMINF, VMPP): Die Dudengrammatik widmet sich ineinem umfassenden Eintrag der Wortart Verb ([Dudenredaktion (2009)],S. 389-566). Dabei unterscheidet sie zunächst nach Bedeutungund Funktion unterschiedlicher Verbarten (ebd., S. 390-429), wasfür die Zwecke der Wortartenanalyse als Teilziel dieser Arbeit nichtvordergründig relevant ist. Ich möchte an dieser Stelle deshalb nichtnäher darauf eingehen und erst in einem späteren Kapitel wieder daraufzu sprechen kommen (Kapitel 7). Auf den Seiten 429 bis 476 beschreibtdie Dudengrammatik jene Verbformen, die in ihrer Kategorisierungdurch die STTS dem Korpus dieser Arbeit am ehesten entsprechen.Unter der Regel 596 werden die finiten Kategorien vorgestellt, die inden STTS den finiten Vollverben (VVFIN), finiten Auxiliarverben (VAFIN)und finiten Modalverben (VMFIN) entsprechen. Unter der Regel 597werden die infiniten Kategorien aufgeführt, die am ehesten mit denBezeichnungen infinites Vollverb (VVINF), infinites Auxiliarverb (VAINF)und infinites Modalverb (VMINF) gleichzusetzen sind. Die PartizipienVAPP (Partizip Perfekt, auxiliar ), VVPP (Partizip Perfekt, voll) sowieVMPP (Partizip Perfekt, modal) finden sich am ehesten in der Regel 598wieder. Mehrteilige Verbformen, wie sie in dieser Regel zu finden sind,werden in den STTS mit Hilfe der bisher aufgeführten POS-Tags einzelngetaggt, da es um die Wortart an sich gehen soll, nicht aber um dasfunktionale Gefüge. Der Konditionalsatz „Sie würde dir meine Adressenicht geben.“ würde nach den Regeln der STTS mit PPER (sie) VAFIN(würde) PPER (dir) PPOSAT (meine) NN (Adresse) PTKNEG (nicht)VVINF (geben) getaggt werden. In Bezug auf den Infinitiv mit zu könnteein Tagging-Vorgang folgendermaßen aussehen: PPOSAT (mein) NN(Ziel) VVFIN (ist) PPER (es), VVIZU (anzukommen).Eine Besonderheit betrifft die Auxiliarverben, wenn diese sich in ihrerinfiniten Form befinden. Den STTS zufolge werden diese dann als

4.1. METHODIK 83

VAINF (infinites Auxiliarverb) getaggt. Das bedeutet, dass in dem Beispiel

„Ich möchte gern erwachsen sein.“

das Verb sein laut den STTS als Auxiliarverb im Infinitiv mitVAINF getaggt werden müsste. In den Daten dieser Arbeit sollte diesnicht geschehen und sein sowie die weiteren Auxiliarverben wurdenin ihrer infiniten Form mit VVINF getaggt. Dieses Vorgehen ist darinbegründet, dass sein in dem Beispielsatz „Ich möchte gern erwachsensein.“ streng genommen gar kein Auxiliarverb mehr sein kann, sobaldes im Infinitiv steht. Analog verhält es sich mit der Kategorie VAPP(Auxiliarverb, Partizip Perfekt). Auch diese wurde in dieser Arbeit nichtverwendet und stattdessen mit VVPP ersetzt.

Im weiteren Verlauf beschreibt die Dudengrammatik vor allem dieFunktionsweise der Verben sowie deren Stellung im Satz. Darauf möchteich aus oben genannten Gründen nicht eingehen. Nicht verzichtenmöchte ich aber auf die Demonstration zweier Beispiele, da dieseMuster im Korpus gehäuft auftreten. Es handelt sich um die Bezeichnungder Verben im Passiv (sieh auch die Regeln 667 - 677). Formen wie„wird geliebt“ wurden getaggt als VAFIN (wird) VVPP (geliebt); „werdegeliebt werden“ sähen bezeichnet mit POS-Tags folgendermaßen aus:VAFIN (werde) VVPP (geliebt) VVINF (werden). Analog verhält essich beim Taggen von Modalverbkomplexen (Regel 679). „Wir könnenschwimmen“ würde bezeichnet werden mit PPER (wir) VMFIN (können)VVINF (schwimmen); „er hat nicht schwimmen dürfen“ würde bezeichnetwerden mit PPER (er) VAFIN (hat) PTKNEG (nicht) VVINF (schwimmen)VMINF (dürfen). Die syntaktischen Wörter im Beispiel „ich bin groß“würden bezeichnet werden mit PPER (ich) VVFIN (bin) ADJD (groß). Imengeren Sinne ist bin in diesem Beispiel ein Kopulaverb. Da die STTSdies als POS-Kategorie nicht vorgeben, wurden im weiteren Verlauf auchfür Kopulaverben die POS-Tags VVFIN bzw. VVINF verwendet. In einerspäteren Analyse wurden alle Lemmata und somit auch alle Verben einerAnalyse unter semantisch-funktionalen Aspekten unterzogen, wobeiinsbesondere Kopulaverben identifiziert wurden (Kapitel 7). Im Hinblickauf die Bezeichnung der Wörter mit den POS-Tags für Verben wirddeutlich, dass eine rein lexikalisch basierte Bezeichnung nicht möglichist. Allein, wenn zwischen einem finitem oder infinitem Verb gewählt wird,muss der Kontext häufig hinzugezogen werden. Man nehme das Beispiel„wir schwimmen im See“. Das Verb schwimmen ist in diesem Fall ein

84 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK

finites Vollverb, also VVFIN. Losgelöst vom Kontext könnte es ebensoein infinites Vollverb, also VVINF, darstellen. An dieser Stelle wurdenalle Verben zunächst unter Berücksichtigung des Kontextes bezeichnetund erst später zu Unterkategorien zusammengefasst, wodurch demlexikalisch begründeten Anspruch wieder Rechnung getragen wird(Tabelle 6.1). Da ich mich im Vorfeld dazu entschieden habe, die STTSals populäres Tagging-System für meine Analyse zu nutzen, hielt iches dennoch für sinnvoll, dass auch die Möglichkeit einer späterensyntaktischen Analyse gegeben ist.

Bei der Zusammenfassung der POS-Tags zur Bezeichnung derVerben gab es mehrere Möglichkeiten. Eine Variante war es, alle Verben- so wie sie im obigen Abschnitt zusammen erläutert wurden - zu einerKategorie zusammenzufassen. Unter lexikalischen Gesichtspunkteneiner Wortartenanalyse wäre dies mit Sicherheit vorteilhaft undausreichend. Da insbesondere Verben als Inhaltswörter jedoch sehraufschlussreich sind und im weiteren Verlauf zudem einer Inhaltsanalysesowie einer semantischen Analyse unterzogen wurden, sollten sie indrei Kategorien aufgeteilt werden. Dadurch blieben jene Informationenerhalten, die für das weitere Vorgehen essentiell waren. Die Verbenwurden zusammengefasst in die Unterkategorien:

Auxiliarverb (VAFIN, (VAINF), VAIMP, (VAPP))Modalverb (VMFIN, VMINF, VMPP)Vollverb (VVFIN, VVINF, VVPP, VVIMP, VVIZU)

4.1.8 Kriterien für die Lemmatisierung der syntaktischen Wörter

Analog zu den Kriterien für das Bezeichnen der Wortarten mit den POS-Tagsin Abschnitt 4.1.7 möchte ich an dieser Stelle die Kriterien anführen,nach denen die geäußerten, transkribierten und voneinander separiertenWörter lemmatisiert wurden, wobei ich insbesondere auf die Sonderfälleeingehen möchte. Bei der Lemmatisierung stütze ich mich vor allem auf dieRegeln der eben zitierten Dudengrammatik ([Dudenredaktion (2009)]). DiePOS-Tags vor den Klammern bilden die Tags in ihrer gruppierten Form ab(Tabelle 6.1), die POS-Tags in Klammern sind alle hier vorkommenden, nichtzusammengefassten Wortarten (Tabelle 3.2).

• ADJ (ADJA und ADJD): Adjektivbezeichnungen sind in ihrerlemmatisierten Form immer im Positiv angegeben. Grenzfälle gab eswie bereits weiter oben beschrieben bei substantivierten Adjektiven,

4.1. METHODIK 85

insbesondere bei den Farbwörtern. Da in dieser Arbeit nur die Wortartan sich im Mittelpunkt steht, wurden an dieser Stelle die Positivformenangegeben; auch wenn in Sonderfällen in der lemmatisierten Form einArtikel vor dem Lemma steht. Die Aussage „ich nehme das Große/große“würde dementsprechend „ich (ich) nehmen (nehme) d (das) groß(Große/große)“ lemmatisiert. Analog verhält es sich mit folgendemBeispiel: „du hast eine Blaue/blaue“ → „du (du) haben (hast) ein (eine)blau (Blaue/blaue)“. Dies ist insbesondere deshalb logisch, weil in diesenFällen eine Ellipse vorliegt, durch die das Nomen an dieser Stelle nichtexpilizit angeführt wird.

• ADV (ADV und PAV): Adverbien und Pronominaladverbien unterliegenkeinen besonderen Grenzfällen. Sie bilden bereits als Wort dielemmatisierte Form ab und wurden dementsprechend auch soübernommen.

• APPR (APPR, APPRART, APPO, APZR): Präpositionen ohne Artikel(APPR) behielten ihre Form, die sie als Wort aufweisen, auch als Lemmabei. Präpositionen mit Artikel (APPRART) verloren in der lemmatisiertenForm ihren Artikel (beim → bei, ans → an). Die Präpostionen APPO undAPZR kommen im Korpus nicht vor.

• ART: Die bestimmten Artikel (der, die, das, die (Pl.) wurden als d (imSingular) bzw. d-p (im Plural) lemmatisiert. Die unbestimmten Artikel (ein,eine) wurden zu ein.

• CARD: Da die Kardinalzahlen häufig einen adjektivischen Charakteraufweisen, wurden sie in ihrer Form als Lemma ebenso nach denRegeln der Adjektivlemmatisierung lemmatisiert. Die Ordnungszahlenveränderten sich folgendermaßen: erste → erst, dritte → dritt, wobei dieGrundzahlen ihre Form als Wort auch als Lemma beibehielten: eins →eins, zweihundert → zweihundert.

• FM: Fremdsprachliches Material kommt im gesamten Korpus nursehr selten vor und blieb in der lemmatisierten Form in seinerfremdsprachlichen Wortform erhalten.

• ITJ: Interjektionen erfuhren keine Änderung in der lemmatisierten Form.

• KON (KOUI, KOUS, KOKOM, KON): Konjunktionen erfuhren keineÄnderung in der lemmatisierten Form.

• N (NE und NN): Nomen (NN) und Eigennamen (NE) wurden als Lemmain der Nominativform im Singular angeführt.

86 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK

• PIDATS (PDAT, PDS, PIAT, PIDAT, PIS): Unter den substituierenden(PDS) und attribuierenden Demonstrativpronomen (PDAT) findet sichim Korpus lediglich dies/e/er/es; jene/r/s kommt nicht vor. Dies/e/er/eswurde in der lemmatisierten Form immer als dies angeführt. Ein Grenzfallstellt das substituierende Demonstrativpronomen in Äußerungen wie„das ist großartig“ dar. In diesem Fall ist das ein Demonstrativpronomen,wurde dementsprechend mit dem POS-Tag PDS getaggt und erhielt dasLemma dies. Mir ist bewusst, dass ich an dieser Stelle eine kontextuelleAnalyse durchführe, doch da die STTS als Kategorisierungssystemangewendet wurden und die Ergebnisse für weiterführende Arbeitenrelevant sein können, habe ich mich an dieser Stelle dazu entschlossen([Dudenredaktion (2009)], Regeln 372 und 373, S. 280-281). Hinsichtlichder attribuierenden Demonstrativpronomen (PDAT) lassen sich in dieserArbeit nur wenige Fälle finden, die sich auf Wendungen mit dies- +Nomen beschränken. Dementsprechend wurde das entsprechendeWort nach der Lemmatisierung mit dies- gekennzeichnet. Im weiterenVerlauf ergab sich allerdings folgende Besonderheit, die erst späterin Kapitel 7 zum Tragen kommt. Bei der Analyse der Lemmata nachsemantischen Kriterien musste streng genommen kontextuell analysiertwerden. Demnach ist ein attribuierendes Demonstrativpronomen inFällen wie „Ich spiele mit diesem Ball“ kein Demonstrativpronomenmehr, sondern Artikel. Aufgrund der sehr selten auftretenden Fälle undaufgrund der Übersichtlichkeit wurde später auch in diesen Fällen mitdem POS-Tag PDAT bzw. der entsprechenden Bedeutungskategoriepdat bezeichnet, wohlwissend, dass es in anderen Analysen eineabweichende Kennzeichnung erhalten könnte (siehe auch Kapitel 7).Die Lemmatisierung der Indefinitpronomen (PIS, PIAT, PIDAT) wurde inAnlehnung an die Dudengrammatik (Regeln 409 bis 440) durchgeführt.Beispiele für lemmatisierte Indefinitpronomen sind: manche/r/s →manch, wenig/e/er/es → wenig, viel/e → viel. Einen Sonderfall bildetdie Lemmatisierung von Wendungen wie „ein bisschen“ oder „einpaar “. Diese wurden separat als ART (ein) + PIS (bisschen) getaggtund lemmatisiert, obwohl es sich streng genommen um feststehendeWendungen handelt.

• PPER: Die irreflexiven Personalpronomen blieben immer im Nominativ(Singular oder Plural): z. B. ich → ich, ihr (2. P. Pl.) → ihr, ihm → er, uns→ wir.

• PPOS (PPOSS und PPOSAT): Die substituierenden (PPOSS)und attribuierenden Possessivpronomen (PPOSAT) blieben immer

4.1. METHODIK 87

im Nominativ (Singular) in Anlehnung an die Dudengrammatik([Dudenredaktion (2009)], S. 276): meine → mein, meinem → mein,unsere→ unser, ihr → ihr.

• PREL (PRELS und PRELAT): Das attribuierende Relativpronomen(PRELAT) kommt im vorliegenden Korpus nicht vor. Das substituierendePersonalpronomen (PRELS) blieb in der lemmatisierten Form immer imNominativ.

• PRF: Das reflexive Personalpronomen blieb in der lemmatisierten Formimmer im Nominativ (Singular): „ich sah mich im Spiegel“ → „ich (PPER)sehen (VVFIN) ich (PRF) in (APPRART) Spiegel (NN)“ (siehe auch[Dudenredaktion (2009)], S. 274, Regel 367).

• PW (PWS, PWAT, PWAV): Die substituierenden Interrogativpronomen(PWS) stehen aufgrund ihres Vorkommens durch die Formen wer, wasund welch- in der lemmatisierten Form ebenfalls als wer, was oderwelch-. Die attribuierenden Interrogativpronomen (PWAT) wurden inAnlehung an die Dudengrammatik durch ihre Stammform repräsentiert([Dudenredaktion (2009)], S. 328, Regel 439). In diesem Eintrag handeltes sich zwar um die Abhandlung von welch- als Indefinitpronomen (alsInterrogativpronomen wird welch- in Regel 407 diskutiert). Aufgrundder Einheitlichkeit sollte eine Lemmatisierung mit welch- auch andieser Stelle beibehalten werden. Andere Interrogativpronomen (z. B.wessen) kommen im Korpus nicht vor. Die adverbialen Interrogativ- oderRelativpronomen (PWAV) konnten aufgrund der Unveränderlichkeit ihrerWortform in dieser auch als Lemma beibehalten werden.

• PTK (PTKA, PTKANT, PTKNEG, PTKVZ, PTKZU): Die Partikeln wurdenaufgrund ihrer unveränderlichen Form als Wort dementsprechend in derlemmatisierten Form aufgeführt.

• VA (VAFIN, VAIMP, (VAINF), (VAPP)): Alle Auxiliarverben wurden in derlemmatisierten Form immer im Infinitiv aufgeführt.

• VM (VMFIN, VMINF, VMPP): Alle Modalverben wurden in derlemmatisierten Form immer im Infinitiv aufgeführt.

• VV (VVFIN, VVINF, VVIMP, VVPP, VVIZU): Alle Vollverben wurden in derlemmatisierten Form immer im Infinitiv aufgeführt.

88 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK

Kürzel Ge-

schl.

Sprache

während

der

Aufnahmen

Erst-

sprache

Zweit-

sprache

Geburts-

datum

Angaben

zur Mutter

Angaben

zum Vater

Geschw.

AV f deutsch dt. k.A. 2005-07-27 geb. 1972,

wiss.

Mitarb.

Geschichte

geb. 1972,

Architekt

zwei

Geschwister

(geb. 1995

und 2003)

MM f deutsch dt. k.A. 2004-09-04 geb. 1980,

Studentin

der

Architektur

geb. 1972,

Koch

ein Bruder

(geb. 2008)

JS m deutsch dt. k.A. 2004-12-31 geb. 1974,Deutsch-

lehrerin

geb. 1977,

Psychologe

keine

RD m deutsch dt. k.A. 2004-10-08 geb. 1975,

Soziologin

geb. 1971,

Sozialwiss.

IPR

eine

Schwester

(geb. 2008)

MK m deutsch dt. k.A. 2005-09-09 geb. 1975,Studentin

derBiotechno-

logie

geb. 1976,Diplom-

Ingenieur

ein Bruder

(geb. 2008)

LEO m deutsch dt. k.A. 2005-06-13 geb. 1964,

Architektin

geb. 1965,

Architekt

eine

Schwester

(geb. 2004)

LAR f deutsch dt. k.A. 2004-10-05 geb. 1977,

Studentin

DaF,

Erz.-Wiss.

und Neuere

Dt.

Philologie

geb. 1973,

Student der

Informatik

eine

Schwester

(geb. 2007)

SO f deutsch dt. k.A. 2004-12-21 geb. 1975,

keine

Angabe

zum Beruf

geb. 1957,

keine

Angabe

zum Beruf

eine

Schwester

(geb. 2003)

LUA f deutsch dt. k.A. 2005-07-02 geb. 1972,Diplom-

Biologin

geb. 1972,Diplom-

Ingenieur

keine

JK m deutsch dt. k.A. 2004-09-20 k.A. k.A. k.A.

LL f deutsch dt. fran-zö-

sisch

2005-03-02 geb. 1971,

HS-Lehrerin

geb. 1936,

Künstler

(Maler)

eine

Schwester

(geb. 2003)

MA f deutsch dt. k.A. 2006-05-23 geb. 1978,

Studentin

Landsch.-Pl.

geb. 1975,

Kaufmann

zwei Brüder

(geb. 2002

und 2007)

Tabelle 4.2: Gruppe der Testpersonen

Kapitel 5

Die Arbeit mit demCorpusAnalyser

In diesem Kapitel möchte ich den CorpusAnalyser vorstellen undinsbesondere die Anwendung im Hinblick auf die Zwecke der vorliegendenArbeit dokumentieren. Der CorpusAnalyser ist ein Open-Source-Programmund wurde von Alexander Mack ([Mack (2014)]) den Anforderungendieser Arbeit entsprechend programmiert. Es kann kostenfrei verwendetund/oder modifiziert werden nach den Richtlinien der GNU General PublicLicense1. Die programmierte Datenbank basiert auf der Sprache SQlite3,die dazugehörigen Skripte sind Perl- bzw. Bash-Shell-Skripte. In meiner nunfolgenden Beschreibung möchte ich detailliert auf die einzelnen Funktioneneingehen, wobei ich mich an die Strukur halte, die der genannten Webseitezugrunde liegt. 2

Grundlage für die Arbeit mit dem CorpusAnalyser (folgend CA) bildenXML-Dateien, die zuvor in FOLKER (Abschnitt 4.1.4) oder EXMARaLDA(Abschnitt 4.1.6) bearbeitet wurden. Relevante Teile der jeweiligen XML-Dateiwurden anschließend in eine SQlite3-Datenbank (Mack (2014)) überführt. DieDatenbank selbst wurde als Datei auf einer Festplatte gespeichert. Nachdemdie Daten erstellt und in die Datenbank importiert worden sind, konntenspezifische Abfragen an die Datenbank gestellt werden. Der Output wurde alsCSV-Datei3 in ein Zielverzeichnis geschrieben. Daneben existieren Skripte,mit denen Audio (.wav)-Dateien modifiziert werden können. Auf diese Weisekonnten zum Beispiel nicht verwendete Teile der Audio-Dateien, die im Zugedieser Arbeit entstanden, stumm geschaltet werden, wobei die Informationendafür aus einer FOLKER-Datei gezogen wurden.

1Weitere Informationen unter http://www.gnu.org/copyleft/gpl.html (zuletzt besucht am 22.10.14)2Alle Abbildungen in diesem Kapitel mit Bezug zum CA stammen von der Webseite:

https://github.com/fiedler-mack/CorpusAnalyser.3https://de.wikipedia.org/wiki/CSV_(Dateiformat) (letzter Zugriff 22.10.2014)

89

90 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER

Die nun folgenden Beschreibungen nehme ich vor, weil ich dazuermutigen möchte, die Software zu installieren und zu nutzen. Vor allemjenen, die auf dem Gebiet der Informationstechnik Erfahrung haben, dürftees nicht schwer fallen, eine Installation durchzuführen. Allen anderenInteressierten empfehle ich, sich Hilfe bei erfahrenen Personen zu holen.Nachdem die Software installiert und die jeweiligen Daten in die Datenbankimportiert worden sind, sollte es keine Schwierigkeiten bei der Anwendunggeben. Weiterführende Informationen befinden sich auf der Webseitehttps://github.com/fiedler-mack/CorpusAnalyser. Im Folgenden sind dieBezeichnungen für Skripte und Ordner in grüner Schrift, Befehle undBefehlszeilen, die im Textfluss erwähnt werden, sind kursiv. Da die Skripteauf die Ziele der vorliegenden Arbeit abgestimmt sind, werden auchAbschnitte und Bezeichnungen enthalten sein, die erst in den folgendenKapiteln nachvollziehbar werden. Diese sind mit den entsprechendenQuerverweisen gekennzeichnet. Dennoch war es wichtig, das vorliegendeKapitel vor den Analyse- und Diskussionsteil zu positionieren, da hierwichtige methodische Schritte erläutert werden. Es sei daher empfohlen,die vorliegenden Skripte nach der eigentlichen Analyse erneut zu lesen,um die gewonnenen Ergebnisse in das Gesamtbild der Arbeit einordnen zukönnen. Alle nun folgenden Arbeitsschritte wurden auf der Grundlage einesLinux-Betriebssystems erstellt.

5.1 Die Inhalte im Überblick

Project folder structure

Die unten stehende Abbildung (Abbildung 5.1) veranschaulicht die für dieDatenbank empfohlene Ordnerstruktur (folder structure). Diese kann geändertwerden, wenn Skripte manuell aufgerufen oder Pfade in den Hilfsskripten(xxx_all.sh) manuell bearbeitet werden.

Wie zu erkennen ist, existiert ein übergeordneter Ordner project root foldermit mehreren Unterordnern. Der erste Unterordner ist zwangsläufig der CAmit dem dazugehörigen Skript 01_wav_convert (siehe: 01_wav_convert).Die einzelnen Skripte und deren Einsatz werden an späterer Stelle nochbesprochen (Abschnitt 5.2).

5.1. DIE INHALTE IM ÜBERBLICK 91

Abbildung 5.1: CA: project folder structure

Installation / Preparation

Für die Installation der Datenbank muss die eben beschriebene Ordnerstrukturerstellt werden. Der project folder wird im Ordner root gespeichert (Abbildung5.2).

Abbildung 5.2: CA: Installation

Copy / save your files to the right place

Abbildung 5.3 enthält die Anweisungen für ein korrektes Kopieren und Sichernaller Dateien. Zunächst müssen die Wave-Dateien (wav-files) in den Ordner01_input_files/wav kopiert werden. Anschließend werden FOLKER-Dateienmit dem Programm FOLKER erstellt und im XML-Format mit dem Namenname.flk gesichert. Der Name darf keine Leerzeichen enthalten und mussden gleichen Namen tragen wie die dazugehörige Wave-Datei. Die so erstellteFOLKER-Datei wird in den Ordner 01_input_files/folker kopiert. Anschließendwird eine EXMARaLDA-Datei (.exb) mit dem Programm EXMARaLDA erstellt

92 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER

und in den Ordner 01_input_files/exmaralda kopiert und dort gesichert.

Abbildung 5.3: CA: copy and save files

Convert wav-files

In einem vierten Schritt werden die Wave-Dateien konvertiert und alle nichtverwendeten Passagen stumm geschaltet. Dies ist notwendig, weil nicht vonallen Probandinnen und Probanden die Einverständniserklärung der Eltern füreine Veröffentlichung der Aufnahme vorliegt. Die Passagen werden auf dieseWeise entfernt.

Abbildung 5.4: CA: convert wav-files

Um die nicht verwendeten Passagen zu überschreiben, muss folgendesSkript aufgerufen werden:

01_wav_convert/remove_non_used_area_in_wav_all.sh.In einer Konsole/einem Terminal sollte nun zum project folder gewechselt

werden. Wenn alle Schritte aus Abbildung 5.4 erfolgreich durchgeführt wurden,sollten die neu erstellten Wave-Dateien im folgenden Output-Directory zufinden sein: 02_generated_files/wav.

Create the SQLite3 Database

In diesem Abschnitt geht es um die Frage, wie die SQLite3-Datenbank erstelltwird. Auch dafür wird erneut mit einer Konsole/einem Terminal gearbeitet,

5.1. DIE INHALTE IM ÜBERBLICK 93

wobei zunächst in den project folder gewechselt wird. Von dort aus erfolgtein Wechsel zum CA, von wo aus mit dem Befehl ./create_database.shdie Datenbank (Abbildung 5.5) erstellt wird. Nach einem erfolgreichenAusführen aller Schritte befindet sich die erstellte leere Datenbank im Ordner02_generated_files/corpus.db.

Abbildung 5.5: CA: create database

Import exmaralda files to sqlite db

Im vorigen Abschnitt wurde gezeigt, wie eine zunächst leere Datenbankerzeugt werden kann. Da zu einem großen Teil mit EXMARaLDA-Dateiengearbeitet wird, soll nun gezeigt werden, wie diese wiederum in die Datenbankimportiert werden können.

Abbildung 5.6: CA: import exmaralda files

In einer Konsole/einem Terminal erfolgt dafür zunächst ein Wechsel inden project folder. Durch das Ausführen des Befehls ./db_import_all.sh../../01_input_files/exmaralda/ ../../02_generates_files/corpus.db befindet sich

94 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER

eine aktualisierte Version der SQLite3-Datenbank unter02_generated_files/corpus.db. In eben diesem Ordner befindet sich nun dieDatei corpus.db, welche geöffnet werden kann, um die importierten Daten aufRichtigkeit zu überprüfen. Ein zweiter (und schnellerer) Weg zum Erstellender Datenbank ist laut Mack (2014) mit einer Administrator-Berechtigungzu erreichen, wodurch über ein temporäres Dateisystem im Arbeitsspeicher(tmpfs) gearbeitet wird ([Mack (2014)]). Die einzelnen Schritte sind inAbbildung 5.6 unter Punkt 5.2 zu nachzulesen.

Generate all results (step 7-12) from db

Durch das Ausführen des Skriptes Generate all results (step 7-12) from db(Abbildung 5.7) können alle (folgend beschriebenen) Skripte zusammenausgeführt werden, ohne dass diese einzeln aufgerufen werden müssen. Diesist dann hilfreich, wenn tatsächlich alle Abfragen (Tag count results, Typetokenresults, Typetoken Lemma results, Lemma Tag results, Lemma Bedeutungresults und Typetoken Bedeutung results) getätigt werden sollen, da somitviele Arbeitsschritte gespart werden.

Abbildung 5.7: CA: generate all results

Generate Tag count results from db

An dieser Stelle wird der erste Schritt erläutert, der für die Analyseder Verteilung der Wortarten unternommen wurde. Wie bereits in 4.1.6beschrieben, wurden alle transkribierten Wörter mit ihren dazugörigenPOS-Tags und den entsprechenden Lemmata versehen. Da insbesonderedas Vorkommen der POS-Tags in Entsprechung zu den jeweiligen Lemmatainteressant ist, wurde unter anderem dieses Skript geschrieben. Mitdiesem werden zunächst alle unterschiedlichen Tags gezählt und dannje nach Wunsch im Zielverzeichnis sortiert nach dem Namen, dem Alteroder einer Kombination aus beidem abgelegt. Dazu erfolgt wieder einWechsel in den project folder und anschließend in den CA-Ordner. Durchden Befehl ./db_query_all-tag_count.sh werden alle Tags gezählt und

5.1. DIE INHALTE IM ÜBERBLICK 95

durch ./db_query_all_tag_count_name.sh in separaten Ordnern unter demjeweiligen Namen der Probandin/des Probanden gespeichert.

Abbildung 5.8: CA: generate tag count results

Typetoken results from db

Analog zu den Schritten im vorigen Abschnitt können alle Types mit denentsprechenden Tokens ausgezählt werden. Wie gewohnt muss in projectfolder denund anschließend in den CA gewechselt werden. Durch denBefehl ./db_query_all_typetoken werden alle Tokens (also jedes syntaktischeWort) und alle entsprechenden Types (alle unterschiedlichen Wörterin ihrer lemmatisierten Form) gezählt und im Zielverzeichnis mit demdazugehörigen Kürzel der Probandin/des Probanden sowie in der jeweiligenAltersgruppe abgelegt. Eine solche Analyse ist hilfreich bei der Ermittlung derType-Token-Relation. Wenn es um die Verteilung der POS-Tags geht, könneninteressante Passagen zudem mit konkreten Beispielen belegt werden.

Abbildung 5.9: CA: type-token results

Typetoken Lemma results from db

Durch das Ausführen der Schritte in Abbildung 5.10 werden zusätzlich zu denTokens und Types je POS-Tag die Lemmata angezeigt. Nach dem Wechseln inden project folder und anschließend in den CA-Ordner muss dazu der Befehl./db_query_all_typetoken_lemma.sh ausgeführt werden.

96 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER

Abbildung 5.10: CA: type-token-lemma results

Lemma Tags results from db

Der wahrscheinlich am häufigsten genutzte Befehl zur Ermittlung derWortartenverteilung in der vorliegenden Arbeit ist in Abbildung 5.11beschrieben. Durch den Befehl ./db_query_all_lemma_tag.sh werden alleTags mit ihren dazugehörigen Lemmata in einzelne Ordner geschrieben.Diese sind sortiert nach den Kürzeln der Probandinnen und Probanden in denjeweiligen Altersgruppen.

Abbildung 5.11: CA: lemma tag results

Lemma Bedeutung results from db

Ein ebenso häufig verwendeter Befehl ist ./db_query_all_lemma_bedeutung.sh.Durch das Ausführen werden alle Bedeutungen mit ihren dazugehörigenLemmata in einzelne Ordner, sortiert nach den jeweiligen Altersgruppen,geschrieben.

Abbildung 5.12: CA: lemma bedeutung results

5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 97

Typetoken_Bedeutung results from db

Der Befehl ./db_query_all_typetoken_lemma.sh bewirkt, dass alle Lemmata,die pro Bedeutungskategorie vorkommen, sortiert und gezählt werden.Die derartig sortierten Lemmata werden dann ihren Bedeutungskategorienzugeordnet und in CSV-Dateien abgelegt.

Abbildung 5.13: CA: typetoken bedeutung results

5.2 Die Funktionen des CorpusAnalysers

Im nun folgenden Abschnitt möchte ich die für die vorliegende Arbeitbesonders wichtigen Funktionen bzw. Skripte des CA näher erläutern unddie Zwecke, die damit für diese Arbeit verfolgt werden, darstellen. Der CAwurde, wie bereits erwähnt, für die Zwecke dieser Arbeit entwickelt. Dennoch,oder gerade deswegen, hält er eine Fülle von Funktionen bereit, die jedochnicht immer zusammen genutzt werden müssen. Jede Unterfunktion kanneinzeln oder in Kombination unterschiedliche Zwecke erfüllen. Ich werdeauf jedes einzelne Skript eingehen, aber nur die für diese Arbeit relevantenBefehlszeilen ausführlich beschreiben.

5.2.1 01_wave_convert

Diese Funktion hält die Skripte remove_non-used_area_in_wav.pl undremove_non-used_area_in_wav_all.sh bereit. Das Perlskript überschreibtnicht verwendete Passagen in den FOLKER-Dateien mit einem Stille-Modus.Dafür zieht sich der CA die benötigten Zeitstempel aus der FOLKER-Datei- also Anfang und Ende der zu überschreibenden Stelle. Zudem reagiertder CA auf bereits transkribierte Passagen. Alle Passagen in FOLKER,die nicht in irgendeiner Form transkribiert sind, wurden in dieser Arbeit mitdem Stille-Modus überschrieben (siehe auch Abschnitt 4.1.5). Das Skriptremove_non-used_area_in_wav_all.sh ist ein sogenanntes Hilfsskript. Eskonvertiert alle Wave-Dateien vom Quellordner INPUT_WAV_DIR in denZielordner OUTPUT_WAV_DIR. Es verwendet außerdem FOLKER-Dateienaus dem Ordner INPUT_FLK_DIR.

98 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER

5.2.2 02_create_database

Hinter dieser Funktion befinden sich die Skripte create_database.shsowie db_table_structure.sqlite3. Ersteres erstellt eine SQLite3-Datenbankcorpus.db und initialisiert die Tabellen, die im zweiten Skript erläutert sind.Wenn bereits eine Datenbank exisitiert, wird diese gelöscht und mit der neuerstellten Datenbank überschrieben. Das Skript db_table_structure.sqlite3enthält die Tabellenstruktur der Datenbank. Im Wesentlichen gehören dazu:sprecher, aufnahme, textpostags, wavdatei. Abbildung 5.14 zeigt einenAusschnitt des Skripts zur Erstellung der Untertabelle sprecher. Enthaltensind id (aufnahme-id), name (des kindes), kuerzel (des kindes), geschlecht,sprache, erstsprache, geburtstdatum. Die ID, die auch bei den dazugehörigenAufnahmen als Fremdschlüssel (FOREIGN KEY ) unter der sprecher_idvorkommt, wird dort eingetragen.

Abbildung 5.14: CA: table structure sprecher

Im Teil aufnahme (Abbildung 5.15) sind die Informationen id, sprecher_idund wavdatei_id enthalten. Ferner sind enthalten der esb_name, datum,kommentar und FOREIGN KEYs, die die IDs der entsprechenden sprecher-und wavdatei-Tabellen auf die Informationen sprecher-id und wavdatei-idverlinken. Die ID, welche auch bei der dazugehörigen textpostags-Tabelle alsFremdschlüssel unter der aufnahme-id vorkommt, wird dort eingetragen. Deresb_name ist die entsprechende EXMARaLDA-Datei. Das datum ensprichtdem Aufnahmedatum der Audio-Datei.

5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 99

Abbildung 5.15: CA: table structure aufnahme

Der Unterpunkt textpostags (Abbildung 5.16) enthält alle Informationenzu den einzelnen Wörtern, POS-Tags und Lemmata. Dazu gehören dieid, aufnahme_id, wort (bzw. Wort, das geäußert wurde), lemma (dasdem Wort entspricht), postag (POS-Tag des jeweiligen Lexems bzw.Lemmas), unverständlich (einige geäußerte Wörter wurden als unverständlichmarkiert und werden an dieser Stelle ausgeklammert). Die Punkte tli_start,tli_start_intp, tli_end und tli_end_intp beziehen sich auf die Timeline-Startund -endpunkte, an denen sich wort+postag+lemma+bedeutung in derEXMARaLDA-Datei befinden. tli_start_intp und tli_end_intp stellen dabeiinterpolierte Start- bzw. Endwerte in den Zeitabschnitten dar. Die Funktion derInterpolierung, also das Schätzen von Zeitwerten, ist mit dem EXMARaLDAPartitur Editor möglich. Bei der Arbeit mit EXMARaLDA kann es zuunbenutzten Spalten oder Lücken in der Zeitskala kommen (z. B., weil einWort entfernt wurde). Entstehen in einer Datei mehrerer solcher unbenutzterPunkte, kann dies durch die Interpolierung ausgeglichen werden, indem dieleeren Spalten oder Lücken entfernt werden. Jeder Spalte werden dannneue Zeitwerte zugeordnet. Hierbei ist allerdings Vorsicht geboten, wenndie EXMARaLDA-Datei bei der späteren Analyse noch mit der jeweiligenWave-Datei kooperieren muss (etwa bei phonetischen Analysen). Durchdie Interpolierung verändern sich die absoluten Zeitwerte und entsprechennicht mehr denen der Wave-Datei. Durch die textpostags-vorgaenger_idund die textpostags-nachfolger_id koennen in der Ausgabedatei Vorgängerund Nachfolger zugeordnet und dadurch die geäußerten Wörter angezeigtwerden. Insbesondere bei der Analyse von Konnotationen ist dies hilfreich.

100 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER

Abbildung 5.16: CA: table structure: textpostags

Abbildung 5.17 zeigt den Tabelleneintrag wavdatei. Dieser enthält diePunkte id und name (der jeweiligen Wave-Datei). Jeder Wave-Datei wirdein Name und eine ID in der Datenbank zugeordnet, welche auch bei denentsprechenden Aufnahmen als Fremdschlüssel (FOREIGN KEY ) unter derwavdatei-id eingetragen wird.

Abbildung 5.17: CA: table structure wav_datei

5.2.3 03_import_data

Unter der Funktion 03_import_data verbergen sich die Skriptedb_import_all.sh und db_import_exb_to_db3.pl. Das Perlskript liestEXMARaLDA-Dateien im exportierten XML-Format aus und zieht dierelevanten Daten aus der jeweiligen Datei. Dann schreibt es die so erhaltenenWerte in die SQLite3-Datenbank. Wenn ein Eintrag in der Datenbank bereitsexistiert, wird der neue Eintrag ignoriert. Zum Erstellen einer aktualisiertenDatenbank, muss das Skript create_database.sh reinitialisiert werden.Das Skript db_import_all.sh wird verwendet, um EXMARaLDA-Dateienin die Datenbank zu importieren. Durch diesen Schritt werden alleEXMARaLDA-Dateien (.exb) aus einem gegebenen Ordner gelesen undder Inhalt der Dateien in die Datenbank geschrieben. Der Inhalt derEXMARaLDA-Dateien wird durch das Unterskript db_import_exb_to_db3.pl inSQLite3 importiert und exportiert.

5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 101

5.2.4 04_query_db

Unter 04_query_db finden sich sechs Unterfunktionen mit den jeweiligenSkripten, die im Folgenden genauer beschrieben werden sollen. DieSkripte sind für die Analyse der Daten (Kapitel 6 und 7) essentiell. Durchleichte Änderungen in den Befehlszeilen können beispielweise die gleichenUntersuchungen in anderen Sprachen unternommen werden. Auch dasUntersuchen von Morphemen und Phonemen ist mit den Skripten möglich.Doch dazu später mehr (Abschnitt 5.3). Alle Skripte bzw. deren wesentlichenTeile befinden sich im Folgenden mit der entsprechenden Kennzeichnung inblau unterlegter Schrift. Weiterhin wurden zu Zwecken der Übersichtlichkeitdie Kommentare in den Skripten ausgespart.

5.2.4.1 01_tag_count

Hinter dieser Funktion verbergen sich vier Skripte, deren Funktionen imFolgenden näher erläutert werden.

db_query_tag_count.sh: Dieses Skript fragt die POS-Tags zwischenden Zeitstempeln in der Datenbank ab und schreibt die Ergebnisse in eineCSV-Datei. Anhand des nun folgenden Ausschnitts aus dem Skript sollen dierelevanten Befehle im Hinblick auf die Zwecke dieser Arbeit erläutert werden:

Skript: db_query_tag_count.shDB=../../../02_generated_files/corpus.dbif [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] ; thenecho "usage $0 daymin daymax postag outputdir"exit

fiDAYMIN=$1DAYMAX=$2POSTAG="$3"OUTPUTDIR=$4echo -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query.sqlecho -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query.sqlecho -n ’-julianday(sprecher.geburtsdatum), ’ >> query.sqlecho -n ’aufnahme.esb_name, textpostags.wort, ’ >> query.sqlecho -n ’textpostags.postag, textpostags.id ’ >> query.sqlecho -n ’FROM sprecher,aufnahme,textpostags ’ >> query.sqlecho -n ’WHERE julianday(aufnahme.datum) - ’ >> query.sqlecho -n ’julianday(sprecher.geburtsdatum) > ’ >> query.sqlecho -n $DAYMIN >> query.sqlecho -n ’ AND julianday(aufnahme.datum) ’ >> query.sqlecho -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sqlecho -n $DAYMAX >> query.sqlecho -n ’ AND textpostags.postag = "’ >> query.sqlecho -n $POSTAG >> query.sqlecho -n ’" AND aufnahme.sprecher_id = sprecher.id AND’ >> query.sql

102 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER

echo -n ’ textpostags.aufnahme_id = aufnahme.id;’ >> query.sqlecho "create file $OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csv"cat query.sql | sqlite3 $DB > \$OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csv

rm query.sql

Durch die Befehle DAYMIN und DAYMAX wird die Zeitspanne eingegrenzt,innerhalb welcher die POS-Tags gezählt und geordnet werden sollen. Fernerwird der Name und das Geburts- sowie Aufnahmedatum jeder Sprecherinund jedes Sprechers zu jedem Zeitpunkt benötigt. Durch die Berechnung inJuliandays4 können die Zeitangaben in Tagen gemacht werden. Das ist sehrsinnvoll, weil nicht alle Monate die gleiche Anzahl an Tagen aufweisen. Zudemrechnen Programme häufig in Tagen, wodurch weniger Ungenauigkeitenentstehen können. Durch die Befehlszeilen

echo -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query.sqlecho -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query.sql

echo -n ’-julianday(sprecher.geburtsdatum), ’ >> query.sql

erfolgt zunächst die Ausgabe der Sprecherin/des Sprechers, die/der zueiner der hier verwendeten drei Altersgruppen zugeordnet werden kann.Die Zuordnung wird errechnet durch die Information des Geburts- undAufnahmedatums. Zusätzlich erhält man die POS-Tags der jeweiligenSprecherin/des jeweiligen Sprechers in einem bestimmten Zeitraum inVerbindung mit dem jeweilig geäußerten Wort und der zugeordneten ID.Diese Informationen zieht das Skript aus der erstellten Datenbank ausden Untertabellen sprecher, aufnahme und textpostags. Dabei werden (ineinem folgenden Skript) für den Startpunkt ein Tagesminimum (DAYMIN)sowie ein Tagesmaximum (DAYMAX ), also eine Zeitspanne von DAYMINbis DAYMAX, in Juliandays festgelegt, die für die jeweilige Abfrage in Fragekommt. Weiterhin können ausgewählte oder alle POS-Tags gleichzeitig füreine Abfrage festgelegt werden (Skript: db_query_all_tag_count.sh). DesWeiteren ist eine Festlegung ausgewählter bzw. aller Sprecher/innen möglich,die in Verbindung mit diesen Informationen analysiert werden sollen.

db_query_all_tag_count.sh: Dieses Skript fragt die angefordertenPOS-Tags zwischen den definierten Zeitstempeln aus der SQLite3-Datenbankab und schreibt die Ergebnisse in eine CSV-Datei. Die Abfrage derDatenbank wird durch das Unterskript db_query_tag_count.sh ausgeführt.Laut Mack (2014) müssen die Variblen DAYMINMAX, POSTAGS undOUTPUT_DIR je nach dem Ziel der Abfrage im Skript geändert bzw.

4https://en.wikipedia.org/wiki/Julian_day (letzter Zugriff 22.10.2014)

5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 103

angepasst werden ([Mack (2014)]). Im unten aufgeführten Skript wirdersichtlich, dass die Zeitspanne alle drei Altersgruppen enthält: 1281:1495,1496:1708, 1709:1983. An dieser Stelle kann variiert werden. Es kann in einernächsten Abfrage zum Beispiel nur die Altersgruppe 1281:1495 berücksichtigtwerden. Dementsprechend sieht die Befehlszeile folgendermaßen aus:DAYMINMAX=“1281:1495“. Im Anschluss daran stehen hinter der VariablePOSTAGS alle POS-Tags, die in der Analyse auftreten können. Sollenzum Beispiel lediglich die Eigennamen (NE) in der gewählten Altersgruppeuntersucht werden, so wird nur POSTAGS=“NE“ in die Befehlszeile gesetzt.Soll untersucht werden, welche und wieviele Adjektive und Konjunktionen inder gewählten Altersgruppe je Kind vorkommen, dann würde die BefehlszeilePOSTAGS=“ADJA ADJD KOKOM KON KOUS“ lauten (alle POS-Tagsohne Kommata, nur mit Leerzeichen, voneinander getrennt aufführen!).Werden hingegen alle POSTAGS je Kind untersucht, dann müssen allePOS-Tags aufgeführt werden. Hinter OUTPUT_DIR= wird der Pfad fürdas Ausgabeverzeichnis angegeben, also der Ort, an dem der Ordner mitden Ergebnissen liegen soll. Im Falle der vorliegenden Arbeit liegt dasOUTPUT_DIR unter ../../../03_db_query_results/tag_count.

Skript: db_query_all_tag_count.shDAYMINMAX="1281:1495 1496:1708 1709:1983"POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD FM ITJ KOKOM KON KOUS NE NN PAV"POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER PPOSAT PPOSS PRELAT PRELS PRF"POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU PWAT PWAV PWS VAFIN VAIMP"POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP XY"OUTPUT_DIR=../../../03_db_query_results/tag_countfor d in $DAYMINMAX ; doif [[ $d =~ ^(.*):(.*)$ ]]; then

DAYMIN=‘echo ${BASH_REMATCH[1]}‘DAYMAX=‘echo ${BASH_REMATCH[2]}‘for i in $POSTAGS ; doif [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; then

mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}fiecho $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX}./db_query_tag_count.sh $DAYMIN $DAYMAX $i \$OUTPUT_DIR/${DAYMIN}_${DAYMAX}

donefi

done

db_query_tag_count_name.sh: Das Skript arbeitet im Wesentlichen wiedas Skript db_query_tag_count.sh. Der Unterschied ist, dass die POS-Tagsnicht nur nach der Altersgruppe sortiert werden, sondern dass auch eineZuordnung zur jeweiligen Sprecherin/zum jeweiligen Sprecher stattfindet.Die Ergebnisse werden wie gewohnt in eine CSV-Datei geschrieben. Die

104 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER

Befehlszeilen des vorliegenden Skripts entsprechen größtenteils denen desSkripts db_query_tag_count.sh. Zusätzlich existieren die Befehlszeilen

echo -n $NAME >> query.sqlecho -n ’" AND aufnahme.sprecher_id = sprecher.id AND’ >> query.sql

echo -n ’ textpostags.aufnahme_id = aufnahme.id;’ >> query.sql

Durch das Einfügen dieser Befehle wird erreicht, dass sich die Abfragespeziell auf eine/n Sprecher/in bezieht (mehr dazu im nächsten Skript).

Skript: db_query_tag_count_name.shDB=../../../02_generated_files/corpus.dbif [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] || [ -z $5 ] thenecho "usage $0 daymin daymax postag outputdir name"exitfiDAYMIN=$1DAYMAX=$2POSTAG="$3"OUTPUTDIR=$4NAME=$5echo -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query.sqlecho -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query.sqlecho -n ’-julianday(sprecher.geburtsdatum),’ >> query.sqlecho -n ’aufnahme.esb_name, textpostags.wort, ’ >> query.sqlecho -n ’textpostags.postag, textpostags.id ’ >> query.sqlecho -n ’ FROM sprecher,aufnahme,textpostags ’ >> query.sqlecho -n ’WHERE julianday(aufnahme.datum) - ’ >> query.sqlecho -n ’julianday(sprecher.geburtsdatum) > ’ >> query.sqlecho -n $DAYMIN >> query.sqlecho -n ’ AND julianday(aufnahme.datum) ’ >> query.sqlecho -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sqlecho -n $DAYMAX >> query.sqlecho -n ’ AND textpostags.postag = "’ >> query.sqlecho -n $POSTAG >> query.sqlecho -n ’" AND sprecher.kuerzel = "’ >> query.sqlecho -n $NAME >> query.sqlecho -n ’" AND aufnahme.sprecher_id = sprecher.id AND’ >> query.sqlecho -n ’ textpostags.aufnahme_id = aufnahme.id;’ >> query.sqlCOUNT=‘cat query.sql | sqlite3 $DB | wc -l‘if [ $COUNT -gt 0 ] ; thenecho -n "$COUNT datarows found: "echo "create file $OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csv"cat query.sql | sqlite3 $DB > \$OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csvelseecho "$COUNT datarows found: "firm query.sql

db_query_all_tag_count_name.sh: Dieses Skript fragt die POS-Tags zwischenden Zeitstempeln unter Berücksichtigung des jeweilig gewählten Namenin Kurzform aus der Datenbank ab. Die Resultate werden wie gewohnt in

5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 105

eine CSV-Datei geschrieben. Die Abfrage aus der Datenbank wird durchdas Unterskript db_query_tag_count.sh initiiert. Die Variablen DAYMINMAX,POSTAGS, NAMES und OUTPUT_DIR können und sollten je nach dem Zielder jeweiligen Abfrage eigenständig angepasst werden. Die Befehlszeilenentsprechen denen des Skripts db_query_all_tag_count.sh mit dem Zusatz,dass hier auch die einzelnen Sprecher/innen ausgewählt werden können.Wenn eine derartige Abfrage mit allen Sprecherkürzeln ausgeführt wird, erhältman alle POS-Tags in Zuordnung zur jeweiligen Sprecherin/zum jeweiligenSprecher, sortiert nach der Altersgruppe als Ergebnis. Der entsprechendeÜberordner kann zum Beispiel all_tag_count_name heißen. Als Unterordnerkönnen idealerweise drei Unterordner für je eine Altersgruppe angelegtwerden. Hinter jedem dieser drei Ordner sollten in logischer Konsequenzjeweils Ordner auftauchen, die einer bestimmten Sprecherin/einembestimmten Sprecher zuordenbar sind. In diesen Ordnern werden diejeweiligen POS-Tags in einer CSV-Datei abgelegt, die von der jeweiligenSprecherin/vom jeweiligen Sprecher in der betreffenden Altersgruppegeäußert wurden bzw. dem jeweiligen syntaktischen Wort zugeordnet wurden.Dies stellt nur eine mögliche Ordnerstruktur dar, die selbstverständlich jenach Bedarf geändert werden kann. Ferner ist es vorstellbar, dass nichtimmer alle POS-Tags je Sprecher/in und Altersgruppe von der Datenbankabgefragt werden. Sollen beispielsweise nur die Verben analysiert werden,die der Sprecher MK im Zeitraum 1496 bis 1708 verwendet hat, dann müsstedie Zeile DAYMINMAX=“1496:1708“ auf diese Weise eingegrenzt werden.Damit werden lediglich POS-Tags abgefragt, die in diesem Zeitraum geäußertwurden. Durch Verändern der nächsten Zeile in

POSTAGS="VAFIN VAIMP VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP"

werden ausschließlich alle Verben in der genannten Altersgruppeberücksichtigt. Da jedoch nicht alle Sprecher/innen in Betracht gezogenwerden, sondern nur MK, muss der Befehl NAMES geändert werden inNAMES=“MK“. Ein anderes Szenario wäre es beispielsweise herauszufinden,wie viele Eigennamen (NE) in allen Altersgruppen von jedem einzelenen Kindgeäußert werden. Dann müsste folgende Befehlszeile eingefügt werden:

DAYMINMAX=“1281:1495 1496:1708 1709:1983“

Für die Abfrage der POS-Tags genügt in diesem Falle POSTAGS=“NE“ ; dieZeile der Sprecher/innen muss wieder alle Namen enthalten, also

106 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER

NAMES="AV JK JS LAR LEO LL LUA MA MK MM SO RD".

Das vollständige Skript zum Befehl db_query_all_tag_count_name.shsieht folgendermaßen aus:

Skript: db_query_all_tag_count_name.shDAYMINMAX="1281:1495 1496:1708 1709:1983"POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD FM ITJ KOKOM KON KOUS NE NN PAV"POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER PPOSAT PPOSS PRELAT PRELS PRF"POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU PWAT PWAV PWS VAFIN VAIMP"POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP XY"NAMES="av mm js rd mk leo lar so lua jk ll ma"OUTPUT_DIR=../../../03_db_query_results/tag_countfor n in $NAMES ; dofor d in $DAYMINMAX ; doif [[ $d =~ ^(.*):(.*)$ ]]; thenDAYMIN=‘echo ${BASH_REMATCH[1]}‘DAYMAX=‘echo ${BASH_REMATCH[2]}‘for i in $POSTAGS ; doif [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n ] ; thenmkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n

fiecho -n "$DAYMIN $DAYMAX $i "echo "$OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n"./db_query_tag_count_name.sh $DAYMIN $DAYMAX $i \$OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n $ndonermdir –ignore-fail-on-non-empty $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n

fidonedone

5.2.4.2 02_typetoken

db_query_typetoken.sh: Mit diesem Skript werden die Types und diedazugehörigen Tokens zwischen den Zeitstempeln der EXMARaLDA-Dateiabgefragt und in eine CSV-Datei geschrieben. Des Weiteren werden allevorkommenden Wörter je POS-Tag und Altersgruppe in einer separatenWortliste aufgeführt. Was sich recht simpel anhört, ist spätestens beider Betrachtung des dazugehörigen Skripts eine lange Abfolge vonBefehlszeilen. Der Befehl, mit dem die eben genannte Wortliste erstellt wird,ist SELECT textpostags.wort ; man wählt also das jeweilige POS-Tag mit demdazugehörigen Wort (nicht Lemma). Benötigt werden dafür die Informationensprecher, aufnahme, textpostags aus der Datenbank. Außerdem soll erneutdie Zeit eingegrenzt und die Ergebnisse geordnet in den drei Altersgruppenanzeigt werden. Durch die Befehlszeilen:

echo -n ’WHERE julianday(aufnahme.datum) ’ >> query.sql

5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 107

echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sqlecho -n $DAYMIN >> query.sqlecho -n ’ AND julianday(aufnahme.datum) ’ >> query.sqlecho -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sqlecho -n $DAYMAX >> query.sqlecho -n ’ AND textpostags.postag = "’ >> query.sqlecho -n $POSTAG >> query.sqlecho -n ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sql

echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sql

erhält die Datenbank die Information, dass die POS-Tags jederSprecherin/jedes Sprechers zu jedem Aufnahmedatum abgefragt werdensollen. Wichtig im vollständigen Skript ist die Variable WORTLIST und diedazugehörige vollständige Befehlszeile

WORTLIST=‘cat $OUTPUTDIR/output_wortlist_${POSTAG}_${DAYMIN}_${DAYMAX}.txt‘

Dadurch werden alle vorkommenden Wörter in einer Liste angezeigt.

Abbildung 5.18: CA: Wortliste 1281 bis 1495 ART

Abbildung 5.18 zeigt beispielhaft die Wortliste aller Artikel, die von allenKindern im Zeitraum 1281 bis 1495 geäußert wurden. In einer weiterenAbfrage (query2.sql) sollen schließlich die Types und die Tokens mit dendazugehörigen Sprecherinnen und Sprechern identifiziert und in eine Dateigeschrieben werden. An dieser Stelle möchte ich die einzelnen Schrittenicht detailliert beschreiben; das Skript zeigt alle nötigen Befehle, die füreine Abfrage und Ausgabe der Types und Tokens je Sprecher/in in jederAltersgruppe notwendig sind. Es soll jedoch erwähnt werden, dass durch wc -l(word count, list) alle Wörter gezählt und aufgelistet werden. Insbesondere beilinguistischen Analysen, die die Häufigkeit von Wörtern, Lemmata und/oderanderen sprachlichen Einheiten ermitteln, ist dies von großer Relevanz.Zudem wird durch den Befehl erreicht, dass alle Wörter in alphabetischerReihenfolge erscheinen.

108 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER

Skript: db_query_typetoken.shDB=../../../02_generated_files/corpus.dbif [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] ; thenecho "usage $0 daymin daymax postag outputdir"exitfiDAYMIN=$1DAYMAX=$2POSTAG="$3"OUTPUTDIR=$4echo -n ’SELECT textpostags.wort ’ > query.sqlecho -n ’FROM sprecher,aufnahme,textpostags ’ >> query.sqlecho -n ’WHERE julianday(aufnahme.datum) ’ >> query.sqlecho -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sqlecho -n $DAYMIN >> query.sqlecho -n ’ AND julianday(aufnahme.datum) ’ >> query.sqlecho -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sqlecho -n $DAYMAX >> query.sqlecho -n ’ AND textpostags.postag = "’ >> query.sqlecho -n $POSTAG >> query.sqlecho -n ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sqlecho -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sqlcat query.sql | sqlite3 $DB | sort | uniq > \$OUTPUTDIR/output_wortlist_${POSTAG}_${DAYMIN}_${DAYMAX}.txtWORTLIST=‘cat $OUTPUTDIR/output_wortlist_${POSTAG}_${DAYMIN}_${DAYMAX}.txt‘CNT=0WORDCNTSUM=0rm -f $OUTPUTDIR/output_typetoken_count_${POSTAG}_${DAYMIN}_${DAYMAX}.csvfor j in $WORTLIST ; doecho -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query2.sqlecho -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query2.sqlecho -n ’-julianday(sprecher.geburtsdatum), ’ >> query2.sqlecho -n ’aufnahme.esb_name, textpostags.wort, ’ >> query2.sqlecho -n ’textpostags.postag, textpostags.id FROM ’ >> query2.sqlecho -n ’sprecher,aufnahme,textpostags WHERE ’ >> query2.sqlecho -n ’julianday(aufnahme.datum) ’ >> query2.sqlecho -n ’- julianday(sprecher.geburtsdatum) > ’ >> query2.sqlecho -n $DAYMIN >> query2.sqlecho -n ’ AND julianday(aufnahme.datum) ’ >> query2.sqlecho -n ’- julianday(sprecher.geburtsdatum) < ’ >> query2.sqlecho -n $DAYMAX >> query2.sqlecho -n ’ AND textpostags.postag = "’ >> query2.sqlecho -n $POSTAG >> query2.sqlecho -n ’" AND textpostags.wort = ’\’ >> query2.sqlecho -n $j\’ >> query2.sqlecho ’ AND aufnahme.sprecher_id = sprecher.id AND ’ >> query2.sqlecho -n ’textpostags.aufnahme_id = aufnahme.id;’ >> query2.sqlecho -n "$j|" \ >>\$OUTPUTDIR/output_typetoken_count_${POSTAG}_${DAYMIN}_${DAYMAX}.csvWORDCNT=‘cat query2.sql | sqlite3 $DB | wc -l‘WORDCNTSUM=$((WORDCNTSUM + WORDCNT)) CNT=$((CNT + 1))echo $WORDCNT >>\$OUTPUTDIR/output_typetoken_count_${POSTAG}_${DAYMIN}_${DAYMAX}.csvdoneecho "—-|—-" >>\$OUTPUTDIR/output_typetoken_count_${POSTAG}_${DAYMIN}_${DAYMAX}.csvecho "$CNT|$WORDCNTSUM" >>\$OUTPUTDIR/output_typetoken_count_${POSTAG}_${DAYMIN}_${DAYMAX}.csv

5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 109

rm -f query.sqlrm -f query2.sql

db_query_all_typetoken.sh: Dieses Skript fragt ebenso die Types undTokens zwischen den einzelnen Zeitstempeln in der EXMARaLDA-Dateiaus der Datenbank ab und schreibt die Ergebnisse in eine CSV-Datei. DieAbfrage der Datenbank an sich wird durch das oben angeführte Unterskriptdb_query_typetoken.sh ausgeführt. In diesem Skript wird nun einerseits dieAltersgruppe, für die die Types und Tokens erfragt werden, eingegrenzt undandererseits die POS-Tags festgelegt, für die die entsprechenden Types undTokens erfragt werden sollen. Es ist sehr sinnvoll, wenn nicht gar unerlässlich,an dieser Stelle im Skript die Types und die Tokens an Hand der POS-Tagszu identifizieren. Anderenfalls käme es an einigen Stellen der Analyse zuzweideutigen Ergebnissen und die Wörter sowie die Lemmata würden trotzihrer Formgleichheit unterschiedlichen POS-Tags zugeordnet. In diesemZusammenhang soll das Wort schwimmen mit dem dazugehörigen Lemmaschwimmen betrachtet werden. In einer Aussage könnte es heißen „Wirschwimmen im See“ und in einer nächsten Aussage „Wir gehen heute mitdem Kindergarten zum Schwimmen“. In beiden Fällen wäre das Lemmaschwimmen, aber die POS-Tags unterscheiden sich. Demnach ist schwimmenin der ersten Aussage ein finites Vollverb (VVFIN), Schwimmen in der zweitenAussage müsste streng genommen als Nomen (NN) getaggt werden (siehedazu aber den Eintrag unter dem Stichwort Nomen in Abschnitt 4.1.7). DasSkript geht bei seiner Suche aus von den POS-Tags und listet am Endesortiert nach den POS-Tags alle Types mit den dazugehörigen Tokens auf.Eine Möglichkeit wäre es, nur die Types und Tokens abzufragen, die inder Kategorie VVINF und in der Altersgruppe 1709:1983 vorkommen. Indiesem Fall stünde in der ersten Zeile DAYMINMAX=“1709:1983“ und inder folgenden Zeile POSTAGS=“VVINF“. Das Programm benötigt also dieInformation der POS-Tags für die Ausgabe der Types und Tokens, weil dies inden EXMARaLDA-Dateien sowie in der Datenbank so organisiert ist.

Skript: db_query_all_typetoken.shDAYMINMAX="1281:1495 1496:1708 1709:1983"POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD FM ITJ KOKOM KON KOUS NE NN PAV"POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER PPOSAT PPOSS PRELAT PRELS PRF"POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU PWAT PWAV PWS VAFIN VAIMP"POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP XY"OUTPUT_DIR=../../../03_db_query_results/typetokenfor d in $DAYMINMAX ; doif [[ $d =~ ^(.*):(.*)$ ]]; thenDAYMIN=‘echo ${BASH_REMATCH[1]}‘DAYMAX=‘echo ${BASH_REMATCH[2]}‘for i in $POSTAGS ; do

110 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER

if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; thenmkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}

fiecho $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX}./db_query_typetoken.sh $DAYMIN $DAYMAX $i \$OUTPUT_DIR/${DAYMIN}_${DAYMAX}done

fidone

5.2.4.3 03_typetoken_lemma

db_query_typetoken_lemma.sh: An dieser Stelle werden die Types unddie Tokens abgefragt; die Lemmata werden mit den dazugehörigenHäufigkeiten in einer CSV-Datei je POS-Tag ausgegeben. Da sich dererste Teil des Skripts nur unwesentlich vom Skript db_query_typetokenunterscheidet, soll dieser hier nicht näher beschrieben werden. DieFunktion Erstellen einer Wortliste entspricht der des eben erwähntenSkripts db_query_typetoken mit dem Unterschied, dass es sich hier um dieLemmata (SELECT textpostags.lemma) und nicht die tatsächlich geäußertenWörter (SELECT textpostags.wort) handelt. Im unteren Teil des Skripts isterkennbar, dass unter anderem die Befehlszeile ’“ AND textpostags.lemma= ’\’“ an Stelle von ’“ AND textpostags.wort = ’\’“ enthalten ist. Diesezweite Abfrage (query2.sql) ist insgesamt weniger komplex als die zweiteAbfrage (query2.sql) im Skript db_query_typetoken, weil an dieser Stellenur die Lemmata mit den dazugehörigen POS-Tags relevant sind, nichtaber alle geäußerten Wörter zu jedem Lemma. Zusätzlich ermöglicht dasSkript db_query_typetoken_lemma.sh eine Types-zu-Tokens-Analyse jedeseinzelnen Tags sowie der zusammengefassten POS-Tags. Als Ergebnis erhältman die prozentualen Anteile, wie sie in Kapitel 6 vorzufinden sind.

Skript: db_query_typetoken_lemma.shDB=../../../02_generated_files/corpus.dbif [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] ; thenecho "usage $0 daymin daymax postag outputdir (hint: postag can also be a list like AAA+BBB...)"exitfiDAYMIN=$1DAYMAX=$2POSTAGLIST="$3"OUTPUTDIR=$4POSTAG_QUERY="AND ( "for i in $(echo $POSTAGLIST | tr "+" "\n") ; doPOSTAG_QUERY=${POSTAG_QUERY}’textpostags.postag = "’POSTAG_QUERY=${POSTAG_QUERY}${i}POSTAG_QUERY=${POSTAG_QUERY}’" ’POSTAG_QUERY=${POSTAG_QUERY}"OR "

5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 111

donePOSTAG_QUERY=${POSTAG_QUERY}’0 ) ’echo -n ’SELECT textpostags.lemma ’ > query.sqlecho -n ’FROM sprecher,aufnahme,textpostags ’ >> query.sqlecho -n ’WHERE julianday(aufnahme.datum) ’ >> query.sqlecho -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sqlecho -n $DAYMIN >> query.sqlecho -n ’ AND julianday(aufnahme.datum) ’ >> query.sqlecho -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sqlecho -n $DAYMAX >> query.sql echo -n ’ ’ >> query.sqlecho -n $POSTAG_QUERY >> query.sqlecho -n ’ AND aufnahme.sprecher_id = sprecher.id ’ >> query.sqlecho -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sqlCOUNT=‘cat query.sql | sqlite3 $DB | wc -l‘echo ", $COUNT entries found"if [ $COUNT -gt 0 ] ; thencat query.sql | sqlite3 $DB | sort | uniq > \$OUTPUTDIR/output_wortlist_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.txtWORTLIST=‘cat $OUTPUTDIR/output_wortlist_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.txt‘CNT=0WORDCNTSUM=0rm -f $OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.csvfor j in $WORTLIST ; doecho -n ’SELECT textpostags.postag ’ > query2.sqlecho -n ’FROM sprecher,aufnahme,textpostags ’ >> query2.sqlecho -n ’WHERE julianday(aufnahme.datum) ’ >> query2.sqlecho -n ’- julianday(sprecher.geburtsdatum) > ’ >> query2.sqlecho -n $DAYMIN >> query2.sqlecho -n ’ AND julianday(aufnahme.datum) ’ >> query2.sqlecho -n ’- julianday(sprecher.geburtsdatum) < ’ >> query2.sqlecho -n $DAYMAX >> query2.sql echo -n ’ ’ >> query2.sqlecho -n $POSTAG_QUERY >> query2.sqlecho -n ’ AND textpostags.lemma = ’\’ >> query2.sqlecho -n $j\’ >> query2.sqlecho -n ’ AND aufnahme.sprecher_id = sprecher.id ’ >> query2.sqlecho -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query2.sqlecho -n "$j|" \ >>$OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.csvWORDCNT=‘cat query2.sql | sqlite3 $DB | wc -l‘WORDCNTSUM=$((WORDCNTSUM + WORDCNT))CNT=$((CNT + 1))echo $WORDCNT >>$OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.csvdoneecho "—-|—-" >>\$OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.csvecho "$CNT|$WORDCNTSUM" >>\$OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.csvecho "${POSTAGLIST}|${DAYMIN}|${DAYMAX}||$CNT|$WORDCNTSUM" >>\$OUTPUTDIR/../output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csvrm -f query2.sql

firm -f query.sql

db_query_all_typetoken_lemma.sh: Dieses Skript fragt die Types unddie Tokens zwischen den einzelnen Zeitstempeln in der jeweiligenEXMARaLDA-Datei aus der Datenbank ab und schreibt die Ergebnisse in

112 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER

eine CSV-Datei. Die Abfrage der Datenbank an sich wird durch das obenangeführte Unterskript db_query_typetoken_lemma.sh ausgeführt. Es istmit dieser Abfrage möglich, alle oder nur einige POS-Tags abzufragen unddadurch nur die Lemmata ausgeben zu lassen, die den jeweiligen POS-Tagszogeordnet sind. Weiterhin ist es möglich, (wie in allen „_all_...sh“-Skripten)die Altersgruppen einzugrenzen oder aber alle gleichzeitig abzufragen.

Skript: db_query_all_typetoken_lemma.shDAYMINMAX="1281:1495 1496:1708 1709:1983"POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD FM ITJ KOKOM KON KOUS NE NN PAV"POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER PPOSAT PPOSS PRELAT PRELS PRF"POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU PWAT PWAV PWS VAFIN VAIMP"POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP XY"POSTAGS="$POSTAGS ADJA+ADJD ADV+PAV APPR+APPRART ART+ART CARD+CARD"POSTAGS="$POSTAGS FM+FM ITJ+ITJ KOKOM+KON+KOUS NE+NN"POSTAGS="$POSTAGS PDAT+PDS+PIAT+PIDAT+PIS PPER+PPER PPOSAT+PPOSS PRELS+PRF"POSTAGS="$POSTAGS PTKA+PTKANT+PTKNEG+PTKVZ+PTKZU PWAT+PWAV+PWSPOSTAGS="$POSTAGS VAFIN+VAIMP+VAINF+VAPP"POSTAGS="$POSTAGS VMFIN+VMINF+VMPP VVFIN+VVIMP+VVINF+VVIZU+VVPP XY+XY"OUTPUT_DIR=../../../03_db_query_results/typetoken_lemmafor d in $DAYMINMAX ; doif [[ $d =~ ^(.*):(.*)$ ]]; thenDAYMIN=‘echo ${BASH_REMATCH[1]}‘DAYMAX=‘echo ${BASH_REMATCH[2]}‘rm -f $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csvfor i in $POSTAGS ; doif [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; thenmkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}

fiecho -n $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX}./db_query_typetoken_lemma.sh $DAYMIN $DAYMAX $i \ $OUTPUT_DIR/${DAYMIN}_${DAYMAX}doneCNTSUM=0WORDCNTSUM=0if [ -f $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv ] ; thenFILE=‘cat $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv‘for i in $FILE ; doif [[ $i =~ ^(.*)\|.*\|.*\|.*\|(.*)\|(.*)$ ]]; thenTAG=‘echo ${BASH_REMATCH[1]}‘CNT=‘echo ${BASH_REMATCH[2]}‘WORDCNT=‘echo ${BASH_REMATCH[3]}‘if [[ $TAG =~ .*\+.* ]] ; thenCNTSUM=$((CNTSUM + CNT))WORDCNTSUM=$((WORDCNTSUM + WORDCNT))fi

fidoneif [ $CNTSUM -gt 0 ] && [ $WORDCNTSUM -gt 0 ] ; thenFILE=‘cat $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv‘rm -f $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv.tmpfor i in $FILE ; doif [[ $i =~ ^.*\|.*\|.*\|.*\|(.*)\|(.*)$ ]]; thenCNT=‘echo ${BASH_REMATCH[1]}‘WORDCNT=‘echo ${BASH_REMATCH[2]}‘WORDPERCENT=‘echo "scale=5; $WORDCNT*100/$WORDCNTSUM" | bc | sed -e "s/\./,/g"‘

5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 113

CNTPERCENT=‘echo "scale=5; $CNT*100/$CNTSUM" | bc | sed -e "s/\./,/g"‘echo "${i}|${CNTPERCENT}|${WORDPERCENT}"\>> $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv.tmp

fidoneecho "—-|—-|—-|—-|—-|—-|—-|—-" >>$OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv.tmpecho "||||${CNTSUM}|${WORDCNTSUM}|100,00000|100,00000" >>$OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv.tmpmv $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv.tmp$OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csvfi

fifi

done

db_query_typetoken_lemma_name.sh: Wie auch die vorhergehenden Skriptezur Ermittlung der Types und der Tokens fragt dieses Skript die Typesund Tokens zwischen den Zeitstempeln der EXMARaLDA-Dateien aus derDatenbank ab. Im Gegensatz zum Skript db_query_typetoken_lemma.shwerden hier nicht die Lemmata aller Sprecher/innen insgesamt abgefragt undsortiert nach den POS-Tags in den drei Altersgruppen ablegt. Vielmehr erfolgtdie Sortierung bei der Abfrage durch dieses Skript auf eine andere Weise.Zunächst werden die erfragten Lemmata ihren jeweiligen POS-Tags in denjeweiligen Altersgruppen zugeordnet. Übergeordnet ist dabei die jeweiligeSprecherin/der jeweilige Sprecher (in dieser Arbeit immer als Kürzel). Eskönnten zum Beispiel alle Lemmata, die AV in der Zeitspanne 1281 bis1495 hervorgebracht hat, abgefragt und als Ergebnis in einer CSV-Dateiausgegeben werden. Es besteht auch hier wieder die Möglichkeit, diegeäußerten Lemmata je Sprecher/in als alphabetisch geordnete Wortlisteanzeigen zu lassen. Im unteren Abschnitt des Skripts stehen jene Befehle(alle query2.sql-Befehle), die notwendig sind, um die Lemmata unterBerücksichtigung der einzelnen Sprecher/innen abfragen und anzeigenlassen zu können. Mit diesem Skript besteht die Möglichkeit einer anteiligenBerechnung der Types zu den Tokens je POS-Tag und Sprecher/in bzw. jezusammengefasster POS-Tag-Gruppe je Sprecher/in. Als Ergebnis werdendie prozentualen Anteile ausgegeben, wie sie in Abschnitt 6.3 zu finden sind.

Skript: db_query_typetoken_lemma_name.shDB=../../../02_generated_files/corpus.dbif [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] || [ -z $5 ]thenecho "usage $0 daymin daymax postag outputdir (hint: postag can also be a list like AAA+BBB...)"exit

fiDAYMIN=$1DAYMAX=$2

114 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER

POSTAGLIST="$3"OUTPUTDIR=$4NAME=$5POSTAG_QUERY="AND ( "for i in $(echo $POSTAGLIST | tr "+" "\n") ; doPOSTAG_QUERY=${POSTAG_QUERY}’textpostags.postag = "’POSTAG_QUERY=${POSTAG_QUERY}${i}POSTAG_QUERY=${POSTAG_QUERY}’" ’POSTAG_QUERY=${POSTAG_QUERY}"OR "donePOSTAG_QUERY=${POSTAG_QUERY}’0 ) ’echo -n ’SELECT textpostags.lemma ’ > query.sqlecho -n ’FROM sprecher,aufnahme,textpostags ’ >> query.sqlecho -n ’WHERE julianday(aufnahme.datum) ’ >> query.sqlecho -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sqlecho -n $DAYMIN >> query.sqlecho -n ’ AND julianday(aufnahme.datum) - ’ >> query.sqlecho -n ’julianday(sprecher.geburtsdatum) < ’ >> query.sqlecho -n $DAYMAX >> query.sqlecho -n ’ ’ >> query.sqlecho -n $POSTAG_QUERY >> query.sqlecho -n ’ AND sprecher.kuerzel = "’ >> query.sqlecho -n $NAME >> query.sqlecho ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sqlecho -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sqlCOUNT=‘cat query.sql | sqlite3 $DB | wc -l‘echo ", $COUNT entries found"if [ $COUNT -gt 0 ] ; thencat query.sql | sqlite3 $DB | sort | uniq \> $OUTPUTDIR/output_wortlist_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.txtWORTLIST=\‘cat $OUTPUTDIR/output_wortlist_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.txt‘CNT=0WORDCNTSUM=0rm -f\$OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.csvfor j in $WORTLIST ; doecho -n ’SELECT textpostags.postag ’ > query2.sqlecho -n ’FROM sprecher,aufnahme,textpostags ’ >> query2.sqlecho -n ’WHERE julianday(aufnahme.datum) ’ >> query2.sqlecho -n ’- julianday(sprecher.geburtsdatum) > ’ >> query2.sqlecho -n $DAYMIN >> query2.sqlecho -n ’ AND julianday(aufnahme.datum) ’ >> query2.sqlecho -n ’- julianday(sprecher.geburtsdatum) < ’ >> query2.sqlecho -n $DAYMAX >> query2.sql echo -n ’ ’ >> query2.sqlecho -n $POSTAG_QUERY >> query2.sqlecho -n ’ AND sprecher.kuerzel = "’ >> query2.sqlecho -n $NAME >> query2.sqlecho -n ’" AND textpostags.lemma = ’\’ >> query2.sqlecho -n $j\’ >> query2.sqlecho -n ’ AND aufnahme.sprecher_id ’ >> query2.sqlecho -n ’= sprecher.id AND ’ >> query2.sqlecho -n ’textpostags.aufnahme_id = aufnahme.id;’ >> query2.sqlecho -n "$j|" \ >>\$OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.csvWORDCNT=‘cat query2.sql | sqlite3 $DB | wc -l‘WORDCNTSUM=$((WORDCNTSUM + WORDCNT))CNT=$((CNT + 1))

5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 115

echo $WORDCNT \>> $OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.csvdoneecho "—-|—-"\>> $OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.csvecho "$CNT|$WORDCNTSUM"\>> $OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.csvecho "${POSTAGLIST}|${DAYMIN}|${DAYMAX}|${NAME}|$CNT|$WORDCNTSUM"\>> $OUTPUTDIR/../../output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${NAME}.csvrm -f query2.sql

firm -f query.sql

db_query_all_typetoken_lemma_name.sh: In Entsprechung zu den anderen„_all_...sh“-Skripten wird die Abfrage durch dieses Skript durch dasdazugehörige Unterskript, in diesem Falle db_query_typetoken_lemma_name.sh, ausgeführt. Unter Verwendung dieses Skripts bestehen zahlreicheMöglichkeiten, die Abfragen zu kombinieren und auszuführen. Drei derwichtigsten Variablen sind: DAYMINMAX, POSTAGS und NAMES. Durch eineVariation von DAYMINMAX können die Zeitäume eingegrenzt werden. Esgibt die Möglichkeit alle drei Altersgruppen zusammen zu untersuchen oderaber nur eine oder zwei. Ebenso können alle POS-Tags zusammen abgefragtwerden (in einer, zwei oder drei Altersgruppe/n) oder nur bestimmte. In diesenFällen müssen die Zeilen hinter POSTAGS= angepasst werden. Durch denBefehl NAMES entsteht die Möglichkeit, alle Sprecher/innen in die Analyseeinzubeziehen oder nur eine/n oder einige ausgewählte. Um dies an einemBeispiel zu verdeutlichen, soll angenommen werden, dass nur die Lemmata,die sich unter den Adjektiven (ADJA, ADJD) in der Altersgruppe 1709 bis 1983befinden, von Interesse sind. Zusätzlich beziehen sich diese Informationennur auf den Sprecher LEO. In diesem Fall sehen die Befehle betreffendDAYMINMAX, POSTAGS und NAMES folgendermaßen aus:

DAYMINMAY=“1709:1983“ POSTAGS=“ADJA ADJD“ NAMES=“LEO“

Das vollständige Skript besteht aus den folgenden Zeilen:

Skript: db_query_all_typetoken_lemma_name.shDAYMINMAX="1281:1495 1496:1708 1709:1983"POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD FM ITJ KOKOM KON KOUS NE NN PAV"POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER PPOSAT PPOSS PRELAT PRELS PRF"POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU PWAT PWAV PWS VAFIN VAIMP"POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP XY"POSTAGS="$POSTAGS ADJA+ADJD ADV+PAV APPR+APPRART ART+ART CARD+CARD"POSTAGS="$POSTAGS FM+FM ITJ+ITJ KOKOM+KON+KOUS NE+NN"POSTAGS="$POSTAGS PDAT+PDS+PIAT+PIDAT+PIS PPER+PPER PPOSAT+PPOSS PRELS+PRF"POSTAGS="$POSTAGS PTKA+PTKANT+PTKNEG+PTKVZ+PTKZU PWAT+PWAV+PWSPOSTAGS="$POSTAGS VAFIN+VAIMP+VAINF+VAPP"

116 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER

POSTAGS="$POSTAGS VMFIN+VMINF+VMPP VVFIN+VVIMP+VVINF+VVIZU+VVPP XY+XY"NAMES="av mm js rd mk leo lar so lua jk ll ma"OUTPUT_DIR=../../../03_db_query_results/typetoken_lemmafor n in $NAMES ; dofor d in $DAYMINMAX ; doif [[ $d =~ ^(.*):(.*)$ ]]; thenDAYMIN=‘echo ${BASH_REMATCH[1]}‘DAYMAX=‘echo ${BASH_REMATCH[2]}‘rm -f $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csvfor i in $POSTAGS ; doif [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n ] ; thenmkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n

fiecho -n $DAYMIN $DAYMAX $i \$OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n./db_query_typetoken_lemma_name.sh $DAYMIN $DAYMAX $i \$OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n $ndonermdir –ignore-fail-on-non-empty $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$nCNTSUM=0WORDCNTSUM=0if [ -f $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv ] ; thenFILE=‘cat $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv‘for i in $FILE ; doif [[ $i =~ ^(.*)\|.*\|.*\|.*\|(.*)\|(.*)$ ]]; thenTAG=‘echo ${BASH_REMATCH[1]}‘CNT=‘echo ${BASH_REMATCH[2]}‘WORDCNT=‘echo ${BASH_REMATCH[3]}‘if [[ $TAG =~ .*\+.* ]] ; thenCNTSUM=$((CNTSUM + CNT))WORDCNTSUM=$((WORDCNTSUM + WORDCNT))fi

fidoneif [ $CNTSUM -gt 0 ] && [ $WORDCNTSUM -gt 0 ] ; thenFILE=‘cat $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv‘rm -f $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv.tmpfor i in $FILE ; doif [[ $i =~ ^.*\|.*\|.*\|.*\|(.*)\|(.*)$ ]]; thenCNT=‘echo ${BASH_REMATCH[1]}‘WORDCNT=‘echo ${BASH_REMATCH[2]}‘WORDPERCENT=‘echo "scale=5; $WORDCNT*100/$WORDCNTSUM" | bc | sed -e "s/\./,/g"‘CNTPERCENT=‘echo "scale=5; $CNT*100/$CNTSUM" | bc | sed -e "s/\./,/g"‘echo "${i}|${CNTPERCENT}|${WORDPERCENT}"\>> $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv.tmpfi

doneecho "—-|—-|—-|—-|—-|—-|—-|—-"\>> $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv.tmpecho "||||${CNTSUM}|${WORDCNTSUM}|100,00000|100,00000"\>> $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv.tmpmv $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv.tmp\$OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv

fifi

fidonedone

5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 117

5.2.4.4 04_lemma_tag

db_query_lemma_tag.sh: Mit dieser Abfrage können die Lemmata (inEntsprechung zu ihren Wörtern) abgefragt werden. Dabei werden - wieauch bei den vorhergehenden Skripten - die POS-Tags als Referenzverwendet. Die Abfolge der Befehle des dazugehörigen Skripts ist untendargestellt. Im Ergebnis werden alle Lemmata je POS-Tag und Altersgruppein einer CSV-Datei ausgegeben und gespeichert. Relevant für das Skript,um ein solches Ergebnis zu erhalten, sind daher alle Informationen zumAlter der Sprecher/innen zu einem gegebenen Zeitpunkt, die geäußertenLemmata mit den dazugehörigen POS-Tags sowie den dazugehörigenWörtern. Abbildung 5.19 zeigt den Ausschnitt einer solchen CSV-Dateials Ergebnis dieser Abfrage. Anhand dieser Grafik ist erkennbar, wie dasProgramm die geäußerten Wörter einer Altersgruppe zuordnet. In der linkenSpalte steht das Geburtsdatum (2005-07-02) des Kindes (hier: LUA), inder zweiten Spalte das Aufnahmedatum (2009-09-29). Die Subtraktiondes Aufnahmedatums vom Geburtsdatum ergibt eine Zahl in Juliandays,die sich einer der hier verwendeten drei Altersgruppen zuordnen lässt. Indiesem Fall fällt diese Aufnahme in Gruppe 1496 bis 1708. Die dritte Spaltebeinhaltet die Aufnahme-ID. In der vierten Spalte befindet sich der Name derentsprechenden EXMARaLDA-Datei, also 023_LUA_lem.exb. In der fünftenSpalte steht das geäußerte Wort und in der folgenden sechsten Spalte dasentsprechende Lemma. In der ersten Zeile befindet sich die Wortform einenmit dem dazugehörigen Lemma ein. In der siebten Spalte wird schließlichdas entsprechende POS-Tag vermerkt (hier: ART). Diese Spalte erscheintzunächst überflüssig, da sie für die vorliegende Datei immer den POS-TagART enthält. Wie später zu sehen sein wird, kann die Abfrage aber auch sogestaltet werden, dass die Lemmata pro Kind angezeigt werden (und nichtpro Altersgruppe). Dann ist es wiederum sinnvoll, die POS-Tags mit ausgebenzu lassen. Die letzte Spalte enthält die Kennzahlen der jeweiligen Zeitslots inder EXMARaLDA-Datei, was für diese Zwecke aber irrelevant ist.

Skript: db_query_lemma_tag.shDB=../../../02_generated_files/corpus.dbif [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] ; thenecho "usage $0 daymin daymax postag outputdir"exit

fiDAYMIN=$1DAYMAX=$2

118 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER

POSTAG="$3"OUTPUTDIR=$4echo -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query.sqlecho -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query.sqlecho -n ’-julianday(sprecher.geburtsdatum),’ >> query.sqlecho -n ’ aufnahme.esb_name, textpostags.wort, ’ >> query.sqlecho -n ’textpostags.lemma, textpostags.postag, textpostags.id ’ >> query.sqlecho -n ’ FROM sprecher,aufnahme,textpostags ’ >> query.sqlecho -n ’WHERE julianday(aufnahme.datum) ’ >> query.sqlecho -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sqlecho -n $DAYMIN >> query.sqlecho -n ’ AND julianday(aufnahme.datum) ’ >> query.sqlecho -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sqlecho -n $DAYMAX >> query.sqlecho -n ’ AND textpostags.postag = "’ >> query.sqlecho -n $POSTAG >> query.sqlecho -n ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sqlecho -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sqlcat query.sql | sqlite3 $DB \> $OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csvrm query.sql

Abbildung 5.19: CA: Beispiel lemma_tag 1496 bis 1708

db_query_all_lemma_tag.sh: Auch mit diesem Skript können Abfragenzu den von den Sprecherinnen und Sprechern verwendeten Lemmatagetätigt werden. Dabei wird die tatsächliche Abfrage durch das Unterskriptdb_query_lemma_tag.sh vorgenommen. Es ist möglich, einen oder mehrereZeiträume festzulegen. Es können eine, zwei oder alle drei Altersgruppe/nin die Analyse einbezogen werden. Es können - ebenso wie auch bei denvorherigen „_all_...sh“-Skripten die POS-Tags festgelegt werden, die in denangegebenen Gruppen analysiert werden sollen. Analog zu den anderen„_all_...sh“-Skripten wurden für den Analyseteil der vorliegenden Arbeit dieLemmata aller POS-Tags in allen Altersgruppen ausgewertet (siehe auchKapitel 6 und hier besonders Abschnitt 6.2).

5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 119

Abbildung 5.20: CA: Beispiel all_lemma_tag_MA 1281 bis 1495

Skript: db_query_all_lemma_tag.shDAYMINMAX="1281:1495 1496:1708 1709:1983"POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD"POSTAGS="$POSTAGS FM ITJ KOKOM KON KOUS NE NN PAV"POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER"POSTAGS="$POSTAGS PPOSAT PPOSS PRELAT PRELS PRF"POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU"POSTAGS="$POSTAGS PWAT PWAV PWS VAFIN VAIMP"POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN"POSTAGS="$POSTAGS VVIMP VVINF VVIZU VVPP XY"OUTPUT_DIR=../../../03_db_query_results/lemma_tagfor d in $DAYMINMAX ; doif [[ $d =~ ^(.*):(.*)$ ]]; thenDAYMIN=‘echo ${BASH_REMATCH[1]}‘DAYMAX=‘echo ${BASH_REMATCH[2]}‘for i in $POSTAGS ; doif [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; thenmkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}fiecho $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX}./db_query_lemma_tag.sh $DAYMIN $DAYMAX $i \$OUTPUT_DIR/${DAYMIN}_${DAYMAX}

donefi

done

db_query_lemma_tag_name.sh: Dieses Skript fragt die Lemmata in Bezugauf die Sprecher/innen ab und schreibt die Ergebnisse in eine CSV-Datei.Es werden also alle Lemmata unter Berücksichtigung der POS-Tags undder Altersgruppe erfragt und dann der jeweiligen Sprecherin/dem jeweiligenSprecher zugordnet. Beim Ablegen der CSV-Datei wird zunächst wieder nachder Altersgruppe unterschieden (analog zum Skript db_query_lemma_tag.sh)und anschließend nach Sprecherinnen und Sprechern sortiert. Bei derAbfrage durch das Skript db_query_lemma_tag.sh wurde an dieser Stellenach POS-Tags sortiert. Innerhalb einer jeden Datei kann man ersehen,welche/r Sprecher/in welches Wort geäußert hat. Bei der Abfrage durchdas vorliegende Skript db_query_lemma_tag_name.sh findet man hinter derSortierung nach dem Namen die jeweils geäußerten POS-Tags. Abbildung5.20 zeigt eine beispielhafte CSV-Datei nach der Abfrage. In diesem Fallhandelt es sich nur um die Lemmata bezüglich der Konjunktionen (KON), die

120 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER

von MA im Zeitraum 1281 bis 1495 geäußert wurden.

Skript: db_query_lemma_tag_name.shDB=../../../02_generated_files/corpus.dbif [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] || [ -z $5 ]thenecho "usage $0 daymin daymax postag outputdir name"exitfiDAYMIN=$1DAYMAX=$2POSTAG="$3"OUTPUTDIR=$4NAME=$5echo -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query.sqlecho -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query.sqlecho -n ’-julianday(sprecher.geburtsdatum),’ >> query.sqlecho -n ’ aufnahme.esb_name, textpostags.wort, ’ >> query.sqlecho -n ’textpostags.lemma, textpostags.postag, textpostags.id ’ >> query.sqlecho -n ’ FROM sprecher,aufnahme,textpostags ’ >> query.sqlecho -n ’WHERE julianday(aufnahme.datum) ’ >> query.sqlecho -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sqlecho -n $DAYMIN >> query.sqlecho -n ’ AND julianday(aufnahme.datum) ’ >> query.sqlecho -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sqlecho -n $DAYMAX >> query.sqlecho -n ’ AND textpostags.postag = "’ >> query.sqlecho -n $POSTAG >> query.sqlecho -n ’" AND sprecher.kuerzel = "’ >> query.sqlecho -n $NAME >> query.sqlecho -n ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sqlecho -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sqlCOUNT=‘cat query.sql | sqlite3 $DB | wc -l‘echo "Found $COUNT datarows"if [ $COUNT -gt 0 ] ; thenecho "create file $OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csv"cat query.sql | sqlite3 $DB \ > $OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csvfirm query.sql

db_query_all_lemma_tag_name.sh: Dieses Skript korrespondiert mitdem vorherigen Skript db_query_lemma_tag_name.sh, von welchem dieeigentliche Abfrage der Lemmata aus der Datenbank ausgeführt wird. MitHilfe dessen können die Altersgruppen eingegrenzt werden - also nur eine,zwei oder alle drei Gruppen. Ferner können die Lemmata in Bezug auf allePOS-Tags abgefragt werden

Abbildung 5.21: CA: Skript db_query_all_lemma_tag_name LL_ 1709_1983

5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 121

oder nur einige ausgewählte. Schließlich ist es möglich einzugrenzen,welche Sprecher/innen für die Analyse in Betracht kommen. Abbildung 5.21zeigt beispielhaft die Lemmata, die LL im Zeitraum 1709 bis 1983 als Nomen(NN) geäußert hat. Im Folgenden ist das entprechende Skript für dieseAbfrage abgebildet:

Skript: db_query_all_lemma_NN_LL_1709_1983.shDAYMINMAX="1709:1983"POSTAGS="NN"NAMES="ll"OUTPUT_DIR=../../../03_db_query_results/lemma_tagfor n in $NAMES ; dofor d in $DAYMINMAX ; doif [[ $d =~ ^(.*):(.*)$ ]]; thenDAYMIN=‘echo ${BASH_REMATCH[1]}‘DAYMAX=‘echo ${BASH_REMATCH[2]}‘for i in $POSTAGS ; doif [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n ] ; thenmkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$nfiecho $DAYMIN \ $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n./db_query_lemma_tag_name.sh $DAYMIN $DAYMAX $i \$OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n $n

donermdir –ignore-fail-on-non-empty $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$nfi

donedone

Im Basisskript können die Variablen DAYMINMAX, POSTAGS und NAMESin Anlehnung an die bisher beschriebenen „_all_...sh“-Skripte modifiziertwerden, um so zu spezifischen Ergebnissen zu gelangen.

Skript: db_query_all_lemma_tag_name.shDAYMINMAX="1281:1495 1496:1708 1709:1983"POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD FM ITJ KOKOM KON KOUS NE NN PAV"POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER PPOSAT PPOSS PRELAT PRELS PRF"POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU PWAT PWAV PWS VAFIN VAIMP"POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP XY"NAMES="av mm js rd mk leo lar so lua jk ll ma"OUTPUT_DIR=../../../03_db_query_results/lemma_tagfor n in $NAMES ; dofor d in $DAYMINMAX ; doif [[ $d =~ ^(.*):(.*)$ ]]; thenDAYMIN=‘echo ${BASH_REMATCH[1]}‘DAYMAX=‘echo ${BASH_REMATCH[2]}‘for i in $POSTAGS ; doif [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n ] ; thenmkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$nfiecho $DAYMIN \ $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n./db_query_lemma_tag_name.sh $DAYMIN $DAYMAX $i \

122 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER

$OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n $ndonermdir –ignore-fail-on-non-empty $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n

fidonedone

5.2.4.5 05_lemma_bedeutung

db_query_lemma_bedeutung.sh: An dieser Stelle werden alle Lemmataje Altersgruppe mit den dazugehörigen Wörtern, POS-Tags undBedeutungskategorien (für eine detaillierte Beschreibung der Bedeutungs-kategorien siehe Kapitel 7) ausgegeben und in eine CSV-Datei geschrieben.Zusätzlich befinden sich in den jeweiligen Spalten die dazugehörigenEXMARaLDA-Dateien. Relevante Informationen für das Ausführen derAbfragen sind Informationen zum Alter der Sprecherin/des Sprechers zueinem gegebenen Zeitpunkt, die geäußerten Wörter und die Lemmata mitden dazugehörigen POS-Tags und Bedeutungen.

Skript: db_query_lemma_bedeutung.shDB=../../../02_generated_files/corpus.dbif [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] ; thenecho "usage $0 daymin daymax bedeutung outputdir"exitfiDAYMIN=$1DAYMAX=$2BEDEUTUNG="$3"OUTPUTDIR=$4echo -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query.sqlecho -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query.sqlecho -n ’-julianday(sprecher.geburtsdatum),’ >> query.sqlecho -n ’ aufnahme.esb_name, textpostags.wort, ’ >> query.sqlecho -n ’textpostags.lemma, textpostags.postag, ’ >> query.sqlecho -n ’textpostags.bedeutung, textpostags.id ’ >> query.sqlecho -n ’ FROM sprecher,aufnahme,textpostags ’ >> query.sqlecho -n ’WHERE julianday(aufnahme.datum) ’ >> query.sqlecho -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sqlecho -n $DAYMIN >> query.sqlecho -n ’ AND julianday(aufnahme.datum) ’ >> query.sqlecho -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sqlecho -n $DAYMAX >> query.sqlecho -n ’ AND textpostags.bedeutung = "’ >> query.sqlecho -n $BEDEUTUNG >> query.sqlecho -n ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sqlecho -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sqlcat query.sql | sqlite3 $DB \> $OUTPUTDIR/output_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.csvrm query.sql

5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 123

db_query_all_lemma_bedeutung.sh: Dieses Skript arbeitet mit demvorhergehenden Skript db_query_lemma_bedeutung.sh zusammen. Esbietet die Möglichkeit, alle Sprecher/innen in allen Altersgruppen in dieAnalyse einzubeziehen und dementsprechend auch alle geäußerten Wörter,Lemmata, POS-Tags und Bedeutungen ausgeben zu lassen. Ebenso kann dieAuswahl je nach dem Zweck eingegrenzt werden. Es können beispielsweisenur bestimmte Sprecher/innen, Altersgruppen, POS-Tags oder Bedeutungenabgefragt und ausgegeben werden.

Skript: db_query_all_lemma_bedeutung.shDAYMINMAX="1281:1495 1496:1708 1709:1983"BEDEUTUNG="ad-part ad-qual ad-quant ad-rel"BEDEUTUNG="$BEDEUTUNG adv-kaus adv-komm adv-lok"BEDEUTUNG="$BEDEUTUNG adv-mod adv-temp art fm handlung"BEDEUTUNG="$BEDEUTUNG itj kon-add kon-adv kon-alt kon-ass kon-kaus kon-spez"BEDEUTUNG="$BEDEUTUNG kon-temp kon-vgl n-abstr-hdlg n-abstr-maß"BEDEUTUNG="$BEDEUTUNG n-abstr-vorg n-abstr-vorst n-abstr-wiss n-abstr-zeit"BEDEUTUNG="$BEDEUTUNG n-abstr-zust n-abstr-eig n-belebt ne"BEDEUTUNG="$BEDEUTUNG n-unbelebt pav pdat pds"BEDEUTUNG="$BEDEUTUNG piat pidat pis pper ppos"BEDEUTUNG="$BEDEUTUNG prels prf pr-kaus pr-lok pr-mod pr-neutr pr-temp"BEDEUTUNG="$BEDEUTUNG ptk-abt ptk-ant ptk-fok ptk-gespr"BEDEUTUNG="$BEDEUTUNG ptk-grad ptk-kaus ptk-komm ptk-mod ptk-neg"BEDEUTUNG="$BEDEUTUNG ptkvz ptkzu pwat pwav pws sub-fin"BEDEUTUNG="$BEDEUTUNG sub-kaus sub-kond sub-konz sub-mod-instr sub-neutr sub-temp"BEDEUTUNG="$BEDEUTUNG v-aux v-kop v-mod"BEDEUTUNG="$BEDEUTUNG vorgang xy zustand"OUTPUT_DIR=../../../03_db_query_results/lemma_bedeutungfor d in $DAYMINMAX ; doif [[ $d =~ ^(.*):(.*)$ ]]; thenDAYMIN=‘echo ${BASH_REMATCH[1]}‘DAYMAX=‘echo ${BASH_REMATCH[2]}‘for i in $BEDEUTUNG ; doif [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; thenmkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}fiecho $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX}./db_query_lemma_bedeutung.sh $DAYMIN $DAYMAX $i \

$OUTPUT_DIR/${DAYMIN}_${DAYMAX}donefi

done

5.2.4.6 06_typetoken_bedeutung

db_query_typetoken_bedeutung.sh: Mit dieser Abfrage werden die Typesin Bezug auf die Lemmata aus der Datenbank abgefragt und mit dendazugehörigen Häufigkeiten in einer CSV-Datei entsprechend ihrerBedeutungskategorie ausgegeben. Das Skript db_query_typetoken_bedeutung.sh arbeitet ähnlich wie das Skript db_query_typetoken_lemma.sh

124 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER

mit dem Unterschied, dass nicht die Lemmata je POS-Tag aufgelistet werden,sondern die Lemmata je Bedeutungskategorie.

db_query_typetoken_bedeutung.shDB=../../../02_generated_files/corpus.dbif [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] ; thenecho "usage $0 daymin daymax bedeutung outputdir"exitfiDAYMIN=$1DAYMAX=$2BEDEUTUNG="$3"OUTPUTDIR=$4echo -n ’SELECT textpostags.lemma ’ > query.sqlecho -n ’FROM sprecher,aufnahme,textpostags ’ >> query.sqlecho -n ’WHERE julianday(aufnahme.datum) ’ >> query.sqlecho -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sqlecho -n $DAYMIN >> query.sqlecho -n ’ AND julianday(aufnahme.datum) ’ >> query.sqlecho -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sqlecho -n $DAYMAX >> query.sqlecho -n ’ AND textpostags.bedeutung = "’ >> query.sqlecho -n $BEDEUTUNG >> query.sqlecho -n ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sqlecho -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sqlcat query.sql | sqlite3 $DB | sort | uniq > \$OUTPUTDIR/output_wortlist_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.txtWORTLIST=‘cat $OUTPUTDIR/output_wortlist_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.txt‘CNT=0WORDCNTSUM=0rm -f $OUTPUTDIR/output_typetoken_bedeutung_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.csvfor j in $WORTLIST ; doecho -n ’SELECT textpostags.bedeutung ’ > query2.sqlecho -n ’FROM sprecher,aufnahme,textpostags ’ >> query2.sqlecho -n ’WHERE julianday(aufnahme.datum) ’ >> query2.sqlecho -n ’- julianday(sprecher.geburtsdatum) > ’ >> query2.sqlecho -n $DAYMIN >> query2.sqlecho -n ’ AND julianday(aufnahme.datum) ’ >> query2.sqlecho -n ’- julianday(sprecher.geburtsdatum) < ’ >> query2.sqlecho -n $DAYMAX >> query2.sqlecho -n ’ AND textpostags.bedeutung = "’ >> query2.sqlecho -n $BEDEUTUNG >> query2.sqlecho -n ’" AND textpostags.lemma = ’\’ >> query2.sqlecho -n $j\’ >> query2.sqlecho -n ’ AND aufnahme.sprecher_id = sprecher.id ’ >> query2.sqlecho -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query2.sqlecho -n "$j|" \>> $OUTPUTDIR/output_typetoken_bedeutung_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.csvWORDCNT=‘cat query2.sql | sqlite3 $DB | wc -l‘WORDCNTSUM=$((WORDCNTSUM + WORDCNT)) CNT=$((CNT + 1))echo $WORDCNT\>> $OUTPUTDIR/output_typetoken_bedeutung_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.csvdoneecho "—-|—-">> $OUTPUTDIR/output_typetoken_bedeutung_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.csvecho "$CNT|$WORDCNTSUM">> $OUTPUTDIR/output_typetoken_bedeutung_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.csv

5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 125

echo "${BEDEUTUNG}|${DAYMIN}|${DAYMAX}||$CNT|$WORDCNTSUM">> $OUTPUTDIR/../output_typetoken_bedeutung_summary.csvrm -f query.sqlrm -f query2.sql

db_query_all_typetoken_bedeutung.sh: Mit Hilfe dieses Unterskriptes könnendie Ergebnisse der Abfrage db_query_typetoken_bedeutung.sh eingegrenztwerden oder aber es können sämtliche Informationen ausgegeben werden.Es ist möglich (wie in dieser Arbeit geschehen), alle Altersgruppen undBedeutungskategorien in die Analyse einzubeziehen. Dementsprechendwerden alle Bedeutungskategorien je Altersgruppe ausgegeben und diedazugehörigen Lemmata alphabetisch sortiert aufgelistet und mit derenAnzahl versehen.

Skript: db_query_all_typetoken_bedeutung.shDAYMINMAX="1281:1495 1496:1708 1709:1983"BEDEUTUNG="ad-part ad-qual ad-quant ad-rel"BEDEUTUNG="$BEDEUTUNG adv-kaus adv-komm adv-lok"BEDEUTUNG="$BEDEUTUNG adv-mod adv-temp art fm handlung"BEDEUTUNG="$BEDEUTUNG itj kon-add kon-adv kon-alt kon-ass kon-kaus kon-spez"BEDEUTUNG="$BEDEUTUNG kon-temp kon-vgl n-abstr-hdlg n-abstr-maß"BEDEUTUNG="$BEDEUTUNG n-abstr-vorg n-abstr-vorst n-abstr-wiss n-abstr-zeit"BEDEUTUNG="$BEDEUTUNG n-abstr-zust n-abstr-eig n-belebt ne"BEDEUTUNG="$BEDEUTUNG n-unbelebt pav pdat pds"BEDEUTUNG="$BEDEUTUNG piat pidat pis pper ppos"BEDEUTUNG="$BEDEUTUNG prels prf pr-kaus pr-lok pr-mod pr-neutr pr-temp"BEDEUTUNG="$BEDEUTUNG ptk-abt ptk-ant ptk-fok ptk-gespr"BEDEUTUNG="$BEDEUTUNG ptk-grad ptk-neg"BEDEUTUNG="$BEDEUTUNG ptkvz ptkzu pwat pwav pws sub-fin"BEDEUTUNG="$BEDEUTUNG sub-kaus sub-kond sub-konz sub-mod-instr sub-neutr sub-temp"BEDEUTUNG="$BEDEUTUNG v-aux v-kop v-mod"BEDEUTUNG="$BEDEUTUNG vorgang xy zustand"OUTPUT_DIR=../../../03_db_query_results/typetoken_bedeutungfor d in $DAYMINMAX ; doif [[ $d =~ ^(.*):(.*)$ ]]; thenDAYMIN=‘echo ${BASH_REMATCH[1]}‘DAYMAX=‘echo ${BASH_REMATCH[2]}‘for i in $BEDEUTUNG ; doif [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; thenmkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}fiecho $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX}./db_query_typetoken_bedeutung.sh $DAYMIN $DAYMAX $i \

$OUTPUT_DIR/${DAYMIN}_${DAYMAX}donefi

done

Es wäre ebenso möglich, nur eine oder zwei Altersgruppen oder ausgewählteBedeutungskategorien zu untersuchen. Dies kann im Skript entsprechendangepasst werden. Soll etwa nur die Altersgruppe 1496_1708 betrachtet

126 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER

werden und interessieren in dieser Gruppe nur die Adverbien, so würde dasSkript zur Ausführung folgendermaßen aussehen:

Skript: db_query_ADV_1496_1708_typetoken_bedeutung.shDAYMINMAX="1496:1708"BEDEUTUNG="adv-kaus adv-komm adv-lok"BEDEUTUNG="$BEDEUTUNG adv-mod adv-temp"OUTPUT_DIR=../../../03_db_query_results/typetoken_bedeutungfor d in $DAYMINMAX ; doif [[ $d =~ ^(.*):(.*)$ ]]; thenDAYMIN=‘echo ${BASH_REMATCH[1]}‘DAYMAX=‘echo ${BASH_REMATCH[2]}‘for i in $BEDEUTUNG ; doif [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; thenmkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}fiecho $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX}./db_query_typetoken_bedeutung.sh $DAYMIN $DAYMAX $i \$OUTPUT_DIR/${DAYMIN}_${DAYMAX}donefidone

5.3 Möglichkeiten für die Arbeit mit dem CorpusAnalyser

Der CorpusAnalyser wurde speziell für die Zwecke und Ziele der vorliegendenArbeit konzipiert und von Mack (2014) programmiert ([Mack (2014)]).Während der Konzeption, die parallel zur Entstehung dieser Arbeit lief, wurdenkontinuierlich neue Ideen eingebracht und umgesetzt, wodurch ein komplexesProgramm entstanden ist. Neben den Zwecken, die für diese Arbeit vonBedeutung waren, sind deshalb noch weitere Szenarien vorstellbar.

Neben dem Deutschen können, analog zum Vorgehen in dieser Arbeit,zahlreiche weitere Sprachen analysiert und zu einem Vergleich herangezogenwerden. Wenn es um die Analyse von Wortarten und Wortbedeutungengeht, müssen die syntaktischen Wörter korrekt voneinander separiertund mit den entsprechenden Wortarten bzw. Wortbedeutungen versehenwerden. Diese Vorarbeit kann - wie auch in der vorliegenden Arbeit - keinProgramm leisten, sondern muss von der durchführenden Person selbstvorgenommen werden. Dabei können neben den Stuttgart-Tübingen-Tagsets(STTS) auch andere Tagsets verwendet werden. Gerade bei der Analyseanderer Sprachen neben dem Deutschen ist es meines Erachtens sogarnotwendig, wenn nicht zumindest sinnvoll, nicht die STTS zu verwenden.Die STTS enthalten POS-Tags, die sich typischerweise auf das Deutschebeziehen (Abschnitt 3.2); für alle anderen Sprachen müssten diese zumindeststark modifiziert werden. Es wäre möglich und wahrscheinlich sinnvoll,für die Arbeit mit den Daten von sehr jungen Kindern (z. B. im Alter von

5.3. MÖGLICHKEITEN FÜR DIE ARBEIT MIT DEM CORPUSANALYSER 127

1;0 bis 3;0 Jahren), die Klassifikation von Kauschke (1999) zu verwenden([Kauschke (1999)], S. 140). Diese Klassifikation wurde bisher nur für dieAnalyse des Deutschen verwendet, wobei man sie vermutlich auch fürdas Englische und die meisten romanischen Sprachen verwenden könnte.Aufwendiger gestaltet sich womöglich die Arbeit mit Daten von strukturellsehr von den germanischen und romanischen Sprachen abweichendenDaten. Man möge an das Ungarische denken, welches im Gegensatz zumDeutschen einen agglutinierenden Charakter aufweist. In diesem Falle wärenKlassifikationssysteme notwendig, die mit diesen strukturellen Eigenschaftenharmonieren.

Eine weitere Notwendigkeit besteht darin, die Datenbank im Vorfeldmit allen relevanten Informationen zu füllen, die für die Arbeit mit demCA notwendig sind. Auf diese Weise kann im Nachhinein ein Vergleichvon mehreren Sprachen unter unterschiedlichen Aspekten vorgenommenwerden. Es kann zum Beispiel die Verteilung von Wortarten im Hinblick aufden Anteil dieser wiederum am Gesamtwortschatz ermittelt und verglichenwerden. Durch das Erstellen von Wortlisten können die häufigsten Wörterin verschiedenen Kategorien ermittelt werden. Interessant wäre auch einVergleich von verschiedenen Sprachen mit gleichen/ähnlichen Wortarten (z.B. Englisch/Deutsch oder Spanisch/Deutsch). Hierbei muss beachtet werden,dass dem Vergleich gleiche Voraussetzungen zu Grunde liegen. Dazu gehörtein einheitlich verwendetes Klassifikationssystem. Es würde wenig Sinnergeben, einen mit den STTS analysierten Datensatz mit einem Datensatzzu vergleichen, der wiederum mit einem abweichenden Klassifikationssystemanalysiert wurde. Aber nicht immer sollen Daten miteinander verglichenwerden. Allein die Analyse von weniger beschriebenen Sprachen undderen Ermittlung der Wortartenverteilung ist äußerst interessant undaufschlussreich. Durch die Arbeit mit dem CA kann dabei eine enormeErleichterung für die quantitative Analysetätigkeit geschaffen werden.Normalerweise ist für die Abbildung der Verteilung aller Daten ein enormerRechenaufwand notwendig. Mit dem CA können, je nach dem welchesZiel verfolgt wird, nahezu alle Variablen unter unterschiedlichen Aspektenquantitativ analysiert werden, wenn die dazugehörigen Skripte entsprechendangepasst werden.

Es ist weiterhin vorstellbar, dass in einer Analyse nicht nur die Wortartenund Wortbedeutungen von Interesse sind, sondern die Morpheme oderPhoneme einer Sprache in einem gegebenen Kontext. Auch dies ließe sichmit dem CA bewerkstelligen. In der enstprechenden EXMARaLDA-Dateimüssten dann nicht die Wörter voneinander separiert aufgeführt und mitden jeweiligen POS-Tags bezeichnet werden. Vielmehr wäre es erforderlich,

128 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER

die Morpheme bzw. Phoneme voneinander zu trennen. Ob und wie dieseEinheiten für eine spätere Analyse gekennzeichnet werden, hängt vom Zielder jeweiligen Untersuchung ab.

Kapitel 6

Analyse der Wortarten

Für die Analyse der Daten waren mehrere Schritte erforderlich. In einemersten Schritt wurden alle bisher erhaltenen Informationen in die Datenbank1

des CA überführt, mit welcher im Anschluss mehrere Analyseschritte möglichwaren. Zunächst wurden alle Aufnahmen drei Altersgruppen zugeordnet,da so herausgefunden werden konnte, ob Änderungen im Verlauf desLexikerwerbs zwischen 3;5 und 5;5 Jahren zu verzeichnen sind. Wie bereitsin Abschnitt 2.3.3 erwähnt, wurde bisher sehr stark die Gruppe der Ein-bis Dreijährigen untersucht. Kauschke (1999) fand heraus, dass währenddieser Altersspanne eine starke Veränderung hinsichtlich des Vorkommensder Wortarten im kindlichen Lexikon zu erkennen ist ([Kauschke (1999)]). Obes jenseits des dritten Geburtstages noch zu signifikanten Veränderungenkommt, soll in der folgenden Analyse überprüft werden. Die erste Gruppeumfasst alle Zeitpunkte von ca. 3;5 bis 4;1 Jahren bzw. von 1281 bis 1495Tagen. Das heißt, dass alle Kinder, die zum Zeitpunkt der jeweiligen Aufnahmein das entsprechende Altersraster fielen, sich in dieser Gruppe befinden.Die zweite Gruppe umfasst alle Zeitpunkte von über 4;1 bis 4;7 Jahrenbzw. zwischen 1496 und 1708 Tagen, Gruppe 3 umfasst die Zeitpunktevon über 4;7 bis ca. 5;5 Jahren bzw. zwischen 1709 und 1983 Tagen. EineAltersangabe in Tagen war deshalb notwendig, weil der CA und das Skript zurAusführung der Analyse mit diesen Angaben (juliandays) arbeitet. Ziel war eszunächst, die Ergebnisse hinsichtlich der Verteilung der Wortarten dieser dreiGruppen darzustellen und miteinander zu vergleichen bzw. auf Unterschiedezu prüfen (Abschnitt 6.2). In einem weiteren Schritt sollte untersucht werden,ob man in einem Alter von 3;5 bis 5;5 Jahren von individuellen Unterschiedenausgehen kann, die auch über den Zeitraum der Aufnahmen erhalten bleiben(Abschnitt 6.3). In jedem Fall soll ein Überblick über die Verteilung der

1Die Datenbank corpus.db wurde im Zuge der Erstellung des CorpusAnalysers ([Mack (2014)]) fürdie Zwecke dieser Arbeit erarbeitet.

129

130 KAPITEL 6. ANALYSE DER WORTARTEN

Wortarten in der Spontansprache der hier untersuchten Kinder geschaffenwerden. Im besten Falle können offene Fragen beantwortet werden, aberauch neue Fragen entstehen, die es in weiteren Arbeiten zu beantworten gilt.Im Anschluss an die Analyse der Wortarten soll anknüpfend an dieses Kapiteleine Untersuchung unter semantischen und inhaltlichen Gesichtspunktenvorgenommen werden (Kapitel 7). Dabei werden die Kategorien Nomen,Verb, Adjektiv (und Adverb) in ihrer Funktion als Inhaltswörter sowie dieFunktionswörter betrachtet. Es erschien sinnvoll, die Inhaltskategoriengetrennt von den Funktionswörtern in die Analyse einzubeziehen, weil ersterebereits in anderen Arbeiten große Aufmerksamkeit gefunden haben (z. B.[Baker (2003), Bassano (2000), Behrens (1998), Gopnik und Choi (1995),Kauschke (2007), Stenzel (1997)]). Des Weiteren machen Nomen, Verben,Adjektive und zum Teil die Adverbien jeweils einen recht großen Anteil amGesamtlexikon aus, wodurch am ehesten inhaltliche Veränderungen zwischenden drei Altersgruppen herausgefunden werden können.

6.1 Gruppierung der POS-Tags

Im einem ersten Teilschritt wurden die Häufigkeiten jedes einzelnenPOS-Tags mit den entsprechenden syntaktischen Wörtern und Lemmata proAltersgruppe analysiert. Um einen umfassenderen Überblick zu erhalten,wurden in einem zweiten Schritt die POS-Tags verwandter Kategorienzusammengefasst. Eine solche Zusammenfassung war vor allem füranschließende grafische Darstellungen sowie für den Vergleich der dreiAltersgruppen hilfreich, da die Gegenüberstellung aller 41 Kategorien in jederder drei Gruppen sehr unübersichtlich wäre. Die unten stehende Tabelle (6.1)zeigt die Zusammenfassung der einzelnen POS-Tags. Berücksichtigt wurdennur jene Tags, die auch tatsächlich in den Daten vorkommen. Auf diese Weiseentstanden 19 Kategorien statt der ursprünglich erhaltenen 41 Kategorien.Mit der so enstandenen Kategorisierung soll im Verlauf der Arbeit gearbeitetwerden. Sollte ich mich an irgendeiner Stelle auf die ursprüngliche Versionder STTS mit ihren 41 Kategorien beziehen, werde ich dies kenntlich machen.Abbildung 6.1 zeigt eine Zusammenfassung aller Tokens in der Altersgruppe1281_1495, so, wie es in der Ausgabe-Datei festgehalten ist2.

2Es fehlt die Kategorie FM, weil sie in den Daten dieser Gruppe nicht vorkam. Somit sind hier nur 18Kategorien enthalten.

6.1. GRUPPIERUNG DER POS-TAGS 131

Abbildung 6.1: POS-Tags: tokens_types_gruppiert_1281_1495

Eine Zusammenfassung der Types ist ebenfalls vorhanden, obwohl dieseerst weiter unten besprochen werden.

Kategorie POS-Tags

ADJ ADJA + ADJD

ADV ADV +PAV

APPR APPR + APPRART

ART ART

CARD CARD

FM FM

ITJ ITJ

KON KOUS + KON + KOKOM

N NN + NE

PIDATS PDS+PDAT + PIS + PIAT + PIDAT

PPER PPER

PPOS PPOSS + PPOSAT

PREL (PRELAT)+PRELS + PRF

PW PWS + PWAT + PWAV

PTK PTKZU + PTKNEG + PTKVZ + PTKANT + PTKA

VA VAFIN + (VAINF) + VAIMP + (VAPP)

VM VMFIN + (VMINF) + (VMIMP)

VV VVFIN + VVINF + VVIMP + VVPP + VVIZU

XY XY

Tabelle 6.1: POS-Tags zusammengefasst

132 KAPITEL 6. ANALYSE DER WORTARTEN

Erläuterungen zu Tabelle 6.13:

• ADJ: Adjektive

• ADV: Adverbien und Pronominaladverbien

• APPR: Präpositionen

• ART: Artikel (unbestimmt und bestimmt)

• CARD: Kardinalzahlen

• FM: Fremdsprachliches Material

• ITJ: Interjektionen

• KON: Konjunktionen und Subjunktionen

• N: Nomen und Eigennamen

• PIDATS: Indefinitpronomen; determinierende, attribuierende undsubstituierende Pronomen

• PPER: Personalpronomen (irreflexiv)

• PPOS: Possessivpronomen

• PREL: Relativpronomen und reflexives Personalpronomen

• PW: substituierende, attribuierende und adverbiale Interrogativ- undRelativpronomen

• PTK: Partikeln

• VA: Auxiliarverben

• VM: Modalverben

• VV: Vollverben

• XY: unverständliche Wörter

3in Klammern stehende POS-Tags kommen in den Daten dieser Arbeit nicht vor, zählen abergrundlegend zu der angegebenen Gruppe.

6.2. ALTERSGRUPPEN IM VERGLEICH 133

6.2 Altersgruppen im Vergleich

In diesem Abschnitt und den folgenden Unterabschnitten sollen dieErgebnisse der getätigten Analysen mittels des CA in Bezug auf die Verteilungder POS-Tags dargestellt werden. Zunächst wird die Verteilung der Tokensund die Verteilung der Types aufgezeigt sowie die Relation der Types zuden Tokens. Dazu wurden jeweils alle Tokens sowie alle Types, die in denZeiträumen 1281 bis 1495, 1496 bis 1708 und 1709 bis 1983 geäußertwurden, addiert. Um das Verhältnis der Types zu den Tokens zu erhalten,wurde die Anzahl der Types durch die Anzahl der Tokens dividiert. Die untenstehende Tabelle fasst kurz das Vorkommen aller Tokens und Types in denjeweiligen Altersgruppen in absoluten Zahlen zusammen, ungeachtet dessen,welches Kind die jeweiligen Tokens und Types äußerte.

1281-1495 1496-1708 1709-1983

Tokens 2916 12584 11315

Types 462 1058 1088

Tabelle 6.2: Types und Tokens in den Altersgruppen

In der ersten Altersgruppe von 1281 bis 1495 Tagen gibt es im Vergleichzu den anderen Gruppen nur wenige Tokens. Rückblickend lässt sich dasdadurch erklären, dass die Kinder in diesem Alter in der Regel noch nichtso aufgeschlossen mir gegenüber waren und deshalb nur wenig aus eigenerInitiative erzählten. Oft musste ich versuchen, die Kinder zum Sprechen zuanimieren. Da dies nicht immer erfolgreich war und die Kinder zudem spontanund aus eigenem Antrieb heraus sprechen sollten, waren weitere Aufnahmennicht möglich. Dennoch lassen die Daten insgesamt vermuten, dass zumindestein Trend aufgezeigt werden kann. Die mittlere und die letzte Gruppe weisenjeweils ähnliche Häufigkeiten auf. So äußerten Kinder im Alter von 1496 bis1708 Tagen im gesamten Aufnahmezeitraum 12584 Wörter (Tokens), darunter1058 Types. Im Alter von 1709 bis 1983 Tagen wurden 11315 Wörter (Tokens)geäußert, wovon sich 1088 voneinander unterschieden (Types).

6.2.1 Verteilung der Tokens

Unter Zuhilfenahme des CA (Kapitel 5) wurden alle tatsächlich geäußertenWörter (Tokens) aller Kinder im Hinblick auf ihre Zugehörigkeit zu denPOS-Tags analysiert. Des Weiteren wurde die Anzahl der Wörter jePOS-Tag und je Altersgruppe vermerkt. Für diesen Analyseschritt wurde dieentsprechende Abfrage mit den dazugehörigen Skripten des CA genutzt.Zur Ermittlung der Vorkommenshäufigkeit je POS-Tag und je Altersgruppe

134 KAPITEL 6. ANALYSE DER WORTARTEN

wurde die Abfrage 5.2.4.2 mit den Skripten db_query_typetoken.sh sowiedb_query_all_typetoken.sh gestellt. Als Ergebnis erhielt man eine Listealler geäußerten Wörter je POS-Tag und Altersgruppe. Abbildung 6.5 zeigtbespielsweise alle geäußerten VVIMP (Vollverben im Imperativ) der Gruppe1709_1983. Die zusammengefassten und gruppierten Ergebnisse sind in derunten stehenden Tabelle (6.3) dargestellt.

POS-Tag 1281-1495 POS/

Summe

1496-1708 POS/

Summe

1709-1983 POS/

Summe

ADJ 107 3,7 480 3,8 512 4,5

ADV+PAV 427 14,6 2175 17,3 1462 12,9

APPR 81 2,8 474 3,8 362 3,2

ART 258 8,8 1125 8,9 787 7,0

CARD 26 0,9 177 1,4 329 2,9

FM 0 0 2 0,02 8 0,07

ITJ 6 0,2 38 0,3 73 0,6

KON 235 8,1 897 7,1 635 5,6

N 264 9,1 971 7,7 1245 11,0

PIDATS 153 5,2 625 4,9 452 4,0

PPER 283 9,7 1339 10,6 1432 12,7

PPOS 37 1,3 118 0,9 128 1,1

PREL 8 0,3 56 0,4 38 0,3

PTK 309 10,6 1090 8,7 1073 9,5

PW 44 1,5 175 1,4 137 1,2

VA 34 1,2 158 1,3 165 1,5

VM 90 3,1 441 3,5 421 3,7

VV 493 16,9 2086 16,6 1916 16,9

XY 61 2,1 157 1,2 140 1,2

Tabelle 6.3: Vorkommen der POS-Tags (Tokens) in allen Altersgruppen im Überblick -gruppiert

Zunächst sind keine signifikanten Unterschiede in der Verwendungs-häufigkeit einzelner Wortklassen im Verlauf von 1281 Tagen bis 1983 Tagenerkennbar. Im Gegenteil: Es bietet sich dem Betrachter ein nahezu konstantesBild der Verteilung hinsichtlich der Verwendung der Wortklassen in dendrei Altersgruppen. Leicht auffällig ist die Entwicklung der Verwendung derKonjunktionen (KON). Im Alter von 1281 bis 1495 Tagen nehmen KON einenAnteil von 8,1% hinsichtlich aller verwendeten Wortklassen ein. Im Altervon 1496 bis 1708 Tagen sind es 7,1% und in der Altersgruppe 1709 bis1983 Tage sind es nur noch 5,6%. An dieser Stelle kann nicht eindeutiggesagt werden, ob es sich um einen weiterführenden Trend handelt. Dazumüssten weitere Altersgruppen getestet werden, die an die letzte Altersgruppeanschließen, also ab einem Alter von 1984 Tagen. Eine ebenso leichteVeränderung zeigt der Gebrauch der Personalpronomen (PPER). Während

6.2. ALTERSGRUPPEN IM VERGLEICH 135

Kinder im Alter von 1281 bis 1495 Tagen einen Anteil von 9,7% PPER in ihrerVerwendung aufweisen, sind es in der Gruppe der 1496 bis 1708 Tage altenKinder 10,6% und bei den Kindern im Alter von 1709 bis 1983 Tagen 12,7%.Auch hier müssten, ähnlich wie bei den Auffälligkeiten bei den KON, weitereUntersuchungen getätigt werden, um herauszufinden, ob es sich um einenfortsetzenden Trend handelt. Die Abbildungen 6.2, 6.3 und 6.4 zeigen dieAnteile der gruppierten POS-Tags in den einzelnen Altersgruppen.

Abbildung 6.2: Gruppierte POS-Tags, Verteilung Tokens, 1281 bis 1495 Tage

Es fällt auf, dass in jeder der drei Altersgruppen Auxiliar-, Modal- undVollverben (VA, VM, VV) am häufigsten in der spontanen Sprache verwendetwerden, ungeachtet ihrer Vielfalt im kindlichen Wortschatz. Dieses Bilddeckt sich mit den Ergebnissen von Kauschke (1999) ([Kauschke (1999)];Abschnitt 2.3.3). Sie untersuchte Kinder bis zu einem Alter von 36 Monaten.Als Referenzpunkt zu den Ergebnissen dieser Arbeit bietet es sich an, dieVerteilung der Wortarten der Kinder im Alter von 36 Monaten mit denender Kinder im Alter von 1281 bis 1495 Tagen (das entspricht etwa 3;5 bis4;1 Jahren) ansatzweise zu vergleichen4. Im Alter von 36 Monaten machenVerben einen Anteil von 22% am Gesamtwortschatz aus, bezogen auf dieTokens. Nomen kommen mit insgesamt 11% vor ([Kauschke (1999)], S. 148).In der vorliegenden Arbeit machen Verben (VA, VM, VV) einen Anteil von21,2% aus im Alter von 1281 bis 1495 Tagen, Nomen (N) einen Anteil von

4Dazu werden folgend die drei Verbkategorien VA, VM und VV zusammengefasst. Dies istinsofern sinnvoll, als dass bei den Vergleichsdaten ebenfalls keine Unterteilung in weitere Verbklassenvorgenommen wurde.

136 KAPITEL 6. ANALYSE DER WORTARTEN

Abbildung 6.3: Gruppierte POS-Tags, Verteilung Tokens, 1496 bis 1708 Tage

9,1%. Alle weiteren Wortarten der STTS, wie sie für die hiesige Untersuchungverwendet wurden, sind meiner Meinung nach nur teilweise mit denen ausKauschkes Arbeit vergleichbar, da sie einer anderen Klassifikation unterliegen.Zudem wurde die Studie mit einer anderen Methodik durchgeführt, waseinen aussagekräftigen Vergleich nicht möglich macht. Die bisherigenErgebnisse enstprechen jedoch dem, was Kauschke in Anbetracht ihrerStudie prognostizierte:

„Nomen sind von Anfang an vorhanden und wachsen insbesonderewährend des zweiten Lebensjahres an. [...] Mit drei Jahrenverwendet kein Kind mehr als 25% Nomen.“ ([Kauschke (1999)], S.144)

und

„Mit 15 Monaten tauchen erstmals Verben auf, die dann erheblichansteigen und mit 3 Jahren den stärksten Anteil am Lexikonausmachen.“ ([Kauschke (1999)], S. 145)

Insgesamt wurden durch alle Altersstufen hinweg Partikeln (PTK) zu einemhohen Anteil verwendet (rund 10% in allen Gruppen). Weiterhin nimmtder Gebrauch der Adjektive (ADJ) mit zunehmendem Alter leicht zu,insbesondere, wenn auch die Kardinalzahlen (CARD) zu den Adjektivengezählt werden (3,7% Adjektive + 0,9% Kardinalzahlen in Gruppe 1281_1495,3,8% Adjektive + 1,4% Kardinalzahlen in Gruppe 1496_1708 und 4,5%

6.2. ALTERSGRUPPEN IM VERGLEICH 137

Abbildung 6.4: Gruppierte POS-Tags, Verteilung Tokens, 1709 bis 1983 Tage

Adjektive + 2,9% Kardinalzahlen in Gruppe 1709_1983). An späterer Stellesoll in dieser Arbeit geklärt werden, ob es sich inhaltlich dabei um neueAdjektive handelt, die zu den späteren Zeitpunkten auftreten oder aber, oballe bisher verwendeten Adjektive nur häufiger gebraucht wurden (Abschnitt7.2).

Abbildung 6.5: Beispiel: tokens_VVIMP_1709_1983

138 KAPITEL 6. ANALYSE DER WORTARTEN

6.2.2 Verteilung der Types

In einem weiteren Schritt wurde die Anzahl und die Verteilung der Types jeAltersgruppe ausgewertet. Für diesen Analyseschritt wurde (entsprechendder Analyse der Tokens) die entsprechende Abfrage mit den dazugehörigenSkripten des CA verwendet. Zur Ermittlung der Vorkommenshäufigkeit jePOS-Tag und je Altersgruppe wurde die Abfrage 5.2.4.3 mit den Skriptendb_query_typetoken_lemma.sh sowie db_query_all_typetoken_lemma.sh andie Datenbank gestellt. Im Ergebnis erhielt man eine Liste aller Lemmataje POS-Tag und Altersgruppe. Abbildung 6.6 zeigt einen Ausschnitt aus derDatei, die alle Types bzw. Lemmata bezogen auf die finiten Verben (VVFIN)der Kinder der Gruppe 1281_1495 enthält.

Abbildung 6.6: Beispiel: types_VVFIN_1281_1495

Tabelle 6.4 zeigt die Verteilung der Types hinsichtlich der gruppiertenPOS-Tags je Altersgruppe. Auf den ersten Blick erscheint die Verteilungder einzelnen POS-Tags (ähnlich der Tokens) über die drei Zeiträumehinweg gleichmäßig. Einen leichten Negativtrend zeigt die Verteilung derPräpositionen (APPR). Kinder der ersten Altersgruppe verwendeten einenAnteil von 2,4% verschiedenartiger APPR, Kinder der zweiten Altersgruppenur noch 1,9% und Kinder der dritten Altersgruppe nur noch 1,7%.

6.2. ALTERSGRUPPEN IM VERGLEICH 139

POS-Tag 1281-1495 POS/Summe 1496-1708 POS/Summe 1709-1983 POS/Summe

ADJ 44 9,5 108 10,2 93 8,5

ADV+PAV 49 10,6 98 9,3 103 9,5

APPR 11 2,4 20 1,9 19 1,7

ART 3 0,6 3 0,3 3 0,3

CARD 9 1,9 20 1,9 22 2

FM 0 0 2 0,2 4 0,4

ITJ 4 0,9 12 1,1 23 2,1

KON 11 2,4 19 1,8 17 1,6

N 141 30,5 428 40,5 423 38,8

PIDATS 12 2,6 21 2,0 24 2,2

PPER 7 1,5 7 0,7 7 0,6

PPOS 4 0,9 5 0,5 5 0,5

PREL 6 1,3 9 0,8 9 0,8

PTK 43 9,3 57 5,4 73 6,7

PW 6 1,3 8 0,8 8 0,7

VA 3 0,6 3 0,3 3 0,3

VM 5 1,1 7 0,7 7 0,6

VV 102 22 229 21,6 240 22

XY 2 0,4 2 0,2 5 0,5

Tabelle 6.4: Vorkommen der POS-Tags (Types) in allen Altersgruppen im Überblick -gruppiert

Es fällt weiterhin auf, dass Verben (VA, VM, VV) mit ca. 23% in jederder drei Altersgruppen einen gleich großen Anteil am Lexikon einnehmen.Vergleicht man die Gruppe der 1281 bis 1495 Tage alten Kinder mitden 36 Monate alten Kindern aus Kauschkes Studie, so decken sich dieErgebnisse diesbezüglich. In Kauschkes Ergebnissen machen Verben einenähnlich hohen Anteil von 23% an der Gesamtkomposition des Lexikonsbei Dreijährigen aus ([Kauschke (1999)], S. 147). Große Abweichungenkönnen allerdings bei der Verwendung der Nomen beobachtet werden. In derersten Altersgruppe verwendeten die untersuchten Kinder 141 oder 30,5%verschiedene Nomen bezogen auf die Gesamtanzahl der Types. Mit 1496 bis1708 Tagen nehmen Nomen einen Anteil von 40,5% am gesamten Lexikonim geäußerten Zeitraum ein. In der letzten Altersgruppe beläuft es sich aufeinen ähnlich hohen Prozentsatz mit 38,8%. Diese Angaben widersprechenzunächst dem, was Kauschke prognostizierte, nämlich, dass mit 3 Jahrenkein Kind mehr als 25% Nomen verwendet ([Kauschke (1999)], S. 145). DaKauschke sich jedoch ausdrücklich auf das Vorkommen von geäußertenNomen in Bezug auf ein individuelles Kind bezieht, können diese Angabennicht auf die hier vorliegenden Type-Werte bezogen werden, da in diesemAbschnitt zunächst eine Gruppe von Kindern betrachtet wurde. In Abschnitt6.2.4 sollen Erklärungsansätze zu diesem Phänomen gegeben werden.

140 KAPITEL 6. ANALYSE DER WORTARTEN

Zudem folgen später Einzelanalysen der hier untersuchten Kinder, welcheeine gänzlich andere Qualität aufweisen (Abschnitt 6.3).

Abbildung 6.7: Gruppierte POS-Tags, Verteilung Types, 1281 bis 1495 Tage

6.2.3 Das Verhältnis der Types zu den Tokens

Das Verhältnis der Types zu den Tokens soll dargestellt werden, umeventuelle Veränderungen in der Häufigkeit der Verwendung verschiedenerLemmata aufzuzeigen. Nachfolgend ist dieses Verhältnis in Bezug auf die dreiAlterszeiträume dargestellt. Die Types- und Tokensanteile wurden hier anhandvon Analysen der ungruppierten POS-Tags erfasst (Tabelle 6.5).

1281-1495 1496-1708 1709-1983

Types 528 1207 1236

Tokens 2916 12584 11315

Verhältnis Types/Tokens 0,18 0,10 0,11

Tabelle 6.5: Type-Token-Verhältnis in den Altersgruppen

Das Verhältnis des ersten Untersuchungszeitraumes fällt im Gegensatz zurzweiten und dritten Untersuchungsperiode etwas höher aus (0,18 gegenüber0,10 bzw. 0,11). Es gibt insgesamt aber viel weniger Tokens (2916) als in denbeiden anderen Gruppen. Das Verhältnis der Types zu den Tokens beträgt0,18. Im zweiten bzw. dritten Untersuchungszeitraum beträgt das Verhältnis0,10 bzw. 0,11. An dieser Stelle kann nicht eindeutig festgelegt werden, ob derTokens-Wert der ersten Gruppe gewertet werden sollte, weil die untersuchten

6.2. ALTERSGRUPPEN IM VERGLEICH 141

Abbildung 6.8: Gruppierte POS-Tags, Verteilung Types, 1496 bis 1708 Tage

Lemmata mengenmäßig unter denen der anderen beiden Gruppen liegen. Eswäre zum Beispiel möglich, dass selbst bei einer Tokens-Anzahl von >10000in Gruppe 1 die Types-Anzahl gleich bzw. ähnlich bliebe. Wahrscheinlich wäresie höher (und das Verhältnis der Types zu Tokens somit niedriger), dochdas kann auf Basis der Datenlage nicht eindeutig gesagt werden. Bisherwurden lediglich alle Wörter und Lemmata zusammengefasst pro Gruppebetrachtet. Dies hat zur Folge, dass insbesondere bei den Inhaltswörtern (vorallem Nomen und Verben) Abweichungen in Anbetracht der Types auftreten,da diese je nach Verwendungshäufigkeit seltener gezählt werden (da jedesverschiedenartige Type nur einmal gezählt wird, unabhängig davon, welchesKind es äußerte), insgesamt aber der jeweils vollständigen Tokens-Anzahl(alle geäußerten Wörter) gegenübergestellt werden.

Es ist zum einen denkbar, dass die Schwelle von 1281 bis 1495 Tagenzu 1496 bis 1708 Tagen eine Art Meilenstein darstellt, nach welchem sichdie Komposition des Lexikons ändert. Dies sollte sich dann auch an derinhaltlichen Komposition bemerkbar machen. Zum anderen wäre denkbar,dass die Anzahl der beobachteten Kinder in der ersten Gruppe zu klein ist,um daraus tragfähige Schlüsse in Bezug auf die Komposition des Lexikonsin dieser Altersgruppe zu ziehen. Interessant ist, dass dieses Ergebnis dementspricht, was bereits Kauschke (1999) in ihrer Arbeit mit Ein- bis Dreijährigenprognostizierte ([Kauschke (1999)]). Die Autorin fand heraus, dass die Anzahlunterschiedlicher Wörter (Types) abhängig ist vom Alter der Kinder. Kauschkestellte in ihrer Studie ein exponentielles Wachstum im zweiten Lebensjahr fest.

142 KAPITEL 6. ANALYSE DER WORTARTEN

Abbildung 6.9: Gruppierte POS-Tags, Verteilung Types, 1709 bis 1983 Tage

Im dritten Lebensjahr sei eine Abnahme zu verzeichnen, die sich schließlichin einem linearen Verlauf auszeichnet ([Kauschke (1999)], S. 141). Ähnlichverhalte es sich mit dem Anstieg der Verwendungshäufigkeit der Wörter(Tokens), welches mit dem Wachstumsmuster der Types vergleichbar sei.Demzufolge gibt es einen exponentiellen Anstieg im zweiten Lebensjahrund eine Abflachung dessen im dritten Lebensjahr (ebd., S. 141-142).Interessanterweise weist die von Kauschke ermittelte Type-Token-Ratioin jeder von ihr analysierten Altersgruppe ein anderes Verhältnis auf alsdie Type-Token-Ratio, die in dieser Arbeit ermittelt wurde. Die von ihruntersuchten Kinder im Alter von 13 Monaten, 15 Monaten, 21 Monaten und36 Monaten zeigten ein Verhältnis von durchschnittlich 0,40 (ebd., S. 141).Hier ist aber unbedingt anzumerken, dass Kauschke jedes Kind zu jedemuntersuchten Zeitpunkt in die Ermittlung der Type-Token-Ration einbezogund zudem eine viel geringere Anzahl an Tokens in die Analyse einbrachte.In der vorliegenden Arbeit wird es allerdings nicht möglich sein, jedes Kindin jedem der drei Zeiträume heranzuziehen, weil nicht jedes Kind in jedemZeitraum interviewt wurde. Zudem ist nicht bekannt, mit welcher MethodeKauschke die Type-Token-Ratio ermittelte (Abschnitt 4.1). Auch dies kannerhebliche Unterschiede der Ergebnisse hervorrufen (vgl. Paragraph 4.1).Es ist ersichtlich, dass die hier beobachteten Kinder eine deutlich höhereVerwendungshäufigkeit im Hinblick auf die Types aufweisen. Interessant istauch, dass die Werte in den drei Gruppen annähernd gleich sind, was auchKauschke bereits prognostizierte, wobei sie sich eher auf Kinder in ihrer

6.2. ALTERSGRUPPEN IM VERGLEICH 143

individuellen Entwicklung bezieht:

„Varianzanalysen zeigen, daß mit zunehmendem Alter keinebedeutsamen Veränderungen stattfinden (F (3,81 = 0,42, p =0,743). Daraus kann geschlossen werden, daß das Verhältnisvon Types zu Tokens gleich bleibt. Die lexikalische Vielfaltunterliegt also keinen entwicklungsbedingten Schwankungen,sondern bleibt relativ konstant (Mittelwerte 0.44, 0.40, 0.38- 0.42).“([Kauschke (1999)], S. 143-144)

Nichtsdestotrotz sind die Werte in der vorliegenden Arbeit niedriger, wennaber konstant. Eine mögliche Erklärung ist, dass die interviewten Kinderdeshalb mehr Tokens aufweisen, weil sie sich in sehr spontanen Situationenbefanden. Sie wurden in keiner Situation befragt, sondern konnten ihremSpiel und ihren Gesprächen nachgehen. Vermutlich werden Lexeme inspontanen Situationen oft wiederholt verwendet, wodurch eine geringereType-Token-Ratio entstehen kann. Eine Ermittlung der Type-Token-Ratiojedes einzelnen Kindes soll in dieser Arbeit nicht vorgenommen werden.Nach eingehender Betrachtung der Daten wird deutlich, dass jedes Kind injeder Altersgruppe unterschiedlich viele Tokens äußerte. Zudem sind nichtin jeder Gruppe Daten von jedem Kind vorhanden. Eine erste Analyse, dieich an dieser Stelle nicht verschriftlich habe, zeigte, dass mit zunehmenderToken-Anzahl eine geringere Type-Token-Ratio zu erwarten ist, unabhängigvom Kind und vom Alter. Weiterführende Analysen sind aufgrund der sehrgeringen Datenlage an dieser Stelle meines Erachtens wenig aufschlussreichund sollen daher nicht unternommen werden.

6.2.4 Zusammenfassung

Durch die Analyse und einen anschließenden Vergleich der drei Altersgruppensollte ein eventuell auftretender Entwicklungsverlauf aufgezeigt werden.Aufgrund der hier angewandten Methodik der teilnehmenden Beobachtungkann ein Trend der Ergebnisse aufgezeigt werden, nicht aber Signifikanzen.Im Hinblick auf die Verwendungshäufigkeit der Wörter (Tokens) fiel auf,dass Konjunktionen (KON) im Verlauf von 3;5 bis 5;5 Jahren seltenergebraucht wurden, während bei den Personalpronomen (PPER) einen leichterAufwärtstrend erkennbar ist. In Anbetracht der Verschiedenartigkeit derverwendeten Wörter (Types) gab es zwei Auffälligkeiten. Im Verlauf von3;5 bis 5;5 Jahren wurden weniger unterschiedliche Präpositionen (APPR)gebraucht. Die auffälligste Entwicklung zeigte allerdings die Verwendungverschiedener Nomen (N). Während die Kinder in Gruppe 1 noch 30,5%

144 KAPITEL 6. ANALYSE DER WORTARTEN

N in Bezug auf die Types verwendeten, waren es 40,5% in Gruppe 2und 38,8% in Gruppe 3. Da dieses Ergebnis unerwartet auftrat, müsstein folgenden Arbeiten geprüft werden, ob es eventuell zu Situationenwährend des Spielens kam, in denen besonders viele verschiedene Nomenverwendet wurden und ob dies in Anhängigkeit vom Alter geschieht (sieheauch Abschnitt 6.4). Wie bereits erwähnt, wurde in dieser Arbeit nur mitspontanen Sprachdaten gearbeitet. Dadurch kann es zu Situationen kommen,in denen gehäuft ganz bestimmte Wortarten verwendet werden (müssen).Möglich wäre zudem, dass aufgrund der geringen Tokens-Anzahl in Gruppe1 ein geringerer Type-Anteil bezüglich der Nomen ermittelt wurde. Vondaher sollte bezugnehmend auf dieses Teilergebnis an dieser Stelle nochnicht von einer allgemeinen Entwicklungstendenz gesprochen werden. Esmuss zudem beachtet werden, dass die hiesigen Prozentangaben erhöhtsind, wenn POS-Tags zusammengefasst werden. Durch diesen Prozessentstehen geringere Types-Zahlen, während die Tokens-Anzahl unberührtbleibt. Bei den Nomen (NN) heißt das, dass auch Eigennamen (NE) indie zusammengefasste Kategorie Nomen (N) fallen, wodurch ein höhererprozentualer Anteil der Types entstehen kann.

6.3 Individuelle Unterschiede in den Altersgruppen

In einem Folgeschritt wurden die Daten jedes der zwölf untersuchten Kindereinzeln analysiert. Dazu wurden die Daten eines jeden Kindes in jeder der dreiAltersgruppen mit Hilfe des CA separiert und anschließend die Art und dieAnzahl der jeweils vorkommenden POS-Tags mit den dazugehörigen Wörternund Lemmata aufgelistet. Um beispielsweise die Anzahl aller Types undTokens je Kind und Altersgruppe ausfindig zu machen, wurde die Funktiondb_query_typetoken_lemma.sh des CA genutzt (Abschnitt 5.2.4.3).

Durch die Ausführung der Skripte db_query_typetoken_lemma_name.shund db_query_all_typetoken_lemma_name.sh (beide Skripte arbeitenzusammen) erfolgte die Abfrage der Types und Tokens. Dadurch wurdennicht nur - wie in der Abfrage db_query_all_typetoken_lemma.sh - alleLemmata je POS-Tag abgefragt und sortiert nach den Altersgruppen in eineCSV-Datei geschrieben. Vielmehr ist bei dieser Abfrage zusätzlich der Name(als Kürzel) übergeordnet, wodurch innerhalb der Altersgruppen noch einmaleine Sortierung nach den Sprechern erfolgte. Wenn nun beispielsweise einesolche ausgegebene Datei geöffnet wird, zeigt sich folgendes Bild (Abbildung6.10). Diese Grafik zeigt alle von JS geäußerten attributiven (ADJA) imZeitraum 1709_1983, als JS sich also in einem Altersrahmen von über 4;7 bis

6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN 145

Abbildung 6.10: Beispiel: JS_lemmata_ADJA_1709_1983

5;5 Jahren befand. Die Ausgabe der CSV-Datei sieht sehr übersichtlich aus,wobei dennoch alle benötigten Informationen enhalten sind. In der unterstenZeile befindet sich die Gesamtanzahl der geäußerten Tokens (46), die Anzahlder Types beläuft sich auf 20 (bis zum Adjektiv weiß). Aufgelistet sind nurdie Lemmata, weil die syntaktischen Wörter an dieser Stelle für die Zweckedieser Arbeit zu wenig Informationen bieten.5 Zudem sind alle POS-Tagsder Form ADJA aufgelistet, d.h., sie können auch inhaltlich beurteilt werden,wenn gewünscht. Ein weiteres Beispiel zeigt Abbildung 6.11, die alle von LEOgeäußerten Nomen (NN) im Zeitraum 1709_1983 enthält.

Nachdem diese Abfrage für alle Kinder in allen Altersgruppen und inBezug auf alle POS-Tags unternommen wurde, erhielt man, wie zu erwartenwar, aus Gruppe 1281 bis 1495 nur wenige Daten im Vergleich zu denanderen Gruppen. Der Hauptgrund dafür ist, dass innerhalb dieser Gruppenur zwei Kinder analysierbar waren. Trotzdem wurden diese beiden Kinderin die Analyse mit einbezogen. Durch die Einzelanalysen entsteht - trotz dergeringen Anzahl an Daten in dieser Gruppe - ein konsistentes Verteilungsbild,welches sich in das Muster der Gruppen 2 und 3 einfügt. In den untenstehenden Tabellen sind die Ergebnisse des Vorkommens der POS-Tagsjedes Kindes in jeder Gruppe zusammengefasst. In der weiteren Analysewerde ich vorwiegend auf das Vorkommen der Nomen (N) und Verben (VA,

5Die Wörter mit den dazugehörigen Lemmata können durch ein Ausführen des Skriptesdb_query_all_lemma_tag.sh abgerufen werden.

146 KAPITEL 6. ANALYSE DER WORTARTEN

Abbildung 6.11: Beispiel: LEO_lemmata_NN_1709_1983

VM, VV) sowie ansatzweise auf die Adverbien (ADV) und Partikeln (PTK)eingehen, da diese Kategorien den Hauptanteil aller Tags ausmachen.Zudem wird in der Literatur ebenso vorwiegend über das Vorkommen vonNomen und Verben berichtet, so dass ein abschließendes Resumee in Bezugauf vorhandene Quellen gezogen werden kann (z. B. [Kauschke (1999)];[Kauschke (2007)]).

6.3.1 Gruppe 1281 bis 1495

In dieser Altersgruppe gab es lediglich zwei Kinder, die analysierbar waren.Die erste Vermutung war, dass eine Analyse aufgrund der geringen Anzahlder Tokens nicht möglich oder schwierig werden würde. Im weiteren Verlaufwurde aber deutlich, dass selbst mit diesen vergleichsweise wenigen Datenein Ergebnis zu Tage tritt, welches mit dem anderer Altersgruppen in dieserArbeit sowie auch mit den Ergebnissen anderer Arbeiten vergleichbar ist.Laut Kauschke (1999) kann der Wortgebrauch im zweiten Lebensjahr als einprognostisches Mittel für den weiteren Verlauf der Sprachentwicklung genutztwerden ([Kauschke (1999)], S. 153). Für die Verteilung der Types ermitteltesie ein Vorkommen von 27% Nomen und 12% Verben bei 21 Monate altenKindern. Im Alter von 36 Monaten kann der Anteil der Nomen mit 16% und

6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN 147

der Anteil der Verben mit 23% angegeben werden.6 ([Kauschke (1999)],S. 146 ff.) Es wird deutlich, dass die Daten der Kinder im Alter von 36Monaten durchaus mit den Daten aller hier untersuchten Kinder in allen dreiAltersgruppen in Bezug auf die eben genannten Kategorien vergleichbarsind. Insbesondere der von Kauschke ermittelte Anteil der Verben mit 23%bei den 36 Monate alten Kindern entspricht dem der hier untersuchtenKinder in jedem Alterszeitraum. Der ermittelte Anteil der Nomen liegt mit16% durchschnittlich unter dem Nomenanteil, der in der vorliegenden Arbeitermittelt wurde. Ferner gliedern sich die hier ermittelten Daten ein in dasvon Kauschke prognostizierte Erwerbsmuster hinsichtlich der Kinder im Altervon 21 Monaten. Dort heißt es, dass Nomen von Anfang an vorhanden sindund während des zweiten Lebensjahres anwachsen. Während des drittenLebensjahres verwendet kein Kind mehr als 25% Nomen. Mit 15 Monatentreten erstmals Verben auf, die dann stark ansteigen und mit 3 Jahren dengrößten Anteil des Lexikons ausmachen ([Kauschke (1999)], S. 143 ff.).

Tabelle 6.6 zeigt die Verteilung der gruppierten Tags von MA. Nomen(N) und Verben (VA, VM, VV) erscheinen mit 24,7% bzw. 22,4%, Adverbien(ADV) mit einer Häufigkeit von 9,0% bezogen auf die Types. Ein ähnlichesBild zeigt sich bei der Auswertung der Daten von MK (Tabelle 6.7). InBezug auf die Types erscheinen Nomen (N) mit einer Häufigkeit von 27,1%,Verben (VA, VM, VV) mit einer Häufigkeit von 25,0% und Adverbien (ADV)mit einer Häufigkeit von 12,1%. In den folgenden Abschnitten (6.3.2; 6.3.3)wird deutlich, dass ein ähnliches Verteilungsmuster auch in den höherenAltersgruppen auftritt. Bei einer Betrachtung der Verteilung der Tokens, tretenzum Teil Ergebnisse zu Tage, die in der Form nicht erwartet wurden. Der hoheAnteil an Nomen in Bezug auf die Types ist bei einer Betrachtung der Tokensnahezu verschwunden, während die Verteilung der Wortarten insgesamtbei einem Vergleich von Tokens zu Types nicht stark voneinander abweicht.Bei beiden hier untersuchten Kindern in Gruppe 1281 bis 1495 beträgt derAnteil der Types bei den Nomen mehr als doppelt soviel im Vergleich zu denTokens. Ein höherer Type-Anteil ist zunächst nicht verwunderlich, aber indiesem Ausmaß nicht zu erwarten gewesen. Ähnliches kann in umgekehrterForm bei den Personalpronomen (PPER) beobachtet werden. Ein relativgeringer Type-Anteil steht einem hohen Token-Anteil gegenüber. Dies istjedoch nicht weiter verwunderlich, weil es insgesamt betrachtet nicht vieleverschiedene Personalpronomen im Deutschen gibt, die hätten verwendetwerden können. Bei den Verben (VA, VM, VV) sind solch starke Effekte nichtzu verzeichnen. Der Tokens-Anteil ist bei beiden Kindern nur etwas geringer

6Ein Vergleich der Daten zu den Adverbien mit denen Kauschkes war nicht möglich, da Kauschkediese Kategorie nicht analysierte.

148 KAPITEL 6. ANALYSE DER WORTARTEN

als der Types-Anteil (20,4% gegenüber 22,4% bei MA und 21,3% gegenüber25,0% bei MK).

Tokens prozentual % Types prozentual %

ADJ 38 6,8 22 12,4

ADV+PAV 58 10,3 16 9,0

APPR 7 1,2 5 2,8

ART 60 10.7 3 1,7

CARD 3 0,5 2 1,1

KON 38 6,8 4 2,2

N 59 10,5 44 24,7

PIDATS 11 2,0 5 2,8

PPER 57 10,2 6 3,4

PPOS 8 1,4 2 1,1

PREL 2 0,4 2 1,1

PTK 74 13,2 21 11,8

PW 19 3,4 4 2,2

VA 12 2,1 2 1,1

VM 12 2,1 4 2,2

VV 91 16,2 34 19,1

XY 12 2,1 2 1,1

561 178

Tabelle 6.6: MA: Verteilung der Types, gruppiert, 1281 bis 1495

6.3.2 Gruppe 1496 bis 1708

In dieser Altersgruppe bewegen sich die Anteile der Adverbien, Nomen undVerben bezogen auf die Types analog zu denen der Kinder in der erstenAltersgruppe. Das Vorkommen der Adverbien (ADV) bewegt sich in einerSpanne von 11,3% bis 12,9%, das Vorkommen der Nomen (N) in einerSpanne von 24,7% bis 35,0% und die Verben (VA, VM, VV) in einer Spannezwischen 22,5% bis 24,3%. Der etwas höhere Anteil hinsichtlich der Nomenbei MK soll zunächst nicht überwertet werden. Bei einer genauen Analysealler Tokens von MK wird deutlich, dass MK eine besonders große Vielfalt anEigennamen (NE) im Spiel verwendet, die in dieser Auswertung zusammenmit den Nomen (NN) zur Kategorie N zusammengefasst sind (Abschnitt6.1). Da MK besonders häufig in Spielsituationen beobachtet wurde, indenen es um die eigene Fantasie geht, finden sich hier besonders vieleWortschöpfungen wie Nemofischchen, Frühlingsfell oder Kriegsstürmer.Diese Nomen finden sich in der Form nicht in konventiellen Wörterbüchern(z. B. [Dudenredaktion (2004)]) wieder, wurden hier aber in ihrer Funktion alsNomen berücksichtigt. Eine andere Erklärung kann in Anlehung an Kauschkes(1999) Behauptung gemacht werden. Diese konstatiert, dass Kinder im

6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN 149

POS-Tag Tokens prozentual % Types prozentual %

ADJ 69 2,9 31 8,0

ADV+PAV 369 15,7 47 12,1

APPR 74 3,1 11 2,8

ART 198 8,4 3 0,8

CARD 23 1,0 9 2,3

ITJ 6 0,3 4 1,0

KON 197 8,4 11 2,8

N 205 8,7 105 27,1

PIDATS 142 6,0 11 2,8

PPER 226 9,6 7 1,8

PPOS 29 1,2 4 1,0

PREL 6 0,3 4 1,0

PTK 235 10 37 9,5

PW 25 1,1 5 1,3

VA 22 0,9 3 0,8

VM 78 3,3 5 1,3

VV 402 17,1 89 22,9

XY 49 2,1 1 0,3

2355 387

Tabelle 6.7: MK: Verteilung der Types, gruppiert, 1281 bis 1495

Alter von 3 Jahren hohe Unterschiede im Anteil der Nomen, Verben sowierelational words und personal-social-words aufweisen ([Kauschke (1999)],S. 150). Da es sich in dieser Altersgruppe in der vorliegenden Arbeit jedochnur um ein Kind in einem festgelegten Zeitraum handelt, kann nicht mitSicherheit von konstanten individuellen Unterschieden, die unabhängig vonder Situation vorhanden sind, gesprochen werden. Dazu müssten weitereProbandinnen und Probanden in die Analyse mit einbezogen werden, diezudem über längere Zeiträume hinweg beobachtet werden. Im Hinblick aufdie Verteilung der Tokens sind auch in dieser Gruppe ähnliche Ergebnissezu beobachten, wie sie in Gruppe 1 aufgetreten sind. Die Gruppe derPersonalpronomen (PPER) außer Acht gelassen, weisen die Nomen (N) inihrer Verwendungshäufigkeit einen äußerst geringen Anteil auf im Gegensatzzu ihrer Verschiedenheit, in der sie verwendet wurden. Auch ist die Anzahl derNomen (N) bei den Types bei jedem der vier Kinder mehr als doppelt so hochim Vergleich zu den Tokens. Besonders auffällig ist die Verteilung bei MK: Miteinem Anteil von 6,7% in Bezug auf die Tokens sind es mit 35,0% mehr alsfünfmal so viele Types. Dies kann - wie bereits oben erwähnt - mit Sicherheitals Ausreißer betrachtet werden. Doch gerade MK steuerte mit insgesamt8706 Tokens einen hohen Anteil am gesamten Token-Satz der Daten bei undsollte nicht gänzlich außer Acht gelassen werden. Bei den Verben (VA, VM,VV), wie auch bei den restlichen Wortarten, verhält es sich wie in Gruppe 1

150 KAPITEL 6. ANALYSE DER WORTARTEN

beschrieben und es gibt keine gravierenden individuellen Unterschiede in denAnteilen von Types gegenüber Tokens.

POS-Tag Tokens prozentual % Types prozentual %

ADJ 80 5,9 34 11,6

ADV+PAV 207 15,3 36 12,3

APPR 41 3,0 10 3,4

ART 104 7,7 3 1,0

CARD 21 1,6 8 2,7

ITJ 2 0,1 2 0,7

KON 93 6,9 9 3,1

N 103 7,6 72 24,7

PIDATS 60 4,5 12 4,1

PPER 173 12,8 7 2,4

PPOS 8 0,6 2 0,7

PTK 101 7,5 20 6,8

PW 27 2,0 5 1,7

VA 26 1,9 2 0,7

VM 52 3,9 7 2,4

VV 234 17,4 62 21,2

XY 16 1,2 1 0,3

1348 292

Tabelle 6.8: AV: Verteilung der Types, gruppiert, 1496 bis 1708

6.3.3 Gruppe 1709 bis 1983

In der letzten Altersgruppe sind mit einer Anzahl von zehn Kindern diemeisten auswertbaren Daten vorhanden. Mengenmäßig unterscheidet sichdie Token-Anzahl jedoch nur wenig von der vorhergehenden Gruppe - 12584gegenüber 11315. Die Spanne des Vorkommens der Adverbien (ADV) bewegtsich zwischen 10,1% und 16,7%, die Spanne der Nomen (N) zwischen 16,7%und 30,7% und die Spanne der Verben (VA, VM, VV) zwischen 21,0% und28,1% bezogen auf die Types. Auffällig ist hier die Gruppe der Nomen. Miteinem Vorkommen von 16,x% unterscheidet sich dieses Muster von denender jüngeren Altersgruppen. Dieser geringe Wert kommt in zwei von zehnFällen vor (LUA, SO) bzw. nur ein wenig höher mit 18,x% bei drei Kindern(AV mit 18,0%, JK mit 18,1% und LAR mit 18,8%). Aus diesem Grund kannmeines Erachtens an dieser Stelle nicht mehr von Ausreißern gesprochenwerden. Ein möglicher Grund wäre jener, dass die Anzahl der auswertbaren

6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN 151

POS-Tag Tokens prozentual % Types prozentual %

ADJ 41 3,9 27 9,4

ADV+PAV 152 14,6 33 11,5

APPR 58 5,6 14 4,9

ART 121 11,6 3 1,0

CARD 6 0,6 3 1,0

ITJ 2 0,2 2 0,7

KON 79 7,6 11 3,8

N 123 11,8 79 27,5

PIDATS 53 5,1 12 4,2

PPER 93 8,9 5 1,7

PPOS 12 1,1 2 0,7

PREL 7 0,7 4 1,4

PTK 56 5,4 18 6,3

PW 13 1,2 4 1,4

VA 9 0,9 2 0,7

VM 33 3,2 6 2,1

VV 174 16,7 60 20,9

XY 12 1,1 2 0,7

1044 287

Tabelle 6.9: LEO: Verteilung der Types, gruppiert, 1496 bis 1708

Tokens dieser Kinder zu gering war. Ähnlich geringe Werte weisen jedochauch andere Kinder mit einem höheren prozentualen Nomenanteil auf, sodass eine leichte Veränderung der Verteilung der Wortarten hinsichtlich derNomen ab einem Alter von 1709 Tagen angenommen werden kann.

Bei einer Betrachtung der Tokens fällt auf, dass auch hier die Gruppe derNomen besonders hervorsticht. Während bei den Types noch immer relativhohe Anteile von bis zu 30,7% zu verzeichnen sind, liegt er bei den Tokens weitdarunter und ist vergleichbar mit jenem der vorhergehenden Altersgruppen.Dennoch sind Types-Anteile bezüglich der Nomen zu verzeichnen, die miteinem geringen Prozentsatz von ca. 16% bis 18% auf eine allmählicheallgemeine Veränderung in der Komposition des Lexikons hinweisen. Bei denVerben sowie allen weiteren Wortarten sind keine Besonderheiten erkennbar.7

6.3.4 Vergleich der individuellen Verläufe mit den Altersgruppen

Nach den bisherigen Analysen der vorliegenden Daten wird ersichtlicht, dassdie Daten aus Abschnitt 6.2 nicht ohne Weiteres vergleichbar sind mit denErgebnissen aus Abschnitt 6.3. Sieht man sich die Verteilung der Wortarten

7Ausgenommen sind an dieser Stelle die Personalpronomen (PPER), die, wie oben erläutert, nieeinen bestimmten Type-Anteil überschreiten können.

152 KAPITEL 6. ANALYSE DER WORTARTEN

POS-Tag Tokens prozentual % Types prozentual %

ADJ 34 2,3 18 5,8

ADV+PAV 213 14,3 40 12,9

APPR 66 4,4 11 3,5

ART 137 9,2 3 1,0

CARD 25 1,7 15 4,8

ITJ 5 0,3 3 1,0

KON 77 5,2 7 2,3

N 159 10,7 81 26,0

PIDATS 84 5,7 14 4,5

PPER 161 10,8 7 2,3

PPOS 26 1,7 2 0,6

PREL 7 0,5 4 1,3

PTK 123 8,3 29 9,3

PW 15 1,0 6 1,9

VA 30 2,0 2 0,6

VM 51 3,4 5 1,6

VV 256 17,2 63 20,3

XY 17 1,1 1 0,3

1486 311

Tabelle 6.10: LUA: Verteilung der Types, gruppiert, 1496 bis 1708

aller Kinder insgesamt in den jeweiligen Altersgruppen an, so können starkeAbweichungen bei einzelnen Kindern in den Altersgruppen verzeichnetwerden. Eine plausible Erklärung dafür sind individuelle Unterschiede imWortgebrauch, insbesondere in der Verwendung verschiedener Nomen.Zudem weisen die Kinder als Individuum voneinander abweichendeType-Token-Ratios auf. Die Verwendung verschiedender Wörter ist alsoindividuell sehr unterschiedlich. Betrachtet man nun die Daten aller Kindereiner Altersgruppe zusammenhängend und ermittelt eine Type-Token-Ratiosowie eine Verteilung der Wortarten, dann kommt es zu einer starkenVermischung der individuellen Besonderheiten. Im Folgenden soll dies aneinem Beispiel illustriert und im Hinblick auf Tabelle 6.3 die Ergebnisse für dieGruppe 1496 bis 1708 betrachtet werden. In dieser Gruppe befinden sich vieranalysierbare Kinder (AV, LEO, LUA und MK). Für einen einfachen Vergleichsoll das prozentuale Vorkommen der Nomen (N) und Verben (VA, VM, VV)herangezogen werden. Tabelle 6.3 zeigt, dass Nomen mit einer Häufigkeit von7,7% (40,5% Types) und Verben mit einer Häufigkeit von 21,4% (22,6% Types)in Gruppe 1496_1708 vorkommen. Hier wurden alle vier Kinder berücksichtigt,unabhängig von der Gesamtanzahl ihrer Tokens oder Types und unabhängigvon der individuellen Type-Token-Ratio. Die Type-Token-Ratio in der Gruppe1496 bis 1708 betrug übrigens ca. 0,10.

Eine Betrachtung der Verteilung der Wortarten und insbesondere das

6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN 153

POS-Tag Tokens prozentual % Types prozentual %

ADJ 325 3,7 90 11,1

ADV+PAV 1603 18,4 91 11,3

APPR 309 3,5 20 2,5

ART 763 8,8 3 0,4

CARD 125 1,4 13 1,6

FM 2 0 2 0,2

ITJ 29 0,3 8 1,0

KON 648 7,4 17 2,1

N 586 6,7 283 35,0

PIDATS 428 4,9 21 2,6

PPER 912 10,5 7 0,9

PPOS 72 0,8 5 0,6

PREL 42 0,5 7 0,9

PTK 810 9,3 50 6,2

PW 120 1,4 6 0,7

VA 93 1,1 3 0,4

VM 305 3,5 7 0,9

VV 1422 16,3 174 21,5

XY 112 1,3 1 0,1

8706 808

Tabelle 6.11: MK: Verteilung der Types, gruppiert, 1496 bis 1708

Vorkommen von Nomen und Verben (bezogen auf die Types) bei jedem Kindseparat liefert folgende Ergebnisse:

• AV: Nomen 24,7%, Verben 24,3%

• LEO: Nomen 27,5%, Verben 23,7%

• LUA: Nomen 26,0%, Verben 22,5%

• MK: Nomen 35,0%, Verben 22,8%

Diese Daten entsprechen annähernd den Ergebnissen, die in bisherigenUntersuchungen diesbezüglich gefunden wurden, wenn auch der Anteil derNomen relativ hoch ist. Es wurde bereits erwähnt, dass ähnliche Resultatein Untersuchungen von Kauschke (1999, 2000, 2007) zu finden sind.Demzufolge weisen Kinder im Alter von 3 Jahren einen Anteil von 16%Nomen und 23% Verben auf (bezogen auf die Types) ([Kauschke (1999)];[Kauschke (2000)]; [Kauschke (2007)]). Der recht hohe Anteil an Nomen in dervorliegenden Arbeit kann zunächst nicht erklärt werden, es sollen jedoch inAbschnitt 6.4 einige Erklärungsansätze folgen. Ferner soll an dieser Stelle einBlick auf die Daten von MK geworfen werden, insbesondere auf die Nomen.Zusätzlich sollen die von MK geäußerten Nomen im Zeitraum 1281_1495hinzugezogen werden, um herauszufinden, ob der hohe Nomenanteil

154 KAPITEL 6. ANALYSE DER WORTARTEN

POS-Tag Tokens prozentual % Types prozentual %

ADJ 4 1,9 3 3,4

ADV+PAV 22 10,6 9 10,1

APPR 13 6,3 7 7,9

ART 15 7,2 3 3,4

CARD 3 1,4 2 2,2

KON 15 7,2 4 4,5

N 22 10,6 16 18,0

PIDATS 4 1,9 3 3,4

PPER 36 17,3 4 4,5

PPOS 2 1,0 2 2,2

PTK 14 6,7 6 6,7

PW 6 2,9 4 4,5

VA 6 2,9 2 2,2

VM 10 4,8 3 3,4

VV 34 16,3 20 22,5

XY 2 1,0 1 1,1

208 89

Tabelle 6.12: AV: Verteilung der Types, gruppiert, 1709 bis 1983

von 35,0% personenabhängig ist (Daten aus Gruppe 1709_1983 zu MKliegen nicht vor). Ein erster Blick lässt vermuten, dass es sich nicht um dieEigenheiten einer Person handelt, denn im Zeitraum 1281_1495 machtenNomen (N) einen Anteil von 8,7% aller von MK geäußerten Tokens aus, wovon27,1% Types waren. In der unten stehenden Übersicht sind alle von MKgeäußerten Nomen in zwei Zeiträumen aufgeführt, geordnet nach Alphabetund versehen mit der Anzahl ihres Vorkommen.

• Nomen von MK im Zeitraum 1281_1495: auto (6), bahn (2), bauch(3), bauernhof (2), baumspitze (1), baustein (1), baustelle (1), bettchen(1), boden (2), bogen (1), brot (1), bruder (2), burg (1), butzemann (2),drachentier (1) edelstein (3), ei (1), eingang (1), elefant (1), eltern (3),erzieher (1), essen (1), feuer (1), freund (2), garten (1), geburtstag (1),gefängnis (2), geld (2), glas (1), gold (2), happs (1), haufen (1), haus(1), hause (2), idee (3), igel (1), jahr (2), kakaopulver (1), kanone (2),karte (5), ketchup (1), kette (1), kind (4), kindergarten (4), kissen (1),kontrolle (1), krach (1), kraftwerk (3), kralle (1), leiter (1), mai (1), mal (1),mama (2), mensa (1), mensch (4), milch (1), minute (2), müllauto (2),murmel (2), mutter (1), papa (4), pfeil (1), pferd (2), räuber (6), räuberkind(6), rauchen (1), regenbogen (1), richtungswechsel (2), ritterburg (5),sache (2), sandkasten (1), schachtel (1), schatz (4), schippe (2),schmetterling (1), schraube (1), schuld (1), schwester (1), schwimmbad(1), schwimmbecken (1), schwimmerbecken (2), schwimmhalle (1),

6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN 155

POS-Tag Tokens prozentual % Types prozentual %

ADJ 35 6,2 13 7,8

ADV+PAV 69 12,2 24 14,5

APPR 9 1,6 5 3,0

ART 47 8,3 2 1,2

CARD 20 3,5 9 5,4

ITJ 11 1,9 4 2,4

KON 21 3,7 5 3,0

N 46 8,1 30 18,1

PIDATS 31 5,5 11 6,6

PPER 73 12,9 4 2,4

PPOS 1 0,2 1 0,6

PREL 1 0,2 1 0,6

PTK 57 10,1 14 8,4

PW 8 1,4 5 3,0

VA 7 1,2 1 0,6

VM 28 4,9 4 2,4

VV 89 15,7 32 19,3

XY 14 2,5 1 0,6

567 166

Tabelle 6.13: JK: Verteilung der Types, gruppiert, 1709 bis 1983

soldat (1), spielzeugtag (1), stapel (1), stein (1), strafkarte (2), sturm (2),tiger (1), tobeland (3), toilette (1), tor (1), trampolin (1), turm (8), uno(14), vater (1), verwandte (1), vorschüler (1), wasser (1), wolf (3) zahl (2),zaun (1), zigarette (1)

• Nomen von MK im Zeitraum 1496_1708: abfluss (1), affe (1), afrika(1), anfang (6), anführer (1), angreifer (1), angst (1), aquarium (2),ärger (2), aussetzer (2), auto (4), baby (3), babyseerobbe (1), backe(1), ball (4), banane (1), bauernhof (1), becken (1), beispiel (9), benzin(2), beschützer (2), bild (1), blatt (2), blume (4), brett (1), bruder (1),buch (2), bücherregal (1), clown (1), dach (1), delfinmama (1), ding (1),dino (1), dinomama (1), dinowelt (2), drachen (2), ecke (1), edelstein(2), ei (1), eisenbahn (1), eltern (1), ende (2), erzieherin (1), farbe (3),feder (2), feinlöwe (1), feld (1), fell (4), fernbedienung (2), fernsehturm(1), feuer (10), feuerwehrauto (1), figur (4), film (1), fisch (4), fleisch(1), flieger (1), flur (1), freund (2), frisbee (2), frühling (1), frühlingsfell(2), fuß (1), fußball (10), fußballer (1), gans (1), gebiet (1), geburtstag(2), geld (1), geschichte (1), giftgurke (1), glatze (1), gleichgewicht (2),grütze (1), gurke (1), haar (3), haken (1), hand (2), haufen (2), haus (2),hause (19), helflöwe (1), herz (1), hexe (1), hilfe (1), hinweis (1), hof(4), höhe (1), höhle (1), holz (1), hose (1), hubschrauber (2), hut (2),

156 KAPITEL 6. ANALYSE DER WORTARTEN

POS-Tag Tokens prozentual % Types prozentual %

ADJ 94 4,0 44 8,5

ADV+PAV 343 14,4 72 13,9

APPR 98 4,1 14 2,7

ART 183 7,7 3 0,6

CARD 83 3,5 13 2,5

ITJ 20 0,8 13 2,5

KON 171 7,2 13 2,5

N 237 10,0 146 28,2

PIDATS 88 3,7 15 2,9

PPER 294 12,4 7 1,4

PPOS 23 1,0 5 1,0

PREL 13 0,5 5 1,0

PTK 175 7,4 39 7,5

PW 25 1,1 5 1,0

VA 46 1,9 3 0,6

VM 86 3,6 7 1,4

VV 371 15,6 110 21,2

XY 28 1,2 3 0,6

2378 517

Tabelle 6.14: JS: Verteilung der Types, gruppiert, 1709 bis 1983

idee (1), imbiss (1), jagd (1), jahr (1), kanone (1), käpt_n (2), karte (4),käse (3), käsekugel (1), käsewurst (1), kasten (1), katze (1), ketchup (1),kind (1), kindergarten (2), kino (1), klappe (1), klebeding (1), klebstoff(1), kleid (2), knopf (1), knoten (1), kopf (3), körbchen (1), kralle (1),kreuz (11), krieg (8), kriegsstürmer (3), küche (1), küken (1), länge(1), laser (11), leinenstoff (1), leiter (1), leuchtturm (1), linie (1), loch(2), löwe (3), lust (1), lutscher (1), mal (5), mama (2), mannschaft (5),maske (1), mauer (1), memo (1), memory (5), mensch (6), mikrofon (1),mitte (3), montag (1), morgenkreis (1), muschel (1), nemofischchen (1),nummer (1), oma (1), opa (1), ordner (1), osterei (1), papa (6), papier (1),papierrolle (2), pfannkuchen (1), pferdekutsche (1), pirat (1), piratenschiff(1), piratenspiel (1), pistole (4), plan (3), platz (1), polizei (1), punkt (4),quatsch (1), rabe (1), rad (3), rand (1), reh (1), reihe (1), richtungswechsel(4), riesenstapel (3), ritze (1), ruhe (3), runde (6), rutsche (2), salzbrezel(1), schere (2), schießgerät (1), schiff (3), schlafen (1), schnabel (1),schnee (2), schneeballschlacht (1), schraube (1), schritt (2), schuld (3),schule (1), schwein (1), schwester (3), schwimmhalle (1), schwimmkurs(1), see (1), seerobbe (2), seil (3), seite (3), senf (1), sohle (1), sommer(1), spatzenkino (1), spiegel (1), spiel (8), spielsachen (1), spielzeug (2),spinner (1), spirale (1), spitze (1), spree (1), stabheuschrecke (2), stadion(1), stapel (3), stern (3), stift (3), stock (1), straße (1), streifen (1), strich

6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN 157

POS-Tag Tokens prozentual % Types prozentual %

ADJ 50 4,5 19 8,3

ADV+PAV 186 16,6 34 14,8

APPR 19 1,7 7 3,1

ART 66 5,9 3 1,3

CARD 46 4,1 9 3,9

ITJ 5 0,4 5 2,2

KON 58 5,2 8 3,5

N 66 5,9 43 18,8

PIDATS 45 4,0 12 5,2

PPER 154 13,7 6 2,6

PPOS 8 0,7 2 0,9

PREL 3 0,3 3 1,3

PTK 121 10,8 25 10,9

PW 15 1,3 4 1,7

VA 7 0,6 1 0,4

VM 50 4,5 7 3,1

VV 207 18,4 40 17,5

XY 16 1,4 1 0,4

1122 229

Tabelle 6.15: LAR: Verteilung der Types, gruppiert, 1709 bis 1983

(4), stunde (1), tank (4), tankwasser (1), tante (1), teil (1), tier (1), tisch(2), tischspiel (1), tor (1), totenkopf (2), training (3), tuch (1), tür (1), turm(1), uboot (1), uhr (1), uno (18), verstecke (1), vogel (8), vogelhäuschen(1), vogelnest (1), vorschau (1), waage (3), wachtmeister (1), waffe(2), wärme (4), wasser (1), weg (1), welt (1), winter (10), winterfell (1),wochenende (1), wohnung (2), wolke (2), wünscher (3), würfel (5), wüste(1), zahn (1), zauber (2), zauberfeuer (1), zauberlaser (1), zauberstab(4), zeichen (1), zeit (1), zoo (1), zoowärter (2)

Anhand der vorliegenden Inhalte kann zunächst nur schwer ein Grund fürdie hohe Type-Anzahl im Zeitraum 1496_1708 ausgemacht werden. EinigeLemmata treten mit einer leicht erhöhten Häufigkeit auf, wie zum BeispielFeuer (10), Fußball (10), Hause (19), Kreuz (11), Krieg (8), Spiel (8), Uno(18), Winter (10). Diese Nomen kommen zwar zum Teil auch im Zeitraum1281_1495 vor, jedoch selten derart häufig. Es fällt zudem auf, dass vieleder sehr häufig auftretenden Nomen (aber auch seltener geäußerte) in einerSpielsituation geäußert wurden. Dies lässt ein Blick in die entsprechendenEXMARaLDA-Dateien sowie in die entsprechenden Kontextbeschreibungenvermuten. Man könnte nun annehmen, dass sich der Type-Anteil mit einemsteigenden Token-Anteil aller Wörter ebenso erhöht und bei den meisten hieruntersuchten Kindern ist dies auch der Fall. Es gibt jedoch Ausnahmen, die

158 KAPITEL 6. ANALYSE DER WORTARTEN

POS-Tag Tokens prozentual % Types prozentual %

ADJ 10 5,3 9 8,3

ADV+PAV 22 11,6 14 12,8

APPR 12 6,3 5 4,6

ART 15 7,9 3 2,8

CARD 5 2,6 3 2,8

KON 15 7,9 4 3,7

N 30 15,9 25 22,9

PIDATS 5 2,6 4 3,7

PPER 20 10,6 5 4,6

PPOS 3 1,6 3 2,8

PREL 1 0,5 1 0,9

PTK 5 2,6 5 4,6

PW 1 0,5 1 0,9

VA 6 3,2 2 1,8

VM 3 1,6 3 2,8

VV 33 17,5 21 19,3

XY 3 1,6 1 0,9

189 109

Tabelle 6.16: LEO: Verteilung der Types, gruppiert, 1709 bis 1983

diese These wieder ins Wanken bringen. So weist LL in Gruppe 1709_1983einen recht hohen Nomenanteil (N) von 30,7% bezüglich der Types auf beinur 1175 geäußerten Nomen. In Relation zur Gesamtanzahl der geäußertenWörter weist kein anderes Kind einen derart hohen Type-Anteil auf. Dennochkönnen anhand der vorliegenden Daten keine Zusammenhänge zwischenTokenanzahl, Alter der Kinder, Geschlecht und dem Type-Anteil bezüglich derNomen hergestellt werden. Bestenfalls ist eine leichte Tendenz zu erkennen,nach der der Type-Anteil mit zunehmendem Alter abnimmt. Vielmehrmacht es jedoch den Anschein, dass die unterschiedlichen Nomenanteilean verschiedene Situationen gebunden sind, was in Abschnitt 6.4 näherbetrachtet werden soll.

Interessant ist zudem ein Vergleich mit sehr altem Datenmaterial vonTemplin (1957). Sie untersuchte bereits im Jahre 1957 die Struktur desWortschatzes bei 480 Kindern im Alter von 3 bis 8 Jahren, indem siedie den aktiven Wortschatz testete. Dazu wurde zum einen die Anzahlder Types in 50 Äußerungen betrachtet und zum anderen die Leistungenin Lautunterscheidungstests überprüft ([Templin (1957)], S. 30-33; sieheauch [Kegel (1987)], S. 57). Templin verwendete neun Wortklassen undeine gemischte Klasse. Zu den neun Wortklassen zählten Substantive,Verben, Adjektive, Adverbien, Pronomen, Konjunktionen, Präpositionen,Artikel, Interjektionen. Die gemischte Klasse enthielt u. a. Eigennamen,

6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN 159

POS-Tag Tokens prozentual % Types prozentual %

ADJ 39 3,3 16 5,3

ADV+PAV 107 9,1 33 11,0

APPR 34 2,9 10 3,3

ART 69 5,9 3 1,0

CARD 46 3,9 7 2,3

FM 6 0,5 2 0,7

ITJ 17 1,4 7 2,3

KON 51 4,3 7 2,3

N 161 13,7 92 30,7

PIDATS 37 3,1 12 4,0

PPER 157 13,4 6 2,0

PPOS 18 1,5 3 1,0

PREL 3 0,3 2 0,7

PTK 125 10,6 28 9,3

PW 11 0,9 4 1,3

VA 22 1,9 3 1,0

VM 28 2,4 5 1,7

VV 224 19,1 57 19,0

XY 20 1,7 3 1,0

1175 300

Tabelle 6.17: LL: Verteilung der Types, gruppiert, 1709 bis 1983

unverständliche Ausdrücke etc.8 Templin kam zu folgenden Ergebnissen inBezug auf das Vorkommen der Nomen und Verben (hinsichtlich der Types):

• 3 Jahre: 25,5% Nomen, 23,4% Verben

• 3;5 Jahre: 23,8% Nomen, 24,1% Verben

• 4 Jahre: 24,2% Nomen, 24,0% Verben

• 4;5 Jahre: 25% Nomen, 23,3% Verben

• 5 Jahre: 23,7% Nomen, 23,9% Verben ([Templin (1957)], S. 101).

Ferner setze bereits mit 3 Jahren eine Stabilisierung der Wortklassenverteilungein, wobei nur schwache Alterstrends zu beobachten sind ([Templin (1957)]).Dem kann in Anlehnung an die Ergebnisse der vorliegenden Arbeit nurentsprochen werden. Noch erstaunlicher ist allerdings das recht ähnlicheErgebnis in der Verteilung der Wortarten Nomen und Verb zu jenem dervorliegenden Arbeit. Sowohl in den Daten Templins (1957) als auch in denDaten der vorliegenden Arbeit tauchen Nomen und Verben mit einer Häufigkeit

8In dieser Arbeit gibt es für Eigennamen sowie für unverständliche Ausdrücke eigene Kategorien, NEund XY. Da es sich angesichts der Datenlage nur um recht wenige Tokens innerhalb der Kategorie NEhandelt, soll trotzdem ein kurzer Vergleich mit Templins Ergebnissen vorgenommen werden.

160 KAPITEL 6. ANALYSE DER WORTARTEN

POS-Tag Tokens prozentual % Types prozentual %

ADJ 21 5,4 17 10,5

ADV+PAV 56 14,3 27 16,7

APPR 21 5,4 7 4,3

ART 21 5,4 3 1,9

KON 25 6,4 4 2,5

N 39 10,0 27 16,7

PIDATS 15 3,8 7 4,3

PPER 49 12,5 6 3,7

PPOS 11 2,8 2 1,2

PREL 2 0,5 2 1,2

PTK 35 9,0 13 8,0

PW 7 1,8 4 2,5

VA 2 0,5 2 1,2

VM 16 4,1 6 3,7

VV 69 17,6 34 20,9

XY 2 0,5 1 0,6

391 162

Tabelle 6.18: LUA: Verteilung der Types, gruppiert, 1709 bis 1983

von je ca. 25% auf, unabhängig vom Alter (bzw. nach dem dritten Lebensjahr).Zwar gibt es einige Ausnahmen, wie z. B. MK mit 35,0% Nomen, doch könnenderart hohe Werte bei einer Analyse der tatsächlich geäußerten Wörtervermutlich mit der Verwendung vieler verschiedener Nomen in bestimmtenSituationen, wie Spielsituationen, erklärt werden (siehe auch Abschnitt6.4). Laut Templin (1957) stellen die ermittelten Werte eine beträchtlicheÜberlegenheit von Kindern aus der oberen Mittelschicht gegenüber Kindernaus unteren Schichten dar. Vor allem in Anbetracht der Tatsache, dass diehier untersuchten Kinder aus einem akademischen Umfeld kommen, kannangenommen werden, dass die hier ermittelten Werte mit den Daten vonTemplin vergleichbar sind. Sie lassen zudem vermuten, dass die Verteilungder Wortarten ab 3 Jahren recht stabil ist (siehe auch [Oksaar (1997)]). Eskann trotzdem noch nicht eindeutig gesagt werden, ob die Ergebnisse dementsprechen, was Kauschke (1999) postulierte, nämlich:

„Nomen sind von Anfang an vorhanden und wachsen insbesonderewährend des zweiten Lebensjahres an. [...] Mit drei Jahrenverwendet kein Kind mehr als 25% Nomen.“ ([Kauschke (1999)], S.144)

und

„Mit 15 Monaten tauchen erstmals Verben auf, die dann erheblichansteigen und mit 3 Jahren den stärksten Anteil am Lexikonausmachen. ([Kauschke (1999)], S. 145)

6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN 161

POS-Tag Tokens prozentual % Types prozentual %

ADJ 193 4,8 42 8,0

ADV+PAV 513 12,7 64 12,2

APPR 114 2,8 14 2,7

ART 278 6,9 3 0,6

CARD 100 2,5 13 2,5

ITJ 16 0,4 6 1,1

KON 229 5,7 12 2,3

N 504 12,5 160 30,6

PIDATS 167 4,2 20 3,8

PPER 492 12,2 7 1,3

PPOS 44 1,1 4 0,8

PREL 14 0,3 6 1,1

PTK 397 9,9 46 8,8

PW 45 1,1 6 1,1

VA 42 1,0 3 0,6

VM 159 3,9 6 1,1

VV 677 16,8 110 21,0

XY 44 1,1 1 0,2

4028 523

Tabelle 6.19: MM: Verteilung der Types, gruppiert, 1709 bis 1983

Die erste Aussage trifft nicht zu, was die Ergebnisse dieser Arbeit zumindesthinsichtlich des Vorkommens der Types anbelangt. Allerdings können dieErgebnisse nicht exakt verglichen werden, da jeweils andere Methodenverwendet wurden. Unzutreffend ist an dieser Stelle auch die zweiteAussage, nämlich, dass Verben mit 3 Jahren den stärksten Anteil am Lexikonausmachen. Vielmehr nehmen die Verben neben den Nomen sowohl hierals auch in Templins Ergebnissen einen großen Anteil am Lexikon beiKindern im Vorschulalter ein (ca. 25% Nomen und ca. 22% bis 25% Verben)([Templin (1957)], S. 101).

Weiterhin fällt auf, dass die Anteile der Adverbien (ADV+PAV) undPartikeln (PTK) durchgehend recht hoch sind. Selbstverständlich ist es nichtleicht, Resultate aus Studien mit jüngeren Kindern (z. B. [Szagun (2008)];[Kauschke (1999)]; [Kauschke (2007)]), bei denen beispielweise der Anteilder Funktionswörter recht hoch ist, zu vergleichen, da die Klassifikation derWortarten eine andere sein könnte. Folglich ist der Anteil der Funktionswörterbei den hier untersuchten Kindern im Alter von 3;5 bis 5;5 Jahren nochimmer hoch, wenn man die entsprechenden Klassen der Funktionswörterzusammenfasst. Nichtsdestotrotz ist das Vorkommen der Adverbienprägnant, was auf eine Veränderung in der Struktur des Wortschatzeshinweisen könnte. Insgesamt wird deutlich, dass für eine Annäherungan die Komposition des Lexikons bezüglich der Verteilung der Wortarten

162 KAPITEL 6. ANALYSE DER WORTARTEN

POS-Tag Tokens prozentual % Types prozentual %

ADJ 33 4,4 22 8,5

ADV+PAV 76 10,1 33 12,7

APPR 33 4,4 10 3,8

ART 73 9,7 3 1,2

CARD 18 2,4 11 4,2

FM 2 0,3 2 0,8

ITJ 2 0,3 2 0,8

KON 30 4,0 6 2,3

N 95 12,6 61 23,6

PIDATS 32 4,2 8 3,1

PPER 88 11,7 5 1,9

PPOS 12 1,6 2 0,8

PREL 1 0,1 1 0,4

PTK 73 9,7 23 8,8

PW 12 1,6 5 1,9

VA 21 2,8 3 1,2

VM 19 2,5 5 1,9

VV 128 17,0 56 21,6

XY 6 0,8 1 0,4

754 259

Tabelle 6.20: RD: Verteilung der Types, gruppiert, 1709 bis 1983

eher die Daten der einzelnen Kinder in den jeweiligen Altersgruppenherangezogen werden sollten, da diese aussagekräftiger sind. Bei derAuswertung der gesamten Token-Anzahl in einer Altersgruppe, die mehrereSprecher/innen umfasst, kommt es durch die individuellen Unterschiede zurecht uneinheitlichen Ergebnissen. Der Versuch, die Lemmata je Gruppeallgemein auszuwerten, wurde trotzdem unternommen, um eine Annäherungan die allgemeine Struktur des Wortschatzes bei Kindern im Vorschulalter zugewinnen. Versuche dieser Art gibt es einige und viele scheiterten an derIndividualität des Wortschatzes sowie der spezifischen Wortartenverteilungder Probandinnen und Probanden. Bereits Kegel (1987) versuchte sichdiesem Problem zu nähern. Er differenzierte zunächst die Erforschungdes aktiven und des passiven Wortschatzes. Demnach wurde der aktiveWortschatz bisher vor allem durch Experimente zu erforschen versucht.Doch ob ein Kind in Experimenten ein Wort äußert, sei abhängig von vielenFaktoren, so Kegel. Gleichtzeitg würden Kriterien, nach denen ein Wortals verstanden bewertet werden kann oder nicht, unterschiedlich strengbewertet werden. Eine weitere Schwierigkeit stellen Variationen im Aufbauvon Wortschatzuntersuchungen dar, wodurch man zu unterschiedlichenquantitativen Angaben gelangt. Ebenso bedauerlich sei die Tatsache, dasseine Strukturierung des Wortschatzes lediglich mit Fallstudien auszuwerten

6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN 163

POS-Tag Tokens prozentual % Types prozentual %

ADJ 33 6,6 16 9,3

ADV+PAV 68 13,5 23 13,3

APPR 9 1,8 4 2,3

ART 20 4,0 3 1,7

CARD 8 1,6 5 2,9

ITJ 2 0,4 2 1,2

KON 20 4,0 7 4,0

N 45 8,9 29 16,8

PIDATS 28 5,6 10 5,8

PPER 69 13,7 6 3,5

PPOS 6 1,2 2 1,2

PTK 71 14,1 23 13,3

PW 7 1,4 4 2,3

VA 6 1,2 2 1,2

VM 22 4,4 5 2,9

VV 84 16,7 31 17,9

XY 5 1 1 0,6

503 173

Tabelle 6.21: SO: Verteilung der Types, gruppiert, 1709 bis 1983

ist, so Kegel ([Kegel (1987)], S. 49). An dieser Stelle wird deutlich, dass vorallem das Untersuchen des passiven Wortschatzes eine Herausforderungdarstellt, da nur sehr schwer bewertet werden kann, wann und ob ein Kindein Wort tatsächlich verstanden hat. Bisher ist mir keine Arbeit bekannt,die die gesamte Struktur des Wortschatzes, sei es bei Kindern oder beiErwachsenen, abschließend in einer experimentellen Studie untersucht hat.Wie bereits festgestellt wurde, ist dies nur schwer bis gar nicht möglich.Eine Untersuchung, die den gesamten aktiven und passiven Wortschatzeines Individuums erfassen will, setzt unterschiedliche Schritte voraus, diezum jetzigen Zeitpunkt nicht erfüllbar sind. Es müsste zunächst der gesamtepassive Wortschatz erfasst werden, was weder experimentell noch durchBeobachtungen, Befragungen, Wortlisten etc. möglich wäre. Selbst wenn esgelingen würde, zumindest den aktiven Wortschatz zu einem gegebenenZeitpunkt eines Individuums zu erfassen, würde doch der passive Wortschatzniemals erfasst werden können. Doch die Annahme durch Fragebögenzum Wortverständnis und durch andere Tests sei es möglich den passivenWortschatz zu ermitteln, wirft einige Fragen auf. Rechnerisch gesehen könnteso vielleicht ein Großteil der verstandenen Lexeme erreicht werden, aber wasist mit Wörtern wie Feinlöwe oder wurstig? Diese Wörter gibt es - laut Duden- nicht im Wortschatz der deutschen Sprache ([Dudenredaktion (2004)]).Dennoch ist die Bedeutung je nach Kontext verständlich. Und genau hier liegt

164 KAPITEL 6. ANALYSE DER WORTARTEN

meines Erachtens das Problem bei der Ermittlung des passiven Wortschatzes.Sprache ist wandelbar, sie verändert sich ständig und ist Teil der gegebenenkognitiven Fähigkeiten. Dadurch ist Sprache nie stetig, sondern kontinuierlichund ein passiver Wortschatz könnte allenfalls in Referenz zu etwas anderemstehen, beispielweise das Deutsche im Vergleich zum Duden, und nur füreinen gegebenen Zeitpunkt erfasst werden. Es ist leicht vorstellbar, welchenAufwand dies bedeutet. Wahrscheinlich ist das ein Grund dafür, dass eseine solche Erfassung bisher nicht gibt. Zu diesem Schluss gelangte auchKegel (1987) und stellte fest, dass lediglich nicht-experimentelle Studienzur Untersuchung des Wortschatzes herangezogen werden können. InLängsschnittstudien einzelner Kinder könnte zum Beispiel die Produktionund Perzeption kontinuierlich protokolliert werden. Ein Nachteil wäre, dassein solches Verfahren keine statistisch auswertbaren Daten liefern würdeund dies wiederum keine verallgemeinernde Interpretation der Ergebnissemöglich macht ([Kegel (1987)], S. 50). Eine andere Möglichkeit bietensogenannte Wortschatztests ([Smith (1926)]). Am erfolgreichsten ist lautKegel (1987) die Untersuchung eines begrenzten Zieles, wie zum Beispieleine Verfolgung der Verteilung der Wortklassen, wobei größere Passagenlaufender Rede analysiert werden (ebd.). Dies wurde in der vorliegendenArbeit getan und bestätigt. Die bisherigen Ergebnisse anderer Autoren sowiedie Annahmen von Kegel (1987) zeigen, dass eine andere Vorgehensweisezur Erfassung des kindlichen Wortschatzes sowie zur Beurteilung derVerteilung von Wortklassen (bisher) nicht möglich ist. In Abschnitt 6.4 werdenin einem nächsten Schritt nicht die Gesamtdaten der hier untersuchten Kinderberücksichtig, sondern nur die ersten einhundert gesprochenen Wörter jeKind. Mir ist bewusst, dass einhundert Wörter ein vermutlich zu kleines Korpusdarstellen, um daraus verallgemeinernde Schlüsse abzuleiten. Dennoch solldieser Schritt unternommen und in Bezug zu den bisherigen Ergebnissendieser Arbeit gesetzt werden.

6.3.5 Zusammenfassung

Durch eine Betrachtung der Wortarten gemäß der STTS (hier vorliegend ingruppierter Form) wurde zunächst ein Überblick über die Verwendung undVerteilung der Wortarten bei jedem Kind in jeder Altersgruppe geschaffen.Auffällig war, dass die Verteilung in den Gruppen sowie bei einem Vergleichaller Kinder (egal welchen Alters) sehr ähnliche prozentuale Anteile aufweist.Dabei ist es egal, ob ein Kind im gesamten Aufnahmezeitraum sehr vieleoder nur sehr wenige Tokens zu den Aufnahmen beisteuerte. Die wenigstenWörter finden sich bei LEO in Gruppe 3 mit 189 Tokens. Die meisten Wörter

6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN 165

äußerte MK in Gruppe 2 mit 8706 Tokens. Bei beiden Kindern sieht dieVerteilung der Wortarten prozentual betrachtet ähnlich aus, bis auf den hohenAnteil an Nomen bezogen auf die Types bei MK. Ein Vergleich mit anderenKindern, die vergleichsweise viele Tokens äußerten, zeigt, dass niedrigereWerte bei den Nomen (N) ebenso anzutreffen sind (z. B. JS in Altersgruppe1709_1983 mit 28,2% Nomen bei insgesamt 2378 Tokens). Wie bereits weiteroben beschrieben, ist der Anteil der Nomen in Bezug auf die Tokens beiallen Kindern in allen Altersgruppen sehr viel niedriger als in Bezug auf dieTypes. Das ist äußerst interessant, weil für die Ausführungen in dieser Arbeitbisher nur Vergleichsdaten von Kindern bis zu einem Alter von 36 Monatenvorliegen (z. B. [Kauschke (1999)]) und diese zwar einen ähnlichen, wennauch qualitativ anderen Unterschied aufzeigen. Bei Kindern im Alter von 36Monaten ermittelte Kauschke (1999) auf der Basis von 6411 Tokens einenAnteil von 11% Nomen bezogen auf die Tokens und einen Anteil von 16%Nomen bezogen auf die Types. In der vorliegenden Arbeit ist der Anteil derTokens durchaus mit den von Kauschke ermittelten Daten vergleichbar. Wasdie Types angeht, kann das nicht behauptet werden. Im Grunde können diesehr abweichenden Werte in dieser Arbeit nicht durch eine abweichendeMethodik bzw. durch die Wahl der Kategorisierung zu Stande gekommen sein(obgleich eine andere Methodik zugrunde liegt), weil ansonsten bereits dieToken-Anteile abweichende Werte zu Tage hätten bringen müssen. Vielmehrkann an dieser Stelle angenommen werden, dass Kinder ab einem Altervon 3;5 Jahren bis zu einem Alter von 5;5 Jahren (und vermutlich auchdarüber hinaus) einen sprachlichen Entwicklungsschritt durchlaufen, der inder Verwendung vieler verschiedener Nomen resultiert und sich in einemerhöhten Type-Anteil äußert. Um diese These zu stützen, müssten allerdingsnoch weitere Analysen vorgenommen werden. Ferner ist zu beobachten, dassextrem hohe Type-Anteile bei den Nomen oft bei einer hohen Token-Anzahlvorzufinden sind, wobei jedoch kein ursächlicher Zusammenhang behauptetwerden kann. Eine Inhaltsanalyse der Sprachdaten der Kinder kann hilfreichsein, um die hiesigen Ergebnisse zu stützen. Ferner würden Vergleichsdatenvon Kindern, die sich zum Zeitpunkt der Datenerhebung nicht im Kindergartenbefanden, hilfreich sein. Denn es ist nicht eindeutig feststellbar, ob dieUmgebung in der Kita eine übergeordnete Rolle gespielt hat. Wichtigfestzuhalten ist zudem, dass im gesamten Verlauf von 3;5 bis 5;5 Jahrenkeine bedeutenden Veränderungen in der Verteilung der Wortarten beiKindern feststellbar waren, weshalb davon auszugehen ist, dass die Anteileim Wesentlichen so erhalten bleiben oder aber sich nur langsam in eineabweichende Richtung entwickeln. Die von Kauschke angeführte These, dassder Spracherwerb im 2. Lebensjahr als ein prognostisches Mittel für den

166 KAPITEL 6. ANALYSE DER WORTARTEN

weiteren Verlauf der Sprache genutzt werden kann ([Kauschke (1999)], S.153), kann insbesondere erweitert werden um folgende These:

Der Spracherwerb im 3. Lebensjahr kann als ein prognostisches Mittelfür den weiteren Verlauf der Sprachentwicklung verwendet werden.

Vor allem die Verteilung der Verben, sowohl in Bezug auf die Types als auchauf die Tokens ist vergleichbar mit 36 Monate alten Kindern und bleibt über denZeitraum von 3;5 bis 5;5 Jahren nahezu unverändert erhalten.

6.4 Analyse der ersten einhundert Wörter je Kind

In diesem Abschnitt soll untersucht werden, ob die geäußerten Wörter jedesKindes, unabhängig vom Alter, den vorgehenden Ergebnissen entsprechen.Diese Analyse kann deshalb vorgenommen werden, weil die Ergebnisse inAbschnitt 6.3 andeuten, dass es ab einem Alter von 3 Jahren keine großenUnterschiede in der Verteilung der Wortarten gibt bzw., dass geringfügigeUnterschiede (vor allem im Hinblick auf die Types) von der individuellenSituation, nicht aber vom Alter abhängen. Es wurde lediglich festgestellt, dasses mit zunehmendem Alter vermutlich zu einer Reduktion des Nomenanteilsbezogen auf die Types kommt, da die Anteile in der dritten Altersgruppebei fünf Kindern (AV: 18,0%, JK: 18,1%, LAR: 18,8%, LUA: 16,7%, SO:16,8%) unter 19% lagen im Gegensatz zu den Vergleichsgruppen. Dieserleichte Abwärtstrend müsste weiter untersucht werden, um bestätigt werdenzu können. Denn insbesondere bei diesen fünf Kindern waren auch dieTokens-Anteile niedriger als bei Kindern, die besonders hohe prozentualeNomen-Anteile aufweisen, so dass nicht ausgeschlossen werden kann, dassdie Tokens-Anzahl einen entscheidenden Einfluss auf die Types-Anzahl hat.Im Folgenden sind die ersten einhundert gesprochenen Wörter (Tokens)jedes Kindes aufgeführt. Da diese Tokens aus ihrem ursprünglichen Kontextextrahiert wurden, sind diese fernab der cGAT-Transkriptionsregeln, wiesie in den FOLKER-Dateien angewendet wurden, aufgeschrieben. Es wirdlediglich das Ende einer Äußerung durch // gekennzeichnet. Alle Wörter(sowie die dazugehörigen Lemmata, POS-Tags und Bedeutungskategorien)befinden sich in der SQLite3-Datenbank des CA sowie in gesondertenDateien9. Des Weiteren sind alle Situationsbeschreibungen der einzelnenAufnahmedaten in einer Tabelle in Abschnitt 4.1.1 zusammengefasst.

9Hierzu zählen sowohl die erstellten EXMARaLDA-Dateien sowie alle Ausgabedateien imCSV-Format, die im Zuge der Analyse unter der Anwendung des CA entstanden sind.

6.4. ANALYSE DER ERSTEN EINHUNDERT WÖRTER JE KIND 167

Detailliertere Beschreibungen befinden sich zudem in den Protokollen, diewährend bzw. kurz nach den Aufnahmesituationen angefertigt wurden.

AV: ich mag spielen // auf deinen schoß // nee // sehr sehr lange // ist deiner von zu hause // ist das deiner vonzu hause // aber wir haben auch ’ne kleine schokolade // äh erst aus schokolade // und was ist das // das blau // blaupasst mehr // nein kannst du nehmen wie // ((unverständlich)) // wenn du wenn dann nimm rot // ich spiele nicht mehrmit // ich guck nur zu // dann darfst du nochmal die alle // und glaube ich // da // deck da mal auf // so schlafmütze //das muss nee lila ist das // das muss so die lila in der mitte sein // nur nochmal // drei // du // aber das andere

LEO: oder schnecke machen // laterne // ich gehe mit meiner laterne und meine laterne mit mir // da obenleuchten die sterne und unten leuchten wir // mein licht geht aus // wir gehen nach haus // rabimmelrabammelrabumm// und gibt es auch die // haben immer verschiedene farben manche // guck mal was ich kann // ich kann was schönesmalen // willst du mich nachmachen // ich male was schönes // das ist ein geheimnis // ein geheimnis darf man nichtsagen // male ich aber in einer anderen farbe // das sieht aber ähnlich aus // hm dunkler // und ich kann schon mit einmit ein schere ganz alleine schneiden // nein kann man trotzdem

LAR: LAR // viereinhalb // ja // wow // ((unverständlich)) // viele fahrt mit die ubahn // ich bin ein krümelmonsterweil ich wieder krümel // muss man strafkarten // und jetzt darf ich das // ich das // ich hab schon // guck mal eins zweidrei vier fünf // jetzt bin ich // äh doch // guck mal // eins zwei drei vier fünf // geht nicht // geht nicht // ich wollte // undwir haben ganz wenig hier // geht nicht // wieder geht nicht // MM // ich musste noch ne karte // ich habe gerade nichtgeklingelt // jetzt hab ich strafkarten // ich hab mich // aber du bist dran // jetzt hat julia nur drei // ich hatte schon //eh_eh geht gar

LL: MM du sollst gewinnen // MM gut gemacht // MM soll gewinnen // das schmeckt nicht // auf der rechten seite// da_ha // zwei // kannst du mit mir mitkommen // hier // babies // hier schlafen ganz viele krippenkinder // ja_a ganzmittel // nach dem schwimmen ist immer müde // denn schlaf ich immer im bus ein // ich glaub ich muss mir die türzumachen // wo soll ich denn vielleicht // ist er hier irgendwo // warum äh // wo ist die birne // birne bitte // hm // ist datraktor // ist da ist da schwein // wo ist den schwein // schwein // schwein ist da// männchen ist da // ((unverständlich))// ja schmetterling ling // da_a // hau_e sonst sind

LUA: sie zieht auch um // ich habe ne große und ne kleine bauernhof // spielen wir // ich habe hiereinen ritter // ich habe hier ein ritterteil // ja was ist das denn // ich kenne mich gut mit pferden aus // ichkenn // ich kann nämlich ganz gut // ich kenn mich gut mit pferden aus // und mit einer decke und einem undeinem sattel // na weil weil ich mit meiner cousine die heißt laura // aber das ist nicht die aus dem kindergarten// die heißt laura ne // ja // und die laura meine cousine // die cousine ist von mir // die die kennt sich auch gut mit pferden

MA: drei // ja // aber // ((unverständlich)) geboren // nee der große bruder // die ganze welt // diesmal male ich nekrone // na die prinzessin // ja und auch den froschkönig // na aus der kita ein buch // gibt es aber // aber eigentlichkommt jetzt der vogel hier lang geflogen // hm // aber ich hab nicht gesehen // noch einer // da // ja // da siehst du// der ist da am fenster // oh // jetzt ist er weggeflogen // schwarz // ((unverständlich)) am kopf // na die amseln // ählänger // guck mal so // ja // da da da // aber ich war doch fertig // aber jetzt nicht // ich // weißt du was ich malen kann// äh ich kann

MK: nur mit meinen freunden // mit meinem papa // ja // und mit meiner mama // mit meinem bruder// ((unverständlich)) // mit dem bruder // ((unverständlich)) // na ins tobeland // na toben // na ein tobelandist zum toben // ja // und draußen war so // da // ein ähm // ein äh trampolin // na einfach viel mehrsachen als sonst // so viel kann ich gar nicht erzählen // ja // alle meine freunde // meine verwandten //ja // sogar zwei // einen in den kindergarten und einen bei den // hm ja // und einen bei äh tobeland // zwei// stimmt // und guck mal // hier kommen // muss man ein bisschen festhalten weil dann // es bewegt sich doch die kette

MM: ich habe aber mehr als du // nochmal // ich möchte anfangen // ich war schneller // hattest nur ein bisschen// ein bisschen deine hand // das geht aber nicht mehr // ich verteile die // die rutscht ein bisschen von dem tisch weg// äh // schon lange // ja // sie studiert schon // ich bin ganz papa // der erzählt mir gar nichts // und ich habe nocheinen kleinen bruder // der ist in der krippe // den kindergarten // äh ein jahr // weißt wie er heißt // ((unverständlich)) //manchmal // aber ich kann schon gut schlafen // ich schlaf jetzt bei den eltern // ich habe die letzte karte // weißt duwer da gerade spricht // LL

168 KAPITEL 6. ANALYSE DER WORTARTEN

JK: wer bist du // wer bist du // äh ja // ein groß großen bruder und eine kleine schwester // ich bin schon vier //und ich bin JK // sechs // ich will nur // ich will nur einen blauen // eins // ich will ein grünes papier // und eigentlich //eigentlich muss das // musst du das haben weil du der doch der profi bist // na gut // dann bin ich der profi // ich habenull neun sechs gemacht // hallo // jetzt muss der papiermaschine kommen // wie heißt du // hallo julia // äh JK // äh dumusst paar blätter holen // blätter müssen wir holen // äh grüne // eins // nein // tschüs // hallo hallo papiermaschine // ich

JS: graben ganz tiefe löcher // ja // wir mögen nicht dass sie uns küssen // deswegen machen wir für sie ne falle// das mögen wir nicht so // die stühle komme hier als festung // die kommt dahin falls wir die noch brauchen // in derkrippe // in der krippe haben wir uns kennengelernt // nein RD // RD schau mal // wir graben nur hier // hier zu diesemgeraden strich // ((unverständlich)) // und das ist der holzeimer // hier kommen die ganzen holzteile und porzellan //hier ist der eimer wo das ganze porzellan reinkommt // und holz kommt in deinen eimer RD // und in meinen porzellanaber man muss gut aufpassen

RD: ja // ja damit // wir bauen ne stolperfalle für die mädels weil die küssen uns immer und das mögen wir nicht// JS noch ein stuhl // meine jacke die // darf ich auch meine jacke ausziehen // mir ist nämlich ziemlich heiß // wo derbereich ist müssen wir aufpassen // ((unverständlich)) // eine falle damit die hier nicht rangehen // das erste holzstück// prima schau mal wie viel holz der kleine findus schon hat // darum hackt findus holz // hä komisch // eine muschel //ich hatte schwimmen // viele zutaten für meinen kuchenteig // ja ich habe // macht kimba im film // der macht da denkuchen und setzt sich da drauf

SO: äh weiß ich nicht // ich fahr // ich fahr mit der ubahn // MM du machst ((unverständlich)) so viel auf den kopf// falsch // strafkarten // noch mir eine LAR // doch // hier liegt die doch oder LAR // jetzt haben wir zu wenig // neehier geht es doch // oh // so viele // geht nicht // ich und LAR // nee_e // weil du es hm am besten kennst // doch //eins zwei drei vier fünf // muss ich // muss MM // wir müssen auch mal spielen // aber ich habe auch so wenig //ja // da muss man auch schneller sein // hab noch so wenig // sind alle weg // jetzt hab ich ((unverständlich)) keine mehr

Was nach einer ersten Durchsicht der geäußerten Tokens rechtüberprüfbar erscheint, ist der sehr unterschiedliche Anteil der Nomen ansich. Aus diesem Grund sollen die ersten einhundert Tokens losgelöstvon ihrer Wortartenzugehörigkeit betrachtet und dahingehend überprüftwerden, ob anhand inhaltlicher Gegebenheiten auf die Verwendung vonmehr bzw. weniger Nomen geschlossen werden kann. Im Folgenden werdendie erkennbaren Situationen entweder einer Erzählsituation oder einerSpielsituation10 zugeordnet. Zu einer Erzählsituation gehören folgend allenicht-fiktiven Gespräche des Kindes, sowohl mit der Interviewerin als auch mitanderen Kindern. Dies betrifft alle Unterhaltungen, die nicht aus einem Spielmit fiktiven Charakteren heraus entstanden sind. Unter einer Spielsituationwerden im Folgenden alle Gegebenheiten, in denen das jeweilige Kind alleinoder mit anderen Kindern ein Spiel spielt, verstanden. Die Spiele können real(Karten-, Brett-, Puppen-, Autospiele) oder fiktiv (Fantasiespiele, bei denenKinder in die Rolle einer anderen Figur schlüpfen) sein.

• AV: Bei den ersten einhundert geäußerten Wörtern handelt es sicheindeutig um eine Erzählsituation mit der Interviewerin. Lediglich abdem 74. Wort ist eine angedeutete Spielsituation erkennbar. AV spieltjedoch nicht selber, sondern fordert die Interviewerin auf, Karten einesKartenspiels aufzudecken.

10Die Begriffe Erzählsituation und Spielsituation sind von mir eingeführte Bezeichnungen. Es istmöglich, dass die Begriffe in anderen Arbeiten alternativ verwendet werden.

6.4. ANALYSE DER ERSTEN EINHUNDERT WÖRTER JE KIND 169

• LEO: Bis zu Wort 33 singt LEO ein Lied („Ich gehe mit meiner Laterne“).Darauffolgend handelt es sich eindeutig um eine Erzählsituation mit derInterviewerin. LEO erzählt, dass er schon gut malen und mit einer Schereschneiden kann. Außerdem erklärt er, was ein Geheimnis ist.

• LAR: Die Situation bei LAR ist nicht eindeutig zu umschreiben. Einerseitsbefindet sie sich im Spiel (Halli Galli) mit weiteren Kindern. Andererseitskommt es (zumindest während dieser geäußerten einhundert Tokens)nicht wirklich zu einer Spielsituation. Der inhaltliche Hauptbestandteil isteher ein Streitgespräch, in dem es darum geht, wer als nächstes an derReihe ist und wer wie viele Karten gezogen hat. Aus diesem Grund kanndiese Situation durchaus als Erzählsituation beschrieben werden, da sieam Rande eines Spiels stattfindet.

• LL: Die ersten einhundert geäußerten Wörter von LL können sowohleiner Erzähl- als auch einer Spielsituation zugeordnet werden. Diegesamte Situation findet während eines Spiels statt, wobei LL in derersten Hälfte mit der Interviewerin spricht. Später (ab Wort 57) beteiligtsich LL auch am Spiel, was durch die Verwendung von Nomen, die alsElemente zum Spiel gehören, deutlich wird (mehrfache Äußerung derNomen Birne, Traktor, Schwein, Schmetterling, die auf den Karten einesMemory-Spiels abgebildet sind).

• LUA: LUA befindet sich mit der Interviewerin in einer Erzählsituation.Auffällig sind gehäufte Wiederholungen in den hier geäußertenPassagen. Ob diese einen Einfluss auf die Anteile und schließlich aufdie Verteilung der Wortarten haben, kann nicht abschließend beurteiltwerden. Da die Wiederholungen jedoch nicht standardmäßig bei LUAauftreten (im Vergleich zu allen von LUA geäußerten Tokens), ist davonauszugehen, dass diese keinen Einfluss auf die Verteilung der Wortartenhaben.

• MA: Die ersten einhundert geäußerten Wörter gehören zu einerErzählsituation zwischen MA und der Interviewerin. MA erzählt, wassie gleich malen möchte und beschreibt eine Situation, in der ein Vogeldraußen am Fenster sitzt.

• MK: MK erzählt von den Erlebnissen seines Geburtstages. Es handeltsich demnach um eine Erzählsituation.

• MM: MM befindet sich zwar gerade in einem (Karten-)Spiel. Es gehtjedoch vorwiegend darum, wer schneller war und wer die Karten verteilt.

170 KAPITEL 6. ANALYSE DER WORTARTEN

Später berichtet MM von ihrem kleinen Bruder. Aus diesem Grund kanndie Situation eher als Erzähl-, denn als Spielsituation bezeichnet werden.

• JK: JK befindet sich in einer Spielsituation mit weiteren Spielern.Zwischenzeitlich sucht er häufig das Gespräch mit der Interviewerin. Ererzählt zudem von seinen Geschwistern und er spricht darüber, wie alter ist. Von daher kann die Situation nicht eindeutig eingeordnet werden.

• JS: JS befindet sich (zusammen mit RD) eindeutig in einer Spielsituationdraußen im Garten der Kita. Sie spielen ein Fantasiespiel, in dem sieeine Festung bauen mit einem Graben und anderen Elementen. Diedazugehörige Konversation spielt sich in dieser konstruierten Situationab. Bevorzugte Nomen sind Falle, Festung, Löcher etc.

• RD: RD befindet sich in der oben geschilderten Situation mit JS. DasVokabular entspricht dem eben genannten. Zusätzlich finden sich beiRD Eigennamen von Gestalten aus Kinderbüchern und -filmen (Findus,Kimba).

• SO: Dem Inhalt der ersten einhundert Tokens nach zu urteilen, befindetsich SO in einem Spiel zusammen mit anderen Kindern. Da es jedoch zueinem Streit darüber kommt, welches Kind wie viele Karten bekommt undwelches Kind wann an der Reihe ist, entsteht gar kein Spiel. Demnachkann die Situation eher einer Erzählsituation zugeordnet werden.

In den meisten Fällen war es eindeutig, die Gegebenheiten einer konkretenSituation zuzuordnen. Sicherlich ist es möglich, je nach Bedarf die Situationenweitaus detaillierter im Rahmen einer Gesprächsanalyse zu beschreiben.Das war jedoch nicht Gegenstand dieser Arbeit. Nach der Analyse derersten einhundert syntaktischen Wörter ergaben sich zwei eindeutigeSpielsituationen (JS und RD), eine Gegebenheit, die beiden Situationenzugeordnet werden kann (LL) und eine nicht zuordenbare Situation (JK).Alle anderen Kinder befanden sich bei der Äußerung der Wörter in einerErzählsituation. In Bezug zum Vorkommen der Nomen fällt auf, dassbesonders dann ein hoher Anteil an Nomen verzeichnet werden kann, wenndie Kinder in einem Spiel waren. Bei JS sind 18% der ersten einhundertWörter Nomen, bei RD 21% und bei LL 18%. Bei allen anderen Kindernliegt der Anteil deutlich unter 18%11. Dies ist nicht verwunderlich, da imSpiel besonders viele Nomen in Form von (Eigen-)namen verwendetwurden (Fantasiefiguren, Namen von Objekten und Tieren in Kartenspielen).

11Die hier aufgeführten prozentualen Anteile beziehen sich auf die ersten einhundert syntaktischenWörter je Kind. Die Werte sind nicht gesondert in einer Tabelle aufgeführt.

6.4. ANALYSE DER ERSTEN EINHUNDERT WÖRTER JE KIND 171

Befanden sich Kinder in einer sogenannten Erzählsituation, verwendeten sie(zumindest in der vorliegenden Arbeit) tendenziell weniger Nomen, da diesescheinbar zur Beschreibung von Situationen weniger notwendig sind.

Nicht festzustellen ist ein Zusammenhang zwischen der Verwendungvon Nomen und Verben in den genannten Situationen. So verwendetenKinder, die einen hohen Anteil an Nomen aufweisen, nicht weniger Verben alsKinder mit einem geringen Nomenanteil. Auch ist der Anteil der Verben beiKindern mit einem hohen Nomenanteil nicht höher als bei Kindern mit einemniedrigen Nomenanteil. Ein Vergleich mit dem Nomen- und Verbenanteilunabhängig vom Alter des Kindes aus Abschnitt 6.3 zeigt, dass es keinenZusammenhang gibt zwischen dem gesamten Anteil der geäußerten Nomenund Verben (sowie auch den restlichen Wortarten) jedes Kindes. Demnachweisen JS, RD und LL nicht durchgehend einen überdurchschnittlich hohenAnteil an Nomen auf. Folglich können die Ergebnisse aus diesem Abschnittauf die jeweilige Situation, in der sich das Kind während der Äußerung derWörter befand, zurückgeführt werden. In Spielsituationen wurden demzufolgetendenziell mehr Nomen verwendet als in Erzählsituationen. Damit kannder generell höher ermittelte Nomenanteil in der vorliegenden Arbeit imGegensatz zu anderen Arbeiten (z.B. [Kauschke (2007)]; [Kauschke (1999)];[Kauschke (2000)]) vermutlich erklärt werden. Die Aufnahmen, die derAnalyse dieser Arbeit zugrunde liegen, wurden durchgehend in einerKita erhoben. In der Kita gibt es zwar ein tägliches Programm, dem dieKinder folgen (Morgenkreis, gemeinschaftliches Basteln, Gruppenausflüge,Mittagessen, gemeinsame Lernspiele mit den Betreuerinnen), doch befandsich die Interviewerin während der Datenerhebung fast ausschließlich inSituationen, in denen die Kinder die Möglichkeit zur freien Gestaltunghatten. Dementsprechend kam es vermehrt zu Gesprächen zwischenKind und Interviewerin. Fast noch häufiger beobachtete die Interviewerinzwei oder mehr Kinder beim Spiel. Wie eben beschrieben sind die hierermittelten Spielsituationen häufig durch einen hohen Anteil an Nomen in derSprachverwendung gekennzeichnet. Die Gesamtanalyse dieser Arbeit liefertdementsprechend einen insgesamt höheren Nomenanteil als in anderenArbeiten zu diesem Thema, die die zu analysierenden Daten in einem Laborerhoben haben. Es bleibt die Frage, welche Ergebnisse die Realität adäquaterwiderspiegeln. Fakt ist, dass sowohl bei Aufnahmen im Labor als auch in derKita niemals ein vollständiges Abbild der Wortartenverteilung eingefangenwerden kann. Die Situationen im Labor sind in jedem Falle konstruierter undoft durch Fragen oder Vorgaben initiiert. In der Kita gingen die Kinder ihremAlltag nach, ohne konstruierten Anweisungen der Versuchsleiterin zu folgen.Dies zog nach sich, dass ein höherer Nomenanteil verzeichnet wurde, der

172 KAPITEL 6. ANALYSE DER WORTARTEN

vermutlich aus gehäuften Spielsituationen resultiert. Im Grunde besteht dasLeben der meisten Vorschulkinder zu einem großen Teil aus dem Spiel (egalob freies oder initiiertes Spiel). Dies sollte bei allen Analysen den Wortschatzvon Kindern betreffend berücksichtigt werden.

6.5 Die Wortartenverteilung bei Erwachsenen

An dieser Stelle soll ein möglicher Einfluss der Erwachsenensprache aufdas Lexikon von Kindern im Alter von 3;5 bis 5;5 Jahren untersucht werden.Leider sind zum Zeitpunkt der Erstellung dieser Arbeit keine weiterenAnalysen in Bezug auf die Wortartenverteilung von Erwachsenen bekannt alsjene, die Kauschke (2007) in Abschnitt 2.3.3 erwähnt ([Kauschke (2007)]).Deshalb sollen diese Daten als Bezugsmaterial für die hier ermittelten Datenherangezogen werden. Wie eben erwähnt, untersuchte Kauschke (2007)den Input, den die in ihrer Studie zur Ermittlung der Wortartenverteilung([Kauschke (1999)]; [Kauschke (2000)]) analysierten Kinder von ihrenEltern erhielten. Der untersuchte Input basierte auf einem informellen undungesteuerten Gespräch zwischen zwei Erwachsenen (zumeist Müttern derKinder). Von den ersten 1000 Wörtern waren 319 Types. Kauschke beschreibtlediglich das Vorkommen der Verben und Nomen; weitere Wortarten werdenin den Ausführungen nicht erwähnt. Verben treten im Hinblick auf die Typesmit 18,5% auf, Nomen mit 19%. Bei den Tokens waren es 16,3% Verben und9% Nomen ([Kauschke (2007)], S. 132).

Zunächst soll ein Vergleich zu den Daten aus Abschnitt 6.2 angeführtwerden. Es handelte sich um eine Analyse der drei Altersgruppen. Ich beziehemich an dieser Stelle nur auf das Vorkommen der Nomen und Verben, dakeine weiteren Wortarten für einen Vergleich zur Verfügung stehen. In Gruppe1 (1281_1495) kamen im Hinblick auf die Types Nomen mit 30,5% und Verbenmit 23,7% vor. In Gruppe 2 (1496_1708) traten Nomen mit 40,5% auf, Verbenmit 22,6%. In Gruppe 3 (1709_1983) machten Nomen einen Anteil von 38,8%aus, Verben einen Anteil von 22,9%. Unter der Annahme, dass die DatenKauschkes verlässlich sind, können nur zum Teil Parallelen des Nomen- undVerblexikons von Erwachsenen zum Lexikon von Kindern im Alter von 3;5 bis5;5 Jahren angenommen werden. Nomen nahmen bei den Kindern in allenGruppen einen höheren Anteil ein als es bei erwachsenen Sprecherinnenund Sprechern der Fall ist. Auffällig ist, dass der Anteil der Verben in den dreiAltersgruppen annähernd gleich bleibt, während der Anteil der Nomen in denErgebnissen der vorliegenden Arbeit in Gruppe 2 und 3 stark erhöht ist.

Das Vorkommen von Nomen und Verben bezogen auf die Tokens ergab

6.5. DIE WORTARTENVERTEILUNG BEI ERWACHSENEN 173

folgende Daten: In Gruppe 1 erschienen Nomen mit 9,1% und Verben mit21,2%. In Gruppe 2 kamen Nomen mit 7,7% vor, Verben mit 21,4%. InGruppe 3 traten Nomen mit einem Anteil von 11,0% auf, Verben mit einemAnteil von 22,1%. Hier fällt auf, dass über den gesamten Zeitraum derAufnahmen hinweg (Gruppe 1 bis 3) die Anteile von Nomen und Verbenannähernd gleich blieben. Auch ein Vergleich mit den Daten Kauschkes gibtAnlass dazu anzunehmen, dass die Verteilung der Nomen und Verben inBezug auf die Tokens bei den hier untersuchten Kindern im Alter von 3;5bis 5;5 Jahren in etwa der Verteilung der von Kauschke (2007) geprüftenErwachsenen entspricht ([Kauschke (2007)]). Nach längeren Überlegungenerscheint es fast logisch, dass die Rechnung im Hinblick auf die Typesnicht mehr aufgeht. So ist es meines Erachtens nicht verwunderlich,dass Kinder im Vorschulalter einen höheren Anteil an verschiedenartigenNomen verwenden als Erwachsene. Es wurde festgestellt, dass gerade inSpielsitutationen mehr Nomen verwendet wurden als in Erzählsituationen. DieAufnahmen in einem Kindergarten sind zudem prädestiniert für das Auftretenvon Spielsituationen und einem daraus resultierenden höheren Anteil anverschiedenen Nomen (Abschnitt 6.4). Diese Vermutungen werden gestütztvon Jampert (2002), die das Sprachverhalten von Kindern im Kindergartenunter sozialwissenschaftlichen Gesichtspunkten untersuchte. Jampert fandheraus, dass ein Vergleich von Außen- und Innenaktivitäten der Kinder ergab,dass das Sprachverhalten der Kinder im Freien ungezwungener abläuft unddie Kinder draußen mehr miteinander sprechen ([Jampert (2002)], S. 158).Dies unterstreicht die Vermutung, dass Kinder im freien Spiel ein anderesSprachverhalten an den Tag legen als in einer Situtation, in der sie sich imLabor (oder anderswo) mit einem Erwachsenen im Gespräch befinden. Dasfreie Spiel in den Innenräumen kann durchaus mit dem Spiel draußen imGarten verglichen werden, da es in den Aufnahmesituationen in beiden Fällenkein Programm gab und sich die Kinder größtenteils ohne den Einfluss derErzieherinnen bewegen konnten. Jampert (2002) begründet das abweichendeSprachverhalten damit, dass Kinder durch wenig strukturierte Angeboteihre Kreativität, zu der auch die sprachliche Kreativität gehört, verstärkteinbringen. Zudem ermögliche der Kontakt zu Kindern aus anderen Gruppengemeinsame Aktivitäten mit neuen Gesprächspartnern ([Jampert (2002)], S.158).

Im Folgenden sollen nun die Daten eines jeden einzelnen Kindes betrachtetwerden. In Abschnitt 6.3 wurden die Anteile aller Wortarten je Kind undAltersgruppe in Bezug auf die Types und die Tokens vermerkt. Zunächst zuden Types: In Gruppe 1 kamen Nomen mit einem Anteil von 24,7% (MA) bzw.27,1% (MK) und Verben mit 22,4% (MA) bzw. 25,0% (MK) vor. In Gruppe 2

174 KAPITEL 6. ANALYSE DER WORTARTEN

belief sich das Vorkommen der Nomen auf 24,7% bis 35,0% bei vier Kindern,wobei 35,0% nur bei MK auftraten. Verben traten mit einer Häufigkeit von22,5% bis 24,3% auf. Gruppe 3 lieferte Anteile von 16,7% bis 30,7% Nomenbei insgesamt 10 Kindern, wobei rund 17% zweimal (LUA und SO) undrund 18% dreimal (AV, LAR und JK) auftraten. Die restlichen Nomenanteilebewegten sich zwischen 22,9% und 30,7%. Verben kamen bei diesen 10Kindern mit 21,0% bis 28,1% vor. An dieser Stelle ist es nicht einfach, eineneinheitlichen Bezug herzustellen zu den Daten der Erwachsenen. Auffällig istaber, dass unter Ausschluss des 35,0%-Vorkommens der unterschiedlichenNomen bei MK in Gruppe 2, der Anteil der Nomen kontinuierlich niedriger ist.In Gruppe 3 gab es gar zwei Kinder, die einen Anteil von rund 17% aufwiesenund drei Kinder mit einem Anteil von unter 19% Nomen. Im Vergleich zumVorkommen von 19% bei den Erwachsenen ist das erstaunlich wenig. Mankann also annehmen, dass sich die Verwendung verschiedener Nomenmit zunehmenden Alter langsam reduziert. Ähnlich verhält es sich bei denVerben. In Gruppe 3 verwendete kein Kind mehr als 28,1% Verben bezogenauf die Types. Das ist im Vergleich zu 18,5% bei den Erwachsenen zwarerheblich mehr. Die meisten Kinder wiesen jedoch einen Anteil von 22% bis24% auf, während der Wert von 28,1% bei nur einem Kind vorkam. In Gruppe1 war der geringste Anteil 22,4%, in Gruppe 2 lag er bei 22,5%. Man könntealso auch hier annehmen (unter Ausschluss der 28,1% in Gruppe 3), dassdie Verwendung von Verben bezogen auf die Types in einem Alterszeitraumvon 3;5 bis 5;5 Jahren kontinuierlich niedrig ist und durchaus mit den vonKauschke (2007) ermittelten Daten von 16,3% vergleichbar ist. Um zu prüfen,ob sich die Types-Anteile bezüglich der Verben mit zunehmendem Alter weiterreduzieren, müssten weiterführende Analysen gemacht werden, die über dassechste Lebensjahr von Kindern hinausgehen.

In Bezug auf die Tokens sieht ein Vergleich der Daten der Kinder zuden Erwachsenen etwas anders aus. Wie weiter oben dargestellt, kamenVerben bei allen Kindern verteilt über alle Altersgruppen mit einem Anteilvon 21,0% bis 28,1% bezogen auf die Types vor. Hinsichtlich der Tokenssind es 20,4% bis 24,0%. Im Vergleich zu den Daten der Erwachsenen istder Anteil zwar höher, erstaunlicherweise erscheint er aber stabil und esgibt keine großen Unterschiede zwischen den Types- und Tokens-Anteilen.Bei den Nomen reichte die Spanne bei den Types von 16,7% bis 35,0%,bei den Tokens von 5,9% bis 15,9%. Dieser Unterschied ist im Vergleich zuden Daten der Erwachsenen zum Teil enorm. Hier steht ein Typeanteil von19%, einem Tokenanteil von 9% jeweils bezüglich der Nomen gegenüber.Erstaunlich ist hingegen, dass der Anteil der Tokens bei den hier untersuchtenKindern mit 5,9% bis 15,9% ähnlich niedrig ist wie jener der Erwachsenen

6.5. DIE WORTARTENVERTEILUNG BEI ERWACHSENEN 175

mit durchschittlich 9%. Das lässt vermuten, dass der Anteil der Nomen,was ihre Verwendungshäufigkeit angeht, bereits im Alter von 3;5 bis 5;5Jahren annähernd der Sprache von Erwachsenen entspricht. Der rechthohe Anteil der Types bei den Kindern kann auf unterschiedliche Weisehypothetisch erklärt werden; Kontrollstudien mit weiteren Erwachsenen undKindern in anderen Kindertagesstätten oder in Hausbetreuung wären jedochaufschlussreich. Mögliche Gründe wären zum einen, dass in Spielsituationenmehr verschiedene Nomen produziert werden, wodurch sich der Type-Anteilerhöht. Vor allem aber heißt das, dass Kinder insgesamt betrachtet eherwenig Nomen verwenden und wenn, dann viele verschiedene. Der Anteilder Verben hingegen ist durchgehend hoch und entspricht annähernd denDaten von Erwachsenen, wie sie von Kauschke (2007) vorgelegt wurden([Kauschke (2007)]). Allein an den in dieser Arbeit erhobenen Daten wirdjedoch ersichtlich, dass sich sowohl die Anteile der Nomen als auch derVerben mit zunehmendem Alter anscheinend allmählich reduzieren. Biszu welchem Alter diese Reduktion stattfindet und sich gänzlich an dieKomposition des Lexikons von Erwachsenen angepasst hat, kann zudiesem Zeitpunkt noch nicht gesagt werden. Aus Gründen mangelnderRepräsentativität sollten die Vergleichsdaten der erwachsenen Sprecherinnenund Sprecher nicht überbewertet werden. Sie stellen ein nur kleines Korpusdar und um einen aussagekräftigen Vergleich durchzuführen, müssten weitereDaten hinzugezogen werden. Diese lagen zum Zeitpunkt der Erstellungdieser Arbeit nicht vor, weshalb die getätigte Gegenüberstellung lediglich alsAnnäherung bezeichnet werden soll.

176 KAPITEL 6. ANALYSE DER WORTARTEN

Kapitel 7

Der Grundwortschatz semantischbetrachtet

Nachdem im vorhergehenden Kapitel die hier erworbenen Daten vorrangigunter dem Aspekt der Wortartenklassifizierung und -verteilung betrachtetwurden, sollen in diesem Kapitel semantische Aspekte im Vordergrundstehen. Dazu wurden alle geäußerten und voneinander separierten Wörterim Hinblick auf ihre Lemmata noch einmal nach semantischen Kriterienbegutachtet und klassifiziert. Durch diesen Prozess soll schließlich einGrundwortschatz von deutschsprachigen Kindern im Alter von 3;5 bis 5;5Jahren entstehen, der auf den hier erhaltenen Daten beruht. Mit großerSicherheit sind dies nicht alle Lemmata, die tatsächlich im Wortschatzdieser (und auch anderer) Kinder existieren. Doch wie bereits erwähnt, lässtsich der Wortschatz nie vollständig erfassen. Dennoch denke ich, mit denfolgenden Daten einen enormen Teil des Lexikons der hier untersuchtenKinder abbilden zu können. Die hier verwendete Vorgehensweise entsprichtin vielen Aspekten der Arbeit der klassischen Lexikologie und Lexikographie,wenn auch das spätere Ergebnis kein Lexikon im klassischen Sinnedarstellt, sondern ein Lexikon der hier untersuchten Sprecher/innen ist (sieheauch [Schlaefer (2002)]). Laut Schlaefer (2002) beziehen sich die BegriffeWortschatz, Lexik und Lexikon meistens auf den zahlenmäßigen Umfangeines bestimmten Zeichenbestandes. Dieser bestimmte Zeichenbestandentspricht in dieser Arbeit dem erstellten Korpus und den darin enthaltenensyntaktischen Wörtern bzw. Lemmata mit ihren jeweiligen Markierungen (z.B.POS-Tags, Bedeutungskategorien). In Bezug auf die lexikologische Arbeitbetont Schlaefer das besondere Interesse der Lexik als Systemebene derSprache, die aus spezifischen Klassengliederungen und Zeichenbeziehungengebildet wird. Klassen seien zum Beispiel Wortarten wie Substantiv, Adjektivoder Verb und damit verbunden deren semantische Subklassen. Als Wortarten

177

178 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

gelten ferner aus lexikographischer Sicht bestimmte morpho-syntaktischeund semantisch unterscheidbare Lexeme, so Schlaefer ([Schlaefer (2002)],S. 38-41). Derartige Klassen von Wortarten wurden in der vorliegendenArbeit durch die Zuordnung der Wörter zu ihren POS-Tags (syntaktischorientiert) und deren anschließende Lemmatisierung sowie die Zuordnungzu ihren Bedeutungskategorien (semantisch orientiert) gebildet. ImGegensatz zu der eben beschriebenen lexikologischen Arbeit befasst sich dieLexikographie mit dem Erstellen von Wörterbüchern. Dabei wird ein Lexemüberschriftartig durch ein Stichwort oder Lemma repäsentiert. Das Lemmabildet dann wiederum mit den zugeordneten Informationen einen Artikeldes Wörterbuches ([Schlaefer (2002)], S. 76). Dieses Vorgehen entsprichtweitestgehend jenem der vorliegenden Arbeit. Jedes syntaktische Wort wirdeiner Wortart zugeordnet, durch ein Lemma repräsentiert und mit weiterenInformationen versehen (Bedeutungskategorie, Vorkommen im Korpus,Anzahl des Vorkommens, (POS-Tag)). Da sich die daraus resultierendenEinträge lediglich auf die Lemmata des vorliegenden Korpus beziehenund diese wiederum spezifischen Kategorien untergeordnet sind, kann indiesem Fall auch von einer Konkordanz gesprochen werden. Schlaefer(2002) beschreibt Konkordanzen als geordnete Stichwortverzeichnisse,die das Vorkommen der Einzelwörter in einem oder mehreren Textennachweisen. Insbesondere durch die hier verwendete Software und durchdie Verwendung der Datenbank (CA) wird die Erstellung von Konkordanzenunter unterschiedlichen Aspekten möglich. Des Weiteren listet Schlaefer ineiner Tabelle mögliche Wörterbuchtypen auf, nach denen das hier erstellteLexikon unter anderem als Grundwortschatz-Wörterbuch, Korpuswörterbuch,Spezialwörterbuch und eventuell als Sprachstadienwörterbuch bezeichnetwerden könnten. In Anbetracht der späteren Nutzung wäre auch dieBezeichnung als Lernerwörterbuch denkbar ([Schlaefer (2002)], S. 110; sieheKapitel 9).

Die in Kapitel 6 getätigte Analyse wird in der nun folgenden semantischenBetrachtung in der Form zu Rate gezogen, als dass die ermittelten Lemmata,bezeichnet mit ihren jeweiligen POS-Tags, einer nochmaligen Betrachtungunterzogen werden. Die Kategorien für diese semantische Analyse wurden -ebenso wie die POS-Tags - in den EXMARaLDA-Dateien erfasst und in dieDatenbank des CA importiert. Um die Lemmata einer Wortart bestimmtensemantischen Kategorien zuordnen zu können, bedarf es festgelegtenKriterien, nach denen ein Lemma einer bestimmten Gruppe zugeordnetwird. Diese Kiterien wurden nach den Richtlinien der Dudengrammatikzusammengestellt, die jede Wortart des Deutschen - neben zahlreichenanderen Aspekten - unter semantischen Gesichtspunkten betrachtet

7.1. DIE BEDEUTUNGSKATEGORIEN 179

([Dudenredaktion (2009)]). Die Beispiele stammen in den meisten Fällen ausden Daten der für diese Arbeit erstellten EXMARaLDA-Dateien und somit ausden Audio-Daten der Probandinnen und Probanden aus dem Kindergarten.Beispiele aus der Dudengrammatik sind als solche kenntlich gemacht.

Der vollständige, durch die hier produzierten Lemmata erfasste Wortschatzder untersuchten Kinder wird später in dreifacher Weise dargestellt1. Zumeinen erscheint eine Liste, die ausgehend von der Bedeutungskategorie, z.B. adv-kaus (kausales Adverb), alle in einer Altersgruppe vorkommendenLemmata, die in der jeweiligen Bedeutungskategorie vorkommen, auflistet.Zusätzlich erhalten alle Lemmata die Zuweisung ihrer POS-Tags, mitdenen sie in den Daten dieser Arbeit erscheinen. Adjektive können diePOS-Tags ADJA oder/und ADJD erhalten. Es wird später deutlich, dassnicht alle Lemmata, obwohl sie gleichermaßen in den drei Alterzeiträumenauftreten, auch immer allen zugehörigen POS-Tags zugeordnet sind.Diese Information kann für weiterführende Arbeiten relevant sein. Zumanderen wird ein Lexikon aller Lemmata, die von den hier untersuchtenKindern geäußert wurden, erstellt. Dabei sollen die drei Alterszeiträumekeine Rolle spielen. Vielmehr wird jedes Lemma in Zugehörigkeit zu seinerBedeutungskategorie aufgeführt und mit Beispielaussagen aus den Datendieser Arbeit versehen. Durch diese Vorgehensweise werden sehr gutdie Zusammenhänge deutlich, in denen ein Lemma geäußert wurde bzw.werden kann. An einigen Stellen werden Zusatzinformationen in Klammerneingefügt oder aber inhaltliche sowie grammatikalische Fehler korrigiert,um so zum allgemeinen Verständnis beizutragen. In einer dritten Übersichtwerden alle Lemmata unter Berücksichtigung der Altersgruppen mit dendazugehörigen Bedeutungskategorien aufgeführt. Anhand dieser Auflistungwerden Entwicklungstendenzen deutlich, wie sie bereits bei der Analyse derWortartenverteilung festgehalten wurden (Abschnitt 6.2). Diese Auflistungwird aufgrund des enormen Umfangs ebenso im Anhang zu finden sein.Auftretende Entwicklungstendenzen in der Verwendung bestimmter Lemmatabezüglich ihrer semantischen Kategorien werden in Abschnitt 7.2 diskutiert.

7.1 Die Bedeutungskategorien

Die folgend aufgeführten Kriterien, nach denen ein Lemma einer bestimmtenBedeutungskategorie zugeordnet ist, sind angelehnt an die Regelnder Dudengrammatik ([Dudenredaktion (2009)]). Die Kategorien sind

1Aufgrund des sehr großen Umfangs des erstellten Lexikons und der dazugehörigen Excel-Dateienist dieses im Anhang dieser Arbeit zu finden.

180 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

nicht alphabetisch geordnet, sondern entsprechen in ihrer Reihenfolgeweitestgehend den Kategorien der STTS und ihrer dortigen Anordnung(Tabelle 3.2).

7.1.1 Adjektive

Unter grammatischen Gesichtspunkten sind Adjektive Wörter, die flektiertwerden können. Dementsprechend sind sie veränderbar nach Kasus,Numerus und Genus. Im Hinblick auf semantische Kriterien unterscheidet derDuden folgende Klassen (Regel 459):

• qualifizierende Adjektive: Farbe (rot, grün), Form (eckig, rund),Geschmack (süß, bitter ), Oberfläche (rau, glatt), Temperatur (warm,kalt), Ästhetik (schön, hässlich), Moral (gut, böse), Intellekt (klug, witzig),Räumliche Dimension (hoch, breit), Zeitliche Dimension (früh, spät),Wahrheitsgehalt (wahrscheinlich, angeblich)

Beispiel (1): Komm, wir malen ein so großes Pferd, ok? (024_MK.exb)

Beispiel (2): Sieht lustig aus, oder? (039_MA.exb)

• relationale Adjektive: Geografie (afrikanisch, asiatisch), Staat/Volk/Sprache(englisch, französisch), Religion (katholisch, islamisch), Epoche(römisch, mittelalterlich), Beruf (ärztlich), Bereich (wirtschaftlich,technisch), Stoff (golden, hölzern), Zeitpunkt (heutig, gestrig), RäumlicheLage (vordere, linke)

Beispiel (3): Hier, chinesisches Essen. ’Ne kleine Portion. (041_LEO.exb)

Beispiel (4): Hier ist der kleine Käsepfannkuchen mit einem schweizer Käse. (041_LEO.exb)

• quantifizierende Adjektive: Zahladjektive (Regel 509). Diese sind in dervorliegenden Arbeit unter dem POS-Tag CARD zusammengefasst. ImFolgenden werden alle unter CARD aufgeführten Lemmata in der Gruppeder quantifizierenden Adjektive aufgeführt, auch wenn sie nicht in allenFällen tatsächliche Adjektive sind.

Beispiel (5): das dritte Holzstück (013_JS.exb)

Beispiel (6): Ich habe null, neun, sechs gemacht. (033_JK.exb)

• adjektivisch gebrauchte Partizipien (Regel 458): z. B. fliegend infliegender Fisch

Beispiel (7): ein fliegender Fisch. (048_LEO.exb)

7.1. DIE BEDEUTUNGSKATEGORIEN 181

In der hier getätigten Analyse kommen qualifizierende Adjektive (ad-qual),quantifizierende Adjektive (ad-quant), relative Adjektive (ad-rel) undadjektivisch gebrauchte Partizipien (ad-part) vor. Bei den quantitativenAdjektiven handelt es sich um alle zuvor mit CARD getaggten Zahlwörter.Diese werden im Folgenden mit ad-quant bezeichnet, da auch dieDudengrammatik dies als eine Vorgehensweise zulässt (Regel 509).

7.1.2 Adverbien

Die Dudengrammatik unterscheidet vier große Gruppen von Adverbien (abRegel 837):

• Lokaladverb (Regel 848): situiert ein Geschehen, ein Objekt o. ä.im Raum oder bezeichnet eine lokale Beziehung. Schmöe (2002)unterscheidet Lokaladverbien zudem in statische (z. B. hier, da, dort,draußen, drinnen, woanders) und direktionale (z. B. hin, her, dahin, heim,fort, weg, abwärts) Adverbien ([Schmoe (2002)]).

Beispiel (8): Ich habe hier einen Ritter. (023_LUA.exb)

Beispiel (9): Hier unten läuft das ganz groß raus. (033_MK.exb)

• Temporaladverb (Regel 850): situiert ein Geschehen, ein Objekt o.ä. in der Zeit oder bezeichnet eine temporale Beziehung hinsichtlichdes Zeitpunkts (z. B. jetzt, nun, heute, gestern, morgen, eben, neulich,morgens, mittags, dann), der Dauer (z. B. immer, stets, lange, bisher),der Wiederkehr bzw. Wiederholung (z. B. manchmal, nochmal, montags,dienstags, nachmittags) und der Zeitbewertung bzw. -erwartung (z. B.bereits, schon, noch).

Beispiel (10): Ich schlafe jetzt bei den Eltern. (011_MM-exb)

Beispiel (11): Ich habe gerade nicht geklingelt. (020_LAR.exb)

• Modaladverb (Regel 852): gibt sowohl die Qualität (Art und Weise)als auch die Quantität (Menge, Ausmaß) an. Beispiele für qualitativeModaladverbien sind: so, genauso, ebenfalls, anders, nebenbei, gern,unversehens. Beispiele für quantitative Modaladverbien sind: sehr,größtenteils, einigermaßen, halbwegs, teilweise, allein.

Beispiel (12): Da ist nur ein bisschen von mir drin. (040_MK.exb)

Beispiel (13): Kannst auch so rum drehen. (046_LUA.exb)

182 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

• Kausaladverb (Regel 853): gibt den Grund für einen Sachverhaltoder eine Handlung an. Kausaladverbien enden oft auf -(et)wegenoder -halber. Beispiele: also, sonst, meinetwegen, seinetwegen,gesundheitshalber, anstandshalber, sicherheitshalber, infolgedessen,folglich, deswegen, deshalb.

Beispiel (14): Sonst können wir das nicht spielen. (050_JS.exb)

Beispiel (15): Also ich habe nicht über die Linie gemalt. (054_MK.exb)

Eine weitere und 5. Gruppe betrifft die sogenannten Kommentaradverbien(Regel 868), die sich funktional teilweise wie Abtönungspartikeln verhalten.Kommentaradverbien beziehen sich immer auf den ganzen Satz, weshalbsie auch Satzadverbien genannt werden (leider, allerdings, natürlich,selbstverständlich, vielleicht).

Beispiel (16): Das kannst du leider nicht sein. (049_MK.exb)

Beispiel (17): Aber vielleicht sind sie ja jetzt da. (050_LUA.exb)

Die Dudengrammatik nimmt noch weitere Unterscheidungen der Adverbienvor, die für die vorliegende Arbeit jedoch nicht relevant sind. Einzigdie Untergruppe der Präpositionaladverbien bzw. Pronominaladverbienist von Bedeutung. Da die Pronominaladverbien bei der Analyse derWortarten bereits dem POS-Tag PAV und somit den Pronomen zugeordnetwurden, wurde dies auch in der semantischen Analyse so gehandhabt.Pronominaladverbien beziehen sich auf die Bildungsweise mit da(r)-, hier-oder wo(r)- ([Dudenredaktion (2009)], S. 580, Tabelle 860). Weiterhin zählenaußerdem, trotzdem und deswegen zu den Pronominaladverbien.

Beispiel (18): Außerdem spielen wir, wenn uns langweilig wird. (033_MK.exb)

Beispiel (19): Was steht da, da, da_rin. (048_AV.exb)

Weitere Adverbien mit besonderen Funktionen sind interrogative Adverbien(Regel 856) und relative Adverbien (Regel 857), bei denen es sichum W-Fragewörter handelt. Da diese bereits in den STTS als Relativ-und Interrogativpronomen bezeichnet wurden, werden sie auch imFolgenden als Pronomen beschrieben. In der folgenden Übersicht allerAdverbien wird demnach unterschieden zwischen Lokaladverbien (adv-lok ),Temporaladverbien (adv-temp), Modaladverbien (adv-mod), Kausaladverbien(adv-kaus), Kommentaradverbien (adv-komm) sowie den zu den Pronomenzugeordneten Pronominaladverbien (pav ).

7.1. DIE BEDEUTUNGSKATEGORIEN 183

7.1.3 Präpositionen

Präpositionen stehen vor ihrem Bezugswort (Regel 895), z. B. nach Hause.Daneben existieren Postpositionen (meiner Meinung nach), die demBezugswort nachgestellt sind sowie Zirkumpositionen (um Himmels willen),die das Bezugswort umrahmen. Sowohl Post- als auch Zirkumpositionenkommen in den Daten der vorliegenden Arbeit nicht vor und wurden deshalbnicht weiter beachtet. Laut Dudengrammatik gibt es etwa 20 Präpositionen,die im Deutschen besonders häufig vorkommen. Dazu zählen:

in, mit, von, an, auf, zu, bei, nach, um, für, aus, vor, über, durch, unter,gegen, hinter, bis, neben, zwischen

Im Hinblick auf semantische Aspekte können fünf Gruppen vonPräpositionen unterschieden werden:

• Lokale Präposition zur Bezeichnung des Raumes, der Lage, derRichtung (Regel 905): ab, an, auf, aus, außer, außerhalb, bei, bis, durch,nach, neben, von, vor, zu

Beispiel (20): Eine Babykuh hat bei Mama getrunken. (019_RD.exb)

Beispiel (21): auf dem Spielplatz, glaube ich (020_SO.exb)

• Temporale Präposition zur Bezeichnung des Zeitpunkts und der Dauer(Regel 906): ab, an, auf, bei, binnen, für, gegen, in, innerhalb, mit, nach,seit, über, um, unter, vor, während, zu, zwischen

Beispiel (22): Im Moment brauchen wir die nicht. (026_LUA.exb)

Beispiel (23): Das habe ich auch schon mal vor langer Zeit gemacht. (053_AV.exb)

• Modale Präposition zur Bezeichnung der Art und Weise (Regel 907):auf, aus, außer, bei, bis, an, für, gegen, mit, ohne, unter, von, wider, zu

Beispiel (24): Ich gehe mit meiner Laterne. (036_LEO.exb)

Beispiel (25): In der Zeit wird Papier für euch geliefert. (033_RD.exb)

• Kausale Präposition zur Bezeichnung des Grundes, des Anlasses, derEinräumung, der Einschränkung und des Zwecks (Regel 908): auf, aus,bei, durch, für, kraft, laut, mangels, mit, mittels, nach, trotz, über, um,unter, von, wegen

Beispiel (26): Vielleicht ist es wegen dem? (038_LL.exb)

Beispiel (27): Wegen dir spiele ich nicht mehr mit. (048_JS.exb)

184 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

• Neutrale (leere) Präposition als Verbindungsglied ohne eigeneBedeutung (Regel 908): hoffen auf, leiden unter, bitten um, Achtung vor,Garantie für, stolz auf, froh über, fähig zu

Beispiel (28): Hier werden Äpfel zu Mehl gepresst. (033_JS.exb)

Beispiel (29): Ich bin am Verlieren. (047_RD.exb)

Die folgenden Bezeichnungen wurden für die semantische Analyseder Präpostitionen verwendet: Lokale Präpositionen (pr-lok ), TemporalePräpositionen (pr-temp), Modale Präpositionen (pr-mod), KausalePräpositionen (pr-kaus) und Neutrale Präpositionen (pr-neutr ).

7.1.4 Artikel

In der vorangegangenen Wortartenanalyse wurde der Artikel nicht nachbestimmt (der, die, das) und unbestimmt (ein/eine) unterschieden, sondernstets mit ART bezeichnet. Aufgrund des zahlreichen Vorkommens von Artikelnaber auch der Schwierigkeit einer semantischen Einordnung sollen Artikelan dieser Stelle nicht weiter gruppiert werden als bisher. Bestimmte undunbestimmte Artikel werden dementsprechend als Artikel mit dem Kürzel artbezeichnet.

Beispiel (30): Das ist ja auch nicht eine Schwimmhalle, das ist ein Schwimmbad.(019_MK.exb)

Beispiel (31): Dann kommst du immer mit dem Baby hier her zu uns. (057_MK.exb)

7.1.5 Fremdsprachliches Material

Fremdsprachliches Material kam nur sehr selten in den Daten dieser Arbeitvor. Da es sich zudem nur um die Nennung einzelner Wörter (oder Zahlen)handelt, sollen auch diese Lemmata nicht weiter gruppiert werden. Sie werdenin der vorliegenden semantischen Betrachtung mit fm bezeichnet.

Beispiel (32): ... habe ich jetzt Ice Age drei ausgeliehen. (046_MK.exb)

7.1.6 Interjektionen

Die Interjektionen werden von der Dudengrammatik unter dem EintragPartikeln behandelt (Regel 887). Dies ist unter semantischen Aspekten sichersinnvoll, da die Interjektion als Ausdruckspartikel eine gesonderte Gruppeausmacht. Da in der hier durchgeführten Analyse mittels der STTS (Kapitel6) die Interjektionen von den Partikeln gesondert betrachtet und analysiert

7.1. DIE BEDEUTUNGSKATEGORIEN 185

wurden, werden sie auch an dieser Stelle gesondert aufgeführt. Untersemantischen Gesichtspunkten zählen sie aber zu den Partikeln und sindsomit, wie schon erwähnt, eine Ausdruckspartikel zum Ausdruck spontaner,reaktiver Emotionen und Bewertungen. Beispiele: pfui, hurra, huch, igitt, juhu,oje, pst!

Die Interjektionen werden in ihrer semantischen Kategorie mit itjgekennzeichnet.

Beispiel (33): pfui deibel (039_LEO.exb)

7.1.7 Konjunktionen und Subjunktionen

Bei den Junktionen wurde bisher unterschieden zwischen Konjunktionen(KON), Vergleichskonjunktionen (KOKOM) und unterordnenden Konjunktionenbzw. Subjunktionen (KOUS). Die Dudengrammatik unterscheidet, wenn es umdie Funktion und Bedeutung geht, zwei große Gruppen, die wiederum weiteruntergliedert sind: Konjunktionen und Subjunktionen.

Die Bezeichnung in Klammern steht für das Kürzel, das der jeweiligenJunktion in der semantischen Analyse entspricht.

Konjunktionen (Regeln 934 bis 940)

Die Konjunktionen werden unterschieden in:

• additive Konjunktionen (kon-add) (Regel 935): und, plus

Beispiel (34): Ich habe einen riesigen Schnabel und damit töte ich alle Fische. (042_MK.exb)

• alternative Konjunktionen (kon-alt) (Regel 936): oder

Beispiel (35): Im Sommer kann ich beim Halbfinale oder beim richtigen Finale zugucken.(058_JS.exb)

• adversative und konzessive Konjunktionen (kon-adv ) (Regel 937):aber, doch, jedoch, sondern, bloß

Beispiel (36): (ich habe) drei (NN), aber dafür hast du mehr (036_LAR.exb)

• spezifizierende Konjunktionen (kon-spez) (Regel 938): außer

Beispiel (37): hier darf keiner durch, außer den ... (024_MK.exb)

• kausale Konjunktionen (kon-kaus) (Regel 939): denn, weil, da

Beispiel (38): aber die beiden Zahlen stimmen nicht, denn die Zwei ist zu klein (030_MK.exb)

• vergleichende Konjunktionen (kon-vgl) (Regel 940): wie, als

Beispiel (39): noch größer wie2 meiner (039_MA.exb)2Grammatikalisch korrekt müsste es an dieser Stelle heißen „noch größer als meiner“.

186 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

Subjunktionen (Regeln 941 bis 952)

Die Subjunktionen werden unterschieden in:

• neutrale Subjunktionen (sub-neutr ) (Regel 942): dass, ob

Beispiel (40): Der will immer bestimmen, dass der Punkt so lang geht. (044_MK.exb)

• temporale Subjunktionen (sub-temp) (Regel 943): als, wenn, indem,nachdem, bis, bevor

Beispiel (41): Haben wir gesehen, als wir mit Mama wieder rausgegangen sind.(054_AV.exb)

• konditionale Subjunktionen (sub-kond) (Regel 944): wenn, falls, ob

Beispiel (42): Wenn es raus geht, dann pack’ es da rein. (023_LUA.exb)

• adversative Subjunktionen zur Bezeichnung des Gegensatzes(sub-adv ) (Regel 945): anstatt

Adversative Subjunktionen kommen in den Daten dieser Arbeitnicht vor.

• restriktive Subjunktionen zur Bezeichung der Einschränkung(sub-restr ) (Regel 946): außer dass

Restriktive Subjunktionen kommen in den Daten dieser Arbeitnicht vor.

• modal-instrumentale Subjunktionen zur Bezeichnung des Mittels, umdas im Hauptsatz genannte Ziel zu erreichen (sub-mod-instr ) (Regel947): indem, ohne dass

Beispiel (43): Wenn man fertig getankt hat, kann man gleich wieder losfliegen ohne zubezahlen. (046_MK.exb)

• Subjunktionen zum Ausdruck eines Vergleichs (sub-vgl) (Regel 948):als, wie

Subjunktionen zum Ausdruck eines Vergleich kommen in denDaten dieser Arbeit nicht vor.

• kausale Subjunktionen (sub-kaus) (Regel 949): weil, wo, umsomehr/weniger als

7.1. DIE BEDEUTUNGSKATEGORIEN 187

Beispiel (44): ja, weil ich krank bin (033_MK.exb)

• konsekutive Subjunktionen (sub-kons) (Regel 950): sodass, (so) - dass

Konsekutive Subjunktionen kommen in den Daten dieser Arbeitnicht vor.

• finale Subjunktion (sub-fin) (Regel 951): damit, dass, um zu

Beispiel (45): Ja! Und weit, damit ich reinpasse. (019_JS.exb)

• konzessive Subjunktionen (sub-konz) (Regel 952): obwohl, auch wenn

Beispiel (46): Wir beide sind keine Anfänger, obwohl das nicht stimmt. (058_JS.exb)

7.1.8 Substantive

Die Substantive als Inhaltskategorie ließen bereits bei einem erstenBlick auf die geäußerten Tokens vermuten, dass es nicht leicht seinwird, Gruppierungen zu schaffen, die alle Substantive in ihrer Füllezusammenfassen. So schreibt auch die Dudengrammatik, dass eineEinteilung der Substantive aus unterschiedlichen Perspektiven hinsichtlichder Bedeutung möglich ist (Regel 220). Hinzu kommt, dass zwischenden einzelnen Gruppen Zusammenhänge bestehen und Substantive nichtimmer eindeutig einer Gruppe zugeordnet werden können. FolgendeBedeutungsgruppen werden unterschieden:

Konkreta und Abstrakta (Regel 221)

Konkreta nennt man Substantive, mit denen etwas Gegenständlichesbezeichnet wird (Mensch, Mann, Frau, Kind, Blume, Tisch, Wald). Abstraktasind Substantive, mit denen etwas Nichtgegenständliches bezeichnet wird(Geist, Seele, Leben, Schlag, Angst, Wurf, Frieden, Liebe).

Die Abstrakta sind im Duden folgendermaßen gegliedert:

• Menschliche Vorstellungen (n-abstr-vorst): Geist, Seele

Beispiel (47): Ein Schlitzohr hat Geister in der Flasche. (011_MM.exb)

• Handlungen (n-abstr-hdlg): Schlag, Wurf, Schnitt, Boykott

Beispiel (48): Ich hab’ das (mit), nicht mit Absicht umgekippt. (026_LUA.exb)

• Vorgänge (n-abstr-vorg): Leben, Sterben, Schwimmen, Schlaf, Reise

188 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

Beispiel (49): Dieses Mal wird es von der Herstellung ein bisschen (anders). (033_JS.exb)

• Zustände (n-abstr-zust): Friede, Ruhe, Angst, Liebe, Alter

Beispiel (50): Soll ich dir sagen, warum ich solche Angst hatte? (058_JS.exb)

• Eigenschaften (n-abstr-eig): Würde, Verstand, Ehrlichkeit, Krankheit,Dummheit

Beispiel (51): Das ist nicht die Länge. (049_MK.exb)

• Verhältnisse oder Beziehungen (n-abstr-verh): Ehe, Freundschaft,Nähe, Unterschied

Abstrakte Nomen in der Kategorie Verhältnis oder Beziehungkamen in den Daten dieser Arbeit nicht vor.

• Wissenschaften, Künste (n-abstr-wiss): Biologie, Mathematik, Musik

Beispiel (52): ... der kann nicht so viel Deutsch. (024_LUA.exb)

• Maß- und Zeitbegriffe (n-abstr-maß bzw. n-abstr-zeit): Meter, Watt,Gramm, Jahr, Stunde, Mai

Beispiel (53): Nächste Woche ist schon Weihnachten. (040_JS.exb)

Diese Unterteilung der Abstrakta wird auch in der vorliegenden Arbeitverwendet, wobei die gebrauchten Kürzel in Klammern stehen. An einigenStellen war es nicht möglich, eine allgemeingültige Kategorisierungvorzunehmen. Dies betrifft zum Beispiel das Abstraktum Geburtstag,welches hier mit n-abstr-zeit bezeichnet wurde. Eine andere Personhingegen hätte ebenso die Bezeichnung n-abstr-zust (Zustand) wählenkönnen, auch n-abstr-vorg (Vorgang) wäre möglich. Solche zwiespältigenabstrakten Nomen kamen hin und wieder vor und ließen letztendlich nureine subjektive Bezeichnung zu. Alle Bezeichnungen wurden mit bestemWissen und Gewissen vorgenommen, sie erheben jedoch keinen Anspruchauf Einheitlichkeit zu Kategorisierungen, die durch andere Personenvorgenommen werden. Des Weiteren können Abstrakta dahingehendunterschieden werden, ob sie zählbar sind oder nicht. Eine solcheUnterscheidung wurde in dieser Arbeit jedoch nicht vorgenommen.

Belebtheit (Regel 222)

Konkreta werden im Duden näher nach Belebtheit bestimmt und auch inder vorliegenden Arbeit wurden die konkreten Substantive nach Belebtheit(n-belebt) und Unbelebtheit (n-unbelebt) unterschieden.

7.1. DIE BEDEUTUNGSKATEGORIEN 189

• belebte Substantive: Mensch, Katze, Käfer, Baum, Alge

Beispiel (54): Eine Babykuh hat bei Mama getrunken. (019_RD.exb)

Beispiel (55): Kimba ist der kleine weiße Löwe. (019_JS.exb)

• unbelebte Substantive: Fahrzeug, Weg, Stein

Beispiel (56): Hier kommen die ganzen Holzteile und Porzellan (...) (013_JS.exb)

Beispiel (57): Hier kommen die Murmeln rein. (024_LUA.exb)

In der Kategorie der Konkreta war es an einigen Stellen nicht möglich, eineeinheitliche Kategorisierung vorzunehmen. Dies betrifft Begriffe, die je nachBlickwinkel belebt sein können oder auch unbelebt. Das Nomen Baum wurdehier demnach als belebtes Konkretum angesehen, ebenso Blatt oder Wasser.Handelt es sich um Körperteile (Arm, Auge, K opf) oder um essbare pflanzlicheoder tierische Teile (Banane, Salat, Fleisch) wurden diese hingegen mitdem Kürzel n-unbelebt gekennzeichnet. Andere Wissenschaftler/innenwürden an diesen Stellen vielleicht ein belebtes Konkretum zu Grundelegen. Diese Zwiespältigkeiten konnten auch nach intensiven Literatur- undOnlinerecherchen nicht abschließend geklärt werden, so dass in dieser Arbeitdie eben genannten Kriterien Anwendung fanden.

Eigennamen und Appellativa (Regel 223)

Eine Unterscheidung zwischen Eigennamen und Appellativa wird in derLiteratur meistens derart vorgenommen, dass Eigennamen ein bestimmtesIndividuum bezeichen; Appellativa hingegen bezeichnen eine Gattung oderKlasse. Eigennamen bezeichnen demnach keine besondere Klasse mitbestimmten Eigenschaften, sondern jeweils ein bestimmtes Individuum([Dudenredaktion (2009)]).

Beispiele für Appellativa (nach [Dudenredaktion (2009)]):

• Katzen können in der Dunkelheit gut sehen.

• Autos verschmutzen die Umwelt.

• Bären sind Raubtiere.

Appellativa werden im Duden in folgende Gruppen eingeteilt:

• Volksbezeichnungen (Regel 226): Italiener, Russin

• Produktbezeichnungen (Regel 227): Apple Power Macintosh, VW GolfVariant

190 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

• Nomenklaturen (Regel 228): das Insekt, der Tausendfüßer, der Käfer

Beispiele für Eigennamen (nach [Dudenredaktion (2009)]):

• Paul ist sieben Jahre alt.

• die Vereinigten Arabischen Emirate

• Frankreich grenzt an Deutschland.

Eigennamen können laut Dudengrammatik in weitere Gruppen unterteiltwerden, die hier zu Zwecken der Einheitlichkeit zwar aufgeführt, in derspäteren semantischen Betrachtung jedoch nicht derart spezifisch verwendetwurden (Regel 225).

• Personennamen: Moritz, Gertrud, Elisabeth

• Geographische Namen: Finnland, das Allgäu, die Zugspitze

• Astronomische Eigennamen: Saturn (Planet), der Halleysche Komet

• Institutionen, Organisationen, Firmen: der Stadtrat, das StatistischeBundesamt

• Zeitungen, Zeitschriften, Bücher: die Morgenpost, die Zeitschrift fürSprachwissenschaft, die Bibel

• Einzelne Ereignisse: der Schwarze Freitag, der Zweite Weltkrieg

• Andere Objekte und Erscheinungen: das Weiße Haus, der Schiefe Turmvon Pisa

• Übernamen: der Alte Fritz (= Friedrich der Große), der Rote Planet(=Mars) (Beispiele aus [Dudenredaktion (2009)])

Eine derartige Unterteilung in Eigennamen und Appellativa wurde in dieserArbeit nicht vorgenommen. Die Gründe dafür liegen zum einen darin, dassdiese Unterscheidung bei der Bezeichnung der Lemmata mit den POS-Tagsebenfalls nicht getätigt wurde und alle Eigennamen sowie Appellativa dasPOS-Tag NE erhielten. Zum anderen kommen Eigennamen und Appellativanur relativ selten vor und eine derartige Analyse wäre für die Zwecke dervorliegenden Arbeit nicht besonders aufschlussreich bzw. hilfreich. AlleEigennamen und Appellativa wurden für die semantische Analyse mitdem Kürzel ne bezeichnet und können dabei je nach Kontext alle obenaufgeführten Unterkategorien, wie sie die Dudengrammatik vorgibt, umfassen.

Beispiel (58): MK , ich bin auf dem Hochbett! (024_LUA.exb)

Beispiel (59): Kannst du mit mir Memory spielen? Memory, Julia? (045_MM.exb)

7.1. DIE BEDEUTUNGSKATEGORIEN 191

7.1.9 Pronomen

In der Dudengrammatik erfolgt in Regel 349 (Seite 252) eine Beschreibungder Semantik von Pronomen (und Artikelwörtern). Demzufolge habenPronomen verweisende, zeigende, fragende oder quantifizierende Funktion.Pronomen können zudem die Funktion einer Nominalphrase übernehmen.Im weiteren Verlauf werden alle im Deutschen auftretenden Pronomenartenbeschrieben und in einer Tabelle gegenübergestellt (Regel 350). Die dortaufgeführten Pronomenarten entsprechen im Wesentlichen den in den STTSaufgelisteten POS-Tags, weshalb an dieser Stelle keine Abweichungenzu den semantischen Kategorien auftreten3. Folgend werden deshalbdie Pronomen mit ihren Entsprechungen in den STTS aufgeführt. Diesentspricht ferner der Beschreibung in der semantischen Analyse, wobei dieBezeichnung für die Bedeutung in Kleinbuchstaben erfolgt. In Klammernsteht zuerst die Bezeichnung für die POS-Tags, dahinter die Bezeichnungfür die Bedeutungsanalyse. Angegeben sind nur jene Kategorien, die auchtatsächlich in den Daten vorkommen:

• Personalpronomen (PPER, pper ): ich, mich, mir, meiner, wir, uns, unser,du, dich, dir, deiner, ihr, euch, euer, er, sie, es, ihn, seiner, sie, ihnen, ihrer

Beispiel (60): Ich habe kein rot mehr. (053_AV.exb)

Beispiel (61): Wenn du mal wieder den Roboter brauchst, musst du nur anrufen.(033_JS.exb)

• Reflexivpronomen (PRF, prf): mich, mir, uns, dich, dir, euch, sich,einander

Beispiel (62): Nein, der muss sich selbst was holen. (033_JK.exb)

Beispiel (63): Ich wünsche mir rot. (036_MM.exb)

• Possessivpronomen (PPOSAT, pposat, PPOSS, pposs): mein - unser,dein - euer, sein - ihr

Beispiel (64): Unsere/pposat Marina kommt heute. Das ist Mamas Freundin. (038_MM.exb)

Beispiel (65): das ist dein(e)s/pposs (038_MM.exb)

• attribuierende und substituierende Demonstrativpronomen (PDAT,pdat, PDS, pds): der, die, das, dieser - jener, derjenige, derselbe

3Die bestimmten und unbestimmten Artikel werden, wie schon erwähnt, unter dem Abschnitt 7.1.4behandelt. Die attribuierenden Demonstrativpronomen (PDAT) sind hinsichtlich ihrer semantischenZuordung eigentlich Artikel. Da sie bei der Bezeichnung mittels der POS-Tags jedoch das Tag PDATerhalten haben, sollen sie der Übersichtlichkeit halber auch hier mit dem Kürzel pdat bezeichnet werden,wohlwissend, dass dies strenggenommen in semantischer Hinsicht kein Demonstrativpronomen darstellt.

192 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

Beispiel (66): Wenn du zum Beispiel dieses4/pdat Körbchen hier hast. (031_MK.exb)

Beispiel (67): Das/pds ist ein ganz schön weiter Weg. (044_MK.exb)

• Relativpronomen (PRELS, prels): der, die, das, welcher, wer, was

Beispiel (68): Das ist die Nummer eins, die du einstellst. (048_MK.exb)

Beispiel (69): alle Steine, die bei mir draußen liegen (039_LEO.exb)

• Interrogativ- und Relativpronomen (PWAT, pwat, PWAV, pwav, PWS,pws): wer, was, welcher, was für (einer)

Beispiel (70): In welche/pwat Schachtel sollen die Murmeln? (024_LUA.exb)

Beispiel (71): Warum/pwav macht ihr sowas? (046_LUA.exb)

Beispiel (72): Was/pws ist, was/pws wollen wir jetzt machen? (033_MK.exb)

• Indefinitum (PIAT, piat, PIDAT, pidat, PIS, pis): man, jederman, jemand,irgendjemand, niemand, nichts, etwas, irgendwas, was, irgendwer,wer, alle, jeder, beide, einige, manche, welche, solche, irgendwelche,irgendein, kein, ein bisschen, ein wenig, ein paar

Beispiel (73): wenn man keine/piat Karte mehr hat (026_MK.exb)

Beispiel (74): die beiden/pidat Zahlen stimmen nicht (030_MK.exb)

Beispiel (75): aber man/pis muss gut aufpassen (013_JS.exb)

7.1.10 Partikeln

Unterschieden werden Gradpartikeln (ptk-grad), Fokuspartikeln(ptk-fok ), Negationspartikeln (ptk-neg), Abtönungspartikeln (ptk-abt),Gesprächspartikeln (ptk-gespr ) sowie Interjektionen (diese wurden weiteroben gesondert behandelt). Daneben werden in den STTS Partikeln mitVerbzusatz (PTKVZ ) und Partikeln, die neben dem Infinitiv mit „zu“ stehen(PTKZU) unterschieden. Ferner existieren die sogenannten Antwortpartikeln(ja, doch, bitte) (PTKANT ). Alle drei letztgenannten Partikelnarten wurdenauch in der semantischen Analyse verwendet und kommen entsprechendihrer Bezeichnung als POS-Tag in Kleinbuchstaben vor: ptkvz, ptkzu undptk-ant.

Generell soll erwähnt sein, dass es - ebenso wie bei der Analyseanderer Wortarten - bei der Zuordnung der Partikeln zu ihren semantischen

4Dieses ist wie schon erwähnt eigentlich Determiner. Aufgrund der Kennzeichnung mit dem POS-TagPDAT durch die STTS bleibt die Bezeichnung pdat hier erhalten.

7.1. DIE BEDEUTUNGSKATEGORIEN 193

Kategorien vorkommen kann, dass eine andere Person eine andereKategorie gewählt hätte. Aufgrund zum Teil subjektiver Entscheidungenist das unvermeidbar. In den STTS werden beispielsweise vielePartikelnarten zu den Adverbien gezählt, was in diesem Abschnittaufgrund der Referenzierung auf die Dudengrammatik nicht geschehensoll (z.B. [Schiller, Teufel, Stöckert und Thielen (2009)]). Wie alle anderenZuordnungen, die im Verlauf getätigt wurden und werden, wurde auch dieseAnalyse mit besten Wissen und Gewissen vorgenommen.

Gradpartikeln (Regel 871)

Gradpartikeln geben an, in welchem Intensitätsgrad eine Eigenschaftausgeprägt ist. Meistens stehen sie vor Adjektiven und Adverbien, vorZahlwörtern und bei Verben. Gradpartikeln zeichnen sich zudem dadurchaus, dass sie auch weggelassen werden können, ohne dass der Satzungrammatisch wird. Gekennzeichnet werden Gradpartikeln als semantischeKategorie mit dem Kürzel pkt-grad.

Beispiele ([Dudenredaktion (2009)]): wenig, etwas, einigermaßen, fast,ziemlich, so, sehr, besonders, ganz5, zu, gar, überhaupt, viel (+ADJ), total,echt, unheimlich, schön

Beispiel (76): Dann muss man überhaupt nichts bezahlen. (033_JS.exb)

Beispiel (77): Mir tut es gar nicht weh. (043_RD.exb)

Fokuspartikeln (Regel 873)

Fokuspartikeln kennzeichnen jenen Teil des Satzes, der den größtenMitteilungswert hat. Sie werden im Folgenden mit ptk-fok bezeichnet.

Beispiele ([Dudenredaktion (2009)]): nur, allein, bloß, sogar, selbst,besonders, auch

Beispiel (78): Und ich spiele das sogar . (046_MK.exb)

Beispiel (79): Die brauchen selber keine Wärme. (046_MK.exb)

Negationspartikeln (Regel 874)

Die meisten Partikeln sind dadurch gekennzeichnet, dass man sie weglassenkann, ohne die Grammatik eines Satzes zu verletzen. Negationspartikelnhingegen können nicht weggelassen werden, weil sich der Wahrheitswertder jeweiligen Aussagen verändern würde. Die häufigste Negationspartikel

5Ganz kann je nach Kontext sowohl Partikel als auch Adjektiv sein.

194 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

im Deutschen, um eine Aussage oder einen Satz zu negieren ist nicht. Inder semantischen Analyse wurden alle einen Satz, eine Aussage oder einenSachverhalt negierenden Lexeme wie nein, nie und niemals neben nicht alsNegationspartikel mit dem Kürzel ptk-neg bezeichnet.

Beispiel (80): habe noch nie damit gespielt (031_SO.exb)

Beispiel (81): Ich weiß es nicht mehr, wie der heißt. (042_MK.exb)

Abtönungspartikeln (Regel 875)

Die Abtönungspartikel, auch Modalpartikel genannt, drückt Einstellungen,Annahmen, Bewertungen und Erwartungen der Sprecherin/des Sprechersbezüglich eines Sachverhaltes aus. Sie bezieht sich auf den gesamten Satz.Das Kürzel für die Abtönungspartikel ist im Folgenden ptk-abt.

Beispiele ([Dudenredaktion (2009)]): nicht, ja, bloß, doch, schon, denn,wohl, aber, nur, halt, eben, mal, auch, eigentlich, etwa, vielleicht, ruhig

Beispiel (82): Findus, hack doch nicht auf mich drauf! (013_JS.exb)

Beispiel (83): Ist denn das ein Briefumschlag? (033_RD.exb)

Gesprächspartikeln (Regel 880)

In der Gruppe der Gesprächspartikeln werden in der DudengrammatikGliederungspartikeln, Antwortpartikeln, manchmal auch Interjektionenund Onomatopoetika zusammengefasst. Laut Schwittala (2002) sindGesprächspartikeln ein typisches Merkmal gesprochener Sprache([Schwittala (2002)], S. 259-281). Sie stehen meist am Anfang oder am Endeeines Satzes. In der semantischen Analyse wurden die Gesprächspartikelnmit ptk-gespr bezeichnet. Die Antwortpartikeln wurden in der semantischenAnalyse nicht zu den Gesprächspartikeln gezählt, sondern sind in dergesonderten Kategorie der Antwortpartikeln (ptk-ant) zusammengefasst.Ebenso befinden sich die Interjektionen in der eigenen semantischenKategorie itj.

Beispiele ([Dudenredaktion (2009)]): ja, ähm, äh, so, also, dann, nun, gut,naja, klar, sicher, genau, aber, übrigens, entschuldigung, natürlich, hoffentlich,leider, kaum, wie bitte?, was?, hm

Beispiel (84): Äh, weiß ich nicht. (036_LAR.exb)

Beispiel (85): Hm, hab’ ich vergessen. (038_LL.exb)

7.1. DIE BEDEUTUNGSKATEGORIEN 195

Antwortpartikeln, Partikeln mit Verbzusatz und Partikeln mit „zu“ nebendem Infinitv

Diese Partikeln haben in der Dudengrammatik keine eigenen Einträge. Siewurden in der semantischen Analyse jedoch weiterhin gemäß ihrer Funktionals POS-Tag in den STTS verwendet. Dabei entsprechen Antwortpartikeln(ptk-ant) der Kategorie PTKANT (ja, doch, bitte, bitteschön, danke, ok bzw.okay ), die Partikeln mit Verbzusatz (ptkvz) entsprechen der Kategorie PTKVZgemäß den STTS. Hinter dem Kürzel ptkzu verbirgt sich die Partikel zu, diezusammen mit einem Verb den Infinitv bildet.

Beispiel (86): Dankeschön!/ptk-ant (038_LL.exb)

Beispiel (87): Gut, dann geb’ ich jedem ein paar ab/ptkvz. (020_MM.exb)

Beispiel (88): ohne eine Pause zu/ptkzu machen (053_LEO.exb)

7.1.11 Verben

In Bezug auf die Bedeutung und die Funktion können Verben hinsichtlichder Aktionsart und der Aktionalität unterschieden werden (Regel 564).Die Aktionsart steht im Zusammenhang mit dem vom Verb bezeichnetenGeschehen oder Sachverhalt sowie dem Verlauf der Zeit. Unterschiedenwerden Verben, die punktuelle oder zeitbegrenzte Vorgänge beschreibenund dementsprechend einen Kulminations- und Endpunkt voraussetzen.Der Dudengrammatik zufolge werden solche Verben als telisch bezeichnet.Beispiele für telische Verben sind: gewinnen, einschlafen, loslaufen, finden,begegnen, ausziehen. Demgegenüber beschreiben atelische VerbenZustände und Relationen oder dynamische Prozesse oder Aktivitäten, diekeinen Kulminations- oder Endpunkt voraussetzen (Regel 566). Beispiele füratelische Verben sind: sein, wohnen, laufen, schwitzen, streicheln, winken,abnehmen, altern, behalten. Die Aktionalität behandelt Klassifizierungen,die sich besonders an der semantischen Rolle des Subjektaktantenorientieren (Regel 570). Folgend soll die traditionelle Unterscheidung inHandlungsverben, Vorgangsverben und Zustandsverben erläutert werden.Diese Einteilung wurde auch zur Beschreibung der hier ermittelten Verben zuRate gezogen.

• Handlungsverben sind agentiv. Sie ordnen dem Subjekt eine typischeAgensrolle zu und können telisch oder atelisch sein. Immer aberhaben sie eine dynamische Aktionsart. Handlungsverben werden mitdem Kürzel (v-)handlung bezeichnet. Beispiele: setzen, töten, singen,arbeiten

196 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

Beispiel (89): Wir spielen doch nur Räuber. (023_LUA.exb)

Beispiel (90): Ich habe dort schon gebastelt . (040_MK.exb)

• Vorgangsverben sind nicht agentiv. Sie beschreiben dynamischeSachverhalte, die nicht unter der Kontrolle eines Agens stehen undkönnen telisch oder atelisch sein. Vorgangsverben werden mit demKürzel (v-)vorgang bezeichnet. Beispiele: erfrieren, wachsen, schlafen

Beispiel (91): In der Zeit wird Papier für euch geliefert . (033_RD.exb)

Beispiel (92): Hier schlafen ganz viele Krippenkinder. (038_LL.exb)

• Zustandsverben sind atelische Verben, die statische Relationenoder Sachverhalte beschreiben. Sie verlangen kein typisches Agensals Subjekt. In dieser Arbeit ist auch haben, wenn es als Vollverbvorkommt, meistens ein Zustandsverb, wohlwissend, dass es vonanderen Wissenschaftler/innen vielleicht keine solche Bezeichnungerhalten würde. Im Hinblick auf seine Semantik drückt haben jedocheinen Zustand des Besitzes aus, der weder durch eine Handlung nochdurch einen Vorgang beschrieben werden kann. Zustandsverben werdenmit dem Kürzel (v-)zustand bezeichnet. Beispiele: liegen, wohnen,besitzen

Beispiel (93): Ich glaube mein Papa... (020_LAR.exb)

Beispiel (94): Wir haben ’ne Meisterin. (020_MM.exb)

Auxiliarverben, Modalverben, Kopulaverben

Die oben aufgeführte Unterscheidung in Handlungsverben, Vorgangsverbenund Zustandsverben wurde für alle finiten (VVFIN) und infiniten Verben(VVINF) verwendet, die keine Modalverben, Auxiliarverben oder Kopulaverbensind. Insbesondere bei den Kopulaverben (sein, werden, bleiben), die inden STTS mit VVFIN oder VVINF bezeichnet wurden, musste je nachKontext entschieden werden, ob es sich um ein Kopulaverb handelt odernicht. Kopulaverben wurden mit v-kop bezeichnet. Laut Dudengrammatikunterscheiden sich die Kopulaverben hauptsächlich darin voneinander, ob siedie Aussage des Prädikativs neutral (sein), als sich entwicklend (werden) oderals fortbestehend (bleiben) charakterisieren. Weiterhin ist das KopulaverbTräger der Modus- und Temporalmerkmale des Satzes. Der Duden schreibtzudem, dass die Bezugsphrase normalerweise das Subjekt ist. Dies wird inden folgenden Beispielen deutlich (nach [Dudenredaktion (2009)]):

7.1. DIE BEDEUTUNGSKATEGORIEN 197

• (Anna) ist (gesund). (Anna) wird (gesund). (Anna) bleibt (gesund).

• (Anna) ist (Chefin). (Anna) wird (Chefin). (Anna) bleibt (Chefin). (Regel1202)

Des Weiteren können bei Kopulaverben auch Prädikative mit identifizierenderBedeutung stehen:

• (Der Gärtner) war (der Mörder). (Regel 1203)

Manchmal sind insbesondere auch Adverbialien (z. B. Lokal- oderModaladverbialien) als Ergänzung bei Kopulaverben möglich:

• (Anna) ist (in Paris). (Der Ring) ist (aus Silber). (Regel 1203)

Das Verb sein kann je nach Kontext auch Passiv-, Zustands- (v-zustand) oderAuxiliarverb (v-aux) sein. Das Verb werden kann je nach Kontext Kopulaverb,Passivhilfsverb oder Hilfsverb sein (v-aux) sein. Gleichermaßen verhält essich mit dem Verb bleiben, das je nach Situation ein Kopulaverb sein kannoder aber ein Zustandsverb (v-zustand). Einen ungewöhnlichen Zustandbilden die Verben sein, werden und bleiben, wenn es sich um einen Infinitvhandelt. Nach den STTS müssten sie mit VAINF (infinites Auxiliarverb)gekennzeichnet werden, obwohl es sich streng genommen an dieser Stellenicht um ein infinites Auxiliarverb handelt (bzw. handeln kann). Aus diesemGrund wurden sein, werden und bleiben, wenn sie in infiniter Form vorliegen,mit dem POS-Tag VVINF gekennzeichnet. In ihrer Bedeutungskategorie sindsie (in dieser Arbeit) zumeist ein Kopulaverb und werden dementsprechendmit v-kop gekennzeichnet.

Alle finiten Auxiliarverben, die bereits in den STTS mit VAFINgekennzeichnet sind, wurden in der semantischen Analyse mit v-aux markiert.Die Modalverben müssen, können, sollen, wollen, dürfen, mögen/möchtenwurden in der Wortartenanalyse mit VMFIN bezeichnet; in der semantischenAnalyse mit v-mod.

Beispiel (95): du hast aufgedeckt (031_MM.exb) (Auxiliarverb)

Beispiel (96): Oder man springt runter mit einem Seil, das hier angefesselt ist . (041_MK.exb)(Auxiliarverb)

Beispiel (97): Ich will mir dir Ritterburg spielen. (023_MK.exb) (Modalverb)

Beispiel (98): Soll ich dir sagen, was KD immer macht? (039_LEO.exb) (Modalverb)

Beispiel (99): Das sind keine Indiander. (039_LEO.exb) (Kopulaverb)

198 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

Beispiel (100): Das ist im Aquarium. (053_RD.exb) (Kopulaverb)

Wie in diesem Abschnitt dargestellt, ergeben sich für die Bezeichnung derVerben sechs Kategorien: (v-)handlung, (v-)vorgang, (v-)zustand, v-mod,v-aux und v-kop. Im hier erstellten Lexikon (Anhang) werden Verben derHandlung, des Vorgangs und des Zustandes der Übersichtlichkeit halbermit v-handlung, v-vorgang und v-zustand gekennzeichnet, wobei v- dieKategorie Verb einleitet.

7.2 Tendenzen in der Verwendung von Inhaltswörtern

In den folgenden Unterabschnitten werden ausgesuchte Lemmata imHinblick auf mögliche sprachliche und kognitive Entwicklungsschritte derhier untersuchten Kinder - an dieser Stelle zunächst die Inhaltskategorien- vorgestellt. Die Auflistung aller Lemmata in den drei Altersgruppen,geordnet nach ihren jeweiligen Bedeutungskategorien, befindet sich alsgesondertes Dokument als Teil des erstellten Lexikons im Anhang dieserArbeit (Zusammenfassung_Lemmata_in_den_Gruppen).

7.2.1 Nomen (n-abstr-eig, n-abstr-hdlg, n-abstr-maß, n-abstr-vorg,n-abstr-vorst, n-abstr-zeit, n-abstr-zust, n-belebt, n-unbelebt, ne)

An dieser Stelle widme ich mich dem Vorkommen der Nomen in den dreiAltersgruppen. Aufgrund der großen Anzahl der Nomen werden in diesemUnterabschnitt lediglich ausgewählte Nomen, die im Hinblick auf das Alter derhier untersuchten Kinder wichtige Entwicklungsschritte darstellen können,aufgeführt. Zunächst kann festgestellt werden, dass sich zahlreiche Nomenauf typisch konkrete Inhaltskategorien beziehen, wie es bereits Kauschkepostulierte ([Kauschke (2012)], S. 56). In der folgenden Übersicht habe ichversucht, alle Nomen in den drei Altersgruppen aufzuführen, die in der Formnur selten im frühen Wortschatz zu finden sind und demnach besondererAufmerksamkeit bedürfen. Dazu gehören abstrakte Nomen, die physiologischeZustände (Müdigkeit, Durst etc.) oder Emotionen (Angst, Freude) ausdrückensowie weitere abstrakte Begriffe (Glück ) und übergeordnete Begriffe (Hund).Nach Durchsicht der Daten ist weiterhin auffällig, dass die hier untersuchtenKinder vor allem in der zweiten und dritten Altersgruppe eine große Vielfaltan Komposita verwendeten, insbesondere solche, die in der Form nicht imWörterbuch vokommen. An dieser Stelle ist eine Wortschöpfungsfähigkeit

7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN 199

erkennbar, die vermutlich im Vorschulalter stark expandiert. Gerade imHinblick auf übergeordnete Begriffe und Komposita ist es jedoch nichtimmer eindeutig, diese zuzuordnen. Der Grund ist vermutlich, dass dieEntwicklung beider Kategorien miteinander einhergeht. Aus diesem Grundsind Hyperonyme und Komposita zu einer Kategorie zusammengefasst.

Nomen/Altersgruppe Gruppe 1281_1495 Gruppe 1496_1708 Gruppe 1709_1983

abstrakte Begriffe

(Auswahl)

Geheimnis (Gespannt), Idee,

Kontrolle, Krach, Schuld, Welt

Angst, Ärger, Durst, Hilfe, Idee,

Krieg, Schuld, Zauber

Angst, Chance, Geist, Glück,

Idee, Lüge, Möglichkeit, Pech

übergeordnete Begriffe und Komposita Amsel, Baumspitze,

Butzemann, Drachentier,

Räuberkind, Ritterburg,

Schwimmerbecken

Babyaffe, Babyschaf,

Babyseerobbe,

Bauchschmerzen, Delfinmama,

Dinowelt, Erdbeersuppe,

Feinlöwe, Fernbedienung,

Frühlingsfell, Giftgurke,

Helflöwe, Käsekugel,

Käsepfannkuchen, Käsering,

Käsewurst, Klebeding,

Kriegsstürmer, Leinenstoff,

Lieblingsfarbe, Nemofischchen,

Nordamerika, Papierrolle,

Piratenspiel, Regenmuster,

Ritterteil, Rosenkette,

Salzbrezel, Seerobbe,

Stabheuschrecke,

Süßigkeitenladen, Tankwasser,

Tischspiel, Totenkopf, Unterbett,

Uroma, Vanillesauce,

Vogelhäuschen, Winterfell,

Zauberfeuer, Zauberlaser,

Zauberstab, Zauberstein,

Zoowärter

Adventskalender, Adventskranz,

Apfelpresse, Arbeitsmaschine,

Aussichtsturm, Babykuh,

Bandrobbe, Baumhaus, Eieruhr,

Fleischklößchen, Gemüseacker,

Glücksfarbe, Gummitier,

Gummitierchen,

Gutenachtgeschichte,

Halbfinale, Holzeimer,

Holzstück, Holzteil, Keiler,

Klackerschuh, Krümelmomster,

Kuchenteig, Leberwurst,

Lieblingsfarbe, Maiskolben,

Matschepampe, Mausefalle,

Narwal, Ostergras,

Osterhasensuche, Papierfisch,

Papierhandel, Papiermaschine,

Papierrest, Piratenmama,

Regenwolke, Riesenstapel,

Ritterburg, Roboterschiff,

Säbelzahntiger, Schlitzohr,

Schwarzbär, Schwertwal,

Sechseck, Segelohr,

Stolperfalle, Strafkarte,

Süßigkeitensammlung,

Übernachtungsparty,

Vulkaninsel, Wasserfall,

Wasserpistole,

Weihnachtstrumpf,

Wildschweinvater, Zaubertrank,

Zaubertrick

Tabelle 7.1: Nomen in den Altersgruppen

Tabelle 7.1 zeigt sehr deutlich, dass die hier untersuchten Kinder mitzunehmendem Alter eine Vielzahl von Komposita produzierten, die ein hohesMaß an Kreativität aufweisen. Insbesondere in den Gruppen 2 und 3 zeugenNomen wie Helflöwe, Feinlöwe, Giftgurke, Apfelpresse oder Papierfisch von

200 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

einer Fähigkeit, zwei separate Lexeme sinnvoll miteinander zu verbinden.Dabei handelt es sich nicht nur um die Kombination zweier Nomen (z. B.Apfelpresse oder Papierfisch), auch die Verbindung von Adjektiv und Nomen(Feinlöwe) sowie Verb und Nomen (Helflöwe) kann beobachtet werden. InGruppe 1 können ebenfalls Komposita verzeichnet werden; diese liegen indieser Arbeit jedoch nur in der Form Nomen + Nomen vor. Auch Clark (1995)postuliert, dass Kinder bereits in einem Alter von zwei Jahren anfangen,hoch produktive Kompositionen zu bilden. Sie sieht ferner Parallelen zurVerarbeitung von Basisbegriffen und Hypo-/Hyperonymen im Vergleichzur Fähigkeit der Bildung von Komposita. Demnach können ZweijährigeObjekte auf mindestens zwei Ebenen kategorisieren: Auf der Ebene derBasis- sowie auf der Ebene der Unterbegriffe. Wenn Zwei- und DreijährigeBenennungen für Unterkategorien benötigen, identifizieren sie typischerweisedie Basiskategorie und fügen einige modifizierende Nomen hinzu, so dassein neues Kompositum entsteht (z. B. car-smoke für Abgas, das aus demAuspuff eines Autos kommt) ([Clark (1995)]). Waxman et al. (1986) fandendiesbezüglich heraus, dass Kinder zwar anfänglich eine Präferenz fürBasisbegriffe aufweisen, dass aber auch schon früh in der Spontansprachevereinzelte Oberbegriffe auftreten. Drei- bis Vierjährige hingegen könntensuper- und subordinierte Begriffe bereits gezielt produzieren, wenn dieseelizitiert werden ([Waxman (1990)]). Laut Kauschke et al. (2012a) setztder Erwerb von Begriffen auf übergeordneter hierarchischer Ebene dieFähigkeit zur Abstraktion voraus, da Oberbegriffe Vertreter unterschiedlicherGattungen aufgrund gemeinsamer Merkmale zusammenfassen würden([Kauschke, Nutsch und Schrauf (2012)]). Ein wichtiges semantisches Feldinnerhalb dieser Entwicklung abstrakter Bedeutungen sei das Vokabularfür innerpsychische Zustände ([Bretheron und Beeghly (1986)]). SolcheWörter sind bei deutschsprachigen Kindern bereits im zweiten Lebensjahrbeobachtbar und auch die Daten der hier untersuchten Kinder liefernWörter für innerpsychische Zustände (z. B. Angst, Ärger, Durst) in derzweiten und dritten Altersgruppe ([Klann-Delius und Kauschke (1995)]). Inder ersten Altersgruppe gibt es derartige Wörter nicht, was jedoch nichtheißen muss, dass die Kinder diese ansonsten nicht verwendeten. Vielmehrgibt es in der ersten Gruppe nur wenige Sprachdaten, weshalb davonausgegangen werden kann, dass Wörter für innerpsychische Zuständeschlichtweg nicht geäußert wurden, obwohl sie im kindlichen Lexikonvorhanden sind. Dennoch finden sich weitere abstrakte Begriffe (Geheimnis,Idee, Kontrolle, Krach, Welt), die zum Teil auch Emotionen ausdrücken(Schuld). Laut Kauschke et al. (2012a) treten Wörter für körperlich undemotional wahrnehmbare Zustände vor Ausrücken auf, die mentale Inhalte

7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN 201

ausdrücken; abstrakte Nomen (z. B. Gerechtigkeit) kämen erst später hinzu([Kauschke, Nutsch und Schrauf (2012)]). Leider äußern sich Kauschkeet al. nicht zum Zeitpunkt des Auftretens dieser Begriffe. Es kann jedochangenommen werden, dass dies vor dem vierten Lebensjahr stattfinden muss,weil alle in der vorliegenden Arbeit untersuchten Kinder Begriffe dieser Artbereits vorweisen können. Eine interessante Untersuchung zum Verstehenabstrakter Begriffe (u.a. Leben, Tod, Fortpflanzung) liefert Szagun (1983). Sieuntersuchte 216 Kinder im Alter von 4;7 bis 12;6 Jahren und kam zu demErgebnis, dass es drei Phasen geben muss, die beim Erwerb der Bedeutungabstrakter Begriffe durchlaufen werden: 4 bis 8 Jahre, 9 bis 12 Jahre und über12 Jahre ([Szagun (1983)], S. 277-296). Die hier vorliegenden Ergebnisselassen diesbezüglich rückschließen, dass die Kinder der zweiten unddritten Gruppe eventuell etwas mehr bzw. differenziertere abstrakte Begriffeverwendeten als die Kinder der ersten Gruppe. Vor allem der Begriff Angstkommt erst später vor. Bemerkenswerterweise taucht in Gruppe 1 das WortGeheimnis mit dem Zusatz Gespannt auf. Dieser Zusatz wurde in Klammernnotiert, weil das Kind (MA), welches Gespannt äußerte, auf das WortGeheimnis hinaus wollte, aber zunächst nicht den Begriff fand. Man kann nunvermuten, dass es für jüngere Kinder noch schwierig ist, abstrakte Begriffeadäquat zu verwenden, obwohl sie diese in vertrauten Kontexten bereitsrichtig anwenden. Das betrifft auch das Wort Idee (Abbildung 7.1). DiesesWort wurde erstaunlicherweise in der ersten Gruppe häufiger gebraucht als inden Gruppen 2 und 3. Es wurde jedoch immer nur in der Phrase „ich habeeine coole/gute Idee“ verwendet, die somit idiomatischen Charakter aufweist.Der Gebrauch idiomatischer Wendungen ist in einem solch frühen Alter zwarunüblich, dennoch nicht unmöglich. Auch Clark (1995) fand diesbezüglichheraus, dass einige Kinder bereits mit vier Jahren Idiome verwenden, obwohldiese normalerweise erst ab einem Alter von sechs Jahren häufiger produziertwerden ([Clark (1995)] ).

Abbildung 7.1: Verwendung von „Idee“: 039_MA

202 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

In Bezug auf die Verwendung von abstrakten Nomen ist es nichtverwunderlich, dass diese von Kindern im Vorschulalter noch wenigerund zum Teil nicht adäquat verwendet werden. Ein sehr gängigesUnterscheidungskriterium von Abstrakta und Konkreta betrifft dieSinneswahrnehmung. Demnach werden Konzepte konkreter Nomendurch taktile, visuelle, akustische und andere sensorische Komponentenrepräsentiert, während abstrakte Nomen nicht sinnlich wahrgenommenwerden ([Kauschke, Nutsch und Schrauf (2012)]; siehe auch [Weiss (1997)],zitiert in [Kauschke, Nutsch und Schrauf (2012)]). Dies sei ein Grund dafür,dass Abstrakta nach Konkreta erworben werden. Diese Erkenntnis wirdgestützt von Tomasello (2005), der ebenso konstatiert, dass die meistender ersten Nomen einen Bezug zu konkreten Objekten haben, wohingegenabstrakte Nomen erst später erworben werden ([Tomasello (2005)], S. 45 ff.;siehe auch Abschnitt 2.3.1).

Eine recht prominente Theorie stammt von Paivio (1986), der mit derDual Coding Theory zwei funktional unterschiedliche Verarbeitungssystemeansetzt ([Paivio (1986)]). Der Theorie zufolge kann von einem verbalenSystem ausgegangen werden, das aus vernetzten Wörtern besteht undauf sprachlicher Erfahrung basiert sowie von einem bildlichen System,das aus sensorischen Erfahrungen und inneren Abbildungen besteht. EinUnterschied in der Verarbeitung entsteht dadurch, dass Konkreta mit beidenSystemen verarbeitet werden, während Abstrakta nur mit dem verbalenSystem verarbeitet werden. Konkrete Wörter weisen laut Paivio zudem einestärkere Verbindung zum bildlichen System auf, da sie leichter eine innereVorstellung hervorrufen können. Konkreta enthalten zudem eine größereAnzahl sensorisch basierter Merkmale, wodurch sie von beiden Systemenunterstützt und folglich leichter erlernt werden ([Paivio (1986)], S. 53-83).

Abschließend möchte ich mich kurz zur Häufigkeit der Nomen in denAltersgruppen äußern. Die häufigsten Nomen in Gruppe 1 von insgesamt264 geäußerten Nomen sind Turm (12), Auto, Idee, Mama, Papa, Räuber,Räuberkind (je 6). Das Lemma Karte kam fünfmal vor, Kind viermal. Mitinsgesamt 14 Fällen trat das Nomen Uno am häufigsten auf. Da es imZusammenhang mit einem Kartenspiel (Uno Uno) geäußert wurde, möchteich es an dieser Stelle jedoch nicht überbewerten. Es ist wahrscheinlichnicht verwunderlich, dass Mama und Papa relativ häufig geäußert wurden.Interessant ist zudem, dass das abstrakte Nomen Idee insgesamt sechsmalund damit ebenso häufig wie das Wort Auto geäußert wurde. Wie schonerwähnt, wurde das Nomen Idee immer in der idiomatischen Wendung„ich habe eine (+ADJ) Idee“ gebraucht, was darauf schließen lässt, dasses als abstraktes Nomen noch nicht losgelöst vom Kontext verwendet und

7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN 203

verarbeitet wird. In Gruppe 2 wurden insgesamt 971 Nomen geäußert. Amhäufigsten treten auf: Hause (24), Uno (18), Gold (13), Fußball (12), Feuer(11), Farbe (9) und Spiel (8). Auch hier zeigen sich größtenteils konkreteNomen, wobei Hause meines Erachtens ein Grenzfall ist. Auch das Wort Unoist aufgrund des Kartenspiels häufig vertreten. In Gruppe 3 gab es insgesamt1245 Nomen in Bezug auf die Tokens. Am häufigsten wurde das NomenKarte (29) verwendet, gefolgt von Papier (19), Blatt (18), Schnecke (16) undMama (14). Eigennamen kamen in allen Gruppen vor. In Gruppe 3 wurdeJulia (mein Vorname) 64 Mal verwendet und LAR 40 Mal. Dies zeigt, dass mitzunehmendem Alter anscheinend mehr Eigennamen im Gespräch verwendetwerden, was unter anderem auf eine zunehmende Fähigkeit zur Interaktionschließen lässt. Eine weitere Entwicklung bezüglich der Eigennamen stellenOrtsbezeichnungen dar, die in den vorliegenden Daten erst ab einem Altervon 4;1 Jahren verwendet wurden (u.a. Afrika, Deutschland, Nordamerika,Spree). Bereits die Analyse der POS-Tags ließ vermuten, dass es einigewichtige Entwicklungsschritte im Alter von 3;5 bis 5;5 Jahren geben muss, dieanhand der hier untersuchten inhaltlichen Aspekte bestätigt werden konntenund sich in die bisher ermittelten Entwicklungstendenzen hinsichtlich derVerteilung der Wortarten einfügen (Abschnitt 6.2).

7.2.2 Verben (v-aux, v-kop, v-mod, v-hdlg, v-vorgang, v-zustand)

In diesem Abschnitt möchte ich nähere Informationen zu den Verben geben,die von den hier untersuchten Kindern geäußert wurden. Im Hinblick auf dieseAufgabe machte es sich mehr als bezahlt, die STTS für die Analyse verwendetzu haben, wodurch alle Verben anschließend nach ihren semantischenKriterien klassifiziert werden konnten. Dadurch war es möglich, die Verbenuntergliedert in Auxiliar-, Kopula-, Modal-, Handlungs-, Vorgangs- undZustandsverben darzustellen. Im Hinblick auf die STTS ergaben sich dieKategorien Auxiliar-, Modal- und Vollverb. Tabelle 7.2 zeigt alle Modalverbenin allen Altersgruppen sowie die am häufigsten geäußerten Vollverben6. DieVerben sein, werden und bleiben können je nach Kontext Kopulaverb oderVollverb sein. Diese werden in der Tabelle zunächst nicht unter diesen beidenBedingungen betrachtet, sondern erst an späterer Stelle nochmals analysiert.Die Verben haben, sein und werden können je nach Kontext Auxiliarverb oderVollverb sein. Auch diese sollen erst später betrachtet werden. In Gruppe 1wurden insgesamt 617 Verben geäußert, in Gruppe 2 2684 und in Gruppe 32502.

6Hinsichtlich der semantischen Kategorien sind unter den Vollverben alle Handlungs-, Vorgangs- undZustandsverben zusammengefasst.

204 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

Verben/

Altersgruppe

1281_1495 1496_1708 1709_1983

Modalverben können (33), müssen (25),

wollen (23), dürfen (8),

sollen (1)

können (159), müssen

(139), wollen (71), dürfen

(35), sollen (27), mögen (6),

möchten (4)

müssen (129), können

(121), dürfen (65), wollen

(54), sollen (26), möchten

(19), mögen (7)

Vollverben

(häufigste)

gucken (20), machen (19),

wissen (19), sehen (18),

gehen (17), spielen (12)

gucken (150), machen

(138), wissen (90), kommen

(76), spielen (70), gehen

(66), glauben (10)

machen (77), wissen (70),

gehen (58), kommen (55),

spielen (55), glauben (25)

Tabelle 7.2: Verben in den Altersgruppen

Besonders auffällig ist, dass in allen drei Gruppen stets die gleicheReihenfolge bezüglich der Äußerungshäufigkeit bei den Modalverben vorliegt.Das Modalverb können, gefolgt von müssen und wollen, ist in den Gruppen1 und 2 das häufigste Verb. In Gruppe 3 ist müssen an der ersten Position,gefolgt von können und dürfen. Die Modalverben mögen und möchtenkommen in Gruppe 1 nicht vor, wurden aber auch in den anderen beidenGruppen nicht besonders häufig verwendet. Besonders erstaunlich ist ein Blickauf die Spalte der Vollverben. Die Verben sind in ihrer Äußerungshäufigkeit(bis auf eine Ausnahme) in allen drei Gruppen bis zur dritten Position gleich:gucken - machen - wissen. Die Ausnahme bildet das Verb gucken, das inder dritten Gruppe nicht unter den am häufigsten geäußerten Vollverbenvertreten ist. In den ersten beiden Altersgruppen wurde es besonders häufigim Imperativ in der Phrase „guck mal“ geäußert. Dieses Muster zeigt sich inGruppe 3 nicht mehr. Ansonsten sind sehr häufig die Verben machen, wissen,gehen und spielen vertreten. Auffällig ist das Verb wissen, das als einzigesmentales Verb bzw. Zustandsverb (v-zustand) bereits in Gruppe 1 geäußertwurde. Die Verben denken und glauben erscheinen nur in den Gruppen 2 und3, weshalb angenommen werden kann, dass diese mentalen Verben einenbesonderen Entwicklungsschritt darstellen. Wie bereits weiter oben angeführt,fanden Kauschke et al. (2010) heraus, dass die mentalen Verben denken undwissen ab einem Alter von ca. 2;8 Jahren im Vokabular von Kindern auftreten([Kauschke und Klann-Delius (2010)]). Dieses Ergebnis deckt sich mit denErkenntnissen von Shatz et al. (1983), wonach zum Ende des 3. Lebensjahresdie ersten Hinweise auf mentale Prozesse in Form von mentalen Verben (z. B.wissen, glauben), beobachtet werden ([Shatz, Wellmann und Silber (1983)]).Da zumindest das Verb wissen in den vorliegenden Daten vorkommt, wäreeine Vermutung, dass auch denken als mentales Verb im Wortschatz derKinder aus Gruppe 1 vorhanden ist, hier jedoch nicht geäußert wurde.Wissen wurde zudem sehr oft im Zusammenhang mit „weißt du was?“

7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN 205

geäußert; vornehmlich von einem Kind (MK). Dadurch erhält es - ebenso wiedas Nomen Idee in der Phrase „ich habe eine coole Idee“ - idiomatischenCharakter. Im Folgenden möchte ich einige Beispiele anführen, in denenwissen in diesem Zusammenhang vorkommt (Abbildung 7.2). Aber auch in

Abbildung 7.2: „wissen“ im Kontext „weißt du was?“ (042_MK und 044_MK)

anderen, nicht idiomatischen Kontexten kommt wissen in allen Altersgruppenvor (Abbildung 7.3). Das Verb glauben erscheint mit insgesamt 35 Malen

Abbildung 7.3: „wissen“: 020_MM, 036_LAR

häufiger als denken und kommt beispielhaft in den abgebildeten Kontextenvor (Abbildung 7.4). Das Verb denken erscheint insgesamt nur viermal; einmalin Gruppe 2, dreimal in Gruppe 3 (Abbildung 7.5). Dies lässt vermuten, dasses im Gegensatz zu glauben eine noch größere Hürde in der Entwicklungdes Verblexikons darstellt. Meiner Erfahrung nach wird im Deutschen dasVerb glauben verbal häufiger in feststehenden Wendungen wie „ich glaube“verwendet; „ich denke“ in der Funktion als positionierende Wendung wirdseltener gebraucht. Demnach ist es nicht verwunderlich, dass glaubenhäufiger und fast immer in der Wendung „ich glaube“ verwendet wurde(siehe dazu Kapitel 8). Zudem ist dies eine weitere Bekräftigung dafür, dassKinder Lexeme nicht isoliert, sondern als Konstruktionen erlernen (sieheauch [Tomasello (2005)] in Abschnitt 2.3.1). Im Hinblick auf die Kategorie derKopulaverben (v-kop) können keine besonderen Auffälligkeiten hinsichtlichder Verwendung über die drei Alterszeiträume hinweg beobachtet werden.

206 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

Abbildung 7.4: „glauben“: 024_LUA, 031_AV, 031_LAR, 031_SO

Abbildung 7.5: „denken“: 033_JS, 045_MK

Bei den Handlungsverben (v-handlung) sowie bei den Vorgangsverben(v-vorgang) fällt auf, dass mit zunehmendem Alter (ab Gruppe 1496_1708 imVerlauf zu Gruppe 1709_1983) differenziertere Verben geäußert wurden. Diesist ebenso bei den Zustandsverben (v-zustand) zu beobachten, wobei hier inGruppe 2 (1496_1708) die meisten verschiedenen Verben zu verzeichnensind.

7.2.3 Adjektive (ad-part, ad-qual, ad-quant, ad-rel)

An dieser Stelle sollen die Adjektive in den Altersgruppen und ihreVorkommens- und Verwendungshäufigkeit näher betrachtet werden. Beieiner Durchsicht aller geäußerten Adjektive fällt auf, dass besonders vieleFarbwörter verwendet wurden. Es ist unklar, ob diese auch in anderenKontexten und Situationen derart häufig vorkommen würden (z. B. zu Hauseoder bei einer Laborstudie). Denkbar ist, dass vor allem im Umfeld desKindergartens und den damit verbundenden Aktivitäten wie Basteln, Malen,Lernspielen etc. gehäuft Adjektive verwendet wurden, die anderenfalls nichtderart oft im Sprachgebrauch vorkommen. Aus diesem Grund habe ichmich entschieden, die häufigsten Farbwörter getrennt von den häufigsten

7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN 207

übrigen Adjektiven aufzuführen. In Gruppe 1 wurden insgesamt 108 Adjektiveproduziert, in Gruppe 2 treten 484 Adjektive auf, in Gruppe 3 sind es 512.

Adjektive/

Altersgruppe

1281_1495 1496_1708 1709_1983

Adjektiv groß (13), cool (6),

ganz (5), richtig (5),

klein (4), schnell (4)

klein (28), gut (20),

groß (19), lang (15),

richtig (14)

gut (33), klein (26),

schnell (21), groß (20),

richtig (15)

Farbadjektiv gold (8) grün (26), rot (27), gelb

(22)

rot (44), grün (40), gelb

(39), blau (24), orange

(19)

Tabelle 7.3: Adjektive in den Altersgruppen

Es fällt nicht leicht, einen Entwicklungstrend hinsichtlich inhaltlicherAspekte auszumachen. Ich möchte dennoch - in Anlehung an die EinteilungKauschkes (1999) - versuchen, Näheres zum Adjektivlexikon im Vorschulalterauszuführen ([Kauschke (1999)], S. 140). Kauschke (1999) unterscheidet inmodifizierende Elemente wie Attribute, Eigenschaften und Merkmale (z. B.heiß) und innerpsychische Zustände bzw. internal state-Adjektive (böse, toll).Die vorliegenden Daten möchte ich um Farbadjektive ergänzen, da diese einengroßen Anteil am Adjektivlexikon der hier untersuchten Kinder ausmachen.Dies ist für das Alter der hier untersuchten Kinder nicht ungewöhnlich. Relativneue Erkenntnisse zeigen, dass Kinder Farbadjektive mit 3 bis 4 Jahrenerwerben, obwohl sie trotzdem oft Schwierigkeiten beim Erlernen dieserhaben ([Backscheider und Shatz (1993)]; [Sandhofer und Smith (1999)]).Frühere Erklärungen postulieren, dass Kinder Probleme beim Verstehenvon Farbwörtern aufweisen. Der Grund dafür sei, dass sie Farbe nichtals eine Domäne der Bedeutung abstrahieren können. Laut Wagner(2013) liegt das Problem beim Erwerb der Farbwörter darin, dassKinder Farbwörter typischerweise schon dann produzieren, bevor siesie mit der erwachsenengleichen Bedeutung verwenden. Demnachbestünde die Schwierigkeit vor allem darin, Farbe als eine Dimensionmit linguistischer Bedeutung zu abstrahieren. Das Hauptproblem lägesomit in der Unfähigkeit, Kategoriegrenzen für Farbwörter zu ziehen([Wagner, Dobkins und Barner (2013)]). In Bezug auf die hier vorliegendenDaten scheint es jedoch so, dass keines der hier untersuchten KinderProbleme mit dem Verstehen oder der Verarbeitung von Farbwörtern zeigt. Eswurden nicht nur die Grundfarben (blau, gelb, rot) geäußert, auch Mischfarben(rosa) oder Abstufungen (dunkelblau) kamen häufig vor. Nach Durchsichtmeiner Aufzeichnungen zu den jeweiligen Aufnahme-Dateien wird deutlich,dass alle geäußerten Farbadjektive immer adäquat verwendet wurden.

208 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

In allen drei Altersgruppen treten vor allem Adjektive auf, die sich aufRelationen bzw. Dimensionen beziehen (groß, klein, schnell, lang). Ichmöchte an dieser Stelle von genauen Häufigkeitsanalysen absehen. Nebendiesen Eigenschaftsadjektiven ist das internal state-Adjektiv gut in Gruppe2 und in Gruppe 3 vertreten. In Gruppe 1 kommt cool relativ häufig vor.Besonders auffällig ist das Vorkommen von Farbadjektiven in allen Gruppen.Erklärbar ist dies (zumindest in den hier erhobenen Daten) mit einer Vielzahlvon interaktiven Spielen, die das Nennen von Farben erfordern. Abbildung 7.6zeigt eine Grafik der Excel-Datei, die alle vorkommenden Adjektive, unterteiltin attribuierende Adjektive (ADJA) und determinierende Adjektive (ADJD),zeigt. Fakt ist, dass das Adjektivlexikon mit zunehmendem Alter offenbarvielfältiger, nicht aber unbedingt größer in Bezug auf den Gesamtanteil desLexikons wird. In Gruppe 2 finden sich gar die gesteigerten Formen allergrößt-und allerschlimmst-, die analog zur ansteigenden Bildung von Komposita beiden Nomen auftreten. In den Gruppen 1 und 3 tritt zudem egal auf, was inGruppe 1 noch nicht zu finden ist. Des Weiteren sieht es so aus, als würdendie hier untersuchten Kinder mit zunehmendem Alter spezifischere Adjektiveverwenden. In Gruppe 1 und 2 wurde das negativ besetzte Adjektiv schlechtgeäußert; in Gruppe 3 tauchen neben schlecht die Adjektive fies, blöd unddoof auf. Daneben sind mit zunehmendem Alter mehr Antonympaare zubeobachten.In Gruppe 1 äußerten die Probandinnen und Probanden:

• groß - klein, gut - schlecht, früh - spät

In Gruppe 2 wurden folgende Antonyme geäußert:

• groß - klein, gut - schlecht, kurz - lang, neu - alt, richtig - falsch, tief - flach,viel - wenig, weit - nah, schwer - leicht, früh - spät, voll - leer, warm - kühlsowie viel - wenig

In den Daten von Gruppe 3 befinden sich die folgenden Antonyme:

• alt - neu, breit - schmal, richtig - falsch, groß - klein, kurz - lang, leicht -schwer, teuer - billig, viel - wenig, dick - dünn, gut - schlecht, hoch - tief,schmal - weit sowie traurig - lustig

Diese Entwicklung geht laut Kauschke (2012) einher mit dem Erwerbdes hierarchisch gegliederten Nomenlexikons, wobei Kinder Wörter inweiteren semantischen Zusammenhängen erwerben. Neben dem Erwerbder Bedeutungsgleichheit bzw. der Synonymie steht der Erwerb vonOppositionsbeziehungen wie Antonymie (heiß - kalt), Kontradiktion (tot -lebendig), Konversion (ziehen - schieben) sowie die Teil-Ganzes-Beziehung

7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN 209

(Ärmel-Pullover ) ([Kauschke (2012)], S. 56 f.). Im Zuge dessen erlernenKinder jene Adjektive, die in Opposition zueinander stehen. Laut Kuczaj (1999)erwerben Kinder Adjektive, die für die Extrempole eines Kontinuums stehen (z.B. heiß - kalt) vor Adjektiven, die Zwischenstufen anzeigen (z. B. warm - kühl)([Kuczaj (1999)]). Derartige antonyme Zwischenstufen zeigen sich bereitsin Gruppe 2 (warm - kühl). In Gruppe 3 gibt es fast ausschließlich konträreAntonympaare, wobei richtig - falsch womöglich ein kontradiktorisches Paardarstellt. Dieses Paar befindet sich im Übrigen auch in den Daten von Gruppe2.

Abbildung 7.6: Adjektive in den drei Altersgruppen (Ausschnitt)

In einer früheren Studie untersuchte Kuczaj (1982a) ein Kind und fandheraus, dass es die Gegensatzpaare hot - cold zur Bezeichnung vonTemperaturunterschieden zuerst erwarb; später erst kam cool - warmdazu ([Kuczaj (1982)]). Selbst nachdem das Kind gelernt hatte, dass hot

210 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

und cold die jeweiligen Endpunkte einer relativen Dimension ausdrücken,verstand es noch nicht, wie man am besten die Zu- bzw. Abnahme einesDimensionsbegriffs ausdrückt. Folglich verwendete es einige Zeit „cool off “,um den Übergang von einem kühlen Zustand in einen anderen kühlenZustand zu beschreiben. „Warm up“ wurde zum Beispiel in einer Situationverwendet, in der das Kind eine heiße Schokolade probierte. Nachdemdiese zu heiß war, äußerte das Kind „Too hot! I’m gonna let it warm up“([Kuczaj (1982)]). Ein ähnliches Entwicklungsmuster konnte ich bei meinemSohn beobachten. Mit 3 bis 4 Jahren nutzte er scheinbar polare Adjektiveoft folgendermaßen: Wenn sein Essen noch zu heiß war, äußerte er oft„das muss erst warm/wärmer werden“ und drückte damit aus, dass esabkühlen muss. Er verwendete lange nicht das Wort abkühlen. Ein anderesBeispiel bezieht sich auf das Gegensatzpaar immer - nie. Nie wurde oft inder Bedeutung von selten oder gelegentlich verwendet. So äußerte R. oft„Ich war noch nie im Schwimmbad“, wenn es schon längere Zeit her war,dass wir Schwimmen waren und er eigentlich ausdrücken wollte, dass wirnur selten im Schwimmbad waren in letzter Zeit. Ab dem fünften Lebensjahrverwendete R. derartige Adjektive fast immer in aqäquater Weise. Kuczaj(1999) stellte ein derartiges Muster beim Erwerb semantischer Reihen fest.In Abfolgen wie hot, warm, cool, cold oder always, usually, sometimes,seldom, never erwerben Kinder jene Adjektive, die am Ende einer solchenDimension stehen (hot - cold, always - never ) bevor sie Adjektive erlernen, diezwischen diesen Extremen liegen. Dieses Erwerbsmuster verdeutliche, dassdie Extreme semantischer Dimensionen bedeutender für jüngere Kinder seienals die Punkte zwischen diesen Extremen, so Kuczaj ([Kuczaj (1999)], S. 151;siehe auch [Kuczaj (1975)]; [Kuczaj (1982)]; [Lyons (1977)]). Sobald Kinderihr Lexikon erweitern, erwerben sie zunehmend semantische Relationen undverfeinern schlussendlich die Struktur dieser semantischen Abfolgen undFelder ([Kuczaj (1982)]; siehe auch [Clark (1993)]; [Dromi (1987)]). Clarket al. (1977) beschreiben diesbezüglich eine typische Erwerbsabfolge desGrößenpaares a) big - small. Dieses stünde am Anfang der Erwerbskette,gefolgt von b) tall - short bzw. long - short, c) high - low, d) thick - thin unde) wide - narrow bzw. deep-shallow ([Clark und Clark (1977)], S. 499). Dabei den hier untersuchten Kindern bereits in Gruppe 2 das Größenpaar tief- flach auftaucht, kann davon ausgegangen werden, dass es ebenso imLexikon der älteren Kinder aus Gruppe 3 enthalten ist, auch, wenn es hiernicht verwendet wird. In Gruppe 1 ist lediglich das Größenpaar groß - klein zuverzeichnen. Es wurden generell wenige Tokens in dieser Gruppe geäußert.Dennoch ist anzunehmen, dass Kinder dieses Alters (ca. 3;5 bis 4;1) nochnicht alle semantischen Relationen und deren Abfolgen erworben haben.

7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN 211

Laut Kuczaj (1982a) sind zum Erwerb lexikalischer Oppositionen zudem eineVielzahl paradigmatischer Relationen erforderlich, damit Kinder ihr Lexikonkorrekt strukturieren können. Dazu gehört auch, dass Kinder lernen, dassObjekte mit mehr als nur einem Lexem bezeichnet werden können. Ein Kindmüsse außerdem entdecken, in welcher Beziehung diese Wörter zueinandernstehen und wie Wörter verwendet werden können, um damit Metaphernzu erschaffen ([Kuczaj (1982)]; siehe auch [Winner (1988)]). Es würde andieser Stelle zu weit führen, all diese Aspekte im Hinblick auf den Erwerbvon Adjektiven genauer zu betrachten. Fakt ist, dass anscheinend mehrere,sich überschneidende Prozesse für den Erwerb von Adjektiven erforderlichsind und diese Prozesse sich auch im Inhalt der hier geäußerten Lexemewiderspiegeln.

Hinsichtlich der Verwendung von Adjektiven in Bezug auf dieBedeutungskategorien (ad-part, ad-qual, ad-quant, ad-rel) konntenfolgende Tendenzen beobachtet werden: Insgesamt weisen die hieruntersuchten Kinder mit zunehmendem Alter ein immer differenzierteresAdjektivlexikon (vor allem in Bezug auf die Kategorie ad-qual) auf, dasinsbesondere ab der zweiten Altersgruppe zum Teil sehr spezifische Adjektiveenthält (u.a. magnetisch, kugelrund, unendlich, ungerecht, vernünftig,verrückt). Adjektivische Partizipien wurden in nur einem Fall in Gruppe 2 vonLEO geäußert (fliegend).

7.2.4 Adverbien (adv-kaus, adv-komm, adv-lok, adv-mod, adv-temp)

Die Adverbien werden neben den Nomen, Verben und Adjektivenmehrheitlich zu den Inhaltswörtern gezählt, obgleich sie oft nicht eindeutigzugeordnet werden können und zum Teil auch Funktionswörter sein können([Dudenredaktion (2009)], S. 569).

Besonders auffällig bei der Analyse der kausalen Adverbien (adv-kaus)war, dass das Adverb also erst ab der zweiten Altersgruppe (ab 4;1) Jahrengeäußert wurde (50 mal in Gruppe 2, 12 mal in Gruppe 3). Zu diesemPhänomen liegen in der aktuellen und auch älteren Forschungslandschaftkeine bzw. nur sehr wenige bekannte Studien und Ergebnisse vor. Zum einenbesteht die Möglichkeit, dass also zwar im Lexikon der Kinder der erstenGruppe enthalten ist, aber nicht verwendet wurde. Zum anderen besteht dieAnnahme, dass also noch nicht im (produktiven) Lexikon der hier untersuchtenKinder enthalten ist.

In Anbetracht der lokalen (adv-lok ), modalen (adv-mod) undtemporalen Adverbien (adv-temp) kann mit zunehmendem Alter eineimmer differenziertere Verwendung dieser Adverbien verzeichnet werden.

212 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

Lokale Adverbien wie dazwischen, nebeneinander oder seitwärts kommenin dieser spezifischen Form erst ab 4;1 Jahren vor. Ebenso weisen dietemporalen Adverbien gleichzeitig oder inzwischen auf ein sehr spezifischesAdverblexikon ab einem Alter von 4;1 Jahren hin. Derartig konkrete Angabenzum Ort oder zur Zeit konnten bei jüngeren Kindern der Gruppe 1 nichtbeobachtet werden.

7.3 Tendenzen in der Verwendung von Funktionswörtern

An dieser Stelle sollen mögliche Entwicklungstendenzen der hier verwendetenFunktionswörter, und damit verbunden den konkret verwendeten Lemmata,über die drei Alterszeiträume hinweg dokumentiert werden. Zu denFunktionswörtern zählen dabei Artikel, Pronomen, Präpositionen undKonjunktionen ([Bussmann (1983)]) sowie in dieser Arbeit außerdem dieInterjektionen und Partikeln. Hinsichtlich der Funktionswörter konnten aneinigen Stellen Entwicklungstendenzen beobachtet werden, die sich - ebensowie die Verteilung der Wortarten - vor allem ab Altersgruppe 1406_1708, alsoab ca. 4;1 Jahren, bemerkbar machen.

Kaltenbacher (1990) konnte Erwerbsprobleme bezüglich des Erwerbsvon Funktionswörtern feststellen, wobei vor allem die Kontextabhängigkeitselbiger dafür verantwortlich sei. Die konkreten Schwierigkeiten, dieKinder beim Erwerb aufweisen, scheinen dabei eng mit der spezifischenArt des Kontextbezuges zusammenzuhängen ([Kaltenbacher (1990)],S. 42). So werde zum Beispiel die Definitheit bzw. Indefinitheit beimArtikelsystem, bei dem das ko- und kontextuelle Vorwissen von Sprechernund Hörern eine wichtige Rolle spielt, von englischsprachigen Kindernerst im Schulalter vollständig beherrscht ([Maratsos (1979)]). DerartigeZusammenhänge wurden in der vorliegenden Arbeit zwar nicht untersucht,jedoch sind grundlegende Entwicklungstendenzen in der Verwendung vonFunktionswörtern in den Daten der vorliegenden Arbeit erkennbar.

7.3.1 Interjektionen (itj)

Interjektionen wurden in allen drei Altersgruppen geäußert, wobei ab derzweiten Gruppe ein differenziertes Vokabular hinsichtlich der Interjektionenerkennbar ist. In Gruppe 1 (1281_1495) wurden nur vier verschiedeneInterjektionen geäußert (aua, cool, hey, pff ). Ab einem Alter von 4;1 Jahrenbzw. in den Gruppen 2 und 3 befinden sich sehr spezifische und - so scheintes - zielgerichtete Interjektionen (pfui, wow, juhu, tschüs, mann, prima, yippie).

7.3. TENDENZEN IN DER VERWENDUNG VON FUNKTIONSWÖRTERN 213

Dies lässt vermuten, dass Interjektionen, zumindest was die hiesigen Datenanbelangt, ab einem Alter von 4;1 Jahren sehr viel bewusster eingesetztwerden und dementsprechend eine andere Funktion erfüllen als bei jüngerenKindern.

7.3.2 Konjunktionen (kon-add, kon-adv, kon-alt, kon-kaus, kon-spez,kon-temp, kon-vgl) und Subjunktionen (sub-fin, sub-kaus, sub-kond,sub-konz, sub-mod-instr, sub-neutr, sub-temp)

Hinsichtlich der Konjunktionen können einige wenige Entwicklungstendenzenfestgestellt werden. Die adversative Konjunktion sondern kommt in Gruppe 1nicht vor, während sie in Gruppe 2 und 3 mit drei bzw. zwei Fällen vertreten ist.Die spezifizierende Konjunktion außer hingegen kommt mit einem Fall nur inGruppe 1 vor. Die temporale Konjunktion als tritt mit ebenfalls einem Fall nurin Gruppe 2 auf. An dieser Stelle sollte aufgrund der geringen Fallzahlen nichtvon Entwicklungstendenzen gesprochen werden. Dazu wären weitere Datenerforderlich.

Die finalen Subjunktionen liegen mit den Lemmata damit und um ingeringen Fällen nur in Gruppe 2 und 3 vor. Die konditionale Subjunktionfalls taucht nur einmal in Gruppe 3 auf, während wenn mit wesentlichhöheren Fallzahlen in allen drei Gruppen vertreten ist. Zu einem ähnlichenErgebnis kommt auch Rothweiler (1993), die in einer Untersuchung vonKindern zwischen 2 und 5 Jahren die Subjunktion wenn in allen Altersstufengleichermaßen vorfand ([Rothweiler (1993)], S. 103 ff.). Das konzessiveobwohl tritt in der vorliegenden Arbeit in Gruppe 2 dreimal, in Gruppe 3 einmalauf. Die modal-instrumentale Subjunktion ohne ist im gesamten Korpus nureinmal vertreten (in Gruppe 2). Im Gegensatz zu diesen recht geringerenFallzahlen ist auffällig, dass die neutrale Subjunktion dass erst in den Gruppen2 und 3 mit jeweils 18 Fällen auftritt. Ob hingegen ist in allen drei Gruppenvorzufinden, wenn auch mit sehr geringen Fallzahlen zwischen eins und dreiFällen. Leider liefert sowohl ältere als auch aktuelle Literatur nur wenigeAngaben bezüglich der Verwendung von dass als neutrale Subjunktion,weshalb an dieser Stelle keine Schlussfolgerungen bezüglich des Erwerbsvon dass im Spracherwerbsprozess möglich sind. Anhaltspunkte, die dieseErgebnisse stützen, finden sich erneut bei Rothweiler (1993). Demzufolge wirddass als Komplementierer (im Gegensatz zum finalen dass in der Funktionvon damit) später erworben als ob, wobei die Polysemie von das/dass einemögliche Ursache für den späteren Erwerb sein könnte ([Rothweiler (1993)],S. 102). Diese Erwerbsfolge deckt sich mit den Ergebnissen dieser Arbeit.

Grundsätzlich betrachtet kann aufgrund der vermehrten Verwendung von

214 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

Subjunktionen ab einem Alter von 4;1 Jahren ein vermutlich gesteigertessyntaktisches Wissen um die Bildung bzw. Einleitung von Nebensätzenangenommen werden.

7.3.3 Pronomen (pav, pdat, pds, piat, pidat, pis, pper, ppos, prels, prf, pwat,pwav, pws)

Bei der Analyse der Wortarten nach den STTS (Kapitel 6) sowieder Zuordnung der Lemmata zu ihren Bedeutungskategorien wurdendie Pronominaladverbien (pav ) zu den Adverbien gezählt. Doch diePronominaladverbien stellen einen Grenzfall zwischen Adverb und Pronomendar (siehe zum Beispiel [Dudenredaktion (2009)]). Deshalb werden siean dieser Stelle ausnahmsweise den Pronomen zugeordnet, weil siesich im gesamten Korpus eher bei den Funktionswörtern, denn bei denInhaltswörtern, einreihen. Es fällt auf, dass erst in den Gruppen 2 und 3,also ab einem Alter von 4;1 Jahren die Pronominaladverbien außerdem undtrotzdem auftreten. Des Weiteren finden sich in diesen Altersgruppen diePronominaladverbien wofür, wenn auch nur mit je einem Fall. In Gruppe 1sind lediglich Pronominaladverbien vertreten, die mit da(r)- oder hier- gebildetwerden (siehe auch [Dudenredaktion (2009)], Regel 860).

Bei den attribuierenden Indefinitpronomen ohne (piat) und mit Determiner(pidat) sowie bei den substituierenden Indefinitpronomen (pis) ist ab Gruppe 2eine größere Vielfalt im Vokabular zu verzeichnen. In der Kategorie piat tretenab einem Alter von 4;1 Jahren Pronomen wie (ein) bisschen, solch-, andere,beide, jeder oder auch derselbe auf, die in der ersten Altersgruppe noch nichtzu finden sind. Ähnlich sieht es in der Kategorie pidat aus. In Gruppe 1 trittlediglich das Pronomen beide auf, während in den Gruppen 2 und 3 andere,ein, (ein) paar und bisschen hinzukommen. Ein ähnliches Muster ist bei densubstituierenden Indefinitpronomen erkennbar, wenn auch die verwendetenPronomen bereits in Gruppe 1 recht vielfältig verwendet wurden. In Gruppe 2und 3 treten neben den sehr häufig verwendeten Pronomen all-, ein, etwasund man auch seltener verwendete Pronomen wie irgendwas, irgendwelch-,jemand, jeder, manch-, niemand, wenig oder welch- auf. Letztere sind inGruppe 1 noch nicht vertreten.

Bei den Personalpronomen (pper ) und Relativpronomen (prels) sind keineBesonderheiten erkennbar. Im Hinblick auf die reflexiven Personalpronomen(prf ) ist, wie auch bei den anderen Pronomen, ein etwas differenzierteresVokabular ab der zweiten Altersgruppe erkennbar, das ebenfalls bei denPossessivpronomen (ppos) verzeichnet werden kann.

7.3. TENDENZEN IN DER VERWENDUNG VON FUNKTIONSWÖRTERN 215

7.3.4 Präpositionen (pr-kaus, pr-lok, pr-mod, pr-neutr, pr-temp)

Bei allen Kategorien die Präpositionen betreffend kann ein vielfältigverwendeter Einsatz selbiger ab einem Alter von 4;1 Jahren festgestelltwerden. Wie bei den anderen Bedeutungskategorien und den darinenthaltenen Lemmata auch sollte aber bedacht werden, dass dieGesamtanzahl der Tokens in Gruppe 1 geringer ist als in den Gruppen 2 und3, weshalb an dieser Stelle nicht von eindeutigen Entwicklungstendenzengesprochen werden sollte.

Bei den lokalen Präpositionen (pr-lok ) tauchen die folgenden Präpositionenin Gruppe 1 auf: an, auf, aus, bei, durch, in, zu. Bei den älteren Kindern inGruppe 2 und 3 finden sich zudem auch Präpositionen wie hinter, nach, neben,über, von oder vor. Insbesondere von erscheint in diesen Gruppen mit 39 bzw.41 Fällen recht häufig und lässt so die Tendenz einer gesteigerten Verwendunglokaler Präpositionen ab 4;1 Jahren vermuten.

Bezüglich der modalen Präpositionen (pr-mod) befinden sich in Gruppe 1lediglich für, mit und zu. Danach tauchen auch Präpositionen auf wie gegen,ohne oder um. Ein ähnliches Muster ist bei den temporalen Präpositionen(pr-temp) erkennbar. Während in Gruppe 1 nur die Präpositionen in und seitverwendet wurden, finden sich bei älteren Kindern auch nähere Bestimmungender Zeit durch Präpositionen wie an, vor, zu und nach.

7.3.5 Partikeln (ptk-abt, ptk-ant, ptk-fok, ptk-gespr, ptk-grad, ptk-neg, ptkvz,ptkzu)

Insgesamt kann bei allen Kategorien bezüglich der Partikeln festgestelltwerden, dass ab 4;1 Jahren Partikeln vielfältiger verwendet wurden. Diesmacht sich in den Daten dieser Arbeit vor allem bei den Antwortpartikeln(ptk-ant) und bei den Negationspartikeln (ptk-neg) bemerkbar. Während dieKinder der ersten Altersgruppe (1281_1495) vorwiegend Standardformen wieja, ok, doch, nein, nicht gebrauchten, sind in den Gruppen 2 und 3 zudemsehr spezifische Partikeln wie bitte, bitteschön, danke, dankeschön, nie,niemals zu verzeichnen.

Die Verwendung von Abtönungspartikeln (ptk-abt), Fokuspartikeln (ptk-fok )und Gesprächspartikeln (ptk-gespr ) erscheint ab Gruppe 2 (1496_1708)vielfältiger. Aufgrund der recht bedeutungsarmen Inhalte einzelner Partikeln (z.B. äh, mh, ne, oh, ah) lassen sich jedoch nur schwer Tendenzen ausmachen.Lediglich ein Blick auf die Produktion der Gradpartikeln (ptk-grad) lässteinen gezielteren Einsatz mittels zum Teil spezifischer Partikeln vermuten.Besonders auffällig ist hier die Verwendung der Partikeln überhaupt,

216 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

besonders, ziemlich und sehr, die im Vokabular der jüngeren Kinder in Gruppe1 nicht vorkommen und erst in Gruppe 2 und 3 auftreten.

7.4 Hinweise zur Verwendung des Lexikons

An dieser Stelle möchte ich einige Hinweise anführen, die bei derVerwendung des hier erstellten Lexikons und den dazugehörigen Dateienhilfreich sein können. Die Bezeichnung Lexikon bezieht sich in diesemZusammenhang auf die Gesamtheit der hier erhobenen Daten. Es stellt alsokeineswegs die Grundgesamtheit aller möglichen Lemmata im kindlichenLexikon der deutschen Sprache dar, sondern bezieht sich auf die imgegebenen Zeitraum von den Kindern produzierten syntaktischen Wörter mitden jeweiligen Lemmata. Von daher müsste man korrekterweise von einemLexikon der untersuchten Probandinnen und Probanden sprechen (siehe auch[Schlaefer (2002)]). Dieses Lexikon befindet sich im Anhang unter dem NamenZusammenfassung_Lemmata_aller_Gruppen_mit_Beispielen.xls. Darinenthalten sind alle Lemmata, geordnet nach ihren Bedeutungskategorien,unabhängig vom Zeitraum, in dem sie geäußert wurden. Zusätzlich istdie Anzahl der Lemmata sowie eine Beispielaussage und die jeweiligeEXMARaLDA-Datei, aus der das Beispiel entnommen wurde, aufgeführt.Unter Verwendung dieser Zusammenfassung erhält man demnacheinen Überblick über die geäußerten Wörter aller hier untersuchtenKinder im Zeitraum von 1281 bis 1983 Tagen bzw. 3;5 bis 5;5 Jahren.Für eine genaue Betrachtung der Lemmata unter Berücksichtigungihrer semantischen Kategorien in den Altersgruppen sollte das DokumentZusammenfassung_Lemmata_Gruppen.xls im Anhang hinzugezogen werden.Dieses enthält, geordnet nach den Bedeutungskategorien, alle Lemmatamit ihrer jeweiligen Vorkommenshäufigkeit. Diese Anordnung wurde für jedeAltersgruppe vorgenommen, wodurch die einzelnen Verläufe besser sichtbarwerden. Im Dokument Zusammenfassung_alle_Gruppen_mit_POS_Tags.xlssind alle Lemmata pro Altersgruppe sortiert nach ihren zugehörigenBedeutungskategorien aufgeführt und mit jenen POS-Tags markiert,mit denen sie im Korpus auftreten. Dieses Dokument kann hilfreichsein, wenn Lemmata in Bezug auf ihre semantischen und syntaktischenEigenschaften analysiert werden sollen. In Kapitel 5 wurden zahlreicheweitere Analysemöglichkeiten aufgezeigt und sollen hier nicht erneutdiskutiert werden. Alle weiteren Ausgabedateien, die aufgrund ihrer immensenFülle nicht im Anhang dieser Arbeit zu finden sind, können auf Anfrage aufeinem entsprechenden Datenträger zusammengestellt und weitergegeben

7.4. HINWEISE ZUR VERWENDUNG DES LEXIKONS 217

werden. Eine Veröffentlichung dieser Daten in digitaler Form ist, wie eingangsschon erwähnt, leider nicht möglich.

7.4.1 Beispielhafte Ausgabedateien

An dieser Stelle sollen der Vollständigkeit halber einige der Ausgabedateien,die mittels der Ausführungen durch die Skripte des CA erstellt wurden,gezeigt werden. Insbesondere vor dem Hintergrund, dass durch die hierangewandte Methodik im gesamten Verlauf dieser Arbeit zahlreiche undsehr vielfältige Möglichkeiten mit den in Kapitel 5 verwendeten Skriptenentstanden, rechtfertigen diesen Unterabschnitt.

• Ein Ausschnitt aus der Ausgabedatei, die durch das Ausführen desSkriptes db_query_all_tag_count.sh entstanden ist, ist in Abbildung7.7 zu sehen, die einige der von LEO und LUA geäußerten Nomen imZeitraum 1496 bis 1708 zeigt.

Abbildung 7.7: tag count_NN_1496_1708

• Abbildung 7.8 zeigt einen Ausschnitt einer Ausgabedatei, die durch dasAusführen des Skriptes db_query_all_tag_count_name.sh entstanden istund einige der von JS geäußerten Adverbien (ADV) im Zeitraum 1709 bis1983 enthält.

218 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

Abbildung 7.8: tag count_JS_ADV_1709_1983

• Abbildung 7.9 zeigt einen Ausschnitt der im Zeitraum 1281 bis1495 geäußerten Vollverben im Infinitiv (VVINF) bezogen auf dieTokens. Grundlegend hierfür war das Ausführen des Skriptesdb_query_all_typetoken.sh.

• In Abbildung 7.10 ist ein Ausschnitt der von allen Sprecherinnenund Sprechern im Zeitraum 1709 bis 1983 geäußerten Adjektive(ADJ) zu sehen. Erforderlich war das Ausführen des Befehlsdb_query_all_typetoken_lemma.sh.

• In Abbildung 7.11 sind ausschnitthaft die Modalverben (VMFIN) derSprecher/innen, die diese im Zeitraum 1496 bis 1708 verwendet haben,zu sehen. Durch Ausführen des Skriptes db_query_all_lemma_tag.shwerden neben den Wörtern auch die Lemmata und die dazugehörigenPOS-Tags mit angezeigt.

• Die Ausgabedateien des Befehls db_query_all_lemma_bedeutung.shsind je nach Ausführungsanweisung relativ groß und bieten zahlreicheInformationen. Abbildung 7.12 zeigt den Ausschnitt einer solchen Datei.Sie stammt aus dem Zeitraum 1281 bis 1495 und zeigt einige dergeäußerten Vorgangsverben (v-vorgang) als übergeordnete Kategorie.Daneben sind die Verben als syntaktisches Wort mit dem jeweiligenLemma und dem dazugehörigen POS-Tag versehen.

7.5. ZUSAMMENFASSUNG 219

Abbildung 7.9: type token_VVINF_1281_1495

• Durch das Ausführen des Befehls db_query_all_typetoken_bedeutung.shenstehen Dateien, wie sie in Abbildung 7.13 zu sehen sind. Die Abbildungzeigt die Ausgabedatei für die Altersgruppe 1709 bis 1983 mit denentsprechenden Lokaladverbien (adv-lok ), die in diesem Zeitraumgeäußert wurden.

7.5 Zusammenfassung

In diesem Kapitel wurde, unter der Voraussetzung aller bisher getätigtenSchritte, die eigentliche Erstellung des produktiven Lexikons der hieruntersuchten Kinder vorgestellt und mit allen Ergebnissen präsentiert. Derdabei wichtigste Schritt war die Zuordnung aller Lemmata zu sogenanntenBedeutungskategorien, die sich auf semantische Aspekte beziehen. ImGegensatz dazu bezog sich die Zuordnung der Lemmata zu den POS-Tagsvornehmlich auf lexikalisch-synaktische Aspekte. Mithilfe des CA (Kapitel 5)wurden alle neuen Daten unmittelbar in die Datenbank importiert, wodurchmit Hilfe von zwei neu erstellten Skripten (5.2.4.5 und 5.2.4.6) das ebenbeschriebene Lexikon mit seinen zusätzlichen Dateien erstellt werden konnte.Durch die nachfolgende Betrachtung aller Bedeutungskategorien in denAltersgruppen (Abschnitte 7.2 und 7.3) konnten Entwicklungstendenzenausgemacht werden, die es wert sind, in Zukunft näher untersucht zuwerden. Es bleibt vor allem die Frage, ob es sich um tatsächliche Tendenzenhandelt, die ab einem Alter von 4;1 Jahren auftauchen oder aber, ob dieerhobenen Daten in der Altersgruppe 1 zu gering waren im Gegensatz zu

220 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

Abbildung 7.10: type token lemma_ADJA+ADJD_1709_1983

den Gruppen 2 und 3. Erstaunlich ist, dass sich die Tendenz einer Änderungder semantischen Aspekte im Lexikon der hier untersuchten Kinder abeinem Alter von 4;1 Jahren einfügt in die ermittelten Ergebnisse bezüglichder Wortartenverteilung (Kapitel 6), die ebenfalls eine Veränderung derVerteilung der Wortarten ab einem Alter von 4;1 Jahren vermuten lassen.Diese Ergebnisse geben Anlass dazu anzunehmen, dass sich das Lexikon abeinem Alter von vier Jahren grundlegend neu zu strukturieren beginnt.

7.5. ZUSAMMENFASSUNG 221

Abbildung 7.11: lemma tag_VMFIN_1496_1708

Abbildung 7.12: lemma bedeutung_v-vorgang_1281_1495

222 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET

Abbildung 7.13: type token bedeutung_adv-lok_1709_1983

Kapitel 8

Diskussion

An dieser Stelle sollen die Ergebnisse dieser Arbeit noch einmal betrachtetund im wissenschaftlichen Kontext diskutiert werden. Dabei möchte ichchronologisch im Sinne der Kapitel der vorliegenden Arbeit vorgehen. Umsich der Methodik und Analyse der durchgeführten Beobachtungsstudie zunähern, wurde im Vorfeld der aktuelle Forschungsstand resümiert. Allenvoran war es wichtig, den Begriff Lexikon in seiner Vielfalt aufzuzeigenund eine Definition vorzugeben, die in dieser Arbeit Anwendung fand.Dabei kristallisierte sich die Definition des mentalen Lexikons, wie sieunter anderem Aitchison (2003, 1994) postulierte, als passend heraus([Aitchison (2003)]; [Aitchison (1994)]). Es erscheint logisch, dass es sichnicht um ein Lexikon im Sinne eines Wörterbuches handeln kann, wenn dieRede vom Spracherwerb und von der Wortartenverteilung im Vorschulalterist. Würde tatsächlich von einem Wörterbuch(-lexikon) gesprochen werden,wären wohl alle Ergebnisse dieser Arbeit hinfällig. Allein die Tatsache, dassviele Nomen Wortneuschöpfungen darstellen, zeigt, dass es sich nur umdie Arbeit des mentalen Lexikons handeln kann. Diese Erkenntnis leitetnahtlos über zu den in Kapitel 2.2 besprochenen Lexikonmodellen vonLevelt (1992) und Dell (1992) ([Levelt (1992)]; [Dell und O’Seaghdha (1992)]).Levelt geht von einem seriellen Vorgang der Prozesse im mentalen Lexikonaus. Konzeptualisierer, Formulator und Artikulator arbeiten demnachausschließlich nacheinander. Ein Zurück bzw. gegenseitiges Beeinflussen istnicht möglich. Dells Ausführungen zufolge sind interaktive Prozesse zwischenden Einheiten an den angrenzenden Stufen erlaubt. Anhand der Ergebnisseder vorliegenden Beobachtungsstudie kann davon ausgegangen werden, dasses vermutlich interaktive Prozesse sind, die die Vorgänge im mentalen Lexikonausmachen. Ob sich diese interaktiven Prozesse mit den Erkenntnissenvon Dell tatsächlich decken, kann zwar nicht mit Sicherheit behauptetwerden, doch erscheint eine serielle Verarbeitung von Lemmata im Lexikon

223

224 KAPITEL 8. DISKUSSION

unwahrscheinlich. Ein Hinweis auf interaktive Prozesse bildet die Tatsache,dass es während der Aufnahmen für die vorliegende Arbeit gelegentlich zuAusspracheschwierigkeiten kam, die noch während des Äußerungsprozessesvon vielen Kindern verbessert wurden. Diese Aussprachfehler sind hiernicht vermerkt, da es vorrangig um die Inhalte des Lexikons ging1. Schenktman den Aussführungen Dells (1992) Glauben, kann es sich hierbei nurum interaktive Prozesse handeln ([Dell und O’Seaghdha (1992)]). Beieinem Aussprachefehler, der während eines Äußerungsprozesses korrigiertwird, würde der Zugang zum Lemma vor der Äußerung korrekt erreichtwerden. Ob die anschließende phonologische Realisierung oder aber dieArtikulation des Lexems Fehler enthält, kann nicht mit Sicherheit gesagtwerden und beide Varianten sind wohl möglich. Einleuchtend ist hingegen,dass bei einer Korrektur hin zu einer richtigen Aussprache eine Interaktionzwischen dem Formulator und dem Artikulator stattfinden muss. Ein weitererIndikator für das Zusammenspiel mehrerer Vorgänge ist das Vorkommenvon Wortschöpfungen. Lexeme wie Nemofischchen und Kriegsstürmersind nicht standardmäßig im Repertoire des mentalen Lexikons enthalten.Sicher können diese in der vorliegenden Form als Kompositum ins Lexikonaufgenommen worden sein. Es scheint aber eher so, dass Kinder zu einemsolchen Kompositum durch die Zusammensetzung von Nemo und Fischchenbzw. Fisch erst in der Interaktion gelangen. Dafür müssten meines Erachtenseinige Prozesse parallel ablaufen. Der Zugang zum Lemma würde in einemsolchen Fall zwei Lemmata umfassen, die anschließend zu einem Lemmazusammengesetzt werden und als ein Lemma artikuliert werden. Fraglichist, ob der Formulator bereits ein Lemma erhält oder eher beide Teile des zuäußernden Lemmas. Zumindest in Anbetracht der vorliegenden Ergebnissekann davon ausgegangen werden, dass es sich um interaktive Prozessehandelt, die im mentalen Lexikon stattfinden.

Im Verlauf der Arbeit wurde der Forschungsstand hinsichtlich desLexikonerwerbs bis zu einem Alter von 3 Jahren dargestellt. Zumeinen kam die Sichtweise Tomasellos (2000, 2005) als Verfechter derKonstruktionsgrammatik zum Tragen. Meines Erachtens ist die Theorie desusage-based learning die bisher plausibelste aller Spracherwerbstheorien,die sich nicht nur in der Grammatik, sondern auch im Erwerb des Lexikonswiderspiegelt (z. B. [Tomasello (2000a)]; [Tomasello (2005)]). Zum anderenwurde der Erwerb des Lexikons im Allgemeinen bzw. in seinen aufeinanderaufbauenden und sich gegenseitig beeinflussenden Stadien dargestellt.Der Erwerb des Lexikons basierend auf einer Studie von Kauschke (1999)

1Alle Äußerungen, auch jene mit Aussprachefehlern bzw. -schwierigkeiten, können bei Bedarf durchein Abspielen der Audiodateien in FOLKER verfolgt werden.

225

wurde ausführlicher behandelt, da es Parallelen zu der hier durchgeführtenBeobachtungsstudie gibt ([Kauschke (1999)]; siehe auch [Kauschke (2000)];[Kauschke (2012)]). Beide Arbeiten verfolgen ein ähnliches Ziel: dieKomposition des Lexikons in unterschiedlichen Zeiträumen auf der Basis vongesprochenen Daten darzustellen.

Um die Wortarten und ihre Verteilung darstellen zu können, musstezunächst ein Klassifikationssystem gefunden werden, das den Bedürfnissender hiesigen Arbeit gerecht wird und mit welchem sich auch eventuellweiterführende Studien durchführen lassen. Als geeignet stellten sichdie STTS (Tabelle 3.2) heraus, die sehr detaillierte Einteilungen allerWortarten beinhalten. Es war zudem wichtig, eine bereits vorhandene undmöglichst populäre Klassifikation zu verwenden und damit weiterführendeForschung auf diesem Gebiet zu gewährleisten. Mit einem eigens erstelltenKlassifikationssystem wäre das nicht oder nur schwer möglich und vor allemnicht mit den Ergebnissen anderer Arbeiten vergleichbar. Die STTS enthalteneine Einteilung der Wortarten in 54 Kategorien. Nach diesem Schemawurden auch die in der vorliegenden Arbeit geäußerten syntaktischen Wörtergetaggt. In der späteren Analyse erwies es sich allerdings als hilfreich, die54 Kategorien durch eine Neugruppierung zusammenzufassen und somitauf maximal 19 Kategorien zu reduzieren (Tabelle 6.1). Für die Zweckedieser Arbeit war dies absolut ausreichend. Es traten an einigen Stellenjedoch Schwierigkeiten auf, die sich erst während der Analyse zeigten. Diesbetrifft die Analyse von Wörtern nach rein lexikalischen Kriterien. Die STTSberuhen in großen Teilen auf solchen lexikalischen Kriterien, weisen an vielenStellen aber syntaktisch basierte Kategorien auf. Dies betrifft zum Beispiel dieEinteilung der Verben in imperative, finite, Auxiliar - und Modalverben, welchedeutlich zeigt, dass eine Entscheidung darüber, in welcher Konjugationsformsich ein Verb befindet, oft nur im Kontext getroffen werden kann. Auch anweiteren Stellen gab es zum Teil derartige Probleme, die ich versucht habe,so gut wie möglich im Zusammenhang einer lexikalisch basierten Analyse zubetrachten (Abschnitt 4.1.7). Es stellte sich zudem heraus, dass auch andereKlassifikationssysteme diese und andere Schwachstellen aufweisen, die ichan dieser Stelle jedoch nicht ausführen möchte. Im Endeffekt konnte dasProblem der syntaktisch basierten Kategorien weitestgehend damit umgangenwerden, dass Kategorien zusammengefasst wurden. Im Falle der Verben gibtes schließlich nur noch die Kategorien Auxiliarverb (VA), Modalverb (VM) undVollverb (VV). Dadurch konnte dem Anspruch einer lexikalischen Analyseweitestgehend entgegengekommen werden. Meines Erachtens sind die STTStrotz der eben genannten Hindernisse gut geeignet, um den Wortschatz vonVorschulkindern adäquat zu beschreiben. Inbesondere für einen Vergleich zur

226 KAPITEL 8. DISKUSSION

Sprache von Erwachsenen erscheint die Entscheidung für die STTS sinnvoll.Im anschließenden Methodikteil wurden die Daten aller hier aufgeführten

Probandinnen und Probanden dargelegt, das Diktiertgerät sowie die Arbeitmit der hier verwendeten Software beschrieben (Kapitel 4). Hervorzuheben istdabei insbesondere die Arbeit mit dem EXMARaLDA Partitur Editor, welcherfür zahlreiche korpuslinguistische Arbeiten empfehlenswert ist. Es könnennicht nur die Lemmata getaggt und mit Beschreibungen jeglicher Art versehenwerden, auch die Analyse von Morphemen und Phonemen wäre darstellbar.Dafür ist in jedem Falle eine gute Datenaufbereitung durch eine qualifiziertePerson notwendig, da dies nicht von der Software übernommen werden kann.Weiterhin habe ich versucht, alle Sonderfälle, die beim Taggen und bei derLemmatisierung der gesammelten Daten auftreten können, einzugrenzen undso gut wie möglich zu beschreiben.

Kapitel 5 hat sich zu einem äußerst wichtigen Thema entwickelt, da sichdie Arbeit mit dem CA als überaus hilfreich und wegweisend erwiesen hat.Zunächst sollte die Software lediglich verwendet werden, um das Auszählender Wörter, POS-Tags, Lemmata und Bedeutungskategorien einfacher zugestalten. Während der Arbeit mit dem CA stellte sich heraus, dass durchdas recht unkomplizierte Abändern der Skripte sowie ein Hinzufügen neuerSkripte, mit denen die Datenbank kommuniziert, zahlreiche weitere Analysenunternommen werden können, die für die vorliegende Arbeit von erheblichemNutzen waren. Die Datenbank selbst wurde von Mack (2014) für die Zweckedieser Arbeit erstellt. Ebenso wurden die ersten Skripte zur Berechnungder Anzahl der Wörter, deren POS-Tags, die Anteile am gesamten Outputsowie die dazugehörigen Befehle zur Ausgabe in CSV-Dateien von Mack zurVerfügung gestellt ([Mack (2014)]). Die darauffolgenden Skripte wurden zuTeilen von mir selbst erstellt. Durch die intensive Arbeit mit dem CA und derglücklichen Tatsache, es mit einem Open Source Programm zu tun zu haben,lassen sich zahlreiche weitere Ziele für die Arbeit damit erahnen. Die Analysevieler Sprachen erscheint möglich. Es kommt nur darauf an, die Ziele imVorfeld festzulegen und die Skripte entsprechend anzupassen. Insbesondereeine Untersuchung der romanischen Sprachen sowie des Englischen solltemeines Erachtens nach dem gleichen Verfahren wie das Deutsche bearbeitetwerden können. All diese Sprachen weisen keine gravierenden strukturellenUnterschiede auf, da sie zumeist flektierenden Charakter haben. Prinzipiellsollte es auch möglich sein, strukturell davon abweichende Sprachen zuuntersuchen, wenn ein entsprechendes Klassifikationssystem verwendet wird.Durch die Vielfältigkeit der Software lassen sich nahezu alle linguistischenEinheiten alphabetisch oder nach anderen Kriterien auflisten und berechnen.Denkbar wäre es, im Nachgang an die vorliegende Arbeit, die Daten älterer

227

Kinder auf gleiche Weise zu analysieren, um herauszufinden, ab welchemAlter keine gravierenden Unterschiede mehr in der Wortartenverteilungauftreten.

In der folgenden Analyse (Kapitel 6) dieser Arbeit wurden mehrereAuswertungen mit den hier erhaltenen Daten vorgenommen. Zunächstwurden alle drei betrachteten Altersgruppen (1281 bis 1495, 1496 bis 1708,1709 bis 1983) im Hinblick auf die Verteilung der Wortarten miteinanderverglichen. Dabei wurde zwischen allen verwendeten (syntaktischen)Wörtern (Tokens) sowie zwischen dem Anteil verschiedener Wörter (Types)bezüglich der Lemmata unter diesen Tokens unterschieden. Ein erster,sehr grober Vergleich ließ vermuten, dass die Verteilung der Wortartensowohl bezüglich der Types als auch der Tokens über die Altersgruppenhinweg annähernd gleich bleibt. Bei einem genaueren Blick auf dieWortartenverteilung hinsichtlich der Tokens fiel Folgendes auf2: Adverbienund Pronominaladverbien (ADV + PAV) werden prozentual recht häufigverwendet (je 14,6% - 17,3% - 12,9%). Der Anteil der Konjunktionen (KON)nimmt im Verlauf leicht ab (je 8,1% - 7,1% - 5,6%) ebenso wie der Anteilder attribuierenden, substituierenden und Indefinitpronomen (PIDATS) (je5,2% - 4,9% - 4,0%). Die Verwendung der Personalpronomen (PPER) steigtmit zunehmendem Alter leicht an (je 9,7% - 10,6% - 12,7%) wie auch dieVerwendung der Adjektive (ADJ) (je 3,7% - 3,8% - 4,5%). Erstaunlicherweisebleibt die Verwendungshäufigkeit der Verben (VA, VM und VV) nahezugleich über die Altersgruppen hinweg (je 21,2% - 21,4% - 22,1%). Der Anteilder Nomen (N) steigt nur leicht mit zunehmendem Alter (je 9,1% - 7,7%- 11,0%) an, zeigt jedoch keinen kontinuierlichen Anstieg aufgrund desvorübergehenden Abfalls in Gruppe 2. In Bezug auf diese Werte lassen sichfolgende hypothetische Aussagen treffen:

Annahme 1: Im Verlauf von 3;5 bis 5;5 Jahren verwenden Kinder zu einemgroßen Anteil Adverbien, die bis zu einem Fünftel des gesamtenWortschatzes ausmachen können. Nomen nehmen keinen überaushohen Anteil am Vokabular ein, wodurch davon ausgegangen werdenkann, dass nach dem dritten Lebensjahr der hier untersuchten Kinder derAnteil drastisch abnimmt und auf einem Niveau von ca. 10% zunächststabil bleibt (eventuell bis ins Erwachsenenalter).

Dies entspricht ferner dem Anteil von Nomen im Vokabular von Erwachsenen,der von Kauschke (2007) ermittelt wurde ([Kauschke (2007)], S. 132).

2Die nun folgenden relativen Anteile, geschrieben in Klammern, beziehen sich auf die jeweiligenAltersgruppen. An erster Stelle befindet sich Gruppe 1 (bzw. 1281 bis 1495), an zweiter Stelle Gruppe 2(bzw. 1496 bis 1708) und an dritter Stelle Gruppe 3 (bzw. 1709 bis 1983).

228 KAPITEL 8. DISKUSSION

Weiterhin lässt sich schlussfolgern, dass auch in den Folgejahren keinedrastischen Veränderungen in der Verwendungshäufigkeit der Nomen mehr zuerwarten sind. Personalpronomen (PPER) wurden mit einer leicht steigendenTendenz verwendet. Da die Werte in den Altersgruppen jedoch nicht sehrstark voneinander abweichen, kann nicht definitiv davon ausgegangenwerden, dass sich diese Tendenz fortsetzt oder aber wegweisend ist. Anhandeiner Inhalts- und/oder Verhaltensanalyse ließe sich herausfinden, ob dieserZuwachs in einem eventuell gesteigerten Sozialverhalten begründet ist,welches Kinder mit zunehmenden Alter aufbauen. Eine weitere Begründungkann in der zunehmenden kognitiven Fähigkeit des Perspektivenwechselsliegen, wodurch die Verwendung unterschiedlicher Personalpronomen fürObjekte anstelle von Nomen möglich wird. Diese Fähigkeit ist dadurchgekennzeichnet, dass Kinder mit zunehmendem Alter lernen, sich in dieLage anderer Personen zu versetzen, wobei diese Fähigkeit auch auf dersprachlichen Ebene Ausdruck findet. Der Ausdruck Perspektive beinhaltetnach den Vorstellungen der kognitiven Linguistik ferner die Möglichkeit,dieselbe Entität in verschiedene konzeptuelle Kategorien zu platzieren und fürunterschiedliche kommunikative Zwecke zu verwenden ([Tomasello (1999)], S.118). Die soeben geschilderten Vermutungen meinerseits sind nur vereinzeltdurch experimentelle Funde nachzuweisen, da bisher nur wenig Material zudiesem Thema existiert. Bereits im frühen Spracherwerb bemerkt das Kind,dass es verschiedene Arten gibt, eine bestimmte Situation zu betrachten. Sokann ein Kind nach einem Objekt mit dem entsprechenden Namen fragenoder einfach sagen dies oder es. In diesen Momenten, so Tomasello, lernt dasKind, dass ein linguistisches Symbol eine bestimmte Perspektive verkörpert.Dass Kinder diesen Aspekt der Funktionsweise linguistischer Symboleverstehen, wird durch die Tatsache vermutet, dass sie, sobald sie mit derSprachproduktion beginnen (ca. 18 bis 24 Monate), auf denselben Referentenmit unterschiedlichen sprachlichen Ausdrücken in unterschiedlichenkommunikativen Situationen reagieren ([Tomasello (1999)], S. 120; sieheauch [Clark (1997)]). Tomasello (2005) beschreibt in Constructing a Languagedie Verwendung von Pronomen im Spracherwerb. Demnach stellen Pronomendas Gegenteil von Eigennamen dar und werden für die am ehestenerreichbaren Referenten in einem Kontext verwendet ([Tomasello (2005)],S. 205; siehe auch [Gundel, Hedberg und Zacharski (1993)]). In einemanschaulichen Beispiel schildert Tomasello (2005) die kognitiven Fähigkeiten,die bei der Verwendung von Personalpronomen erforderlich sind: Wennjemand auf die Frage „What is your sister doing?“ mit „Swimming.“ antwortet,so erfordere dieser Vorgang Fähigkeiten der sozialen Kognition auf Seitender Sprecherin/des Sprechers, da die Schwester bekannt sein muss.

229

Laut Tomasello würden Kinder im Alter von 4 bis 5 Jahren dabei nochSchwierigkeiten haben. Er bemängelt jedoch, dass es bisher keine Studiengäbe, die die kommunikativen Bedingungen untersucht haben, in denenKinder ein Pronomen gegenüber einem Nomen gewählt haben. Laut ihm sindzur Annäherung an diese Frage fünf Hypothesen möglich:

1. Junge Kinder verwenden denselben referierenden Ausdruck wie derErwachsene, mit dem sie sich gerade unterhalten. Wenn der Erwachseneauf ein Objekt mit einem Nomen referiert, so wird auch das Kind diestun.

2. Junge Kinder folgen dem Prinzip der ’mutual exclusivity’ und verwendenden Objektnamen, wenn sie ihn kennen und ein Pronomen, wenn sie denNamen nicht kennen.

3. Kinder finden den lexikalischen Zugang zu Pronomen leichter als denZugang zu Nomen und verwenden Pronomen immer dann, wenn dieProduktion eines Nomens besonders schwierig ist.

4. und 5. Diese Erklärungen basieren auf den jeweiligen Wissenszuständendes Hörers bevor ein referierender Ausdruck gewählt wird - entwederauf Basis der perzeptuellen Situation (Hörer schaut zum Referenten)oder auf Basis von Erzählfaktoren (Hörer hörte eben gerade bereits denReferenten). ([Tomasello (2005)], S. 206).

Campbell et al. (2000) versuchten jede dieser fünf Hypothesen zu testen,zum einen mit Kindern im Alter von 2;6 Jahren und zum anderen mit Kindernim Alter von 3;6 Jahren. Sie wollten herausfinden, ob Kinder Pronomenunterschiedlich von der von Erwachsenen gebrauchten Form verwenden,wenn

1. der Erwachsene zuvor ein Pronomen/Nomen verwendete

2. der Erwachsene das Zielereignis miterlebt

3. die Kinder unbekannte und schwierige Nomen verwenden mussten.

Das Ergebnis war, dass die Verwendung unterschiedlicher Pronomenabhängig war vom unmittelbar vorausgehenden Diskurs und von derjeweils gestellten Frage. Wurde zum Beispiel gefragt „What did X do?“, sogebrauchten die Kinder ein Pronomen oder eine Nullreferenz. Wurde hingegengefragt „What happened?“, so antworteten Kinder eher mit einem Nomen„The boy...“ ([Campbell, Brooks und Tomasello (2000)]). Die Datenlage ist wiebereits erwähnt recht klein. Doch geben die eben erwähnte Studie sowie die

230 KAPITEL 8. DISKUSSION

Ergebnisse, zu denen Tomasello (2005) kommt, Anlass dazu anzunehmen,dass die Verwendung von Pronomen ein allmählicher Prozess ist, dermehrere Faktoren impliziert. Wichtig erscheint vor allem der vorausgehendeKontext zu sein sowie die Form der gestellten Frage ([Tomasello (2005)], S.205-207). Dies konstatiert auch Tomasello (1999) und sieht die Entwicklungder perspektivischen Natur der Sprache als einen Prozess, der nach undnach geschieht. Die Perspektivität steht im Gegensatz zur Intersubjektivitätlinguistischer Symbole, die wiederum dadurch gekennzeichet ist, dasssie auch für andere Arten kommunikativer Symbole charakteristisch seinkann. So können beispielsweise auch Gesten intersubjektiven Charakterhaben und sind dennoch keine sprachlichen Symbole mit perspektivischenEigenschaften. Letztere Eigenschaft ist nur den linguistischen Symbolenvorbehalten und hebt sie damit von anderen kommunikativen Mitteln ab([Tomasello (1999)], S. 123). Es ist anzunehmen, dass sich die Kinder im hieruntersuchten Alterszeitraum von 3;5 bis 5;5 Jahren mitten im Prozess desErwerbs dieser kognitiven Fähigkeiten befanden, was unter anderem durchdie leicht gesteigerte Verwendung von Personalpronomen deutlich wird. MeineVermutung ist, dass auch andere sprachliche Phänomene im Zusammenhangmit den Fähigkeiten der sozialen Kognition beobachtet werden können. Diesesollen jedoch nicht in der vorliegenden Arbeit untersucht werden.

Ein überraschendes Ergebnis der Analyse der Wortarten sind zudemdie sich nahezu gar nicht verändernden Anteile der Verben (VA, VM, VV)in den Altersgruppen. Verben wurden durchgehend mit einem Anteil vonleicht über 20% verwendet. Dieser Prozentsatz liegt nur etwas über demvon Kauschke (1999) ermittelten Wert von erwachsenen Sprecherinnenund Sprechern ([Kauschke (1999)]). Von daher kann davon ausgegangenwerden, dass bezüglich des Gebrauchs von Verben mit zunehmendem Alterkeine gravierenden Änderungen mehr zu erwarten sind. Meines Erachtenskann dies unter anderem damit erklärt werden, dass Kinder, die sich imAlter der hier untersuchten Probandinnen und Probanden befinden, einenGroßteil der grundlegenden syntaktischen Fähigkeiten erworben haben.Um dies zu belegen, kann aus einer Vielzahl von experimentellen Studiengewählt werden, die sich jedoch zumeist mit sehr speziellen syntaktischenoder morphosyntaktischen Entwicklungsmustern beschäftigten und deshalbnur teilweise zur Erklärung herangezogen werden sollen. Abbot-Smith etal. (2001) fanden beispielsweise heraus, dass die Fähigkeit neue Verbenzu verwenden in unmodellierten syntaktischen Konstruktionen allmählichansteigt und zwischen einem Alter von 2;0 und 3;0 Jahren anzusiedeln ist([Abbot-Smith, Lieven und Tomasello (2001)]). Zu ähnlichen Ergebnissenkommt Akhtar (1999), die sich mit dem Erwerb der grundlegenden

231

Wortstellungen im Satz befasste. Akhtar erschuf sogenannte novel verbsfür neue Ereignisse. Die untersuchten Kinder waren 2;8, 3;6 und 4;4 Jahrealt. Ihre Aufgabe war es, die eben erwähnten novel verbs in Verbindungmit neutralen Fragen zu verwenden. Dabei gab es drei verschiedeneMöglichkeiten, wie den Kindern das novel verb präsentiert wurde: 1) Entwedertrat das Verb in der für das Englische kanonischen Satzgliedstellung SVO(Subject - Verb - Object) auf oder aber 2) zwei weitere Verben traten entwederin der Reihenfolge SOV oder 3) VSO auf. Die Satzgliedstellungen unter2) und 3) sind nach Akhtar die nichtkanonische Form zur Beschreibungeiner neuen Szene im Englischen. Akhtar fand heraus, dass die Kinder einneues Verb in der Reihenfolge SVO produzierten, wenn sie es zuvor auchin dieser Reihenfolge gehört haben. Wenn die Kinder ein bekanntes Verbin einer untypischen Reihenfolge vernahmen, korrigierten sie es meistenshin zur kanonischen SVO-Reihenfolge. Hörten die Kinder ein neues Verb inSOV- oder VSO-Reihenfolge, waren die Ergebnisse unterschiedlich: die 4;4Jahre alten Kinder korrigierten es hin zum kanonischen Wortstellungsmusterin 96% der Fälle. Mit 2;8 und 3;6 Jahren taten dies jeweils nur 50%der Kinder. Akhtar schlussfolgert daraus, dass jüngere Kinder eine ArtSVO-Schema besitzen, welches jedoch nicht so stark ist, wie jenes derälteren Kinder ([Akhtar (1999)]). Diese Ergebnisse lassen im Hinblick aufdie Ergebnisse der vorliegenden Arbeit vermuten, dass die grundlegendenWortstellungsmuster einer Sprache ab einem Alter von 4 Jahren zum größtenTeil erworben sind.3 Jüngere Kinder (bei Akhtar im Alter von 2;8 und 3;6)haben wenig Schwierigkeiten mit bekannten Verben, wohingegen neueVerben in nichtkanonischen Wortstellungsmustern Probleme bereiten. Dain der vorliegenden Arbeit die Produktion spontaner Sprache untersuchtwurde, kann davon ausgegangen werden, dass die Kinder im Alter vonunter 4 Jahren zum Großteil nur jene Verben verwendeten, die ihnenbekannt waren. Aus diesem Grunde finden sich bereits in diesem Alter(konkret Gruppe 1281_1495) vorwiegend kanonische Wortstellungsmusterdes Deutschen, die den gleichbleibenden Verbanteil erklären können. NachAkhtar (1999) scheint es so, als würden bereits jüngere Kinder eine ArtSVO-Schema besitzen, welches lediglich noch nicht so stark funktionierewie jenes älterer Kinder und wodurch es zu Schwierigkeiten bei derBegegnung mit unbekannten Verben und Wortstellungsmustern kommenkann. Weiterhin konstatiert die Autorin, dass Kinder in den Fällen, in denensie nichtkanonische Reihenfolgen gebrauchten, immer Nomen gegenüber

3Damit beziehe ich mich lediglich auf die syntaktischen Muster, nicht aber auf den Erwerbder Morphosyntax, die insbesondere im Deutschen zu diesem Zeitpunkt in der Regel noch nichtabgeschlossen ist. ([Höhle (2012)], S. 135-137)

232 KAPITEL 8. DISKUSSION

Pronomen verwendeten. Im Gegenzug dazu enthielten nahezu die Hälfteihrer Korrekturen hin zum SVO-Muster Pronomen. Dies lasse vermuten, dassdie frühesten Repräsentationen des SVO-Musters junger Kinder teilweiseihren Ursprung in Pronomen-spezifischen Schemata wie „He’s VERBing“haben ([Akhtar (1999)]; siehe auch [Lieven, Pine und Baldwin (1997)];[Pine, Lieven und Rowland (1998)]). Im Hinblick auf die leicht steigendeVerwendung der Personalpronomem bei den in dieser Arbeit untersuchtenKindern, ergibt sich ein konsistentes Bild. Ein relativ gefestigtes syntaktischesVerständnis spiegelt sich in den nahezu gleichbleibenden Anteilen derVerben (VA, VM, VV) im Alter von 3;5 bis 5;5 wider und wird zudem voneiner leicht steigenden Verwendung von Personalpronomen gestützt. Durchden Erwerb der kanonischen Satzkonstruktionsmuster kann demnach keinmerklich höherer Verbanteil erwartet werden. Wie und warum der Erwerbder Syntax einsetzt, ist bisher nicht eindeutig geklärt und soll an dieserStelle nicht im Detail ausgeführt werden. Laut Sucharowski (1996) istfür das Heranreifen der grammatischen Kompetenz ein entscheidenderPunkt, dass der Wandel von der freien zur geordneten Wortfolge zu einembestimmten Zeitpunkt und immer ähnlich verläuft. Dabei sei bisher empirischungeklärt, welche Prozesse auf biologische Veränderungen zurückführbarsind und inwieweit Lernvorgänge Einfluss nehmen ([Sucharowski (1996)],S. 127 f.; siehe auch [Verrips (1990)]). Lebeaux (1988) sieht den Prozessder Reifung, wie ihn Sucharowski beschreibt, lediglich in Bezug auf diegrammatischen Repräsentationen. So stehe am Anfang ein linguistischerAusdruck, der zunächst nur lexikalisch operiere. Erst allmählich trätensyntaktische Funktionen hinzu ([Lebeaux (1988)] in: [Sucharowski (1996)],S. 127). Diese syntaktischen Funktionen sind bei den hier untersuchtenKindern vermutlich bereits relativ fest etabliert, was sich in den sich nicht mehrändernden Anteilen der Verben, aber auch Nomen bemerkbar macht, die ihreFunktionsstellen im Satz gefunden haben. Zu diesem Schluss kommt auchHöhle (2012), die herausfand, dass bereits mit ca. 3;0 Jahren Nebensätzemit korrekter Endstellung des finiten Verbs produziert werden. Bedeutendlänger dauert die Entwicklung der nominalen Morphosyntax im Deutschen,wobei zwar sehr früh die Produktion der nominalen Pluralformen einsetzt,diese jedoch zunächst nur bei Wörtern vorkommen, deren Referententypischerweise nicht singulär auftreten (z. B. Schuhe). Höhle schließt daraus,dass Wörter zunächst holistisch analysiert und nicht als morphologischkomplexe Wortformen betrachtet werden ([Höhle (2012)], S. 135-137).

Einen weiteren Anhaltspunkt dafür, dass Kinder im Alter von 3;5 bis5;5 Jahren bereits einen großen Teil der Struktur der jeweiligen Spracheverinnerlicht haben, deutet Pinker (1996) an und verdeutlicht dies an einem

233

Beispiel zum Erwerb der Pluralformen. Demzufolge unterliegen insbesondereunregelmäßige Pluralformen speziellen Erwerbsprozessen. Während bei derBildung der regelmäßigen Plurale bestimmte Flexionsregeln zum Einsatzkommen, lassen sich unregelmäßige Formen nicht durch Regeln erzeugen.Sie müssen demnach als Wurzeln oder Stämme im mentalen Lexikongespeichert sein ([Pinker (1996)], S. 167 ff.). Ein Experiment mit 3- bis5-Jährigen von Gordon (1985) zeigte, dass Kinder in diesem Alter dieseBeschränkungen ganz genau befolgen. Gordon zeigte seinen Probandinnenund Probanden eine Puppe und fragte zum Beispiel „Here is a monster wholikes to eat mud. What do you call him?“. Zunächst gab er selbst die Antwort „amud-eater “, um den Kindern den Einstieg zu erleichtern. Im weiteren Verlaufsollten die Kinder selbst antworten. Aus „monster who likes to eat mice“ wurderichtigerweise „mice-eater “. Erstaunlicherweise wurde aus „monster who likesto eat rats“ „rat-eater “, nicht aber „rats-eater “, wie man vielleicht vermutenkönnte. Dies deutet darauf hin, dass Kinder mit 3 bis 5 Jahren bereits diein den Wortstrukturregeln enthaltenen Beschränkungen für die Bildung derPlurale und Komposita beachten ([Gordon (1985)]). Diese Berücksichtigungwichtiger Strukturregeln in einem recht frühen Alter kann als weiterer Belegdafür gesehen werden, dass Kinder in einem Alter von 3 bis 5 Jahren bereitseinen wichtigen Teil syntaktischer (und zum Teil morphosyntaktischer) Regelnverinnerlicht haben und auch anwenden. Dies zeigt ferner das untrennbareZusammenspiel zwischen dem Erwerb des Lexikons und dem Erwerb derSyntax, das sich in der vorliegenden Arbeit insbesondere durch einengleichbleibenden Anteil an Nomen und Verben durch die verschiedenenAlterstufen hinweg äußert. Gestützt wird dieser Umstand durch die AussagePinkers (1996), der davon ausgeht, dass beim Spracherwerb Wortkategorien,nicht jedoch Wörter an sich, eine wichtige Rolle spielen. Menschen, dieSprache erwerben, lernen, Wörter in die richtige Reihenfolge zu bringen.Dies tun sie durch das Einprägen der Aufeinanderfolge von Wortkategorien(Nomen, Verb etc.), nicht durch das Einprägen der Reihenfolge von Wörtern([Pinker (1996)], S. 122).

Auch Höhle (2012) postuliert, dass der Erwerb der grundlegendengrammatischen Fähigkeiten im Laufe der ersten vier Lebensjahreabgeschlossen ist, was die Erkenntnisse dieser Arbeit in Bezug auf dieunwesentlichen Veränderungen (vor allem ab Gruppe 2 bzw. ab ca. 4;1Jahren) in der Verteilung der Wortarten unterstreicht. Die Entwicklungkonversationeller und pragmatischer Fähigkeiten hingegen dauere bis weit indas Schulalter hinein. Demzufolge seien zu Beginn des Schulalters kindlicheErzählungen oft geprägt durch eine geringe lexikalische Diversität, wassich in einer geringen Anzahl verschiedener Inhaltswörter bei einem hohen

234 KAPITEL 8. DISKUSSION

Anteil von Funktionswörtern äußert ([Höhle (2012)], S. 137). An dieser Stellewäre es interessant, die Datenerhebung der vorliegenden Arbeit mit älterenKinder im Schulalter bzw. ab 6 Jahren durchzuführen, um anschließend eineUntersuchung der pragmatischen Fähigkeiten vornehmen zu können. JüngereKinder, so Höhle, verwenden viele Pronomen, auch wenn deren Antezedentzuvor nicht eingeführt wurde. Auch dieser hohe Anteil an Pronomen imSprachgebrauch konnte durch die Daten der vorliegenden Arbeit bestätigtwerden.

In Kapitel 6 wurde ferner die Wortartenverteilung hinsichtlich derTypes ermittelt, also, wie viele verschiedene Lemmata die Kinder proWortart verwendeten. Auf den ersten Blick nehmen erneut die Adverbienund Pronominaladverbien (ADV + PAV) einen erwähnenswerten Anteilam Vokabular ein, unabhängig von der Altersgruppe (je 10,6% - 9,3% -9,5%). Diese Anteile sind im Vergleich zu den Tokens etwas niedriger.Nichtsdestotrotz gehört diese Kategorie neben den Nomen und Verben zujener mit dem höchsten Anteil am Gesamtvokabular. Hinsichtlich der Nomenwurde festgestellt, dass diese im Vergleich zu ihrer Verwendungshäufigkeiteinen enorm hohen Wert in Bezug auf die Types aufweisen (je ca. 30,5%- 40,5% - 38,8%). Aufgrund dieser Werte und der Werte bezüglich derTokens kann angenommen werden, dass Kinder im Alter von 3;5 bis 5;5Jahren Nomen nicht viel häufiger gebrauchen als Erwachsene. Jedoch sinddie Nomen, die von den Kindern geäußert werden, äußerst verschieden.Im Umkehrschluss könnte man sagen, dass Erwachsene häufig dieselbenNomen in einer untersuchten Textpassage verwenden. An dieser Stellekann nicht eindeutig geklärt werden, warum dies so ist. In Abschnitt 6.4wurden bereits Vermutungen dahingehend angestellt, dass sich Kinderhäufig in Spielsituationen befinden und zudem viele Fantasiebegriffeverwenden, wodurch ein derart hoher Anteil zustande kommt. Ein Vergleichzu den Daten der Erwachsenen aus Kauschkes Analyse ist hier mit großerVorsicht anzustellen, da die Inhalte der Gespräche nicht bekannt sind([Kauschke (2007)]). So ist es durchaus möglich, dass ein bestimmtesThema vorgegeben wurde und aufgrund dessen wiederholt dieselben Nomenverwendet wurden, was in einem geringeren Types-Anteil resultiert. Wiebereits erwähnt, wäre eine Inhaltsanalyse beider Parteien sehr hilfreich. Fürdie Daten der vorliegenden Arbeit wurden deshalb im Anschluss daran dieLemmata aller Kategorien im Hinblick auf inhaltliche Aspekte untersucht.Aufgrund der bisher erhobenen Daten kann folgende Hypothese angeführtwerden:

235

Annahme 2: Kinder im Alter von 3;5 bis 5;5 Jahren verwenden nicht mehrNomen als Erwachsene. Jene Nomen, die sie verwenden, sind jedochvon einer größeren Verschiedenartigkeit geprägt.

Zuletzt soll ein Blick auf die Anteile der Verben (VA, VM, VV) in denAltersgruppen geworfen werden. Hier gibt es zwischen den Gruppen keinegravierenden Unterschiede (je 23,7% - 22,6% - 22,9%). Ob und wannweitere Veränderungen nach dem sechsten Lebensjahr auftauchen, kannan dieser Stelle nicht gesagt werden. Es ist aber offensichtlich, dass im hieruntersuchten Zeitraum von 3;5 bis 5;5 Jahren keine Veränderungen bezüglichder Verbanteile am Gesamtvokabular zu verzeichnen sind.

In einem nächsten Schritt wurden nicht nur die Daten aller Kinder ineiner Altersgruppe untersucht, sondern die Daten jedes Kindes in jederAltersgruppe. Im Vorfeld war nicht klar, ob die Ergebnisse zielführendund aussagekräftig sein würden, da jedes Kind unterschiedlich vieleTokens hervorbrachte. Nach der Analyse stellte sich jedoch heraus,dass die Verteilung der Wortarten bei jedem Kind in jeder Altersgruppeerstaunlicherweise ein ähnliches Muster aufweist und für eine Analyseherangezogen werden kann. Es reichen also bereits wenige Tokens aus, umein aussagekräftiges Bild über die Verteilung der Wortarten zu erhalten. Inder ersten Gruppe 1281 bis 1495 waren die Kinder MA und MK vertreten.Ähnlich der Ergebnisse aus der Analyse der Altersgruppen waren sowohlbei den Tokens als auch bei den Types Adverbien und Pronominaladverbien(ADV+PAV) stark vertreten (Tokens: 10,3% bis 15,7% Types: 9,0% bis12,1%). Auch hier sind im Vergleich der Tokens zu den Types ähnlicheVerteilungsmuster wie in der Altersgruppenanalyse ersichtlich. Die Anteile derAdverbien und Pronominaladverbien (ADV+PAV) sind bei den Tokens undTypes relativ nah beieinander und weichen nicht derartig stark voneinander ab,wie es bei den Nomen beobachtet werden kann. Ein analoges Bild zeigt sichbei der Betrachtung der Adverbien und Pronominaladverbien (ADV+PAV) derKinder in der zweiten Altersgruppe 1495 bis 1708 (Tokens: 14,3% bis 18,4%Types: 11,3% bis 12,9%) sowie in der Altersgruppe 1709 bis 1983 (Tokens:9,1% bis 16,6% Types: 10,1% bis 16,7%). Die gewonnenen Ergebnisseunterstützen die bisherigen Erkenntnisse, dass Kinder im Alter von 3;5 bis5;5 Jahren keine gravierenden Änderungen in der Verteilung der Adverbienaufweisen. Auffällig ist die Beziehung der Tokens und Types im Hinblick aufdie Nomen (N). In allen Altersgruppen und bei jedem einzelnen Kind ist derAnteil am Gesamtwortschatz bezüglich der Verwendungshäufigkeit relativklein (Gruppe 1: 8,7% bis 10,5%, Gruppe 2: 6,7% bis 11,8%, Gruppe 3:5,9% bis 15,9%). In Anbetracht der Types ist der Anteil der Nomen sehr viel

236 KAPITEL 8. DISKUSSION

höher (Gruppe 1: 24,7% bis 27,1%, Gruppe 2: 24,7% bis 35,0%, Gruppe 3:16,7% bis 30,7%), aber auch sehr viel indiviueller. So gibt es einige Kinder,die mit rund 17% nicht sehr viele verschiedene Nomen verwenden, MK(Gruppe 1496_1708) hingegen mit 35,0% und LL (Gruppe 1709_1983) mit30,7% umso mehr. Dies bedeutet, wie bereits oben erwähnt, dass Kinder imAlter von 3;5 bis 5;5 Jahren eher wenige Nomen verwenden. Jene Nomen,die gebraucht werden, können aber individuell sehr verschieden sein. Einähnliches Bild konnte bereits bei der Analyse der Nomen in den Altersgruppenbeobachtet werden. Im Hinblick auf die Tokens sind die Anteile durchgängigrecht niedrig, in Bezug auf die Types wurden Werte über 30% beobachtet. Dieunterschiedliche Verwendung von Nomen wurde durch Einzelanalysen jedesKindes in jeder Altersgruppe zum Teil bestätigt. Zusätzlich wird ersichtlich,dass gerade im Hinblick auf die Types sehr individuelle Unterschiede zuverzeichnen sind, die erst durch die Einzelanalysen deutlich gemacht werdenkonnten. Die Anteile der Verben (VA, VM, VV) sind sowohl bei den Tokens alsauch bei den Types annähernd gleich bei allen Kindern in allen Altersgruppen(Gruppe 1: 20,4% bis 21,3% Tokens, 22,4% bis 25,0% Types, Gruppe 2:20,8% bis 23,2% Tokens, 22,5% bis 24,3% Types, Gruppe 3: 21,1% bis 24,0%Tokens, 21,0% bis 28,1% Types).

Im Anschluss an die Auswertung der Wortartenverteilung aller Kinderin den Altersgruppen wurden die ersten einhundert geäußerten Wörterjedes Kindes im Zuge einer Annäherung an den Inhalt des Gesagtenuntersucht (Abschnitt 6.4). Dabei wurden zwei typische Interaktionssituationenzwischen den Kindern bzw. zwischen Kind und Interviewerin identifiziert: dieErzählsituation und die Spielsituation. Letztere fand im Zuge der Aufnahmenvorwiegend zwischen zwei oder mehreren Kindern statt und ist geprägtdurch die Verwendung von Fantasiebegriffen, zahlreichen Eigennamen undinsgesamt einem größeren Anteil an Nomen. In den Erzählsituationen tratenhingegen weniger Nomen auf.

Generell kommt es zwischen 1;9 und 3;6 Jahren zu einer sprunghaftenAusweitung des Wortschatzes, woraufhin ab dem 4. Lebensjahr eineVerlangsamung zu verzeichnen ist ([Klann-Delius (1999)], S. 36). Ob undwie stark sich der Wortschatz zwischen 3;5 und 5;5 Jahren ausweitet,kann anhand der vorliegenden Daten nur zum Teil erörtert werden, danicht die Menge der produzierten Wörter in einem gegebenen Zeitraumuntersucht wurde. Ab 3;0 Jahren muss es aber zu einer Verlangsamungder Entwicklung der Wortartenverteilung gekommen sein, da in der hieruntersuchten Alterspanne keine großen Veränderungen zu verzeichnen sind.Szagun (2006) fand heraus, dass die ersten Wörter im Spracherwerbsprozessfolgenden Wortarten zugeordnet werden können: 60,5% Nomen, 28,6%

237

Funktionswörter, 6,7% Verben, 5,1% Adjektive ([Szagun (2006)], S. 212).Da diese Klassifikation nur einige Parallelen zu den STTS aufweist, könnendie Daten dieser Arbeit nicht mit den Ergebnissen von Szagun verglichenwerden. Aus den vorliegenden Daten geht allerdings hervor, dass der Anteilder Nomen in der gesprochenen Sprache mit zunehmendem Alter drastischsinkt, während der Anteil der Verben steigt und zwischen 3;5 und 5;5Jahren zunächst stagniert. Klann-Delius (1999) beschreibt eine lexikalischeStrukturierung der Wörter in Wortfelder zwischen 3;0 und 12;0 Jahren([Klann-Delius (1999)], S. 37; vgl. auch [Wode (1988)]). Diese Erkenntnisspiegelt sich auch in den Ergebnissen dieser Arbeit wider, weil durch diegegebene Stabilität der Wortartenverteilung (vor allem bezüglich der Tokens)eine gewisse begonnene Strukturierung des Wortschatzes angenommenwerden kann. Gleichzeitig sei ab einem Alter von 3;0 Jahren der Erwerbdes Lexikons für qualitative Bewertungen, wie zum Beispiel durch Adjektive,beobachtbar ([Augst, Bauer und Stein (1977)], S. 25). Dies wird insbesonderedurch die in Kapitel 7 getätigte inhaltliche Analyse deutlich.

Sehr aussagekräftige Ergebnisse über das kindliche Lexikon erzielteKauschke (1999), die bereits an zahlreichen Stellen dieser Arbeit zitiert wurde.Nach Kauschke ist bis zu einem Alter von 36 Monaten ein Types-Zuwachsbezüglich aller Wortarten zu verzeichnen, wobei die Anzahl unterschiedlicherWörter in Abhängigkeit vom Alter steigt. Dabei beobachtete sie zunächst einexponentielles Wachstum im 2. Lebensjahr, das im 3. Lebensjahr abnimmtund in einen anschließenden linearen Verlauf der Types übergeht. Ähnlichesermittelte Kauschke für die Verteilung der Tokens. Mit zunehmendemAlter seien keine bedeutenden Veränderungen mehr feststellbar, wassich unter anderem in einer gleichbleibenden Type-Token-Relation äußert([Kauschke (1999)]). Dies kann ebenfalls für die Daten dieser Arbeit behauptetwerden, wobei die Type-Token-Relation über die Altersgruppen hinwegnahezu gleich bleibt, wenn auch andere Werte annimmt als in der AuswertungKauschkes (Abschnitt 6.2.3). Die Analyse der hier vorliegenden Daten schließtin vielen Punkten an die bisherigen Ergebnisse zum Lexikonerwerb an. Sokönnen ab 3;0 Jahren keine starken Veränderungen im Hinblick auf dieTokens festgestellt werden. Auch im Hinblick auf die Types ergibt sich einrelativ konstantes Bild - bis auf die Nomen, die individuell sehr unterschiedlichverwendet werden. Ferner wurde bereits an anderen Stellen in dieser Arbeiterwähnt, dass Kauschke zu der Erkenntnis gelangt, dass im 3. Lebensjahrkein Kind mehr als 25% Nomen verwendet und Verben den größten Anteildes Lexikons ausmachen. Im Hinblick auf die Verwendungshäufigkeit derLemmata kann dies auch für die untersuchten Kinder zwischen 3;5 und 5;5Jahren behauptet werden. Bei den Types sind, wie schon erwähnt, stärkere

238 KAPITEL 8. DISKUSSION

individuelle Unterschiede zu verzeichnen, was jedoch auch Kauschke inihren Ergebnissen herausstellte. Demzufolge fügen sich die in dieser Arbeitgewonnenen Ergebnisse bezüglich der Verteilung der Wortarten ein in dasBild der bisher gewonnenen Ergebnisse anderer Arbeiten, welche Kinderbis zu einem Alter von meist 3;0 Jahren untersuchten. Bis zu einem Altervon 5;5 Jahren sind keine großen Veränderungen in der Verteilung derWortarten feststellbar. Ab einem Alter von ca. 4;1 Jahren (ab Gruppe 1496bis 1708) muss es den hiesigen Daten zufolge jedoch zu einer inhaltlichenUmstrukturierung des Lexikons kommen, was mit einer qualitativen Analyseder Inhaltswörter und zu Teilen der Funktionswörter gezeigt werden konnte(Abschnitte 7.2 und 7.3).

In Kapitel 7 wurden in Vorbereitung auf die Erstellung eines Lexikonsim Vorschulalter, die Grundsteine dafür gelegt. Um diesem Lexikon näherzu kommen war es neben der Analyse der Wortarten erforderlich, alleLemmata nach semantischen Aspekten zu untersuchen. Dazu wurden allehier verwendeten Kategorien der STTS erneut betrachtet und dann wiederumsemantischen Kategorien zugeordnet. Einige der Kategorien erfuhren keinegroßen Veränderungen und blieben nahezu entsprechend ihrer POS-Tagserhalten (Artikel, Interjektionen und Pronomen). Alle anderen Kategorienwurden in umso feinere semantische Kategorien eingefügt und erlaubtendadurch einen sehr detaillierten Blick auf die verwendeten Lemmata.Alle Kategorien, die auf diese Weise entstanden, wurden hinsichtlich ihrerVerwendung in dieser Arbeit mit Hilfe der Dudengrammatik definiert. Zusätzlichwurden allgemeine Beispiele sowie Beispiele aus den Daten dieser Arbeit zujeder der verwendeten Unterkategorie angegeben. Das eigentliche Lexikon4

stellt das Endergebnis aller bisher getätigten Analysen dar. Des Weiterenwurden zwei zusätzliche Wort- und Kategorielisten erstellt, die weitereInformationen liefern. Zum einen wurden alle Bedeutungskategorien mit dendarin enthaltenen Lemmata in den jeweiligen Alterszeiträumen aufgelistet,wodurch Entwicklungstendenzen sichtbar und Vergleiche zwischen Kindernunterschiedlichen Alters möglich werden. Zum anderen wurden in einerweiteren Liste neben den in den Bedeutungskategorien geäußerten Lemmatain jeder Altersgruppe alle POS-Tags ergänzt, mit denen ein Lemma imvorliegenden Korpus geäußert wurde. Dies ermöglicht neben der Sicht aufsemantische Aspekte auch einen Einblick in die lexikalisch-syntaktischeVerwendung der Lemmata. Ohne die Wortartenverteilung, wie sie in Kapitel

4Das auf Basis der hier analysierten Daten erstellte Lexikon befindetsich im Anhang dieser Arbeit. Es besteht im Wesentlichen aus dreiKorpuslexika: 1) Zusammenfassung_Lemmata_aller_Gruppen_mit_Beispielen, 2)Zusammenfassung_Lemmata_in_den_Gruppen, 3) Zusammenfassung_alle_Gruppen_mit_POS_Tags.

239

6 vorgenommen wurde, wäre die Erstellung des Lexikons nicht möglichgewesen. Denn nur aufgrund des Wissens um die einzelnen Wortartenkonnten auch semantische Aspekte der geäußerten Lexeme ermittelt werden.

Im Anschluss an die Betrachtung der Verteilung der Wortarten wurde einequalitative Betrachtung der Nomen, Verben und Adjektive (und Adverbien)sowie der Funktionswörter getrennt nach den Altersgruppen vorgenommen.Insgesamt fiel auf, dass Veränderungen vor allem im Übergang von Gruppe1 zu Gruppe 2 zu erkennen sind. Diese Veränderungen waren besonders beiden Adjektiven und bei den Verben zu beobachten. So trat das Modalverbmögen bzw. möchten in Gruppe 1 gar nicht auf, während es in Gruppe2 und 3 gleich mehrfach vorkam. Ähnlich verhielt es sich mit den Verbendenken und glauben, die in Gruppe 1 nicht vorkamen, ab Altersgruppe2 aber mehrfach zu verzeichnen waren. Das Verb glauben trat dabeihäufiger auf als denken. Wie bereits oben angeführt ist meine Vermutungdahingehend, dass glauben häufiger in den Inputdaten der Kinder bzw.generell häufiger in der gesprochenen Sprache auftritt. Einige Hinweise aufdas Vorkommen von Lexemen in der Sprache bieten Häufigkeitswörterbücher.Das Häufigkeitswörterbuch der gesprochenen Sprache (nachfolgend HWB)enthält geordnete Wortlisten, die auf einer 25-jährigen Recherchearbeitberuhen ([Ruoff (1981)], S. 9). Das HWB enthält drei Wortlisten: 1) geordnetnach dem Alphabet, 2) rückläufig-alphabetisch geordnet sowie 3) geordnetnach Häufigkeit. Alle Listen sind jeweils gesondert nach Wortarten aufgeführt.Ferner gibt Ruoff zu jedem Lemma die Anzahl seiner Vorkommenshäufigkeitund dessen prozentualer Anteil an der Gesamtheit der betreffenden Wortartan. Die Einteilung des Wortschatzes nach Wortarten, aber auch die Reduktionder Belege auf deren Grundformen (Lemmata) entspricht auch weitestgehenddem Vorgehen der vorliegenden Arbeit. Ruoff verwendete lediglich eine leichtabweichende Einteilung der Wortarten (Substantiv, Verb, Grundverb, Adjektiv,Adverb, Konjunktion, Präposition, Partikel, Artikel+Fragewort+Pronomen,Zahlwort, Namen); sie kommt der hiesigen jedoch sehr nahe. Im Hinblick aufdas Vorkommen des Verbs glauben enthält das HWB eine Häufigkeitsangabevon 0,34% (Rang 27). Das Verb denken kommt mit 0,21% etwas seltenervor (Rang 43) ([Ruoff (1981)], S. 440, Verben geordnet nach Häufigkeit).In ihrem Vorkommen als Grundverben zeigt sich ein ähnliches Muster:glauben erscheint mit einer Häufigkeit von 0,34%, denken mit 0,26%([Ruoff (1981)], S. 481). Es scheint, dass sich die Vorkommenshäufigkeitender Verben glauben und denken im HWB ebenso im Vokabular der hieruntersuchten Kinder widerspiegeln, was durch ein stärkeres Vorkommen desVerbs glauben im Gegensatz zu denken deutlich wird. Bei einer näherenBetrachtung der Adjektive konnte auch ein Entwicklungsschritt von Gruppe

240 KAPITEL 8. DISKUSSION

1 nach Gruppe 2 festgestellt werden. Dies betrifft vor allem die Verwendungvon Gegensatzpaaren in Verbindung mit den dazugehörigen semantischenAbfolgen. In Gruppe 1 gebrauchten die hier untersuchten Kinder lediglich dieEndpunkte einer semantischen Dimension, beispielsweise nur immer vs. nie.In Anbetracht einer semantischen Reihe kämen diesbezüglich die Adjektiveimmer - gewöhnlich - manchmal - selten - nie in Frage ([Kuczaj (1975)];[Kuczaj (1982)]). Anhand dessen wird deutlich, dass der Erwerb derartigersemantischer Reihen für Kinder unter 4;1 Jahren noch ein recht großesHindernis darstellt, während die Kinder in den Gruppen 2 und 3 bereitsAdjektive äußerten, die sich zwischen den Extremen einer solchen Dimensionbefinden. Im Hinblick auf Nomen wurde festgestellt, dass die hier untersuchtenKinder zahlreiche übergeordnete Begriffe und Komposita sowie abstrakteBegriffe verwendeten. Bei den Komposita fällt auf, dass die Kinder in Gruppe1 lediglich zwei Nomen zu einem Kompositum kombinieren, während dieKinder in den Gruppen 2 und 3 ein Nomen auch mit einem Verb oder einemAdjektiv kombinierten. Des Weiteren ist ab einem Alter von 4;1 Jahren dievermehrte Verwendung von Eigennamen (hier speziell Ortsbezeichnungenwie Afrika, Kenia) zu beoachten. Insgesamt betrachtet lässt die getätigteAnalyse vermuten, dass nach einem Alter von 4;1 Jahren (hier ab 1496 Tagen)sprachliche Entwicklungsschritte stattfinden, die sich in der Komposition desLexikons (bezogen auf die Types) und hier insbesondere bei den Adjektiven,Verben und zum Teil bei den Nomen beobachten lassen. Eine inhaltlicheAnalyse der Funktionswörter bestätigte den Trend einer sich veränderndenStruktur des Lexikons ab 4;1 Jahren in Bezug auf die hier erhobenen Daten.

Das auf diese Weise entstandene Lexikon (Anhang) mit seinenergänzenden Dateien bildet in umfassender Weise die Spontansprache derhier untersuchten Kinder im Alter von 3;5 bis 5;5 Jahren ab und kann fürzahlreiche weitere Analysen sowie als Nachschlagewerk für unterschiedlicheZwecke genutzt werden.

An dieser Stelle sollen nun die in Kapitel 4 formulierten Fragen beantwortetwerden.

1. Gibt es im Alter von 3;5 bis 5;5 Jahren Unterschiede in der Verteilungder Wortarten? Wie eben angeführt kann aufgrund der erhaltenen Datenangenommen werden, dass es kleine, wenn auch keine gravierendenUnterschiede bzw. Veränderungen in der Verteilung der Wortarten gibt.In Anlehnung an die Untersuchung Kauschkes ([Kauschke (1999)])von Kindern bis zum 3. Lebensjahr scheint es in Bezug auf die hierermittelten Daten so, dass nach diesem Zeitpunkt (zunächst) eine bereits

241

stabile Verteilung weiterhin bestehen bleibt, wobei Nomen nur relativselten, aber in sehr verschiedener Form verwendet werden können. DerAnteil an Types ist in den Altersgruppen 2 und 3 höher als in Gruppe 1.Durch Einzelanalysen konnte gezeigt werden, dass der hohe Anteil anverschiedenartigen Nomen individuell derartig unterschiedlich ist, dassdiesbezüglich keine allgemeinen Schlussfolgerungen getroffen werdenkönnen. Verben treten mit einem Anteil von etwa einem Fünftel bezüglichder Tokens und der Types gleichermaßen in den hier untersuchtenAltersgruppen auf auf.

2. Ist hinsichtlich der Verwendung der Wortarten ein Trend erkennbar(individuell oder allgemein) oder bleibt die Komposition des Lexikonszwischen 3;5 und 5;5 Jahren konstant? Hinsichtlich der Verwendung/derVerteilung der Wortarten ist kein Trend erkennbar. Es ist im Hinblickauf die Analyse erwachsener Sprecherinnen und Sprecher jedochanzunehmen, dass der Anteil der Nomen in Bezug auf die Typesim weiteren Verlauf abnimmt (vgl. [Kauschke (2007)], S. 132). DieVerwendungshäufigkeit (Anteil der Tokens) sollte mit Referenz daraufannähernd gleich bleiben. Hierzu müssten weitere Untersuchungenmit Kindern über 5;5 Jahren sowie weiteren Daten von Erwachsenenvorgenommen werden. Den in Abschnitt 6.3 ermittelten Daten kannentnommen werden, dass die Verteilung der Wortarten individuellsehr unterschiedlich sein kann. Relativ gleich sind die Anteile beiden Tokens, während die Verschiedenartigkeit der geäußerten Wörter(Types) von Kind zu Kind oft stark abweicht. Die Anteile aller weiterenWortarten unterliegen sowohl über die Altersgruppen hinweg als auchindividuell betrachtet keinen derartigen Schwankungen, wie es beieinigen Inhaltswörtern (hier speziell bei den Nomen in Bezug auf dieTypes) der Fall ist. Vielmehr ist davon auszugehen, dass die meistenWortarten als syntaktische Operatoren in ihrer Verwendung(-shäufigkeit)konstant bleiben.

3. Wie ist das Lexikon der hier untersuchten Kinder zwischen 3;5und 5;5 Jahren komponiert? Um diese Frage zu beantworten istein Rückblick auf die in Abschnitt 2.3 geschaffenen Grundlagennotwendig. In diesem Abschnitt wurden zunächst die Erkenntnisse desLexikonerwerbs aus der Sicht der Konstruktionsgrammatik dargelegtund damit verbunden insbesondere die Ansicht von Tomasello (2000,2005) ([Tomasello (2000a)]; [Tomasello (2005)]). Die Gründe dafürsind, dass diese Erkenntnisse relativ zeitgemäß sind und zudemmit meinem persönlichen Forschungsinteresse einhergehen. Laut

242 KAPITEL 8. DISKUSSION

Tomasello (2000) spielt der lexikalische Kontrast eine entscheidendeRolle für den Erwerb neuer Wörter, weil dieser helfe, die jeweiligenReferenten zu identifizieren. Mit 3 oder 4 Jahren würden Kinder einausreichend syntaktisches Wissen besitzen, um damit neue Wörter zuerwerben ([Tomasello (2000a)], S. 71). Dies spiegelt sich in den hiererhaltenen Daten wider. Zwischen 3;5 und 5;5 Jahren sind den hierermittelten Daten zufolge keine großen Veränderungen im Wortschatzzu verzeichnen bezogen auf die Verteilung der Wortarten. Erkennbarsind allerdings individuelle Unterschiede in Bezug auf das Vorkommender Nomen, insbesondere bei den Types (siehe dazu [Dittmann (2006)],S. 45). Dass diese Unterschiede tatsächlich fast ausschließlich bei denNomen zu beobachten sind, könnte wiederum mit dem Erwerb derSyntax erklärt werden, die augenscheinlich in der hier untersuchtenAlterspanne auf einem nicht messbarem Niveau stabil bleibt. DenErgebnissen der vorliegenden Arbeit nach zu urteilen unterliegendie Anteile der Verben sowohl in Bezug auf die Tokens als auch aufdie Types in jeder Altersgruppe keinen Schwankungen. Dies deutetauf ein - zumindest vorübergehendes - syntaktisch stabiles Musterhin. Bei den Nomen zeigen sich vor allem im Hinblick auf die Typesgroße individuelle Unterschiede, bei den Tokens hingegen weniger.Dieser Umstand deutet darauf hin, dass auch diesbezüglich einfestes syntaktisches Muster verankert ist, dass inhaltlich individuellmit unterschiedlichen Nomen gefüllt wird. In Anbetracht der Tatsache,dass Nomen als Inhaltswörter sehr austauschbar sind und somitstark variieren können, ist das nicht unbedingt verwunderlich. Es zeigtvielmehr, dass der Erwerb semantischer Aspekte von Nomen nochlange nicht abgeschlossen ist und eventuell noch lange Zeit bzw.fortwährend individuellen Schwankungen unterliegt. Auch Anisfeldet al. (1998) beobachteten dieses Phänomen und postulieren, dassdie lexikalische und die grammatische Entwicklung interkorrelieren([Anisfeld, Rosenberg, Habermann und Gasparini (1998)]). Demnachbreitet sich das Vokabular von Kindern rasant aus, kurz nachdem dieAnwendung grammatischer Strukturen in der Sprache zu verzeichnenist. Tomasello (2000) erklärt diese Interkorrelation damit, dassKinder erst eine gewisse Anzahl von Wörtern benötigen, bevor siesyntaktische Konstruktionen verstehen können. Umgekehrt helfe dasWissen um syntaktische Strukturen beim Erlernen neuer Wörter([Tomasello (2000a)], S. 93).Die eigentliche Komposition des Lexikons der hier untersuchten Kinderwurde durch eine Analyse der Wortbedeutungen ermöglicht. In Kapitel

243

7 wurde beschrieben, nach welchen semantischen Kategorien allehier geäußerten Lemmata, neben ihrer Bezeichnung mit POS-Tags,klassifiziert werden. Auf diese Weise ergaben sich neben bereitsvorhandenen Kategorien, auch neue Kategorien, die wichtigeInformationen enthalten. Die Klasse der Verben wurde beispielsweiseunter semantischen Aspekten in Handlungs-, Vorgangs-, Zustands-,Modal-, Auxiliar- und Kopulaverben differenziert. Eine ähnlich detaillierteDifferenzierung erfuhren die Adjektive, Adverbien, Präpositionen,Junktionen, Nomen und Partikeln. Alle derart klassifizierten Lemmatasind mit ihren jeweiligen semantischen Kategorien und Beispielen ausden Daten dieser Arbeit im Anhang in Form eines Lexikons aufgeführt.Dieses Lexikon ist das Ergebnis aller bisher getätigten Recherchen undAnalysen und spiegelt anschaulich das Vokabular der hier untersuchtenKinder im Alter von 3;5 bis 5;5 Jahren wider.

244 KAPITEL 8. DISKUSSION

Kapitel 9

Ausblick

An dieser Stelle möchte ich auf jene Ergebnisse dieser Arbeit zurückkommen,die besonders für weitere Forschungarbeiten interessant sein können.Ferner möchte ich eingehen auf im Zuge dieser Arbeit entstandenenDiskussionsbedarf, unabhängig von der hier durchgeführten Analyse. Eswar mir ein besonderes Anliegen, das Lexikon von Kindern im Vorschulalterbzw. konkreter im Alter von 3;5 bis 5;5 Jahren zu untersuchen. Im Verlaufdieser Arbeit wurde die Wortartenverteilung der untersuchten Kinder aufder Basis der STTS (Tabelle 3.2.2) analysiert. Die ermittelten Ergebnissefügen sich in das Bild der bisherigen Ergebnisse zum Lexikonerwerb undinsbesondere zur Verteilung der Wortarten bei Kindern bis zum Alter von3;0 Jahren ein. Ferner fällt auf, dass in der hier untersuchten Altersspannekeine großen Veränderungen in der Wortartenverteilung zu verzeichnensind, zumindest was die Anteile aller Wortarten (in Bezug auf die Tokens)betrifft. Eine Ausnahme bilden mit einer großen Individualität hinsichtlich derVerschiedenartigkeit die hier verwendeten Nomen. An dieser Stelle wäre esfür zukunftige Arbeiten ein besonderes Anliegen, diese Individualität genauerzu untersuchen. Die hier ermittelten Daten basieren auf spontanen Daten,die in einem Kindergarten gewonnen wurden. Es wurde festgestellt, dasssich die Kinder häufig in Spielsituationen befanden (Abschnitt 6.5). Dieskann unter Umständen dazu geführt haben, dass jene Nomen, die geäußertwurden, sehr verschieden waren. Es könnte jedoch der Fall sein, dass diesauch in anderen Situationen beobachtbar ist. Dies müsste in weiteren, ähnlichangelegten Untersuchungen herausgefunden werden. Interessant wäre dieBeobachtung von Kindern zu Hause oder in ihnen fremden Umgebungen.Auch die Erhebung von Daten unter kontrollierten Bedingungen im Labor wärevorstellbar. Dies hätte dann zwar nicht mehr den Anspruch an Spontaneität,würde aber einen interessanten Vergleich darstellen.

Da bis zu einem Alter von 5;5 Jahren keine großen Veränderungen in

245

246 KAPITEL 9. AUSBLICK

der Verteilung der Wortarten zu verzeichnen waren, müssten anschließendan diese Untersuchung Daten von älteren Kindern erhoben werden,um herauszufinden, ob und in welchem Alter ein nächster deutlicherEntwicklungsschritt erkennbar ist. Es wurde weiterhin festgestellt, dass sichdie inhaltliche Zusammensetzung des Lexikons im Hinblick auf die Adjektive,Verben und wahrscheinlich auch auf die Nomen1 ab einem Alter von 4;1 Jahrenändert. Diesbezüglich erachte ich es für sinnvoll, diese Entwicklungschritte inweiterführenden Untersuchungen aufzugreifen und detaillierter zu erforschen.Des Weiteren können mit den hier erhaltenen Daten weitere Untersuchungen- im Hinblick auf die syntaktische, morphologische, phonologische Entwicklungetc. - vorgenommen werden. Besonders aufschlussreich wäre eine inhaltlicheAnalyse der hier erhobenen Daten unter anderen Bedingungen. Es ist zuerwarten, dass Kinder in anderen Umgebungen als im Kindergarten eineabweichende Verteilung der Wortarten sowie andere Inhalte aufweisen.Denkbar wäre, dass die Verteilung der Wortarten - insbesondere die derTypes - weniger oder aber stärkeren individuellen Schwankungen unterliegt,wenn den Aufnahmen ein vorgegebenes Gesprächsthema zu Grunde liegt.Eine besonders aussagekräftige Vergleichsstudie wäre die Datenerhebungaller hier untersuchten Kinder zu späteren Zeitpunkten unter gleichenBedingungen. Diesbezüglich erschiene es sinnvoll zu überprüfen, ob dieindiviuelle Verschiedenartigkeit - insbesondere in der Verwendung der Nomen- in den Äußerungen erhalten bleibt oder ob sich dies mit zunehmendem Alterändert. Eine Beobachtung des familiären Umfelds der untersuchten Kinderkönnte zudem Aufschluss über eventuelle Besonderheiten geben, die dieKinder in ihrem Input erfahren.

Nicht zu vergessen ist eine eigenständige Analyse von Daten erwachsenerSprecher/innen auf der Basis der STTS. Die hier vorliegenden Daten vonKauschke (2007) waren zu wenige, um damit einen aussagekräftigenVergleich durchzuführen ([Kauschke (2007)]). Hinzu kommt, dass nicht genaubekannt ist, wie und unter welchen Bedingungen die Daten erhoben wurden.Ein Datenset erwachsener Sprecher/innen, das vom Umfang jenem der hieruntersuchten Kinder entspricht, könnte interessante Hinweise darauf geben,ob und wann die Komposition des Lexikons bei Kindern annähernd stabilbleibt.

Stellt man sich die Frage nach dem Sinn und Zweck der hierdurchgeführten Analyse, ist das nicht ganz eindeutig zu beantworten. Inder linguistischen Forschung wird ein Großteil der experimentellen Studienund Beobachtungsstudien häufig deshalb gemacht, weil zum jeweiligen

1Ein eindeutiger Entwicklungsschritt bezüglich der Nomen kann hier nicht ausgemacht werden, istaber nicht auszuschließen.

247

Forschungsthema noch keine Daten vorliegen oder aber, weil vorliegendeErgebnisse überprüft werden sollen. Derartige Analysen müssen nichtimmer ein bestimmtes Ziel verfolgen oder für einen gesellschaftlichen Zweckzu Verfügung stehen. Oft ist es schlichtweg das Interesse nach neuengrundlegenden Strukturen, die die Sprache betreffen. Und genau darum ginges zunächst auch mir bei der Erstellung der vorliegenden Arbeit. Immer,wenn ich in einer Bibliothek oder anderweitig nach neuen Erkenntnissen zumThema Sprache im Vorschulalter suchte, fand ich lediglich Literatur, die dieSprache von Kindern bis zu einem Alter von 3 Jahren beschreibt. Ich konntemir nicht erklären, weshalb es keine Studien zur Strukur der Sprache vonälteren Kindern gab. Nach längerer Recherche fanden sich zwar Studien,die sehr spezielle Fähigkeiten von Kindern im Vorschulalter untersuchten,wie zum Beispiel die richtige Verwendung der unregelmäßigen Pluralformen.Ich konnte jedoch keine Informationen darüber erlangen, wie der Wortschatzdes Vorschulkindes im Hinblick auf seine Inhalte, geschweige denn aufseine Struktur, aufgebaut ist. Aus diesem Grund entschloss ich mich, selbsteinen Schritt in diese Richtung zu unternehmen und einen Überblick überdie Komposition des Lexikons von Kindern im Alter von 3;5 bis 5;5 Jahrenzu schaffen. Dies war das übergeordnete Ziel der Arbeit. Nach einer erstenDurchsicht der erhaltenen Daten eröffneten sich spontan einige Ziele, die ichhier anführen möchte: Es ist vorstellbar, die hier erhaltenen inhaltlichen Datenfür die Erstellung zukünftiger oder die Verbesserung bestehender Lehr- undLernmaterialien zu nutzen. Insbesondere die Verbesserung von Lernsoftwarefür den Vorschulbedarf ist vorstellbar. Durch die hier erhaltenen Daten wirddeutlich, wie Kinder im Alter von 3;5 bis 5;5 Jahren tatsächlich sprechen unddemnach ist ersichtlich, welche Inhalte sie verstehen und welche noch nicht.Es wäre es sinnvoll, alle linguistischen Bereiche, in denen Hilfestellungenbeim Erlernen der Sprache geboten werden können, aufzugreifen undpädagogisch aufzuarbeiten. Beispielhaft ist nach der Durchsicht der hiererhaltenen Ergebnisse das Verstehen und Üben der Adjektiv-Dimensionenunter unterschiedlichen Aspekten. Ferner wäre es denkbar, Adjektive infeststehenden Wendungen wie „ich habe eine coole Idee“ zu extrahierenund darauffolgend andere passende und/oder unpassende Adjektive zurVerfügung zu stellen. Es müsste dann eine Entscheidung des Kindesfolgen, welches Adjektiv an dieser Stelle passen könnte. Ein ähnlichesProzedere ist auch mit anderen Wortarten vorstellbar, je nachdem welchesLernziel verfolgt wird. Ein ähnliches Ziel - aber unter Berücksichtigung derErkenntnisse des Zweitsprachenerwerbs - ist die Erstellung von Lehr- undLernmaterialien für Kinder mit Migrationshintergrund. Weiterhin könnten aufder Grundlage der Wave-Dateien geeignete Tonaufnahmen extrahiert und für

248 KAPITEL 9. AUSBLICK

auditive Lernzwecke eingesetzt werden. Das abschließend erstellte Lexikonbildet, zusammen mit all seinen zusätzlichen Informationen (sprachlicheBeispiele aus den EXMARaLDA-Dateien, Audio-Dateien, Wortartenanalyse,semantische Analyse, Häufigkeitsanalyse), ein nützliches Nachschlagewerk,das den Wortschatz von Kindern im Alter von 3;5 bis 5;5 Jahren zu großenTeilen abbildet.

Ich hoffe, dass ich mit der hier erstellten Arbeit einen Beitrag leistenkann, der sich in die bisherige, sehr umfangreiche Forschungslandschaftdes Spracherwerbs, aber auch der Lexikologie und Lexikographie sowie derkorpusbasierten Linguistik eingliedert.

Abbildungsverzeichnis

4.1 Folker-Datei: ic_a_31.flk . . . . . . . . . . . . . . . . . . . . . . . 684.2 Folker-Datei: ic_a_16.flk . . . . . . . . . . . . . . . . . . . . . . . 704.3 Beispielhafte EXMARaLDA-Datei mit sieben Sprecherinnen und

Sprechern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 724.4 Separierte Tonspur in einer EXMARaLDA-Datei . . . . . . . . . . 724.5 Tonspur eines einzelnen Sprechers (RD) mit Annotationsspur . . 734.6 EXMARaLDA-Datei: MM_lem.exb . . . . . . . . . . . . . . . . . 73

5.1 CA: project folder structure . . . . . . . . . . . . . . . . . . . . . 915.2 CA: Installation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 915.3 CA: copy and save files . . . . . . . . . . . . . . . . . . . . . . . 925.4 CA: convert wav-files . . . . . . . . . . . . . . . . . . . . . . . . . 925.5 CA: create database . . . . . . . . . . . . . . . . . . . . . . . . . 935.6 CA: import exmaralda files . . . . . . . . . . . . . . . . . . . . . . 935.7 CA: generate all results . . . . . . . . . . . . . . . . . . . . . . . 945.8 CA: generate tag count results . . . . . . . . . . . . . . . . . . . 955.9 CA: type-token results . . . . . . . . . . . . . . . . . . . . . . . . 955.10 CA: type-token-lemma results . . . . . . . . . . . . . . . . . . . . 965.11 CA: lemma tag results . . . . . . . . . . . . . . . . . . . . . . . . 965.12 CA: lemma bedeutung results . . . . . . . . . . . . . . . . . . . 965.13 CA: typetoken bedeutung results . . . . . . . . . . . . . . . . . . 975.14 CA: table structure sprecher . . . . . . . . . . . . . . . . . . . . . 985.15 CA: table structure aufnahme . . . . . . . . . . . . . . . . . . . . 995.16 CA: table structure: textpostags . . . . . . . . . . . . . . . . . . . 1005.17 CA: table structure wav_datei . . . . . . . . . . . . . . . . . . . . 1005.18 CA: Wortliste 1281 bis 1495 ART . . . . . . . . . . . . . . . . . . 1075.19 CA: Beispiel lemma_tag 1496 bis 1708 . . . . . . . . . . . . . . 1185.20 CA: Beispiel all_lemma_tag_MA 1281 bis 1495 . . . . . . . . . 1195.21 CA: Skript db_query_all_lemma_tag_name LL_ 1709_1983 . . . 120

6.1 POS-Tags: tokens_types_gruppiert_1281_1495 . . . . . . . . . . 131

249

250 ABBILDUNGSVERZEICHNIS

6.2 Gruppierte POS-Tags, Verteilung Tokens, 1281 bis 1495 Tage . . 1356.3 Gruppierte POS-Tags, Verteilung Tokens, 1496 bis 1708 Tage . . 1366.4 Gruppierte POS-Tags, Verteilung Tokens, 1709 bis 1983 Tage . . 1376.5 Beispiel: tokens_VVIMP_1709_1983 . . . . . . . . . . . . . . . . 1376.6 Beispiel: types_VVFIN_1281_1495 . . . . . . . . . . . . . . . . . 1386.7 Gruppierte POS-Tags, Verteilung Types, 1281 bis 1495 Tage . . 1406.8 Gruppierte POS-Tags, Verteilung Types, 1496 bis 1708 Tage . . 1416.9 Gruppierte POS-Tags, Verteilung Types, 1709 bis 1983 Tage . . 1426.10 Beispiel: JS_lemmata_ADJA_1709_1983 . . . . . . . . . . . . . 1456.11 Beispiel: LEO_lemmata_NN_1709_1983 . . . . . . . . . . . . . 146

7.1 Verwendung von „Idee“: 039_MA . . . . . . . . . . . . . . . . . . 2017.2 „wissen“ im Kontext „weißt du was?“ (042_MK und 044_MK) . . 2057.3 „wissen“: 020_MM, 036_LAR . . . . . . . . . . . . . . . . . . . . 2057.4 „glauben“: 024_LUA, 031_AV, 031_LAR, 031_SO . . . . . . . . . 2067.5 „denken“: 033_JS, 045_MK . . . . . . . . . . . . . . . . . . . . . 2067.6 Adjektive in den drei Altersgruppen (Ausschnitt) . . . . . . . . . . 2097.7 tag count_NN_1496_1708 . . . . . . . . . . . . . . . . . . . . . . 2177.8 tag count_JS_ADV_1709_1983 . . . . . . . . . . . . . . . . . . . 2187.9 type token_VVINF_1281_1495 . . . . . . . . . . . . . . . . . . . 2197.10 type token lemma_ADJA+ADJD_1709_1983 . . . . . . . . . . . 2207.11 lemma tag_VMFIN_1496_1708 . . . . . . . . . . . . . . . . . . . 2217.12 lemma bedeutung_v-vorgang_1281_1495 . . . . . . . . . . . . . 2217.13 type token bedeutung_adv-lok_1709_1983 . . . . . . . . . . . . 222

Tabellenverzeichnis

3.1 Wortartenklassifikation nach Kauschke ([Kauschke (1999)], S.140) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.2 STTS Tag Table (1995/1996) . . . . . . . . . . . . . . . . . . . . 44

4.2 Gruppe der Testpersonen . . . . . . . . . . . . . . . . . . . . . . 88

6.1 POS-Tags zusammengefasst . . . . . . . . . . . . . . . . . . . . 1316.2 Types und Tokens in den Altersgruppen . . . . . . . . . . . . . . 1336.3 Vorkommen der POS-Tags (Tokens) in allen Altersgruppen im

Überblick - gruppiert . . . . . . . . . . . . . . . . . . . . . . . . . 1346.4 Vorkommen der POS-Tags (Types) in allen Altersgruppen im

Überblick - gruppiert . . . . . . . . . . . . . . . . . . . . . . . . . 1396.5 Type-Token-Verhältnis in den Altersgruppen . . . . . . . . . . . . 1406.6 MA: Verteilung der Types, gruppiert, 1281 bis 1495 . . . . . . . . 1486.7 MK: Verteilung der Types, gruppiert, 1281 bis 1495 . . . . . . . . 1496.8 AV: Verteilung der Types, gruppiert, 1496 bis 1708 . . . . . . . . 1506.9 LEO: Verteilung der Types, gruppiert, 1496 bis 1708 . . . . . . . 1516.10 LUA: Verteilung der Types, gruppiert, 1496 bis 1708 . . . . . . . 1526.11 MK: Verteilung der Types, gruppiert, 1496 bis 1708 . . . . . . . . 1536.12 AV: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . . . 1546.13 JK: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . . . 1556.14 JS: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . . . 1566.15 LAR: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . . 1576.16 LEO: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . . 1586.17 LL: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . . . 1596.18 LUA: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . . 1606.19 MM: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . . 1616.20 RD: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . . . 1626.21 SO: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . . . 163

7.1 Nomen in den Altersgruppen . . . . . . . . . . . . . . . . . . . . 1997.2 Verben in den Altersgruppen . . . . . . . . . . . . . . . . . . . . 204

251

252 TABELLENVERZEICHNIS

7.3 Adjektive in den Altersgruppen . . . . . . . . . . . . . . . . . . . 207

Literaturverzeichnis

[Abbot-Smith, Lieven und Tomasello (2001)] K. Abbot-Smith, E. Lieven undM. Tomasello. What preschool children do and not do withungrammatical word orders. Cognitive Development, 16:679–692, 2001.

[Aitchison (1994)] J. Aitchison. Words in the mind: an Introduction to theMental Lexicon. Basil Blackwell, Oxford, 1994.

[Aitchison (2003)] J. Aitchison. Words in the Mind. Blackwell Publishing,Malden, MA [u.a.], 3. Auflage, 2003.

[Akhtar (1999)] N. Akhtar. Acquiring basic word order: evidence for data drivenlearning of syntactic structure. Journal of Child Language, 26:339–356,1999.

[Albert und Koster (2002)] R. Albert und C. Koster. Empirie in Linguistik undSprachlehrforschung. Narr Studienbücher, Tübingen, 2002.

[Anisfeld, Rosenberg, Habermann und Gasparini (1998)] M. Anisfeld, E. S.Rosenberg, M. J. Habermann und D. Gasparini. Lexical accelerationcoincides with the onset of combinatorical speech. First Language, 18:164–184, 1998.

[Augst (1985)] G. Augst. Kinderwort: Der aktive Kinderwortschatz (kurz vor derEinschulung) nach Sachgebieten geordnet. Mit einem alphabetischenRegister. Peter Lang, Frankfurt am M. u.a., 1985.

[Augst, Bauer und Stein (1977)] G. Augst, A. Bauer und A. Stein.Grundwortschatz und Ideolekt. Empirische Untersuchungen zursemantischen und lexikalischen Struktur des kindlichen Wortschatzes.Niemeyer, Tübingen, 1977.

[Backscheider und Shatz (1993)] A. Backscheider und M. Shatz. Children’sacquisition of the lexical domain of color. In Beals, K. et al., (Hrsg.),What we think, what we mean, and how we say it. Papers fromthe parasession on the correspondence of conceptual, semantic and

253

254 LITERATURVERZEICHNIS

grammatical representations, CLS 29, Vol.2. The Chicago LinguisticSociety, Chicago, 1993.

[Baker (2003)] M. Baker. Lexical Categories: Verbs, Nouns and Adjectives.Cambridge University Press, Cambridge, 2003.

[Bassano (2000)] D. Bassano. Early development of nouns and verbs infrench: Exploring the interface between lexicon and grammar. Journalof Child Language, 27:512–559, 2000.

[Bates und Goodman (1999)] E. Bates und J. Goodman. On the emergenceof grammar from the lexicon. In B. MacWhinney, (Hrsg.), The emergenceof language. Erlbaum, Mahwah, NY [u.a.], 1999.

[Bates, Markman, Thal, Fenson, Dale, Reznik, Reilly und Hartung (1994)]E. Bates, V. Markman, D. Thal, L. Fenson, P. Dale, J. Reznik, I. Reillyund J. Hartung. Developmental and stylistic variation in the compositionof early vocabulary. Journal of Child Language, 21:85–121, 1994.

[Behrens (1998)] H. Behrens. How difficult are complex verbs? Evidencefrom German, Dutch and English. In E. Lieven, (Hrsg.), Special issue:Developing a Verb Category: Cross-Linguistic Perspectives, S. 679-713.Linguistics, Vol. 36/4, 1998.

[Behrens (2011)] H. Behrens. Grammatik und Lexikon im Spracherwerb:Konstruktionsprozesse. In Sprachliches Wissen, Seiten 375–396. DeGruyter, 2011.

[Bergenholtz und Schaeder (1977)] H. Bergenholtz und B. Schaeder. DieWortarten des Deutschen: Versuch einer syntaktisch orientiertenKlassifikation. Klett, Stuttgart, 1977.

[Bierwisch und Schreuder (1992)] M. Bierwisch und R. Schreuder. Fromconcepts to lexical items. Cognition, 42:23–60, 1992.

[Bloom, Tinker und Margulis (1993)] L. Bloom, E. Tinker und C. Margulis. Thewords children learn: Evidence against a noun bias in early vocabularies.Cognitive Development, 8:431–450, 1993.

[Borer (1984)] H. Borer. Parametric Syntax. Foris, Dordrecht, 1984.

[Borer und Wexler (1987)] H. Borer und K. Wexler. The maturation of syntax.In T. Roeper und E. Williams, (Hrsg.), Parameter setting. Reidel,Dordrecht, 1987.

LITERATURVERZEICHNIS 255

[Bowerman und Brown (2008)] M. Bowerman und P. Brown. Crosslinguisticperspectives on argument structure: implications for languageacquisition. Erlbaum, Mahwah, NJ, 2008.

[Bretheron und Beeghly (1986)] I. Bretheron und M. Beeghly. Talkingabout internal states: The acquisition of an explicit theory of mind.Developmental Psychology, 18:906–921, 1986.

[Brown und McNeill (1966)] R. Brown und D. McNeill. The "tip of thetongue"phenomenon. Journal of Verbal Learning and Verbal Behavior,5:325–337, 1966.

[Budde (2000)] M. Budde. Wortarten - Definition und Identifikation. Berlin,Freie Univ., Berlin, 2000.

[Bussmann (1983)] H. Bussmann. Lexikon der Sprachwissenschaft. Kröner,Stuttgart, 1983.

[Campbell, Brooks und Tomasello (2000)] A. Campbell, P. Brooks undM. Tomasello. Factors affecoung children’s use of pronouns as referringexpressions. Journal of Speech, Language and Learning Research, 43:1337–1349, 2000.

[Chomsky (1967)] N. Chomsky. Aspects of the theory of syntax. MIT Press,Cambridge, Mass., 1967.

[Chomsky (1959)] N. Chomsky. Review of Verbal Behavior. By B.F. Skinner.Language, 35:26–58, 1959.

[Clahsen (1990)] H. Clahsen. Constraints on parameter setting. A grammaticalanalysis of some acquisition stages in German Child language.Language Acquisition, 1:361–391, 1990.

[Clark (1993)] E. Clark. The lexicon in acquisiton. Cambridge University Press,Cambridge [u.a.], 1993.

[Clark (1995)] E. Clark. Later lexical development and word formation.In P. Fletcher und B. MacWhinney, (Hrsg.), The Handbook of ChildLanguage, Seiten 393–412. Basil Blackwell, Oxford, 1995.

[Clark (1997)] E. Clark. Conceptual perspective and lexical choice inacquisition. Cognition, 64:1–37, 1997.

[Clark und Clark (1977)] H. Clark und E. Clark. Psychology and language.Harcourt Brace Jovanovich, New York, 1977.

256 LITERATURVERZEICHNIS

[Dell (1986)] G. S. Dell. A spreading activation theory of retrieval in languageproduction. Psychological Review, 93:283–321, 1986.

[Dell und O’Seaghdha (1992)] G. S. Dell und P. G. O’Seaghdha. Stages oflexical access in language production. Cognition, 42:287–314, 1992.

[Di Sciullo und Williams (1987)] A. Di Sciullo und E. Williams. On the Definitionof World. The MIT Press, Cambridge, Mass./London, England, 1987.

[Dittmann (2006)] J. Dittmann. Der Spracherwerb des Kindes. C. H. Beck,München, 2. Auflage, 2006.

[Dromi (1987)] E. Dromi. Early lexical development. Cambridge UniversityPress, Cambridge, 1987.

[Duden (1996)] Duden. Die deutsche Rechtschreibung. DudenBibliographisches Institut & F.A. Brockhaus AG, Mannheim, 21.Auflage, 1996.

[Dudenredaktion (2004)] Dudenredaktion. Duden - Die deutscheRechtschreibung. Dudenverlag, Mannheim, 2004.

[Dudenredaktion (2009)] Dudenredaktion. Duden - Die Grammatik.Dudenverlag, Berlin, 2009.

[Ejiri und Smith (1993)] K. Ejiri und A. Smith. Proposal for a new ’constraintmeasure’ for text. In R. Köhler und B. Rieger, (Hrsg.), Contributions toQuantitive Linguistics, S. 195-211. Kluwer, Dordrecht, 1993.

[Engelkamp und Rummer (1999)] J. Engelkamp und R. Rummer. DieArchitektur des mentalen Lexikons. In A. Friederici, (Hrsg.),Sprachrezeption, Seiten 155–201. Hogrefe, Göttingen, 1999.

[Evans und Levinson (2009)] N. Evans und S. Levinson. The myth of languageuniversals: Language diversity and its importance for cognitive science.Behavioral and Brain Science, 32:429–448, 2009.

[Evans (2014)] V. Evans. The language myth. Cambridge University Press,Cambridge, 2014.

[Fodor (1976)] J. A. Fodor. The language of thought. Harvester Press,Hassocks, 1976.

[Gallmann (1991)] P. Gallmann. Wort, Lexem und Lemma. In G. Augstund B. Schaeder, (Hrsg.), Rechtschreibwörterbücher in der Diskussion.Geschichte - Analyse - Perspektiven. Peter Lang, Frankfurt a. M., Bern,New York, 1991.

LITERATURVERZEICHNIS 257

[Gentner (1982)] D. Gentner. Why nouns are learned before verbs: Linguisticrelativity versus natural partitioning. In S. Kuczaj, (Hrsg.), Languagedevelopment, Vol. 2: Language, thought and culture, S. 301-334.Lawrence Erlbaum, Hillsdale, N.J., 1982.

[Gleason (1973)] J. Gleason. Code switching in children’s language. InT. Moore, (Hrsg.), Cognitive Development and the Acquisition ofLanguage, Seiten 159–167. Academic Press, New York, 1973.

[Gleitman (1990)] L. Gleitman. The structural sources of verb meaning.Language Acquisition, 1:3–55, 1990.

[Goldfield (2000)] B. Goldfield. Nouns before verbs in comprehension vs.production: The view from pragmatics. Journal of Child Language, 27:501–520, 2000.

[Gopnik (1988)] A. Gopnik. Three types of early word. First Language, 8:49–70, 1988.

[Gopnik und Choi (1995)] A. Gopnik und S. Choi. Names, relational words,and cognitive development in english and korean speakers: Nouns arenot always learned before verbs. In M. Tomasello und W. Merriman,(Hrsg.), Beyond names for things: young children’s acqusition of verbs,S. 63-80. Erlbaum, Hillsdale, N.J., 1995.

[Gordon (1985)] P. Gordon. Level-ordering in lexical development. Cognition,21:73–93, 1985.

[Grimshaw (1981)] J. Grimshaw. Form, function, and the language acqusitiondevice. In C. Baker und J. McCarthy, (Hrsg.), The logical problem oflanguage acqisition. MIT Press, Cambridge Mass., 1981.

[Gundel, Hedberg und Zacharski (1993)] J. Gundel, N. Hedberg undR. Zacharski. Cognitive status and the form of the referring expressions.Language, 69:274–307, 1993.

[Hetzer und Reindorf (1928)] H. Hetzer und B. Reindorf. Sprachentwicklungund soziales Milieu. Zeitschrift für angewandte Psychologie, 29:429–462, 1928.

[Hilpert (2014)] M. Hilpert. Construction grammar and its application toEnglish. Edinburgh University Press, Edinburgh, 2014.

[Hoffmann (2009)] L. Hoffmann. Handbuch der deutschen Wortarten. DeGruyter, Berlin u.a., 2009.

258 LITERATURVERZEICHNIS

[Höhle (2012)] B. Höhle. Wie kommt das Kind zur Sprache. In B. Höhle,(Hrsg.), Psycholinguistik. Akademie Verlag, Berlin, 2012.

[Jampert (2002)] K. Jampert. Schlüsselsituation Sprache. Leske und Budrich,Opladen, 2002.

[Kaltenbacher (1990)] E. Kaltenbacher. Strategien beim frühkindlichenSyntaxerwerb - Eine Entwicklungsstudie. Narr, Tübingen, 1990.

[Kauschke (1999)] C. Kauschke. Früher Wortschatzerwerb im Deutschen. InJ. Meibauer und M. Rothweiler, (Hrsg.), Das Lexikon im Spracherwerb.A. Francke Verlag, Tübingen, Basel, 1999.

[Kauschke (2000)] C. Kauschke. Der Erwerb des frühkindlichen Lexikons.Gunter Narr, Tübingen, 2000.

[Kauschke (2007)] C. Kauschke. Erwerb und Verarbeitung von Nomen undVerben. Niemeyer, Tübingen, 2007.

[Kauschke (2012)] C. Kauschke. Kindlicher Spracherwerb im Deutschen. DeGruyter, Berlin, 2012.

[Kauschke und Klann-Delius (2010)] C. Kauschke und G. Klann-Delius. Howmothers introduce a new, surprising object - a study on early wordlearning in discourse. In R. Zukauskiene, (Hrsg.), Proceedings of the XIVEuropean Conference on Developmental Psychology - ECDP, Seiten117–122. Medimond, Bologna, 2010.

[Kauschke, Nutsch und Schrauf (2012)] C. Kauschke, C. Nutsch undJ. Schrauf. Verarbeitung von konkreten und abstrakten Wörternbei Kindern im Schulalter. Zeitschrift für Entwicklungspsychologie undpädagogische Psychologie, 44:2–11, 2012.

[Kegel (1987)] G. Kegel. Sprache und Sprechen des Kindes. WestdeutscherVerlag, Opladen, 3. Auflage, 1987.

[Kempen und Huijbers (1983)] G. Kempen und P. Huijbers. The lexicalizationprocess in sentence production and naming: Indirect elections of words.Cognition, 14:185–209, 1983.

[Klabunde (1998)] R. Klabunde. Zur Wahl dimensionaler Präpositionen undAdverbien in der Sprachproduktion. In P. Ludewig und B. Geurts,(Hrsg.), Lexikalische Semantik aus kognitiver Sicht: Perspektivenim Spannungsfeld linguistischer und psychologischer Modellierungen,Seiten 41–72. Narr, Tübingen, 1998.

LITERATURVERZEICHNIS 259

[Klann-Delius (1999)] G. Klann-Delius. Spracherwerb. Metzler, Stuttgart [u.a.],1999.

[Klann-Delius und Kauschke (1995)] G. Klann-Delius und C. Kauschke. DieEntwicklung der Verbalisierungshäufigkeit von inneren Zuständen undemotionalen Ereignissen in der frühen Kindheit in Abhängigkeit vonAlter und Affekttyp: Eine explorative, deskriptive Längsschnittstudie.Linguistische Berichte, 161:68–89, 1995.

[Knobloch und Schaeder (2009)] C. Knobloch und B. Schaeder. Das Wort. InL. Hoffmann, (Hrsg.), Wortarten und Grammatikalisierung. De Gruyter,Berlin [u.a.], 2009.

[Kuczaj (1999)] S. Kuczaj. The world of words: Thoughts on the developmentof a lexicon. In M. Barrett, (Hrsg.), The development of language, Seiten133–160. Psychology Press, Hove, 1999.

[Kuczaj (1975)] S. Kuczaj. On the acquisition of a semantic system. Journ. ofVerbal Learning and Verbal Behavior, 16:589–600, 1975.

[Kuczaj (1982)] S. Kuczaj. The acqusition of word meaning in the context ofthe development of the semantic system. In C. Brainerd und M. Presley,(Hrsg.), Verbal processes in children, Seiten 95–123. Springer-Verlag,New York, 1982.

[Köhler und Galle (1993)] R. Köhler und M. Galle. Dynamic aspects of textcharacteristics. In L. Hrebicek, (Hrsg.), Quantitative text analysis. WVT,Trier, 1993.

[Lebeaux (1988)] D. Lebeaux. Language acquisition and the form of thegrammar. Ph.D. Universitiy of Massacchusetts, Massacchusetts, 1988.

[Lehmann (2005)] C. Lehmann. Wortarten und Grammatikalisierung.Perspektiven in System und Grammatikalisierung. In C. Knobloch undB. Schaeder, (Hrsg.), Wortarten und Grammatikalisierung. De Gruyter,Berlin, 2005.

[Levelt, Roelofs und Meyer (1999)] W. Levelt, A. Roelofs und A. Meyer. Atheory of lexical access in speech production. Behavioral and BrainScience, 22:1–75, 1999.

[Levelt (1989)] W. J. M. Levelt. Speaking: From intention to articulation. MITPress, Cambridge, Mass [u.a.], 1989.

[Levelt (1992)] W. J. M. Levelt. Accessing words in speech production: stages,processes an representations. Cognition, 42:1–22, 1992.

260 LITERATURVERZEICHNIS

[Lieven, Pine und Baldwin (1997)] E. Lieven, J. Pine und G. Baldwin. Lexicallybased learning and early grammatical development. Journal of ChildLanguage, 24:187–219, 1997.

[Lyons (1977)] J. Lyons. Semantics (Vol. 1). Cambridge University Press,Cambridge, 1977.

[Mack (2014)] A. Mack. https://github.com/fiedler-mack/CorpusAnalyser.Berlin, 2014.

[Maratsos (1979)] M. Maratsos. Learning when and how to use pronounsand determiners. In P. Fletcher und M. Garman, (Hrsg.), LanguageAcquisition. Cambridge University Press, Cambridge, 1979.

[McCarthy (1954)] J. McCarthy. Language development in children. InL. Carmichael, (Hrsg.), Manual of child psychology, Seiten 492–630.Wiley, New York, 1954.

[McNamara (1982)] J. McNamara. Names for things: a study of childlanguage. Bradford Books MIT Press, Cambridge Mass., 1982.

[Meibauer und Rothweiler (1999)] J. Meibauer und M. Rothweiler. DasLexikon im Spracherwerb. Ein Überblick. In J. Meibauer undM. Rothweiler, (Hrsg.), Das Lexikon im Spracherwerb. A. Francke Verlag,Tübingen, Basel, 1999.

[Morton (1969)] J. Morton. The interaction of information in word recognition.Psychological Review, 76:165–178, 1969.

[Nelson (1973)] K. Nelson. Structure and strategy in learning to talk.Monographs of the Society for Research in Child Development, No. 149,38:1–2, 1973.

[Oksaar (1997)] E. Oksaar. Spracherwerb im Vorschulalter - Eine Einführungin die Pädolinguistik. Kohlhammer, Stuttgart [u.a.], 2. Auflage, 1997.

[Paivio (1986)] A. Paivio. Mental representations: A dual coding approach.Oxford University Press, Oxford, 1986.

[Pine, Lieven und Rowland (1998)] J. Pine, E. Lieven und C. Rowland.Comparing different models of the development of the english verbcategory. Linguistics, 36:807–830, 1998.

[Pinker (1984)] S. Pinker. Language Learnability and Language Development.Havard University Press, Cambridge, 1984.

LITERATURVERZEICHNIS 261

[Pinker (1994)] S. Pinker. How could a child use verb syntax to learn verbsemantics? Lingua, 92:377–410, 1994.

[Pinker (1996)] S. Pinker. Der Sprachinstinkt - Wie der Geist die Sprachebildet. Kindler Verlag, München, 1996.

[Roelofs (1992)] A. Roelofs. A spreading-activation theory of lemma retrievalin speaking. Cognition, 42:107–142, 1992.

[Roelofs (1996)] A. Roelofs. Computational models of lemma retrieval. InT. Dijkstra und K. De Smedt, (Hrsg.), Computational Psycholinguistics:AI and Connectionist Models of Human Language Processing, Seiten308–327. Taylor and Francis, London, 1996.

[Rohde (2005)] A. Rohde. Lexikalische Prinzipien im Erst- undZweitsprachenerwerb. WVT, Trier, 2005.

[Rothweiler (1993)] M. Rothweiler. Der Erwerb von Nebensätzen imDeutschen. Niemeyer, Tübingen, 1993.

[Ruoff (1981)] A. Ruoff. Häufigkeitswörterbuch gesprochener Sprache. MaxNiemeyer Verlag, Tübingen, 1981.

[Sandhofer und Smith (1999)] C. Sandhofer und L. Smith. Learning colorwords involves a system of mappings. Developmental Psychology, 35:668–679, 1999.

[Schiller, Teufel, Stöckert und Thielen (2009)] A. Schiller, S. Teufel, C. Stöckertund C. Thielen. Guidelines für das Tagging deutscher Textcorporamit STTS. http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf,Stuttgart u.a., 2009.

[Schlaefer (2002)] M. Schlaefer. Lexikologie und Lexikographie - EineEinführung am Beispiel deutscher Wörterbücher. Erich Schmidt Verlag,Berlin, 2002.

[Schmidt und Schütte (2011)] T. Schmidt und W. Schütte.FOLKER Transkriptionseditor für das Forschungs-und Lehrkorpus gesprochenes Deutsch.http://agd.ids-mannheim.de/download/FOLKER-Transkriptionshandbuch.pdf, 2011.

[Schmoe (2002)] F. Schmoe. Folglich trat Hubert barfuß und dennochungemein heftig gegen die zue Tür - Über einige Eigenschaftender deutschen Adverbien. In P. Wiesinger, (Hrsg.), Akten des X.

262 LITERATURVERZEICHNIS

Internationalen Germanistenkongresses Wien 2000 - Zeitenwende - DieGermanisten auf dem Weg vom 20. uns 21. Jahrhundert, Band 2:Entwicklungstendenzen der deutschen Gegenwartssprache. Peter Lang,Frankfurt am Main, 2002.

[Schwittala (2002)] J. Schwittala. Kleine Wörter. Partikeln im Gespräch. InJ. Dittmann und C. Schmidt, (Hrsg.), Über Wörter. Grundkurs Linguistik.Rombach Druck- und Verlagshaus, Freiburg, 2002.

[Selting (2009)] M. e. a. Selting. GesprächsanalystischesTranskriptionssystem 2 GAT 2. Gesprächsforschung, 10:353–402,2009.

[Shatz, Wellmann und Silber (1983)] M. Shatz, H. Wellmann und S. Silber.The acquisition of mental verbs: A systematic investigation of the firstreference to mental state. Cognition, 14:301–321, 1983.

[Smith (1926)] M. Smith. An investigation of the development of the sentenceand extent of vocablary in young children. Univ. Iowa Studies Child Welf.,3, 1926.

[Spalek (2012)] K. Spalek. Wortproduktion. In B. Höhle, (Hrsg.),Psycholinguistik. Akademie Verlag, Berlin, 2012.

[Stenzel (1997)] A. Stenzel. Die Entwicklung der syntaktischen KategorienNomen und Verb bei ein- und zweisprachigen Kindern. Gunter NarrVerlag, Tübingen, 1997.

[Stern und Stern (1928)] C. Stern und W. Stern. Die Kindersprache. Wiss.Buchges., Leipzig, 1928.

[Stern und Stern (1965)] C. Stern und W. Stern. Die Kindersprache. Wiss.Buchges., Darmstadt, Nachdruck der 4. Auflage, 1965.

[Sucharowski (1996)] W. Sucharowski. Sprache und Kognition - NeuerePerspektiven in der Sprachwissenschaft. WV GmbH, Opladen, 1996.

[Szagun (1983)] G. Szagun. Bedeutungsentwicklung beim Kind: Wie KinderWörter entdecken. Urban und Schwarzenberg, München, 1983.

[Szagun (2001a)] G. Szagun. Wie Sprache entsteht: Sprachewerb bei Kindernmit beeinträchtigtem und normalem Hören. Beltz, Weinheim, 2001a.

[Szagun (2002)] G. Szagun. Wörter lernen in der Muttersprache: Derontogenetische Vokabularerwerb. In J. Dittmann und C. Schmidt, (Hrsg.),Über Wörter, S. 311-333. Rombach Verlag, Freiburg, 2002.

LITERATURVERZEICHNIS 263

[Szagun (2006)] G. Szagun. Sprachentwicklung beim Kind. Beltz, Weinheim,7. Auflage, 2006.

[Szagun (2008)] G. Szagun. Sprachentwicklung beim Kind. Beltz, Weinheim,2. Auflage, 2008.

[Templin (1957)] M. C. Templin. Certain language skills in children - theirdevelopment an interrelationships. University of Minnesota Press,Minneapolis, 1957.

[Tomasello (1999)] M. Tomasello. The cultural origins of human cognition.Harvard University Press, Cambridge, Mass. u.a., 1999.

[Tomasello (2000a)] M. Tomasello. Constructing a language. A usage-basedtheory of language acquisition. Harvard University Press, Cambridge,Mass. [u.a.], 2000a.

[Tomasello (2000b)] M. Tomasello. The item based nature of children’s earlysyntactic development. Trends in Cognitive Science, 4:156–163, 2000b.

[Tomasello (2003)] M. Tomasello. Die kulturelle Entwicklung des menschlichenDenkens. Wissenschaftliche Buchgesellschaft, Baden-Baden, 2003.

[Tomasello (2005)] M. Tomasello. Constructing a language. A usage-basedtheory of language acquisition. Harvard University Press, Cambridge,Mass. [u.a.], 2005.

[Tomasello und Kruger (1992)] M. Tomasello und A. Kruger. Acquiring verbsin ostensive and non-ostensive contexts. Journal of Child Language, 19:311–333, 1992.

[Verrips (1990)] M. Verrips. Models of development. Linguistische Begriffe.Sonderheft, 3:11–21, 1990.

[Vogel und Thieroff (2009)] P. Vogel und R. Thieroff. Wortarten undgrammatische Kategorien. Sprache Stimme Gehör, 33:64–71, 2009.

[Wagner, Dobkins und Barner (2013)] K. Wagner, K. Dobkins und D. Barner.Slow mapping: Color word learning as a gradual inductive process.Cognition, 127:307–317, 2013.

[Waxman (1990)] S. Waxman. Linguistic biases and the establishment ofconceptual hierachies: evidence from preschool children. CognitiveDevelopment, 5:123–150, 1990.

264 LITERATURVERZEICHNIS

[Weiss (1997)] S. Weiss. EEG-Kohärenz und Sprachverarbeitung. Diefunktionelle Verkopplung von Gehirnregionen während der Verarbeitungunterschiedlicher Nomina. In G. Rickheit, (Hrsg.), Studien zurklinischen Linguistik: Methoden, Modelle, Intervention, Seiten 125–146.Westdeutscher Verlag, Opladen, 1997.

[Wimmer (2005)] G. Wimmer. The type-token relation. In R. Köhler,G. Altmann und R. Piotrowski, (Hrsg.), Quantitative Linguistics. Aninternational Handbook. De Gruyter, New York, 2005.

[Winner (1988)] E. Winner. The point of words. Havard University Press,Cambridge, 1988.

[Wode (1988)] H. Wode. Einführung in die Psycholinguistik. Hueber, Ismaning,1988.

[Yule (1944)] U. Yule. The statistical study of literary vocabulary. UniversityPress, Cambridge, 1944.