2 Modelle für diskrete und beschränkte abhäng ige...

32
44 2 Modelle für diskrete und beschränkte abhängige Variablen Mikrodaten sind sehr häufig dadurch gekennzeichnet, daß neben den metrischen Vari- ablen für die Individuen bestimmte Eigenschaften, d.h. qualitative bzw. diskrete Merk- male beobachtet werden. Sehr häufig lassen sich diese qualitativen Merkmale wie z.B. das Geschlecht einer Person oder die Existenz einer Forschungsabteilung in einem Unternehmen durch entsprechende 0,1-Variablen (Dummy-Variablen, binäre Variablen) abbilden. Andere qualitative Merkmale lassen mehr als zwei Alternativen zu. Diese Alternativen können entweder ungeordnet sein wie beispielsweise die Berufstätigkeit eines Indivi- duums (Arbeiter, Angestellter, Beamter etc.) oder die Wahl des Prozeßortes bei Pa- tentstreitigkeiten (Düsseldorf, München, Mannheim, etc.). Sie können aber auch geord- net sein wie beispielsweise der höchste Bildungsabschluß einer Person (Hauptschule, Realschule, Gymnasium, Fachhochschule, Hochschule etc.) oder die subjektive Ein- schätzung der Bedeutung von Merkmalen (geringe bis große Bedeutung auf einer Skala von 1 bis 5, sogenannte Likert-Skalen). Wiederum andere Merkmale sind zwar quantitativ, treten aber nur in diskreten Ausprä- gungen auf (sogenannte Zähldaten, die im nachfolgenden Kapitel 3 behandelt werden), wie beispielsweise die Anzahl von Kindern in einem Haushalt oder die Anzahl von Pa- tenten, die ein Unternehmen hält. Oder sie sind quantitativ, aber beschränkt wie bei- spielsweise die tägliche Freizeitnachfrage, die nicht 24 Stunden übersteigen kann, oder aber das tägliche Arbeitsangebot, das nicht unter 0 Stunden sinken kann. Diese Variablen bereiten in der Regel wenig Probleme, wenn sie auf der rechten Seite der Gleichung stehen, also erklärende Variablen sind. Dies ändert sich, wenn die Erklä- rung der Variablen selbst im Mittelpunkt des Interesses steht, die qualitativen oder dis- kreten Merkmale also selbst endogene Variablen sind. Die Methoden, die für derartige Modelle entwickelt worden sind, werden häufig unter dem Begriff Mikroökonometrie zusammengefaßt, obwohl sie nur einen Teil der Methoden für Mikrodaten bilden. Zu die- sen Methoden sind inzwischen auch etliche Lehrbücher und Monographien entstanden, in deutscher Sprache beispielsweise Ronning (1991). Auch allgemeine Lehrbücher o- der Monographien zur Ökonometrie enthalten umfassende Abschnitte, wie insbesonde-

Transcript of 2 Modelle für diskrete und beschränkte abhäng ige...

44

2 Modelle für diskrete und beschränkte abhängige Variablen

Mikrodaten sind sehr häufig dadurch gekennzeichnet, daß neben den metrischen Vari-

ablen für die Individuen bestimmte Eigenschaften, d.h. qualitative bzw. diskrete Merk-

male beobachtet werden. Sehr häufig lassen sich diese qualitativen Merkmale wie z.B.

das Geschlecht einer Person oder die Existenz einer Forschungsabteilung in einem

Unternehmen durch entsprechende 0,1-Variablen (Dummy-Variablen, binäre Variablen)

abbilden.

Andere qualitative Merkmale lassen mehr als zwei Alternativen zu. Diese Alternativen

können entweder ungeordnet sein wie beispielsweise die Berufstätigkeit eines Indivi-

duums (Arbeiter, Angestellter, Beamter etc.) oder die Wahl des Prozeßortes bei Pa-

tentstreitigkeiten (Düsseldorf, München, Mannheim, etc.). Sie können aber auch geord-

net sein wie beispielsweise der höchste Bildungsabschluß einer Person (Hauptschule,

Realschule, Gymnasium, Fachhochschule, Hochschule etc.) oder die subjektive Ein-

schätzung der Bedeutung von Merkmalen (geringe bis große Bedeutung auf einer Skala

von 1 bis 5, sogenannte Likert-Skalen).

Wiederum andere Merkmale sind zwar quantitativ, treten aber nur in diskreten Ausprä-

gungen auf (sogenannte Zähldaten, die im nachfolgenden Kapitel 3 behandelt werden),

wie beispielsweise die Anzahl von Kindern in einem Haushalt oder die Anzahl von Pa-

tenten, die ein Unternehmen hält. Oder sie sind quantitativ, aber beschränkt wie bei-

spielsweise die tägliche Freizeitnachfrage, die nicht 24 Stunden übersteigen kann, oder

aber das tägliche Arbeitsangebot, das nicht unter 0 Stunden sinken kann.

Diese Variablen bereiten in der Regel wenig Probleme, wenn sie auf der rechten Seite

der Gleichung stehen, also erklärende Variablen sind. Dies ändert sich, wenn die Erklä-

rung der Variablen selbst im Mittelpunkt des Interesses steht, die qualitativen oder dis-

kreten Merkmale also selbst endogene Variablen sind. Die Methoden, die für derartige

Modelle entwickelt worden sind, werden häufig unter dem Begriff Mikroökonometrie

zusammengefaßt, obwohl sie nur einen Teil der Methoden für Mikrodaten bilden. Zu die-

sen Methoden sind inzwischen auch etliche Lehrbücher und Monographien entstanden,

in deutscher Sprache beispielsweise Ronning (1991). Auch allgemeine Lehrbücher o-

der Monographien zur Ökonometrie enthalten umfassende Abschnitte, wie insbesonde-

45

re Amemiya (1985) in den Kapiteln 9 und 10, aber auch Greene (1993) im Kapitel 19.

Der immer noch sehr lesenswerte Klassiker in der Literatur ist jedoch zweifelsohne die

Monographie des im Sommer 1999 verstorbenen Maddala (1983).

2.1 Modelle für binäre abhängige Variablen

2.1.1 Das lineare Wahrscheinlichkeitsmodell

Die einfachste Form, ein Modell für binäre abhängige Variablen zu konstruieren, ist das

lineare Wahrscheinlichkeitsmodell (linear probability model). Die abhängige Vari-

able iy ist eine binäre, also 0,1-Variable, die z.B. mißt, ob das Individuum i ein Auto

gekauft hat oder nicht, oder ob Individuum i Gewerkschaftsmitglied ist oder nicht. Es gilt

in diesem Fall

(2.1)1 wenn Gewerkschaftsmitglied0 wenn kein Gewerkschaftsmitglied.i

iy

i

=

Erklärt man die Entscheidungen des Individuums mit Hilfe geeigneter unabhängiger

Variablen iX wie z.B. Alter in Jahren, Schulbildung, Berufserfahrung etc., so läßt sich

die Wahrscheinlichkeit, daß ein Individuum Gewerkschaftsmitglied ist, folgendermaßen

modellieren:

(2.2)( ) ( )( ) ( )

1

0 1i i

i i

P y F X

P y F X

β

β

= =

= = −

wobei ( )iF X β eine kumulierte Verteilungsfunktion ist. Im linearen Wahrscheinlichkeits-

modell wird diese Verteilungsfunktion linear modelliert, d.h. ( )i iF X Xβ β= . Daraus

folgt:

(2.3) y X ui i i= +β

Da iy nur die Werte 1 oder 0 annehmen kann, können die Störgrößen für gegebene

erklärende Variablen iX ebenfalls nur 2 Werte annehmen

(2.4) 1 bzw.i i i iu X u Xβ β= − = − .

46

Daraus folgt, daß für gegebene iX die Störgrößen iu nicht die Bedingungen der Nor-

malverteilung erfüllen können. Die iu folgen dann einer Bernoulli-Verteilung. Ihr Erwar-

tungswert ist:

(2.5) ( ) ( ) ( ) ( )1 1 1 1 1i i i i iE u X P y X P yβ β= − = = − − =

Der Erwartungswert ist nur dann gleich null, wenn ( )1i iP y X β= = ist.

Es ist nicht einmal gewährleistet, daß die prognostizierte Wahrscheinlichkeit

( )1i i iP y X X β= = zwischen 0 und 1 liegt. Sie kann sogar negativ werden. Ferner ist für

( )1|i i iP y X X β= = die Varianz der Störgrößen von iX abhängig (heteroskedastisch),

denn es gilt:

(2.6) ( ) ( ) ( ) ( ) ( ) ( )2 22 | 1 1 1 1 1

1i i i i i i i i

i i

E u X X P y X P y X X

X X

β β β β

β β

= − = + − = = − −

14243 1442443

Der KQ-Schätzer der Gleichung (2.3) ist daher ineffizient. Aufgrund dieser Überlegun-

gen ist klar, daß das lineare Modell eigentlich nicht geeignet ist, eine abhängige 0,1-

Variable zu erklären. Es findet in empirischen Studien daher kaum Anwendung, so daß

man für empirische Illustrationen auf Lehrbuchbeispiele zurückgreifen muß.

Wir benutzen das Beispiel zur Erklärung der Mitgliedschaft in der Gewerkschaft in den

USA (Union) aus dem Lehrbuch Johnston and DiNardo (1997). Die Variablen stammen

aus dem „Current Population Survey“ von 1988 und bedeuten:

- Union Mitgliedschaft in einer Gewerkschaft ( 1Union = )

- Exp Potentielle Erfahrung ( Alter - Schuljahre - 5Exp = )

- 2Exp ( 2Exp )

- Grade Anzahl der vollendeten Schuljahre

- Married verheiratet ( 1Married = )

- High beschäftigt in einem Wirtschaftszweig mit hohem gewerkschaftl. Organi-sationsgrad ( 1High = ).

Man erhält mit in RATS mit dem Befehl LINREG folgende Koeffizienten

47

Tabelle 2.1 Schätzergebnisse für das lineare Wahrscheinlichkeitsmodell

$β t Sign. level

Exp .0200388 5.14 0.000

Exp2 -.0003706 -4.53 0.000

Grade -.0124636 -2.44 0.015

Married .0133428 0.45 0.657

High .1439396 5.61 0.000

constant .1021368 1.36 0.173

R2 = 0.0837; N = 1000

2.1.2 Das Probit-Modell

Sinnvoller ist ein Modell, das die Wahrscheinlichkeit ( )1iP y = direkt aus einer Vertei-

lungsannahme erklärt. Modelle, die auf diese Weise ein dichotomes Wahlverhalten er-

klären wollen, bezeichnet man auch als binäre Wahlhandlungsmodelle oder Binary

Choice-Modelle. Erklärt wird die Wahrscheinlichkeit für den Eintritt bzw. Nichteintritt

eines Ereignisses, z.B. Kaufereignisses, unter der Bedingung gegebener erklärender

Variablen, und es wird analysiert, wie diese bedingte Wahrscheinlichkeit mit den erklä-

renden Variablen variiert.

In der ökonometrischen Literatur werden praktisch nur zwei alternative Verteilungsan-

nahmen verwendet: die Normalverteilung und die logistische Verteilung. Das soge-

nannte Probit-Modell verwendet die kumulierte Verteilungsfunktion der Standardnor-

malverteilung:

(2.7) ( ) ( ) ( )2

211|

2

iX z

i i i iP y X F X X e dzβ

β βπ

−∞

= = = Φ = ∫ für 1σ =

Die Grenzwerte 0 und 1 für die Wahrscheinlichkeit ( 1 )i iP y X= sind nicht verletzt. Da es

sich bei der abhängigen Variablen um eine Wahrscheinlichkeit handelt, ist diese Vari-

able auf das Intervall [ ]0,1 beschränkt. Es gilt ferner

(2.8) ( ) ( )i i i iE y x X Xβ β= Φ ≠

48

Somit ist auch der Erwartungswert auf das Intervall [ ]0,1 beschränkt.

Um das klassische Regressionsmodell auf diesen Fall anzuwenden, wird zwischen ei-

nem latenten Modellteil und einem beobachteten Modellteil unterschieden.

Der latente Modellteil erklärt eine nicht beobachtbare (latente) Variable *iy , die man

als stetige Neigung beispielsweise ein Konsumgut zu kaufen interpretieren kann, wie im

klassischen Regressionsmodell.

Latenter Modellteil

(2.9) *i i iy X uβ= + mit ( )20,iu N σ∼

Der latente Modellteil sagt, daß die unbeobachtbare Variable *iy einer stetigen Ver-

teilung über den Wertebereich ( , )−∞ +∞ folgt wie im klassischen Regressionsmodell. Im

Probit-Modell gibt *iy im latenten Modellteil an, mit welcher Intensität der Haushalt i den

Kauf des Konsumgutes wünscht bzw. ihn ablehnt. Für * 0iy > wünscht er den Kauf, für

* 0iy ≤ lehnt er ihn ab. Beobachtbar ist aber im Probit-Modell lediglich die Variable iy ,

nämlich ob der Haushalt das Konsumgut kauft ( 1iy = ) oder nicht ( 0iy = ). Der Haushalt

kauft das Gut nur, wenn die Bedingung * 0iy > bzw. i iu Xσ β σ> − gilt. Für die beob-

achtbare Variable gilt daher:

Beobachtbarer Modellteil

(2.10)*

*

1 , wenn 0 bzw.0 , wenn 0 bzw.

i i ii

i i i

y u Xy

y u Xσ β σσ β σ

> > −=

≤ ≤ −

Wir erklären das Probit- und Logit-Modell im folgenden am Beispiel eines Haushalts,

der in der Untersuchungsperiode entweder ein langlebiges Gebrauchsgut kauft ( 1iy = )

oder nicht kauft ( 0iy = ). Die Idee des Probit-Modells kann dann wie folgt beschrieben

werden:

Haushalte haben ein bestimmtes Einkommen, das zu Ausgaben z.B. für die Anschaf-

fung eines Autos führt bzw. nicht führt. Es wird angenommen, daß der kritische Wert der

latenten Variablen *iy , bei dem ein Haushalt sich zu einer solchen Ausgabe entschließt,

49

von Haushalt zu Haushalt variiert. Folgen diese kritischen latenten Werte *iy einer

Normalverteilung, so daß sich wegen

(2.11)( ) ( ) ( ) ( )( ) ( )

*0 0 1 ( / )

1 1 ( / )

i i i i i i

i i i

P y P y P u X X X

P y X X

σ β σ β σ β σ

β σ β σ

= = ≤ = ≤ − = Φ − = − Φ

= = − Φ − = Φ

die folgende Likelihoodfunktion für das Probit-Modell nach Sortierung in M Haus-halte mit Beobachtung 0iy = und N M− Haushalte mit 1iy = ergibt:

(2.12) ( ) ( ) ( ) ( ) ( )1 2 10 0 0 1 1probit M M NL P y P y P y P y P y+= = ⋅ = = ⋅ = =L L

( ) ( )

( ) ( )

( ) ( )

* *

1 1

1 1

1 1

0 0

1

M N

probit i ii i M

M N

i i i ii i M

M N

i ii i M

L P y P y

P u X P u X

X X

σ β σ σ β σ

β σ β σ

= = +

= = +

= = +

= ≤ >

= ≤ − > −

= − Φ − Φ −

∏ ∏

∏ ∏

∏ ∏

wobei ( / )iX β σΦ die kumulierte Verteilungsfunktion der Normalverteilung für einen

Haushalt mit Merkmalsvektor iX ist. Die Maximierung der logarithmierten Likelihood-

funktion durch Differentiation nach den Parametern β und σ sowie Nullsetzen der 1.

Ableitung, führt zu nichtlinearen Funktionen, aus denen die zu schätzenden Parame-

ter iterativ ermittelt werden können. Die Maximierung dieser Likelihoodfunktion ist ein

nichtlineares Schätzproblem ähnlich der nichtlinearen KQ-Schätzung, wie sie in Ökono-

metrie I behandelt wurde. Wir betrachten die Log-Likelihoodfunktion

(2.13) ( ) ( )1 1

ln ln 1 lnM N

probit i ii i M

L X Xβ σ β σ= = +

= − Φ + Φ ∑ ∑

sowie deren Ableitung nach β

(2.14)1 1

ln

1

N Mprobit i i i i

i M ii i

L X X∂ φ φ∂ β σ σ= + =

= −Φ − Φ∑ ∑ .

Dabei stellen iφ und iΦ auch im weiteren Verlauf des Skripts vereinfachte Schreibwei-

sen der Dichte ( )iXφ β σ sowie der kumulierten Verteilungsfunktion der Normalvertei-

lung ( )iX β σΦ dar. Das iterative Verfahren schätzt dann die Gleichung

50

(2.15) $ $ ln ln$ $

β β∂∂ β∂ β

∂∂ ββ β

j jL L

jj

+

= −′

1

21

wobei sich die Matrix der 2. Ableitungen als

(2.16)( )

2

2 21 1

ln1

M Ni i i i i i i i

i ii i Mi i

X X X X X XL φ β φ β∂φ φ

∂ β∂ β σ σ σ σ= = +

′ ′ = − − + ′ − Φ Φ ∑ ∑

ergibt. ˆjβ ist ein Anfangswert, der z.B. aus den linearen Wahrscheinlichkeitsmodell

stammen kann.

Diese Iterationen, z.B. mittels der Newton-Raphson-Methode oder des Verfahrens von

Berndt, Hall, Hall and Hausmann (1974) konvergieren nur dann zuverlässig gegen ein

globales Maximum der logarithmierten Likelihoodfunktion, wenn diese global konkav

bezüglich ihrer Parameter ist. Olsen (1978) hat nachgewiesen, daß diese Bedingung für

die obigen Modelle erfüllt ist.

Allerdings sind in Probit-Modellen nur standardisierte Koeffizienten βσ identifiziert.

2.1.3 Das Logit-Modell

Im Probit-Modell wird eine Normalverteilung des kritischen Wertes unterstellt, der durch

die die Entscheidung beeinflussenden unabhängigen Variablen bestimmt wird. Im Lo-

git-Modell geht man demgegenüber von einer logistischen Verteilung aus:

(2.17)i

i

i X /

i i i X /

1f ( y )

1 e1

P( y 1 | X ) F ( X / )1 e

β σ

β σβ σ

=+

= = =+

Ansonsten ist die Vorgehensweise einschließlich deren Interpretation vollständig analog

zum Probit-Modell.

2.1.4 Vergleich und empirische Beispiele für das Probit- und Logit-Modell

In RATS sind einfache Prozeduren für beide Verfahren enthalten, die der LINREG-

Prozedur entsprechen, indem sie LINREG durch LGT (Logit) oder PRB (Probit) erset-

zen:

51

Das folgende Programm schätzt das lineare, das Probit- und das Logit-Modell für das

oben genannte Beispiel der Mitgliedschaft in einer Gewerkschaft:

allocate 1000open data cps.ratdata(format=rat,org=var)/age exp2 grade ind1 married Inwage occ1 $partt exp union weigh high* Lineares Wahrscheinlichkeitsmodelllinreg union /‘exp exp2 grade married high constant* Probit-Modellprb union /‘exp exp2 grade married high constant* Logit-Modelllgt union /#exp exp2 grade married high constant

Die Ergebnisse lauten für das lineare Wahrscheinlichkeitsmodell:

Tabelle 2.2 Schätzergebnisse für das lineare Wahrscheinlichkeitsmodell

Variable Coeff Std Error T-Stat Signif

1. EXP 0.020038767 0.003896914 5.14221 0.00000033

2. EXP2 -0.000370581 0.000081883 -4.52572 0.00000675

3. GRADE -0.012463581 0.005100452 -2.44362 0.01471364

4. MARRIED 0.013342779 0.030000989 0.44474 0.65660113

5. HIGH 0.143939577 0.025678520 5.60545 0.00000003

6. Constant 0.102136788 0.074933713 1.36303 0.17318220

für das Probit-Modell:

Tabelle 2.3 Schätzergebnisse für das Probit-Modell

Variable Coeff Std Error T.Stat Signif

1. EXP 0.083509133 0.015608799 5.35013 0.00000009

2. EXP2 -0.001530796 0.000317877 -4.81569 0.00000147

3. GRADE -0.042077965 0.018908978 -2.22529 0.02606175

4. MARRIED 0.062251606 0.112583951 0.55293 0.58030792

5. HIGH 0.561295261 0.099662392 5.63197 0.00000002

6. Constant -1.468412409 0.295812594 -4.96400 0.00000069

52

und für das Logit-Modell:

Tabelle 2.4 Schätzergebnisse für das Logit-Modell

Variable Coeff Std Errir T-Stat Signif

1. EXP 0.147402074 0.028097014 5.24618 0.00000016

2. EXP2 -0.002686919 0.000565428 -4.75201 0.00000201

3. GRADE -0.0704320887 0.032142049 -2.18782 0.02868301

4. MARRIED 0.115463002 0.196778961 0l.58676 0.55736156

5. HIGH 0.980141109 0.180049032 5.44375 0.00000005

6. Constant -2.581435858 0.518685883 -4.97688 0.00000065

Man erkennt erhebliche Differenzen in den drei Schätzungen, d.h. die Schätzer sind

nicht indifferent gegenüber der Spezifikation. Die Parameter der drei Modelle haben

jeweils eine andere Interpretation. Das Probit- und das Logit-Modell liefern im allgemei-

nen ähnliche Ergebnisse. Das Probit-Modell unterstellt eine Normalverteilung mit Vari-

anz 2 1σ = , das Logit-Modell eine logistische Verteilung mit einer Varianz 223

πσ = , so

daß die Ergebnisse des Probit-Modells multipliziert mit σ π= / 3 annähernd den Er-

gebnissen des Logit-Modells entsprechen. Größere Unterschiede treten nur auf, wenn

das Datenmaterial eine sehr hohe Schiefe aufweist. In diesem Fall ist das Logit-Modell

der adäquatere Ansatz.

Im Gegensatz zum lineare Wahrscheinlichkeitsmodell sind die geschätzten Koeffizien-

ten des Probit-Modells und des Logit-Modells nicht als marginale Effekte zu interpretie-

ren, diese müssen auf Basis der Schätzung erst noch berechnet werden. Es gilt allge-

mein:

(2.18)( ) ( )

( )i i

kik i

E y F Xx X

ββ

β∂ ∂

=∂ ∂

.

53

Also im linearen Wahrscheinlichkeitsmodell

(2.19)( )i

kik

E yx

∂β

∂=

im Probit-Modell:

(2.20)( )

( )ii k

ik

E yX

x∂

φ β β∂

=

und im Logit-Modell:

(2.21) ( ) ( )( )( )1i

i i ikik

E yX X

x∂

β β β∂

= Λ − Λ ⋅ mit ( )1

i

i

X

i X

eX

e

β

ββΛ =+

.

Die marginalen Effekte hängen also im Probit- und im Logit-Modell von den exogenen

Variablen iX ab und sind daher für jedes Individuum unterschiedlich. Es gibt prinzipiell 2

Wege, die marginalen Effekte zu berechnen. Man evaluiert die marginalen Effekte je-

weils am arithmetischen Mittel der erklärenden Variablen X oder man evaluiert für je-

des Individuum den marginalen Effekt und mittelt anschließend über die marginalen Ef-

fekte. Die Evaluation am arithmetischen Mittel der erklärenden Variablen ist für 0/1-

Variablen nicht sinnvoll. Daher berechnet man den marginalen Effekt einer 0/1 Variab-

len iD häufig als ( ) ( )1 0i i i iF X D F X Dβ β= − = . Die Schätzungen der marginalen Ef-

fekte stimmen im Probit-Modell und im Logit-Modell häufig weitgehend überein.

Man kann die binären Choice-Modelle auch benutzen, um Prognosen für die Wahr-

scheinlichkeiten ( ) 1iP y = abzuleiten. Es gilt:

(2.22) ( )( )

ˆ im linearen Wahrscheinlichkeitsmodell

ˆ( 1) im Probitmodell

ˆ im Logitmodell

i

i i

i

X

P y X

X

β

β

β

= = ΦΛ

Die Ursache der wesentliche Unterschiede kann z.B. Heteroskedastizität der Störgröße

sein. Für das lineare Modell haben wir diese bereits gezeigt. Dort hat eine Heteroske-

dastie aber nur Effekte auf die Schätzfehler. In nichtlinearen Modellen wie dem Probit-

und Logit-Modell führt Heteroskedastie auch zu inkonsistenten Schätzern. Dies er-

gibt sich für das Probit-Modell unmittelbar aus

54

(2.23) ( 1)( )i

ii

XP y

g Xβ

σ

= = Φ ⋅ .

Heteroskedastie ist also ein wesentlich ernsteres Problem als im linearen Modell. Da-

her sollte im Rahmen von Analysen mit dem Probit- bzw. des Logit-Modell möglichst ein

Heteroskedastietest durchgeführt werden. Die Maximum-Likelihood-Schätzung ist aber

immer dann konsistent und effizient, wenn wir die richtige Likelihoodfunktion maxi-

miert haben. In den meisten empirischen Anwendungen unterscheiden sich die Para-

meter des Probit- und Logit-Modells nur geringfügig. Daraus kann dann auf eine gewis-

se Robustheit gegenüber den unterschiedlichen Annahmen geschlossen werden.

Im Gegensatz zum linearen Regressionsmodell ist im Probit- und im Logit-Modell das

klassische Bestimmtheitsmaß 2R nicht als Maß für die Güte der Schätzung anwendbar.

Daher verwendet man sogenannte Pseudo-Bestimmtheitsmaße oder auch Pseudo- 2R .

Das einfachste Pseudo-Bestimmtheistmaß ist der Likelihood-Ratio-Index:

(2.24)0

ln1

lnL

LRIL

= −

0ln L ist dabei die Log-Likelihood eines Probit- oder Logit-Modells, das nur eine Kon-

stante und sonst keine erklärenden Variablen enthält. Es ist wie das klassische Be-

stimmtheitsmaß auf den Wertebereich [ ]0,1 . Allerdings sind selten Pseudo- 2R zu er-

warten, die größer sind als 0,2 . Sehr häufig sind sie sogar kleiner als 0,1 .

Ein Beispiel für die Anwendung des Probit-Modells ergibt sich aus einer jüngeren Stu-

die des ZEW zum Technologietransfer von Hochschulen und öffentlichen Forschungs-

einrichtungen an private Unternehmen. Beise und Stahl (1999) haben mit einem Quer-

schnitt des Mannheimer Innovationspanels untersucht, ob Forschungsergebnisse von

Hochschulen und öffentlichen Forschungseinrichtungen maßgeblich für die Innovations-

tätigkeit privater Unternehmen sind. Dazu wurden die Unternehmen gefragt, ob es Pro-

dukt- oder Prozeßinnovationen gibt, die ohne die Ergebnisse der jüngeren Forschung

von Hochschulen oder öffentlichen Forschungseinrichtungen nicht zustandegekommen

wären.

55

Die Probitschätzung führte zu folgenden Ergebnissen (die Werte stellen die marginalen

Effekte dar):

Tabelle 2.5 Technologietransfer an private Unternehmen

Transfer vonHochschulen undöffentlichen For-schungseinrich-tungen

Transfer vonUniversitäten

Transfer vonFachhochschu-len

Transfer vonöffentlichen For-schungseinrich-tungen

Beschäftigten-zahl (in logs)

0,0240*** 0,022*** 0,0038 0,014***

FuE-Intensität 0,0042*** 0,0016 -0,0000 0,0026**

Produktlebens-zyklus

-0,0011 -0,0006 -0,0018** -0,0010

Breite der Pro-duktpalette

-0,0110** -0,0058** -0,0044** -0,0032

Wissenschaft-lerdichte

-0,2070

Wissenschaft-lerdichte (Uni)

-0,387 -0,471** -0,482

Wissenschaft-lerdichte (FHs)

0,197 0,586*** 0,377

Wissenschaft-lerdichte (Insti-tute)

0,017 -0,127 0,038

Investitionsgüter-sektor (Dummy)

0,038 0,039** 0,016** -0,0053

Neue Bundes-länder (Dummy)

-0.028 0,0034 0,0012 0,032

N 892 891 889 890

ln L -371,4 -213,4 -136,9 -206,4

Pseudo R2 0,0377 0,0931 0,1276 0,0605

*,**,*** bezeichnet ein Signifikanzniveau von 1%, 5% bzw. 10%.

Einige Ergebnisse seien nur exemplarisch diskutiert. Die Neigung der Unternehmen,

sich Spillovers der öffentlichen Forschung anzueignen, steigt mit der Größe und der

FuE-Intensität der Unternehmen (gemessen als Anteil der FuE-Ausgaben am Umsatz).

Insbesondere die Fähigkeiten, sich die Ergebnisse der Forschung öffentlicher Institute

56

(Großforschungseinrichtungen, Fraunhofer-Institute) anzueignen, erfordert eine eigene

FuE-Tätigkeit der Unternehmen.

Der Transfer von Fachhochschulen unterscheidet sich davon jedoch deutlich. Die Größe

des Unternehmens spielt keine Rolle, kleine und mittlere Unternehmen können in glei-

chem Maße profitieren. Die räumliche Nähe gemessen als Wissenschaftlerdichte in

einem Umkreis von 100km ist signifikant. Im übrigen konnte im Rahmen der Studie, die

weitere Schätzungen enthält, dem Technologietransfer öffentlicher an private Einrichtun-

gen kein besonders gutes Zeugnis ausgestellt werden. Dies betraf insbesondere den

Transfer von sogenannten Großforschungseinrichtungen. Die wesentlichen Transfers

finden nur von Fraunhofer-Instituten sowie einigen Technischen Universitäten statt.

2.1.5 Bivariate und Simultane Probit-Modelle

Häufig stehen jedoch verschiedene diskrete Entscheidungen von Individuen oder Unter-

nehmen in einem direkten oder indirekten Zusammenhang, wie beispielsweise die Ent-

scheidung über Erwerbsbeteiligung und das Kinderkriegen von Frauen oder die Ent-

scheidung über Produkt- und Prozeßinnovationen von Unternehmen. Es ist dabei zwi-

schen genisteten und nicht-genisteten Modellen zu unterscheiden.

In einem genisteten Modell hängt die zweite Entscheidung vom Ergebnis der ersten

Entscheidung ab. Es ergibt sich also ein zweistufiges Entscheidungsmuster, wie bei-

spielsweise auf der ersten Stufe die Entscheidung über eine Fahrt mit dem eigenen

Auto oder einem öffentlichen Verkehrsmittel und auf der zweiten Stufe die Entscheidung

zwischen dem Bus und der Bahn, gegeben eine Entscheidung für öffentliche Verkehrs-

mittel auf der ersten Stufe. Derartige Modelle werden hier nicht behandelt. Sie können

beispielsweise in Ronning (1991) nachgelesen werden.

Das bivariate Probit-Modell entspricht einer Übertragung des bekannten Modells mit

scheinbar unabhängigen Gleichungen auf das Probit-Modell. Es hat folgende Struktur

für den beobachtbaren Modellteil:

57

(2.25)

*1

1 *1

*2

2 *2

1 wenn 0

0 wenn 0

1 wenn 0

0 wenn 0

ii

i

ii

i

yy

y

yy

y

>= ≤

>=

und folgende für den latenten Modellteil:

(2.26)*1 1 1 1 1 1

*2 2 2 2 1 1 1 2

mit ( ) 0, ( ) 1

mit ( ) 0, ( ) 1, ( )i i i i i

i i i i i i i

y X u E u V u

y X u E u V u Cov u u

β

β ρ

= + = =

= + = = =

Die Varianzen können auf 1 normiert werden, da wie im gewöhnlichen Probit-Modell nur

die standardisierten Koeffizienten identifiziert sind. ρ beschreibt wie im SUR-Modell

die Korrelation zwischen den Störgrößen der beiden Gleichungen. Das bivariate Probit-

Modell kann mit der Maximum-Likelihood-Methode geschätzt werden. Die individuellen

Eintrittswahrscheinlichkeiten der beiden Ereignisse werden folgendermaßen gebildet:

(2.27) 1 1 2 2 1 2( , ) ( , , )i i i i i i iP Y y Y y w w ρ+= = = Φ

mit 1 2i i iq qρ ρ+ = , 1 1 1 1i i iw q X β= , 2 2 2 2i i iw q X β= und 1 12 1i iq y= − , 2 22 1i iq y= − .

Im Gegensatz zum bivariaten Probit-Modell hängt beim simultanen Probit-Modell die

latente Variable der einen Gleichung von der latenten Gleichung der jeweils anderen

Gleichung ab. D.h. es gilt weiterhin das beobachtbare Modell (2.25), aber statt des la-

tenten Modells (2.26) gilt jetzt:

(2.28)* *1 2 1 1 1 1 1 1

* *2 1 2 2 2 2 1 1 1 2

mit ( ) 0, ( ) 1

mit ( ) 0, ( ) 1, ( )i i i i i i

i i i i i i i i

y y X u E u V u

y y X u E u V u Cov u u

γ β

γ β ρ

= + + = =

= + + = = =

Das simultane Probit-Modell ist damit ein simultanes Modell in den latenten Variablen,

nicht in den beobachtbaren. Mann kann zeigen, daß ein simultanes Modell in den beob-

achtbaren Variablen nur dann logisch konsistent ist, wenn es eine rekursive Struktur

aufweist. Ansonsten sind die sogenannte Kohärenzbedingungen verletzt (Blundell and

Smith, 1994).

Das simultane Probit-Modell kann beispielsweise mit der zweistufigen Methode von

Mallar (1977) oder Maddala (1983) geschätzt werden. Bei diesem Verfahren wird zu-

erst die reduzierte Form des Gleichungssystems (2.28) abgeleitet:

58

(2.29)

* 1 1 21 2 11 2 1

1 2 1 2 1 2

* 2 1 22 1 22 1 2

1 2 1 2 1 2

1 1 1

1 1 1

i ii i i

i ii i i

u uy X X

u uy X X

γγ β βγ γ γ γ γ γ

γγ β βγ γ γ γ γ γ

+= + +

− − −+

= + +− − −

Tatsächlich werden im ersten Schritt also die latenten Variablen 1iy und 2iy mit dem

ML-Probit-Schätzer auf das gesamte Set exogener Variablen regressiert:

(2.30)*1 1 1

*2 2 2

i i i

i i i

y X

y X

υ

υ

= Π +

= Π +

Im zweiten Schritt werden die Schätzungen der Latenten in die strukturelle Gleichung

(2.28) eingesetzt. Bei der gegebenen Normierung der Varianzen auf 1 können die Pa-

rameter somit konsistent geschätzt werden durch

(2.31)* *1 2 1 1 1 1

* *2 1 2 2 2 2

ˆ

ˆi i i i

i i i i

y y X u

y y X u

γ β

γ β

= + +

= + + .

Die Schätzung der korrekten Form der Standardfehler ist Maddala (1983) im Abschnitt

7.3 zu entnehmen.

In einer aktuellen ZEW-Studie (Ebling und Janz, 1999) wurde mit diesem Ansatz der

Zusammenhang zwischen Exporttätigkeit und Innovationsverhalten im Dienstleistungs-

sektor simultan untersucht. Ausgangspunkt ist dabei die Analyse der Bestimmungsfak-

toren für die Exportentscheidung von Dienstleistungsunternehmen. Die Innovationsfreu-

digkeit eines Unternehmens wird generell als wichtige Bestimmungsgröße für die Ex-

portentscheidung eines Unternehmens angesehen: Nach Posner (1961) kann (gerade

intra-industrieller) Handel durch Unterschiede in der Technologie, also Innovationen,

begründet werden. Umgekehrt kann jedoch auch argumentiert werden, daß Handel den

Umsatzanteil eines Unternehmens mit seinen neuen Produkten erhöht. Das Unterneh-

men wird daher die Innovationsaktivitäten intensivieren. Die Wirkungsrichtung, ob Ex-

porterfolg durch Innovationsaktivitäten begründet wird oder Exporte vielmehr Innovati-

onsaktivitäten verstärken, ist somit a priori nicht eindeutig.

Die Anwendung des vorgestellten simultanen Probitansatzes auf einen Querschnitt des

Mannheimer Innovationspanels im Dienstleistungssektor führte zu folgenden Ergebnis-

sen:

59

Tabelle 2.6: Exporterfolg und Innovationsaktivitäten

Schätzung eines Simultanen ProbitansatzesExportgleichung Innovationsgleichung

Variable Koeffizient Standardabw. Koeffizient Standardabw.

Exporteur 0,115 0,111Innovator 0,282** 0,147

Quantitative Variablen:

Lohnstückkosten im WZ

- Verkehr -1,997** 0,876

- EDV 1,291* 0,760

- Technische Beratung -1,242** 0,584

- Wohnungswesen -0,904 2,443

- Beratungsunternehmen 0,029 0,167

- Reinigungsgewerbe -1,754 1,212

- Sonstige Dienstleistungen -1,094*** 0,366

Lohnniveau 0,279*** 0,085 -0,082 0,079

Anteil der Beschäftigten

- mit Universitätsabschluß 1,176 *** 0,237

- mit Berufsabschluß 0,398 ** 0,172

Größe des Unternehmens -0,150 0,111 0,246 *** 0,093

(Größe des Unternehmens)^2 -0,027 0,018 -0,003 0,015

Investitionen in Informationstechn. 4,780 *** 1,486

Qualitative Variablen:

Grenznähe 0,506** 0,219

Teil eines Konzerns 0,063 0,130 0,115 0,108

Ostvariable -0,643*** 0,119 -0,091 0,130

Wirtschaftszweigvariable:

- Verkehr 0,614 0,389 0,339 * 0,187

- EDV -0,500 0,441 0,503 ** 0,197

- Technische Dienstleistungen 0,924** 0,379 0,138 0,166

- Wohnungswesen -1,012** 0,507 -0,019 0,246

- Beratungsunternehmen -0,398 0,537 0,468 ** 0,232

- Reinigungsgewerbe 0,425* 0,230 0,316 ** 0,153

Konstante -0,977*** 0,263 0,186 0,265

Log-Likelihood -395,259 -615,442Anzahl der Beobachtungen 1010 1010

Im Rahmen des Simultanen Probit-Modells zeigt sich, daß Innovationsaktivitäten sehr

wohl signifikanten Einfluß auf die Exportaktivitäten von Dienstleistungsunternehmen ha-

ben, die Exportaktivitäten jedoch ihrerseits von den Innovationsaktivitäten nicht wesent-

lich beeinflußt werden. Während zudem deutlich positive Effekte vom Lohnniveau (Per-

60

sonalkosten pro Beschäftigtem), das im Rahmen der Studie als Qualifikationsniveau

interpretiert wird, auf die Exportwahrscheinlichkeit festzustellen sind, beeinflussen die

Lohnstückkosten (Personalkosten pro Umsatzeinheit) nur in einzelnen Branchen die

Exportaktivitäten negativ. Hohe Löhne verschlechtern demnach nicht die Exportchancen

von Dienstleistungsunternehmen, wenn sie das Qualifikationsniveau der Unternehmen

reflektieren.

2.2 Modelle für kategoriale abhängige Variablen

2.2.1 Das geordnete Probit-Modell

Das binäre Wahlmodell ist ein Spezialfall allgemeiner Wahlmöglichkeiten. Fragt man

z.B. nach der Erwerbstätigkeit, so ließen sich folgende drei Antworten unterscheiden:

nicht erwerbstätig ( )niy

teilweise (z.B. Teilzeit) erwerbstätig ( )tiy

voll erwerbstätig ( )viy

Das latente Modellteil, das die Neigung eine Erwerbstätigkeit aufzunehmen be-

schreibt, hat wieder folgende Gestalt:

(2.32) * 2mit ~ (0, )i i i iy X u u Nβ σ= +

Der beobachtbare Modellteil läßt sich jetzt durch zwei 0,1 Variable beschreiben, näm-

lich

(2.33)1 wenn die Person erwerbstätig ist0 wenn die Person nicht erwerbstätig ist

eiy

=

1 wenn die Person voll erwerbstätig ist0 wenn die Person teils erwerbstätig ist

viy

=

Alternativ können wir iy in einer Variablen mit 3 Ausprägungen wie folgt kodieren:

(2.34)

0 nicht erwerbstätig

1 Teilzeit beschäftigt2 Vollzeit beschäftigt

iy

=

61

Beide Kodierungen führen zum gleichen Ergebnis. In der ökonometrische Literatur ver-

wendet man in der Regel die Codierung (2.34). Die beobachtbare Variable iy ist dann

ordinal skaliert. Allgemein können wir das latente Modell für 1J + ordinale Kategorien

wie folgt schreiben:

(2.35)

*1*

1 2

*

0 für1 für

für

i

ii

J i

y cc y c

y

J c y

≤ < ≤

= <

M

Für die latente Variable *iy gilt Gleichung (2.32). Die beobachtbaren Zustände ergeben

sich wie folgt aus dem latenten Modell:

(2.36)

1

1

*1*

1 2 2

*

0 bzw.

1 bzw.

bzw.

i i

i i i

J i i

u Xci

X u Xci

i

c X uJ i

y c

c y c cy

J c y

βσ σ σ

β βσ σ σ σ

βσ σ σ

< < −

< < − < < −=

< − <

M

Die Koeffizienten jc werden als Schwellenparameter (Threshold parameter) bezeich-

net, für die gelten muß

(2.37) 1 2 Jc c c< < <L

Man kann zeigen, daß bei 1J > Wahlmöglichkeiten ein Schwellenparameter beliebig

gewählt werden kann, z.B. 1 0c = . Wir sehen sofort, daß es sich beim geordneten Pro-

bit-Modell um eine direkte Verallgemeinerung des Probit-Modells handelt, das für 1J =

das Probit-Modell als Spezialfall enthält. Für die Eintrittswahrscheinlichkeiten gilt im ge-

ordneten Probit-Modell:

(2.38)2

( 0) ( )( 1) ( ) ( )

( ) 1 ( )

i

i i

J i

Xi

X Xci

c Xi

P yP y

P y J

βσ

β βσ σ σ

βσ σ

= = Φ −= = Φ − − Φ −

= = − Φ −M M

Zusätzlich zu den Parametern β und σ werden auch die Schwellenparameter 2 , , Jc cLgeschätzt, die genauso wie die Parameter bis auf einen konstanten Faktor identifiziert

sind. Man setzt daher in der Regel 1σ = .

62

Genau so wie im Probit-Modell der Gleichung (2.11) lassen sich auch für das geordnete

Probit-Modell der Gleichung (2.38) analog zu (2.20) marginale Effekte berechnen. Die-

se lauten im geordneten Probit-Modell:

(2.39)( )2

( 0)( )

( 1)( ) ( )

( )( )

ii k

ik

ii i k

ik

iJ i k

ik

P yX

xP y

X c Xx

P y Jc X

x

φ β β

φ β φ β β

φ β β

∂ == −

∂∂ =

= − − −∂

∂ == −

M M

Kaiser (1998) hat mit den Daten des Mannheimer Innovationspanels untersucht, wel-

chen Einfluß der Einsatz von neuen Technologien auf die erwartete Arbeitsnachfrage

von Dienstleistungsunternehmen hat. Im Rahmen des MIP wurde die Unternehmen ge-

fragt, ob sie für verschieden vorgegebene Qualifikationsstufen (heterogene Arbeit) pla-

nen die Beschäftigung zu senken oder zu erhöhen. Dazu wurde ihnen eine 5er-Likert-

Skala vorgegeben. Die Mitte als der Wert 3 kennzeichnet dabei eine konstante ge-

plante Beschäftigung. Die folgende Tabelle zeigt die Auszüge der Schätzergebnisse für

2 Qualifikationsgruppen (Universitätsabsolventen und Beschäftigte mit abgeschlossener

Berufsausbildung).

63

Tabelle 2.7 Beispiel geordnetes Probit-Modell: Heterogene Arbeitsnachfrage

Hochschulab-solventen

Beschäftigtemit abge-schlossenerBerufsausbil-dung

Arbeitskosten der Qualifikationsgruppe 0,001 -0,004***

IT-Investitionen als Anteil an den Gesamt-investitionen

0,004*** -0,003**

Investitionen pro Kopf 0,020 0,006

Beschäftigte mit Hochschulabschluß (inLogs)

0,035*** -0,033***

Beschäftigte mit abg. Berufsausbildung (inLogs)

-0,001 0,000

potentielle Kreditrationierung (Dummy) 0,022 -0,067

Neue Bundesländer (Dummy) -0,159* -0,197**

Schwellenparameter 1 -1,220 -0,867

Schwellenparameter 2 0,821 0,938

Anzahl der Beobachtungen 1037 1059

Log-Likelihood -829,797 -992,685

*, **, *** kennzeichnen ein Signifikanzniveau von 0,10; 0,05 und 0,01.

Im Rahmen der Schätzung wird für Branchen und Umsatzerwartungen kontrolliert.

Es zeigen sich deutliche Unterschiede zwischen den beiden gewählten Qualifikations-

gruppen in den Beschäftigungserwartungen bzw. -planungen der Unternehmen. Wäh-

rend sich für Beschäftige mit abgeschlossener Berufsausbildung ein negativer Effekt

der Arbeitskosten nachweisen läßt, findet man keinen Effekt bei Hochschulabsolventen.

Die entscheidende Variable war jedoch im Rahmen der untersuchten Fragestellung der

Effekt des Einsatz neuer Technologie (hier: Informations- und Kommunikationstechnolo-

gien). Im Rahmen der Schätzung des geordnete Probit-Modells der Beschäftigungser-

wartungen sehen wir, daß Unternehmen, die relativ viel in Informations- und Kommuni-

kationstechnologien investieren, die Beschäftigung von Hochschulabsolventen auszu-

weiten planen und die Beschäftigung „einfacher“ Mitarbeiter zu senken. Dies läßt sich

sehr vorsichtig als Anzeichen dafür interpretieren, daß der vermehrte Einsatz von IT-

Technologien auch im Dienstleistungssektor einfache Arbeitsplätze vernichtet und an-

64

spruchsvolle schafft. Man spricht in diesem Zusammenhang vom sogenannten skill bias

of technological change (Bound and Johnson, 1992).

2.2.2 Das multinomiale Logit-Modell

Viele mehrdimensionale Kategorien lassen sich jedoch nicht oder nur sehr schwer ge-

eignet ordnen. Konsumentscheidungen für verschieden Marken wie z.B. Automobile

sind hier ein klassisches Beispiel. Modelle für derartige ungeordnete binäre Alternativen

bezeichnet man als multinomiale Modelle. Das kurz hier beschriebene multinomiale

Logit-Modell geht auf Theil (1969) und McFadden (1974) zurück. McFadden (1974)

bezeichnet sein Modell jedoch als konditionales Logit-Modell. Der wesentliche Unter-

schied ist, daß man im multinomialen Logit-Modell die Wahlhandlungen durch die unter-

schiedlichen Eigenschaften der Individuen erklärt, während bei Entscheidungen im kon-

ditionalen Logit-Modell auch spezifische Eigenschaften der Alternativen berücksichtigt

werden können. Beide Modelle sind jedoch sehr ähnlich, so daß wir hier nur kurz auf das

multinomiale Logit-Modell eingehen. Ein einfache Darstellung mit einem Vergleich der

beiden Ansätze findet man bei Greene (1993) in Kapitel 19.7 und sehr viel ausführlicher

bei Maddala (1983) in Kapitel 3. Dort findet man auch weitere Alternativen wie bei-

spielsweise das Multinomiale Probit-Modell (Hausman and Wise, 1978).

Im multinomialen Logit-Modell sind folgende Auswahlwahrscheinlichkeiten in Verallge-

meinerung zu (2.17) für ein Modell mit 1J + Alternative definiert:

(2.40)1

1

1( 0)

1

( ) für 1, ,1

i k

i j

i k

i JX

j

X

i JX

j

P ye

eP y j j J

e

β

β

β

=

=

= =+

= = =+

∑…

Man beachte dabei einen wesentlichen Unterschied zu den bisher betrachteten Model-

len. Die Koeffizienten jβ variieren mit den Alternativen. Im geordneten Probit-Modell

waren die Koeffizienten unabhängig von der betrachteten Alternative. Die Variabilität

65

der Koeffizienten führt im multinomialen Logit-Modell zu erheblichen Interpretations-

problemen.

Die Koeffizienten sind somit nur relativ interpretierbar. In Gleichung (2.40) wurden die

Parameter 0β willkürlich zu Normierungszwecken auf 0 gesetzt. Wir hätten ebenso

auch jeden anderen Parametervektor wählen können. Die Koeffizienten erklären daher

nur die Unterschiede in den Präferenzen zur gewählten Normierung:

(2.41)( )

ln( 0)

ii j

i

P y jX

P yβ

== =

Insbesondere diese Einschränkung macht die Anwendung des Multinomialen Logit-

Modells für die Praxis nicht sehr attraktiv. Die Schätzung des Multinomialen Logit-

Modells ist wie auch im Logit-Modell die übliche Maximum-Likelihood-Schätzung bei

der die individuellen Beiträge über die Gleichung (2.40) definiert sind.

2.3 Modelle für beschränkte abhängige Variablen

2.3.1 Das Tobit-Modell

Typisch für Mikrodaten im allgemeinen und Querschnittsdaten im besonderen sind auch

sogenannte beschränkte abhängige Variablen (limited dependent variables). Will

man beispielsweise auf der Mikroebene das Arbeitsangebot von Individuen erklären, so

läßt es sich nur für diejenigen Personen beobachten, die auch tatsächlich arbeiten. Bei

Arbeitslosen ist das beobachtbare Arbeitsangebot auf den Wert Null beschränkt. Ein

weiteres Beispiel sind Kaufentscheidungen für dauerhafte Konsumgüter, die nicht in

jeder Periode erfolgen, die Höhe der Ausgaben ist also in vielen Perioden auf den Wert

Null beschränkt.

Ein Modellansatz, der mit derartigen Beobachtungen für abhängige Variable umgehen

kann, wurde von Tobin (1958) entwickelt. Tobin (1958) erweitert das binäre Probit-

Modell insofern, als – um im Beispiel der dauerhaften Konsumgüter zu bleiben − neben

der Entscheidung, dauerhafte Konsumgüter zu kaufen oder nicht, die Entscheidung über

die Ausgabenhöhe simultan berücksichtigt wird. Es wird daher nach ihm auch Tobit-

Modell genannt. Die erklärenden Variablen iX beeinflussen in diesem Ansatz sowohl

die Wahrscheinlichkeit des Ausgabenereignisses als auch die unterschiedliche Höhe

66

der Ausgaben. Einen sehr lesenswerten Überblick über verschiedene Spezifikationen

des Tobit-Modells findet man bei Amemiya (1985) in Kapitel 10.

Die Nullbeobachtungen im Tobit-Modell führen zu einer Konzentration von Beob-

achtungen im Punkt Null, die das Problem mit sich bringt, daß eine gewöhnliche KQ-

Schätzung zu verzerrten und inkonsistenten Schätzergebnissen führt. Die Verzerrtheit

und Inkonsistenz rühren daher, daß in einer Regression über alle Individuen die KQ-

Schätzung einen linearen Zusammenhang erzwingt, der aufgrund der Beobachtungs-

konzentration unangebracht ist. Doch selbst wenn die Regression nur über die Individu-

en erfolgt, für die Ausgaben bzw. Arbeitsangebote beobachtbar sind, treten verzerrte

und inkonsistente Schätzer auf. Denn in dem Fall ist die KQ-Schätzung mit einem sam-

ple selection bias (vgl. dazu auch Heckman, 1976 und 1979) behaftet, da die Schät-

zung annimmt, die Stichprobe bestünde nur aus den verwendeten Beobachtungen, ob-

gleich auch die vernachlässigten "Nullbeobachtungen" der Stichprobe angehören.

Im folgenden wird anhand eines einfachen Modells zur Erklärung der Ausgaben für dau-

erhafte Konsumgüter veranschaulicht, wie Nachfragegleichungen in Querschnittsmo-

dellen unter Beachtung der Konzentration von Beobachtungswerten im Punkt Null ge-

schätzt werden können. Ein solches Modell, das der Beobachtungskonzentration ge-

recht wird, läßt sich wie folgt formulieren.

Für die endogene Variable, die in diesem Fall als Konsumneigung interpretiert werden

kann, nehmen wir wie im Probit-Modell (vgl. Gleichung (2.11)) ein latentes Modell an:

Latenter Modellteil

(2.42) * 2mit (0, )i i i iy X u u Nβ σ= + ∼

Beobachtet werden kann jedoch nur eine positive Kaufentscheidung:

Beobachtbarer Modellteil

(2.43)* *

*

wenn 0 bzw.0 wenn 0 bzw.

i i i i i ii

i i i

y X u y u Xy

y u Xβ σ β σ

σ β σ

= + > > −=

≤ ≤ −

*iy bezeichnet die latente endogene Variable, hier die gewünschten Ausgaben für ein

dauerhaftes Konsumgut, wie sie sich z.B. aus der Maximierung einer Nutzenfunktion

unter Berücksichtigung einer Budgetbeschränkung ergeben. Sie ist nicht direkt beob-

67

achtbar und hängt von direkt beobachtbaren Variablen iX ab. Die latente Variable ist

nur dann auch beobachtbar, wenn sie positiv ist: * 0iy > . Im Beispiel: Die Ausgabenent-

scheidung wird nur dann getroffen, wenn die gewünschten Ausgaben positiv sind, bei

negativen optimalen Ausgaben (eine Art Desinvestition) finden keine Ausgaben statt.

Wird die Gleichung i i iy X uβ= + mit Hilfe der KQ-Methode geschätzt, dann wird implizit

unterstellt, daß im Mittel die systematische Komponente iX β gilt, d.h. ( )i iE y X β= . Tat-

sächlich gelten aufgrund der Beobachtungskonzentration unter der Annahme einer nor-

malverteilten Störung 2(0, )iu N σ∼ jedoch die folgenden Erwartungswerte. Dazu sortie-

ren wir die Stichprobe vom Umfang N in die ersten M Individuen, für die die latente

Variable beobachtbar ist, und die N M− Individuen, für die sie nicht beobachtet werden

kann.

Für die Teilstichprobe ( 1, , )i M= … gilt

(2.44)( ) ( )

( )( )

*| 0 |i i i i i i

ii

i

E y y X E u u X

XX

X

β β

φ β σβ σ

β σ

> = + > −

= +Φ

und für die gesamte Stichprobe ( 1, , )i N= …

(2.45)

( ) ( ) ( ) ( )

( ) ( )( )

* * * *

0

( ) 0 | 0 0 | 0

/

i i i i i i i

ii i

i

E y P y E y y P y E y y

XX X

Xφ β σ

β σ β σβ σ

= > ⋅ > + ≤ ⋅ ≤

= Φ ⋅ +

Φ

1442443

Der Ausdruck ( / ) ( / ) / ( / )i i iX X Xλ β σ φ β σ β σ= Φ wird als Inverse von Mills-Ratio be-

zeichnet und hat im Rahmen der Tobit-Modelle eine besondere Bedeutung. Der Erwar-

tungswert (2.44) ist der Erwartungswert einer im Punkt 0iy = abgeschnittenen oder

trunkierten Normalverteilung, der Erwartungswert (2.45) ist der Erwartungswert für eine

im Punkt 0iy = zensierten Normalverteilung. Während bei der trunkierten Normalvertei-

lung alle Beobachtungen 0< nicht beobachtet sind (banal gesprochen: einfach fehlen),

sind diese Beobachtungen bei der zensierten Verteilung auf den Wert 0 gesetzt, d.h.

die gesamte Wahrscheinlichkeitsmasse konzentriert sich im Punkt 0 .

68

Die KQ-Schätzung ist demnach insofern fehlspezifiziert, als mit dem systematischen

Modellteil iX β bestimmte erklärende Variablen vernachlässigt sind. Wird die lineare

Regression i i iy X uβ= + z.B. nur über die ersten M Beobachtungen durchgeführt, dann

rührt die Fehlspezifikation daher, daß die Variable ( / ) ( / ) / ( / )i i iX X Xλ β σ φ β σ β σ= Φ

unberücksichtigt bleibt (Heckman, 1979). Konsistente KQ-Schätzer sind aber möglich,

wenn in einer Regression über alle N Beobachtungen

( / ) [ ( / ) / ( / )]i i i iX X X Xβ σ β σφ β σ β σΦ − ⋅ + Φ bzw. in einer Regression, die ersten M

Beobachtungen umfaßt, ( / ) / ( / )i i iX X Xβ σφ β σ β σ+ Φ als systematischer Modellteil

verwendet wird. Diese Eigenschaften werden uns später im Rahmen der zweistufigen

Heckman-Schätzung zu Nutze machen.

2.3.2 Maximum-Likelihood-Schätzung des Tobit-Modells

Die Likelihoodfunktion des Tobit-Modells wird analog zur Likelihoodfunktion des Probit-

Modells (2.12) gebildet. Sie stellt sich in Form:

(2.46)

* *

1 1

1

1 1

( ) ( 0)

[( ) / ] ( / )

1 ( / )

M N

Tobit i i ii i M

M N

i i ii i M

i

L P y y P y

y X X

X

σ φ β σ β σ

β σ

= = +

= = +

= = ⋅ ≤

= − ′ Φ −

−Φ

∏ ∏

∏ ∏ 1442443

dar, wobei das erste Produkt die ersten M Individuen betrifft, für die die latente Vari-

able beobachtbar ist, das zweite Produkt die N - M Individuen, für die sie nicht beo-

bachtet werden kann.

Durch eine Umformulierung der Likelihoodfunktion (2.46) in:

(2.47) 1 [( ) / ]( ) (1 ( ))

( / )i i

Tobit i iM M N Mi

y XL X X

Xφ β σ

σ β ββ σ

−= Φ − Φ

Φ∏ ∏ ∏

wird ersichtlich, daß das Tobit-Modell 2 Spezialfälle enthält: Der Faktor

(2.48) 1 [( ) / ]( )

i iTrunk

M i

y XL

Xφ β σ

σβ

− −=

Φ∏

beschreibt die Likelihoodfunktion eines trunkierten Modells, in dem Beobachtungen

0iy = gänzlich aus der Analyse ausgeschlossen sind. Der zweite Teil von (2.47)

69

(2.49) ( / ) (1 ( ))probit i iM N M

L X Xβ σ β−

= Φ − Φ∏ ∏

ist hingegen identisch mit der Likelihoodfunktion für das Probit-Modell, wie es in (2.12)

hergeleitet wurde.

Amemiya (1973, 1985) hat gezeigt, daß man durch Maximierung der logarithmierten

Likelihoodfunktion folgende ML-Schätzfunktionen erhält.

(2.50) 1 1 ˆˆ ˆ( ) ( )X X X y X X Xβ σ λ− −= ′ ′ − ′ ′

wobei ( )1 , , MX X X ′′ ′= L , ( )1 , , My y y ′= L ( )1, ,

M NX X X+

′′ ′= L und ( )1ˆ ˆ ˆ,M Nλ λ λ+

′= L mit

ˆˆ

ˆi

ii

φλ =

Φ

Der erste Summand in Gleichung (2.50) ist der KQ-Schätzer der Beobachtungen mit

0iy > . Der ML-Schätzer des Tobit-Modells setzt sich also aus dem KQ-Schätzer der

Fälle mit 0iy > und einem Term zusammen, der die Beobachtungen für 0iy = umfaßt.

Eine Schätzung für 2σ erhält man aus

(2.51) 2 1 ˆˆ ( )y y y XM

σ β= ′ − ′

Amemiya hat gezeigt, daß der Schätzer konsistent, asymptotisch normal und asympto-

tisch effizient ist; er ist gegenüber dem Probit-Schätzer von einer höheren asymp-

totischen Effizienz, da er mehr Informationen verarbeitet. Olsen (1978) hat zudem die

globale Konkavität der Tobit-Likelihoodfunktion nachgewiesen.

Die Konsistenzeigenschaft ist allerdings nicht gewährleistet, wenn eine der Modell-

annahmen (Homoskedastizität, identische Parameter für alle Individuen oder die An-

nahme der Normalverteilung) verletzt ist. Deshalb ist die Überprüfung dieser Annahmen

besonders wichtig. Lee and Maddala (1985) haben für das Tobit-Modell entsprechende

Tests zusammengestellt. Neuere Testverfahren findet man auch bei Greene (1993) in

Kapitel 20 und sehr ausführlich im Sonderheft des Journal of Econometrics von Blundell

(1987). Inzwischen sind Erweiterungen des Tobit-Models, die Heteroskedastizität zulas-

sen, auch in der Standardsoftware relativ einfach umzusetzen und sehr zu empfehlen

(vgl. Czarnitzki und Stadtmann, 1999).

70

In RATS kann die Maximum-Likelihood-Schätzung wie folgt geschrieben werden:

NONLIN SIGMASQ

LINREG Y

# CONSTANT X1 X2

FRML (LASTREG, NAMES = ´B´, ADDPARMS) RHSFRML

COMPUTE SIGMASQ = % SEESQ

FRML TOBIT = (Z=RHSFRML (T)), % IF (%VALID (Y), $

-.5* LOG (SIGMASQ) - .5* (Y-Z) **2/SIGMASQ, $

LOG (%CDF ((TR-RHSFRML)/SQRT ( SIGMASQ)))

MAXIMIZE (METHOD = BFGS) TRUNCATE

2.3.3 Zweistufige Heckman-Schätzung des Tobit-Modells

Da es Zeiten gab, zu denen die Tobit-Schätzung nach der ML-Methode sehr rechen-

zeitaufwendig waren, schlug Heckman (1976) einen Schätzer vor, der weitgehend auf

die KQ-Schätzung zurückgreift. Ausgangspunkt ist der Sample-Selection-Bias für das

Tobit-Modell, wenn man den Teil des Samples mit 0iy > berücksichtigt (vgl. Herleitung

zu (2.44).

(2.52)*( | 0) ( | )

( / ) / ( / )i i i i i i

i i i

E y y X E u u XX X X

β ββ σφ β σ β σ

> = + > −= + Φ

Die Fehlspezifikation, als die Heckman (1979) den Sample-Selection-Bias interpretiert,

besteht also darin, daß das lineare Regressionsmodell i i iy X uβ= + die Variable

( / ) / ( / )i iX Xσφ β σ β σΦ nicht berücksichtigt. Eine konsistente KQ-Schätzung ist mög-

lich, wenn man anstelle des linearen Regressionsmodells das Modell

(2.53)( / )( / )i

ii i

i

Xy X

Xφ β σ

β σ εβ σ

= + +Φ

für diejenigen Beobachtungen mit 0iy > verwendet. Der Störterm *( 0)i i i iy E y yε = − >

der Gleichung (2.53) hat die Eigenschaften ( 0)iE ε = und

( ) ( )( )22 2( ) 1i i i i iV X X Xβ β βσ σ σε σ σ λ λ= Σ = − − . Gleichung (2.53) entspricht also einem

linearen Regressionsmodell mit heteroskedastischen Störgrößen. Das Problem besteht

71

dann nur darin, in einer ersten Stufe standardisierte Parameter βσ zu schätzen um

( / ) / ( / )i iX Xφ β σ β σΦ evaluieren zu können. Heckman (1976) hat daher folgendes

zweistufige Verfahren vorgeschlagen: 1. Schätze mit einer ML-Probit-Schätzung die

standardisierten Koeffizienten βσ und bestimme daraus ( / ) / ( / ).i iX Xφ β σ β σΦ 2.

Schätze die Parameter β und σ aus der Gleichung (2.53) mit der KQ-Methode. Die

Kleinstquadratschätzung von Gleichung (2.53) führt zu einer konsistenten, aber nicht

effizienten Schätzung der Parameter β und σ . Insbesondere sind Standardfehler, die

eine Standardsoftware ausweist, verzerrt, da sie weder die Heteroskedastizität in iε

noch die Tatsache, daß ( / ) / ( / )i iX Xφ β σ β σΦ auf einer ersten Stufe geschätzt und da-

mit selbst mit Schätzfehlern behaftet ist, berücksichtigen. Der zweistufige Heckman-

Schätzer für ( , )γ β σ′ ′= ist asymptotisch normalverteilt.

Das Verfahren von Heckman (1976,1979) läßt sich viel allgemeiner anwenden, um die

Selektionsverzerrung im Rahmen eines linearen Modells zu korrigieren. Die Sample-

Selektion kann beispielsweise von ganz anderen als den Variablen des Modells

( ) / ( )i iX Xφ β βΦ abhängen. Das Vorgehen bleibt gleich.

2.3.4 Marginale Effekte im Tobit-Modell

Ähnlich wie im Probit-Modell messen die Koeffizienten β die marginalen Effekte der

erklärenden Variablen iX auf die latente endogene Variable *iy , nicht die marginalen

Effekte auf die beobachtete Variable iy (vgl. (2.20)). Im Tobit-Modell lassen sich die

Erwartungswerte der latenten Variablen sowie der bedingten und unbedingten beo-

bachteten Variablen unterscheiden:

(2.54) *( )i iE y X β=

(2.55) ( ) ( )*| 0i i i iE y y X Xβ σλ β σ> = +

(2.56) ( ) ( ) ( )i i i iE y X X Xβ σ β σλ β σ= Φ +

Die dazugehörigen partiellen Ableitungen ergeben die marginalen Effekte im Tobit-

Modell:

72

(2.57)*( )i

kik

E yx

∂β

∂=

(2.58) ( ) ( )*

2( | 0)1i i i

k i iik

E y y XX X

x∂ β

β λ β σ λ β σ∂ σ

> = − −

(2.59) ( ) ( ) ( ) ( )| 0( )| 0i i ii

i i iik ik ik

E y y XE yX E y y

x x x∂ ∂ β σ∂

β σ∂ ∂ ∂

> Φ= Φ + <

( ) ( ) ( )

( )( )

( )

2( )1

( )

i ii k i i

ik

i ki i

ki

E y XX X X

xX

X X

X

∂ ββ σ β λ β σ λ β σ

∂ σφ β σ β

β σλ β σσ σ

βφ β σ

σ

= Φ − −

+ +

=

Daraus wird ersichtlich, daß kβ weder den marginalen Einfluß der Variablen ikx auf die

beobachtbare Variable aller Individuen, noch den marginalen Effekt auf die beobachtete

Variable derjenigen Individuen darstellt, für die sie beobachtet werden kann. kβ gibt

lediglich zum Ausdruck, wie sich die latente Variable *iy aufgrund einer marginalen Än-

derung von ikx verändert. Der Ausweis der marginalen Effekte auf die tatsächlich beo-

bachtete Variable ist jedoch für die Interpretation der Schätzergebnisse immer vorzu-

ziehen.

2.3.5 Beispiel: Zuschauerzahlen bei Fußballbundesliga-Spielen

Czarnitzki und Stadtmann (1999) vom ZEW in Mannheim und der WHU in Koblenz ha-

ben im Rahmen einer Studie die Bestimmungsgründe der Zuschauerzahlen von Fußball-

Bundesligaspielen der Saisons 1996/1997 sowie 1997/1998 untersucht. Sie untersu-

chen 2 unterschiedliche Modelle, die bereits in Belgien bzw. Schottland für entspre-

chende Studien verwendet worden sind.

Die latente zu erklärende Variable *iy ist der Zuschauerzuspruch eines Bundesliga-

spiels (die Daten sind über die Saison gepoolt). Der Zuschauerzuspruch ist jedoch im

Unterschied zu den obigen Ausführungen von oben zensiert durch die maximale Kapa-

zität der Stadien. Das Stadion kann also ausverkauft sein:

73

(2.60)* *

*

wennwenn

i i i i ii

i i i

y X u y cy

c y cβ = + ≤

= >

Die Zensierung ist also rechtsseitig und zudem noch individuell variierend. Diese Er-

weiterung führt aber zu keinen weiteren Problemen, solange der Zensierungspunkt be-

kannt ist. Zudem erlauben die Autoren Heteroskedastizität der Form 2 2 iwi e ασ σ= , wobei

iw Teile der erklärenden Variablen iX umfaßt. Die Likelihoodfunktion des Tobit-

Modells (2.46) läßt sich einfach anpassen zu:

(2.61)1

1i i i

i i i i

i i i iTobit w w w

y c y c

y X c XL

e e eα α α

β βφ

σ σ σ≤ >

− − = + − Φ

∏ ∏

Als erklärende Variablen iX dienen:

- Marktgröße der Heimmannschaft (gemessen als Bevölkerung pro Bundesligaklub ineiner Stadt)

- Marktgröße der Gastmannschaft (gemessen wie oben, dividiert durch dieEntfernung vom Austragungsort)

- Tabellenplatz der Heimmannschaft

- Tabellenplatz der Gastmannschaft

- Reputation der Heimmannschaft (gemessen als Performanceindex über dieletzten 6 Jahre)

- Reputation der Gastmannschaft (gemessen wie oben)

- Unsicherheitsmaß für die Heimmannschaft (Funktion, die den Abstand der zumErreichen der Meisterschaft notwendigen Punkte zu den bisher erreichten Punk-ten mißt)

- Unsicherheitsmaß für die Gastmannschaft (gemessen wie oben)

- Spieltag der Saison

- Maß für das Fan-Potential (gemessen als Anzahl der Fanclubs der Auswärtsmann-schaft, invers gewichtet mit der Entfernung zum Austragungsort)

- Temperatur zur Spielzeit

Folgende Ergebnisse ergeben sich für das Tobit-Modell und die heteroskedastische

Erweiterung:

74

Tabelle 2.8: Zuschauerzahlen bei Fußballbundesligaspiele

Variable HomoskedastischesTobit-Modell

HeteroskedastischesTobit-Modell

Marktgröße Heim 9,16*** 7,97***

Marktgröße Gast 22,54*** 17,07***

Tabellenplatz Heim -413,17*** -481,41***

Tabellenplatz Gast -165,94 -162,89

Reputation Heim 766,50*** 765,37***

Reputation Gast 310,05*** 313,00***

Unsicherheit Heim 420,60 222,65

Unsicherheit Gast 321,99** 314,77

Spieltag 195,93*** 187,53***

Fan-Potential 1339,03*** 989,93***

Temperatur 299,07*** 219,15***

Konstante 13205,47 16201,00***

σ 9934,44 9022,72

Log-Likelihood -4339,12 -4302,01

N 513 513

LR-Test auf Heterosked. 74,22***

LM-Test auf Heterosked. 82,10***

Die ausgewiesenen Schätzwerte sind die marginalen Effekte. Die wesentlichen Ergeb-

nisse lassen sich anhand des heteroskedastischen Tobit-Modells folgendermaßen in-

terpretieren: Jede Verbesserung des Tabellenplatzes der Heimmannschaft führt im

Durchschnitt zu 481 Zuschauern mehr, d.h. ein Verein kann als Tabellenführer ungefähr

8.200 Zuschauer mehr erwarten denn als Tabellenletzter. Die Reputation sowohl der

Heim- als auch der Gastmannschaft ist sehr bedeutend für den Zuschauerzuspruch. Ein

Team, das im Vorjahr Meister war, kann gegenüber einer Mannschaft, die Tabellen-

zehnter war, ungefähr 12.000 Zuschauer mehr erwarten. Ebenso spielen Fanclubs eine

bedeutende Rolle. Der Unterschied zwischen dem schlechtesten Potentialmaß und dem

besten betrug ungefähr 14.000 Zuschauer. Natürlich ist, wie zu erwarten, auch das

Wetter gemessen als Temperatur von großer Bedeutung.

75