Mathematik A (Analysis)1 · Mathematik f˜ur Wirtschaftswissenschaftler muss sich - an irgendeiner...

109
Mathematik A (Analysis) 1 Christian Groh 27. August 2008 1 Universit¨ at Mannheim, HWS 2008/2009. Dr. Christian Groh, L7, 3-5, Zi. 4.04, [email protected]

Transcript of Mathematik A (Analysis)1 · Mathematik f˜ur Wirtschaftswissenschaftler muss sich - an irgendeiner...

Mathematik A (Analysis)1

Christian Groh

27. August 2008

1Universitat Mannheim, HWS 2008/2009. Dr. Christian Groh, L7, 3-5, Zi. 4.04,

[email protected]

2

Inhaltsverzeichnis

1 Einleitung 11

2 Funktionen von zwei Variablen 15

2.1 Vokabular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2 Darstellung: Graphen und Isohohenlinien . . . . . . . . . . . . . . . . . . . 18

2.3 Hohenlinien: Berechnen und Zeichnen . . . . . . . . . . . . . . . . . . . . . 20

3 Partielle Ableitungen, Totales Differential und die Kettenregel 23

3.1 Partielle Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.2 Das Totale Differential . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.3 Die Kettenregel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4 Die Steigung von Hohenlinien 35

5 Aussagenlogik 43

6 Konkave und konvexe Funktionen 45

6.1 Eine Variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

6.2 Zwei Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3

7 Multivariate Optimierung 51

7.1 Notwendige Bedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

7.2 Hinreichende Bedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

7.3 Konkave und konvexe Funktionen . . . . . . . . . . . . . . . . . . . . . . . 54

7.4 Extrema am Rande . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

8 Optimierung mit Nebenbedingung 59

8.1 Einsetzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

8.2 Tangentialverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

8.3 Der allgemeine Fall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

8.4 Einsetzverfahren vs. Tangentialverfahren und weitere Beispiele . . . . . . . 70

8.5 Die Methode nach Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . 73

8.6 Interpretation des Lagrangemultiplikators . . . . . . . . . . . . . . . . . . . 76

8.7 Hinreichende Bedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

8.8 Randextrema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

9 Der Extremwertsatz 83

9.1 Extrema bei Funktionen einer Variablen . . . . . . . . . . . . . . . . . . . 83

9.2 Der Extremwertsatz bei Funktionen von zwei Variablen . . . . . . . . . . . 88

10 Komparative Statik und der Implizite Funktionen Satz 91

10.1 Erinnerung: der Satz uber implizite Funktionen . . . . . . . . . . . . . . . 92

10.2 Funktionen einer Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

10.3 Mehrere Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

4

11 Integration 103

11.1 Einfuhrung und Erinnerung . . . . . . . . . . . . . . . . . . . . . . . . . . 103

11.2 Partielle Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

11.3 Doppelintegrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

5

6

Zur Philosophie dieser Vorlesung

und dieses Skriptes

Mathematik fur Wirtschaftswissenschaftler muss sich - an irgendeiner Stelle - mit Opti-

mierungsproblemen beschaftigen. Schließlich ist Optimieren das grundlegende Verhalten

einer Okonomie.

Mochte man nun eine Vorlesung Analysis fur Wirtschaftswissenschaftler halten und ein

Skript dazu schreiben, versucht man sich an der Kombination zweier Extreme. Zum einen

gibt es die Analysis, wie sie an einer Mathematikfakultat gehalten wurde. Hier wurde man

mit formaler Logik, Mengenlehre, Abbildungen, Grenzwerten und Stetigkeit beginnen

und dann zur Differenzierbarkeit gelangen - Optimierungsprobleme sind normalerweise

nicht Bestandteil einer Einfuhrungsvorlesung in Analysis in der Mathematik. Zum andern

konnte man sich an einer reinen Kochrezeptveranstaltung orientieren, in der nur noch

Optimierungsprobleme gerechnet werden, ohne zu wissen, was man da eigentlich tut. Hier

habe ich versucht, den Mittelweg zu finden, der folgenden Nebenbedingungen Rechnung

tragt:

• geringes Zeitbudget: die Vorlesung ist lediglich zweistundig und das 12 oder 13

Wochen lang.

• die Anforderungen in den Folgeveranstaltungen, fur die diese Vorlesung die Voraus-

setzungen schaffen soll.

• die Vorkenntnisse der Studierenden, die diese Veranstaltung im ersten Semester

besuchen.

Aus all dem leiten sich folgende Aspekte ab:

1. Die Vorlesung folgt nicht der Vorgehensweise einer klassischen Analysisvorlesung.

7

Es macht z.B. keinen Sinn, eine ε−δ-Definition von Stetigkeit zu bringen, wenn man

hinterher mit dieser Definition nichts mehr macht und Stetigkeit auch im weiteren

Studium keine besonders große Rolle mehr spielt. Ahnliches gilt fur viele andere

Bestandteile einer klassischen Analysisvorlesung: eine ubermassige Betonung von

Folgen, Reihen, Grenzwerten etc. wurde nur auf Kosten der Optimierung gehen und

von den meisten Studierenden aber nie mehr benotigt werden. Es macht auch keinen

großen Sinn, all diese Konzept allzu unvollstandig oder oberflachlich zu behandeln.

Also kommen sie erst gar nicht vor.

2. Ausgehend von dem Problem der Wirtschaftswissenschaften, der Optimierung unter

Nebenbedingungen, arbeitet die Vorlesung zielgerichtet darauf hin. Das zweite große

Thema sind lineare Approximationen durch Differentiale; auch diese werden uns

standig begegnen, wenn auch weniger plakativ und offensichtlich. All dies bedeutet,

dass die zu erlernende Mathematik immer im situativen Kontext zu sehen ist. Davon

ausgehend leiten sich auch dann auch die einzelnen Themen ab: Funktionen von zwei

Variablen, partielle Ableitungen, Hohenlinien, Totales Differential etc.

3. Das knappe Zeitbudget zwingt dann dazu, andere Dinge komplett wegzulassen. Dazu

gehort insbesondere alles, was an Schulmathematik bekannt sein musste: Funktionen

einer Variablen, Ableitungen, Graphen und auch die Grundlagen der Intergralrech-

nung. Wir beginnen also sofort mit Funktionen von mehreren Variablen. Das mag

zu Beginn nicht ganz einfach sein. Aber im Prinzip machen wir hier so etwas wie

Klasse 14 in der Schule: das, was wir schon uber Funktionen einer Variablen wissen,

ubertragen wir nun auf mehrere (zwei...) Variablen.

4. Auch die Reihenfolge der Themen macht deutlich, dass die Optimierung im Vorder-

grund steht: zuerst kommt alles, was wir fur die Losung von Optimierungsproble-

men brauchen. Hier steht auch mehr das Rechnen im Vordergrund. Danach kommen

Themen, die mathematisch durchaus etwas anspruchsvoller sind: zunachst behan-

deln wir den Extremwertsatz (hier braucht man dann doch wieder einen zumindest

intuitiven Begriff der Stetigkeit und muss wissen was offene bzw. kompakte Men-

gen sind). Danach geht es eventuell noch um diverse Werkzeuge der komparativen

Statik (Envelopetheoreme), die auch nicht mehr ganz so elementar sind. Unterwegs

wird uns immer wieder der Satz uber Implizite Funktionen begleiten; auch dieser

ist nicht so ganz einfach.

5. Viele Themen, die sehr sinnvoll waren, konnen nicht behandelt werden. Das gilt

insbesondere fur die Volkswirte: diese benotigen - je nach Spezialisierung - erheblich

mehr Mathematik, als diese Vorlesung abdecken kann. Diese Mathematik muss man

sich entweder im Selbststudium aneignen, an die Mathematikfakultat gehen oder

8

versuchen, eine eigene Veranstaltung Mathematik fur Volkswirte zu organisieren.

Eine solche Veranstaltung musste dann allerdings etwas spater im Studium kommen

und sollte am besten in Verknupfung mit der jeweiligen Anwendung stehen: z.B.

allgemeine Gleichgewichtstheorie oder Spieltheorie. Dort muss man sich schon recht

intensiv mit Stetigkeit, Grenzwerten, Topologie und Fixpunktsatzen beschaftigen.

Auch die Integration, die man insbesondere in der Statistik benotigt, konnen wir

hier nicht wirklich besprechen.

9

10

Kapitel 1

Einleitung

Das Hauptziel dieser Veranstaltung wird sein, dass wir Probleme folgender Art untersu-

chen konnen.

Peter interessiert sich nur fur Apfel und Birnen. Dabei geht es ihm umso besser je mehr

Apfel bzw. Birnen er konsumiert. Apfel kosten 1 Euro und Birnen 2 Euro. Leider besitzt

Peter nur 10 Euro, die er nur fur den Konsum von Apfeln und Birnen ausgibt. Das ist ein

typisches Problem, wie es in der Veranstaltungen der Mikrookonomie im Grundstudium

vorkommt. Das Problem erscheint etwas konstruiert und unrealistisch; das ist es auch. Es

sollte aber recht schnell klar werden, dass es sich hier nur um ein Beispiel handelt. Statt

Apfel und Birnen konnte man auch uber die optimale Gestaltung eines Aktienportfolios

nachdenken und naturlich interessiert man sich in der Regel nicht nur fur zwei Objekte,

sondern fur mehrere. Man nennt sowas ein Optimierungsproblem unter Nebenbe-

dingungen. Optimierung, weil irgendetwas, hier Peters Wohlergehen moglichst optimal,

also moglichst groß werden soll. Nebenbedingung, weil nicht alles erlaubt ist: Peter unter-

liegt einer Geldbeschrankung und Apfel und Birnen sind nun mal leider nicht umsonst.

Die mathematische Darstellung sieht so aus: Sei x die Menge an Apfeln und y die Menge

an Birnen. Das Wohlergehen von Peter wird durch eine Funktion f(x, y) beschrieben.

Das bedeutet: jeder Kombination von x Apfeln und y Birnen wird eine Zahl f(x, y)

zugeordnet, die aussagt, wie gut es Peter mit x Apfeln und y Birnen geht. Diese Zahl

ist der Funktionswert. Der Funktionswert steigt in x und y: je mehr Apfel oder Birnen

Peter isst, desto großer ist sein Wohlergehen. Fur die Funktion f konnte man sich z.B.

f(x, y) = x+y vorstellen. Das sieht recht einfach und plausibel aus. Und vielleicht wissen

ja auch einige von Ihnen schon, wie man mit solchen Optimierungsproblemen umgeht.

Man konnte sich aber auch f(x, y) = x1/2 ·y5/2 vorstellen. Das sieht dann nicht mehr ganz

11

so einfach aus. Und wir wollen naturlich fur alle moglichen Falle gewappnet sein....

Aus der Schule kennen Sie sicher auch noch Funktionen, die irgendwie so aussahen: f(x) =

x2 oder f(x) = (x − 3)(x + 4). Im Unterschied zu unserem Beispiel hier hingen diese

Funktionen nur von einer Variablen x ab. Die Funktion, die Peters Wohlergehen mißt,

hangt von zwei Variablen x und y ab.

Peter mochte also sein Wohlergehen maximieren, muss aber die Preise und sein Budget

berucksichtigen. Mathematisch schreibt man das so:

maxx,y

f(x, y)

unter der Nebenbedingung:

1x + 2y = 10 x, y ≥ 0.

Die Nebenbedingung besagt, dass die Mengen der konsumierten Guter, multipliziert mit

den jeweiligen Preisen, das Budget nicht ubersteigen durfen. Die Funktion f heisst bei

solchen Problemen ubrigens Zielfunktion.

Wir wollen also den Hochpunkt (kunftig: das Maximum) von f finden, aber unter einer

Nebenbedingung. Genauer gesagt geht es uns um die Extremstellen von f , denn wir wollen

ja wissen, welche Mengen an Apfeln und Birnen Peter optimalerweise konsumiert. Dabei

darf Peter aber insgesamt nur soviel Apfel und Birnen essen, wie es uns die Nebenbedin-

gung erlaubt. Die zweite Bedingung, x, y ≥ 0, ist einfach okonomisch sinnvoll: Apfel und

Birnen kann man nur in nichtnegativen Mengen konsumieren.

Es sollte Ihnen noch bekannt sein, dass man Extremstellen findet, indem man die erste

Ableitung Null setzt. Das ist zumindest eine notwendige Bedingung fur das Vorhandensein

eines Maximums oder Minimums. Nun haben wir hier aber eben nicht nur eine Variable,

sondern zwei. Dennoch werden wir auch hier ganz ahnlich vorgehen: wir werden also

lernen, wie wir Funktionen mit mehreren Variablen ableiten, was nicht wirklich schwer

ist. Wir werden lernen, wie man solche Funktionen grafisch darstellt und schließlich, wie

wir die Nebenbedingung berucksichtigen.

Aus der Schule kennen einige von Ihnen Aufgaben solchen Typy unter der Uberschrift

Extremwertaufgaben. Haufig besteht das Problem darin, einen recht kompliziert ge-

schriebenen Aufgabentext in eine Zielfunktion und eine Nebenbedingung umzuschreiben.

Dann kann man die Nebenbedingung auflosen und in die Zielfunktion einsetzen. Dann hat

man nur noch eine Variable in der Zielfunktion und kann von dieser die Maximumstel-

le bestimmen. Wir werden dieses Losungsverfahren wiedersehen, werden uns aber auch

12

Gedanken daruber machen mussen, was denn zu tun ist, wenn wir die Zielfunktion nicht

explizit nach einer der Variablen auflosen konnen.

Der Beginn...

Wir werden am Anfang damit beginnen, ein paar Werkzeuge einzufuhren. Dazu braucht

man etwas Geduld, da ja am Anfang nicht so ganz klar ist, wofur man denn all diese

Werkzeuge braucht. Wir werden diese Werkzeuge nicht in aller mathematischer Genauig-

keit besprechen, sondern es wird meist darum gehen, was man mit diesen Werkzeugen so

machen kann. Und dann kommt naturlich auch der Moment, wo man alles zusammenbaut.

Und spatestens dann sollte man die einzelnen Werkzeuge gut beherrschen.

13

14

Kapitel 2

Funktionen von zwei Variablen

2.1 Vokabular

Wir beginnen mit einer nicht sehr formalen Erinnerung, was unter einer Funktion einer

Variablen zu verstehen ist.

Im folgenden bezeichne R die Menge der reellen Zahlen. Gehort x zur Menge der reellen

Zahlen, schreiben wir x ∈ R. Wir wollen hier nicht die ganzen schonen Eigenschaften

der reellen Zahlen wiederholen oder ansprechen. Wir wollen uns fur den weiteren Verlauf

allerdings merken, dass sie insbesondere “keine Lucke“ enthalten, dass ich zwischen zwei

reellen Zahlen immer noch eine weitere finden kann. Also zwischen 0.9999 und 1 werde

ich immer noch eine (genau genommen: unendlich viele) reelle Zahlen finden. Die ubliche

grafische Darstellung von R ist die aus der Schule bekannte die Zahlengerade. Die Menge

R ist also die Menge aller Zahlen auf der Zahlengeraden.

Es sei auch noch einmal kurz an die anderen Zahlenmengen erinnert: N ist die Menge der

naturlichen Zahlen, also {1, 2, 3, ...}, Z die Menge der ganzen Zahlen und Q die Menge

der rationalen Zahlen. Auch bei den ganzen und rationalen Zahlen gehe ich davon aus,

dass Sie eine Vorstellung davon haben, worum es sich dabei handelt. Die Vereinigung der

rationalen und der irrational Zahlen bildet eben die Menge der reellen Zahlen.

Sei D eine Menge. Eine Funktion f einer Variablen x ist eine Vorschrift, die jedem

Element aus D genau ein Element aus R, also eine reelle Zahl, zuordnet. Man schreibt

f : D → R. Wir nennen D den Definitionsbereich. Was ist hier dieser Definitionsbereich

D? Meist ist D eine Teilmenge von R, den reellen Zahlen. Dabei kann es sich z.B. um die

Menge N der naturlichen Zahlen handeln. Die Menge D schreibt man meist als Intervall,

15

z.B. D = [1, 2]. Das bedeutet: alle reellen Zahlen zwischen 1 und 2, wobei die 1 und die

2 dazugehoren. So etwas nennt man ein geschlossenes Intervall. Gehort die 1 dazu, die 2

aber nicht, schreibt man D = [1, 2) und nennt das ein halboffenes (oder halbgeschlossenes

Intervall). Und das offene Intervall? Bitte schon: D = (1, 2).

Man kann aber auch vollig andere Definitionsbereiche haben, wie eines der folgenden

Beispiele zeigt. Die Menge “hinter dem Pfeil“ nennen wir Wertebereich.

Beispiele 2.1. (i) Man definiere f : R→ R durch f(x) = x2. Das ist eine “ordentliche“

Funktion: jedem x wird genau eine relle Zahl zugeordnet.

(ii) Diese Vorschrift ist keine Funktion: f : R → R mit f(x) =√

x. Warum? Nun, der

Wertebereich ist R, also darf ich alle Zahlen aus R nehmen. also z.B. -4. Die Wurzel ist

aber fur negative reelle Zahlen nicht definiert.

(iii) Sei N die Menge der naturlichen Zahlen. Dann ist f : N → N mit f(n) = n2

keine

Funktion. Warum? Das erkennen Sie nun sicher selbst.

(iv) Sei D = {VfB Stuttgart, Schalke 04,...,MSV Duisburg} und

f : D → {1, 2, ..., 18}

Diese Funktion ordnet jeder Mannschaft der ersten Fussballbundesliga eine der naturlichen

Zahlen von 1 bis 18 zu. Die Funktion soll dabei so aussehen: die Mannschaft mit den

meisten Punkten bekommt die 1, die mit den zweitmeisten Punkten die 2 usw. Gibt es

Gleichstand bei den Punkten, zahlt die bessere Tordifferenz usw.

Das Resultat dieser Funktion ist naturlich die wochentliche Tabelle der Fussball-Bundesliga.

Was sollte man nun unbedingt zu Funktionen einer Variablen bereits konnen?

Nun, Sie sollten wissen, was das ist. Dann sollten Sie solche Funktionen ableiten konnen.

Sie sollten die Kettenregel, die Produktregel und die Quotientenregel beherrschen. Sie

sollten wissen, wie man Extremstellen solcher Funktionen per Hand (!) (also nicht mit

dem GTR1 oder mit einem Matheprogramm) bestimmen kann.

Auch bei Funktionen von zwei Variablen x und y ordnen wir jedem Element aus der

Menge eines Definitionsbereichs D genau eine reelle Zahl zu. Nur sieht hier der Definiti-

onsbereich D anders aus. Da wir nun zwei Variablen haben, wahlen wir unsere Argumente

(meistens) aus R2. Dazu spater mehr, wir kommen zunachst einmal zur folgenden

1Graphikfahiger Taschenrechner

16

Definition 2.1 (Funktion von zwei Variablen). Eine Funktion f von zwei Variablen

x und y ist eine Vorschrift, die jedem Punkt (x, y) ∈ D eine Zahl f(x, y) ∈ R zuordnet.

Wir schreiben

f : D → R, (x, y) 7→ f(x, y).

Man nennt: f die Funktionsvorschrift, D den Definitionsbereich, R den Wertebereich,

(x, y) die Argumente und f(x, y) den Funktionswert von f am Punkt (x, y).

Man bezeichnet x und y manchmal auch als unabhangige oder exogene Variablen und

bezeichnet z = f(x, y) als die abhangige oder endogene Variable.

Nun ein paar Worte zum Definitionsbereich. Bei uns wird D meist eine Teilmenge des R2

sein, wir betrachten also oft folgenden Funktionstyp:

f : R2 → R.

Der Raum R2 wird durch eine Ebene veranschaulicht, wir haben also einen Freiheitsgrad

mehr als bei unserer Zahlengeraden. Man sagt auch: wir haben eine eine Dimension mehr.

Jeder Punkt des Definitionsbereichs R2 wird durch zwei geordnete Zahlen dargestellt.

“Geordnet“deshalb, weil der Punkt (1,2) ein anderer ist als der Punkt (2,1). Ein Punkt

im R2 wird auch als V ektor oder 2 − V ektor bezeichnet. Die Menge aller moglichen

2 − V ektoren bildet dann den R2. In okonomischen Anwendungen bewegen wir uns oft

im Raum R2+: das sind alle nichtnegativen Punkte des R2. Oft werden wir den Definiti-

onsbereich nicht explizit hinschreiben, entweder, weil aufgrund der Anwendung ohnehin

klar ist, was der Definitionsbereich ist, oder weil aufgrund der Funktionsvorschrift klar ist,

dass nicht der ganze R2 als Definitionsbereich herhalten kann. Ist x ∈ [a, b] und y ∈ [c, d]

mit a, b, c, d ∈ R, schreiben wir oft auch D = [a, b]× [c, d].

Nun ein paar Beispiele fur ordentliche Funktionen von zwei Variablen.

Beispiele 2.2. (i) f(x, y) = xy mit D = R2.,

(ii) f(x, y) = ln(x) + y2 mit D = R2+.

(iii) f(x, y) =√

x + y4 mit D = R2+.

Es sollte Ihnen klar sein, dass die Funktionsvorschrift nicht immer f heißen muss und

dass auch die Variablen nicht immer mit x und y bezeichnet sein mussen. Noch zwei

Hinweise zum Beispiel von eben: in dieser Vorlesung wird “ln“ immer die Notation fur

den naturlichen Logarithmus sein und wir schreiben oft xy fur x · y.

17

Um den Funktionswert an einer bestimmten Stelle (x0, y0) zu berechnen, setzt man den

Punkt (x0, y0) einfach in die Funktionsvorschrift ein.

Beispiele 2.3. (i) Sei f(x, y) = 2x + x2y3 mit D = R2+. Dann ergibt sich f(1, 3) =

2 + 1 · 27 = 29 und f(3, 1) = 2 · 3 + 9 · 1 = 15.

(ii) Sei f(x, y) = xy +√

x mit D = R2+. Dann ist f(2, 12) = 24 + 2

√3 und f(12, 2) =

24 +√

2.

(iii) Sei f(x, y) = 3x − x2 + 4y − y2 − 12xy und sei a ∈ R. Dann ist f(a, a + 1) =

3a−a2 +4(a+1)− (a+1)2− 12(a(a+1)) = −5

2a2 + 9

2a+3. Man berechne zur Ubung

f(a + 1, a) einmal selbst!

(iv) Sei f(x, y) = xa · yb mit a, b ∈ R. Dann ist f(4, 5) = 4a · 5b und f(5, 4) = 5a · 4b.

(v) Sei f(x, y) = exy. Dann ist f(0, 4) = e0·4 = e4·0 = 1 = f(4, 0).

Naturlich konnen wir uber mehr als zwei Variablen reden: eine Funktion f von n Va-

riablen x1, ...xn mit Definitionsbereich D ordnet jedem Punkt (x1, .., xn) ∈ Rn eine Zahl

f(x1, ..., nx) ∈ R zu. Wir schreiben: f : Rn → R, (x1, ..., xn) 7→ f(x1, ...xn)

2.2 Darstellung: Graphen und Isohohenlinien

Sie werden sich sicher alle noch an die Graphen von Funktionen einer Variablen erinnern:

jedem Argument auf der x-Achse wurde ein Element auf der y− Achse zugeordnet. Fur

diese Darstellung benotigen wir die Ebene und wir haben zwei Richtungen, in die wir

gehen konnen: die x−Richtung und, fur den Funktionswert, die y−Richtung. Man kann

auch sagen: wir haben zwei Freiheitsgrade, in die wir uns bewegen konnen und die Zahl der

Freiheitsgrade nennt man auch Dimension. Die Graphen von Funktionen zweier Variablen

kann man nicht so einfach zeichnen, wir bekommen ja sozusagen einen Freiheitsgrad oder

eben eine Dimension dazu: wir haben zwei Argumente, x und y und einen Funktionswert

z = f(x, y), macht insgesamt drei. Man kann also Graphen von Funktionen mit zwei

Variablen nur im 3-dimensionalen Raum darstellen. Die grafische Darstellung des Raumes

R3 nennt man auch Anschauungsraum; ein Begriff, den Sie sich aber nicht merken mussen.

Definition 2.2 (Graph). Sei f : R2 → R eine Funktion. Der Graph von f ist die Menge

aller Punkte (x, y, z = f(x, y)) im Raum R3, die man erhalt, wenn man x und y durch

alle moglichen Werte ihres Definitionsbereichs laufen lasst.

18

(Figur 1)

In Figur 1 haben wir einen solchen Graphen. Wie wir sehen, benotigen wir drei Dimensio-

nen, x, y und z, um ihn zeichnen zu konnen. Um die Punkte auf der Flache zu bekommen,

nimmt man immer einen x−Wert, einen y−Wert, setzt diese in die Funktionsvorschrift ein

und erhalt den Funktionswert z = f(x, y). Also ganz wie in den Beispielen 2.3 von oben.

Fuhrt man die Berechnungen genauso fur alle moglichen Argumente durch und tragt man

das Ergebnis jeweils auf der dritten Achse sein, erhalt man den Graphen.

Graphen lassen sich im allgemeinen nur von Computerprogrammen gut zeichnen. Bes-

ser zeichnen - zumindest bei zwei Variablen - lasst sich eine solche Funktion, wenn wir

nur ihre Isohohenlinien betrachten. (Iso: griech.: gleich.) Die Isohohenlinien sind ein

ziemlich wichtiges Konzept, wir werden viel mit ihnen arbeiten. Außerdem hat man das

Gefuhl, dass einige VWL-Veranstaltungen eigentlich nur aus Isohohenlinien bestehen.

Worum geht es? Bei Isohohenlinien handelt es sich um all die (x, y)− Werte, die jeweils

den gleichen (daher der Name) Funktionswert f(x, y) = c ergeben. Wir werden auch

oft sagen: es handelt sich um all die (x, y)−Werte, die dasselbe Niveau f(x, y) = c erge-

ben. Da es sich um bei einer Hohenlinie nur um die (x, y)−Werte handelt, konnen wir

eine Hohenlinie schon in der zweidimensionalen Ebene darstellen und konnen auf kom-

plexe dreidimensionale Graphen verzichten. Der Trick ist also, auf eine Dimension zu

verzichten und nur die Hohenlinien in der Ebene zu betrachten. Wir konnen daher ein

einfaches (x, y)−Koordinatensystem verwenden, um die Isohohenlinien darin zu zeichnen.

Isohohenlinien stellen also eine Projektion des dreidimensionalen Graphen von f auf die

zweidimensionale (x, y)-Ebene dar. Im folgenden werden wir uns meist das “Iso“ sparen

und nur von Hohenlinien sprechen.

Auf einer Wetterkarte heißen die Isohohenlinien Isobaren und stellen Orte mit gleichem

Luftdruck dar. In der Mikrookonomie, einem Gebiet der Volkswirtschaftslehre, heißen

sie Indifferenzkurven und stellen Orte mit den Guterbundeln dar, die denselben Nutzen

stiften.

(Figuren 2 und 3)

Die Figuren 2 und 2 zeigen solche Hohenlinien zusammen mit den entsprechenden Funk-

tionen. Naturlich mussen Hohenlinien nicht immer “dunne“Linien sein, man kann ja auch

ganze Flachen mit der gleichen Hohe haben. Bei uns wird es sich aber eigentlich immer

um “dunne“ Linien handeln.

Nun folgt nochmals eine Definition einer Isohohenlinie in Worten. Doch zuvor noch kurz

19

eine Bezeichnung. Sei M eine beliebige Menge. Dann wird die Menge aller x aus M , die

die Eigenschaft e besitzen, so bezeichnet:

{x ∈ M : x hat die Eigenschaft e}.

Definition 2.3 (Isohohenlinien). Sei f eine Funktion von x und y. Dann heißt

{(x, y) ∈ R2 : f(x, y) = c}

Isohohenlinie von f zu f(x, y) = c.

Wenn Ihnen diese etwas formale Definition nicht gefallt, konnen Sie es sich auch so merken:

Eine Isohohenlinie ist der geometrische Ort aller (x, y)−Kombinationen, die denselben

Funktionswert c ergeben.

Entlang einer Hohenlinie gilt also f(x, y) = c. Fur einen anderen Funktionswert, z.B. den

Funktionswert d wurde dann f(x, y) = d gelten und eine Hohenlinie bestunde aus allen

(x, y)− Kombinationen, bzw. aus allen Punkten (x, y), die den Funktionswert f(x, y) = d

ergeben. Wie kann man sich die Konstruktion einer Hohenlinie vorstellen? Man nimmt,

fur f(x, y) = c, alle Punkte (x, y) die exakt c ergeben und projiziert sie auf die xy−Ebene. Etwas konkreter und anschaulicher kann man vorgehen, wenn wir die Gleichung

fur unsere Hohenlinie explizit ausrechnen konnen. Darum geht es im nachsten Schritt.

2.3 Hohenlinien: Berechnen und Zeichnen

Entlang einer Hohenlinie gilt f(x, y) = c. Wenn man diese Gleichung nach y losen kann,

erhalt man y explizit als eine Funktion von x. Leider wird das nicht immer moglich sein,

aber in einer großen Zahl von Fallen geht es eben doch. Die Funktion, die wir erhalten

ist eine Gleichung fur unsere gesuchte Hohenlinie. Da wir dann eine Funktion mit y als

Funktionswert und x als Argument bzw. als Variable haben, konnen wir mit ihr (fast)

alles anstellen, was wir aus der Schule (noch) uber Funktionen einer Variablen wissen.

Insbesondere konnen wir diese Funktion zeichnen und ableiten (und damit ihre Steigung

bestimmen). Wir erinnern wir uns namlich daran, dass die Ableitung einer Funktion einer

Variablen x an einer Stelle x0 naherungsweise die Steigung der Funktion an dieser Stelle

misst. Spater in der Vorlesung werden wir sehr an Steigungen von Hohenlinien interessiert

sein.

Beispiele 2.4. (i) Sei f(x, y) = xy. Wir wollen eine Gleichung fur die Hohenlinie

bestimmen, die die Funktion f(x, y) = xy fur den Funktionswert c = 10 darstellt.

20

Wir losen also die Gleichung

xy = 10

nach y und bekommen

y = 10/x

fur alle x 6= 0 als Gleichung fur die gesuchte Hohenlinie. Suchten wir eine Hohenlinie

zum Niveau c = 35, hatten wir y = 35/x fur alle x 6= 0.

(ii) Sei f(x, y) = ex+y und c = 1. Wir bestimmen die Gleichung fur die Hohenlinie, wir

losen also

ex+y = 1

nach y. Wir bekommen, durch Logarithmieren,

y = −x

als gesuchte Gleichung.

(iii) Sei f(x, y) = x2 + y2 mit x, y ≥ 0. Wir suchen eine Gleichung fur alle Niveaus

c > 0, losen also

x2 + y2 = c

nach y. Hier bekommt man

y =√

c− x2

und es sollte x ≤ √c gelten.

(iv) Sei f(x, y) = exy2−2x−4y. Hier wird es Ihnen schwer fallen, die Gleichung f(x, y) =

c explizit nach y aufzulosen.

Hat man die Gleichung einer Hohenlinie explizit berechnet, kann man sie dann auch

zeichnen; schließlich haben wir ja dann immer recht einfache Funktionen, in denen y von

x abhangt.

Zwei letzte Bemerkungen noch: das Auflosen nach y ist hier lediglich als eine Art “Kon-

vention“ zu verstehen. Man kann die Gleichung f(x, y) = c naturlich auch nach x auflosen.

Und naturlich haben wir auch noch nicht geklart, was denn passiert, wenn wir einen Fall

wie in (iv) in den letzten Beispielen haben: hier kann man nicht explizit nach y (oder x)

auflosen. Wir werden spater einen weiteren Trick kennen lernen, um auch in diesem Fall

einiges uber die entsprechenden Hohenlinien aussagen zu konnen.

21

22

Kapitel 3

Partielle Ableitungen, Totales

Differential und die Kettenregel

3.1 Partielle Ableitungen

Fur eine Funktion f einer Variablen x misst die Ableitung f ′(x) die Anderungsrate, also

um wieviel sich f(x) (ungefahr) andert, wenn x sich andert. Man sollte sich nochmals

klar machen, warum die Ableitung nur die ungefahre Anderung misst. Dafur allerdings

ist sie hervorragend geeignet. Im folgenden nehmen wir außerdem immer an, dass wir

alles auch ableiten durfen, was wir ableiten wollen. Das mag etwas mysthisch klingen,

aber leider kann man Ableitungen nicht immer bilden. Eine wichtige Voraussetzung ist,

dass die Funktion stetig ist, also keine Sprungstellen aufweist. Wir werden spater auf

diesen Punkt zuruckkommen und verhalten uns momentan so, als gabe es damit keine

weiteren Probleme.

Zur Notation: wir kennen die Schreibweise f ′(x) fur die Ableitung einer Funktion f mit

einer Variablen x. Wir werden manchmal auch statt f ′(x) die Notation

df(x)

dx

verwenden. Diese Bruchschreibweise hat zwei Interpretationen:

1. Die erste Interpretation ist eigentlich gar keine richtige Interpretation. Die Bruch-

schreibweise ist dann also nur eine andere Schreibweise fur die Ableitung.

2. Wir konnen aber die Schreibweise df/dx auch wie einen echten Quotienten inter-

pretieren. Das bedeutet dann, dass wir hier df im Verhaltnis zu dx betrachten. Das

23

d wiederum steht dann fur Differenz bzw. Anderung. Dann bedeutet df/dx nichts

weiter als

Anderung im Funktionswert

Anderung im Argument.

Hier ist also eine Schreibweise, die zwei Anderungen ins Verhaltnis setzt. Wir werden

sehen, dass diese Interpretation ganz praktisch sein kann.

Sei also z.B. f(x, y) = ln(x3) · y + 2y2. Wir wollen wissen, wie sich f andert, wenn ich x

oder y andere. Der Trick ist nun folgender: ich weiß ja, wie ich Funktionen einer Variablen

ableiten muss. Also betrachte ich die Variable (z.B. y), die mich nicht interessiert, als

Konstante und bilde die Ableitungen nach der Variablen, die mich interessiert. Betrachte

ich y als Konstante und leite nach x ab, bekomme ich

df(x, y)

dx=

1

x33x2 · y + 0 =

3y

x.

Und ebenso erhalt man

df(x, y)

dy= ln(x3) + 4y.

Da wir nur einen Teil der Variablen betrachten und die andere Variable konstant halten,

nennt man die Ableitungen bei Funktionen mehrerer Variablen partielle Ableitungen.

Man schreibt fur solche Ableitungen ∂ anstatt d (um zu verdeutlichen, dass wir nach

einer Variablen ableiten).

Definition 3.1 (Partielle Ableitung). Sei f eine Funktion von zwei Variablen x und

y. Dann bezeichne

∂f(x0, y0)

∂x

die partielle Ableitung von f nach x am Punkt (x0, y0). Die partielle Ableitung sagt uns,

wie sich f andert, wenn sich x “ein bisschen“ andert.

Fur die partiellen Ableitungen selbst gelten die Rechenregeln fur Ableitungen bei Funk-

tionen mit einer Variablen: Kettenregel, Produktregel, Quotientenregel etc. Spatestens

zu diesem Zeitpunkt sollten Sie auch wieder richtig fit in diesen Regeln sein; es ist klar,

dass Funktionen von zwei Variablen schon etwas komplexer sein konnen als Funktionen

einer Variablen. Wenn man dann schon mit den Ableitungsregeln bei Funktionen einer

Variablen Probleme hat, wird es schnell ziemlich unangenehm.

24

Man nennt die Liste der partiellen Ableitungen an einer Stelle (x, y) auch den Gradienten

von f an der Stelle (x, y). Der Gradient wird durch das Symbol ∇ bezeichnet:

∇f(x, y) =

(∂f(x,y)

∂x∂f(x,y)

∂y

)

Der Gradient ist ubrigens keine Zahl oder so etwas, sondern ein Vektor.

Manchmal findet man fur die partiellen Ableitungen auch die Notation

f ′1(x, y) oder fx(x, y)

und

f ′2(x, y) oder fy(x, y).

Es folgen weitere Beispiele fur partielle Ableitungen.

Beispiele 3.1. (i) Die Cobb-Douglas-Funktion:

f(x, y) = xαyβ.

fur positive Parameter α, β. Dann lauten die partiellen Ableitungen

∂f(x, y)

∂x= αxα−1yβ

∂f(x, y)

∂y= βxαyβ−1

Die Cobb-Douglas-Funktion hat ihren Namen von ihren Entdeckern Cobb und Douglas.

Diese stellten fest, dass sich die Produktion in bestimmten Industrien ziemlich gut durch

eine solche Funktion beschreiben lasst. Die Variablen x und y sind dann Inputs, z.B. Ar-

beitsstunden und Maschinenstunden, der Funktionswert f(x, y) gibt den damit erzielten

Output wieder. Im Original hat die Cobb-Douglas-Funktion allerdings noch einige Varia-

blen mehr....Sie wird in der Mikrookonomie sehr, sehr oft verwendet.

(ii) Sei f(x, y) = exyx + x2. Dann ist

∂f(x, y)

∂x= exy + xexyy + 2x

Sie haben sicher gemerkt, dass hier die Produktregel zum Einsatz kam. Wie lautet die

partielle Ableitung nach y?

25

(iii) Sei f(x, y) = 3x− x2 + 4y − y2 − 12xy

Dann sind

∂f(x, y)

∂x= 3− 2x− 1

2y

und

∂f(x, y)

∂y= 4− 2y − 1

2x.

(iv) Sei f(x, y) = ln(x + yx2)− 4x.

Dann haben wir

∂f(x, y)

∂x=

1

x + yx2· (1 + 2xy)− 4.

Hier benotigen wir die Kettenregel. Wir bilden zunachst die aussere Ableitung der ln-

Funktion. Das Ergebnis, 1/(x + yx2), multiplizieren wir dann mit der inneren partiellen

Ableitung nach x, das ist 1 + 2xy. Der Rest ist klar.

(iv) Sei f(x, y) = g(x + yx2) − 4x, wobei g eine weitere Funktion von x und y, genauer

von x + yx2, ist.

Dann haben wir

∂f(x, y)

∂x= g′(x + yx2) · (1 + 2xy)− 4.

Auch hier benotigen wir die Kettenregel. Wir bilden zunachst die aussere Ableitung der

Funktion g. Da wir uber die Funktion g sonst nichts weiter wissen, ist hier die Ableitung

einfach g′. Das wird dann wieder mit der inneren Ableitung multipliziert.

Wie bei Funktionen einer Variablen haben wir auch hier eine graphische Interpretation:

die partielle Ableitung fx(x, y) entspricht der Steigung der Tangenten an einem Punkt

der Kurve, die man bekommt, wenn man y festhalt und nur noch die x−Werte variiert.

Man bekommt also das graphische Analog zur Rechnung: eine Variable wird festgehalten

und dadurch ist man wieder in der Welt der Funktionen einer Variablen.

(Figur 4)

Partielle Ableitungen als Approximationen

Wozu sind partielle Ableitungen gut? Nun, man kann, wie bei Funktionen einer Variablen,

Abschatzungen von Anderungen vornehmen. Betrachten wir eine Funktion z = f(x, y) an

26

einem beliebigen, aber festen Punkt (x, y) und sei ∆ das Symbol fur eine tatsachliche

Anderung, also z.B. andert sich x um ∆ = 3.8. Dann gilt zweifellos

∆z = f(x + ∆x, y)− f(x, y).

Denn hier steht: Anderung im Funktionswert=Funktionswert ausgewertet an der neuen

Stelle minus Funktionswert an der alten Stelle.

Die Idee ist nun, die exakte Anderung auf der rechten Seite dieser Gleichung durch die

partielle Ableitung zu ersetzen, also

f(x + ∆x, y)− f(x, y) ≈ ∂f(x, y)

∂x∆x. (3.1)

Hier bedeutet ≈, dass es sich um eine gute Annaherung handelt. Denn eine Ableitung gibt

ja nicht die exakte Anderung wieder, sondern ist nur eine sehr, sehr gute Annaherung.

Die “Gleichung“ (3.1) besagt somit letztlich, dass die Anderung im Funktionswert sich

ergibt aus der Anderung in x, ∆x, multipliziert mit dem Effekt, den diese Anderung auf

den Funktionswert hat (das ist die partielle Ableitung ∂f(x,y)∂x

).

Wir sind mit dieser Annaherung auch schon sehr zufrieden, also ersetzen wir das ≈ durch

das viel angenehmere = und schreiben

∆z =∂f(x, y)

∂x∆x

Wenn wir mit solchen Approximationen arbeiten, werden wir statt ∆z die Notation dz

schreiben. Wir ersetzen also die tatsachliche Anderung ∆z durch die approximative Ande-

rung dz und verwenden auch auf der rechten Seite die Notation dx. Das ergibt dann:

dz = df(x, y) =∂f(x, y)

∂xdx (3.2)

oder eben

f(x + dx, y) = f(x, y) +∂f(x, y)

∂xdx (3.3)

Der Ausdruck in Gleichung (3.3) bedeutet also naherungsweise: Neuer Funktionswert

= alter Funktionswert + Anderung in x mal dem Effekt, den diese Anderung auf den

Funktionswert hat.

Der Ausdruck

∂f(x, y)

∂xdx

hat einen besondere Namen und wir kommen zu nachsten

27

Definition 3.2 (Differential). Der Ausdruck

∂f(x0, y0)

∂xdx

heißt Differential am Punkt (x0, y0).

Wie gut ist die Approximation mittels eines Differentials?

Beispiele 3.2. Sei f(x, y) = 4x2 + 5y. Wir starten an der Stelle (10,10). Dort haben

wir f(10, 10) = 450. Nun wollen wir wissen, wie sich der Funktionswert andert, wenn

sich x um 0.5 andert, also ∆x = 0.5. Ohne Differential haben wir f(10.5, 10) = 491, also

∆f = 41. Diese Zahl bekommt man durch Einsetzen von x = 10.5 und y = 10 in die

Funktionsvorschrift.

Mit dem Differential ergibt sich

df(10, 10) =∂f(10, 10)

∂x· dx = 8 · 10 · 0.5 = 40,

da wir x an der Stelle 10 betrachten. Unsere nahrungsweise Anderung, df = 40, liegt also

ziemlich nahe an der tatsachlichen Anderung, ∆f = 41. Man kann sich davon uberzeugen,

dass die Naherung umso besser wird, je kleiner man die Anderungsschritte wahlt.

Ableitungen hoherer Ordnungen

Eine partielle Ableitung ist im Allgemeinen wieder eine Funktion von zwei Variablen.

Dann konnen wir aber z.B. fx(x, y) wiederum nach x oder y ableiten. Ebenso konnen wir

fy(x, y) wiederum nach x oder y ableiten. Wir erhalten somit vier zweite Ableitungen.

Auch hierfur gibt es wieder eine Notation. Zum Beispiel schreibt man meist fur die zweite

Ableitung, die man erhalt, wenn man f zweimal nach x ableiten

∂2f(x, y)

∂x2.

Die Hochzahlen sind hier nicht wortlich zu nehmen, sie bedeuten hier lediglich, dass es sich

um die zweite Ableitung handelt, wobei zweimal nach x abgeleitet wird. Wir verwenden

meist eine andere Schreibweise fur diese zweite Ableitung und schreiben fxx(x, y). Das

bedeutet: wir leiten zweimal nach dem ersten Argument, x, ab.

Fur die zweite Ableitung, die man erhalt, wenn man erst nach x und dann nach y ableitet,

schreibt man

∂2f(x, y)

∂x∂y.

28

Hier ware die andere Schreibweise fxy(x, y). Diese zweite Ableitung nennt man auch oft

die Kreuzableitung.

Haufig fasst man die zweiten Ableitungen in einer Matrix zusammen und nennt diese die

Hesse Matrix Hf(x, y).

Definition 3.3 (Hesse-Matrix). Wir nennen

Hf(x, y) =

(∂2f(x,y)

∂x2

∂2f(x,y)∂x∂y

∂2f(x,y)∂y∂x

∂2f(x,y)∂y2

)

die Hesse Matrix von f an der Stelle (x, y). Manchmal schreiben wie auch einfach nur H

fur die Hesse-Matrix.

In unserer anderen Schreibweise ware das

H =

(fxx(x, y) fxy(x, y)

fyx(x, y) fyy(x, y)

).

Beispiele 3.3. (i) Sei f(x, y) = 3x− x2 + 4y − y2 − 12xy. Die ersten Ableitungen sind

∂f(x, y)

∂x= 3− 2x− 1

2y

und

∂f(x, y)

∂y= 4− 2y − 1

2x.

Um die Hesse Matrix der zweiten Ableitungen zu bilden, leiten wir also jede dieser parti-

ellen ersten Ableitungen nochmals partiell nach x und y ab und erhalten

H =

(−2 −1

2

−12−2

).

(ii) Sei f(x, y) = xay fur a > 0. Dann ist die Hesse-Matrix gegeben durch

H =

(a(a− 1)xa−2y axa−1

axa−1 0

).

Der aufmerksame Betrachter (und naturlich auch die aufmerksame Betrachterin) dieser

Beispiele stellt folgendes fest: die Matrix der zweiten Ableitungen ist symmetrisch in dem

Sinne, daß die Elemente der Matrix neben der Hauptdiagonalen gleich sind. Mit anderen

Worten: es scheint zu gelten, dass

∂2f(x, y)

∂x∂y=

∂2f(x, y)

∂y∂x.

29

Die Kreuzableitungen scheinen also gleich zu sein, das bedeutet insbesondere, dass ich

beim Rechnen nur drei zweite Ableitungen bilden muss. Die Frage ist nun naturlich:

wie allgemein ist diese Beobachtung? Die Antwort ist sehr ermutigend, wie die folgende

Behauptung zeigt

Satz 3.1 (Vertauschungssatz). Fur fast alle Funktionen f(x, y) gilt

∂2f(x, y)

∂x∂y=

∂2f(x, y)

∂y∂x.

fur alle (x, y) ∈ D.

Das war also die erste, richtige Behauptung in dieser Vorlesung. Man nennt solche Be-

hauptungen auch Satz oder auch Proposition. Mathematisch exakt formulierte Behaup-

tungen sehen allerdings etwas anders aus als die obige. Sie enthalten so gut wie immer

irgendwelche Voraussetzungen oder Bedingungen unter denen die Behauptung gilt. Dazu

kommt noch das Argument, warum die Behauptung gilt. Das ist dann der Beweis der

Behauptung.

Im obigen Satz ware insbesondere zu prazisieren, was “fast alle“ bedeutet. Fur uns be-

deutet es einfach: bei allen Funktionen, die wir in dieser Vorlesung (und naturlich auch

in der Klausur...) sehen werden, gilt diese Behauptung.

Wir werden hier einige Behauptungen uns Satze etwas praziser formulieren, andere weni-

ger. Bei einigen Behauptungen wird auch wichtig sein, dass Sie auch wirklich das Argu-

ment (den Beweis) verstanden haben, warum die Behauptung gilt. Bei anderen Behaup-

tungen - und dazu gehort der Vertauschungssatz - genugt es, das Ergebnis anwenden zu

konnen.

3.2 Das Totale Differential

Mit der partiellen Ableitung konnen wir die Frage beantworten: wie andert sich der Funk-

tionswert, wenn sich x oder y ein kleines bisschen andern?

Nun stellen wir folgende Frage: wie andert sich der Funktionswert von f , wenn wir x und

y andern? Wir kennen ja schon den Begriff des Differentials. Das war der Ausdruck

∂f(x, y)

∂xdx

Damit konnen wir ja Anderungen naherungsweise bestimmen, also

df(x, y) =∂f(x, y)

∂xdx.

30

Das Totale Differential ist nun einfach eine Erweiterung des Differentials. Wir werden

sehen, dass die naherungsweise Anderung bei einer Funktion von zwei Variablen die Sum-

me der beiden partiellen Ableitungen ist, multipliziert mit der jeweiligen Anderung. Ich

werde das Totale Differential definieren, dann gibt es ein Beispiel und dann folgt noch

eine Erklarung, warum wir eine Summe von partiellen Ableitungen betrachten. Das ist ja

nicht so klar, man konnte ja auch das Produkt betrachten.

Definition 3.4 (Totales Differential). Das Totale Differential (manchmal auch nur:

Differential) von f am Punkt (x0, y0) lautet

df(x0, y0) =∂f(x0, y0)

∂xdx +

∂f(x0, y0)

∂ydy.

Die Anderung in f ergibt sich daher aus der Summe der Differentiale: einmal haben wir

die Anderung in x (also dx) mal dem Effekt, den diese Anderung hat (also die partielle

Ableitung nach x). Dazu addieren wir die Anderung in y (also dy) mal dem Effekt, den

diese Anderung hat (also die partielle Ableitung nach y). Außerdem ist zu beachten, dass

wir diese ganze Operation an einem bestimmten Punkt (x0, y0) durchfuhren.

Beispiele 3.4. Sei f(x, y) = 4x2 + 5y. Wir starten an der Stelle (10,10). Dort haben wir

f(10, 10) = 450. Nun wollen wir wissen, wie sich der Funktionswert andert, wenn sich x

und y um 0.5 andern, also ∆x = ∆y = 0.5. Ohne Differential haben wir f(10.5, 10.5) =

493.5, also ∆f = 43.5.

Das Totale Differential:

df(10, 10) =∂f(10, 10)

∂x· dx +

∂f(10, 10)

∂y· dy = 8 · 10 · 0.5 + 5 · 0.5 = 42.5,

da wir x und y an der Stelle 10 betrachten. Unsere naherungsweise Anderung, df = 42.5,

liegt ziemlich nahe an der tatsachlichen Anderung, ∆f = 43.5. Man kann sich davon

uberzeugen, dass die Naherung umso besser wird, je kleiner man die Anderungsschritte

wahlt.

Warum nun betrachtet man die Summe der partiellen Ableitungen? Dieser Abschnitt wird

nun vielleicht etwas kompliziert, er braucht auch ein kleines bisschen Vektorrechnung und

Lineare Algebra. Aber das sollte zu schaffen sein.

Wir uberlegen uns zunachst, wie man sich das Totale Differential graphisch vorzustellen

hat. Bei einer Funktion einer Variablen sieht das doch so aus: die Ableitung entspricht der

Steigung der Tangenten an einer bestimmten Stelle der Funktion. Wir approximieren hier

also die wahre Steigung einer moglicherweise gekrummten Funktion durch die Steigung

31

einer Geraden. Bei Funktionen von zwei Variablen entspricht das Totale Differential der

Steigung einer Tangentialebene an einer bestimmten Stelle der Funktion. Die Ebene

kommt eben daher, dass wir bei Funktionen von zwei Variablen eine Dimension mehr

haben. Also approximieren wir nicht mehr mit einer Geraden, sondern mit einer Ebenen.

Und genau daher kommt die Summe in der Definition. Denn wenn wir eine Ebene im

Raum R3 darstellen wollen, lautet die Parameter-Form einer solchen Ebene

z = P + s · u + t · v.

Hierbei handelt es sich zweifellos um eine Summe. Dabei ist z ∈ R3 ein Punkt auf der

Ebene, P ist ein Punkt und u, v Vektoren in R3 und s, t ∈ R. Die Vektoren u und v sind

linear unabhangig, d.h. sie zeigen in verschiedene Richtungen. Alle Linearkombinationen

von u und v liegen auf unserer Ebene.

Zusatzlich betrachten wir das Totale Differential:

f(x0 + ∆x, y0 + ∆y) = f(x0, y0) +∂f

∂x(x0, y0)∆x +

∂f

∂y(x0, y0)∆y. (3.4)

Wie passen nun die Gleichung (3.4) und die obige Parameter-Form einer Ebene zusam-

men? Nun, wir konnen die Ebene parametrisieren durch

z = ((x0, y0, f(x0, y0)) + s(1, 0,∂f

∂x(x0, y0)) + t(0, 1,

∂f

∂x(x0, y0))

Das ergibt nach den Rechenregeln der Vektoraddition

z = (x0 + s, y0 + t, f(x0, y0) +∂f

∂x(x0, y0)s +

∂f

∂x(x0, y0)t)

Schreibt man nun ∆x fur s und ∆y fur t, sehen wir, dass die rechte Seite von (3.4) genau

der Parameter-Form einer Ebene entspricht und dass daher die Gleichung (3.4) der ana-

lytische Ausdruck fur die Tatsache ist, dass die Tangentialebene eine gute Approximation

des wahren Graphen der Funktion ist.

Es wird auch deutlich, wie die Richtungsvektoren unserer Ebene durch die partiellen

Ableitungen bestimmt werden: in der Tat zeigen ja Ableitungen ungefahr an, wie sich

ein Funktionswert andert, wenn ich an einer Variablen drehe. Hier habe ich sozusagen

zwei Moglichkeiten oder Richtungen, in die ich gehen kann: einmal in die x− Richtung

und einmal in die y −Richtung. Die Richtung wird mir durch die partiellen Ableitungen

angegeben.

Naturlich kann man eine Ebene im Raum R3 auch durch eine nicht-parametrisierte Glei-

chung darstellen. Hier arbeitet man nicht mit Linearkombinationen, sondern wendet die

Tatsache an, dass eine Ebene im R3 vollstandig bestimmt ist durch einen Punkt auf der

Ebene und die Steigungen der Ebene in die x− bzw. in die y−Richtung. Auch hier kann

man die Verbindung zum Totalen Differential gut aufzeigen.

32

3.3 Die Kettenregel

Wie lautete nochmal die Kettenregel bei Funktionen einer Variablen? Außere Ableitung

mal innere Ableitung! Ist x eine Funktion von t ∈ R und f eine Funktion von x, dann ist

df(x)

dt=

df(x(t))

dt= f ′(x(t))x′(t).

Nehmen wir nun an, dass z eine Funktion von x und y ist mit z = f(x, y). Ausserdem

hangen beide Variablen y und x von einer Variablen t ab. Wir haben also

z = f(x(t), y(t)).

Dann gilt die Kettenregel:

dz

dt= fx(x, y)

dx

dt+ fy(x, y)

dy

dt.

Auch hier gilt also jeweils: aussere Ableitung (die partielle Ableitung) mal innere Ablei-

tung (dx/dt bzw. dy/dt ).

Beispiele 3.5. Sei f(x, y) = Ax2 + By mit x = ln t und y =√

t fur A,B, t > 0. Wir

wollen dz/dt bestimmen. Mit Hilfe der Kettenregel bekommen wir

dz

dt= 2Ax · 1

t+ B · 1

2√

t.

Ersetzt man die Funktionen fur x bzw. y, bekommt man

dz

dt= 2A ln t · 1

t+ B · 1

2√

t.

Wurde man die Ausdrucke fur x und y direkt einsetzen, hatten wir die Funktion

f(t) = A(ln t)2 + B√

t.

Bilden wir nun df/dt, stellen wir fest, dass wir denselben Ausdruck wie oben erhalten,

denn wir haben

f ′(t) = 2A(ln t)1

t+

B

2√

t.

Die Kettenregel bietet uns also eine Abkurzung, da wir die Funktion fur x und y nicht

erst einsetzen mussen, um die Ableitung nach t zu bekommen.

33

34

Kapitel 4

Die Steigung von Hohenlinien

Sei f(x, y) = c. Unsere Fragestellung lautet nun: angenommen, y andert sich. Um wie

viel andert sich x, wenn ich dabei auf derselben Hohenlinie mit f(x, y) = c bleibe? Solche

Anderungen kennen wir ja bei Funktionen einer Variablen auch als Steigung einer Funk-

tion, daher wollen wir uns nun uberlegen, wie wir die Steigung einer Hohenlinie ermitteln

konnen.

Bevor es losgeht, hier noch ein Wort der Vorsicht: es geht nicht darum, wie sich der

Funktionswert andert. Es geht also nicht um die Steigung der Funktion selbst. Sowas

berechnet man mittels der partiellen Ableitung bzw. mittels des totalen Differentials. Es

geht vielmehr um die Frage: um wieviel andert sich y, wenn sich x ein kleines bisschen

andert und ich aber auf derselben Hohenlinie mit der Gleichung f(x, y) = c bleibe, ich

also den Funktionswert konstant halte?

Moglichkeit 1: Linie und Steigung explizit ausrechnen

Angenommen, wir konnen die Gleichung f(x, y) = c explizit nach y = y(c, x) losen.

Dann ist die Steigung der Hohenlinie an einem Punkt x durch

dy

dx= y′(x)

gegeben, wobei wir die Ableitung am Punkt c = f(x, y) auswerten mussen.

Die Auswertung am Punkt c = f(x, y) erfolgt, weil die Steigung unserer Funktion im xy−Raum gebildet wird und daher nicht von der dritten Dimension, also dem Funktionswert

c, abhangen sollte. Also mussen wir die explizite Auflosung sozusagen wieder ruckgangig

machen und fur y nach der Ableitung wieder substituieren.

35

Beispiele 4.1. Sei f(x, y) = xy mit xy = 10. Also haben wir

y = 10/x

als Gleichung fur die Hohenlinie. Die Steigung der Hohenlinie an einem Punkt x mit

f(x, y) = xy = 10 ist also durch

dy

dx= −y

x

gegeben. Warum ist das so? Die Ableitung ergibt

y′(x) = −10

x2

Nun setzen wir wieder 10 = yx ein und erhalten obigen Ausdruck. Ist x = 2, betragt die

Steigung −2.5 (y ist dann 5).

Obwohl es schon in der Einleitung dieses Kapitels steht, hier noch einige Bemerkungen zur

Interpretation: eine Ableitung misst im allgemeinen, wie sich der Funktionswert andert,

wenn ich am Argument der Funktion ein bisschen drehe. Genau dasselbe passiert hier:

die Steigung einer Hohenlinie misst, um wie viel sich y andern muss, wenn sich x um

ein kleines bisschen andert und ich nach wie vor auf derselben Hohenlinie bleiben will.

Auch hier - wie bei jeder Ableitung - sollte man sich vergegenwartigen, dass die Ableitung

nichts weiter ist als die Steigung der Tangenten an einem Punkt der Funktion. Daher kann

es durchaus sein, dass wir meistens die wahre Anderung unter- oder uberschatzen. Aber

dieser Schatzfehler ist so klein, dass wir ihn vernachlassigen konnen.

Moglichkeit 2: Totales Differential/Kettenregel

Wie aber soll man vorgehen, wenn wir keine explizite Gleichung haben, weil wir nicht

explizit nach y losen konnen und wir aber dennoch was uber die Steigung aussagen wollen?

Betrachten wir die Gleichung

f(x, y) = exy2 − 2x− 4y = −3.

Diese Gleichung einer Hohenlinie kann ich nicht explizit nach y losen. Aber eigentlich

interessieren wir und ja auch nun nicht so sehr fur die explizite Gleichung der Hohenlinie

als vielmehr fur eine Ableitung dy/dx.

Hier hilft uns das totale Differential

df(x, y) = fx(x, y)dx + fy(x, y)dy.

36

Warum? Das Argument ist eigentlich ziemlich einfach. Denn: entlang einer Hohenli-

nie gilt df = 0. Der Ausdruck df = 0 bedeutet namlich nichts anderes, als dass sich

der Funktionswert nicht andert. Aber genau das ist ja auf einer gegebenen Isohohenlinie

der Fall. Schließlich ist die Hohenlinie der geometrische Ort aller Punkte, die denselben

Funktionswert ergeben, so dass sich f nicht andert. Also haben wir, auf einer Hohenlinie,

df(x, y) = 0 = fx(x, y)dx + fy(x, y)dy

oder

dy

dx= −fx(x, y)

fy(x, y),

fur fy(x, y) 6= 0.

Wenden wir das auf unser erstes Beispiel dieses Abschnitts mit f(x, y) = xy an.

Wir haben

dy

dx= −fx(x, y)

fy(x, y)= −y

x,

was auch exakt unserer Losung von oben entspricht.

Fur das kompliziertere Beispiel, bei dem wir nicht explizit auflosen konnen, bekommen

wir

dy

dx= − y2exy2 − 2

2xyexy2 − 4

fur 2xyexy2 − 4 6= 0. Wollen wir beispielsweise die Steigung am Punkt (0, 1) bestimmen,

dann ware die Steigung −1/4.

Dieser Zusammenhang ist uns so wichtig, dass wir ihn nochmals als einen Satz formulieren.

Satz 4.1 (Steigung Isohohenlinie). Die Steigung einer Isohohenlinie einer Funktion

f(x, y) an einer Stelle (x0, y0) ist durch

dy

dx= −fx(x0, y0)

fy(x0, y0)

gegeben, wobei fy(x0, y0) 6= 0.

Man beachte hier, wie bei jeder Ableitung, dass Ableitungen punktweise definiert sind:

ich nehme also einen ganz bestimmten Punkt (x0, y0) und betrachte dort die Ableitung

bzw. Steigung der Hohenlinie.

Hier nochmals ein paar Beispiele.

37

Beispiele 4.2. (i) Gegeben sei die Funktion f(x, y) =√

xy mit x, y > 0. Wir sollen die

Steigung einer Hohenlinie fur f(x, y) = c im Punkt (x, y) = (a, b) berechnen. Mittels des

totalen Differentials bekommen wir zuerst

dy

dx= −

y2√

xy

x2√

xy

= −y

x.

Ausgewertet am Punkt (a, b) haben wir

dy

dx= − b

a.

(ii) Gegeben sei die Funktion f(w, e) =√

w − eθ

fur w, e ≥ 0. Der Parameter θ ∈ R sei

ebenfalls positiv, also θ > 0.

Die Steigung einer Hohenlinie ist also durch

dw

de= − −

12√

w

gegeben. Das kann man noch umformen und man bekommt

dw

de=

2√

w

θ.

Dieses Beispiel zeigt uns zweierlei. Erstens: es gibt naturlich auch Hohenlinien mit posi-

tiven Steigungen. Zweitens: die Variablen heißen nicht immer x und/oder y.

Man kann die Aussage von Satz 4.1 auch anders erhalten. Wir starten wieder mit (f(x, y) =

c. Wenn wir das auflosen konnten bzw. durften, konnten wir das ja auch als f(x, y(x)) = c

schreiben. Nun differenzieren wir mit Hilde der Kettenregel beide Seiten nach x und er-

halten

fx(x, y(x)) · 1 + fy(x, y(x))y′(x) = 0.

Wir haben jeweils außere Ableitung mal innere Ableitung und da wir ja hier die außeren

Ableitungen nach beiden Argumenten x und y bilden steht hier - wie beim totalen Diffe-

rential - die Summe. Den erhaltenen Ausdruck formen wir nun weiter um bzw. losen ihn

nach y′(x) auf. Man bekommt

y′(x) =dy

dx= −fx(x, y(x)

fy(x, y(x).

Nun stellen wir noch fest, dass wir die Auflosbarkeit nach x ja nur angenommen haben

und schreiben wieder y statt y(x) und bekommen wieder

dy

dx= −fx(x, y(x)

fy(x, y(x).

Als nachstes werden wir das Problem der Steigungen von Hohenlinien noch etwas anders

betrachten. Dazu werden wir den Begriff der impliziten Funktion einfuhren.

38

Implizite Funktionen

Hier wollen wir kurz etwas ausholen und ein kleines bisschen mathematischer werden.

Was passiert hier eigentlich genau? Das totale Differential hilft uns genau dann, wenn wir

eine Gleichung f(x, y) = c nicht explizit nach y losen konnen. Indem wir aber das totale

Differential anwenden, tun wir so, als gabe es einen solchen Funktionszusammenhang

y = y(x), denn schließlich bilden wir ja auch eine Ableitung dy/dx. Also: wenn wir

explizit auflosen konnen, machen wir das und bilden erst dann die Ableitung. Wenn wir

nicht auflosen konnen, vertauschen wir sozusagen die Reihenfolge und bilden die Ableitung

zuerst (mittels des totalen Differentials) und fragen uns nicht wirklich, ob es uberhaupt

eine explizite Funktion y = y(x) gibt. Wir wollen nun untersuchen, wie diese beiden

Fragen zusammenhangen:

1. Gegeben eine Gleichung f(x, y) = c, gibt es eine explizite Losung y = y(x)?

2. Wie steht es mit der Ableitung dy/dx?

Betrachten wir dazu ein weiteres Beispiel mit

f(x, y) = x2 + y2 = 1 (4.1)

Das ist eine Funktion der Form f(x, y) = c. Man nennt solche Funktionen auch implizite

Funktionen. Das sind Funktionen, bei denen beide Variablen x und y auf derselben

Seite einer Gleichung stehen. Wir sagen dann, dass y implizit als Funktion von x definiert

ist. Bei expliziten Funktionen steht das y auf der einen Seite der Gleichung, das x auf

der anderen Seite. Wir stellen naturlich sofort fest, dass die Definition fur Hohenlinien y

immer als implizite Funktion von x definiert, denn entlang einer Hohenlinie gilt ja

f(x, y) = c

Die Variablen x und y stehen auf der selben Seite der Gleichung, also haben wir bei

Hohenlinien immer eine implizite Funktion.

Frage: existiert nun immer eine Funktion y = y(x)? Das ist der erste Teil der obigen

Frage. Losen wir obige Gleichung nach y auf, bekommen wir

y = ±√

1− x2

Hier kann ich zwar nach y auflosen, habe aber keine eindeutige Auflosung, da sowohl

die positive wie auch die negative Wurzel Teilauflosungen sind. Das ist aber ein gewisses

Problem, da ich dann ja nicht mehr y als Funktion von x habe. Die Tatsache, dass wir

39

eine implizite Funktion wie (4.1) hinschreiben konnen, bedeutet also noch nicht, dass

wir damit y auch automatisch als eine Funktion von x definieren konnen. Damit das

so ist, musste man ja jedem x genau ein y zuordnen konnen, das ist ja die Definition

einer Funktion. Fur x > 1 gibt es aber kein y, welches (4.1) erfullt. Wenn wir aber einen

bestimmten Punkt nehmen, z.B. (x, y) = (0, 1) und drehen dann ein bisschen an x, dann

gibt es ein eindeutiges y, das die Gleichung erfullt und zum “neuen“ x passt. Wenn wir

jedoch den Punkt (x, y) = (1, 0) betrachten, dann klappt das nicht so gut. Links davon,

also an Stellen x = 1− ε mit ε klein, aber strikt positiv, habe ich zwei Losungen. Rechts

davon habe ich gar keine Losung mehr. Es scheint also so zu sein, dass manchmal eine

Auflosung nach y zumindest lokal, das bedeutet: an einer bestimmten Stelle, moglich ist.

Betrachten wir nun den zweiten Teil unserer Frage. Am Punkt (x, y) = (0, 1) konnen wir

dy

dx(0, 1) = −fx(0, 1)

fy(0, 1)=

0

2= 0

bilden. Das klappt insbesondere, weil fy(0, 1) = 2 6= 0. Und an diesem Punkt (0, 1) haben

wir ja auch gesehen, dass y = y(x) wohldefiniert ist. Am Punkt (1, 0) hingegen haben wir

dy

dx(1, 0) = −2

0.

Das ist nicht definiert und genau an diesem Punkt (1, 0) konnten wir y auch nicht als

Funktion von x definieren.

Es scheint also so, als wurden die Antworten auf unsere beiden Fragen zusammenhangen.

Wenn wir die Ableitung dy/dx an einem bestimmten Punkt (x0, y0) bilden konnen, dann

existiert an diesem Punkt auch eine Funktion y0 = y(x0), auch wenn wir diese nicht exakt

hinschreiben konnen. Die notwendige und hinreichende Bedingung dafur ist

fy(x0, y0) 6= 0.

Die Existenz der Ableitung dy/dx ist also gleichzusetzen mit der Existenz einer Funktion

y = y(x). Das ist die Aussage des Satzes uber implizite Funktionen, den ich hier

angeben mochte.

Satz 4.2 (Satz uber implizite Funktionen). Sei f(x, y) eine Funktion von x und y.

Außerdem existieren die partiellen Ableitungen von f an einer Stelle (x0, y0) und sei

f(x, y) = c.

Wenn fy(x0, y0) 6= 0, dann gibt es eine Funktion y = y(x), die um den Punkt x0 definiert

ist, so dass gilt

40

(a) f(x, y(x)) = c

(b) y(x0) = y0

(c)

y′(x0) =dy

dx= −fx(x0, y0)

fy(x0, y0).

Auch diesen Satz gebe ich ohne Beweis an, Sie sollten die Problematik anhand des Wurzel-

Beispiels verstanden haben. Es reicht dann, sich folgendes zu merken: wenn wir die Ablei-

tung dy/dx an einer Stelle (x0, y0) mittels des totalen Differentials bilden konnen, wenn

also fy(x, y) 6= 0, dann muss auch eine Funktion y = y(x0) existieren. Diese Existenz ist

auch dann gewahrleistet, wenn wir die Funktion, wie im obigen Beispiel, nicht explizit

aufschreiben konnen.

41

42

Kapitel 5

Aussagenlogik

Wir werden im folgenden oft die Begriffe “notwendig“ und “hinreichend“gebrauchen. Zum

Beispiel so: ist die erste Ableitung einer Funktion einer Variablen an einer Stelle x gleich

Null, ist das nur notwendig, aber nicht hinreichend fur die Existenz einer Maximumstelle

in x. Ganz klar: es kann dort auch eine Minimumstell vorliegen. Das bedeutet aber: die

Aussagen “die erste Ableitung ist Null“und die Aussage “wir haben dort ein Maximum“

sind nicht aquivalent. Aquivalent? Notwendig? Wir wollen nun kurz etwas genauer daruber

nachdenken, wie diese Begriffe zu verstehen sind. Daher folgen nun ein paar Bemerkungen

zur Aussagenlogik. Eigentlich konnte man diese Bemerkungen an fast jeder Stelle der

Vorlesung machen, nun machen wir sie eben hier.

Behauptungen, die entweder wahr oder falsch sind, heißen in der Mathematik Aussagen.

Beispiele 5.1. (i) f ′(x∗) = 0

(ii) f nimmt sein Maximum an der Stelle x∗ an.

(iii) Stefan wohnt in Mannheim.

(iv) Stefan wohnt in Deutschland

Gemeint sind dabei immer Aussagen, die eindeutig wahr oder falsch sind. Es gibt Aussa-

gen, bei denen sich nicht so eindeutig sagen lasst, ob sie wahr oder falsch sind: “Dieser

Satz ist falsch“ oder “Dieser Berg ist hoch“.

Seien nun P und Q zwei Aussagen, so dass gilt: Wenn P wahr ist, so ist auch Q wahr. Man

schreibt: P ⇒ Q und nennt dies eine Implikation. Folgende Sprechweisen sind synonym:

43

• P impliziert Q

• wenn P , dann auch Q

• P ist eine hinreichende Bedingung fur Q

• Q ist notwendig fur P .

Beispiele 5.2. (i) S wohnt in Mannheim ⇒ S wohnt in Deutschland

(ii) f nimmt sein Maximum an der Stelle x∗ an ⇒ f ′(x∗) = 0.

Hier noch eine kleine Warnung: auch wenn P falsch ist, kann man durch richtige Folge-

rungen richtige Aussagen erhalten. Die Aussage 1 = −1 ist offenbar falsch, wenn man

beide Seiten quadriert, erhalt man 1 = 1, was eine richtige Aussage ist. Also kann man

nicht zeigen, oder beweisen, dass eine Aussage P wahr ist, in dem ich aus P

eine wahr Aussage folgere.

Wenn P ⇒ Q wahr ist, kann es auch sein, dass Q ⇒ P wahr ist. Wir schreiben: P ⇔ Q

und nennen dies eine Aquivalenz. Hier sind folgende Sprechweisen synonym:

• P ist aquivalent zu Q

• P dann und nur dann, wenn Q

• P ist notwendig und hinreichend fur Q.

• P ist genau dann wahr, wenn Q wahr ist.

Hier ist wichtig, dass eine Aquivalenz in beide Richtungen gilt und man also auch beide

Richtungen ⇒ und ⇐ uberprufen muss.

Aus einer Implikation folgt nicht automatisch die Aquivalenz: “Stefan wohnt in Mann-

heim“ ⇒ “Stefan wohnt in Deutschland“. Daraus folgt offensichtlich nicht, dass die Im-

plikation Stefan wohnt in Deutschland ⇒ Stefan wohnt in Mannheim wahr ist, er kann

auch woanders in Deutschland wohnen. Naturlich gehen wir bei diesem Beispiel davon

aus, dass es die Stadt Mannheim auch nur in Deutschland gibt...

Zum Abschluß dieses kleinen Exkurses: Wenn P eine Aussage ist, so wird die Negation

von P mit ¬P bezeichnet. Es gilt: P ⇒ Q, wenn und nur wenn ¬Q ⇒ ¬P . Die beiden

Aussagen P ⇒ Q und ¬Q ⇒ ¬P sind also aquivalent.

44

Kapitel 6

Konkave und konvexe Funktionen

Wir wollen uns nun etwas mit dem Krummungsverhalten von Funktionen beschaftigen.

Das wird bei den Optimierungsaufgaben entscheidend sein: eine Funktion, deren Schaubild

wie ein Hugel aussieht (also eine auf den Kopf gestellte Parabel bei einer Variablen), hat

beispielsweise eine eindeutige Maximumstelle im Innneren des Definitionsbereichs, ein

Minimum kann dort nicht vorliegen.

6.1 Eine Variable

Wir beginnen mit Funktionen einer Variablen. Sei also f : [a, b] → R eine Funktion einer

Variablen.

Definition 6.1. Eine Funktion f : [a, b] → R heißt konvex, wenn fur alle x, y ∈ [a, b]

und alle α ∈ (0, 1) gilt:

f(αx + (1− α)y) ≤ αf(x) + (1− α)f(y).

f ist strikt konvex, wenn in der Ungleichung stets ein < steht.

Das bedeutet: bei einer konvexen Funktion ist der Funktionswert an einem Mittelwert

(αx + (1 − α)y) immer kleiner oder gleich dem Mittelwert der Funktionswerte ist. Gra-

phisch bedeutet dies, dass die Sehne, die f(a) und f(b) verbindet , stets uber der Funktion

liegt. Nun ist obige Ungleichung in der Praxis etwas umstandlich und es gibt ein einfache-

res Kriterium: man betrachte z.B. f(x) = x2, x ≥ 0. Das ist sicher eine konvexe Funktion.

Geht man von Null nach rechts, sieht man, dass die Funktion steigt und zwar immer

schneller. Das bedeutet aber auch, dass die Tangenten an das Schaubild von f eine immer

45

großere Steigung haben. Das bedeutet aber nichts anderes als das f ′, also die Ableitungs-

funktion von f , eine monoton steigende Funktion ist. Dann muss aber f ′′(x) ≥ 0 gelten.

Daraus folgt

Satz 6.1. Sei f : (a, b) → R eine zweimal diffbare Funktion. Dann sind folgende Aussagen

aquivalent:

1. f ist konvex.

2. f ′ ist monoton steigend.

3. f ′′(x) ≥ 0 fur alle x ∈ (a, b).

Bei strikter Konvexitat hat man f ′′(x) > 0 fur alle x ∈ (a, b).

Naturlich gibt es auch noch den Fall, dass die Steigung einer Funktion immer mehr ab-

nimmt. Solche Funktionen nennt man konkav.

Definition 6.2. Eine Funktion f : [a, b] → R heißt konkav, wenn fur alle x, y ∈ [a, b]

und alle α ∈ (0, 1) gilt:

f(αx + (1− α)y) ≥ αf(x) + (1− α)f(y).

f ist strikt konkav, wenn in der Ungleichung stets ein > steht.

Satz 6.2. Sei f : (a, b) → R eine zweimal diffbare Funktion. Dann sind folgende Aussagen

aquivalent:

1. f ist konkav.

2. f ′ ist monoton fallend.

3. f ′′(x) ≤ 0 fur alle x ∈ (a, b).

Bei strikter Konkavitat hat man f ′′(x) < 0 fur alle x ∈ (a, b).

Nun wollen wir diese Begriffe auf Funktionen von zwei Variablen ubertragen. Sei also

f : D → R eine Funktion von zwei Variablen mit D ⊂ R2.

Die Definition einer konvexen Funktion muss hier naturlich etwas ganz ahnliches aus-

drucken als bei Funktionen einer Variablen: die Tangentialebene in einem beliebigen Punkt

(x, y) ∈ D liegt unter dem Graphen von f . Seien nun z = (x, y) und z′ = (x′, y′) zwei

Punkte in D.

46

Definition 6.3 (Konvexe Funktion). Eine Funktion f : D → R, D ⊂ R2 heißt konvex,

wenn fur alle z, z′ ∈ D und alle α ∈ (0, 1) gilt:

f(αz + (1− α)z′) ≤ αf(z) + (1− α)f(z′).

f ist strikt konvex, wenn in der Ungleichung stets ein < steht. f heißt konkav falls −f

konvex ist.

Man beachte, dass wir hier keine eigene Defintion fur die Konkavitat einer Funktion

angegeben haben. Man macht sich aber schnell klar, dass die Konvexitat von −f nichts

anderes bedeutet als dass eine Tangentialebene an den Graphen von f immer oberhalb

des Schaubildes von f liegt, dass also

f(αz + (1− α)z′) ≥ αf(z) + (1− α)f(z′)

gilt.

6.2 Zwei Variablen

Ahnelt das Schaubild unserer mehrdimensionalen Funktion also einem Hugel mit einem

eindeutigen Gipfel, hat man eine konkave Funktion. Sieht das Schaubild eher aus wie eine

Tasse, ist die Funktion konvex.

Auch hier suchen wir nun nach einem einfachen Kriterium, um die Konvexitat bzw. Konka-

vitat einer Funktion festzustellen. Und auch hier betrachtet man die zweiten Ableitungen.

Das ist nun allerdings etwas komplizierter, denn wir haben ja - bei einer Funktion von zwei

Variablen - vier zweite Ableitungen, die wir in der Hesse-Matrix sammeln. Und genau die

benotigen wir nun wieder.

Die folgenden Zusammenhange werden aus Zeitgrunden leider wohl etwas unklar bleiben.

Wer es etwas genauer wissen will, muss beim Thema ”Quadratische Formen“ nachsehen.

Falls am Ende des Semesters noch etwas Zeit bleibt, werden wir noch dazu kommen. Es

ist ubrigens auch ein Thema. was fast ein bisschen mehr in eine Vorlesung uber lineare

Algebra gehort.

Sei A nun zunachst eine allgemeine 2× 2 Matrix der Form

A =

(a b

b c

).

47

Definition 6.4 (Determinante). Der Ausdruck ac − b2 heißt Determinante von A

und wir schreiben det A.

Die folgenden Definitionen sind eigentlich Satze, da uns aber etwas der background fehlt,

gebe ich sie als Definitionen an.

Definition 6.5. Eine 2× 2 Matrix A der Form

A =

(a b

b c

)

heißt genau dann positiv definit, wenn sowohl a > 0 als auch det A > 0 gilt. Sie heißt

negativ definit, wenn sowohl a < 0 als auch det A > 0 gilt. Sie heißt indefinit, falls

gilt det A < 0.

Definition 6.6. Eine 2× 2 Matrix A der Form

A =

(a b

b c

)

heißt genau dann positiv semidefinit, wenn gilt: a ≥ 0, det A ≥ 0 und c ≥ 0.

Satz 6.3. Eine 2× 2 Matrix A der Form

A =

(a b

b c

)

heißt genau dann negativ semidefinit, wenn gilt: a ≤ 0, det A ≥ 0 und c ≤ 0.

Es zeigt sich nun, dass Definitheit und Konvexitat bzw. Konkavitat zusammenhangen.

Satz 6.4. Sei f : D → R eine zweimal partiell diffbare Funktion und sei H die Hesse-

Matrix zu f .

Folgende Aussagen sind aquivalent

1. f ist konvex.

2. H ist positiv semidefinit fur alle (x, y) ∈ D.

Satz 6.5. Sei f : D → R eine zweimal partiell diffbare Funktion und sei H die Hesse-

Matrix zu f .

Folgende Aussagen sind aquivalent

48

1. f ist konkav.

2. H ist negativ semidefinit fur alle (x, y) ∈ D.

Bei Funktionen einer Variablen ist die strikte Ungleichung f ′′(x) > 0 hinreichend, aber

nicht notwendig fur die strikte Konvexitat einer Funktion f . Analog ist die strikte positive

Definitheit von H nun hinreichend, aber nicht notwendig fur die strikte Konvexitat von

f im Falle von zwei Variablen.

Satz 6.6. Sei f : D → R eine zweimal partiell diffbare Funktion und sei H die Hesse-

Matrix zu f . Wenn H positiv definit ist, dann ist f strikt konvex.

Satz 6.7. Sei f : D → R eine zweimal partiell diffbare Funktion und sei H die Hesse-

Matrix zu f . Wenn H negativ definit ist, dann ist f strikt konkav.

49

50

Kapitel 7

Multivariate Optimierung

Optimierungsaufgaben sind zentral fur die Wirtschaftswissenschaften. Dort geht es schließ-

lich meist darum, dass irgendwas, z.B. ein Gewinn, moglichst groß werden soll oder etwas

anderes, z.B. die Kosten einer Firma, moglichst klein werden sollen. Man mochte also,

dass irgendetwas optimal wird. Da man Gewinne und/oder Kosten durch Funktionen von

zwei oder mehreren Variablen ausdrucken kann, muss man diese Funktionen optimieren.

Das heißt aber nichts anderes, als dass wir die Maxima bzw. Minima dieser Funktionen zu

finden haben. Wir machen also eigentlich nichts anderes als eine Fortsetzung der aus der

Schule bekannten Kurvendiskussion: wir suchen Hochpunkte (Maxima) und Tiefpunkte

(Minima) von Funktionen. Nur dass diese Funktionen jetzt zwei Variablen haben.

Definition 7.1. Ein Punkt (x∗, y∗) ist ein globaler Maximumpunkt von f , wenn f(x∗, y∗) ≥f(x, y) fur alle (x, y) ∈ D. Dann ist f(x∗, y∗) das globale Maximum von f .

Ein Punkt (x∗, y∗) ist ein lokaler Maximumpunkt von f , wenn f(x∗, y∗) ≥ f(x, y) fur alle

(x, y) hinreichend nahe bei (x∗, y∗). Dann ist f(x∗, y∗) ein lokales Maximum von f .

Ein Punkt (x∗, y∗) ist ein globaler Minimumpunkt von f , wenn f(x∗, y∗) ≤ f(x, y) fur alle

(x, y) ∈ D. Dann ist f(x∗, y∗) das globale Minimum von f .

Ein Punkt (x∗, y∗) ist ein lokaler Minimumumpunkt von f , wenn f(x∗, y∗) ≤ f(x, y) fur

alle (x, y) hinreichend nahe bei (x∗, y∗). Dann ist f(x∗, y∗) ein lokales Minimum von f .

Maxima oder Minima nennt man auch Extrema.

Man kennt auch noch die Bezeichnung striktes Maximum bzw. striktes Minimum. Dann

werden die ≥ durch > ersetzt, analog definiert man strikte Minima.

51

Folgende Fragen werden uns hier beschaftigen: Wie berechnet man solche Maximum-

bzw. Minimumpunkte? Gibt es uberhaupt immer Maximum- bzw. Minimumpunkte? Wir

werden uns die nachsten Kapitel hauptsachlich mit der ersten Frage beschaftigen. Zur

(ebenfalls) spannenden zweiten Frage der Existenz solcher Optimalpunkte kommen wir

ein bisschen spater.

7.1 Notwendige Bedingungen

Im folgenden wollen wir Maximumpunkte (und Minimumpunkte) finden, die nicht am

Rand von D liegen. Das bedeutet: wenn D = [a, b] × [c, d], wollen wir uns zunachst um

Punkte, die strikt im Inneren von D liegen. Man spricht dann auch von inneren Punkten

und von inneren Maxima bzw. Minima. Extrema konnen aber auch am Rand liegen,

dazu spter mehr.

Wir unterscheiden dabei zunachst nicht zwischen lokalen und globalen Extrema. Ange-

nommen, wir haben ein Maximum am Punkt (x0, y0). Wenn wir y0 festhalten, hangt f nur

von x ab. Dann muss aber in x0 die Steigung der Tangenten an das (partielle) Schaubild

von f Null sein; genauso wie bei einem Maximum bei Funktionen mit einer Variablen.

Mit anderen Worten: die erste partielle Ableitung von f nach x muss Null sein. Ebenso

muss die erste partielle Ableitung nach y Null sein.

Definition 7.2 (Sationarer Punkt). Ein innerer Punkt (x, y), in dem beide partiellen

Ableitungen nach x und y Null sind, heißt stationarer Punkt.

Satz 7.1 (Notwendige Bedingungen). Wenn eine Funktion f(x, y) an einem inneren

Punkt (x∗, y∗) ein Maximum hat, dann ist dieser Punkt ein stationarer Punkt:

∂f(x∗, y∗)∂x

= 0

∂f(x∗, y∗)∂y

= 0.

Man nennt diese notwendigen Bedingungen auch Bedingungen erster Ordnung. Sie liefern

uns ein Gleichungssystem in zwei Variablen x und y, welches wir hoffentlich losen konnen.

Analog konnen wir fur dieses Gleichungssystem auch schreiben ∇f(x, y) = 0. Hier ist

dann zu beachten, dass die Null auf der rechten Seite der Gleichung keine Zahl, sondern

der Nullvektor ist.

(Figur 5)

52

Beispiele 7.1. Sei f(x, y) = 3x− x2 + 4y− y2− 12xy. Wir wollen zeigen, dass (x0, y0) =

(16/15, 26/15) ein stationarer Punkt ist. Also stellen wir die Bedingungen erster Ordnung

auf:

∂f(x, y)

∂x= 3− 2x− y/2 = 0

∂f(x, y)

∂y= 4− 2y − x/2 = 0.

Das ergibt ein Gleichungssystem mit zwei Gleichungen und zwei Variablen. Die Werte

x∗ = 16/15 und y∗ = 26/15 sind tatsachlich die Losungen dieses Gleichungssystems.

Es ist klar, dass die notwendige Bedingung sowohl fur lokale als auch fur globale innere

Extrema die relevante notwendige Bedingung ist.

Zusatzlich zu Maximum- und Minimumpunkten kann es auch Sattelpunkte geben.

Definition 7.3 (Sattelpunkt). Ein Sattelpunkt (x∗, y∗) ist ein stationarer Punkt, so

dass es Punkte (x, y) beliebig nahe an (x∗, y∗) gibt mit f(x, y) < f(x∗, y∗) und dass es

auch Punkte mit f(x, y) > f(x∗, y∗) gibt.

Figur 7 zeigt einen Sattelpunkt. Man kann sich einmal Gedanken daruber machen, warum

wir zwar zwischen globalen und lokalen Extrema unterscheiden, aber nicht zwischen lo-

kalen und globalen Sattelpunkten.

7.2 Hinreichende Bedingungen

Leider, wie uns Figur 6 zeigt, sind nicht alle stationaren Punkte Maxima, es kann sich auch

um Minima oder sogenannte Sattelpunkte handeln. Sattelpunkte sind Punkte, von denen

aus der Funktionswert in eine Richtung ansteigt, in die andere Richtung aber abfallt,

ganz wie der Sattel oder Joch in einem Gebirge. Bei einem Maximum hingegen muss

der Funktionswert in allen Richtungen kleiner werden, wenn ich mich vom Maximum

wegbewege: wenn ich auf der x−Achse vom Maximum aus nach links oder rechts gehe,

muss der Funktionswert kleiner werden, ebenso auf der y−Achse. Und naturlich muss das

auch in alle anderen Richtungen gelten, in denen ich mich vom Maximum fortbewege. Fur

ein Minimum gilt ein analoges Argument. Und da wir nicht genau wissen, was wir nun

von einem stationaren Punkt zu halten haben, mussen wir uns also auch noch die zweiten

Ableitungen ansehen.

53

Um lokale Extrema zu charakterisieren, wussten wir gerne, wie denn die Funktion f in der

Nahe eines stationaren Punktes (x∗, y∗) gekrummt ist. Mit anderen Worten: wenn wir wis-

sen, dass in der Nahe eines stationaren Punktes f konkav ist, dann haben wir dort sicher

ein lokales Maximum. Aus Kapitel 6 wissen wir, dass Konkavitat bzw. Konvexitat einer

Funktion mit der Definitheit der Hesse-Matrix der zweiten Ableitungen zusammenhangt.

Ist die Hesse-Matrix am Punkt (x∗, y∗) negativ definit, dass ist die Funktion um diesen

Punkt herum konkav.

Man hat dann folgenden

Satz 7.2 (Hinreichende Bedingungen). Sei ∇f(x∗, y∗) = 0. Dann gilt

1. Wenn die Hesse-Matrix Hf(x∗, y∗) negativ (positiv) definit ist, dann ist (x∗, y∗) ein

lokaler Maximumpunkt.

2. Wenn die Hesse-Matrix Hf(x∗, y∗) indefinit, so ist x∗ kein Extremum, sondern ein

Sattelpunkt.

3. Falls Hf(x∗, y∗) = 0, kann man keine Aussage treffen.

Wir setzen nun

A = fxx(x∗, y∗), B = fxy(x

∗, y∗), C = fyy(x∗, y∗).

Damit folgt

Korollar 7.1. Sei (x∗, y∗) ein stationarer Punkt einer Funktion f(x, y). Dann gilt

1. Wenn A < 0 und AC −B2 > 0, dann ist (x∗, y∗) ein lokaler Maximumpunkt.

2. Wenn A > 0 und AC −B2 > 0, dann ist (x∗, y∗) ein lokaler Minimumpunkt.

3. Wenn AC −B2 < 0, dann ist (x∗, y∗) ein Sattelpunkt.

4. Wenn AC −B2 = 0, dann kann (x∗, y∗) ein Sattelpunkt, ein lokales Maximum oder

ein lokales Minimum sein.

7.3 Konkave und konvexe Funktionen

Fur lokale Extrema betrachten wir also das Krummungsverhalten einr Funktion nahe

eines stationaren Punktes (x∗, y∗). Die Suche nach Maxima oder Minima wird aber noch

54

erheblich einfacher, wenn wir von vorneherein Informationen uber den Gesamtverlauf von

f haben. Denn klar ist: sieht die ganze Funktion f aus wie ein Hugel, so muss jeder

stationare Punkt ein Maximumpunkt sein, ja, es muss sich dann sogar um den globalen

und einzigen Maximumpunkt handeln. Wir wissen mittlerweile: solche Funktionen heißen

konkav. Und das ist genau die Eigenschaft, die uns hier weiterhilft.

Folgende Aussage sollte unmittelbar einleuchten.

Satz 7.3. Sei f : D → R eine diffbare konkave Funktion. Wenn

∇f(x∗, y∗) = 0

gilt fur ein (x∗, y∗) ∈ D, dann ist x∗ ein globales Maximum von f .

Schliesslich konnen strikt konkave Funktionen nur ein Maximum haben und jedes lokale

Maximum ist damit auch zugleich ein globales Maximum.

Satz 7.4. Wenn f : D → R strikt konvex ist, dann hat f hochstens ein (globales) Maxi-

mum.

Beispiele 7.2. (i) Wir nehmen unser Beispiel von oben wieder auf. Sei also f(x, y) =

3x − x2 + 4y − y2 − 12xy. Wir wollen zeigen, dass x0 = 16/15 und y0 = 26/15 ein

Maximum ist. Wir hatten oben gesehen, dass wir hier einen stationaren Punkt haben. Die

Hesse Matrix ist gegeben durch

H =

(−2 −1/2

−1/2 −2

).

Wie man sieht, sind die Elemente auf der Hauptdiagonalen kleiner Null. Der Term, der

auch die Kreuzableitung benotigt, ist det H = 4− 1/4 > 0. Also ist auch diese Bedingung

erfullt. Wir haben eine konkave Funktion und unser stationarer Punkt ist ein Maximum.

Die stationaren Punkte einer Funktion fallen also in drei Kategorien: Maximumpunkte,

Minimumpunkte und Sattelpunkte. Um lokale Extrempunkte zu finden, setzt man die

stationaren Punkte in die Hesse-Matrix ein und pruft, was denn nun vorliegt. Um das

globale Maximum zu finden nimmt man dann den Maximumpunkt von allen lokalen

Maximumpunkten, der den hochsten Funktionswert ergibt. Analog fur den globalen Mi-

nimumpunkt.

55

7.4 Extrema am Rande

Nun kann es aber durchaus noch sein, dass wir Funktionen betrachten, bei denen wir

Extrema am Rande des Definitionsbereichs haben. Bei diesen konnen wir namlich die

Methode der stationaren Punkte nicht anwenden. Das hat damit zu tun, dass am Rande

des Definitionsbereichs die ersten Ableitungen im allgemeinen ungleich Null sind.

Beispiele 7.3. Sei f(x, y) = x2 + 5y mit D = [0, 10] × [0, 10]. Unsere Aufgabe sei, ein

globales Maximum zu finden.

Bildet man die ersten partiellen Ableitungen, bekommt man

∂f(x, y)

∂x= 2x

und

∂f(x, y)

∂y= 5.

Setzt man diese beiden Ableitungen Null, folgt aus der zweiten Gleichung 5=0, was si-

cher Unsinn ist. Also bekommen wir fur unser Gleichungssystem ∇f(x∗, y∗) = 0 keine

vernunftige Losung. Bildet man die Hesse-Matrix, stellt man fest, dass die beiden Ab-

leitungen fxx(x, y) und fyy(x, y) nichtnegativ sind und die Kreuzableitungen Null. Das

gilt sogar fur alle (x, y), also ist die Funktion konvex und unser Kandidat ist sicher kein

globales Maximum. Nun steigt die Funktion aber in beiden Argumenten, also muss das

globale Maximum wohl bei der Randlosung (x∗, y∗) = (10, 10) liegen.

Was ist mit einem Minimum? Auch hier sehen wir, dass der Funktionswert am kleinsten

wird, wenn wir einfach beide Werte x und y gleich Null setzen.

Wir haben hier also ein Beispiel, wo die Methode der stationaren Punkte alleine bei der

Suche nach Maxima nicht weiterhilft: wir konnen unser Gleichungssystem nicht wirklich

nach x und y zufriedenstellend.

Randextrema sind unangenehm, weil die Standardrezepte meist nicht funktionieren und

man etwas kreativ sein muss. Ein guter Hinweis auf Randextrema sind

• monoton steigende bzw. fallende erste partielle Ableitungen von f

• unsinnige oder keine Losungen von ∇f(x, y) = 0.

Es kann also sein

56

• noch zusatzliche lokale Extrema am Rande des Definitionsbereichs haben.

• uberhaupt keine Extrema im Innern des Definitionsbereichs haben. Dann haben wir

auch keinen stationaren Punkt.

• uberhaupt keine Extrempunkte haben.

Es ist klar, dass es generell uberhaupt nur Sinn macht, nach irgendwelchen Extrema zu

forschen bzw. alle zu finden, wenn wir irgendwie sicherstellen konnen, dass es uberhaupt

welche gibt. Konnen wir also Bedingungen aufstellen, die fur die Existenz eines Maximums

bzw. eines Minimums hinreichend sind? Antwort: ja, diese Bedingungen gibt es und wir

werden sie spater kennen lernen.

57

58

Kapitel 8

Optimierung mit Nebenbedingung

Nun kommt der große Moment, wo wir alle unsere bisherigen Erkenntnisse zusammenfugen

und uns dem eigentlich Ziel der Vorlesung zuwenden: Optimierung unter Nebenbedin-

gungen. Wir kommen also kurz auf das Beispiel zu Beginn der Vorlesung zuruck. Peter

mochte die Menge an Apfeln x und die Menge an Birnen y so wahlen, dass sein Wohlerge-

hen f(x, y) moglichst groß wird. Nun spezifizieren wir die Funktion f(x, y) und nehmen

an, dass sein Wohlergehen durch f(x, y) = xy beschrieben wird. Ob man das einfach so

sagen darf, kann oder sollte, ist nicht Gegenstand einer Matheveranstaltung, sondern von

Mikrookonomievorlesungen. Man nennt eine solche Funktion auch eine Nutzenfunktion.

Naturlich ware das Problem ohne Nebenbedingung recht langweilig: die Funktion wurde

ihr Maximum jeweils bei der Menge von Apfeln und Birnen annehmen, die irgendwo bei

“Unendlich“ liegt (wenn es kein Bauchweh gibt)... Damit das Problem interessant wird,

gibt es die Nebenbedingung x + 2y = 10. (Apfel kosten 1, Birnen 2 Euro, insgesamt hat

Peter 10 Euro).

Mathematisch aufgeschrieben ist das

maxx,y

xy

unter der Nebenbedingung:

1x + 2y = 10 x, y ≥ 0.

Wir nennen die zu maximierende Funktion f(x, y) = xy auch Zielfunktion und bezeich-

nen im folgenden ein solches Optimierungsproblem unter Nebenbedingungen mit (P ).

Nochmals: was bedeutet eine solche Problemformulierung? Wir wollen x und y so wahlen,

dass eine Funktion f , hier f(x, y) = xy moglichst gross wird. Allerdings durfen, laut

Problemstellung, x und y nicht alle Werte annehmen. Sonst wurde man namlich einfach x

59

und y auf “unendlich“ setzen und man ware fertig. Der Witz von Maximierungsproblemen

unter Nebenbedingungen ist gerade, dass x und y nicht jeden Wert annehmen durfen. Hier

ist es so, dass sie nur so kombiniert werden durfen, dass x + 2y = 10 gilt.

Wir betrachten nun zwei Moglichkeiten, dieses Problem zu losen. Die erste Methode setzt

die Nebenbedingung einfach in unsere Zielfunktion ein. Die zweite Methode verwendet

die Steigung der (Iso)hohenlinien.

8.1 Einsetzverfahren

Das ist das Verfahren, was einigen von Ihnen noch aus der Schule bekannt sein konnte.

Wir losen die Nebenbedingung nach einer der Variablen auf und setzen

Wir starten, indem wir die Nebenbedingung explizit z.B. nach x auflosen. Hier also

x = 10− 2y.

Dann setzt man diesen Ausdruck fur x in die Zielfunktion f(x, y) = xy. Man hat

f(x, y) = y(10− 2y) = f(y).

Damit bekommt man eine Funktion f(y), die eben nur noch von einer Variablen y

abhangt. Was ist also passiert? Wir haben ein Problem der Optimierung unter Nebenbe-

dingungen durch einen recht simplen Trick in ein Problem verwandelt, das wir gut kennen:

wir sollen den Maximumpunkt einer Funktion einer Variablen finden. Fur diese Funktion

muss man nun also den y Wert suchen, der sie maximiert; wir suchen also das Maximum

von f(y) = y(10− 2y). Die notwendige Bedingung ergibt

−2y + 10− 2y = 0

bzw. y = 5/2. Ist das auch wirklich ein Maximum fur f(y)? Ja, denn die zweite Ableitung

von f ist uberall negativ. Im folgenden wollen wir aber die hinreichenden Bedingungen

zweiter Ordnung eher etwas vernachlassigen, die Beispiele werden alle so gewahlt sein,

dass die notwendige Bedingung auch hinreichend ist.

Wir konnen nun y = 5/2 in unsere Nebenbedingung einsetzen und dies dann nach x losen.

Wir haben also

x + 2 · 5

2= 10.

Oder x = 5. Also lost der Punkt (x∗, y∗) = (5, 5/2) unser Optimierungsproblem.

60

Das ist eine prima Methode, da sie sehr einfach ist. Und man sollte sich immer an sie

erinnern. Denn wir werden noch kompliziertere Verfahren kennenlernen. Da man aber

nicht mit Kanonen auf Spatzen schießen sollte, ist es immer gut, auch einfach Rezepte

zur Hand zu haben. Das war so eines. Aber: wenn die Nebenbedingung eine komplizierte

Funktion ist, klappt die Einsetzmethode leider nicht oder ist zu schwierig. Das ist insbe-

sondere dann der Fall, wenn wir die Nebenbedingung nicht nach einer der beiden Variablen

auflosen konnen. Und das ist naturlich auch dann der Fall, wenn wir - was Mathematiker

- lieben, etwas allgemeiner uber Optimierungsprobleme mit Nebenbedingungen nachden-

ken wollen. Bevor wir zur allgemeinen Formulierung kommen, hier aber nochmal anhand

eines Beispiels ein zweiter, schon recht allgemeiner Weg.

8.2 Tangentialverfahren

Ein Maximierungsproblem

Wir werden nun ein geometrisches, graphisches Argument bemuhen. Dieses Argument ist

sehr intuitiv und dennoch genau; außerdem tauchen die Zeichnungen, die wir sehen wer-

den, in exakt derselben Form auch in Mikro- bzw. Makrookonmie wieder auf. Ausserdem

bildet das Tangentialverfahren die Grundlage fur die allgemeinste Methode, die wir spater

betrachten werden: die Methode nach Lagrange.

Und hier brauchen wir nun all unser Wissen uber Hohenlinien. Betrachten wir die Hohen-

linie unserer Nebenbedingung x + 2y = 10 im (x, y)− Raum. Merke: fur die (implizite)

Funktion der Nebenbedingung gibt es nur eine Hohenlinie, da ja die Idee einer Nebenbe-

dingung genau die ist, dass x und y nur bestimmte Werte annehmen durfen.

Wir zeichnen nun diese Hohenlinie, indem wir die Nebenbedingung nach y auflosen,

y = 5− 1

2x.

Das ist eine Gerade mit der Steigung −1/2.

Nun betrachten wir die Hohenlinien unserer Zielfunktion f(x, y) = xy. Fur eine bestimmte

Hohe c haben wir also

xy = c

als Gleichung fur die Hohenlinie.

61

Auch das konnen wir nach y losen und wir haben

y = c/x.

Auch diese Hohenlinien konnen wir - fur beliebige c einzeichnen. Merke: da unsere Ziel-

funktion f(x, y) = xy in x und y steigt, der Wert der Zielfunktion also immer grosser

wird, je weiter wir uns nach rechts oben bewegen, hatten wir also gerne einen Punkt

(x, y), der moglichst weit rechts oben liegt...denn das Niveau c = f(x, y) wird ja dann

immer grosser. Aber wie weit konnen wir nach rechts oben gehen? Denn wir haben ja

auch unsere Hohenlinie der Nebenbedingung und wir durfen nur Punkt auf dieser Linie

wahlen. Um das zu beantworten, fugen wir die Bilder zusammen.

Betrachten wir nun einen beliebigen Punkt auf der Hohenlinie der Nebenbedingung, in

dem eine Hohenlinie der Zielfunktion die Hohenlinie der Nebenbedingung schneidet. Wir

nennen diesen Punkt A. Die Frage ist: kann so ein Punkt das Maximum sein? Offensicht-

lich nicht: nehmen wir einen anderen Punkt B, der leicht links von A - aber immer noch

auf der Hohenlinie der Nebenbedingung liegt. Nun sehen wir, dass Punkt B eine Hohen-

linie der Zielfunktion mit einem hoheren Niveau entspricht. Also kann der alte Punkt A

kein Maximum gewesen sein. Ist Punkt B ein Maximum? Nein, wenn die Hohenlinie der

Zielfunktion durch diesen Punkt wieder die Hohenlinie der Nebenbedingung schneidet.

Folglich sind wir dann in einem Maximum, wenn gilt, dass die Hohenlinie der

Nebenbedingung tangential zur Hohenlinie der Zielfunktion ist.

Diese außerst wichtigen Zusammenhang formulieren wir gleich als

Satz 8.1 (Tangentialbedingung). Ein Punkt ((x0, y0) lost (P ), wenn im Punkt (x0, y0)

gilt, dass eine Isohohenlinie der Zielfunktion tangential zur Isohohenlinie der Nebenbedin-

gung ist.

Warum ist das so wichtig? Nun, wie Sie sehen, geht es hier nur um die Steigungen. Von

denen wissen wir aber, wie wir sie bekommen, auch wenn wir nicht explizit nach x oder y

auflosen konnen. Und wie wir sehen werden, wird die Tangentialmethode die Grundlage

fur alle Verfahren sein, die uns helfen, wenn wir allgemeiner vorgehen, oder wenn wir die

Gleichungen der Hohenlinien nicht explizit nach x oder y auflosen konnen.

Wie sieht das nun hier im Beispiel konkret aus? Die Steigung unserer Hohenlinie der

Nebenbedingung ist −1/2. Wie bekommt man die Steigung der Zielfunktion? Nun rechnen

wir mit dem totalen Differential und denken auch daran, dass wir die Steigung als eine

62

Funktion von y und x bekommen wollen. Also

dy

dx= −fx(x, y)

fy(x, y)= −y

x.

Diese Steigung hatten wir auch bekommen, wenn wir yx = c nach y aufgelost hatten,

das Resultat nach x abgeleitet hatten und dann wieder c = xy gesetzt hatten. Aber das

wissen Sie ja alles schon aus dem Kapitel uber “Steigungen von Hohenlinien“.

Steigungen gleichsetzen gibt:

1

2=

y

x

oder x = 2y. Das kann man in die Nebenbedingung x + 2y = 10 einsetzen und man

bekommt wieder (x∗, y∗) = (5, 5/2) als Maximumpunkt unseres Optimierungsproblems

unter Nebenbedingungen. Wir vernachlassigen weiterhin die Bedingungen zweiter Ord-

nung und durfen davon ausgehen, dass die Aufgabe so gestellt ist, dass der gefundene

Punkt auch tatsachlich ein Maximum ist.

Es ist ahnlich wie bei den Steigungen der Hohenlinien: die Einsetzmethode funktioniert

nicht immer, oder bietet manchmal etwas komplizierte Rechnungen. Die Tangentialme-

thode funktioniert so gut wie immer. Sie macht naturlich Probleme, wenn wir durch

0 teilen oder wenn wir gar kein inneres Maximum haben. Denn wenn wir kein inneres

Maximum haben, kann es auch keine Tangentialbedingung geben. Am Rand des Defi-

nitionsbereichs gilt eine solche Tangentialbedingung nicht. Und, wie schon erwahnt: die

Tangentialmethode ist auch wesentlicher Bestandteil, der Hauptmethode der Optimierung

unter Nebenbedingungen, der Methode nach Lagrange.

Ein Minimierungsproblem

Als weiteres Beispiel minimieren wir mal was. Unser Problem lautet:

minx,y

x + 2y

unter der Nebenbedingung:

xy =25

2

fur x ≥ 0, y ≥ 0.

Auch hier konnen wir beruhigt annehmen, dass, sollten wir eine Losung finden, dies auch

das Minimum sein wird. Auf hinreichende Bedingungen, d.h. auf Fragen nach Konkavitat

oder Konvexitat werden wir noch zu sprechen kommen. Hier geht es erst mal darum, eine

gewisse Routine im Finden von Extrema unter Nebenbedingungen zu entwickeln.

63

Wir versuchen wieder unsere beiden Verfahren, beginnen aber dieses mal mit der Gleich-

setzung der Steigungen. Denn wir ahnen, dass sich ein Minimierungsproblem nicht so

sehr von einem Maximierungsproblem unterscheidet und wir ahnen auch, dass es wahr-

scheinlich wieder darauf hinauslauft, dass wir eben wieder die Steigungen der Hohenlinien

gleichsetzen werden. Dennoch wollen wir auch hier wieder unser Bild dazu zeichnen, die

graphische Methode ist doch recht anschaulich.

Zuerst zeichnen wir wieder die Hohenlinie unserer Nebenbedingung in ein (x, y)-Diagramm.

Das sind also alle (x, y)−Kombinationen, fur die gilt

xy = 25/2.

Um das halbwegs vernuntig zeichnen zu konnen, losen wir das nach y auf, also

y =25

2x.

Wenn man das nun zeichnen will, setzt man fur x ein paar Werte ein und bekommt

y(1) = 12.5, y(2) = 6.25, y(2.5) = 5 usw. Das zeichnen wir ein und haben damit die

Hohenlinie unserer Nebenbedingung. Auf dieser Kurve mussen alle (x, y)−Kombinationen

liegen, aus denen wir wahlen.

Jetzt zur Zielfunktion, f(x, y) = x+2y. Wenn man diese Funktion anstarrt, stellt man fest,

dass sie in x und y steigt: wenn x bzw. y grosser werden, steigt auch der Funktionswert

f(x, y) = x+2y. Wir wollen aber diese Funktion minimieren...also wurden wir am liebsten

x und y gleich Null setzen. Wenn wir aber x = y = 0 in unsere Nebenbedingung einsetzen

steht da 0 · 0 = 25/2, was offensichtlich Unfug ist. Wir konnen nicht auf 25/2 kommen,

wenn wir x = y = 0 setzen....

Graphisch ubersetzt heißt das: am liebsten wurden wir x und y dort wahlen, wo sich

die y−und die x−Achse treffen. Das geht aber nicht, wir mussen auf der Kurve bleiben.

Also zeichnen wir nun unsere Zielfunktion ins Bild. Die Gleichung fur die Hohenlinie der

Zielfunktion heißt

x + 2y = c,

fur ein beliebiges Niveau c.

Das konnen wir nach y losen und bekommen

y =c

2− 1

2x.

Zeichnen wir das fur c = 20. Dann lautet die obige Gleichung

y = 10− 1

2x.

64

Das wollen wir nun zeichnen. Wie zeichnet man eigentlich eine solche Gerade? Man erin-

nert sich dunkel, dass zum Zeichnen einer Geraden eigentlich zwei Punkte genugen. Den

ersten bekommt man, wenn man x = 0 setzt, denn dann ist y = 10. Den zweiten Punkt

bekommt man, wenn man y = 0 setzt, denn dann ist x = 20. Also haben wir die Punkt

(0, 10) und den Punkt (20, 0). Diese Punkte verbinden wir und zeichnen die Gerade ein,

am besten gleich in obiges Diagramm.

Offensichtlich schneidet die Hohenlinie der Zielfunktion unsere Nebenbedingung. Und:

eigentlich wollen wir soweit wie moglich nach links unten, Richtung Null...kann einer der

Schnittpunkt, z.B. der links oben unser gesuchtes Minimum sein? Nein!!! Denn wenn ich

mich etwas auf unserer Nebenbedingung nach rechts unten bewege, kann ich die Hohenlinie

der Zielfunktion, die Gerade, wieder etwas in Richtung Ursprung verschieben, werde also

“kleiner“ und das ist ja das Ziel, weil ich die Zielfunktion minimieren will.

Und so kann ich weiter und weiter die Gerade in Richtung Ursprung verschieben, bis

es nicht mehr weiter geht, weil ich sonst die Hohenlinie der Nebenbedingung verletzen

wurde. Also muss das Minimum unter der Nebenbedingung dort liegen, wo die Nebenbe-

dingungskurve tangential zu einer Isohohenlinie der Zielfunktion ist. Das bedeutet aber

nichts weiter, als das die Steigungen gleich sind....

Die Steigung der Zielfunktion ist −1/2. Die Steigung der Nebenbedingung ist − yx. Gleich-

setzen der Steigungen ergibt x = 2y. Das setzen wir in unsere Nebenbedingung ein:

y · 2y =25

2

oder

y2 = 25/4

Als Losung bekommen wir (durch Wurzeln und da y ≥ 0 sein muss), dass y = 5/2.

Damit ergibt sich x = 5. Also losen (x∗, y∗) = (5, 5/2) unser Minimierungsproblem unter

Nebenbedingungen.

Ganz kurz noch zur Einsetzmethode beim Minimierungsproblem: wir setzen y = 252x

in die

Zielfunktion ein und bekommen, da wir dann nur noch uber die Variable x minimieren

mussen, das Problem

minx

x +25

x

Die Bedingung erster Ordnung ergibt

1− 25

x2= 0

65

oder

x2 = 25

oder, da x ≥ 0,

x∗ = 5.

Das setzen wir wieder in die umgeformte Nebenbedingung ein und bekommen y∗ = 5/2.

Eine Frage noch zum eben betrachteten Minimierungsproblem: Ist das Zufall, dass hier

wieder dieselben Werte fur x und y herauskommen (5 und 5/2) als im “alten“ Maximie-

rungsproblem

maxx,y

xy

unter der Nebenbedingung

x + 2y = 10??

Nein, es ist kein Zufall: wenn man namlich die Losungen unseres Maximierungsproblems

in die Zielfunktion des Maximierungsproblems einsetzt, bekommt man

f(x∗, y∗) = 5 · 5

2=

25

2.

Genau diese Zahl, 25/2, habe ich aber als das Niveau angenommen unter dass der Wert

unserer Zielfunktion im Minierungsproblem nicht sinken darf. Und da die Nebenbedingung

von der Formel her genauso heißt wie die Zielfunktion im “alten“Maximierungsproblem,

kommt hier auch dasselbe (x∗, y∗) raus.

Setzt man z.B. im Minimierungsproblem xy = 10 als Nebenbedingung ergeben sich an-

dere Losungen: dann losen namlich (2√

5,√

5) das Minimierungsproblem (wieder mit der

Zielfunktion f(x, y) = x + 2y).

8.3 Der allgemeine Fall

Nun wollen wir uberprufen, ob wir unser Beispiel verallgemeinern konnen. Wir werden

das fur den Fall einer Suche nach einem Maximum tun, fur ein Minimum sind die forma-

len Argumente analog. Insbesondere werden wir in diesem Abschnitt zeigen und sehen,

dass Tangentialverfahren und Einsetzverfahren letzten Endes auf dieselbe (notwendige)

Bedingung hinauslaufen.

66

Tangentialverfahren

Allgemein formuliert lautet unser Problem - fur den Fall der Suche nach einem Maximum

- so: wir wollen x und y so wahlen, dass der Funktionswert f(x, y) der Zielfunktion f

moglichst groß, also maximal wird. Das geschieht unter der Nebenbedingung g(x, y) = c.

Also: x und y durfen nur so gewahlt werden, dass wir alle Punkte (x, y), die auf der

Hohenlinie c liegen, durch die Funktion g(x, y) beschreiben konnen. Im Eingangsbeispiel

entspricht

g(x, y) = c

also

x + 2y = 10.

Mathematisch kurz zusammengefasst lautet unser Problem also:

maxx,y

f(x, y)

unter der Nebenbedingung

g(x, y) = c.

Wir wissen: (1) um unser Maximum zu bekommen, setzen wir die Steigungen der Isohohen-

linien der Zielfunktion und der Nebenbedingung gleich. (2) diese Steigungen konnen wir

mittels des totalen Differentials hinschreiben. Wie berechnet man sie Steigungen? Da wir

im allgemeinen Fall nicht explizit nach y auflosen konnen, erinnern wir uns an den Satz

uber implizite Funktionen. Der sagt uns ja, dass wir, auch wenn wir die Auflosung nicht

hinschreiben konnen, dennoch wissen, dass eine solche Auflosung existiert und dass

y′(x0) =dy

dx= −fx(x0, y0)

fy(x0, y0)

falls fy(x0, y0) 6= 0. Und genau das verwenden wir fur das folgende Resultat.

Satz 8.2. Wenn (x∗, y∗) unser Maximierungsproblem unter Nebenbedingungen (P ) lost,

dann muss gelten

fx(x∗, y∗)

fy(x∗, y∗)=

gx(x∗, y∗)

gy(x∗, y∗).

Um x∗ und y∗ zu berechnen, setzt man also die Steigungen gleich, d.h. man bildet das

Verhaltnis

fx(x, y)

fy(x, y)=

gx(x, y)

gy(x, y).

67

Das ist eine Gleichung mit zwei Variablen. Nimmt man noch die Nebenbedingung

g(x, y) = c

dazu, haben wir zwei Gleichungen, die wir nach den beiden Variablen x∗ und y∗ losen

konnen.

Einsetzverfahren

Auch allgemein wollen wir zeigen, dass die Einsetzmethode zum gleichen Ziel fuhrt. Um

die Nebenbedingung einsetzen zu konnen, nehmen wir an, dass wir die Nebenbedingung

g(x, y) = c

nach y auflosen konnen. Wir haben hier y als eine implizite Funktion von x definiert

und gehen davon aus, dass eine Funktion y = y(x) existiert, die wir durch Auflosen von

g(x, y) = c bekommen.

Unsere “neue“ y−Funktion setzen wir nun in die Zielfunktion ein. Dann haben wir

f(x, y(x))

als neue Zielfunktion.

Die hangt nur von x ab, also haben wir das Problem

maxx

f(x, y(x))

Das mussen wir nun ableiten. Da wir aber (hoffentlich) die Kettenregel noch kennen,

wissen wir, was zu tun ist:

df

dx= f ′1(x, y(x)) + f ′2(x, y(x)) · y′(x) = 0

Wenn x∗ unser Problem lost, muss

fx(x∗, y(x∗)) + fy(x

∗, y(x∗)) · y′(x∗) = 0

gelten. Die (hinreichende) Bedingung zweiter Ordnung vernachlassigen wir hier und/oder

nehmen einfach an, dass sie erfullt sind. Es ist aber eine gute Ubung, sie sich selbst einmal

- auch in dieser etwas allgemeineren Form - aufzuschreiben.

Die Bedingung erster Ordnung kann man umschreiben in

− fx(x∗, y(x∗)

fy(x∗, y(x∗))= y′(x∗).

68

Nun betrachten wir wieder unsere Nebenbedingung und ersetzen auch hier y durch y =

y(x), da wir ja nach wie vor annehmen, dass wir die Nebenbedingung auflosen konnen

und sie als eine Funktion y = y(x) schreiben konnen. Wir schreiben

g(x, y(x)) = c

fur die Nebenbedingung. Nun haben wir beide Funktion, die Zielfunktion und die Neben-

bedingung als Funktionen geschrieben, die nur noch von x abhangen. Da wir oben die

Zielfunktion mittels der Kettenregel nach x abgeleitet haben, machen wir dies nun auch

fur die Nebenbedingung:

dg

dx= gx(x, y(x)) + gy(x, y(x)) · y′(x) =

dc

dx.

Das ist aber aquivalent zu

gx(x, y(x)) + gy(x, y(x)) · y′(x) = 0.

Hier kommt die Null auf der rechten Seite daher, dass die rechte Seite von g(x, y) = c

eine Konstante, c, ist, deren Ableitung nach x, also dc/dx Null ergibt. Da wir aber die

Nebenbedingung schon richtig ernst nehmen, bilden wir die Ableitung von g nach x nicht

irgendwo, sondern entlang der Kurve (oder Geraden) g(x, y) = c. Also mussen wir auch c

nach x ableiten, was eben Null ergibt.

Auch die soeben erhaltene Gleichung konnen wir nach y′(x) losen und erhalten

−gx(x, y(x))

gy(x, y(x))= y′(x).

Diese Ausdruck fur y′(x) setzen wir oben ein und bekommen (wieder), dass fur ein opti-

males x∗ gelten muss

gx(x∗, y(x∗))

gy(x∗, y(x∗))=

fx(x∗, y(x∗))

fy(x∗, y(x∗)).

Das ist eine Gleichung in einer Variablen x, die wir nach x∗ losen konnen. Das erhaltene

x∗ setzen wir in die Nebenbedingung ein und erhalten unser y∗(x∗) = y∗. Also haben wir

wieder

gx(x∗, y∗)

gy(x∗, y∗)=

fx(x∗, y∗)

fy(x∗, y∗).

Wir merken uns also: wir konnen unsere Optimalbedingung auch herleiten, ohne dass wir

irgendein geometrisches Argument bemuhen. Und auch hier bildet der Satz uber implizite

Funktionen die eigentliche mathematische Grundlage fur das, was geschieht: wie konnen

nicht explizite auflosen, konnen aber dy/dx angeben und berechnen und wissen - gemaß

des Satzes - eben dann auch, dass eine solche Auflosung existiert und wir unser Optimie-

rungsproblem so behandeln konnen, als wurden wir Zielfunktion und Nebenbedingung

explizit nach y auflosen.

69

8.4 Einsetzverfahren vs. Tangentialverfahren und wei-

tere Beispiele

Naturlich stellt sich hier die Frage, warum man das Tangentialverfahren uberhaupt anwen-

den sollte, wenn doch die Einsetzmethode so viel schneller und einfach ist. Im folgenden

also ein paar Hinweise zu Fehlerquellen, insbesondere beim Einsetzverfahren.

1. Falsches Ausrechnen der Steigung.

Dieser Fehler passiert eigentlich mehr beim Tangentialverfahren.

Angenommen, man soll die Steigung einer Kurve

f(x, y) = xy = c

ausrechnen. Mittels des totalen Differentials ergibt sich schnell

dy

dx= −fx(x, y)

fy(x, y)= −y

x.

Diese Steigung hangt von x und y ab. Und das ist auch gut so: denn wollen wir das

jetzt z.B. mit einer anderen Steigung gleichsetzen und irgendwas ausrechnen, brauchen

wir auch beide Variablen in unserer Steigung.

Wenn man dagegen die Gleichung nach y auflost, hat man ja

y(x) =c

x.

Auch das kann man jetzt nach x ableiten, also hat man

dy

dx= − c

x2.

Wenn man jetzt nicht noch einmal kurz nachdenkt, wundert man sich im weiteren Re-

chenverlauf, wo denn das y geblieben ist. Hier darf man also nicht vergessen, dass wir

ja die Gleichung an einem bestimmten Punkt c betrachten. Also mussen wir fur c auch

wieder xy = c einsetzen. Dann haben wir

dy

dx= −yx

x2= −y

x,

was wir auch schon oben mittels des totalen Differentials bekommen haben. Beim totalen

Differential kann dieser Fehler nicht passieren.

2. Schwierige Rechnungen durch Auflosen.

70

Betrachten wir dazu folgende Abwandlung unseres allerersten Beispiels:

maxx,y

x12 y

unter der Nebenbedingung

x + 2y = 10.

Wir setzen die umgeformte Nebenbedingung x = 10−2y in die Zielfunktion ein und haben

dann

(10− 2y)1/2y

zu maximieren. Die erste Ableitung soll man Null setzen:

1

2(10− 2y)−1/2 · (−2y) + (10− 2y)1/2 = 0.

Dies ist sicher nicht sehr schwierig, wenn man sich der Potenzgesetze erinnert und z.B.

beide Seiten mit (10− 2y)1/2 multipliziert....Dann hat man

1

2· (−2y) + 10− 2y = 0,

oder y∗ = 10/3. Fur x bekommt man ebenfalls x∗ = 10/3. Wie gesagt, schwierig ist es

nicht, aber man hat halt ein paar Schritte mehr und kann ein paar Rechenfehler mehr

machen. Und vielleicht gibt es ja auch Probleme, wo ich die Nebenbedingung nur sehr

schwer nach x oder y auflosen kann.

Wenn man die Steigungen gleichsetzt, hat man:

dy

dx= −fx(x, y)

fy(x, y)= −x−1/2y

2x1/2

als Steigung fur eine Hohenlinie der Zielfunktion. Das muss nun gleich −1/2 sein, also der

Steigung der Hohenlinie der Nebenbedingung:

−x−1/2y

2x1/2= −1

2.

Die 2 fallt auf beiden Seiten weg, das Minuszeichen auch und schon steht, da x−1/2 =

1/x1/2, die Gleichung

y

x= 1,

bzw. y = x. Das in die Nebenbedingung eingesetzt ergibt x∗ = y∗ = 10/3. Ich finde hier

das Tangentialverfahren einfacher.

71

Ein letztes Beispiel. Angenommen, die Aufgabenstellung lautet

minx,y

x + y

unter der Nebenbedingung

ln(x) + ln(y) = 5.

Lost man hier die Nebenbedingung z.B. nach x auf, haben wir

x = e5−ln(y).

Das setzt man nun in die Zielfunktion ein und hat und muss nun

miny

e5−ln(y) + y

losen. Die Bedingung erster Ordnung lautet:

e5−ln(y) · −1

y+ 1 = 0.

Das musste man nun nach y losen....und die Losung dann wieder in

x = e5−ln(y)

einsetzen.

Spatestens an dieser Stelle konnte man sich an die Sache mit der Gleichheit der Steigungen

erinnern...die Steigung der Zielfunktion ist−1, die Steigung der Nebenbedingung ist−y/x.

Wenn man das gleichsetzt, hat man y = x.

Das kann man einsetzen in die Nebenbedingung und erhalt

2 ln(x) = 5,

bzw.

x∗ = e5/2 = y∗.

Also: ich werbe hier bewusst ganz haufig fur die Methoden, die vielleicht auf den ersten

Blick etwas schwieriger sind: “Totales Differential anstatt Auflosen nach y und einfach

ableiten“ oder “Tangentialverfahren anstatt Einsetzmethode“. Und naturlich fuhrt der

einfachere Weg auch oft zum Ziel. Nur ware es schade, wenn man nur den einfachen Weg

kennt und der dann plotzlich nicht mehr funktioniert. Deshalb versucht man manchmal in

der Mathematik (und nicht nur dort) auch Wege zu gehen, die vielleicht etwas schwieriger

sind, aber dafur allgemeiner einsetzbar.

72

8.5 Die Methode nach Lagrange

Nun kommen wir zu der Standardmethode der Optimierung unter Nebenbedingungen, der

Methode nach Lagrange. Auch sie wird uns als wichtigstes Ergebnis liefern, dass man die

Steigungen der Hohenlinien von Nebenbedingung und Zielfunktion gleichsetzen muss, um

ein Extremum unter Nebenbedingungen zu finden. Also nicht wirklich viel Neues....In den

VWL-Veranstaltungen wird die Methode haufig einfach angeschrieben, auch wenn man

gleich die Steigungen gleichsetzen konnte bzw. das Einsetzverfahren bemuhen konnte. Die

Lagrangemethode ist also fast so etwas wie ein wissenschaftliches Ritual, und Ritualen

muss man manchmal Genuge tun.

Naturlich muss noch auch noch einiges zur Ehrenrettung der Lagrangemethode gesagt

werden. Sie wird uns dabei helfen, hinreichende Bedingungen fur Extrema unter Neben-

bedingungen zu finden und sie wird uns auch dabei helfen, zu sehen, wie sich der Wert

der Zielfunktion im Optimum verandert, wenn sich die Beschrankung andert. Außerdem

bildet die Lagrangemethode die Grundlage fur kompliziertere Optimierungsprobleme, z.B.

wenn wir Ungleichungen als Nebenbedingungen haben oder wenn wir mehr als eine Ne-

benbedingung haben.

Also doch soviel Nutzliches, dass es sich lohnt, zu starten.

Unser Problem lautet wieder

maxx,y

f(x, y)

unter der Nebenbedingung

g(x, y) = c.

Wir definieren die Lagrangefunktion L durch

L(x, y) = f(x, y)− λ(g(x, y)− c)

Dabei nennen wir λ den Lagrangemultiplikator oder den Lagrangeparameter. Er ist zunachst

nur eine Konstante, wir werden jedoch spater noch sehen, dass es durchaus eine ziemlich

vernunftige Interpretation fur λ gibt.

Wie geht man nun vor? Man schreibt zunachst die Lagrangefunktion hin. Dann bildet man

die partiellen Ableitungen der Lagrangefunktion nach x und y und setzt diese gleich Null.

Diese beiden Gleichungen, zusammen mit der Nebenbedingung, ergeben die folgenden drei

73

Gleichungen

fx(x, y)− λgx(x, y) = 0 (8.1)

fy(x, y)− λgy(x, y) = 0 (8.2)

g(x, y)− c = 0. (8.3)

Diese drei Gleichungen sind nun nach x, y und λ zu losen. Diese Bedingungen nennt man

auch die Bedingungen erster Ordnung: wenn x∗ und y∗ unser Problem losen, dann mussen

sie diese Bedingungen erfullen. Manchmal bezeichnet man die dritte Bedingung auch als

die Ableitung der Lagrangefunktion nach λ, was sicherlich mathematisch ebenfalls korrekt

ist. Im allgemeinen wird die Losung fur λ eine strikt positive Zahl ergeben, also λ∗ > 0..

Warum gibt uns diese Methode unser Extremum unter Nebenbedingungen? Nun: die

Lagrangemethode ist aquivalent zur Tangentialmethode. Und von der wissen wir ja, dass

sie uns zum Ziel fuhrt. Genau das ist die Aussage von

Satz 8.3. Ein Punkt (x∗, y∗) lost die Bedingungen erster Ordnung im Langrangeverfahren

genau dann, wenn der Punkt (x∗, y∗) die Losung des Tangentialverfahrens ist.

Beweis. Es handelt es sich um zwei aquivalente Aussagen, also mussen wir beide Rich-

tungen der Aussage betrachten. Zunachst zeigen wir, dass aus den Bedingungen erster

Ordnung der Lagrangemethode die Tangentialbedingung folgt. Dann zeigen wir, dass aus

der Tangentialbedingung die Langrangebedingungen folgen.

Angenommen, wir sind in einem Maximum (x∗, y∗). Betrachten wir unsere Bedingungen

erster Ordnung aus der Lagrangemethode, losen eine der Bedingungen nach λ und setzen

das Ergebnis in die andere Bedingung ein bekommen wir

fx(x∗, y∗)

fy(x∗, y∗)=

gx(x∗, y∗)

gy(x∗, y∗),

wobei wir darauf achten, dass die Nenner jeweils von Null verschieden sind. Aber diesen

Ausdruck kennen wir ja schon. Durch unsere graphischen Uberlegungen wissen wir, dass

das nichts anderes heißt als: Steigung der Hohenlinie der Zielfunktion gleich Steigung der

Hohenlinie der Nebenbedingung. Das ist aber genau der Inhalt der Tangentialbedingung.

Nun die andere Richtung des Beweises: aus der Tangentialbedingung folgen die Bedingun-

gen erster Ordnung der Lagrangemethode. Wenn - im Optimum - die Steigungen gleich

sind, ergibt eine einfach Umformung dass

fx(x∗, y∗)

gx(x∗, y∗)=

fy(x∗, y)

gy(x∗, y∗).

74

Bezeichne λ nun den gemeinsamen Wert dieser Bruche, also z.B.

fx(x∗, y∗)

gx(x∗, y∗)= λ.

Das konnen wir schreiben als

fx(x∗, y∗)− λgx(x

∗, y∗) = 0.

Ebenso erhaltem wir

fy(x∗, y∗)− λgy(x

∗, y∗) = 0.

Und diese beiden Bedingungen entsprechen exakt den Bedingungen erster Ordnung (8.1)

und (8.2), die wir aus der Lagrangefunktion gewinnen.

Q.E.D.

Probieren wir die Lagrange Methode noch einmal an einem Beispiel aus:

maxx,y

3 ln(x) + ln(y)

u.d.N.

3x + 5y = 20.

Die Lagrangefunktion lautet

L(x, y) = 3 ln(x) + ln(y)− λ[3x + 5y − 20]

Die Bedingungen erster Ordnung lauten

3

x− λ3 = 0 (8.4)

1

y− λ5 = 0 (8.5)

3x + 5y − 20 = 0 (8.6)

Nun konnen wir die erste durch die zweite dieser Gleichungen teilen und bekommen

3y

x=

3

5

bzw. x = 5y fur x 6= 0. Das konnen wir in die dritte Gleichung einsetzen und bekommen

x∗ = 5 und y∗ = 1. Außerdem konnen wir dann noch λ∗ = 1/5 berechnen.

Es ist leicht nachzuprufen, dass unsere “alten“ Methoden genau dasselbe Resultat fur x∗

und y∗ ergeben hatten, was sicherlich sehr beruhigend ist.

75

Welche Methode denn nun?

Es scheint etwas viel zu sein: Einsetzmethode, Steigungsmethode und jetzt noch die La-

grangemethode...zum Gluck fuhrt alles zum selben Ziel. Was nimmt man wann?

Wenn man einfach nur ein Maximum oder Minimum unter Nebenbedingungen finden

mochte und auch sonst (z.B. in einer Klausuraufgabe) nichts weiter dabei steht, pruft

man, ob die Einsetzmethode funktioniert. Sie ist die einfachste. Oder man riskiert erst

gar nicht, dass das vielleicht nicht geht und probiert gleich die Steigungsmethode.

Nur wenn es verlangt ist, dass man die Lagrangefunktion explizit hinschreiben soll und

das Problem mit ihr losen soll (aus was fur einem Grund auch immer), dann schreibt

man die Lagrangefunktion auch hin und lost diese nach den optimalen Werten und nach

λ. Ausserdem kann man gewisse Einsichten nur mit der Lagrangemethode gewinnen; zu

einer von ihnen kommen wir nun.

8.6 Interpretation des Lagrangemultiplikators

Wir betrachten wieder unser Problem

maxx,y

f(x, y)

u.d.N.

g(x, y) = c.

Im Allgemeinen werden die Werte x∗ und y∗, die dieses Problem losen, von c abhangen,

also schreiben wir x∗(c) bzw. y∗(c).

Die Zielfunktion nimmt also im Optimum auch einen Wert an, der von c abhangt:

f ∗(c) = f(x∗(c), y∗(c)).

Betrachten wir z.B. unser altes Problem

maxx,y

xy

aber nun unter der Nebenbedingung

x + 2y = c.

76

Wir rechnen x∗(c) = c/2 und y∗(c) = c/4 als Maximum aus. Unsere Zielfunktion nimmt

also im Optimum den Wert c2/8 an.

Die Frage ist nun: wie andert sich der Wert dieser Zielfunktion, also das Maximum, wenn

sich c um ein kleines bisschen andert? Das ist ein typisches Problem der so genannten

komparativen Statik: wie andern sich Variablen im Optimum (also Maximum oder

Minimum), wenn wir an einem Parameter des mathematischen Modells drehen? Muss ich

dafur jeweils das ganze Optimierungsproblem von Neuem berechnen? Nein, denn auch

hier hilft uns das totale Differential, denn fur den allgemeinen Fall haben wir

df ∗(c) = fx(x∗, y∗)dx∗ + fy(x

∗, y∗)dy∗.

Die Sterne bedeuten: wir betrachten das totale Differential am optimalen Punkt (x∗, y∗).

Aus den Bedingungen erster Ordnung der Lagrangemethode haben wir fx(x∗, y∗) =

λgx(x∗, y∗) und fy(x

∗, y∗) = λgy(x∗, y∗). Das setzen wir ein und bekommen

df ∗(c) = λgx(x∗, y∗)dx∗ + λgy(x

∗, y∗)dy∗.

Das λ konnen wir ausklammern...

df ∗(c) = λ(gx(x∗, y∗)dx∗ + gy(x

∗, y∗)dy∗).

Was ist der Ausdruck in der Klammer?

Da wir uns auf der Nebenbedingung bewegen, gilt, wegen g(x∗, y∗) = c auch, dass (totales

Differential)

gx(x∗, y∗)dx∗ + gy(x

∗, y∗)dy∗ = dc

Also haben wir

df ∗(c) = λdc,

bzw.

df ∗(c)dc

= λ.

Mit anderen Worten: λ misst, wie sich das Maximum (oder das Minimum) andert, wenn

wir c um eine kleine Einheit erhohen. In unserem obigen Beispiel konnen wir λ = c/4

berechnen. Das bedeutet: wenn wir c um ein kleines bisschen erhohen, dann erhoht sich

der Wert unserer Zielfunktion um c/4.

Wir konnen auch hier wieder obigen Ausdruck als Differential auffassen und schreiben:

df ∗(c) = λdc

77

Also: Anderung im Funktionswert am Optimum=λ mal Anderung in c.

Hier ein Zahlenbeispiel: fur c = 10 ist das Maximum f ∗(c = 10) = 25/2 = 12.5 an.

Wir haben λ = 5/2. Wenn wir also c erhohen, sagen wir auf c = 11, konnen wir also

abschatzen, dass das neue Maximum ungefahr 15(=12.5+2.5) sein wird, ohne das ganze

Problem neu durchrechnen zu mussen.

Machen wir dennoch die Kontrolle:

maxx,y

xy

u.d.N.

x + 2y = 11.

Gleichsetzen der Steigungen ergibt wieder x = 2y, in die Nebenbedingung damit und wir

bekommen x∗ = 22/4 und y∗ = 11/4 als neues Maximum. Das in die Zielfunktion gesteckt

ergibt

f ∗(c = 11) = 242/16 = 15.125.

Oben haben wir - letztlich wieder einmal mittels Verwendung des Differentials - geschatzt,

dass der neuen Funktionswert 15 sein wird. Also eine ziemlich gute Abschatzung.

Wir konnen ubrigens auch eine Aussage uber das Vorzeichen von λ treffen.

Satz 8.4. Seien fx(x, y) > 0, fy(x, y) > 0, gx(x, y) > 0, gy(x, y) > 0 fur alle (x, y), die

die Nebenbedingung g(x, y) = c erfullen. Dann gilt fur eine Losung (x∗, y∗) des Optimie-

rungsproblems, dass λ∗ > 0.

Beweis. Die Bedingungen erster Ordnung mittels des Lagrangeansatzes lauten ja

fx(x, y)− λgx(x, y) = 0 (8.7)

fy(x, y)− λgy(x, y) = 0 (8.8)

g(x, y)− c = 0. (8.9)

Angenommen, fur eine Losung des Optimierungsproblemes (x∗, y∗) gilt λ∗ ≤ 0. Da in

(8.7) und (8.8) alle partiellen Ableitungen im relevanten Bereich - der Menge aller (x, y)

mit g(x, y) = c - strikt positiv sind, waren dann beide Gleichungen nicht erfullt. Dann

haben wir aber auch das Optimierungsproblem nicht gelost, da wir ja wissen, dass sie

notwendigerweise erfullt sein mussten. Widerspruch.

78

Also muss λ∗ > 0 gelten.

Q.E.D.

Man kann sich die Aussage dieses Satzes auch intuitiv klar machen: Wenn λ = 0 ware,

dann ware das ja so, als wurde die Nebenbedingungen uberhaupt keine Rolle spielen.

Denn dann sehen die Bedingungen erster Ordnung ja genau so aus wie bei einem Opti-

mierungsproblem ohne Nebenbedingungen. Was ist mit λ < 0? Angenommen, wir haben

ein Maximierungsproblem. Wir haben oben gesehen, dass λ anzeigt, um wie viel sich das

Maximum f(x∗, y∗) andert, wenn wir c, den Wert der Beschrankung andern. Bei λ∗ < 0

hieße das aber beispielsweise in Peters Problem: wenn er mehr Geld hat, sinkt sein Wohl-

ergehen im Optimum. Das ist sicher kein sehr sinnvolles Ergebnis.

8.7 Hinreichende Bedingungen

Die Methode der Lagrangemultiplikatoren gibt uns nur notwendige Bedingungen fur die

Losung unseres Maximierungs- bzw. Minimierungsproblems unter Nebenbedingungen an.

Woher wissen wir also, ob wir auch wirklich ein Maximum bzw. ein Minimum gefunden

haben? Dazu reicht es aus, die Lagrangefunktion auf Konkavitat bzw. Konvexitat zu

prufen. Warum? Angenommen, ein Punkt (x∗, y∗) maximiert die Lagrangefunktion fur

alle (x, y). Dann gilt

L(x∗, y∗) = f(x∗, y∗)− λ(g(x∗, y∗)− c) ≥ L(x, y) = f(x, y)− λ(g(x, y)− c)

fur alle (x, y). Wenn (x∗, y∗) dann auch noch die Nebenbedingung g(x∗, y∗) = c erfullt,

dann folgt aus obiger Gleichung (da die beiden Terme in der Klammer, also hinter dem

λ, beide Null sind), dass

f(x∗, y∗) ≥ f(x, y)

fur alle (x, y) mit g(x, y) = c. Somit lost (x∗, y∗) auch wirklich das eigentliche Maximie-

rungsproblem. Wann aber maximiert ein stationarer Punkt die Lagrangefunktion? Nun,

wenn diese konkav ist. Das wissen wir bereits aus dem Abschnitt uber Optimierung oh-

ne Nebenbedingungen. Also mussen wir lediglich die Konkavitat der Lagrangefunktion

uberprufen und haben somit gerade folgenden Satz bewiesen.

Nochmal: wenn die Lagrangefunktion konkav ist, maximiert ein stationarer Punkt der

Lagrangefunktion die Lagrangefunktion. Wenn aber ein stationarer Punkt der Lagrange-

funktion diese maximiert, dann lost er auch unser eigentliches Problem der Maximierung

von f unter der Nebenbedingung g(x, y) = c.

79

Satz 8.5. Angenommen, (x∗, y∗) sei ein stationarer Punkt fur die Lagrangefunktion L(x, y).

Wenn die Lagrangefunktion L konkav in (x, y) ist, dann lost (x∗, y∗) das Maximierungs-

problem.

Wenn die Lagrangefunktion L konvex in (x,y) ist, dann lost (x∗, y∗) das Minimierungs-

problem.

Wie uberprufen wir Konkavitat bzw. Konvexitat der Lagrangefunktion? Genauso wie bei

Optimierungsproblemen ohne Nebenbedingung, nur dass wir eben die Lagrangefunktion

auf Konkavitat bzw. Konvexitat uberprufen. Die Lagrangefunktion ist konkav falls, fur

alle (x, y) ∈ D

Lxx(x, y) ≤ 0,Lyy(x, y) ≤ 0 und Lxx(x, y)Lyy(x, y)− (Lxy(x, y))2 ≥ 0.

Die Lagrangefunktion ist konvex falls, fur alle (x, y) ∈ D

Lxx(x, y) ≥ 0,Lyy(x, y) ≥ 0 und Lxx(x, y)Lyy(x, y)− (L′′xy(x, y))2 ≥ 0.

Beispiele 8.1. Gegeben sei folgendes Problem:

maxx,y

xαyβ

mit 0 < α < 1, 0 < β < 1, x ≥ 0, y ≥ 0 unter der Nebenbedingung

x + 2y = c.

Ich behaupte, dass ein stationarer Punkt der Langrangefunktion ein Maximum ist, falls

α + β ≤ 1.

Hier ist das Argument: Die Lagrangefunktion lautet

L(x, y) = xαyβ − λ[x + 2y − c].

Die Hesse Matrix dieser Funktion ergibt sich als

(α(α− 1)xα−2yβ αβxα−1yβ−1

αβxα−1yβ−1 β(β − 1)xαyβ−2

)

Wir wenden die Kriterien an: Lxx(x, y) ≤ 0, da 0 < α < 1. Ebenso haben wir Lyy(x, y) ≤0, da 0 < β < 1. Nun zum letzten Term. Wir mussen das Vorzeichen von

α(α− 1)xα−2yβ · β(β − 1)xαyβ−2 − [αβxα−1yβ−1]2

80

ermitteln. Wenn man den vorderen Term zusammenfasst und im hinteren Term das Qua-

drat in die Klammer multipliziert haben wir

αβ(α− 1)(β − 1)x2α−2y2β−2 − α2β2x2α−2y2β−2.

Hier kann man nun ausklammern:

αβx2α−2y2β−2[(α− 1)(β − 1)− αβ].

Wann ist dieser Term ≥ 0? Da alles vor der eckigen Klammer positiv ist, kommt es auf

den Term in der Klammer an und

(α− 1)(β − 1)− αβ ≥ 0

gilt, wenn α + β ≤ 1.

Wenn wir dann also ein (x0, y0) finden, dass die Bedingungen erster Ordnung fur unsere

Lagrangefunktion lost, dann muss dieser Punkt (x0, y0) auch ein Maximum sein. Es kann

naturlich sein, dass der Parameter λ auch in der Hesse Matrix noch auftaucht. Dann

erinnert man sich daran, dass λ > 0 gilt.

Es gibt auch - wie im Falle der Optimierung ohne Nebenbedingungen - lokale Bedingungen

zweiter Ordnung. Diese involvieren aber das Auswerten von Hesse Matrizen mit drei Spal-

ten und drei Reihen und sind nicht besonders anschaulich. Zudem werden in den meisten

Anwendungen ohnehin Probleme betrachtet, deren Lagrangefunktion global konkav bzw.

konvex ist. Also verzichten wir grosszugig auf die lokalen Bedingungen zweiter Ordnung.

Beim Einsetzverfahren muss man ubrigens etwas anders vorgehen: hier muss ich nicht

die Lagrangefunktion auf Konkavitat uberprufen, sondern muss mich mit der Funktion

f(x, y(x)) beschaftigen. Das ist die Funktion f , nachdem ich die Nebenbedingung einge-

setzt habe. Anhand dieser Funktion muss ich dann fur jede Nullstelle der ersten Ableitung

checken, ob es sich um ein Maximum oder um ein Minimum handelt.

Was passiert, wenn mir das Lagrangeverfahren mehrere stationare Punkte liefert? Ei-

gentlich mussten wir dann lokale hinreichende Bedingungen betrachten, aber, wie schon

gesagt, das lassen wir lieber....also bleibt uns nur, die Kandidaten in die Zielfunktion

einzusetzen und zu schauen, bei welchem Punkt wir ein Maximum oder ein Minimum

erreichen, wir vergleichen also die Funktionswerte.

81

8.8 Randextrema

Auch bei Optimierungsproblemen mit Nebenbedinungen kann es zu den ungeliebten Randlosun-

gen kommen. Betrachten wir das Problem

maxx,y

x2 + 5y

u.d.N.

x + y = 10.

Das ist eine Variante des Beispiels, welches wir in Abschnitt 7.4 hatten. Stellt man

die Lagrangefunktion auf und lost die Bedingungen erster Ordnung, erhalt man wie-

der x = 5/2 als Losungskandidat (nachrechnen!). Aus der Nebenbedingungen hat man

dann y = 15/2. Doch ist das wirklich unser Maximum? Eine Untersuchung ergibt, dass

die Lagrangefunktion nicht konkav ist...also konnen wir uns nicht sicher sein, was wir da

gefunden haben. Noch viel schlimmer: die Lagrangefunktion ist konvex, also haben wir

mit (x, y) = (5/2, 15/2) ein Minimum gefunden. Man sieht aber auch, dass die Funktion

in beiden Argumenten steigt. Also muss das Maximum am Rand liegen, aber auf der

Nebenbedingung. Das bedeutet: entweder ist x oder y gleich Null. Setzt man x = 10 und

y = 0, sieht man schnell, dass hier der Funktionswert großer ist, als wenn y = 10 und

x = 0.

82

Kapitel 9

Der Extremwertsatz

Wir wollen uns nun mit der Frage beschaftigen, welche Funktionen uberhaupt Extrema,

also Maxima bzw. Minima haben. Dazu machen wir es uns zunachst so einfach wie moglich

und betrachten Funktionen mit einer Variablen und lassen auch die Nebenbedingung weg.

Unser Ziel wird der Extremwertsatz sein: dieser gibt hinreichende Bedingungen an, wann

wir ein Maximum bzw. ein Minimum haben. Man kann diesen Satz dann sehr leicht auf

Funktionen mehrerer Variablen (mit oder ohne Nebenbedingungen) erweitern. Wichtig ist

aber, dass man fur eine Variable verstanden hat, worum es geht. Auch wichtig ist, dass

man verstanden hat, dass es hier (nur) um einen Existenzsatz geht: solche Satze sagen in

der Mathematik nur, wann bzw. dass etwas existiert. Wir werden also auf der Suche sein,

nach einer Aussage der Form “...es gibt ein...“. Das bedeutet in der Mathematik dann

immer: “es gibt mindestens ein“. Existenzaussagen dieser Form sagen nichts daruber aus,

wie denn jetzt die Losung genau aussieht, bzw. wie man sie bekommt. Diese Existenzsatze

sagen nur, dass es eine gibt. Das ist manchmal aber schon ganz schon viel wert...

9.1 Extrema bei Funktionen einer Variablen

Betrachten wir also eine Funktion f : D → R. Hier ist D ⊆ R. Der Einfachheit halber

werde ich auch bei Funktionen einer Variablen von einem Maximumpunkt sprechen, auch

wenn ich eigentlich nur den x−Wert meine, also eine Maximalstelle.

Definition 9.1. Ein Punkt c ∈ D ist ein Maximumpunkt fur f , wenn f(c) ≥ f(x) fur

alle x ∈ D. Wir sagen, dass f dann sein Maximum im Punkt c erreicht.

Die Definition fur einen Minimumpunkt geht analog....die Definition fur einen strikten

83

Maximumpunkt wurde dann ein > statt ein ≥ verwenden. Extremum ist auch hier wie-

der der Oberbegriff fur ein Maximum oder ein Minimum. Und auch bei Funktionen einer

Variablen konnen wir wieder zwischen lokalen und globales Extrema unterscheiden: bei

einem lokalen Minimum z.B. ist der Funktionswert an dieser Stelle kleiner als die Funk-

tionswerte ganz nah um diese Stelle herum, es kann aber sein, dass es “weiter weg“ noch

Punkte gibt, bei denen die Funktion kleinere Werte annimmmt.

Bevor wir zum Existenzsatz kommen, laufen wir uns schon noch ein bisschen warm und

reden erst einmal daruber, wie wir denn hier ein Maximum oder Minimum finden. Denn:

wenn wir eins gefunden haben, brauchen wir naturlich auch keinen Existenzsatz mehr.

Den braucht man dann nur, wenn man es nicht ausrechnen kann, will oder soll. Ich mochte

hier, ohne besonderen Grund, mit den lokalen Extrema beginnen. Eine erste, manchmal

aber zu einfache Antwort ist: wir setzen die erste Ableitung gleich Null (notwendige Be-

dingung), finden also einen (oder mehrere) stationare Punkte und checken dann noch die

zweite Ableitung (hinreichende Bedingung). Ist die an einem stationaren Punkt kleiner

(bzw. kleiner oder gleich) Null, haben wir ein Maximum.

Das Beispiel f(x) = x4 macht sofort klar, dass das so nicht immer klappt. An der Stelle

x = 0 ist die erste Ableitung Null, also f ′(0) = 0, aber die zweite Ableitung ist an dieser

Stelle auch Null. Dennoch konnen wir durch eine kurze Zeichnung schnell feststellen,

dass wir an dieser Stelle ein Minimum haben. Also mussen wir etwas genauer sein. Wir

stellen fest: links von x = 0 fallt die Funktion, rechts davon steigt sie wieder. Mit anderen

Worten: links von x = 0 gilt f ′(x) < 0, rechts davon gilt f ′(x) > 0. Ein weiteres Beispiel,

was in diese Kategorie fallt, ware f(x) = x3. Sie sollten sich auch hier nochmals klar

machen, dass Nullsetzen der ersten Ableitung hier nicht zum Maximumpunkt fuhrt. Wir

lernen aus diesen Beispielen das folgende: das Entscheidende bei einem Maximum ist nicht

so sehr das Vorzeichen der zweiten Ableitung. Es ist vielmehr der Vorzeichenwechsel

der ersten Ableitung an der Stelle f ′(x) = 0, der immer weiterhilft. Also kann

es manchmal notig sein, sich die ersten Ableitungen rechts und links eines stationaren

Punktes anzusehen. All dies fassen wir nun zusammen.

Satz 9.1. Wenn x ein lokales Extremum (Maximum oder Minimum) ist, so ist f ′(x) = 0.

Man nennt x dann einen stationaren Punkt.

Satz 9.2. Sei f ′(c) = 0. Dann ist c ein lokales Maximum, wenn eine der folgenden

Bedingungen erfullt ist:

• f ′′(c) < 0.

• f ′(c) ≥ 0 fur x ≤ c und f ′(c) ≤ 0 fur x ≥ c.

84

Es sollte eine leichte Ubung fur Sie sein, den analogen Satz fur ein lokales Minimum zu

formulieren.

Ganz besonders einfach ist das alles, wenn f eine konvexe oder konkave Funktion ist. Das

kennen Sie zwar nun schon hoffentlich, aber eine kleine Wiederholung schadet ja nie...

Eine Funktion f ist (streng) konkav, wenn f ′′(x) ≤ (<)0 fur alle x ∈ D. Eine Funktion

f ist (streng) konvex, wenn f ′′(x) ≥ (>)0 fur alle x ∈ D.

Die folgende Behauptung ist dann klar.

Satz 9.3. Ist f eine konkave Funktion, dann sind folgende Aussagen aquivalent:

(i) c ist ein stationarer Punkt.

(ii) c ist ein lokales Maximum.

Ist f eine konvexe Funktion, ist naturlich ein Punkt c genau dann ein stationarer Punkt,

wenn c ein lokales Minimum ist.

Wie bei Funktionen von zwei Variablen gelten Aussagen mit stationaren Punkten ins-

besondere fur Extreme im Inneren des Definitionsbereichs. Aber naturlich kann man ein

Maximum oder Minimum auch am Rand des Definitionsbereichs haben: wie man sich

schnell klar macht, muss bei einem lokalen Maximum am rechten Rand des Definitionsbe-

reichs die erste Ableitung an dieser Stelle groser oder gleich Null sein; haben wir dagegen

z.B. ein lokales Minimum am linken Rand des Definitionsbereichs, ist dort die erste Ab-

leitung kleiner oder gleich Null.

Satz 9.4. Sei f : [a, b] → R. Wenn b ein lokaler Maximumpunkt ist, dann gilt f ′(b) ≥ 0.

Wenn a ein lokaler Maximumpunkt ist, dann gilt f ′(a) ≤ 0.

Auch hier konnen Sie sicher problemlos den analogen Satz fur ein Minimum formulieren.

Mochte man also nun ein globales Maximum suchen, muss man zuerst alle stationaren

Punkte finden und prufen, ob es sich dort um lokale Maxima handelt. Dann sollte man

noch die Randpunkt des Definitionsbereichs in f einsetzen, um zu checken, ob das globale

Maximum vielleicht an einem der beiden Rander liegt.

Nun brauchen wir noch ein paar Begriffe, zunachst den der Stetigkeit. Grob gesagt ist

ein Funktion stetig, wenn eine kleine Anderung im Argument keine große Anderung im

Funktionswert bewirkt.

85

Die mathematische Definition geht so: wir nahern uns mit unserer Variablen x einem

Punkt a. Das schreibt man auch limx→a. Dann wollen wir, dass der Funktionswert, also

f(x) auch am Punkt a den Funktionswert des Punktes a annimmt und nicht irgendeinen

anderen Wert. Eine Funktion f ist also stetig an einer Stelle x = a, wenn wir alle moglichen

Annaherungen von x−Werten an a betrachten, und aber gleichzeitig der Funktionswert

dieser x−Werte dann auch genau den Funktionswert an der Stelle a trifft.

Definition 9.2 (Stetigkeit). Eine Funktion f : D → R ist stetig an einer Stelle a, wenn

limx→a f(x) = f(a).

Also mussen die folgenden Bedingungen erfullt sein:

• f muss an der Stelle x = a definiert sein.

• Der Grenzwert von f(x), wenn x gegen a geht, muss existieren. Das bedeutet: es

muss sich um eine reelle Zahl handeln (also nicht plus oder minus unendlich)

• Der Grenzwert muss genau f(a) sein.

Alle Funktionen der Form axn + bxn−1 + ... + c (das sind Polynome) sind stetig. Die

e−Funktion ist stetig, der Logarithmus ist stetig, Summen, Produkte, Quotienten und

Differenzen von stetigen Funktionen sind stetig, Verkettungen von stetigen Funktionen

sind ebenfalls stetig. Und naturlich gilt: wenn ich von einer Funktion eine schone, normale

Ableitung bilden kann, dann ist sie stetig. Umgekehrt gilt das nicht: es gibt Beispiele

fur stetige Funktionen, die ich nicht an jeder Stelle so einfach ableiten kann, z.B. die

Funktion f(x) = |x|. An der Stelle x = 0 habe ich Probleme mit der Ableitung: dort gibt

es einen Knick...und wir wissen ja: Ableitung= Steigung der Tangenten an diesem Punkt.

Allerdings kann ich an einem Knick den Funktionsverlauf eben nicht durch eine Tangente

annahern, deren Steigung der Steigung der Funktion irgendwie entspricht. Also kann ich

die Betragsfunktion am Punkt x = 0 nicht ableiten. Aber ich kann die zeichnen, ohne den

Stift vom Blatt zu nehmen, also ist sie stetig.

Hier noch ein Hinweis. Der mathematische Begriff der Stetigkeit stimmt nicht immer

mit unserer Intuition uberein, dass unsere Funktion keine Lucken hat. Sei D = [0, 1] ∪{2} und f : D → R irgendeine Funktion. f ist stetig in 2, obwohl die Funktion dort

springt. Warum? Jede Annaherung aus D, mit der wir uns 2 nahern, muss ja irgendwann

hinreichend nahe an 2 sein. Bei dieser Definitionsmenge geht das aber nur, wenn die

x−Werte, mit denen wir uns der 2 annahern, eben genau 2 sind....dann ist aber auch der

Funktionswert f(x) = 2 und das ist er auch an der Stelle 2, f(2) = 2. Man nennt einen

86

solchen Punkt, wie 2 hier, einen isolierten Punkt und wir haben gelernt, dass an isolierten

Punkten einer Definitionsmenge jede Funktion stetig ist.

Nun ist noch ein letzter Begriff zu klaren, der eines abgeschlossenen, beschrankten

Intervalles. Was ein abgeschlossenes Intervall ist, durfte klar sein, namlich ein Intervall

der Form [a, b]. Ein offenes Intervall ware dann (a, b). Ein Intervall ist beschrankt, wenn

links und rechts des Intervalles Schranken angeben kann, in die das Intervall reinpasst.

Anders formuliert: Ein unbeschranktes Intervall ware eines, bei welchem wir am rechten

oder linken Intervallrand ein plus oder minus unendlich stehen haben.

Wir konnen nun unseren Satz aufschreiben.

Satz 9.5 (Extremwertsatz). Sei f eine stetige Funktion auf einem abgeschlossenen

beschrankten Intervall [a, b]. Dann hat die Funktion f sowohl ein Minimum als auch ein

Maximum.

Anstatt eines Beweises ist es einleuchtender, sich klar zu machen, was passieren kann,

wenn eine oder alle der hinreichenden Bedingungen in diesem Satz nicht erfullt sind. Die

Betonung liegt hier auf “kann“: es sind nur hinreichende Bedingungen, keine notwendigen.

Wir konnen also auch ein Maximum haben, wenn die Funktion nicht stetig ist. Nur: wenn

sie stetig ist (und wenn der Definitionsbereich abgeschlossen ist), dann haben wir sicher

ein Maximum....hier ist es vielleicht nochmal hilfreich, sich die Bedeutung von “notwendig

“und “hinreichend“klar zu machen.

Betrachten wir also ein paar Beispiele: naturlich werden diese Beispiele so einfach sein,

dass man schon anhand einer Zeichnung sieht, ob die Funktion denn nun ein Maximum hat

oder nicht. Dennoch: anhand der leichten Beispiele kann man vielleicht doch ein bisschen

erkennen, was die obigen, hinreichenden Bedingungen bewirken, bzw. was schief gehen

kann, wenn sie nicht erfullt sind.

1. f : [1, 5] → R mit f(x) = x + 1. Diese Funktion ist stetig. Außerdem ist der Defi-

nitionsbereich abgeschlossen und beschrankt. Also hat die Funktion ein Maximum

und ein Minimum.

2. f : [1, 5] → R mit f(x) = 3x2 + 4x + 1. Diese Funktion kann man nicht so einfach

zeichnen. Aber sie ist ganz sicher eine stetige Funktion, hat keine Sprunge und

hat einen abgeschlossenen und beschrankten Definitionsbereich. Also hat sie ein

Maximum und ein Minimum.

3. f : [1, 5) → R mit f(x) = x+1. Diese Funktion hat keinen abgeschlossenen Definiti-

onsbereich. Es kann also sein, dass sie kein Maximum oder Minimum hat. Zeichnen

87

wir die Funktion: wir stellen fest, sie hat kein Maximum....fur x ganz nahe an 5

kommen wir immer naher an den Funktionswert 6 dran, aber wir erreichen ihn

nicht, da die 5 nicht mehr im Definitionsbereich liegt. Also konnen wir keine Zahl c

bestimmen mit f(c) ≥ f(x) fur alle x ∈ [1, 5). Die Funktion hat aber ein Minimum

im Punkt x = 1.

4. f : [1, 5) → R mit f(x) = 2 fur 1 ≤ x < 2 und f(x) = 1 + x fur 2 ≤ x ≤ 5. Auch

diese Funktion hat kein Maximum....aber die Funktion hat unendlich viele Minima:

alle Punkte im Intervall [1, 2) sind Minima der Funktion.

5. f : [1, 5] → R mit f(x) = x fur 1 ≤ x ≤ 2 und f(x) = 1 fur 2 < x ≤ 5. Hier sehen

wir, dass es sich nur um hinreichende Bedingungen handelt: diese Funktion ist nicht

stetig und dennoch hat sie ein Maximum am Punkt x = 2.

6. f : [1, 5] → R mit f(x) = x2 fur 1 ≤ x ≤ 2 und f(x) = 6 − x fur 2 < x ≤ 5. Auch

diese Funktion ist abschnittsweise definiert. Aber sie hat an der Stelle x = 2 keinen

Sprung; also ist sie stetig, der Definitionsbereich ist beschrankt und abgeschlossen,

also hat die Funktion ein Maximum, was man naturlich auch im Bild sieht.

9.2 Der Extremwertsatz bei Funktionen von zwei Va-

riablen

Wenn wir nun den Extremwertsatz schon einmal haben, konnen wir ihn auch ganz leicht

auf den Fall von Funktionen von zwei Variablen ausdehnen. Wir betrachten also eine

Funktion f von zwei Variablen x und y. Auch hier konnen wir uber Stetigkeit reden:

eine Funktion von zwei Variablen ist dann stetig, wenn es in ihrem Graphen keine Locher

oder Sprunge gibt. Hier muss man sich wieder die dreidimensionalen Bilder zu Beginn des

Semesters vorstellen....

Auch hier brauchen wir neben der Stetigkeit auch eine Bedingung fur die Definitionsmen-

ge D. Diese ist nun zweidimensional, da wir ja die Funktion fur jedes (x, y)−Paar definiert

haben. Die Definitionsmenge konnen wir also in einem (x, y)−Koordinatensystem darstel-

len. Also dem Raum, in dem wir die ganze Zeit unsere Isohohenlinien betrachtet haben.

Was wir brauchen, sind auch hier Begriffe der Beschranktheit und der Abgeschlossenheit

von Mengen im Raum R2.

Zunachst eine etwas saloppe Definition der Beschranktheit. Fur eine genauere Definition

brauchten wir Vektoren bzw. einen Abstandsbegriff fur den Rm.

88

Definition 9.3. Eine Menge S ⊂ R2 ist beschrankt, wenn die Menge in einem Kasten

mit endlicher Seitenlange k enthalten ist.

Beschrankt heißt also: ich kann die Menge D in einen Kasten packen, und die Menge D

ist immer vollstandig drin enthalten.

Was bedeutet hier abgschlossen? Vielleicht ist es einfacher, zunachst uber offene Mengen

zu reden. Hierzu definieren wir zunachst Uε(a) als einen Ball bzw. einen Kreis mit dem

Radius ε um den Punkt a. Hier ist ε klein, jedoch strikt positiv.

Definition 9.4. Eine Menge S ist offen wenn fur alle a ∈ S gilt: b ∈ Uε(a) ⇒ b ∈ S.

Eine Menge S ist also offen, wenn wir uns folgendes vorstellen konnen: wir sind in der

Menge S und durfen uns nur in kleinsten Schritten bewegen. Um jeden Punkt a darf ich

mich nur in einem kleinen Radius von ε bewegen. Bei einer offenen Menge kann ich dann

nie aus dieser Menge herausfallen. Grob gesprochen konnte man auch sagen: bei einer

offenen Menge gehort der Rand nicht dazu.

Definition 9.5. Eine Menge S ⊂ R2 ist geschlossen, wenn ihr Komplement S = R2\Soffen ist.

Da bei einer offenen Menge die Randpunkte nicht dazugehoren, kann man auch sagen:

eine Menge ist abgeschlossen, wenn ihre Randpunkte dazugehoren.

Haufig nennt man eine Menge S, die abgeschlossen und beschrankt ist, auch eine kom-

pakte Menge.

Beispiele 9.1. (i) Die Menge

S = {(x, y) : x + 2y = 10, x, y ∈ R}

ist abgschlossen, aber nicht beschrankt: diese Menge ist eine Hohenlinie und sicher gehort

der Rand dazu, also ist die Menge abgeschlossen. Da aber x und y bis ins Unendliche

wachsen konnen, ist die Menge nicht beschrankt.

(ii) Die Menge

S = {(x, y) : x + 2y = 10, x ≥ 0, y ≥ 0}

ist abgeschlossen und beschrankt.

89

(iii) Die Menge

S = {(x, y) : x + 2y < 10, x ≥ 0, y ≥ 0}

ist offen und beschrankt.

(iv) Die Menge

S = {(x, y) : x2 + y2 < 1}

ist offen und beschrankt.

Der Extremwertsatz fur Funktionen von zwei Variablen lautet nun ganz ahnlich wie die

Variante fur Funktionen einer Variablen.

Satz 9.6 (Extremwertsatz). Wenn die Funktion f : D → R2 stetig ist und ihre Defi-

nitionsmenge D eine abgschlossene und beschrankte Menge ist, dann hat die Funktion f

sowohl ein Maximum als auch ein Minimum auf D.

Bei Optimierungsproblemen unter Nebenbedingungen entspricht die Definitionsmenge ge-

nau der Menge von (x, y)−Kombinationen, die wir gemass der Nebenbedingungen wahlen

durfen. Das bedeutet: um zu uberprufen, ob ein Maximierungsproblem sicher eine Losung

hat, betrachten wir unsere Nebenbedingung und checken, ob die (x, y)−Kombinationen,

die wir wahlen durfen, eine abgeschlossene, beschrankte Menge bilden. Ist die Zielfunktion

dann noch stetig, ist die Existenz eines Maximums und eines Minimums gesichert.

Beispiele 9.2. Betrachten Sie das Problem

maxx,y

ex2y3

unter der Nebenbedingung:

3x + 5y = 10 x, y ≥ 0.

Die Zielfunktion ist ganz sicher einer stetige Funktion. Die Nebenbedingung ist eine Linie,

alle Punkte auf der Linie gehoren zur Linie, also ist die Menge der (x, y), die duch die Ne-

benbedingung vorgegeben ist, abgeschlossen. Ich kann die Menge auch in einen Kasten mit

endlicher Seitenlange packen, also ist die Menge beschrankt. Mittels des Extremwertsatzes

folgern wir dann, das unser Problem eine Losung hat.

90

Kapitel 10

Komparative Statik und der

Implizite Funktionen Satz

Bis jetzt haben wir gesehen, wie wir expliziet Losungen von Optimierungsproblemen,

also z.B. Maximumpunkte, berechnen. Der Extremwertsatz sagt uns, ob sie uberhaupt

existieren.

Nun wollen wir uns mit der Frage beschaftigen, wie sich diese Maximalpunkte andern,

falls sich andere Parameter des (mathematischen) Modells andern. Eigentlich tauchte

diese Frage in der ein oder anderen Ubungsaufgabe immer mal wieder auf, damit Sie

sich an diese Art der Fragestellung etwas gewohnen. Die Fragen klangen immer so:“Wie

andert sich...wenn sich...andert¿‘ Nun schauen wir uns dieses Problem (noch einmal) etwas

genauer an. Es geht also um Fragen folgender Art:

• Wie andert sich die nachgefragte Menge nach einem Gut, wenn sich das Einkommen

des Konsumenten, der Preis oder ein Steuersatz andert?

• Wie andert sich die kostenminimale Inputkombination einer Unternehmung, falls

sich ein Faktorpreis oder ein Parameter der Technologie andert?

An einer anderen Stelle wurden wir mit einer ahnlichen Frage konfrontiert: wie andert

sich der Wert der Zielfunktion, also das Maximum oder Minimum, falls sich der Wert der

Beschrankung andert? In diesem Fall war es der Lagrangeparameter λ, der uns bei der

Beantwortung dieser Frage half. Fragen dieser Art fasst man unter dem Stichwort kom-

parative Statik zusammen. Komparativ, weil man einen Zustand vor einer Anderung

mit dem Zustand nach einer Anderung vergleicht. Was ist noch wichtig?

91

• Es andert sich immer nur ein Parameter im Modell, alle anderen werden festgehalten.

• Man erfasst den Effekt dieser Anderung durch Ableitungen bzw. Differentiale. Das

heißt man betrachtet die Anderungen naherungsweise. Wir haben aber anhand von

vielen Beispielen schon gesehen, dass diese Naherungen ziemlich gut sind.

• Man interessiert sich oft nur fur das Vorzeichen der Anderung (das Vorzeichen der

Ableitung), also ob die Nachfrage steigt oder fallt, wenn sich der Preis andert.

• Man nennt die Variablen im Modell, die man zunachst berechnet, also Maximum-

punkte oder Minimumpunkte oder sonstige Losungen - z.B. Gleichgewichte in Ma-

kromodellen - auch endogene Variablen. Man nennt die Parameter im Modell, an

denen man dreht, auch oft exogene Variablen. Man mochte also wissen, wie

sich die endogenen Variablen eines Modells andert, wenn sich eine exo-

gene Variable andert.

10.1 Erinnerung: der Satz uber implizite Funktionen

Bevor wir uber komparative Statik zu reden, wollen wir das wichtigste Hilfsmittel dazu

noch einmal studieren: wir wollen noch einmal uber implizite Funktionen und den Satz

uber implizite Funktionen reden.

Implizite Funktionen tauchten zum ersten Mal im Zusammenhang mit Hohenlinien auf.

Wir haben sie allerdings auch schon im Zusammenhang mit Optimierungsproblemen ge-

sehen. Dort tauchten Sie - wenn auch etwas versteckt - in Ubungsaufgaben auf, bei denen

es eben um die Frage ging, wie sich ein Maximum- oder Minimumpunkt andert, wenn sich

ein (exogener) Parameter andert. Und das ist eben genau komparative Statik.

Zur Erinnerung: eine implizite Funktion wird durch eine Gleichung bestimmt, bei der die

uns interessierenden Variablen auf derselben Seite der Gleichung stehen.

Das erste Beispiel, das wir gesehen haben, war eine Hohenlinie. So ist beispielsweise y fur

f(x, y) = x + yx + y = c implizit als Funktion von x definiert (und x auch implizit als

Funktion von y). Diese Gleichung konnen wir explizit nach y auflosen und dy/dx = y′(x)

bilden. Das ist nun auch fur kompliziertere Funktionen so, die wir nicht explizit nach y

auslosen konnen. Denn fur diese Falle haben wir ja den Satz uber implizite Funktionen,

der uns sagt: falls fy(x0, y0) 6= 0, existiert eine Funktion y = y(x), auch wenn wir sie nicht

92

explizit hinschreiben konnen. Die Ableitung dieser Funktion ist

dy

dx= −fx(x, y)

fy(x, y)

fur alle (x, y) gleich oder nahe bei (x0, y0). Das ist dann die Steigung der Hohenlinie am

Punkt (x0, y0). Ganz besonders gut ist die Lage nun, wenn das fur jeden Punkt (x, y) mit

f(x, y) = 0 gilt, da wir dann diese Ableitung ja an jedem Punkt (x, y) berechnen konnen.

Wir hatten uns diesen Zusammenhang in Kapitel 4 am Beispiel der Kreisgleichung f(x, y) =

x2 + y2 = 1 klar gemacht. In den Anwendungen gibt es nun viele weitere Moglichkeiten,

wo einem implizite Funktionen begegnen konnen. Eine davon ist das oben beschrieben

Problem der komparativen Statik.

10.2 Funktionen einer Variablen

Sei f : D → R mit D ⊆ R+. Angenommen, wir wollen eine Funktion f maximieren, die

noch von einem Parameter a abhangt, also f(x, a). Hier ist also x die endogene Variable

und a ein exogener Parameter.

Beispiel 1: Sei also zum Beispiel f(x, y) = ln(x) − ax. Sucht man das Maximum dieser

Funktion, bildet man die erste Ableitung und erhalt die Bedingung erster Ordnung

1

x− a = 0.

Diese Gleichung kann man nun nach x∗(a) = 1/a losen. Ich werde im folgenden ubrigens

manchmal das a im Argument des x∗(a) weglassen und nur x∗ schreiben. Gemeint ist

dann immer, das x∗ weiterhin vom Parameter a abhangt.

Komparative Statik bedeutet nun: wir mochten wissen, wie sich x∗(a) andert, falls sich a

andert. Dabei interessiert man sich immer fur eine naherungsweise Betrachtung, d.h. man

interessiert sich fur die Ableitung

dx∗(a)

da= − 1

a2< 0.

Das bedeutet: wenn sich a erhoht, ist der “neue“ Maximumpunkt, also der nach “An-

derung des a niedriger als der beim “alten“ a, da die Ableitung ein negatives Vorzeichen

hat.

Die Botschaft dieses Kapitels ist nun folgende: wir konnen etwas uber das Vorzeichen

dieser Ableitung dx∗(a)/da sagen, auch wenn wir die Bedinung erster Ordnung nicht

93

explizit nach x∗(a) losen konnen. Man stelle bitte fest, dass das eigentlich genau dieselbe

Aussage wie oben ist: ich kann die Gleichung einer Hohenlinie f(x, y) = c zwar nicht

immer explizit auflosen, aber an dy/dx komme ich - falls fy(x, y) 6= 0 - immer dran.

Was man nun sehen muss, ist das Bedingung erster Ordnung sozusagen die Rolle der

Gleichung der Hohenlinie ubernimmt. Machen wir uns das am obigen Beispiel klar: Falls

x∗ maximiert, gilt

1

x∗− a = 0.

In der Tat stehen hier zwei Variablen x∗ und a auf derselben Seite einer Gleichung. Wenn

wir das auf der linken Seite g(x∗, a) nennen, steht also g(x∗, a) = 0. Also ist hier x∗ implizit

als Funktion von a definiert, also x∗ = x∗(a). Und warum ausgerechnet diese Gleichung?

Weil man wissen mochte, wie sich die Maximalstelle x∗(a) andert, falls sich a andert. Und

dazu muss man die Gleichung betrachten, die eine Maximalstelle letzten Endes bestimmt.

Und das ist die Bedingung erster Ordnung!

Man ware nun also in der Situation, in der man den impliziten Funktionensatz anwenden

konnte und die gewunschte Ableitung auch durch

dx∗(a)

da= −ga(x

∗(a), a)

gx(x∗(a), a)

bekommen konnte; naturlich nur falls der Nenner ungleich Null ist. Versuchen wir es: um

dx∗(a)/da mit der Formel

dx∗(a)

da= −ga(x

∗(a), a)

gx(x∗(a), a)

zu berechnen, mussen wir also die Bedingung erster Ordnung als Ausgangsgleichung her-

nehmen und die Ableitung dieser Bedingung nach a durch die Ableitung dieser Bedingung

nach x teilen. Die Ableitung dieser Bedingung erster Ordnung nach x ist aber die zweite

Ableitung von f nach x.

Also haben wir

dx∗(a)

da= − −1

− 1x∗(a)2

= −x∗2(a).

Im Nenner steht ein Ausdruck, der ungleich Null ist, also konnen wir weiterrechnen. Setzen

wir nun fur das x∗(a) den expliziten Ausdruck 1/a ein, erhalten wir wirklich

dx∗(a)

da= − 1

a2.

Wir konnen also hier zwei Prozeduren vertauschen: wenn man auflosen kann, lost man

eben zuerst auf und leitet dann ab. Man kann aber offensichtlich auch zuerst ableiten

94

und dann die Auflosung, also die Maximalstelle einsetzen. Das klappt, grob gesprochen,

deshalb, weil alle Funktion schon stetig sind und x∗(a) eben als eine eindeutige Funktion

von a definiert ist, namlich x∗(a) = 1/a.

Aber die richtige Power des Impliziten Funktionen Satzes im Zusammenhang mit der

komparativen Statik wird eben erst klar, wenn wir Gleichungen nicht explizit auflosen

konnen. Daher zum nachsten Beispiel.

Beispiel 2: Beim Beispiel von eben war das nicht besonders spannend, da man ja explizit

nach x∗(a) auflosen konnte. Das ist nicht mehr so, wenn

f(x) = h(x)− ax

mit h′ > 0, h′′ < 0.

Hier ist die Bedingung erster Ordnung

h′(x∗)− a = 0.

Das konnen wir nun nicht explizit nach x∗(a) auflosen. Wir konnen aber die linke Seite

als eine Funktion g(x, a) auffassen, dann steht da

g(x∗, a) = 0.

Und das sieht doch genauso aus wie eine Hohenlinie! Also konnen wir doch auch

dx∗(a)

da= −ga(x

∗(a), a)

gx(x∗(a), a)

bilden, falls gx(x∗(a), a) 6= 0.

Da g durch die Bedingung erster Ordnung gegeben ist, haben wir, da h′′ < 0,

dx∗(a)

da= − −1

h′′(x∗(a)).

Damit bekommen wir zwar keinen expliziten Ausdruck fur dx∗/da, wir konnen aber etwas

uber das Vorzeichen sagen: da h′′ < 0, folgt dass

dx∗(a)

da< 0.

Beispiel 3: Hier ein etwas komplizierteres Beispiel:

f(x) = ah(x)− k(x)

95

mit h′ > 0, h′′ < 0, k′ > 0, k′′ > 0, a > 0. Wir wollen wissen, wie sich die Maximalstelle

andert, falls sich a andert.

Die Bedingung erster Ordnung lautet:

f ′(x∗) = ah′(x∗)− k′(x∗) = 0.

Diese Bedingung liefert uns tatsachlich ein Maximum, denn

f ′′(x) = ah′′(x)− k′′(x) < 0.

Also: hier ist der Ausdruck

ah′(x∗)− k′(x∗) = 0.

sozusagen unsere Gleichung fur die Hohenlinie, sie bestimmt ja eben auch alle (x, a)−Kombinationen, so dass

ah′(x∗)− k′(x∗) = 0

gilt.

Nennen wir die linke Seite also wieder g(x, a). Dann ist, da ah′′(x∗)− k′′(x∗) 6= 0,

dx∗(a)

da= −ga(x

∗(a), a)

gx(x∗(a), a)= − h′(x∗)

ah′′(x∗)− k′′(x∗)

und mit unseren Annahmen an h und k folgt, dass das Vorzeichen dieser Ableitung positiv

ist.

Beispiel 4: Nun machen wir es noch etwas schwieriger:

Sei

f(x) = h(ax)− k(x)

mit h′ > 0, h′′ < 0, k′ > 0, k′′ > 0, x > 0. Die Frage sei wieder dieselbe wie oben.

Die Bedingung erster Ordnung ist nun, fur ein maximierendes x∗,

f ′(x) = h′(ax∗)a− k′(x∗) = 0

Nun erhalten wir

dx∗(a)

da= −h′′(ax∗)x∗a + h′(ax∗)

h′′(ax∗)a2 − k′′(x∗)

Das Vorzeichen dieser Ableitung ist nun leider ohne weitere Annahmen nicht weiter be-

stimmbar: im Nenner ist alles klar, dort ist das Vorzeichen kleiner Null. Aber im Zahler

steht etwas negatives, h′′(ax∗) plus etwas positivem, h′(ax∗). Also kann man hier nichts

genaues sagen und man musste weitere Annahmen insbesondere an die Funktion h treffen.

96

10.3 Mehrere Variablen

Nun kann man das noch komplizierter haben: in den Grundlagen der VWL haben Sie

schon einfache Makromodelle gesehen, z.B.

C(Y ) + I(i) + G = Y (10.1)

L(Y, i) = M (10.2)

Die erste Gleichung beschreibt den das Gleichgewicht auf dem Gutermarkt, die zweite

Gleichung beschreibt das Gleichgewicht auf dem Geldmarkt. Dabei ist C die Konsumfunk-

tion, G die Staatsausgaben, Y das Volkseinkommen, I die Investitionen, i der Zinssatz,

L die Geldnachfrage und M das reale Geldangebot. Es gelten die ublichen Annahmen an

den Verlauf dieser Funktion: 0 < C ′ < 1, LY > 0, Li < 0, I ′ < 0.

Diese beiden Gleichungen bestimmen die Gleichgewichtswerte von Y und i, die die beiden

Gleichungen erfullen, also sind hier Y und i endogen. Alle anderen Variablen, G und M ,

sind exogen.

Das kann man nun auch schreiben als

C(Y ) + I(i) + G− Y = 0 (10.3)

L(Y, i)−M = 0. (10.4)

Das sieht doch nun aus wie ein Gleichungssystem aus zwei impliziten Funktionen: die

Variablen sind Y, i, G und M . Nochmals: hier werden alle (Y, i)-Kombinationen bestimmt,

die fur Gleichgewicht auf den beiden Markten sorgen. Damit sind Y und i implizite

Funktionen von G und G. Oder nochmal anders ausgedruckt: man konnte jede dieser

Gleichungen als eine Hohenlinie auffassen: alle (Y, i, G, M)−Kombinationen, so dass z.B.

gilt L(Y, i)−M = 0.

Und die Frage ist nun wieder: wie andern sich gewisse Variablen, wenn sich andere andern?

Hier sind Y und i die endogenen Variablen, das sind die Variablen, die im Modell bestimmt

werden. Die anderen sind exogene Variablen. Die Annahme ist also wieder, dass man an

den exogenen Variablen drehen kann (immer nur an einer..) und dann mochte man wissen,

wie sich die endogenen Variablen andern. Also: die endogenen Variablen Y und i sind hier

implizit als Funktionen von G und M definiert.

97

Es zeigt sich nun, dass es auch fur mehrere Gleichungen impliziter Funktionen eine Vari-

ante des impliziten Funktionensatzes gibt. Was nacht man? Sie erinnern sich sicher: um

fur f(x, y) = c die Ableitung dy/dx zu bekommen, haben wir das Problem linearisiert:

wir haben

df = fx(x, y)dx + fy(x, y)dy

gebildet, festgestellt, dass ja entlang einer Hohenlinie df = 0 gilt und dann die Gleichung

nach dy/dx fur fy(x, y) 6= 0 gelost.

Denselben Trick wenden wir nun hier an. Wir linearisieren das System mittels des totalen

Differentials:

C ′(Y )dY + I ′(i)di + dG− dY = 0 (10.5)

LY (Y, i)dY + Li(Y, i)di− dM = 0. (10.6)

Angenommen, wir interessieren uns nur fur eine Anderung in G. Dann ware also dM = 0

und wir haben

C ′(Y )dY + I ′(i)di + dG− dY = 0 (10.7)

LY (Y, i)dY + Li(Y, i)di = 0 (10.8)

bzw.

(C ′(Y )− 1)dY + I ′(i)di + dG = 0 (10.9)

LY (Y, i)dY + Li(Y, i)di = 0. (10.10)

Offensichtlich beeinflusst also dG die erste Gleichung, also andern sich i und Y . Da die

aber auch in der zweiten Gleichung stecken, andert sich auch da was. Wir konnen das

Ergebnis noch etwas anders schreiben, namlich in Matrixschreibweise:

(C ′ − 1 I ′

LY Li

)(dY

di

)=

(−dG

0

)

Ich bezeichne die 2×2-Matrix auf der linken Seite mit A und nennen |A| die Determinante

von A. Es gilt

|A| = (C ′ − 1)Li − I ′Ly > 0,

98

insbesondere gilt also |A| 6= 0. Die zu A inverse Matrix bezeichnen wir mit A−1.

Wir wollen dieses System nun nach dY und di losen.

Eine Variante des impliziten Funktionensatzes sagt uns hier nun folgendes:

• y und i existieren in der Tat als eindeutige Funktionen von G (und auch von M),

falls |A| 6= 0.

• Die gewunschten Ableitungen bekommt man, indem man entweder

(dY

di

)= A−1

(−dG

0

)

berechnet oder indem man die Cramersche Regel anwendet.

Beachten Sie, dass die Bedingung |A| 6= 0 die Bedingung ist, die analog zu fy(x, y) 6= 0 im

letzten Abschnitt ist. Dies macht auch wirklich Sinn: letztlich geht es um die Auflosung

eines Gleichungssystems und das funktioniert genau dann wenn die Determinante der

jeweiligen Koeffizientenmatrix Null ist.

Wie lost man das nun auf? Da Matrizen invertieren immer etwas muhsam ist, wenden

wir die Cramersche Regel an. Mit ihr erhalten wir

dY =

∣∣∣∣∣−dG I ′

0 Li

∣∣∣∣∣∣∣∣∣∣

C ′ − 1 I ′

LY Li

∣∣∣∣∣

und damit

dY =−LidG

(C ′ − 1)Li − LY I ′.

Nun sind 0 < C ′ < 1, Li < 0, LY > 0, I ′ < 0. Damit erhalt man fur das Vorzeichen von

dY/dG (man teilt einfach auf beiden Seiten durch dG),

dY

dG=

+

(−)(−)− (+)(−)=> 0.

Ahnliche Berechnungen kann man fur di/dG, di/dM und dY/dM durchfuhren.

99

Noch etwas allgemeiner...

Allgemein sieht das so aus: angenommen, wir haben zwei endogene Variablen y1, y2 und

zwei exogene Variablen x1, x2. Sei y der Vektor (y1, y2), ebenso sei x = (x1, x2). Diese

Variablen definieren zwei implizite Gleichungen

F1(y1, y2; x1, x2) = 0

F2(y1, y2; x1, x2) = 0.

In kompakter Form schreiben wir dieses Gleichungssystem als

F (x, y) = 0.

Naturlich konnen wir so etwas auch fur p Gleichungen mit p exogenen und l exogenen

Variablen definieren.

Wir wollen also wissen ob es Funktionen g1 und g2 gibt mit y1 = g1(x1, x2) und y2 =

g2(x1, x2). Und wir sind an den partiellen Ableitungen

∂gi

∂xj

i = 1, 2; j = 1, 2

interessiert.

Wir definieren eine Matrix DyF (x, y) durch

DyF (x, y) =

∂F1

∂y1

∂F1

∂y2

∂F2

∂y1

∂F2

∂y2

und eine Matrix DxF (x, y) durch

DxF (x, y) =

∂F1

∂x1

∂F1

∂x2

∂F2

∂x1

∂F2

∂x2

.

Dann sagt uns die hier passende Variante des Impliziten Funktionen-Satzes:

Satz 10.1. Sei (x∗, y∗) ein Punkt mit F (x∗, y∗) = 0. Wenn

det DyF (x∗, y∗) 6= 0

100

so existieren in einer Umgebung um (x∗, y∗) Funktionen g1(x1, x1) und g2(x1, x2) fur alle

(x, y) in dieser Umgebung. Es gilt y1 = g1(x1, x2) und g2(x1, x2). Die Funktionen g1 und

g2 sind stetig und differenzierbar und wir erhalten die Ableitungen

∂gi

∂xj

i = 1, 2; j = 1, 2

entweder aus

∂g1

∂x1

∂g1

∂x2

∂g2

∂x1

∂g2

∂x2

= −(Dy(x, y))−1Dx(x, y).

oder durch die Cramersche Regel. Verwenden wir die Cramersche Regel, losen wir das

linearisierte Gleichungsystem

∂F1

∂x1

dx1 +∂F1

∂x2

dx2 +∂F1

∂y1

dy1 +∂F1

∂y2

dy2 = 0 (10.11)

∂F2

∂x1

dx1 +∂F2

∂x2

dx2 +∂F2

∂y1

dy1 +∂F2

∂y2

dy2 = 0

nach dyi/dxi fur i, j = 1, 2. Dabei setzen wir dxi = 0 fur die xi, die uns nicht interessieren.

Beachten Sie, dass die Formel

∂g1

∂x1

∂g1

∂x2

∂g2

∂x1

∂g2

∂x2

= −(Dy(x, y))−1Dx(x, y).

fur i = j = 1 (also eine endogene Variable y und eine exogene Variable x) der ersten

Formel

dy

dx= −fx(x, y)

fy(x, y)

entspricht: ich teile die erste partielle Ableitung der impliziten Funktion f nach der exo-

genenen Variable x durch die erste partielle Ableitung der impliziten Funktion f nach der

endogenen Variable y. Wenn wir nun mehrere endogene und exogene Variablen haben,

teilen sozusagen die Matrix der ersten partiellen Ableitungen der Funktionen Fi nach den

exogenen Variablen xi durch die Matrix der ersten partiellen Ableitungen der Funktionen

Fi nach den endogenen Variablen yj. Man erhalt dann hier eben keine einzelne Ableitung,

sondern wieder eine Matrix mit Ableitungen dgi/dxj.

101

102

Kapitel 11

Integration

11.1 Einfuhrung und Erinnerung

Wo kommt der Integralbegriff her? Die meisten von Ihnen werden beim Stichwort Integra-

tion an Flachenberechnung denken, also fangen wir auch damit an. Die Idee ist, die Flache

unter einer Funktion in gleichgroße Rechtecke zu teilen und dann den Flacheninhalt der

Summe dieser Rechtecke zu berechnen. Dann wahlt man immer kleinere Rechtecke und

hofft, dass man - unabhangig von der Art und Weise der Unterteilung - immer zum selben

Ergebnis kommt. Dieses Ergebnis nennt man dann das (bestimmte) Integral.

Sei [a, b] ein Intervall und f : [a, b] → R eine Funktion. Wir zerlegen nun das Intervall in N

gleiche Teilintervalle, jedes mit der Lange ∆ = (b− a)/N . Seien x0, ..., xN die Endpunkte

dieser Teilintervalle:

x0 = a, x1 = a + ∆, x2 = a + 2∆, ..., xN = a + N∆ = b.

Nun bilde man die Summe

f(x1)(x1 − x0) + f(x2)(x2 − x1) + · · ·+ f(xN)(xN − xN−1) =N∑

i=1

f(xi)∆.

Diese Summe nennt man eine Riemann-Summe. Die Idee ist nun, das Intervall [a, b] in

immer kleinere Teilintervalle zu unterteilen. Wir nennen

R(N) =N∑

i=1

f(xi)∆

eine Riemann-Folge und bilden also fur die Riemann-Folge lim∆→0. Falls fur ∆ → 0 diese

Folge, gegen eine Zahl konvergiert, nennen wir diese Zahl einen Grenzwert.

103

Definition 11.1. Wenn alle Riemann-Folgen unabhangig von der gewahlten Zerlegung

des Intervalls [a, b] gegen ein und denselben Grenzwert konvergieren, nennen wir die Funk-

tion f integrierbar und nennen den Grenzwert das (Riemann)-Integral von f ,

lim∆→0

N∑i=1

f(xi)∆ =

∫ b

a

f(x)dx.

Man nennte a und b die Integrationsgrenzen, x die Integrationsvariable und f(x) den

Integranden. Wir nennen ein Integral mit gegebenen Integrationsgrenzen auch bestimmtes

Integral.

Nun ist es sicher ziemlich lastig, ein Integral uber die Riemann-Summen auszurechnen und

aus der Schule kennen Sie sicherlich alle noch die Rechenregeln fur einfache Integrale. Man

bildet sozusagen die Aufleitung (manchmal liest man auch Anti-Ableitung) einer Funktion.

Man nennt diese Aufleitung auch eine Stammfunktion von f . Diese Stammfunktion sollte

man dann naturlich auch wieder ableiten, also differenzieren, konnen, um wieder f zu

erhalten.

Definition 11.2. Sei f : (a, b) → R eine Funktion. Eine differenzierbare

Funktion F : (a, b) → R mit F ′(x) = f(x) fur alle x ∈ (a, b) heißt Stammfunktion von f .

Wir werden eine Stammfunktion von f auch oft als das unbestimmte Integral∫

fdx

bezeichnen.

Es gilt dann der folgende

Satz 11.1. Sei f eine integrierbare Funktion mit Stammfunktion F . Dann gilt

∫ b

a

f(x)dx = F (x)|ba.

Hier ist

F (x)|ba = F (b)− F (a)

die Differenz der Funktionswerte von F .

Welche Funktionen kann man integrieren? Insbesondere stetige Funktionen, also die Funk-

tionen mit denen man in den okonomischen Anwendungen meistens arbeitet. Einige Re-

chenregeln wollen wir uns nun wieder in Erinnerung rufen.

104

1. Lineare Funktion cx haben die Ableitung c, also gilt∫ b

a

cdx = (b− a)c.

2. Die Ableitung von x3 ist 3x2, also ist∫ b

a

3x2dx = b3 − a3.

3. Die Ableitung von xn+1/(n + 1) ist xn, also ist∫ b

a

xndx =bn+1 − nn+1

n + 1.

4. Die Ableitung von ex ist ex, also hat man∫ b

a

exdx = eb − ea.

Und Sie erinnern sich sicher noch, dass wir bei einem unbestimmten Integral eben nur

eine der vielen moglichen Stammfunktion einer Funktion erhalten, also ist∫xdx =

1

2x2 + C,

wobei C eine Konstante ist. Bei einem bestimmten Integral haben wir eben die Integrati-

onsgrenzen, also a und b von oben, dabei.

Beispiele 11.1. Berechnen Sie die folgenden Stammfunktionen bzw. die bestimmten In-

tegrale (die Losungen stehen jeweils dabei).

1. ∫1

x3dx = − 1

2x2+ C

2. ∫ √xdx =

2

3x3/2 + C

3. ∫ (3

x− 8e−4x

)dx = 3 ln(|x|) + 2e−4x + C

4. ∫ √x2 + 1dx =

1

2x√

x2 + 1 +1

2ln(x +

√x2 + 1) + C

5.

−∫ 3 ln 3

0

(ex/3 − 3)dx = 9 ln 3− 6.

6.

−∫ 5

2

e2xdx =1

2e4(e6 − 1)

105

11.2 Partielle Integration

Manche Funktionen kann man nicht so einfach integrieren, weil man die Stammfunktion

nicht sofort sieht bzw. errat. Eine weitere wichtige Integrationsregel ist daher die partielle

Integration. Fur zwei stetige differenzierbare Funktionen f, g : [a, b] → R gilt∫ b

a

f(x)g′(x)dx = f(x)g(x)|ba −∫ b

a

f ′(x)g(x)dx.

Das folgt unmittelbar aus der Produktregel, die wir von den Ableitungen her kennen: es

gilt ja (ohne das Argument x),

(f · g)′ = f ′ · g + f · g′.

Integriert man auf beiden Seiten, hat man

f · g =

∫f ′ · g +

∫f · g′.

Also gilt nun∫

f(x)g′(x)dx = f(x)g(x)−∫

f ′(x)g(x)dx.

Oder eben fur ein bestimmtes Integral∫ b

a

f(x)g′(x)dx = f(x)g(x)|ba −∫ b

a

f ′(x)g(x)dx.

Die Schwierigkeit beim partiellen Ableiten besteht darin, dass man sich entscheiden muss,

wie man die Funktionen f und g wahlt: von der einen g, sollte man leicht eine Stamm-

funktion finden. Von der anderen, f , sollte man leicht die Ableitung bestimmen konnen.

Beispiele 11.2. Wir wollen∫

xexdx bestimmen. Da wir x gut ableiten konnen und von

ex problemlos eine Stammfunktion finden, setzen wir f(x) = x und g′(x) = ex, damit ist

g(x) = ex.

Also haben wir∫

exxdx = xex −∫

1 · exdx = xex − ex + C.

Indem wir dieses Resultat nach x ableiten und feststellen, dass xex herauskommt, haben

wir auch eine Probe gemacht.

Es scheint, dass die Wahl von g und f in diesem Beispiel etwas egal ist, da wir x und ex

beide jeweils recht einfach intergrieren bzw. ableiten konnen. Wenn wir allerdings g′(x) =

x setzen, ist die Stammfunktion dann schon eine quadratische Funktion. Uberzeugen Sie

sich bitte davon, dass das Problem dann eher komplizierter als das ursprungliche Problem

aussieht.

106

Beispiele 11.3. Wir wollen die Stammfunktion des Logarithmus berechnen, wir wollen

also∫ b

a

ln(x)dx

bilden.

Wir verwenden die partielle Integration und schreiben zunachst mal

∫ b

a

1 · ln(x)dx.

Nun konnen wir 1 gut integrieren und setzen daher g′(x) = 1 und f(x) = ln(x). Dann

haben wir mit obiger Formel

∫ b

a

ln(x)dx =

∫ b

a

1 · ln(x)dx (11.1)

= x ln(x)|ba −∫ b

a

x1

xdx

= (x ln(x)− x)|ba.

Also ist x ln(x)− x eine Stammfunktion von ln(x).

Uberzeugen Sie sich durch partielle Intergration, dass folgendes gilt:

1.∫

xe−xdx = −e−x(1 + x) + C.

2.∫

3xe4xdx = −e−x(−x2 − 2x− 3) + C.

11.3 Doppelintegrale

Genauso wie man eine Funktion von zwei Variablen f(x, y) nach beiden Variablen ableiten

kann, kann man uber beide Variablen intergrieren. Das braucht man, wenn zum Beispiel

das Volumen eines Korpers, z.B. einer Kugel, berechnet. Man benotigt Doppelintegrale

auch - und da werden Sie es wahrscheinlich sehen - in der Statistik und der Wahrschein-

lichkeitstheorie.

107

Die Idee ist eigentlich recht einfach. Betrachten wir folgendes Beispiel: durch die Funktion

f(x, y) = x2 + y2, 0 ≤ x ≤ 1 und 0 ≤ y ≤ 1 ist ein Korper festgelegt, dessen Volumen wir

nun suchen.

Was macht man? Nun man rechnet zuerst eine Querschnittsflache Q(y) aus: das ist die

Flache, die ich bekommen, wenn ich y konstant halte und nur das x laufen lasse. Ich bilde

also

Q(y) =

∫ 1

0

f(x, y)dx.

Man bekommt

Q(y) =

∫ 1

0

f(x, y)dx =

∫ 1

0

(x2 + y2)dx =

∣∣∣∣1

3x3 + y2x

∣∣∣∣1

0

=1

3+ y2.

Ich habe damit sozusagen den Flacheninhalt in einer Dimension berechnet. Nun muss

ich das aber eben fur alle y zwischen 0 und 1 machen, d.h. ich muss nun auch den

Effekt des y auf das Volumen berucksichtigen und Q(y) eben noch uber y integrieren. Das

Gesamtvolumen betragt daher

V =

∫ 1

0

Q(y)dy =

∫ 1

0

(1

3+ y2

)dy =

2

3.

Wie berechnet man also ein Doppelintegral? Wenn ich

∫ d

c

∫ b

a

f(x, y)dxdy

zu losen habe, betrachte ich die Variable des außeren Integrals, also hier y als eine Kon-

stante und bilde zunachst nur das innere Integral, also

∫ b

a

f(x, y)dx.

Da ich ja in die erhaltene Stammfunktion die Integrationsgrenzen einsetze, verschwindet

das x. Das y bleibt aber erhalten, da wir es als eine Konstante betrachten. Ich bekomme

also eine Funktion, die wir mal g = g(y) nennen. Und mit dieser bilde ich dann

∫ d

c

g(y)dy.

Naturlich kann man das auch anders herum berechnen: es gilt also

∫ d

c

∫ b

a

f(x, y)dxdy =

∫ b

a

∫ d

c

f(x, y)dydx.

108

Beispiele 11.4. Wir wollen

∫ 2

1

∫ 2

1

ex+ydxdy.

berechnen.

Berechnen wir also zunachst∫ 2

1

ex+ydx.

Wir bekommen als Ergebnis |ex+y|21 = e2+y − e1+y = ey(e2 − e). Nun kommt das außere

Integral, also

∫ 2

1

ey(e2 − e)dy = (e2 − e)

∫ 2

1

eydy.

Das ergibt

(e2 − e)

∫ 2

1

eydy = (e2 − e)(e2 − e) = e4 − 2e3 + e2.

Rechnen Sie doch einmal selbst nach, dass

∫ 3

1

∫ 4

1

(x− y + 2)dxdy = 15.

Das ist also das Volumen eines Korpers, der unten vom Rechteck 1 ≤ x ≤ 4, 1 ≤ y ≤ 3

und oben von der Ebene f(x, y) = x− y + 2 begrenzt wird.

109