Kognitive Robotik { Herausforderungen an unser Verst ... · at 8/2004 Kognitive Robotik {...

10
at 8/2004 Kognitive Robotik – Herausforderungen an unser Verst¨ andnis nat¨ urlicher Umgebungen Cognitive Robotics – challenges for our understanding of natural environments Marc Toussaint, Tobias Lang, Nikolay Jetchev, FU Berlin Wir diskutieren einen Ansatz, der kognitive Robotik als die Erweiterung der Methoden der Robotik – insb. Lernen, Planen und Regelung – auf “¨ außere Freiheitsgrade” versteht. Damit verschiebt sich der Fokus: Weg von Gelenkwinkeln, Vektorr¨ aumen und Gauß’schen Verteilungen, hin zu den Objekten und der Struktur der Umwelt. Letztere onnen wir nur schwer formalisieren und in geeignete Repr¨ asentationen und Priors ¨ ubersetzen, mit denen effizientes Lernen und Planen m¨ oglich wird. Es wird deutlich, welche theoretischen Probleme sich hinter dem Ziel automomer Systeme verbergen, die durch intelligente Exploration und Verallgemeinerung ihre Umwelt zu verstehen lernen und die gelernten Modelle zur Handlungsplanung nutzen. Die momentan diskutierte Integration von Logik, Geometrie und Wahrscheinlichkeiten – und damit die ¨ Uberbr¨ uckung der klassischen Disziplinbarrieren zwischen Robotik, K¨ unstlicher Intelligenz und statistischer Lerntheorie – ist eine der zwangsl¨ aufigen Herausforderungen der kognitiven Robotik. In diesem Kontext skizzieren wir eigene Beitr¨ age zum relationalen Reinforcement-Lernen, zur Exploration und dem Symbol-Lernen. Schlagw¨ orter: Autonomes Lernen, relationales Reinforcement-Lernen, intelligente Exploration und Verallgemeinerung, Inferenz Keywords: autonomous learning, relational reinfocement learning, intelligent exploration and generalization, inference 1 Einleitung Anfang des 20. Jahrhunderts f¨ uhrte Wolfgang K¨ ohler seine Intelligenzpr¨ ufungen an Menschenaffen“ (K¨ ohler, 1917) durch. Ein eindr¨ uckliches Experiment ist in Abb. 1 illustriert. In einem K¨ afig h¨ angt eine Banane an der Decke, zu hoch f¨ ur eine Schimpansin. Das Tier versucht mehrmals vergeblich an sie heranzukommen und springt immer wieder hoch. Schließlich gibt es auf und setzt sich in die Ecke. In einer anderen Ecke des K¨ afigs steht ei- ne Holzkiste. K¨ ohler beschreibt, dass nach einiger Zeit der Blick der Schimpansin zwischen Banane und Kiste wechselt, sie dann zielgerichtet zur Holzkiste l¨ auft, diese unter die Banane zieht, darauf steigt und zugreift. Was genau geht in dem Tier vor, wenn es in der Ecke sitzt und abwechselnd Banane und Holzkiste anvisiert? Die Psychologie und die K¨ unstliche Intelligenz formu- lieren verschiedene Modelle zielgerichteten Verhaltens 1 . Diese Modelle sind im Prinzip sehr allgemeing¨ ultig, in der Praxis h¨ angen sie jedoch fundamental von der Wahl der Zustandsbeschreibung ab: Welche Repr¨ asentationen (und Priors, siehe unten) nutzt das System, um intern zu planen oder Verhalten zu organisieren? Nimmt man im Falle des Stapelns von Holzkisten eine diskretisier- te Repr¨ asentation des Problems an, die sowohl Welt- zust¨ ande als auch m¨ ogliche Aktionen deterministisch und symbolisch abstrahiert, so funktionieren KI Metho- den effizient. Echte Welten sind jedoch nicht symbolisch, wir haben es mit kontinuierlichen Gr¨ oßen zu tun, mit Geometrie und Physik, mit Objekten und ihren Merk- 1 D.h. planendes Verhalten, im Kontrast zu konditionier- tem, durch wiederholte Belohnung habituiertem Verhalten. Siehe Niv et al. (2006) f¨ ur eine Definition von zielgerichte- tem vs. habituiertem Verhalten in der Psychologie. In der KI entspricht dies grob dem Unterschied zwischen modell- basiertem und modell-freiem Reinforcement-Lernen. 04 at – Automatisierungstechnik 68 (2020) 8 c Oldenbourg Verlag 1

Transcript of Kognitive Robotik { Herausforderungen an unser Verst ... · at 8/2004 Kognitive Robotik {...

at 8/2004

Kognitive Robotik – Herausforderungen anunser Verstandnis naturlicher Umgebungen

Cognitive Robotics – challenges for our understanding of natural environments

Marc Toussaint, Tobias Lang, Nikolay Jetchev, FU Berlin

Wir diskutieren einen Ansatz, der kognitive Robotik als die Erweiterung der Methodender Robotik – insb. Lernen, Planen und Regelung – auf “außere Freiheitsgrade” versteht.Damit verschiebt sich der Fokus: Weg von Gelenkwinkeln, Vektorraumen undGauß’schen Verteilungen, hin zu den Objekten und der Struktur der Umwelt. Letzterekonnen wir nur schwer formalisieren und in geeignete Reprasentationen und Priorsubersetzen, mit denen effizientes Lernen und Planen moglich wird. Es wird deutlich,welche theoretischen Probleme sich hinter dem Ziel automomer Systeme verbergen, diedurch intelligente Exploration und Verallgemeinerung ihre Umwelt zu verstehen lernenund die gelernten Modelle zur Handlungsplanung nutzen. Die momentan diskutierteIntegration von Logik, Geometrie und Wahrscheinlichkeiten – und damit dieUberbruckung der klassischen Disziplinbarrieren zwischen Robotik, KunstlicherIntelligenz und statistischer Lerntheorie – ist eine der zwangslaufigen Herausforderungender kognitiven Robotik. In diesem Kontext skizzieren wir eigene Beitrage zumrelationalen Reinforcement-Lernen, zur Exploration und dem Symbol-Lernen.

Schlagworter: Autonomes Lernen, relationales Reinforcement-Lernen, intelligenteExploration und Verallgemeinerung, Inferenz

Keywords: autonomous learning, relational reinfocement learning, intelligent explorationand generalization, inference

1 Einleitung

Anfang des 20. Jahrhunderts fuhrte Wolfgang Kohlerseine

”Intelligenzprufungen an Menschenaffen“ (Kohler,

1917) durch. Ein eindruckliches Experiment ist in Abb.1 illustriert. In einem Kafig hangt eine Banane an derDecke, zu hoch fur eine Schimpansin. Das Tier versuchtmehrmals vergeblich an sie heranzukommen und springtimmer wieder hoch. Schließlich gibt es auf und setzt sichin die Ecke. In einer anderen Ecke des Kafigs steht ei-ne Holzkiste. Kohler beschreibt, dass nach einiger Zeitder Blick der Schimpansin zwischen Banane und Kistewechselt, sie dann zielgerichtet zur Holzkiste lauft, dieseunter die Banane zieht, darauf steigt und zugreift.

Was genau geht in dem Tier vor, wenn es in der Eckesitzt und abwechselnd Banane und Holzkiste anvisiert?Die Psychologie und die Kunstliche Intelligenz formu-

lieren verschiedene Modelle zielgerichteten Verhaltens1.Diese Modelle sind im Prinzip sehr allgemeingultig, inder Praxis hangen sie jedoch fundamental von der Wahlder Zustandsbeschreibung ab: Welche Reprasentationen(und Priors, siehe unten) nutzt das System, um internzu planen oder Verhalten zu organisieren? Nimmt manim Falle des Stapelns von Holzkisten eine diskretisier-te Reprasentation des Problems an, die sowohl Welt-zustande als auch mogliche Aktionen deterministischund symbolisch abstrahiert, so funktionieren KI Metho-den effizient. Echte Welten sind jedoch nicht symbolisch,wir haben es mit kontinuierlichen Großen zu tun, mitGeometrie und Physik, mit Objekten und ihren Merk-

1 D.h. planendes Verhalten, im Kontrast zu konditionier-tem, durch wiederholte Belohnung habituiertem Verhalten.Siehe Niv et al. (2006) fur eine Definition von zielgerichte-tem vs. habituiertem Verhalten in der Psychologie. In derKI entspricht dies grob dem Unterschied zwischen modell-basiertem und modell-freiem Reinforcement-Lernen.

04at – Automatisierungstechnik 68 (2020) 8 c© Oldenbourg Verlag 1

malen. Eine der großen und bisher ungelosten Heraus-forderungen ist es, solche fundamentalen Eigenschaftennaturlicher Welten in geeignete Reprasentationen undPriors zu ubersetzen.

Im Gegensatz zur KI ist fur die Robotik der Um-gang mit Geometrie und Physik alltaglich. Beispielesind die klassischen Methoden der Pfadplanung unterBerucksichtigung der Geometrie, oder die Kraftregelungvon Freiheitsgraden. Allerdings bringt die naive Inte-gration solcher Methoden mit der Planung auf symbo-lischer Ebene unweigerlich Probleme: Sollte man zumStapeln von Holzkisten geometrische Pfadplaner fur je-des mogliche Objekt starten, ohne einen Zielort fur daseinzelne Objekt vorweg zu kennen? Wie kamen Pfad-planer auf “die Idee” eine Holzkiste zunachst heranzu-ziehen, um dann auf sie zu steigen? Wahrend in sym-bolischen Reprasentationen die Kombinatorik voll ex-ploriert werden kann, scheint das in geometrischen Re-prasentationen ineffizient. Kaelbling and Lozano-Perez(2011) diskutieren eindrucklich das Problem der Inte-gration von geometrischer und symbolischer Planung.Die zentrale Herausforderung sind hier integrierte Me-thoden zum Umgang mit Geometrie, Logik (im Sinneder symbolischen Reprasentation) und Unsicherheit, dieklassisch getrennt betrachtet werden.

Neben der Planung sind das Lernen und die Generali-sierung weitere zentrale Punkte, die entscheidend vonder Wahl der Repasentation abhangen. Es ist nichtplausibel, dass der Affe bereits ein Modell besitzt, wel-ches dezidiert die Nutzung einer Holzkiste zum Errei-chen einer Banane enthalt. Stattdessen muss er sei-ne bisher gemachten Erfahrungen verallgemeinern. Daswirft das Problem der Generalisierung auf, beispielswei-se die Nutzung von Objekten zu neuen Zwecken in voll-kommen neuen Situationen. Aus der Lerntheorie wis-sen wir, dass Generalisierung Unsicherheit bedingt unddurch den Prior bestimmt wird, der seinerseits durch dieWahl der Reprasentation induziert wird2. Die Wahl derRepasentation und der Umgang mit Unsicherheit sindalso auch beim Lernen von zentraler Bedeutung.

Dies zeigt die starke Verzahnung der Forschungsfragen,die ublicherweise in der Robotik, der KI und beim Ma-schinellen Lernen getrennt behandelt werden. In die-sem Artikel wollen wir an einigen Beispielen aufzei-

2 In der Bayesianischen Sicht auf ein lernenden Systemswird

”Wissen“ uber X durch die Bayes’sche Regel P (X|D) ∝

P (D|X)P (X) aktualisiert, wobei D die gesehenen Datensind. Generalisierung bedeutet hier grob, dass selbst wenndie Daten nur wenige Komponenten von X direkt betreffen,auch das

”Wissen“ bzgl. anderer Komponenten aktualisiert

wird. Die Struktur des Priors bedingt dabei maßgeblich die-se Struktur des Posteriors. Bei all dem ist die entscheidendeFrage, wie das

”Wissen“ P (X) bzw. P (X|D) reprasentiert

wird – ob explizit oder implizit, als Verhaltensregeln oderlogische Ausdrucke, als neuronales Netzwerk oder logisti-sche Regression mit Kern-Merkmalen. Wenn wir im Folgen-den also den Begriff der Reprasentation nutzen, so verweisenwir gleichzeitig auf die Struktur des Priors und der entspre-chenden Generalisierung erlernten Wissens. Siehe auch Pearl(1988).

Bild 1: Eine”Intelligenzprufung am Menschenaffen“ (Kohler,

1917)

gen, welche prinzipiellen Herausforderungen sich erge-ben, will man die Methoden dieser drei Wissenschaf-ten vereinen. Das Ziel sind kunstliche Systeme, die Pro-bleme autonom und auf Basis gelernten Wissens losenkonnen, etwa wie es der Schimpansin mit der Holzki-ste gelang. Gelegentlich werden solche Fahigkeiten auchals

”kognitiv“ bezeichnet. In Abschnitt 2 werden wir ei-

ne Begriffsdefinition von”kognitiv“ vorschlagen, die den

Fokus auf den qualitativen Unterschied zwischen derHandhabung innerer und außerer Freiheitsgrade legt.Diese Sichtweise stellt den Bezug zwischen kognitivenFahigkeiten und den oben diskutierten Wechselwirkun-gen her, die zwischen den geometrischen und physikali-schen Eigenschaften naturlicher Welten, zwischen sym-bolischer und geometrischer Planung sowie beim Ler-nen von Modellen der Umwelt existieren. In Abschnitt3 geht es um Forschungsprojekte zur Objektmanipula-tion in naturlichen Umwelten. Wahrend hier viele be-eindruckende Leistungen demonstriert wurden, bleibenprinzipielle Forschungsfragen weiterhin offen. In denAbschnitten 4 bis 6 gehen wir auf drei solcher Fra-gen ein: des Lernen & Planen in relationalen Welten,das Symbol-Lernen und die autonome Exploration. Wirschließen mit einer Diskussion weiterer offener Fragestel-lungen und einem Ausblick.

2 Innere vs. außere Freiheitsgrade

Der Begriff”Kognition“ wird oft benutzt, um zwischen

der motorischen (niederen) Ebene und der Ebene ab-strakter Aktionen zu unterscheiden. Wir wollen statt-dessen zunachst den Schwerpunkt auf die qualitativenUnterschiede zwischen inneren und außeren Freiheits-graden legen. Typische Beispiele fur innere Freiheits-grade in der Robotik sind der Vektor q ∈ Rn der Ge-lenkwinkel (oder (q, q)), oder die Position-Orientierung-

2

Geschwindigkeit (x, θ, v) eines Fahrzeugs. Die traditio-nell in der Robotik entwickelten Methoden beziehensich im Wesentlichen auf Modelle zur Pradiktion, Zu-standsschatzung und Regelung dieser inneren Freiheits-grade. Auch die Anwendung von Lernmethoden in derRobotik sind bzgl. dieser Freiheitsgrade besonders er-folgreich (Vijayakumar et al., 2005). Konnen solche Me-thoden innerer Freiheitsgrade direkt auf Freiheitsgradeder Umwelt verallgemeinert werden? Was als Objektma-nipulation bezeichnet wird, kann man als eine Form der

”Regelung“ ausserer Freiheitsgrade – der Positur von

Objekten – ansehen. Einer der vielen qualitativen Un-terschiede liegt jedoch darin, dass dieser externe Frei-heitsgrad zunachst nicht regelbar ist, wenn das Objektnicht gegriffen ist.3 Das Greifen wird damit zum zentra-len Gegenstand der Forschung in der Objektmanipula-tion.

Das Greifen ist nur ein Beispiel dafur, dass die Hand-habung externer Freiheitsgrade qualitativ neue Heraus-forderungen zu denen innerer Freiheitsgraden stellt. In-nere Freiheitsgrade lassen sich oft in einen endlich-dimensionalen Vektorraum einbetten. Dagegen ist derZustandsraum außerer Freiheitsgrade komplex und sei-ne Struktur schwer formal abzubilden. Auf inneren Frei-heitsgraden haben wir Methoden, um effiziente Wahr-scheinlichkeitsmodelle zu formulieren – etwa Gaussver-teilungen uber dem Vektorraum. Dies liefert letztlichdie Grundlage fur effiziente Inferenz (Zustandsschatzungund -pradiktion) und Lernmethoden. Das Formulierenvon Wahrscheinlichkeitsmodellen uber die außere Um-welt ist schwer. Beschreibt man beispielsweise den Zu-stand als eine Menge von Objekten mit den jeweiligengeometrischen, physikalischen und kinematischen Eigen-schaften und Relationen, so existieren relationale Wahr-scheinlichkeitsmodelle, die logische Reprasentationenund Wahrscheinlichkeiten vereinen. Sind jedoch Men-schen oder andere autonome Systeme Teil der Um-welt, wird die Frage nach geeigneten Reprasentationenund Wahrscheinlichkeitsmodellen wesentlich schwieri-ger. Fur innere Freiheitsgrade haben wir gut moti-vierte Priors (quadratische Regelungskosten, GausscheUbergangsmodelle), fur externe nicht. Um interne Frei-heitsgrade in einen Soll-Zustand zu uberfuhren, ist meistkein hierarchischer Ansatz notig – Pfadplanung und sto-chastische Regelungstheorie liefern meist direkte Trajek-torien. Außere Freiheitsgrade zu manipulieren verlangtoft hierarchisches und sequentielles Verhalten.

In dieser Sichtweise kann man unter”kognitiver Ro-

botik“ die Erweiterung der theoretisch fundiertenMethoden der Regelungstheorie, Pfadplanung, Zu-standsschatzung, etc auf außere Freiheitsgrade verste-hen. Will man dies jedoch rigoros verfolgen, ergeben sichgrundlegende Fragestellungen, die das klassische Gebiet

3 Formal: In der lokalen Linearisierung der Gesamtsystem-dynamik zeigt die Steuerbarkeitsanalyse im Sinne der linea-ren Regelungstheorie, dass der externe Freiheitsgrad nichtregelbar ist.

Bild 2: Forschung an integrierten, kognitiven Systemen in derGruppe um Prof. Beetz (Beetz et al., 2008).

der Robotik verlassen, wie etwa der Umgang mit rela-tionalen Wahrscheinlichkeitsmodellen oder die Formu-lierung von Wahrscheinlichkeitsmodellen, die fundamen-tale geometrische und physikalische Randbedingungenabbilden. In diesem Sinne fuhrt unsere Begriffsdefiniti-on kognitiver Systeme direkt zu der in der Einleitungdiskutierten Wechselwirkung zwischen Robotik, KI unddem Maschinellen Lernen.

3 Forschungsuberblick

Im allgemeinen wird der Begriff”kognitiv“ unscharfer

als oben vorgeschlagen genutzt. Dennoch zeigt sich beiexistierenden Forschungsinitiativen in der kognitivenRobotik, dass der Fokus auf Aspekte intelligenter Sy-steme gesetzt wird, die uber Regelung und Bahnpla-nung hinausgehen. Die Forschung beschaftigt sich mitkomplexem sequentiellem Verhalten, Objektmanipulati-on, Mensch-Maschine Interaktion, der Kombination aussymbolischem Planen mit Regelung und Wahrnehmung,sowie schließlich der Fahigkeit, in diesen Szenarien zulernen. Diese Aspekte der

”kognitiven Robotik“ sind mit

unserer Begriffsdefinition konsistent, in dem die Um-welt und ihre Struktur als zentraler Gegenstand der For-schung mit einbezogen wird.

Ein gutes Beispiel dafur, was ein kognitiver Roboter seinkonnte, der effizient externe Freiheitsgrade manipuliert,findet sich in einem PR1-Video4. Der Roboter der FirmaWillow Garage raumt hier ein Wohnzimmer vollstandigauf: Er stapelt die Zeitschriften ordentlich, raumt Spiel-zeug in eine Box und schuttelt die Kissen auf. Leiderist die komplette Sequenz von einem Menschen teleo-periert! Der Roboter selbst nutzt keinerlei Perzeption,Bewegungs- oder Handlungsplanung, sondern ist letzt-lich eine Verlangerung des vom Menschen gesteuertenJoysticks. Das Video demonstriert, was heutige Robo-ter im Prinzip, trotz der rudimentaren Mechanik, tunkonnten und veranschaulicht damit das unerreichte Zielder Forschung an autonomen Robotern. Offensichtlichist das vornehmliche Problem der autonomen kognitivenRobotik nicht die Mechanik, sondern fehlende Methodender Handlungsplanung, Modellierung und der Kontrolleexterner Freiheitsgrade.

4http://www.youtube.com/watch?v=jJ4XtyMoxIA

3

Michael Beetz’ Forschungsgruppe entwickelt sehr inter-essante, integrierte kognitive Systeme, die Aufgaben inKuchenumgebungen losen (Beetz et al., 2008). Abb. 2zeigt ein solches Szenario zusammen mit den benutz-ten Sensoren am Roboter und auf den Gegenstanden.Die erreichten Manipulationssequenzen sind nahe, abernicht ganz so flexibel wie die Handlungssequenzen ausobigem PR1-Video, werden aber autonom vom Robo-ter ausgefuhrt. Neuere Arbeiten zeigen einen Roboter,der Pfannkuchen macht und dafur symbolische

”Hand-

lungsanleitungen“ aus dem Internet nutzt, wie sie un-ter howto.com oder roboearth.org speziell fur Ro-boter zu finden sind. Aus Anwendungssicht ist dieserAnsatz, bei dem der einzelne Roboter nicht mehr ler-nen muss, sondern vorverarbeitetes Wissen uber Ob-jekte und Handlungen aus dem Internet bezieht, be-sonders vielversprechend. Die Karlsruher Forschungs-gruppe betrachtet ahnlich integrierte Robotiksysteme inKuchenumgebungen (Asfour et al., 2006). Am Bielefel-der CITEC liegt der Schwerpunkt eher auf der Interak-tion zwischen Mensch und Roboter, aber auch auf derGrundlagenforschung am Greifen (Steil et al., 2004).

Die erwahnten Forschungsvorhaben sind Beispiele furintegrierte Systeme, die Perzeption, Handlungsplanung,Objektmanipulation und Bewegungssteuerung im Zu-sammenspiel an relevanten Anwendungsszenarien de-monstrieren. Eine bisher unzureichend geloste Proble-matik in solchen Systemen ist das autonome Lernenauf der Handlungsebene. Nur wenige existierende For-schungsarbeiten widmen sich dem Problem des Hand-lungslernens (auf symbolischer Objektebene) in voll in-tegrierten Robotiksystemen (Beetz et al. (2008), sie-he auch die Diskussionen zum Lernen auf Systemebene(Thrun, 2000; Andre and Russell, 2001)).

Im Folgenden wollen wir einige eigene Arbeiten disku-tieren, die den Fokus auf sogenanntes relationales Rein-forcement Lernen legen, das ein vielversprechender An-satz fur das Lernen auf Ebene der Objektmanipulationund symbolischer Handlungsplanung ist. Wahrend dieseMethoden symbolische, logische Reprasentationen mitder statistischen Lerntheorie kombinieren, ergibt sich einklassisches Problem: Woher kommen die Symbole? Ab-schnitt 5 wird explizit auf Symbol-Lernen zum Zweckeder Handlungsplanung eingehen und Abschnitt 6 auf au-tonome Exploration.

4 Relationales Lernen und Planen

Die Kunstliche Intelligenz verfolgt den Ansatz, grund-legende Zusammenhange in der Welt mittels abstrakterSymbole zu beschreiben. Unsere Alltagswelten zeichnensich durch eine Vielzahl an Gegenstanden aus. In unse-ren Kuchen etwa finden wir Glaser, Teller und Topfe,in unseren Buros Blatter, Stifte und Ordner. Kenn-zeichnend fur diese Umgebungen ist die Struktur, diedurch die Eigenschaften der Gegenstande und ihre Be-

ziehungen untereinander festgelegt wird. Wir konnendiese Struktur mit abstrakten Symbolen abbilden: Et-wa mit Symbolen fur den Typ, die Große oder die Formeines Gegenstandes oder fur geometrische Muster, wiebeispielsweise, dass ein Gegenstand auf einem anderenliegt oder in einem anderen enthalten ist. Die symbo-lische Abstraktion umfasst auch die Handlungen mitGegenstanden. Verschiedene konkrete Greifbewegungenkonnen mittels eines einzigen Symbols fur Greifen ab-strahiert werden.

Selbst wenn die Welt auf diese Weise symbolisch ab-strahiert wird, bleibt die Anzahl moglicher Situationenunuberschaubar groß – namlich exponentiell in der An-zahl der reprasentierten Gegenstande. Erhalt ein ko-gnitives System beispielsweise die Aufgabe, zehn Tellerubereinander zu stapeln, so kann es dies auf 10! verschie-dene Weisen tun. Nicht jeder einzelne mogliche Stapelsoll als Ziel definiert werden. Daher muss ein kogniti-ves System in der Lage sein, in seiner symbolischen Be-schreibung uber Gegenstande und Situationen zu verall-gemeinern. Verallgemeinerung ist generell wichtig, umaus wenigen Erfahrungen lernen und in verschiedenarti-gen Situationen handeln zu konnen. Wenn wir jede zuvorungesehene Teetasse als einen vollkommen unbekanntenGegenstand auffassen und jedes Greifen eines weiterenGegenstands als eine neuartige Bewegung, sind wir nichtfahig, in unserer vielschichtigen Umgebung sinnvoll zuhandeln.

So genannte relationale Reprasentationen (Fikes andNilsson, 1971) bieten die Moglichkeit, erlerntes Wis-sen zu verallgemeinern. Relationale Reprasentationenbeschreiben eine Situation durch die Menge der Ei-genschaften und Beziehungen (Relationen) von Ge-genstanden in Form von logischen Pradikaten und Funk-tionen. Zum Beispiel druckt das Pradikat on(a, b) aus,dass der Gegenstand a auf b liegt. Grundlegend furdie Fahigkeit zu verallgemeinern ist die Annahme, dassdie Wirkung von Handlungen nur von den Eigenschaf-ten und Typen der Gegenstande abhangt (beschrie-ben durch die Pradikate), nicht aber von den jewei-ligen Identitaten der Gegenstande (dass es sich umGegenstand a handelt und nicht b). Indem man Va-riablen fur Gegenstande einfuhrt, konnen strukturelleAquivalenzklassen von Situationen beschrieben werden.Zum Beispiel kann das Symbol on(a,X) dazu benutztwerden, alle moglichen Weltsituationen zusammenzufas-sen, in denen sich der Gegenstand mit dem Bezeich-ner a auf irgendeinem anderen, nicht weiter spezifizier-ten Gegenstand X befindet. Abstrakte relationale Be-schreibungen ermoglichen dadurch, kompakte, verallge-meinernde Modelle uber die Wirkungsweise von Hand-lungen zu definieren.

Um relationale Modelle tatsachlich auch in den kom-plexen Szenarien der echten Welt einsetzen zu konnen,ist es von entscheidender Bedeutung, in ihnen die Un-sicherheit von Wissen auszudrucken. Die Wirkung vonHandlungsketten ist selbst in einfachen Alltagsumge-

4

bungen nicht immer eindeutig vorherzusagen; das heißt,wir konnen nicht eindeutig abschatzen, ob im Folge-zustand einer Handlung ein Symbol wahr oder falschsein wird. Beim Einschenken in ein Glas kann Wasserverschuttet werden, Teller fallen auf den Boden, Bussehaben Verspatung. Diese Unsicherheit uber die Wirkunghat vielfaltige Grunde. Zunachst mag die Welt inharentstochastisch sein. Doch wichtiger als Stochastitizat ist,dass wir Vorhersagen nie mit volliger Sicherheit treffenkonnen, weil wir stets nur unvollstandige Informationenuber die Welt zur Verfugung haben. Teller mogen feuch-ter und rutschiger sein, als wir annehmen, wir wissennicht, dass ein Bus eine Panne hat. Wir konnen unse-re Welt stets nur teilweise und ungenau wahrnehmen.Daruber hinaus ist es gerade der Zweck einer abstrak-ten Beschreibung, Einzelheiten außer Acht zu lassen unddamit nur teilweise Information zu reprasentieren. Vorallem aber ist Wissen zwangslaufig unsicher, wenn esaus Erfahrung gelernt und generalisiert wird. In Bayesia-nischen Modellen ist die Wechselwirkung zwischen Ge-neralisierung, Prior und Unsicherheit des Modells ex-plizit. In frequentistischen Modellen wird die inharenteUnsicherheit eines verallgemeinernden Modells uber dieRegularisierung geregelt. In beiden Fallen lasst sich dieUnsicherheit einer verallgemeinernden Pradiktion nichtvermeiden (bias-variance tradeoff ).

Stochastische relationale Modelle ermoglichen die Mo-dellierung von Unsicherheit, und damit sowohl das Er-lernen kompakter und verallgemeinernder Modelle ausErfahrung als auch das Planen mit erlernten Modellen.Ein Beispiel fur stochastische relationale Modelle bildenprobabilistische relationale Regeln wie die folgende:

greife(X) : klotz(X), ball(Y ), auf(Y,X)

70% : inhand(X), ¬auf(Y,X)20% : ¬auf(Y,X)10% : noise

Diese Regel beschreibt auf abstrakte Weise eine Situa-tion, in der ein System versucht, einen Klotz zu greifen,auf dem ein Ball liegt. Diese Regel dient der Vorhersagein jeder Situation, in der das System einen sonst nichtnaher spezifizierten Klotz, auf dem ein Ball liegt, greifenmochte. Die relationale Beschreibung fasst hierbei eineexponenzielle Anzahl an moglichen Situationen in einerkurzen probabilistischen Regel zusammen.

Pasula et al. (2007) beschreiben einen Algorithmuszum Lernen von Mengen solcher Regeln aus einerErfahrungsmenge. Der Algorithmus folgt fundamen-tal der klassischen Lerntheorie: Er versucht alle Er-fahrungen mit der Regelmenge zu erklaren (like-lihood -Maximierung), aber gleichzeitig moglichst we-nige und kompakte Regeln zu nutzen (Regularisie-rung in Form einer minimalen Beschreibungslange).Bei wenig Erfahrung entstehen wenige, kompakte undstark (uber-)verallgemeinernde Regeln; bei mehr Erfah-rung werden die Regeln mehr, expliziter und genau-er. Dieser gewunschte Effekt basiert fundamental auf

der Moglichkeit, Wahrscheinlichkeiten mit diesen Regelnauszudrucken. Das Inkaufnehmen von Modellungenau-igkeiten ist also entscheidend fur Lernen, Generalisie-rungsfahigkeit und Kompaktheit.

Das Nutzen erlernter probabilistischer Regeln zur Hand-lungsplanung ist Gegenstand aktueller Forschung. DieHerausforderung liegt einerseits in dem exponenziellgroßen Zustandsraum, der mit relationalen Regeln be-schrieben wird, andererseits in der Stochastizitat desModells, was die direkte Anwendung klassischer deter-ministischer Logik verhindert. Ein moglicher Ansatz istes, die Regeln zunachst in eine andere Reprasentation– faktorisierte Dynamische Bayesnetze – zu ubersetzenund dann probabilistische Inferenzmethoden zur Pla-nung zu nutzen. Lang and Toussaint (2010) beschrei-ben den ersten Algorithmus, der effizient mit erlerntenprobabilistischen Regeln planen kann.

5 Symbole lernen

Bei der Diskussion relationalen Lernens und Planensnahmen wir an, dass bereits abstrakte Symbole existie-ren. Ein autonomes System nimmt die Welt jedoch uberSensoren war, die im Wesentlichen geometrische Infor-mationen liefern. Symbole mussen daher entweder voneinem menschlichen Experten vorgegeben oder, wie wirvorschlagen, aus Erfahrung gelernt werden. Was sind ge-eignete Kriterien und Gutemaße fur Symbole, die eineGrundlage fur das Lernen bieten konnen? Im Folgendendiskutieren wir kurz Beispielansatze.

Wellens et al. (2008) modelliert Lernen von Symbolenals Kommunikationproblem: Agenten mussen die Be-deutungen von unbekannten Wortern so lernen und fursich selbst definieren, dass koharente Kommunikationmoglich ist. Die Autoren testen dieses Modell in Szena-rien, in denen Roboter Objekte bewegen und dies einemanderen Roboter kommunizieren mussen. Die Roboterlernen dadurch eine Abbildung von visuellen Merkmalender Objekte auf symbolische Worter. Lernen ist erfolg-reich, falls die Agenten einander zeigen konnen, welcheObjekte sie demnachst manipulieren wollen.

Kollar et al. (2010) lernt die Bedeutung von Wortern,die in Wegbeschreibungen vorkommen, aus Beispielenvon Bewegungstrajektorien und deren Beschreibung innaturlicher Sprache von einem Lehrer. Man kann aufGrund dieser Daten die geometrische Bedeutung vielerWorter (z.B.

”links abbiegen“) lernen. Es wird aber ein

Lehrer benotigt, der große Datenmengen erzeugt.

Feldman (2012) argumentiert als Kognitionswissen-schaftler, dass eine symbolische Beschreibung alle wich-tigen Eigenschaften einer kontinuierlichen Welt beinhal-ten kann. Die Formalisierung mittels ublicher Mixtur-Modelle in einem Vektorraum scheint jedoch naiv, wennman an naturliche Welten denkt. Zudem wird in keinerWeise der Nutzen von Symbolen fur die Organisation

5

von Verhalten, z.B. fur das Lernen und Planen in Be-tracht gezogen.

Unserer Meinung nach sollten sich gute Symbole fur ko-gnitive Systeme gerade dadurch auszeichnen, dass siedie fur die Handlungsplanung wesentlichen Aspekte derUmwelt reprasentieren und effizientes, generalisieren-des Lernen ermoglichen. Dies steht im Gegensatz zumrein unuberwachten Lernen, das Symbole oder Unterdi-mensionen sucht, die die Varianz in Daten erklart, un-abhangig von deren eigentlichen Nutzen.

Unser Ansatz versucht dies in konkreten Robotik-Szenarien zu realisieren (Jetchev et al., 2013). Wir be-trachten einen Agenten, der aus einer Menge moto-rischer Fahigkeiten (Primitive) wahlen kann, um eineBewegungssequenz zu erzeugen und damit die Objek-te in der Welt zu manipulieren. Der Agent muss ausbeobachteten kontinuierlichen Objektmerkmalen und-relationen y ∈ Rd abstrakte Symbole lernen. DieseSymbole sollen idealerweise die wichtigen Muster re-prasentieren, zum Beispiel, ob gewisse Fahigkeiten inder momentanen Situation anwendbar sind und wel-che Wirkung sie erzielen. Die Bedeutung von

”wich-

tig“ kann sich aber in verschiedenen Situationen unter-scheiden. Wenn ein Affe etwas Essbares in einem Waldsucht, sind vielleicht Eigenschaften wie

”rot“,

”weich“

und”giftig“ wichtig. Wenn derselbe Affe eine Waffe

sucht, sind”hart“ und

”scharf“ wichtige Symbole. Er-

folgreiche Agenten, die ihre Ziele erreichen konnen, ha-ben Symbole gelernt, die zu Belohnung fuhren (hier: Zielerreicht). Die Qualitat der gelernten Symbole wird indi-rekt gemessen, mittels der Fahigkeit des Agenten, ziel-gerichtetes Verhalten mit diesen Symbolen zu erzeugen.

Wir definieren ein Symbol als relationales Pradikat oh-ne immanente Semantik. Zu diesem Symbol gehort ei-ne Abbildung (Klassifikator) von geometrischen Merk-malen auf binare Wahrheitswerte des Pradikats – demGrounding des Symbols. Symbol-Lernen reduziert sichdann auf das Lernen geeigneter Klassifikatoren. Ent-scheidend ist nun die Wahl der Gutefunktion dieserKlassifikatoren. Unser Ansatz kombiniert drei Kriterien:Erstens sollen die Symbole gleichzeitig pradikiv und dis-kriminativ bzgl. der Wirkung von Aktionen sein. Sym-bole sollen also den Vor- und Nach-Zustand einer Aktionunterscheiden konnen und gleichzeitig hinreichend Infor-mationen liefern, dass ein auf diesen Symbolen gelerntesModel den Nach-Zustand vorhersagen kann. Zweitenssollen Symbole Belohnungs-diskriminativ sein, d.h. siesollen hinreichend Informationen liefern, so dass ein aufdiesen Symbolen gelerntes Modell die Belohnung vorher-sagen kann. Drittens sollen Symbole einfach sein, d.h.moglichst wenige und selten wechselnde Symbole sollengesucht werden.

Diese drei Kriterien lassen sich formal fassen. Das Erler-nen geeigneter Symbole wird dadurch zu einem Optimie-rungsproblem der entsprechenden Klassifikatoren (Jet-chev et al., 2013). Ein anschauliches Beispiel betrachtetdie klassische Welt aus Blocken und Kugeln, die von ei-

(a) (b)

Bild 3: Bespielwelt fur das Manipulieren von Objekten und ge-lernte Symbole fuer stehtauf(X,Y): es ist wahr, wenn zweiBlocke aufeinander gestapelt sind.

nem Agenten bewegt werden konnen (siehe Abbildung3(a)). Unser Agent beobachtet Sequenzen zufalliger Ak-tionen. Die Belohnung ist abhangig von der Hohe dergebauten Turme. Ohne zuvor definierte Symbole be-steht die Beobachtung des Agenten ausschliesslich ausden geometrischen Effekten der Aktionen: Wie sich (re-lative) Koordinaten und geometrische Beziehungen zwi-schen den Objekten andern. Durch den oben genanntenOptimierungsprozess lernt der Agent aus diesen DatenPradikate, die wir z.B. mit istinhand(X), stehtauf(X,Y)benennen wurden – aus Sicht des Agenten besteht dieSemantik dieser gelernten Symbole aus nichts anderemals deren Rolle in den pradiktiven Modellen. Auf Grundder Optimierungskriterien erlauben es die Symbole ef-fektiv – auf Basis der im vorigen Abschnitt diskutier-ten Methoden – Aktionssequenzen zu planen, die demAgenten hohe Belohnung verschaffen. Zum Beispiel wirderlernt, dass manche Gegenstande, etwa Kugeln, nichtgestapelt werden konnen. In unserem Experiment wurdeein entsprechendes Symbol gelernt (wir konnten es istku-gel(X) benennen), da es zu einem besseren pradiktivenModell fuhrt. Viele andere denkbaren Symbole, wie z.B.linksvon(X,Y) wurden nicht gelernt, da sie fur die Be-lohnung oder Transitionsvorhersage in der konkreten Te-stumgebung irrelevant sind.

6 Autonome Exploration

Kognitive Systeme sollen selbststandig und zielgerich-tet in ihrer Umgebung handeln. Aus ihren Erfahrungenmussen sie verstehen lernen, auf welche Weise sie aufihre Umgebung einwirken konnen. Nur selten steht ih-nen dabei ein Lehrer zur Seite. Stattdessen mussen sieihren derzeitigen Wissensstand uberdenken und darauf-hin selbst aussuchen, was sich lohnt zu explorieren.

Wie kann man ein kognitives System bauen, das eineneue Umgebung in moglichst kurzer Zeit erkundet unddadurch ein Modell der eigenen Handlungen erlernt? Diein der jungeren KI- und Robotik-Forschung entwickeltenExplorationsmethoden realisieren eine Form von

”Neu-

gier“, die Lernoptimalitat oder -effizienz in dem ein oderanderen Sinne garantiert. Zentrale Paradigmen sind et-wa das sog. Bayesische Reinforcement-Lernen (Poupart

6

et al., 2006) und auch R-max (Brafman and Tennen-holtz, 2002). Im Wesentlichen erhalt das System eine for-male Belohnung jedes Mal, wenn es etwas Neues lernt.Ein wesentliches Problem ist dabei das Abwagen zwi-schen dem moglichen Wert neuer Erfahrungen und demAusnutzen bereits erlernten Wissens (der exploration-exploitation tradeoff ). Die genannten Methoden gebenmogliche optimale Antworten auf dieses Problem.

Bei der Anwendung solcher Explorationsmethoden inAlltagsumgebungen ergeben sich interessante Heraus-forderungen: Die Anzahl moglicher Handlungen istunuberschaubar, der Raum moglicher Weltzustande istwie oben dargelegt exponentiell in der Anzahl dermodellierten Gegenstande. In einem dermaßen großenSuchraum kommt es so gut wie nie vor, dass exakt die-selbe Situation zweimal auftritt. Vielmehr ist jede Si-tuation neu. Daher kann Neuheit allein keine effizienteExplorationsstrategie sein. Von entscheidender Bedeu-tung ist die Verallgemeinerung des eigenen Wissens aufneue, aber strukturell aquivalente Situationen. Wenn einbisher erlerntes Modell scheinbar gut auf eine neue Si-tuation verallgemeinert werden kann, so ist diese weni-ger interessant fur die Exploration. Die oben beschriebe-nen stochastischen relationalen Modelle implizieren alsonicht nur eine bestimmte Form der Verallgemeinerungbeim Lernen, sondern auch eine bestimmte Explorati-onsstrategie. Nehmen wir als Beispiel einen Roboter, dereinige Zeit mit blauen und roten Blocken Erfahrung ge-sammelt hat. Danach wird ihm ein gruner Klotz undein gruner Ball gegeben. Beide Gegenstande hat der Ro-boter noch nie gesehen. Ein simpel gestricktes Systemwurde beide daher als gleich interessant einstufen. EinRoboter, der relationale Modelle lernt, kann hingegenausnutzen, dass er bereits zuvor anhand der blauen undroten Klotze gelernt hat. Er weiß, was er mit Klotzen an-fangen und dass er sie zum Beispiel aufeinander stapelnkann. Insbesondere hat er erkannt, dass die Farbe ei-nes Klotzes keine Auswirkung darauf hat, was mit ihmgebaut werden kann. Ein solcher Roboter wird daherden grunen Ball zur Exploration bevorzugen, auf densein zuvor erlerntes Wissen nicht verallgemeinert. Ak-tuelle Systeme, die in der stochastischen relationalen KIerforscht werden, zeigen in Experimenten genau diesesVerhalten (Lang et al., 2010, 2012).

7 Zusammenfassung

In den 1960er Jahren stellte das MIT Shakey vor, einenmobilen Roboter, der Objekte verschieben, greifen undplazieren konnte (Nilsson, 1984). Im Grunde hat die hierdiskutierte Forschung, und generell die Forschung ankognitiven Systemen, immer noch sehr ahnliche Ziele.Hat die Robotikforschung also in den letzten 40 Jah-ren keinen Fortschritt gemacht? Tatsachlich ist das, wasmit Robotern im Kontext der autonomen Objektma-nipulation und Handlungsplanung demonstriert wird,

in oberflachlicher Hinsicht vergleichbar geblieben. Den-noch gab es hinter diesen Demonstrationen wichtigeFortschritte in der Robotik, KI und im MaschinellenLernen: Die Leistungen von Shakey – genauso wie die imtelegesteuerten PR1-Video – spiegeln direkt die Intelli-genz der Ingenieure wieder, nicht die des Roboters. DieForschung versucht seitdem, mehr Autonomie und In-telligenz im System selbst zu verwirklichen, insbesonde-re die Fahigkeit des Lernens. Im Zuge dieser Forschungscharfte sich vor allem unser Verstandnis der fundamen-talen Probleme, die in der Anfangszeit der KunstlichenIntelligenz und Robotik nicht wahrgenommen wurden.

Eines dieser Probleme ist Unsicherheit: In der klassi-schen KI wurde oft von fehlerfreien symbolischen Mo-dellen der Umwelt ausgegangen – woher die notwendi-gen symbolischen Abstraktionen und das Wissen selbstkommt, wurde vernachlassigt. Erlerntes Wissen ist aberzwangslaufig mit Unsicherheit behaftet. Fur das effizi-ente Lernen, die Exploration und Planung mit unsiche-rem Wissen sind erst in jungerer Zeit vielversprechendeMethoden entwickelt worden. Das Erlernen geeignetersymbolischer Abstraktionen bleibt weiterhin ein wichti-ges Forschungsfeld. Die hier diskutierten Methoden sindnur ein erster Schritt.

Es werden auch Lucken in unseren theoretischen Me-thoden erkennbar. Um die Schatzung, Pradiktion undManipulation externer Freiheitsgrade zu ermoglichen,brauchen wir geeignete Reprasentationen, strukturier-te Wahrscheinlichkeitsmodelle. Die hier diskutierten re-lationalen Modelle sind nur ein Beispiel fur geeigneteReprasentationen, die die Struktur der Umwelt wieder-spiegeln – in diesem Fall ihre Komposition aus Objekten.Fur viele andere Charakteristika der naturlichen Um-welt haben wir bisher noch keine mathematischen For-malismen, um sie auszudrucken und entsprechend gene-ralisierende Lern- und Planungsmethoden abzuleiten.

Wenn man also unter kognitiver Robotik, wie hier vor-geschlagen, die Erweiterung von Lernen, Planen, Infe-renz und Regelung auf außere Freiheitsgrade verstehenwill, so wird es zum zentralen Problem, die Struktur die-ser außeren Welt in geeignete Priors, Reprasentationenund Modellannahmen zu ubersetzen. Mit den hier disku-tierten Ansatzen zum relationalen Lernen und Symbol-Lernen sind erste Beispiele gegeben. Die existierendenForschungsrichtungen zur Integration von Logik, Geo-metrie und Wahrscheinlichkeiten (etwa (Kaelbling andLozano-Perez, 2011)) gehen in dieselbe Richtung. Den-noch wird die Forschung vermutlich noch einige Zeitmit ahnlichen Szenarien beschaftigt sein, wie sie ober-flachlich schon vor 50 Jahren mit Shakey begonnen wur-den. Anders als damals sind das Ziel jedoch Systeme,die durch intelligente Exploration und Verallgemeine-rung autonom lernen. Mit selbst erlernten Modellen undSymbolen sollen sie in gewisser Weise

”begreifen“, was

sie tun, und dies eigenstandig zur Verhaltensorganisati-on nutzen. Die Fortschritte in der Lerntheorie und Ro-botik erlauben uns es heute besser zu verstehen, welche

7

fundamentalen wissenschaftlichen Probleme sich hinterdiesem Ziel verbergen.

Danksagung

Die Autoren bedanken sich bei der Deutschen For-schungsgemeinschaft fur die Einrichtung des Schwer-punktprogramms SPP 1527. Diese Forschung wurde imRahmen des Projekts TO 409/7-1 gefordert.

8

at 8/2004

Literaturverzeichnis

D. Andre and S. Russell. Programmable reinforcementlearning agents. In Proceedings of the 13th Con-ference on Neural Information Processing Systems(NIPS 2001), pages 1019–1025, 2001.

T. Asfour, K. Regenstein, P. Azad, J. Schroder, A. Bier-baum, N. Vahrenkamp, and R. Dillmann. Armar-iii:An integrated humanoid platform for sensory-motorcontrol. In Humanoid Robots, 2006 6th IEEE-RAS In-ternational Conference on, pages 169–175. Ieee, 2006.

M. Beetz, F. Stulp, B. Radig, J. Bandouch, N. Blodow,M. Dolha, A. Fedrizzi, D. Jain, U. Klank, I. Kresse,et al. The assistive kitchen—a demonstration sce-nario for cognitive technical systems. In Robot andHuman Interactive Communication, 2008. RO-MAN2008. The 17th IEEE International Symposium on,pages 1–8. IEEE, 2008.

R. I. Brafman and M. Tennenholtz. R-max - a generalpolynomial time algorithm for near-optimal reinforce-ment learning. Journal of Machine Learning Research(JMLR), 3:213–231, 2002.

J. Feldman. Symbolic representations of probabilisticworlds. Cognition, 123:61–83, 2012.

R. Fikes and N. Nilsson. STRIPS: a new approach tothe application of theorem proving to problem solving.Artificial Intelligence Journal, 2:189–208, 1971.

N. Jetchev, T. Lang, and M. Toussaint. Learning groun-ded relational symbols from continuous data for ab-stract reasoning. Submitted to ICRA 2013, 2013.

L. Kaelbling and T. Lozano-Perez. Hierarchical task andmotion planning in the now. In Robotics and Auto-mation (ICRA), 2011 IEEE International Conferenceon, pages 1470–1477. IEEE, 2011.

W. Kohler. Intelligenzprufungen an Menschenaffen.Springer, Berlin (3rd edition, 1973), 1917. English ver-sion: Wolgang Kohler (1925): The Mentality of Apes.Harcourt & Brace, New York.

T. Kollar, S. Tellex, D. Roy, and N. Roy. Toward under-standing natural language directions. In HRI, pages259–266, 2010.

T. Lang and M. Toussaint. Planning with noisy probabi-listic relational rules. Journal of Artificial IntelligenceResearch (JAIR), 39:1–49, 2010.

T. Lang, M. Toussaint, and K. Kersting. Explorationin relational domains for model-based reinforcementlearning. In Proc. of the European Conf. on MachineLearning (ECML), 2010.

T. Lang, M. Toussaint, and K. Kersting. Explorationin relational domains for model-based reinforcementlearning. Journal of Machine Learning Research, 13:3691–3734, 2012.

N. Nilsson. Shakey the robot. Technical Note 323. AICenter, SRI International 323, 1984.

Y. Niv, J. D., and D. P. A normative perspective onmotivation. Trends in Cognitive Sciences (TICS), 10:375–381, 2006.

H. M. Pasula, L. S. Zettlemoyer, and L. P. Kaelb-ling. Learning symbolic models of stochastic domains.Journal of Artificial Intelligence Research (JAIR), 29:309–352, 2007.

J. Pearl. Probabilistic Reasoning In Intelligent Systems:Networks of Plausible Inference. Morgan Kaufmann,1988.

P. Poupart, N. Vlassis, J. Hoey, and K. Regan. An ana-lytic solution to discrete Bayesian reinforcement lear-ning. In Proc. of the Int. Conf. on Machine Learning(ICML), pages 697–704, 2006.

J. Steil, F. Rothling, R. Haschke, and H. Ritter. Situatedrobot learning for multi-modal instruction and imita-tion of grasping. Robotics and Autonomous Systems,47(2):129–141, 2004.

S. Thrun. Towards programming tools for robots thatintegrate probabilistic computation and learning. InProceedings of the IEEE Int. Conf. on Robotics andAutomation (ICRA 2000), 2000.

S. Vijayakumar, A. D’Souza, and S. Schaal. Incrementalonline learning in high dimensions. Neural Computa-tion, 17(12):2602–2634, 2005.

P. Wellens, M. Loetzsch, and L. Steels. Flexible wordmeaning in embodied agents. Connection Science, 20(2-3):173–191, 2008.

04at – Automatisierungstechnik 68 (2020) 8 c© Oldenbourg Verlag 9

Prof. Dr.rer.nat. Marc Toussaint ist Pro-fessor und Leiter des Machine Learning andRobotics Lab an der Universitat Stuttgart.Hauptarbeitsgebiete: Maschinelles Lernen,Reinforcement Lernen, Robotik.

Adresse: Universitat Stuttgart, Uni-versitatsstraße 38, 70569 Stuttgart,[email protected]

Dr.rer.nat. Tobias Lang ist Wissenschaft-ler im Machine Learning and Robotics Lab derFU Berlin und erforscht autonome Explorati-on und Schlussfolgerung kognitiver Systeme.

Adresse: [email protected]

Dr.rer.nat. Nikolay Jetchev ist Wissen-schaftler im Machine Learning and RoboticsLab der FU Berlin und erforscht, wie Robo-ter aus Demonstration lernen und ihre Umweltin symbolischen Beschreibungen abstrahierenkonnen.

Adresse: [email protected]

10