Document [original]

Geleitwort des Herausgebers

Die Industrie- und Dienstleistungsgesellschaft ist einem stetigen Wandel unterworfen. Die

Herausforderungen an sie werden immer komplexer. Das äußert sich im verstärkten interna-

tionalen Wettbewerb, aber auch in dem Bestreben der Gesellschaft, das Erreichte zu sichern.

Adäquate Problemlösungen sind daher in zunehmender Weise nur fachübergreifend zu reali-

sieren. Im Heinz Nixdorf Institut leisten wir mit der interdisziplinären Zusammenarbeit vor

allem zwischen der Informatik und den Ingenieur- und Wirtschaftswissenschaften unseren

Beitrag zur Bewältigung dieser Aufgaben.

Der Sonderforschungsbereich 614 ist ein Musterbeispiel für diese Art interdisziplinären Ar-

beitens. Unter der Überschrift „Selbstoptimierende Systeme des Maschinenbaus“ werden die

Grundlagen der maschinenbaulichen Systeme von morgen erarbeitet. Selbstoptimierung er-

möglicht dabei weitgehend autonom handlungsfähige Systeme, die in der Lage sind, flexibel

auf veränderte Betriebsbedingungen zu reagieren. Die Vision des SFB 614 ist eine neue Schu-

le des Entwurfs von intelligenten mechatronischen Systemen.

Herr Klöpper greift diese Gedanken in seiner Arbeit auf und identifiziert wesentlichen Hand-

lungsbedarf auf dem auf dem Weg zu intelligenten mechatronischen Systemen. Planung als

ein wesentlicher Aspekt intelligenten Verhaltens bleibt bisher in mechatronischen Systemen

unberücksichtigt. Diese Lücke schließt Herr Klöpper, in dem er die Grundlagen einer Verhal-

tensplanung für mechatronische Systeme erarbeitet. Hierzu wurden die gängigen Methoden

der künstlichen Intelligenz (Planung, probabilistische Inferenz, Multiagenten-Planung) mit

den speziellen Anforderungen mechatronischer Systeme verknüpft. Die entwickelten Konzep-

te sind in Anwendungsbeispielen aus dem Projekt „Neue Bahntechnik Paderborn“ validiert

worden.

Paderborn, März 2009 Prof. Dr.-Ing. habil. Wilhelm Dangelmaier

Vorwort

Diese Arbeit ist im Rahmen meiner Tätigkeit am Lehrstuhl für Wirtschaftsinformatik, insb.

CIM entstanden. Neben der sehr interessanten wissenschaftlichen Tätigkeit im SFB 614 wird

mir die Zeit am Lehrstuhl vor allem als eins in Erinnerung bleiben: als äußerst lustig und hu-

morvoll. Ohne den regen (nicht immer rein fachlichen) Austausch mit den Kollegen wären die

vier Jahre wesentlicher schwieriger durchzuhalten gewesen. Stellvertretend für alle Cimp-

sons sei mein Bürokollege Carsten genannt. Zwar lag er mir im Sommer 2007 in den Oh-

ren: „Zitierst du mich in deiner Diss?“

, aber ansonsten gab es viel zu lachen. Und daher wird

sich sicherlich folgender Dialog abspielen, wenn ich erzähle, dass er im Vorwort zitiert wird:

Benjamin: „Ich habe dich im Vorwort zitiert“.

Carsten: „Nein!“

Benjamin: „Doch!“

Carsten: „Ohhhhhhh!“

Daneben ist im Rahmen dieses Vorworts natürlich noch eine ganze Menge ernsthafter Dank

zu verteilen. Da mechatronische Systeme vor meiner Arbeit im SFB 614 gänzlich unbekannt

für mich waren, mussten mir viele der Mitstreiter mit ihren Fachkenntnissen auf die Sprünge

helfen. Dafür danke ich besonders Alexander Schmidt, Christoph Romaus und Henner Vö-

cking. Ebenso danke Christoph Danne, Dietrich Dürksen, Viktor Dück, Daniel Ruth, Chris-

toph Thonemann und Jens Wienstroer für ihre tatkräftige und kreative Unterstützung meiner

Arbeit. Meinem Bruder Markus und Herbert Podlogar danke ich für die Übernahme der äu-

ßerst mühevollen Aufgabe des Korrekturlesens. Ich hoffe, am Ende ist durchgedrungen, dass

Fuzzy Logic nichts mit schlechten Witzen zu tun hat. „Wacker wacker wacker!"

Für die sehr ausführliche Betreuung meiner Arbeit danke ich Prof. Dr.-Ing. habil. Dangel-

maier. Auf der Grundlage vieler Zwischenstände Anregung und Kritik zu erhalten, war äu-

ßerst hilfreich. Das Einfordern dieser Zwischenstände sicherte einen kontinuierlichen Arbeits-

fluss. Herrn Prof. Rammig danke ich für die Übernahme des Zweitgutachtens. Frau Prof. Suhl

und Frau Jun.-Prof. Kliewer, die mir als Mitglieder der Promotionskommission wertvolles

Feedback gaben.

Der letzte Dank gehört aber natürlich der Familie. Dass ich mich immer in allen kleinen und

auch größeren Dingen auf meine Brüder, meine Schwester und natürlich meine Mutter verlas-

sen kann, gibt mir sehr viel Sicherheit.

Nach diesem lockeren Auftakt hoffe ich, dass dem Leser möglichst informative und nützliche

Lektüre auf den kommenden etwa 200 Seiten erwartet. Ich fürchte, das reine Lesevergnügen

wird aufgrund der etwas trockenen Thematik zurückstehen müssen.

Paderborn, März 2009 Benjamin Klöpper

[CB07] Mündliches Zitat Carsten Böhle im Sommer 2007

Ein Beitrag zur Verhaltensplanung

für interagierende intelligente

mechatronische Systeme in

nicht-deterministischen

Umgebungen

Dissertation

zur Erlangung der Würde eines

DOKTORS DER WIRTSCHAFTSWISSENSCHAFTEN

(Dr. rer. pol.)

der

Universität Paderborn

vorgelegt von

Dipl.-Wirt.-Inf. Benjamin Klöpper

33102 Paderborn

Paderborn, Januar 2009

Dekan: Prof. Dr. Peter F. E. Sloane

Referent: Prof. Dr.-Ing. habil. W. Dangelmaier

Korreferent: Prof. Dr. F. J. Rammig

Inhaltsverzeichnis I

Inhaltsverzeichnis

Inhaltsverzeichnis ........................................................................................................................ I

Abbildungsverzeichnis ............................................................................................................. III

Verzeichnis der Listings ............................................................................................................ V

Tabellenverzeichnis ................................................................................................................... V

Einleitung ........................................................................................................................... 1

Problemstellung .................................................................................................................. 7

2.1

Abbildung der Verhaltensplanung auf die Planung in der KI .................................. 10

2.1.1

Modellierung mithilfe der PDDL ....................................................................... 11

2.1.2

Modellierung einer mechatronischen Domäne .................................................. 14

2.1.3

Modellierung einer Beispieldomäne .................................................................. 17

2.2

Integration kontinuierlicher Prozesse ....................................................................... 20

2.3

Unsicherheit und unvollständige Information .......................................................... 20

2.4

Interaktion zwischen mechatronischen Systemen .................................................... 23

2.5

Aufbau der Arbeit ..................................................................................................... 27

Integration kontinuierlicher Prozesse in eine Verhaltensplanung auf Basis der PDDL .. 29

3.1

Stand der Technik zur diskret-kontinuierlichen Planung ......................................... 29

3.1.1

Modellierung kontinuierlicher Planungsaspekte ................................................ 29

3.1.2

Planungsverfahren mit quasi-kontinuierlichen Prozessen .................................. 32

3.1.3

Optimale Steuerung und kontinuierliche Mehrzieloptimierung ......................... 33

3.1.4

Fazit zum Stand der Technik in diskret-kontinuierlicher Planung ..................... 34

3.2

Integration kontinuierlicher Verläufe in die Planung ............................................... 35

3.2.1

Modellierung kontinuierlicher Verläufe mithilfe vorgelagerter Optimierung ... 35

3.2.2

Modellierung kontinuierlicher Verläufe mittels Fuzzy-Approximation ............ 37

3.2.3

Fazit zur Integration kontinuierlicher Prozesse .................................................. 40

Planung unter Unsicherheit .............................................................................................. 43

4.1

Stand der Technik zur Behandlung von Unsicherheit .............................................. 43

4.1.1

Modellierung von Unsicherheit .......................................................................... 44

4.1.2

Modelle und Verfahren zur Analyse von Unsicherheit ...................................... 46

4.1.3

Planungssprachen für Unsicherheit und unvollständige Information ................ 51

4.1.4

Planungsverfahren zur Behandlung von Unsicherheit ....................................... 54

4.1.5

Fazit zum Stand der Technik Planung unter Unsicherheit ................................. 59

4.2

Planung unter Unsicherheit für mechatronische Systeme ........................................ 60

4.2.1

Planungsverfahren auf Basis bedingter Wahrscheinlichkeiten .......................... 62

4.2.2

Umplanungsverfahren auf Basis von Echtzeitsuche .......................................... 84

Planung von Systeminteraktionen .................................................................................... 87

5.1

Stand der Technik zur Planung von Systeminteraktionen ....................................... 90

5.1.1

Modellierung der Planung von Systeminteraktionen ......................................... 90

5.1.2

Phasenmodelle zur Planung von Systeminteraktionen ....................................... 91

5.1.3

Verfahren zur Berücksichtigung von Interaktion ............................................... 93

5.1.4

Fazit zum Stand der Technik zur Interaktionsplanung ..................................... 103

5.2

Planung der Interaktion bei gemeinsamer Hauptaufgabe....................................... 104

5.2.1

Mögliche Koordinationsaktionen ..................................................................... 105

5.2.2

Blackbox-Modellierung der Wechselwirkungen zwischen Teilsystemen ....... 108

5.2.3

Koordination vor der Planung .......................................................................... 115

5.2.4

Koordination nach der lokalen Planung ........................................................... 116

5.2.5

Berücksichtigung gemeinsamer Ressourcen .................................................... 119

5.2.6

Ablauf der Koordination .................................................................................. 119

5.3

Planung der Interaktion bei individueller Hauptaufgabe ....................................... 121

II Inhaltsverzeichnis

5.3.1

Mögliche Kooperationsaktionen ...................................................................... 121

5.3.2

Modellierung von Kooperationsaktionen ......................................................... 122

5.3.3

Durchführung der Abgabe von Aufträgen ....................................................... 124

5.3.4

Durchführung der Abgabe von Teilfunktionen ................................................ 126

5.3.5

Abstimmung von Aktivitäten ........................................................................... 129

5.3.6

Gesamtablauf .................................................................................................... 130

Integrationsszenario für die Planungsprozesse............................................................... 135

Anwendungsbeispiele ..................................................................................................... 139

7.1

Integration kontinuierlicher Verläufe für die aktive Federung .............................. 141

7.2

Planung unter Unsicherheit .................................................................................... 143

7.2.1

Probabilistische Routenplanung für bedarfsorientierten Schienentransport .... 143

7.2.2

Die Agentenklasse Track-Experte .................................................................... 143

7.2.3

Erweiterung des Fahrzeugagenten ................................................................... 145

7.2.4

Experimente und Ergebnisse ............................................................................ 146

7.3

Planung von Systeminteraktionen .......................................................................... 153

7.3.1

Planung bei gemeinsamer Hauptaufgabe ......................................................... 153

7.3.2

Planung bei individueller Hauptaufgabe .......................................................... 161

Zusammenfassung und Ausblick ................................................................................... 169

8.1

Zusammenfassung .................................................................................................. 169

8.2

Ausblick ................................................................................................................. 171

Literaturverzeichnis ................................................................................................................ 173

Modellierungsmethoden im Entwurf mechatronischer Systeme ................................... 181

Planungsverfahren der Künstlichen Intelligenz ............................................................. 182

XML-Format der Bayes-Netzwerke ............................................................................... 183

Versuchsaufbau Belief-Dijkstra ..................................................................................... 185

Abbildungsverzeichnis III

Abbildungsverzeichnis

Abbildung 1-1:Darstellung einer Aufgabe mithilfe einer Funktionshierarchie ......................... 2

Abbildung 1-2: Gliederung eines komplexen mechatronischen Systems [LHL+01] ................ 5

Abbildung 2-1: Verknüpfung eines mechatronischen Systems mit seinem Umfeld ................. 7

Abbildung 2-2: Planungsproblem für mechatronische Systeme als Baum ................................ 9

Abbildung 2-3: Struktur der Planungsaufgabe für mechatronische Systeme .......................... 10

Abbildung 2-4: Das PDDL-Planungsproblem als Planbaum ................................................... 13

Abbildung 2-5: Vergleich von Teilfunktionslösung und PDDL-Aktion ................................. 15

Abbildung 2-6: Funktionshierarchie mit Teilfunktionslösungen ............................................. 16

Abbildung 2-7: Planungsbaum unter Unsicherheit .................................................................. 21

Abbildung 2-8: Zwei mechatronische Systeme in einem Umfeld ........................................... 23

Abbildung 2-9: Planungsproblem bei zwei mechatronischen Systemen ................................. 25

Abbildung 3-1: Modellierung kontinuierlicher Verläufe mit vorgelagerter Optimierung ....... 35

Abbildung 3-2: Modellierung kontinuierlicher Verläufe mittels Fuzzy-Approximation ......... 37

Abbildung 3-3: Integrationsszenario für Fuzzy-Approximation .............................................. 40

Abbildung 4-1: Skizze des Planungsverfahrens für Unsicherheit ............................................ 61

Abbildung 4-2: Bedingte Planung und reaktive Umplanung im Energiemanagement ............ 62

Abbildung 4-3: Allgemeine Struktur eines Bayes-Netzwerks für probabilistische Effekte .... 67

Abbildung 4-4: Beispiel Netzwerk aus der Aktion Drive ........................................................ 68

Abbildung 4-5: Planbaum nach der probabilistischen Analyse ............................................... 70

Abbildung 4-6: Struktur der probabilistischen Planrepräsentation .......................................... 71

Abbildung 4-7: Zustandsautomat der erweiterten probabilistischen Analyse ......................... 73

Abbildung 4-8: Erweiterte probabilistische Analyse ............................................................... 75

Abbildung 4-9: Darstellung einer Vorbedingung als Planungsbaum ....................................... 76

Abbildung 4-10: Propagation der Wahrscheinlichkeiten im Vorbedingungsbaum ................. 76

Abbildung 4-11: Bewertung zusammengesetzter Ereignisse ................................................... 78

Abbildung 4-12: Zustandstrajektorie zu einer nicht ausführbaren Aktivität ............................ 80

Abbildung 4-13: Gesamtablauf der bedingten Planung ........................................................... 84

Abbildung 5-1: Betrachtete Modi des Antriebs ....................................................................... 87

Abbildung 5-2: Struktur des Planungsproblems für den Antrieb ............................................. 88

Abbildung 5-3: Wechselwirkung zwischen Antrieb und Luftspaltverstellung ........................ 89

Abbildung 5-4: Skizze der Interaktionsplanung bei gemeinsamer Hauptaufgabe ................. 104

Abbildung 5-5: Mögliche Plananpassung im Planungsproblem des Antriebs ....................... 106

Abbildung 5-6: Einbettung einer alternativen Teilfunktionslösung ....................................... 107

Abbildung 5-7: Planung beim Verschieben einer Teilaktion aus einem Zeitfenster ............. 107

Abbildung 5-8: Planung beim Verschieben einer Teilaktion in ein Zeitfenster .................... 107

Abbildung 5-9: Umplanung ................................................................................................... 118

Abbildung 5-10: Ablauf der Interaktionsplanung bei gemeinsamer Hauptaufgabe .............. 120

Abbildung 5-11: Einbettung alternativer Pläne als Ersatz für abzugebende Teilfunktionen . 128

Abbildung 5-12: Hierarchische Beziehung zwischen Kooperationsgegenständen ................ 131

Abbildung 5-13: Ablauf der Interaktionsplanung bei individueller Hauptaufgabe ............... 132

Abbildung 6-1: Integrationsszenario für die Planungsverfahren ........................................... 137

Abbildung 7-1: Planungshierarchie im RailCab-Beispiel ...................................................... 139

Abbildung 7-2: Vereinfachte Darstellung der Abläufe im RailCab-MAS ............................. 140

Abbildung 7-3: Pareto-Mengen im Bildraum für die Federung [VT08] ................................ 141

Abbildung 7-4: Zwei mit einem Fahrzeugagenten kommunizierende Track-Experten ......... 144

Abbildung 7-5: Klassendiagramm des Packages PNS ........................................................... 145

Abbildung 7-6: Ergebnisse bei exakten Prognoseverteilungen .............................................. 148

Abbildung 7-7: Ergebnisse bei einer Variation µ von -8% .................................................... 148

Abbildung 7-8: Ergebnisse bei einer Variation µ von +5% ................................................... 149

IV Abbildungsverzeichnis

Abbildung 7-9: Ergebnisse bei einer Variation µ von +15% ................................................. 149

Abbildung 7-10: Ergebnisse bei einer Variation +5% aller Parameter .................................. 150

Abbildung 7-11 Ergebnisse bei einer Variation von -10% aller Parameter ........................... 150

Abbildung 7-12: Fahrzeitersparnis durch den BeliefDijkstra ................................................ 151

Abbildung 7-13: Fahrzeitersparnis bei Variation aller Verteilungsparameter um +10% ...... 151

Abbildung 7-14: Ergebnisse bei 70% Anteil ungenauer Streckenabschnitte ......................... 159

Abbildung 7-15: Ergebnisse in allen Testszenarien ............................................................... 159

Abbildung 7-16: Ergebnisse der Umplanung ......................................................................... 160

Abbildung 7-17: Dauer der Iterationen der Umplanung ........................................................ 161

Abbildung 7-18: Beispiele für Wegeinsparungen durch die Abgabe von Aufträgen ............ 162

Verzeichnis der Listings V

Verzeichnis der Listings

Listing 2-1: Kopf der RailCab-Domäne ................................................................................... 17

Listing 2-2: Funktionen der RailCab-Domäne ......................................................................... 17

Listing 2-3: Fahraktion mit aktiver Federung .......................................................................... 18

Listing 2-4: Definition des Planungproblems .......................................................................... 18

Listing 2-5: Initialisierung in der Problemdatei ....................................................................... 19

Listing 2-6: Zielzustand des Beispielproblems ........................................................................ 19

Listing 2-7: Drei alternative Planungsmetriken ....................................................................... 19

Listing 3-1: Fuzzy Definition der numerischen Variablen ....................................................... 38

Listing 4-1: Funktion in der probabilistischen Domänendefinition für das RailCab ............... 64

Listing 4-2: Ausschnitt einer probabilistischen Problemdefinition des RailCab-Szenarios .... 69

Listing 4-3: Planmetrik in der probabilistischen Problemdefinition ........................................ 69

Listing 4-4: Probabilistische Analyse eines Plans .................................................................... 72

Listing 4-5: Ableitung relevanter Ereignisse aus einer Aktivität ............................................. 77

Listing 4-6: Einfügen proaktiver Verzweigungen in einen Plan .............................................. 80

Listing 5-1: Bedingte Aktion mit zeitabhängigem Nutzenwert ............................................. 113

Listing 5-2: Berechnung der Funktion req(s

) ........................................................................ 127

Listing 7-1: Aus der Optimierung abgeleitete Aktionsdefinition ........................................... 142

Listing 7-2: Pseudo-Code des BeliefDijkstra ......................................................................... 146

Listing 7-3: Planungsalgorithmus für den Antrieb in Pseudo-Code ...................................... 156

Listing 7-4: Anpassungsalgorithmus in Pseudo-Code ........................................................... 157

Listing 7-5: Suche nach abzugebenden Transportaufträgen .................................................. 163

Listing 7-6: Fahraktionen mit Berücksichtigung der Kooperationsform "Konvoi" ............... 165

Listing C-1: DTD des eXtended Bayesian Network Interchange Format ............................. 183

Listing C-2: Beispiel einer XBIF Beschreibung eines Experten-Netzwerks ......................... 184

Tabellenverzeichnis

Tabelle 4-1: Berechnung der Schrankenwerte für antizipierende Verzweigung ..................... 79

Tabelle 5-1: Interaktionsplanungsparameter als Bayes-Netzwerke ....................................... 115

Tabelle 7-1: Funktionswerte von (tfl) und (tfl) ....................................................... 154

Tabelle 7-2: Funktionswerte von (tfl) und (tfl)........................................................ 154

Tabelle 7-3: Funktionswerte von | ................................................................... 155

Tabelle 7-4: Situationsabhängiger mittlerer Luftspalt auf einem Streckenabschnitt ............. 158

Tabelle C-1: Wahrscheinlichkeitsverteilung einer Variablen C mit Elternknoten A und B .. 184

Tabelle D-1: Schablonen für die Bayes-Netzwerke der Track-Agenten ................................ 185

Tabelle D-2: Weiche Evidenzen für den Knoten Humidity ................................................... 186

Tabelle D-3: Zufallsvariablen der beiden verwendeten Netztypen ........................................ 186

Tabelle D-4: Mittlere Geschwindigkeiten zur Generierung der Erwartungswerte ............... 187

Tabelle D-5: Anteile zur Bestimmung der Standardabweichungen ....................................... 187

Einleitung 1

1 Einleitung

Ein RailCab

, ein fahrerloses Schienenfahrzeug, hat eine Reihe von Transportaufträgen zu

erfüllen. Diese Transportaufträge führen das Fahrzeug zunächst von Kassel nach Paderborn,

wo es weitere Fahrgäste für eine Fahrt nach Bielefeld aufsammeln muss. Auf dieser Fahrt hat

das RailCab eine Reihe von Entscheidungen zu treffen. Dabei sind diese Entscheidungen so

zu fällen, dass das RailCab seine Transportaufträge pünktlich abarbeitet, möglichst geringe

Kosten verursacht und den Fahrgästen einen angemessenen Fahrkomfort bietet.

Eine Entscheidung betrifft beispielsweise die Streckenwahl von Paderborn nach Bielefeld. Es

besteht dabei die Wahl zwischen zwei unterschiedlichen Streckenverläufen. Ein wichtiges

Entscheidungskriterium für das RailCab ist dabei die Möglichkeit einer Konvoibildung, also

die Strecke oder einen Teil der Strecke gemeinsam mit anderen Fahrzeugen zurückzulegen,

um durch den Windschatten-Effekt Antriebskraft einzusparen.

Eine andere Entscheidung betrifft die Frage, wie schnell einzelne Streckenabschnitte befahren

werden sollen, wobei die Abhol- und Ankunftszeiten der einzelnen Fahrgäste eingehalten

werden müssen. Diese Entscheidung hat u. a. Auswirkungen auf die Energieeffizienz des

RailCabs, da mit steigender Geschwindigkeit das Air Gap Adjustment System (AGAS) des

RailCabs nur große Luftspalte für den verwendeten Linearmotor einstellen kann und aus ei-

nem großen Luftspalt eine geringere Effizienz des Motors resultiert.

Eine zentrale Entscheidungsgröße für das RailCab stellt die verfügbare Energie dar. Die auf

dem Fahrzeug installierten Energiespeicher können einerseits geladen werden, andererseits

muss die verfügbare Energie zwischen den einzelnen Verbrauchermodulen des RailCabs

möglichst Nutzen stiftend verteilt werden. Eine mögliche Form des Nutzens ist der Fahrkom-

fort, der durch ein aktives Federungsmodul maximiert werden soll. Dabei geht ein hoher

Fahrkomfort abhängig von den Eigenschaften des Fahrweges mit hohen Energieverbräuchen

einher.

Die gefällten Entscheidungen sind teilweise voneinander zeitlich abhängig, da beispielsweise

der Batteriezustand Einfluss auf die Verlustströme und Batterieschädigung hat und einmal

verbrauchte Energie zu einem späteren Zeitpunkt nicht mehr zur Verfügung steht.

Um all diese Entscheidungen sinnvoll treffen zu können, muss das RailCab vorausplanen. So

muss es beispielsweise seine Fahrwege kennen, um Energieverbrauch und –bereitstellung

abschätzen zu können. Ankunftszeiten und Fahrwege müssen ebenfalls bekannt sein, um die

Fahrprofile für einzelne Streckenabschnitte auswählen zu können. Um die Entscheidung über

den Fahrweg treffen zu können, muss das RailCab Informationen über die Fahrwege anderer

Fahrzeuge sammeln, um beispielsweise eine Konvoibildung vorauszuplanen. Planung legt all

diese Parameter vor der eigentlichen Ausführung einer Aufgabe fest.

Ein RailCab ist ein Beispiel für ein technisches System, das die Qualität seiner Aufgabener-

füllung (Durchführung von Transporten) mithilfe einer Planung verbessern kann. Technische

Systeme werden entwickelt und eingesetzt, um für Menschen Aufgaben

zu übernehmen. Mit

dem technischen Fortschritt vergrößert sich laufend der Einsatzbereich technischer Systeme

und verbessert sich die Qualität, mit der die Aufgaben erfüllt werden. Die Qualität der Aufga-

benerfüllung kann dabei in einer Vielzahl unterschiedlicher Dimensionen gemessen werden,

die jeweils vom konkreten Anwendungsgebiet des technischen Systems abhängen. Beispiele

für diese Dimensionen der Qualität sind:

Details über das RailCab-System und die Beziehungen zwischen seinen Teilmodulen können z.B. in

[ADG+08] nachgelesen werden.

Nach Krüger „…lassen sich Aufgaben knapp als Verpflichtung, Verrichtungen an Objekten durchzuführen‘

(vgl. Frese, 1980) charakterisieren“ [Fres92]. Sie beschreiben als die gewollte Durchführung einer Manipulation

an einem materiellen oder immateriellen Objekt.

2 Einleitung

• Zeit, die zur Aufgabenerfüllung nötig ist,

• Pünktlichkeit des Ergebnisses,

• Ressourcen, die zur Aufgabenerfüllung eingesetzt werden,

• Fertigungspräzision bei Werkzeugmaschinen oder

• Komfortwerte oder Fahrspaß bei Fahrzeugen.

Während die ersten drei Beispiele unabhängig vom konkreten Anwendungsfall interpretiert

werden können, ergeben sich die beiden letzten aus einer bestimmten Anwendungsdomäne

heraus. Gemeinsam ist allen fünf Beispielen, dass sie zur Beurteilung des Systemverhaltens

herangezogen werden können und daher in eine mögliche Zielfunktion eingehen können.

Das technische System erfüllt seine Aufgabe, indem es ein bestimmtes Verhalten umsetzt. Im

Rahmen des Entwurfs des technischen Systems wird dieses Verhalten in der Regel in Form

eines Ein- und Ausgabeverhaltens betrachtet. Wird die Aufgabe des Systems als die Abbil-

dung der Eingabegrößen auf die gewünschten Ausgabegrößen beschrieben, bezeichnet man

diese Abbildung als Hauptfunktion des Systems. Funktionen und deren Umsetzung sind ein

zentrales Mittel zur Beschreibung des Verhaltens eines technischen Systems. Dabei steht die

Transformation eingehender Energie-, Stoff- und Signalflüsse in ebensolche ausgehende Flüs-

se im Vordergrund. Durch die Bildung einer Funktionshierarchie wird dabei die Hauptaufga-

be schrittweise immer feiner in Teilaufgaben zerlegt, bis ein angemessener Konkretisierungs-

grad erreicht ist. Dabei werden die einzelnen Funktionen jeweils als Blackbox aufgefasst, es

wird also jeweils nur ihr Ein- und Ausgabeverhalten betrachtet [Rode91]. Abbildung 1-1 stellt

dieses Vorgehen dar.

Abbildung 1-1:Darstellung einer Aufgabe mithilfe einer Funktionshierarchie

Die Funktionen werden in der Regel zunächst verbal beschrieben – bspw. mithilfe sogenann-

ter technischer Verben aus Konstruktionskatalogen [Roth01], durch die Angabe eines Haupt-

und Zeitworts [PB93] oder aus einem dreistufigen Funktionsmodell [Huan01]. Nachdem eine

geeignete Funktionshierarchie für das zu entwickelnde Produkt aufgestellt ist, müssen die

Teilfunktionen auf mögliche Zusammenhänge und Abhängigkeiten untersucht werden. Insbe-

sondere auf eine zeitliche Reihenfolge der Ausführung der Teilfunktionen wird dabei abge-

zielt. Daraus ergibt sich eine Funktionsstruktur oder Funktionskette, die das Aufeinanderfol-

gen der Teilfunktionen beschreibt. In einem nächsten Schritt werden logische Funktionen

genutzt, um die Zusammenhänge zwischen Teilaufgaben oder den Ein- und Ausgangsgrößen

von Funktionen zu beschreiben. Nachdem die Zusammenhänge zwischen den Teilfunktionen

erfasst sind, schließt sich die Suche nach den technischen Lösungen zur Erfüllung der Funkti-

Einleitung 3

on an. Die möglichen Lösungen zur Erfüllung einer Teilfunktion werden in Form von Wirk-

prinzipien beschrieben. Auf diese Weise wird das Verhalten des technischen Systems immer

konkreter beschrieben. Obwohl durch den Einsatz von logischen Operatoren wie „und“ und

„oder“ grundsätzlich auch situationsabhängige Funktionsketten denkbar sind, ist die Abfolge

doch relativ unflexibel angegeben. Daraus ergeben sich eine relativ geringe Situationsange-

messenheit und mangelnde Möglichkeiten, im Rahmen intelligenter Systeme auf geänderte

Zielstellungen zu reagieren. Eine intelligente Entscheidungsfindung, wie sie im Eingangsbei-

spiel für das RailCab gefordert wurde, ist mithilfe solcher Funktionsketten nicht möglich. Die

Anzahl der möglichen Betriebssituationen, die der Entwickler zu berücksichtigen hätte (bei-

spielsweise alle möglichen Streckenabfolgen), ist zu groß.

Ein aktueller Trend in der Entwicklung technischer Systeme ist das zunehmende Zusammen-

wachsen der Disziplinen Maschinenbau, Elektrotechnik und Informationstechnik. Dabei ent-

stehen integrierte mechanisch-elektronische Systeme. Das Gebiet der integrierten mecha-

nisch-elektronischen Systeme wird mit dem Begriff Mechatronik bezeichnet [Iser99]. Me-

chatronische Systeme

zeichnen sich gegenüber konventionellen technischen Systemen vor

allem durch eine höhere Flexibilität aus. Diese höhere Flexibilität erlangen sie durch die Fä-

higkeiten, ihre Umgebung wahrzunehmen (durch Sensorik) und eine Verhaltensanpassung als

Reaktion auf diese Umgebung zu berechnen (durch Informationstechnik). Das mechatroni-

sche System ist also in der Lage, seine Funktionen an veränderte Umgebungen anzupassen.

Im Rahmen der Selbstoptimierung [FGK+04] kann das mechatronische System sogar die Zie-

le, die es verfolgt, also die Gewichtung oder Priorisierung der unterschiedlichen Qualitätsdi-

mension, anpassen. Die höhere Flexibilität der mechatronischen Systeme führt in der Literatur

häufig zu der Bezeichnung „intelligentes technisches System“ (z. B. [Rodd02]). Dabei bleibt

jedoch weitestgehend unklar, was mit „intelligent“ gemeint ist. Im Bereich der Künstlichen

Intelligenz hat sich neben anderen Kriterien das des rationalen Handelns

etabliert. Russel und

Norvig [RN03] bezeichnen ein System als rationalen Agenten

, wenn es den besten Ausgang

erreicht oder seine Handlungen am besten erwarteten Ausgang ausrichtet

, falls Handlungen

mit Unsicherheit verbunden sind. Um ein rationales Verhalten umsetzen zu können, muss das

(intelligente) System einige Fähigkeiten und Eigenschaften besitzen. Dazu gehören:

• die Fähigkeit, Wissen zu repräsentieren und zu speichern,

• die Fähigkeit, das Wissen zu verarbeiten,

• die Fähigkeit zu lernen und

• die Fähigkeit zur Wahrnehmung.

Mechatronische Systeme sind demnach das Ergebnis der Integration mechanischer und elektronischer Systeme

ergänzt um eine dazugehörige Informationsverarbeitung. Isermann [Iser99] führt zusätzlich den Begriff intelli-

gentes mechatronisches System ein, das über zusätzliche Fähigkeiten wie Adaption oder Lernen verfügt. Im

Rahmen dieser Arbeit soll zusätzlich das Kriterium der Rationalität als notwendige Bedingungen herangezogen

werden.

Russel und Norvig [RN03, S 2-5] nennen außerdem menschlich handeln, menschlich denken, rational denken.

Rational handeln eignet sich insbesondere deshalb, da es im Gegensatz zu den Kriterien menschlich handeln

und menschlich denken überprüfbar ist und im Rahmen der Verbesserung technischer Systeme das Ergebnis (das

Handeln) und nicht der kognitive Prozess (das Denken) im Vordergrund stehen soll.

Agent stammt von lateinische agere – tun und bezeichnet daher an dieser Stelle lediglich ein System, das etwas

tut.

Hier muss beachtet werden, dass dieses Optimalitätskriterium nur für unbeschränkte Rationalität zutrifft. Das

bedeutet u.A., dass vollständige Informationen und unbegrenzte Zeit zum Nachdenken bereitstehen. Sind diese

idealen Bedingungen nicht erfüllt, spricht man von beschränkter Rationalität. Dann ist nur ein „gutes“ Ergebnis

zu fordern.

4 Einleitung

Heutige mechatronische Systeme verfügen durch den Einsatz von Sensorik und Informations-

verarbeitung grundsätzlich über diese Fähigkeiten. So sind regelbasierte Umschaltungen oder

Lern- oder Adaptionsalgorithmen häufig zu finden. Jedoch sind die sogenannten intelligenten

technischen Systeme immer noch nur geregelte Systeme, die ihre Reglerparameter an wech-

selnde Umfeldeinflüsse anpassen oder sogar nur nach bestimmten Regeln operieren, die im

Entwurf definiert wurden. Mit dieser Art der Wissens- oder Informationsverarbeitung handelt

es sich bei den heutigen mechatronischen Systemen um rein reaktive Systeme, die auf Verän-

derungen in der Umwelt und ihrem eigenen Zustand nur reagieren können. Ein optimales und

damit rationales Verhalten ist so über einen längeren Betrachtungszeitraum nur unter sehr

einfachen Bedingungen zu gewährleisten.

Um dagegen das rein reaktive Verhalten zu überwinden, neue Nutzenpotenziale zu realisieren

und der Vision von intelligenten technischen Systemen näherzukommen, muss die Wissens-

verarbeitung auch auf zukünftige Handlungen, Zustände und Einflüsse erweitert werden. Die-

ser kognitive Prozess der Vorwegnahme zukünftiger Handlungen und Situationen wird im

Allgemeinen als Planung bezeichnet: „Planung kann als gedankliche Vorwegnahme künftigen

Geschehens durch systematische Entscheidungsvorbereitung und Entscheidungsfällung ver-

standen werden. Sie beinhaltet einen Entscheidungsprozess, in dem zur Lösung eines Prob-

lems zielorientiert Alternativen zu suchen und beurteilen und auszuwählen sind. Dies ge-

schieht unter Zugrundelegung einer monistischen oder pluralistischen Zielfunktion auf Basis

einwertiger oder mehrwertiger Erwartung“ [Hahn96]. Anhand der Definition ist erkennbar,

dass Planung einen Beitrag zum Erreichen eines rationalen Verhaltens liefern kann. In Bezug

auf mechatronische Systeme bedeutet Planung vor allem die Vorwegnahme der Entscheidung

über das zukünftige Verhalten, sprich die Ausführung von Funktionen. Im Gegensatz zu kon-

ventionellen mechatronischen Systemen erfolgt diese Entscheidung nicht bereits während der

Entwicklung, sondern wird in den Betrieb des Systems verlagert. Daraus resultieren ein stär-

kerer Situationsbezug und damit Verbesserungen der Funktionserfüllung. Nur durch die Vor-

wegnahme des künftigen Geschehens und das Durchspielen und die Analyse unterschiedli-

cher Handlungsalternativen kann für einen gegebenen Auftrag

die optimale Abfolge von

Funktionsausführungen bestimmt werden.

Voraussetzung für das Durchspielen und die Analyse unterschiedlicher Handlungsalternativen

ist ein geeignetes Modell des Systemverhaltens. Es existiert eine Vielzahl an Modellierungs-

techniken für den Einsatz im Entwurf technischer Systeme

. Dabei lassen sich vor allem An-

sätze, die kontinuierliche Funktionen darstellen (z. B. Blockdiagramme [Föl94] oder Bond-

graphen [Tho90]), und Ansätze auf Basis von Zustandsautomaten (z. B. SDL, Abstrakte Da-

tenmodellierung [CCI89, CCI93], die Mechatronic UML [BTG04] und die SysML [HV05])

unterscheiden. Diese Modelle sind aber nicht für die Verarbeitung in einem Planungsalgo-

rithmus geeignet, da sie keine Information über mögliche und sinnvolle Abfolgen von Teil-

funktionen enthalten.

Bei der Konzeption und Umsetzung einer Verhaltensplanung für mechatronische Systeme, die

festlegt, wann und wie ein mechatronisches System im Rahmen seiner Aufgabenerfüllung

welche Funktionen ausführt, sind einige weitere Aspekte zu beachten.

Zunächst ist die Vorwegnahme zukünftigen Geschehens grundsätzlich mit einer gewissen

Unsicherheit verbunden. Dies gilt für mechatronische Systeme in besonderem Maße, da das

Umfeld entscheidenden Einfluss auf die Wirkung von Aktivitäten besitzt. Diese Unsicherheit

ist im Rahmen der Planung zu berücksichtigen. Dies kann z. B. durch mehrere alternative

Und damit für einen klar begrenzten zeitlichen Horizont. Unbeschränkte Horizonte werfen bzgl. des Kriteriums

„Optimalität“ neue Probleme auf, die nicht Gegenstand dieser Arbeit sind.

Eine ausführlichere Würdigung dieser Ansätze ist in Anhang A zu finden.

Einleitung 5

Planverläufe geschehen oder indem im Sinne des rationalen Verhaltens der Erwartungswert

optimiert wird.

Mit der Mechatronik geht ebenfalls die Tendenz einher, das technische System nicht mehr

einzeln und isoliert zu betrachten, sondern zusätzlich mögliche Vernetzungen und Interaktio-

nen zwischen technischen Systemen zu berücksichtigen.

Abbildung 1-2: Gliederung eines komplexen mechatronischen Systems [LHL+01]

Dies schlägt sich auch in einem Strukturierungsvorschlag für mechatronische Systeme nieder

(vergl. Abbildung 1-2). Auf der untersten Ebene dieses hierarchisch organisierten Strukturie-

rungsvorschlags finden sich die mechatronischen Funktionsmodule (MFM), die die grundle-

gende Struktur mechatronischer Systeme sind. Basis ist immer eine mechanische Struktur, auf

die eine Aktorik wirkt und deren Zustand über eine Sensorik wahrgenommen werden kann.

Die Sensorik stellt Messungen und Informationen bereit, die in einer übergelagerten Informa-

tionsverarbeitung analysiert werden. Als Ergebnis wirkt die Informationsverarbeitung über

die Aktorik auf die mechanische Struktur ein. Auf der nächsten Hierarchieebene fasst ein so-

genanntes autonomes mechatronisches System (AMS) mehrere MFM zusammen. Zwischen

den MFM und der Informationsverarbeitung des AMS bestehen Informationsflüsse. Schließ-

lich können mehrere AMS zu einem Vernetzten mechatronischen System (VMS) zusammen-

gefasst werden. Es lässt sich anhand dieser Gliederung erkennen, dass vielfältige Beziehungen

zwischen den einzelnen Systemen in Form von Informations-, Stoff- und Energieflüssen be-

stehen. Mechatronische Systeme interagieren also miteinander und beeinflussen sich gegen-

seitig. Dies gilt zunächst innerhalb des autonomen mechatronischen Systems für die Funkti-

onsmodule. Hier gilt es im Rahmen der Verhaltensplanung das Verhalten der einzelnen me-

chatronischen Systeme so zu koordinieren, dass ein optimales oder zumindest gutes Verhalten

Konvoi

RailCab (Maßstab 1:2,5)

VMS: Vernetzte Mechatronische Systeme

AMS: Autonomes Mechatronisches System

AMS

AMS AMS

MFM

AMS, ein

AMS, aus

Mechanische

Struktur

Informations-

verarbeitung (regelnd)

Aktorik

I, ein

I, aus

T aus

T, aus

A, ein

T, ein

Legende:

: Informationsfluss (I)

: Stofffluss (S)

: Energiefluss (E)

MFM: Mechatronisches Funktionsmodul

Sensorik

Feder- und Neigemodul

Informations-

verarbeitung (regelnd)

Informations-

verarbeitung (regelnd)

6 Einleitung

des Gesamtsystems resultiert. Anders ist der Fall auf Ebene der vernetzten mechatronischen

Systeme gelagert. Da jedes System grundsätzlich einem anderen Betreiber gehören kann, ist

es hier nicht möglich, ein gemeinsames Zielsystem zu bestimmen. Dennoch können auch die

autonomen mechatronischen Systeme im vernetzten mechatronischen System so interagieren,

dass sie ihre jeweilige Aufgabe besser erfüllen (z. B. energieeffizienter durch Konvoifahrt).

Um der Vision intelligenter technischer Systeme näherzukommen, stellt damit die Planung

des Verhaltens einen notwendigen Baustein dar. Unter Berücksichtigung der besonderen Ei-

genschaften des Verhaltens mechatronischer Systeme soll daher in dieser Arbeit eine Verhal-

tensplanung für mechatronische Systeme konzipiert werden, die miteinander interagieren und

in nicht-deterministischen Umgebungen handeln.

Problemstellung 7

2 Problemstellung

Untersuchungsgegenstand dieser Arbeit ist die Planung des Verhaltens von intelligenten me-

chatronischen Erzeugnissen, die mit komplexen und dynamischen Umgebungen vernetzt sind.

Im folgenden Kapitel soll definiert werden, was unter einer Planung des Verhaltens oder eben

Verhaltensplanung zu verstehen ist. Weiterhin soll auf wesentliche Aspekte, die die Konzep-

tion einer solchen Planung beachten muss, näher eingegangen werden.

Um zeigen zu können, wie die Planung im Betrieb mechatronischer Systeme eingesetzt wer-

den kann und welche besonderen Herausforderungen dabei beachtet werden müssen, wird an

dieser Stelle ein stark vereinfachtes Modell des Systemverhaltens aufgebaut. Das Modell ab-

strahiert dabei zunächst von den physikalischen Wirkungen innerhalb eines mechatronischen

Systems und in der Wechselwirkung mit seiner Umgebung. Nach Pahl und Beitz [PB03] kann

die Gesamtfunktion und damit das Ein- und Ausgabeverhalten eines technischen Systems als

Abfolge von Teilfunktionen dargestellt werden. Im konkreten technischen System wird eine

Teilfunktion durch eine oder mehrere Lösungen realisiert. Bezeichne:

• TF die Menge der Teilfunktionen eines mechatronischen Systems,

• L

die Menge der Lösungen

von Teilfunktion tf ∈ TF, die das mechatronische Sys-

tem realisiert und

• 



die Menge der Teilfunktionslösungen, die das mechatronische System

realisiert.

Dabei kann tf als eine Funktion betrachtet werden, die Eingangsgrößen auf Ausgangsgrößen

abbildet. Das Ein- und Ausgabeverhalten des Gesamtsystems lässt sich als Tupel aus Einga-

bewerten aus dem Umfeld, einer Folge von Teilfunktionslösungen und Ausgabewerten be-

schreiben. Die Gesamtfunktion wiederum ist die Menge aller Folgen von Ein- und Ausgabe-

werten, die der Aufgabe des technischen Systems entsprechen.

Die Folge der Teilfunktionslösungen ist so zu konstruieren, dass die notwendigen Eingaben

für alle enthaltenen Lösungen vor ihrer jeweiligen Anwendung bereitgestellt werden.

Beschränkt man die Betrachtung nicht auf das reine Ein- und Ausgabeverhalten, sondern be-

zieht den Zustand des Systems und des Umfelds mit ein, ergibt sich eine Darstellung wechsel-

seitiger, zeitlich verzögerter Einflüsse wie in Abbildung 2-1.

Abbildung 2-1: Verknüpfung eines mechatronischen Systems mit seinem Umfeld

Dabei werden zwei Lösungen, die technisch identisch sind bis auf die Wahl von Parametern, als zwei unter-

schiedliche Lösungen betrachtet. Beispiel dafür ist das Fahren mit hoher und geringer Geschwindigkeit oder

Wahl unterschiedlicher Reglerparameter.

8 Problemstellung

Dabei steht apply(t) für die zum Zeitpunkt t angewandten Teilfunktionslösungen. Ferner seien

definiert:

• , die Menge der möglichen Zustände des Systems

• , die Menge der möglichen Zustände des Umfelds

• , die Menge der möglichen Eingabewerte

• , die Menge der Ausgabewerte

•  :"# $

eine Funktion, die angibt, welche Ausgabewerte bei gege-

benem Zustand und einer Menge angewandter Teilfunktionslösungen erzeugt werden

• '()*(:#$ sind die Einflüsse auf die Ausgaben des mechatronischen Sys-

tems

• # + bezeichnet die Menge möglicher Gesamtzustände des Modells.

Um das dynamische Verhalten eines mechatronischen Systems zu beschreiben, ist die Einfüh-

rung einer Zeitmenge notwendig. Die übrigen Größen müssen abhängig von der Zeit be-

stimmbar sein:

• Sei ,-,/,0 die dem Modell zugrunde liegende Zeitmenge

• Bestimme i

die Eingabewerte zum Zeitpunkt t

• Bestimme o

die Ausgabewerte zum Zeitpunkt t

• Bestimme e

den Zustand der Umgebung zum Zeitpunkt t

• Bestimme m

den Zustand des mechatronischen Systems zum Zeitpunkt t

• 11)2  bezeichnet die zum Zeitpunkt t ausgeführten Teilfunktionslösungen.

Die jeweiligen Werte lassen sich durch Funktionen darstellen, die die Gesetzmäßigkeiten in-

nerhalb des Systems und des Umfelds widerspiegeln:

• 3



45)4

'

78

, 45)4

:##$

• 



45)4

5

78

,

78

, 45)4

:#$

• 5



 11)2 ,3



,  ::)# $

• '



'()*(



, '()*(:#$

Das Verhalten des Systems und des Umfelds kann nun beschrieben werden, indem eine Evo-

lutionsfunktion

der beiden Zustandsvariablen m

und e

erstellt wird:

• 3



45)4

'()*(

78

, 11)2 ; 13

78

,3

78



45)4

<'()*(45)4

5

7=

,

7=

, 11)2 ; 1,3

78

>,

 11)2 ; 13

78

3

78



• 



45)4

 11)2 ; 1,

78



Aus diesen beiden Evolutionsfunktionen wird ersichtlich, dass im Modell die Zustände von

Umfeld und mechatronischem System bei gegebenen Anfangszuständen zum Zeitpunkt t

nur

von den Funktionswerten von apply(t) abhängen. Das Verhalten eines mechatronischen Sys-

tems lässt sich nunmehr als Folge von Zuständen und Anwendungen von Teilfunktionslösun-

: bezeichnet dabei die Potenzmenge.

Eine Zeitmenge ist ein Tripel

),,(

tT p

,wobei T eine Menge,

eine Vollständige Ordnungsrelation über T

und T

das minimale Element bzgl. der Ordnungsrelation ist. Hier wird vereinfachend unterstellt, dass die Menge

T die Menge der natürlichen Zahlen ist.

Die Definition einer Evolutionsfunktion geschieht in Anlehnung an Ferber [Ferb01].

Problemstellung 9

gen interpretieren. Um ein Verhalten zu erzielen, das die Hauptaufgabe des Systems erfüllt,

gilt es also, die Funktionswerte von apply(t) festzulegen. Im Falle klassischer technischer Er-

zeugnisse geschieht dies während des Entwurfs, also lange vor der Inbetriebnahme. Es wer-

den Funktionsketten aufgebaut [PB93]. Die durch die Funktionskette gefundene Lösung wird

wiederum bzgl. der Merkmale Qualität und Quantität der Ein- und Ausgabewerte beurteilt. Da

die Festlegung der Funktionsketten – wenn auch teilweise mit Varianten – bereits zur Ent-

wurfszeit erfolgt, stellen die Funktionsketten einen Kompromiss dar, da sie für die gesamte

Bandbreite an Eingabewerten die Aufgabe erfüllen. Dadurch rückt die Beachtung der qualita-

tiven und quantitativen Merkmale einer Funktionsweise unter Umständen in den Hintergrund.

Die Festlegung der Funktionswerte von apply(t) kann aber auch als Planungsproblem im Sin-

ne der Künstlichen Intelligenz aufgefasst werden.

Abbildung 2-2: Planungsproblem für mechatronische Systeme als Baum

Abbildung 2-2 stellt diese Sichtweise dar: Ausgehend vom gegebenen Systemzustand, einem

Umfeldzustand (beide zusammengefasst in Z*) und den daraus resultierenden initialen Einga-

bewerten ist eine Sequenz von Entscheidungen über die Anwendung bestimmter Teilfunkti-

onslösungen zu fällen. Dadurch spannt sich ein Baum auf, in dem die Entscheidungen, die

bezüglich der Funktionswerte von apply(t) getroffen werden, alternative Zustände und Ein-

und Ausgabefolgen erzeugen. Die Planungsaufgabe ist die Identifikation eines Pfads inner-

10 Problemstellung

halb dieses Baums, der das gewünschte Ein- und Ausgabeverhalten liefert. Der Vorteil dieses

Vorgehens besteht in seiner größeren Flexibilität und seinem stärkeren Situationsbezug. Beim

klassischen Vorgehen wird diese Sequenz für alle denkbaren Ausgangssituationen und aus-

schließlich für eine einzige Zielsetzung festgelegt. Dagegen besteht bei Anwendung der Pla-

nung die Möglichkeit, die Entscheidungen für die konkrete Betriebssituation und wechselnde

Zielsysteme zu suchen. Dadurch wird zweierlei erreicht:

1. Für Situationen, in denen Funktionsketten mit einer Auslegung auf eine breite An-

wendbarkeit die Zweckwirkung nicht erzielen, kann u. U. eine situationsspezifische

Funktionskette gefunden werden.

2. Die Bewertung der gefundenen Funktionsketten kann ebenfalls von der konkreten Si-

tuation und den Präferenzen des jeweiligen Benutzers abhängig gemacht werden.

Für Probleme, die sich auf eine baumartige Datenstruktur abbilden lassen, bietet sich der

„branching factor“ oder Verzweigungsgrad an, um die Komplexität eines Problems abzu-

schätzen [RN03]. Dieser Faktor gibt an, wie viele Nachfolger ein Knoten minimal, maximal

oder durchschnittlich besitzt.

An dieser Stelle lässt sich der Hauptbetrachtungsgegenstand dieser Arbeit definieren, die Pla-

nungsaufgabe für den Betrieb mechatronischer Systeme. Abbildung 2-3 zeigt die Struktur der

Planungsaufgabe für mechatronische Systeme in Anlehnung an Ferstl und Sinz [FS06]. Die

Vor- und Nachereignisse der Planungsaufgabe sind klar umrissen. Die Planung wird ausgelöst

durch eine konkrete Aufgabenstellung, die durch das mechatronische System zu erfüllen ist.

Zusätzlich liegt der aktuell wahrgenommene System- und Umfeldzustand vor. Das Nach-

ereignis der Planungsaufgabe besteht im Sinne des gedanklichen Modells in einer Festlegung

der Funktion apply(t). Formale Aufgabenziele sind mit der Planungsdauer, dem Speicherbe-

darf des Lösungsverfahrens und der Lösungsqualität angegeben.

Abbildung 2-3: Struktur der Planungsaufgabe für mechatronische Systeme

Ein Planungsverfahren (also das Lösungsverfahren für eine Planungsaufgabe) arbeitet immer

auf einem Modell des zu planenden Systems, da die zukünftige Entwicklung des Systems

festgelegt werden soll, was nicht direkt am System geschehen kann. Im nächsten Teilkapitel

wird sowohl ein Verhaltensmodell als auch eine Klasse an Lösungsverfahren eingeführt, die

in der Lage sind, das eben definierte Problem der Verhaltensplanung zu lösen.

2.1 Abbildung der Verhaltensplanung auf die Planung in der KI

Die Künstliche Intelligenz fasst das Planungsproblem als die Suche nach einer Sequenz von

Aktivitäten auf, die von einem Ausgangszustand in einen Zielzustand führt. Daher überdeckt

sich diese Art von Planungsproblem mit dem Problem der Verhaltensplanung für mechatroni-

Problemstellung 11

sche Systeme. Ihren Ursprung hat diese Teildisziplin der Künstlichen Intelligenz in den späten

Siebzigerjahren des letzten Jahrhunderts. Fikes und Nilson stellten einen Planungsalgorithmus

mitsamt formalem Modell zur Beschreibung von Planungsproblemen unter dem Namen

STRIPS (Stanford Research Institute Problem Solver) [FN71] vor.

In Abgrenzung zum verwandten Problemlösen unterscheidet sich die Planung vor allem in

ihrer Skalierung. Diese Skalierung wird vor allem durch die Ausnutzung von Informationen

über das Planungsproblem erreicht. Voraussetzung dafür ist die ausdrucksstarke Modellierung

des Planungsproblems [RN03, S.375]. Seit frühen Planungssystemen wie GPS oder eben

STRIPS sind die meisten KI-Planungssysteme entwickelt worden unter den gleichen weitge-

henden Annahmen [Blyt99]:

• Die Umgebung ist vollständig beobachtbar,

• die Umgebung ist deterministisch,

• die Umgebung ist statisch (das beplante System ist die einzige Quelle für Verände-

rung) und

• die Umgebung ist diskret (hinsichtlich Zeit, Aktivitäten, Objekten und Wirkungen).

Eine weitere Annahme ist die „Closed World Assumption“. Diese Annahme ist durch den

Modellierungsaufwand motiviert und geht davon aus, dass jede Aussage über die Ausfüh-

rungsumgebung, die nicht ausdrücklich als wahr gekennzeichnet ist, falsch ist.

2.1.1 Modellierung mithilfe der PDDL

Das Planungsproblem der Künstlichen Intelligenz ist sehr allgemein formuliert. Daher können

entsprechende Lösungsverfahren

für eine Vielzahl von Planungsproblemen verwendet wer-

den. Dazu ist es allerdings erforderlich, die Umgebung des Planers

, seine Fähigkeiten und

die konkrete Planungsaufgabe in einer formalen Sprache zu beschreiben, die der Planer verar-

beiten kann. Für die Modellierungsmethode, die zur Darstellung des Verhaltensplanungsprob-

lems eingesetzt wird, sollten ausgereifte Lösungsverfahren bereitstehen. Die Planning Domain

Description Language (PDDL) erfüllt diese Anforderung am ehesten. Mit Planungssystemen

wie z. B. SGPlan

[HWHC06] stehen effiziente Verfahren zur Verfügung, die laufend weite-

rentwickelt werden. Dabei ist allerdings zu beachten, dass je nach gegebener Problemstellung

andere Modellierungs- und Lösungsansätze zu einer schnelleren und speichereffizienteren

Planung führen können. Die PDDL und die damit verbundene Planungsphilosophie werden

vor allem wegen ihrer generischen Anwendbarkeit ausgewählt. Dies ermöglicht es, die Um-

setzung der Verhaltensplanung auf Basis eines allgemeinen Modells und daher unabhängig

von einer konkreten Anwendung zu beschreiben. Die in den folgenden Kapiteln entwickelten

Konzepte sind auf andere Modellierungs- und Lösungskonzepte übertragbar. Im Folgenden

wird der Stand der PDDL 2.1 [FL03] genutzt, da in der Fassung PDDL 3.0 [GL05] nur für die

Aufgabenstellung unwesentliche Änderungen vorgenommen wurden.

PDDL ist für die Beschreibung dessen konzipiert, was ihre Entwickler die „Physik“ einer

Domäne nennen. Die Physik ist dabei beschränkt auf die Beschreibung von Aktionen, insbe-

sondere wann welche Aktionen ausführbar sind, woraus Aktionen zusammengesetzt sind und

was ihre Wirkungen sind. Ein wesentliches Merkmal der PDDL besteht in der Trennung von

Domänenbeschreibung und konkreter Problemstellung. Erstere beschreibt, welche Typen in

einer Domäne auftreten können, welche Beziehungen zwischen Objekten bestimmter Typen

Siehe Anhang B.

Korrekt müsste es heißen: des planausführenden Systems, da der Planer und das ausführende System zwei

unterschiedliche Systeme in zwei unterschiedlichen Umgebungen sein können. Einfachheitshalber wird diese

Unterscheidung im weiteren Verlauf aber vernachlässigt.

12 Problemstellung

auftreten können und welche numerischen Eigenschaften Typen und Beziehungen haben.

Formal ist die Domäne eine Vier-Tupel Dom = (Fs, Rs, As, arity). Dabei sind im Einzelnen:

• Fs, eine endliche Menge von Funktionssymbolen

• Rs, eine endliche Menge von Relationensymbolen

• As, eine endliche Menge von Aktionsschemata

• arity, eine Funktion, die allen zuvor genannten Symbolen ihre Stelligkeit

zuordnet.

Die Stelligkeit enthält dabei nicht nur Informationen über die Anzahl der Argumente, sondern

auch über ihren Typ. Eine konkrete Planungsdomäne gibt zusätzlich die möglichen Typen

explizit an (diese Information ist in der formalen Definition nur implizit durch arity gegeben).

Ein konkretes Planungsproblem I ist ein 3-Tupel Prob

= (Os, Init, Gs) bestehend aus:

• Os, der endlichen Menge der Objekte des Planungsproblems

• Init, der Spezifikation des Ausgangszustands des Problems

• Gs, der Spezifikation der Zielzustände des Problems.

Zustände innerhalb eines PDDL-Plans setzen sich aus einer Menge einfacher numerischer

Ausdrücke und Atomen zusammen. Die einfachen numerischen Ausdrücke (primitive nume-

ric expression, PNE) sind all diejenigen Ausdrücke, die sich durch Belegung der Funktions-

symbole Fs der Domäne mit den Objekten der Probleminstanz erzeugen lassen. Die Anzahl

der unterschiedlichen erzeugbaren Funktionen ergibt die Dimension dim des Planungsprob-

lems. Der numerische Teil eines Zustands ist damit bestimmt durch einen dim-stelligen Vek-

tor reeller Zahlen. Der logische Teil eines Zustands ist bestimmt durch eine Teilmenge der

Atome des Planungsproblems I Atms

. Die Atome Atms

ergeben sich dabei durch Anwen-

dung der Relationensymbole auf die Objekte der Probleminstanz.

Pläne bestehen in der PDDL aus Grundaktionen. Zu jedem Aktionsschema A∈As existiert

eine Menge von Grundaktionen GA

. Das ist die Menge aller Strukturen, die durch Substitu-

tion der Schemavariablen mit Objekten des Planungsproblems erzeugt werden können. Die

Komponenten einer Grundaktion a sind:

• Der Name des Aktionsschemas

• Pre

, die Menge der propositionalen Vorbedingungen von a (Die Menge der Atome in

Pre

wird als GPre

bezeichnet)

• Add

, die Menge der Atome, die sicher als positive Literale Effekt von a sind

• Del

, die Menge der Atome, die sicher als negative Literale Effekt von a sind

• NP

, die Menge aller Zuordnungspropositionen in den numerischen Effekten von a.

Dabei ist zu beachten, dass die Vorbedingungen der Aktionen sowohl numerische als auch

logische Bestandteile haben. Im Gegensatz zu den Effekten können logische und numerische

Bestandteile aber voneinander abhängig sein, beispielsweise durch eine Konjunktion.

Während die Funktionsweise der logischen Effekte Add

und Del

einfach durch Wahr- oder

Falsch-Setzen der entsprechenden Relationen definiert ist, bedürfen die numerischen Effekte

einer genaueren Betrachtung. Ein numerischer Effekt besteht in der Zuordnung eines neuen

Werts im numerischen Zustandsvektor. Daher bestehen numerische Effekte aus einem Zuord-

Stelligkeit (auch Arität) steht für die Anzahl der Argumente einer Abbildung oder eines Operators.

Problemstellung 13

nungsoperator (assign, increase, decrease, scale-up, scale-down)

, einem einfachen numeri-

schen Ausdruck lvalue und einem numerischen Ausdruck rvalue. Der rvalue ist dabei ein

arithmetischer Ausdruck, dessen Terme Zahlen und einfache numerische Ausdrücke sind. Der

lvalue ist der zu aktualisierende numerische Ausdruck und der rvalue bestimmt den Wert der

Zuordnungsoperation. Weiterhin werden innerhalb der numerischen Effekte die Vor- und

Nachbedingungswerte gesondert kenntlich gemacht. Statt also einen Effekt (increase p q) als

eine Funktion f(p)=p+q zu formulieren, wird die Zuweisung in der Form (= p‘ (+ p q) formu-

liert. Dadurch sind die Werte vor und nach Ausführung der Aktion eindeutig zu unterschei-

den.

Zusammenfassend lässt sich das deterministische Planungsproblem, das mithilfe der PDDL

formuliert werden kann, wie in Abbildung 2-4 darstellen. Der Planungsprozess ist ein Schlie-

ßen über Zustände, Aktionen und Effekte.

Abbildung 2-4: Das PDDL-Planungsproblem als Planbaum

Ein weiteres wesentliches Sprachelement der PDDL ist die Planmetrik. Eine Planmetrik ist

ein arithmetischer Ausdruck, der aus Konstanten und numerischen Zustandsvariablen gebildet

werden kann. Zusätzlich muss entschieden werden, ob der Ausdruck minimiert oder maxi-

miert werden soll. Die arithmetischen Ausdrücke müssen nicht zwingend linear sein.

Bei einer Abbildung des eben definierten gedanklichen Modells des Verhaltens mechatroni-

scher Systeme würden die Aktionen der PDDL-Planungsdomäne den Teilfunktionslösungen

und die Domänenprädikate den möglichen System- und Umfeldzuständen entsprechen. Die

Unterscheidung dieser beiden Zustände wäre allerdings formal nicht mehr erkennbar. Eine

explizite Modellierung der möglichen Eingabe- und Ausgabewerte würde entfallen. Die Funk-

tionen affect und influence, die die Dynamik des gedanklichen Modells beschreiben, würden

durch die Effekte der Aktionen beschrieben. Ein gefundener Plan, der eine Sequenz von Ak-

tionen beschreibt, würde der Festlegung der Funktion apply(t) entsprechen.

Zur Lösung eines in PDDL formulierten Planungsproblems steht eine ganze Reihe von Pla-

nungssystemen zur Verfügung. Aktuelle Beispiele sind SGPlan

[HWHC06], MaxPlan

[XCZ06] und SatPlan5 [Kaut06]. Dabei unterstützt SGPlan

die meisten Sprachmerkmale,

während MaxPlan und SatPlan5 nur solche Probleme verarbeiten, die sich gut mithilfe von

Assign weißt einen neuen Wert zu, increase bezeichnet eine Addition, decrease eine Substraktion, scale-up

eine Multiplikation und scale-down eine Division.

14 Problemstellung

Aussagenlogik darstellen lassen, also insbesondere keine numerischen Eigenschaften beinhal-

ten

2.1.2 Modellierung einer mechatronischen Domäne

Ausgehend von der vollständig spezifizierten Funktionshierarchie und einem Umfeldmodells

muss für ein mechatronisches System eine PDDL-Domänendefinition erstellt werden. Dabei

werden die relevanten Objekte der mechatronischen Domäne durch Typen repräsentiert. Bei-

spiele für relevante Objekte sind einerseits die Teilsysteme des mechatronischen Systems und

andererseits die Umgebungsobjekte, mit denen das mechatronische System interagiert (zum

Beispiel Transportgüter, Verkehrswege, Werkstücke, etc.).

Jedes dieser Objekte besitzt eine Menge von Eigenschaften, die für den Planungsprozess von

Bedeutung ist. Entweder zielt die Aufgabe des mechatronischen Systems auf die Manipulati-

on dieser Eigenschaften ab (dies ist vor allem der Fall bei Umgebungsobjekten) oder sie stel-

len Randbedingungen für Aktivitäten des mechatronischen Systems dar (z. B. der Ladegrad

eines Energiespeichers). Derartige Eigenschaften werden entweder über das Mittel der Prädi-

kate (predicates) oder der Funktionen (functions) dargestellt. Die Prädikate dienen zur Be-

schreibung qualitativer Eigenschaften, deren Ausprägung sich durch Ja oder Nein ausdrücken

lässt. Funktionen dienen der Darstellung der quantitativen Eigenschaften der Objekte. Dabei

wird in der PDDL jeder numerische Wert grundsätzlich als reelle Zahl dargestellt – weicht

eine quantitative Eigenschaft von diesem Wertebereich ab, nimmt also beispielsweise nur

Werte aus dem Bereich der natürlichen Zahlen an, so ist dies implizit durch die Konstruktion

der Aktionen zu gewährleisten.

Die Dynamik eines mechatronischen Planungsproblems wird wie in jeder PDDL-Domäne

durch die Aktionen beschrieben. Dabei bleibt grundsätzlich die Annahme erhalten, dass die

Aktionen die einzige Quelle von Veränderungen sind. Da das Verhalten eines mechatroni-

schen Systems geplant wird, ergibt sich daraus die unrealistische Annahme, dass sich die

Umgebung nur bei Beeinflussung durch das mechatronische System verändert. Da diese An-

nahme für mechatronische Systeme nicht realistisch ist, werfen sich neue Probleme auf, die in

den Teilkapiteln 2.3 und 2.4 beschrieben werden.

Bereits in der Einleitung wurde dargelegt, dass das Verhalten mechatronischer Systeme übli-

cherweise in Form von Funktionen bzw. Teilfunktionen sowie Teilfunktionslösungen be-

schrieben wird. Dabei stellt eine Funktion oder Teilfunktion immer eine Verknüpfung von

Eingangsgrößen auf Ausgangsgrößen dar und wird durch die Auswahl einer Teilfunktionslö-

sung genau bestimmt. In der Einleitung wurde dargelegt, wie die Teilfunktionslösungen durch

Aufstellen einer Funktionshierarchie hergeleitet werden. Die grundsätzlichen Fähigkeiten

eines mechatronischen Systems sind daher definiert durch die Menge der Teilfunktionslösun-

gen, die es implementiert. Im Rahmen der Modellierung einer mechatronischen Planungs-

domäne sind die Teilfunktionslösungen daher auf Aktionen abzubilden. Dies geht mit einer

Diskretisierung der Beschreibung von Teilfunktionslösungen und damit einem Genauigkeits-

verlust einher. Abbildung 2-5 stellt die Begriffe der Teilfunktionslösung und Aktion gegenü-

ber. Nach [PB03] beschreibt eine Teilfunktionslösung eine Funktion, die eingehende Energie-

, Stoff- und Signalflüsse in ausgehende Flüsse umwandelt. Die Flüsse können dabei konti-

nuierlich in die Teilfunktionslösung ein- und austreten oder sie in einem diskreten, also in

einzelne „Stücke“ zerlegbaren Fluss durchlaufen. Die Flüsse zerfallen also keinesfalls zeitlich

in einen Fluss vor der Ausführung der Teilfunktion und einen nach Ausführung.

Dies ist im betrachteten Anwendungsfall eigentlich nie der Fall, da die zu beschreibenden technischen Prozes-

se in der Regel in Zahlenwerten ausgedrückte Eigenschaften besitzen.

Problemstellung 15

Abbildung 2-5: Vergleich von Teilfunktionslösung und PDDL-Aktion

Bei Aktionsschemata lassen sich die Vor- und Nachbedingungen der Aktionen unterscheiden.

Der scheinbare Widerspruch zum Flussbegriff der Teilfunktionslösung, den die Begriffe Vor-

und Nachbedingung andeuten, existiert dabei nicht. Die PDDL erlaubt es, durch die Definiti-

on von dauerhaften und kontinuierlichen Aktionen auch solche Vorbedingungen (Nachbedin-

gungen) zu definieren, die während der Ausführung einer Aktion erfüllt sein müssen (erfüllt

sind). Auch bei der Anwendung dieser Modellierungsmöglichkeit liegt der PDDL weiterhin

ein diskretes Zeitmodell zugrunde, sodass sich kontinuierliche Flüsse nur näherungsweise

darstellen lassen. Allerdings führt die Anwendung von dauerhaften und kontinuierlichen Ak-

tionen zu einem erheblich größeren Zustandsraum und damit zu einer höheren Planungskomp-

lexität. Ihr Einsatz ist daher genau zu überdenken.

In der Regel wird es auch möglich sein, eine Teilfunktionslösung in Form einer konventionel-

len, diskreten PDDL-Aktion zu beschreiben. Dazu ist es erforderlich, die Anwendung der

Lösung zeitlich begrenzt zu betrachten. Im Rahmen dieser zeitlich begrenzten Betrachtung

können die Ein- und Ausgabeflüsse summiert betrachtet werden. So wird vereinfacht unters-

tellt, dass alle notwendigen eingehenden Energien, Stoffe und Informationen vor der Anwen-

dung einer Teilfunktionslösung bereitgestellt werden. Ebenso vereinfacht wird unterstellt,

dass alle Ausgabeflüsse nach Abschluss der Teilfunktionslösung bereitgestellt werden. Durch

diese Vereinfachung bildet das Planungsmodell das mechatronische System zwar nicht exakt

ab, ist aber schneller lösbar.

Eine weitere Modellierungsentscheidung, die erhebliche Auswirkungen auf die Komplexität

des Planungsproblems hat, besteht in der Entscheidung, was als eine Teilfunktionslösung und

damit als Aktion dargestellt wird. Abbildung 2-6 zeigt eine Funktionshierarchie mit Teilfunk-

tionslösungen. Bei Teilfunktionslösungen handelt es sich eigentlich um die Blätter der Funk-

tionshierarchie, da es sich um vollständig spezifizierte und sogar implementierte Funktionen

handelt, die nicht weiter in Teilfunktionen zerlegt werden. Allerdings lässt sich jede Teilfunk-

tion als eine Abfolge von Teilfunktionslösungen darstellen und damit in ein Blatt der Funkti-

onshierarchie überführen. Dazu muss für jede als sinnvoll betrachtete Kombination der alter-

nativen Teilfunktionen bzw. Teilfunktionslösungen, die Kind der Teilfunktion sind, eine neue

Teilfunktionslösung erzeugt werden. Wie also die Funktionshierarchie in eine Menge von

Aktionen in der Repräsentation der PDDL überführt wird, hängt von den Zielen der Planung

und der notwendigen Planungsgeschwindigkeit ab. Je nach gewählter Modellierung werden

bestimmte alternative Sequenzen von Teilfunktionslösungen ausgeschlossen. Weiterhin geht

mit einer eher groben Modellierung (mit der Darstellung von Teilfunktionslösungen weit oben

in der Hierarchie) Genauigkeit verloren, sodass der optimale Lösungsweg nicht mehr korrekt

erkannt werden kann. Eine allgemeine Handlungsanweisung, wie eine mechatronische Pla-

Teilfunktionslösung

Energie

Stoff

Signal

Energie’

Stoff’

Signal’

a) Schematische Darstellung einer

Teilfunktionslösung in Anlehnung an [PB03]

Aktionsschema

Vorbedingungen Nachbedingung

b) Schematische Darstellung eines

Aktionsschemas

16 Problemstellung

nungsdomäne modelliert wird, kann hier nicht gegeben werden, da die Anforderungen der

Modellierung zu stark von der konkreten Anwendung abhängen.

Grundsätzlich ist aber jede Teilfunktionslösung durch eine Aktion in der PDDL darzustellen.

Anhand der Elemente der Vor- und Nachbedingungen, die sich an den Ein- und Ausgangs-

flüssen der Teilfunktionslösungen orientieren, lässt sich dann auch ableiten, welche System-

und Umgebungsobjekte mit welchen Eigenschaften in der Domänendefinition aufgenommen

werden müssen. Daher eignet sich die Funktionshierarchie als Ausgangspunkt der Modellie-

rung. Weiterhin soll die Information erhalten bleiben, welche allgemeine Funktion eine Teil-

funktionslösung implementiert. Im Rahmen der Modellierung einer mechatronischen Pla-

nungsdomäne zerfällt damit die Menge der Aktionssymbole As in mehrere disjunkte Teil-

mengen TFs, die Teilfunktionssymbole. Die Elemente einer solchen Teilmenge TF stellen

wechselseitige Surrogate dar, können also in bestimmten Situationen gegeneinander ausge-

tauscht werden. Diese Informationen sind für einige der in den folgenden Kapiteln vorgestell-

ten Methoden notwendig, um zielgerichtete Manipulationen am Plan zu ermöglichen.

Im weiteren Verlauf dieser Arbeit werden die Aktionen in der Domänendefinition einer me-

chatronischen Planungsdomäne als Teilfunktionslösungen bezeichnet, während die konkrete

Anwendung einer solchen Teilfunktionslösung in einem Plan als Aktivität bezeichnet wird.

Dadurch wird die in der PDDL bestehende begriffliche Verwirrung zwischen Aktionen in der

Domänendefinition und den Grundaktionen eines konkreten Planungsproblems vermieden.

Mechatronische Systeme werden zur Erfüllung einer Hauptaufgabe konstruiert. Bereits in der

Einleitung wurde zwischen der allgemeinen Formulierung dieser Hauptaufgabe im Rahmen

der Konstruktion und der konkreten Instanzierung der Hauptaufgabe im Betrieb unterschie-

den. Das mechatronische System wird im Rahmen seiner Lebensdauer in der Regel viele In-

stanzierungen der Hauptaufgabe erfüllen müssen. Eine solche Instanzierung soll als Auftrag

bezeichnet werden.

Abbildung 2-6: Funktionshierarchie mit Teilfunktionslösungen

Auch in der Beschreibung von mechatronischen Planungsdomänen müssen Aufträge berück-

sichtigt werden. Aufträge werden definiert durch eine Menge von Teilzielen, die zu erreichen

sind. Teilziele sind dabei angegeben in Form von Zustandsvariablen, logisch oder numerisch,

die innerhalb eines bestimmten Zeitfensters erfüllt sein müssen. Zusätzlich kann die Aufgabe,

deren Ausprägung sie sind, spezifiziert werden. Somit kann ein Auftrag modelliert werden als

eine zusammengesetzte Datenstruktur, die aus dem Typ der Aufgabe und einem Zielvektor

besteht. Der Zielvektor enthält dabei alle Zustände, die im Rahmen des Auftrags zu realisieren

sind.

Problemstellung 17

2.1.3 Modellierung einer Beispieldomäne

Dieses Kapitel verdeutlicht die Modellierung eines Planungsproblems für mechatronische

Systeme anhand eines Beispiels aus dem RailCab-Szenario. Dabei soll grundsätzlich das Fah-

ren des RailCabs mit unterschiedlichen Einstellungen der Federung dargestellt werden.

Im Folgenden wird die Domäne mit ihren Prädikaten, Objekten und Aktionen beschrieben.

Listing 2-1 zeigt den Kopf der RailCab-Domäne. Dabei wird der Name der Domäne definiert,

die verwendeten Features der PDDL, die in der Domäne vorkommenden Objekttypen und die

relevanten Prädikate. Die Beispieldomäne ist einfach gehalten und verwendet nur grundle-

gende Bestandteile der Sprache. Dazu gehören vor allem die Berücksichtigung unterschiedli-

cher Typen und die Berücksichtigung numerischer Zustandsvariablen (fluents).

Wie zu erkennen ist, besteht der logische Teil der RailCab-Domäne nur aus dem Prädikat at,

das den Standort eines RailCab oder eines Passagiers angibt.

(define (domain railcab)

(:requirements :typing :fluent)

(:types railcab passenger location – object)

(predicates (at?x (either passenger railcab) ?l location))

Listing 2-1: Kopf der RailCab-Domäne

Numerische Zustandsvariablen werden nicht mittels Prädikaten, sondern in Form eines Kons-

trukts beschrieben, das als Funktion bezeichnet wird (siehe Listing 2-2). Sie geben in der Re-

gel eine numerische Eigenschaft eines Objekts oder den numerischen Wert einer Beziehung

zwischen mehreren Objekten an. Eine Ausnahme stellt die Funktion total-energy-used dar, die

für die gesamte Domäne gültig ist und den Energieverbrauch im gesamten Planungsproblem

dokumentiert. Dieser Wert kann beispielsweise innerhalb einer Planungsmetrik als Optimie-

rungsziel genutzt werden.

(:functions (:energy_storage ?r -railcab)

(suspension-active ?r –railcab)

(suspension-passive ?r –railcab)

(suspension-compensative ?r –railcab)

(capacity ?r –railcab)

(comfort ?p –railcab)

(total-energy-used)

(distance ?l1 –location ?l2 –location)

)

Listing 2-2: Funktionen der RailCab-Domäne

Die Funktion distance beschreibt die Länge des Fahrweges zwischen zwei Orten im Trans-

portnetzwerk. Alle übrigen Funktionen beschreiben die Eigenschaften des RailCab Fahrzeugs:

die maximale Kapazität des Energiespeichers (capacity), den aktuellen Ladestand des Ener-

giespeichers (energy_storage), Verbrauchswerte für die unterschiedlichen Einstellungen der

Federung (suspension-active, suspension-passive und suspension-compensative) oder den

Komfort, der sich über die Reise des RailCabs abhängig von den gewählten Federungseinstel-

lungen ergibt. Diese Funktionen, die Eigenschaften eines Fahrzeugobjekts beschreiben, wer-

den in der Problemdatei mit konkreten Ausgangswerten belegt.

Das RailCab als Fahrzeug realisiert bei Betrachtung auf der AMS-Ebene folgende Hauptfunk-

tion: Es verkehrt (mit Passagieren oder Transportgütern) zwischen unterschiedlichen Punkten

im Transportnetzwerk. Dabei realisiert es diese mittels alternativer Teilfunktionslösungen.

Das Beispiel ist aus Gründen des Umfangs auf unterschiedliche Federungseinstellungen be-

schränkt. Für jede wählbare Federungseinstellung wird eine Aktion definiert. Listing 2-3 zeigt

das Beispiel einer Fahraktion mit aktiver Federung. Als Parameter gehen das betrachtete

RailCab, der Startort l1 und der Zielort l2 ein. Als Vorbedingung für eine Fahrt muss sich das

18 Problemstellung

RailCab am Startort befinden und mindestens so viel Energie im Speicher sein, dass der Ver-

brauch auf der Strecke gedeckt wird. Effekt der Aktion ist, dass sich das RailCab nicht mehr

am Ort l1 befindet, sondern am Ort l2 und der Ladegrad des Energiespeichers um den ent-

sprechenden Wert reduziert wird, während die Variable total-energy-used (die ja quasi Buch-

haltungszwecken dient) um den aktuellen Verbrauch erhöht wird. Die Definition von Fahrak-

tionen für die passive Federung und die Federung mit Störgrößenaufschaltung erfolgt analog.

(:action drive

:parameters

(?r railcab ?l1 ?12 – location)

:precondition

(and at ?r ?l1)

(>=(energy_storage ?r)(*distance ?l1 ?l2)(suspension-active ?r)

:effect

(and (not (at ?r ?l1))

(at r? ?l2)

(increase (total-energy-used)(*(distance ?l1 ?l2)(suspension

active ?r)))

(decrease (energy_storage ?r) (*(distance ?l1 ?l2)(suspension-

active *r)))

)

Listing 2-3: Fahraktion mit aktiver Federung

Für das Erstellen eines Plans benötigt ein PDDL-Planer neben der Domäne eine entsprechen-

de Problemdatei, die die konkrete Ausprägung des Planungsproblems beschreibt. Die Prob-

lemdatei beginnt mit Vergabe eines Problemnamens, der Spezifikation der Problemdomäne

und einer Aufzählung der im Problem betrachteten Objekte.

(define (problem railcab1)

(:domain railcab)

(:objects

railcab1 – railcab

location1 – location

location2 – location

location2 - location

)

Listing 2-4: Definition des Planungproblems

Nach der Auflistung aller Objekte müssen die Ausgangszustände mit konkreten Werten initia-

lisiert werden. Dabei werden zunächst die (wahren) Prädikate initialisiert. Anschließend wer-

den die Werte der einzelnen Funktionen initialisiert.

Problemstellung 19

(:init

(at railcab1 location1)

(= (capacity railcab1) 1000)

(= (energy-storage railcab1) 1000)

(= (suspension-active railcab1) 1)

(= (suspension-passive railcab1) 0.8)

(= (suspension-compensative railcab1) 1.5)

(= (comfort railcab1) 0)

(= (distance location0 location0) 0)

(= (distance location0 location1) 678)

(= (distance location0 location2) 775)

(= (distance location1 location0) 678)

(= (distance location1 location1) 0)

(= (distance location1 location2) 810)

(= (distance location2 location0) 775)

(= (distance location2 location1) 810)

(= (distance location2 location2) 0)

(= (total-energy-used) 0)

)

Listing 2-5: Initialisierung in der Problemdatei

Letzter Teil der Problemdefinition ist die Angabe des Zielzustands, der durch den zu erzeu-

genden Plan aus dem initialisierten Ausgangszustand erreicht werden soll.

(:goal

(at railcab1 location2)

)

Listing 2-6: Zielzustand des Beispielproblems

Zusätzlich kann der Planer angewiesen werden, einen bzgl. einer Zielfunktion optimalen Plan

zu erstellen, soweit er diese Funktion unterstützt. Dazu werden die als Metriken bezeichneten

Zielfunktionen eingesetzt. Listing 2-7 zeigt den Vergleich von drei alternativen Planungsmet-

riken. Die erste Metrik definiert das Ziel, einen Plan zu finden, der den minimalen Energie-

verbrauch erzeugt, die zweite Metrik soll den Komfort maximieren und die dritte Metrik stellt

schließlich die gewichtete Summe der beiden Zielgrößen dar.

(:metric minimize total-energy-used)

(:metric maximize comfort railcab1)

(:metric minimize (+(* -0.8(comfort))(* 0.2(total-energy-used))))

Listing 2-7: Drei alternative Planungsmetriken

Die hier beispielhaft angegebene Domänenfunktion bildet das Verhalten des mechatronischen

Systems RailCab nur rudimentär ab. Wichtige Eigenschaften des Verhaltens technischer Sys-

teme können mit den Standardsprachmitteln der PDDL nicht dargestellt werden. Ein Beispiel

ist die Herleitung der Werte für comfort, die sich eigentlich nur bei einer genauen Kenntnis

des kontinuierlichen Verlaufs der Fahrt bestimmen lassen. Hier ist also ein Weg zu finden,

kontinuierliche Prozesse in die Domänen- und Problembeschreibung aufzunehmen. Ebenso

handelt es sich um ein deterministisches Planungsmodell, das unterstellt, dass die Effekte der

Aktion sicher bekannt sind. Da aber auch schwer vorhersagbare Effekte wie „Gegenwind“

auf das Fahrzeug einwirken, ist diese Annahme unzutreffend. Schließlich sieht das Modell

keinerlei Interaktion des RailCabs mit anderen Systemen vor, wodurch mögliches Optimie-

rungs- und Koordinationspotenzial nicht genutzt werden kann.

Diese drei Punkte werden in den nächsten Abschnitten hinsichtlich der Probleme, die sie im

Rahmen einer Verhaltensplanung aufwerfen, genauer untersucht.

20 Problemstellung

2.2 Integration kontinuierlicher Prozesse

In der allgemeinen Formulierung des Verhaltensplanungsproblems zu Beginn dieses Kapitels

wurde unterstellt, dass die Zeitmenge T diskret ist. Gleichzeitig werden Teilfunktionslösun-

gen so behandelt, als erzeugten sie genau einen Ausgabevektor zum jeweils nächsten Zeit-

punkt. Diese Darstellung erleichtert die Modellierung mithilfe der PDDL

und damit letztlich

auch die algorithmische Lösung der Planung, ist jedoch nicht zutreffend. Stattdessen kann die

Anwendung einer Teilfunktionslösung auch eine zeitliche Abfolge von Ausgabewerten erzeu-

gen, wobei die zugrunde liegende Zeitmenge grundsätzlich kontinuierlich ist. Eine Teilfunkti-

onslösung kann demzufolge nicht mehr beschrieben werden als:

• )

?@A

:'(BCDE $F*GBCDE ,

sondern bildet für gegebene Eingangswerte auf eine Zeitfunktion ab:

• 

?@A

:,$F,

wobei FH

?

die Menge der Zeitfunktionen des Ausgabeverhaltens der Teilfunktion l

bezeich-

net. Konsequenterweise können die Eingabewerte ebenfalls als Zeitfunktion interpretiert wer-

den:

• 

?@A

,$,

?@A

H

?@A

sodass sich die Teilfunktionslösung ergibt als: )



: H

?@A

IFH

?

Die Betrachtung des Ein- und Ausgabeverhaltens als Zeitfunktion über eine kontinuierliche

Zeitmenge erschwert die Analyse des Systemverhaltens erheblich. Die Zustandsbestimmung

zu einem Zeitpunkt hängt nicht mehr nur von unmittelbar zuvor angewandten Teilfunktions-

lösungen ab, die es in dem Sinne nicht mehr gibt. Eine Darstellung des Planungsproblems in

Form eines Planbaums ist damit ebenfalls nicht mehr möglich. Dadurch fallen ganze Klassen

effizienter Algorithmen zur Lösung des Planungsproblems aus. Dennoch kann dieser Aspekt

nicht völlig unberücksichtigt bleiben, da sehr viele Qualitätsgrößen sich nur mit Kenntnis ei-

nes kontinuierlichen Verlaufs beschreiben lassen.

Zwar unterstützt die PDDL grundsätzlich bestimmte Formen kontinuierlicher Aktionen, je-

doch führt deren Anwendung zu längeren Planungsdauern oder es sind bisher keine Planer

verfügbar, die diese Spracheigenschaften der PDDL unterstützen. Daher sind Alternativen zu

identifizieren, die die kontinuierliche Betrachtungsweise des Systemverhaltens besser in die

(diskrete) Modellierung mittels PDDL integrieren.

2.3 Unsicherheit und unvollständige Information

Ein erhebliches Problem bei der Planung für mechatronische Systeme besteht darin, dass so-

wohl Ein- als auch Ausgabeverhalten des mechatronischen Systems und des Umfelds nicht

eindeutig vorhersagbar sind. Mögliche Gründe dafür sind im Wesentlichen:

• Die Eingabegrößen sind nicht vollständig bekannt oder beobachtbar,

• das Umfeld wird von zusätzlichen, nicht vorhersagbaren Faktoren beeinflusst,

• die Funktionen des Modells sind nicht vollständig bekannt oder

• einzelne Modellelemente besitzen ein stochastisches Verhalten.

Und auch mit anderen Planungsformalismen

Problemstellung 21

Die Unterscheidung zwischen unvollständiger Information und Unsicherheit wird bedeu-

tungslos, wenn im Rahmen der Planung nicht die Möglichkeit besteht, die fehlende Informa-

tion zu erlangen. Letztlich ist der Bildwert einer Funktion zu einem gegebenen (und ggf. teil-

weise unbekannten) Urbild nicht eindeutig zu bestimmen. Zur Illustration wird das verein-

fachte Modell des Systemverhaltens dahingehend verändert, dass dieser Mangel an Eindeu-

tigkeit in den Funktionsdefinitionen berücksichtigt wird:

• 45)4

:##$:

• 45)4

:#$:

•  :: # $:

• '()*(:#$:

Die Bestimmung eindeutiger Werte für m

, e

, o

und i

ist so vorab nicht mehr möglich. Die

Planung, die das Verhalten der Funktion apply festlegen soll, müsste nun nach jedem Schritt

alle möglichen Folgezustände S

ermitteln. Die PDDL ist nicht in der Lage, die skizzierte Art

von Planungsproblemen darzustellen. Daher ist auch eine direkte Anwendung der entspre-

chenden Planungssysteme nicht möglich. Mit jedem Zeitschritt nimmt die Menge der zu be-

rücksichtigenden Folgezustände S

exponentiell zu. Abbildung 2-7 stellt diesen Umstand an-

schaulich dar.

Abbildung 2-7: Planungsbaum unter Unsicherheit

Durch die Unsicherheit steigt der Verzweigungsgrad erheblich an, was direkte Wirkung auf

die Komplexität des Planungsproblems hat. Während über das Ein- und Ausgabeverhalten

und die möglichen und aktuellen Zustände des mechatronischen Systems viele Informationen

vorliegen, ist dies beim Umfeld nicht der Fall. Dieser Umstand ist darin begründet, dass das

Umfeld kein genau abgegrenztes System ist, dessen Subsysteme und Funktionen vollständig

bekannt sind. Außerdem ist die konkrete Ausprägung der Umgebung in voller Detaillierung

erst zur Ausführungszeit bekannt. Die Folge ist, dass der Ausgangsgrad der Knoten o und e

entweder besonders hoch ist oder die Nachfolger dieser Knoten überhaupt nicht bestimmt

werden können.

: steht jeweils für die Potenzmenge.

22 Problemstellung

Beides stellt ein massives Hemmnis für die Planung des Verhaltens mechatronischer Systeme

dar. Ein Planungsverfahren sollte daher in der Lage sein, Informationen über die Umgebung

in die Konstruktion der Pläne einzubeziehen, die erst während des Betriebs gewonnen wer-

den.

Neben fehlenden Informationen zur Konstruktion des Planbaums ist die Planungsdauer ein

weiteres Problem bei der Planung in unsicheren Umgebungen. Da nicht unbegrenzt Zeit zur

Planung zur Verfügung steht, kann der Planungsbaum nicht vollständig aufgebaut werden und

für alle alternativen Pfade die optimale Festlegung für apply(t) gesucht werden. Um das Prob-

lem in gegebener Zeit sinnvoll zu lösen, muss das Planungsverfahren daher in der Lage sein,

relevante von irrelevanten Pfaden im Planungsbaum zu unterscheiden. Um diese Unterschei-

dung treffen zu können, ist ein Maß der Eintrittsmöglichkeit für bestimmte Zustände erforder-

lich. Zwei Forderungen werden an ein solches Maß der Eintrittsmöglichkeit gestellt:

• Eine situationsabhängige Einbeziehung unsicherer Informationen über die Umgebung

muss möglich sein.

• Die Eintrittsmöglichkeit muss abhängig von der Eintrittsmöglichkeit des Elternkno-

tens bemessen werden.

Die erste Forderung ist begründet durch wechselnde Umgebungen, in denen mechatronische

Systeme eingesetzt werden können, und dadurch, dass sich Informationen über die Umgebung

(erfasst durch Sensoren) im Zeitverlauf verändern. Die zweite Forderung ergibt sich aus der

Struktur des Planungsproblems: Ein Zustand kann nur dann eintreten, wenn sein direkter Vor-

gänger ebenfalls eingetreten ist. Aus diesem Grund macht eine Beurteilung der Eintrittsmög-

lichkeit unabhängig vom Vorgängerzustand keinen Sinn.

Auf Basis eines Möglichkeitsmaßes können Planungsverfahren so konzipiert werden, dass vor

allem in relevanten Teilbäumen nach einer optimalen Wahl für die Funktion apply(t) gesucht

wird. Ein Teilbaum ist dann relevant, wenn er mit besonders hohem Glaubensgrad

während

der Ausführung des Planes eintritt. Der resultierende Plan würde alternative Verläufe für un-

terschiedliche Situationen vorsehen.

Auch wenn bevorzugt Alternativpläne für besonders relevante Situationen erstellt werden, ist

es nicht möglich zu garantieren, für jede tatsächlich eintretende Situation einen Plan bereitzu-

haben. Für diesen Fall stellen sich dem Planungsverfahren besondere Formalziele. Insbeson-

dere die zeitnahe Bereitstellung eines Plans wird dabei zur kritischen Anforderung, andere

Ziele (wie die Plangüte) können dafür unter Umständen zurückstehen.

Die Modellierung mittels PDDL muss also durch eine Darstellung mehrdeutiger Zustände und

Nachbedingungen von Aktionen erweitert werden. Da aufgrund der Vielzahl von Umge-

bungseinflüssen eine Abweichung der Ausführung von der Planung eher die Regel als die

Ausnahme ist, muss es möglich sein, relevante Abweichungen zu identifizieren. Dazu ist ein

Maß der Eintrittsmöglichkeit von Zuständen notwendig, das in der Lage ist, die Vorgänger

und Nachfolgerzustände außerdem in Beziehung zu setzen. Auf Basis dieses Maßes ist ein

Verfahren zur Bestimmung relevanter Alternativpläne zu entwickeln. Um auch auf unvorher-

gesehene Ereignisse reagieren zu können, ist außerdem ein schnelles Umplanungsverfahren

notwendig. Die unterschiedlichen Klassen von Verfahren müssen schließlich integriert wer-

den.

Glaubensgrad soll allgemein ein Maß bezeichnen, das angibt, wie die Möglichkeit eines bestimmten Faktes

beurteilt wird. Umgangssprachlich würde Glaubensgrad mit Wahrscheinlichkeit bezeichnet, wobei es jedoch

eine Menge alternativer Konzepte zur Beurteilung der Möglichkeit des Wahrheitsgehaltes eines Faktes gibt. Die

für diese Arbeit relevanten Glaubensmaße werden in Unterkapitel 4.1.1 vorgestellt.

Problemstellung 23

2.4 Interaktion zwischen mechatronischen Systemen

Wie bereits aus dem Vorschlag zur Strukturierung von mechatronischen Systemen (siehe Ab-

bildung 1-2) erkennbar, handeln einzelne mechatronische Systeme in der Regel nicht isoliert

in ihrem Umfeld, sondern sie interagieren mit anderen (mechatronischen) Systemen. De-

mentsprechend ist apply(t) nicht mehr der einzige Faktor, der den Umfeldzustand beeinflusst.

Es seien:

• MS die Menge aller mechatronischen Systeme, die in einer Umgebung agieren;

• TF

die Menge der Teilfunktionen des mechatronischen Systems i;

• L

tfi

die Menge der Lösungen von Teilfunktion tf ∈ TF, die das mechatronische System

realisiert;

• 





K

die Menge der Teilfunktionslösungen, die das mechatronische Sys-

tem i realisiert;

• M

, die Menge der möglichen Zustände des Systems i;

• 

, die Menge der möglichen Eingabewerte aus dem Umfeld an System i;

• ∏

JM

die Menge der Eingabewerte aus dem Umfeld in alle Systeme ;

• 

, die Menge der Ausgabewerte aus System i;

• ∏

JM

die Menge der Ausgabewerte aller Systeme;

• 

::

#

I

eine Funktion, die angibt, welche Ausgabewerte bei gege-

benem Zustand und einer Menge angewandter Teilfunktionslösungen erzeugt werden;

• '()*(:#$ die Einflüsse auf die Eingaben der mechatronischen Systeme,

'()*(

:#$

sind die Einflüsse auf das mechatronische System i und

• ∏

#+

6OPM

bezeichnet den Gesamtzustand des Modells.

Abbildung 2-8: Zwei mechatronische Systeme in einem Umfeld

∏bezeichnet hier die Bildung des kartesischen Produkts über die angegebenen Mengen.

24 Problemstellung

Da sich der Umfeldzustand über

• 3



45)4

'()*(

78

, 11)2 ; 1,3

78



auf das Ein- und Ausgabeverhalten auswirkt, muss dies im Rahmen der Planung berücksich-

tigt werden. Abbildung 2-8 zeigt ein Umfeld, in dem zwei mechatronische Systeme aktiv

sind. Entsprechend ändern sich auch die Formeln für den Umfeldzustand zum Zeitpunkt t:

• 



45)4

5

8,78

=,78

,

78

, 45)4

:

#

#$

Die Ausgabewerte finden über die Zustandsfunktion Eingang in die Zustandsfunktion der

mechatronischen Systeme.

Es ist ersichtlich, dass die beiden Systeme aus Abbildung 2-8 sich gegenseitig beeinflussen.

Daher ist es erforderlich, die Funktionswerte von apply der beiden Systeme aufeinander abzu-

stimmen, also eine systemübergreifende Planung durchzuführen. Gesucht wird also nicht

mehr eine Folge von Teilfunktionslösungen, die das gewünschte Ein- und Ausgabeverhalten

eines mechatronischen Systems erfüllt. Stattdessen sind zwei Sequenzen so zu bestimmen,

dass zwei mechatronische Systeme jeweils das gewünschte Verhalten zeigen. Im allgemeinen

Fall, wenn n Systeme in der gleichen Umgebung handeln, gilt:

• 



45)45

8,78

,…,5

R,78

,

78



• 3

J,



45)4

6K,@

'()*(S45)4

<

11)2

 ; 2>,…,

<11)2

 ;

2>T, 11)2

 ; 1,3

J,78



weswegen n Folgen von Teilfunktionslösungen zu bestimmen sind, die ein gewünschtes Ein-

und Ausgabeverhalten für n mechatronische Systeme gewährleisten. Eine Planung, die zur

Festlegung einer solchen Menge von Teilfunktionslösungen dient, soll im Weiteren als Inter-

aktionsplanung bezeichnet werden.

Abbildung 2-9 stellt das Planungsproblem für zwei mechatronische Systeme dar. Es ist an-

schaulich erkennbar, dass die Komplexität der Planung durch die Wechselwirkungen zwi-

schen den Systemen steigt (der Verzweigungsgrad im Baum nimmt zu).

Problemstellung 25

Abbildung 2-9: Planungsproblem bei zwei mechatronischen Systemen

Die Situationen, in denen eine Planung der Interaktion von mechatronischen Systemen sinn-

voll oder erforderlich ist, unterscheiden sich teilweise erheblich. Daher soll an dieser Stelle

ein Klassifikationsschema aufgebaut werden, auf dessen Basis dann die notwendigen Anfor-

derungen an das Lösungsverfahren und das Verhaltensmodell beschrieben werden können.

Die Klassifikationsmerkmale, die als relevant betrachtet werden, sind im Einzelnen:

• Hauptaufgabe: gemeinsam oder individuell

• Zusammensetzung der Systeme: statisch oder dynamisch

• Verteilung der Teilaufgaben: bekannt oder unbekannt.

Das wichtigste Unterscheidungsmerkmal ist, ob die beteiligten Systeme eine gemeinsame

oder jeweils eine individuelle Hauptaufgabe erfüllen müssen. Für den Fall, dass n mechatroni-

sche Systeme eine gemeinsame Hauptaufgabe erfüllen müssen, besteht das Sachziel im Auf-

finden von n Ausprägungen der Funktion apply(t), sodass die Hauptaufgabe erfüllt wird. Bei-

spiele für diese Art der Interaktion finden sich vor allem auf Ebene der mechatronischen

Funktionsmodule, die in einem autonomen mechatronischen System zusammengefasst sind,

etwa wenn ein Energiemanagement und ein Antriebsmodul innerhalb eines Fahrzeugs zu-

sammenwirken, um die Hauptaufgabe „Transport von Passagieren oder Gütern“ zu erfüllen.

Auf Ebene der vernetzten mechatronischen Systeme kann ein Roboterschwarm mit der Auf-

gabe, Tischtennisbälle farblich zu sortieren, diese Art von Interaktion veranschaulichen.

Bei individuellen Hauptaufgaben kann aufgrund der wechselseitigen Beeinflussung der Sys-

teme der Fall eintreten, dass es nicht möglich ist, n Funktionsfolgen von apply(t) festzulegen,

die alle Hauptaufgaben erfüllen. Weiterhin kann eine wechselseitige Beeinflussung der Plan-

güte auftreten. Zusätzlich ist es in der Regel nicht möglich, eine Gewichtung der Hauptaufga-

ben vorzunehmen oder ein gemeinsames Gütemaß für die n Funktionsfolgen zu finden. Das

ist beispielsweise dann der Fall, wenn die mechatronischen Systeme ihre jeweilige Hauptauf-

gabe für unterschiedliche Nutzer erfüllen müssen. Beispiele für diese Art von Beziehung zwi-

schen mechatronischen Systemen finden sich ausschließlich auf Ebene vernetzter mechatroni-

scher Systeme, da für mechatronische Funktionsmodule durch das überlagerte autonome me-

chatronische System immer ein gemeinsames Zielsystem gegeben ist.

26 Problemstellung

Auf Basis dieser ersten Unterscheidung ergeben sich zwei völlig unterschiedliche Planungs-

aufgaben. Der entscheidende Unterschied zwischen den beiden Planungsaufgaben besteht im

Sachziel:

• Erstellen eines Plans für n mechatronische Systeme zur Erreichung von n konkreten

Hauptaufgaben und

• Erstellen eines Plans für ein mechatronisches System zur Erreichung einer konkreten

Hauptaufgabe unter Berücksichtigung der Einflüsse von n-1 anderen mechatronischen

Systemen.

Die Zusammensetzung der interagierenden Systeme kann vorab bekannt sowie statisch oder

dynamisch sein. Je nach Ausprägung muss ein Planungsverfahren also zusätzlich die relevan-

ten mechatronischen Systeme identifizieren bzw. zusammenfassen. Ein ähnliches Problem

stellt sich bei der Verteilung der Teilaufgaben. Wenn diese nicht vorab bekannt sind, muss im

Verlauf des Planungsprozesses für eine eindeutige Zuordnung von Teilaufgaben zu Systemen

gesorgt werden.

Aus der Tatsache, dass zwischen mechatronischen Systemen Wechselwirkungen bestehen,

lassen sich spezifischere Zielstellungen für die Arbeit herleiten. Die Möglichkeit der Interak-

tion ist so in die Darstellung der PDDL zu integrieren, dass sowohl Interaktionen bei gemein-

samer als auch individueller Hauptaufgabe im Rahmen des Planungsprozesses berücksichtigt

werden.

Um das gesamte Spektrum möglicher Interaktionen abdecken zu können, ist es außerdem er-

forderlich, Verfahren zur Identifikation relevanter mechatronischer Systeme zu entwickeln

oder zu identifizieren. Ebenso müssen für die Planungssituationen, in denen die Aufgabenver-

teilungen zwischen mechatronischen Systemen nicht vorab bekannt sind, Verfahren zur Auf-

teilung der Gesamtaufgabe in Teilaufgaben und zur Verteilung der Teilaufgaben auf die ver-

fügbaren Systeme vorhanden sein. Schließlich müssen die eigentlichen Planungsverfahren mit

den Verfahren zur Identifikation von relevanten Systemen sowie zur Aufgabenverteilung

sinnvoll verknüpft werden.

Die Formulierung des Planungsproblems in PDDL sollte keine zentrale Lösung des Pla-

nungsproblems erfordern. Zunächst ist dies für Systeme mit individueller Hauptaufgabe nicht

plausibel (wenn jedes System seine eigenen Ziele verfolgt, gibt es keinen Grund, dass die

Systeme sich einer zentralen Instanz unterwerfen). Außerdem hat die Zusammenfassung meh-

rerer Planungsprobleme negative Auswirkungen auf die Komplexität des Planungsproblems.

Am Beispiel wird dies deutlich. Betrachtet werden zwei Systeme A und B, für die ein Pla-

nungsproblem zu formulieren ist. Beide Systeme besitzen 2 unterschiedliche Teilfunktionslö-

sungen. Bei einer dezentralen Lösung mit zwei lokalen Planungsmodellen müssen bei einer

Suchtiefe von fünf im Planbaum 2 · 2

64 unterschiedliche Verläufe betrachtet werden.

Fasst man die Planungsprobleme in einem zentralen Modell zusammen, so erhöht sich der

Verzweigungsgrad

auf 4. Entsprechend sind 4

1024 unterschiedliche Verläufe zu unter-

suchen. Das bedeutet, im allgemeinen Fall nimmt die Größe des Planungsproblems bei zentral

formulierten Modellen erheblich schneller zu.

Die Möglichkeit der Interaktion muss also in der Modellierung des Planungsproblems mithilfe

der PDDL integriert werden. Dabei sind Formen der Interaktion, also bei gemeinsamer und

individueller Hauptaufgabe zu berücksichtigen. Um die gesamte Bandbreite an möglichen

Kooperationen abzudecken, werden zusätzlich Verfahren zur Identifikation kooperationsfähi-

In einer konkreten Anwendung lassen sich zwar vermutlich Kombinationen von Teilfunktionslösungen finden,

die gemeinsam nicht sinnvoll sind, dies hebt aber die allgemeine Tendenz des wachsenden Zustandsraums nicht

auf.

Problemstellung 27

ger mechatronischer Systeme sowie Verfahren zur Aufgabendekomposition und –verteilung

benötigt. Schließlich sind diese einzelnen Verfahren in einem Gesamtablauf zu integrieren.

2.5 Aufbau der Arbeit

Diese Arbeit widmet sich im Folgenden der Aufgabe, die Verhaltensplanung für mechatroni-

sche Systeme zu konzipieren. Dabei dient die PDDL als Grundlage für die Modellierung der

Verhaltensplanungsprobleme. Da die PDDL in der Lage ist, generische Planungsprobleme

darzustellen, können die Konzepte zur Verhaltensplanung allgemein und losgelöst von einer

konkreten Anwendung formuliert werden.

In der Konzeption einer Verhaltensplanung sind natürlich die drei soeben angesprochenen

Problemfelder zu berücksichtigen. Da jedes Problemfeld für sich einen erheblichen Umfang

besitzt, ist es notwendig, möglichst viele Probleme mithilfe bestehender Arbeiten zu lösen. Da

zu jedem Problemfeld ein umfangreicher und relevanter Stand der Technik existiert, aus dem

geeignete Modellierungen und Lösungsverfahren auszuwählen sind, orientiert sich die Gliede-

rung der Arbeit zunächst an den drei Problemfeldern Integration kontinuierlicher Prozesse

(Kapitel 3), Planung unter Unsicherheit (Kapitel 4) und Planung von Systeminteraktionen

(Kapitel 5). Ziel der Kapitel ist es jeweils, die Modellierungsmöglichkeiten der PDDL so ein-

zusetzen, dass das jeweilige Teilproblem durch einen PDDL-Planer gelöst werden kann. Wo

dies nicht möglich ist, soll die PDDL um zusätzliche Modellierungselemente erweitert wer-

den. Diese Modellierungselemente können dann zur Analyse und Anpassung von PDDL-

Plänen eingesetzt werden. In Kapitel 6 erfolgt dann eine Gesamtintegration in einen Pla-

nungsprozess auf Basis der PDDL.

Existierende PDDL-Planer unterstützen den Sprachumfang der PDDL nicht vollständig. Ins-

besondere der Umgang mit Planungsmetriken (Zielfunktionen) wird nicht ausreichend unters-

tützt. Daher wird in Kapitel 7 (Anwendungsbeispiele) von der Modellierung auf Basis der

PDDL abgewichen. Stattdessen werden die Planungsmodelle spezifisch für die Anwendungs-

beispiele formuliert und individuelle Lösungsverfahren vorgestellt. Da dieses Vorgehen es

ermöglicht, Informationen über Besonderheiten der Anwendungsbeispiele, z. B. zur Formulie-

rung von Heuristiken auszunutzen, sind die Lösungsverfahren schneller und weniger speicher-

intensiv als PDDL-Planer. Die Laufzeit und Speicherbedarf wesentliche Kriterien im Kontext

mechatronischer Systeme sind, empfiehlt sich dieses Vorgehen auch für praktische Anwen-

dungen.

Das Kapitel 8 schließt die Arbeit letztlich mit einer Zusammenfassung der erarbeiteten Kon-

zepte und einem Ausblick.

Integration kontinuierlicher Prozesse in eine Verhaltensplanung auf Basis der PDDL 29

3 Integration kontinuierlicher Prozesse in eine Verhal-

tensplanung auf Basis der PDDL

Ein Beispiel für die Notwendigkeit, kontinuierliche Prozesse in die Verhaltensplanung zu

integrieren, liefert die aktive Federung des RailCab-Systems. Aufgabe der aktiven Federung

im RailCab ist die Entkopplung des Aufbaus von Anregungen. Der Aufbau soll also mög-

lichst ruhig gehalten werden, was in der Regel als komfortabel bezeichnet wird. Der Komfort,

der sich beim Befahren eines Streckenabschnitts ergibt, hängt vom kontinuierlichen Verlauf

ab. So hat zu jeder Zeit die gerade wirkende Aufbaubeschleunigung Auswirkung auf das

Komfortempfinden der Fahrgäste. Eine solche Größe kann mit der eben beschriebenen Mo-

dellierung mit PDDL nicht direkt abgebildet werden, da sie nicht an einen Zustand des Sys-

tems oder der Umwelt gebunden ist, sondern von einem kontinuierlichen Verlauf abhängt.

Der Komfort lässt sich natürlich in einem Streckenabschnitt in einer Zielgröße fassen. So be-

schreibt [VT08] den Komfort während einer RailCab-Reise mithilfe der Summe über die In-

tegrale der Aufbaubeschleunigung

in den drei Hauptbewegungsachsen:

Diese Zielgröße lässt sich jedoch erst ermitteln, nachdem ein kontinuierlicher Verlauf der

Aufbaubewegung über den Streckenabschnitt bestimmt wurde. Zusätzlich kann der konti-

nuierliche Verlauf ebenfalls im Voraus bestimmt werden (gute Streckeninformationen vor-

ausgesetzt). Diese Informationen sind in sinnvoller Art in die diskrete Planung zu integrieren.

In den folgenden Teilkapiteln werden bestehende Ansätze zur diskret-kontinuierlichen Pla-

nung auf ihre Eignung für den Einsatz im Rahmen einer Verhaltensplanung auf Basis der

PDDL analysiert. Anschließend wird beschrieben, wie ausgewählte Methoden in das PDDL-

Planungsproblem integriert werden können, wobei aus Gründen der Komplexität im Rahmen

der Planung die diskrete Darstellung des Verhaltens aus Unterkapitel 2.1.2 beibehalten wer-

den soll.

3.1 Stand der Technik zur diskret-kontinuierlichen Planung

In den folgenden Absätzen werden Modellierungs- und Planungsmethoden vorgestellt, die

sich mit der Darstellung und Vorabberechnung solcher Verläufe beschäftigen.

3.1.1 Modellierung kontinuierlicher Planungsaspekte

Um auch Zustandsübergänge in Rahmen der Planung bewerten zu können – sei es hinsichtlich

ihrer Qualität oder ihrer Gültigkeit – ist es erforderlich, den Verlauf dieser Aktion über eine

kontinuierliche Zeitachse zu beschreiben. Die folgenden Absätze stellen mehrere Ansätze für

eine solche Darstellung vor.

3.1.1.1 Darstellung kontinuierlicher Prozesse

Die mathematische Beschreibung des zeitlichen Verhaltens eines dynamischen Systems wird

in der Regel mithilfe eines Systems von Differenzialgleichungen angegeben [Möll92]. Das

Ziel der Beschreibung durch Differenzialgleichungen ist es, diese in einem Zeitintervall [t

]

auszuwerten und dadurch die Systemvariablen zu jedem Zeitpunkt t

∈ [t

] zu bestimmen

Tatsächlich handelt es sich um gefilterte Aufbaubeschleunigungen, da einige Frequenzbereiche vom Men-

schen als besonders unangenehm empfunden werden.

Wird dabei von bekannten Anfangsbedingungen ausgegangen, spricht man vom Anfangswertproblem.

( )

.))((

)(

∫∑

−

Aufbau

daW

ττ

30 Integration kontinuierlicher Prozesse in eine Verhaltensplanung auf Basis der PDDL

In der Regel bleibt die Beschreibung und Analyse dynamischen Systemverhaltens auf lineare

Differenzialgleichungssysteme beschränkt, die mathematisch leichter zu handhaben sind. In

der Praxis ist daher die Linearisierung um einen Arbeitspunkt sehr weit verbreitet [Rau03,

S.22].

Zur Beschreibung nicht-linearer dynamischer Systeme werden z. B. blockorientierte Modelle

genutzt. Sie stellen eine Kombination aus statischem nicht-linearem Funktionsanteil und dy-

namischen linearen Funktionsanteilen dar [Math02a, Math02b]. Da nicht alle nicht-linearen

dynamischen Systeme durch blockorientierte Modelle dargestellt werden können, sind oft

Differenzialgleichungen notwendig. Die allgemeine Gültigkeit solcher Modelle stellt jedoch

hohe Anforderungen an die Messbarkeit der einzelnen Modellparameter, um ein Rechnen mit

dem Modell zu ermöglichen [Rau03]. Da im Rahmen der Planung keinerlei Messung möglich

ist, sondern nicht exakt bestimmbare zukünftige Werte festgelegt werden, fällt der analytische

Ansatz zur Beschreibung des kontinuierlichen Systemsverhaltens aus, wenn nicht auf zuver-

lässige Vergangenheitsdaten zurückgegriffen werden kann.

Als Alternative für die exakte analytische Bestimmung eines technischen Prozesses kommen

approximative Verfahren in Frage, die aus einer Menge von Daten die den Prozess beschrei-

benden Funktionen näherungsweise bestimmen. Dieser Prozess wird als Identifikation be-

zeichnet [Möl93]. Zu den approximativen Verfahren gehören algebraische Darstellungen mit

Funktionsreihen, Verfahren auf Basis von Stützstellen (Interpolation und Approximation) und

konnektionistische Verfahren. Eine weitere Möglichkeit besteht in der Anwendung von neu-

ronalen Netzen [Rau03]. Aber auch neuronale Netze (wenn sie isoliert angewandt werden)

liefern exakte Werte zurück, die eine genaue Kenntnis des Prozessablaufs vorspiegeln, die

nicht gegeben ist.

Eine Alternative, die zur Beschreibung technischer Prozesse häufig eingesetzt wird, wenn

verrauschte oder nur grob zu bestimmende Parameter im Prozess enthalten sind, ist die Mo-

dellierung mit Hilfe von Fuzzy-Sets und Fuzzy-Logik. Die Theorie der Fuzzy-Sets (wörtlich:

fransige Mengen) spezifiziert, wie gut ein Objekt oder Element einer vagen Beschreibung

entspricht. Im Gegensatz zur konventionellen Mengentheorie, bei der ein Element einer Men-

ge entweder ganz oder gar nicht angehört, definiert die Theorie der Fuzzy-Sets eine Zugehö-

rigkeitsfunktion. Der Wert dieser Zugehörigkeitsfunktion ist auf das Intervall [0,1] beschränkt

[GCR03

]

. Ein Wert von 0 bedeutet, dass das Element nicht zu der Menge gehört und ein Wert

von 1, dass das Element ganz in der Menge liegt. Die formale Definition eines Fuzzy-Sets F

lautet:

• YZ*,[



*|*\,[



*]0,1^_,

wobei \ die Grundmenge bzw. das Universum mit den Elementen * und [



* eine totale

Abbildung [



:\I]0,1^ vom Universum in das abgeschlossene Intervall [0, 1] ist. [



*

wird auch Zugehörigkeitsfunktion (membership function) genannt. Fuzzy-Logik ist ein For-

malismus zum Schließen über logische Aussagen, die Zugehörigkeitsfunktionen von Fuzzy-

Sets beschreiben. Durch diesen Formalismus können Fuzzy-Sets in einer Vielzahl von Syste-

men wie z. B. Expertensystemen eingesetzt werden. Der Ablauf des Schließens in einem Fuz-

zy-Experten- oder -regelsystem ist grundsätzlich immer gleich [Lipp06]:

Fuzzifizierung der Eingangsgrößen

2. Inferenz und Regelkomposition

3. Defuzzifizierung der Ausgangsgrößen

Integration kontinuierlicher Prozesse in eine Verhaltensplanung auf Basis der PDDL 31

Der Schritt der Fuzzifizierung bezeichnet dabei die Auswertung der Zugehörigkeitsfunktionen

zu den einzelnen linguistischen Termen für einen gegebenen scharfen Wert. Im Rahmen der

Inferenz arbeitet das Fuzzy-Regelsystem auf einer Menge von gegebenen Wenn-Dann-

Regeln. Dabei werden im Wenn-Teil der Regel linguistische Terme miteinander verknüpft,

die über die Eingangsgrößen definiert sind. Im Dann-Teil werden den Ausgangsgrößen konk-

rete Ausprägungen der über sie definierten linguistischen Variablen zugeordnet. Ein Beispiel

für eine solche Regel ist: Wenn x positiv klein und y positiv klein ist, dann ist z positiv klein.

Die Anwendungen der Fuzzy-Logik in technischen Systemen sind vielfältig. Pfeiffer et. al.

nennen zum Beispiel [PJK+02a]:

• direkte Fuzzy-Regelung und Steuerung (DFC),

• Fuzzy-Logik zur Parameter-Steuerung oder Adaption,

• Klassifikation/Mustererkennung (KLAS),

• Diagnose (DIAG),

• datenbasierte Modellierung/Identifikation,

• fuzzy-basierte Prozessführung und Optimierung und

• Prädiktivregler mit Fuzzy-Prozessmodell (FPC).

Bei direkter Fuzzy-Regelung und Steuerung handelt es sich um solche Anwendungen, in de-

nen ein klassischer Regler durch einen Fuzzy-Regler ersetzt wird. Der Fuzzy-Regler ent-

spricht dabei einem Fuzzy-Expertensystem, das die Reglereingangsgrößen (Stör- und Führ-

größen) auf die Ausgangswerte abbildet [Kahl95]. Auch Kombinationen mit klassischen rege-

lungstechnischen Ansätzen existieren, wie eine Fuzzy-Störgrößen-Aufschaltung auf einen

konventionellen PI-Regler. Beispiele für solche Anwendungen finden sich in [Pfeif00],

[Gier98] und [TR95].

Die Parameter-Steuerung oder Adaption bezeichnet all diejenigen Anwendungen, bei denen

die Parameter eines konventionellen Reglers durch ein Fuzzy-Expertensystem angepasst wer-

den [SCN99].

Konventionelle Klassifikationsverfahren ordnen einzelne Individuen auf Basis eines Merk-

malsvektors genau einer Klasse zu. Die Fuzzy-Klassifizierung dagegen weicht die harten

Grenzen zwischen den Klassen auf und ordnet die Individuen etwa zu 80% einer und zu 20%

einer anderen Klasse zu (jeweils im Sinne einer Membership-Funktion). Basis ist wieder ein

Fuzzy-Regel-System [Kuhn00].

Im Wesentlichen entspricht das Anwendungsgebiet der Diagnose einer Klassifikationsaufga-

be, nämlich der Klassifikation einer gegebenen Situation als eine bestimmte Fehlersituation.

Fuzzy-Systeme zur Diagnose unterscheiden sich insofern grundsätzlich von Fuzzy-Reglern,

als das keine Defuzzifizierung notwendig ist. Eingang des Fuzzy-Systems sind beobachtete

Symptome oder Messwerte. Die Grundform der Regeln lautet: „Wenn <Symptom i> beobach-

tet, dann liegt <Fehler j> vor“ [FMB+98].

Die datenbasierte Modellierung (oder Identifikation) mit Fuzzy-Modellen stellt einen Ansatz

dar, durch induktives Lernen aus Beispielen Wissen über einen technischen Prozess zu ge-

winnen und zu modellieren. Der große Vorteil des Einsatzes von Fuzzy-Systemen gegenüber

neuronalen Netzen besteht darin, dass konventionelle neuronale Netze reine Blackbox-

Modelle darstellen, also keine Informationen über die inneren Wirkzusammenhänge des zu

erlernenden Prozesses eingehen. Dagegen lassen sich Fuzzy-Systeme auf linguistischer Ebene

interpretieren und sogar modifizieren [PJK+02b]. Zusätzlich besteht bei Fuzzy-Systemen eine

intuitive Möglichkeit, die Struktur des zu erlernenden Prozesses vorzugeben, sodass nur die

Parameter des Modells, also die Membership-Funktionen und die Regeln des Fuzzy-Systems,

erlernt werden müssen [Pfeif93].

32 Integration kontinuierlicher Prozesse in eine Verhaltensplanung auf Basis der PDDL

3.1.1.2 Planungssprachen mit kontinuierlichen Elementen

Auch im Rahmen von Planungssprachen in der Künstlichen Intelligenz wird das Problem

kontinuierlicher Aktionen behandelt. So führen Dearden et. al. [BDM+02] zwei unterschiedli-

che Darstellungsformen für kontinuierliche Aktionen ein, die sich vor allem hinsichtlich ihrer

Komplexität unterscheiden. Die weniger komplexe Darstellungsform, die vor allem zur Kons-

truktion von Plänen eingesetzt wird, behält die übliche Darstellung von Aktionen bei. Die

Aktionen erzeugen also bei gegebenen Vorbedingungen bestimmte Nachbedingungen. Es

wird lediglich unterstellt, dass jede Anwendung einer Aktion eine individuelle kontinuierliche

Dauer hat und dass die Ein- und Ausgangsvariablen ebenfalls kontinuierlich sind. Da diese

Repräsentation zwar für die Planung zweckmäßig ist (das Zustandsraumkalkül bleibt grund-

sätzlich unberührt), ist sie für Diagnosezwecke unzureichend. Daher wird für die Diagnose

eine genauere Repräsentation eingeführt [Dear05], die als Probabilistic Hybrid Automaton

(PHA) bezeichnet wird. Dieser betrachtet das zu diagnostizierende System als eine Menge

kontinuierlicher Variablen und eine Menge beobachtbarer Variablen. Das System befindet

sich zu jedem Zeitpunkt in einem bestimmten Modus. Jeder Modus besteht aus einer Menge

von zeitdiskreten Differenzialfunktionen, die die zeitliche Entwicklung der kontinuierlichen

Variablen beschreiben. Zwischen den einzelnen Modi existieren bestimmte Übergangswahr-

scheinlichkeiten. Dabei bleibt leider unklar, wie diese Differenzialfunktionen bestimmt wer-

den können und wie der Zusammenhang zu den konkreten Umfeldeinflüssen innerhalb eines

Planungsschritts hergestellt werden kann.

Beide Ansätze sind zur Lösung des hier beschriebenen Problems ungeeignet, da der einfache

Modellierungsansatz keinerlei Aussage über die kontinuierliche Natur einer Aktion ermög-

licht und der genauere Ansatz wiederum auf Differenzialgleichungen zurückgreift. Die Prob-

leme der direkten Anwendung dieses Ansatzes in der Planung wurden bereits in Abschnitt

3.1.1.1 dargelegt. Jedoch ist der Ansatz vielversprechend, das Problem der Integration konti-

nuierlicher Verläufe durch eine Zweiteilung in ein eigentliches Planungsmodell und ein Ana-

lysemodell zu bewältigen.

Seit der Version 2.1 unterstützt auch die PDDL numerische Variablen sowie dauerhafte und

kontinuierliche Aktionen [FL03]. Der Wertebereich der numerischen Variablen ist dabei die

Menge der reellen Zahlen und damit grundsätzlich zur Darstellung kontinuierlicher Variablen

geeignet. Bei der Darstellung von kontinuierlichen Aktionen wird zwischen dauerhaften und

kontinuierlichen Aktionen unterschieden. Die dauerhaften Aktionen ermöglichen es, den Vor-

und Nachbedingungen eine genauere zeitliche Spezifikation zu geben. So kann spezifiziert

werden, dass Vorbedingungen zu Beginn der Aktion, während der Ausführung oder am Ende

der Aktion erfüllt sein müssen (oder in beliebiger Kombination). Ebenso können Nachbedin-

gungen sofort oder am Ende einer Aktion eintreten. Eine noch genauere Darstellung ist mit

kontinuierlichen Aktionen möglich, die Effekte der Aktion in einzelnen Zeitschritten model-

lieren. Dies entspricht in etwa der Spezifikation der diskreten Differenzialgleichungen bei

Dearden. Grundsätzlich ist mit den Methoden der PDDL eine Abbildung zumindest quasi-

kontinuierlicher Aktionen möglich. Negativ sind aber die Auswirkungen auf die Planungs-

komplexität zu bewerten, da der Zustandsraum sprunghaft anwächst. Daher sind auch keine

Planer für die höchste Detaillierungsstufe der PDDL verfügbar (siehe auch den folgenden

Abschnitt).

3.1.2 Planungsverfahren mit quasi-kontinuierlichen Prozessen

Die meisten Planungsverfahren, die über eine quasi-kontinuierliche Repräsentation von Zeit

verfügen, bauen auf der Modellierung der PDDL 2.1 auf. Dabei beschränken sich die Lö-

sungsverfahren aktuell auf dauerhafte Aktionen, kontinuierliche Aktionen werden also nicht

unterstützt. Dies liegt hauptsächlich an der mit den kontinuierlichen Aktionen verbundenen

Vergrößerung des Zustandsraums.

Integration kontinuierlicher Prozesse in eine Verhaltensplanung auf Basis der PDDL 33

Unterstützen Planer dauerhafte Aktionen, handelt es sich in der Regel um eine Abbildung

einer konventionellen Planungstechnik auf das Problem mit dauerhaften Aktionen. Dazu wird

meist die verfahrensinterne Repräsentation des Plans um zusätzliche Elemente erweitert, die

in Typ und Art aber den bereits vorhandenen Elementen entsprechen. Dadurch wird die urs-

prüngliche Planungstechnik auf das neue Problem anwendbar.

So bildet der HTN-Planer SHOP2 [NAI+03] dauerhafte Aktionen intern durch Methoden ab.

Eine Methode ist eine Verkettung mehrerer primitiver Aktionen

, die in einer bestimmten

Ausführungsreihenfolge genutzt werden können, um einen komplexeren Task durchzuführen.

Der komplexe Task ist dabei wie eine Aktion eine Überführung von Vorbedingungen in

Nachbedingungen. Eine Methode, die eine dauerhafte Aktion abbildet, enthält drei Aktionen –

jeweils eine für den Start, die Dauer und das Ende der Aktion. Um die restriktive Forderung

der PDDL einzuhalten, dass Ressourcen produzierende Aktionen strikt vor Ressourcen kon-

sumierenden Aktionen beendet sind, werden zusätzlich sogenannte Space Pseudo-Aktionen

eingeführt, die dies sicherstellen.

Auch der Planer LPG (Local Search for Planning Graphs) unterstützt dauerhafte Aktionen.

Intern verwendet der Planer Plangraphen zur Darstellung des Planungsproblems [GSS03].

Auch hier wird eine neue Art von Operationen eingeführt, no-ops, die die unmittelbaren Ef-

fekte am Start einer Aktion auslösen und die Einhaltung von Vorbedingungen während der

Ausführung sicherstellen. Die no-ops werden beim Einplanen einer dauerhaften Aktion so in

den Plangraph integriert, dass die Effekte und Vorbedingungen auf den entsprechenden Ebe-

nen des Plangraphs auftauchen. Zusätzlich wurden für Plangraphen notwendigen Ordering

Constraints erweitert, da durch die Einführung von dauerhaften Aktionen echte Nebenläufig-

keit im Plan auftreten kann. Eine Beurteilung der kontinuierlichen Qualität einer Verhaltens-

weise ist auf Basis der dauerhaften Aktionen aber nicht möglich.

3.1.3 Optimale Steuerung und kontinuierliche Mehrzieloptimierung

Das Forschungsgebiet der Optimalen Steuerung ist das Problem, eine eine Steuerung zu fin-

den, die die Dynamik eines Systems über einem Zeitintervall so beeinflusst,

dass ein vorge-

gebenes Zielfunktional optimiert wird. Diese Probleme umfasst eine Menge von Differenzial-

gleichungen, die die zeitliche Veränderung der Steuerparameter beschreibt, sodass eine Kos-

tenfunktion minimiert wird [Kirk70]. Dabei bezieht sich die Kostenfunktion einerseits auf die

Zustandsvariablen des Systems und andererseits auf die Steuerparameter.

Für einige Fälle kann das Problem, eine optimale Regelung zu finden, als kontinuierliches

Mehrzieloptimierungsproblem aufgefasst werden. Im Gegensatz zur klassischen Optimierung

betrachtet die Mehrzieloptimierung nicht eine einzige Zielfunktion (die u.U. mehrere Zielgrö-

ßen umfasst), sondern mehrere Ziele gleichzeitig. Daraus ergibt sich, dass nicht in jedem Fall

eine eindeutige optimale Lösung bestimmt werden kann. Ergebnis der Mehrzieloptimierung

ist also eine Menge von Lösungen, die die effizienten Kompromisse zwischen den Zielen dar-

stellen. Diese Menge wird als Pareto-Menge bezeichnet. Ein Punkt in der Pareto-Menge (eine

gültige Lösung) zeichnet sich dadurch aus, dass er nicht durch eine andere Lösung dominiert

wird. Eine Lösung l

wird dann von einer Lösung l

dominiert, wenn l

hinsichtlich jeden

Zielkriteriums mindestens genauso gut ist wie l

und in mindestens einem Zielkriterium besser

als l

Im Fall der Mehrzieloptimierung ist das Ergebnis nicht eine einzige Trajektorie von Parame-

tern, sondern eine Menge von Trajektorien. Eine Beispielanwendung auf das Problem, eine

optimale Vorgabebahn für die Spurführung eines Schienenfahrzeugs zu ermitteln, findet sich

in [GTK+08].

Eine primitive Aktion kann nicht mehr in weitere Aktionen aufgespalten werden und ist direkt anwendbar.

34 Integration kontinuierlicher Prozesse in eine Verhaltensplanung auf Basis der PDDL

Problematisch an der Optimale Steuerung sind die Anforderungen, die an die Genauigkeit der

Modelle gestellt werden. Diese können im Rahmen der Planung, die ja auf zukünftigen und

daher ungenauen Werten operiert, nicht gesichert werden. Jedoch zeigt das Beispiel der Vor-

gabebahn-Bestimmung für die Spurführung eines Schienenfahrzeugs, dass die Ergebnisse

zumindest einen Anhaltspunkt für den kontinuierlichen Verlauf einer Aktion liefern können,

wenn Modell und realer Prozess nur hinreichend ähnlich sind. Dies eröffnet die Möglichkeit,

derartige mathematische Problemformulierungen im Rahmen der Verhaltensplanung zu ver-

wenden.

3.1.4 Fazit zum Stand der Technik in diskret-kontinuierlicher Planung

Der Umgang mit kontinuierlichen Aktionen in der Planung ist nach wie vor ein nicht zufrie-

denstellend gelöstes Problem. Die neueren Ansätze, wie die Modellierung von Dearden oder

der PDDL 2.1 ermöglichen es zwar grundsätzlich, Pläne so zu gestalten, dass Randbedingun-

gen für die gesamte Ausführungsdauer einer Aktion erfüllt sind. Sie verwerfen dabei jedoch

eine Vielzahl möglicher Lösungen. Weiterhin steigt die Komplexität der Planung durch einen

vergrößerten Zustandsraum erheblich an. Für die feinste Modellierungsstufe der PDDL konti-

nuierlicher Aktionen sind sogar gar keine Planungsansätze bekannt. Die Modellierung geht

außerdem von unrealistisch genauen Informationen über die kontinuierlichen Zustandsgrößen

im Rahmen der Planung aus (da letztlich sowohl bei Dearden als auch in der PDDL 2.1 disk-

rete Differenzialgleichungssysteme zur Modellierung des kontinuierlichen Verlaufs genutzt

werden). Eine Beurteilung der Qualität einer kontinuierlichen Aktion, die wesentlich über die

Überprüfung der Durchführbarkeit hinausgeht, ist gar nicht möglich.

Hier können Fuzzy-Ansätze einen Ausweg aufzeigen, da sie in der Lage sind, mit unpräzisen

Informationen umzugehen, wie sie im Rahmen einer Planung ermittelt werden. Zusätzlich

ermöglichen die beschriebenen Ansätze zur Identifikation eine experimentelle Ermittlung

eines Prozessmodells, was mit den analytischen Modellierungsmethoden der bisherigen Pla-

nungssprachen nicht möglich ist. Schließlich zeigt der Einsatz von Fuzzy-Systemen im Be-

reich der Regelung auch, dass Fuzzy-Systeme auch in schnellen Echtzeitsystemen eingesetzt

werden können, sodass eine Auswertung der kontinuierlichen Qualität der Aktionen eines

Plans mit geringem zeitlichem Aufwand verbunden ist.

Auf der anderen Seite steht mit der Optimalen Steuerung ein Verfahren zur Verfügung, um

mit entsprechenden Informationen die Trajektorie einer kontinuierlichen Aktion (oder die

Parameter eines Reglers, der die Trajektorie regelt) im Voraus so festzulegen, dass sie optimal

bei einer gegebenen Zielfunktion ist. Insbesondere die Verfahren zur Optimalen Steuerung

eignen sich mit ihren Laufzeiten aber nicht, um während des Betriebs des Systems bestimmt

zu werden.

Damit lassen sich zwei Lösungsansätze zur Integration kontinuierlicher Prozesse in das

PDDL-Planungsproblem identifizieren: eine vorgelagerten Optimierung oder eine Fuzzy-

Approximation des Verhaltens. Beide Ansätze besitzen sehr unterschiedliche Eigenschaften

und Anforderungen, sodass sie für unterschiedliche Anwendungsgebiete geeignet sind. Opti-

male Steuerung ermöglicht es zwar, einen kontinuierlichen Verlauf zu bestimmen, der optimal

hinsichtlich einer bestimmten Kostenfunktion ist, stellt aber sehr hohe Anforderungen an die

Modellierungsgenauigkeit. Die Fuzzy-Approximation bietet auf der anderen Seite zwar eine

gute Möglichkeit, um mit ungenauen und unscharfen Informationen umzugehen, jedoch ist

eine Optimierung des kontinuierlichen Verlaufs nicht ohne Weiteres möglich. Die folgenden

Absätze beschreiben eine Modellierung der kontinuierlichen Verläufe auf Basis der Optima-

len Steuerung bzw. kontinuierlicher Mehrzieloptimierung einerseits und auf Basis von Fuzzy-

Approximation andererseits.

Integration kontinuierlicher Prozesse in eine Verhaltensplanung auf Basis der PDDL 35

3.2 Integration kontinuierlicher Verläufe in die Planung

Die nächsten beiden Unterkapitel beschreiben zwei alternative Vorgehensweisen zur Integra-

tion kontinuierlicher Verläufe in die diskrete Planung. Die erste Alternative geht von einer

vorgelagerten Modellierung mithilfe der Optimalen Steuerung oder Mehrzieloptimierung aus.

Für andere Anwendungsfälle ist die Darstellung kontinuierlicher Verläufe mithilfe von Fuzzy-

Approximation besser geeignet, insbesondere wenn die Optimierungsergebnisse sehr stark

von kleinen Veränderungen der Umwelteinflüsse abhängen.

3.2.1 Modellierung kontinuierlicher Verläufe mithilfe vorgelagerter Opti-

mierung

Die Methoden der Optimalen Steuerung und der kontinuierlichen Mehrzieloptimierung bieten

die Möglichkeit, bei bekannten Umwelteinflüssen einen kontinuierlichen Verlauf von Para-

metern bzw. eine Trajektorie im Voraus zu bestimmen. Offensichtlich ist es nicht möglich

oder sinnvoll, im Voraus für alle denkbaren Umwelteinflüsse (eine möglicherweise unendli-

che Menge) die optimale Trajektorie zu berechnen und als Teilfunktionslösungen im Pla-

nungsproblem aufzunehmen.

Ein möglicher Ansatz besteht darin, die optimalen kontinuierlichen Verläufe nur für einige

Kombinationen von Umwelteinflüssen zu bestimmen. Wendet man die optimalen kontinuier-

lichen Verläufe in Situationen an, die ähnliche Eigenschaften haben, ist zu erwarten, dass

auch ähnliche Ergebnisse erzielt werden.

Abbildung 3-1: Modellierung kontinuierlicher Verläufe mit vorgelagerter Optimierung

Abbildung 3-1 veranschaulicht das in den folgenden Absätzen beschriebene Vorgehen. Aus-

gangsdaten der Integration kontinuierlicher Verläufe sind die Auswahl einer Menge sinnvoller

Zielsetzungen (Kostenfunktionen im vorgelagerten Optimierungsproblem) und einer Menge

charakteristischer Umfeldsituationen. Die sinnvollen Zielsetzungen stellen bei Integration in

das Planungsmodell die betrachteten Teilfunktionslösungen dar. Die charakteristischen Um-

feldsituationen bilden die möglichen Vorbedingungen, die an die Ausführung der Teilfunkti-

onslösung geknüpft werden. Durch Lösung des entsprechenden Optimierungsproblems wer-

den die Eigenschaften der Teilfunktionslösung hinsichtlich ihrer Qualität bestimmt, außerdem

ergeben sich die Nachbedingungen (der vollständige technische Prozessablauf ist ja in Form

Betriebszeit Entwurfszeit

36 Integration kontinuierlicher Prozesse in eine Verhaltensplanung auf Basis der PDDL

von Differenzialgleichungen beschrieben, damit lässt sich der Systemzustand am Ende ein-

fach „ablesen“).

Indem eine konkrete Umfeldsituation der charakteristischen Umfeldsituation zugeordnet wird,

die ihr am besten entspricht, werden zu jeder möglichen Teilfunktionslösung (also zu jeder

sinnvollen Zielkombination) die entsprechenden Nachbedingungen ermittelt. Diese können

dann in der Planung genutzt werden, um den Zustandsraum aufzubauen.

3.2.1.1 Klassifizierung von Umwelteinflüssen

Während die Bestimmung der sinnvollen Zielsetzung und der charakteristischen Umfeldsitua-

tion der eigentlichen Planung vorgelagert ist und damit grundsätzlich im Entwurf des Systems

gelöst werden kann, muss die Klassifizierung der konkreten Umfeldsituationen zur Betriebs-

zeit, also durch das System selbst, erfolgen. Um die Zuordnung durchzuführen, bietet sich die

Anwendung eines Klassifikators an. Im maschinellen Lernen wird als Klassifizierung die

Aufgabe verstanden, Datensätze mit ähnlichen Eigenschaften in Klassen einzuordnen. Es bie-

tet sich an, die charakteristischen Umfeldsituationen als Klassen aufzufassen. Die Aufgabe

eines beliebigen Klassifikators ist es damit, einer gegebenen konkreten Umweltsituation die

ihr am besten entsprechende charakteristische Umweltsituation zuzuordnen.

Die meisten Klassifikatoren benötigen dafür die Definition eines Distanzmaßes und eine

Menge von Trainingsdaten, also eine Menge erfolgreicher und richtiger Klassifikationen

[Mit97]. Ein Distanzmaß ist eine Funktion `:#$a

, die die folgenden Eigenschaften

erfüllt:

• c',d,'ed:`',df0 ,

• c':`','0 und

• c',d:`',d`d,'.

Allgemein kann festgehalten werden, dass zur Beschreibung der Umweltsituationen ein Vek-

tor v zu definieren ist, der die relevanten Umgebungseigenschaften für die Anwendung der

Teilfunktionslösung widerspiegelt. Durch Bestimmung einer Abstandsfunktion zwischen den

einzelnen Elementen des Vektors und der Gewichtung der Elemente untereinander kann ein

Distanzmaß definiert werden.

Ist dies geschehen, kann ein entsprechender Klassifikator zur Abbildung genutzt werden. Ein

Beispiel wäre ein Naive Bayes Classifier [Mitc97] oder Fuzzy-Klassifikator. Da die Eignung

eines Klassifikators für ein Problem sehr stark von der Probleminstanz (in diesem Fall, den

konkreten Umweltsituationen) und dem gewählten Distanzmaß abhängt, kann keine allgemei-

ne Empfehlung getroffen werden. Es muss für das jeweilige zu beplanende System die beste

Konfiguration gewählt werden.

3.2.1.2 Einbindung in die diskreten Planungsverfahren

Die Einbindung der Modellierung kontinuierlicher Verläufe mittels vorgelagerter Optimie-

rung ist vergleichsweise einfach. Da die Formulierung von Systemzielen genutzt wurde, um

Teilfunktionslösungen als Lösungen eines Optimierungsproblems unter wechselnden Um-

weltbedingungen (also eigentlich einer Menge von Optimierungsproblemen) darzustellen,

kann jeder Teilfunktionslösung abhängig von der Umweltsituation auch ein kontinuierlicher

Verlauf zugeordnet werden. Gleichzeitig sind durch die Lösung des Optimierungsproblems

die gewünschten Qualitätsmerkmale des kontinuierlichen Prozesses bestimmt.

Integration kontinuierlicher Prozesse in eine Verhaltensplanung auf Basis der PDDL 37

3.2.2 Modellierung kontinuierlicher Verläufe mittels Fuzzy-

Approximation

Abbildung 3-2 zeigt das grundsätzliche Schema der Modellierung kontinuierlicher Verläufe

mittels Fuzzy-Approximation. Ausgang der Modellierung sind hierbei mögliche technische

Realisierungen. Dies können beispielsweise unterschiedliche Reglervarianten (z. B. prädiktive

Regelung oder nicht) oder unterschiedliche Betriebsstrategien sein. Die zweite Eingangsgröße

stellt ein Umfeldmodell dar, das dem der diskreten Planung entsprechen sollte. Beide Ein-

gangsmengen sind in geeigneter Art zu fuzzifizieren und es ist ein Fuzzy-Regelsystem aufzu-

stellen, das beschreibt, welche kontinuierlichen Eigenschaften und Nachbedingungen sich

ergeben, wenn eine bestimmte technische Realisierung unter bestimmten Umgebungsbedin-

gungen ausgeführt wird.

Bei diesem Vorgehen würden also beispielsweise bestimmte Dämpfereinstellungen und Akto-

raktivitäten der aktiven Federung als Teilfunktionslösung betrachtet und bzgl. variierender

Umwelteinflüsse hinsichtlich des Komforts beurteilt.

Abbildung 3-2: Modellierung kontinuierlicher Verläufe mittels Fuzzy-Approximation

Der Bezug zum konkreten Planungsproblem wird wie bereits in Unterkapitel 3.2.1 durch eine

konkrete Umweltsituation bestimmt, die im Rahmen eines diskreten Planungsprozesses als

Zustand in einem Plan bestimmt wird. Um die Verbindung zurück zu diesen Planungsverfah-

ren zu bilden, müssen die Fuzzy-Ausgänge der Fuzzy-Regelbasis wieder auf scharfe Werte

abgebildet (defuzzifiziert) werden.

3.2.2.1 Fuzzifizierung der relevanten Planungsparameter

Zur Darstellung der Planungsvariablen als Fuzzy-Variablen wird eine ergänzende Modellie-

rung zur PDDL erstellt. Dabei ist eine Fuzzy-Darstellung nur für numerische Variablen sinn-

voll. Logische Zustandsvariablen werden als Singletons

behandelt, da sie nur genau einen

der Werte Wahr oder Falsch haben können.

Für jede numerische Funktion der Planungsdomäne ist damit zunächst eine Menge linguisti-

scher Terme aufzustellen, die den gesamten Wertebereich der Funktion abdecken. Dabei ist

wiederum der Wertebereich im Rahmen der ergänzenden Modellierung genauer zu modellie-

ren, als das in der PDDL der Fall ist. Als letzten Teil der ergänzenden Domänen sind die den

linguistischen Termen entsprechenden Fuzzymengen (also die Zugehörigkeitsfunktionen) zu

definieren. Listing 3-1 zeigt die Bestandteile der Ergänzungen der PDDL-Domänendefinition.

Singletons sind Zustandsfunktionen, deren Zugehörigkeitsfunktion nur an einer Stelle 1 und sonst immer 0 ist.

38 Integration kontinuierlicher Prozesse in eine Verhaltensplanung auf Basis der PDDL

Mit der Ergänzung der Domänendefinition um eine Darstellung der Planungsparameter in

Form linguistischer Terme ist die Grundlage zur Anwendung eines Fuzzy-Expertensystems

zur Bewertung der kontinuierlichen Aspekte einer Aktion gelegt. Die Menge der Fuzzy-

Functions, die aus der Definition der Planungsdomäne abgeleitet wurden, wird im Weiteren

als PV (Planvariablen) bezeichnet.

(:fuzzyFunctions

(function

(:Universe U

)

(:linguisticTerms

(term

1,1

[

8,8

I]0,1^

...

(term

1,m

[

8,6

I]0,1^

)

...

(function

(:Universe U

)

(:linguisticTerms

(term

n,1

[

R,8

I]0,1^)

...

(term

n,m

[

R,6

I]0,1^

)

Listing 3-1: Fuzzy Definition der numerischen Variablen

3.2.2.2 Fuzzifizierung der Umgebungsvariablen

Die relevanten Eigenschaften der Umgebung sind in das Fuzzy-Domänenmodell aufzuneh-

men, soweit dies nicht bereits mit der Fuzzy-Definition der numerischen Variablen geschehen

ist. Die Notation entspricht dabei vollständig Listing 3-1. Die Menge der lokalen (also umge-

bungsspezifischen) Fuzzy-Variablen wird in Anlehnung an die fuzzifizierten numerischen

Planvariablen als Umgebungsvariablen (UV) bezeichnet.

Es besteht hier die Möglichkeit, aktuelle Informationen aus Umgebungssystemen abzufragen.

Dabei bietet sich eine Einbindung des planenden Systems in ein Multiagenten-System an, in

dem Expertenagenten Fuzzy-Informationen über die aktuelle Ausführungsumgebung bereits-

tellen. Dabei können den Expertensystemen Informationen aus der diskreten Planung in Form

der fuzzifizierten Planinformationen bereitgestellt werden. Die interne Struktur der Informati-

onsverarbeitung innerhalb des Fuzzy-Expertensystems ist für die Planung bedeutungslos. Je-

doch bieten sich insbesondere die in Abschnitt 3.1.1.1 erwähnten Verfahren zur Fuzzy-

Identifikation kontinuierlicher Prozesse an, um das Expertenwissen zu akquirieren und aktuell

zu halten.

Das Planungssystem kann mit jedem Expertensystem arbeiten, dessen erforderliche Eingabe-

daten sich auf die Planungsvariablen der diskreten Planung (PV) beschränken und das eine

der als entscheidungsrelevant definierten Umgebungsvariablen (UV) zurückliefert.

3.2.2.3 Bewertung der kontinuierlichen Qualität einer Aktion

Für jedes mögliche kontinuierliche Qualitätsziel (z. B. Komfort) wird für jede Teilfunktions-

lösung ein eigenes Fuzzy-Expertensystem (FES) eingeführt. Das FES soll aus der Menge der

Planungs- und Umgebungsvariablen auf das kontinuierliche Ziel der Aktivität abgebildet

werden. Dazu ist für jedes Ziel, das kontinuierlich über den Verlauf einer Aktion erfasst wird,

Integration kontinuierlicher Prozesse in eine Verhaltensplanung auf Basis der PDDL 39

eine linguistische Variable zu definieren. Auch hier kann wieder die Notation aus Listing 3-1

genutzt werden.

Jedes Fuzzy-Expertensystem stellt eine Abbildung der Form 2  g dar. Obwohl sich FES

grundsätzlich eignen, jede beliebige Funktion abzubilden, kann die Definition der notwendi-

gen Fuzzy-Regeln durch eine Aufteilung auf mehrere Fuzzy-Systeme erheblich erleichtert

werden. Zunächst ist es zweckmäßig, die Teilfunktionslösungen des technischen Systems

einzeln zu modellieren. Dadurch kann die Menge der betrachteten Plan- und Umfeldvariablen

beschränkt werden auf diejenigen, die tatsächlich auf die jeweilige Teilfunktionslösung wir-

ken. Eine weitere solche Unterteilung kann dadurch erfolgen, dass für jedes der n Ziele ein

separates FES aufgestellt wird. Hier gilt wiederum, dass das Aufstellen der Regeln erheblich

erleichtert wird und nur solche Ziele in die Inferenz einbezogen werden, die tatsächlich rele-

vant sind. Die Relevanz kann sich dabei aus der aktuellen Gewichtung ergeben (einzelne Zie-

le haben eine Gewichtung von 0) oder daraus, dass eine Aktivität nicht auf ein bestimmtes

Ziel wirkt.

Bei der Definition eines FES für die Bestimmung der Wirkung einer Aktivität hinsichtlich

eines bestimmten Ziels sind zunächst die relevanten Eingangsgrößen zu bestimmen. Diese

sind eine Teilmenge der Vereinigung aus "hi\h. Aufgrund der Zerteilung der Analyse auf

mehrere FES besitzt jedes Expertensystem nur eine einzige Ausgabevariable: Der Grad, mit

dem das entsprechende Ziel erreicht wird. Die Definition der Fuzzy-Regeln muss natürlich

immer auf Basis des konkreten Anwendungsfalls erfolgen. Die Regeln haben grundsätzlich

die folgende Form:

' "h

'G E3"h

8,J

(`… "h

'G E3"h

R,j

(`

'G E3\h

8,k

(`…\h

'G E3\h

6,?

,l( 2 'G 

Der if-Teil der Regel zerfällt in zwei Bestandteile: Zunächst werden die fuzzyfizierten Plan-

variablen referenziert, im zweiten Teil die Umgebungsvariablen. Der Ausgabeteil enthält nur

die linguistische Ausgabevariable. Durch Defuzzifizierung wird am Ende eine reelle Zahl aus

dem Wertebereich des jeweiligen Ziels bestimmt.

3.2.2.4 Einbindung in die diskreten Planungsverfahren

Zur Einbindung der Fuzzy-Approximation bieten sich zwei unterschiedliche Möglichkeiten.

Zunächst kann die Fuzzy-Approximation direkt im diskreten Planungsprozess eingesetzt wer-

den, um die kontinuierlichen Eigenschaften einer Aktivität direkt in die Plankonstruktion ein-

zubeziehen. Dies ändert im Wesentlichen nichts am Ablauf der Planung, lediglich die Schritte

der Fuzzifizierung und Defuzzifizierung sind in jedem Planungsschritt durchzuführen. Da

dieses Vorgehen eine enge technische Verkopplung des Fuzzy-Systems und der Planung vor-

sieht, kommt dieser Ansatz nicht in Betracht, wenn Standardplanungskomponenten eingesetzt

werden sollen.

Ein alternativer Ansatz wäre (ähnlich wie bei [Dear05], siehe Abschnitt 3.1.1.2) ein Analyse-

prozess, der sich an die eigentliche Planung anschließt. Dies bietet sich insbesondere dann an,

wenn in der Analyse aktuellere Informationen über die Ausführungsumgebung einer Aktion

vorliegen als zur Planungszeit.

Insgesamt ergibt sich der in Abbildung 3-3 dargestellte Ablauf. Ergebnis der diskreten Pla-

nung ist eine Menge zeitlich vollständig geordneter Aktivitäten. Diese Aktivitäten werden

unter Berücksichtigung zusätzlicher unscharfer Umgebungsinformation hinsichtlich ihrer kon-

40 Integration kontinuierlicher Prozesse in eine Verhaltensplanung auf Basis der PDDL

tinuierlichen Eigenschaften beurteilt. Anhand dieser „Fuzzy-Bewertung“ werden die Aktivitä-

ten aus dem Plan gewählt, die hinsichtlich ihrer kontinuierlichen Eigenschaften nicht akzepta-

bel sind. Sie werden in einer Tabu-Liste zusammengefasst, die alle Aktivitäten enthält, die im

weiteren Planungsprozess nicht eingesetzt werden dürfen. Diese Aktionen werden mittels

einer Anpassungsplanung aus dem Plan entfernt. Dazu wird ein Planungsproblem generiert,

das sich an den Schritten vor und nach der betreffenden Aktivität orientiert und die entspre-

chende Aktivität tabu setzt.

Abbildung 3-3: Integrationsszenario für Fuzzy-Approximation

In einer ersten Iteration kann beispielsweise ein Plan konstruiert werden, der direkt vom Aus-

gangszustand der Aktivität in den Endzustand der Aktivität führt. Gelingt dies nicht, so ist das

Anpassungsplanungsproblem schrittweise auf weitere Vorgänger und Nachfolger im Plan zu

erweitern. Der Endzustand im Plan und der Ausgangszustand des Plans stellen dabei Termi-

nierungspunkte für das Verfahren dar.

Schlägt die Konstruktion eines Anpassungsplans völlig fehl, können einzelne Aktivitäten aus

der Tabu-Liste entfernt werden, um das Anpassungsplanungsproblem zu vereinfachen. Da-

durch kann ggf. doch noch ein gültiger Plan gefunden werden, der besser als der Ausgangs-

plan ist.

3.2.3 Fazit zur Integration kontinuierlicher Prozesse

In diesem Kapitel wurden zwei alternative Möglichkeiten zur Integration kontinuierlicher

Verläufe in PDDL-Planungsprobleme vorgeschlagen. Die Modellierung kontinuierlicher Ver-

läufe mithilfe vorgelagerter Optimierung ermöglicht es, kontinuierliche Parameter und Pro-

zesse direkt mit konventionellen PDDL-Methoden zu verknüpfen. Daher verursacht diese

Methode vor allem zusätzlichen Aufwand in der Modellierung des Planungsproblems, wäh-

rend in der eigentlichen Planung nur ein geringer Mehraufwand durch die Klassifizierung der

Umweltzustände entsteht. Dafür stellt das Vorgehen aber auch hohe Anforderungen an die

Vorhersagbarkeit des System- und Umfeldverhaltens.

Die Modellierung mithilfe von Fuzzy-Approximation verursacht deutlich mehr Aufwand in

der eigentlichen Planung. Dafür ist die Methode auch für solche Situationen geeignet, in de-

nen das System- und das Umfeldverhalten nur in groben Zügen vorhersagbar sind. In diesem

Sinne ergänzen sich die beiden Methoden und bieten sich für unterschiedliche Anwendungs-

szenarien an.

Integration kontinuierlicher Prozesse in eine Verhaltensplanung auf Basis der PDDL 41

Beiden Methoden ist gemeinsam, dass im eigentlichen Planungsprozess PDDL-Modelle mit

normalen Aktionen verwendet werden können. Weder dauerhafte noch kontinuierliche Aktio-

nen müssen verwendet werden. Dadurch steht zunächst ein breiteres Spektrum an Planungsal-

gorithmen zur Verfügung. Andererseits kann auch in den Problemfeldern Planung unter Un-

sicherheit und Interaktionsplanung die Betrachtung auf normale PDDL-Aktionen beschränkt

bleiben.

Da beide Alternativen davon ausgehen, dass die kontinuierliche Modellierung der Prozesse

dem Planungsprozess vorgelagert ist, wird die Abweichung des tatsächlichen Ausführungs-

verlaufs vom geplanten Verlauf die Regel sein. Das muss sich in dem im folgenden Kapitel

erarbeiteten Konzept zur Behandlung von Unsicherheit in der Verhaltensplanung für mechat-

ronische Systeme niederschlagen. Das Verfahren muss in der Lage sein, wesentliche und un-

wesentliche Abweichungen voneinander zu unterscheiden. Trotzdem sollte frühzeitig auf re-

levante Abweichungen reagiert werden, um Fehlersituationen zu vermeiden.

Planung unter Unsicherheit 43

4 Planung unter Unsicherheit

Ein Beispiel für die in der Verhaltensplanung auftretende Unsicherheit liefert das Energiema-

nagement des RailCabs. Die Planungsaufgabe im Energiemanagement besteht darin zu ent-

scheiden, welche Teilfunktionslösungen (mit resultierendem Leistungsbedarf oder -

überschuss) auf welchem Streckenabschnitt gewählt werden können und auf welchen Stre-

ckenabschnitten der Energiespeicher geladen oder entladen wird.

Die alternativen Teilfunktionslösungen ergeben sich dabei aus den Fähigkeiten der einzelnen

Teilmodule. So können beispielsweise, wie in Unterkapitel 2.1.3 beschrieben, die Federungs-

arten Passiv, Aktiv und Störgrößenkompensation unterschieden werden. Die Teilfunktionslö-

sungen unterscheiden sich dabei hinsichtlich einer Gütefunktion (Komfort) und ihres Leis-

tungsbedarfs. Tendenziell geht eine hohe Güte mit einem erhöhten Leistungsbedarf einher.

Das Verhältnis von erreichter Güte zu Leistungsbedarf hängt erheblich von Streckeneigen-

schaften ab. Hier liegt das Potenzial der Planung: Leistung auf den Streckenabschnitten ein-

sparen, auf denen mit hohem Leistungsbedarf nur ein geringer Gütegewinn einhergeht, um

auf anderen Streckenabschnitten die gespeicherte Leistung effizienter einzusetzen. Weiterhin

hilft die Planung, die für den Betrieb notwendige Mindestleistung sicherzustellen.

Der Leistungsbedarf der Module und die aus dem Antrieb übertragbare Leistung hängen von

einer Vielzahl von Umwelteinflüssen ab, die im Voraus nicht mit absoluter Sicherheit bekannt

sind. Beispiele für Umwelteinflüsse auf den Antrieb und damit auf die maximal ins Bordnetz

übertragbare Leistung sind zum Beispiel Gegenwind und vor allem defekte Statoren. Der

Leistungsbedarf der aktiven Federungen hängt neben den Streckeneigenschaften (die als ver-

lässlich bekannt betrachtet werden können) vor allem von Witterungseinflüssen ab. So erzeu-

gen Böen unvorhergesehene Anregungen, die ausgeglichen werden müssen. Niederschläge

und damit einhergehende rutschige Schienen führen zu erhöhter Wahrscheinlichkeit von

Spurkranzanläufen, die ebenfalls abgefedert werden müssen.

Insgesamt ist damit ein deterministisches Modell des Leistungsangebots und des Leistungsbe-

darfs nicht realistisch. Im Sinne der in Unterkapitel 2.3 beschriebenen Zielsetzung soll der

Plan so erstellt werden, dass für besonders wahrscheinliche alternative Zustände eine Ver-

zweigung im Plan vorgesehen wird.

Die nun folgenden Abschnitte betrachten unterschiedliche Ansätze zur Modellierung und Pla-

nung derartiger unsicherer Probleme. Auf Basis der gewonnenen Erkenntnisse wird dann ein

Planungsverfahren konzipiert, das die in Unterkapitel 2.3 formulierten Anforderungen erfüllt.

4.1 Stand der Technik zur Behandlung von Unsicherheit

Im Rahmen dieses Kapitels werden unterschiedliche Ansätze verglichen, die zur Erfüllung der

in Kapitel 2.3 beschriebenen Zielsetzung in Betracht kommen. Dabei wird zunächst auf die

unterschiedlichen Möglichkeiten zur Modellierung von Unsicherheit in Planungsproblemen

eingegangen. Die Modellierung wird dabei auf zwei Ebenen betrachtet: Zunächst werden all-

gemeine Beschreibungsformen zur Beurteilung unsicherer Situationen betrachtet. Auf der

zweiten Ebene werden Beschreibungsformen für Pläne und Planungsprobleme untersucht, die

eingesetzt werden können, wenn nur unvollständige Informationen über das Umfeld vorliegen

und die Wirkung von Handlungen und Aktivitäten nicht eindeutig vorhersagbar ist. Anschlie-

ßend werden Methoden vorgestellt, die unter diesen Bedingungen Pläne konstruieren können.

44 Planung unter Unsicherheit

4.1.1 Modellierung von Unsicherheit

In diesem Kapitel werden unterschiedliche Glaubensmaße betrachtet, um ihre Eignung als

Maß zur Beurteilung der Eintrittsmöglichkeit alternativer Situationen während der Planaus-

führung zu bestimmen. Ein Glaubensmaß beschreibt dabei das Zutrauen in die Wahrheit einer

getroffenen Aussage. Die Grundlagen der betrachteten Glaubensmaße sind im Einzelnen die

Wahrscheinlichkeitstheorie und die Dempster-Shafer-Theorie. Die ebenfalls häufig als Glau-

bensmaß beschriebene Fuzzy-Theorie beschreibt eher eine Art von Wissen, das zwar unge-

nau, aber doch sicher ist.

4.1.1.1 Wahrscheinlichkeiten

Das grundlegende Element der Wahrscheinlichkeitstheorie ist die Zufallsvariable. Dies ist

eine Variable, die unterschiedliche, sich ausschließende Werte annehmen kann. Sie ist Teil

einer Beschreibung einer Umwelt und ihr Wert ist zunächst unbekannt.

Durch die Zuweisung eines konkreten Wertes zur Zufallsvariablen erhält man eine Aussage.

Einer solchen Aussage können mithilfe der Wahrscheinlichkeitstheorie Glaubensgrade zu-

geordnet werden. Ein Elementarereignis erhält man durch Zuweisung eines konkreten Werts

zu jeder Variablen des betrachteten Wahrscheinlichkeitsmodells. Ein Elementarereignis ent-

spricht daher genau einem möglichen Zustand des Wahrscheinlichkeitsmodells. Alle Elemen-

tarereignisse schließen sich gegenseitig aus. Den Elementarereignissen können ebenso wie

den Zufallsvariablen Glaubensgrade zugeordnet werden. Drei nach Kolmogorov benannte

Axiome [Kolg50] stellen die mathematische Grundlage der Wahrscheinlichkeitstheorie dar:

1. 0

≤

"g

≤

1: Die Wahrscheinlichkeit einer Aussage liegt zwischen 0 und 1,

2. " E*  1 und ")G  0: Die Wahrscheinlichkeit einer wahren Aussage ist

1 und die Wahrscheinlichkeit einer falschen Aussage ist null,

3. "

∨

C  " n "C – "

∧

C: Die Wahrscheinlichkeit für das Eintreten von

a oder b ist gleich der Summe der Wahrscheinlichkeiten für a und b minus die Wahr-

scheinlichkeit für die Schnittmenge der beiden Ereignisse.

Da Elementarereignisse sich ebenso gegenseitig ausschließen wie die möglichen Werte einer

Zufallsvariable, lässt sich für alle atomaren Ereignisse (AE) eines Zufallsmodells (M) aus den

Kolmogorov-Axiomen folgern: ∑"F1

qrP

In der Wahrscheinlichkeitstheorie wird zwischen bedingten und unbedingten Wahrscheinlich-

keiten unterschieden. Diese Unterscheidung spiegelt den Umstand wider, dass sich Glaubens-

grade bei vorliegender Information verändern. Die unbedingte Wahrscheinlichkeit "F

gibt an, als wie wahrscheinlich das Ereignis F   erachtet wird, wenn keinerlei Information

über das übrige Wahrscheinlichkeitsmodell vorliegt. Zusätzliche Information über eine Zu-

fallsvariable s kann den Glaubensgrad signifikant verändern. Ist die zusätzliche Information

über die Zufallsvariable B eine veränderte Wahrscheinlichkeitsverteilung, spricht man von

einer weichen Evidenz. Ist die Ausprägung von B dagegen sicher bekannt, liegt eine harte

Evidenz vor. Mit dem Auftreten einer Evidenz B = b hat die unbedingte Wahrscheinlichkeit

keine Gültigkeit mehr. Sie wird durch eine bedingte Wahrscheinlichkeit der Form "F 

 | s  C ersetzt. Mithilfe des Bayes-Theorems können bedingte Wahrscheinlichkeiten

durch unbedingte Wahrscheinlichkeiten ausgedrückt werden [CGH97]:

So ist beispielsweise die genaue Gradzahl einer Temperatur nicht bekannt, jedoch ist klar, dass es kalt ist. Zu

weiteren Details zur Fuzzy-Theorie und Fuzzy-Logik siehe Abschnitt 3.1.1.1.

Zufallsvariablen werden unterteilt in drei Gruppen: boolesche Variablen, diskrete Variablen und stetige Va-

riablen. Während eine boolesche Zufallsvariable nur die Werte wahr oder falsch annehmen kann, können diskre-

te Zufallsvariablen eine begrenzte Menge von Werten und stetige Variablen alle Werte innerhalb eines Intervalls

oder aus der gesamten Menge der reellen Zahlen annehmen. [Schw01]

Planung unter Unsicherheit 45

• "|C

tuvw

tw

für "Cf0.

Durch Umstellung der Gleichung erhält man die Produktregel [RN03]: P(a∧b)=P(a|b)P(b).

Damit ist es ebenfalls möglich, unbedingte Wahrscheinlichkeiten auf bedingte Wahrschein-

lichkeiten zurückzuführen.

Die Wahrscheinlichkeitstheorie stellt einen brauchbaren Ansatz zur Darstellung eines Glau-

bensmaßes bzgl. des Eintritts alternativer Planverläufe dar. Die bedingten Wahrscheinlichkei-

ten können die in Kapitel 2.3 aufgestellte Anforderung erfüllen, dass die Eintrittsmöglichkeit

eines Zustands abhängig von seinem Vorgänger bestimmt werden muss. Die Einbeziehung

von Informationen über die Umgebung ist ebenfalls möglich.

4.1.1.2 Dempster-Shafer-Theorie

Die Dempster-Shafer-Theorie behandelt die Unterscheidung von Unsicherheit und Unkenn-

tnis. Sie unterscheidet zwischen zwei korrespondieren Maßen, dem Glaubwürdigkeitsmaß und

dem Plausibilitätsmaß [RN03]. Beide Maße hängen in der Form zusammen, dass die Glaub-

würdigkeit für die Richtigkeit einer Aussage und die Plausibilität der Komplementäraussage

in Summe Eins ergeben müssen. Die konventionelle Wahrscheinlichkeit ist in diesem Sinne

ein spezielles Glaubwürdigkeitsmaß, bei dem Wahrscheinlichkeit, Glaubwürdigkeit und Plau-

sibilität einer Aussage immer gleich groß sind.

Ähnlich wie die Wahrscheinlichkeitstheorie geht auch die Dempster-Shafer-Theorie von einer

Grundmenge an Möglichkeiten aus (frame of discernment, deutsch etwa Rahmen des Urteils-

vermögens). Es handelt sich um eine Menge Θ sich gegenseitig ausschließender Elemente. Je

nach Domäne werden sie als Hypothesen, Aussagen, Diagnosen oder Label interpretiert. Die

Menge der Aussagen muss vollständig sein. Die Potenzmenge stellt ein hierarchisches System

von Aussageklassen dar, wobei eine Aussagenklasse eine disjunktive Verknüpfung feinerer

bzw. kleiner Aussageklassen ist. Über dieses System von Aussagenklassen wird eine Massen-

funktion definiert. Eine Funktion 2

{

I]0,1^ ist eine Massenfunktion, wenn gilt:

3|0

}3g1

m=~

In der Dempster-Shafer-Theorie gibt eine solche Massenfunktion die Unterstützung für die

Aussage X an. Ein wesentlicher Unterschied zwischen den Massenfunktionen der klassischen

Wahrscheinlichkeitstheorie und der Dempster-Shafer-Theorie besteht in dem Umstand, dass

bei der Dempster-Shafer-Theorie nicht die gesamte „Masse“ der Unterstützung auf die Ele-

mente von Θ bzw. 2

verteilt werden muss. Ein Teil der Menge kann als Unwissen dargestellt

werden und wird Θ zugewiesen.

Aufbauend auf den Massenfunktionen werden zwei weitere Arten von Funktionen definiert.

Die erste Funktion ist die Glaubensfunktion (belief function). Eine Funktion C):2

{

ist eine

Glaubensfunktion, wenn s)∑3F

q

gilt. Eine Glaubensfunktion misst gewisser-

maßen die Unterstützung für X durch Addition der Werte von m für alle Teilmengen von X.

Die zweite Art von Funktionen sind die Plausibilitätsfunktionen. Eine Funktion "):2



]0,1^ ist eine Plausibilitätsfunktion, wenn ")g ∑3

q|

gilt. Sie bemisst das Maß

an Glauben, das X maximal zugewiesen werden könnte (unabhängig von den konkreten Um-

ständen). Mithilfe einer konkreten Belegung der Massenfunktion m kann das Intervall

]s),")^ berechnet werden. Dabei gilt immer 0

≤

s)

≤

1. Die Intervallbreite Pl-Bel rep-

räsentiert das Unwissen (uncommitted belief, second order uncertainty). Je breiter das Inter-

46 Planung unter Unsicherheit

vall ist, desto weniger vertrauenswürdig ist eine Aussage, eine Intervallbreite von 1 steht da-

bei für vollständige Unwissenheit.

Dempster definierte eine wesentliche Rechenregel für das Rechnen mit Massenfunktionen.

Dempsters Kombinationsregel [BCM00] verrechnet zwei Massenfunktionen m

und m

einer neuen Massenfunktion:

3

F 0 D(( ' F|

∑3

F

·

qKq

∑3

F

·

qK|

> G5(G

Mit dieser Regel ist es möglich, zwei oder mehr Wissensquellen normalisiert zusammenzut-

ragen. Problematisch an dieser Kombinationsregel ist allerdings, dass sie anders als die Wahr-

scheinlichkeitsrechnung nicht aus einer Menge von zuvor definierten Axiomen abgeleitet

wurde. Für einige Anwendungsbereiche lässt sich diese Regel aber leicht interpretieren. Sie

stellt in gewisser Weise eine Verallgemeinerung des Bayes-Theorem dar und fügt der Demp-

ster-Shafer-Theorie eine dynamische Komponente hinzu. Die Beurteilung der Möglichkeit

eines Ereignisses oder einer Aussage verändert sich abhängig vom aktuell vorliegenden Wis-

sen.

Mit der Kombinationsregel von Dempster ist es auch in der Dempster-Shafer-Theorie mög-

lich, flexibel neue Informationsquellen zur Bestimmung des Glaubensmaßes heranzuziehen.

Ebenso ist die Beurteilung der Eintrittsmöglichkeit eines Zustands abhängig von der Ein-

trittsmöglichkeit der Vorgängerzustände. Obwohl die Dempster-Shafer-Theorie mit der Ein-

führung von Unwissen (uncomitted belief) und dessen Quantifizierung eine interessante Ei-

genschaft besitzt, fehlen im Vergleich zur Wahrscheinlichkeitstheorie Konzepte und Metho-

den, um diese Darstellung von Unsicherheit effizient zu modellieren und zu verarbeiten.

4.1.2 Modelle und Verfahren zur Analyse von Unsicherheit

Die Darstellung und Quantifizierung von Unsicherheit mithilfe von Glaubensmaßen ist eine

wichtige Voraussetzung für eine Planung unter Unsicherheit. Die Quantifizierung der Unsi-

cherheit kann genutzt werden, um den Raum möglicher Ausführungsverläufe einzuschränken

und relevante und irrelevante Alternativen zu differenzieren. Um dieses Ziel effektiv zu errei-

chen, muss der Glaubensgrad aber soviel Informationen wie möglich in die Quantifizierung

der Unsicherheit mit einbeziehen. In diesem Kapitel werden Methoden beschrieben, die diese

Einbeziehung aktueller Information zur Aktualisierung von Glaubensgraden ermöglichen.

Dabei zeigt sich, dass nur für die Wahrscheinlichkeitstheorie derartige Methoden zur Verfü-

gung stehen.

4.1.2.1 Bayes-Netzwerke

Ein Bayes-Netzwerk ist ein gerichteter Graph, der die Abhängigkeiten zwischen Zufallsva-

riablen einer modellierten Domäne darstellt. Nach Jensen [Jens01] ist ein Bayes-Netzwerk

wie folgt aufgebaut:

• Die Menge der Knoten des Netzwerks bilden die Variablen ab.

• Zwei Knoten können durch eine gerichtete Kante verbunden sein.

• Knoten A ist Elternknoten von Knoten B, wenn eine gerichtete Kante von A nach B

existiert.

• Zu jeder Variable A existiert eine bedingte Wahrscheinlichkeitsverteilung

"F|) E(F.

• Der Graph enthält keine Zyklen, ist also ein gerichteter azyklischer Graph (DAG).

Planung unter Unsicherheit 47

Ein wesentlicher Vorzug der Bayes-Netze besteht darin, dass sie auch stetige Zufallsvariablen

berücksichtigen können. Grundsätzlich gibt es zwei Möglichkeiten, stetige Variablen zu be-

handeln. Sie können, unabhängig von der ihnen zugrunde liegenden Verteilung, diskretisiert

werden. Dazu werden sie durch Einteilung in Intervalle in diskrete Variablen verwandelt. Der

Nachteil dieses Vorgehens liegt in dem Verlust von Genauigkeit. Über die Wahrscheinlichkeit

von Werten innerhalb eines Intervalls ist keine vernünftige Aussage mehr möglich. Versucht

man, diesen Nachteil durch eine sehr feine Diskretisierung (also Einteilung in sehr kleine

Intervalle) auszugleichen, führt das zu sehr großen diskreten Wahrscheinlichkeitsverteilun-

gen. Cobb et. al. stellen eine Inferenzprozedur für hybride Netzwerke vor, die beliebige konti-

nuierliche Verteilungen approximieren kann [CRS07]. Basis der Inferenzprozedur ist ein

Schließen über Exponentialverteilungen. Indem die Autoren nahezu beliebige kontinuierliche

Verteilungen mittels einer Schar aus Exponentialverteilungen approximieren, heben sie viele

Einschränkungen für die Modellierung mittels Bayes-Netzwerken auf (siehe z. B. [Jens01]).

Die Approximation der kontinuierlichen Verteilungen kann dabei anhand von Trainingsdaten

berechnet werden, sodass noch nicht einmal eine Kenntnis der exakten kontinuierlichen Ver-

teilung notwendig ist.

Mithilfe eines Bayes-Netzwerkes kann die Wahrscheinlichkeit jedes atomaren Ereignisses in

einer vollständigen gemeinsamen Wahrscheinlichkeitsverteilung bestimmt werden. Die

Wahrscheinlichkeit berechnet sich nach der Formel "g

,…, g

∏"g

|) E(g



RJ8

Die bedingten Wahrscheinlichkeitsverteilungen an den Knoten des Netzwerks bilden damit

eine verteilte Repräsentation der vollständigen gemeinsamen Wahrscheinlichkeitsverteilung.

In der Regel werden Bayes-Netzwerke eingesetzt, um die a-posteriori-

Wahrscheinlichkeitsverteilung einer Zufallsvariablen X in Abhängigkeit von den bekannten

Evidenzen innerhalb der Domäne zu bestimmen.

Ein wichtiges Konzept für die Entwicklung effizienter Algorithmen zur Bestimmung der voll-

ständigen gemeinsamen Wahrscheinlichkeitsverteilung in Bayes-Netzwerken ist die bedingte

Unabhängigkeit. Anhand der bedingten Unabhängigkeit lässt sich ermitteln, welche Eviden-

zen 

⊂

 bei der Auswertung einer Abfrage "| berücksichtigt werden müssen. Pearl

[Pearl88] definiert die bedingte Unabhängigkeit wie folgt:

• Sei \  Z,,…_ eine endliche Menge diskreter Variablen. Sei "

•

 eine gemein-

same Wahrscheinlichkeitsfunktion über die Variablen U und seien X, Y und Z drei

Teilmengen der Variablen von U. X und Y werden dann bedingt unabhängig gegeben

Z genannt, wenn "g | 2,  "g |  und "2,f 0.

Um die bedingte Unabhängigkeit aus der Struktur eines Bayes-Netzwerks ableiten zu können,

wird das graphentheoretische Kriterium der d-Separiertheit genutzt (siehe [Pearl88, S.127ff],

[Nea04]). Durch die Einführung der bedingten Unabhängigkeit und der d-Separiertheit lässt

sich die Berechnung der vollständigen gemeinsamen Wahrscheinlichkeitsverteilung um-

schreiben zu "g

,...,g

∏"

RJ8

J78

,…,g

. Diese Formel wird als die Kettenregel

für Bayes-Netze bezeichnet und bietet die Möglichkeit, durch Konzepte der Dynamischen

Programmierung erheblich Laufzeit bei der Berechnung der vollständigen gemeinsamen

Wahrscheinlichkeitsverteilung einzusparen.

Russel und Norvig [RN03] unterscheiden drei grundsätzliche Formen der Inferenz in Bayes-

Netzwerken:

1. Diagnostische Inferenz versucht, von Symptomen oder Effekten auf die Ursachen zu

schließen.

48 Planung unter Unsicherheit

2. Kausale Inferenz versucht, bei Vorliegen bestimmter Ursachen das Auftreten damit

verbundener Effekte vorherzusagen.

3. Interkausale Inferenz untersucht den Zusammenhang zwischen Ursachen, die den

gleichen Effekt auslösen.

4. Gemischte Inferenz bezeichnet jede Kombination aus den drei zuvor genannten Infe-

renzen.

Gegenstand der Inferenz ist dabei oft nur eine einzelne Query-Variable, deren a-posteriori-

Wahrscheinlichkeit ermittelt werden soll. Die Inferenz ist dabei grundsätzlich auf zwei unter-

schiedliche Arten möglich: exakte und approximative Inferenz. Eine wichtige Einschränkung

für den Einsatz von exakter Inferenz besteht in der Laufzeit: Inferenz für Bayes-Netze ist im

Allgemeinem NP-hart. Für den Sonderfall der Singly Connected Networks ist eine exakte

Inferenz in Bayes-Netzwerken in linearer Zeit ausführbar. Ein Singly Connected Network ist

ein Graph, in dem zwischen jedem Knotenpaar höchstens ein ungerichteter Weg existiert.

Wesentliche Algorithmen zur exakten Inferenz sind der Message-Passing-Algorithmus von

Pearl [Pearl88], dessen Erweiterung zur Inferenz in mehrfach verbundenen Netzwerken

([Nea04] oder [CGH97]) oder der Algorithmus zur Variableneliminierung [RN03]. Approxi-

mative Inferenz bestimmt eine bedingte Wahrscheinlichkeit näherungsweise mithilfe wieder-

holter Stichproben im Zufallsraum [CDL+03].

Eine wichtige Erweiterung von Bayes-Netzwerken sind die Dynamischen Bayes-Netzwerke

(DBN). Diese Erweiterung ermöglicht die explizite Repräsentation von Zeit im probabilisti-

schen Modell einer Domäne. Dem Betrachtungsbereich der Verhaltensplanung ist es inhärent,

dass sich Variablen und Parameter im Zeitverlauf verändern. Die Veränderung der Zeit wird

durch aufeinanderfolgende Zeitaufnahmen, Zeitscheiben, dargestellt [Jens01]. In jeder Zeit-

scheibe ist eine Menge an Zufallsvariablen enthalten, die entweder beobachtbar oder nicht

beobachtbar sind. Die Menge der nicht beobachtbaren Zufallsvariablen in der t-ten Zeitschei-

be wird in der Regel als X

und die Menge der beobachtbaren Evidenzvariablen als E

be-

zeichnet. Die Notation X

i:j

bezeichnet alle Variablen in den Zeitscheiben i bis j.

Um einen Prozess in Form eines DBN darstellen zu können, sind eine Reihe von Annahmen

zu treffen bzw. zu erfüllen. Zunächst muss der Prozess stationär sein: Er verändert die Zu-

stände in jeder Zeitscheibe t nach bestimmten Gesetzmäßigkeiten, die über die Zeitdauer nicht

veränderlich sind. Bei einem nicht stationären Prozess ließe sich ein DBN nicht konstruieren.

Zusätzlich muss es sich bei dem modellierten Prozess um einen Markov-Prozess handeln. Ein

Markov-Prozess ist ein Prozess, bei dem der aktuelle Zustand nur von einer endlichen Anzahl

von Vorgängerzuständen abhängt. Man unterscheidet Markov-Prozesse unter anderem anhand

der Anzahl relevanter Vorgängerzustände. Hängt der aktuelle Zustand von n Vorgängerzu-

ständen ab, spricht man von einem Markov-Prozess n-ter Ordnung. So gilt beispielsweise für

einen Markov-Prozess erster Ordnung: "



|

:

  " |

78

. Die Wahrscheinlichkeit

"



|

78

 wird auch als Übergangswahrscheinlichkeit erster Ordnung bezeichnet. Auch die

Evidenzvariablen E

müssen hinsichtlich ihrer Verknüpfung mit dem Modell beschränkt wer-

den. Es wird die Annahme getroffen, dass E

nur von den Werten in der aktuellen Zeitscheibe

abhängt, sodass "



| 

:

  "



|



 gegeben ist. "



|



 wird als Sensormodell des

Prozesses bezeichnet. Insgesamt ergibt sich folgende vollständige Wahrscheinlichkeitsvertei-

lung für ein DBN: "



,

,…,



,



,

,…,



. Russel und Norvig [RN03] unterscheiden

vier Formen der Inferenz in DBN:

1. Filtern: Berechnung der bedingten Wahrscheinlichkeit "



|

8:

, also die Bestim-

mung des aktuellen Glaubenszustands für die aktuelle Zeitscheibe;

2. Vorhersage: Bestimmung der Verteilung "

bk

|

8:

 mit k>0, also die Bestimmung

des Glaubensgrads für eine in der Zukunft liegende Zeitscheibe;

Planung unter Unsicherheit 49

3. Glättung: Bestimmung der bedingten Verteilung "

7k

|

8:

 mit k>0, also die Be-

stimmung eines Glaubensgrads für eine in der Vergangenheit liegende Zeitscheibe und

4. Wahrscheinlichste Erklärung: Bestimmung der wahrscheinlichsten Sequenz von Zu-

ständen, die zum aktuellen Zustand geführt hat.

Im Folgenden werden die Probleme des Filterns und der Vorhersage näher erläutert, da sie für

die prädiktive Bestimmung von Eintrittsmöglichkeiten in Plänen genutzt werden können. Der

Prozess des Filterns geschieht für den Zustand zum Zeitpunkt t+1 durch folgende rekursive

Berechnung: "

b8

|

8:b8

"

b8

|

b8

∑"

b8



"g



|

8:



. Der erste Term der

rechten Seite der Gleichung kann direkt dem Sensormodell entnommen werden. Der erste

Term innerhalb der Summe ist durch das Übergangsmodell gegeben. Der zweite Term in der

Summe ist die Zustandsverteilung des Vorgängerzustands t, α steht für eine Normalisierungs-

konstante.

Vorhersagen können in DBNs einfach berechnet werden, indem gefiltert wird, ohne dass neue

Evidenzen einbezogen werden. Eine Vorhersage für einen Zustand t+k+1 lässt sich rekursiv

aus der Zustandsverteilung für t+k berechnen. Führt man die Vorhersage in einem DBN im-

mer weiter, so stellt man fest, dass irgendwann ein Zustand erreicht ist, in dem sich die vor-

ausgesagten Zustandsverteilungen nicht mehr ändern. Diese Verteilung wird als stationäre

Verteilung des Markov-Prozesses bezeichnet. Aus dieser Konvergenzeigenschaft von Mar-

kov-Prozessen folgt, dass eine Vorhersage nur für eine begrenzte Anzahl von Zeitscheiben

sinnvoll möglich ist.

Eine weitere nützliche Eigenschaft der Methode der Bayes-Netzwerke ist das Vorliegen meh-

rerer Lernverfahren. Die Lernverfahren lassen sich in das Lernen von Parametern mit voll-

ständigen und mit versteckten Daten sowie dem Strukturlernen einteilen.

Beim Lernen von Parametern bei vollständigen Informationen geht es darum, die bedingten

Wahrscheinlichkeitsfunktionen in einem gegebenen Bayes-Netzwerk anhand einer Menge

historischer Trainingsdaten zu bestimmen, die alle Variablen des Netzes umfassen. Zu dieser

Klasse von Lernverfahren gehören u. a. die Maximum Likelihood Estimation [Mitc97, S.157],

Naive Bayes-Klassifikatoren und das Parameter-Lernen mit Beta- bzw. Dirichlet-Verteilung

[Heck95]. Die Maximum Likelihood Estimation bestimmt die Parameter des Netzwerks als

die wahrscheinlichste Erklärung für Trainingsdaten. Nach dem gleichen Prinzip funktioniert

der naive Bayes-Klassifikator, wobei hier vor allem die Bestimmung der Ausprägung einer

Variablen (z. B. ist die E-Mail Spam oder nicht) anhand einer Menge von Kriterien im Vor-

dergrund steht. Daher sind die Netzwerke grundsätzlich sternförmig aufgebaut. Beide Ansätze

neigen bei nur wenigen Trainingsdaten zu einem sogenannten Overfitting, orientieren sich

also zu stark an der Ausprägung der Trainingsdaten und lassen andere Informationen außer

Acht. Dies ist der große Vorteil der Lernverfahren mit Beta- und Dirichlet-Verteilungen. Hier

kann vor dem Lernen den Verfahren eine Abschätzung über die Verteilungen mitgegeben

werden. Solange die beispielweise durch Experten geschätzten Verteilungen den tatsächlichen

Verteilungen näher sind als die Gleichverteilung, konvergieren die Verfahren schneller gegen

die tatsächliche Verteilung. Der Unterschied der beiden Verfahren liegt in ihrer Stelligkeit,

die Dirichlet-Verteilungen sind eine multinomiale Verallgemeinerung der binomialen Beta-

Verteilung. Daher können mit der Beta-Verteilung nur Parameter von binomialen Variablen

erlernt werden, während die Dirichlet-Verteilung für beliebig diskrete Variablen funktioniert.

Beim Lernen mit versteckten Daten ist das Ziel, die Parameter anhand von Trainingsdaten zu

ermitteln, die nicht alle Variablen des Netzwerkes umfassen. Zu dieser Klasse gehören u.A.

Es gilt : 



@

50 Planung unter Unsicherheit

der Expectation-Maximization-Algorithmus (EM-Algorithmus) [DLR77] und der APN-

Algorithmus (Adaptive Probabilistic Network) [BKR+97]. Beim EM-Algorithmus werden die

fehlenden Daten zunächst durch eine Schätzung ermittelt, um dann gemeinsam mit den Trai-

ningsdaten die übrigen Parameter des Problems zu bestimmen (z. B. mithilfe des ML-

Algorithmus). Anschließend erfolgt eine erneute Schätzung der fehlenden Daten. Durch wie-

derholte Iteration dieser Schritte konvergiert das Verfahren schließlich gegen die tatsächli-

chen Parameter. Das Konvergenzverhalten ist zwar eher schlecht, jedoch ist das Verfahren auf

nahezu alle Domänen anwendbar und sehr robust. Der APN-Algorithmus erweitert den EM-

Algorithmus um ein Hill-Climbing, das zur Bestimmung besserer Schätzwerte verwendet

wird.

Da in struktursuchenden Lernverfahren neben den Parametern auch noch die Abhängigkeiten

zwischen den Variablen ermittelt werden müssen, ist der Such- bzw. Lernraum bei diesem

Problem ungleich größer als beim reinen Parameterlernen. Die meisten Verfahren basieren

auf lokalen Suchstrategien (vergleiche z. B. [Heck95], [TAB06] oder [Frie98]). Jedoch ist das

Lernverhalten aktueller Algorithmen für praktische Anwendungen nicht zufriedenstellend. Da

die Beschreibung der Netzwerkstruktur durch einen menschlichen Experten meist sehr gut

möglich ist, ist die Anwendung des Strukturlernens im Kontext dieser Arbeit kaum lohnens-

wert.

Bayes-Netzwerke stellen eine geeignete Modellierungsmethode dar, um die Eintrittswahr-

scheinlichkeit von Planungsverläufen zu beurteilen. Als Darstellungsform für komplexe be-

dingte Wahrscheinlichkeitsverteilungen können sie Umgebungsinformationen darstellen. Mit

Dynamischen Bayes-Netzwerken ist auch eine Darstellung zeitlicher Abläufe möglich, wo-

durch sich kausale Zusammenhänge zwischen Planungsschritten darstellen lassen.

4.1.2.2 Markov-Netzwerke

Markov-Netzwerke, in der Literatur auch häufig als Markov Random Field [KN80] bezeich-

net, stellen die Abhängigkeit zwischen Zufallsvariablen in Form ungerichteter Graphen dar.

Ein Markov Netzwerk stellt eine vollständige gemeinsame Zufallsverteilung einer Menge von

Zufallsvariablen dar. Sie bestehen aus einem ungerichteten Graphen (V, E) (V bezeichnet die

Menge der Knoten, E die Menge der ungerichteten Kanten) und einer Potenzialfunktion 



für jede maximale Clique c

im Graphen. Jeder Knoten in V repräsentiert genau eine Zufalls-

variable.

Eine Potenzialfunktion 



ist eine Abbildung von allen möglichen Zuweisungskombinationen

der Zufallsvariablen in der Clique c mit dem Wertebereich auf die Menge der positiven reel-

len Zahlen: 



Ia

. Offensichtlich stellen Potenzialfunktionen keine Wahrschein-

lichkeiten im Sinne der Kolmogorov-Axiome dar, da sie Werte größer als 1 annehmen kön-

nen. Je höher der Wert der Potenzialfunktion für eine bestimmte Variablenzuweisung ist, des-

to besser (wahrscheinlicher) ist diese Kombination der Werte der Variablen. Mit einer Poten-

zialfunktion können die verschiedenen Variablenzuweisungen innerhalb einer Clique bewertet

und gewichtet werden. Diese sehr weit gefasste Definition einer Potenzialfunktion erlaubt die

Konstruktion komplexer Funktionen.

Nach Clifford und Hammersley [CH71] kann die vollständige gemeinsame Wahrscheinlich-

keitsverteilung dargestellt werden durch:

"g

,…g

1 



g







Ein Teilmenge V‘⊂ V bildet eine Clique C, wenn alle Knoten mit allen anderen Knoten der Teilmenge ver-

bunden sind.

Planung unter Unsicherheit 51

Dabei ist Z eine Normalisierungskonstante: ∑ ∏ 



g





m

. Die Belegung der Variab-

len der Clique wird als x

angegeben. Die Normalisierungskonstante bewirkt, dass "g

…g



im Intervall [0,1] liegt und damit den Anforderungen an eine Wahrscheinlichkeit genügt. In-

nerhalb von Markov-Netzwerken gilt die Markov-Annahme erfüllt, dass also Zufallsvariable

nur von ihren direkten Nachbarn abhängig ist: P(x

X-{xi}

) = P(x

Bei der Erstellung oder genauer der Modellierung eines Markov-Netzwerks müssen diese

formalen Anforderungen beachtet werden. Um auf dem Netzwerk so eine Inferenz durchfüh-

ren zu können, muss das Netzwerk konsistent und vollständig sein. Ein konsistentes Netzwerk

ist nicht mit überflüssigen Variablen überladen, während ein vollständiges Netzwerk alle

notwendigen Informationen enthält, um die gewünschte Inferenz durchzuführen. Pearl

[Pear88, S. 105] beschreibt eine Vorgehensweise zur Modellierung eines vollständigen und

konsistenten Netzwerks. Sie umfasst die folgenden Schritte:

1. Festlegen der Graphenstruktur,

2. Identifikation der maximalen Cliquen des Graphen.

3. Bilden einer Potenzialfunktion 



$a

für jede Clique c und den dazugehö-

rigen Wertebereich sowie

4. Bilden einer vollständigen gemeinsamen Wahrscheinlichkeitsverteilung.

Ein möglicher Algorithmus zur Inferenz in Markov-Netzwerken (also zur Bestimmung von a-

posteriori-Wahrscheinlichkeiten) ist der Clustering-Algorithmus, der von Lauritzen und Spie-

gelhalter [LS88] entwickelt wurde und dessen Anwendung in Markov-Netzwerken in

[CGH97] vorgestellt wird. Dieser Algorithmus stellt jedoch weitere Anforderungen an die

Struktur des Netzwerks:

• Jede Schleife innerhalb des Netzwerks mit Kantenlänge >4 muss eine Sehne

besit-

zen, die die Schleife in zwei kleinere Schleifen unterteilt.

• Die maximalen Cliquen c

,…c

des Graphen müssen so angeordnet sein, dass gilt: Die

Menge 

Z

∪

…

J78

_ ist in mindestens einer der Cliquen c

1…

i-1

für alle i=1…m

vorhanden.

Die Einschränkung des Inferenzalgorithmus für Markov-Netzwerke erschwert auch die Ein-

setzbarkeit dieses probabilistischen Modells, da grundsätzlich nicht alle darstellbaren Modelle

auch einsetzbar sind. Zusätzlich konnte in der Literatur kein methodisches Vorgehen zur

Konstruktion von Potenzialfunktionen identifiziert werden, sodass dieser wichtige Bestandteil

des Modells durch Experimentieren am Modell bestimmt werden muss. Verfahren, um die

Potenzialfunktionen, Einzelwahrscheinlichkeiten oder die vollständige gemeinsame Wahr-

scheinlichkeitsverteilung zu erlernen, sind ebenfalls nicht bekannt. Das spricht insgesamt ge-

gen den Einsatz von Markov-Netzwerken zur aktuellen Bestimmung der Eintrittsmöglichkeit

bestimmter Planverläufe.

4.1.3 Planungssprachen für Unsicherheit und unvollständige Information

Die folgenden Absätze beschreiben zwei Erweiterungen der PDDL, die die Darstellung von

Planungsproblemen unter Unsicherheit beschreiben. Neben diesen beiden Ansätzen, die direkt

die PDDL erweitern, existieren auch andere Planungsformalismen zur Darstellung von unsi-

cheren Planungsproblemen. Dazu gehört auch der PDDL-Vorläufer ADL [Pedn86], eine so-

genannte Aktionssprache. Zwar existieren noch einige Erweiterungen der ADL A

[Lobo97]

oder AR [CGGT97,EFL+04], die sich jedoch durch eine umständliche Formulierung der Pla-

In einem Graphen G wird eine Kante von G als Sehne bezeichnet, wenn sie zwei Knoten eines Kreises in G

verbindet, selbst jedoch nicht Teil des Kreises ist.

52 Planung unter Unsicherheit

nungsprobleme auszeichnen. So besteht beispielsweise nicht die Möglichkeit, numerische

Variablen auszudrücken. Dies ist aber notwendig, um die in Kapitel 3 in die Planung integ-

rierten kontinuierlichen Eigenschaften der Aktionen zu modellieren.

4.1.3.1 NPDDL

NPDDL stellt eine Erweiterung der Planungssprache PDDL für nicht-deterministische Umge-

bungen dar [BCLP03]. NPDDL kann drei Eigenschaften einer nicht-deterministischen Umge-

bung beschreiben: Unsicherheit im Anfangszustand, nichtdeterministische Aktionen (z. B.

nicht eindeutige Effekte) und partielle Beobachtbarkeit von Zuständen. Die Darstellung von

Plänen in NPDDL unterstützt Strukturen wie Verzweigungen (branching) und Iterationen,

sodass ein NPDDL-Planer Pläne erstellt, die dem Code von Computerprogrammen ähnlich

sehen.

Als Erweiterung von PDDL 2.1 [FL03] übernimmt NPDDL wichtige Eigenschaften wie die

Darstellung numerischer Funktionen. Auch die Instanzierung der Operatoren und Prädikate

mittels Objekten erfolgt analog wie in PDDL 2.1.

Die wesentliche Neuerung in der NPDDL ist ein Konstrukt namens oneof. Es wird genutzt,

um nicht eindeutige Initialzustände und nicht eindeutige Effekte einer Aktion zu definieren. In

beiden Fällen basiert die Darstellung auf einer Disjunktion der entsprechenden Ausdrücke aus

der PDDL.

Das bedeutet, dass ein nicht eindeutiger Initialzustand durch eine Menge alternativer Zustände

beschrieben wird, von denen nur einer tatsächlich zutrifft. Dabei gelten für die einzelnen Al-

ternativzustände die gleiche Syntax und Schlussregeln (insbesondere gilt für jede der Alterna-

tiven die Closed-World-Assumption) wie in PDDL 2.1.

Für den Fall nicht eindeutiger Aktionen findet das Konstrukt oneof Anwendung im Effektteil

der Aktion. Analog zum nicht eindeutigen Initialzustand ist dort eine Menge von alternativen

Effekten beschrieben, die jeder für sich in der Syntax und in der Verarbeitung während der

Plankonstruktion dem Vorgehen bei der PDDL entspricht.

Zusätzlich zu nicht eindeutigen Initialzuständen und Aktionen kann NPDDL unzuverlässige

Wahrnehmung des Umweltzustands darstellen. Derartige Wahrnehmungen werden modelliert

durch eine Relation zwischen den möglichen Umweltzuständen und Observationsvariablen,

die gewissermaßen die Sensoren des planausführenden Systems darstellen. Die Relation zwi-

schen den Umweltzuständen und den Observationsvariablen wird mithilfe des Konstrukts

observation in Form einer logischen Formel dargestellt.

Die Darstellung von Plänen geht in der NPDDL über die übliche Modellierung in Form einer

Menge partiell geordneter Aktionen hinaus. Es werden zusätzliche Konstruktionen eingeführt,

die angeben, wie oft, in welcher Weise und unter welchen Bedingungen Aktionen ausgeführt

werden sollen. Dazu gehören das sequenzielle Ausführen von Aktivitäten, die bedingte Ver-

zweigung, die iterative Ausführung in Schleifen und sogar Sprunganweisungen, mit deren

Hilfe die Ausführung an einer gänzlich anderen Stelle fortgeführt wird.

Gegenüber der PDDL ist die NPDDL wesentlich besser geeignet, Planungsprobleme in nicht

deterministischen Umgebungen darzustellen. Dieser Möglichkeit sind allerdings auch enge

Grenzen gesteckt. Die Modellierung des Nicht-Determinismus mithilfe des oneof Konstrukts

kann nur eine endliche Menge von Initialzuständen und alternativen Aktionseffekten darstel-

len. Die Modellierung sehr großer Mengen von Initialzuständen und Aktionseffekten ist sehr

aufwendig, da auch Zustände und Effekte, die sich nur in einigen Punkten voneinander unter-

scheiden, vollständig modelliert werden müssen. Dies führt bereits in mäßig komplexen Um-

gebungen zu einer sehr großen Modellgröße. Unterstellt man beispielsweise, dass der Ener-

gieverbrauch einer Fahraktion aus der mechatronischen Beispieldomäne (siehe 2.1.3) unab-

Planung unter Unsicherheit 53

hängig von der gefahrenen Strecke um bis zu 10% vom eigentlich erwarteten Verbrauch

abweicht, muss diese mögliche Abweichung auf eine endliche Menge möglicher Ausgänge

abgebildet (also diskretisiert) werden. Entscheidet man sich für eine Diskretisierung in 5%-

Schritten, ergeben sich bereits fünf alternative Ausgänge

für die Aktion. Folgen zwei derar-

tige Aktionen mit 5 alternativen Ausgängen, müssen nach der zweiten Aktion bereits 5

mög-

liche Zustände berücksichtigt werden. Dabei fehlt jede Möglichkeit, die Alternativen hinsich-

tlich ihrer Relevanz zu unterscheiden. Alle möglichen Initialzustände und Aktionseffekte

müssen als gleichwertig behandelt werden. Daher ist NPDDL zur Modellierung des Pla-

nungsproblems für mechatronische Systeme nicht geeignet.

4.1.3.2 PPDDL

Genau wie die im vorherigen Abschnitt vorgestellte NPDDL ist auch die Probabilistic Plan-

ning Domain Language (PPDDL) [YL04] eine Erweiterung des Standards PDDL. Die

PPDDL führt zusätzlich zur PDDL 2.1 probabilistische Effekte ein. Die PPDDL 1.0 stellt

einen Schritt in Richtung einer allgemein anwendbaren Planungssprache zur Beschreibung

probabilistischer und entscheidungstheoretischer Planungsprobleme dar. In ihrer ersten Versi-

on umfasst die PPDDL keine Nebenläufigkeit, (beschränkte) Beobachtbarkeit und Berück-

sichtigung von Zeit.

Die Syntax der Erweiterung der PPDDL ermöglicht die Spezifikation eines Markov-

Entscheidungsprozesses (vergleiche 4.1.1.1). Die wichtigste Erweiterung dabei sind probabi-

listische Effekte in Aktionsdefinitionen. Die Syntax eines probabilistischen Effekts ist (pro-

babilistic p

…p

), wobei die alternativen Effekte e

mit der Wahrscheinlichkeit p

eintreten.

Gemäß den Regeln der Wahrscheinlichkeitsrechnung muss dabei 1

≤

0 und ∑1

1

kJ8

ge-

lten

Im Wesentlichen entspricht diese Definition von Aktionseffekten der Definition nicht

eindeutiger Aktionen in der NPDDL mithilfe des Konstrukts oneof, wobei zusätzlich die Ein-

trittsmöglichkeit der Nachbedingung angegeben wird.

Hinsichtlich der Zieldefinition innerhalb des Planungsproblems unterscheidet die PPDDL

zwei Möglichkeiten. Eine Zieldefinition in Form der in PDDL üblichen Form eines Zielzu-

stands wird so interpretiert, dass der Plan die Wahrscheinlichkeit maximieren soll, diesen Zu-

stand zu erreichen. Alternativ kann eine Optimierungsmetrik definiert werden, die maximiert

oder minimiert werden soll. Eine weitere Möglichkeit besteht darin, statt eines Planungsprob-

lems einen Markov-Entscheidungsprozess anzunehmen. Dazu ist die Definition einer Reward-

Funktion notwendig.

Die Reward-Funktion ist eine Variable, auf die innerhalb der Aktionseffekte zugegriffen wer-

den kann. Dabei ist der Zugriff darauf beschränkt, zum Reward den aktuellen Wert bestimm-

ter numerischer Funktionen aus der Planungsdomäne zu addieren oder zu subtrahieren. Damit

stellt die Reward-Funktion den kumulierten Reward für alle Zustandsübergänge dar.

Younes und Littmann zeigen schließlich, dass Pläne der PPDDL konvertiert werden können

in Dynamische Bayes-Netzwerke (DBN) (vergleiche Kapitel 4.1.1.1.). Da DBN letztlich eine

graphische Repräsentation von Markov-Prozessen sind, eignet sich die PPDDL zum Einsatz

in entscheidungstheoretischen Planern.

PPDDL besitzt mit den probabilistischen Effekten etwa die gleiche Ausdrucksstärke wie die

NPDDL mit ihrem oneof Konstrukt. Zusätzlich ermöglicht die PPDDL die Berücksichtigung

der Eintrittsmöglichkeit von bestimmten Situationen durch die Angabe von Wahrscheinlich-

keit. Durch die Konvertierung in DBNs besteht zusätzlich die Möglichkeit, auf bewährte Me-

thoden zur Berechnung der Eintrittswahrscheinlichkeiten über einen gesamten Plan hinweg

zurückzugreifen.

Die Modellierung des Nicht-Determinismus bzw. der probabilistischen Effekte in PPDDL ist

ebenso grob wie bei der NPDDL. Damit fällt der gleiche große Modellierungsaufwand zur

Abweichung um -10%, -5%, 0%, +5%, +10%

54 Planung unter Unsicherheit

Darstellung komplexer Domänen an wie bei der NPDDL. Außerdem unterstützt die PPDDL

den Modellierer nicht bei der Definition der Eintrittswahrscheinlichkeiten, da kein semanti-

scher Zusammenhang zwischen den Elementen der Vorbedingung und den Effekten besteht.

Solche Zusammenhänge müssen durch den Modellierer direkt bestimmt werden oder mittels

zusätzlicher Methoden (z. B. durch Modellierung mittels Bayes-Netzwerken, vergleiche

4.1.2.1) ermittelt werden. Der letzte Kritikpunkt an der PPDDL besteht darin, dass alle Infor-

mationen a priori, also im Vorfeld der Planung angegeben werden müssen und eine flexible

Berücksichtigung von externen Informationen nicht möglich ist.

4.1.4 Planungsverfahren zur Behandlung von Unsicherheit

Planungsverfahren müssen mit der speziellen Struktur umgehen können, die Pläne und Pla-

nungsprobleme unter Unsicherheit besitzen. In den folgenden Kapiteln werden grundlegende

Planungsprinzipien vorgestellt, die angewandt werden können, wenn unvollständige Informa-

tionen oder nicht-deterministische Aktionen vorliegen. Neben einer Vorstellung der Grund-

idee des Planungsprinzips werden auch jeweils beispielhafte Realisierungen beschrieben.

4.1.4.1 Sensorloses Planen

Das sensorlose Planen konstruiert Pläne für nicht-deterministische Umgebungen, ohne dass

eine Überwachung der Planausführung mit Sensoren notwendig wird [GB96]. Zu diesem

Zweck führt das sensorlose Planen sogenannte Belief States ein, bei denen es sich um eine

Menge von Zuständen handelt, die nach der Ausführung einer Reihe von Planschritten er-

reicht sein können. Auf Basis dieser Belief States setzt sensorloses Planen ein neues Kriterium

zur Anwendbarkeit von Aktionen ein. Eine Aktion ist genau dann in einem Belief State an-

wendbar, wenn sie im Sinne der klassischen Planung in jedem enthaltenen Zustand anwend-

bar ist. Die Nachbedingung einer in einem Belief State b ausgeführten Aktion a ergibt sich

daher aus der Kombination aus a und b. Dadurch wird der Umfang und die Komplexität der

Belief States mit steigender Planlänge immer größer. Dies erfordert Algorithmen, die mit die-

sem Zustandsraum effektiv umgehen können. So stellen Cimatti und Roveri einen sensorlosen

Planer auf Basis von Symbol Model Checking vor [CR99], der Planungsprobleme verarbeiten

kann, die in der Aktionssprache AR [CGGT97] formuliert sind.

Andererseits ergibt sich aus der sehr strengen Anforderung an die Ausführbarkeit von Aktio-

nen, dass ein Plan nur für sehr einfache Planungsprobleme gefunden werden kann. Außerdem

gibt das Planungsprinzip des sensorlosen Planens einen der wesentlichen Vorteile der Verhal-

tensplanung auf: Die Möglichkeit, potenziell eintretende Situationen zu berücksichtigen. Da-

her kommt die sensorlose Planung für die Verhaltensplanung für mechatronische Systeme

nicht in Frage.

4.1.4.2 Bedingte Planung

Die Grundidee des bedingten Planens besteht darin, für alternative Situationen, die während

der Planausführung auftreten können, jeweils einen passenden Plan bereitzuhalten. Ein we-

sentliches Konzept dieser Planungsform sind die Sensoraktionen [SW98]. Diese Sensoraktio-

nen dienen dazu, Informationen zu sammeln, die zur Planungszeit noch nicht zur Verfügung

standen [OG90]. Abhängig von den gesammelten Informationen wird entschieden, welcher

alternative Plan im Weiteren zur Ausführung gebracht wird.

Die Grundidee des bedingten Planens geht zurück auf Warren [Warr76]. Das vorgestellte Pla-

nungssystem WARPLAN-C erweitert die klassische Modellierung von Planungsaktionen um

bedingte Aktionen, auf ganz ähnliche Weise, wie das beispielsweise bei der in 4.1.3.1 be-

schriebenen Planungssprache NPDDL der Fall ist. Dabei ist WARPLAN-C auf zwei alterna-

tive Ausgänge je bedingter Aktion beschränkt. Diese Ausgänge werden als P und ¬P be-

zeichnet. Die Konstruktion des bedingten Plans geschieht in zwei Phasen. In der ersten Phase

Planung unter Unsicherheit 55

wird ein unbedingter Plan erzeugt, indem angenommen wird, dass für jede bedingte Aktion

der Ausgang P

eintritt

. In der zweiten Phase wird ein Plan für jede Verzweigung, also jeden

Ausgang ¬P konstruiert.

Peot und Smith [PS92] erweiterten das Konzept von WARPLAN-C in ihrem Planer CNLP

(Conditional Non Linear Planning), indem sie einerseits eine beliebige endliche Anzahl von

alternativen Ausgängen für bedingte Aktionen zulassen, und andererseits nicht-lineare be-

dingte Pläne erstellen. Zur Definition bedingter Aktionen erweitern Peot und Smith die

STRIPS Notation, die keine numerischen Variablen unterstützt, um bedingte Aktionen. Diese

Art Variablen ist wichtig für die Verhaltensplanung für mechatronische Systeme. Ein wichti-

ges Element zur Erstellung nicht vollständig geordneter bedingter Pläne sind die sogenannten

Kontexte. Ein Kontext fasst mehrere – nicht widersprüchliche – Ausgänge verschiedener Ak-

tionen zusammen. Eine Aktion, für deren Ausführung ein bestimmter Kontext erfüllt sein

muss, kann nur dann ausgeführt werden, wenn alle Ausgänge, die in dem Kontext enthalten

sind, genauso eingetreten sind. Während CNLP auf dem POP-Planer SNLP basiert, stellten

Weld, Anderson und Smith einen bedingten Planer auf Basis von Graphplan vor [WAS98].

Auch Betroli, Cimatti und Roveri stellen einen bedingten Planer vor [BCR01]. Ihr Planer ist

zusätzlich zur Berücksichtigung bedingter Aktionen auch in der Lage, mit einer beschränkten

Beobachtbarkeit während der Planausführung umzugehen. Dies führt zu einer Kombination

der Ansätze sensorloses Planen und bedingtes Planen. Zu diesem Zweck kann der in [BCR01]

vorgestellte Planer ebenfalls Belief States verarbeiten.

Das bedingte Planen ist ein für die Verhaltensplanung sehr interessantes Planungsprinzip. Es

ermöglicht, nicht nur für die gegebene konkrete Aufgabe eine angepasste Sequenz von Teil-

funktionslösungen zu ermitteln, sondern dieses Prinzip auch auf alternative Zustände auszu-

weiten, die sich während der Planausführung einstellen könnten.

Problematisch am bedingten Planen ist jedoch die durch die zu planenden Verzweigungen

steigende Komplexität. Wie auch bei der Modellierung mittels der NPDDL (vergleiche

4.1.3.1) steigt die Anzahl der zu berücksichtigenden Zustände durch die Abfolge nicht deter-

ministischer Zustände exponentiell. Eine Berücksichtigung aller möglichen Alternativen in

einer komplexen Domäne und bei relativ langen Plänen wird in einer sehr langen Planungs-

dauer resultieren, die zu einer faktischen Unlösbarkeit des Problems führt. Als alleiniger Pla-

nungsansatz kommt das bedingte Planen somit nicht in Betracht.

4.1.4.3 Ausführungsüberwachung und Neuplanung

Das dritte grundsätzliche Planungsprinzip zur Planung in nicht-deterministischen Umgebun-

gen ist die Ausführungsüberwachung und Neuplanung. Genau wie beim bedingten Planen

spielen Sensoren und Wahrnehmungen hier eine entscheidende Rolle.

Die erste Anwendung dieses Planungsprinzips stellt der berühmte Roboter Shakey dar. Ein

Planausführer namens PLANEX1 führte Pläne aus, die das Planungssystem STRIPS für den

Roboter Shakey konstruiert hatte [Fike71]. Das PLANEX1-System erweiterte das STRIPS-

Planungssystem um wichtige Fähigkeiten, die zum Handeln in physischen Umgebungen not-

wendig sind. PLANEX1 ist in der Lage, über Sensoren während der Planausführung Informa-

tionen zu sammeln. In Abhängigkeit von den gesammelten Informationen wird der ursprüng-

liche STRIPS-Plan dann angepasst. Wenn die gesammelte Information impliziert, dass einige

Teile des Plans überflüssig sind, werden diese nicht ausgeführt. Falls aber Teile des Plans

nicht die gewünschte Wirkung haben, werden die Aktionen zunächst noch einmal ausgeführt

oder der STRIPS-Planungsalgorithmus wird erneut aufgerufen. Dazu wird dem Planungsalgo-

rithmus die aktuelle Situation als Initialzustand übergeben. Der Zielzustand wird als Disjunk-

tion aller im ursprünglichen Plan enthaltenen Zustände definiert. Dadurch besteht die Mög-

lichkeit, in dieser Neuplanungsphase keinen vollständig neuen Plan aufbauen zu müssen, son-

dern zum alten Plan zurückzukehren.

56 Planung unter Unsicherheit

Wilkins et. al. [WMLW94] stellen mit Cypress ein Planungs- und Ausführungsframework für

unsichere und dynamische Umgebungen vor. Anders als beim PLANEX1-System wird die

Ausführung der Pläne nicht angehalten, bis die Neuplanung durchgeführt wird. Die Autoren

bezeichnen dies als asynchrone Neuplanung. Das Cypress-Framework besteht im Wesentli-

chen aus zwei Systemen: PRS-CL und SIPE-2. PRS-CL dient zur Implementierung von Aus-

führungscontrollern, die komplexe Aufgaben in dynamischen Umgebungen ausführen kön-

nen. Dazu überwachen sie kontinuierlich einkommende Informationen und sich ändernde

Zielvorgaben. Die Controller sind außerdem in der Lage, einfache Umplanungen, die im

Rahmen der Ausführung notwendig werden, selbstständig durchzuführen.

Nur bei umfassenderen Umplanungen wird das eigentliche Planungssystem SIPE-2 einge-

setzt. Dieses System ist in der Lage, Pläne mit parallelen und bedingten Aktionen zu erstellen.

Die mit PRS-CL erstellten Controller rufen den SIPE-2 Planer auf, wenn weitreichende Plan-

änderungen notwendig sind. In der asynchronen Neuplanung setzt der Controller dabei die

Ausführung von solchen Teilen des Plans fort, die nicht von der Planänderung betroffen sind.

Die Neuplanung umfasst dabei die folgenden Schritte:

1. PRS-Cl entdeckt während der Ausführung eines Plans einen Fehler, den es nicht selbst

beheben kann.

2. PRS-CL übermittelt den aktuellen Zustand an SIPE-2 und setzt dann die Ausführung

der Teile des Plans fort, die nicht durch den Fehler berührt sind.

3. SIPE-2 ruft seinen Neuplanungsalgorithmus auf und erstellt einen alternativen Plan.

4. Der geänderte Plan wird an PRS-CL übermittelt.

5. PRS-CL mischt den geänderten Plan mit seinen aktuellen Aktivitäten und setzt die

Ausführung fort.

Der von SIPE-2 aufgerufene Planungsalgorithmus ist im eigentlichen Sinne kein Neupla-

nungsalgorithmus, da auf dem fehlgeschlagenen Plan aufgebaut wird. Wilkins et. al. wählen

dieses Vorgehen, um die Planungsdauer zu reduzieren.

Die Planungsdauer ist bei der Ausführungsüberwachung und Neuplanung ein entscheidender

Faktor. Nicht in jedem Plan werden parallel ausführbare und daher unabhängige Teilpläne

vorliegen. Damit das ausführende System nicht unnötig lange inaktiv wird, sind Planungsal-

gorithmen gefragt, die schnell einen Plan konstruieren können. Dieses Problem ist Gegens-

tand der Echtzeitplanung

oder Onlineplanung.

Sapena und Onaindía [SO02] stellen ein Onlineplanungsverfahren auf Basis der Planungs-

sprache PDDL 2.1 vor. Das Onlineplanungsverfahren verzichtet darauf, einen vollständigen

Plan zu konstruieren sondern beschränkt sich stattdessen darauf, dem ausführenden System

jeweils eine einzige Aktion vorzugeben, die sofort ausgeführt wird. Die resultierende Situati-

on stellt die Ausgangssituation für die Festlegung der nächsten Aktion dar. Aus diesem Grund

entspricht das vorgestellte Verfahren SimPlanner einer Planung mithilfe einer Tiefensuche,

weswegen der Planungsalgorithmus nicht vollständig

ist. Es besteht auch die Gefahr, eine

Aktionsschleife zu erzeugen, die nicht verlassen werden kann. Um diese Gefahren möglichst

gering zu halten, werden heuristische Auswahlmechanismen genutzt, um die nächste auszu-

führende Aktion auszuwählen. SimPlanner löst dazu ein relaxiertes Planungsproblem, in dem

ähnlich wie beim FastForward-Planer [HN01] ein Planungsgraph ohne Berücksichtigung der

Delete-Liste der Aktionen gelöst wird. Dabei wird ein relaxierter Plan für jedes Teilziel er-

zeugt. Die gefundenen relaxierten Pläne werden in Gruppen zusammengefasst, die eine ge-

meinsame erste Aktion besitzen. Diejenige Gruppe, deren erste Aktion die wenigsten Konflik-

Echtzeit hat hier im Gegensatz zur üblichen Verwendung des Begriffs tatsächlich die Bedeutung „besonders

schnell“, da die Verfahren keine deterministischen Schranken für Lösungszeiten liefern

Ein Verfahren ist vollständig, wenn es garantiert eine Lösung findet, falls eine existiert

Planung unter Unsicherheit 57

te mit anderen relaxierten Plänen aufweist, wird zur Ausführung gewählt. Damit folgt SimP-

lanner dem Prinzip des Least Commitments.

Koenig [Koen01] stellt ein Verfahren vor, dass dem ausführenden System mehr als eine ein-

zelne Aktion zur Ausführung vorgibt. Aber auch die Echtzeit Heuristische Suche verzahnt die

Planung und Planausführung. Im Gegensatz zum Verfahren von Sapena und Onaindía setzt

Koenig auf dem vollständigen heuristischen Suchverfahren A* auf. Das Verfahren Learning

Real Time A* (LRTA*) [Korf90] kann eine beliebige Anzahl von zukünftigen Schritten be-

rücksichtigen. Es handelt sich bei LRTA* um einen Any-Time-Algorithmus [Zilb96], sodass

der LRTA* jederzeit abgebrochen werden kann und ein (Teil-)ergebnis zurückliefert, das un-

ter Umständen aber nicht optimal ist. Koenig erweitert LRTA* zu einem Planungsverfahren

für nicht-deterministische Umgebungen namens Min-Max LRTA* [KS95]. Min-Max LRTA*

ist in der Lage, nicht-deterministische Aktionen zu berücksichtigen und unterstellt dazu im

Rahmen der Planung, dass von allen möglichen Folgezuständen einer ausgeführten Aktion

immer der ungünstigste eintritt. Leider lässt Koenig die Frage unbeantwortet, auf welche Art

und Weise die heuristischen Werte für Zustände ermittelt werden können.

Das Planungsprinzip Ausführungsüberwachung und Neuplanung stellt einen intuitiven Ansatz

zur Behandlung von Unsicherheit dar. Es eröffnet insbesondere die Möglichkeit, im Rahmen

der Planung die Annahmen der klassischen Planung aufrechtzuerhalten und somit Standard-

planer einzusetzen (wie beispielsweise im Fall von PLANEX1 geschehen).

Diesen Vorteilen steht jedoch gegenüber, dass das ausführende System im Falle einer Neu-

planung seine Aktivität unter Umständen einstellen muss. Um das zu vermeiden, muss die

Neuplanung unter Zeitdruck ausgeführt werden. Dies kann zwar mit Verfahren zur Online-

oder Echtzeitplanung geschehen, die entsprechenden Planungsverfahren sind aber nicht voll-

ständig und garantieren kein gutes Planungsergebnis. Daher stellt die Anwendung einer Neu-

planung eine Möglichkeit dar, die in der Regel vermieden werden sollte.

4.1.4.4 Probabilistische Planungsverfahren

Eine eigene Klasse von Planern für nicht-deterministische Probleme stellen die sogenannten

probabilistischen Planer dar. Probabilistische Planer können verschiedene der in den vorigen

Kapiteln beschriebenen Planungsprinzipien realisieren. Dabei setzen sie das Glaubensmaß der

Wahrscheinlichkeit ein, um zu unterscheiden, welche Verzweigungen im Plan wichtiger sind,

und bauen den Baum der möglichen Planverläufe nicht mehr vollständig auf. In der Regel

bauen die probabilistischen Planer dabei auf einer Planungssprache auf, die der in 4.1.3.2 be-

schriebenen PPDDL im prinzipiellen Aufbau sehr ähnlich ist.

Ein probabilistischer Planer, der dem Prinzip des sensorlosen Planens entspricht, ist BURI-

DAN [HKW95]. BURIDAN basiert auf dem partiell ordnenden Planen

. Die entscheidende

Erweiterung von BURIDAN besteht darin, dass er mehrere Aktionen als Auslöser für ein be-

stimmtes Fluent im Planverlauf einfügen kann. Durch das Einfügen solcher redundanter Ak-

tionen wird die Wahrscheinlichkeit erhöht, dass ein Fluent eintritt. Wurde ein Plan gefunden,

der die Ziele erreichen kann, wird überprüft, ob die Durchführungswahrscheinlichkeit des

Planes einen Schwellenwert überschreitet. Ist dies nicht der Fall, verfeinert BURIDAN den

Plan, indem zusätzliche Aktionen eingeführt werden, die die Wahrscheinlichkeit des Plans

erhöhen, andernfalls terminiert der Algorithmus. Unklar bleibt, woher BURIDAN die Wahr-

scheinlichkeiten erhält, die im Rahmen der Planung verwendet werden. Außerdem bleiben

mögliche Kosten der redundanten Aktionen unberücksichtigt. C-BURIDAN erweitert BURI-

DAN um die Fähigkeit zum bedingten Planen [DHW94]. Dazu greift es auf den bedingten

Planer CNLP (vergleiche 4.1.4.2) zurück. C-BURIDAN modelliert die Effekte einer Aktion

und die Wahrnehmung des sich ergebenden Zustands separat und stellt dadurch teilweise Be-

Siehe Anhang A

58 Planung unter Unsicherheit

obachtbarkeit dar. C-BURIDAN führt neue Verzweigungen in den Plan ein, um die Erfolgs-

wahrscheinlichkeit zu erhöhen. Daher ist C-BURIDAN grundsätzlich effizienter als BURI-

DAN, da redundante Aktionen nur ausgeführt werden, wenn der Erfolg der Planausführung

tatsächlich gefährdet ist.

Blythe stellt mit Weaver einen Planer vor, der genau wie BURIDAN die Erfolgswahrschein-

lichkeit eines Plans maximiert [Blyt97]. Eine Besonderheit von Weaver liegt in der sehr um-

fangreichen Modellierung der Unsicherheit in der Planung. Dies äußert sich in der Fähigkeit,

exogene Ereignisse zu berücksichtigen. Ein exogenes Ereignis ist ein Ereignis, das außerhalb

des direkten Einflusses des Planers liegt. Exogene Ereignisse werden mit einer bedingten

Wahrscheinlichkeit belegt und verändern beim Eintreten die im Plan auftretenden Ergebnisse.

Der Planer kann exogene Ereignisse nur indirekt durch Aktionen beeinflussen, deren Nachbe-

dingungen Einfluss auf die bedingte Eintrittswahrscheinlichkeit haben. Der Planerstellungs-

prozess in Weaver erfolgt in zwei Schritten. Zunächst wird ein Plan ohne Berücksichtigung

möglicher exogener Ereignisse entwickelt. Im zweiten Schritt werden die relevanten exoge-

nen Ereignisse erfasst. Ein exogenes Ereignis ist relevant, wenn es negative Auswirkungen

auf den Plan haben kann. Anschließend werden zusätzliche Aktionen und Abhängigkeiten in

den Plan eingefügt, die die Wahrscheinlichkeit eines unerwünschten Ereignisses reduzieren.

Um die Wahrscheinlichkeiten im Plan ermitteln zu können, modelliert Blythe die Aktionen

für Weaver zusätzlich zur Darstellung in einer konventionellen Planungssprache als Bayes-

Netzwerke. Anhand dieses probabilistischen Modells für Aktionen kann durch den Planungs-

algorithmus für einen bestehenden Plan ein gesamtes probabilistisches Modell erstellt werden.

Ein weiterer Planer, der die Erfolgswahrscheinlichkeit eines Plans maximiert, wird von Little

und Thiébaux [LT06] vorgestellt. Der Algorithmus Paragraph, der auf dem Graphplan-

Verfahren für deterministische Planungsprobleme basiert, kann parallele Teilpläne konstruie-

ren. In Erweiterung zum klassischen Plangraphen

enthält der Plangraph in Paragraph einen

weiteren Knotentyp, um probabilistische Planung zu ermöglichen. Für jeden Effekt, den eine

Aktion auslösen kann, wird ein Effektknoten in den Planungsgraphen eingefügt. Aufgrund des

neuen Knotentyps müssen auch die Mutex-Relationen erweitert werden: Mögliche Effekte

einer Aktion schließen sich gegenseitig aus, da nur ein Effekt wahr werden kann. Paragraph

versucht alle Aktionsfolgen zu finden, die das Planungsproblem lösen können. In einem wei-

teren Schritt werden Aktionsfolgen zusammengefasst, um die Erfolgswahrscheinlichkeit des

Plans zu erhöhen. Dabei können zwei Aktionsfolgen miteinander kombiniert werden, wenn

sie während der Ausführung den gleichen Zustand erreichen können. Als Ergebnis der Pla-

nung wird eine Kombination von Aktionsfolgen als gültiger Plan zurückgeliefert.

Alle bisher vorgestellten probabilistischen Planer versuchen, die Erfolgswahrscheinlichkeit

der Zielerreichung zu maximieren. Ein anderes Ziel verfolgt der Planer DRIPS [HS94]. Es

handelt sich um einen nutzenbasierten Planer. DRIPS verwendet eine Nutzenfunktion, um

alternative Pläne miteinander zu vergleichen. Für unterschiedliche partielle Pläne wird ein

Nutzenintervall berechnet. Ein Plan p dominiert einen anderen Plan p‘, wenn sowohl die unte-

re als auch die obere Grenze des Nutzenintervalls von p höher ist als die von p‘ [Well90]. Um

diesen Vergleich effizient durchführen zu können, setzt DRIPS abstrakte Pläne ein. Ein ab-

strakter Plan besteht aus Aktionen, die mehrere Aktionen der Planungsdomäne zusammenfas-

sen. Da ein solcher abstrakter Plan schneller zu konstruieren ist als ein konkreter Plan und

gleichzeitig mehrere konkrete Pläne umfasst, können auf diese Weise in kurzer Zeit eine grö-

ßere Anzahl alternativer Pläne als ungeeignet ausgesondert werden. Die abstrakten Pläne

können durch Verfeinerung in konkrete und ausführbare Pläne transformiert werden. DRIPS

wählt den konkreten Plan aus, dessen obere Grenze des Nutzenintervalls den höchsten Wert

aufweist.

Siehe Anhang B

Planung unter Unsicherheit 59

Probabilistische Planung weist eine interessante Kombination von Planungstechniken und

dem Glaubensmaß der Wahrscheinlichkeitstheorie auf. Die meisten Ansätze weisen jedoch

einen entscheidenden Mangel auf: In der Regel besitzt die verwendete Planungssprache die

gleiche einfache Struktur wie die PPDDL. Dadurch ergeben sich die in Kapitel 4.1.3.2 be-

schriebenen Nachteile für die Modellierung und die Berücksichtigung wechselnder Umfelder.

Einzig Blythe beschreibt in Weaver eine strukturierte Modellierung der Wahrscheinlichkeiten

innerhalb der Planungsdomänen. Insbesondere die Berücksichtigung exogener Ereignisse ist

eine herausragende Eigenschaft von Weaver. Allerdings beschränkt sich auch Weaver nur auf

Informationen, die bereits während der Modellierung der Planungsdomäne zur Verfügung

stehen. Berücksichtigung externer Informationsquellen ist nicht vorgesehen. Genauso be-

schränkt sich die Planung auf die Nutzung von a-posteriori-Wahrscheinlichkeiten und Infor-

mationen, die während einer (teilweisen) Planausführung gesammelt werden können, bleiben

unberücksichtigt.

4.1.4.5 Markov-Entscheidungsprozesse

Markov-Entscheidungsprozesse (englisch: Markov Decision Process, abgekürzt MDP) stellen

eine Erweiterung von Markov-Prozessen, die auch den Dynamischen Bayes-Netzwerken zu-

grunde liegen, zu einem Entscheidungswerkzeug dar. Sie werden zur Modellierung und Lö-

sung sequenzieller Entscheidungsprobleme verwendet. Ein häufiges Anwendungsgebiet stellt

das Reinforcement Learning dar, bei dem ein Softwareagent aus den Folgen seines Verhaltens

lernen soll. Sutton und Barto [SB98] beschreiben ein MDP als einen stochastischen Automa-

ten, der aus folgenden Elementen besteht:

• einer endlichen Menge von Zuständen +ZG

,…G

• einer endlichen Menge von Aktionen FG  Z

,…,

_ für jeden Zustand s;

• einer Wahrscheinlichkeitsverteilung "

OO‘

"G

b8

G‘|G



,



, die die Über-

gangswahrscheinlichkeit für jedes Tupel (s,a) zu allen möglichen Folgezuständen s de-

finiert und

• einer Menge von Erwartungswerten 

OO‘

 E

b8



G,



,G

b8

G‘, die die

Belohnung angeben, die erwartet werden kann, wenn in einem Zustand s die Aktion a

gewählt wird und als Folge der Zustand s‘ erreicht wird.

Ziel eines MDP ist die Festlegung einer optimalen Strategie π*, die zu jedem möglichen Zu-

stand s’ angibt, welche Aktion den Erwartungswert der Belohnungen maximiert.

Markov-Entscheidungsprozesse fokussieren auf die Darstellung eines mit Unsicherheit behaf-

teten Entscheidungsproblems. Dabei bleibt offen, wie die Übergangswahrscheinlichkeiten P

ass

hergeleitet werden können. Der Einsatz von MDP im Rahmen der Verhaltensplanung in me-

chatronischen Systemen wird außerdem durch die vorgegebene Struktur des Entscheidungs-

prozesses erschwert. Ein MDP maximiert die zu erwartende Belohnung. Die in Kapitel 2 be-

schriebene Planungsaufgabe beschreibt aber die Suche nach einem Ein- und Ausgabeverhal-

ten, das der Aufgabe des mechatronischen Systems entspricht. Eine solche Aufgabe ist mithil-

fe eines MDP nur schwer zu beschreiben, da die Bestimmung einer Belohnungsfunktion, die

garantiert in einen definierten Zustand führt, nur schwer möglich ist.

4.1.5 Fazit zum Stand der Technik Planung unter Unsicherheit

Betrachtet man den Stand der Technik zur Planung unter Unsicherheit im engeren Sinne, also

die Modellierungsmöglichkeiten zur Darstellung von Planungsproblemen und die Lösungs-

verfahren, wird großer Handlungsbedarf für die Konzeption einer Verhaltensplanung für me-

chatronische Systeme deutlich.

60 Planung unter Unsicherheit

Die beiden betrachteten Erweiterungen der PDDL, die NPDDL und PPDDL, schränken die

Darstellung von Unsicherheit auf eine diskrete Menge alternativer Startzustände und eine

diskrete Menge alternativer Nachbedingungen ein. Dies geschieht, damit der Zustandsraum

der Planung endlich bleibt. Jedoch steigt die Komplexität der Planung exponentiell im Ver-

gleich zum deterministischen Fall an, ohne die Ausdrucksstärke der Planungssprache auf ein

praxistaugliches Maß zu erhöhen.

Daher erscheint es vielversprechender, den Prozess der Planung unter Unsicherheit zweistufig

zu gestalten. Einige der beschriebenen probabilistischen Planer (z. B. Weaver) setzen ein de-

rartiges Vorgehen ein: Zuerst wird ein deterministischer Plan erzeugt, der dann anschließend

mithilfe von Wahrscheinlichkeitsmodellen analysiert wird. Jedoch erzeugen die untersuchten

probabilistischen Planer keine Alternativpläne in dem Sinne, dass sie im Falle einer auftreten-

den Planabweichung ausgeführt werden können. Stattdessen wird ein Erwartungsnutzen oder

eine Erfolgswahrscheinlichkeit maximiert. Dies entspricht nicht dem in Unterkapitel 2.3 an-

gestrebten Planungsprozess. Zusammenfassend mit den allgemeinen Modellen zur Beschrei-

bung von Unsicherheit und den Analysemethoden stellt jedoch die Integration von bedingten

Wahrscheinlichkeiten auf Basis von Bayes-Netzwerken in den Planungsprozess einen vielver-

sprechenden Ansatz dar.

Von den allgemeinen Planungsansätzen entspricht das bedingte Planen am besten der in Un-

terkapitel 2.3 beschriebenen Verhaltensplanung. In dieses Planungsprinzip soll der Analyse-

prozess auf Basis bedingter Wahrscheinlichkeiten integriert werden. Dabei soll aus der sen-

sorlosen Planung die Idee eines Belief States aufgriffen werden und im Rahmen der Analyse

sollen grundsätzlich alle möglichen Zustände betrachtet werden, aus denen für das bedingte

Planungsverfahren dann die relevanten Verzweigungen extrahiert werden. Als schnelle Um-

planungsverfahren im Sinne des Unterkapitels 2.3 sind die unter Ausführungsüberwachung

und Neuplanung beschriebenen Echtzeitplanungsverfahren geeignet.

4.2 Planung unter Unsicherheit für mechatronische Systeme

Abbildung 4-1 zeigt eine schematische Darstellung des angestrebten Planungsverfahrens zur

Berücksichtigung von Unsicherheiten. Es kombiniert die bedingte Planung mit der Planaus-

führung und Ausführungsüberwachung und Neuplanung. Die Grundidee besteht dabei darin,

die bedingte Planung als Standardplanungsverfahren einzusetzen und auf die Neuplanung nur

fallweise zurückzugreifen. Damit stellt die Neuplanung eine Rückfallebene dar, die genutzt

werden kann, wenn während der Planausführung Situationen auftreten, die im bedingten Plan

nicht berücksichtigt wurden. Da an die Neuplanung besondere Anforderungen hinsichtlich der

Planungsgeschwindigkeit gestellt werden müssen, die sich zu Lasten der Planqualität auswir-

ken können, ist die Anwendung der Rückfallebene soweit wie möglich zu vermeiden.

Durch die Verzahnung mit der Ausführung ergibt sich der Vorteil, dass auch Informationen,

die während der Planausführung gewonnen werden, zur Auswahl der besonders relevanten

alternativen Planverläufe genutzt werden können.

Abbildung 4-1 stellt eine zeitliche Aufteilung des angestrebten Verfahrens dar. Dabei bewegt

sich das Planungsverfahren zwischen zwei sich verschiebenden Horizonten. Der erste Hori-

zont verschiebt sich mit der Ausführung des Plans und befindet sich immer auf der Höhe der

aktuell ausgeführten Aktivität. An dieser Grenze findet logischerweise die Überwachung des

Planverlaufs statt. Sie ist zunächst notwendig, um festzustellen, welchen Verzweigungen im

bedingten Plan gefolgt werden soll. Andererseits werden durch die Ausführungsüberwachung

auch solche Zustände identifiziert, die nicht im bedingten Plan enthalten sind. In einer solchen

Situation ist ein echtzeitfähiges Umplanungsverfahren aufzurufen, das versucht, auf einen der

alternativen Planverläufe zurückzukehren.

Das bedingte Planungsverfahren erweitert – sofern die Umplanung nicht aktiv ist – den Plan-

baum laufend um weitere Verzweigungen. Durch diese Erweiterung ergibt sich der zweite

Planung unter Unsicherheit 61

Horizont, der Planungsfortschritt. Um das Auftreten eines nicht vorhergesehenen Zustands

und damit den Aufruf der Echtzeitplanung zu vermeiden, muss das bedingte Planungsverfah-

ren den jeweils relevantesten Knoten zur Expansion des Planbaums auswählen. Dabei ist zwi-

schen den Faktoren Eintrittswahrscheinlichkeit und der Zeit bis zum Eintreten der Aktivität

abzuwägen.

Abbildung 4-1: Skizze des Planungsverfahrens für Unsicherheit

Ein konkretes Beispiel für eine solche Verzweigung im Anwendungsszenario Energiemana-

gement des RailCabs ist ein Zustand, der sich durch einen Statorausfall auf einem der vorher

befahrenen Streckenabschnitte ergibt. Sinkt der Ladestand durch die in Folge des Statoraus-

falls reduzierte Leistungsübertragung so weit ab, dass die Gefahr eines Liegenbleibens be-

steht, wird ein alternativer Plan erzeugt, der genau so viel Leistung auf dafür geeigneten Stre-

ckenabschnitten einspart, dass die Gefahr vermieden wird. Dabei ist es wichtig zu bemerken,

dass sich das Verfahren an den Eintrittswahrscheinlichkeiten und den sich aus alternativen

Zuständen ergebenden neuen Zustandstrajektorien orientiert und nicht am Auftreten eines

einzelnen Ereignisses oder Einflusses. Beispielsweise spielt es keine Rolle, ob ein einmaliger

Statorausfall oder wiederholte starke Böen und der dadurch erhöhte Leistungsbedarf der akti-

ven Federung den geringen Ladestand verursachen.

Abbildung 4-2 veranschaulicht den Vorteil des angestrebten Planungsverfahrens. Das Beispiel

beschränkt sich auf die Betrachtung der aktiven Federung und dabei auch auf zwei unter-

schiedliche Teilfunktionslösungen: „Komfort“-Federung (hoher Komfort bei hohem Energie-

verbrauch) und inaktive Federung (kein Energieverbrauch und geringerer Komfort). Zwei

unterschiedliche Typen von Streckenabschnitten werden unterschieden. Bei glatter Strecke

verbraucht die Komfortfederung weniger Energie und die inaktive Federung erreicht höheren

Komfort als auf der rauen Strecke.

62 Planung unter Unsicherheit

Abbildung 4-2: Bedingte Planung und reaktive Umplanung im Energiemanagement

Auf die erste Aktivität wirkt mit einer Eintrittswahrscheinlichkeit von 40% der Umweltein-

fluss „Statorausfall“. Auf die dritte und vierte Teilfunktionslösung wirkt jeweils der Umwelt-

einfluss „starke Böen“ mit einer Eintrittswahrscheinlichkeit von 20%. Mithilfe der bedingten

Planung kann erkannt werden, dass es zweckmäßig ist, nach Eintreten des Statorausfalls den

Plan anzupassen. Im resultierenden alternativen Plan wird die Federung auf dem glatten Stre-

ckenabschnitt auf „inaktiv“ gestellt, wodurch am Ende eine Energiereserve von 15% resul-

tiert. Diese Reserve würde auch ausreichen, um auch bei starken Böen auf den letzten beiden

Abschnitten im Komfortmodus zu fahren.

Der untere Teil der Abbildung zeigt den Plan, der sich bei einem reaktiven Verhalten einstel-

len könnte. Da zunächst auch bei einem Statorausfall die Energie ausreicht, um den ursprüng-

lichen Plan zu verfolgen, würde er unverändert beibehalten. Erst wenn zusätzlich auf dem

vorletzten Streckenabschnitt starke Böen auftreten, würde das Problem erkannt. Es könnte nur

mit einer Abschaltung der Federung auf dem letzten Streckenabschnitt reagiert werden, was

größere Komforteinbußen zur Folge hätte.

In den folgenden Kapiteln werden die notwendigen Bausteine des hier umrissenen Verfahrens

im Detail beschrieben und konzipiert.

4.2.1 Planungsverfahren auf Basis bedingter Wahrscheinlichkeiten

Ziel dieses Kapitels ist die Definition eines bedingten Planungsverfahrens, das mit der Plan-

ausführung verzahnt wird. Das Verfahren soll – abhängig vom tatsächlichen Ausführungsver-

lauf – möglichst alle eintretenden Situationen berücksichtigen.

Die folgenden Kapitel werden zunächst die Modellierung und Berücksichtigung von beding-

ten Wahrscheinlichkeiten zur Beurteilung der Eintrittsmöglichkeit unterschiedlicher Situatio-

nen vorstellen und anschließend den Aufbau des bedingten Planungsverfahrens erläutern.

Planung unter Unsicherheit 63

4.2.1.1 Modellierung von Planungsproblemen mit bedingten Wahrscheinlichkeiten

Die unsichere Einwirkung des Umfelds mechatronischer Systeme wird in der PDDL und an-

deren Planungsformalismen nur unzureichend dargestellt. Diese Einwirkung stellt, wie in Ka-

pitel 2.3 dargelegt, die Hauptquelle der Planungsunsicherheit dar. Die Modellierung, die in

dem bedingten Planungsverfahren eingesetzt wird, muss zwei Anforderungen erfüllen: Zu-

nächst muss sie für Planungsalgorithmen effizient zu verarbeiten sein, andererseits muss das

erstellte Modell reichhaltige und situationsbezogene Informationen über alternative Planver-

läufe enthalten. Diese Ziele sind zunächst gegenläufig, da die Berücksichtigung alternativer

Planverläufe zu einem höheren Verzweigungsgrad führt und die Planungsalgorithmen weni-

ger stringent auf den Zielzustand zustreben können.

Die PDDL muss um die Berücksichtigung ausdrucksstarker Wahrscheinlichkeitsmodelle er-

weitert werden. Wie in Abschnitt 4.1.3.2 erläutert, ist die existierende Erweiterung durch die

PPDDL nicht ausreichend. Um die existierenden Planungssysteme nutzen zu können, soll die

PDDL strukturell allerdings nicht verändert werden. Stattdessen wird sie durch eine auf das

Planungsproblem angepasste probabilistische Modellierungsmethode ergänzt, die gleichbe-

rechtigt neben der PDDL steht. Um die beiden Modellierungsmethoden sinnvoll verzahnen zu

können, müssen sie sich für eine gegebene Planungsdomäne die Informationen über die

enthaltenen Typen und Objekte teilen.

Auf Basis der formalen Semantik der PDDL (siehe Abschnitt 2.1.1) kann eine ergänzende

Form der probabilistischen Modellierung konzipiert werden. Die Berechnung von Eintritts-

wahrscheinlichkeiten möglicher Planverläufe soll an bestehende Pläne anknüpfen. Daher soll

die probabilistische Modellierung sich in ihrer Struktur an die PDDL anlehnen. Dadurch wird

es möglich, eine mit Wahrscheinlichkeiten angereicherte Darstellung von PDDL-Plänen zu

erhalten, die die Basis für das bedingte Planungsverfahren darstellt. Daraus ergibt sich, dass

die probabilistische Modellierung ebenso wie die PDDL in einen allgemeinen Teil zerfällt,

der die grundsätzlichen Eigenschaften der Domäne angibt, und in einen speziellen Teil, der

ein konkretes Planungsproblem definiert.

Die probabilistische Domänendefinition muss zu jedem Element der PDDL-Domäne eine

Entsprechung haben. Jedes Funktionssymbol, jedes Relationssymbol und jedes Aktionssche-

ma muss einen Gegenpart besitzen. Um aus den Grundaktionen eines PDDL-Plans entspre-

chende Konstruktionen in der probabilistischen Modellierung ableiten zu können, ist es au-

ßerdem erforderlich, dass sich die Elemente der PDDL und der probabilistischen Domänende-

finition auch in ihrer Stelligkeit entsprechen. In einigen Fällen ist es allerdings notwendig, in

der Repräsentation der Elemente abzuweichen. Der Informationsgehalt der probabilistischen

Domänendefinition muss teilweise höher sein, da sonst keine sinnvolle Repräsentation der

Modellelemente mithilfe von Wahrscheinlichkeitsverteilung möglich ist. In der PDDL-

Darstellung von Variablen und Objekten gibt es nur boolesche Variablen (Relationen) und

reelle Zahlen (Funktionen). Auf dieser Basis lässt sich im Allgemeinen kein sinnvolles proba-

bilistisches Modell aufbauen.

Der erste und einfachste Schritt in der Definition einer probabilistischen Domänendefinition

ist die genauere Spezifikation der Funktionssymbole als Zufallsvariablen. Obwohl die PDDL

alle numerischen Werte grundsätzlich als reelle Zahlen modelliert, ist implizit eine genauere

Einschränkung des Wertebereichs möglich. Dies ist möglich, da nur durch die numerischen

Effekte der Aktionen Veränderungen an den Funktionswerten geschehen. Stellt man die Ef-

fekte also so auf, dass zum Beispiel nur ganzzahlige Werte als rvalue

auftreten, und definiert

man den Ausgangswert einer Funktion auch als ganzzahligen Wert, modelliert man implizit

Ein numerischer Effekt besteht aus einem lvalue (die zu aktualisierende Variable) und einem rvalue, der den

neuen Wert festlegt (vergleiche Kapitel 2.1.1).

64 Planung unter Unsicherheit

eine ganzzahlige Planungsvariable. Zur sinnvollen Angabe der probabilistischen Domänende-

finition ist es notwendig, diese impliziten Wertebereiche explizit anzugeben. Daher sei:

• Fs die endliche Menge von Funktionssymbolen entsprechend der PDDL-Domäne und

• E(B:HGI:a eine Funktion, die jedem Funktionssymbol einen möglichen Wer-

tebereich zuordnet.

Listing 4-1 zeigt beispielhaft, wie zusätzlich die Wertebereiche (ranges) der Funktionen an-

gegeben werden. Die Stelligkeit der Funktionssymbole kann aus der PDDL-Domänen-

Definition entnommen werden.

(:function_ranges ((EB2_G 5EBIZga|0/g/100_)

(1' 2

→

100)

(535E

→

Zg-|0/g/10_)

(`'G (

→

)

Listing 4-1: Funktion in der probabilistischen Domänendefinition für das RailCab

Anstatt den gesamten Bereich der reellen Zahlen zu verwenden, wird beispielsweise der

Energiespeicher auf den Zahlenbereich zwischen 0 und 100 beschränkt, während die Kapazi-

tät des Energiespeichers auf 100 festgesetzt wird und nicht von diesem Wert abweichen kann.

Der Komfort wird zur Verdeutlichung in ganzzahligen Schritten von 0 bis 10 bewertet. Durch

diese nähere Bestimmung der Zahlenwerte wird die Definition von Wahrscheinlichkeitsvertei-

lungen erleichtert: Es ist beispielsweise möglich, den Komfort mithilfe einer Häufigkeitsver-

teilung zu beschreiben, die bei Beibehaltung der reellen Zahlen aus dem Wertebereich durch

eine kontinuierliche Verteilung nur annähernd hätte beschrieben werden können.

Genau wie bei den Funktionssymbolen bietet sich auch bei der Definition der Relationen im

Rahmen der probabilistischen Domänendefinition eine genauere Modellierung an. Es handelt

sich dabei um die logischen Bestandteile eines Zustands. Eine Modellierung als boolesche

Zufallsvariable entspräche der PDDL-Darstellung. Damit würden folgende Eigenschaften für

jedes Element r aus Rs gelten:

• range(r)={Wahr, Falsch}

• P( r = Wahr ∨ r = Falsch) = 1.

Obwohl [FL03] dieses Sprachelement als Relation oder logisches Prädikat bezeichnet, hat es

oft einen funktionalen Charakter. Ein Beispiel für ein Prädikat mit funktionalem Charakter ist

das zweistellige Prädikat (at ?x railcab ?l location) aus der mechatronischen Beispieldomäne

(siehe 2.1.3). Die Bedeutung dieses Ausdrucks lässt sich vor dem Hintergrund der Anwen-

dung interpretieren: Das Prädikat gibt die Position eines RailCabs an. Derartige Prädikate sind

also für einen der beiden Parameter (im Beispiel ?x) eindeutig. Der Formalismus der PDDL

ist allerdings nicht in der Lage, diese Beschränkung darzustellen. Stattdessen ist es wiederum

erforderlich, die Beschränkung implizit in den Aktionsschemata zu modellieren. Im Rahmen

der deterministischen Dynamik der PDDL ist dies einfach zu realisieren – für Prädikate dieser

Art muss nur sichergestellt sein, dass jede Aktion a Add

maximal ein einziges Prädikat mit

gegebenem lparameter dieses Typs enthält und gleichzeitig Del

das entsprechende Prädikat

aus der Vorbedingung enthält. Die Darstellung innerhalb einer probabilistischen Modellierung

der Domäne ist erheblich komplizierter. In der probabilistischen Modellierung muss die Kon-

Planung unter Unsicherheit 65

junktion aller möglichen Belegungen eines Relationensymbols r mit einem gegebenen lpara-

meter l die Wahrscheinlichkeit eins haben:

"E

?

1

Diese Bedingung ist kaum darzustellen, wenn alle Relationensymbole gleich modelliert wer-

den. Für die probabilistische Domänendefinition wird die Menge der Relationensymbole Rs

daher in zwei Teilmengen aufgeteilt:

• Rs

func

⊆ Rs enthält diejenigen Relationensymbole, die einen funktionalen Charakter

haben und

• Rs

rel

= Rs / Rs

func

enthält alle übrigen Relationensymbole, die keinen funktionalen

Charakter haben.

Durch diese Unterscheidung wird es möglich, bei der Darstellung der Aktionen in der proba-

bilistischen Domänendefinition den unterschiedlichen Charakter der logischen Ausdrücke zu

berücksichtigen. Damit lässt sich die Struktur der probabilistischen Domänendefinition bereits

angeben. Eine probabilistische Domäne dom

prob

ist ein Sieben-Tupel dom

prob

= (dom

PDDL

, Fs,

func

, Rs

rel

, As, arity, range). Dabei bezeichnet dom

PDDL

die entsprechende PDDL-

Domänendefinition. Insgesamt sind folgende Anforderungen an den Zusammenhang der Do-

mänendefinitionen zu stellen:

• Fs ist in beiden Domänendefinitionen die gleiche Menge,

• Rs

func

∪ Rs

rel

= Rs und Rs

rel

∩ Rs

func

= {},

• As ist in beiden Domänendefinitionen die gleiche Menge und

• arity ist in beiden Domänendefinitionen die gleiche Stelligkeit

Nachdem die Elemente und die Struktur der probabilistischen Domänendefinition angegeben

und definiert wurden, muss nun angegeben werden, wie die dynamischen Zusammenhänge in

der Domäne dargestellt werden können. Anknüpfungspunkt hierfür sind Aktionen. Die Struk-

tur der Aktionen weicht dabei in einem Punkt von der Struktur der PDDL-Aktionen ab. In der

PDDL werden die positiven und negativen logischen Effekte einer Aktion a Add

und Del

isoliert modelliert. Diese Darstellung kann bei Relationensymbolen, die keinen funktionalen

Charakter haben, beibehalten werden. Für die Relationensymbole mit funktionalem Charakter

func

ist ein eigenes Effektelement FP

einzuführen.

In der probabilistischen Modellierung ist die Dynamik zu beschreiben mittels einer gemein-

samen Wahrscheinlichkeitsverteilung über die Effekte und Vorbedingungen der Aktionen:

P〈Add

, Del

, NP

, FP

, Pre

〉

Zur Darstellung dieser Wahrscheinlichkeitsverteilung werden Bayes-Netzwerke (vergleiche

4.1.2.1) verwendet. Dabei wird nicht versucht werden, die Wahrscheinlichkeitsverteilung in

einem einzigen Netzwerk darzustellen. Stattdessen wird für jeden einzelnen Effekt einer Ak-

tion a (für jedes Element aus Add

, Del

, NP

und FP

) ein eigenes Netzwerk modelliert.

Gewisse Einschränkungen und Vorgaben sind an das Netzwerk zu machen, um einerseits eine

effiziente Inferenz durchführen zu können und andererseits den Modellierungsaufwand einzu-

schränken sowie die notwendigen Informationen aus einem bestehenden PDDL-Plan ableiten

zu können. Zunächst ist die Inferenzrichtung für die Anwendung in der Planung eindeutig

66 Planung unter Unsicherheit

festgelegt: Die Inferenz verläuft von den Vorbedingungen einer Aktion zu den Nachbedin-

gungen einer Aktion. Durch diese Überlegung und die Festlegung, dass für jeden probabilisti-

schen Effekt ein eigenes Netzwerk konstruiert wird, kann die Netzwerkstruktur allgemein

beschrieben werden. Die allgemeine Beschreibung gibt dabei an, welche Zufallsvariablen an

welchen Stellen in einem Bayes-Netzwerk zur Beschreibung probabilistischer Effekte auftre-

ten können und welche Verknüpfungen möglich sind. Abbildung 4-3 stellt diese allgemeine

Struktur dar. Die Struktur lässt sich zunächst in drei unterschiedliche Ebenen aufteilen: die

Eingabeebene, die Zwischenebene und die Ausgabeebene. Auf der Ebene der Ausgabe befin-

det sich immer nur eine einzige Variable, die modellierte Effektvariable. Die Eingabeebene

enthält grundsätzlich nur Variablen, die sich aus den Preconditions der Aktion ableiten lassen.

Dies ist erforderlich, um aus einer Grundaktion innerhalb eines PDDL-Plans die für den Infe-

renzprozess notwendigen Evidenzen ableiten zu können. Die Knotenmengen der einzelnen

Ebenen einer Effektvariablen e einer Aktion a seien im Weiteren bezeichnet als:

• Input

a,e

für die Knoten der Eingabeebene,

• Hidden

a,e

für die Knoten der Zwischenebene,

• Output

a,e

für den Effektknoten.

Das Netzwerk wird als BN

a,e

bezeichnet. Dabei sind nur folgende gerichtete Kanten im Netz-

werk einer Aktion a erlaubt:

• von den Knoten der Eingabeebene zum Effektknoten,

• von den Knoten der Eingabeebene zu den Knoten der Zwischenebene,

• von Knoten der Zwischenebene zu anderen Knoten der Zwischenebene und

• von Knoten der Zwischenebene zum Effektknoten.

Durch die Möglichkeit, Knoten innerhalb der Zwischenebene miteinander zu verbinden, be-

steht die Gefahr, Zyklen in das Netzwerk einzubauen. Die Bedingung der Zyklenfreiheit muss

während der Modellierung der Netzwerke eingehalten werden.

Besondere Erläuterung bedarf die Zwischenebene, die Zufallsvariablen enthalten kann, die

weder in PDDL noch in den bisher erläuterten Bestandteilen der probabilistischen Domänen-

definition definiert sein müssen. Bei der Zwischenebene handelt es sich um eine Modellie-

rungsvereinfachung, die es bei geschickter Anwendung auch erlaubt, die Komplexität der

bedingten Wahrscheinlichkeitsverteilung der Effektvariablen zu begrenzen. Eine derartige

verborgene Variable kann eingesetzt werden, wenn der Zusammenhang mehrerer Eingabeva-

riablen auf die Ausgabevariable nicht ohne Weiteres darstellbar ist. Zusätzlich reduziert sich

die Stelligkeit der Wahrscheinlichkeitsverteilung der Effektvariablen, wenn die Anzahl der

Parameter oder Ausprägungen der verborgenen Variablen kleiner ist als die Summe der Pa-

rameter oder Ausprägungen ihrer Elternvariablen.

Planung unter Unsicherheit 67

Abbildung 4-3: Allgemeine Struktur eines Bayes-Netzwerks für probabilistische Effekte

Abbildung 4-4 zeigt ein mögliches Netzwerk aus der Aktion Drive. Das Netzwerk beschreibt

den Zusammenhang zwischen den Aktionsparametern time (Tageszeit), month (Monat), ener-

gy storage (Ladegrad des Energiespeichers), distance (Entfernung zwischen Start und Ende

der Fahraktion) und der Ausgangsvariable energy storage. Während Energiespeicher (also der

Ladestand vor der Fahrt) und die Länge der zu fahrenden Strecke unmittelbar auf den Ener-

giespeicher nach der Fahrt wirken, wirken die beiden Einflüsse Tageszeit und Monat nicht

direkt auf den Ladestand am Ende der Aktion. Stattdessen werden einige weitere Zufallsva-

riablen abgeleitet. Es handelt sich um Streckeneigenschaften wie humidity (Feuchtigkeit), ice

(Vereisung) und leaves (Blätter). Diese Streckeneigenschaften werden über die physikalische

Eigenschaft friction (Reibung), die Einfluss (über die nicht modellierte Wirkkette Stärke der

Anregung und Energieverbrauch der aktiven Federung) auf den Ladestand am Ende der Fahr-

aktion hat, abgebildet.

Eine wichtige Einschränkung zur Konstruktion der Bayes-Netzwerke wird dahingehend ge-

macht, dass die Eingabeebene Informationen über logische Atome nur indirekt beinhalten

darf. Indirekt meint dabei, dass nicht die konkreten logischen Atome auftreten dürfen, sondern

nur Informationen über deren numerische Eigenschaften. Dabei können aber sehr wohl nume-

rische Eigenschaften vorkommen, die nicht Bestandteil des PDDL-Aktionsschematas sind.

Der Grund für diese Einschränkung liegt darin, dass die Aufteilung in Domänendefinition und

Problemdefinition den Modellierungsaufwand reduzieren soll. Dazu ist es erforderlich, dass

möglichst große Anteile der Modellierung auf die Domänendefinition entfallen. Ein wesentli-

cher Anteil des Modellierungsaufwands entfällt vor allem auf die Spezifikation und Angabe

der bedingten Wahrscheinlichkeitsverteilungen in den Bayes-Netzwerken. In der Domäne

liegen aber keinerlei Informationen über Objekte vor, die genutzt werden könnten, um be-

dingte Wahrscheinlichkeitsverteilungen zu definieren. Würde auf diese Einschränkung ver-

zichtet, müsste die Spezifikation der Verteilungen in die Problemdefinition verschoben wer-

den. Weiterhin ist davon auszugehen, dass die meisten Einflüsse von Elementen der Vorbe-

dingung in der Regel quantifizierbar sind (wie z. B. der räumliche Abstand und die durch-

schnittliche Steigung zwischen zwei Punkten) und daher auch explizit modelliert werden soll-

ten.

PV1PV2PVn-1 PVn

HV1

HV2

…

HVm

…

Eingabe-Level

Versteckter Level

Ausgabe-Level

EV Effekt

HViVersteckte

Variable i

PViVorbedingungs-

variable i

68 Planung unter Unsicherheit

Abbildung 4-4: Beispiel Netzwerk aus der Aktion Drive

Neben der Modellierung der Netzwerkstruktur ist auch die innere Modellierung der Knoten

von besonderer Bedeutung. Die möglichen Formen der bedingten Wahrscheinlichkeitsvertei-

lungen, die die Knoten letztlich repräsentieren, hängen dabei von den Wertebereichen der

Zufallsvariablen ab, für die ein Knoten und dessen Elternknoten stehen. Aufgrund der Zwi-

schenschicht und der Modellierungsfreiheit beim Wertebereich der Funktionssymbole können

grundsätzlich sämtliche Kombinationen diskreter und kontinuierlicher Variablen auftreten.

Die Darstellungsmöglichkeiten wurden in Abschnitt 4.1.2.1 dargestellt. Die numerischen

Funktionssymbole Fs und die Relationensymbole mit nicht-funktionalem Charakter sind da-

bei in der Modellierung unproblematisch. Erstere werden entsprechend des angegebenen Wer-

tebereichs als diskrete oder kontinuierliche Zufallsvariablen modelliert, letztere als boolesche

Variable. Dabei ist natürlich zu beachten, dass Relationensymbole nur als Effektvariable auf-

treten können – modelliert wird daher die Wahrscheinlichkeit, dass ein positiver (Add

) oder

negativer (Del

) Effekt der modellierten Aktion a eintritt.

Die Modellierung der Relationensymbole mit funktionalem Charakter hat dagegen keine di-

rekte Auswirkung auf den Wertebereich und die Eintrittswahrscheinlichkeit eines positiven

oder negativen Effekts. Stattdessen muss die Modellierung so gewählt sein, dass immer ein

konsistenter Glaubenszustand hinsichtlich dieser Variablen gegeben ist. Um sicherzustellen,

dass die Konjunktion aller funktionalen Relationensymbole hinsichtlich eines gegebenen lpa-

rameters immer eine Wahrscheinlichkeit von genau 1 hat, soll eine solche Variable innerhalb

des Bayes-Netzwerks nicht als boolesche, sondern als diskrete Variable modelliert werden.

Mögliche Ausprägungen sind dabei alle Belegungen des Relationensymbols, die sich aus den

Parametern des Aktionsschemas erzeugen lassen. Dabei wird unterstellt, dass alle anderen

Relationensymbole die Wahrscheinlichkeit 0 besitzen.

Genau wie in der PDDL ist für ein konkretes Planungsproblem die Angabe einer Problemin-

stanz notwendig. Da das hier angestrebte Planungsverfahren nicht wie die meisten in Ab-

schnitt 4.1.4.4 vorgestellten Verfahren eine Schwellenwahrscheinlichkeit erreichen soll, ist

die probabilistische Definition eines Zielzustandes nicht notwendig. Die Menge der Objekte

kann der PDDL-Problemdefinition entnommen werden. Somit muss lediglich der Initialzu-

stand spezifiziert werden. Dieser wird angegeben mit einer Menge von Wahrscheinlichkeits-

verteilungen über die numerischen und logischen Ausdrücke der Probleminstanz.

Voraussetzung für die Modellierung einer kontinuierlichen Variable und ihre Verknüpfung mit anderen Va-

riablen ist die Implementierung geeigneter Inferenzmechanismen.

Planung unter Unsicherheit 69

(:init

(at railcab1 location1)

(= (capacity railcab1) 100)

(= (energy-storage railcab1) simpson(20,70,50))

...

)

Listing 4-2: Ausschnitt einer probabilistischen Problemdefinition des RailCab-Szenarios

Listing 4-2 zeigt einen Ausschnitt aus einer Problemdefinition aus dem RailCab Szenario. Die

ersten beiden Variablen werden als sicher modelliert. So steht das RailCab 1 garantiert an Ort

location1 und der Energiespeicher hat eine Kapazität von 100. Die Kapazität könnte auch

keinen anderen Wert haben, da ihr Wertebereich in der Domänendefinition in Listing 2-2 auf

den Wert 100 beschränkt wurde. Die Variable Energiespeicher ist dagegen zu Beginn des

Planungsproblems nicht sicher bekannt. Sie ist dreiecksverteilt

mit den Parametern 20, 70

und 50.

Auch Planmetriken müssen besondere Berücksichtigung im Rahmen der probabilistischen

Modellierung erfahren. Für die Variablen, die in einer Planmetrik angegeben werden, müssen

in der probabilistischen Problemdefinition weitere Informationen angegeben werden. Diese

Informationen werden genutzt, um mögliche ungünstige Abweichungen vom deterministi-

schen Planverlauf festzustellen. Die dafür notwendigen Informationen bzgl. jeder in der

Planmetrik enthaltenen numerischen Zustandsvariablen sind die Richtung, in der sich die Än-

derung negativ auf die Planmetrik auswirkt, und ab welcher relativen Abweichung eine Be-

handlung durch einen Alternativplan sinnvoll ist. Listing 4-3 zeigt ein Beispiel für eine solche

Planungsmetrik, die aus der dritten PDDL-Planungsmetrik aus Listing 2-7 abgeleitet wurde.

Diese Planungsmetrik beschreibt, dass Abweichungen nach unten im Komfort sich negativ

auf die Planqualität auswirken und eine Behandlung eines Ereignisses, das zu einer Reduzie-

rung des erwarteten Komforts führt, bei einer Abweichung von mindestens 10% erfolgen soll.

Ebenso wirken sich Zuwächse beim Energieverbrauch negativ aus, sollen aber erst bei einer

Abweichung von 15% behandelt werden.

(: metric

(Comfort (decrease, 10%)

(Total-energy-used (increase, 15%)

)

Listing 4-3: Planmetrik in der probabilistischen Problemdefinition

4.2.1.2 Probabilistische Analyse von Plänen

Mit dem im vorherigen Kapitel beschriebenen Modellierungsansatz ist die Grundlage für eine

probabilistische Analyse von Plänen gelegt. Es ist also möglich, anhand der probabilistischen

Domänendefinition, dem Initialzustand und einem vorliegenden PDDL-Plan eine Wahr-

scheinlichkeitsverteilung für möglicherweise im Verlauf der Planausführung eintretende Zu-

stände zu bestimmen. Die deterministische Sicht des Plans wird überführt in einen Planungs-

baum, dessen Knoten anstelle einzelner Zustände Zustandsmengen enthalten und deren Ele-

mente mit einer Eintrittswahrscheinlichkeit bewertet sind. Abbildung 4-5 zeigt den Planbaum,

der sich nach der Analyse ergibt.

Die Dreiecksverteilung wird auch als Simpsonverteilung bezeichnet.

70 Planung unter Unsicherheit

Abbildung 4-5: Planbaum nach der probabilistischen Analyse

Um den Analyseprozess zu definieren, sind zwei Schritte zu beschreiben. Der erste Schritt

konstruiert eine probabilistische Repräsentation des deterministischen Plans. Im zweiten

Schritt werden mittels eines Inferenzalgorithmus die aktuellen Wahrscheinlichkeitsverteilun-

gen bestimmt.

Abbildung 4-6 stellt die Struktur der probabilistischen Planrepräsentation dar. Sie besteht im

Wesentlichen aus zwei einander folgenden Elementen: Zuständen und Aktivitäten. Wie be-

reits in der PDDL lässt sich ein Zustand dabei in zwei Teilmengen unterteilen: den numeri-

schen und den logischen Teil. Die Elemente der Teilmengen ergeben sich genau wie in der

PDDL über die möglichen Belegungen der numerischen Funktionen (z. B. Ladestand des

Energiespeichers energy_storage) und Relationensymbole (z. B. Ortsbestimmung mittels des

Prädikats at) mit den Objekten einer Domäne (also dem Ladestand der Energiespeicher von

RailCab 1 und RailCab 2 sowie den Positionen von RailCab 1 und RailCab 2). Elemente des

numerischen Teils des Zustands sind Wahrscheinlichkeitsverteilungen über die Wertebereiche

der entsprechenden Domänenfunktionen. Hinsichtlich des logischen Bestandteils müssen der

funktionale und der relationale Teil unterschieden werden. Für den funktionalen Teil ist für

jeden möglichen lparameter eines Relationensymbols ein Element im Zustand enthalten. Der

Wertebereich dieses Modells ergibt sich aus allen möglichen Belegungen der Relationen bei

gegebenem lparameter. Im relationalen Teil des logischen Zustands sind die Wahrscheinlich-

keitsverteilungen der booleschen Variablen enthalten. Die Zustandsübergänge – und damit die

Umfeldeinflüsse auf die Aktivitäten und die daraus resultierenden möglichen Effekte – sind

durch die Aktivitäten im Plan gegeben, genauer gesagt durch die den entsprechenden Teil-

funktionslösungen zugeordneten Bayes-Netzwerke. Implizite Annahme dabei ist, dass Zu-

standselemente, die in einer Aktion nicht enthalten sind, die Verteilung des Vorgängerzu-

stands beibehalten. Diese implizite Annahme entspricht der Annahme in der klassischen Pla-

nung, dass Aktionen im Plan die einzige Quelle von Veränderungen sind. Diese Annahme

wird zunächst aufrechterhalten.

Sie wird in Abschnitt 4.2.1.3 abgeschwächt.

Planung unter Unsicherheit 71

Abbildung 4-6: Struktur der probabilistischen Planrepräsentation

Listing 4-4 zeigt in Form von Pseudo-Code, wie der in Abbildung 4-6 skizzierte Graph kons-

truiert und ausgewertet wird. Eingabewert für die Analyse stellt ein PDDL-Plan dar. Aus-

gangspunkt ist der Initialzustand des Planungsproblems. Über die erste Aktivität wird der

nächste Zustand ermittelt. Dazu werden die Bayes-Netzwerke aller Effekte der Aktivität aus-

gewertet. Der erste Schritt dieser Auswertung ist die Belegung der Knoten der Eingabewerte

mit den Werten des aktuell betrachteten Zustands. In der Nomenklatur der probabilistischen

Inferenz entspricht dies dem Setzen der Evidenzen. Anschließend wird auf dem Bayes-

Netzwerk, das zu der entsprechenden Effektvariablen definiert ist, eine Inferenz durchgeführt,

deren Ergebnis eine aktualisierte Wahrscheinlichkeitsverteilung der Effektvariablen ist. Diese

aktualisierte Verteilung wird in den Nachfolgezustand übertragen. Da die Inferenz nur für die

Effektvariablen der jeweiligen Aktion durchgeführt wird, muss nur eine Teilmenge der Zu-

standsvariablen betrachtet werden, was den Berechnungsaufwand reduziert. Im letzten Schritt

der Bestimmung des Nachfolgezustands werden die Verteilungen aller Variablen, die nicht

durch die Aktivität betroffen sind, aus dem vorherigen Zustand übertragen.

In Listing 4-4 wird die Inferenz auf den Bayes-Netzwerken der Effekte BN

a,e

lediglich als

einzelner Aufruf dargestellt. Während der Rahmen von Listing 4-4 aber nur die Konstruktion

der probabilistischen Planrepräsentation darstellt und ausschließlich Wertzuweisungen

enthält, geschieht die eigentliche Berechnung von Effekten und damit neuer Zustände in der

probabilistischen Inferenz.

Durch die im Abschnitt 4.2.1.1 gewählte Modellierung ist sichergestellt, dass jeweils nur die

aktuelle Wahrscheinlichkeitsverteilung der Effektvariable Eff abgefragt wird. Dadurch bietet

sich ein Inferenzalgorithmus an, der gezielt eine solche Verteilung P(Eff |e) unter Vorliegen

der Evidenzen e berechnet, anstatt die vollständige gemeinsame Verteilung des Netzwerks

berechnen. Ein solcher Inferenzalgorithmus ist der Message-Passing-Algorithmus von Pearl

[Pearl88]. In Bezug auf den abgefragten Knoten X teilt der Message-Passing-Algorithmus die

Evidenzen in Evidenzvariablen E

X+

, die nur über Elternknoten von X erreichbar sind, und

Numerische

Planungsvariablen

Relationale

Planungsvariablen

Funktionale

Planungsvariablen

72 Planung unter Unsicherheit

Evidenzvariablen E

, die nur über die Kindsknoten von X erreichbar sind, ein. Die aktuelle

Verteilung von X wird berechnet, indem der Beitrag von E

X+

als Wirkung auf die Elternkno-

ten und der Beitrag von E

als Wirkung auf die Kindsknoten von X berechnet wird. Im letzten

Schritt der Inferenz wird der Effekt der aktualisierten Verteilung auf X bestimmt. Da die Ef-

fektvariable Eff die einzige abgefragte Variable und in jedem Fall eine Senke im Netzwerk ist,

ist die Menge Eff

immer leer. Dadurch lässt sich der Message-Passing-Algorithmus vereinfa-

chen. Nach der probabilistischen Analyse eines deterministischen Plans steht eine Planreprä-

sentation zur Verfügung, die keine eindeutigen Zustände, sondern Zustandsmengen enthält.

Zusätzlich sind Informationen über die Eintrittswahrscheinlichkeit dieser Zustände verfügbar.

Dabei ist zu beachten, dass Informationen über Eintrittswahrscheinlichkeiten nicht direkt,

sondern nur indirekt über einzelne Zustandselemente vorliegen. Das gibt jedoch die nötige

Freiheit, die Verzweigungen innerhalb des bedingten Plans situationsabhängig zu bestimmen.

AnalysierePlan (Plan p)

Zustand s

= erster Zustand

Zustand s

= Nachfolger von s

Aktion a = erste Aktion im Plan

Tue

Über alle e ∈ NP

∪ FP

∪ Pre

Über alle n ∈ Input

a,e

n = s

inferenz(BN

a,e

)

.e = Ausgabe

a,e

Tue

Über alle e ∈ s

/(NP

∪ Pre

)

.e = s

Tue

= s

= Nachfolger von s

a = nächste Aktion

Solange eine Aktion a im Plan enthalten ist

End AnalyzePlan

Listing 4-4: Probabilistische Analyse eines Plans

4.2.1.3 Einbeziehen von Experteninformationen über Umfeldeinflüsse

Einer der wesentlichen Kritikpunkte an bestehenden Ansätzen zur probabilistischen Planung

war die unzureichende Verwertung aktueller Informationen über das Ausführungsumfeld ei-

nes Plans. In diesem Abschnitt wird ein Ansatz vorgestellt, der es erlaubt, Experteninforma-

tionen über das Umfeld einzubeziehen. Abbildung 4-5 zeigt, dass die Modellierung der Teil-

funktionslösungen bzw. Aktivitäten mithilfe Bayes-Netzwerke die Berücksichtigung von Um-

feldeinflüssen bereits erlaubt. Beschränkt man allerdings die Umfeldeinflüsse auf die Infor-

mationen, die in der probabilistischen Domänendefinition enthalten sind, können nur sehr

allgemeine Informationen berücksichtigt werden.

Expertensysteme (z. B. realisiert als Softwareagenten), die über ein detaillierteres Wahr-

scheinlichkeitsmodell hinsichtlich bestimmter Umfeldeinflüsse verfügen, können genutzt

werden, um möglichst genaue Wahrscheinlichkeitsverteilungen erhalten. Die Grundidee be-

steht dabei darin, dem Planungssystem innerhalb der probabilistischen Analyse die Möglich-

keit zu geben, externe Expertensysteme nach einer aktuellen Wahrscheinlichkeitsverteilung

einer bestimmten Variablen zu befragen. Dadurch können auch Veränderungen und Entwick-

lungen, die nicht durch die Planausführung verursacht werden, innerhalb der eigentlichen Pla-

nung berücksichtigt werden.

Planung unter Unsicherheit 73

Die Anfragen des Planungssystems an die Expertensysteme beinhalten a posteriori Informa-

tionen, die während der Planung erzeugt und gesammelt werden. Zu diesen Informationen

gehört vor allem, wann welche Teilfunktionslösung wo ausgeführt werden soll. Abbildung 4-

7 stellt den Ablauf der Interaktion des Planungssystems mit den Expertensystemen als Zu-

standsautomat dar. Nach der Initialisierung des deterministischen Plans durchwandert die

probabilistische Analyse die Aktivitäten. Bei jeder Aktivität besteht die Möglichkeit, zu be-

stimmten Umgebungsvariablen – das können sowohl Variablen aus dem Input-Layer als auch

aus dem Hidden-Layer sein – die aktuelle a posteriori Verteilung bei einem Expertensystem

zu erfragen. Nachdem alle Variablen zu einer Aktivität abgefragt sind, kann mit dem nächsten

Zustands-Aktivitätenpaar fortgefahren werden.

Abbildung 4-7: Zustandsautomat der erweiterten probabilistischen Analyse

Um den Ablauf der erweiterten probabilistischen Inferenz effizient und flexibel zu gestalten,

werden Variablen, deren Verteilung von Expertensystemen erfragt wurden, so behandelt, als

hätten sie keine weiteren Elternknoten. Das bedeutet, falls das Expertensystem eine Antwort

liefert, wird diese im Weiteren als a-posteriori-Wahrscheinlichkeitsverteilung genutzt, unab-

hängig von dem Ergebnis der Inferenz im Bayes-Netzwerk der Teilfunktionslösung. Für den

Fall, dass ein Expertensystem nicht antwortet und es zum Time-Out kommt, kann die a-

posteriori-Wahrscheinlichkeit der Variablen weiterhin wie in Abschnitt 4.2.1.2 bestimmt wer-

den. Das bedeutet zwar einen Verlust an Aktualität und Genauigkeit, verhindert aber einen

Abbruch der Analyse.

Ein Beispiel für die erweiterte probabilistische Analyse liefert das Netzwerk aus Abbildung 4-

4, das die Wahrscheinlichkeitsverteilung über die Ausgangsvariable energy storage (Ladegrad

Energiespeicher) ermittelt. Dabei werden im Bayes-Netzwerk die Variablen humidity (Feuch-

tigkeit), ice (Vereisung) und leaves (Laub auf der Schiene) benutzt, um auf die physikalische

Eigenschaft friction (Reibung) zu schließen. Da dieses Bayes-Netzwerk für die Aktion drive

definiert wurde, sind die Verteilungen allgemein gehalten und gelten über alle möglichen

Streckenabschnitte. Entsprechend ungenau sind die Wahrscheinlichkeitsverteilungen. Wird

stattdessen ein Expertenagent, der logisch in der Umgebung eingebettet ist, beispielsweise

über die Variable Laub befragt, kann er spezielles Wissen über die Umgebung einbeziehen.

Beim Laub wären dies etwa Informationen über den Baumbestand an der Strecke. Die Model-

lierung könnte im Extremfall so fein sein, dass für einzelne Baumarten Wahrscheinlichkeits-

modelle über den Zeitpunkt enthalten sind, zu dem sie ihre Blätter fallen lassen.

Das erweiterte Umgebungswissen des Expertensystems wird ebenfalls in Bayes-Netzwerken

dargestellt. Dabei verfügt der Experte allerdings über ein detaillierteres Modell der Umge-

bung und ihm stehen zusätzlich aktuelle Informationen über den Zustand der Umgebung zur

terminiere

Keine

Variable enthalten

Keine Zustände mehr vorhanden

keine Nachricht erhalten

init Zustand

Experten-

system

befragen

Schätzung

empfangen

Variable

wählen

Nachricht erhalten

oder Time-Out

74 Planung unter Unsicherheit

Verfügung, die er im Inferenzprozess nutzen kann. Ebenso wie bei der Modellierung der

Bayes-Netzwerke zur Beschreibung der Teilfunktionslösungen kann auch bei den Experten-

netzwerken eine einzelne abzufragende Variable als Senke im Graphen modelliert werden.

Dadurch muss das Planungssystem die Variablen zwar einzeln abfragen, die Inferenz gestaltet

sich jedoch effizienter. Es lassen sich auch hier Eingabeschicht, versteckte Schicht und Aus-

gabeschicht unterscheiden. Im Unterschied zu den Bayes-Netzwerken der Teilfunktionslösun-

gen kann ein Expertennetzwerk aber Eingabeknoten enthalten, die nicht aus der probabilisti-

schen Repräsentation des Plans stammen. Dies sind Parameter oder Variablen, die dem Ex-

pertensystem direkt bekannt sind (z. B. durch Messung) oder bei anderen Systemen erfragt

werden können. Da für die Einbindung in den Plan aber letztlich nur die Knoten, die aus dem

Planungssystem stammen, und Ausgabeknoten vorab definiert werden können, kann sich die

übrige Struktur des Netzwerks an den Eigenschaften des jeweiligen Umfelds orientieren. Da-

durch wird eine höhere Flexibilität und Situationsangemessenheit des Planungssystems er-

reicht.

Abbildung 4-8 zeigt die Struktur der probabilistischen Analyse, nachdem sie um Expertensys-

teme erweitert wurde. Im Wesentlichen hinzugekommen ist eine Kommunikation zwischen

den Planungssystemen und mehreren Expertensystemen. Damit liegt eine Art von verteiltem

Planungssystem vor. Eine wesentliche Frage ist, wie das Planungssystem das für eine Abfrage

zuständige Expertensystem identifiziert. Der in Abschnitt 5.1.3.1.3 beschriebene Koordinati-

onsmechanismus der Yellow Pages bietet sich zur Lösung dieses Identifikationsproblems an.

Jedes Expertensystem, das im System verfügbar ist, kann sich bei den Yellow Pages anmel-

den und dort hinterlegen, für welche Umfeldvariable es die aposteriori Verteilung bestimmt

und welche Eingabevariablen benötigt werden. Da die Expertensysteme unter Umständen

noch mit einer Vielzahl anderer Systeme kommunizieren, um möglichst genaue Informatio-

nen bereitzustellen, bietet sich ein Multiagentensystem (MAS) zur Realisierung der Experten-

systeme an.

Insgesamt erlaubt die Einführung der Expertensysteme, die komplexe Aufgabe der probabilis-

tischen Modellierung von Umfeldeinflüssen aufzuteilen und dadurch handhabbar zu machen.

Weiterhin ermöglichen sie die Berücksichtigung von Umweltereignissen. Da das Bekann-

twerden von neuen Ereignissen und Fakten Wirkung auf die a-posteriori-

Wahrscheinlichkeitsverteilungen der Planungsvariablen hat, ist eine größere Aktualität der

Planinformation gegeben, als dies bei Beschränkung auf Informationen, die zur Modellie-

rungszeit verfügbar sind, möglich wäre.

Planung unter Unsicherheit 75

Abbildung 4-8: Erweiterte probabilistische Analyse

4.2.1.4 Bestimmung von Verzweigungsstellen im Plan

Aufgrund der gewählten Modellierung ergeben sich Verzweigungsstellen nicht direkt wie bei

einer endlichen Menge alternativer Effekte, wie sie üblicherweise in der bedingten Planung

eingesetzt wird (z. B. in der NPDLL oder PPDDL, vergleiche Abschnitte 4.1.3.1 und 4.1.3.2).

Stattdessen enthält der Plan nach der probabilistischen Analyse Mengen alternativer Effekt-

elemente. Aus diesen Mengen müssen die Verzweigungsstellen im Plan erst abgeleitet wer-

den. Dabei sind zwei Anforderungen zu stellen, um für eine Abweichung vom deterministi-

schen Planverlauf und einen damit verbundenen alternativen Ausführungsverlauf eine Ver-

zweigungsstelle zu erzeugen:

1. Der alternative Verlauf muss die Qualität oder Durchführbarkeit des bisherigen Plans

(spürbar) beeinflussen.

2. Der alternative Verlauf muss eine gewisse Eintrittswahrscheinlichkeit haben.

Diese beiden Kriterien können untersucht werden, während der deterministische Plan vor-

wärts durchlaufen wird. In der PDDL werden die Vorbedingungen in Form einer aussagenlo-

gischen Formel angegeben. Diese aussagenlogische Formel verknüpft mehrere einfache Aus-

drücke, deren Wahrheitswert im Rahmen der deterministischen Planung als sicher bekannt

unterstellt wird. Damit sind alle Belegungen der enthaltenen Variablen, die dazu führen, dass

die Formel den Wahrheitswert Falsch annimmt, grundsätzlich relevante Ereignisse. Aus der

Darstellung der Formel in Form eines Baums lassen sich, unter Beachtung der Art der Ver-

knüpfung einzelner Zustandsparameter, die planungsrelevanten Ereignisse ableiten. Abbil-

dung 4-9 zeigt ein Beispiel für eine solche Baumdarstellung. Wurzel und innere Knoten des

Baums stellen immer eine Verknüpfung dar, die Blätter des Baums sind einfache Ausdrücke,

die genau eine Zustandsvariable enthalten. Für diese lässt sich direkt bestimmen, ob sie wahr

oder falsch sind. Ein Ereignis, das dazu führt, dass eine Aktivität nicht durchführbar ist, be-

steht mindestens aus der Negation eines solchen einfachen Ausdrucks. Aus der Struktur der

Vorbedingung lässt sich zusätzlich ableiten, ob eine Verzweigung für das Auftreten eines ein-

76 Planung unter Unsicherheit

zelnen Ereignisses (gewissermaßen ein elementares Ereignis) oder einer ganzen Mengen von

Ereignissen (ein zusammengesetztes Ereignis) angelegt werden muss.

Abbildung 4-9: Darstellung einer Vorbedingung als Planungsbaum

Ein Beispiel für eine solche Vorbedingung aus der Bahntechnik ist ein Fahrzeug, dass Energie

aus einem Energiespeicher laden kann oder eine Stromschiene benutzt, um die Leistung ins

Bordnetz zu übertragen. Das Fahrzeug kann einen Streckenabschnitt befahren, wenn der

Energiespeicher ausreichend geladen ist und funktioniert oder der Streckenabschnitt bestromt

ist.

Um einem Teilbaum mit einer Disjunktion als Wurzel einen Wahrheitswert Falsch zuzuwei-

sen, müssen beide enthaltene Teilbäume Falsch zurückliefern. Im Falle einer konjunktiven

Verknüpfung in der Wurzel reicht ein Teilbaum, der Falsch zurückliefert. Dabei lässt sich

jeder Teilbaum letztlich auf eine Menge einfacher Ausdrücke zurückführen. Diese Überle-

gung kann genutzt werden, um beim Durchlaufen des Vorbedingungs-Baumes alle relevanten

Ereignisse zu identifizieren. Um das Durchlaufen zu beschleunigen und das Ergebnis auf die

relevanten Ereignisse zu beschränken, müssen die Teilbäume bereits während des Durchlau-

fens bzgl. ihrer Eintrittswahrscheinlichkeit bewertet werden. Ausgangspunkt der Wahrschein-

lichkeitsbewertung stellen dabei die Blätter des Baums dar, deren Eintrittswahrscheinlichkeit

sich direkt aus den Wahrscheinlichkeitsverteilungen der Zustandsvariablen ableiten lässt. Ab-

bildung 4-10 zeigt, wie die Wahrscheinlichkeiten unter Beachtung der Verknüpfungsoperato-

ren von den Blättern bis zur Wurzel propagiert werden können.

Abbildung 4-10: Propagation der Wahrscheinlichkeiten im Vorbedingungsbaum

Das folgende Listing 4-5 zeigt, wie eine solche Propagation realisiert werden kann und wie

dabei zusätzlich beim Durchwandern des Baums eine Menge relevanter zusammengesetzter

Ereignisse erzeugt wird. Diese Menge wird dann im weiteren Verlauf der Planung berücksich-

tigt. Grundlegend bei der Propagation sind dabei die Bildung der Eintrittswahrscheinlichkei-

Planung unter Unsicherheit 77

ten und Mengen relevanter Ereignisse an den Operatorknoten. Die Wahrscheinlichkeit, dass

ein Disjunktionsknoten den Wert Falsch annimmt, ergibt sich dabei als Minimum seiner bei-

den Kindsknoten, die beide Falsch sein müssen. Im Falle eines Konjunktionsknoten ist es das

Maximum der beiden Kindsknoten, da es ausreicht, wenn einer Falsch ist.

Die relevanten Ereignisse, die an einem Knoten anliegen, werden in einem Vektor gehalten.

Elemente des Ereignisvektors eines Knotens k sind dabei Mengen von Blättern, deren Bele-

gung mit Falsch insgesamt dazu führt, dass der durch den Baum mit Wurzel k beschriebene

Ausdruck ebenfalls falsch wird. Dabei sind Disjunktion und Konjunktion wiederum unter-

schiedlich zu behandeln. Im Falle der Disjunktion enthält der Ereignisvektor genau diejenigen

Elemente, die sich durch paarweise Verkettung der Elemente der beiden Ereignisvektoren der

Kindsknoten erzeugen lassen. Dadurch erhält man alle relevanten zusammengesetzten Ereig-

nisse, die dafür sorgen, dass der durch die Wurzel k beschriebene Ausdruck Falsch wird. Im

Falle der Konjunktion muss der Vektor sowohl die durch paarweise Verkettung erzeugbaren

Ereignisse als auch die einzelnen Elemente der Ereignisvektoren der Kindsknoten enthalten.

Die Anzahl der Elemente der Ereignisvektoren kann durch konjunktive Verknüpfungen sehr

schnell steigen. Daher werden nur solche Ereignisse betrachtet, deren Eintrittswahrscheinlich-

keit mit einer gewissen Schwellenwahrscheinlichkeit eintritt. Indem diese Schwellenwahr-

scheinlichkeit bereits beim Durchlaufen des Baumes berücksichtigt wird, muss nur eine klei-

nere Menge relevanter Ereignisse weiterverarbeitet werden.

bestimmeRelevanteEreignisse(Knoten k)

Wenn Typ von k = '∨' Dann

p(k) = arg_min( p(k.links),p.(k.rechts)

Wenn(p(node) < Schwellenwahrscheinlichkeit)

Dann liefere zurück(p(k), nil)

Sonst

liefere zurück(p(k), k.links.events × k.rechts.events)

Sonst Wenn Typ von k == '∧'

p(k) = arg_max (p(k.links),p(k.rechts))

Wenn(p(k) < Schwellenwahrscheinlichkeit)

liefere zurück (p(k),nil)

Sonst

liefere zurück(p(k), (k.links.events × k.rechts.events) ∪

k.links.events ∪ node.rechts.events)

Sonst // Knotentyp = “element”

Wenn(p(k) < Schwellenwahrscheinlichkeit)

liefere zurück (p(k), null)

Sonst

liefere zurück (p(k) k.events)

Ende

Listing 4-5: Ableitung relevanter Ereignisse aus einer Aktivität

Der in Listing 4-5 beschriebene Ablauf liefert schließlich einen Vektor von zusammengesetz-

ten Ereignissen zurück, die den Planungsablauf potenziell stören können. Diese zusammenge-

setzten Ereignisse müssen noch hinsichtlich ihrer Eintrittswahrscheinlichkeit beurteilt werden.

Bei vollständig unabhängigen Elementarereignissen ergäbe sich die Wahrscheinlichkeit des

gemeinsamen Auftretens durch Multiplikation der Einzelwahrscheinlichkeit. Im Rahmen der

Planung kann aber nicht von vollständiger Unabhängigkeit ausgegangen werden – die Zu-

standsvariablen, die den Elementarereignissen zugrunde liegen, können durch die gleichen

Einflüsse beeinflusst werden. Daher würde eine Multiplikation der Ereignisse unter Umstän-

den zu einer Unterschätzung der Eintrittswahrscheinlichkeit führen und zusammengesetzte

Ereignisse mit wenigen Elementen würden zu stark bevorzugt. Geht man zusätzlich davon

aus, dass ein Alternativplan, der beim Eintreten mehrerer Elementarereignisse gültig ist, häu-

78 Planung unter Unsicherheit

fig auch gültig sein wird, wenn einzelne Elementarereignisse nicht eintreten, ist dieser Effekt

nicht wünschenswert. Daher wird zur Bewertung der Eintrittsmöglichkeit die minimale Ein-

trittswahrscheinlichkeit aller im zusammengesetzten Ereignis enthaltenen Elementarereignisse

herangezogen. Abbildung 4-11 veranschaulicht dieses Vorgehen.

Abbildung 4-11: Bewertung zusammengesetzter Ereignisse

Indem das vorgestellte Vorgehen auf jede Aktivität im Plan angewandt wird, erhält man für

jede Aktivität eine Abschätzung, wie wahrscheinlich sie nicht ausführbar wird. Zur Behand-

lung eines solchen Ereignisses stehen grundsätzlich zwei unterschiedliche Möglichkeiten zur

Verfügung:

1. Erstellen eines Alternativplans für den Fall, dass das Ereignis eingetreten ist und die

Aktion nicht mehr ausführbar ist.

2. Erstellen eines Alternativplans zur Vermeidung des Ereignisses.

Die Verzweigung liegt im ersten Fall direkt an der Aktivität, an der das Ereignis identifiziert

wurde. Da zuvor die Zusammensetzung des Ereignisses bestimmt wurde, kann daraus die

Bedingung abgeleitet werden, unter der ein alternativer Plan ausgeführt werden soll.

Der zweite Ansatz ist mit mehr Aufwand und zusätzlicher Analyse des Plans verbunden. Da-

für reagiert er antizipativ auf mögliche Ereignisse und kann dadurch Fehler vermeiden. Dabei

lässt sich die Analyse des Plans nur für numerische Zustandsvariablen sinnvoll durchführen.

Dazu müssen die Aktivitäten, die zeitlich vor a liegen, dahingehend untersucht werden, ob sie

eine negative Wirkung auf die numerische Variable v

besitzen. Dazu muss für die Aktivität

t-142

ein Schwellenwert bestimmt werden, ab dem der Alternativplan ausgeführt werden soll.

Der erste Schritt in der Bestimmung dieses Schwellenwerts ist die Prüfung, ob a

t-1

tatsächlich

eine Gefahr für die Ausführbarkeit der Aktivität a

darstellt. Die Vorbedingung der Aktivität

bezüglich der Zustandsvariablen v

hat dabei grundsätzlich die Form:

?,



,

,4a,g

?,

aiZ;∞_,g

?,

aiZn∞_

Für x

l,t

= x

u,t

erfordert die Vorbedingung der Aktivität a, dass v genau einen Wert annimmt.

Für x

l,t

= -

∞

u,t

= +

∞

) erfordert die Vorbedingung, dass v

≤ x

u,t

≥ x

l,t

) gilt. Anhand die-

ser Informationen lässt sich für die als letzte vor a auf v

zugreifende Aktivität

t-1

bestimmen,

ab welchen Werten von v

t-1

wahrscheinlich ein Wert v

erreicht wird, der die Vorbedingung

von a

nicht erfüllt. Betrachtet man die Struktur eines numerischen Effekts, ist derjenige lva-

lue der Zustandsvariablen v

t-1

gesucht, bei dem sich ein neuer Wert für v

ergibt, der nicht

zwischen x

und x

liegt. Dabei ist zu beachten, dass der rvalue eine Zufallsvariable ist. Für

diese Zufallsvariable sollen entsprechend zu x

l,t

und x

u,t

obere und untere Schranken bestimmt

werden, die mit einer gewissen Wahrscheinlichkeit α eintreten können. Gesucht sind also

Obwohl der Index t-1 nahelegt, dass a

t-1

direkter Vorgänger von a

ist, muss dies nicht der Fall sein. a

t.1

ist die

erste Aktion vor a, die auf die Zustandsvariable v zugreift.

Planung unter Unsicherheit 79

zwei Werte, die sich aus den in der probabilistischen Analyse bestimmten Werten ableiten

lassen:

• r

l,t-1

mit P(r

t-1

≤ r

l,t-1

) = α, α ∈ [0,1]

• r

u.t-1

mit P(r

t-1

≥ r

u,t-1

) = α, α ∈ [0,1]

Mit dem Parameter α kann gesteuert werden, wie risikofreudig oder vorsichtig das Planungs-

verfahren vorgeht. Bei einem klein gewählten α wird bereits sehr frühzeitig auf einen alterna-

tiven Plan umgeschwenkt, während bei großem α erst bei größeren Abweichungen reagiert

wird. Durch Verrechnen der Variablen x

l,t

und x

u.t

sowie r

l,t-1

und r

u,t-1

lassen sich nun direkt

Werte für v

t-1

ermitteln, ab deren Über- bzw. Unterschreiten eine Verzweigung im Plan vor-

zusehen ist. Dabei muss die Art des Zuordnungsoperators beachtet werden. Tabelle 4-1 zeigt,

wie die Berechnung der oberen und unteren Schrankenwerte des v

l,t-1

und v

u,t-1

in Abhängig-

keit vom Zuordnungsoperator erfolgt.

Zuordnungsoperator v

l, t

u,t

assign - -

increase

;



;



decrease



scale-up



scale-down



Tabelle 4-1: Berechnung der Schrankenwerte für antizipierende Verzweigung

Die ermittelten Werte v

l,t-1

und v

i.t1-1

lassen sich nun anhand der Wahrscheinlichkeitsvertei-

lung der Zustandsvariable v

t-1

aus der probabilistischen Zustandsanalyse bzgl. ihrer Eintritts-

wahrscheinlichkeit beurteilen. Die Konstruktion von möglichen Verzweigungsstellen, die die

Durchführbarkeit der Aktivität a

absichern, lässt sich durch Kenntnis der Variablen v

l,t-1

und

u.t-1

fortführen, indem sie zur Berechnung der Werte v

l,t-2

und v

u,t-2

herangezogen werden.

Der Ablauf der Berechnung ist dabei analog zur Berechnung von v

l,t-1

und v

u.t-1,

die an die

Stellen von x

l,t

und x

u,t

treten. Indem dieser Ablauf iterativ für alle Aktivitäten, die vor a

lie-

gen und auf die Zustandsvariable v zugreifen, angewendet wird, ergeben sich zwei Zustands-

trajektorien (eine für v

l,i

und eine für v

u,i

), die die Aktivität a

undurchführbar machen würden.

Durch die alternativen Pläne kann dann frühzeitig reagiert werden, wenn sich eine der Zu-

standstrajektorien abzeichnet. Eine solche Zustandstrajektorie bestände im Beispiel des Rail-

Cab-Energiemanagements vornehmlich aus den Ladeständen der Batterie. Durch das Durch-

laufen des Plans werden die Zustände bestimmt, die beispielsweise mit erhöhter Wahrschein-

lichkeit dazu führen, dass nicht mehr ausreichend Energie bereitsteht, um einen Streckenab-

schnitt in der geplanten Art und Weise zu befahren. Abbildung 4-12 veranschaulicht eine de-

rartige Zustandstrajektorie.

80 Planung unter Unsicherheit

Abbildung 4-12: Zustandstrajektorie zu einer nicht ausführbaren Aktivität

Die isolierte Betrachtung einer solchen Zustandstrajektorie für eine einzige Zustandsvariable

ist allerdings nicht ausreichend. Wie zuvor dargelegt, setzen sich planungsrelevante Ereignis-

se in der Regel aus einer Abweichung mehrerer Zustandsvariablen zusammen. Daher müssen

die Zustandstrajektorien mehrerer numerischer Zustandsvariablen gleichzeitig betrachtet wer-

den. Dabei ist zu beachten, dass für diese Menge an Zustandsvariablen nicht die gleiche Men-

ge von Aktivitäten von Bedeutung ist. Daher muss für die gemeinsame Behandlung von der

aktivitätszentrierten Betrachtung abgewichen werden, die zur Berechnung der Schwellenwerte

eingesetzt wurde. Für einen numerischen Ereignisvektor n, der Ergebnis der Analyse einer

Aktivität a

ist, muss für jede Aktivität a

, die eine der Zustandsvariablen v

∈

n manipuliert,

ein entsprechender Vektor an Schwellenwerten betrachtet werden, die gemeinsam eine Ver-

zweigung im Plan darstellen. Da die einzelnen Aktivitäten a

aber nur eine Teilmenge von n

manipulieren, muss zur Bestimmung der Schwellenwerte teilweise auf die (in Ausführungs-

richtung) nachfolgenden Aktivitäten zurückgegriffen werden. Da diese aber bereits zuvor Ge-

genstand der Analyse waren, ist dieser Rückgriff unproblematisch. In der gesamten Betrach-

tung des Plans wird der Vektor mit den Schwellenwerten laufend aktualisiert, während der

Plan rückwärts durchlaufen wird (siehe Listing 4-6).

fügeProaktiveVerzweigungHinzu(Plan P, Aktion a, Event E)

Verzweigungen b

Überalle a

∈P ∧ a

< a ∧ arg_min

∈

(P(e)) > Schwellenwahrscheinlichkeit

Überalle e ∈ E ∧ a manipuliert e

Berechne x

l,v

Berechne x

u,v

Aktualisiere E[e]

B[a

] = E

Tue

Ende

Listing 4-6: Einfügen proaktiver Verzweigungen in einen Plan

Durch die gleichzeitige Behandlung von mehreren Zustandsvariablen, die jeweils einen obe-

ren und unteren Schwellenwert bestimmen, stellt sich erneut das Problem, dass n

Kombina-

tionen bei n Zustandsvariablen berücksichtigt werden müssten. Diese hohe Anzahl wird da-

durch abgemildert, dass Vorbedingungen häufig nur eine der beiden Schranken definieren

werden. Ansonsten wird die Verzweigung so erzeugt, dass jeweils die wahrscheinlichere

Schranke in die Verzweigung aufgenommen wird.

Um auch unterschiedliche Planqualitäten in die bedingte Planung aufnehmen zu können, müs-

sen die in der Planmetrik enthaltenen Zustandsvariablen betrachtet werden. Ziel der Betrach-

tung ist es, Situationen zu ermitteln, in denen die Ausführung der aktuellen Aktivitäten vor-

Planung unter Unsicherheit 81

aussichtlich eine negative Wirkung auf die Planmetrik hat. Die Erzeugung eines Alternativ-

plans hat im Falle einer solchen Verzweigung das Ziel, eine Aktivität oder eine Aktivitätsfol-

ge zu finden, die bei der gegebenen Situation ein günstigeres Verhalten bzgl. der Planmetrik

hat und den gleichen Folgezustand wie die ursprüngliche Aktivität erzeugt. Um zu bestim-

men, für welche Situationen eine solche Alternativplanung sinnvoll ist, werden die Bayes-

Netzwerke mit Effekten auf die Parameter der betrachteten Aktivität herangezogen. Dabei

wird ausgehend von dem rvalue, der auf den betrachteten Parameter wirkt, untersucht, unter

welchen Bedingungen sich erhebliche Abweichungen vom rvalue der deterministischen Akti-

vität einstellen. Eine erhebliche Abweichung ergibt sich dabei aus dem rvalue und der in der

probabilistischen Problemdefinition angegebenen relativen Abweichung (vergleiche Ab-

schnitt 4.2.1.1). Zusätzlich kann anhand der Problemdefinition auch bestimmt werden, in wel-

che Richtung eine Abweichung relevant ist. Je nach Art des rvalue werden die diskreten Wer-

te oder Intervalle der kontinuierlichen Variable überprüft, wie wahrscheinlich eine Abwei-

chung für den jeweiligen Wert (diskret) oder Bereich (kontinuierlich) ist. Dabei kann wiede-

rum der Schwellenwert α genutzt werden, um unwahrscheinliche Ereignisse schnell auszu-

sondern. Für die Werte, die eine Eintrittswahrscheinlichkeit größer als α besitzen, wird be-

stimmt, unter welchen Bedingungen sie mit erhöhter Wahrscheinlichkeit auftreten. Dazu wird

das Bayes-Netzwerk von der Ausgabevariablen aus durchlaufen. Anhand der jeweiligen be-

dingten Wahrscheinlichkeitsfunktionen kann im Rückwärtsdurchlaufen des Netzwerks ermit-

telt werden, welche Ausprägungen in der Eingabeebene die untersuchte Abweichung begüns-

tigen.

Für jede identifizierte Situation, die zu einer signifikanten Verschlechterung der Ausgangssi-

tuation bzgl. eines einzelnen Parameters der Planmetrik führt, muss noch geprüft werden, ob

die Situation auch insgesamt zu einer Verschlechterung führt. Dies ist notwendig, da in der

gegebenen Situation andere Parameter die Verschlechterung ausgleichen könnten. Dazu wird

für jeden Parameter der Planmetrik eine weitere Inferenz auf dem entsprechenden Bayes-

Netzwerk durchgeführt, wobei die identifizierte Situation zu Beginn als harte Evidenz gesetzt

wird. Am Ende des Inferenzprozesses wird der Erwartungswert für jeden Planungsparameter

ermittelt. Auf dieser Basis wird der Erwartungswert der Planmetrik bestimmt, um festzustel-

len, ob sich tatsächlich eine spürbare Verschlechterung einstellen würde. Ist dies der Fall, ist

eine weitere potenzielle Verzweigungsstelle identifiziert.

4.2.1.5 Erstellen alternativer Pläne

Im vorhergegangenen Kapitel wurde erläutert, wie auf Basis der probabilistischen Analyse

Verzweigungsstellen in einen Plan eingefügt werden können. Damit ist klar, an welchen Stel-

len ein Alternativplan sinnvoll angefügt werden kann. Offen ist noch, wie der Alternativplan

erzeugt werden kann. Um auf die existierenden Planungsalgorithmen für die PDDL zurück-

greifen zu können, soll auch das Erstellen von Alternativplänen auf ein deterministisches Pla-

nungsproblem zurückgeführt werden. Mit der bereits vorliegenden Domänendefinition in der

PDDL ist ein wesentlicher Teil dieser Zurückführung bereits geleistet. Weiterhin muss noch

ein wohldefinierter deterministischer Ausgangs- und Zielzustand angegeben werden. Zusätz-

lich kann es für bestimmte Verzweigungen sinnvoll sein, den Alternativplan unter Verwen-

dung einer anderen Planungsmetrik als den Originalplan zu erstellen.

Um aus einer Verzweigung einen deterministischen Ausgangszustand herzuleiten, müssen die

Zufallsvariablen, die der Verzweigung zugrunde liegen, in einen skalaren Wert überführt

werden. Dabei soll bei diskreten Verteilungen der Wert mit der maximalen Wahrscheinlich-

keit als skalarer Wert herangezogen werden. Da bei kontinuierlichen Verteilungen ein solcher

Wert nicht vorliegt, werden als skalare Werte die Grenzen x

und x

herangezogen. Damit

kann aus dem im ursprünglichen deterministischen Plan enthaltenen Zustand ein neuer Zu-

82 Planung unter Unsicherheit

stand erzeugt werden, der die planungsrelevanten Abweichungen enthält. Dabei werden die

entsprechenden Variablen im Zustandsvektor des deterministischen Plans neu belegt.

Zur Generierung eines deterministischen Zielzustands kann zunächst das ursprüngliche Pla-

nungsziel herangezogen werden. Alternativ kann ein bereits im Plan enthaltener Zustand ver-

wendet werden, um ausgehend von diesem den ursprünglichen Plan weiter zu verfolgen. Dies

kann als eine Art Planreparatur aufgefasst werden. Im Falle der Planreparatur muss abgewo-

gen werden zwischen dem Aufwand der Auswahl eines geeigneten Zielzustands und der Pla-

nungsdauer, die durch die Reparatur gegenüber einer Neuplanung eingespart wird. Dabei ist

die Auswahl eines geeigneten Zustands hinsichtlich der Komplexität und des Aufwands ein

nicht zu unterschätzendes Problem. Zur Lösung muss der Abstand zwischen zwei Zuständen

bestimmt oder zumindest abgeschätzt werden. Derartige Abschätzungsfunktionen (Heurist-

iken) werden auch in deterministischen Planern genutzt, um die Planungsgeschwindigkeit zu

erhöhen. In der Regel ist dafür die Lösung eines vereinfachten Planungsproblems notwendig.

Indem beim neuen Planaufruf die Disjunktion aller im Plan enthaltenen Zustände übergeben

wird, kann die heuristische Schätzung des Standardplaners genutzt werden. Dies entspricht

dem Vorgehen, das das Planungssystem PLANEX 1 (vergleiche 4.1.4.3) zur Neuplanung

nach einer Störung verwendet. Die Entscheidung, ob nur der originale Zielzustand oder eine

Konjunktion aller Zustände dem Planer übergeben wird, hängt von der Implementierung des

verwendeten Planers ab. Die Anzahl der Zustände im Plan, die dem Planer übergeben werden,

kann dabei ein wesentlicher Entscheidungsparameter sein.

Für den Fall, dass ein Alternativplan für eine proaktive Verzweigungsstelle erzeugt werden

soll, kann als Zielzustand der deterministische Vorgängerzustand der Aktivität verwendet

werden, die der ursprüngliche Auslöser der Verzweigungsstelle ist. Für diesen Fall bietet sich

unter Umständen auch der Einsatz einer modifizierten Planmetrik an. Für jede numerische

Variable, die an der Verletzung der Vorbedingung beteiligt ist und deren Verletzung nicht

sowohl durch Über- als auch Unterschreitung einer Schranke verursacht wird, kann die Plan-

metrik einfach durch Minimierung (es liegt nur eine obere Schranke vor) oder Maximierung

(es liegt nur eine untere Schranke vor) der entsprechenden Variablen genutzt werden, um ei-

nen möglichst robusten Plan zu erhalten. Robust meint dabei, dass der Plan eine hohe Er-

folgswahrscheinlichkeit besitzt und hohe Abweichungen von der Vorbedingung sehr unwahr-

scheinlich sind. Bestehende Metriken können durch Bildung einer gewichteten Summe be-

rücksichtigt werden.

4.2.1.6 Verzahnung mit der Planausführung

Wie in Abbildung 4-1 dargestellt erfolgt die Auswahl von Verzweigungsstellen und die Ers-

tellung alternativer Pläne verzahnt mit der Planausführung. Dieses Vorgehen hat zwei unmit-

telbare Vorteile: Mit der Planausführung kann frühzeitiger begonnen werden, wodurch die

Zeit bis zum Erfüllen der Aufgabe tendenziell verkürzt wird. Die während der Ausführung

gewonnene Information kann außerdem zur besseren Bestimmung und Auswahl relevanter

Verzweigungsstellen im Plan genutzt werden.

Dazu sind mit fortschreitender Ausführung die folgenden Schritte iterativ durchzuführen:

1. Aktualisierung der Wahrscheinlichkeiten im Plan,

2. Bestimmung neuer Verzweigungsstellen,

3. Auswahl der nächsten zu berücksichtigenden Verzweigungsstelle und

4. Erstellen eines alternativen Plans für die ausgewählte Verzweigungsstelle.

Für die Aktualisierung der Pläne steht mit dem in 4.2.1.2 vorgestellten Verfahren zur Analyse

von Plänen bereits eine Methode zur Verfügung. Im Unterschied zum dort beschriebenen Ver-

fahren wird allerdings nicht der Initialzustand des Plans als Ausgangszustand gewählt, son-

dern der Zustand, der sich nach der bisherigen Planausführung eingestellt hat. Für diesen Zu-

Planung unter Unsicherheit 83

stand liegen dann auch harte Evidenzen vor, so weit die Ausprägungen der Zufallsvariablen

durch Sensoren oder andere Informationsquellen wahrnehmbar sind. Diese harten Evidenzen

können genutzt werden, um ausgehend vom aktuellen Zustand eine genauere Verteilung der

noch folgenden Zustandsmengen zu bestimmen. Auf den so aktualisierten Plan kann für den

zweiten Schritt wiederum das in 4.2.1.4 beschriebene Verfahren zur Bestimmung von Ver-

zweigungen eingesetzt werden.

Die Auswahl der nächsten zu berücksichtigenden Verzweigungsstellen muss vor dem Hinter-

grund der Verzahnung der Ausführung und dem Formalziel, die Aufrufe der Neuplanung zu

minimieren, unter Berücksichtigung zweier Größen getroffen werden. Das sind zunächst die

Eintrittswahrscheinlichkeit einer Verzweigungsbedingung und andererseits die Ausführungs-

dauer, die bis zum Erreichen dieser Verzweigung verstreichen wird. Aufgrund der Verzah-

nung mit der Planausführung wird Planungszeit zu einer kritischen Ressource. Um möglichst

für jede eintretende Situation einen geeigneten Plan verfügbar zu haben, ist es sinnvoll die zur

Verfügung stehende Planungszeit zur Erstellung des zeitlich nächsten Verzweigungspunkts

einzusetzen. Demgegenüber steht die Überlegung, die Planungszeit nicht für solche Situatio-

nen einzusetzen, die wahrscheinlich gar nicht eintreten. Eine Möglichkeit, mit diesen potenzi-

ell widersprüchlichen Auswahlkriterien umzugehen, ist die Vereinigung in einer einzigen

Kennzahl. Eine mögliche Klasse solcher Kennzahlen, die im Rahmen dieser Arbeit eingesetzt

werden soll, ist durch die folgende Formel beschrieben:

+) C')' 2s"s ·¢' £ 5Es.

Diese Formel beschreibt mögliche Kennzahlen, bei denen die Eintrittswahrscheinlichkeit ei-

ner Planverzweigung B mit einem Zeitfaktor gewichtet wird. Der Zeitfaktor ist dabei eine

Funktion, die den zeitlichen Abstand des Ausführungshorizonts bis zur Verzweigung B auf

einen Bereich zwischen 0 und 1 normiert. Die Form der Normierung ist dabei im Prinzip

unerheblich, steuert aber, wie stark die zeitliche Nähe eines Verzweigungspunkts in die

Kennzahl eingeht. Bei der Wahl einer beispielsweise exponentiellen Normierung des Zeitfak-

tors werden nur solche Verzweigungen ausgewählt, die in unmittelbarer zeitlicher Nähe des

Ausführungshorizonts liegen.

Eine effiziente Verwaltung der Verzweigungspunkte ist von großer Bedeutung, um nicht un-

nötig Planungszeit auf die Auswahl der nächsten zu expandierenden Verzweigung zu verwen-

den. Für diese Aufgabe bietet sich die Datenstruktur Prioritätenliste (engl. Priority Queue,

siehe zum Beispiel [CLRS01]. Diese Datenstruktur kann speicher- und laufzeiteffizient eine

sortierte Liste der möglichen Verzweigungspunkte vorhalten. Das Sortierkriterium ist dabei

die Wählbarkeit der Verzweigungspunkte. Die Prioritätenliste erlaubt die effiziente Änderung,

Löschung und Einfügung eines Eintrags, wobei die korrekte Sortierung der Liste immer ge-

währleistet ist.

Abbildung 4-13 stellt den Gesamtablauf des bedingten Planungsverfahrens bei Verzahnung

mit der Planausführung dar. Die Darstellung veranschaulicht dabei den Ablauf der Planung

anhand der unterschiedlichen Planversionen, die erstellt werden. Die mit der Ausführung ver-

zahnte bedingte Planung wird in zwei nebenläufigen Prozessen ausgeführt. Der erste und aus

Sicht der Planung einfachere Prozess ist die Ausführungsüberwachung.

In diesem Prozess

wird der aktuelle Zustand der Planausführung bestimmt und dem Planungssystem zur Verfü-

gung gestellt.

Ausgangspunkt für den zweiten, eigentlichen Planungsprozess ist der Aufruf eines determinis-

tischen Planers. Dieser erstellt für deterministische Ausgangs- und Zielzustände einen deter-

ministischen Plan. Dieser Plan wird in den bisherigen Plan integriert, indem er mit der ent-

Die Realisierung der Ausführungsüberwachung ist nicht Gegenstand dieser Arbeit.

84 Planung unter Unsicherheit

sprechenden Verzweigungsstelle und dem ggf. im ursprünglichen Plan vorhandenen Zielzu-

stand verknüpft wird. Im nächsten Schritt wird der neue Plan an den aktuellen Zustand ange-

passt, der durch die Ausführungsüberwachung bereitgestellt wird. Dabei wird der aktuelle

Zustand im bedingten Plan gesucht und – so weit über Sensoren verfügbar –harte Evidenzen

bzgl. der Zustandsparameter werden gesetzt. Alle Zustände, Verzweigungen und Alternativ-

pläne, die vor dem aktuellen Zustand liegen, werden entfernt. Auf dem so aktualisierten und

verkleinerten Plan wird dann die probabilistische Analyse für jeden Alternativplan durchge-

führt (wie in Abschnitt 4.2.1.6. beschrieben). Dabei werden auch aktualisierte Verteilungen

bei den Expertenagenten abgefragt, wodurch externe Ereignisse, die Einfluss auf den Planver-

lauf haben können, berücksichtigt werden. Auf Basis der neuen Wahrscheinlichkeitsvertei-

lung werden nun wie in Abschnitt 4.2.1.4 beschrieben neue Verzweigungsstellen erzeugt und

unwahrscheinlich gewordene Verzweigungsstellen entfernt. In diesem Prozess wird auch un-

mittelbar die Selectability der Verzweigungsstellen ermittelt. Dabei kommt die Stärke der

Prioritätenliste zum Tragen: Anstatt die Datenstruktur von Grund auf neu aufbauen zu müs-

sen, können die neu hinzugekommenen Verzweigungsstellen hinzugefügt, entfallene gelöscht

und solche, bei denen sich die Selectability deutlich geändert hat, aktualisiert werden. Damit

ist der letzte Schritt, die Auswahl der nächsten einzuplanenden Verzweigungsstelle, nur noch

das Entnehmen des maximalen Elements aus der Prioritätenliste. Nachdem aus dieser Ver-

zweigung wie in 4.2.1.5 beschrieben jeweils ein neuer Ausgangs- und Zielzustand erzeugt

wurde, kann der deterministische Planer erneut aufgerufen werden.

Abbildung 4-13: Gesamtablauf der bedingten Planung

4.2.2 Umplanungsverfahren auf Basis von Echtzeitsuche

Wie bereits eingangs Kapitels 4.2 erläutert, kann auch die probabilistische Analyse des Plans

nicht sicherstellen, dass alle Eventualitäten berücksichtigt werden können. Daher ist ein Onli-

ne-Planungsverfahren als Rückfallebene zu integrieren. Das Problem, ein Online-

Planung unter Unsicherheit 85

Planungsverfahren auf Basis der PDDL 2.1 zu entwickeln, ist bereits in [SO02] gelöst worden

(siehe Abschnitt 4.1.4.3). Daher ist im Rahmen dieser Arbeit konzeptionell nur noch die Frage

nach der Einbindung an das Gesamtplanungsverfahren für Unsicherheit zu beantworten.

Den Anbindungspunkt stellt die in Abbildung 4-13 dargestellte Aktivität „Plan an aktuellen

Zustand anpassen“ dar. Wird an dieser Stelle festgestellt, dass der aktuelle Zustand nicht im

aktuellen Plan enthalten ist, wird das Online-Planungsverfahren aufgerufen. Für die Auswahl

eines Zielzustands gelten beim Online-Verfahren die gleichen Aussagen wie bereits bei der

Auswahl eines Zielzustands (siehe Abschnitt 4.2.1.5). Im Falle des Umplanungsverfahrens ist

das Ziel, zu einen bereits im Plan vorkommenden Zustand wieder zurückzukehren, von be-

sonderer Bedeutung, da in diesem Fall der bedingte Plan weiter verwendet und das bedingte

Planungsverfahren wieder aufgenommen werden kann. Die Rückkehr zum bedingten Pla-

nungsverfahren ist wünschenswert, da es im Gegensatz zur Onlinevariante vollständig und

optimal ist. Daher soll in der Regel eine Konjunktion der im Plan enthaltenen Zustände als

Ziel übergeben werden.

Planung von Systeminteraktionen 87

5 Planung von Systeminteraktionen

Mit den bisher vorgestellten Planungsmodellen und Verfahren werden mechatronische Sys-

teme noch nicht in die Lage versetzt, Interaktion mit anderen Systemen in ihre Planung einzu-

beziehen. Dieser Baustein für eine Verhaltensplanung für mechatronische Systeme wird in

diesem Kapitel erarbeitet. Wie bereits in Unterkapitel 2.4 hergeleitet, sind dabei zwei sehr

unterschiedliche Anwendungsszenarien zu behandeln. Im ersten Anwendungsszenario haben

die Systeme gemeinsam eine Hauptaufgabe zu erfüllen und besitzen damit grundsätzlich eine

gemeinsame Zielfunktion, an der sie ihre Handlungen ausrichten. Bei individuellen Hauptauf-

gaben besitzt jedes System eine eigene Zielfunktion, die es zu optimieren versucht. Weiterhin

sind in diesem Fall die interagierenden Systeme nicht vorab bekannt. Am Beispiel werden die

Unterschiede zwischen diesen beiden Planungsaufgaben deutlich.

Als Beispiel der Interaktionsplanung bei gemeinsamer Hauptaufgabe soll die Abstimmung

zwischen den Modulen Antrieb und AGAS des RailCab-Fahrzeugs dienen. Beide Module

werden im RailCab eingesetzt, dienen also der Hauptaufgabe, Personen oder Güter in einem

Schienennetzwerk zu transportieren.

Das Antriebsmodul steuert dabei das Fahrprofil des RailCabs, also mit welchem Geschwin-

digkeitsverlauf ein Streckenabschnitt befahren wird. Aufgabe des AGAS ist die aktive Anpas-

sung des Luftspalts, also des Abstands zwischen dem fahrzeugseitigen (Läufer) und strecken-

seitigen (Stator) Motorteils. Um Abweichungen in der Statorlage auszugleichen (ein Stator

liegt höher als der Nächste) ist das AGAS in der Lage, den sekundären Motorteil vertikal zu

bewegen. Aus der Größe des Luftspalts resultiert direkt die Energieeffizienz des Fahrzeugs.

Für die gleiche Antriebskraft und in das RailCab übertragene Energie muss mit wachsendem

Luftspalt erheblich mehr Energie streckenseitig aufgewandt werden.

Abbildung 5-1: Betrachtete Modi des Antriebs

Im Falle des Antriebs sind die Teilfunktionslösungen gegeben durch ein bestimmtes Fahrpro-

fil, also einen Geschwindigkeitsverlauf, dem über einen bestimmten Streckenabschnitt gefolgt

wird. Abbildung 5-1 zeigt die im Beispiel betrachteten Teilfunktionslösungen des Antriebs.

Es handelt sich um Geschwindigkeitsverläufe, die über den gesamten Streckenabschnitt eine

gleichmäßige Beschleunigung besitzen. Dabei werden z. B. zwei unterschiedliche Geschwin-

digkeitsstufen betrachtet: die Höchstgeschwindigkeit v

max

(180 km/h) und

¤¥¦§

(also 90

km/h). Nimmt man noch das Anfahren aus dem Stand hinzu, ergeben sich somit insgesamt 6

Teilfunktionslösungen.

88 Planung von Systeminteraktionen

Es besteht eine Vorgänger-Nachfolger-Beziehung zwischen den Modi, die sich aus den An-

fangs- und Endgeschwindigkeiten der jeweiligen Fahrprofile ergibt. Eine Teilfunktion tfl‘

kann nur auf eine Teilfunktion tfl folgen, wenn die Anfangsgeschwindigkeit von tfl‘ mit der

Endgeschwindigkeit von tfl übereinstimmt. Dadurch ergibt sich für die Planung des Antriebs

das Problem, für eine abzufahrende Sequenz von Streckenabschnitten die optimale Abfolge

von Teilfunktionslösungen zu bestimmen. Dabei entspricht das Problem aufgrund der Vor-

gänger-Nachfolger-Beziehung der Suche nach dem besten Pfad zu einem Knoten (in diesem

Fall dem Knoten in der letzten Ebene des Baums mit der höchsten Summe der Gütefunktion

über sich und alle seine Vorgänger) in einen Baum (Abbildung 5-2 veranschaulicht dies).

Abbildung 5-2: Struktur des Planungsproblems für den Antrieb

Auch das AGAS unterstützt unterschiedliche Teilfunktionslösungen. Diese orientieren sich an

der Verstellaktivität, mit der der Luftspalt auf die Streckengegebenheiten angepasst wird. Das

Beispiel beschränkt sich auf die beiden Teilfunktionslösungen „einmalige Verstellung“ und

„kontinuierliche Verstellung“. Bei der einmaligen Verstellung wird der Sekundärteil des Mo-

tors einmalig auf eine Höhe eingestellt, die für den gesamten Streckenabschnitt beibehalten

wird. Bei der kontinuierlichen Verstellung wird der Luftspalt über den gesamten Streckenab-

schnitt im Rahmen der technischen Möglichkeiten laufend angepasst, sodass besser auf unter-

schiedliche Statorlagen auf dem Streckenabschnitt reagiert werden kann. Das Beispiel umfasst

zwei unterschiedliche Typen von Streckenabschnitten: Streckenabschnitte mit exakt verlegten

Statoren und Streckenabschnitte mit ungenau verlegten Statoren.

Die Fähigkeit des AGAS, einen kleinen Luftspalt einzustellen und damit den Wirkungsgrad

zu optimieren, hängt dabei direkt vom Fahrprofil ab, das der Antrieb verwendet. Die Aktorik

des AGAS kann nur beschränkt Kraft aufwenden, um den sekundären Motorteil zu bewegen.

Damit kann das AGAS in einer gegebenen Zeit nur einen beschränkten Weg stellen. Folglich

hängt der einstellbare Luftspalt unmittelbar von der Geschwindigkeit des RailCabs ab. Da bei

hoher Geschwindigkeit weniger Zeit zwischen den einzelnen Statoren bleibt, kann nur ein

kleinerer Weg zwischen zwei Statoren zurückgelegt werden. Damit ist bei hohen Geschwin-

digkeiten tendenziell ein größerer Luftspalt einzustellen. Abbildung 5-3 veranschaulicht die-

sen Zusammenhang.

Bezieht man noch die für die Verstellung benötigte Energie mit ein, verstärkt sich dieser Zu-

sammenhang weiter. Vereinfacht lässt sich sagen, dass ein Fahrprofil des Antriebs mit hohen

Geschwindigkeiten dazu führt, dass das AGAS seine lokalen Planungsziele (Luftspalt)

schlechter erreicht. Dabei hängt der einstellbare Luftspalt von Umwelteinflüssen ab. Ist der

Planung von Systeminteraktionen 89

Streckenabschnitt beispielsweise unbekannt, kann ohnehin nur ein großer Luftspalt eingestellt

werden. Auch Witterungseinflüsse wie etwa vereiste Statoren beeinflussen die möglichen

Aktivitäten der Luftspaltverstellung.

Abbildung 5-3: Wechselwirkung zwischen Antrieb und Luftspaltverstellung

Ein Beispiel für kooperierende Systeme mit individueller Hauptaufgabe sind die RailCabs.

RailCabs, die Güter oder Passagiere im Auftrag unterschiedlicher Transportdienstleister be-

fördern, sind ein Beispiel für autonome mechatronische Systeme mit individueller Hauptauf-

gabe. Sie verfolgen lokale Ziele (z. B. die Maximierung der Erträge ihrer jeweiligen Betrei-

ber), die möglicherweise im Konflikt zueinander stehen.

Eine Besonderheit des RailCab-Konzepts ist die Möglichkeit, mehrere Fahrzeuge in einer

Gruppe (im Konvoi) fahren zu lassen. Eine mögliche Form der Kooperation besteht also dar-

in, im Rahmen der Planung bewusst die Routen einer Gruppe von Fahrzeugen so anzupassen,

dass ein Konvoi entsteht. Dazu ist in einem dezentral gesteuerten System (die lokalen Zielset-

zungen machen die Anwendung eines zentralen Systems unplausibel) zunächst die Erkenntnis

eines Fahrzeugs notwendig, dass die Bildung eines Konvois für einen Streckenabschnitt eine

Verbesserung der Planqualität bietet. Dies kann erkannt werden anhand von langen Teilrou-

ten, die alleine befahren werden. Im nächsten Schritt müssen solche Fahrzeuge identifiziert

werden, deren bisherige Routen gut zum Kooperationsvorhaben passen. Das bedeutet, die

Fahrzeuge müssen sich in einem Zeitfenster in der Nähe der Teilroute aufhalten und ähnliche

Fahrziele besitzen. Schließlich muss eine Einigung über das Zustandekommen des Konvois

erfolgen, die unbedingt notwendigen Haltepunkte der Konvoiroute festgelegt werden und ge-

meinsam eine neue Route gefunden werden.

Die folgenden Kapitel untersuchen zunächst den bestehenden Stand der Technik aus dem Be-

reich der Multibody- und Multiagenten-Planung. In beiden Fällen wird versucht, abgestimmte

Pläne für mehrere Individuen zu erzeugen. Im Falle der Multibody-Planung geschieht dies

eher zentral, im Fall der Multiagenten-Planung eher dezentral. Die identifizierten Ansätze

sollen auf ihre Eignung zur Lösung eines der beiden Planungsprobleme untersucht werden.

Anschließend werden zwei Planungskonzepte für die beiden Anwendungsszenarien erarbeitet,

die die Interaktion zwischen mechatronischen Systemen in die Verhaltensplanung mit PDDL

integrieren.

90 Planung von Systeminteraktionen

5.1 Stand der Technik zur Planung von Systeminteraktionen

Zu den Annahmen der klassischen Handlungsplanung in der Künstlichen Intelligenz gehört

auch, dass das beplante System die einzige Quelle von Veränderungen ist (siehe Teilkapitel

2.1). Diese Annahme ist nicht nur für die Verhaltensplanung von mechatronischen Systemen

problematisch, sondern für eine Vielzahl von Anwendungsfeldern. Planung unter Berücksich-

tigung mehrerer aktiver Systeme, die aufeinander abgestimmt werden können, ist Gegenstand

der Multiagenten- oder Multibody-Planung.

In den folgenden Kapiteln werden zunächst die Modellierung derartiger Planungsprobleme

und zwei Phasenmodelle für die Multiagenten-Planung auf ihre Eignung für den Einsatz in

der Verhaltensplanung für mechatronische Systeme untersucht.

Schließlich werden konkrete Verfahren, die sich den Phasen der vorgestellten Phasenmodelle

zuordnen lassen, auf ihren Einsatz in der Interaktionsplanung für mechatronische Systeme hin

untersucht.

5.1.1 Modellierung der Planung von Systeminteraktionen

Die folgenden Abschnitte beschreiben zunächst mögliche Modellierungstechniken für die

Darstellung von Multiagenten-Planungsproblemen und untersuchen sie auf ihre Einsatzmög-

lichkeit im Rahmen der Verhaltensplanung für mechatronische Systeme.

5.1.1.1 Multiagent Planning Language (MAPL)

Die Multiagent Planning Language (MAPL) [Bren03] ist eine Planungssprache, die die PDDL

2.1 [FL03] erweitert und auch partiell geordnete Pläne darstellen kann. Diese Sprache nutzt

ein auf Simple Temporal Networks [DMP91] basierendes Modell, um qualitative und quanti-

tative zeitliche Beschränkungen zwischen Aktionen zu beschreiben. MAPL ist also in der

Lage, sowohl eine kausale zeitliche Ordnung zwischen zwei Aktionen (A

muss vor A

ausge-

führt werden) als auch quantifizierte zeitliche Abstände (10 Minuten später) darzustellen.

MAPL beschreibt Zustände mittels propositionaler und nicht boolescher Zustandsvariablen.

Ein wesentliches Konzept im Rahmen von MAPL ist die sogenannte Kontrolle. Jede Aktion

in einem MAPL-Plan wird begrenzt durch ein Eingangs- und ein Endereignis. Der Zeitpunkt

des Eingangsereignisses einer Aktion wird immer durch den ausführenden Agenten festgelegt,

der Zeitpunkt des Endereignisses kann aber auch durch das Umfeld bestimmt werden. Damit

werden unterschiedliche Kontrollgrade in Bezug auf Aktionen, Unwissenheit der Agenten und

Planungssynchronisationen zwischen ausführenden Agenten darstellbar.

Da in der Regel Koordination und Kommunikation für eine abgestimmte Ausführung eines

Plans erforderlich sind, unterstützt MAPL dies durch Bezugs- und Kommunikationsereignis-

se. Diese Art von Ereignissen kann als Vorbedingung zur Ausführung von Aktionen genutzt

werden.

MAPL besitzt eine Vielzahl von Eigenschaften, die für die Planung von Systeminteraktionen

sehr nützlich sind. Dazu gehören nebenläufige und gleichzeitige Aktionen, ein ausgefeiltes

Zeitkonzept und die Berücksichtigung von Synchronisationsmaßnahmen. Der entscheidende

Nachteil ist aber ein Mangel an Planungsverfahren, die auf Basis einer in MAPL formulierten

Planungsaufgabe einen Plan erzeugen. Trotz intensiver Recherchen konnte kein einziges

MAPL-Planungssystem gefunden werden. PDDL-Standardplaner kommen zur Lösung von

MAPL-Planungsproblemen keinesfalls in Betracht.

Brenner unterscheidet zwischen Systemen, die a) Planung durchführen (Planungsagenten), die b) Pläne aus-

führen (ausführende Agenten) und Systeme, die c) zur Umgebung gehören.

Planung von Systeminteraktionen 91

5.1.1.2 Aktions-Ressourcen-Formalismus (ARF)

Der Aktions-Ressourcen-Formalismus [VV05] weicht von den bisher vorgestellten Modellie-

rungsmethoden für Planungsprobleme ab. Basis dieser Modellierung ist eine andere Sichtwei-

se auf die Planung. In ARF stehen nicht mehr Zustände und Aktionen im Fokus, sondern Res-

sourcen.

In einem Planungsframework auf Basis des ARF [WMW05] wird der Initialzustand durch

eine Menge von atomaren Ressourcendaten beschrieben. Der Zielzustand wird dargestellt als

Ressourcendatum oder mehreren –daten, deren Attribute teilweise mit Variablen belegt sind.

Ein Ziel ist erreicht, wenn konkrete Ressourcendaten erzeugt wurden, die eine gültige Instanz

des Ziels sind.

Den Aktionenschemata der klassischen Planungssprachen entsprechen im ARF sogenannte

Aktionsmodelle, die mögliche Transformationen bzw. Änderungen der Ressourcendaten dar-

stellen. Abhängigkeiten und Reihenfolgebedingungen zwischen Aktionen werden in ARF

indirekt über die Ressourcen dargestellt. Dabei kann zu jeder Eingaberessource einer Aktion

eine andere Aktion oder der Initialzustand als Erzeuger bestimmt werden.

Im Framework von de Weerdt wird der ARF nicht direkt zur Planung genutzt, sondern um

Synergien zwischen den Plänen autonom planender Agenten zu identifizieren und zu realisie-

ren.

Ein wesentlicher Nachteil des ARF ist, dass kein Algorithmus zur Konstruktion von Plänen,

sondern nur ein verbesserndes Verfahren verfügbar ist. Ein konstruierendes Verfahren müsste

erst konzipiert werden. Darüber hinaus erscheint eine Kombination des ARF mit der PDDL

umständlich, da dafür der Aktionsformalismus der PDDL erst auf die Ressourcendarstellung

des ARF abgebildet werden müsste.

5.1.2 Phasenmodelle zur Planung von Systeminteraktionen

Die Planung von Systeminteraktionen ist ein komplexes Problem, dass zu seiner Lösung

strukturiert werden muss. Die folgenden beiden Abschnitte stellen zwei bekannte Ansätze vor,

die das Problem der Multiagenten-Planung in mehrere Phasen unterteilen, und damit die not-

wendigen Handlungsschritte strukturieren.

5.1.2.1 Phasen-Modell in Anlehnung an Durfee

In Anlehnung an ein Konzept zur Aufgabenverteilung von Durfee [Durf01] unterscheiden de

Weerdt et. al. [WMW05] die folgenden Phasen in einem Multiagenten-Planungsproblem:

1. Verfeinerung der globalen Aufgaben:

Aufteilung der globalen Ziele, bis Teilaufgaben gefunden sind, die einem einzelnen

Agenten zugeordnet werden können.

2. Aufgabenzuordnung:

Zuordnung von Mengen von Teilaufgaben zu einzelnen Agenten.

3. Koordination vor der Planung:

Definition von Regeln oder Beschränkungen für einzelne Agenten, die verhindern,

dass Konflikte in den individuellen Plänen auftreten.

4. Individuelle Planung:

Jeder Agent erzeugt einen individuellen Plan zur Erfüllung seiner Aufgaben unter Be-

rücksichtigung der Regeln und Beschränkungen.

5. Koordination nach der Planung:

Koordination der individuellen Pläne.

6. Planausführung:

Ausführung der Pläne und Synthese der Ergebnisse der Teilaufgaben.

92 Planung von Systeminteraktionen

Nicht jede Anwendung von Multiagenten-Planung umfasst notwendigerweise alle 6 Phasen

des allgemeinen Prozesses. Wenn beispielsweise keine globalen Ziele oder Aufgaben existie-

ren, sind die Phasen 1 und 2 nicht notwendig. Die Phasen 3 und 5 stehen in Konkurrenz zuei-

nander, sodass eine Koordination auch jeweils ausschließlich vor oder nach der Planung statt-

finden kann. Ebenso kann die Abgrenzung zwischen den Phasen 5 und 6 fließend sein. Für die

Umsetzung jeder dieser Phasen gibt es eine Reihe von Ansätzen (siehe das nächste Kapitel).

Das in [WMW05] vorgestellte Phasenmodell lässt den für die Planung bei individueller

Hauptaufgabe wesentlichen Aspekt außer Acht, wie sich kooperierende Agenten finden kön-

nen. Daher kommt es für Systeme mit individueller Hauptaufgabe nicht in Betracht, da diese

Systeme sich in der Regel nicht vorab kennen. Für die Interaktionsplanung bei gemeinsamer

Hauptaufgabe scheinen die Phasen der Koordination vor der Planung und der Koordination

nach der Planung aber besonders interessant. Durch ein derartiges Vorgehen können die loka-

len Planungsprobleme erhalten bleiben, was sich wie in Teilkapitel 2.4 beschrieben positiv

auf die Komplexität des Gesamtproblems auswirkt.

5.1.2.2 Phasenmodell nach Wooldrigde und Jennings

Wooldrigde und Jennings stellen ebenfalls ein Phasenmodell zum kooperativen Planen vor,

das sich von dem von Durfee in einigen Punkten unterscheidet. Ihr Modell umfasst vier Pha-

sen:

1. Erkennen:

Der kooperative Problemlösungsprozess beginnt mit der Erkenntnis eines Agenten,

dass Potenzial zu einer kooperativen Aktion vorhanden ist. Diese Erkenntnis kann da-

durch verursacht sein, dass ein Agent eine Aufgabe allein nicht erfüllen kann oder Un-

terstützung wünscht.

2. Teambildung:

In dieser Phase sucht der Agent, der das Potenzial zur Kooperation erkannt hat, nach

Partnern.

3. Planbildung:

Die Agenten des zuvor gebildeten Teams versuchen, sich auf einen gemeinsamen Plan

zu einigen.

4. Teamaktion:

In dieser Phase wird der zuvor ausgehandelte Plan ausgeführt. Die Agenten sind dabei

verbunden durch eine gemeinsame Übereinkunft (z. B. eine Joint Intention).

Wooldrigde und Jennings betten ihr Phasenkonzept im Gegensatz zu Durfee in einen forma-

len Rahmen ein. Darin wird unter anderem ein Fähigkeitsmodell nach Moore [Moo90] ver-

wendet, um zu beschreiben, wie Agenten Kooperationsmöglichkeiten entdecken können. Die

Teambildung zwischen mehreren Agenten ist verbunden mit der Einigung auf ein gemeinsa-

mes Ziel. Aus dieser Erkenntnis heraus wurde in [LCN90] das Modell der Joint Intentions

entwickelt. Es stellt die bewusste Einigung der Agenten über ein gemeinsames Ziel in den

Mittelpunkt. Das Modell orientiert sich an dem Belief-Desire-Intention-Ansatz (BDI)

[GPP+98], nach dem jeder Agent aus seinen Annahmen über den aktuellen Umfeldzustand

(den Beliefs) und seinen Zielen (Desires) konkrete Intentionen (Intentions) ableitet, um daraus

konkrete Handlungen zu bestimmen. Eine Intention beschreibt also die Absicht, das Umfeld

in einer bestimmten Art und Weise zu verändern. Dieses Modell soll auf eine Gruppe von

Agenten übertragen werden, die sich auf gemeinsame Ziele geeinigt hat. Bei der Übertragung

ergeben sich jedoch einige Schwierigkeiten. Die Annahmen der Agenten können sich unab-

hängig voneinander verändern, was sich auf die Desires und Intentions auswirkt. Dadurch

können die sogenannten Joint Intentions gefährdet werden. Daher ist das zentrale Element der

Planung von Systeminteraktionen 93

Joint Intentions, dass Agenten nach dem Bilden eines Teams keine Joint Intention aufgrund

individueller Erkenntnisse aufgeben dürfen. In [LCN90] wird ein formales Modell für zwei

Agenten auf Basis der Logik erster Ordnung beschrieben, die diese Bedingung berücksichtigt.

In [Tam97] wird das Modell auf eine beliebige Anzahl von Agenten erweitert. In [SC96] wird

das Kommunikationsprotokoll request-confirm vorgestellt, das zur Herstellung von Joint In-

tentions genutzt werden kann.

Aufbauend auf den Joint Intentions etablierte Jennings den Begriff Joint Responsibility

[Jenn95]. Dabei zielt er vor allem auf den Umstand ab, dass nicht nur Absichten abgestimmt

werden müssen, sondern auch einzelne Aktionen. Damit unterstützt dieser Formalismus die

Phasen Planbildung und Teamaktion. Die Bindung der Agenten an einen konkreten Plan zum

Erreichen des gemeinsamen Ziels nennt Jennings recipe und formalisiert es zu einem indivi-

dual recipe commitment. Ein Agent führt solange die Aktionen des gemeinsamen Plans aus,

bis:

• Das gewünschte Ziel erreicht ist,

• der aktuelle Plan nicht mehr zum Ziel führen kann,

• eine der enthaltenen Aktionen nicht ausgeführt werden kann oder

• eine der Aktionen nicht korrekt ausgeführt wurde.

Analog zu den Joint Intentions wird verlangt, dass ein Agent nicht einfach seine Bindung an

ein Recipe aufgeben darf, sondern dies und den Grund der Aufgabe dem restlichen Team mit-

teilen muss. Dies kann daraufhin unter Umständen Gegenmaßnahmen einleiten.

Joint Intentions, Joint Responsibility und das request-confirm-Protokoll stellen eine Möglich-

keit dar, Systeme zu einer Planung zusammenzufassen, wenn die Zusammensetzung der inter-

agierenden Systeme vorab nicht bekannt ist. Da die formale Modellierung auf Aussagenlogik

basiert, ist die Darstellung numerischer Zustandselemente nur schwierig möglich.

Die in den Phasen 1 und 2 eingesetzten Formalismen bedeuten gleichzeitig die wichtigsten

Einschränkungen. Da das Erkennen von Kooperationsmöglichkeiten und Kooperationspart-

nern nur auf den Fähigkeiten der Agenten basiert, werden nur solche Kooperationen erkannt

und realisiert, die zur Erreichung von gemeinsamen Teilzielen notwendig sind. Synergien, die

zu einer höheren Planqualität (z. B. durch kürzere Ausführungszeit oder geringere Kosten)

führen, werden nicht erkannt.

5.1.3 Verfahren zur Berücksichtigung von Interaktion

Im vorigen Abschnitt wurden mögliche Ansätze zur Strukturierung der Interaktionsplanung

betrachtet. Es sind jedoch noch geeignete Verfahren notwendig, die zur Durchführung der

einzelnen Schritte der Phasenmodelle eingesetzt werden können. Die folgenden Abschnitte

beschreiben und untersuchen derartige Verfahren. Die erste Klasse von Verfahren widmet

sich der Identifikation von Kooperationspartnern und der Aufgabenverteilungen zwischen

ihnen. Anschließend werden Verfahren untersucht, die die eigentliche Planung oder Koordi-

nation der Systeminteraktionen durchführen können. Da die Einigung über Handlungsalterna-

tiven ein wesentliches Teilproblem ist, werden schließlich Verfahren zur Verhandlung zwi-

schen Agenten analysiert.

5.1.3.1 Verfahren zur Identifikation von Partnern und Aufgabenverteilung

Eine der Teilaufgaben, die im Rahmen der Planung von Systeminteraktionen auftreten kön-

nen, ist die Identifikation der relevanten Systeme. Diese Aufgabe wird im Rahmen der Multi-

agenten-Forschung als Matchmaking [SDW97] bezeichnet. Verfahren zur Lösung des

Matchmaking-Problems können unter Umständen auch zur Identifikation relevanter Systeme

94 Planung von Systeminteraktionen

eingesetzt werden. Zusätzlich wird hier ein Verfahren vorgestellt, das es erlaubt, Multiagen-

tensysteme in Teilmengen von Agenten einzuteilen, die sich gegenseitig beeinflussen.

5.1.3.1.1 Hierarchisches Task Netzwerk Planen

Im hierarchischen Task Netzwerk (HTN) Planen werden Probleme gelöst, die auf einem sehr

hohen Abstraktionsniveau beschrieben werden [RN03]. Pläne entstehen durch eine immer

stärkere Verfeinerung des Problems, also seine Zerlegung in Teilprobleme. Der Planungspro-

zess ist abgeschlossen, wenn die Teilprobleme so stark verfeinert sind, dass ihre Ausführung

trivial ist.

Um die Pläne zu konstruieren, nutzt das HTN-Planen eine Planbibliothek, aus der Problemde-

kompositionen entnommen werden. Eine Dekomposition ist ein Ausdruck der Form Decom-

pose(a,d), der besagt, dass eine Aktion a in einen Plan d zerlegt werden kann. Dementspre-

chend kann jede Aktion auf einer Hierarchieebene eines HTN-Plans als Komposition einer

Aktionsfolge auf der nächsten Ebene verstanden werden. Somit kann jede mögliche nicht tri-

viale Aktion als ein separates Planungsproblem aufgefasst werden, bei dem die Vorbedingun-

gen der Aktion dem Initialzustand entsprechen und die Nachbedingungen dem Ziel.

Damit eignet sich das HTN-Planen, um für eine Aufgabe eine Dekomposition zu suchen, die

anschließend an eine Menge von Systemen verteilt werden kann. Neben der Aufspaltung einer

gemeinsamen Aufgabe zur verteilten Ausführung durch verschiedene mechatronische Syste-

me eignet sich das HTN-Planen ebenfalls zur Aufteilung der Planungsaufgabe.

5.1.3.1.2 Contract Net Protokoll

Das Contract Net Protokoll (CNP) [Smi80] ermöglicht eine Kooperation durch Delegieren

von Aufgaben zwischen kommunizierenden Agenten. Die Agenten delegieren Teile einer

Gesamtaufgabe an andere Agenten, wenn sie selbst die Teilaufgabe nicht durchführen kön-

nen. Im Rahmen des CNP werden zwei unterschiedliche Rollen unterschieden, die die Agen-

ten übernehmen können. Der Manager ist derjenige Agent, der eine Aufgabe zu delegieren

versucht. Die zweite Rolle wird einfach als Agent bezeichnet. Der Kommunikationsaufwand,

der zur Delegation einer Aufgabe notwendig ist, hängt von den Informationen ab, die dem

Manager zur Verfügung stehen. Liegen keine Informationen über Fähigkeiten oder Auslas-

tung der Agenten vor, muss der Manager alle Agenten kontaktieren. Je mehr Informationen

vorliegen, desto gezielter kann die Kommunikation erfolgen.

Agenten, die eine Aufgabe zur Ausführung angeboten bekommen, überprüfen, ob sie die

Aufgabe erfüllen können. Falls ein Agent sich zur Annahme einer Aufgabe entschließt, gibt er

ein Angebot mit Angabe seiner Fähigkeiten und den Bedingungen beim Manager ab. Der

Manager wählt aus allen Angeboten das Beste aus. Das Extended Contract Net Protocol

(ECNP) erweitert das Contract Net Protocol um die Möglichkeit, komplexe Aufgaben rekur-

siv an weitere Agenten zu verteilen, falls die Aufgabe die Fähigkeit einzelner Agenten über-

steigt. [ZHWZ04]

Das Contract Net Protokoll und auch seine Erweiterung stellen stark auf eine hierarchische

Aufgabenstellung ab, wie sie für mechatronische Systeme vor allem innerhalb von autonomen

mechatronischen Systemen zu finden ist. Allerdings ist für dieses Anwendungsgebiet eine

Aufgabenverteilung bereits bekannt und muss nicht mehr hergestellt werden. Auf Ebene der

vernetzten mechatronischen Systeme werden sich in der Regel eher heterarchische Kooperati-

onsformen finden lassen.

Planung von Systeminteraktionen 95

5.1.3.1.3 Middle-Agents

Als Middle-Agents werden Vermittlungs-Agenten bezeichnet, die Informationen über Anbie-

ter und Konsumenten im System haben und so eine Lösung des Matchmaking-Problems er-

möglichen. Sycara et. al. [SDW97] unterscheiden drei Arten von Middle-Agents:

• Gelbe Seiten (yellow pages),

• Schwarze Bretter (blackboards) und

• Broker.

Die mögliche Suchgeschwindigkeit und der Umfang des Informationsaustauschs sind dabei

die wesentlichen Unterscheidungsmerkmale. In den „Gelben Seiten“ veröffentlichen Anbieter

von Leistungen ihre Fähigkeiten, die dann von Konsumenten durchsucht werden können. Das

Prinzip eines „Schwarzen Bretts“ ist genau umgekehrt: Konsumenten veröffentlichen ihre

Anfragen, die von Anbietern durchsucht werden können [DWS96].

Ein Broker besitzt sowohl über Anbieter als auch über Konsumenten Informationen und ver-

sucht, Gruppen mit maximalen Übereinstimmungen zu finden und zwischen den Agenten zu

vermitteln. Problematisch ist, dass der Broker im Vergleich zu den Gelben Seiten und den

Schwarzen Brettern komplexe Operationen durchführt und daher schnell zu einem Engpass

wird [DWS96].

Ströbel und Stolze [SS01] stellen eine Matchmaking-Komponente vor, die nicht nur exakte

Übereinstimmungen findet, sondern auch Raum für Verhandlungen berücksichtigen kann.

Dies geschieht auf Basis der Operatoren <, ≤, =, ≠, ≥, >, AND und OR.

Jang et. al. [JMA04] stellen einen Middle-Agent vor, der keine Kriterien zur Suche vom Kon-

sumenten oder Anbieter als Eingabe erhält, sondern einen Suchalgorithmus, den er auf seine

Daten anwendet. Dadurch kann die Suche noch flexibler an die Bedürfnisse der suchenden

Agenten angepasst werden.

Mit einigen Modifikationen können Middle-Agents genutzt werden, um mechatronische Sys-

teme zu identifizieren, die ihre Interaktionen planen können oder sollten. Zwei Voraussetzun-

gen müssen dafür aber erfüllt werden: Die möglichen Interaktionen zwischen den Systemen

müssen in einer Form beschrieben werden, die ablegbar und durchsuchbar ist. Außerdem

muss das Anwendungsszenario der mechatronischen Systeme eine Infrastruktur bieten, die

Middle-Agents anbieten kann.

5.1.3.1.4 Verteiltes Matchmaking

Das verteilte Matchmaking kommt ohne spezielle Infrastruktur aus. Um passende Partner zu

finden, können die Agenten nur mit Agenten aus ihrer Nachbarschaft direkt kommunizieren.

Diese Nachbarn werden im ersten Schritt befragt, ob eine Kooperation in Frage kommt. Kann

eine Kooperation gebildet werden, bilden die beteiligten Agenten einen Cluster. Aufgaben,

die noch nicht vergeben werden können, werden nun an die Nachbarn des Clusters weiterge-

geben. Dadurch werden die Cluster laufend erweitert.

Ogston und Vassiliadis untersuchten diese Form des verteilten, zufälligen Matchmakings in

großen Mulitagentensystemen. Dabei vollzog sich der oben beschriebene Prozess rundenwei-

se. Es konnte gezeigt werden, dass nach spätestens 1000 Runden 90% der möglichen Mat-

chings gefunden wurden [OV01]. In einem weiteren Experiment konnte gezeigt werden, dass

kein Unterschied zwischen einem rundenweisen Vorgehen und einem Vorgehen bei konti-

nuierlicher Zeit besteht [OV02].

Das verteilte Matchmaking kommt in Frage, wenn das Anwendungsszenario der mechatroni-

schen Systeme keine Infrastruktur für das Matchmaking bietet. Nachteilig ist jedoch das ver-

gleichsweise hohe Kommunikationsaufkommen, das aus dem Mangel an nutzbarer Informati-

96 Planung von Systeminteraktionen

on resultiert. Abhängig von der Anwendung muss untersucht werden, inwieweit Informatio-

nen über die Nachbarn genutzt werden können, um andere Systeme gezielter anzufragen.

5.1.3.1.5 Agenten mit regionaler Synchronisation

Weyns und Holvoet stellen ein formales Modell für situative Multiagentensysteme vor. Situa-

tiv bedeutet, dass die Handlungen der Agenten innerhalb des MAS von ihrer Position, ihrer

Wahrnehmung des Zustandes ihrer Umwelt und ihrem internen Zustand abhängen. Situative

Agenten führen keine Langzeitplanung durch, sondern entscheiden anhand einfacher Verfah-

ren über auszuführende Aktionen.

In dem Modell von Weyns und Holvoet führen die Agenten ihre Aktionen synchronisiert aus.

Dazu werden die Agenten mittels eines Verfahrens auf Basis des sog. Two-Phase-Commit-

Protokolls und einer logischen Uhr in disjunkte Teilmengen unterteilt, zwischen denen kein

Synchronisationsbedarf besteht. Dabei sind in einer solchen Teilmenge (Region genannt) alle

Agenten zusammengefasst, die entweder direkt oder indirekt miteinander interagieren.

Das Verfahren von Weyns und Holvoet ist ausdrücklich für situative Agenten konzipiert. Bei

der Anwendung auf die Planung besteht das Problem, dass im Zeitverlauf so viele Systeme

direkt oder indirekt miteinander interagieren, dass die erzeugten Regionen fast so groß wie

das Gesamtsystem werden. Damit verliert diese Form der Synchronisation aber ihren Sinn.

Eine Erweiterung des Modells von Weyns und Holvoet um eine zeitliche Dimension könnte

einen wertvollen Beitrag zur Identifikation von Partnern leisten. Offen bleibt allerdings die

Frage, wie die Beziehung einer direkten Interaktion entdeckt wird.

5.1.3.2 Verfahren zur Interaktionsplanung

Wie bereits in den Phasenmodellen aus 5.1.2 zu erkennen, wird im Rahmen der Multiagen-

tenplanung nur ein geringes Gewicht auf die Erstellung des eigentlichen Plans gelegt. Ein

größeres Gewicht liegt in der Regel auf den vor- und nachgelagerten Phasen, durch die im

Vorfeld Konflikte zwischen den Agenten vermieden werden sollen. Die folgenden Absätze

erläutern Verfahren, die entweder für die Generierung gemeinsamer Pläne oder die Koordina-

tion vor bzw. nach der Planung eingesetzt werden können.

5.1.3.2.1 Partial-Order-Planning with Concurrent Interacting Actions

Boutilier und Brafman stellen eine Erweiterung des Konzepts des Partial-Order-Planners

vor, die in der Lage ist, nebenläufige und interagierende Aktionen zu berücksichtigen [BB01].

Es handelt sich dabei um einen Ansatz, der ausdrücklich eine zentrale Planung für Agenten-

teams oder verteilte Akteure anstrebt.

Boutilier und Brafman erweitern dazu die Aktionenschemata der Planungssprache STRIPS

um ein weiteres Element, die „concurrent action list“ (Liste mit nebenläufigen Aktionen).

Taucht in der „concurrent action list“ einer Aktion A

eine andere Aktion A

als nicht negier-

tes Element auf, muss diese A

gleichzeitig mit A

ausgeführt werden, um A

erfolgreich

durchzuführen. Mit der Erweiterung der Planungssprache STRIPS wird ein Partial-Order-

Planner mit dem Namen POMP vorgestellt, der sowohl korrekt als auch vollständig ist.

POMP ist als zentraler Planungsansatz nur für Situationen geeignet, in denen die interagieren-

den Systeme eine gemeinsame Hauptaufgabe durchführen. Für Situationen mit verschiedenen

Hauptaufgaben und damit unterschiedlichen Interessen der Systeme ist die Anwendung einer

zentralen Planungseinheit nicht plausibel. Das Problem der tendenziell größeren Komplexität

zentraler Planungsmodelle für mehrere Systeme wurde bereits in Unterkapitel 2.4 angespro-

chen.

Siehe Anhang B.

Planung von Systeminteraktionen 97

5.1.3.2.2 DSIPE

DSIPE ist ein Planungssystem, bei dem der Planungsprozess verteilt in einem Multiagenten-

system stattfindet [DW99]. Es nutzt dazu die Konzepte des hierarchischen Task Netzwerk

Planens (vergleiche 5.1.3.1.1). Das System setzt dabei das Vorhandensein eines zentralen

Agenten voraus, der eine Gesamtsicht auf die zu lösende komplexe Aufgabe hat. Dieser

Agent, der auch als koordinierende Planungszelle bezeichnet [DDOW99] wird, zerlegt die

komplexe Aufgabe in mehrere zu erreichende Teilziele und definiert die Reihenfolgebezie-

hungen zwischen ihnen. Diese Teilziele werden dann an andere Agenten delegiert, die einen

Plan zur Erreichung der ihnen zugeordneten Teilziele entwickeln. Die Agenten haben dabei

wiederum die Möglichkeit, die Aufgabe zu dekomponieren oder selbst einen Plan zu ermit-

teln. Nachdem die Teilpläne durch die Agenten erstellt sind, werden sie durch die koordinie-

rende Planungszelle zu einem vollständigen globalen Plan zusammengefasst.

DSIPE eignet sich ebenso wie POMP nur für Situationen, in denen die interagierenden Sys-

teme eine gemeinsame Hauptaufgabe durchführen. Ein klarer Vorteil gegenüber POMP ist

jedoch die verteilte, nebenläufige Ausführung der Planung, wodurch sich eine höhere Pla-

nungsgeschwindigkeit erreichen lässt.

5.1.3.2.3 Generalized Partial Global Planning

Generalized Partial Global Planning (GPGP, [DL92] und [DL94]) ist eine Verallgemeinerung

eines Ansatzes zur Koordination mehrerer Agenten im Vehicle Monitoring [DL87]. Die

Grundidee des GPGP besteht darin, Agenten ihre Pläne austauschen zu lassen, wenn ihre

Aufgaben oder Ziele in einer Relation zueinander stehen. Ein Agent, der zusätzlich zu seinem

eigenen Plan die Pläne weiterer Agenten kennt, besitzt damit Informationen über einen teil-

weise globalen Plan (partial global plan). Diese Informationen kann der Agent dann nutzen,

um diesen teilweise globalen Plan zu optimieren und beispielsweise Redundanzen zu vermei-

den.

Das ursprüngliche Partial Global Planning (PGP) wurde genau auf die Anwendung im Vehic-

le Monitoring zugeschnitten. Das galt insbesondere für mögliche Relationen zwischen Tasks

und Zielen und die möglichen Verbesserungen im teilweise globalen Plan. Im GPGP wird nun

eine Menge von anwendungsunabhängigen Relationen und Verbesserungsaktionen einge-

führt, die den anwendungsspezifischen Tasks und Zielen der Agenten zugeordnet werden

können. Dadurch kann ein anwendungsunabhängiges Verfahren zur Koordination genutzt

werden.

Zu den im GPGP definierten Relationen gehören unter anderem:

• Basic Domain Relationships: verhindert, bricht ab, beschränkt, begünstigt, löst aus,

ermöglicht, hierarchische Beziehung

• Graph Relationships: überlappen, notwendig, ausreichend, erweiternd, zusammenfas-

sen, konkurrieren

• Temporal Relationship: vorher, gleichzeitig, anschließen, überlappend, während, ab-

schließen.

Eine der wichtigsten Relationen zwischen Aufgaben ist begünstigt (engl. facilitates). Diese

Relation besitzt zwei Parameter (Power-Parameter), die die Art und den Umfang der Begüns-

tigung genauer beschreiben: φ

und φ

Sie beschreiben die Wirkung auf Dauer (φ

) und Quali-

tät (φ

). Die Wirkung wird allerdings nicht allein durch die Parameter bestimmt, sondern auch

durch die Qualität, die vom begünstigenden Task bereitgestellt wird, wenn der begünstigte

Task beginnt. Angenommen, T

begünstigt T

mit einem bestimmten φ

(angenommen φ

sei

0). Dann lässt sich aus der Qualität, mit der T

beendet wurde, die Wirkung auf die Dauer von

98 Planung von Systeminteraktionen

errechnen als ·

¨u?J© 99J¤9ª

«¬¨u?J©

[DGLH92]. Mithilfe dieser Form der Modellierung von

Beziehungen wird eine zielgerichtete Koordination der Aufgaben möglich.

Durfee [Durf02] beschreibt den allgemeinen Ablauf der Koordination wie folgt: Während der

ersten Phase des GPGP planen die Agenten lokal. Dazu definieren sie ihre Ziele und bestim-

men, welche Aktionen möglicherweise zum Erreichen dieser Ziele führen. Dabei können die

lokalen Pläne mehrere Ziele und Verzweigungen und alternative Aktionen enthalten. Auf-

grund dieser möglichen Komplexität ist eine Abstraktion der lokalen Pläne (Local Plan Ab-

straction) notwendig, um die Koordination der Pläne effizient und korrekt durchzuführen. Das

führt zu einem abstrakten Plan, der nur die wesentlichen Schritte enthält, die für andere inter-

essant sein könnten.

Diese abstrakten Pläne sind Gegenstand des partial global plan construction and modificati-

on, also der Erstellung und Konstruktion globaler Pläne. Dabei werden die lokalen Pläne in

einem (teilweise) globalen Plan zusammengefügt und analysiert. Ergebnis der Analyse sind

Möglichkeiten zur Verbesserung der lokalen Pläne aus der globalen Sicht, wie zum Beispiel

die Vermeidung redundanter Aktivitäten oder eine verbesserte zeitliche Abfolge von Aktivitä-

ten in verschiedenen lokalen Plänen. Aufbauend auf dem (teilweise) globalen Plan können

Interaktionen in Form von Kommunikation zwischen den Agenten geplant werden. Auf Basis

des (teilweise) globalen Plans kann ein Agent bestimmen, wann ein Task von welchen Agen-

ten abgeschlossen wird und für welche anderen Agenten dieser relevant ist.

Nach dem ein (teilweise) globaler Plan erzeugt wurde und die lokalen Pläne angepasst wur-

den, werden diese ausgeführt. Bei bestimmten Abweichungen vom ursprünglichen Planver-

lauf (z. B. durch unvorhergesehene Umwelteinflüsse) besteht die Möglichkeit, die Pläne er-

neut zu koordinieren. Dabei löst der Agent, der die Abweichung feststellt, die erneute Koor-

dination aus. Dabei muss abgewogen werden zwischen dem Nutzen der erneuten Koordinati-

on und dem damit verbundenen Aufwand.

In [DL00] erweiterten Decker und Li das GPGP um die Berücksichtigung exklusiver, nicht

verbrauchbarer Ressourcen.

Generalized Partial Global Planning ermöglicht vor allem die Realisierung von Synergien

zwischen den Plänen unterschiedlicher Agenten. GPGP definiert zwar eine Menge an Relati-

onstypen, die zwischen Aktionen bestehen können, jedoch müssen diese für jede neue Prob-

lemdomäne für jedes Paar von Aktionen neu definiert werden. Dies bedeutet einen erhebli-

chen Modellierungsaufwand und lässt dem System außerdem keine Möglichkeit zur weiteren

Adaption. Sowohl die Relationen als auch die Koordinationsmechanismen (Aufzählung siehe

[PL96]) berücksichtigen immer nur Paare von Aktionen. Daher sind die Aktionen entweder

weitgehend unabhängig (eine Änderung an einem Plan lässt den restlichen Plan unberührt)

oder es entstehen durch die Koordinationen notwendige Plananpassungen, die wiederum

koordiniert werden müssen.

5.1.3.2.4 Shared Activity Coordination

Shared Activity Coordination ist ein System zur Koordination eigennütziger Agenten durch

Verhandlung [CB03]. Für die Erstellung und Ausführung der individuellen Pläne wird das

CASPER (Continuous Activity Scheduling Planning Execution and Replanning) Framework

eingesetzt [CKS+00]. Dabei hat jeder Agent eine genaue Vorstellung von seinen geplanten

Aktionen und deren zeitlicher Abfolge. Da CASPER einen besonderen Schwerpunkt auf die

Verzahnung von Planung und Ausführung legt, muss jede Aktion eines Agenten mit einem

festen Zeitpuffer vor dem geplanten Start an ein Ausführungsframework (das tatsächlich den

Plan ausführende System) übergeben. Ab diesem Zeitpunkt kann die Aktion nicht mehr geän-

dert werden und ist fest eingeplant. Aus diesem Grund verwendet CASPER eine Zeitspanne

(commit window) vor Beginn jeder Aktion, innerhalb derer das Planungssystem Konflikte

zwischen den eingeplanten Aktionen auflösen muss. Zusätzlich sieht das SHAC-System noch

Planung von Systeminteraktionen 99

die Koordination zwischen Agenten vor, die gemeinsame Aktionen (shared activities) durch-

führen. Eine gemeinsame Aktivität ist definiert als ein Tupel (Parameter, Rollen, Protokolle,

Dekomposition, Beschränkung). Die Parameter beschreiben die für die Aktivität relevanten

Variablen (z. B. Startzeitpunkt, Dauer, Positionen, etc.) und deren aktuelle Werte. Die Rollen

sind Platzhalter für die konkreten Akteure, die an der Aktivität beteiligt sind, und ordnen die-

sen einzelne Aufgaben zu. Um die Aufgabenverteilung etwas flexibler gestalten zu können,

werden unterschiedliche Dekompositionen komplexer Aufgaben modelliert, zwischen denen

die Systeme auswählen können. Dekompositionen sind vorab definierte Zerlegungen der ge-

meinsamen Aktivität, aus denen die Agenten auswählen können.

Zur Koordination und Einigung über die Parameter und die generelle Ausführung der gemein-

samen Aktivität werden Verhandlungen eingesetzt, die einem der gemeinsamen Aktivität zu-

geordneten Protokoll entsprechen müssen. Dabei kann das Protokoll z. B. Rangfolgen oder

Master/Slave-Beziehungen zwischen Agenten definieren, um eine schnelle Einigung zu erzie-

len. Je kürzer das commit window wird, desto einfachere Protokolle werden eingesetzt, um

eine Einigung zu erzielen.

Das Modell der Shared Activities Coordination ist relativ statisch und muss für konkrete An-

wendungsbereiche maßgeschneidert ausgelegt werden, da die Shared Activities im Vorfeld

der Planung definiert werden müssen und sehr viele Informationen enthalten. Das ermöglicht

auch das relativ problemlose Einfügen der Shared Activities in die individuellen Pläne der

Agenten, da das Ergebnis der Aktivität vorab im Wesentlichen bekannt ist. Auswirkungen auf

die individuellen Pläne werden damit beschränkt.

Das Konzept des Commit Windows scheint jedoch geeignet, um die individuelle Planung, die

Koordination und die Ausführung der Pläne miteinander zu verzahnen.

5.1.3.2.5 Coordination Before Planning

Witteveen et al. ([SWMV06] und [BMVW06]) stellen ein System zur Koordination eigennüt-

ziger Agenten im Vorfeld der eigentlichen Planung vor. Dabei gehen die Autoren davon aus,

dass die Agenten zwar eigennützig sind, aber doch eine gemeinsame Aufgabe erfüllen müs-

sen. Aus der Eigenschaft der Eigennützigkeit wird gefolgert, dass die Agenten sich nicht über

ihre individuellen Pläne austauschen.

Die komplexen Aufgaben, die die Agenten erfüllen sollen, sind bereits vor der Koordination

in elementare Teilaufgaben (Tasks) zerlegt. Ein Task kann dabei für einen einzelnen Agenten

wiederum ein Planungsproblem darstellen. Zusätzlich sind Abhängigkeiten zwischen den

elementaren Tasks angegeben, die ähnlich wie die Mutexe im Partial-Order-Planning eine

zeitliche Abfolge der Tasks erzwingen. Abhängigkeiten, die zwischen den Tasks eines Agen-

ten bestehen, werden als Intra-Agent-Abhängigkeit bezeichnet. Inter-Agent-Abhängigkeiten

sind Abhängigkeiten zwischen Tasks unterschiedlicher Agenten.

Zur Berücksichtigung der Inter-Agenten-Abhängigkeiten mit möglichst geringem Informati-

onsaustausch wird ein dezentraler Koordinationsalgorithmus vorgeschlagen. Der Algorithmus

setzt ein Blackboard ein, auf dem alle Inter-Agenten-Abhängigkeiten ausgewählt sind. Jeder

Agent beginnt nun mit der Planung und Ausführung einer Teilmenge der ihm zugeordneten

Tasks, die von keinem anderen Task abhängen. Nach der Planung und Ausführung eines

Tasks t teilt der Agent dem Blackboard mit, dass t erfüllt ist, und das Blackboard entfernt alle

Inter-Agent-Abhängigkeiten, in denen t als zuerst auszuführender Task enthalten ist. Damit

wächst die Menge der Tasks, die nicht von Inter-Agenten-Abhängigkeiten betroffen sind, ste-

tig an und schließlich können alle Tasks durchgeführt werden.

Im Konzept von Witteveen et al. bleiben wesentliche Fragen unbeantwortet. Es bleibt unklar,

wie sich eigennützige Agenten auf eine Zerlegung der gemeinsamen Aufgabe einigen und die

Abhängigkeiten innerhalb dieser Zerlegung bestimmen. Auch erscheint die Einschränkung

nicht plausibel, dass Agenten, die sich auf eine gemeinsame Aufgabe verständigt haben, auf

100 Planung von Systeminteraktionen

jegliche direkte Kommunikation zur Planung dieser Aufgabe verzichten. Sie führt auf jeden

Fall dazu, dass mögliche Synergien zwischen den individuellen Plänen nicht genutzt werden.

5.1.3.3 Verfahren zur Verhandlung zwischen Systemen

Einige der im vorigen Kapitel vorgestellten Ansätze setzen Verhandlungen zwischen den be-

teiligten Systemen ein, um Synergien zu realisieren oder Konflikte zu lösen (z. B. Generalized

Global Planning oder Shared Activities). Der Vorteil des Verhandlungsansatzes gegenüber

anderen Koordinationsmechanismen besteht darin, dass er sich sowohl für kooperative Sys-

teme (also solche, die eine gemeinsame Hauptaufgabe verfolgen) und konkurrierende Syste-

me (solche mit unterschiedlichen Hauptaufgaben) eignen. Aus diesem Grunde sollen an dieser

Stelle Methoden vorgestellt werden, die zur Verhandlung zwischen interagierenden Systemen

eingesetzt werden können.

5.1.3.3.1 Spieltheoretische Verhandlungen

Spieltheoretische Ansätze nutzen die Modellierung und die Prinzipien der Spieltheorie. Das

bedeutet, ein verhandelnder Agent beachtet bei der Verhandlung auch die Optionen und ver-

mutliche Strategie seiner Verhandlungspartner. Die Verwendung spieltheoretischer Methoden

setzt voraus, dass die Präferenzen eines Agenten numerisch durch eine Nutzenfunktion (utility

function) ausgedrückt oder zumindest in eine ordinale Rangfolge gebracht werden können.

Ein oft genutztes Verhandlungsprotokoll ist das „abwechselnde Bieten“ [FWJ05]. Dabei bie-

ten sich die Agenten abwechselnd einen Kompromiss an. Ein Verhandlungspartner kann ei-

nem Angebot zustimmen oder ein neues Angebot abgeben, das nicht schlechter als das vorhe-

rige sein darf. Das Protokoll endet mit einem Kompromiss oder dem Überschreiten einer zeit-

lichen Deadline. Die Verhandlungsprotokolle können unterschieden werden anhand der zur

Verfügung stehenden Information (Deadlines, Präferenzen und Strategien der übrigen Agen-

ten), ob der Gegenstand ein oder mehrere Attribute besitzt (z. B. Preis, Qualität, Termin) und

ob zwei oder mehrere Agenten beteiligt sind.

Weitere Verhandlungsprotokolle für Situationen mit gemeinsamer Information finden sich

beispielsweise bei Rosenschein und Zlotkin [RZ94], Fershtman und Seidmann [FS93] und

Calabuig et. al. [CCO02]. Ein Protokoll für private Informationen stellen Fatima et. al. vor

[FWJ05]. Verfahren für Verhandlungen über mehrere Attribute werden u. a. in [FWJ04],

[FSJ98], [CJ04], [Lin04] und [BL00] vorgestellt. Die Verfahren unterscheiden sich hinsich-

tlich der Arten von Verhandlungsattributen (feste und optionale Attribute), Garantie eines

Pareto-Optimums, Verhandlungsdauern und möglichen Rollen der Verhandlungspartner. Alle

diese Eigenschaften sind sehr anwendungsspezifisch und werden daher an dieser Stelle nicht

erläutert.

Die spieltheoretische Modellierung der Verhandlung impliziert von eigennützigen Systemen

aus. Daher werden spieltheoretische Verhandlungen bei Systemen mit gemeinsamer Haupt-

aufgabe nicht zu effektiven Lösungen des Verhandlungsproblems führen.

5.1.3.3.2 Argumenten-basierte Verhandlungen

Eine Alternative zu spieltheoretisch orientierten Verhandlungen sind argumenten-basierte

Verhandlungssysteme. In der Regel sind sie wesentlich komplexer als spieltheoretische Ver-

handlungen, da in argumenten-basierten Verhandlungen neben Angeboten und Gegenangebo-

ten auch Meta-Informationen in Form von Erklärungen und Kritik ausgetauscht werden

[PJ96]. Die Meta-Information hat zwei wichtige Funktionen: Zunächst sollen Erklärungen zu

Absagen dem Verhandlungspartner ermöglichen, weitere nicht akzeptable Angebote zu ver-

meiden. Die Kritik an Argumenten in Form von Gegenargumenten dient dazu, fehlerhafte

Planung von Systeminteraktionen 101

Annahmen des Verhandlungspartners zu korrigieren und somit weitere nicht akzeptable An-

gebote auszuschließen.

In [PJ96] wird ein Ansatz zur automatischen Argumentation vorgestellt, bei dem Argumente

logische Schlussfolgerungen für oder gegen einen Vorschlag sind. Dabei werden zwei Arten

von Argumenten unterschieden:

• Nicht-triviale Argumente beruhen auf einer konsistenten Menge von Annahmen.

• Tautologische Argumente beruhen auf keinerlei weiteren Annahmen (es handelt sich

also gewissermaßen um die Axiome der Argumentation).

Argumente können auf zweierlei Arten widerlegt werden: Die Schlussfolgerung eines Argu-

ments wird durch ein Gegenargument direkt entkräftet (rebutting argument) oder eine Grund-

annahme eines Arguments wird durch ein Gegenargument widerlegt, sodass die Argumentati-

onsgrundlage für die Schlussfolgerung zerstört ist (undercutting argument).

Wie bereits bei den spieltheoretischen Ansätzen werden Protokolle zur Steuerung des Ver-

handlungsablaufs genutzt. Amgoud et. al. [APM01] beschreiben ein Protokoll für argumen-

ten-basierte Dialoge.

Für Systeme, die eine gemeinsame Hauptaufgabe zu erfüllen haben, stellen die argumenten-

basierten Verhandlungen eine interessante Alternative zu spieltheoretischen Verhandlungen

dar. In Form der Argumentationen können diese Systeme, die mit der Hauptaufgabe auch ein

gemeinsames übergeordnetes Zielsystem besitzen, sich über die Wechselwirkungen bestimm-

ter Handlungsoptionen hinsichtlich des gemeinsamen Zielsystems austauschen.

5.1.3.3.3 Satisficing Game Theory

Stirling beschreibt mit der Satisficing Game Theory [Stir03] einen formalen Ansatz zur Koor-

dination von Agenten.

Die Grundidee hinter der Satisficing Game Theory besteht darin, jedem Agenten zwei Rollen

zuzuordnen: Die eine konzentriert sich auf das Erreichen des fundamentalen Ziels eines Ent-

scheidungsproblems unabhängig von den anfallenden Kosten. Die zweite Rolle versucht da-

gegen, genau diese Kosten auf jeden Fall zu senken. Gemeinsam bilden diese beiden Rollen

einen Entscheider, der die Waage halten kann zwischen dem Wunsch, ein Ziel zu erreichen,

und den Kosten, die damit verbunden sind. Für beide Rollen werden zwei Nutzenfunktionen

definiert, die den Entscheidungsalternativen Werte aus der jeweiligen Perspektive zuordnen.

Dabei bezeichnet die Selectability (Wählbarkeit) den Nutzen der Alternativen aus Sicht der

Zielerreichung, während die Rejectability (Verwerfbarkeit) die Kosten darstellt. Dabei werden

diese beiden Nutzenfunktionen normalisiert zu Massenfunktionen

. In Multiagentenproble-

men handelt es sich um multivariate Massenfunktionen. Da diese Nutzenfunktionen als Mas-

senfunktionen die gleichen mathematischen Eigenschaften wie Wahrscheinlichkeitsfunktio-

nen besitzen, können Beziehungen zwischen den Variablen wie Unabhängigkeit und Bedingt-

heit analog definiert werden.

Hill et. al. bezeichnen die Selectability Massenfunktion mit p

und die Rejectability Massen-

funktion mit p

. Werden Selectability und Rejectability gleichzeitig betrachtet, bezeichnet p

die vereinigte Massenfunktion. Für ein System mit n Agenten ist die vereinigte Selectabili-

ty/Rejectability eine Massenfunktion mit zweimal n Variablen:

OO®…O¯O®…¯

*

,…*

,…E



Beispielsweise sind diskrete Wahrscheinlichkeitsfunktionen Massenfunktionen, da sie die Masse 1 (die Wahr-

scheinlichkeit des sicheren Ereignisses) auf eine Menge diskreter Punkte verteilen.

102 Planung von Systeminteraktionen

Dabei bezeichnen S

bis S

die Selectability-Rollen und R

bis R

die Rejectability-Rollen der

n Agenten. Die Variable *

' 1…( entspricht den Entscheidungsalternativen des i-ten

Agenten aus Sicht der Selectability-Rolle. Entsprechend stellen die Variablen v

…v

die Re-

jectablilty der Entscheidungsalternativen dar. Mithilfe von Abhängigkeitsfunktionen lassen

sich Abhängigkeiten zwischen den Entscheidungsalternativen der einzelnen Agenten darstel-

len. Diese Abhängigkeitsfunktionen können ähnlich einer totalen bedingten Wahrscheinlich-

keitsfunktion in Form von Graphen dargestellt werden, wobei jeder Knoten des Graphen für

eine bedingte Massenfunktion steht. Beispielsweise drückt die bedingte Massenfunktion

°|M®°®

4

 die Rejectability der Option v

aus, die Agent 1 unter der Annahme be-

stimmt, dass Agent 2 die Option u

wählt (aus Sicht der Zielerreichung) und v

dagegen ver-

wirft (unter Betrachtung der Kosten).

Auf Basis derartiger Nutzenfunktionen können die Systeme die Auswirkung ihrer Entschei-

dung auf andere Systeme bestimmen und zu der Entscheidung kommen, ihre eigenen Ziele

zugunsten anderer Systeme zurückzustellen. In [HJA+05] wurde ein derartiges „bedingtes“

altruistisches Verhalten für das Ausweichverhalten von Flugzeugen implementiert.

Die Satisficing Game Theory mit der Definition bedingter Nutzenfunktion stellt eine interes-

sante Basis für Verhandlungen zwischen Systemen mit gemeinsamer Hauptaufgabe dar. Auf-

grund der gemeinsamen Hauptaufgabe ist eine Entscheidung für altruistisches Verhalten plau-

sibel und kann die Verhandlungsdauer erheblich abkürzen.

5.1.3.3.4 Auktionen und Voting

Auktionen und Voting stellen in Multiagentensystemen wichtige Werkzeuge z. B. zur Res-

sourcenallokation bzw. zur Herbeiführung von Einigungen dar.

Ziel einer Auktion ist die Allokation eines Gutes gegenüber einer Menge von Bietern. Dabei

sollte diese Allokation effizient sein, es soll der Bieter das Gut erhalten, der es am höchsten

einschätzt bzw. den höchsten Nutzen aus ihm zieht [Coni08]. Dabei stehen eine Menge von

Auktionsmechanismen mit unterschiedlichen Eigenschaften, Vor- und Nachteilen zur Verfü-

gung. Besondere Bedeutung im Kontext der Multiagenten-Systeme hat die Vickrey Auction,

bei der ein verdecktes Gebot abgegeben wird. Es gewinnt derjenige Bieter, der das höchste

Gebot abgegeben hat, muss jedoch nur das zweithöchste Gebot zahlen. Durch diesen Mecha-

nismus ist sichergestellt, dass jeder Agent entsprechend seiner tatsächlichen Präferenz bietet,

da eine Abweichung keine Vorteile bietet. Auch umgekehrte Auktionen, bei denen mehrere

Anbieter um einen Auftrag konkurrieren, sind üblich [PRW01].

Voting dagegen beschreibt eine Situation, in der eine Menge von Agenten sich auf eine Alter-

native aus einer ganzen Menge von Alternativen einigen muss [PKSA06]. Dazu gibt jeder

Agent eine Präferenzbewertung über alle Alternativen an. Ausgewählt wird nach einer zuvor

festgelegten Regel. Ein einfaches Beispiel für eine solche Regel ist Plurality, bei der eine Al-

ternative einen Punkt erhält, wenn sie von einem Agenten als beste beurteilt wurde. Erheblich

komplexere Auswahlregeln sind vorstellbar, bedeuten jedoch auch erheblich mehr Rechen-

aufwand [Coni08].

Auktionen und insbesondere umgekehrte Auktionen sind geeignet, um im Rahmen einer Auf-

gabenverteilung einen konkreten Agenten auszuwählen, der die Aufgabe ausführen soll. Der

Mechanismus des Votings wäre einsetzbar, wenn sich eine Menge von Agenten zwischen

einer Menge von alternativen Plänen entscheiden muss.

Planung von Systeminteraktionen 103

5.1.4 Fazit zum Stand der Technik zur Interaktionsplanung

Der Stand der Technik zur Interaktionsplanung liefert Verfahren und Methoden, die zumin-

dest eingeschränkt oder für bestimmte Anwendungsszenarien geeignet sind, um die in Ab-

schnitt 2.4 definierten Anforderungen und Zielsetzungen zu erreichen.

Für die Interaktionsplanung bei gemeinsamer Aufgabe kommt zur Strukturierung der Planung

das Phasenmodell von Durfee in Betracht. Zur Verfeinerung der globalen Aufgaben und der

Aufgabenzuordnung stehen mit dem HTN-Planen und dem Contract Net Protokoll geeignete

Verfahren zu Verfügung. Für die Schritte Koordination vor der Planung und Koordination

nach der Planung liefert das Generalized Partial Global Planning mit seinen Relationen zwi-

schen den Systemaktivitäten einen interessanten Ansatz. Um die Planung mit der Ausführung

zu verzahnen, kommt das Commit-Window aus der GPGP Erweiterung SHAC in Betracht.

Dabei können die Koordinationsmechanismen aus GPGP und SHAC nicht direkt zur Anwen-

dung kommen, da diese nur auf einzelnen Aktionen operieren. Sind Aktionen nicht weitge-

hend unabhängig, kann der Austausch von Aktionen zu einer Inkonsistenz der lokalen Pläne

führen. Umplanungen und damit neuer Koordinationsbedarf wäre die Folge. Hier sind Koor-

dinationsaktionen zu identifizieren, die die Konsistenz des lokalen Plans sicherstellen.

Um die individuelle Planung auf Basis der PDDL durchführen zu können, müssen die Wech-

selwirkungen in das Planungsmodell integriert werden. Dementsprechend ist zu beschreiben,

wie eine Koordination vor und nach der Planung für mechatronische Systeme durchgeführt

werden kann und wie die dafür zu definierenden Relationen in die PDDL integriert werden

können. Hier bietet die Satisficing Game Theory mit ihren bedingten Nutzenfunktionen einen

interessanten Ansatz.

Für die Planung bei individueller Hauptaufgabe ist das Phasenmodell nach Wooldrigde und

Jennings besser geeignet. Da nach Analyse des Stands der Technik offen bleibt, wie das Er-

kennen von Kooperationspotenzial erfolgt, muss dieser Schritt im folgenden Konzept erarbei-

tet werden. Zur Teambildung stehen folgende Methoden zur Verfügung: Je nach Anwen-

dungsgebiet kommt das Contract Net Protokoll, Middle-Agents oder das verteilte Matchma-

king in Frage. Hier ist allerdings zu untersuchen, wie im Rahmen dieser Methoden geeignete

Kooperationspartner identifiziert werden können. Im Rahmen der Planbildung steht die Eini-

gung auf einen Plan für alle beteiligten Systeme im Vordergrund. Hier können die Methoden

der Verhandlung oder des Votings eingesetzt werden, um zwischen mehreren alternativen

Plänen auszuwählen. Damit müssen im Wesentlichen keine neuen Verfahren entwickelt wer-

den, stattdessen ist die Kooperation zwischen Systemen mit individueller Hauptaufgabe vor

allem zu systematisieren und zu strukturieren.

104 Planung von Systeminteraktionen

5.2 Planung der Interaktion bei gemeinsamer Hauptaufgabe

Bei Vorliegen einer gemeinsamen Hauptaufgabe kann davon ausgegangen werden, dass die

Zusammensetzung der interagierenden Systeme vorab bekannt ist, da zwischen den Systemen

eine Einigung über Art und Inhalt der Aufgabe stattgefunden haben muss. Im Folgenden soll

daher immer die Rede von Teilsystemen sein, um eine Gruppe von Systemen zu bezeichnen,

die eine gemeinsame Hauptaufgabe erfüllen. Der Begriff Teilsystem setzt allerdings keine

räumliche oder gar bauliche Integration der Systeme voraus. Aufgrund der statischen Zusam-

mensetzung der Teilsysteme scheint das Phasenkonzept nach Durfee (vergleiche 5.1.2.1) ge-

eignet. Daher soll das zu konzipierende Verfahren in die Schritte Koordination vor der Pla-

nung, Koordination nach der Planung und Planausführung zergliedert werden, wobei die

Koordination nach der Planung und die Planausführung miteinander verzahnt werden. Wei-

terhin kann in diesem Fall, aufgrund der gemeinsamen Hauptaufgabe, davon ausgegangen

werden, dass die Teilsysteme vornehmlich an den gleichen Umgebungsobjekten handeln.

Abbildung 5-4: Skizze der Interaktionsplanung bei gemeinsamer Hauptaufgabe

Aus diesen Gründen fokussieren sich die folgenden Abschnitte auf Verfahren der Planung bei

gemeinsamer Hauptaufgabe. Die Probleme der Identifikation von Kooperationspartnern und

der Aufgabenverteilung sind nachrangig und durch den Stand der Technik zufriedenstellend

gelöst. Dabei wird das Planungsverfahren so konstruiert, dass das Wissen, wie die Teilaufga-

ben eines Teilsystems erfüllt werden können, nur im jeweiligen System vorliegen muss. Da-

durch kann die eigentliche Planung lokal erfolgen. Um dennoch zu einer Menge von Teil-

funktionslösungsfolgen zu kommen, die die Wechselwirkungen zwischen den Systemen be-

rücksichtigt und sogar ausnutzt, sodass die Hauptaufgabe in möglichst großer Übereinstim-

mung mit dem aktuellen Zielsystem erfüllt wird, wird eine Modellierung für die Abhängigkei-

ten zwischen den Aktivitäten der Systeme entwickelt. Die Modellierung kann im Rahmen

einer Abstimmung vor der eigentlichen lokalen Planung sowie einer anschließenden Koordi-

nation der Pläne genutzt werden. Dabei ist für beide Fälle keine genaue Kenntnis über die

... ...

1. Phase:

Bewertung der

Wechselwirkung

2. Phase:

Lokale Planung

3. Phase:

Koordination und

Ausführung der

lokalen Pläne

Planung von Systeminteraktionen 105

interne Natur der Teilfunktionslösungen der Teilsysteme notwendig. Abschließend wird ge-

zeigt, wie die gewählte Modellierung auf Lern- und Klassifikationsprobleme abgebildet wer-

den kann, um die Parameter des Modells durch die Systeme selbstständig anhand im Betrieb

gesammelter Erfahrungen zu bestimmen und anzupassen. Abbildung 5-4 skizziert das angest-

rebte Verfahren.

5.2.1 Mögliche Koordinationsaktionen

Mechatronische Systeme beeinflussen sich gegenseitig durch die Teilfunktionslösungen, die

sie zur Erfüllung ihrer Aufgabe einsetzen. Dabei kann die Ausführung einer Teilfunktionslö-

sung durch das Teilsystem A positiv oder negativ auf die Ausführung einer Teilfunktionslö-

sung durch das Teilsystem B wirken. Offensichtlich können Teilfunktionslösungen nur durch

solche Aktivitäten anderer Teilsysteme beeinflusst werden, die ihnen zeitlich vorgelagert oder

gleichzeitig ausgeführt werden

Da ein Plan nur hinsichtlich der ausgewählten Aktivitäten und der zeitlichen Anordnung von

Aktivitäten verändert werden kann, ergeben sich drei grundsätzliche Möglichkeiten, die

Koordination zwischen zwei mechatronischen Systemen zu verbessern:

1. Einsatz einer alternativen Teilfunktionslösung: Die alternative Teilfunktionslösungs

hat eine bessere Wechselwirkung mit den Aktivitäten anderer Systeme.

2. Aktivität in ein anderes Zeitfenster verschieben: Die Aktivität hat in dem Zeitfenster

eine positive Wechselwirkung auf Aktivitäten anderer Systeme.

3. Aktivität aus einem Zeitfenster schieben: Die Aktivität hat eine negative Wechselwir-

kung auf eine Aktivität anderer Systeme.

Diese drei grundsätzlichen Koordinationsoperationen beziehen sich jeweils auf genau eine

Aktivität, sie können aber dennoch nicht losgelöst vom übrigen lokalen Plan betrachtet wer-

den. Der Austausch von Teilfunktionslösungen oder die zeitliche Verschiebung von Aktivitä-

ten ist nicht ohne Weiteres möglich, wenn:

• Die Voraussetzungen zum Einsatz der alternativen Teilfunktionslösung im bisherigen

Plan nicht erfüllt sind.

• Der Einsatz der alternativen Teilfunktionslösungen oder die zeitliche Verschiebung

einer Teilfunktionslösung den Plan unausführbar macht, da die Voraussetzungen für

die folgende Aktivitäten nicht mehr erfüllt sind.

Dass die Ausführung der Koordinationsoperation im aktuellen Plan nicht möglich ist, bedeu-

tet jedoch nicht, dass kein Plan existiert, der das Koordinationspotenzial ausnutzt. Daher sind

Modifikationen am Plan notwendig – das System, das die Koordinationsoperation ausführen

soll, muss also umplanen.

Abbildung 5-5 verdeutlicht diesen Sachverhalt am Beispiel des Planungsproblems des Ant-

riebs (Auswahl von Geschwindigkeitsverläufen). Die Abbildung zeigt einen Teilplan, dessen

dritte Aktivität einen Konflikt (z. B. eine negative Wechselwirkung) mit einem anderen Teil-

system (z. B. dem AGAS) aufweist. Durch die Einbindungen in den Plan kann die Aktion

aber bedingt durch seinen direkten Vorgänger und Nachfolger nicht einfach ausgetauscht

werden. Ein möglicher Ansatz besteht nun darin, anstatt eines einfachen Austauschs ein Pla-

nungsproblem zu formulieren, das auch die Vorgänger und Nachfolger der Aktivität umfasst.

Dabei muss das Ziel des Planungsproblems so formuliert werden, dass der nachfolgende Plan

Das ist zumindest solange der Fall, wie von einem linearen Zeitverlauf ausgegangen wird

106 Planung von Systeminteraktionen

ohne Anpassung weiter ausgeführt werden kann. Im Beispiel muss im letzten Schritt also ge-

nau die Endgeschwindigkeit im letzten Schritt erreicht werden, die die Ausführung des fol-

genden Fahrprofils ermöglicht.

Die oben genannten Koordinationsoperationen können auf gewöhnliche PDDL-

Planungsprobleme zurückgeführt werden. Durch die im folgenden Kapitel ermittelten detail-

lierten Nutzenwerte kann bei der Lösung dieser Planungsprobleme die Wechselwirkung mit

den übrigen Teilsystemen berücksichtigt werden.

Abbildung 5-5: Mögliche Plananpassung im Planungsproblem des Antriebs

Das Ersetzen einer Teilfunktionslösung tfl durch eine alternative Teilfunktionslösung tfl

ist

auf zwei aufeinander aufbauende Planungsprobleme abzubilden. Zunächst muss von einem

Vorgängerzustand (ggf. der direkte Vorgänger) ein Plan derartig gestaltet werden, dass die

Vorbedingungen von tfl

erfüllt sind. Dieser Plan sollte eine kurze Ausführungsdauer besitzen,

um den resultierenden koordinierten Gesamtplan nicht unnötig zu verlängern und so einen

zeitlichen Verzug beim Erreichen des angestrebten Zustands zu vermeiden. Der so entstande-

ne neue Plan ist durch die Aktivität, die die Teilfunktionslösung tfl

ausführt,

zu ergänzen.

Diese Ergänzung ergibt den Folgezustand von tfl

, der den Ausgangszustand des zweiten Pla-

nungsproblems darstellt. Der Folgezustand von tfl

muss überführt werden in einen Zustand,

der bereits im ursprünglichen Plan enthalten ist. So entsteht ein neuer lokaler Plan, der die

gewünschte Ersetzung der Teilfunktionslösung berücksichtigt. Abbildung 5-6 veranschaulicht

die Einbettung der Alternativen der neuen Teilfunktionslösung in den bestehenden Plan.

Planung von Systeminteraktionen 107

Abbildung 5-6: Einbettung einer alternativen Teilfunktionslösung

Beim Verschieben einer Teilfunktionslösung aus einem Zeitfenster kann das Planungsprob-

lem so modifiziert werden, dass alle Grundaktionen des PDDL-Planungsproblems (vergleiche

Unterkapitel 2.1.1) entfernt werden, die einer Anwendung der Teilfunktionslösung in diesem

Zeitfenster entsprechen. Eine weitere Alternative wäre die Einführung von Strafkosten (Redu-

zierung des Nutzens), um eine Verschiebung aus dem Zeitfenster zu erreichen. Lässt sich der

Nutzen, den eine Koordinationsaktion erbringt, genau beziffern und in die Formulierung des

PDDL-Planungsproblems integrieren, reicht es aus, um den Bereich des Zeitfensters herum

eine Neuplanung durchzuführen. Kann die Verschiebung der Aktivität eine Verbesserung

bewirken, wird der Planer aufgrund der Zielfunktion die Aktivität aus dem Zeitfenster ver-

schieben. Abbildung 5-7 veranschaulicht den Planungsvorgang.

Abbildung 5-7: Planung beim Verschieben einer Teilaktion aus einem Zeitfenster

Ganz ähnlich lässt sich mit der Verschiebung in ein Zeitfenster umgehen. Die Planung muss

einen Bereich vor der ursprünglichen Aktivität und einen Zielzustand im Bereich nach dem

Zeitfenster umfassen. Abbildung 5-8 veranschaulicht den Planungsvorgang.

Abbildung 5-8: Planung beim Verschieben einer Teilaktion in ein Zeitfenster

Grundlage für die vorgestellte Abbildung von Koordinationsaktionen auf PDDL-

Planungsprobleme ist eine Integration der Wechselwirkung in die verwendeten Planungsmet-

riken, um den Standardplaner in gewünschter Weise zu steuern.

108 Planung von Systeminteraktionen

5.2.2 Blackbox-Modellierung der Wechselwirkungen zwischen Teilsys-

temen

Ziel des in diesem Kapitel entwickelten Verfahrens ist die Koordination der Wechselwirkun-

gen zwischen Teilsystemen. Es soll den Teilsystemen ermöglichen, Konflikte zu vermeiden

und Synergien verstärkt zu realisieren. Dazu ist zunächst eine Modellierung dieser Wechsel-

wirkungen notwendig. Sie stellt das Aufgabenobjekt der Koordination dar. Sie muss den Teil-

systemen die notwendigen Informationen liefern, um Möglichkeiten zur Durchführung einer

der zuvor vorgestellten Koordinationsaktionen zu ermitteln. Dabei erfolgt die Modellierung in

zwei Schritten. Für die Koordination vor der Planung ist eine zeitunabhängige Darstellung (es

liegen keine Informationen über die zeitliche Abfolge von Aktivitäten anderer Systeme vor)

und für die Koordination nach der Planung eine zeitabhängige Darstellung (es liegen genaue

Informationen über die zeitliche Abfolge vor) notwendig. Die Informationen, die die Model-

lierung umfassen muss, sind vielfältig. Zunächst muss dargestellt werden, ob und in welchem

Maße Wechselwirkungen zwischen Teilfunktionslösungen unterschiedlicher Teilsysteme be-

stehen. Um die Relevanz dieser Wechselwirkungen zu beurteilen, ist es notwendig, die Häu-

figkeit der Anwendung von Teilfunktionslösungen zu kennen. Wechselwirkungen mit einer

Teilfunktionslösung sind weniger relevant, wenn diese Teilfunktionslösung selten angewandt

wird. Und schließlich muss ein Situationsbezug hergestellt werden, insbesondere hinsichtlich

des Zielsystems, das mit der Hauptaufgabe verbunden ist. Die Beurteilung von Teilfunktions-

lösungen sowie von Wechselwirkungen muss das jeweilige Zielsystem berücksichtigen.

Zur Darstellung dieser Informationen wird auf Elemente zweier in Kapitel 5.1 vorgestellter

Ansätze zurückgegriffen: Generalized Partial Global Planning (siehe 5.1.3.2.3) und die Satis-

ficing Game Theory (siehe 5.1.3.3.3). GPGP definiert eine Menge von Relationen zwischen

Systemaktionen, die zur Koordination von Teilsystemen genutzt werden. Die Satisficing Ga-

me Theory führt abhängige Nutzenfunktionen ein, deren Struktur zur Darstellung der Abhän-

gigkeiten vom Zielsystem und der Anwendungshäufigkeit der Teilfunktionslösungen genutzt

werden kann. Weiterhin wird in der Satisficing Game Theory die Betrachtung des Nutzens

einer Handlungsalternative aufgespalten in eine Nutzen- und Kostenbetrachtung. Eine ähnli-

che Aufspaltung erfolgt auch hier, wobei nach lokalen und globalen Nutzen einer Handlungs-

alternative differenziert wird. Nutzen ist dabei immer als ein Beitrag zur Erfüllung des Ziel-

systems zu verstehen. Dieser zusammengesetzte Nutzen wird in der lokalen Planung berück-

sichtigt, wofür das Mittel der Planmetrik der PDDL eingesetzt wird.

5.2.2.1 Zeitunabhängige Modellierung der Wechselwirkung

Das Zielsystem wird mithilfe einer Menge Ω von Zielsymbolen dargestellt. Ein Zielsymbol

repräsentiert dabei ein verbal beschriebenes Ziel, dass das Gesamtsystem verfolgen kann. Ein

Zielsymbol ist nicht zu verwechseln mit einer Zielfunktion, die eine zu minimierende oder

maximierende Funktion ist. Ein Zielsymbol wirkt sich auf die Ausformulierung der vom Sys-

tem verfolgten Zielfunktion aus, wenn das entsprechende Ziel verfolgt wird. Ziele aus dem

einleitenden Beispiel (Kapitel 1) sind die Fahrgeschwindigkeit (G), der Luftspalt (L), der

Komfort (K) und der Energieverbrauch (E), die sich im RailCab während der Planung erge-

ben.

Um die verfolgten Ziele an die jeweilige Situation, Aufgaben und Vorgaben anpassen zu kön-

nen, muss es möglich sein, die Zielsymbole zu gewichten. Dazu dient eine Funktion

D'Bl :±I]0,1^. Ohne Beschränkung der Allgemeinheit soll gelten:

}D'Bl ²1

³´

Planung von Systeminteraktionen 109

Neben der Gewichtung der Ziele ist auch der Einfluss der Ziele auf Teilfunktionslösungen,

die ein Teilsystem auswählt, relevant. Dabei wird dieser Einfluss zunächst bestimmt, ohne

Wechselwirkungen mit anderen Systemen zu berücksichtigen. Dazu wird ermittelt, wie oft

eine Teilfunktionslösung tfl (z. B. ein bestimmtes Fahrprofil des Antriebs) unter bestimmten

Umweltbedingungen U (die sich aus den Vorbedingungen der Teilfunktionslösung ergeben)

angewandt wurde, wenn ein Ziel ω (z. B. die Geschwindigkeit des RailCabs) verfolgt wurde.

Bei der Ermittlung dieser bedingten Häufigkeit muss zusätzlich die jeweilige Gewichtung des

Ziels ω berücksichtigt werden:

• µ )|²,*

∑¶9J·¸³K

@A|¹K,º

∑¶9J·¸³K|

¹K

Dabei bezeichnet die Laufvariable ω

alle Fälle, in denen das Zielsymbol ω mit einer Gewich-

tung höher als 0 verfolgt wurde und (tfl | ω

) alle Fälle, in denen dann die Teilfunktionslösung

tfl angewandt wurde. Mit ϴ(tfl| ω

) ist ein erster Zusammenhang zwischen dem Zielsystem

und dem Auftreten einer Teilfunktionslösung hergestellt. Das mögliche Auftreten einer Teil-

funktion kann auf dieser Basis anhand eines gegebenen Zielsystems beurteilt werden als:

• µ )|²

,…,²

,* ∑D'Bl ² ·

∈

´∑¶9J·¸³K

@A¼|¹K,º

∑¶9J·¸³K,

¹K

, kurz ϴtfl)

Falls ein ausreichend großer Satz an historischen Daten vorliegt, kann die Häufigkeit ϴtfl)

auch direkt aus dem gegebenen Zielsystem abgeleitet werden. Die Funktion ϴ(tfl) liefert eine

Abschätzung darüber, wie häufig eine bestimmte Teilfunktionslösung bei gegebenem Zielsys-

tem angewandt wird.

Eine weitere wichtige Information zur Koordination der lokalen Planungen ist die Darstellung

und Quantifizierung der Wechselwirkung zwischen den Teilfunktionslösungen unterschiedli-

cher mechatronischer (Teil-)Systeme. Grundlage dieser Quantifizierung stellt eine Evaluati-

onsfunktion (Ε) für jedes der Zielsymbole dar. Diese Evaluationsfunktion ordnet jedem mög-

lichen Zustand eine Bewertung zu, die zwischen 0 und 1 liegt:

• ¾:±I]0,1^

Diese Beschränkung der Evaluationsfunktion ist notwendig, damit sämtliche Zielbewertungen

gleich skalieren, wodurch eine Gewichtung der Ziele überhaupt erst sinnvoll möglich wird. In

der Regel sind solche Evaluationsfunktionen einfach zu konstruieren. Für das Ziel Geschwin-

digkeit (das maximiert werden soll) legt man zum Beispiel die durchschnittliche Geschwin-

digkeit v

∅

zugrunde und normiert diese mithilfe der maximalen Geschwindigkeit. Für den zu

minimierenden Luftspalt die durchschnittliche Abweichung (∆ls) des tatsächlichen Luftspalts

vom technisch möglichen oder sinnvollen maximalen Luftspalt:

• ¿

¤|

¤¥¦§

, 

À?O|

?O¥¦§

Um diese Information für die Planung nutzbar zu machen, muss ein Zusammenhang zwischen

den Zustandsvariablen und damit den herrschenden Umwelteinflüssen im Plan (den Vorbe-

dingungen) und der Evaluationsfunktion hergestellt werden:

• ¾

?

³,

:±#,H#\I]0,1^

Da diese Bewertung des Nutzens von Teilfunktionslösungen im Vorfeld der Planung erfolgt,

also bevor genaue Informationen über das Verhalten der übrigen Teilsysteme vorliegen, wird

110 Planung von Systeminteraktionen

der durchschnittliche Beitrag der Teilfunktionslösung tfl zum Ziel ω Á

³

(tfl) zur Beurteilung

herangezogen. Der Wert Á

³

(tfl) wird dann verwendet, um Wirkzusammenhänge zwischen

unterschiedlichen Teilfunktionslösungen zu bemessen. Da Á

Â³

den sofortigen Beitrag der

Teilfunktionslösung bemisst, ist es ausreichend, sich auf solche Anwendungen anderer Teil-

funktionslösungen zu beschränken, die vor oder gleichzeitig mit der betrachteten Teilfunkti-

onslösung tfl angewendet werden. Um zu bestimmen, ob ein Wirkzusammenhang zwischen

zwei Teilfunktionen tfl und tfl‘ besteht, wird der Beitrag herangezogen, den tfl zur Erreichung

eines Ziels ω liefert, wenn zuvor oder gleichzeitig mit tfl die Teilfunktion tfl‘ ausgeführt wird

(geschrieben als Á

³

(tfl|tfl‘)).

Wenn also beispielsweise der Antrieb auf einem Streckenabschnitt mit ungenau verlegten

Statoren (U) ein Fahrprofil (tfl‘) wählt, das sehr schnell zu einer hohen Endgeschwindigkeit

führt, erreicht die Luftspaltverstellung mit der Betriebsstrategie kontinuierliche Verstellung

(tfl) ihr Ziel Minimierung des Luftspalts (ω) wesentlich schlechter als im Durchschnitt. Um-

gekehrt führt die Anwendung eines Fahrprofils mit niedriger Durchschnittsgeschwindigkeit

dazu, dass die Luftspaltverstellung ihr Ziel besser erreicht.

Bei der Bestimmung von Á

³

(tfl|tfl‘) kann zusätzlich zur reinen Reihenfolgebetrachtung auch

noch ein zeitlicher Abstand zwischen den Anwendungen der Teilfunktionslösungen herange-

zogen werden. Dadurch können Fälle, in denen ein zeitlich großer Abstand gegeben ist und

daher eine tatsächliche Wechselwirkung als unwahrscheinlich oder vernachlässigbar schwach

unterstellt werden kann, aus der Bewertung genommen werden.

Anhand des durchschnittlichen Beitrags Á

³

(tfl) kann abgeschätzt werden, ob tfl‘ eine positive

oder negative Wirkung auf tfl hat. Zur Abschätzung dient die Differenz der Werte von

³

(tfl|tfl‘) und Á

³

(tfl), bezeichnet mit Á

Ã³

(tfl|tfl‘). Ist Á

Ã³

(tfl|tfl‘) positiv (negativ), liegt eine

positive (negative) Beeinflussung vor. Falls Á

Ã³

(tfl|tfl‘) gleich 0 ist, liegt im Mittel keine Be-

einflussung vor. Da die Evaluationsfunktion auf den Wertebereich zwischen 0 und 1 normiert

ist, sind der Beitrag und auch der durchschnittliche Beitrag auf den Wertebereich von -1 und 1

normiert. Damit ist auch die Abweichung von Á

³

(tfl|tfl‘) gegenüber Á

³

(tfl) beschränkt. Im

Generalized Partial Global Planning wird der Begriff der Begünstigung verwendet, wenn die

abgestimmte Ausführung einer Aktion a‘ die Dauer der Durchführung verkürzt oder die Qua-

lität des Ergebnisses einer Aktion a verbessert. Da auch die Dauer der Durchführung ein mög-

liches Zielsymbol darstellt, reicht es für den hier beschriebenen Ansatz aus, die Auswirkung

der Ausführung einer Teilfunktionslösung tfl‘ auf die Zielerreichung einer anderen Teilfunk-

tionslösung tfl zu betrachten. Damit stellt Á

Ã³

(tfl|tfl‘) eine Verallgemeinerung der Begünsti-

gung aus dem GPGP dar. Á

Ã³

(tfl|tfl‘) wird im weiteren Verfahren nicht als skalarer Wert wie

³

(tfl) behandelt, sondern als eine Häufigkeitsverteilung über dem Wertebereich von +1 bis -

1. Nach frequentistischer Auffassung nähert sich diese Häufigkeitsverteilung einer Wahr-

scheinlichkeitsverteilung über die Wechselwirkung zwischen den Teilfunktionslösungen an.

Die Häufigkeitsverteilung wird bzgl. eines Ziels ω als Η

ÅÆ

tÇl|tÇl

 bezeichnet. Gemäß dieser

Interpretation von Η

ÅÆ

tÇl|tÇl

 und der Häufigkeitsverteilung über die Teilfunktionslösungen

ϴ(tfl) kann der globale Nutzen einer Teilfunktionslösung abgeschätzt werden. Dabei ent-

spricht der globale Nutzen der Summe der Wechselwirkungen auf andere Teilfunktionslösun-

gen. Für ein gegebenes Ziel ω ergibt sich damit der globale Nutzen einer Teilfunktionslösung

tfl‘ bzgl. ω als:

• Ê

³

 )

∑µ )· Η

³

 )| )



?

∈

Ë

Wie bereits bei Η

ÅÆ

tÇl|tÇl

 handelt es sich auch bei Ê

³

 )

 um eine Häufigkeits- bzw.

Wahrscheinlichkeitsverteilung über den Wertebereich -1 bis 1. Diese Funktion bewertet nun

beispielsweise, wie ein bestimmtes Fahrprofil hinsichtlich seiner Auswirkung auf das Ziel

Luftspalt zu beurteilen ist. Dazu wird über die Teilfunktionslösungen aller anderen Teilsyste-

Planung von Systeminteraktionen 111

me die Wechselwirkung zwischen Teilfunktionslösungen betrachtet und mit der Anwen-

dungshäufigkeit der jeweiligen Teilfunktionslösung gewichtet. Ebenso sind andere Berech-

nungen von Ê

³

 )

 vorstellbar. So könnten insbesondere robuste Aktionen bevorzugt wer-

den, indem die schlechteste Wechselwirkung über alle Teilfunktionslösungen zur Berechnung

herangezogen wird. Das würde einer risiko-aversen max-min Strategie entsprechen:

• Ê

6um76JR

³,

 )

EB3'(

),HΗ

³

 )| )



Ebenso können besonders unwahrscheinliche Teilfunktionslösungen herausgefiltert werden.

Derartige Teilfunktionslösungen könnten sonst die Lösung verfälschen und es ist stattdessen

günstiger, sie im Falle des tatsächlichen Auftretens durch die Koordination nach der Planung

(siehe 5.2.4) zu behandeln. Dazu wird ein Schwellenwert α eingeführt, der alle Teilfunktions-

lösungen mit einer relativen Anwendungshäufigkeit kleiner α (z. B. 0,05) herausfiltert:

• Ê

Ì³,

 )

∑µ )· Η

³

 )| )



?

∈

Z?|?

∈

Ë vÍ?ÎÌ_

Über das gesamte Zielsystem ergibt sich der globale Nutzen in jedem Fall als:

• Ï



 )

∑D'Bl²·Ν

³

 )



∈

wobei Ï



 )

 wiederum eine Wahrscheinlichkeitsverteilung über dem Wertebereich von -1

bis 1 ist. Mit der Bestimmung von Ï



 )

 ist Folgendes geleistet: Abhängig vom aktuellen

Zielsystem kann bestimmt werden, wie günstig oder ungünstig eine Teilfunktionslösung hin-

sichtlich seiner Wechselwirkungen mit anderen Teilsystemen ist. Dabei wird berücksichtigt,

in welchem Umfang Teilfunktionen und Teilfunktionslösungen von anderen Systemen einge-

setzt werden. Diese Information kann im lokalen Planungsprozess der Teilsysteme ausgenutzt

werden, um gezielt Teilfunktionslösungen mit vorwiegend positiver Wechselwirkung einzu-

setzen und solche mit vorwiegend negativer Wechselwirkung zu vermeiden. Ein hoher Wert

von Ρ

(ts) bedeutet, dass das Verhalten des Teilsystems ts eine starke Wirkung auf das Errei-

chen des Ziels ω besitzt. Für die Teilsysteme und Ziele aus dem Beispiel beträgt der Wert

immer 0 oder 1. Das Ziel Geschwindigkeit wird z. B. ausschließlich durch den Antrieb ver-

folgt und das Ziel Luftspalt ausschließlich durch die Luftspaltverstellung. Ρ

(ts) wird später

genutzt, um zu steuern, in welchem Umfang ein System seine Ziele lokal verfolgt oder Rück-

sicht auf andere Systeme nimmt.

Abschließend ist anzumerken, dass die Modellierung der Wechselwirkungen und die Herlei-

tung der relativen Häufigkeiten in einem gewissen Maße naiv sind. Wie auch bei naiven

Bayes-Modellen werden mögliche Abhängigkeiten, hier zwischen Zielgewichtungen und

Teilfunktionslösungen, vernachlässigt. Es werden Wechselwirkungen zwischen jeweils zwei

Teilfunktionslösungen betrachtet. Einige Wechselwirkungen können unter Umständen aber

erst bei Betrachtung mehrerer Teilfunktionslösungen berücksichtigt werden. Die hier gewähl-

te Modellierung ist jedoch leicht auf eine differenziertere Modellierung umzustellen. Die Ver-

teilung Η

(tfl|tfl‘) lässt sich systematisch ohne Weiteres erweitern zu Η

(tfl|tfl

‘, …, tfl

‘).

Damit würde der Nutzenbeitrag von tfl abhängig von der Anwendung von n anderen Teil-

funktionslösungen bewertet. Dadurch wird zwar eine höhere Genauigkeit in der Modellierung

erreicht, das Erlernen der Parameter (beschrieben in Abschnitt 5.2.2.2.1) wird jedoch er-

schwert und auch die Koordination im Anschluss an die Planung würde komplexer. Es sei

daher an dieser Stelle auf die große Praxisrelevanz von naiven Bayes-Modellen verwiesen, die

ebenfalls innerhalb des Modells Unabhängigkeiten unterstellen, die in der Realität nicht gege-

112 Planung von Systeminteraktionen

ben sind. Es ist davon auszugehen, dass Abhängigkeiten zwischen Zielen und zusätzlichen

Teilfunktionslösungen sich vielfach gegenseitig aufheben und daher die Unabhängigkeitsan-

nahme eine ausreichend gute Näherung ergibt.

5.2.2.2 Zeitabhängige Modellierung der Wechselwirkung

Um ein möglichst gutes Koordinationsergebnis zu erzielen, ist es erforderlich, sämtliche ver-

fügbaren Informationen zu nutzen. Im Anschluss an die lokale Planung liegen detaillierte In-

formationen über die zeitliche Abfolge der Aktivitäten vor. Daher ist eine Erweiterung der

Modellierung dahingehend notwendig, dass Wechselwirkungen auch bzgl. der genauen zeitli-

chen Abfolge von einzelnen Aktivitäten betrachtet werden.

Mit diesen Informationen besteht die Möglichkeit, die Kosten und den Nutzen einer Aktion

wesentlich differenzierter zu beurteilen, da die Kosten- und Nutzenwirkung einzelner Aktio-

nen abhängig von den gegebenen Plänen der übrigen Teilsysteme bestimmt werden kann.

Dazu wird der gesamte Planungshorizont bzgl. einer Teilfunktionslösung in t Zeitabschnitte

eingeteilt. Ausgehend vom Beginn des Plans bis zum Ende können die Zeitabschnitte durch-

nummeriert werden. Für jeden dieser Zeitabschnitte wird bestimmt, wie gut oder schlecht der

Einsatz der Teilfunktionslösung tfl an dieser Stelle ist. Um möglichst genaue Kostenwerte für

die Zeitintervalle zu erhalten, ist die Analyse der Pläne der n-1 anderen Teilsysteme notwen-

dig. Für jede Teilfunktionslösung tfl

, die im Plan eines anderen Teilsystems ts auftritt, lässt

sich anhand der Häufigkeitsverteilung Η

³

 )

O

| ) bestimmen, welche Wirkung von tfl zu

erwarten ist, wenn sie im Zeitabschnitt i ausgeführt wird. Indem diese Kosten für den Zeitab-

schnitt i über alle Teilfunktionslösungen der Pläne aller Teilsysteme gewichtet summiert wird,

ergibt sich eine zeitabhängige Kostenabschätzung für den Einsatz einer Teilfunktionslösung.

Diese Abschätzung lässt sich im Rahmen der Synchronisation der einzelnen Teilpläne nutzen,

um die lokalen Anpassungen an den Plänen zu steuern. Die Berechnung des Nutzens für die

Ausführung einer Aktion im Zeitabschnitt i bestimmt sich durch:

Ν )

}}D'Bl²·Ρ

ts } α·Η

ÅÆ

tÇl|tÇl



ÕÇÖ×ØÙÚ

³ΩOM

Der globale Nutzen einer Teilfunktionslösung tfl in einem Zeitabschnitt i wird also durch die

Summierung der Wirkung auf die Aktivitäten der übrigen Teilsysteme bestimmt. Dabei wer-

den Aktivitäten, die nur teilweise in das Intervall i fallen, mit dem Anteil α gewichtet, zu dem

sie in das Intervall fallen. Daran wird die Flexibilität dieses Vorgehens deutlich, da die Länge

der Planungsschritte der einzelnen Teilmodule völlig unabhängig voneinander definiert wer-

den kann. Damit ist es jedem Teilsystem möglich, Änderungen an seinem Plan anhand der

Wirkung auf die konkreten Pläne der übrigen Teilsysteme zu bewerten. Die so ermittelten

zeitabhängigen Nutzenwerte können durch das Konstrukt der bedingten Aktion leicht in ei-

nem PDDL-Planungsproblem berücksichtigt werden. Listing 5-1 zeigt ein Beispiel für eine

solche Aktionsdefinition.

Der Effektteil der Aktion bewirkt, dass die Anzahl der Planungsschritte um eins erhöht wird.

Im bedingten Teil der Aktionen wird für jeden im Plan vorkommenden Schritt der zu dem

Zeitpunkt von den Aktivitäten der anderen Teilsysteme abhängende Nutzenwert zum Ge-

samtnutzenwert des Plans addiert.

Planung von Systeminteraktionen 113

(:action driveFast

...

:effect

...

(increase (plan-steps)(1)

when( (= (plan-steps)(1)) (increase total-

utility(utitily_driveFast_in_Step_1)

when( (= (plan-steps)(2)) (increase total-

utility(utitily_driveFast_in_Step_1)

...

when( (= (plan-steps)(100)) (increase total-

utility(utitily_driveFast_in_Step_1)

)

Listing 5-1: Bedingte Aktion mit zeitabhängigem Nutzenwert

Weiterhin können die Systeme mithilfe von Η

³

 )

O

| ) die zeitliche Verschiebung einer

Aktivität qualitativ beurteilen. Um den Planungsaufwand, der durch die Koordination ent-

steht, zu beschränken, wird nur die lokale Koordination zwischen zwei Aktionen bewertet.

Aufgrund des Austauschs über die Wechselwirkungen der Aktionen können die Teilsysteme

die möglichen positiven Veränderungen auch beziffern. Dazu ist teilweise Kenntnis über die

Fähigkeiten der übrigen Teilsysteme notwendig, aber nur insoweit, dass einzelne Aktivitäten

einer Teilfunktion zugeordnet werden. Die mögliche Wirkung einer Plananpassung auf ein

einzelnes Ziel kann dann wie folgt abgeschätzt werden:

1. bei Ersetzen einer Teilfunktionslösung tfl‘ durch tfl‘‘:

³

 )| )

ÉÉ

;Η

³

 )| )



2. Bei Verschieben einer Aktivität in ein anderes Zeitfenster oder aus einem Zeitfenster

heraus:

³

 )| )



Die so ermittelten Werte können zur Bestimmung einer Rangfolge des Koordinationspoten-

zials einzelner lokaler Pläne genutzt werden.

5.2.2.2.1 Bestimmung der Modellelemente für eine konkrete Anwendung

In diesem Abschnitt wurde bisher ein formales Modell der Wechselwirkungen zwischen Teil-

funktionslösungen unterschiedlicher mechatronischer Systeme vorgestellt. Unbeantwortet ist

noch die Frage, woher die notwendigen Informationen stammen. Dabei sind grundsätzlich

zwei Ansätze denkbar:

1. Vorgabe aller relevanten Informationen durch einen menschlichen Experten.

2. Erlernen der relevanten Informationen im laufenden Betrieb.

Beide Ansätze haben ihre spezifischen Vor- und Nachteile. So ist die Vorgabe durch einen

Experten problematisch, da sie vollständig von der Qualität des Expertenwissens abhängt.

Außerdem fällt es Experten oft schwer, ihr Wissen explizit und formal auszuformulieren.

Darüber hinaus sind die Informationen statisch und können sich nicht an geänderte Situatio-

nen anpassen. Auf der anderen Seite steht die Information den Teilsystemen sofort zur Verfü-

gung und kann unmittelbar zur Verbesserung der Planung verwendet werden. Genau dies ist

bei Lernverfahren nicht möglich. Diese müssen zunächst über eine ausreichende Menge an

Trainingsdaten verfügen, um brauchbare Ergebnisse zu erzielen. Der Nutzen der Interaktions-

planung steht also verzögert zur Verfügung. Ideal wäre eine Integration der beiden Ansätze,

114 Planung von Systeminteraktionen

wobei ein maschinelles Lernverfahren die Expertenangaben mit den Messungen im Betrieb

abgleicht und ggf. korrigiert.

Um ein entsprechendes Verfahren zu konstruieren, ist es zunächst notwendig, die zu erlernen-

den Daten und Informationen genauer zu betrachten. Direkt in der Planung verwandt wird der

globale Nutzenwert, den eine Teilfunktionslösung erzielt. Dieser Wert wird situations- und

zielabhängig aus einer Menge von anderen Parametern hergeleitet. Die folgende Aufzählung

fasst die notwendigen Parameter noch einmal zusammen:

• ϴ (tfl|ω,u): Wie häufig wird eine Teilfunktionslösung angewandt, wenn ein bestimm-

tes Ziel unter bestimmten Umgebungseinflüssen verfolgt wird?

• ϴ (tfl| ω

,…, ω

u): Wie häufig wird eine Teilfunktionslösung in einem Zustand

angewandt, wenn ein bestimmtes Zielsystem unter bestimmten Umgebungseinflüssen

verfolgt wird?

• Á

³

(tfl): Wie gut erfüllt eine Teilfunktion ein bestimmtes Ziel?

• Η

³

 )| )

: Wie gut erfüllt eine Teilfunktion tfl ein bestimmtes Ziel, wenn auch die

Teilfunktion tfl‘ ausgeführt wird?

• Ρ

(ts):

Wie wichtig ist ein Teilsystem zur Erreichung eines Ziels?

Die unterschiedlichen Parameter sind zunächst unterschiedlich gut zur Ermittlung durch Ex-

perten oder Lernverfahren geeignet. Ein Experte wird in der Regel mit der Gewichtung der

Bedeutung der Teilsysteme Ρ

(ts) nicht überfordert sein, während die übrigen Werte schwie-

riger anzugeben sind. Bei allen anderen Parametern außer Ρ

(ts) handelt es sich um statisti-

sche Werte, sodass die statistischen Lernverfahren, die in Abschnitt 4.1.2.1 vorgestellt wur-

den, geeignet scheinen. Die dort vorgestellten Verfahren eignen sich zum Erlernen von Para-

metern in Bayes-Netzwerken. Daher wird an dieser Stelle nun aufgezeigt, dass alle hier ver-

wandten Planungsparameter sich in Form von Bayes-Netzwerken darstellen lassen. Tabelle

5-1 stellt die zu erlernenden Parameter und eine entsprechende Modellierung als Bayes-

Netzwerk gegenüber.

Dabei werden die zielabhängigen und die zielsystemabhängigen Parameter hinsichtlich der

Teilfunktionslösungen durch das gleiche Netzwerk abgebildet. Das Netzwerk stellt grundsätz-

lich die relative Häufigkeit der Anwendung in Abhängigkeit vom gesamten Zielsystem dar –

der Parameter für eine einzelne Zielgröße lässt sich durch Summierung und Gewichtung all

derjenigen Fälle ableiten, in denen das Ziel mit einer bestimmten Gewichtung verfolgt wurde.

Die Variable Á

³

lässt sich als Erwartungswert von E(tfl) aus dem Netzwerk von

³

 )| )

 berechnen. Dieses Netzwerk beschreibt, wie gut unter gegebenen Umweltbe-

dingungen und dem Vorliegen einer bestimmten gleichzeitigen Teilfunktionslösung tfl‘ die

Teilfunktionslösung tfl ihr jeweiliges Ziel erreicht.

Allen Netzwerken ist gemein, dass sie in der Struktur einem naiven Bayes-Klassifikatoren

entsprechen. Der Einsatz eines solchen Klassifikators zum Erlernen der Verteilungen wäre ein

äußerst gradliniger Ansatz. Jedoch liefern Maximum Likelihood Ansätze wie die naiven

Bayes-Klassifikatoren ungenaue Ergebnisse bei wenigen Trainingsdaten. Daher würde die

Planung zunächst vermutlich ein eher schlechtes Verhalten erzielen. Ein Verfahren wie das

Lernen mit Dirichlet-Verteilungen, das die Berücksichtigung von Expertenwissen ermöglicht,

ist klar vorzuziehen (siehe Abschnitt 4.1.2.1).

Planung von Systeminteraktionen 115

Zu lernender Parameter Netzwerkstruktur

ϴ (tfl|ω)

³

 )| )

:

Tabelle 5-1: Interaktionsplanungsparameter als Bayes-Netzwerke

5.2.3 Koordination vor der Planung

Die im vorigen Absatz hergeleiteten und beschriebenen globalen Wirkungen von Teilfunkti-

onslösungen müssen im lokalen Planungsprozess der Teilsysteme berücksichtigt werden, so-

dass möglichst wenige Konflikte und viele Synergieeffekte im Zusammenspiel der Pläne ent-

stehen. Dazu muss zunächst zwischen den lokalen Interessen eines Teilsystems und der globa-

len Wirkung seines Verhaltens abgewogen werden.

Lokal verfolgen alle Teilsysteme eine ähnliche Zielfunktion, die mit einer entsprechenden

Planmetrik dem lokalen Planer vorgegeben wird. Es handelt sich dabei um die gewichtete

Summe der Gütefunktionen Ε(ω). Die Planmetrik hat also zunächst die Form:

• ∑ ∑ D'Bl ² · 

?

³ΩÜt

Diese rein lokale Zielfunktion muss um eine globale Komponente erweitert werden, die die

Wechselwirkungen zwischen den Teilfunktionslösungen der Systeme berücksichtigt. Ansatz-

punkt für diese Erweiterung ist wieder die Menge der gemeinsamen Ziele Ω mit der entspre-

chenden Gewichtung.

Ein niedriger Wert von Ρ

(ts) deutet an, dass das Teilsystem ts für ω von nachrangiger Bedeu-

tung ist und vorzugsweise auf andere Teilsysteme Rücksicht nehmen sollte. Die Planmetrik

wird daher erweitert und umgestellt zu folgender Form:

• ∑ ∑ < D²·¾

?

³Ω

n∑D²·

³Ω

Ν

Üt

; wobei D²Ρ

 G · D'Bl²

Der Parameter Ν steht für die globale Wirkung des Systemverhaltens. Diese Bildung der

Planmetrik bewirkt, dass diejenigen Ziele direkt verfolgt werden, auf die das betrachtete Teil-

system eine besonders große Wirkung hat. Hat ein Teilsystem geringen oder gar keinen Ein-

fluss auf ein Ziel, wird diesem Ziel in der lokalen Planung ein entsprechend geringes Gewicht

zugewiesen. Weiterhin ergibt sich, dass ein Teilsystem mit großem Einfluss auf die Erfüllung

der globalen Ziele sich tendenziell egoistisch verhält. Hat ein Teilsystem kaum direkten Ein-

fluss auf das Zielsystem, ist das Gegenteil der Fall: Es vernachlässigt die lokale Zielverfol-

gung und verhält sich vor allem gemeinnützig. Dies ist im Sinne des Gesamtsystems mit sei-

ner globalen Zielstellung im Allgemeinen ein sinnvolles Verhalten, wenn auch keine Optima-

lität garantiert wird. Im Wesentlichen entspricht diese Bildung der Zielfunktionen einem ein-

fachen Greedy- oder heuristischen Verfahren.

Während die Bewertung der Zielerreichung anhand der Evaluationsfunktionen ¾

?

bereits

klar ist, muss die Bestimmung des globalen Systemverhaltens näher beleuchtet werden. Ank-

116 Planung von Systeminteraktionen

nüpfungspunkt sind wieder die einzelnen Teilfunktionslösungen mit den im vorigen Kapitel

beschriebenen und hergeleiteten Wechselwirkungen. Zusätzlich wird an dieser Stelle noch

betrachtet, welches Teilsystem die beeinflussten Teilfunktionslösungen ausführt. Ein direkter

Ansatz bestände darin, den eben eingeführten globalen Nutzen zur Bestimmung heranzuzie-

hen. Dabei würden aber die unterschiedlichen Gewichtungen der Teilsysteme berücksichtigt

werden und es würde auf wichtige und unwichtige Teilsysteme im gleichen Maße Rücksicht

genommen. Stattdessen wird an dieser Stelle der globale Nutzen so erweitert, dass er für das

betrachtete Planungsproblem geeignet ist:

• Ï



 )

∑ ∑ D'Bl ² · ΘtÇl · Ρ

ts

ÕÇÖ

·Η

³

 )| )

:

?Ë³

∈

In dieser Form beachtet die globale Nutzenfunktion einer Teilfunktionslösung alle wesentli-

chen Informationen über das Planungsproblem:

• die Gewichtungen innerhalb des aktuellen Zielsystems weigh(ω),

• die Anwendungshäufigkeit von Teilfunktionslösungen anderer Teilsysteme

(tfl),

• die Bedeutung anderer Teilsysteme Ρ

(ts

tfl

)

• und letztlich die Richtung und Stärke der Wechselwirkungen mit den Aktivitäten an-

derer Teilsysteme H

³

 )| )

.

Indem dieser Nutzenwert in die Planungsmetrik der lokalen Planung eingebunden wird, wird

die lokale Planung so gesteuert, dass sich ein Teilsystem nur in Fällen, in denen es sinnvoll

erscheint, altruistisch verhält. Aufgrund der vielfältigen Informationen ist somit sowohl ein

egoistisches Verhalten zum Schaden des Gesamtsystems ausgeschlossen als auch eine über-

flüssige „Aufopferung“ zugunsten höher priorisierter Teilsysteme.

Durch die Formulierung der Planungsmetriken wird erreicht, dass ernsthafte Konflikte zwi-

schen den Aktivitäten von Teilsystemen mit wesentlich geringerer Wahrscheinlichkeit auftre-

ten. Gleichzeitig werden Situationen begünstigt, in denen Synergieeffekte realisiert werden.

Da die lokalen Planungen aber isoliert voneinander erfolgen, sind diese Effekte nicht garan-

tiert. Daher empfiehlt es sich, an die Planung eine Koordination der Pläne anzuschließen.

Durch die vorgeschaltete Bestimmung einer globalen Zielfunktion wird der nachträgliche

Koordinationsaufwand allerdings voraussichtlich reduziert.

5.2.4 Koordination nach der lokalen Planung

Um die mit Vorliegen der lokalen Pläne bereitstehende zusätzliche Information zur weiteren

Koordination der lokalen Pläne zu nutzen, bieten sich, wie bereits im Abschnitt 5.1.3.2 dar-

gestellt, vor allem die Verfahren Generalized Partial Global Planning sowie die darauf auf-

bauende Shared Activity Coordination an. Beide Ansätze gehen davon aus, dass zum Zwecke

der Koordination Wechselwirkungen zwischen den Aktivitäten der zu koordinierenden Teil-

systeme bekannt sind. Diese Voraussetzung ist durch die Modellierung aus Abschnitt 5.2.2

erfüllt. Wie beim GPGP werden daher die lokalen Pläne der Teilsysteme ausgetauscht. Im

Gegensatz zum GPGP erfolgt dabei der Austausch immer zwischen allen beteiligten Teilsys-

temen. Anschließend untersucht jedes Teilsystem die lokalen Pläne der übrigen Systeme auf

noch vorliegende Konflikte und mögliche nicht realisierte Synergien. Konflikte und Syner-

gien bezeichnen dabei immer eine Beziehung zwischen genau zwei lokalen Plänen.

Diese

Form der Koordination der lokalen Pläne unterschiedlicher Systeme kommt nur bei Teilsys-

dabei steht ts

tfl

für das Teilsystem, das die Teilfunktionslösung anwendet.

Konflikte und Synergien werden zwar nur zwischen zwei Systemen betrachtet, die Koordination erfolgt aber

über die Konflikte und Synergien zwischen allen Paaren von Systemen gleichzeitig.

Planung von Systeminteraktionen 117

temen mit gemeinsamer Hauptaufgabe in Frage, da sie einen offenen und korrekten Austausch

über die lokal angewandten Aktivitäten und die möglichen Wechselwirkungen voraussetzt.

Diese Ehrlichkeit kann bei Systemen mit individuellen Hauptaufgaben nicht vorausgesetzt

werden.

Grundlage der Koordination nach der lokalen Planung sind die in Abschnitt 5.2.2.2 hergeleite-

ten zeitabhängigen Nutzenwerte einer Teilfunktionslösung Ν(tfl

). Damit kann nun auch die

Planungsmetrik auf die zeitabhängigen Nutzenwerte umgestellt werden (dabei steht " für

einen Schritt im Plan):

}} D²·¾

³

 )



³Ω

n}1;D²·

³Ω

³

tÇl



Üt

Mithilfe dieser Funktion kann beispielsweise der Antrieb seine verfügbaren Fahrprofile hin-

sichtlich seiner lokalen Ziele (Geschwindigkeit) und der Auswirkungen auf die Ziele der

Luftspaltverstellung (Größe des einstellbaren Luftspalts) beurteilen. Je nach Gewichtung der

Ziele wird ein Fahrprofil als günstig oder ungünstig beurteilt. In Abschnitt 5.2.1 wurde be-

schrieben, wie die drei Koordinationsaktionen auf PDDL-Planungsprobleme zurückgeführt

werden können, sodass sie von einem Standardplaner durchgeführt werden können. Dabei

wurde davon ausgegangen, dass bestimmte Zustände aus dem existierenden Plan als Start-

und Zielzustand ausgewählt werden. Eine genauere Bestimmung dieser Auswahl wurde nicht

durchgeführt, da dafür die Einbettung der Koordination in einen Gesamtablauf erfolgen muss.

Im Rahmen dieses Gesamtablaufs muss auch berücksichtigt werden, dass zur Koordination

der Pläne nicht unbegrenzt Zeit zur Verfügung steht. Die Shared Activity Coordination

(SHAC) liefert mit dem Commit-Window ein Konzept zur Behandlung dieses Problems (ver-

gleiche Abschnitt 5.1.3.2.4). Dieses Konzept entspricht dem einer eingefrorenen Zone, die

sich mit der Ausführung immer weiter verschiebt. Dadurch werden immer weitere Teile des

Plans fixiert und können durch die Koordination nicht mehr verändert werden. Zusätzlich

kann der Planungsaufwand, der durch die Koordination entsteht, weiter eingeschränkt werden,

indem man den Planungshorizont beschränkt. Das bedeutet, es wird eine Grenze definiert, die

die Neuplanung nicht überschreiten soll. Dadurch wird der Umfang des Planungsproblems

reduziert, wodurch schneller angepasste Teilpläne erzeugt werden können. Aufgrund des

Fortschreitens der eingefrorenen Zone müssen aber vor allem solche Koordinationsaktionen

durchgeführt werden, die sich auf Aktivitäten nahe der eingefrorenen Zone beziehen.

Beide Grenzen der Umplanung eignen sich, um den Ausgangs- und Zielzustand für die Um-

planung zu bestimmen. Der Ausgangszustand ist immer der Zustand, der auf die letzte Aktion

innerhalb der eingefrorenen Zone folgt, während der Zielzustand derjenige ist, der auf die

letzte Aktion innerhalb des Planungshorizonts folgt. Dadurch ist gewährleistet, dass der übri-

ge Plan, der nach dem Planungshorizont folgt, auch nach der Umplanung noch ausführbar ist.

Werden Ausgang- und Zielzustand auf diese Art gewählt, fallen alle in Abschnitt 5.2.1 vor-

gestellten Planungsprobleme zur Koordination zusammen. Die neue Planungsaufgabe wird

dahingehend formuliert, dass eine Sequenz von Teilfunktionslösungen gesucht wird, die vom

Startzustand nach der eingefrorenen Zone den Zustand nach dem Planungshorizont herstellt.

Da die oben vorgestellte Planungsmetrik die aktuellen Informationen über die Pläne der übri-

gen Teilsysteme verwendet, wägt diese Planung zwischen der lokalen Zielerreichung und der

Koordination mit den übrigen Teilsystemen automatisch ab. Daher werden alle Konflikte und

Synergien, die innerhalb des Intervalls zwischen eingefrorener Zone und Planungshorizont

vorliegen, simultan betrachtet. Eine wiederholte Umplanung zur Berücksichtigung mehrerer

Wechselwirkungen ist nicht notwendig. Abbildung 5-9 illustriert das Umplanungsproblem mit

seinem Start- und Zielzustand.

118 Planung von Systeminteraktionen

Abbildung 5-9: Umplanung

Der Umstand, dass alle möglichen Konflikte und Synergien im Intervall zwischen der eingef-

rorenen Zone und dem Planungshorizont simultan betrachtet werden, erleichtert auch die

Durchführung und Koordination über alle Teilsysteme hinweg. In einem ersten Schritt bewer-

tet jedes Teilsystem das Koordinationspotenzial seines lokalen Plans. Das Koordinationspo-

tenzial wird ermittelt, indem die theoretisch maximal realisierbare Koordination ermittelt

wird. Dazu wird für jede Teilfunktionslösung im eigenen Plan ermittelt, wie weit es von der

optimalen Abstimmung mit den Teilfunktionslösungen der anderen Teilsysteme entfernt ist.

Dabei wird die Untersuchung auf solche Teilfunktionslösungen beschränkt, die im aktuellen

Planungshorizont liegen. Das maximal realisierbare Koordinationspotenzial berechnet sich

also wie folgt:

} } } } D² à

6um

 )

| )

;à

uk

 )

| )



³Ω?át@â

OM/O?Kt@â

Dabei ist Η

max

(tfl

|tfl

) die bestmögliche Abstimmung zwischen den Teilfunktionslösungen

und Η

akt

(tfl

|tfl

) die aktuelle erreichte Abstimmung, jeweils gemessen in der Beeinflussung

der beiden Teilfunktionslösungen. Der Wert Ν

max

(tfl

|tfl

) ist für jedes Paar tfl

und tfl

statisch

und muss daher nicht für jede konkrete Aktivität neu berechnet werden:

6um

 )

| )

EB3gEB3gΗ

³

 )

)

;EB3gΗ

³

 )

| )

Jå

.

Er bestimmt sich als das Maximum aus der bestmöglichen zeitlichen Verschiebung der Teil-

funktionslösung tlf

(tfl

wird in einem anderen Planungsschritt verschoben)

und dem besten

Wert, der durch den Austausch der Teilfunktionslösung tfl

(Fahrprofil B statt Fahrprofil A)

mit einer alternativen Teilfunktionslösung tfl

erzielt werden kann.

Nach der Ermittlung ihres individuellen Koordinationspotenzials tauschen sich die Teilsyste-

me über das jeweilige Koordinationspotenzial aus. Das Teilsystem mit dem höchsten Koordi-

nationspotenzial führt eine Umplanung durch. Anschließend ermitteln die Systeme das Koor-

dinationspotenzial neu und der Vorgang wird wiederholt. Dabei wird das Koordinationspo-

tenzial immer für das aktuell gültige Intervall zwischen eingefrorener Zone und Planungshori-

zont ermittelt.

Ein Beispiel für eine Teilfunktion, die zeitlich verschoben werden kann, ist der Druckaufbau im Hydrauliksys-

tem der aktiven Federung. Dieser kann beispielsweise vorgezogen werden oder durch geringe Federungsaktivität

verzögert werden.

Ursprünglicher Plan

Zu koordinierende

Teilfunktionslösung tfl

Koordinierter Plan

Eingefrorene

Zone

Planungs-

horizont

Start/Ziel-

zustand

Planung von Systeminteraktionen 119

5.2.5 Berücksichtigung gemeinsamer Ressourcen

Eine besondere Form der Koordination ist erforderlich, wenn die Funktionsmodule eine ge-

meinsame Ressource wie zum Beispiel einen Energiespeicher teilen. Hier muss sichergestellt

sein, dass die individuellen Pläne hinsichtlich des Ressourcenverbrauchs konsistent sind. In

diesem Fall bietet es sich an, diese Bedingung durch eine zentrale Instanz sichern zu lassen,

die die Konsistenz des Ressourcenverbrauchs vor der Koordination nach der Planung hers-

tellt. Diese zentrale Instanz soll im Weiteren als Ressourcenverwalter bezeichnet werden. Auf

Basis der Nutzenfunktionen kann die Herstellung der Konsistenz so geschehen, dass das Ziel-

system weiterhin so gut wie möglich erfüllt ist.

Im Anschluss an die lokale Planung informieren sämtliche Ressourcen verbrauchenden Teil-

systeme den Verwalter über den Verbrauch, der mit der Durchführung ihrer jeweiligen Akti-

vitäten verbunden sein wird. Mit dieser Information und den gegebenen Ressourcen kann der

Verwalter überprüfen, ob der Plan lösbar ist. Ist dies nicht der Fall, können direkt die Zeitab-

schnitte bestimmt werden, in denen eine Einsparung erforderlich ist. Die Realisierung der

Einsparung kann mithilfe einer Ausschreibung des Ressourcenverwalters an die Teilsysteme

realisiert werden. Der Ressourcenverwalter fordert also die Teilsysteme auf, eine bestimmte

Menge an Ressourcen in einem bestimmten Zeitabschnitt einzusparen. Mithilfe der lokalen

Planungsmetrik kann dabei jedes Teilsystem die Auswirkung der Wahl einer alternativen

Teilfunktionslösung ermitteln und diese Auswirkung zusammen mit dem geänderten Ver-

brauch an den Ressourcenverwalter übermitteln. Anhand der übermittelten Werte kann der

Ressourcenverwalter dann entscheiden, welches Teilsystem wann auf eine alternative Teil-

funktionslösung wechseln soll. Da der zentrale Verwalter keine Planung im eigentlichen Sin-

ne durchführt und kein zentrales Planungsmodell mit hohem Verzweigungsgrad vorliegt, ge-

lten die Kritikpunkte (vergl. Kapitel 2.4) an einer zentralen Planungsinstanz in diesem Fall

nicht.

5.2.6 Ablauf der Koordination

Abbildung 5-10 stellt den Gesamtablauf der Interaktionsplanung bei gemeinsamer Hauptauf-

gabe dar. Dabei sind zwei nebenläufige Prozesse zu erkennen: die Planung und die Ausfüh-

rung. Der erste Prozess beginnt mit der lokalen Planung, die die aktuell bekannten Wechsel-

wirkungen zwischen den Aktivitäten einzelner Teilsysteme berücksichtigt. Als Ergebnis liegt

eine Menge lokaler Pläne vor. Für die vorliegenden lokalen Pläne werden die Nutzenwerte

anhand der bekannten Wechselwirkungen und den nun vorliegenden zeitlichen Beziehungen

aktualisiert. Dadurch ergeben sich planbezogene Nutzenwerte. Im darauf folgenden Schritt

bewertet jedes Teilsystem seinen lokalen Plan bezüglich des enthaltenen Koordinationspoten-

zials. Der Plan mit dem maximalen Koordinationspotenzial wird ausgewählt und anschließend

einer lokalen Umplanung zugeführt.

Parallel dazu wird der jeweils fixierte Teil der lokalen Pläne ausgeführt. Diese Ausführung

bewirkt zweierlei: Der Planungshorizont verschiebt sich mit der Ausführung und neue Trai-

ningsdaten für das Lernverfahren liegen vor. Die Verschiebung des Planungshorizonts wird

im Planungsprozess bei der Bestimmung der Nutzenwerte und der Auswahl des umzuplanen-

den lokalen Plans berücksichtigt. Das Lernverfahren aktualisiert die bekannten Wechselwir-

kungen auf Grundlage der neu vorliegenden Trainingsdaten. Dieser Vorgang kann bedarfs-

weise angestoßen werden, wenn zum Beispiel eine bestimmte Menge Trainingsdaten vorliegt

oder freie Rechenzeit bereitsteht.

120 Planung von Systeminteraktionen

Abbildung 5-10: Ablauf der Interaktionsplanung bei gemeinsamer Hauptaufgabe

Zur Durchführung des hier vorgeschlagenen Verfahrens zur Planung von Systeminteraktionen

müssen sich die Teilsysteme über ihre lokalen Pläne und deren Koordinationspotenzial aus-

tauschen. Zur Umsetzung dieses Austauschs bietet sich eine Blackboard-Architektur

an, wie

sie häufiger im Bereich der Multiagenten-Planung eingesetzt wird (z. B. im Verfahren zur

Coordination before Planning, siehe 5.1.3.2.5.). Bei einem Blackboard handelt es sich um

einen gemeinsamen Bereich, auf den alle Teilsysteme zugreifen können. Dazu gehört lesender

und schreibender Zugriff. Auf dem Blackboard veröffentlichen die Teilsysteme zunächst ihre

lokalen Pläne und anschließend das jeweilige Koordinationspotenzial der Pläne. Dabei müs-

sen die Pläne nur als eine Liste von Teilfunktionslösungsbezeichnungen mit Start- und End-

zeit beschrieben werden. Ein genauerer Austausch über die Vor- und Nachbindungen der

Teilfunktionslösungen oder die Angabe einer Zustandstrajektorie ist nicht notwendig. Genau-

so wird das Koordinationspotenzial einfach als reelle Zahl ausgetauscht, die sich aus der Auf-

summierung der Koordinationsmöglichkeit der einzelnen Teilfunktionslösungen ergibt. Der

Vorzug des Blackboards liegt dabei in der Reduzierung der Kommunikationsbeziehungen im

Vergleich zu einer direkten Kommunikation zwischen den Teilsystemen. Weiterhin werden

blockierende Nachrichten vermieden, die auftreten würden, wenn Teilsystem A den lokalen

Plan von Teilsystem B anfragt, während B den Plan noch erzeugt oder andere Pläne analy-

siert.

Dieses Kommunikationsprinzip ist nicht zu verwechseln mit den Blackboards im Matchmaking aus Abschnitt

5.1.3.1.3.

Planung von Systeminteraktionen 121

Mit diesem Vorgehen überwindet das Planungsverfahren die wesentlichen Kritikpunkte am

GPGP und SHAC, indem ganze Sequenzen von Aktionen synchronisiert werden und auf die

Voraussetzung der weitgehenden Unabhängigkeit von Aktivitäten verzichtet werden kann.

5.3 Planung der Interaktion bei individueller Hauptaufgabe

In Anlehnung an Wooldrigde und Jennings (siehe Abschnitt 5.1.2.2) muss die Interaktions-

planung bei individueller Hauptaufgabe die folgenden Schritte unterstützen:

1. Erkennen von Kooperationspotenzial,

2. Identifikation von Kooperationspartnern,

3. Bestimmung gemeinsamer Planungsziele und

4. Gemeinsame Planfindung.

Anhand dieser Phasen lässt sich bereits erkennen, dass der Ausgangspunkt einer Interaktions-

planung bei individueller Hauptaufgabe immer ein einzelnes System ist, das in seinem lokalen

Plan die Möglichkeit zur Verbesserung der Planqualität entdeckt. Treibende Kraft ist also das

Ziel, die Erfüllung der individuellen Hauptaufgabe zu verbessern. Bei Systemen mit indivi-

dueller Hauptaufgabe kann eine bauliche und räumliche Integration der Systeme ausgeschlos-

sen werden. Allerdings handeln die Systeme in einer gemeinsamen Umgebung, sonst wäre

Interaktion ausgeschlossen. Daher ist eine Interaktion immer verbunden mit einem Umge-

bungsobjekt oder genauer: mit Zustandsveränderungen an einem Umgebungsobjekt.

5.3.1 Mögliche Kooperationsaktionen

Um ihr Ziel zu erreichen, die Qualität des lokalen Plans mithilfe anderer Systeme zu verbes-

sern, stehen den Systemen mehrere grundsätzliche Kooperationsaktionen zur Verfügung. Die-

se Aktionen besitzen sehr unterschiedlichen Charakter hinsichtlich der notwendigen Abstim-

mung mit anderen Systemen.

Die möglichen Kooperationsaktionen, die innerhalb dieser Arbeit betrachtet werden, sind im

Einzelnen:

• die Abgabe von Aufträgen an andere Systeme,

• die Abgabe von Teilfunktionen an andere Systeme und

• Abstimmung von Aktivitäten.

Bei der Abgabe von Aufträgen an andere Systeme gibt ein System eine Aufgabe, die ihm urs-

prünglich zugeordnet war, vollständig an ein anderes System ab. Ein solches Vorgehen ist

immer dann sinnvoll, wenn die Ausführung der Aufgabe für das andere System mit geringe-

rem Aufwand verbunden ist. Dies wird in der Regel sehr häufig der Fall sein bei Aufträgen,

die in der eigenen Planung einen verhältnismäßig großen Aufwand bedeuten, indem sie bei-

spielsweise zu Zuständen führen, die für das Erfüllen anderer Aufträge ungünstig sind. Eine

Abstimmung der Systeme ist hier nicht notwendig, solange nur die Aufgabe erfolgreich erfüllt

wird.

Ähnlich gelagert ist der Fall der Abgabe einzelner Teilfunktionen. Nur wird in diesem Fall

eben nicht der gesamte Auftrag abgegeben, sondern nur eine einzelne Teilfunktion, während

die Ausführung des übrigen Auftrags in der Verantwortung des abgebenden Systems ver-

bleibt. Daraus ergibt sich auch ein höherer Koordinationsaufwand zwischen den beteiligten

Systemen, da die Ausführung der betrachteten Teilfunktion hinsichtlich ihres Ergebnisses und

der zeitlichen Ausführung in den Plan des abgebenden Systems eingepasst werden muss.

122 Planung von Systeminteraktionen

Beiden Kooperationsaktionen ist weiterhin gemeinsam, dass ein fremdes System Tätigkeiten

übernimmt. Aus einer solchen Übernahme von Tätigkeiten wird sich für das übernehmende

System in der Regel keine Verbesserung der lokalen Planqualität ergeben. Entsprechend muss

in irgendeiner Form eine Kompensation erfolgen. Für die Umsetzung dieser Kooperationspla-

nung wird hier eine vereinfachte Darstellung von Kompensationen gewählt, um die Umset-

zung der Interaktionsplanung exemplarisch demonstrieren zu können. Eine Kompensation, die

für eine Kooperationsaktion notwendig ist, wird daher als eine reelle Zahl aus dem Intervall

[0,1] dargestellt. Auf der anderen Seite wurde zur Beurteilung der Planqualität jeweils eine

Planungsmetrik in Form einer gewichteten Summe der möglichen Ziele eines mechatroni-

schen Systems herangezogen. Diese Planungsmetrik soll – wie bereits im vorherigen Kapitel

5.2 - ebenfalls auf den Wertebereich [0,1] normiert werden. Dadurch werden die Kompensati-

on, die im Rahmen einer Kooperation anfällt, und die sich einstellende Planverbesserung ver-

gleichbar. Eine anschauliche Interpretation wäre eine monetäre Bewertung der einzelnen

Glieder der Planmetrik und eine Kompensation in Form einer Ausgleichszahlung.

Im Falle der Abstimmung von Aktivitäten können sich durchaus Situationen einstellen, in

denen alle beteiligten Systeme von einer Kooperation profitieren. Damit ist diese Koordinati-

onsmöglichkeit die einzige, die auch anwendbar ist, wenn das Anwendungsgebiet eine Dar-

stellung von Kompensationen nicht ermöglicht. Jedoch wird auch für das gemeinsame Durch-

führen von Aktivitäten der Spielraum durch Kompensationen vergrößert, wodurch sich mehr

Kooperationen einstellen können. Diese Form der Kooperationsaktion erfordert auch den

größten Aufwand an Abstimmung zwischen den beteiligten Systemen. So müssen die zeitli-

che Abstimmung und die durchzuführenden Aktionen genau festgelegt werden.

5.3.2 Modellierung von Kooperationsaktionen

Um die Möglichkeit zur Durchführung von Kooperationsaktionen zu identifizieren und diese

anschließend umzusetzen, bedarf es einer Erweiterung der Modellierung des Planungsprob-

lems aus Unterkapitel 2.1.2. Ohne ein geeignetes Modell ist der Planer nicht in der Lage, mit

den Möglichkeiten der Kooperation umzugehen.

5.3.2.1 Modellierung der Abgabe von Aufträgen

Die Modellierung der Abgabe von Aufträgen lässt sich von allen Kooperationsaktionen am

leichtesten bewerkstelligen, da bereits in Unterkapitel 2.1.2 alle notwendigen Modellelemente

vorgegeben sind. Dort ist ein Auftrag verbunden mit einer Menge von Zielzuständen, die zur

Erfüllung des Auftrags erreicht werden müssen. Wird ein Auftrag abgegeben, entfallen die

mit ihm verbundenen Zielzustände. Dadurch ergibt sich ein neues Planungsproblem, für das

ein neuer Plan generiert wird. Notwendige Kompensationszahlungen und die Differenz der

Planqualitäten mit und ohne den entsprechenden Auftrag können daraufhin verglichen wer-

den.

Am Beispiel des RailCabs ist ein Zielzustand, der mit einem Auftrag verbunden ist, der Auf-

enthalt des Fahrzeugs in der Startstation und Endstation des Auftrags, jeweils innerhalb eines

bestimmten Zeitfensters. Gibt ein RailCab einen Auftrag ab, kann es seine Route anpassen,

ohne die beiden Stationen in den jeweiligen Zeitfenstern anfahren zu müssen. Dadurch kann

sich z. B. eine erhebliche Verkürzung des Fahrweges ergeben.

5.3.2.2 Modellierung der Abgabe von Teilfunktionen

Die Darstellung der Abgabe einer Teilfunktion erfordert dagegen die Erweiterung des Mo-

dells aus Unterkapitel 2.1.2. Die bisherige Modellierung sah noch keine Teilfunktionen vor,

die an andere Systeme abgegeben werden, sondern nur die eigenen Teilfunktionslösungen.

Eine Teilfunktion, die an ein anderes System abgegeben wird, ist aber auch nur eine spezielle

Planung von Systeminteraktionen 123

Form der Teilfunktionslösung. Ihre besonderen Eigenschaften liegen darin, dass eine solche

Teilfunktionslösung nur zwei unterschiedliche Arten von Effekten haben kann. Dies sind zu-

nächst die Effekte auf Umfeldobjekte des Systems und andererseits eben die Kompensatio-

nen, die fällig werden. Mithilfe derartiger Aktionen in der Modellierung des Planungsprob-

lems lassen sich die Chancen und Möglichkeiten der Kooperation direkt in der Planerstellung

berücksichtigen. Dabei wird die Abgabe einer Teilfunktion (dargestellt durch ein Aktions-

schema) nur berücksichtigt, wenn sie den Plan hinsichtlich der Zielfunktion verbessert.

Da bei der Abgabe von Teilfunktionen nicht davon ausgegangen werden kann, dass sie immer

in völlig identischer Art und Weise erfüllt werden, können eigentlich keine skalaren Werte für

die Effekte an Umfeldobjekten und die Kompensation angegeben werden. Wie bereits im

Rahmen der Interaktionsplanung für Systeme mit gemeinsamer Hauptaufgabe sollen auch hier

Häufigkeitsverteilungen herangezogen werden. Zur Darstellung in Form einer PDDL-Aktion

kann wiederum ein repräsentativer Wert einer historischen Häufigkeitsverteilung (also etwa

der Mittelwert oder ein P-Quantil) herangezogen werden.

Ein Beispiel für ein mechatronisches System, das Teilfunktionen abgeben kann, ist eine Bohr-

Fräsmaschine, die die Arbeitsgänge Bohren und Fräsen durchführen kann. Grundsätzlich be-

steht aber auch die Möglichkeit, einen der Arbeitsgänge an eine andere Maschine abzugeben

(die beispielsweise eine höhere Fertigungsgenauigkeit erreicht oder den Arbeitsgang schneller

durchführen kann). So kann für die Abgabe eines Bohrarbeitsganges im Planungsmodell der

Bohr-Fräsmaschine eine spezielle Teilfunktionslösung vorgesehen werden. Diese Teilfunkti-

onslösung besteht darin, das Werkstück durch eine andere Maschine bearbeiten zu lassen.

Wie diese Bearbeitung und der Transport durchgeführt werden, ist für die Bohr-Fräsmaschine

unerheblich, solange das Werkstück rechtzeitig und korrekt bearbeitet wieder zur Verfügung

steht.

5.3.2.3 Modellierung zur Abstimmung von Aktivitäten

Auch für die Darstellung der Wirkung von gemeinsam ausgeführten Aktivitäten ist eine Er-

weiterung der bisherigen Modellierung notwendig. Anders als bei der Modellierung der Ab-

gabe von Teilfunktionen werden hier allerdings keine neuen Aktionen für die Darstellung

eingeführt. Stattdessen baut die Darstellung von gemeinsamen Aktivitäten auf den bereits

bekannten Teilfunktionslösungen auf. Um ein Verbesserungspotenzial in der Abstimmung

auszuführender Teilfunktionslösungen erkennen zu können, ist es notwendig, die möglichen

entsprechenden Teilfunktionslösungen und ihre Wechselwirkungen zu kennen. Ohne diese

Kenntnis ist eine Abstimmung nicht möglich. Bereits in Kapitel 5.3 wurde eine Modellie-

rungsmethode eingeführt, die diese Informationen darstellen kann. Die dort eingeführte Mo-

dellierung kann für den Fall der Interaktionsplanung mit individueller Hauptaufgabe über-

nommen werden. Dabei ist allerdings zu berücksichtigen, dass die folgenden Voraussetzun-

gen für den Einsatz dieser Kooperationsaktion auf Basis der gewählten Modellierung erfüllt

sein müssen:

• Die Systeme müssen die Teilfunktionslösungen kennen, die andere Systeme in ihrer

Umgebung ausführen können.

• Die Systeme müssen die Wechselwirkungen kennen oder erlernen.

• Die Systeme müssen feststellen können, welche Systeme an welchen Umgebungsob-

jekten agieren.

Die Voraussetzungen sind nicht in jedem Fall erfüllt und bedingen, dass zumindest einige

Systeme in der Umgebung grundsätzlich bereit sind, Informationen auszutauschen, um die

Verbesserungsmöglichkeiten auszunutzen, die sich durch gemeinsame Aktivitäten ergeben.

124 Planung von Systeminteraktionen

Ein Beispiel für die Abstimmung einer Aktivität ist die Konvoifahrt der RailCab-Fahrzeuge.

Die Abstimmung besteht darin, dass die Fahrzeuge gleichzeitig den gleichen Streckenab-

schnitt (Umgebungsobjekt) befahren (Teilfunktionslösung). Durch die Konvoifahrt reduziert

sich der Energieverbrauch während der Fahrt (Wechselwirkung).

5.3.3 Durchführung der Abgabe von Aufträgen

Die Durchführung der Abgabe von Aufträgen kann grob in drei Phasen unterteilt werden:

1. Identifikation abzugebender Aufträge,

2. Ausschreibung abzugebender Aufträge und

3. Verhandlung über abzugebende Aufträge.

Die erste Phase der Abgabe von Teilaufträgen läuft vollkommen lokal in den Teilsystemen ab

und analysiert nur den eigenen Plan. Bei der Ausschreibung der abzugebenden Aufträge ist zu

unterscheiden, inwieweit für diesen Zweck auf eine Infrastruktur zurückgegriffen werden

kann. Davon ist abhängig, welche Methoden des Matchmakings verwendet werden können.

Die Verhandlung über abzugebende Aufträge ist relativ einfach, da nur eine Einigung über die

Kompensation erreicht werden muss.

5.3.3.1 Identifikation abzugebender Aufträge

Unabhängig von der gegebenen Problemstruktur kann ein abzugebender Auftrag dadurch

identifiziert werden, dass die Verhaltensplanung jeweils einmal mit und ohne den Auftrag

durchgeführt wird. Stellt sich eine relevante Verbesserung der Planungsqualität ein, ist es loh-

nend, den Auftrag abzugeben. Wird dieser Vorgang aber für alle Aufträge eines Systems

durchgeführt, entsteht ein erheblicher Mehraufwand in der Planung. Die in Abschnitt 5.3.2.1

eingeführte Darstellung von Aufträgen kann dazu genutzt werden, Aufträge, die sich zur Ab-

gabe eignen, anhand ihrer Eigenschaften zu identifizieren. Aufträge, die sich sehr stark von

allen anderen Aufträgen unterscheiden, sind voraussichtlich nur mit einem relativ hohen

Aufwand zu erfüllen und können besser von solchen Systemen übernommen werden, die be-

reits ähnliche Aufträge zugeordnet haben.

Mit dem Zielvektor, der mit jedem Auftrag verbunden ist, liegt die Information vor, die zur

Beurteilung der Kompatibilität zweier Aufträge notwendig ist. Dabei kann davon ausgegan-

gen werden, dass zwei Aufträge gut zueinanderpassen, wenn die im Vektor enthaltenen Ele-

mente ähnliche Zustände zu ähnlichen Zeiten beschreiben. Umgekehrt sind zwei Aufträge nur

schwer oder mit hohem Aufwand miteinander vereinbar, wenn sie zu ähnlichen Zeiten unter-

schiedliche Zustände erzielen wollen. Ein solcher Zusammenhang lässt sich in Form eines

Distanzmaßes (siehe Abschnitt 3.2.1.1) beschreiben.

Für das hier untersuchte Problem ist die Menge M die Menge der Aufträge eines mechatroni-

schen Systems. Das Distanzmaß der Aufträge ist aus einem Distanzmaß der Zustände abzulei-

ten. Ein solches Distanzmaß ist aufbauend auf die PDDL relativ einfach zu konstruieren, da

Zustandsvariablen sich lediglich durch den Wahrheitswert logischer Prädikate und die Bele-

gung der numerischen Zustandsvariablen unterscheiden. Die Konstruktion des Distanzmaßes

soll am Beispiel einer euklidischen Distanz erläutert werden, obwohl je nach Anwendungsge-

biet durchaus andere Distanzen wie die Minkowski-Distanz oder Mahalanobis-Distanz geeig-

neter sein können. Auf Basis der im Zielvektor enthaltenen Zustandsvariablen kann die Dis-

tanz zwischen zwei Aufträgen a

und a

ermittelt werden als:

`

,

æ}g

8,k

=,k



k8

Planung von Systeminteraktionen 125

Dabei bezeichnet x

i,k

die in Auftrag i beschriebene Ausprägung der k-ten Zustandsvariable.

Damit ist der zeitliche Abstand, zu dem die einzelnen Zustandsvariablen realisiert werden

sollen, aber noch völlig unberücksichtigt. Da ein großer zeitlicher Abstand weniger ins Ge-

wicht fallen soll als ein geringer, bietet es sich an, die Distanz der Zustandsvariablen mit dem

zeitlichen Abstand zu gewichten:





,

æ}1

 <g

8,k

> ; <g

=,k

>

·g

8,k

=,k



k8

Diese Formulierung des Distanzmaßes kann auch dann bestehen bleiben, wenn eine Zu-

standsvariable mehrfach zu unterschiedlichen Zeitpunkten in der Zielformulierung eines Auf-

trags auftritt. In diesem Fall wird jede Zustandsvariable mit der korrespondierenden Zu-

standsvariablen des anderen Auftrags verglichen, die ihr zeitlich am nächsten ist.

Mit der Definition eines Distanzmaßes ist es möglich, die Aufträge durch ein Clustering

[JMF99] in Gruppen einzuteilen, die sich besonders ähnlich sind. Fallen nur wenige oder so-

gar nur ein einzelner Auftrag in eine Klasse, scheint dieser für die Abgabe besonders geeig-

net.

Führt ein RailCab beispielsweise ein Clustering über seine Transportaufträge aus, dienen die

Koordinaten der Start- und Endstationen sowie die entsprechenden Zeitfenster als Teile des

Distanzmaßes. Interessant sind Cluster mit nur wenigen oder sogar einem einzigen Transport-

auftrag, der dazu auch noch eine große Distanz zu den übrigen Aufträgen aufweist. Kann ein

solcher Cluster vollständig abgegeben werden (daher sind Cluster mit nur wenigen Elementen

zu bevorzugen), wird ein Umweg in der aktuellen Route eingespart und die übrigen Aufträge

werden günstiger bedient.

5.3.3.2 Ausschreibung abzugebender Aufträge

Das Ziel der Ausschreibung ist es, ein System zu finden, das den abzugebenden Auftrag über-

nimmt. In diesem Sinne handelt es sich um ein Matchmaking-Problem, wie in 5.1.3.1 be-

schrieben. Dementsprechend können auch die dort beschriebenen Verfahren eingesetzt wer-

den. Um den anfallenden Kommunikationsaufwand zu beschränken, sind Middle-Agents

(vergleiche 3.4.3.1.3) die geeignetste Variante. Der Vorteil liegt darin, dass Systeme, die in

der Lage sind, einen Auftrag zu übernehmen, aktiv nach einem geeigneten Auftrag suchen

können. Im Gegensatz zum reinen Contract Net Protocol, bei dem mit allen Systemen kom-

muniziert wird, erfolgt die Kommunikation also wesentlich zielgerichteter. Das abgebende

System stellt dabei die den Auftrag betreffenden Informationen den Middle-Agents zur Ver-

fügung. Dadurch können Systeme, die an einer Übernahme interessiert sind, vor der Kontakt-

aufnahme überprüfen, ob sie den Auftrag überhaupt und mit welchem Aufwand realisieren

können.

Ist es nicht möglich oder gewollt, eine Infrastruktur in Form von Middle-Agents aufzubauen,

bleiben nur die Möglichkeiten des verteilten Matchmakings oder eine Kommunikation nach

dem Contract Net Protocol mit den Systemen, die sich in Kommunikationsreichweite befin-

den, übrig. Das verteilte Matchmaking setzt dabei voraus, dass die übrigen Systeme bereit

sind, eine Ausschreibung weiterzuleiten.

5.3.3.3 Verhandlung über abzugebende Aufträge

Kontaktiert ein an einem ausgeschriebenen Auftrag interessiertes System das ausschreibende

System, müssen die beiden Systeme sich über die entsprechende Kompensation einigen. Dazu

muss das ausschreibende System zunächst das durch die Abgabe realisierbare Verbesserungs-

126 Planung von Systeminteraktionen

potenzial bestimmen. Dies ist – wie bereits oben erläutert – durch eine einfache Neuplanung

ohne die mit dem Auftrag verbundenen Teilziele möglich. Indem die Planungsmetrik für bei-

de Pläne ausgewertet wird und die Differenz gebildet wird, bestimmt das abgebende System

die Obergrenze der Kompensation. Übersteigt die Kompensation diese Differenz, führt die

Abgabe zu keiner Verbesserung mehr.

Auf der anderen Seite muss das interessierte System ebenfalls die Pläne mit und ohne Berück-

sichtigung des Auftrags bewerten. Es ermittelt so seine Untergrenze für die Kompensation,

unterhalb derer eine Übernahme nicht sinnvoll ist. Damit ist der Verhandlungsraum bereits

abgesteckt, und die tatsächlich realisierte Kompensation hängt von der Verhandlung zwischen

den Systemen ab. Für die Situation, dass es nur ein einziges interessiertes System gibt, bietet

sich zum Beispiel das Protokoll für das wechselseitige Bieten an (beschrieben in 5.1.3.3.1).

Falls mehrere Systeme an dem Auftrag interessiert sind, kann das abgebende System auch

eine umgekehrte Auktion durchführen, um die geringstmögliche Kompensation zu erhalten.

Einigen sich die Systeme auf eine Abgabe des Auftrags, stellen die beiden Systeme ihre loka-

len Pläne entsprechend um. Eine darüber hinausgehende Abstimmung ist nicht notwendig.

5.3.4 Durchführung der Abgabe von Teilfunktionen

Der allgemeine Ablauf der Abgabe von Teilfunktionen ähnelt dem Vorgehen bei der Abgabe

von Aufträgen. Bei grober Betrachtung zerfällt er in die gleichen Phasen:

1. Identifikation abzugebender Teilfunktionen,

2. Ausschreibung abzugebender Teilfunktionen und

3. Verhandlung über abzugebende Teilfunktionen.

Die Ausgestaltung der Phasen und ihre Gewichtung unterscheiden sich aber erheblich. Da die

abgegebene Teilfunktion in den ursprünglichen Plan des abgebenden Systems passen muss,

ist in der Verhandlung deutlich mehr abzustimmen als nur die Kompensation. Das Ergebnis

der Teilfunktion muss sowohl hinsichtlich des Ergebnisses als auch der zeitlichen Bereitstel-

lung passen.

5.3.4.1 Identifikation abzugebender Teilfunktionen

Durch die Modellierung der Abgabe von Teilfunktionen als eine spezielle Form einer Teil-

funktionslösung kann die Identifikation der abzugebenden Teilfunktionen direkt in der Pla-

nung geschehen. Indem die Kompensationen direkt in die Planungsmetrik aufgenommen wer-

den, kann der Planer zwischen der Abgabe der Teilfunktion und der Ausführung der Teilfunk-

tion mithilfe eigener Teilfunktionslösungen abwägen. Dabei wird der gewählte charakteristi-

sche Wert für die einzelnen Effekte und die Kompensation angesetzt. Alle Teilfunktionen, die

anschließend in dem Plan enthalten sind, eignen sich für die Abgabe.

Mit dem so konstruierten Plan hängt die erfolgreiche Durchführung aber davon ab, dass alle

ausgeschriebenen Teilaufgaben abgegeben werden können. Davon ist aber nicht zwingend

auszugehen. Daher schließt sich an diese erste Planungsphase, die die abzugebenden Teil-

funktionen ermittelt hat, eine zweite Phase an. In dieser zweiten Phase wird der ursprüngliche

Plan in mehrere Segmente unterteilt. Als Nahtstellen der Segmente dienen die abzugebenden

Teilfunktionen, die nun aus dem Plan entfernt werden. Auf diese Art werden für n abzuge-

bende Teilfunktionen n neue Planungsprobleme erzeugt, die die Fremdvergabe ersetzen sol-

len. Die Startsituation für jedes dieser Planungsprobleme ist gegeben durch den Vorgängerzu-

stand der Teilfunktionslösungen. Ebenso könnte als Zielzustand direkt der Nachfolgezustand

bei Abzug der Kompensationszahlung verwendet werden. Damit definiert man den Zielzu-

stand unter Umständen aber zu restriktiv und nimmt so dem Planer die Möglichkeit, einen

guten Plan zu bestimmen. Statt also den Nachfolgezustand der abzugebenden Teilfunktion zu

verwenden, sollte der Zielzustand so bestimmt werden, dass der restliche Plan weiterhin aus-

Planung von Systeminteraktionen 127

führbar bleibt. Ein Beispiel für diesen Unterschied stellen Fertigungstoleranzen dar. Statt also

als Zielzustand die genaue Fertigungsgenauigkeit aus dem ursprünglichen Plan vorzugeben,

ist es sinnvoller, die Toleranzen anzugeben, mit denen die nachfolgenden Schritte ausgeführt

werden können.

Um einen solchen Zustand zu finden, wird die Funktion req(s

): s

P(s

) eingeführt, die an-

gibt, welche Zustandsvariablen eines Zustands s

erfüllt sein müssen, damit der s

nachfolgen-

de Plan weiterhin ausgeführt werden kann. Zur Berechnung dieser Funktion kann der in Lis-

ting 5-2 dargestellte Algorithmus verwendet werden. Die Zeit, um alle Zustände im Plan zu

aktualisieren, beträgt O(n) (n = Anzahl der Zustände). Indem bei einer Neuplanung eines

Teilplans mit den Aktionen a

… a

die Menge der Zustandsvariablen-Belegungen req(s

i+1

) ∪

g(s

i+1

) als zu erreichendes Ziel vorgegeben wird, kann gewährleistet werden, dass der neue

Teilplan konsistent mit dem restlichen Plan ist. Logischerweise stellt s

ij-1

die Vorbedingungen

des neuen Teilplans dar.

temp = pre(j)

req(z

j-1

) = temp

Läufe rückwärts über alle Aktionen und Zustände solange temp • ∅

Wenn

die aktuelle Aktion die Zustandsbelegung s als Nachbedingung erzeugt

Dann temp = temp / s

req(aktueller Zustand) = req(aktueller Zustand) ∪ temp

Listing 5-2: Berechnung der Funktion req(s

)

Anhand der Start- und Zielzustände, die die Anknüpfungspunkte für den bisherigen Plan dar-

stellen, lassen sich nun alternative Pläne ermitteln, die verwendet werden können, falls eine

Teilfunktion nicht erfolgreich abgegeben wird. Im Rahmen der Planung zur Ermittlung dieser

Alternativpläne muss natürlich die Teilfunktion, die ersetzt werden soll, aus der Menge der

verfügbaren Aktionen gestrichen werden, also gewissermaßen tabu gesetzt werden. Nur so

kann sich ein alternativer Plan ergeben. Lässt man andere Teilfunktionen allerdings zu, ergibt

sich ein rekursives Problem, da für diese ggf. eingesetzten Teilfunktionen wiederum alternativ

Pläne einzusetzen sind. Die Menge der tabu gesetzten Teilfunktionen wächst mit jeder Rekur-

sionsstufe an. Dies ist notwendig, damit die Rekursion sicher terminiert. Steht das schnelle

Auffinden eines Plans, den das System eigenständig ausführen kann, im Vordergrund, können

auch alle Teilfunktionen gleichzeitig tabu gesetzt werden. Abbildung 5-11 veranschaulicht

das Vorgehen.

Sind beispielsweise an einem Werkstück einer Bohrfräse mehrere Bohrvorgänge auszuschrei-

ben, können diese einzeln ausgeschrieben werden. Damit muss eine Vielzahl von alternativen

Plänen für den Fall konstruiert werden, dass einzelne Vorgänge nicht vollständig abgegeben

werden können. Stattdessen können die Bohrvorgänge aber gemeinsam betrachtet werden. Es

werden also entweder alle Teilfunktionen abgegeben oder die Bohrfräse führt alle Bohrvor-

gänge selber durch.

128 Planung von Systeminteraktionen

Abbildung 5-11: Einbettung alternativer Pläne als Ersatz für abzugebende Teilfunktionen

Natürlich muss ein mechatronisches System nicht jede Teilfunktion, die es an ein anderes

System abgeben kann, zwingend durch eigene Teilfunktionslösungen durchführen können. In

einem solchen Fall hängt die erfolgreiche Ausführung des Plans tatsächlich von der Vergabe

der Teilfunktion ab und die eben beschriebene Bildung von alternativen Plänen kann entfal-

len.

5.3.4.2 Ausschreibung abzugebender Teilfunktionen

Wie bereits bei der Ausschreibung von Aufträgen erfolgt auch die Ausschreibung von Teil-

funktionslösungen idealerweise über Middle-Agents. Stehen keine Middle-Agents zur Verfü-

gung, können als Alternativen ebenfalls das verteilte Matchmaking und das Contract Net Pro-

tocol verwendet werden.

Die Informationen, die über die Middle-Agents oder andere Formen des Matchmakings aus-

getauscht werden umfassen dabei:

• die Zeit, zu der die Teilfunktion ausgeführt werden muss,

• die Parameter (also die Objekte, auf denen die Teilfunktion arbeitet),

• die Menge der zu erzeugenden Zustandsvariablen (req(s

)) und schließlich

• den Namen der ausführenden Teilfunktion.

Anhand dieser Informationen kann ein interessiertes Teilsystem schnell überprüfen, ob die

Übernahme einer Teilfunktion möglich ist oder nicht.

5.3.4.3 Verhandlung über abzugebende Teilfunktionen

Im Gegensatz zur Verhandlung über abzugebende Aufträge handelt es sich bei der Verhand-

lung über abzugebende Teilfunktionen grundsätzlich um eine Verhandlung mit mehreren At-

tributen. Dementsprechend müssen Verhandlungsprotokolle aus 5.1.3.3 gewählt werden. Die

einzelnen Attribute umfassen dabei die Kompensation und die genaue Bestimmung der Effek-

te der Ausführung der Teilfunktion. Es besteht ein gewisser Spielraum, da diese Effekte nicht

nur einen Einfluss auf die Durchführbarkeit des restlichen Teilplans besitzen, sondern auch

auf die Planqualität. Im Falle mehrerer interessierter Systeme kann auch hier wieder eine

Auktion stattfinden.

Ist eine Einigung über diese Verhandlungsattribute gefunden, ist der Prozess der Abgabe der

Teilfunktion damit abgeschlossen.

Planung von Systeminteraktionen 129

5.3.5 Abstimmung von Aktivitäten

Der Ablauf der Durchführung der Planung von gemeinsamen Aktivitäten unterscheidet sich

von den beiden vorangegangenen. Dabei wird nicht mit einer Analyse in der lokalen Planung

begonnen, um Aktivitäten zu identifizieren, die durch Abstimmung mit anderen Teilsystemen

verbessert werden können. Stattdessen lässt sich der Suchraum für mögliche Kooperationen

in diesem Fall in der Regel schneller einschränken, indem in einem ersten Schritt untersucht

wird, welche anderen Systeme im gleichen Umfeld agieren. Sind diese Systeme identifiziert,

kann versucht werden, Aktivitäten mit ihnen abzustimmen.

5.3.5.1 Identifikation möglicher Kooperationspartner

Wie bereits eingangs von 5.3 dargelegt, hängen gemeinsame Aktivitäten immer direkt mit

Umgebungsobjekten zusammen. Zustände und Eigenschaften von Objekten sind bestimmt

durch die Zustandsvariablen der PDDL-Problemdefinition. Über die Zustandsvariablenbele-

gungen lassen sich damit auch Beziehungen zwischen den Plänen verschiedener Systeme

herstellen. Da Zustandsvariablen in engem Zusammenhang mit Objekten stehen, können sol-

che Zusammenhänge auch über die Variablen festgestellt werden.

Um einem System zu ermöglichen, potenzielle Kooperationspartner zu identifizieren, stellen

die Objekte Informationen darüber bereit, welche Agenten sie zu welcher Zeit wie manipulie-

ren: man:# ,# ,I+2G 3#,H. Die zweite und dritte Stelle des Tupels stellen die

Grenzen des Zeitintervalls dar, in dem die Manipulation am Objekt erfolgt. Unter folgenden

Umständen kann ein Agent als Kooperationspartner in Frage kommen:

• der Agent manipuliert das gleiche Objekt oder

• der Agent manipuliert ein Objekt desselben Typs.

Diese Erfassung möglicher Kooperationspartner ist aber evtl. zu einschränkend. So würde

man im Beispiel der Konvoiplanung nur Fahrzeuge betrachten, die bereits die gleichen Stre-

ckenabschnitte befahren wie das Fahrzeug, das auf der Suche nach Konvoipartnern ist. Als

Kooperationspartner kommen auch solche Agenten in Frage, die zwar nicht direkt am glei-

chen Objekt, aber in der näheren Umgebung eines solchen Objekts agieren (also in der Nähe

des suchenden Fahrzeugs verkehren).

Den ersten Sachverhalt kann eine Funktion `'G (:#Ia darstellen, die den (z. B.

euklidischen) Abstand zwischen zwei Objekten als reelle Zahl liefert. Für das Beispiel der

Konvoiplanung ist die Definition sehr intuitiv: Die Distanz entspricht dem kürzesten Weg

zwischen zwei Streckenpunkten. Eine andere Möglichkeit, die nicht voraussetzt, dass eine

zentrale Instanz die Abstände zwischen allen Objekten kennt, wäre eine Funktion

('BlC5*E:$:, die für ein Objekt die benachbarten Objekte zurückliefert (zu einem

Streckenpunkt beispielsweise die direkt verbundenen Streckenpunkte). Damit erweitert sich

der Kreis der möglichen Kooperationspartner um alle Systeme, die in der eigenen Nachbar-

schaft handeln.

Wiederum erscheinen Middle-Agents als ein geeignetes Mittel, den Kommunikationsaufwand

zu beschränken. Für diese Koordinationsaktionen bietet es sich insbesondere an, Blackboards

(vergleiche Abschnitt 5.1.3.1.3) einzusetzen, die einzelnen Umgebungsobjekten zugeordnet

sind. So kann direkt überprüft werden, welche anderen Systeme in einem relevanten Zeitfens-

ter das gleiche oder ähnliche Objekt manipulieren.

5.3.5.2 Abstimmung der Aktivitäten

Im Gegensatz zur Interaktionsplanung bei gemeinsamer Hauptaufgabe kann bei individueller

Hauptaufgabe nicht davon ausgegangen werden, dass die Systeme bereitwillig ihre lokalen

130 Planung von Systeminteraktionen

Pläne austauschen. Das schränkt die Möglichkeiten zur Abstimmung natürlich sehr stark ein.

Eine Abstimmung bedingt aber zumindest einen teilweisen Austausch über die Pläne.

Somit steht am Beginn der Abstimmung die Anfrage eines Systems, ob eine Abstimmung der

Pläne gewünscht ist. Sind die angefragten Systeme an einer Abstimmung interessiert, müssen

die relevanten Teilpläne ausgetauscht werden. Die Begrenzungen dieser Teilpläne können aus

den Objekten abgeleitet werden, an denen die Systeme zu gleichen Zeiten handeln. Um den

nachfolgenden Abstimmungsprozess möglichst zielgerichtet zu gestalten, besteht außerdem

die Möglichkeit, gemeinsame Ziele zu definieren, die eingehalten werden müssen, um die

Gültigkeit der lokalen Pläne sicherzustellen. Dazu kann wiederum die Funktion req(s

) heran-

gezogen werden, deren Berechnung in Listing 5-2 dargestellt ist.

5.3.6 Gesamtablauf

Die vorgestellten Kooperationsaktionen lassen sich jeweils einzeln, also ohne Verbindung zu

den anderen Aktionen realisieren. Der Gesamtablauf der Koordination zerfällt dann in die

bereits eingangs des Kapitels eingeführten Phasen:

1. Erkennen von Kooperationspotenzial,

2. Identifikation von Kooperationspartnern,

3. Bestimmung gemeinsamer Planungsziele und

4. Gemeinsame Planfindung.

Dabei ist zu beachten, dass im Falle der Abstimmung von Aktivitäten die Reihenfolge der

Phasen 1 und 2 vertauscht wird. Die Abläufe innerhalb der einzelnen Phasen sind in den vor-

angegangenen Abschnitten ausführlich beschrieben.

Einer genaueren Betrachtung bedarf der Gesamtablauf aber, wenn die Kooperationsaktionen

gleichzeitig eingesetzt werden sollen. Die Ursache hierfür besteht darin, dass Kooperationsak-

tionen in Konkurrenz stehen, sich also teilweise gegenseitig ausschließen. So fallen bei er-

folgreicher Abgabe eines Auftrags ganze Teilpläne weg, die selbst Gegenstand von Koopera-

tionsaktionen wie der Abgabe von Teilfunktionen oder der Abstimmung von Aktivitäten sein

können. Die gleiche Beziehung liegt bei der Abgabe von Teilfunktionen hinsichtlich der Ab-

stimmung von Aktivitäten vor. Aufgrund dieser Konkurrenz muss der gleichzeitige Einsatz

der Kooperationsaktionen koordiniert werden.

Der erste Schritt in Richtung einer Koordination der Kooperationsaktionen besteht darin, die

Beziehung zwischen den Kooperationsaktionen bzw. den mit ihnen verbundenen Planelemen-

ten festzuhalten. Abbildung 5-12 stellt diese hierarchische Beziehung in Form eines Baumes

dar. Die Wurzel des Baumes ist der eigentliche Plan, wobei die enthaltenen Aktivitäten in

Teilmengen zerfallen, die sich den Aufträgen zuordnen lassen. Daher stellen die Aufträge die

nächste Ebene des Baumes dar. Zur Realisierung eines Auftrages, der nicht abgegeben wird,

dienen eine Menge atomarer Aktivitäten oder Teilfunktionen, die wiederum an andere Syste-

me abgegeben werden können. Teilfunktionen wiederum sind in ihrer Struktur identisch mit

den Aufträgen. Sie zerfallen also wiederum in Teilfunktionen oder Aktivitäten. Anhand der

Baumstruktur ist direkt erkennbar, dass die erfolgreiche Abgabe eines Auftrags oder einer

Teilfunktion alle möglichen Kooperationen hinsichtlich der Kindsknoten obsolet macht.

Planung von Systeminteraktionen 131

Abbildung 5-12: Hierarchische Beziehung zwischen Kooperationsgegenständen

Im allgemeinen Fall der Interaktionsplanung bei individueller Hauptaufgabe wird das mechat-

ronische System versuchen, alle drei Formen der Kooperation gleichzeitig zu verfolgen. Da-

bei bietet sich ein Vorgehen von der umfassendsten Kooperationsaktion hin zur feinsten an,

zumal die (positive) Wirkung der Abgabe von Aufträgen in der Regel größer sein wird als die

Abgabe einzelner Teilfunktionen und die Abstimmung einzelner Aktivitäten. Abbildung 5-13

stellt den entsprechenden Ablauf dar. Ausgangspunkt der Interaktionsplanung ist die Auswahl

abzugebender Aufträge, die noch vor dem Start der eigentlichen Planung ausgeschrieben wer-

den. Als zweiter Schritt schließt sich die lokale Planung der Aufträge an, wobei die in Ab-

schnitt 5.3.2.2 eingeführten Teilfunktionsaktivitäten genutzt werden, um solche Teilfunktio-

nen zu identifizieren, deren Abgabe eine Verbesserung der Planqualität verspricht. Auch diese

Teilfunktionen werden direkt ausgeschrieben. Die nächsten beiden Schritte können grundsätz-

lich parallel ausgeführt werden. Es sind einerseits die Alternativpläne für die ausgeschriebe-

nen Teilfunktionen zu erstellen. Andererseits wird für die im Plan vorhandenen atomaren

Aktivitäten nach Kooperationspartnern gesucht. Abhängig von den identifizierten Kooperati-

onspartnern ergeben sich dann Abstimmungsmöglichkeiten. Ebenfalls grundsätzlich parallel

zum übrigen Planungsprozess können Verhandlungen mit anderen Systemen durchgeführt

werden. Die Ergebnisse einer solchen Verhandlung werden zwischenzeitlich gepuffert. Nach-

dem der lokale Plan vollständig konstruiert ist, werden unter den möglicherweise konkurrie-

renden Einigungen eine Auswahl durchgeführt und die ausgewählten Kooperationen fixiert.

Am Ende des Prozesses steht ein abgestimmter Plan.

Der Auswahlprozess zwischen den Einigungen bedarf noch einer genaueren Erläuterung. Zu-

nächst bedingt er, dass die Einigungen, die Ergebnis der vorherigen Verhandlungen sind, nur

vorläufig sind. Weiterhin ist zu klären, wie das mechatronische System zwischen den mögli-

cherweise konkurrierenden Einigungen auswählt. Als Datenstruktur zur Verwaltung der Eini-

gung bietet sich die in Abbildung 5-12 eingeführte Baumstruktur an. Wird eine beliebige

Kooperationsaktion fixiert, sind alle weiteren Kooperationsaktionen, die in der Baumstruktur

oberhalb oder unterhalb des entsprechenden Knotens in der Baumstruktur liegen, zu entfernen

und den entsprechenden Systemen eine Absage zu erteilen. Daran ist ersichtlich, dass vor ei-

ner Fixierung die positiven Effekte einer Kooperation abgewogen werden müssen gegen die-

jenigen, die dadurch verworfen werden. Stehen bereits alle Einigungen über mögliche Koope-

rationsaktionen endgültig fest, so ist dies auch ohne Weiteres möglich. Es liegen dann für jede

132 Planung von Systeminteraktionen

mögliche Kooperationsaktion die Verhandlungsergebnisse vor, sodass die resultierende Plan-

qualität errechnet werden kann.

Abbildung 5-13: Ablauf der Interaktionsplanung bei individueller Hauptaufgabe

In der Regel wird aber nicht unbegrenzte Zeit zur Planung und Koordination zur Verfügung

stehen, sondern die Kooperationen müssen fixiert werden, bevor die entsprechenden Aktionen

ausgeführt werden. Diesem Zweck dient ein Commit-Window, das angibt, bis wann die

Koordinationen hinsichtlich einer Aktion abgeschlossen sein müssen. Gleichzeitig ist es aber

nicht realistisch zu unterstellen, dass Systeme ihre Kooperationsangebote immer aufrecht er-

halten, bis das Commit-Window abgelaufen ist. Daher wird für jede Einigung ebenfalls ein

Commit-Window eingeführt, das Gegenstand der Verhandlungen zwischen den kooperieren-

den Systemen ist. Damit besteht grundsätzlich die Möglichkeit, dass die Entscheidung über

die Fixierung einer Kooperation getroffen werden muss, bevor die Kooperationsmöglichkei-

ten der Eltern- und Kindsknoten bekannt sind. In diesem Falle bleibt nichts anderes übrig, als

wie auch schon bei der Definition der Kompensationskosten für abgegebene Aufträge und

Teilfunktionen (siehe 5.3.4.1) auf historische Daten zurückzugreifen. Diese werden sinnvoll-

erweise in Abhängigkeit von der Länge des Commit-Windows der betreffenden Aktivitäten

Planung von Systeminteraktionen 133

definiert, sodass die verbleibende Zeit, alternative Kooperationen zu realisieren, berücksich-

tigt wird.

Integrationsszenario für die Planungsprozesse 135

6 Integrationsszenario für die Planungsprozesse

Die in den Kapiteln 3, 4 und 5 beschriebenen Konzepte stellen die Bausteine einer Verhal-

tensplanung für mechatronische Systeme dar. Diese Bausteine sind so zusammenzufügen,

dass sie ein Gesamtkonzept ergeben. Durch die Entscheidung, alle Problemfelder auf Basis

des Formalismus der PDDL anzugehen, ist eine Schnittstelle zwischen den einzelnen Konzep-

ten gegeben: Die einzelnen Verfahren können durch den Austausch von Plänen miteinander

verbunden werden. So entsteht eine Art von Workflow, in dem die Verfahren Plandokumente

miteinander austauschen und schrittweise weiterverarbeiten. Daher bietet sich eine zentrale

Instanz an, in der die Verfahren die bearbeiteten Pläne ablegen und zur Weiterverarbeitung

bereitstellen. Diese zentrale Instanz ist die Planbibliothek.

In der Planbibliothek kann eine Menge von Plänen abgelegt werden, die Beziehungen zuei-

nander besitzen. Dabei wird ein Plan zerlegt in seine Aktionen und Zustände. Die Planbiblio-

thek ist also:

• eine Menge "" von Planungsproblemen,

• eine Menge " von vollständig geordneten Plänen, wobei

• 1

+

, 1

" und

• +

die Zustände und F

die Aktionen sind, die im Plan vorkommen.

Das ursprüngliche Planungsproblem des mechatronischen Systems wird als 11

bezeichnet.

Im weiteren Verlauf werden neue Planungsprobleme bestimmt, die zur Generierung von Al-

ternativplänen oder zur Überarbeitung eines Plans erzeugt werden. Zwischen den Elementen

der Menge +

und F

besteht eine Vorgänger-Nachfolger-Relation.

• G

è

, wenn Aktion 

im Zustand G

ausgeführt wird

• 

éG

, wenn Aktion 

den Zustand G

erzeugt

Den Start des Workflows stellt eine gewöhnliche PDDL-Planung dar. Die Formulierung des

initialen Planungsproblems berücksichtigt Blackbox-Modellierung von Systeminteraktionen

(Kapitel 5.2), berücksichtigt also bereits die Interaktion mit Systemen, die dieselbe Hauptauf-

gabe erfüllen. Ebenso können die abzugebenden Teilfunktionen in das initiale Planungsprob-

lem integriert werden, wodurch entsprechend des Ablaufs in Unterkapitel 5.3.4 mehrere alter-

native Pläne Ergebnis des Schritts initiale Planung sind. Jeder der alternativen Pläne steht

dabei für eine andere Menge an Teilfunktionen, die abgegeben werden sollen.

Im nächsten Verarbeitungsschritt können die alternativen Pläne einer kontinuierlichen Analy-

se und Optimierung im Sinne des Unterkapitels 3.2.2 unterzogen werden. Können alle Aktio-

nen der Planungsdomäne mithilfe vorgelagerter Optimierung dargestellt werden, entfällt die-

ser Schritt des Workflows. Anschließend wird derjenige Plan ausgewählt, der mit der Menge

der erfolgreich an andere Systeme abgegebenen Teilfunktionen korrespondiert. Dieser Plan

stellt die Lösung eines deterministischen Planungsproblems dar und wird in eine Planbiblio-

thek eingestellt. Auf der Planbibliothek arbeiten drei weitere Planungsprozesse.

Die probabilistische Analyse (vergleiche Kapitel 4.2) analysiert die in der Bibliothek vorlie-

genden Pläne hinsichtlich möglicher Abweichung in der Planausführung. Die Analyse erzeugt

In beiden Fällen muss natürlich gelten: 

+

und



F

und 1

+

136 Integrationsszenario für die Planungsprozesse

wie beschrieben eine Menge relevanter Verzweigungen, für die Alternativpläne zu erstellen

sind. Zwischenergebnis der probabilistischen Analyse ist also:

• eine Menge s von Verzweigungen,

• zu jeder Verzweigung Cs eine Bedingung, unter der sie angewandt wird, und

• ein neues deterministisches Planungsproblem 11"", das durch den deterministi-

schen Planungsablauf verarbeitet werden kann

Entsprechend ihrer Selectability (siehe 4.2.1.6) werden die neuen Planungsprobleme im de-

terministischen Planungsablauf gelöst. Ist die Planung abgeschlossen, wird der neue Alterna-

tivplan in die Planbibliothek integriert. Dabei besteht eine Relation zur entsprechenden Ver-

zweigungsstelle:

• 1êC, wenn 1 der Plan ist, der auszuführen ist, wenn die Bedingung von C eintritt.

Die Abstimmung von Aktivitäten (vergleiche Kapitel 5.3.5) sucht anhand der in den Plänen

enthaltenen Informationen nach möglichen Kooperationspartnern und versucht mit diesen

einen gemeinsamen Plan zu generieren. Um den neuen Plan zu generieren, wird wieder ein

neues Planungsproblem 11 erzeugt. Die Kooperation und das Planungsproblem 11 beziehen

sich dabei auf genau einen alternativen Plan p zur Lösung des ursprünglichen Planungsprob-

lems. Ist die Abstimmung in mehreren Verzweigungen möglich, ist jeweils ein eigenes Pla-

nungsproblem 11 notwendig. In Abschnitt 5.3.4.1 wurde die Funktion req(s

) eingeführt, die

jedem Zustand s

aus dem folgenden Plan die Zustandsvariablen bestimmt, die gegeben sein

müssen, damit der auf s

folgende Plan ausführbar bleibt. So kann für das Planungsproblem

11 ein Zielzustand s

ziel

‘ bestimmt werden, der eine Einbettung in den Ursprungsplan ermög-

licht. Ist das Planungsproblem 11 gelöst, werden die Zustände und Aktionen zwischen den

Zuständen s

start

und s

ziel

des ursprünglichen Plans p ersetzt durch die Aktionen und Zustände

des neuen Teilplans 1, der die abgestimmten Aktionen enthält.

Der Prozess Abgabe von Aufträgen bearbeitet im Gegensatz zu den anderen beiden Planungs-

prozessen nicht nur einen einzelnen Plan in der Planbibliothek. Stattdessen sind alle Pläne

betroffen, wenn ein Auftrag erfolgreich abgegeben wurde. Jeder in der Bibliothek enthaltene

Plan muss durch einen neuen Plan ersetzt werden, der den oder die abgegebenen Aufträge

nicht mehr enthält. Auch hier kann die Funktion req(s

) eingesetzt werden, um den Planungs-

aufwand zu beschränken.

Im Rahmen des Workflows sind also drei unterschiedliche Typen von Plänen zu bearbeiten

und müssen entsprechend in der Bibliothek abgelegt werden:

1. Die ursprüngliche deterministische Lösung eines Planungsproblems;

2. Alternativpläne, die in bestimmten Planschritten von einem anderen Plan abzweigen;

3. Teilpläne, die durch Kooperation mit anderen mechatronischen Systemen eine Ver-

besserung des Plans bewirken.

Ein Plan in der Bibliothek ist der jeweils aktuell auszuführende Plan. Auf diesem Plan kann

die Koordination nach der Planung für Systeme mit gemeinsamer Hauptaufgabe durchgeführt

werden (vergleiche Unterkapitel 5.2.4). Da dieser Prozess jeweils einen Teil des Plans fixiert

und zur Ausführung freigibt, ist das Ergebnis eine Sequenz von durchzuführenden Aktivitä-

ten. Im Rahmen der Planausführung wird der tatsächliche Planungsverlauf mit den in der

Planbibliothek enthaltenen Alternativplänen abgeglichen, um ggf. den aktuell auszuführenden

Plan wechseln zu können.

Integrationsszenario für die Planungsprozesse 137

Abbildung 6-1: Integrationsszenario für die Planungsverfahren

Der Auswahlprozess zwischen den Einigungen bedarf noch einer genaueren Erläuterung. Zu-

nächst bedingt er, dass die Einigungen, die Ergebnis der vorherigen Verhandlungen sind, nur

vorläufig sind. Weiterhin ist zu klären, wie das mechatronische System zwischen den mögli-

cherweise konkurrierenden Einigungen auswählt. Als Datenstruktur zur Verwaltung der Eini-

gung bietet sich die in Abbildung 5-12 eingeführte Baumstruktur an. Wird eine beliebige

Initiale Planung

Kontinuierliche

Anpassung

Ausschreibung

und Verhandlung

Vollständiger

diskreter Plan Auschreibungen

Diskreter Plan mit

abzugebenden

Teilfunktionen

Vollständiger

diskreter Plan Auschreibungen

Diskreter Plan mit

abzugebenden

Teilfunktionen

Auswahl

des gültigen

Plans

Deterministischer

Plan

Bibliothek alternativer

Pläne

Bibliothek

aktualisieren

Neues

deterministisches

Planungsproblem

Aktionen

abstimmen

Neues

deterministisches

Planungsproblem

Probabilistische

Analyse

Aufträge

abgeben

Planausführung

Aktueller Plan

Koordination nach

der Planung

Auszuführende

Aktivitäten

Auschreibungen

Neues

deterministisches

Planungsproblem

138 Integrationsszenario für die Planungsprozesse

Kooperationsaktion fixiert, sind alle weiteren Kooperationsaktionen, die in der Baumstruktur

oberhalb oder unterhalb des entsprechenden Knotens in der Baumstruktur liegen, zu entfernen

und den entsprechenden Systemen eine Absage zu erteilen. Daran ist ersichtlich, dass vor ei-

ner Fixierung die positiven Effekte einer Kooperation abgewogen werden müssen gegen die-

jenigen, die dadurch verworfen werden. Stehen bereits alle Einigungen über mögliche Koope-

rationsaktionen endgültig fest, so ist dies auch ohne Weiteres möglich. Es liegen dann für jede

mögliche Kooperationsaktion die Verhandlungsergebnisse vor, sodass die resultierende Plan-

qualität errechnet werden kann.

Treten unvorhergesehene Abweichungen auf, ist eine Umplanung im Sinne des Unterkapitels

4.2.2 aufzurufen (nicht in der Abbildung). Da hier besondere Anforderungen an die Planungs-

geschwindigkeit zu stellen sind, werden in der Regel die kontinuierliche Analyse und die

kooperativen Verbesserungsaktionen wegfallen. Daher muss es Ziel der Umplanung sein,

möglichst schnell auf einen Zustand in einem der in der Planbibliothek enthaltenen Pläne zu-

rückzukehren. Abbildung 6-1 stellt den Gesamtablauf dar.

Sind im betrachteten Anwendungsfall die einzigen kooperierenden Systeme mit gemeinsamer

Hauptaufgabe die Funktionsmodule innerhalb der autonomen mechatronischen Systeme

(AMS), bietet sich eine Alternative zum hier beschriebenen Ablauf an. In diesem Fall können

die Planungsprozesse hierarchische organisiert werden. Auf einer überlagerten Ebene planen

die AMS mithilfe eines vereinfachten Planungsmodells. Kontinuierliche Aspekte treten hier

nur in Form von Kostenwerten auf, die aus den detaillierten Planungsmodellen der Funkti-

onsmodule abgeleitet werden (z. B. Komfortwerte abhängig vom Streckentyp). Auf dieser

Ebene führen die AMS zunächst alle Kooperationsaktionen für interagierende mechatronische

Systeme mit individueller Hauptaufgabe durch. Ergebnis dieses Planungsprozesses ist ein

grober Ablaufplan für die Aufgabenerfüllung der mechatronischen Systeme. Dieser Pla-

nungsprozess wird auf der Ebene der Funktionsmodule verfeinert. Hier finden eine detaillierte

Abstimmung der Aktivitäten innerhalb des AMS (mittels der Interaktionsplanung für Systeme

mit gemeinsamer Hauptaufgabe) und eine genauere Analyse des kontinuierlichen Verhaltens

statt. Treten auf dieser Ebene unlösbare Planungsprobleme auf oder ergibt sich eine zu

schlechte Planqualität (im Verhältnis zur erwarteten Planqualität im groben Ablaufplan), ist

ggf. eine Umplanung auf der Ebene der AMS notwendig.

Anwendungsbeispiele 139

7 Anwendungsbeispiele

Die folgenden Anwendungsbeispiele beziehen sich alle auf das RailCab-System der Neuen

Bahntechnik Paderborn. Innerhalb des RailCab-Systems bietet sich die Möglichkeit, die Pla-

nungsprozesse in den unterschiedlichen mechatronischen Ebenen hierarchisch zu verknüpfen.

Dabei planen die Fahrzeuge auf der obersten Hierarchieebene ihre Routen, um eine Menge

von Transportaufträgen durchzuführen. Natürlich können die Fahrzeuge dabei miteinander

interagieren und so Konvois bilden oder Transportaufträge austauschen. Die zweite Planungs-

ebene, die auf Ebene der MFM angesiedelt ist, erhält eine Abfolge von Streckenabschnitten

als Eingabe. Diese Abfolge ist Ergebnis der Planungsprozesse auf der oberen Planungsebene.

Hier wählt der Antrieb beispielsweise seine Fahrprofile so aus, dass die Route in der entspre-

chenden Zeit abgefahren wird. Abbildung 7-1 veranschaulicht die Planungsebenen und ihre

Interaktion.

Abbildung 7-1: Planungshierarchie im RailCab-Beispiel

Zur Planung der Abläufe im RailCab-Verkehrssystem (VMS-Ebene) wird ein Multiagenten-

System eingesetzt. Ein Grund für die Wahl dieses dezentralen Planungsparadigmas ist zu-

nächst die hohe Zahl von zu berücksichtigenden Systemen: Kunden, Fahrzeuge, Streckenab-

schnitte und Stationen müssen hinsichtlich ihrer Anforderungen und Kapazitäten abgestimmt

werden. Gleichzeitig muss das System laufend auf neue Eingaben reagieren können. So kön-

nen jederzeit neue Kunden und damit Transportaufträge in das System eintreten oder Stre-

ckenausfälle müssen berücksichtigt werden.

Das Multiagenten-System ist in seiner ursprünglichen Fassung ausführlich in [Frank04] be-

schrieben. Das System umfasst vier Arten von Agenten: Streckenagenten, Stationsagenten,

Fahrzeugagenten und Kundenagenten. Abbildung 7-2 zeigt die Abläufe im RailCab-MAS als

stark vereinfachtes UML-Sequenzdiagramm. Ausgangspunkt der Planungsaktivitäten ist die

Bekanntgabe eines Transportauftrags an die Fahrzeugagenten. Jeder Fahrzeugagent, der

grundsätzlich an dem Transportauftrag interessiert ist, führt zunächst eine lokale Routenpla-

nung durch. Diese Routenplanung dient der Überprüfung, ob der Transportauftrag zur aktuel-

ernetztes

echatronisches

ystem

utonomes

echatronisches

ystem

echatronische

unktions-

odule

Kooperative Planung zwischen AMS:

- Konvoibildung

- Austausch von Aufträgen

Routenplanung

Koordination + Planung

Operationsmodi

Anzufahrende

Wegpunkte

Aktuelle Fahrzeug-

Route

Abzufahrende

Strecke

Start Ziel

140 Anwendungsbeispiele

len Fahrzeugroute passt. Ist dies der Fall, werden in einem iterativen Prozess (Details siehe

[Frank04]) die Überfahrten über Streckenabschnitt und Aufenthaltszeiten in Stationen bei den

entsprechenden Agenten gebucht.

Abbildung 7-2: Vereinfachte Darstellung der Abläufe im RailCab-MAS

Formal betrachtet löst das RailCab-MAS eine Onlinevariante des Pick Up and Delivery Prob-

lem with Time Windows (PDPWTW). Dabei handelt es sich um eine Onlinevariante, da die

Transportaufträge nur sukzessiv ins System eintreten, aber unverzüglich eingeplant werden

müssen (da die Zeitfenster der Kunden eingehalten werden müssen). Dadurch können Situa-

tionen eintreten, in denen eine ursprünglich getroffene Entscheidung als nicht optimal oder

sogar als schlecht erkannt wird. Bis zur Ausführung des Plans (oder genauer: bis zur Ausfüh-

rung einer Aktivität im Plan) kann sich die Situation im System so verändert haben, dass eine

Anpassung des ursprünglichen Plans sinnvoll ist.

Dabei wird das Systemverhalten anhand von Kostenfunktionen bewertet. Die individuelle

Kostenfunktion eines Fahrzeugs ermittelt sich anhand der Kosten, die für Benutzung von

Strecken und von Stationen anfallen:

5G

} 



n



n} 

`

;



R8

Dabei bezeichnet c

die Maut für das Befahren eines Streckenabschnitts, e

die Kosten für den

Energieverbrauch auf dem Streckenabschnitt, c

einen Kostensatz für das Halten in einer Sta-

tion sowie a

die Ankunftszeit in einer Station und d

die Abfahrtzeit. Zur Beurteilung der

Leistung des Gesamtsystems und der Planungsmechanismen werden die lokalen Kostenfunk-

tionen aufsummiert: 5G

} 5G

J8

Anwendungsbeispiele 141

7.1 Integration kontinuierlicher Verläufe für die aktive Federung

Die Integration der kontinuierlichen Verläufe der Aktivitäten eines mechatronischen Systems

wird am Beispiel der aktiven Federung des RailCabs erläutert. Wie bereits in Kapitel 5 be-

schrieben, ist das für die Federung entscheidende Merkmal des Komforts nur vor dem Hinter-

grund eines kontinuierlichen Verlaufs zu bestimmen. Dies geschieht durch die Integration der

Beschleunigungen, die am Aufbau des RailCabs wirken.

Im Falle der aktiven Federung wurde ein Vorgehen auf Basis einer vorgeschalteten Optimie-

rung gewählt. Die Optimierung ist nicht Bestandteil dieser Arbeit, sondern in [VT08] be-

schrieben. Die vorgelagerte Optimierung bestimmte diejenigen Reglerparameter und Einstel-

lungen, die bei einem vorgegebenen maximalen mittleren Leistungsbedarf (Nebenbedingung)

den optimalen Komfort liefern. Die Parameter, die im Rahmen der Optimierung angepasst

wurden, waren im Einzelnen:

• jeweils in horizontaler, vertikaler und Drehrichtung (um die Längsachse), Einstellun-

gen für:

o die virtuelle Relativfedersteifigkeit (c_rel),

o den virtuellen Relativ-Dämpfer (d_rel),

o den Skyhook-Dämpfer (d_sky),

• der Versorgungsdruck (p_supp) und

• Aktivierung einer Störgrößenkompensation.

Abbildung 7-3: Pareto-Mengen im Bildraum für die Federung [VT08]

Das Optimierungsproblem wurde für bestimmte Gewichtungen der Ziele gelöst. Ergebnis sind

also Kombinationen aus Komfort und mittlerer Leistung. Diese entsprechen einer sinnvollen

Zielkombination. Als relevante Umfeldvariablen wurden die Amplitude (Stärke) und Fre-

quenz (Häufigkeit) der Streckenanregungen verwendet. Das Optimierungsproblem wurde für

eine Menge von typischen Werten dieser beiden Eigenschaften gelöst. Ergebnis der Optimie-

rung ist eine Pareto-Menge, die die effizienten Kompromisse der beiden Zielfunktionen „ma-

ximiere Komfort“ (f1) und „minimiere mittlere Leistung“ (f2) enthält. Abbildung 7-3 zeigt

die Ergebnisse der Optimierung für unterschiedliche Streckentypen und mit aktiver oder inak-

tiver Störgrößenkompensation. Die fett hervorgehobenen Punkte auf den sich ergebenden

0 0.5 1 1.5

100

200

300

400

500

600

700

800

900

Aktive Kompensation

Inaktive Kompensation

: Energieverbrauch

: Komfort

142 Anwendungsbeispiele

Pareto-Mengen sind die ausgewählten Teilfunktionslösungen, die im Rahmen der Planung

betrachtet werden sollen. Aus den Werten für Komfort und mittlere Leistung ergeben sich die

Nachbedingungen der Anwendung einer solchen Teilfunktionslösung, nämlich die Güte der

Aktion (Komfort) und ihr Ressourcenverbrauch (mittlere Leistung über die Zeit). Damit kann

für einen Streckenabschnitt bekannter Länge grundsätzlich eine entsprechende Aktion oder

Teilfunktionslösung formuliert werden. Damit war zuletzt noch zu klären, zu welchem Stre-

ckentyp ein konkreter Streckenabschnitt in der Planung gehört. Wie bereits in Abschnitt

3.2.1.1 beschrieben, ist für diese Aufgabe grundsätzlich ein Klassifikationsverfahren geeignet.

(:action suspensionComfort

:parameters

(?r railcab ?t tracksection)

:precondition

(and on ?r ?l1)

(>=(energy_storage ?r)(*distance ?l1 ?l2)(suspension-active ?r)

:effect

(

when( (is ?t trackTypA) (increase used_energy (* (distance

?t)(avg_power ?trackTypA) and increase comfort (* comfortLevel-

SuspensionComfort(?trackTypA) (distance ?t))

when( (is ?t trackTypB) (increase used_energy (* (distance

?t)(avg_power ?trackTypB) and increase comfort (* comfortLevel-

SuspensionComfort(?trackTypB) (distance ?t))

...

when( (is ?t trackTypN) (increase used_energy (* (distance

?t)(avg_power ?trackTypN) and increase comfort (* comfortLevel-

SuspensionComfort(?trackTypN) (distance ?t))

)

Listing 7-1: Aus der Optimierung abgeleitete Aktionsdefinition

Der Eigenschaftsvektor, der dazu verwendet wurde, enthält die Amplitude und die Frequenz

der Anregung. Je stärker diese Werte voneinander abweichen, desto unähnlicher sind sich

zwei Streckenabschnitte. Die einfache Aufgabe, einen konkreten Streckenabschnitt einem der

charakteristischen zuzuordnen, kann z. B. mithilfe eines Naive Bayes Classifiers gelöst wer-

den.

Die Aktivität des Federns liess sich nun für unterschiedliche Zielkonfigurationen und Stre-

ckentypen formulieren. Listing 7-1 zeigt die Formulierung einer bedingten Aktion. Für jeden

in der vorgelagerten Optimierung behandelten Streckentyp ist ein bedingter Aktionsteil

enthalten. Wenn der aktuell zu planende Streckenabschnitt einem Typen entspricht, wird die

entsprechende mittlere Leistung mit der Länge des Streckenabschnitts multipliziert, um auf

die tatsächlich verbrauchte Energie zu kommen. Das Gleiche geschieht mit dem Komfortwert,

der innerhalb einer Planmetrik als Optimierungsziel genutzt werden kann. Der Streckentyp

wird wie beschrieben vor einem Planungslauf durch ein Klassifikationsverfahren bestimmt.

Durch die Definition dieser Aktion sind die kontinuierlichen Einstellungen und Reglerpara-

meter sowie das kontinuierliche Gütekriterium Komfort in die diskrete Planung integriert.

Anwendungsbeispiele 143

7.2 Planung unter Unsicherheit

7.2.1 Probabilistische Routenplanung für bedarfsorientierten Schienen-

transport

Auf der Ebene des AMS muss ein RailCab-Fahrzeug wiederholt seinen Weg planen, um zu-

geordnete Transportaufträge zu erfüllen. Klassischerweise wird dies durch ein deterministi-

sches Kürzeste-Wege-Verfahren gelöst, das die Fahrzeiten zwischen zwei Streckenpunkten

als sicher bekannt voraussetzt.

In diesem Kapitel wird ein Verfahren vorgestellt, das mithilfe der in Kapitel 4.2 beschriebe-

nen Expertenagenten eine genauere Prognose von Fahrzeiten realisiert als Verfahren auf Basis

unbedingter Durchschnittswerte und dadurch zu einer besseren Routenplanung für die Rail-

Cab-Fahrzeuge führt. Das Verfahren wurde umgesetzt innerhalb des RailCab-MAS, das im

vorherigen Abschnitt beschrieben wurde. Dazu wurden sowohl der Track-Agent als auch der

Fahrzeugagent erweitert.

7.2.2 Die Agentenklasse Track-Experte

Die Prognose für die Fahrtdauer auf einem einzelnen Streckenabschnitt wird wie in Abschnitt

4.2.1.3 beschrieben mittels Bayes-Netzwerken modelliert. In dieses Netzwerk geht die erwar-

tete Ankunftszeit des Fahrzeugs als Eingabe ein. Das Netz selbst beschreibt die Wirkung von

Umfeldeinflüssen auf die Fahrtdauer. Von Faktoren wie Verkehrsdichte oder Witterungsbe-

dingungen hängt die Fahrzeit aber nur mittelbar über die durchschnittliche Geschwindigkeit

ab. Sie beeinflussen die auf dem Streckenabschnitt realisierbare Durchschnittsgeschwindig-

keit sv

avg

. Aus ihr ergibt sich die Fahrtdauer rechnerisch als E`

ËäR·9

|¤¦ìí|

mit v

avg

= min{fv

max,

avg

}, wobei Länge die Länge des Streckenabschnitts und fv

max

die Höchstgeschwindigkeit

des Fahrzeugs bezeichnen.

Der Track-Experte hat also folgende Wirkungskette zu modellie-

ren:

F(£*( G' $\3)`'()üGG$E)'G'ECE *ElGl(' GBGlD'(`'B£'

$HlE'

Zur Modellierung dieser Wirkungskette wird der Track-Experte mit einem Bayes-Netzwerk

ausgestattet, das die Zusammenhänge seiner Umgebung und die Einflüsse der Umgebung auf

die Fahrzeit darstellt. Es wird ein hybrides Bayes-Netzwerk eingesetzt, das sowohl kontinuier-

liche als auch diskrete Zufallsvariablen enthält. Die verwendeten Netzwerke umfassen min-

destens die folgenden Knoten:

• Der Knoten Arrival wird als kontinuierliche Zufallsvariable betrachtet und von Fahr-

zeugagenten mit einer Verteilung der geplanten Ankunftszeit initialisiert.

• Der Knoten Ride Duration (Fahrzeit) ist eine normalverteilte Zufallsvariable. Sie wird

direkt aus den Verteilungen der Umfeldvariablen abgeleitet, die prognostizierte Fahrt-

dauer hat also die Form "'` *E '5( |.

Der rein funktionale Zusammenhang zwischen realisierbarer Durchschnittsgeschwindigkeit

und Fahrzeit wird also nicht explizit modelliert oder berechnet, sondern im Netzwerk implizit

in der Verteilung "'` *E '5( | dargestellt. Abbildung 7-4 zeigt die Struktur der ver-

wendeten Netzwerke und veranschaulicht die Interaktion zwischen Fahrzeug- und Experten-

agent.

Dieser Zusammenhang basiert auf der Annahme, dass die Fahrzeuge jeweils mit der höchstmöglichen Ge-

schwindigkeit fahren.

144 Anwendungsbeispiele

Abbildung 7-4: Zwei mit einem Fahrzeugagenten kommunizierende Track-Experten

Zur Durchführung der Inferenz wurde eine eigene Bibliothek mit dem Namen pns (probability

network support) implementiert. Diese Bibliothek oder Package enthält alle Klassen, die für

den Aufbau und die Verarbeitung der Bayes-Netzwerke in den Expertenagenten notwendig

sind. Abbildung 7-5 zeigt ein Klassendiagramm des Packages.

Um die Experten einfach mit individuellen Netzwerken ausstatten zu können, wurde auf Basis

des XML-Formats XMLBIF

eine Erweiterung namens XBIF (eXtended Bayesian Network

Interchange Format) entwickelt, die auch hybride Netzwerke im XML-Format ablegen

kann.

Der Konstruktor der Klasse BeliefNet erwartet als Eingabe den Namen einer solchen

Datei und erzeugt anschließend das entsprechende Netzwerk.

Die Klasse BeliefExpert ist eine Spezialisierung der Klasse BeliefNet und stellt die Methoden

zur Inferenz zur Verfügung. Mithilfe dieser Methoden ist es möglich, harte oder weiche Evi-

denzen zu setzen, Evidenzen zu entfernen und a-posteriori-Wahrscheinlichkeiten zu berech-

nen.

Im Rahmen der Umsetzung wurde der Track-Agent aus dem ursprünglichen RailCab-MAS so

erweitert, dass er in der Lage ist, Anfragen bzgl. einer Prognose durch die Fahrzeugagenten

anzunehmen und mittels der im Package pns implementierten Klassen zu beantworten.

Um eine kompakte Darstellung zu erreichen, wird im Diagramm der kompaktere Begriff Belief Net anstelle

von Bayes-Netzwerk gewählt.

http://www.cs.cmu.edu/∼javabayes/Home/index.html, 2001.

Die DTD sowie Beispiele für XML Dateien finden sich im Anhang.

Anwendungsbeispiele 145

Abbildung 7-5: Klassendiagramm des Packages PNS

7.2.3 Erweiterung des Fahrzeugagenten

Um die verbesserte Routenplanung zu realisieren, musste auch der Fahrzeugagent des urs-

prünglichen Systems erweitert werden. Als der eigentlich planende Agent und Repräsentant

eines autonomen mechatronischen Systems war der Fahrzeugagent mit einem Planungsalgo-

rithmus auszustatten, der die Informationen der Expertenagenten nutzt. Dazu wurde eine spe-

zielle Version von Dijkstras Kürzeste-Wege-Algorithmus [CLRS01] entwickelt.

Eine weitere Möglichkeit, die sich dem Fahrzeugagenten durch die Behandlung der Fahrzei-

ten als Zufallsvariablen bietet, ist die Umsetzung eines differenzierten Verhaltens bzgl. Ver-

spätungen. Es kann berücksichtigt werden, ob eine Route mit zuverlässiger Ankunftszeit und

möglicherweise längerer Fahrzeit bevorzugt wird oder eine Route, die die Chance einer mög-

lichst schnellen Ankunft bei geringerer Zuverlässigkeit bietet. Um diese Möglichkeit zu reali-

sieren, wird der Erwartungswert der Fahrzeit mit einer Gewichtung für die Möglichkeit einer

Verspätung belegt. Dieses Gewicht ergibt sich aus der Wahrscheinlichkeit, dass sich eine

Verspätung maximal in Höhe eines Anteils der erwarteten Fahrzeit ergibt:

+getType()

-type

Interval

+getName()

+getNumberOfNodes()

+removeAllEvidence()

-name

-nodes

BeliefNet

+getEvidence()

+setSoftEvidence()

-name

-children

-parents

-cardinality

-evidence

BeliefNode

+getNumberOfIntervals()

+getCPF()

+setCPF()

+getTransformedIntervals()

-cpf

-intervals

TimeBeliefNode

-initializeTimeNode()

+queryPrediction()

-calculateDiscreteBelief()

-calculateBeliefDistribution()

+setHardEvidence()

+setSoftEvidence()

-currentMomentInTime

BeliefExpert

+getNumberOfIntervals()

+getCPF()

+setCPF()

+setHardEvidence()

-cpf

-intervals

-mean_values

-stddev_values

ContinuousBeliefNode

+getProbabilityA()

+getProbabilityB()

+getProbabilityAB()

-name

Distribution

+getType()

+getNode()

-type

-node

EvidenceMessage

+getNumberOfOutcomes()

+getCPF()

+setCPF()

+setHardEvidence()

-outcomes

-cpf

DiscreteBeliefNode

+getEvidence()

+getTypeOfNode()

-evidence

-typeOfNode

HardEvidenceMessage

+getEvidence()

-evidence

SoftEvidenceMessage

+getMuDuration()

+getSigmaDuration()

+getMuDurationOmega()

-from

-omega

-muDuration

-sigmaDuration

-muDurationOmega

BeliefRequest

+getMu()

+getSigma()

-mu

-sigma

Gaussian

+getBegin()

+getEnd()

+beginIsInfinity()

+endIsInfinity()

-begin

-end

DoubleInterval

+getMoment()

+getSigma()

-moment

-sigma

MomentInTime

+getBeginInMilliseconds()

+getEndInMilliseconds()

-beginHour

-beginMinute

-endHour

-endMinute

TimeInterval

verarbeitet

146 Anwendungsbeispiele

[

u¸Ü9J

]1.5;"[

u¸Ü9J

/HlE' /1n²[

u¸Ü9J

Der gewichtete Erwartungswert [

u¸Ü9J

wird vom Dijkstra-Algorithmus als Kostenwert

angesetzt. Der Parameter 0/²ð definiert den Anteil der erwarteten Fahrzeit, in dessen Hö-

he mögliche Verspätungen nicht beachtet werden. Liegen annähernd alle Verspätungen inner-

halb des Intervalls, gilt E`

ñ[

u¸Ü9J

. Liegen dagegen viele Verspätungen außerhalb dieses

Intervalls, gilt E`

u¸Ü9J

. Die Möglichkeit der Verspätung wird also bestraft. Listing

7-2 zeigt den Pseudo-Code des (BeliefDijkstra genannten) erweiterten Kürzeste-Wege-

Algorithmus.

BeliefDijkstra

s // Startstation

z // Zielstation

adj[] // Feld mit den Adjazenzlisten aller Knoten

length[][] //zwei dimensionales Feld mit den Entfernungen

may

// technische Höchstgeschwindigkeit

//Initialisierung wie im Standard-Dijkstra

For i := 1 to n

S[i] = true

Fahrzeit[i] := ∞

wFahrzeit[i] := ∞

pred[i] = null

tue

//Der Startort ist von sich selbst 0 LE entfernt

Fahrzeit[s]:= 0.0

wFahrzeit[s]:=0.0

//Erwartungswert und Standardabweichung der Abfahrtzeit

[s]:= Abfahrtszeit

[s]:= 0.0.

Solange S nicht leer ist

Wähle u mit minimalen wFahrzeit[u] und S[u] = true

S[u]:= false;

Wenn u = Z Dann STOP

Über alle v ∈adj[u] with S[v]= true

Wenn (wFahrzeit[v] > wFahrzeit[u]+length[u,v]/velocity) Dann

Frage Fahrzeitverteilung für (u,v) für Ankunft (µ

[u],σ

[u])

Warte auf Prognose von µ

Fahzeit

und σ

Fahrzeit

,rd

und Ρ

Wenn (wFahrzeit[v] > wFahrzeit + rd

) Dann

Fahrzeit[v] := wFahrzeit[u] + rd

Vorgänger[v] := u

con(v) := (0.5 + Ρ

)

µA[v]:= add(µA[v],µ

fahrzeit

)

[s]:=òσ

]s^

nσ

Ø¬õöß÷ÔÕ

]s^

Ende

Listing 7-2: Pseudo-Code des BeliefDijkstra

7.2.4 Experimente und Ergebnisse

Um die Funktionsweise des in den vorherigen Kapiteln vorgestellten Verfahrens zu überprü-

fen und zu validieren, ist die Beantwortung der folgenden Fragen relevant:

• Wie gut sind die Fahrzeitprognosen?

• Wie wirken sich ungenaue a-priori-Verteilungen in den Bayes-Netzwerken der Exper-

ten-Agenten auf die Prognose aus?

• Falls sich die durch den BeliefDijkstra gewählte Route von der des Standard-Dijkstras

unterscheidet, ergibt sich im Durchschnitt eine Fahrzeitersparnis?

Anwendungsbeispiele 147

Um die Experimente durchzuführen, wurden drei unterschiedliche Transportnetzwerke mit

100, 150 und 300 Stationen verwendet. Die Track-Agenten wurden mit Bayes-Netzwerken

mit zwei unterschiedlichen Topologien ausgestattet (Typ A und Typ B), aus denen durch An-

passung der a-priori-Verteilungen der Umfeldeinflüsse insgesamt 12 Instanzen gebildet wur-

den.

Jedem Track-Agenten wurde zufällig eines der 12 Netzwerke zugewiesen.

Die einzelnen Testabläufe wurden nach folgendem Muster durchgeführt:

1. Routen planen

a. Planen der fahrtzeitoptimalen Route (s, . . . , z)

mittels des normalen Dijkstra-

Algorithmus. (Die Basis für die Fahrtzeitbewertung bildet die aus der Länge

der Tracks und der Durchschnittsgeschwindigkeit des Shuttles ermittelte

Fahrtdauer.)

b. Planen der fahrtzeitoptimalen Route (s, . . . , z)

mittels des BeliefDijkstra-

Algorithmus. (Die Basis für die Fahrtzeitbewertung bilden die Prognosen der

Track-Agenten.)

2. Für jedes Testschema n-Mal: Simulation der tatsächlichen Fahrtdauer der Routen

a. Für jeden Abschnitt t aus (s, . . . , z)

und (s, . . . , z)

: Simulation der tatsäch-

lichen Fahrtdauer.

i. Setzen der erwarteten Ankunftszeit, der Evidenz für den Knoten Monat,

sowie weicher Evidenzen für die Knoten Feuchtigkeit und Temperatur.

ii. Für alle diskreten Knoten, für die keine Evidenz vorliegt: A-priori-

Wahrscheinlichkeiten entsprechend dem aktuellen Testschema um ei-

nen festen Wert modifizieren.

iii. Verteilungen der Elternknoten der Fahrzeit entsprechend dem aktuellen

Testschema, um einen festen Anteil modifizieren.

iv. Für alle Knoten oberhalb der Fahrzeit:

1. A-posteriori-Wahrscheinlichkeiten berechnen

2. Monte-Carlo-Ziehung einer evidenten Ausprägung aus der a-

posteriori-Verteilung. (Das Ergebnis sind simulierte harte Evi-

denzen für alle Knoten oberhalb von Fahrzeit).

3. Ziehen der simulierten Fahrtdauer Fahrzeit

simt

aus der, durch die

simulierten harten Evidenzen gegebenen, simulierten Verteilung

für Ride Duration.

v. Bestimmen der simulierten Fahrzeit

simD

und Fahrzeit

simBD

für (s, . . .

,z)

und (s, . . . , z)

als Summe der entsprechenden Fahrzeit

simt

Das erste Testergebnis zeigt den Vergleich beider Verfahren bzgl. der Abweichung der im

Planungsprozess vorhergesagten Fahrzeit von der simulierten Fahrzeit. Dabei wurden im

Rahmen der Simulation die gleichen Verteilungen wie in der Prognose verwendet. Abbildung

7-6 zeigt die Ergebnisse für 23 Transportaufträge. Dargestellt ist die mittlere Abweichung von

der durchschnittlichen simulierten Fahrzeit. Die Prognose des Beliefs-Dijkstras war in jedem

Fall genauer als die des Standard-Dijkstras. In den allermeisten Fällen war das Verhältnis der

Prognose sehr deutlich. Beim BeliefDijkstra lag die Abweichung zwischen 0,36% und 6,04%.

Die durchschnittliche Abweichung betrug 2,68%. Dagegen lag die Abweichung für den Stan-

dard-Dijkstra zwischen 0,45% und 30,97%. Im Mittel lag die Abweichung bei 14,81%, also

mehr als doppelt so hoch als die größten Abweichungen des BeliefDijkstras.

Details zum Versuchsaufbau im Anhang

148 Anwendungsbeispiele

Abbildung 7-6: Ergebnisse bei exakten Prognoseverteilungen

Variiert man die in der Simulation eingesetzten Verteilungen (im Vergleich zu denen in der

Prognose), so verändert sich das Bild natürlich etwas. Verschob man beispielsweise die µ-

Werte in den bedingten Normalverteilungen der Fahrzeit, verschlechterte sich der Belief-

Dijkstra erheblich. Ab einer Abweichung der µ-Werte von -8% ergaben sich in den Experi-

menten erstmals Ergebnisse, in denen der BeliefDijkstra schlechter abschnitt als der Standard-

Dijkstra (Abbildung 7-7).

Abbildung 7-7: Ergebnisse bei einer Variation µ von -8%

Robuster zeigt sich der BeliefDijkstra dagegen bei Abweichungen der µ-Werte nach oben. Bei

einer Erhöhung der µ-Werte um 5% (Abbildung 7-8) ergab sich eine mittlere Abweichung der

Prognosen von 7,31% gegenüber 19,04% für den Standard-Dijkstra. Bei einer Erhöhung um

Anwendungsbeispiele 149

15% (Abbildung 7-9) betrug die mittlere Abweichung des BeliefDijkstras 15,45%, die des

Dijkstras 26,34%.

Abbildung 7-8: Ergebnisse bei einer Variation µ von +5%

Abbildung 7-9: Ergebnisse bei einer Variation µ von +15%

Abbildung 7-10 und Abbildung 7-11 zeigen die Auswirkungen, wenn alle Verteilungsparame-

ter manipuliert werden. Dabei wurde in diskreten Verteilungen jeweils der unwahrscheinlich-

ste Wert manipuliert, also seine Eintrittswahrscheinlichkeit erhöht oder weiter vermindert

(wodurch auch alle anderen Werte angepasst werden müssen, um sicherzustellen, dass die

Gesamtwahrscheinlichkeit eins beträgt). Es ergab sich bei einer Anpassung aller Verteilungs-

werte um 5% (Abbildung 7-10) für den BeliefDijkstra eine mittlere Abweichung von 15,61%,

für den Dijkstra eine mittlere Abweichung von 25,05%. Bei einer Modifikation aller Vertei-

150 Anwendungsbeispiele

lungsparameter um -10 %

(

Abbildung 7-11), war für den BeliefDijkstra eine durchschnittliche

Abweichung von 8,18%, für den Dijkstra eine durchschnittliche Abweichung von 18,30% zu

beobachten.

Abbildung 7-10: Ergebnisse bei einer Variation +5% aller Parameter

Abbildung 7-11 Ergebnisse bei einer Variation von -10% aller Parameter

Anwendungsbeispiele 151

Die besseren Prognosen schlugen sich auch in kürzeren Fahrzeiten nieder, vorausgesetzt die

beiden Algorithmen fanden aufgrund der Streckentopologie unterschiedliche Routen. Abbil-

dung 7-12 zeigt die Fahrzeitersparnis, die sich einstellte, als die Verteilungen der Prognose

und der Simulation übereinstimmen. Die mittlere Einsparung betrug 13,5%.

Abbildung 7-12: Fahrzeitersparnis durch den BeliefDijkstra

Auch bei abweichenden Verteilungen konnte in den meisten Fällen noch eine Ersparnis erzielt

werden. Abbildung 7-13 zeigt die Fahrzeitersparnis, die sich einstellte, als alle Verteilungspa-

rameter um 10% vermindert wurden. Die durchschnittliche Einsparung betrug in diesem Fall

noch 11,87%. Bei zufällig um 15% veränderten Verteilungen konnte immerhin noch eine

mittlere Einsparung von 8,03% erzielt werden (vgl. Abbildung 7-13). Auffällig ist, dass für

die Testroute der Länge 455 keine Ersparnis mehr erzielt werden konnte. Gleiches konnte

auch bei anderen Testszenarien mit veränderten Verteilungen beobachtet werden. Der Grund

dafür muss darin gesucht werden, dass der Längenunterschied zwischen dem vom Belief-

Dijkstra und dem vom Dijkstra geplanten Pfad 90 LE beträgt. Dies ist die höchste Differenz

unter allen Testrouten. Da der Pfad des BeliefDijkstra 90 LE länger ist, war die Ersparnis trotz

der schlechten Verkehrsverhältnisse auf dem Pfad des Dijkstra mit 1,98% relativ klein. Ist das

Zutrauen in die Wahrscheinlichkeitsverteilung gering, sollte also bei großen Abweichungen

bzgl. der Fahrstrecke eher auf die Lösung des Standard-Algorithmus zurückgegriffen werden.

Abbildung 7-13: Fahrzeitersparnis bei Variation aller Verteilungsparameter um +10%

Um zu prüfen, ob auch die Berücksichtigung des Verspätungsrisikos in gewünschter Weise

funktioniert, wurde ein ergänzender Test durchgeführt. In diesem Test wurden wiederum zwei

Vergleichsplanungen durchgeführt, einmal mit einem Parameter von ω=0,02 und ein zweites

152 Anwendungsbeispiele

Mal mit ω=2. Bei ω=2 wird die risikodämmende Wirkung des gewichteten Mittelwerts der

Fahrzeit fast völlig ausgehebelt, diese Einstellung entspricht also einer risikoneutralen Pla-

nung. Während der Simulationen wurde für jeden geplanten Pfad auch die mittlere Verspä-

tung berechnet. Im Transportnetzwerk mit 100 Stationen führten die Planungsläufe bei 31

Kombinationen von Start und Ziel zu unterschiedlichen Routen. Für diese 31 Fälle wurde die

mittlere Verspätung verglichen. Bei allen Pfaden, die mit der Einstellung ω=0,02 geplant

wurden, ergab sich eine Verspätung um 8,39%, für die mit ω=2 erstellten Pläne eine Verspä-

tung von 9,31%. Auf den ersten Blick erscheint dies als ein schwaches Ergebnis, jedoch be-

deutet es eine Reduzierung der Verspätung um fast 10%. Außerdem setzte bereits der Ver-

gleichsalgorithmus die fortgeschrittene Prognosetechnik ein, sodass Verspätungen ohnehin

schon unwahrscheinlicher sind.

Anwendungsbeispiele 153

7.3 Planung von Systeminteraktionen

Dieses Kapitel beschreibt ausgewählte Anwendungsbeispiele aus dem Gebiet der Planung von

Systeminteraktionen, wie sie in Kapitel 5 beschrieben ist. Dabei teilen sich die Anwendungs-

beispiele wiederum in die beiden Gebiete „Planung bei gemeinsamer Hauptaufgabe“ und

„Planung bei individueller Hauptaufgabe“ auf.

7.3.1 Planung bei gemeinsamer Hauptaufgabe

7.3.1.1 Koordination von Funktionsmodulen in einem Schienenfahrzeug

Als Anwendungsbeispiel für die Planung bei gemeinsamer Hauptaufgabe dient die Abstim-

mung der beiden Module Antrieb (Index P für Propulsion) und Luftspaltverstellung (AGAS,

Index A) aus dem RailCab (vergleiche auch Kapitel 1). Der erste Schritt in der Beschreibung

des Anwendungsbeispiels ist die Darstellung des konkreten Problems in der in Unterkapitel

5.2 beschriebenen Modellierung.

Der Antrieb betrachtet unterschiedliche Geschwindigkeitsstufen (Höchstgeschwindigkeit M

(180 km/h) und

¤¥¦§

(also 90 km/h)), zwischen denen er auf einzelnen Streckenabschnitten

mit gleichmäßiger Beschleunigung wechseln kann. Nimmt man noch das Anfahren aus dem

Stand hinzu, ergeben sich somit insgesamt 6 Teilfunktionslösungen. Das AGAS betrachtet im

Beispiel zwei unterschiedliche Teilfunktionslösungen: die einmalige Einstellung des Luft-

spalts für einen Streckenabschnitt und die wiederholte Einstellung während der Überfahrt.

Im Beispiel verfolgen die beiden Systeme zwei Ziele, die sich jeweils genau einem der beiden

Module zuordnen lassen: die Maximierung der durchschnittlichen Geschwindigkeit (Antrieb)

und die Minimierung des Luftspalts (AGAS).

Eine Querwirkung geht im Beispiel ausschließlich vom Antrieb aus: Da der Antrieb durch

hohe Geschwindigkeiten die Einstellungsmöglichkeiten des AGAS behindert, erreicht dieser

das Ziel der Laufspaltminimierung bei Fahrprofilen mit hohen Geschwindigkeiten schlechter.

Dies gilt insbesondere auf Strecken mit ungenauer Statorlage, da hier die größeren Höhendif-

ferenzen zwischen den unterschiedlichen Statoren wesentlich schlechter abgefahren werden

können.

7.3.1.2 Modellierung des Interaktionsplanungsproblems

Die Definition des Interaktionsplanungsproblems bei gemeinsamer Hauptaufgabe beginnt mit

der Angabe der Zielmenge Ω. Im Beispiel umfasst Ω zwei Elemente:

• Ω = {∅Geschwindigkeit (G), ∅Luftspalt (L)}

Als Umweltbedingungen wird lediglich die Verlegungsgenauigkeit der Statoren betrachtet:

• U = {Exakt (E), Ungenau (U)}

Im nächsten Schritt gilt es, die Anwendungshäufigkeiten der Teilfunktionslösungen zu be-

stimmen. Da im Beispiel eine Querwirkung vom Antrieb ausgeht, muss nur dieser die An-

wendungshäufigkeit der Teilfunktionslösungen des AGAS berücksichtigen. Da die Teilfunk-

tionslösung einmalige Verstellung (abgekürzt eV) die Ziele des AGAS in allen Situationen

schlechter erreicht als kontinuierliche Verstellung (abgekürzt kV), versucht das AGAS unab-

154 Anwendungsbeispiele

hängig vom Zielsystem immer die kontinuierliche Verstellung auszuführen. Lediglich wenn

Umwelteinflüsse wie Witterung (z. B. veränderte Statorlage durch Eis auf den Statoren) die

sichere Anwendung der kontinuierlichen Verstellung verhindern, wird die einmalige Verstel-

lung verwendet. Dabei fallen die Umwelteinflüsse bei ungenauer Statorenlage etwas stärker

ins Gewicht, da die Differenzen zwischen den Positionen der einzelnen Statoren größer sind.

Somit ergibt sich z. B. eine Häufigkeitsverteilung von:

• ϴkV|E  0,9 und ϴeV|E  0,1

• ϴkV|U  0,8 und ϴeV|U  0,2

Die Evaluationsfunktionen für die Ziele durchschnittliche Geschwindigkeit und durchschnitt-

licher Luftspalt werden genau wie im Beispiel aus Abschnitt 5.2.2 definiert:

• ¿

¤|

¤¥¦§

, 

À?O|

?O¥¦§

Der nächste zu bestimmende Modellbestandteil ist der durchschnittliche Zielereichungsgrad

(E), den ein bestimmter Modus unter gegebenen Umweltbedingungen erreicht: Á

³

(tfl). Tabel-

le 7-1 zeigt die entsprechenden Werte für den Antrieb und sein ausschließliches Ziel durch-

schnittliche Geschwindigkeit t (G). Da die Statorenlage keine Auswirkungen auf die Durch-

schnittsgeschwindigkeit besitzt, die ein bestimmtes Fahrprofil erreicht, sind die Werte für

beide Umweltbedingungen identisch. Die Werte errechnen sich direkt aus der sich aus einem

Fahrprofil ergebenden Durchschnittsgeschwindigkeit und der maximalen Geschwindigkeit

von 180 km/h.

Teilfunktionslösung







(tfl) und







(tfl)

0,25

0,5

0,75

Tabelle 7-1: Funktionswerte von 



(tfl) und 





(tfl)

Anders liegt der Fall natürlich beim AGAS. Hier haben die Umwelteinflüsse Auswirkungen

auf den einstellbaren Luftspalt.

Teilfunktionslösung







(tfl)







(tfl)

0,9375

0,4875

0,7

0,2

Tabelle 7-2: Funktionswerte von 



(tfl) und 





(tfl)

Um die Wechselwirkungen darstellen zu können, ist es schließlich erforderlich, Η

ÅÆ

tÇl|tÇl



(Tabelle 7-3) zu bestimmen. Wie zu erkennen ist, führen hohe Durchschnittsgeschwindigkei-

ten tendenziell zu einem schlechteren Luftspalt. Dieser Effekt ist bei ungenau verlegten Stre-

ckenabschnitten stärker als bei exakt verlegten Streckenabschnitten.

Damit sind fast alle notwendigen Variablen definiert, damit das Antriebsmodul im Rahmen

seiner Planung bei Vorliegen konkreter Zielgewichtungen die Querwirkungen auf das AGAS

Anwendungsbeispiele 155

berücksichtigen kann. Lediglich die Rangfunktion Ρ fehlt. Da die beiden Ziele aber jeweils

exklusiv durch ein Modul verfolgt werden, ergibt sich diese einfach durch:

• Ρ

(P) = 1 und Ρ

(A) = 0

• Ρ

(P) = 0 und Ρ

(A) = 1

Tabelle 7-3: Funktionswerte von 



|



Teilfunktionslösung

Bedingende Teil-

funktionslösung







(tfl|tfl‘)







(tfl|tfl‘)

0,3125

0,7

0,0625

0,7

0,0625

0,7

0,1875

0,7

0,1875

0,7

0,4375

0,7

0,0625

0,2

0,0625

0,2

0,0625

0,2

0,0625

0,2

0,0625

0,2

0,4375

0,2

7.3.1.3 Ein Algorithmus für die initiale Planung des Antriebs

Aufgabe der Planung für den Antrieb ist nun, eine Sequenz von Fahrprofilen für die unter-

schiedlichen Streckenabschnitte auszuwählen, sodass die gewichtete Summe aus durchschnitt-

lichem Luftspalt und Geschwindigkeit möglichst optimiert wird.

Ein sehr einfacher Ansatz wäre die Verwendung einer Breitensuche, die den Planbaum Ebene

für Ebene nach der besten Abfolge durchsucht. Die Breitensuche durchläuft dabei alle Knoten

und Kanten im Baum, hat also eine Laufzeit von O(|V|+|E|) (mit V Menge der Knoten und E

Menge der Kanten). Im Beispiel handelt es sich beim Planbaum um einen Ternär-Baum

. Ein

Ternär-Baum der Höhe h enthält 3

- 1 Knoten. Da sich die Höhe des Planbaums im Beispiel

aber direkt aus der Anzahl der abzufahrenden Streckenabschnitte ergibt, ergäbe sich für die

Breitensuche als Planungsalgorithmus eine Komplexität von (2

|Streckenabschnitt|

), also eine expo-

nentielle Laufzeit. Benötigt die Untersuchung eines Knoten 1 Millisekunde, ergibt sich bei

einer Problemgröße von 10 Streckenabschnitten eine Laufzeit von etwa 1 Sekunde und bei 50

Streckenabschnitten bereits eine Laufzeit von etwa 300 Stunden. Offensichtlich ist dieses

Vorgehen daher nicht sinnvoll.

Durch die Aufteilung des Planungsproblems auf einzelne Module besteht aber die Möglich-

keit, sich die jeweilige Problemstruktur zunutze zu machen, um zu einem schnelleren Lö-

sungsverfahren zu kommen. Im beschriebenen Planungsproblem hängt die Ausführbarkeit

eines Modus immer nur von seinem direkten Vorgänger ab. Ein Teilbaum in Ebene n mit der

Wurzel tfl enthält nachfolgend genau die gleichen Teilbäume wie alle anderen Teilbäume, die

ebenfalls die Wurzel tfl besitzen.

Jeder Modus des Antriebs und damit jeder Knoten im Planbaum besitzt maximal drei gültige Nachfolger: die

nächste höhere und tiefere Geschwindigskeitsstufe und die eigene Geschwindigkeitsstufe.

156 Anwendungsbeispiele

Planer

Knoten start //der Startknoten des Planungsproblems

Liste aktuelle_Ebene //Knotenliste der aktuell untersuchten Ebene

Liste nächste_Ebene //Knotenliste der nächsten Ebene

aktuelleEbene.fügeHinzu(start)//die erste Ebene enthält nur den Start

Solange die aktuelle_Ebene noch Knoten enthält

Knoten k := erster Knoten aus der aktuellen Ebene

entferne den ersten Knoten aus der aktuellen Ebene

Wenn die Zielebene noch nicht erreicht ist

//expandiere die Nachfolger von k

Liste Nachfolger := mögliche Nachfolger von k

Über alle Knoten n in Nachfolger

//der Zielwert entspricht den Summierten

//globalen Nutzen über

//alle Knoten in einem Pfad

Zielwert von n := Zielwert von k + Η

ÅÆ

tÇlnΧ

Å

tÇl

//Suche Element e aus nächste_Ebene mit der gleichen TFL wie n

Wenn es ein solches Element nicht gibt

Dann Füge den Knoten zu nächste_Ebene hinzu

Sonst Wenn der Zielwert von n > Zielwert von e

Dann entferne e aus nächste_Ebene und

füge n ein

Sonst -

Sonst

tue

Wenn aktuelle Ebene keinen Knoten mehr enthält

Dann Aktuelle_Ebene := nächste_Ebene

Nächste_Ebene leeren

Sonst -

Tue

//Am Ende der Schleife enthält aktuelle_Ebene mehrere Knoten aus der

//letzten Ebene des Planbaums, wenn es eine gültige Lösung gibt

besterKnoten = erstes Element aus aktuelle_Ebene

//Diese Schleife ermittelt den Endknoten der besten Lösung

Wenn aktuelle_Ebene nicht leer ist

Dann

Über alle Elemente k aus der aktuellen Ebene

Wenn die Zielfunktion k > Zielfunktion besterKnoten

Dann besterKnoten := k

Sonst -

Tue

Sonst -

return besterKnoten

Ende

Listing 7-3: Planungsalgorithmus für den Antrieb in Pseudo-Code

Da nun von jedem Knoten der Ebene mit der Teilfunktionslösung tfl die gleichen Pfade zu

erreichen sind, muss nur der jeweils beste Knoten k

best

für jede Teilfunktionslösung weiter

untersucht werden. Die Wege über alle anderen entsprechenden Knoten können im weiteren

Verlauf nicht mehr zur Lösung beitragen als die Wege über k

best

. Dadurch wird auf jeder Ebe-

ne nur noch maximal ein Knoten für jede Teilfunktionslösung weiter untersucht. Daher bleibt

die Anzahl der Knoten in jeder Ebene konstant und der Plan kann in linearer Zeit

|,')*(£ '5(G)öG*(B(| · |+ E£(CGl('  gefunden werden. Damit ergebe sich

im konkreten Beispiel bei 50 Streckenabschnitten eine Lösungszeit von 200 Millisekunden.

Anwendungsbeispiele 157

Listing 7-3 zeigt einen entsprechenden Algorithmus in Pseudo-Code. Er durchsucht den Pla-

nungsbaum Ebene für Ebene und behält jeweils nur die aktuell beste Lösung zu jeder Teil-

funktionslösung in der betrachteten Ebene. Dabei ergibt sich die Lösungsqualität eines Kno-

ten durch die kumulierten Η

ÅÆ

tÇl|tÇl

 Werte aller seiner Vorgänger. Dieser Wert wird den

Knoten jeweils im Schritt der Expansion von ihrem Elternknoten mitgegeben. Am Ende des

Pseudo-Codes ist der letzte Knoten der besten Lösung bestimmt. Indem jeder Knoten einen

Verweis auf seinen Elternknoten beinhaltet, kann die Lösung des Planungsproblems nun

problemlos rückwärts aufgebaut werden.

7.3.1.4 Koordination nach der Planung

Aufgrund von zusätzlichen Umwelteinflüssen, die dem Antrieb während der initialen Planung

nicht bekannt sind, wählt das AGAS gelegentlich nicht die vermutete Teilfunktionslösung.

Wechselt das AGAS von der kontinuierlichen Verstellung zur einmaligen Verstellung, kann

der Antrieb seinen Plan anpassen, um die aktuellen Ziele optimal zu erreichen.

Plananpassung

Knoten start := Ende der eingefrorene Zone

Knoten ziel := Ende des Planungshorizonts

Tabelle aktuelleKostenWerte //diese Tabelle enthält zu jedem Modus

// die aktuellen Zielwerte auf jedem

// Strecken abschnitt abhängig vom Plan

// des AGAS

Liste aktuelle_Ebene //Knotenliste der aktuell untersuchten Ebene

Liste nächste_Ebene //Knotenliste der nächsten Ebene

aktuelleEbene.fügeHinzu(start)//die erste Ebene enthält nur den Start

solange die aktuelle_Ebene noch Knoten enthält

... // Entspricht Listing 7.2

//bei der Anpassung wird die Wechselwirkungen auf den

//tatsächlichen Modus des AGAS zur Berechnung des Zielwertes

//verwendet

Zielwert von n := Zielwert von k + Η

ÅÆ

<tÇltÇl

¬¬



>nΧ

Å

tÇl

... // Entspricht Listing 18

Tue

//Am Ende der Schleife enthält aktuelle_Ebene mehrere Knoten aus der

//letzten Ebene des Planbaums, wenn es eine gültige Lösung gibt

//Aus diesem muss nur derjenige Knoten ausgewählt werden, der den

//gleiche Teilfunktionslösung wie der Knoten ziel besitzt

//Dadurch ist die Konsistenz zum restlichen Plan gewährleistet

aktuellerKnoten := erstes Element aus aktuelle_Ebene

//Diese Schleife ermittelt den Endknoten der besten Lösung

Solange aktuelle_Ebene nicht leer ist

Wenn Modus aktuellerKnoten := Modus ziel

return aktueller Knoten

Tue

Ende

Listing 7-4: Anpassungsalgorithmus in Pseudo-Code

Wie in Abschnitt 5.2.4 kann die Planung mit einem rollierenden Planungshorizont und einer

eingefrorenen Zone durchgeführt werden, um die Berechnungszeit zu beschränken. Obwohl

die Lösungszeiten des im vorigen Abschnitt beschriebenen Algorithmus sehr gut sind, wurde

eine rollierende Planung implementiert, um die Auswirkung der eingefrorenen Zone analysie-

ren zu können.

Listing 7-4 zeigt den Algorithmus für die Plananpassung in Pseudo-Code. Ihm werden das

Ende der eingefrorenen Zone und das Ende des Planungshorizonts als Nachfolger übergeben.

158 Anwendungsbeispiele

Zwischen diesen beiden Punkten konstruiert der Algorithmus auf ähnliche Weise wie die ini-

tiale Planung einen neuen Teilplan. Dabei verwendet die Plananpassung im Unterschied zur

initialen Planung zur Berechnung des Zielwerts die vom AGAS im jeweiligen Planungsschritt

gewählte Aktivität. Dadurch operiert die Anpassungsplanung auf genaueren Informationen.

Da sowohl der Startknoten als auch der Zielknoten nicht verändert werden (zumindest hin-

sichtlich der gewählten Teilfunktionslösung), kann der restliche Plan ohne Beeinflussung

durch die Plananpassung weiter ausgeführt werden.

7.3.1.5 Experimentelle Ergebnisse für die Planung des Antriebs

Zur Evaluierung der oben beschriebenen Planungsmechanismen wurde eine Variante des Pla-

nungsalgorithmus implementiert, die eine optimale Abstimmung mit dem AGAS für eine ma-

ximale Gesamtfahrzeit liefert.

Im Rahmen der im Folgenden beschriebenen Experimente wurde eine Gesamtstreckenlänge

von 300 km, unterteilt in Streckenabschnitte von 1 km, verwendet. Dabei wurden unterschied-

liche Testszenarien hinsichtlich der Häufigkeit von Streckenabschnitten mit ungenau verleg-

ten Statoren betrachtet. Es wurden Szenarien mit einem Anteil von 30% bis 70% (in Schritten

von 10%-Punkten) ungenauer Streckenabschnitte erzeugt. Für jedes Szenario wurden 100

Gesamtstrecken mittels Zufallsgenerator erzeugt. Für die 300 km ergibt sich eine Mindest-

fahrzeit von etwa 6000 Sekunden (100 Minuten). Die Planung wurde jeweils für maximale

Fahrzeiten zwischen 6500 und 9000 Sekunden durchgeführt. Dabei war zu erwarten, dass das

Planungsverfahren den jeweils größeren Spielraum ausnutzt und eine bessere Abstimmung

mit dem AGAS erreicht, wodurch sich ein kleinerer durchschnittlicher Luftspalt ergibt.

Da kein Simulationsmodell zur Bestimmung des einstellbaren Luftspalts zur Verfügung stand,

wurden in der Evaluation die in Tabelle 7-4 dargestellten Schätzungen verwendet.

Modus AGAS Streckentyp Modus Antrieb Luftspalt

Kontinuierlich Ungenau A 10.0 mm

B 12.5 mm

C 12.5 mm

D 15.0 mm

E 15.0 mm

F 17.1 mm

Exakt A 8.0 mm

B 8.0 mm

C 8.0 mm

D 9.25 mm

E 9.25 mm

F 10.5 mm

Einmalig Ungenau Alle 17.1 mm

Exakt Alle 11.0 mm

Tabelle 7-4: Situationsabhängiger mittlerer Luftspalt auf einem Streckenabschnitt

Abbildung 7-14 zeigt die Ergebnisse für die Versuchseinstellung mit 70% ungenauen Stre-

ckenabschnitten. Es ist klar erkennbar, dass das Planungsverfahren die Informationen über die

Wechselwirkungen mit dem AGAS bei den längeren Fahrzeiten ausnutzte. Bei der längsten

zur Verfügung stehenden Fahrzeit wurde der durchschnittliche Luftspalt über die 100 Testläu-

fe um 13,36% reduziert. Die durchschnittliche Planungsdauer lag bei ca. 2,6 Sekunden.

Gemessen auf einem AMD Athlon 64 Processeor 3000+ mit 1,8 GHz und 1,00 GB RAM mit Windows XP

SP2.

Anwendungsbeispiele

Abbildung 7-

Die Tendenz

ist in allen Testszenarien die gleiche. In jedem Fall wird der Spielraum der lä

geren Fahrzeiten ausgenutzt, um die Koordination mit dem AGAS zu verbessern.

7-15

zeigt die Ergebnisse in den einzelnen Szenarien. Es ist deutlich erkennbar, dass der

durchschnittliche Luftspalt in jedem Fall mit steigender

Die durchschnittliche Reduzierung des Luftspalts bei einer Fahrzeit von 9

genüber der Fahrzeit von 6500 Sekunden liegt in jedem Szenario zwischen 13% und 14%.

Abbildung

Auch die rollierende Planung wurde untersucht. Hie

aufgrund aktueller Informationen seine Entscheidung ändert und auf einzelnen Streckena

schnitten von der Einstellung

kontinuierlich

lung das Fahrprofil des Antriebs keinen Ei

besitzt, bieten sich solche

Streckenabschnitte an, um schnell befahren zu werden. Im Ergebnis

kann der Antrieb daher seinen Plan anpassen und auf

eine Verbesserung der Ab

stimmung mit dem AGAS bewirken und dennoch die maximale

Fahrzeit einhalten. Dabei wurde die rollierende Planungsvariante mit unterschiedlichen Pl

11,5

6500

7000

7500

8000

8500

9000

maximal Fahrzeit

0 2 4

30%

40%

50%

60%

70%

Anteil ungenauer Streckenabschnitte

: Ergebnisse bei 70% ungenauen

Streckenabschnitte

ist in allen Testszenarien die gleiche. In jedem Fall wird der Spielraum der lä

geren Fahrzeiten ausgenutzt, um die Koordination mit dem AGAS zu verbessern.

zeigt die Ergebnisse in den einzelnen Szenarien. Es ist deutlich erkennbar, dass der

durchschnittliche Luftspalt in jedem Fall mit steigender

maximaler Fahrzeit reduziert wu

Die durchschnittliche Reduzierung des Luftspalts bei einer Fahrzeit von 9

genüber der Fahrzeit von 6500 Sekunden liegt in jedem Szenario zwischen 13% und 14%.

Abbildung

7-15: Ergebnisse in allen Testszenarien

Auch die rollierende Planung wurde untersucht. Hie

r wurde angenommen, dass das AGAS

aufgrund aktueller Informationen seine Entscheidung ändert und auf einzelnen Streckena

kontinuierlich

auf einmalig

wechselt. Da bei einmaliger Verste

lung das Fahrprofil des Antriebs keinen Ei

nfluss auf die Größe des einstellbaren Luftspalts

Streckenabschnitte an, um schnell befahren zu werden. Im Ergebnis

kann der Antrieb daher seinen Plan anpassen und auf

den

Abschnitten langsam fahren, die

stimmung mit dem AGAS bewirken und dennoch die maximale

Fahrzeit einhalten. Dabei wurde die rollierende Planungsvariante mit unterschiedlichen Pl

12,5 13 13,5 14 14,5

Durchschnittlicher Luftspalt in mm

6 8 10 12

Durchschnittlicher Luftspalt in mm

159

Streckenabschnitte

ist in allen Testszenarien die gleiche. In jedem Fall wird der Spielraum der lä

geren Fahrzeiten ausgenutzt, um die Koordination mit dem AGAS zu verbessern.

Abbildung

zeigt die Ergebnisse in den einzelnen Szenarien. Es ist deutlich erkennbar, dass der

maximaler Fahrzeit reduziert wu

rde.

Die durchschnittliche Reduzierung des Luftspalts bei einer Fahrzeit von 9

000 Sekunden ge-

genüber der Fahrzeit von 6500 Sekunden liegt in jedem Szenario zwischen 13% und 14%.

r wurde angenommen, dass das AGAS

aufgrund aktueller Informationen seine Entscheidung ändert und auf einzelnen Streckena

wechselt. Da bei einmaliger Verste

nfluss auf die Größe des einstellbaren Luftspalts

Streckenabschnitte an, um schnell befahren zu werden. Im Ergebnis

Abschnitten langsam fahren, die

stimmung mit dem AGAS bewirken und dennoch die maximale

Fahrzeit einhalten. Dabei wurde die rollierende Planungsvariante mit unterschiedlichen Pl

9000

8500

8000

7500

7000

6500

160

nungshorizonten durchgeführt.

sammenhang zwischen der Länge des Planungshorizonts und der Planqualität ist klar erken

bar. Das liegt vor allem an de

vorla

g. Auffällig ist, dass selbst bei einem langen Planungshorizont von 90 Planungsschritten

noch eine erhebliche Lücke zur optimalen Lösung (ganzer Plan) des Umplanungsproblems

bestand.

Abbildung

Es bestand

aber ein ebenso deutlicher Zusammenhang zwischen der Dauer einer Iteration und

der Länge des verwendeten Planungshorizonts. Die Dauer einer Iteration (also die Umplanung

auf dem aktue

llen Planungshorizont) ist aber eine wesentliche Kennzahl

vergeht, bis das System den nächsten ausführenden Schritt erhält.

durchschnittliche Dauer einer Iteration in Abhängigkeit zur Länge des Planungshorizonts. Es

lässt sich unmittelbar ein quadratischer Zusammenhang feststellen. Auch wenn dieser Z

sammenhang für das betrachtete Anwendungsszenario unbedeutend ist (die Üb

Streckenabschnitts dauert mindestens 20 Sekunden), kann er für andere Anwendungen, in

denen weniger Zeit zwischen dem Beginn und Ende der Ausführung eines Planungsschritts

vergeht oder die Planungszeiten insgesamt höher sind, von großer Bedeu

also ein Trade-

Off zwischen der Dauer einer Iteration der Umplanung und der erreichbaren

Planqualität, die für jede Anwendung abgewogen werden muss.

Die Ergebnisse basieren auf einem Szenario mit 70% Anteil an ungenauen Streckenabschnitten, einer maxim

len Fahrzeit von 8000 Sekunden und einer Wechselwahrscheinlichkeit für die Modi des AGAS von 90%.

13,99

14,04

Ausgangsplan

Ganzer Plan

Länge des Planungshorizonts

Anwendungsbeispiele

nungshorizonten durchgeführt.

Abbildung 7-16

zeigt die Ergebnisse der Versuche

sammenhang zwischen der Länge des Planungshorizonts und der Planqualität ist klar erken

bar. Das liegt vor allem an de

m größeren Spielraum, der bei eine

m langen Planungshorizont

g. Auffällig ist, dass selbst bei einem langen Planungshorizont von 90 Planungsschritten

noch eine erhebliche Lücke zur optimalen Lösung (ganzer Plan) des Umplanungsproblems

Abbildung

7-16: Ergebnisse der Umplanung

aber ein ebenso deutlicher Zusammenhang zwischen der Dauer einer Iteration und

der Länge des verwendeten Planungshorizonts. Die Dauer einer Iteration (also die Umplanung

llen Planungshorizont) ist aber eine wesentliche Kennzahl

vergeht, bis das System den nächsten ausführenden Schritt erhält.

Abbildung

durchschnittliche Dauer einer Iteration in Abhängigkeit zur Länge des Planungshorizonts. Es

lässt sich unmittelbar ein quadratischer Zusammenhang feststellen. Auch wenn dieser Z

sammenhang für das betrachtete Anwendungsszenario unbedeutend ist (die Üb

Streckenabschnitts dauert mindestens 20 Sekunden), kann er für andere Anwendungen, in

denen weniger Zeit zwischen dem Beginn und Ende der Ausführung eines Planungsschritts

vergeht oder die Planungszeiten insgesamt höher sind, von großer Bedeu

tung sein. Es besteht

Off zwischen der Dauer einer Iteration der Umplanung und der erreichbaren

Planqualität, die für jede Anwendung abgewogen werden muss.

Die Ergebnisse basieren auf einem Szenario mit 70% Anteil an ungenauen Streckenabschnitten, einer maxim

len Fahrzeit von 8000 Sekunden und einer Wechselwahrscheinlichkeit für die Modi des AGAS von 90%.

14,04

14,09 14,14 14,19 14,24

Durchschnittlicher Luftspalt

Anwendungsbeispiele

zeigt die Ergebnisse der Versuche

. Ein Zu-

sammenhang zwischen der Länge des Planungshorizonts und der Planqualität ist klar erken

m langen Planungshorizont

g. Auffällig ist, dass selbst bei einem langen Planungshorizont von 90 Planungsschritten

noch eine erhebliche Lücke zur optimalen Lösung (ganzer Plan) des Umplanungsproblems

aber ein ebenso deutlicher Zusammenhang zwischen der Dauer einer Iteration und

der Länge des verwendeten Planungshorizonts. Die Dauer einer Iteration (also die Umplanung

Es ist die Zeit, die

Abbildung

7-17 zeigt die

durchschnittliche Dauer einer Iteration in Abhängigkeit zur Länge des Planungshorizonts. Es

lässt sich unmittelbar ein quadratischer Zusammenhang feststellen. Auch wenn dieser Z

sammenhang für das betrachtete Anwendungsszenario unbedeutend ist (die Üb

erfahrt eines

Streckenabschnitts dauert mindestens 20 Sekunden), kann er für andere Anwendungen, in

denen weniger Zeit zwischen dem Beginn und Ende der Ausführung eines Planungsschritts

tung sein. Es besteht

Off zwischen der Dauer einer Iteration der Umplanung und der erreichbaren

Die Ergebnisse basieren auf einem Szenario mit 70% Anteil an ungenauen Streckenabschnitten, einer maxim

len Fahrzeit von 8000 Sekunden und einer Wechselwahrscheinlichkeit für die Modi des AGAS von 90%.

14,29 14,34

Anwendungsbeispiele 161

Abbildung 7-17: Dauer der Iterationen der Umplanung

7.3.2 Planung bei individueller Hauptaufgabe

Wie bereits in Abschnitt 5 erläutert, stellen kooperierende RailCabs ein gutes Anwendungs-

beispiel für die kooperative Planung zwischen mechatronischen Systemen mit individueller

Hauptaufgabe dar.

Das logistische Konzept des RailCab-Systems sieht den Verzicht auf starre Fahrpläne vor und

propagiert einen bedarfsorientierten Schienenverkehr. Dabei ist vorstellbar, dass innerhalb

eines Schienennetzes mehrere konkurrierende Unternehmen ihre Transportdienstleistungen

anbieten. Damit ist es nicht mehr möglich, über alle Fahrzeuge hinweg ein eindeutiges Ziel-

system zu definieren (Maximierung des Gewinns über alle Fahrzeuge, optimale Versorgung

der Kunden, etc.), sondern die Fahrzeuge verfolgen jeweils die individuellen Ziele ihres Be-

treibers. Weiterhin besitzen zwar alle Fahrzeuge eine identische Aufgabe (Transport von Gü-

tern und/oder Menschen), aber die konkreten Ausprägungen der Aufgaben unterscheiden sich

im Zeitverlauf von Fahrzeug zu Fahrzeug.

Dennoch sind grundsätzlich Aktionen vorstellbar, in denen zwei oder mehr Fahrzeuge koope-

rieren, um ihre jeweiligen Pläne zu verbessern. Dazu gehören, entsprechend der Kategorisie-

rung aus Abschnitt 5.3.1, die Abgabe von (Transport-)Aufträgen und die Abstimmung von

Aktionen durch die Bildung von Konvois.

In Unterkapitel 5.3 wurde die Planung der Interaktion bei individueller Hauptaufgabe in vier

Schritte unterteilt: Erkennen von Kooperationspotenzial, Identifikation von Kooperationspart-

nern, Bestimmung gemeinsamer Planungsziele und gemeinsame Planfindung. Die beiden nun

folgenden Beispielprozesse einer Interaktionsplanung orientieren sich an dieser Unterteilung.

In den folgenden Absätzen ist eine dezentrale Umsetzung der Kooperationen beschrieben. Um

zu aussagekräftigen und vergleichbaren Ergebnissen zu gelangen, wurde auf die Umsetzung

eines egoistischen Verhaltens der Fahrzeuge verzichtet. Daher kommt eine Kooperation in

Form einer Auftragsvergabe oder eines Konvois immer zustande, wenn über alle beteiligten

Fahrzeuge eine Verbesserung erreicht wird, auch Fahrzeuge, die sich durch eine Kooperation

verschlechtern, nehmen ohne Kompensation teil.

7.3.2.1 Austausch von Transportaufträgen zwischen RailCabs

Bei Onlineproblemen wie der Transportdisposition im RailCab-System besteht die Möglich-

keit, dass Entscheidungen getroffen werden, die bei Vorliegen neuer Informationen als un-

günstig erkannt werden. Ein Beispiel für eine solche Entscheidung ist die Übernahme eines

10 20 30 40 50 60 70 80 90

∅

∅-Dauer einer Iteration in ms

Länge des Planungshorizonts

162 Anwendungsbeispiele

Transportauftrags, der im Anschluss zu einer langen Leerfahrt führt. Um diese Art von un-

günstigen Entscheidungen rückgängig machen zu können, wurde das RailCab-MAS um die

Möglichkeit des Austauschs von Transportaufträgen erweitert. Die Idee dabei ist, den ungüns-

tigen Transportauftrag an ein RailCab abzugeben, in dessen aktuelle Route er sich besser ein-

fügt (sodass z. B. eine kürzere Leerfahrt resultiert). In den folgenden Absätzen wird erläutert,

wie dieser Kooperationsmechanismus realisiert wurde. Wie bereits in 5.3.2.1 beschrieben, ist

eine gesonderte Modellierung der Abgabe von Transportaufträgen nicht notwendig. Lediglich

eine geeignete Beschreibung der Aufträge, anhand der die Ähnlichkeit von Aufträgen beur-

teilt werden kann, ist erforderlich. Die hierfür notwendigen Merkmale sind die Koordinaten

der Stationen eines Transportauftrags sowie die Zeitfenster zum Abholen und Absetzen eines

Fahrgastes.

7.3.2.1.1 Erkennen des Kooperationspotenzials – Auswahl von abzugebenden Aufträgen

Um Aufträge zu identifizieren, die zur Abgabe geeignet sind, durchsuchen die Fahrzeugagen-

ten ihre aktuellen Routen. Dieser Prozess wird immer durchgeführt, wenn eine Veränderung

an der Route vorgenommen wird, also ein neuer Auftrag eingefügt oder ein alter abgegeben

wird. Abbildung 7-18 zeigt, wie die Fahrzeugroute in einem solchen Fall nach einem abzuge-

benden Transportauftrag durchsucht wird. Ausgehend von einem neu eingefügten Transport-

auftrag oder dem Vorgänger eines abgegebenen Transportauftrags T wird die Strecke unter-

sucht. Zunächst wird überprüft, mit welchen anderen Transportaufträgen sich T überlappt.

Von einer Überlappung wird immer dann gesprochen, wenn ein Passagier auf dem Weg von

der Startstation von T zur Endstation von T zu- oder aussteigt. Für den Fall, dass genau ein

Transportauftrag T* überlappt, wird geprüft, ob die Abgabe dieses Auftrags eine Verbesse-

rung bringen kann. Dies ist insbesondere der Fall, wenn für T* ein Umweg gefahren werden

muss. Wenn der Auftrag T sich mit keinem anderen Auftrag überschneidet, wird der Auftrag

T* betrachtet, der als letzter vor T endet.

Abbildung 7-18: Beispiele für Wegeinsparungen durch die Abgabe von Aufträgen

In jedem Fall wird anhand des kürzesten Weges zwischen den Startpunkten des ausgewählten

Transportauftrages geprüft, ob eine Abgabe des Auftrags eine Einsparung verspricht. Dabei

ist zu beachten, dass diese Wegeinsparung nicht in jedem Fall realisierbar ist, da der Reservie-

rungsprozess entlang der Stationen und Streckenabschnitte dazu führen kann, dass der kürzes-

te Fahrweg nicht verfügbar ist.

T*s

T*e

(a) überlappende Aufträge

T*sTs

T*e

(b) disjunkte Aufträge

Station Routenelemente Alternativer kürzester Weg

Anwendungsbeispiele 163

Auftragsauswahl

Route R

// Der neu eingefügte Auftrag oder der direkte Nachfolger eines abge-

//gebenen Auftrags

Auftrag T

// Ermitteln des Teilstücks aus R zwischen Start und Ende von T

Route r* = Teilroute(R, T)

// Ermitteln der Transportaufträge, die in diesem Teilstück starten

oder enden

Liste überlappendeAufträge = lieferÜberlappendeAufträge(R,teil)

Wenn überlappendeAufträge genau einen Aufträge enthält

Dann

Auftrag T*

//Kosten ermitteln für die Fahrt von der Startstation von

//T* zur Endstation von T* und von dort zur Endstation von T

alteKosten = KostenVon(R, T*

, T*

) + KostenVon(R,T*

)

Wegpunkt P = T*

Sonst Wenn keine Überlappenden Aufträge existieren

Dann

A = voriger Wegpunkt mit ein- oder aussteigendem Kunden

Wenn A genau einen aussteigenden Kunden hat

Dann

T* = A

P = voriger Wegpunkt mit ein- oder aussteigendem

Kunden

alteKosten = KostenVon(R,P,T

) + KostenVon(R,T*

)

Sonst –

// wie würden die Kosten im günstigsten Fall aussehen, wenn der vorige

// Auftrag abgegeben würde

minimaleNeueKosten = KostenFürDenKürzestenWeg(P, T

) +

KostenFürDenKürzestenWeg(T

)

Wenn alteKosten > minimaleNeueKosten

Dann

Versuche T* abzugeben

Sonst -

Ende

Listing 7-5: Suche nach abzugebenden Transportaufträgen

7.3.2.1.2 Identifikation von Kooperationspartnern

Die Identifikation von Kooperationspartnern ist im Fall des Austauschs von Aufträgen mithil-

fe von Blackboards realisiert (vergleiche 5.1.3.1.3). Als Blackboards agieren in diesem Fall

die Stationsagenten. Indem die Transportaufträge an den Stationen ausgeschrieben werden, in

denen sie beginnen, können Fahrzeugagenten gezielt nach Aufträgen suchen, die sich bereits

(zumindest teilweise) auf ihrer Route befinden. Dabei wird auch das Einsparungspotenzial

veröffentlicht, das in Listing 7-5 ermittelt wurde. Kann ein Fahrzeug den Transportauftrag zu

geringeren Kosten realisieren, bietet es die Übernahme beim abgebenden Fahrzeug an. Da die

Ausschreibung auf Grundlage der größtmöglichen Einsparung erfolgte, muss nun überprüft

werden, ob sich die Abgabe tatsächlich lohnt. Das abgebende Fahrzeug plant dazu seine Rou-

te ohne den abzugebenden Auftrag und ermittelt so die tatsächliche Einsparung. Wenn tat-

sächlich eine Einsparung entsteht, wird diese an das übernehmende Fahrzeug übermittelt.

Sind die Mehrkosten durch die Übernahme geringer als die Einsparung, wird der Transport-

auftrag getauscht.

164 Anwendungsbeispiele

7.3.2.2 Experimente und Ergebnisse zum Austausch von Transportaufträgen

Der Austausch von Transportaufträgen wurde in einem Vergleichsszenario evaluiert. Dabei

wurden mit variierenden Parametern jeweils 100 unabhängige Testläufe in einem Transport-

netzwerk mit 50 Stationen und 10 Fahrzeugen durchgeführt.

Als Vergleichsszenario diente ein Experiment, in dem 200 zufällige Transportanfragen inner-

halb eines Zeitraums von 18 Stunden in das System gestellt wurden. Die einzelnen Transport-

aufträge besaßen ein Zeitfenster (zwischen frühester Abfahrtzeit und spätester Ankunftszeit)

zwischen 3 und 6 Stunden. In diesem Experiment wurde eine durchschnittliche Einsparung an

Streckennutzungsgebühren von 15% erreicht. Dabei schwankten die Einsparungen in den

Testläufen zwischen 3% und 35%. Die durchschnittliche Bedienrate (Anteil der erfolgreich

bearbeiteten Transportaufträge) lag bei durchschnittlich 49% (zwischen 34% und 67%).

In einem abweichenden Szenario wurde untersucht, wie sich längere Zeitfenster auf das Sys-

tem auswirken. Hier konnte natürlich ein größerer Anteil von Aufträgen bearbeitet werden

(zwischen 59% und 91%, im Durchschnitt 78%). Dazu wurden Transportaufträge mit einer

Dauer von 6 bis 12 Stunden generiert. Es ergab sich eine durchschnittliche Einsparung von

18%. Die Einsparung in den einzelnen Läufen schwankte zwischen 3% und 56%. Das Verfah-

ren ist also in der Lage, die größeren Zeitfenster in der Planung auszunutzen.

In einem weiteren Vergleichsszenario wurde untersucht, welche Auswirkungen eine geringe

Auslastung hat. Dazu wurden nur 100 Transportanfragen innerhalb der 18 Stunden generiert,

die aber auch nur von 5 Fahrzeugen bedient werden konnten. Im Ergebnis konnten nur wenige

Transportaufträge bedient werden. Das liegt daran, dass die Fahrzeuge sich stärker im Netz-

werk verteilen und längere Leerfahrten zwischen den Transportaufträgen absolvieren müssen.

Da sich auch nur wenige Transportaufträge überhaupt überlappten, fanden sich weniger Koo-

perationspartner, die einen ausgeschriebenen Auftrag übernehmen konnten. Daher lag die

durchschnittliche Einsparung nur bei 3% und in einigen Testläufen konnte gar keine Einspa-

rung realisiert werden.

Zusammenfassend kann festgestellt werden, dass der Mechanismus des Austauschs von

Transportaufträgen durchaus geeignet ist, Fehlentscheidungen im Online-Planungsprozess zu

revidieren. Dabei sind zwei entscheidende Einflussfaktoren auszumachen: Zunächst profitiert

das Verfahren davon, wenn die Transportaufträge wenig restriktiv sind, also großzügige Zeit-

fenster besitzen. Das liegt daran, dass sich eher Fahrzeuge finden lassen, die einen Transport-

auftrag übernehmen können. Für ein reales System wären hier finanzielle Anreize für eine

hohe Flexibilität der Kunden in Erwägung zu ziehen. Außerdem zeigt sich, dass der Mecha-

nismus nur bei einer gewissen Auslastung des Systems effektiv ist. Ist diese nicht gegeben,

sind ggf. andere Optimierungsstrategien zu nutzen.

7.3.2.3 Konvoibildung im RailCab-System

Durch die Bildung eines Konvois sind die Fahrzeuge des RailCab-Systems in der Lage,

„günstiger“ im Schienennetzwerk zu verkehren. Aufgrund des Windschatten-Effekts reduziert

sich der Luftwiderstand der Fahrzeuge, die nicht an der Spitze des Konvois fahren, um etwa

80%. Auf ebenen oder fast ebenen Strecken hängt der Leistungsbedarf des Fahrzeugs fast

ausschließlich vom Luftwiderstand ab. Dementsprechend besteht hier ein großes Einspa-

rungspotenzial. Es handelt sich bei dieser Kooperation um eine Abstimmung von Aktivitäten.

Abzustimmen ist hier das Befahren von Streckenabschnitten, das zeitlich und räumlich so

zusammengefasst wird, dass einzelne Fahrzeuge gleichzeitig auf denselben Streckenabschnit-

ten verkehren. Die Anpassung der ursprünglichen Routenpläne hat dabei so zu erfolgen, dass

die sich anschließenden Teile der Routenpläne der beteiligten Fahrzeuge eingehalten werden

können.

Anwendungsbeispiele 165

Betrachtet man das Konvoiplanungsproblem zunächst aus einer zentralen Perspektive und

unterstellt ein statisches Problem (im Gegensatz zum tatsächlichen Online-Problem), fallen

Ähnlichkeiten zum Vehicle Routing Problem (VRP) auf. Im Vehicle Routing Problem ist eine

Menge von Bedarfsorten in mehreren Touren anzufahren, sodass der insgesamt zurückgelegte

Weg minimiert wird. Dieses sehr komplexe Problem

zerfällt in zwei Teilprobleme: eine

Gruppierung von Bedarfsorten, die durch ein Fahrzeug innerhalb einer Tour angefahren wer-

den, und die Bestimmung der kürzesten Route, die diese Orte verbindet. Daraus resultiert die

erhebliche Komplexität des Problems: Zunächst muss aus der Menge aller möglichen Touren

die beste Kombination von Touren gewählt und anschließend das Rundreise-Problem für die

einzelnen Touren gelöst werden. Die Lösung des ersten Teilproblems beeinflusst offensich-

tlich die Lösung des zweiten Teilproblems, sodass beide Schritte für alle gültigen Kombina-

tionen durchgeführt werden müssen, um zu einer optimalen Lösung zu gelangen.

Die kombinatorischen Eigenschaften der Konvoiplanung sind sehr ähnlich. In der zentralen

Offline-Variante sind aus allen Fahrzeugen diejenigen zusammenzufassen, die die besten

Konvois bilden. Anschließend ist die beste Route für jeden Konvoi zu finden, wobei die Sta-

tionen, an denen die beteiligten Fahrzeuge Güter oder Passagiere aufnehmen oder absetzen,

innerhalb bestimmter Zeitfenster zu durchfahren sind. Bei der Bildung der Konvois ist zu be-

rücksichtigen, dass einige Fahrzeuge von ihrer ursprünglichen (für die Alleinfahrt) optimalen

Route abweichen werden. Die Verbesserung des Konvois muss diese Abweichung mindestens

wieder aufwiegen. Aufgrund dieser kombinatorischen Eigenschaften ist es notwendig, den

untersuchten Lösungsraum möglichst schnell einzuschränken.

7.3.2.3.1 Modellieren der abgestimmten Aktionen

Die Modellierung der abgestimmten Aktionen im Fall der Konvoifahrt ist problemlos mög-

lich. Ein Fahrzeug, das an der Spitze eines Konvois oder alleine fährt, verbraucht abhängig

von der Länge eines Streckenstücks und seiner Eigenschaften (z. B. Steigung) Energie. Durch

die Fahrt als nachfolgendes Fahrzeug reduziert sich dieser Energieverbrauch um einen be-

stimmten Anteil. Entsprechend kann die Fahraktion aus Unterkapitel 2.1.3 angepasst werden.

Listing 7-6 zeigt, wie die Konvoifahrt durch eine zusätzliche Fahraktion dargestellt werden

kann. Anhand des von der Alleinfahrt abweichenden Energieverbrauchs können die Fahrzeu-

ge die Möglichkeit erkennen, den Plan zu verbessern.

(:action drive_convoy

:parameters

(?r railcab ?s railcab ?l1 ?12 location

:precondition

(and at ?r ?l1 and at ?s ?l2)

(>=(energy_storage ?l)(*distance ?l1 ?l2)(convoyConsumption ?r)))

:effect

(and (not (at ?r ?l1))

(at r? ?l2)

(increase (total-energy-used) (*distance ?l1

?l2)(convoyConsumption ?r)))

(decrease (energy_storage ?r) (*distance ?l1

?l2)(convoyConsumption ?r))))

)

Listing 7-6: Fahraktionen mit Berücksichtigung der Kooperationsform "Konvoi"

7.3.2.3.2 Erkennen des Kooperationspotenzials

Das VRP ist np-hart.

166 Anwendungsbeispiele

Die Fahrzeugagenten entdecken das Einsparungspotenzial durch Analyse ihrer aktuellen Rou-

tenpläne. Finden sich mehrere zusammenhängende Streckenabschnitte, auf denen das Fahr-

zeug noch nicht im Konvoi fahren soll, besteht die Möglichkeit, eben durch die Bildung eines

Konvois die Fahrtkosten zu reduzieren.

7.3.2.3.3 Identifikation von Kooperationspartner und Bestimmung der Ziele

Die Identifikation der Kooperationspartner ist im Fall der Konvoiplanung vergleichsweise

kompliziert. Die Eignung eines anderen Fahrzeugs als Konvoipartner hängt ganz entscheidend

von den ursprünglichen Routen der Fahrzeuge ab. Je besser sie bereits vor der Konvoiplanung

zusammenpassen, desto leichter lässt sich der Konvoi anschließend bilden. Der Prozess der

Identifikation von Kooperationspartnern macht von mehreren Techniken Gebrauch, die in

Abschnitt 5.1.3.1 beschrieben sind.

Die erste Technik ist die Kombination von Middle-Agents und verteiltem Matchmaking. Der

erste Schritt der Konvoiplanung besteht in einer verteilten Tiefensuche, die durch die Statio-

nen durchgeführt und durch einen Fahrzeugagenten (F

, I für Initiator) ausgelöst wird. Die

Suche läuft entlang des Abschnitts der ursprünglichen Route des Fahrzeugagenten F

, auf der

ein Konvoi gebildet werden soll. Gesucht wird nach Fahrzeugen, die die gleichen oder be-

nachbarte Stationen durchfahren. Dabei leiten die Stationen die Anfrage an benachbarte Sta-

tionen weiter, wodurch eine verteilte Tiefensuche im Streckennetzwerk entsteht. Um die

Suchzeit zu beschränken und außerdem nur solche Fahrzeuge zu finden, die auch tatsächlich

in der gleichen Region wie das auslösende Fahrzeug agieren, lässt sich die Suchtiefe be-

schränken. Die Stationen leiten die Anfrage nur weiter, wenn ihre eigene Tiefe einen Schran-

kenwert nicht überschreitet. Die Tiefe t einer Station berechnet sich durch:

G0,D(( `' +  '5( 453 HlE*BB( ( CEB D'E`

`G

n 1,D(( `' +  '5( 45( +  '5(GB( ( G

CEB D'E`

Dadurch enthält bereits das Suchergebnis nur solche Agenten, deren Routen zumindest durch

eine Station in der Nähe der Route von F

führen. Das Suchergebnis und damit der Lösungs-

raum kann durch Anwendung von Filtering weiter verkleinert werden. Die Konvoiplanung

setzt zwei unterschiedliche Filter ein. Der erste Filter entfernt solche Fahrzeuge, die außerhalb

eines definierten Zeitfensters in der Nähe des auslösenden Fahrzeugs verkehren:

JO

9Rª

Für jedes Fahrzeug wird jede Station innerhalb des durchsuchten Teils des Transportnetz-

werks betrachtet. Liegt die Ankunftszeit in der Station i (t

) nicht innerhalb des Zeitfensters

zwischen der Ankunft von F

in der ersten Station der betrachteten Teilroute (t

first

) und dem

Verlassen der letzten Station (t

end

), kommt es für eine Konvoibildung nicht in Betracht.

Der zweite Filter nutzt Informationen über die allgemeine Reiserichtung der Fahrzeuge aus,

um weitere Fahrzeuge aus der Kandidatenmenge zu eliminieren. Dazu wird ein Richtungsvek-

tor für jedes Fahrzeug berechnet. Der Vektor der Koordinaten der letzten Station im Suchbe-

reich s

wird von den Koordinaten der ersten Station im Suchbereich subtrahiert: r

= e

– s

Dieser Richtungsvektor wird verglichen mit dem Richtungsvektor des Fahrzeugs F

durch

Berechnung des Schnittwinkels α

sinE



||E

|EG'(E



||E

Anwendungsbeispiele 167

Die eigentliche Filterregel ist definiert durch einen maximalen Winkel γ, um den die Richtung

eines Fahrzeugs maximal von F

abweichen darf. Die Filterung kann dabei jeweils direkt

durch die jeweilige Station erfolgen, da sie über alle notwendigen Informationen verfügt.

Als Zwischenschritt muss der auslösende Fahrzeugagent F

bei den Agenten aus der Ergeb-

nismenge anfragen, ob sie an einer Kooperation interessiert sind. Diese Anfrage ist notwen-

dig, da die weiteren Schritte einen Austausch der Agenten über ihre lokalen Pläne vorausset-

zen. Im Rahmen dieses Austausches erfolgt auch die Bestimmung der gemeinsamen Ziele.

Mit einer Zusage übermitteln die angefragten Agenten alle Stationen, die sie im Suchraum der

verteilten Tiefensuchen anfahren müssen, um Passagiere oder Transportgüter aufzunehmen

oder abzusetzen. Weiterhin wird die Ankunftszeit in der ersten Station außerhalb des Such-

raums übermittelt. Diese Station muss rechtzeitig erreicht werden (also wie im Ursprungsplan

vorgesehen), um die restliche Route des Fahrzeugs beibehalten zu können.

Als letzter Schritt der Identifikation von Kooperationspartnern sind im Fall der Konvoipla-

nung Gruppen von Fahrzeugen zu bilden, die vermutlich einen guten Konvoi bilden können.

Dabei kann ausgenutzt werden, dass die einzelnen Fahrzeuge bereits ein Optimierungsprob-

lem gelöst haben, das sehr ähnlich zur Routenplanung für den Konvoi ist. Alle Fahrzeuge

haben bereits eine Route gebildet. Offensichtlich ist das Optimierungsproblem „finde Konvoi-

route“ genau dann gut zu lösen, wenn die Randbedingungen der einzelnen Fahrzeuge sich

ähneln (sie also zu ähnlichen Zeiten in Stationen sein müssen, die nahe aneinander liegen).

Über die Menge der Kandidaten wird ein Clustering [JMF99] durchgeführt, wobei die Rest-

riktionen der lokalen Routenplanungsprobleme der einzelnen Agenten in das Distanzmaß ein-

gehen. Damit befinden sich in einem Cluster solche Agenten, deren lokale Optimierungsprob-

leme ähnliche Nebenbedingungen haben. So sind die Chancen besonders hoch, dass das ge-

meinsame Optimierungsproblem eine Lösung besitzt. Beim verwendeten Clustering handelt

es sich um ein hierarchisches Clustering, dessen Ergebnis eine Baumstruktur ist. Knoten des

Baumes sind Cluster, wobei jeder Cluster die Vereinigung seiner Kindsknoten ist. Die Wurzel

enthält sämtliche Fahrzeugagenten, während die Blätter aus einzelnen Fahrzeugagenten be-

stehen. Jeder Level definiert also eine Lösung für das Gruppierungsproblem in der Konvoip-

lanung. Dadurch wird das Problem der Einteilung der Fahrzeuge in Gruppen auf die Auswahl

der günstigsten Ebene reduziert.

7.3.2.3.4 Gemeinsame Routenplanung

Die gemeinsame Planung zum Abschluss der Konvoiplanung kann zurückgeführt werden auf

ein einfaches Routenplanungsproblem mit Zeitfenstern. Gesucht ist eine Route, die die

Pflichthaltepunkte verbindet und die späteste Austrittszeit aller Fahrzeuge einhält. Zur Lösung

dieses Routenplanungsproblem wurde eine Insertion-Heuristik angewandt, wie sie aus dem

Operations Research als Teillösung des VRP bekannt ist [CS04]. Dieses einfache und schnelle

Verfahren wird eingesetzt, um die Lösungsqualität einer Ebene aus dem Clustering zu ermit-

teln und anschließend mit den Ergebnissen der übrigen Ebenen zu vergleichen. Dabei kann

die Baumstruktur ausgenutzt werden, um die Berechnungsergebnisse wieder zu verwenden.

Da alle Fahrzeuge (mit ihren lokalen Randbedingungen) innerhalb eines Clusters auf der Ebe-

ne i+1 auch auf der Ebene i im selben Cluster sind, besitzt der Cluster auf der Ebene i mindes-

tens die gleichen Randbedingungen wie sein Kindsknoten. Daher ergibt sich aus der Unlös-

barkeit des Routenplanungsproblems auf der Ebene i+1 die Unlösbarkeit des Problems auf der

Ebene i. Es muss also auf der Ebene des Elternknotens keine erneute Routenplanung durchge-

führt werden. Stattdessen können im Falle einer Unlösbarkeit die Ergebnisse von der unters-

ten Ebene mit gültiger Lösung (im schlimmsten Fall die Ebene mit einzelnen Fahrzeugagen-

ten) nach oben propagiert werden.

168 Anwendungsbeispiele

7.3.2.4 Experimente und Ergebnisse zur Konvoiplanung

Experimente mit einer prototypischen Implementierung haben gezeigt, dass in 5% aller ausge-

lösten Planungsläufe ein Konvoi erfolgreich gebildet wurde. Dieses Ergebnis ist vor dem Hin-

tergrund der Vielzahl von Beschränkungen (Zeitfenster der Kunden und Belegung der Tracks

und der Stationen) akzeptabel. Wurde ein Konvoi erfolgreich gebildet, konnte unter Berück-

sichtigung der Abweichungen von den (ggf. kürzeren) Ursprungsrouten 15%-20% der Ener-

giekosten eingespart werden. Dabei wurde eine durchschnittliche Ersparnis von 50% je befah-

renem Streckenabschnitt angenommen (auf ebener Strecke liegt die Einsparung bei fast 80%).

Zusammenfassung und Ausblick 169

8 Zusammenfassung und Ausblick

Zunehmend intelligente Maschinen sollen den Aufgabenbereich und den Nutzwert techni-

scher Systeme auf eine neue Stufe anheben. Die Entwicklung der jungen Disziplin der Me-

chatronik stellt einen wichtigen Schritt in diese Richtung dar. Durch das Zusammenwirken

von Maschinenbau, Elektrotechnik und Informatik werden die technischen Systeme in die

Lage versetzt, relevante Aspekte ihrer Umgebung zu erkennen und ihr Verhalten auf diese

Aspekte anzupassen.

8.1 Zusammenfassung

Ein wesentlicher Aspekt von Intelligenz, der in heutigen mechatronischen Systemen unbe-

rücksichtigt bleibt, ist die Fähigkeit zur Planung. Planung versetzt intelligente Systeme in die

Lage, zukünftige Handlungsweisen und Situationen zu antizipieren und bereits im Vorfeld das

eigene Verhalten anzupassen. Proaktive Handlungsweisen anstelle einer reinen Reaktion auf

Ereignisse werden damit möglich. Ziel der Arbeit war also die Konzeption einer Verhaltens-

planung für mechatronische Systeme.

Vergleicht man bestehende Modelle, die im Rahmen einer Planung eingesetzt werden können,

und Modelle zur Beschreibung des Verhaltens mechatronischer Systeme, fällt eine zu schlie-

ßende Lücke auf. Die meisten Planungsformalismen betrachten Handlungsweisen und Aktivi-

täten als eine Art diskrete Blackbox, also begrenzt durch einen klar definierten Zustand vor

der Ausführung und einen klar definierten Zustand nach der Ausführung. Für mechatronische

Systeme ist dagegen der kontinuierliche Verlauf einer Handlungsweise von sehr großer Be-

deutung. Diese Lücke musste geschlossen werden.

Darüber hinaus waren zwei weitere Aspekte unbedingt zu beachten: Unsicherheit (also unbe-

kannte oder stochastische Einflüsse) und mögliche Interaktion mit anderen Systemen. Kon-

ventionelle Planungsverfahren lassen diese Aspekte außer Acht. Spezielle Planungsverfahren

und Modelle, die diese Aspekte berücksichtigen, passen nicht vollständig auf die Anforderun-

gen einer Verhaltensplanung für mechatronische Systeme. Für beide Aspekte sind in dieser

Arbeit daher angepasste Planungsverfahren entwickelt worden.

Die Lücke zwischen der diskreten Formulierung der Planungsprobleme und dem kontinuierli-

chen Verhalten der mechatronischen Systeme wurde geschlossen. Dazu wurden zwei mögli-

che Ansätze beschrieben. Der erste Ansatz verfolgt eine Bestimmung kontinuierlicher Verläu-

fe durch eine dem Betrieb vorgelagerte Optimierung. Die so bestimmten Verläufe werden in

den verwendeten Planungsformalismus integriert, indem die Optimierungsergebnisse als disk-

rete Kennzahlen verwendet werden. Die zweite Möglichkeit besteht in der Approximation

kontinuierlicher Charakteristika von Verhaltensweisen im Betrieb oder im Rahmen von Expe-

rimenten vor dem Betrieb. Das jeweilige Vorgehen hängt vom Anwendungsfall und bei-

spielsweise den Eigenschaften der einsetzbaren Optimierungsprobleme ab.

Um einen effizienten und intelligenten Umgang mit unsicheren oder stochastischen Einflüs-

sen zu ermöglichen, wurde ein Konzept zur Vereinigung der beiden Planungsparadigmen be-

dingte Planung und Planüberwachung und Neuplanung erarbeitet. Das Ziel des Konzepts ist

die proaktive Erzeugung von optimalen Plänen für wahrscheinliche alternative Ausführungs-

verläufe. Planüberwachung und Neuplanung dient als eine Rückfallebene, falls unvorherge-

sehene Ereignisse eintreten. Da Planüberwachung und Neuplanung keine optimalen Pla-

nungsergebnisse gewährleisten kann, ist das Konzept so ausgelegt, dass das Auftreten eines

unvorhergesehenen Zustands besonders unwahrscheinlich ist.

170 Zusammenfassung und Ausblick

Um die Wahrscheinlichkeiten der möglichen Ausführungsverläufe beurteilen zu können,

wurde eine ausdrucksstarke Modellierung auf Basis von Bayes-Netzwerken entwickelt und in

den Planungsprozess integriert. Durch die Aufnahmen von Expertensystemen oder –agenten

gelingt es außerdem, aktuelle und spezifische Umweltinformationen in die Planung zu integ-

rieren.

In der Behandlung der Interaktion zwischen mechatronischen Systemen oder eben der Inter-

aktionsplanung sind zunächst zwei unterschiedliche verschiedene Situationen identifiziert

worden. In der ersten Situation wirken die interagierenden mechatronischen Systeme zusam-

men, um gemeinsam eine Aufgabe zu erfüllen. Daraus lässt sich ableiten, dass die Systeme

sich an einem gemeinsamen Zielsystem ausrichten und sich über ihre jeweiligen lokalen Pläne

austauschen. Im zweiten Fall haben die Systeme jeweils eigene Aufgaben zu erfüllen, weswe-

gen diese starken Annahmen nicht mehr aufrechtzuerhalten sind.

Für die erste Situation wurde ein Planungsmodell entwickelt, das es den mechatronischen

Systemen ermöglicht, die Auswirkungen ihrer eigenen Handlungsweise auf andere Systeme

zu ermitteln und im Rahmen der Planung zu berücksichtigen. Anhand des Planungsmodells

konnte gezeigt werden, wie mittels Planungsverfahren, die vollständig geordnete Pläne erzeu-

gen, eine Koordination der Systeme im Sinne ihres gemeinsamen Zielsystems erfolgen kann.

Dabei wurden zwei aufeinander folgende Phasen beschrieben: die Koordination vor der Pla-

nung und die Koordination nach der Planung, die zur Behandlung unerwarteter Verhaltens-

weisen eingesetzt werden kann. Um den Rechenaufwand der Umplanung im Rahmen der

Koordination nach der Planung zu begrenzen und möglichst mit der Planausführung zu ver-

zahnen, wurde ein rollierendes Planungskonzept mit beschränktem Planungshorizont vorge-

schlagen. Somit kann eine Koordination auch bei komplexen Planungsproblemen erfolgen.

Für die zweite Situation wurden zunächst Kooperationsformen herausgearbeitet (Abgabe von

Aufträgen, Abgabe von Teilfunktionen und Abstimmung von Aktivitäten), die zwischen me-

chatronischen Systemen mit individuellen Aufgaben möglich sind. Anschließend wurde für

jede der Kooperationsformen erläutert, wie sie mittels Techniken aus dem Bereich der Multi-

agenten-Systeme und durch Einbettung in die lokale Planung der Systeme durchgeführt wer-

den. Es wurde auch ein Vorgehen zur Integration der unterschiedlichen Kooperationsformen

vorgeschlagen.

Im Rahmen eines ausführlichen Anwendungsbeispiels aus der Neuen Bahntechnik Paderborn

konnte gezeigt werden, wie die Planungsverfahren und –modelle auf den unterschiedlichen

mechatronischen Funktionsebenen eingesetzt werden können. Dabei wurde auch erarbeitet,

wie die unterschiedlichen Planungsebenen ineinandergreifen können.

Im Rahmen einer stochastischen Routenplanung konnte gezeigt werden, wie zuverlässigere

Aussagen über Fahrzeiten und bessere Fahrpläne mithilfe der vorgeschlagenen Modellierung

auf Basis von Bayes-Netzwerken erreicht werden können. Dabei konnte in Experimenten ge-

zeigt werden, dass der Ansatz auch robust gegen eine ungenaue Spezifikation der Parameter

des Modells ist.

Die RailCab-Module AGAS und Antrieb dienten als Beispiel für die Interaktionsplanung in-

nerhalb eines mechatronischen Systems. Hier gelang es, auf Basis der vorgeschlagenen Mo-

dellierung die Querwirkung des Antriebs auf das AGAS in die lokale Planung des Antriebs

aufzunehmen. An diesem Beispiel bestätigte sich außerdem, dass bei Zerteilung des Pla-

nungsproblems auf mehrere Modelle eher gut lösbare Problemformulierungen gefunden wer-

den können als in integrierten zentralen Planungsmodellen.

Zusammenfassung und Ausblick 171

Die Planungsverfahren für die Interaktion zwischen Systemen wurden am Beispiel der Rail-

Cabs demonstriert. In enger Anlehnung an die zuvor definierten Abläufe wurde gezeigt, wie

durch die gezielte Abgabe von Transportaufträgen und die bewusste Bildung von Konvois

Umwege und Energiekosten eingespart werden können.

Die Ableitung eines diskreten Planungsformalismus aus einem vorgelagerten Optimierungs-

problem wurde am Beispiel der aktiven Federung illustriert. Durch die Integration ist es mög-

lich, das kontinuierliche Gütemaß Komfort auch in der diskreten Planung einzusetzen. Wei-

terhin können kontinuierliche Entscheidungsgrößen für die Ausführung einer Verhaltensweise

aus dem diskreten Plan abgeleitet werden.

8.2 Ausblick

Nicht alle der in Kapitel 5 beschriebenen Ansätze konnten an den Anwendungsbeispielen

demonstriert werden. So wäre es wünschenswert, die noch nicht demonstrierte Kooperations-

form Abgabe von Teilfunktionen, die im RailCab-Beispiel nicht sinnvoll anzuwenden ist, auch

in einem konkreten System durchzuführen. Ein geeignetes Anwendungsbeispiel scheinen fle-

xible Fertigungssysteme zu sein, in denen die Fertigungsmaschinen beispielsweise die Schrit-

te eines Arbeitsplans (Teilfunktionen) optimal unter sich aufteilen.

Ein zweiter wesentlicher Aspekt, der aufgrund nicht zur Verfügung stehender Daten aus den

Demonstratoren aktive Federung, Antrieb und AGAS nicht durchgeführt werden konnte, ist

das Erlernen der Parameter der unterschiedlichen Planungsmodelle.

Es wurde vorgeschlagen, diese automatisierte Modellbildung mithilfe von existierenden

Lernverfahren durchzuführen. Damit handelt es sich hierbei um ein lohnendes Arbeitsgebiet,

um diesen Beitrag zu einer Verhaltensplanung für intelligente interagierende mechatronische

Systeme in nicht-deterministischen Umgebungen abzurunden.

Natürlich können die allgemein formulierten Konzepte auch auf neue Anwendungen übertra-

gen werden und dabei verbessert und validiert werden.

Literaturverzeichnis 173

Literaturverzeichnis

[ADG+08] Adelt, P.; Donoth, J.; Gausemeier, J.; Geisler, J.; Henkler, S.; Kahl, S.; Klöp-

per, B.; Krupp, A.; Münch, E.; Oberthür, S.; Paiz, C.; Porrmann, M.; Rad-

kowski, R.; Romaus, C.; Schmidt, A.; Schulz, B.; Vöcking, H.; Wittkowski, U.;

Witting, K., Znamenshchykov, A.: Selbstoptimierende Systeme des Maschi-

nenbaus - Definitionen, Anwendungen und Konzepte, HNI-

Verlagsschriftenreihe, 2008

[APM01] Amgoud, L., Parson, S., Maudet, N.: Arguments, dialogue, and negotiation. In:

14th European Conference on Artificial Intelligence, IOS Press, Amsterdam,

2001, S. 338-342

[BB01] Boutilier, C., Brafman, R.I.: Partial-Order Planning with Concurrent Interact-

ing Actions. In: Journal of Artificial Intelligence Research, Vol. 14, 2001, S.

105-136

[BCLP03] Bertoli, P.; Cimatti, A.; Lago, U. D.; Pistore, M.: Extending PDDL to Nonde-

terminism, Limited Sensing and Iterative Conditional Plans. In: Workshop on

PDDL, Proceedings of ICAPS’03, 2003.

[BCM00] Beynon, M.; Curry, B.; Morgan, P.: The Dempster-Shafer theory of evidence:

an alternative approach to multicriteria decision modelling. In: The Interna-

tional Journal of Management Science, 28, 2000, S. 37-50

[BCR01] Bertoli, R., Cimatti, A., Roveri, M.: Conditional Planning under Partial Obser-

vability as Heuristic-Symbolic Search in Belief Space. Technical Report, IRST,

Trento, Italy, 2001

[BDM+02] Bresina, J.L., Dearden, R., Meuleau, N., Smith, D.E., Washington, R.: Planning

Under Continuous Time and Resource Uncertainty: A Challenge for AI. In:

AIPS Workshop on Planning for Temporal Domains, 2002, S. 91-97

[BF97] Blum, A.L. und Furst, M.: Fast planning through planning graph analysis. In:

Artificial Intelligence, 90, S. 279-298., 1997

[BKR+97] Binder, J.; Koller, D.; Russel, S.; Kanazawa, H.: Adaptive Probabilistic Net-

works with Hidden Variables. In: Machine Learning, 29, 1997, S. 213-244.

[BL00] Barbuceanu, M., Lo, W.-K.: A multi-attribute utility theoretic negotiation ar-

chitecture for electronic commerce. In: AGENTS ’00, Proceedings of the

fourth international conference on Autonomous agents, ACM Press, New York

2000 S. 239-246

[Blyt99] Blythe, J.: An Overview of Planning Under Uncertainty. In: Artificial Intelli-

gence Today, Lecture Notes of Artificial Intelligence, 1600, 1999, Springer

Verlag, Berlin, S. 85-110

[BMVW06] Buzing, P., ter Mors, A., Valk, J., Witteveen, C.: Coordinating Self-interested

Planning Agents. In: Autonomous Agents and Multi-Agent Systems, 12, 2006,

S. 199-218

[Bren03] Brenner, M.: Multiagent Planning with Partially Ordered Temporal Plans. In:

Proceedings of the 9th International Conference on Artificial Intelligence (IJ-

CAI-03], Morgan Kaufmann, San Francisco, 2003

[BTG04] Burmester, S.; Tichy, M.; Giese, H.: Modeling Reconfigurable Mechatronic

Systems with Mechatronic UML. In: Proceedings of Model Driven Architec-

ture: Foundations and Application (MDAFA 2004), 2004

[CB03] Clement, B.J., Barret, A.C.: Continual coordination through shared activities.

In: AAMAS’03: Proceedings of the Second International Conference on Auto-

nomous agents and Multiagent Systems, ACM Press, New York, 2003, S. 57-

174 Literaturverzeichnis

[CCI89] N.N.: CCIT Z.100 (1989) „Specification and Description Language SDL“.

Recommendation Z.100, Geneva: ITU 1989

[CCI93] N.N.: CCIT Z.100 (1993) „Specification and Description Language SDL“.

Recommendation Z.100, Geneva: ITU 1993

[CCO02] Calabuig, V., Cunyat, A., Olcina, G.: Commitment and choice of partner in

negotiation with a deadline.In: Spanish Economic Review, 4(1), 2002, S. 61-78

[CDL+03] Cowell, Robert G.; Dawid, A. Philip; Lauritzen, Steffen L.; Spiegelhalter, Da-

vid J.: Probabilistic Networks and Expert Systems. Springer Verlag, Berlin,

2003

[CGGT97] Cimatti, A.; Giunchiglia, E.; Giunchiglia, F.; Traverso, P.: Planning Via Model

Checking: A Decision Procedure for AR. In: Proceeding of the 4th European

Conference on Planning (ECP´97), Springer Verlag, 1997, S. 130–142

[CGH97] Castillo, Enrique; Gutiérrez, José Manuel; Hadi, Ali S.: Expert Systems and

Probabilistic Network Models. Springer Verlag, Berlin, 1997.

[CH71] Clifford, P.; Hammersley, J.M.: Markov fields on finite graphs and lattices.

Technical Report, unpublished, 1971.

[CJ04] Coehoorn, R.M., Jennings, N.R.: Learning an Opponents Preferences to Make

Effective Multi-Issue Negotiation Trade-Offs. In: Proceedings of the 6th Inter-

national Conference on Electronic Commerce, 2004

[CLRS01] Cormen, T.H., Leiserson, C.E., Rivest, R.L., Stein, C.: Introduction to Algo-

rithms. Second Edition, MacGraw-Hill, New York, 2001

[Coni08] Conitzer, V.: Comparing Multiagent Systems Research in Combinatorial Auc-

tions and Voting. In: 10th International Symposium on Artificial Intelligence

and Mathematics, 2008

[CR99] Cimatti, A.; Roveri, M.: Conformant Planning via Model Checking. In: Euro-

pean Conference on Planning. In: Lecture Notes in Artificial Intelligence,

1809, Springer Verlag, Berlin, 1999, S. 21–34

[CRS07] Cobb, B.R.; Rumi, R., Salmerón, A.: Bayesian Network Models with Discrete

and Continuous Variables. In: Advances in Probabilistic Graphical Models, Se-

ries: Studies in Fuzziness and Soft Computing, 213. Springer Verlag, Berlin S.

81-102.

[CS04] Campbell, A. M. ; Savelsbergh, M.: Efficient insertion heuristics for vehicle

routing and scheduling problems. In: Transportation Science, 38, 2004, S. 369–

378

[DDOW99] DesJardins, M.E., Durfee, E.H., Ortiz, C.L., Wolverton, M.J.: A Survey of Re-

search in Distributed Planning. In: AI Magazine, 20, 4, 1999, S. 13-22

[Dear05] Dearden, R.: Planning and Learning in Hybrid Discrete-Continuous Models,

International Joint Conference on Artificial Intelligence, 2005

[DGLH92] Decker, K.S., Garvey, A.J., Lesser, V.R., Humphrey, M.A.: An approach to

modeling environment and task characteristics for coordination. In: Proceed-

ings of the First International Conference on Enterprise Integration Modeling,

MIT Press, Cambridge, 1992.

[DHW94] Draper, D., Hanks, S., Weld, D.: Probabilistic planning with information ga-

thering and contingent execution. In: Proceedings Second International Confe-

rence on Artificial Intelligence Planning Systems, 1994 S. 31-37

[DL00] Decker, K.S., Li, J.: Coordinating mutually exclusive resources using gpgp. In:

Autonomous Agents and Muti-Agent Systems, 3, 2000. S. 113-157

[DL87] Durfee, E.H., Lesser, V.R.: Planning coordinated action in dynamic domains.

In: Proceedings of the DARPA Knowledge-Based Planning Workshop, 1987.

S. 18.1-18.10

Literaturverzeichnis 175

[DL92] Decker, K.S., Lesser, V.R.: Generalizing the partial global planning algorithm.

In: International Journal of Intelligent and Cooperative Information Systems,

1992, S. 319-346

[DL94] Decker, K.S., Lesser, V.R.: Designing a family of coordination algorithm. In:

Proceedings of the Thirteenth International Workshop on Distributed Artificial

Intelligence (DAI-94), 1994, S. 65-84

[DLR77] Dempster, A. P.; Laird, N. M.; Rubin, D. B.: Maximum likelihood from in-

complete data via the EM algorithm. In: Journal of the Royal Statistical Socie-

ty, 39, 1977

[Durf01] Durfee, E.H.: Distributed problem solving and planning. In: Selected Tutorial

Papers from the 9th ECCAI Advanced Course ACAI 2001 and Agent Link's,

3rd European Agent Systems Summer School on Multi-Agent Systems and

Applications, Springer Verlag, Berlin, 2001, S. 118-149,

[DW99] DeJardins, M.E., Wolverton, M.J.: Coordinating a Distributed Planning Sys-

tems. In: AI Magazine, 20, 1999, S. 45-53

[DWS96] Decker, K., Williamson, M., Sycara, K.: Matchmaking and brokering. In: Pro-

ceedings of the Second International Conference in Multi-Agent Systems (IC-

MAS’96), 1996

[Ferb01] Ferber, J.: Multiagentensysteme . Eine Einführung, Addision Wesley, Reading,

2001

[FGK+04] Frank, U. Giese, H., Oberschelp, O., Schmidt, A., Vöcking, H., Witting, K.:

Selbstoptimierende Systeme des Maschinenbaus – Definitionen und Konzepte.

HNI-Verlagsschriftenreihe, Paderborn, Band 155, Heinz Nixdorf Institut, Un-

iversität Paderborn, 2004

[Fike71] Fikes, R.E.: Monitored execution of robot plans produced by STRIPS. In: Pro-

ceedings of the IFIP Congress 71, 1971, S. 189-194,

[FL03] Fox, M., Long, D.: PDDL 2.1: An Extension to PDDL for Expressing Tempor-

al Planning Domains. In: Journal of Artificial Intelligence Research (JAIR), 20,

AAAI Press, Menlo Park, 2003, S. 61-124

[FMB+98] Füssel, D.; Ballè, P.; Moseler, O.; Willimoswski, M.; Höfling, T.: Residuenba-

sierte Fehlererkennung und Diagnose an komplexen Prozessen. at-

Automatisierungtechnik 46, 1998, S. 435-443

[FN71] Fikes, R.E., Nilsson, N.J.: STRIPS: A New Approach to Application of Theo-

rem Proving to Problem Solving. In: Artificial Intelligence, 2, Elsevier Science

Publisher, Essex, 1992, S. 189-208

[Föl94] Föllinger, O.: Regelungstechnik – Eine Einführung in die Methoden und ihre

Anwendung, Hüthig GmbH, Heidelberg, 1994

[Frank04] Franke, H.: Eine Methode zur unternehmensübergreifenden Transportdispositi-

on durch synchron und asynchron kommunizierende Agenten. Dissertation,

Universität Paderborn, Heinz Nixdorf Institut, Wirtschaftsinformatik, insbe-

sondere CIM, HNI-Verlagsschriftenreihe, Paderborn, Band 152, 2004

[Fres92] Frese, E. (Hrsg): Handwörterbuch der Organisation, 3. Auflage, Poeschel-

Verlag, Stuttgart, 1992

[Frie98] Friedman, N. : The Bayesian Structural EM Algorithm, In Proceedings of the

Fourteenth Conference on Uncertainty in Artificial Intelligence, Morgan

Kaufmann Publishers, 1998 , S. 129-138.

[FS93] Fershtman, C., Seidmann, D.J.: Deadline and Inefficient Delay in Bargaining

with Endogenous Commitment. In: Journal of Economic Theory, 60, 1993, S

306-321

[FS06] Ferstl, O.K., Sinz, E.: Grundlagen der Wirtschaftsinformatik, Band 1, 5. Auf-

lage, Oldenbourg, München, 2006

176 Literaturverzeichnis

[FSJ98] Faratin, P., Sierra, C., Jennings, N.R.: Negotiation Decision Function for Auto-

nomous Agents. In: International Journal of Robotics and Autonomous Sys-

tems, 24, 1998, S.159-182

[FWJ04] Fatima, S., Wooldridge, M., Jennings, N.R.: An agenda-based framework for

multi-issue negotiation. In: Artificial Intelligence, 152, 2004, S. 1-45

[FWJ05] Fatima, S., Wooldridge, M., Jennings, N.R.: Bargaining with Incomplete In-

formation. In: The Annals of Mathematics and Artificial Intelligence, 44, 2005,

S. 207-232

[GB96] Goldman, R. P.; Boddy, M. S.: Expressive Planning and Explicit Knowledge.

In: Planning with Incomplete Information for Robot Problems: Papers from the

1996 AAAI Spring Symposium, AAAI Press, Menlo Park, 1996, S. 17 –24

[Gier98] Gierend, C.: Fuzzy-Control in Kraftwerken – Potentiale und Anwendungsmög-

lichkeiten. VGB Kraftwerkstechnik, 78, 1998, S. 116-125

[GL05] Gerevini, A.; Long,D.: Plan Constraints and Preferences in PDDL3, Technical

Report, Department of Electronics for Automation, University of Brescia, Italy,

August 2005

[GPP+98] Georgeff, M.; Pell B., Pollack, M. Tambe, M.; Wooldridge, M.: The Belief-

Desire-Intention Model of Agency. In: Proceedings of Intelligent Agents V.

Agent Theories, Architectures, and Languages: 5th International Workshop,

ATAL'98, 1998, S. 1-10

[GSS03] Gerevini, A.; Saetti, A.; Serina, I.: On Managing Temporal Information for

Handling Durative Actions in LPG. In: AI*IA 2003: Advances in Artificial In-

telligence, Lecture Notes in Computer Science, 2829, Springer Verlag, Berlin,

2003

[GTK+08] Geisler, J.; Trächtler, A.; Witting, K.; Dellnitz, M.: Self-Optimization of the

Guidance Module of a Rail-bound Vehicle. In: Self-Optimizing Mechatronic

Systems: Design the Future, HNI-Verlagschriften Reihe, Paderborn, 2008

[Hahn96] Hahn, D.: Strategische Fertigungsplanung. In: Kern, W., Schröder, H.-H., We-

ber, J. (Hrsg.): Handwörterbuch der Fertigungswirtschaft. 2. Aufl.,Schäffer-

Poeschel, Stuttgart, 1996

[Heck95] Heckermann, D.: A Tutorial on Learning with Bayesian Networks – Microsoft

Technical Report, MSR-TR-95-06, Redmond, 1995

[HJA+05] Hill, J.C., Johnson, F.R., Archibald, J.K., Frost, R.L., Stirling, W.C: A Cooper-

ative Multi-Agent Approach to Free Flight. In: Proceedings of the Fourth In-

ternational Joint Conference on Autonomous Agents and Multiagent Systems,

ACM Press, New York, 2005, S. 1083-1080

[HKW95] Hanks, S.; Kushmerick, N.; Weld, D. S.: An algorithm for probabilistic plan-

ning. In: Artificial Intelligence, 76, 1995, S.239-286

[HN01] Hoffmann, J. ; Nebel, B.: The FF Planning System: Fast Plan Generation

Through Heuristic Search. In: Journal of Artificial Intelligence Research, 14,

2001, S. 253–302

[HS94] Haddawy, P., Suwandi, M.: Decision-theoretic planning using inheritance ab-

straction. In: Proceedings of the Second International Conference on Artificial

Intelligence Planning Systems, AAAI Press, Menlo Park, 1994, S. 266-271

[Huan01] Huang, M.: Funktionsmodellierung und Lösungsfindung mechatronischer Pro-

dukte, Dissertationen, Fakultät für Maschinenbau, Universität Karlsruhe, 2001

[HV05] Holleczek, P., Vogel-Heuser, B.: UML for Systems Engineering (SysML) -

Eine Notation zur Beschreibung von Systemen. Springer Verlag, Berlin, 2005

[HWHC06] Hsu, C.W.; Wah, B. W.; Huang, R.; Chen, Y. X.: New Features in SGPlan for

Handling Soft Constraints and Goal Preferences in PDDL3.0. In: Proceedings

of the Fifth International Planning Competition, 2006

Literaturverzeichnis 177

[Iser99] Isermann, R.: Mechatronische Systeme – Grundlagen. Springer Verlag, Berlin,

1999

[Jens01] Jensen, F.V.: Bayesian Networks and Decision Graphs. Springer Verlag, Ber-

lin, 2001

[Jenn95] Jennings, N.R.: Controlling Cooperative Problem Solving in Industrial Multi-

Agent Systems Using Joint Intentions. In: Artificial Intelligence, 75, 1995, S.

195-240

[JMA04] Jang, M.-Y., Momen, A.A., Agha, G.: ATSpace: A Middle Agent to Support

Application Oriented Matchmaking and Brokering and Services. In: Proceed-

ings. IEEE/WIC/ACM International Conference on Intelligent Agent Technol-

ogy (IAT), 2004, S. 393-396

[JMF99] Jain, A. K.; Murty, M.N.; Flynn, P. J.: Data clustering: a review. ACM Compu-

ting Surveys. 31, 1999, S. 264–323

[Kahl95] Kahlert, J.: Fuzzy Control für Ingenieure. Analyse, Synthese und Optimierung

von Fuzzy-Regelungssystemen. vieweg, Braunschweig/Wiesbaden, 1995

[Kirk70] Kirk, D. E. : Optimal control theory . - Prentice-Hall , Englewood Cliffs, 1970

[Kaut06] Kautz, H.: SATPLAN04: Planning as Satisfiability. In: Working Notes on the

Fifth International Planning Competition, 2006,S. 45-46

[KN80] Kindermann, R.; Snell, J. L.: Markov Random Fields and their Applications.

In: Contemporary Mathematics,1. American Mathematical Society, Rhode Isl-

and, 1980.

[Koen01] Koenig, S.: Minimax Real-Time Heuristic Search. In: Artificial Intelligence,

129, Elsevier Science Publishers, Essex, 2001, S. 165-197

[Kolg50] Kolmogorov, A. N.: Foundations of the Theory of Probability. Chelsea Press,

New York, 1950

[Korf90] Korf, R.: Real-Time heuristic search. In: Artificial Intelligence, 42, 1990, S.

189-211,

[KS95] Koenig, S., Simmons, R.: Real-Time Search in non-deterministic domains. In:

Proceedings of the International Joint Conference on Artificial Intelligence,

1995, S. 1660-1667

[Kuhn00] Kuhn, C.: Merkmalsgenerierung und Klassifikation. In: Berichtsband 10,

Workshop „Fuzzy Control“ des GMA-FA 5.2.2, Dortmund, 2000, S. 177-191

[LCN90] Levesque, H.J.; Cohen, P.R.; Nunes, J.H.T.: On Acting Together. In Proceed-

ings of AAAI 90, Boston,1990, S. 94-99

[Lin04] Lin, R.J.: Bilateral Multi-Issue Contract Negotiation for Task Redistribution

Using a Mediation Service. In: Agent Mediated Electronic Commerce, Lecture

Notes in Computer Science, 3937, 2001

[Lipp06] Lippe, W.M.: Soft-Computing mit Neuronalen Netzen, Fuzzy-Logic und Evo-

lutionären Algorithmen, Springer Verlag, 2006

[Lobo97] Lobo, J.: Adding Knowledge to the Action Description Language A. In: Pro-

ceedings of the AAAI National Conference on Artificial Intelligence, MIT

Press, Cambridge, 1997, S. 454-459

[LS88] Lauritzen, S.L.; Spiegelhalter, D.J.; Local computation with probabilities on

graphical structures and their application to expert systems. In: Journal of the

Royal Statistical Society, B 50(2), 1988, S, 157-224

[LT06] Little, I.; Thiebaux, S.: Concurrent Probabilistic Planning in the Graphplan

Framework. In: Proceedi ngs of the International Conference on Automated

Planning & Scheduling (ICAPS), 2006, S. 263-273

[Math02a] Mathworks: Optimization Toolbox User’s Guide, 2002

[Math02b] Mathworks: System Identification Toolbox User’s Guide, 2002

[Mitc97] Mitchell, T..: Machine Learning, McGraw Hill, New York 1997.

178 Literaturverzeichnis

[Möll92] Möller, D.: Modellbildung, Simulation und Identifikation dynamischer Syste-

me, Springer Verlag, Berlin, 1992

[NAI+03] Nau, D.; Au, T.-C.; Ilghamim, O.; Kuter, U.; Murdock, J.W.; Wu, D.; Yaman,

F.: SHOP2: An HTN Planning System. In: Journal of Artificial Intelligence

Research, 20, 2003, S. 379-404

[Nea04] Neapolitan, R.. E.: Learning Bayesian Networks. Pearson Education, Inc., New

Jersey, 2004.

[OG90] Olawsky, D.; Gini, M.: Deferred Planning and Sensor Use. In: Innovative Ap-

proaches to Planning, Scheduling, and Control, Morgan Kaufmann Publisher,

San Diego, 1990, S. 166–174

[OV01] Ogston, E., Vassiliadis, S.: Matchmaking among minimal agents without facili-

tator. In: Agents ’01: Proceedings of the Fifth International Conference on Au-

tonomous Agents, 2001, ACM Press, New York, S. 608-615

[OV02] Ogston, E., Vassiliadis, S.: Unstructured Agent Matchmaking: experiments in

timing and fuzzy matching. In: Proceedings of the 2002 ACM Symposium on

Applied Computing, ACM Press, New York, 2002, S. 300-305

[PB93] Pahl, G., Beitz, W.: Konstruktionslehre. Methoden und Anwendung. 3. Aufla-

ge, Springer Verlag, Berlin,, 1993

[Pear88] Pearl, Judea: PROBABILISTIC REASONING IN INTELLIGENT SYSTEMS:

Networks of Plausible Inference. Morgan Kaufmann Publishers, San Mateo,

1988.

[Pearl84] Pearl, J.: Heuristics: Intelligent Search Strategies for Computer Problem Solv-

ing. Addison-Wesley, Reading, 1984

[Pedn86] Pednault, E.: Formulation Multiagent Dynamic-World Problems in the Classic-

al Planning Framework. In: Reasoning about Actions and Plans: Proceedings of

1986 Workshop, Morgan Kaufmann, San Mateo, 1986

[Pfeif93] Pfeiffer, B.-M.: Identifikation von Fuzzy-Regeln aus Lerndaten. In: 3. Work-

shop des GMA-FA 5.2.2, Dortmund, 1993, S. 238-250

[PJ96] Parsons, S.D., Jennings, N.R.: Negotiation Through Argumentation – A Pre-

liminary Report. In: Proceedings of the Second International Conference Multi-

Agent Systems (ICMAS’96), 1996, S. 67-274

[PJK+02a] Pfeiffer, B.M.; Jäkel, J.; Kroll, A.; Kuhn, C.; Kuntze, H.B.; Lehmann, U.; Sla-

winski, T.; Tews, V.: Erfolgreiche Anwendungen von Fuzzy Logik und Fuzzy

Control (Teil 1). In: at Automatisierungstechnik, 50, 2002, S.461-471

[PJK+02b] Pfeiffer, B.M.; Jäkel, J.; Kroll, A.; Kuhn, C.; Kuntze, H.B.; Lehmann, U.; Sla-

winski, T.; Tews, V.: Erfolgreiche Anwendungen von Fuzzy Logik und Fuzzy

Control (Teil 2). In: at Automatisierungstechnik, 50, 2002, S. 511-521

[PKSA06] Pitt, J.; Kamara, L.; Sergot, M.; Artikis, A.: Voting in Multi-Agent Systems. In:

The Computer Journal, 49, 2006, S.156-170

[PL96] Nagendra Prasad, M. V.; Lesser, V. R.: Learning Situation-Specific Coordina-

tion in Generalized Partial Global Planning. In: 1996 AAAI Spring Symposium

on Adaptation, Co-evolution and Learning in Multi-agent Systems, AAAI

Press, Menlo Park, 1996

[PS92] Peot, M.A., Smith, D.E: Conditional Nonlinear Planning, In: Proceedings of

the First International Conference on Artificial Intelligence Planning Systems,

1992

[PW92] Penberthy, J. S. and Weld, D., UCPOP: A Sound, Complete, Partial-Order

Planner for ADL. In: Third International Conference on Knowledge Represen-

tation and Reasoning (KR-92), 1992.

[Rau03] Rau, M.: Nicht-Lineare modellbasierte prädiktive Regelung auf Basis lernfähi-

ger Zustandsraummodelle, Dissertation, TU München, 2003

Literaturverzeichnis 179

[RN03] Russell, S. Norvig, Peter: Artificial Intelligence - A Modern Approach, 2. Edi-

tion, Prentice Hall, Upper Saddle River, 2003.

[Rode91] Rodenacker, W.G.: Methodisches Konstruieren. Konstruktionsbücher Bd. 27,

4. Auflage., Springer Verlag, Berlin, 1991

[Roth00] Roth, K.H.: Konstruieren mit Konstruktionskatalogen, Band 1 Konstruktions-

lehre, 3. Auflage, Springer Verlag, Berlin, 2000

[RZ94] Rosenschein, J.S., Zlotkin, G.: Rules of Encounter: Designing Conventions for

Automated Negotiation Among Computers, MIT Press, Cambridge, 1994

[SB98] Sutton, R. S.;. Barto, A. G: Reinforcement Learning: An Introduction. MIT

Press, Cambridge, 1998.

[SC96] Smith, I.A.; Cohen, P.R.: Toward a Semantics for an Agent Communication

Language Based on Speech Acts. In: Proceedings of the Thirteenth National

Conference on Artificial Intelligence and the Eight Innovative Applications of

Artificial Intelligence Conference, AAAI Press, Menlo Park, 1996, S. 24-31.

[Schw01] Schwarz, J.: Grundlagen der Statistik, Band 2: Wahrscheinlichkeitsrechnung

und induktive Statistik, 7. Aufl., NWB-Studienbücher Wirtschaftswissenschaf-

ten, Herne, 2001

[SCN99] Schädel, H.M., Ctitis, C., Nikolai, D.: Fuzzy Adaption von PI-Reglern im ge-

schlossenen Regelkreis ohne Prozesskenntnis. In: 9. Workshop „Fuzzy Con-

trol“ des GMA-FA 5.2.2, Dortmund, 1999, S. 270-283

[SDW97] Sycara, K., Decker, K., Williamson, M.: Middle Agents for the Internet. In:

Proceedings of International Joint Conferences on Artificial Intelligence 97,

1997, S. 578-583

[Smi80] Smith, R.G.: The Contract Net Protocol. In: IEEE Transaction on Computers,

C-29, 1980, S. 1104-1113

[SO02] Sapena, O., Onaindía, E.: Domain-Independent Online Planning for STRIPS

Domains. In: Lecture Notes of Artificial Intelligence, 2527, Springer-Verlag,

Berlin, 2002

[SS01] Ströbel, M., Stolze, M.: A Matchmaking Component for the Discovery of

Agreement and Negotiation Spaces in Electronic Markets. In: Proceedings of

the Group Decision and Negotiation Conference, 2001, S. 61-75

[Stir03] Stirling, W.C.: Satisficing Games and Decision Making: With Applications to

Engineering and Computer Science, Cambridge University Press, Cambridge,

2003.

[SW98] Smith, D. E.; Weld, D. S.: Conformant Graphplan. In: Proceedings of the 15th

National Conference on Artificial Intelligence (AAAI-98) and of the 10th Con-

ference on Innovative Applications of Artificial Intelligence (IAAI-98), 1998

[SWMV06] Steenhuisen, J.R., Witteveen, C., ter Mors, A.W., Valk, M.: Framework and

Complexity Results for Coordinating Non-Cooperative Planning Agents. In:

Multiagent System Technologies, 4th German Conference, MATES 2006,

Springer Verlag, Berlin, 2006

[TAB06] Tsamardinos, I.; Aliferis , F.A.; Brown, L.E.: The max-min hill-climbing

Bayesian network structure learning algorithm. In: Machine Learning, 65

Springer Netherlands, 2006, S. 31-78.

[Tam97] Tambe, M.: Agent architectures for flexible, practical teamwork. In: National

Conference on Artificial Intelligence (AAAI), AAAI Press, Menlo Park 1997

[Tho90] Thoma, J.U.: Simulation by Bondsgraphs Introduction to Graphical Method.

Springer-Verlag, Berlin 1990

[TR95] Tews, V., Reine, F.: Ein Reglerbaukasten aus konventionellen und Fuzzy-

Komponenten für Echtzeitanwendungen. In: Kongreß Echtzeit 95, Karlsruhe,

1995

180 Literaturverzeichnis

[VT08] Vöcking, H.; Trächtler, A.: Self-optimization of an Active Suspension System

Regarding Energy Requirements. In: International Conference on Control, Au-

tomation and Systems 2008, 2008

[VV05] Vlahavas, I., Vrakas, D.: Intelligent Techniques for Planning, Idea Group, Pub-

lishing, Hershey, 2005

[Warr76] Warren, D. H.D.: Generating Conditional Plans and Programs. In: Proceedings

of the Summer Conference on AI and Simulation of Behavior, 1976

[WAS98] Weld, D.S., Anderson, C.R., Smith, D.E.: Extending graphplan to handle un-

certainty and sensing actions. In: Proceedings of the 15th National Conference

on Artificial Intelligence (AAAI-98) and of the 10th Conference on Innovative

Application of Artificial Intelligence (IAAI-98), AAAI Press, Menlo Park,

1998, S. 897-904

[Weld94] Weld, D.: An Introduction to Least Commitment Planning, AI Magazine, 15,

1994, S. 27-61

[Well90] Wellmann, M.P.: Formulation of Tradeoffs in Planning Under Uncertainty.

Pitman, London, 1990

[WMW05] de Weerdt, M., ter Mors, A., Witteveen C.: Multi-agent Planning: An introduc-

tion to planning and coordination. In: Handouts of the European Agent Sum-

mer School, 2005, S. 1-32

[XCZ06] Xing, Z.; Chen, Y.; Zhang, W.: MaxPlan: Optimal Planning by Decomposed

Satisfiability and Backward Reduction. In: Proceedings of the 5th International

Planning Competition, 2006, S. 53-55

[YL04] Younes, H.L.S., Littman, M.L.: PPDDL1.0: An Extension to PDDL for Ex-

pressing Planning Domains with Probabilistic Effects, Technical Report CMU-

CS-04-167, School of Computer Science, Carnegie Mellon University, Pitts-

burgh, 2004

[YS03] Younes, H.; Simmons, R.: VHPOP: Versatile heuristic partial order planner,

Journal of Artificial Intelligence, 20, 2003, S. 405-430

[ZHWZ04] Zhou, P.-C.; Hong, B.-R.. Wang, Y.-H., Zhou, T.: Multi-Agent Cooperative

Pursuit Based on Extended Contract Net Protocol. In: Proceedings of the Third

International Conference on Machine Learning and Cybemetics, 2004, S.. 169-

173

[Zilb96] Zilberstein, S.: Using Anytime Algorithms in Intelligent Systems. In: AI Ma-

gazine, 17, 1996, S. 73–83

Anhang A: Modellierungsmethoden im Entwurf mechatronischer Systeme 181

A. Modellierungsmethoden im Entwurf mechatronischer

Systeme

Es existiert eine Vielzahl von Modellierungsmethoden, mechatronische Systeme oder Teilas-

pekte mechatronischer Systeme im Entwurfprozess zu beschreiben. An dieser Stelle wird aus-

schließlich auf Modellierungsmethoden zur Beschreibung des Verhaltens eingegangen. Me-

thoden, die auf Struktur oder Gestalt des Produkts abzielen, sind für diese Arbeit nicht rele-

vant.

Eine der einfachsten Methoden zur Beschreibung des Systemverhaltens auf einem allgemei-

nen Niveau sind Blockdiagramme oder Blockschaltbilder [Föl94]. Ein einzelnes Teilsystem

oder eine einzelne Teilfunktion wird dabei als Block mit spezifizierten Eingangs- und Aus-

gangsgrößen dargestellt. Die Transformation der Ein- und Ausgangsgrößen kann durch ma-

thematische Modelle sehr konkret beschrieben werden. Wegen ihrer starren Verknüpfung und

der geringen Formalisierung sind Blockdiagramme aber nicht für eine Verhaltensplanung

geeignet.

Viele Modellierungsansätze stellen das Verhalten mechatronischer Systeme mithilfe endlicher

Zustandsautomaten oder Erweiterungen dieses Konzepts dar. Die Grundidee dabei ist jeweils,

die möglichen Zustände des Systems und erlaubte Übergänge zwischen ihnen darzustellen. Zu

den Vertretern dieses Modellierungsansatzes gehören die SDL, Abstrakte Datenmodellierung

[CCI89, CCI93], die Mechatronic UML [BTG04] und die SysML [HV05]. SDL wurde zur

Spezifikation kommunizierender technischer Systeme entwickelt. Damit eignet es sich grund-

sätzlich zur Modellierung interagierender Systeme. Die Kommunikation wird über Signale

zwischen Prozessen beschrieben, die ihrerseits in Form erweiterter endlicher Zustandsautoma-

ten beschrieben werden. Auf diese Weise wird eine getrennte Modellierung der Zustände ein-

zelner Systeme möglich. Jedoch geben die erweiterten Zustandsautomaten einen relativ star-

ren Rahmen für das Systemverhalten vor. Auf Einflüsse, Ziele und Situationen, die zur Ent-

wurfszeit nicht bekannt sind oder erkannt wurden, kann das System nicht mehr reagieren.

Die RealTime State Charts der Mechatronic UML dienen in erster Linie der Modellierung und

Verifikation der Kommunikation und Koordination mechatronischer Systeme. Eine Erweite-

rung stellen hybride Statecharts dar, die jedem Zustand einen (implementierten) Regler mit

kontinuierlichem Verhalten zuordnen. Gegenüber der SDL ist diese Berücksichtigung konti-

nuierlichen Verhaltens ein wesentlicher Vorteil der Mechatronic UML. Jedoch ist diese Mo-

dellierungsmethode zur Verifikation des sicherheitskritischen Verhaltens eines Systems kon-

zipiert und zur algorithmischen Verarbeitung in Planungsalgorithmen kaum geeignet. Insbe-

sondere die Darstellung kontinuierlichen Verhaltens in Form von Reglern läuft dieser Ver-

wendung zuwider, da Regler nur ein reaktives Verhalten implementieren. Da die Verhaltens-

beschreibung in der SysML genau wie in der Mechatronic UML auf der UML 2.0 Spezifika-

tion aufsetzen, gelten auch hier die gleichen Einschränkungen. Außerdem ist die SysML nicht

in der Lage, kontinuierliches Verhalten darzustellen.

Sogenannte Bondgraphen [Tho90] liefern eine Beschreibungsform der Energie- und Leis-

tungsflüsse zwischen Komponenten (Subsysteme). Grundlage für die Spezifikation von

Bondgraphen sind die allgemeinen Gleichungen für Leistung, Impuls und Verschiebung.

Energie- und Leistungsflüsse zwischen Systemen werden durch gerichtete Kanten dargestellt.

Mithilfe von Softwarewerkzeugen können automatisch Differenzialgleichungen abgeleitet

werden, um das System zu modellieren. Da Bondgraphen keine Informations- und Stoffflüsse

darstellen können, stellen sie nur einen Teilaspekt mechatronischen Verhaltens dar. Schön

[Schö00] verbindet Statecharts und Bondgraphen zur Modellierung zeitkontinuierlicher und

ereignisorientierter Aspekte mechatronischer Systeme. Dabei werden die Gleichungssysteme

182 Anhang B: Planungsverfahren der Künstlichen Intelligenz

und Ereignisverarbeitung jeweils in Zeitabschnitten (taktweise) abgearbeitet. Damit liefert

Schön einen Ansatz zur Integration von kontinuierlichen Verhaltensweisen und diskreter

Funktionsausführung. Allerdings gelten bzgl. der Statecharts und der aus ihnen ausgeleiteten

Programme die gleichen Einschränkungen wie bei der SDL und UML.

Allen hier beschriebenen Modellierungsansätzen ist gemeinsam, dass sie dazu dienen, vom

menschlichen Entwickler zur Spezifikation des Verhaltens eines zu entwickelnden Produkts

genutzt zu werden. Obwohl einige der Modellierungsmethoden durchaus formale und sogar

operable Modelle liefern, sind sie als Aufgabenobjekt für eine Verhaltensplanung nicht geeig-

net. Ihre Anwendung scheitert, da keines der erzeugten Modelle Informationen darüber

enthält, wie das Verhalten des Systems im Hinblick auf ein konkretes Ziel gestaltet werden

muss. Während des Entwurfs leistet diese Gestaltung der Entwickler. Für einen algorithmi-

schen Ansatz käme beispielsweise auf Basis von endlichen Zustandsautomaten nur das

Durchspielen aller möglichen Zustandssequenzen und die anschließende Auswahl der besten

Sequenz in Frage. Dieses Vorgehen wäre allerdings nicht sonderlich effizient.

B. Planungsverfahren der Künstlichen Intelligenz

Zur Lösung des Planungsproblems stehen mehrere unterschiedliche Typen von Lösungsver-

fahren zur Verfügung. Eine ausführliche Übersicht über die Lösungsverfahren kann bei-

spielswise in [RN03] nachgelesen werden. An dieser Stelle soll nur ein kurzer Überblick über

die unterschiedlichen Lösungsansätze gegeben werden, die anwendungsspezifische Vor- und

Nachteile besitzen.

Ein intuitiver Ansatz ist die Lösung des Planungsproblems mithilfe eines Suchverfahrens

[RN03]. Dabei wird das Planungsproblem als gerichteter Graph aufgefasst, in dem die Knoten

Zustände repräsentieren, die durch Aktionen miteinander verbunden sind. Eine Aktion ist eine

ausgehende Kante eines Zustands, wenn dieser ihre Vorbedingungen erfüllt. Der sich erge-

bende Nachfolgerknoten lässt sich anhand der Effekte der Aktionen (unter den Annahmen der

klassischen Planung) genau bestimmen. Die Zustandsraumsuche liefert tatsächlich eine Se-

quenz von Aktionen, der die Ausführungsreihenfolge der Aktionen eindeutig zu entnehmen

ist. Man spricht daher von total geordneten Plänen. Im praktischen Einsatz kommt der Ver-

wendung von Heuristiken entscheidende Bedeutung zu, um den Suchprozess zu beschleuni-

gen (z.B. durch den Algorithmus A* [Pearl84]). Dabei ist es in der Regel besser möglich, für

konkrete Problemstellungen heuristische Schätzfunktionen zu formulieren. Ein Beispiel für

einen heuristischen Suchplaner ist FastForward [HN01].

Planbasiertes Planen oder partiell ordnendes Planen liefert im Gegensatz zur Zustandsraum-

suche keine vollständig geordneten Pläne [Weld94]. Das bedeutet insbesondere, dass das Pa-

radigma der Problemzerlegung genutzt werden kann. Der Verzicht auf eine vollständige Ord-

nung des Plans führt zu einer größeren Flexibilität des Planungsalgorithmus, durch die der

Lösungsraum schneller einzuschränken ist. Der Planungsalgorithmus kann zunächst offensich-

tliche oder wichtige Aktionen einplanen, anstatt der chronologischen Reihenfolge folgen zu

müssen. Im Anschluss an den Planungsprozess muss eine vollständig geordnete Variante des

Plans (Lineariesierung) erzeugt werden, um den Plan ausführen zu können. Es existieren di-

verse Umsetzungen von partiell ordnenden Planern (siehe z. B. [PW92], [YS03]).

Blum und Furst stellten mit GRAPHPLAN [BF97] ein System vor, das wesentlich schneller

arbeitete als die damaligen partiell ordnenden Planer. Es gehört zu den graphbasierten Pla-

nern. Es handelt sich um eine Klasse von Planungsalgorithmen, die für Planungsaufgaben

genutzt werden können, die in reiner Aussagenlogik formuliert werden.

Anhang A: Modellierungsmethoden im Entwurf mechatronischer Systeme 183

Das System verwendete dabei einen Planungsgraphen. Ein Planungsgraph besteht aus zwei

Knotenarten: Propositionsknoten und Aktionsknoten, wobei Propositionsknoten nur mit Akti-

onsknoten verbunden sind und umgekehrt. Der Graph wird in Ebenen unterteilt, die jeweils

einen Zeitschritt im Plan (also einen Schritt, in dem eine Aktion ausgeführt wird) enthalten.

Die erste Ebene enthält dabei die Literale des Initialzustands, die Aktionen, die darauf ausge-

führt werden können, und die Literale, die durch die Ausführung dieser Aktionen erzeugt

werden können. Damit enthält der Plangraph in etwa alle Literale, die in einem Zeitschritt

wahr sein könnten, und in etwa alle Aktionen, die in einem Zeitschritt ausgeführt werden

könnten. Die Zuordnung der Aktionen und Literale ist aber nur „in etwa“ korrekt, da der Pla-

nungsgraph zunächst nur einen Teil der Konflikte zwischen Aktionen berücksichtigt. Ein Al-

gorithmus zur Erzeugung eines Plans aus einem Plangraphen iteriert über zwei Lösungsschrit-

te. Im ersten Schritt, der Expansion des Graphen, werden die Aktionen der aktuellen Ebene

und die Literale der nächsten Ebene eingefügt. Die folgende Lösungsextraktion überprüft, ob

alle Literale des Zielzustands in der aktuellen Ebene enthalten sind und ob zwischen den

enthaltenen Literalen Mutex-Relationen bestehen. Falls alle Literale vorhanden sind und keine

Mutex-Relationen bestehen, enthält der Plangraph möglicherweise einen gültigen Plan. Dies

wird überprüft, indem der Planungsgraph rückwarts nach einer Sequenz von Aktionen durch-

sucht wird, wobei die in den Mutex-Relationen enthaltene Information genutzt wird.

C. XML-Format der Bayes-Netzwerke

Im Rahmen der Validierung des Agentensystems zur Vorhersage probabilistischer Fahrzeiten

wurde zur Initialisierung der Agenten eine XML-Beschreibung der Bayes-Netzwerke ver-

wendet. Das folgende Listing zeigt die DTD des XBIF-Formats, das zur Beschreibung der

Expertennetzwerke eingesetzt wurde.

<! -- DTD of eXtended Bayesian Network Interchange Format v0.1 ( XBIF ) -->

<! ELEMENT XBIF ( NETWORK )* >

<! ATTLIST BIF VERSION CDATA # REQUIRED >

<! ELEMENT NETWORK ( ( PROPERTY | VARIABLE | DEFINITION )* )>

<! ATTLIST NETWORK NAME ID # REQUIRED TEMPLATE CDATA # IMPLIED

TOPOLOGY CDATA # IMPLIED >

<! ELEMENT VARIABLE ( (( OUTCOME | INTERVAL ) | PROPERTY )* ) >

<! ATTLIST VARIABLE NAME ID # REQUIRED

TYPE ( discrete | continuous | continuous_time ) " discrete ">

<! ELEMENT OUTCOME (# PCDATA )>

<! ELEMENT INTERVAL (# PCDATA )>

<! ELEMENT DEFINITION ( GIVEN | ( TABLE | FUNCTION ) | PROPERTY )* >

<! ATTLIST DEFINITION FOR CDATA # REQUIRED >

<! ELEMENT FOR (# PCDATA )>

<! ELEMENT GIVEN (# PCDATA )>

<! ATTLIST GIVEN MEAN_VALUES CDATA # IMPLIED STD_DEVS CDATA # IMPLIED >

<! ELEMENT TABLE (# PCDATA )>

<! ELEMENT FUNCTION ( PARAM * )>

<! ATTLIST FUNCTION TYPE ( gaussian ) " gaussian ">

<! ELEMENT PARAM (# PCDATA )>

<! ATTLIST PARAM NAME CDATA # REQUIRED >

<! ELEMENT PROPERTY (# PCDATA )>

Listing C-1: DTD des eXtended Bayesian Network Interchange Format

Die in Tabelle 6.1 dargestellte CPF (Bedingte Wahrscheinlichkeitsverteilung) einer Variable

C mit zwei Elternknoten A und B und jeweils drei Ausprägungen pro Variable würde als

Konkatenation der Zeilen der Tabelle im XML-Format angegeben als:

<TABLE>0.30 0.20 0.50 0.60 0.50 0.80 0.80 0.70 0.90 0.30 0.40 0.30 0.30 0.40 0.15 0.15

0.25 0.10 0.40 0.40 0.20 0.10 0.10 0.05 0.05 0.05 0.00</TABLE>

184 Anhang B: XML-Format der Bayes-Netzwerke

0,3 0,2 0,5 0,6 0,5 0,8 0,8 0,7 0,9

0,3 0,4 0,3 0,3 0,4 0,15 0,15 0,25 0,1

0,4 0,4 0,2 0,1 0,1 0,05 0,05 0,05 0,0

Tabelle C-1: Wahrscheinlichkeitsverteilung einer Variablen C mit Elternknoten A und B

Das folgende Listing zeigt ein Beispiel für eine XML-Datei, die den Aufbau und die Parame-

ter eines Expertennetzwerks beschreibt.

<? xml version =" 1.0 " encoding ="UTF -8"?>

<! DOCTYPE XBIF SYSTEM " xbif . dtd ">

<! -- Bayesian network in XBIF v0 .1 -->

</ FUNCTION >

</ DEFINITION >

</ FUNCTION >

</ DEFINITION >

<GIVEN >arrival </ GIVEN >

<TABLE >0.00 0.02 0.00 0.00 0.00 0.02 0.00 0.00 0.80 0.30 26 0.40

0.30 0.80 0.00 1.00 0.18 0.70 0.60 0.70 0.18 27 1.00

</ TABLE >

</ DEFINITION >

fog

</ GIVEN >

ice

</ GIVEN >

rush_hour

</ GIVEN >

</ FUNCTION >

</ DEFINITION >

</ NETWORK >

</ XBIF >

Listing C-2: Beispiel einer XBIF Beschreibung eines Experten-Netzwerks

Versuchsaufbau Belief-Dijkstra 185

D. Versuchsaufbau Belief-Dijkstra

Es wäre zu aufwendig gewesen, für alle Streckenabschnitte der Transportnetzwerke von Hand

ein Bayes-Netz mit trackspezifischen a-priori-Verteilungen der Fahrtdauer zu erstellen. Daher

wurden zwei Bayes-Netze mit unterschiedlicher Topologie (Typ A und B, dargestellt in Ab-

bildung 7-4) erstellt, anhand derer durch Anpassung der a-priori-Verteilungen der Einfluss-

faktoren 12 Schablonen erstellt wurden, die verschiedenen Szenarien entsprechen. Die Netze

vom Typ B enthalten zwei Knoten: Humidity und Temperature. Für sie sollen vor jeder Anf-

rage weiche Evidenzen eines Wetter-Agenten gesetzt werden. Da ein solcher Wetter-Agent

nicht zur Verfügung steht, wurden für die Tests für alle Tracks eines Transportnetzwerkes die

gleichen (zuvor festgelegten) weichen Evidenzen für die Knoten Humidity und Temperature

angenommen. In der Testvorbereitung wurde jedem Track zufällig eines der Szenarien zu-

geordnet und für jede Ausprägung der Elternknoten von Ride Duration die a-priori-

Verteilungen der Fahrtdauer entsprechend der Länge des jeweiligen Tracks generiert.

Schablone Beschreibung Typ

1 starker Berufsverkehr B

2 moderater Berufsverkehr B

3 geringer Berufsverkehr B

4 kein Berufsverkehr B

5 kein Berufsverkehr, Großveranstaltung (groß) von 14-18 h A

6 geringer Berufsverkehr, Großveranstaltung (groß) von 9-14 h A

7 moderater Berufsverkehr, Großveranstaltung (klein) von 9-14 h A

8 starker Berufsverkehr, keine Großveranstaltung A

9 starker Berufsverkehr, keine Großveranstaltung A

10 geringer Berufsverkehr, Großveranstaltung (klein) von 14-18 h, verrin-

gerte Eisgefahr

11 moderater Berufsverkehr, keine Großveranstaltung, verringerte Eisge-

fahr

12 moderater Berufsverkehr, keine Großveranstaltung, keine Eisgefahr A

Tabelle D-1: Schablonen für die Bayes-Netzwerke der Track-Agenten

Der Knoten Humidity des Netztyps B repräsentiert die relative Luftfeuchtigkeit und wurde

entgegen seiner kontinuierlichen Natur als diskrete Variable modelliert. Sein Wertebereich ist

auf das Intervall [0, 100] beschränkt, eine Normalverteilung weist jedoch grundsätzlich einen

unendlichen Wertebereich auf. Für den praktischen Einsatz der Fahrtdauerprognose soll ein

spezieller Wetter-Agent vor einer Prognose weiche Evidenzen für die Knoten Humidity und

Temperature des Netztyps B liefern. Da ein solcher Wetter-Agent bislang nicht zur Verfügung

steht, wurden in den Tests für Humidity die in Tabelle D-2 angegebenen weichen Evidenzen

manuell gesetzt. Für den kontinuierlichen Knoten Temperature wurde eine N(2◦C, 3◦C) Ver-

teilung als evident angenommen.

Tabelle D-3 gibt einen Überblick über die verwendeten Zufallsvariablen und ihre Ausprägun-

gen, bzw. im Falle kontinuierlicher Variablen die verwendeten Intervalle. Gleichnamige Va-

riablen haben in beiden Netzen die gleichen Ausprägungen/Intervalle.

186 Anhang B: Versuchsaufbau Belief-Dijkstra

Ausprägung Wahrscheinlichkeit

0-25% 0,00

25-50% 0,05

50-75% 0,70

75-90% 0,24

90-95% 0,01

95-100% 0,00

Tabelle D-2: Weiche Evidenzen für den Knoten Humidity

Knoten Ausprägungen Typ in Netztyp

Arrival 0:00-7:00 h

7:00-9:00 h

9:00-11:45 h

11:45-14:00 h

14:00-16:00 h

16:00-18:00 h

18:00-0:00 h

continuous_time A,B

Event big

small

none

discrete A

Fog thick

some

none

discrete B

Humidity 0-25%

25-50%

50-75%

75-90%

90-95%

95-100%

discrete B

Ice area-wide

partly

none

discrete A,B

Month January,...,December discrete A

Ride Duration - continuous A,B

Rush Hour heavy

moderate

none

discrete A,B

Temperature -infinity - -5

-5 - -1

-1 - 0

0 - 1

1 - 5

5 - 10

10 - 15

15 - 20

20 - 25

25 - infinity

continuous B

Tabelle D-3: Zufallsvariablen der beiden verwendeten Netztypen

Die beiden folgenden Tabellen zeigen die zur Generierung der Verteilungen verwendeten

Durchschnittsgeschwindigkeiten und Anteile. Für den Test der Mechanismen zur Eindäm-

Versuchsaufbau Belief-Dijkstra 187

mung des Verspätungsrisikos wurden bei der Generierung der Standardabweichungen andere

Anteile verwendet als für die restlichen Tests: Bei den Tests zur Abweichung von der simu-

lierten Fahrtdauer und zur Fahrtdauerersparnis bei unterschiedlichen Pfaden wurden die in der

Spalte „Anteil Test 1“ von Tabelle D-5 angegebenen Anteile benutzt. Für den Test der Me-

chanismen zur Eindämmung des Verspätungsrisikos wurde dagegen zufällig einer der beiden

Anteile aus den Spalten „Anteil I Test 2“ und“Anteil II Test 2“ verwendet.

Variable Ausprägung Durchschnittsgeschwindigkeit

Event big

small

none

30,0

60,0

80,0

Fog thick

some

none

40,0

70,0

80,0

Ice area-wide

partly

none

40,0

65,0

80,0

Rush Hour heavy

moderate

none

45,0

60,0

80,0

Tabelle D-4: Mittlere Geschwindigkeiten zur Generierung der Erwartungswerte

Variable Ausprägung Anteil Test 1 Anteil I Test 2 Anteil II Test 2

Event big

small

none

0,05

0,1

0,05

0,01

0,04

0,01

0,15

0,25

0,12

Fog thick

some

none

0,08

0,05

0,02

0,01

0,16

0,12

Ice area-wide

partly

none

0,07

0,16

0,05

0,02

0,05

0,01

0,20

0,32

0,12

Rush Hour heavy

moderate

none

0,185

0,1

0,05

0,07

0,04

0,01

0,40

0,25

0,12

Tabelle D-5: Anteile zur Bestimmung der Standardabweichungen