Document [original]

Heuristische Diagnose mit Assoziationsregeln

Vom Fachbereich 17 (Mathematik / Informatik)

der Universität Paderborn

zur Erlangung des akademischen Grades eines

Doktors der Naturwissenschaften

genehmigte Dissertation

von

Uwe Husemeyer

...

Heuristische Diagnose mit Assoziationsregeln

Vom Fachbereich 17 (Mathematik / Informatik)

der Universität Paderborn

zur Erlangung des akademischen Grades eines

Doktors der Naturwissenschaften

genehmigte Dissertation

von

Uwe Husemeyer

Tag der mündlichen Prüfung: 9. Mai 2001

Referent: Prof. Dr. Hans Kleine Büning

Korreferent: Prof. Dr. Franz Josef Rammig

...

Vorwort

Die vorliegende Arbeit entstand während meiner Zeit als wissenschaftlicher Mitar-

beiter in der Arbeitsgruppe »Wissensbasierte Systeme« an der Universität Paderborn.

Ich möchte mich an dieser Stelle bei Herrn Prof. Dr. Hans Kleine Büning, dem Leiter

der Arbeitsgruppe, herzlich bedanken für die Unterstützung, die er mir zukommen

ließ, und für die Freiheit, die er mir während der Forschungsarbeit gewährte – sowohl

in wissenschaftlicher als auch in zeitlicher Hinsicht.

Obwohl eine Dissertation die Befähigung eines Einzelnen zu selbständiger wissen-

schaftlicher Arbeit unter Beweis stellen soll, wäre diese Arbeit nicht ohne die Mit-

wirkung von Kollegen und Freunden zustande gekommen: Neben anderen danke

ich daher insbesondere Benno Stein, der mir während unserer engen Zusammenar-

beit immer wieder wertvolle Denkanstöße gab, sowie Theodor Lettmann und Oliver

Niggemann, mit denen ich viele fruchtbare Diskussionen führte. Nicht nur hierfür,

aber besonders für die Hilfe bei der anstrengenden Arbeit des Korrekturlesens und

der Herstellung der Kompatibilität zur deutschen Sprache danke ich meiner Freundin

Christina Meyer sowie André Schekelmann und Michael Suermann.

Darüber hinaus gilt mein Dank allen Mitgliedern der Prüfungskommission,insbeson-

dere Herrn Prof. Dr. Franz Josef Rammig für die Übernahme des Korreferats.

Uwe Husemeyer Paderborn, im Mai 2001

..

iii

...

iv ..

...

Inhaltsverzeichnis

1 Einleitung 1

1.1 Kontext der Arbeit . . ......................... 2

1.2 Aufbau der Arbeit . . . ......................... 3

2 Wissensakquisition mit Data Mining 5

2.1 Automatische Wissensverarbeitung . .................. 5

2.1.1 Wissen ............................. 5

2.1.2 Wissensbasierte Systeme . . .................. 8

2.1.3 Wissensakquisition . . . . . .................. 9

2.2 Wissensentdeckung in Datenbanken und Data Mining . . . . . .... 11

2.2.1 Definition . . . ......................... 12

2.2.2 Ziele und Verfahren . . . . . .................. 14

2.2.3 Einzelschritte im Wissensentdeckungsprozeß . . . . . .... 16

2.2.4 Data-Mining-Schritt . . . . .................. 19

2.3 Neuer Ansatz zur Akquisition von Diagnosewissen . . . . . . .... 22

2.3.1 Diagnose technischer Anlagen . . . . . . ........... 22

2.3.2 Wissensbasierte Diagnoseansätze . . . . ........... 25

2.3.3 Integration von Data Mining in die Wissensakquisition .... 28

3 Assoziationsregeln 33

3.1 Regelkonzepte . ............................. 34

3.1.1 Regeln ............................. 35

3.1.2 Assoziationsregelkonzept . .................. 36

3.1.3 Assoziationsregelarten . . . .................. 39

3.2 Boolesche Assoziationsregeln . . . .................. 42

3.2.1 Definition und Eigenschaften .................. 42

..

v

INHALTSVERZEICHNIS ..

3.2.2 Assoziationsregelproblem ................... 44

3.2.3 Basisalgorithmus zur Regelerzeugung . ............ 47

3.3 Kategoriale Assoziationsregeln . . ................... 51

3.3.1 Definition . . .......................... 52

3.3.2 Erzeugung kategorialer Assoziationsregeln . . . . . ..... 53

3.4 Klassifikationsregeln .......................... 55

3.4.1 Klassifikationsregelproblem . . . . . . ............ 55

3.4.2 Klassifikation mit Assoziationsregeln . ............ 56

4 Diagnose hydraulischer Systeme mit Assoziationsregeln 61

4.1 Einführende Bemerkungen zur Hydraulik . . . ............ 62

4.1.1 Hydraulische Anlagen . . ................... 62

4.1.2 Physikalische Größen in der Hydraulik ............ 65

4.1.3 Aufgaben einer rechnergestützten Diagnose . . . . . ..... 68

4.2 Gesamtkonzept des Diagnoseansatzes . . . . . ............ 70

4.2.1 Voraussetzungen . . . . . ................... 70

4.2.2 Einzelschritte .......................... 71

4.2.3 Repräsentation der Diagnoseregeln . . ............ 73

4.2.4 Zielsetzung . .......................... 75

4.3 Simulation . . .............................. 75

4.3.1 Erstellung eines Meßplans ................... 75

4.3.2 Erstellung eines Simulationsplans . . . ............ 77

4.4 Symptomerkennung . .......................... 79

4.5 Diskretisierung . . . .......................... 81

4.5.1 Motivation und Definition ................... 81

4.5.2 Bekannte Verfahren . . . . ................... 84

4.5.3 Neuer Diskretisierungsalgorithmus . . ............ 85

4.6 Meßstellenauswahl . .......................... 89

4.6.1 Motivation und Vereinbarungen . . . . ............ 90

4.6.2 Abhängigkeitsanalyse . . ................... 91

vi ..

..INHALTSVERZEICHNIS

4.6.3 Bewertungsfunktionen für die Meßstellenauswahl . . . .... 98

4.7 Diagnoseregelerzeugung . . . . . . ..................106

4.7.1 Vereinbarungen .........................106

4.7.2 Algorithmus . .........................107

4.7.3 Regelmengenoptimierung . ..................109

4.8 Hypothesengenerierung .........................111

4.8.1 Rahmenkonzept und Problemfelder . . . ...........112

4.8.2 Konfidenzverrechnung in MYCIN . . . . ...........114

4.8.3 Globaler Ansatz zur Konfidenzverrechnung . . . . . . ....117

5 Evaluierung des Diagnoseansatzes 121

5.1 Testanlage und Parameter für die Lernphase . . . ...........122

5.2 Testverfahren für die Diagnosephase ..................125

5.3 Testergebnisse . .............................127

5.3.1 Regelanzahl . . .........................127

5.3.2 Diagnosegüte . .........................130

5.3.3 Fazit . . .............................134

6 Zusammenfassung und Ausblick 137

A Mathematischer Anhang 139

A.1 λ-Maße . . . . .............................139

A.2 Informationsgehalt . . .........................140

B Ergebnistabellen 143

Literaturverzeichnis 151

..

vii

INHALTSVERZEICHNIS ..

viii ..

...

1 Einleitung

Innerhalb eng begrenzter Aufgabengebiete werden für Problemstellungen, zu deren

Lösung umfangreiches Spezialwissen erforderlich ist, typischerweisesogenanntewis-

sensbasierte Systeme oder Expertensysteme eingesetzt. Die wichtigsten Faktoren für

das »intelligente« – d.h. dem Menschen nachempfundene – Problemlösungsverhal-

ten dieser Systeme sind zum einen die Eignung der eingesetzten Schlußfolgerungs-

methoden und zum anderen der Umfang, die Qualität und die Repräsentation des zur

Verfügung stehenden Domänenwissens.

Die vorliegende Arbeit beschäftigt sich schwerpunktmäßig mit dem zweiten Aspekt:

der Akquisition und Verarbeitung von Domänenwissen in Expertensystemen. Das

Anwendungsgebiet ist die Fehlererkennung (Diagnose) für komplexe hydraulische

Anlagen. Um hier zu einem leistungsfähigen Gesamtkonzept zu gelangen, wird die

Verknüpfung von Techniken aus den Gebieten der wissensbasierten Systeme und des

Data Minings vorgenommen. Das Ergebnis ist ein neuer Ansatz für die vollständig

automatische Generierung von Diagnosesystemen, in denen das anlagenspezifische

Diagnosewissen durch heuristische Assoziationsregeln repräsentiert wird.

Inhaltlich gliedert sich die Arbeit in drei Teile:

1. Motivation eines neuen Ansatzes zur automatischen Akquisition von heuristi-

schem Diagnosewissen und Diskussion von hierfür geeigneten Assoziationsre-

gelalgorithmen.

2. Einbettung des Akquisitionsansatzes in ein vollständiges Konzept zur Diagno-

se komplexer hydraulischer Anlagen und detaillierte Beschreibung der Einzel-

schritte.

3. Evaluierung des Ansatzes durch die Auswertung von Ergebnissen, die mit einer

prototypischen Implementierung zur Lösung von Diagnoseproblemen erzielt

wurden.

In Abschnitt 1.1 wird der Kontext der Arbeit kurz erläutert, und in Abschnitt 1.2 wird

ihr Aufbau im Überblick dargestellt.

..

1

1EINLEITUNG ..

1.1 Kontext der Arbeit

Die Diagnose, auch Diagnostik genannt, ist ein Prozeß des Rückschlusses von be-

obachtbaren Wirkungen (Symptomen) auf ihre unbekannten Ursachen (Fehler oder

Krankheiten). Im technischen Anwendungsbereich kann ein Diagnoseproblem zum

Beispiel darin bestehen, die Ursachen für die Fehlfunktion (Störung) einer techni-

schen Anlage zu finden. In der Regel ist ein defektes Bauteil für eine solche Störung

verantwortlich. Zur Identifikation dieses Bauteils können verschiedene Strategien

verfolgt werden, etwa die Messung von charakteristischen physikalischen Größen

und darauf basierende Schlußfolgerungen. Dieser Vorgang wird Diagnoseprozeß ge-

nannt und erfordert von einem Fachexperten üblicherweise viel Erfahrungswissen,

insbesondere, wenn es sich um eine komplexe Anlage mit vielen Bauteilen handelt.

Für die automatische Lösung von Diagnoseproblemen werden sogenannte Diagno-

sesysteme eingesetzt. Dies können wissensbasierte Systeme (Expertensysteme) sein,

die das Wissen eines oder mehrerer Fachexperten abbilden und durch geeignete

Schlußfolgerungsmethoden selbständig zu Problemlösungen gelangen. Da das Dia-

gnosewissen gewöhnlich spezialisiertes Fachwissen darstellt, ist der Wissenserwerb

die Hauptschwierigkeit bei der Entwicklung von Expertensystemen (vgl. [PGPB96]).

Aber auch die Wissensverarbeitung hat ihre Grenzen: Am häufigsten werden mo-

dellbasierte oder heuristische Diagnoseansätze gewählt, wobei beide Ansätze Vor-

und Nachteile aufweisen. Modellbasierte Diagnosesysteme verarbeiten kausale

Ursache-Wirkungs-Zusammenhänge des Problembereichs; hierdurch erlangen sie

eine hohe Problemlösungsfähigkeit, sind aber sehr laufzeitintensiv. Dagegen ba-

sieren heuristische Systeme auf der Verarbeitung von assoziativem Wissen, das aus

einfachen Erfahrungsregeln für das Vorliegen von Fehlern bei Beobachtung bestimm-

ter Symptome besteht. Heuristische Verfahren sind zwar schnell, allerdings ist der

Wissenserwerb oft aufwendig und fehleranfällig (vgl. [Pup91]).

In diesem Spannungsfeld zeigt die vorliegende Arbeit einen neuen Ausweg: Durch

die Anwendung von Data-Mining-Verfahren werden die Vorteile modellbasierter und

heuristischer Diagnoseansätze miteinander verbunden. Dazu wird ein Wissensakqui-

sitionskonzept entwickelt, das in einem zweistufigen Prozeß auf kausale Verhaltens-

modelle des Problembereichs zurückgreift, um das hierin implizit vorhandene dia-

gnoserelevante Wissen in explizite heuristische Assoziationsregelmodelle zu trans-

formieren. Diese Modelltransformation ist durch den Einsatz von Simulations- und

Data-Mining-Verfahren vollständig automatisierbar und wird in dieser Arbeit für den

Bereich hydraulischer Anlagen detailliert beschrieben.

Abbildung 1.1 stellt das entwickelte Wissensakquisitions- und Diagnosekonzept

im Überblick dar. Der linke Teil zeigt die wichtigsten Phasen beim Aufbau ei-

nes Diagnosesystems (Simulations- und Regellernphase), der rechte Teil zeigt die

2..

..1.2 AUFBAU DER ARBEIT

Hypothesen-

generierung

Diagnose

Simulations-

datenbasis

Abstraktion / Modellierung

Assoziations-

regelmodell

Simulation

Data Mining

Messung

DiagnosephaseRegellernphase

Simulationsphase

Anlagenmodell Reale hydrau-

lische Anlage

Meßphase

Meßwerte-

protokoll

Physikalisches

ARGUS

Abbildung 1.1: AutomatischeGenerierung und Anwendungeines heuristischen Dia-

gnosesystems unter Verwendung von Data-Mining-Verfahren

wichtigsten Phasen bei seiner Anwendung im Störungsfall (Meß- und Diagnose-

phase). Die vorliegende Arbeit behandelt schwerpunktmäßig den grau hinterlegten

Bereich. Sie beschreibt dabei neue Lösungen für die Datengewinnung, die Modell-

transformation sowie die Regelanwendung und faßt die Ergebnisse zusammen, die

im Rahmen einer Evaluierung mit dem prototypischen Diagnosesystemgenerator

ARGUS (Assoziationsregelgenerator für die heuristische Diagnose) erzielt wurden.

1.2 Aufbau der Arbeit

Kapitel 2 führt zunächst in die Themenfelder automatische Wissensverarbeitung,

Wissensentdeckung in Datenbanken und Data Mining ein. Anhand des Problems der

Diagnose technischer Systemewird anschließenddas Konzept zur automatischenAk-

quisition von heuristischem Diagnosewissen für komplexe technische Anlagen moti-

viert.

Kapitel 3 befaßt sichmit Assoziationsregelnals Repräsentation für heuristischesDia-

gnosewissen. Es werden verschiedene aus der Literatur bekannte Regelkonzepte ge-

geneinander abgegrenzt und hinsichtlich ihrer Ausdrucksmöglichkeiten systematisch

eingeordnet. Als weiterer wichtiger Aspekt wird die Erzeugung vollständiger Regel-

..

3

1EINLEITUNG ..

mengen betrachtet, dieden Kriterien zur Anwendungfür Diagnoseproblemegenügen.

Kapitel 4 stellt die Umsetzung des neuen Ansatzes zur automatischen Generierung

von heuristischen Diagnosesystemen für hydraulische Anlagen vor. Es erfolgt zu-

nächst eine Einführung in die Besonderheiten der Hydraulikdomäne. Einer Kurzdar-

stellung des vollständigenDiagnosekonzepts schließtsich die detaillierte Betrachtung

seiner Einzelschritte an; dabei werden sowohl theoretische als auch praxisrelevante

Aspekte beschrieben.

Kapitel 5 evaluiert den Diagnoseansatz. Dazu wird die objektive Problemlösungs-

fähigkeit von Diagnosesystemen bewertet, die mit dem Demonstrationsprototyp AR-

GUS für hydraulischeBeispielanlagen automatischerzeugt wurden. Eswird insbeson-

dere auf die Variation der Parameter zur Regelgenerierung sowie ihre Auswirkungen

auf die Regelanzahl und die Diagnosegüte eingegangen.

Kapitel 6 faßt die Ergebnisse dieser Arbeit zusammen und gibt einen Ausblick auf

mögliche Erweiterungen der dargestellten Konzepte.

Im Anhang werden die Herleitungen für einige aus der Literatur bekannte und in

dieser Arbeit benutzte Formeln aus den Bereichen Informationstheorie und Statistik

ausgeführt, um die formalen Argumentationsketten aus den vorangegangenen Kapi-

teln zu vervollständigen. Des weiteren sind die Ergebnisse der Evaluierungsphase in

Tabellenform abgebildet.

4..

...

2 Wissensakquisition mit Data

Mining

Dieses Kapitel motiviert den Gegenstand der vorliegenden Arbeit: einen neuen An-

satz zur automatischen Wissensakquisition für Expertensysteme. Hierbei werden

Techniken aus den Gebieten der wissensbasierten Systeme und des Data Minings

zu einem Konzept verknüpft, das die vollständig automatische Generierung von Dia-

gnosesystemen für komplexe technische Anlagen ermöglicht.

Einteilung des Kapitels: Zunächst wird in die beteiligten Themenfelder eingeführt.

Dazu beschreibt Abschnitt 2.1 die Wissensakquisition als eines der wichtigsten Pro-

blemfelder beim Aufbau von Expertensystemen. Abschnitt 2.2 behandelt die Wis-

sensentdeckung in Datenbanken bzw. das Data Mining als effiziente Möglichkeit,

Wissen aus Daten zu extrahieren. Auf der Grundlage dieser Ausführungen wird in

Abschnitt 2.3 der neue Wissensakquisitions- und Diagnoseansatz entwickelt.

2.1 Automatische Wissensverarbeitung

Wissensverarbeitung ist ein Teilgebiet der künstlichen Intelligenz und befaßt sich

als Neuroinformatik mit der Abbildung menschlicher Denkprozesse sowie im Be-

reich der wissensbasierten Systeme mit der Manipulation von formalisiertem Wissen

(vgl. [Hel96]). Diese Arbeit beschäftigt sich nur mit dem zweiten Gebiet.

Da für den grundlegenden Begriff »Wissen« keine allgemeingültige Definition exi-

stiert, erläutert Abschnitt 2.1.1 seine Verwendung im Kontext der vorliegenden Ar-

beit. Abschnitt 2.1.2 skizziert die Besonderheiten wissensbasierter Systeme. Diese

Gruppe von Softwaresystemen ist darauf spezialisiert, Wissen explizit zu repräsen-

tieren und zur Lösung von Problemen automatisch zu verarbeiten. Eine wesentliche

Voraussetzung für die Problemlösungsfähigkeit wissensbasierter Systeme ist die Ak-

quisition geeigneten Wissens; hierauf geht Abschnitt 2.1.3 näher ein.

2.1.1 Wissen

Im Bereich der Datenverarbeitungwird in der Regel zwischen den drei Ebenen Daten,

Information und Wissen unterschieden (siehe z.B. [Ums92]). Eine übliche Abgren-

zung dieser Begriffe ist die folgende:

..

5

2WISSENSAKQUISITION MIT DATA MINING ..



Daten sind Zeichen- bzw. Bitfolgen, die definierten Syntaxregeln unterliegen

und der interpretationsfreien Beschreibung von Objekten oder Ereignissen die-

nen.



Informationen sind interpretierte Daten und stellen einzelne Aussagen zu Sach-

verhalten in ihrem jeweiligen Kontext dar. Der Kontext ist für alle Informati-

onsempfänger identisch.



Wissen ist verknüpfte und verstandene Information, und wird durch Erfahrung,

Logik oder durch Kausalität gewonnen. Es ist das Ergebnis von Erkenntnispro-

zessen und kann zur Lösung von Problemen genutzt werden.

Beispiel 2.1: In Anlehnung an [HSA99] lassen sich die Begriffe Daten, Information

und Wissen anhand eines Telefonbuchs verdeutlichen: Daten über Anschlußnummern

sind in Telefonbüchern systematisch zusammengefaßt und stellen in diesem Kontext

Informationen dar. Aber erst mit dem Wissen darüber, wie man in einer alphabetisch

sortierten Liste sucht, wird es möglich, eine Nummer effizient zu finden – beispiels-

weise mit binärer Suche.

¾

Die drei Ebenen haben verschiedene Eigenschaften, von denen aus Informatiksicht

die Ausdrucks- und Nutzungsmöglichkeiten sowie der notwendige Verarbeitungsauf-

wand besonders wichtig sind. Die Ausdrucks- und Nutzungsmöglichkeiten nehmen

in der genannten Reihenfolge zu: Daten sind rein deskriptiv, Informationen sind be-

reits systematisiert und Wissen ist operationalisierbar, so daß Erkenntnisse genutzt

werden können (z.B. um zukünftige Ereignisse vorherzusagen oder um Probleme ef-

fizient zu lösen). Gleichzeitig nimmt aber auch der Verarbeitungsaufwand zu. Die

automatische Erhebung und Verarbeitung von Daten und Informationen kann in der

Regel noch effizient durchgeführt werden. Auch Wissen kann – wenn es geeignet for-

malisiert ist – automatisch verarbeitet werden, der dazu benötigte Aufwand ist jedoch

üblicherweise sehr viel höher. Abbildung 2.1 faßt die Ausführungen zusammen.

Wissensarten

Die Unterteilung des Wissensbegriffs in verschiedene Wissensarten ist von der jewei-

ligen Sichtweise sowie der Zielrichtung der Wissensverwendung abhängig. Hierzu

existieren in der Literatur (siehe z.B. [DD87], [TS89], [HL90], [KL90]) zahlreiche

Unterscheidungsmerkmale, vondenen im folgendendiejenigen kurzerläutert werden,

die im Zusammenhang mit der automatischen Wissensverarbeitung von Bedeutung

sind.

Implizites vs. explizites Wissen: Implizites Wissen ist zum einen unbewußtes Wis-

sen, das sich nicht oder nur schlecht verbal bzw. formal beschreiben läßt; es ist daher

6..

..2.1 AUTOMATISCHE WISSENSVERARBEITUNG

Verarbeitungs-

aufwand

Zeichen

Daten

Information

Wissen

+ Syntax

+ Kontext

+ Verknüpfung

Ausdrucksstärke

Abbildung 2.1: Zum Wissensbegriff und seiner Charakterisierung

besser mit dem Begriff Können ausgedrückt. Zum anderen bezeichnet es formales

Wissen, das zwar vorhanden, aber nicht unmittelbar erkennbar ist (z.B. Problem-

lösungswissen, das in großen Datensammlungen oder in einem Algorithmus »ver-

steckt« ist). Explizites Wissen hingegen ist jede Art von Wissen, das in einer zur

automatischen Wissensverarbeitunggeeigneten Wissensrepräsentationsform vorliegt.

Allgemeines vs. spezielles Wissen: Allgemeinwissen ist Hintergrundwissen, das in

der Breite unterschiedliche Wissensgebiete abdeckt und kann oft in unvorhergesehe-

nen Situationen genutzt werden. Spezialwissen geht dagegen in die Tiefe und dient

nur zur Lösung von definierten Aufgaben innerhalb eines eng umgrenzten Problem-

bereichs (z.B. zur Fehlerdiagnose von hydraulischen Anlagen mit einem bestimmten

Aufbau).

Deklaratives vs. prozedurales Wissen: Deklaratives Wissen (»knowing that«) ist

das Wissen um Fakten und deren Beziehungen untereinander, also die Klassifizierung

und Strukturierung von Wissenselementen. Prozedurales Wissen (»knowing how«)

verkörpert konkrete Handlungsanweisungen zur Lösung eines Problems unter gege-

benen Voraussetzungen. Hierbei kann es sich z.B. um Algorithmen (implizites pro-

zedurales Wissen) oder um Regeln mit Aktionsteil (explizites prozedurales Wissen)

handeln.

Im Kontext der vorliegenden Arbeit wird noch die folgende Unterscheidung wichtig

sein (vgl. z.B. [Pup91]).

Kausales vs. heuristisches Wissen: Kausales (»tiefes«) Wissen repräsentiert Zusam-

menhänge, die aus grundlegenden, wissenschaftlich anerkannten Prinzipien gewon-

nen werden und besitzt dadurch für Schlußfolgerungen eine zuverlässige Erklärungs-

..

7

2WISSENSAKQUISITION MIT DATA MINING ..

fähigkeit. Es basiert z.B. auf Modellen zur Beschreibung sich ändernder physika-

lischer Größen, wie etwa Differentialgleichungssystemen. Heuristisches (»flaches«)

Wissen ist dagegen auf Erfahrungswissen gegründet, das beim Lösen von konkre-

ten Problemen erworben wurde. Es kann dabei (eventuell unsichere) Beziehungen

zwischen Beobachtungen repräsentieren, ohne diese zu erklären. Beispiele hierfür

sind Fallsammlungen und Diagnoseregeln, die von Symptomen auf Fehler schließen

lassen.

2.1.2 Wissensbasierte Systeme

Üblicherweise lassen sich schlecht strukturierte Problembereiche, in denen anstatt

einer präzisen Theorie eher fragmentarisches bzw. empirisches Wissen vorliegt, mit

konventionellen Datenverarbeitungsprogrammen nicht oder nur unzulänglich bear-

beiten (vgl. [Wac93], [HL90]). Hier ist das implizit in Form von relativ starren Algo-

rithmen abgelegte Problemlösungswissen prozedural und damit zu unflexibel, um zu

befriedigenden Ergebnissen gelangen zu können.

Im Gegensatz dazu sind für »diffuse« Problembereiche sogenannte wissensbasierte

Systeme (WBS) besser geeignet, weil sie explizites, meist deklaratives Wissen aus-

werten und über Verfahren verfügen, die eine Verknüpfung von Wissenselementen zu

neuen Schlußfolgerungen ermöglichen (siehe [Pup91], [HSA99]). Durch eine klare

Trennung zwischen dem zur Problemlösung benötigten Wissen (Wissensbasis) einer-

seits und der Wissensverarbeitungsstrategie (Inferenzkomponente) andererseits kön-

nen Wissensinhalte leicht geändert und zur flexiblen Steuerung der Lösungssuche

eingesetzt werden.

Eine spezielle Art von wissensbasierten Systemen sind die sogenannten Expertensy-

steme, die über zusätzliche Komponenten zur Benutzerinteraktion, insbesondere zur

Wissensakquisition und zur Erklärung der erzielten Ergebnisse, verfügen ([RP99]).

Innerhalb eines definierten und eng begrenzten Problembereichs wird von Exper-

tensystemen das Spezialwissen und die Schlußfolgerungsfähigkeit von qualifizierten

Fachleuten (Experten) nachgebildet, so daß ihr Verhalten manchmal als »intelligent«

bezeichnet wird.

Aufgrund der Trennung von Wissensbasis und Inferenzkomponente ergeben sich ei-

nige Eigenschaften, die nach [Pup91] als typisch für wissensbasierte Systeme ange-

sehen werden:



Transparenz: Das Systemverhalten ist in relativ einfacher Weise nachvollzieh-

bar und durch das benutzte Wissen erklärbar.



Flexibilität: Wissen kann bei Bedarf hinzugefügt, verändert oder entfernt wer-

den.

8..

..2.1 AUTOMATISCHE WISSENSVERARBEITUNG



Benutzerfreundlichkeit: Der Anwender benötigt üblicherweise kein program-

miersprachliches Vorwissen.



Kompetenz: Wissensbasierte Systeme verfügen in ihrem Anwendungsbereich

über eine hohe Problemlösungsfähigkeit.

Anwendungsgebiete wissensbasierter Systeme

Die wichtigsten Anwendungsgebiete wissensbasierter Systeme befinden sich in

den drei Bereichen Analyse, Synthese sowie Mischformen hiervon (vgl. [Boo88],

[HK89]). Sie werden im folgenden kurz erläutert.

Analyse: Die Analyse umfaßt die Untersuchung und Identifizierung von existieren-

den Objekten anhand ihrer Eigenschaften. Dazu wird aus einer endlichen Menge

vorgegebener Alternativen eine Lösung ausgewählt. Die wichtigsten Analyseaufga-

ben bestehen in der Klassifikation (Zuordnung von Objekten zu Klassen) und in der

Diagnose (Zuordnung von Symptomen zu Fehlern oder Krankheiten).

Synthese: Bei der Synthese werden vorher noch nicht existierende Objekte durch

die Kombinationvonvorgegebenen Einzelteilenoder Teillösungenzusammengesetzt,

wobei die so entstandenen Lösungen in der Regel bestimmten Randbedingungen ge-

nügen müssen. Es existieren oft sehr viele oder sogar unendlich viele Lösungsalterna-

tiven. Zu den wichtigsten Syntheseaufgaben zählen die Konfiguration (Kombination

relativ weniger Komponenten), das Design (Kombination vieler oder Entwurf neuer

Komponenten) und das Planen (Zusammenstellen von Aktionen zu Handlungsabläu-

fen).

Mischformen: Die Mischformen enthalten sowohl Analyse- als auch Syntheseantei-

le, wie z.B. die Reparatur (Diagnose und anschließende Aufstellung eines Reparatur-

plans) oder die Simulation (Synthese von Verhaltenskomponenten und Ableitung des

Gesamtverhaltens).

Für die Erstellung wissensbasierter Systeme existieren eine Reihe von allgemeinen

Methoden und Techniken, die sich in die Bereiche Wissensrepräsentation (formali-

sierte Darstellung), Wissensakquisition (Wissenserhebung) und Wissensverarbeitung

(Verknüpfung und Schlußfolgerung) einteilen lassen. Im konkreten Fall erweist sich

die Wissensakquisition häufig als Hauptschwierigkeit (siehe z.B. [HSA99]). Dieses

Problem wird im folgenden Abschnitt 2.1.3 näher besprochen.

2.1.3 Wissensakquisition

Mit dem Begriff Wissensakquisition wird im allgemeinen ein Prozeß von der Erhe-

bung problembereichsbezogenen Wissens aus verschiedenen Wissensquellen bis hin

..

9

2WISSENSAKQUISITION MIT DATA MINING ..

zur Umsetzung in eine operationale Wissensbasis und deren inhaltlicher Wartung be-

zeichnet (vgl. [Wac93]). Die Wissenserhebung dient im Umfeld der Expertensysteme

zur Formalisierungvon spezialisiertemExpertenwissen. Hierzu können nach [Pup91]

drei grundsätzliche Vorgehensweisen unterschieden werden:



Indirekte Wissensakquisition: Ein sogenannter Wissensingenieur, der über ent-

sprechende Kenntnisse der Wissensmodellierung verfügt, befragt einen Exper-

ten und formalisiert anschließend das so gewonnene Wissen.



Direkte Wissensakquisition: Über eine Wissensakquisitionskomponente des

Expertensystems formalisiert der Experte sein Wissen selbst.



Automatische Wissensakquisition: Das Expertensystem nutzt maschinell verar-

beitbare Daten- bzw. Wissensquellen und extrahiert hieraus mit automatischen

Lernverfahren das Wissen selbständig.

Bei der indirekten Akquisition liegt das Hauptproblem für den Wissensingenieur dar-

in, ein geeignetes mentales Modell des Anwendungsgebiets und der Schlußfolge-

rungsprozesse des Experten zu konstruieren (vgl. [KL90]). Der Wissensingenieur

benötigt neben Allgemeinwissen auch viel fachbezogenes Vorwissen, um mit dem

Experten überhaupt kommunizieren und die grundlegenden Zusammenhänge erken-

nen zu können. Des weiteren sind Experten häufig nicht in der Lage, ihr Wissen

explizit zu machen: Sie artikulieren sich eher in erlebten Situationen und Fallbei-

spielen als in Abstraktionen (vgl. [Wac93]). Die indirekte Wissensakquisition kann

hierdurch sehr zeitaufwendig und fehleranfällig werden.

Aber auch die direkte Wissensakquisition ist nicht unproblematisch: Sie setzt neben

einer leistungsfähigen und komfortablen Akquisitionskomponente insbesondere die

Fähigkeit des Experten voraus, sein Wissen zu formalisieren und zu strukturieren.

An die Werkzeuge müssen daher hohe Ansprüche gestellt werden: Sie sollten eine

dem Experten bekannte Wissensrepräsentation verwenden, die Eingabe unterstützen

sowie die Konsistenz des Wissens gewährleisten. Dies kann jedoch in der Regel nur

durch eine weitgehende Spezialisierung der Werkzeuge auf den jeweiligen Anwen-

dungsbereich erreicht werden (vgl. [Pup90]).

Liegen maschinell verarbeitbare Daten als Wissensquelle vor, kann der Einsatz au-

tomatischer Wissensakquisitionsmethoden sinnvoll sein. Im übrigen stellt dies die

einzige Möglichkeit zum Aufbau einer Wissensbasis dar, falls keine (geeigneten) Ex-

perten zur Verfügung stehen. Bei der automatischen Wissensakquisition wird der

Wissenserwerb allein mit Hilfe maschineller Lernverfahren durchgeführt. Ein gene-

relles Problem der klassischen maschinellen Lernverfahren ist allerdings, daß sie we-

gen ihrer Laufzeitkomplexität nicht für den Umgang mit sehr großen Datenmengen

10 ..

..2.2 WISSENSENTDECKUNG IN DATENBANKEN UND DATA MINING

geeignet sind (vgl. z.B. [DRSS97], [BM99]). Um auch in solchen Fällen den au-

tomatischen Aufbau einer möglichst vollständigen und qualitativ hochwertigen Wis-

sensbasis gewährleisten zu können, müssen neue Lösungen gesucht werden.

Ein Forschungsbereich, der sich auf die Gewinnung von Wissen aus sehr großen Da-

tenbeständen spezialisiert hat, ist die sogenannte Wissensentdeckung in Datenbanken

bzw. das Data Mining. Diese Arbeit beschäftigt sich mit der Frage, ob die hier einge-

setzten Modellierungs- und Entdeckungstechniken einen Ausweg für das im vorhe-

rigen Absatz geschilderte Problem bieten und zur automatischen Wissensakquisition

für Expertensysteme nutzbar gemacht werden können. Bevor dieser Gedanke in Ab-

schnitt 2.3 zu einem neuen Wissensakquisitionskonzept für heuristisches Diagnose-

wissen konkretisiert wird, gibt der folgende Abschnitt 2.2 zunächst einen einführen-

den Überblick in die Themengebiete KDD und Data Mining.

2.2 Wissensentdeckung in Datenbankenund Data Mi-

ning

In den verschiedensten informationsverarbeitenden Aufgabengebieten entstehen

enorme Mengen von Daten, z.B. in der Wissenschaft, in der Wirtschaft, in der öffent-

lichen Verwaltung und zukünftig möglicherweise auch im privaten Bereich. Viele

dieser Daten sind jedoch nicht unmittelbar von Nutzen, da das eigentlich enthaltene

Wissen von uninteressanten Daten »verdeckt« wird, so daß Zusammenhänge oder

Strukturen nicht direkt erkennbar sind. Diese Erkenntnis war die Motivation für die

Entwicklung effizienter Konzepte zur automatischen Datenanalyse mit dem Ziel, das

in den Daten verborgene implizite Wissen aufzufinden und explizit darzustellen.

Viele dieser Verfahren werden seit Beginn der neunziger Jahre unter dem Begriff

Wissensentdeckung in Datenbanken (engl. Knowledge Discovery inDatabases,KDD)

zusammengefaßt. Es handelt sich hierbei nicht nur um neue Methoden – im Gegen-

teil: Viele sind auch in den Gebieten Statistik, Mustererkennung, künstliche Intelli-

genz, maschinelles Lernen, Datenvisualisierung und Datenbanken bekannt. Neu ist

vielmehr ihre konsequente Ausrichtung auf die effiziente Verarbeitung sehr großer

Datenmengen.

Während mit der Wissensentdeckung in Datenbanken ein ganzheitlicher, interaktiver

Prozeß bezeichnet wird, der sich im Dialog mit dem Benutzer von der Auswahl der

Datenquellen bis zur Interpretation der Ergebnisse erstreckt, ist Data Mining hierin

die zentrale Phase der automatischen Erkennung von Mustern undZusammenhängen.

Da fastalle Data-Mining-Verfahrennur spezielle Eingabeformateverarbeitenkönnen,

sind sie in zusätzliche Aktivitäten zur Datenvorverarbeitung und -nachbearbeitung

eingebettet.

..

11

2WISSENSAKQUISITION MIT DATA MINING ..

Die weitere Einteilung ist wie folgt: Abschnitt 2.2.1 gibt eine gängige Definition für

die Wissensentdeckung in Datenbanken und grenzt KDD gegenüber anderen auto-

matischen Datenanalyseverfahren ab. Die Ziele und Verfahren des KDD-Prozesses

erläutert Abschnitt 2.2.2. Abschnitt 2.2.3 geht auf den schrittweisen Ablauf zur Lö-

sung einer Wissensentdeckungsaufgabe im ganzen ein, bevor in Abschnitt 2.2.4 der

Data-Mining-Schritt detaillierter betrachtet wird.

2.2.1 Definition

Mit dem Begriff Wissensentdeckung wird ein Prozeß mit dem Ziel des Erkenntnisge-

winns bezeichnet. Liegtdiesem Prozeß eine Datenbasis in automatisch verarbeitbarer

Form zugrunde, kann ein Softwaresystem den Erkenntnisgewinn des Anwenders un-

terstützen. DaeinProgrammkeinekreativenFähigkeitenbesitzt, beruht dieser Prozeß

lediglich auf der expliziten Darstellung der implizitenWissensinhalte. Das so heraus-

gearbeitete Wissen ist unter dieser Annahme also bereits in den Daten vorhanden und

läßt sich durch Transformationen wie Interpretation, Verknüpfung oder Mustererken-

nung aufdecken.

Diese Sichtweise wird auch bei der Modellvorstellungzur Wissensentdeckung in Da-

tenbanken eingenommen: Hiermit werden die Schritte eines Transformationsprozes-

ses bezeichnet, der mit (semi-) automatischen Verfahren wertvolles Wissen explizit

zu machen sucht, das in unter Umständen sehr großen Datenbeständen implizit ent-

halten ist. Die in der Literatur allgemein anerkannte Festlegung des Begriffs »Wis-

sensentdeckung in Datenbanken« stammt von Fayyad et al. [FPSU96]; er wird in der

folgenden Definition 2.1 nach [Wro98] zitiert.

Definition 2.1 (Wissensentdeckung in Datenbanken (KDD)): Wissensentdeckung

in Datenbanken ist der nichttriviale Prozeß der Identifikation gültiger, neuer, poten-

tiell nützlicher und schlußendlich verständlicher Muster in (großen) Datenbeständen.

¾

Anmerkung: Häufig wird der Begriff Data Mining synonymzu Wissensentdeckung

in Datenbanken verwendet, vor allem im kommerziellen Bereich. Wie bereits ange-

deutet wurde, ist Data Mining aber eigentlich nur ein Teilschritt innerhalb des KDD-

Prozesses, nämlich der Analyseschritt zur Mustererkennung.

Die im Wissensentdeckungsprozeß erzeugten Muster stellen eine zusammenfassen-

de Aussage über eine Untermenge der Daten dar. Ihre Repräsentationsform hängt

von der Art des eingesetzten Analyseverfahrens ab; so können zum Beispiel Regeln,

Gruppenbildungen, Entscheidungsbäume, Vorhersagemodelle etc. generiert werden.

Muster sind also (höherwertige) Ausdrücke über die zugrundeliegenden Daten, die

12 ..

..2.2 WISSENSENTDECKUNG IN DATENBANKEN UND DATA MINING

in einem nichttrivialen Prozeß, also durch Suche oder Inferenz, gefunden wurden

(vgl. [FPS96]). Sie müssen nach Definition 2.1 die folgenden Voraussetzungen erfül-

len, um als zulässig zu gelten:

1. Gültigkeit: Ein Muster ist dann gültig,wenn es die aktuelle Datenbasis bzw.die

zugrundeliegenden Gesetzmäßigkeiten konsistent beschreibt. Die Gültigkeit

kann sich im Zeitablauf ändern und zum Beispiel durch eine Aktualisierung

der Datenbasis verloren gehen. Davon betroffene Muster sollten aber auch für

neue Daten noch ein hohes Maß an Gültigkeit besitzen.

2. Neuartigkeit: Die entdeckten Muster sollen für den Benutzer – zumindest aber

für das KDD-System – neu sein, damit ein Erkenntnisgewinn möglich wird.

3. Nützlichkeit: Die Nützlichkeit steht in Bezug zu den Zielvorstellungen des An-

wenders. Sie ist außerdem abhängig vom Problembereich und mußin der Regel

individuell definiert werden, etwa durch die Angabe von Schwellenwerten für

bestimmte Zielgrößen.

4. Verständlichkeit: Analog zur Nützlichkeit zielt die Verständlichkeit auf den

menschlichen Anwender ab. Sie erfordert sowohl eine geeignete Präsentati-

on der entdeckten Muster als auch die Einhaltung von Ockham’s Razor, ein der

Philosophie des Minimalismus entstammendes Prinzip, welches verlangt, daß

ein Sachverhalt so einfach wie möglich beschrieben wird.

Abgrenzungen

Im folgenden werden einige Begriffe aus dem Bereich der automatischen Datenanaly-

se kurz erläutert und gegenüber der Wissensentdeckung in Datenbanken abgegrenzt.

KDD vs. Data Warehousing: Wird in einem Unternehmen die Extraktion von Daten

aus verschiedenen, oft heterogenen operationalen Datenbanksystemen sowie das Zu-

sammenführen und geeignete Speichern dieser Daten für Auswertungszwecke kon-

sequent betrieben, dann nennt man diesen Vorgang Data Warehousing und den ent-

standenen Datenbestand Data Warehouse (vgl. [Inm96], [Kir97]). Das Ziel ist häu-

fig, durch den Einsatz geeigneter Datenanalyseverfahren, wie z.B. KDD, eine unter-

nehmerische Wissensbasis (»Unternehmensgedächtnis«) aufzubauen (vgl. [GG00]).

Data Warehousing kann in solchen Fällen als Vorbereitungsphase zur Wissensent-

deckung angesehen werden.

KDD vs. Online Analytical Processing: Unter dem Begriff Online Analytical Pro-

cessing (abgekürzt OLAP) werden Datenanalyseverfahren zusammengefaßt, die in

der Lage sind, im Dialog mit dem Benutzer aus großen betrieblichen Datenbeständen

wie Data Warehouses verdichtete Informationen zu gewinnen. OLAP konzentriert

..

13

2WISSENSAKQUISITION MIT DATA MINING ..

sich bei der Analyse hauptsächlich auf das Berichtswesen; die Daten werden multidi-

mensional aufbereitet und interaktiv in Berichten mit Tabellen und Grafiken verdich-

tet. Im Unterschied zum KDD handelt es sich bei OLAP um eine hypothesengestützte

Datenanalyse (d.h., der Anwender weiß bereits, wonach er sucht und überprüft seine

Hypothesen), während KDD eine möglichst automatische, hypothesenfreie Wissen-

sentdeckung anstrebt (vgl. [FPS96], [GG00]).

KDD vs. Pattern Recognition: Sehr viel länger als KDD existiert die Forschungs-

richtung Mustererkennung (engl. Pattern Recognition). Sie befaßt sich mit der auto-

matischen Wiedererkennung von Mustern und ihrer Zuordnung zu bekannten Kate-

gorien oder Klassen. Häufig werden zur Mustererkennung von Sensoren stammende

Meßwerte physikalischer Größen analysiert; Anwendungsbeispiele sind die Erken-

nung von Schriftzeichen, die Lauterkennung oder die Bildverarbeitung. Die klassi-

sche Mustererkennung löst ausschließlich Klassifizierungsaufgaben (siehe [Mer80]),

während für KDD die Klassifizierung nur ein Problemfeld unter mehreren ist.

2.2.2 Ziele und Verfahren

Ein wichtiges Ziel des KDD-Prozesses ist es, die Wissensentdeckung möglichst selb-

ständig, d.h. mit möglichst wenig Benutzereingriffen durchzuführen. Trotzdem ist

die Wissensentdeckung in Datenbanken üblicherweise kein vollständig automatischer

Vorgang oder eine generelle Problemlösungsstrategie. Vielmehr soll der Anwender

durch die Interaktionmit dem KDD-Systemin die Lage versetzt werden, die richtigen

Analyseverfahren anzustoßen, statt wie bei herkömmlichenDatenbank- und Statistik-

werkzeugen nur Anfragen zu formulieren bzw. Hypothesen testen zu lassen.

Der Benutzer muß also lediglich bestimmte Vorstellungen von der Art der anzu-

wendenden Modelle haben, und das KDD-System ermittelt dann mit geeigneten

(semi-) automatischen Datenanalyseverfahren alle hierzu passenden Muster oder

Wissenselemente. Grundsätzlich lassen sich zwei übergeordnete Ziele unterscheiden

(vgl. [FPS96], [WI98]):



Gewinnung von Strukturwissen und



Gewinnung von Vorhersagewissen.

Das Strukturwissen ist deskriptiv und wird durch Muster repräsentiert, die in ver-

ständlicher Form signifikante Zusammenhänge in den Daten beschreiben. Es ist vom

Problembereich abhängig, wie diese Muster zu interpretieren sind (z.B. als Korre-

lationen oder Kausalitäten). Dagegen beschreibt das Vorhersagewissen Zusammen-

hänge, die innerhalb der Daten in bezug auf eine vorbestimmte Zielgröße vorhanden

14 ..

..2.2 WISSENSENTDECKUNG IN DATENBANKEN UND DATA MINING

sind. Bei diesen Mustern steht nicht die verständliche Form im Vordergrund, son-

dern ihre Anwendung auf neue, zukünftige Datensätze, um den dann unbekannten

Wert der Zielgröße zuverlässig bestimmen zu können. Die folgenden Unterabschnit-

te beschreiben die beiden Ziele der Wissensentdeckung in Datenbanken genauer und

geben einen Überblick über die dazu eingesetzten Verfahren.

Strukturerkennung

Strukturwissen wirdin der Regel mitunüberwachten Lernverfahren1gewonnen; diese

Verfahren können auch dann sinnvoll eingesetzt werden, wenn die Zielgrößen nicht

oder bestenfalls in groben Bereichen (z.B. durch Schwellenwerte oder relative Aus-

sagen) definierbar sind. Aus diesem Grund liegt hier der Analyseschwerpunkt in der

Entdeckung von in den Daten enthaltenen Beziehungen und Regelmäßigkeiten.

Abweichungsentdeckungsverfahren: In einer Datenbasis wird nach Mustern ge-

sucht, die verschiedene Arten statistisch auffälliger Abweichungen von Untermengen

im Verhältnis zur Gesamtmenge beschreiben. Das Wissen über solche Unregelmä-

ßigkeiten oder Ausnahmen kann in einigen Problembereichen für sich allein bereits

wertvoll sein, während es in anderen Bereichen zur Eliminierung von Ausreißerdaten

genutzt werden kann.

Abhängigkeitsentdeckungsverfahren: In einer Datenbasis wird nach statistischen

Abhängigkeiten innerhalb der Datensätze gesucht. Dies können z.B. Assoziationsre-

geln zur Beschreibung von häufig gemeinsam auftretenden Merkmalskombinationen

oder Wahrscheinlichkeitsnetze zur Erfassung von probabilistischen Zusammenhän-

gen zwischen den Merkmalswerten sein. Auf einer strukturellen Modellebene wer-

den lokale Abhängigkeiten beschrieben, auf einer quantitativenEbene darüber hinaus

die Stärke dieser Abhängigkeiten.

Gruppenbildungsverfahren: Die Datenbasis wird so in homogene Gruppen auf-

geteilt, daß eine verfahrensspezifische oder benutzerdefinierte Ähnlichkeitsfunkti-

on zwischen den Datensätzen innerhalb einer Gruppe maximiert und zwischen ver-

schiedenen Gruppen minimiert wird. Die dabei gefundenen Ähnlichkeitsgruppen

(engl. cluster) sind nicht vorgegeben und werden vom Verfahren ermittelt.

Aggregations- / Charakterisierungsverfahren: Hierbei geht es um die Zusammen-

fassung genereller Eigenschaften der Objekte in der Datenbasis, wie z.B. durch cha-

rakterisierende Regeln in verschiedenen Abstraktionsebenen. Die aggregierten Re-

präsentationen sind oft aussagekräftiger oder leichter verständlich als die Ausgangs-

1 Im Gegensatz zu überwachten Lernverfahren, die Trainingsbeispiele mit von außen vorgegebenen

Lösungen auswerten, versuchen unüberwachte Lernverfahren selbständig, bestimmte statistische

Eigenschaften in den Trainingsbeispielen zu entdecken.

..

15

2WISSENSAKQUISITION MIT DATA MINING ..

daten, weil sie nur die zur jeweiligen Problemlösung als relevant betrachteten Cha-

rakteristika der Daten beschreiben.

Vorhersage

Im Gegensatz zum Strukturwissen wird Vorhersagewissen meistens mit überwachten

Lernverfahren ermittelt, das heißt, die vorgegebene Datenbasis enthält genaue Wer-

te für die gewünschten Zielgrößen. Die Verfahren extrahieren aus der Datenbasis

die relevanten Informationen, um bei einer Anwendung auf neue Eingaben konkrete

Vorhersagen für die Zielgrößen zu ermöglichen.

Klassifikations- / Regressionsverfahren: Anhand einer Trainingsmenge von Da-

tensätzen, bei denen der gewünschte Wert einer Zielfunktion vorgegeben ist, erfolgt

die Ableitung allgemeiner Funktionsbeschreibungen oder Entscheidungsvorschriften

(z.B. Entscheidungsregelnoder -bäume), die dann bei neuen Datensätzen zur Vorher-

sage des Zielfunktionswerts genutzt werden. Ist der Zielfunktionswert ein symboli-

scher Wert, spricht man von einer Klassifikation; ist er ein Zahlenwert, spricht man

allgemein von einer Regression.

Prognoseverfahren: Prognoseverfahren erweitern die Klassifikation bzw. Regressi-

on um eine zeitliche Komponente. Hierbei wird eine Datenbasis ausgewertet, die

Veränderungen gleicher Objekte im Zeitverlauf abbildet. Geht man davon aus, daß

die in solchen Zeitreihen entdeckten Regelmäßigkeiten auch zukünftig Gültigkeit be-

sitzen, sind Prognosen für die Werte der definierten Zielgrößen möglich.

2.2.3 Einzelschritte im Wissensentdeckungsprozeß

Der Wissensentdeckungsprozeß als Ganzes ist iterativ und interaktiv. Die einzelnen

Schritte werden in der Regel nichtin linearer Abfolge durchlaufen, sondern es können

sich Schleifen bzw. Rücksprünge ergeben. So kommen zum Beispiel Situationen

vor, bei denen zu Beginn der Datenerforschung die verfolgten Ziele noch nicht exakt

festgelegt werden können oder bei denen sich während des Prozesses vorher nicht

bedachte interessante Unterziele ergeben. Auch kann die Art der entdeckten Muster

überraschen und das Augenmerk in eine neue Richtung lenken. Durch Interaktion mit

dem Benutzer müssen insbesondere die Datenaufbereitungs- und analysearbeiten auf

den jeweiligen Anwendungszweck abgestimmt werden.

Zwar existiert für den Einsatz der verschiedenen Techniken bisher kein generelles

Vorgehensmodell, es haben sich aber in der Literatur und in der Anwendungspraxis

die im folgenden erläuterten fünf Ablaufschritte weitgehend etabliert (vgl. [Man97],

[Düs99]).

16 ..

..2.2 WISSENSENTDECKUNG IN DATENBANKEN UND DATA MINING

Schritt 1: Entwicklung der Zielvorstellungen

Als erstes werden die geeigneten Datenbereiche und Musterklassen sowie Kriterien

zur Beurteilung der Interessantheit von erkannten Mustern ermittelt. In dieser Pla-

nungsphase wird eine grobe Zielvorstellung entwickelt, mit der der KDD-Prozeß in

die gewünschte Richtung gelenkt werden kann.

Schritt 2: Auswahl und Aufbereitung der Datenbestände (Preprocessing)

Diesem Schritt kommt in bezug auf Anwendbarkeit und Effizienz des anschließenden

Data-Mining-Schritts eine besondere Bedeutung zu. Die verwendeten Algorithmen

benutzen in der Regel zwar sehr große, letztendlich aber homogene Datenbestände

(meistens in Tabellenform). Im einzelnen existieren die folgenden Aufgabenbereiche

für das Preprocessing:

Datenselektion: Häufig sind die benötigten Datenquellen verteilt; insbesonde-

re im kommerziellen Bereich geschieht die Datenerhebung und -speicherung an

unterschiedlichen Stellen des betrieblichen Transformationsprozesses. In sol-

chen Fällen muß in der Preprocessing-Phase eine geeignete Datenselektion und

-zusammenführung stattfinden.

Datenreinigung: Gerade bei großen Datenbanken tritt oft das Problem auf, daß

fehlende, mehrdeutige oder widersprüchliche Informationen vorhanden sind. Diese

Datenbestände müssen dann im Hinblick auf ihre Qualität überarbeitet werden, in-

dem z.B. statistische Ausreißer oder inkonsistente Datensätze entfernt oder fehlende

Merkmalswerte ergänzt werden.

Datenreduktion: Neben den Operationen zur Nutzbarmachung unterschiedlicher

Datenquellen übernimmt das Preprocessing Aufgaben der Datenreduktion, die auf

eine verbesserte Effizienz der Data-Mining-Verfahren abzielt. Hierzu kann z.B. in-

nerhalb der Datenbasis die Zusammenfassung mehrerer Merkmale, die Ermittlung

und Eliminierung überflüssiger Merkmale, die Diskretisierung und Gruppierung

von Merkmalswerten oder eine auf den zu verwendenden Algorithmus abgestimmte

Transformation des Eingaberaums gehören.

Schritt 3: Musterentdeckung (Data Mining)

In diesem Schritt geschieht die eigentliche Wissensentdeckung durch Verfahren, die

selbständig Hypothesen über eine Datenbasis generieren und dem Anwender die re-

levantenErgebnisse in verständlicherForm präsentieren. Die wichtigste Anforderung

an die genutzten Algorithmenist ihr günstiges Laufzeitverhalten bei der Analyse sehr

..

17

2WISSENSAKQUISITION MIT DATA MINING ..

großer Datenmengen. Daher stellt die Entwicklung von effizienten Datenstrukturen

und Data-Mining-Algorithmen den Schwerpunkt innerhalb der wissenschaftlichen

KDD-Forschung dar (vgl. [DRSS97]).

Stehen die für das jeweilige Analyseziel geeigneten Modelle und Data-Mining-

Algorithmen sowie deren korrekte Parametrisierung fest, kann die Musterentdeckung

autonom und effizient erfolgen. Im allgemeinen Fall muß ein versierter Anwender

diese Festlegung vornehmen, oft in einer dynamischen und iterativen Vorgehenswei-

se: Abhängig von den Ergebnissen erster Analysen werden andere Datenbereiche

oder -repräsentationen gewählt oder es kommen andere Analyseverfahren bzw. an-

dere Parametrisierungen zum Einsatz. Ist der Anwendungsbereich jedoch begrenzt

und relativ unveränderlich, kann die Auswahl der optimalen Algorithmen und Para-

meterbereiche bereits im Vorfeld, also beim Aufbau des KDD-Systems, erfolgen. In

diesem Fall istein vollständig automatischablaufender Data-Mining-Schritt möglich.

Anmerkung: Die vollständige Automatisierbarkeit des Data-Mining-Schritts stellt

eine notwendige Voraussetzung für dessen Einsatz zur automatischen Wissensakqui-

sition für Expertensysteme dar (vgl. Abschnitt 2.1.3). Die erfolgreiche Umsetzung

dieser Verknüpfung wird am Beispiel der Gewinnung von heuristischem Diagnose-

wissen für hydraulische Anlagen in Kapitel 4gezeigt.

Schritt 4: Nachbearbeitung der entdeckten Muster (Postprocessing)

Im vierten Schritt werden die gewonnenen Ergebnisse rücktransformiert und in vom

Benutzer interpretierbare Aussagen umgewandelt. Die Nachbearbeitung umfaßt so-

mit alle Datenverarbeitungstätigkeiten, die dazu dienen, anwendbarkeits- oder effizi-

enzbedingte Vorverarbeitungsschritte rückgängig zu machen, sowie die Ergebnisse in

ihrer Aussagekraft zu bewerten und dem Benutzer in verständlicher Form zu präsen-

tieren. Sind im KDD-Prozeß mehrere geeignete Data-Mining-Verfahren angewandt

worden, können die Einzelergebnisse in diesem Schritt gegenübergestellt werden.

Das Resultat ist also im Erfolgsfall das aus den Ursprungsdaten abgeleitete explizite

Wissen. Die Darstellung des Wissens ist anwendungsabhängig und kann z.B. textu-

elle Beschreibungen, Tabellen, Regeln und graphische Darstellungsformen wie Gra-

phen oder Diagramme umfassen. Im Idealfall ist das Wissen als vollständiger Report

aufbereitet, in dem nicht nur die Ergebnisse, sondern z.B. auch zusätzliche Angaben

über deren Qualität enthalten sind.

Schritt 5: Nutzbarmachung der erzielten Ergebnisse

Der letzte Schritt besteht aus der Auswertung, Operationalisierung und Nutzbarma-

chung des entdeckten Wissens, entweder direkt durch einen dafür zuständigen Ent-

18 ..

..2.2 WISSENSENTDECKUNG IN DATENBANKEN UND DATA MINING

scheidungsträger oder in einem weiteren Programm (z.B. Entscheidungsunterstüt-

zungssystem oder Expertensystem). Hierzu kann auch die Konsistenzprüfung in be-

zug auf das bereits vorhandene Wissen gehören.

Abbildung 2.2 faßt in Anlehnung an [FPS96] die grundlegenden Transformations-

schritte zur Wissensentdeckung zusammen, die von einem KDD-System zwischen

der Planungsphase und der Auswertungsphase durchgeführt bzw. unterstützt werden.

Daten

Tabelle

Muster

Wissen

Preprocessing

Data Mining

Postprocessing

Prozeßrückschritte durch den Anwender

Abbildung 2.2: Wissensakquisition durch KDD-Prozeß

2.2.4 Data-Mining-Schritt

Dieser Abschnitt geht näher auf den Datenanalyseschritt (Schritt 3 des KDD-

Prozesses) ein. Eine allgemeine Definition hierfür stammt von Holsheimer et

al. [HS94], nach der bereits jeder Prozeß des maschinellen Lernens als Data Mining

zu bezeichnen ist, wenn die zum Lernen ausgewerteten Daten in einer Datenbank

verwaltet werden. Dieser Systematik folgend, existiert in der Literatur eine Begriffs-

familie für Verfahren, die nach der Art oder dem Inhalt der zu analysierenden Daten

unterteilt werden:



Database Mining (Das »klassische« Data Mining: Auswertung von Datenban-

ken),



Text Mining (Auswertung und Klassifizierung von Textdokumenten),



Image Mining (Auswertung von Bilddaten),



Spatial Data Mining (Auswertung von raumbezogenen und geographischen

Daten),

..

19

2WISSENSAKQUISITION MIT DATA MINING ..



Web Mining (Auswertung von Datenquellen aus dem Internet).

Die vorliegende Arbeit befaßt sich ausschließlich mit dem klassischen Data Mining.

Im weiteren wird die datenbankorientierte Sichtweise genauer beschrieben und ei-

nige Vereinbarungen getroffen. Dazu definieren die folgenden Unterabschnitte das

Eingabeformat von Data-Mining-Algorithmen sowie ihre Ausgabe.

Datenbasis

Die meisten Data-Mining-Verfahren greifen auf eine homogene, nicht verteilte Da-

tenbasis zurück. Liegen die Ursprungsdaten nicht in der benötigten Repräsentation

vor, müssen sie im Preprocessing geeignet transformiert werden (Schritt 2 des KDD-

Prozesses). Aufgrund des großen Datenvolumens ist eine wichtige Anforderung an

die Datenrepräsentation, daß sich ein effizienter Datenzugriff realisieren läßt. In die-

ser Arbeit soll jedoch von den technischen Aspekten des Datenzugriffs abstrahiert

werden, und es werden zwei Annahmen getroffen:

1. Die Datenbasis besteht aus einer einzigen Tabelle.

Hierdurch wird ein schneller Zugriff auf die Gesamtheit der Informationen des

Problembereichs ermöglicht. Diese Annahme stellt in der Regel keine Ein-

schränkung dar, weil sich üblicherweise alle benötigten Einzeltabellen mit den

entsprechenden Datenbankoperationen (zumindest virtuell) zu einer einzigen

Tabelle zusammenführen lassen.

2. Jede Tabellenzeile repräsentiert ausschließlich atomare Eigenschaften eines

Objekts.

Es dürfen also z.B. keine Referenzen zwischen Datensätzen oder komplexe

Strukturen als Einzeleigenschaften modelliert werden. Durch diese Annahme

ist gewährleistet, daß mit der einfachen Auswertung eines einzigen Datensatzes

alle relevanten Informationen zu dem betreffenden Objekt bekannt sind.

Im weiteren wird also davon ausgegangen, daß eine Datenbasis, die mit einem Data-

Mining-Verfahren analysiert werden soll, als einzige »flache« Tabelle vorliegt. In der

Tabelle sind die Merkmale (Attribute) spaltenweise und die Datensätze zeilenweise

definiert.

Definition 2.2 (Datenbasis für Data Mining): Es sei A





A1



Am



eine Menge

von m



IN Attributen über nominal-, ordinal- oder kardinalskalierte Wertebereiche

dom



A1





dom



Am



. Weiter seien Datensätze d1



dnfür n



IN mit den Ele-

menten ai



j



dom



Aj



für i



1



n



und j



1



m



gegeben. Dann ist der

20 ..

..2.2 WISSENSENTDECKUNG IN DATENBANKEN UND DATA MINING

Aufbau einer Datenbasis Dals Eingabe für Data-Mining-Algorithmen mit

A1A2



Am

d1a1



1a1



2



a1



m

d2a2



1a2



2



a2



m

.

..

.

..

.

.....

.

dnan



1an



2



an



m

definiert.

¾

Jede Zeile einer Datenbasis Daus Definition 2.2 stellt einen Datensatz fester Länge

dar, der aus den Attributwerten eines Objekts, Ereignisses oder Falls besteht. So-

mit kann ein Datensatz di



Dals ein Tupel aus dem Kreuzprodukt der Attribut-

Wertebereiche dargestellt werden:

di





ai



1



ai



2



ai



m



dom



A1



  

dom



Am





Die Anzahl der möglichen Ausprägungen eines Attributs Ajsei in dieser Arbeit be-

zeichnet mit



Aj



:



card



dom



Aj





Data-Mining-Problem

Auf den Aspekt der Gewinnung von vollständigem Wissen zielt Definition 2.3 ab.

Unter Berücksichtigungder im letzten Unterabschnitterläuterten Datenrepräsentation

spezifiziert sie das im Rahmen dieser Arbeit betrachtete generische Data-Mining-

Problem.

Definition 2.3 ((Generisches) Data-Mining-Problem): Es sei Deine Datenbasis,

die gemäß Definition 2.2 aufgebaut ist. Dann ist ein Data-Mining-Problem das Pro-

blem, aus Dalle Muster zu erzeugen, die neben den in Definition 2.1 genannten Ei-

genschaften insbesondere die folgenden aufweisen:

1. Die Muster machen eine Aussage über die (beobachteten) Zusammenhänge

zwischen den Attributwerten einer Teilmenge der Datensätze aus Dund

2. die Muster sind im betrachteten Problembereich hinreichend interessant.

¾

Anmerkungen: (i) Die Beschreibung von Algorithmen zur Lösung einer konkreten

Problemausprägung erfolgt in Kapitel 3. Hier geht es um die Erzeugung von Mustern,

die durch sogenannte Assoziationsregeln repräsentiert werden.

..

21

2WISSENSAKQUISITION MIT DATA MINING ..

(ii) Die Beurteilung, welche Muster »hinreichend interessant« sind, ist im allgemei-

nen subjektiv und daher anwender- bzw. anwendungsabhängig. Für den in Kapitel 4

betrachteten Problembereich der automatischen Akquisition von Diagnosewissen ist

ein Muster dann interessant, wenn es einen positiven Informationsgewinn in bezug

auf die Zielwissensbasis beiträgt, oder – anders ausgedrückt – wenn seine Nichter-

zeugung einen Informationsverlustbedeutet. Die Höhe des Informationsgewinnsoder

-verlusts läßt sich aus der jeweiligen Diagnosegüte ermitteln, die durch die Anwen-

dung des Diagnosewissens auf reale Störungsfälle erzielt wird.

Innerhalb eines benutzergesteuerten KDD-Systems spielt die Anzahl der entdeck-

ten Muster für die Lösung des Data-Mining-Problems eine wichtige Rolle: Werden

dem Anwender zu viele Einzelmuster präsentiert, kann der hiermit erzielte Nutzen

aufgrund der fehlenden Übersichtlichkeit gering sein. In diesem Fall ist eine Anpas-

sung des Interessantheitskriteriums oder eine zusätzliche Aggregierung der Muster

notwendig, wodurch jedoch ein beträchtlicher Informationsverlust entstehen kann.

Werden dagegen die erzeugten Muster automatisch weiterverarbeitet, ist die Anzahl

der Muster nicht entscheidend, und die gesamte Information kann ausgenutzt wer-

den. Dieser Aspekt ist insbesondere für den Aufbau vollständiger Wissensbasen für

Expertensysteme wichtig.

2.3 Neuer Ansatz zur Akquisition von Diagnosewissen

Im folgenden wird die Akquisition von Diagnosewissen als Anwendung des neuen

Konzepts zur automatischen Wissensakquisition behandelt. Zu Beginn führt Ab-

schnitt 2.3.1 in das Problemfeld der Diagnose technischer Anlagen ein, und Ab-

schnitt 2.3.2 diskutiert die klassischen, aus der Literatur bekannten Lösungsansätze.

Diese Ausführungen motivieren in Abschnitt 2.3.3 die Konkretisierung des automati-

schen Wissensakquisitionsansatzes.

2.3.1 Diagnose technischer Anlagen

Technische Systeme bestehen häufig aus einer großen Anzahl miteinander verbunde-

ner Einzelkomponenten, deren Zusammenwirken ein genau spezifiziertes Systemver-

halten (das sog. Sollverhalten)gewährleisten soll. Als Beispielseien in Autowerkstät-

ten anzutreffende hydraulische Hubvorrichtungen genannt: Sie müssen in der Lage

sein, Lasten bis zu einem festlegten Höchstgewicht in einer bestimmten Zeit in die

Höhe zu drücken.

Das Verhalten eines technischen Systems kann entweder direkt beobachtet werden

(z.B. das Ausfahren eines Zylinders) oder indirekt mit Hilfe von Meßgeräten für die

22 ..

..2.3 NEUER ANSATZ ZUR AKQUISITION VON DIAGNOSEWISSEN

relevanten physikalischen Größen (z.B. Kraft oder Druck) bestimmt und protokol-

liert werden. Eine fehlerhaft arbeitende Komponente des Systems läßt sich in der

Regel nicht unmittelbar lokalisieren. Der Fehler kann sich aber in einem vom Soll-

Verhalten abweichenden Verhalten des Gesamtsystems bemerkbar machen. Diese

Verhaltensanomalien werden Symptome des Fehlers genannt. Das Soll-Verhalten und

die Symptomausprägungensind – abgesehen vom Fehler selbst – auch von der vorlie-

genden Betriebssituation abhängig, die durch den aktuellen Betriebszustand (Phase)

und die aktuellen Systemanforderungen (Belastungsstufen) gekennzeichnet ist.

Die Fehlererkennung, auch Diagnose genannt2, ist ein abduktiver Prozeß des Rück-

schlusses von den beobachteten Wirkungen auf ihre nicht beobachtbaren Ursachen.

Hierzu wird eine (mentale) »Diagnosefunktion«

diag:S



B



Z



F

benötigt, die den Kombinationenaus Symptomen S, BelastungsstufenBund Betriebs-

zuständen Zeinen oder mehrere Fehler Fzuordnet (siehe auch Abbildung 2.3).

Fehler F

Symptome S

Diagnose

nicht

beobachtbar

direkt

beobachtbar

oder meßbar

Betriebs-

zustände Z

Belastungs-

stufen B

Abbildung 2.3: Ursache-Wirkungs-Zusammenhänge und Diagnoseproblem

Da sich technische Anlagen in ihrem Aufbau aus Komponenten und Verbindungen

unterscheiden können, ist für jeden Anlagentyp die Anwendung einer spezialisierten

Diagnosefunktion notwendig. Gute Ingenieure sind durch ihren Erfahrungsschatz

und dasgrundsätzliche Verständnis der Arbeitsweiseeines technischenSystems inder

2 Mit dem Begriff »Diagnose« wird sowohl der Prozeß der Fehlererkennung als auch der Fehler

als Ergebnis dieses Prozesses bezeichnet. Die jeweilige Bedeutung geht dabei aus dem aktuellen

Kontext hervor.

..

23

2WISSENSAKQUISITION MIT DATA MINING ..

Lage, übliche Fehler sogar in für sie neuen Anlagen zu finden, wenn ihnen Unterlagen

wie Schaltpläne, Meßwerte, Störungstabellen usw. zur Verfügung stehen. Oft liegen

auch Meßprotokolle für Soll-Werte vor, oder die Beschreibung von Tätigkeiten, die

zur Störungssuche auszuführen sind (z.B. Ablaufdiagramme, siehe [DD98]).

Mit einer zunehmenden Komplexität wird jedoch die Fehlersuche für menschliche

Experten immer aufwendiger und schwieriger, selbst wenn es sich um Spezialisten

für einen bestimmten Anlagentyp handelt. Parallel zur Größe des Systems steigen

in der Regel auch die Anschaffungs- und Betriebskosten, so daß die Ursachen einer

Störung um so schneller lokalisiert und behoben werden müssen. Dabei sollte ein un-

überlegtes Auswechseln von vermeintlich defekten Komponenten nicht nur aus Zeit-

und Kostengründen unbedingt vermieden werden, sondern auch wegen der Gefahr

der Entstehung zusätzlicher Folgeschäden.

Aus diesen Gründen spielt die rechnergestützte Diagnose in technischen Anwen-

dungsbereichen eine große Rolle und hat sich als eines der Haupteinsatzgebiete für

Expertensysteme entwickelt (vgl. [PGPB96]). Ein Expertensystem zur Lösung des in

Abbildung 2.3 dargestellten Diagnoseproblems wird auch Diagnosesystem genannt.

Im technischen Umfeld sind an ein solches Expertensystem besondere Anforderun-

gen zu stellen:



EffizienteVerarbeitungdes Diagnosewissens: Trittim Betrieb einer technischen

Anlage eine Störung auf, sollte das Diagnosesystem ihre Ursachen möglichst

schnell ermitteln, damit sofort geeignete Gegenmaßnahmen ergriffen werden

können.



KorrektheitundVollständigkeitder Wissensbasis: Der Einsatz einergeeigneten,

umfangreichen Wissensbasis ist die Voraussetzung dafür, daß die Wahrschein-

lichkeit von Fehldiagnosen sowie nicht erkannten Störungsursachen möglichst

gering ist.



Möglichkeit der automatischen Wissensakquisition: Das Diagnosesystem soll-

te bereits bei Inbetriebnahme einer neuen Anlage einsatzbereit zur Verfügung

stehen.

Existierende Diagnoseansätze zur Repräsentation und automatischen Verarbeitung

von Diagnosewissen erfüllen diese Forderungen in unterschiedlichem Maße. Im fol-

genden Abschnitt werden die wichtigsten bekannten Ansätze vorgestellt und im Hin-

blick auf den hier betrachteten Einsatzbereich bewertet.

24 ..

..2.3 NEUER ANSATZ ZUR AKQUISITION VON DIAGNOSEWISSEN

2.3.2 Wissensbasierte Diagnoseansätze

Die ersten Diagnosesysteme wurden für den medizinischen Bereich entwickelt

(vgl. [Pup91]). Es stellte sich jedoch heraus, daß die hier verwendeten Lösungsansät-

ze auf technische Anwendungen übertragbar und wegen der verstandenen Ursache-

Wirkungs-Prinzipien gut formal zu fassen waren. Im weiteren wird insbesondere ihre

Eignung für die Diagnose komplexer technischer Anlagen diskutiert.

Üblicherweise erfolgt eine Einteilung der wissensbasierten Diagnoseverfahren in fol-

gende »klassische« Kategorien (vgl. [Pup90], [PGPB96]): Einfach, probabilistisch,

fallbasiert, heuristisch und modellbasiert.

Einfache Diagnose

Bei der einfachenDiagnosewerden Entscheidungsbäumeoder Entscheidungstabellen

ausgewertet. Sie enthalten hierarchische Fragen zu den beobachteten Symptomen;

ihre Beantwortung führt direkt zu einer Aussage über die Fehlerursache. Die einfache

Diagnose ist daher nur für gut verstandene, stark begrenzte Anwendungsbereiche mit

einfachen kausalen Zusammenhängen geeignet.

Probabilistische Diagnose

Die probabilistischenDiagnoseansätze(z.B. das Bayes-Theorem oder die Dempster-

Shafer-Theorie) beruhen auf der Anwendung von statistischen Methoden zur Ablei-

tung von Aussagen über die typische Verteilung möglicher Diagnosen. Auch sie las-

sen sich nur bei speziellen Problemstellungen anwenden (vgl. [Pup91]). Zum einen

sind es restriktive Voraussetzungen, insbesondere die Forderung einer statistischen

Unabhängigkeitder Symptome unddes gegenseitigenAusschlussesvonFehlern, zum

anderen eine exponentielle Laufzeitkomplexität in der Anzahl der möglichen Fehler,

die eine breite Anwendung der probabilistischen Diagnose verhindern.

Die ersten beiden Diagnoseansätze werden im folgenden nicht mehr berücksichtigt,

denn es ist erkennbar, daß ihre Mächtigkeit nicht ausreicht, um eine Fehlerdiagnose

für komplexe technische Anlagen erfolgreich durchführen zu können.

Fallbasierte Diagnose

Die Grundidee des fallbasierten Diagnoseansatzes ist es, zur Lösung eines neuen

Problems auf Diagnosewissen zurückzugreifen, das in Form von gelösten Aufgaben

des gleichen Problembereichs (z.B. für die selbe technische Anlage) vorliegt. Dieses

..

25

2WISSENSAKQUISITION MIT DATA MINING ..

Wissen wird in einer sogenannten Falldatenbasis gesammelt; dabei besteht jeder Fall

aus einer Problembeschreibung und der zugehörigen Lösung, der Diagnose. Liegt

eine Diagnosesituation (Störungsfall) vor, wird aus der Fallbasis ein vergleichbarer,

möglichstähnlicher Fallherausgesuchtund dessen Diagnose auf das aktuelle Problem

übertragen ([Pup91]).

Die Problemlösungsfähigkeit von fallbasierten Diagnosesystemen hängt von zwei

Faktoren ab:

1. Von der Anzahl und der Qualität der Fälle in der Fallbasis und

2. von der Güte des sogenannten Ähnlichkeitsmaßes.

Die Fallbasis muß eine hinreichend große Auswahl typischer Fehlersituationen ent-

halten, um das Fehlerspektrum geeignet abdecken zu können. Der Aufbau einer sol-

chen Fallbasis kann sich im technischen Bereich, insbesondere für komplexe tech-

nische Anlagen, als schwierig erweisen. Mit dem Ähnlichkeitsmaß wird der Grad

der Übereinstimmung (Ähnlichkeit) der alten Fälle mit dem aktuellen Fall berechnet.

Auch dies ist für komplexe Anlagen in der Regel schwierig zu entwickeln. Außer-

dem muß dem Problembereich eine gewisse »Stetigkeit« zugrunde liegen, damit die

Übertragbarkeit der Lösung des alten Falls auf das aktuelle Problem gewährleistet ist.

Heuristische Diagnose

Heuristische Diagnosesysteme basieren auf der Auswertung von assoziativem Wis-

sen, das in Form von Heuristiken, also »Daumen-« oder Erfahrungsregeln, in einer

Regelbasis repräsentiert wird. Die Regeln beschreiben direkt und ohne Begründung,

welche Symptomkombinationen mit welcher Sicherheit auf welche Ursache hindeu-

ten, sie haben also die Form

Wirkung



Ursache



Da diese Regeln jedoch mit Unsicherheit behaftet sein können und jede Wirkung ver-

schiedene Ursachen haben kann, kommen in einer konkreten Diagnosesituation übli-

cherweise mehrere Regeln zur Anwendung. Diese müssen dann geeignet verrechnet

werden, um eine Aussage über die wahrscheinlichste Ursache machen zu können. Als

Diagnose wird dann die Ursache mit der im Hinblick auf die beobachteten Sympto-

me höchsten Bewertung betrachtet. Da das nach diesem Ansatz verarbeitete Wissen

keine kausalen Zusammenhänge des Problembereichs berücksichtigt, wird es auch

»flaches« Wissen genannt.

26 ..

..2.3 NEUER ANSATZ ZUR AKQUISITION VON DIAGNOSEWISSEN

Die Diagnosegüte wird beim heuristischen Ansatz im wesentlichen von der Qualität

der Regelbasis bestimmt. Häufig werden die Regeln durch einen sogenannten Wis-

sensingenieur ermittelt, der einen Experten befragt und dessen Erfahrungen in das

Diagnosesystem einpflegt (vgl. Abschnitt 2.1.3). Sie führen damit zwar zu einer kla-

ren, verständlichen und leicht verarbeitbaren Wissensdarstellung, der Aufwand zum

Aufbau, zur Pflege und zur Konsistenzerhaltung einer Regelbasis kann jedoch schnell

mit ihrer Größe steigen. Ein weiteres Problem istdie Vollständigkeitder Regelmenge,

denn es existiert kein etabliertes Verfahren zu ihrer systematischen und ingenieurmä-

ßigen Konstruktion.

Als erfolgreiches heuristisches Diagnosesystem ist z.B. MYCIN ([Sho76]) für eine

medizinische Anwendung bekannt geworden. Auch für den technischen Bereich exi-

stieren einige Systeme, hierbei werden jedoch nur kleine Problemgrößen behandelt

oder auf zusätzliche Ansätze zurückgegriffen (z.B. MOLTKE, [PR93]). Für kom-

plexe technische Anlagen reicht dieser Ansatz alleine nicht aus, da der »manuelle«

Aufbau der Regelbasis zu aufwendig und fehleranfällig ist.

Modellbasierte Diagnose

In der modellbasierten Diagnose wird die zu diagnostizierende Domäne durch ex-

plizite Verhaltens- und Strukturmodelle repräsentiert (sogenanntes »tiefes« Wissen),

mit denen das Systemverhalten simuliert werden kann. Zur Fehlerdiagnose werden

Hypothesen generiert und deren Auswirkungen durch Simulation im Modell herge-

leitet. Stimmen die erwarteten Symptomemit den bei der realen Anlage beobachteten

Symptomen überein, kann die zugrundeliegende Hypothese als Diagnose angesehen

werden, andernfalls muß eine neue Hypothese geprüft werden.

Als Voraussetzung für die Anwendung modellbasierter Diagnoseansätze muß der zu-

grundeliegende Problembereich gut und vollständig verstanden sein, andernfalls ist

das Aufstellen der Verhaltens- und Strukturmodelle nicht möglich. Diese Voraus-

setzung kann für viele technische Bereiche als erfüllt angesehen werden: Aufgrund

der oft komponentenorientierten Systemmodellierung sind kontextfreie, lokale Be-

schreibungen von Funktion und Arbeitsweise der Einzelteile möglich. Ein physi-

kalisches Gesamtmodell für eine spezielle Anlage entsteht dann durch die Synthese

der Komponentenmodelle sowie ihrer Verbindungen. Durch geeignete Werkzeuge

(z.B. artdeco für hydraulische und pneumatische Anlagen, siehe [KCH



95], [Cur96]

und [SCH98]) kann die Modellbildung automatisch »im Hintergrund« durchgeführt

werden, wenn der Ingenieur eine neue Anlage mit graphischen Operationen konstru-

iert.

Der wesentliche Nachteil des modellbasierten Diagnoseansatzes ist jedoch, daß nur

..

27

2WISSENSAKQUISITION MIT DATA MINING ..

Beziehungen der Form Ursache



Wirkung

zur Verfügung stehen. Für die Lösung eines konkreten Diagnoseproblems ist aber

genau der Umkehrschluß notwendig. Deshalb kommt der Hypothesengenerierung

und der Ermittlung ihrer Auswirkungen innerhalb des Modells eine entscheidende

Bedeutung zu. Da die Zahl zu prüfender Hypothesen (Fehlerszenarien) in komple-

xen technischen Systemen sehr groß sein kann, ist der Aufwand zur Fehlerdiagnose

üblicherweise zu hoch.

Der modellbasierte Ansatz hat aber auch einen entscheidenden Vorteil: Durch die

Verwendung von »tiefem« Wissen liegt ein relativ mächtiges Verfahren vor, mit dem

ein breites Spektruman Fehlersituationen abgedeckt werden kann. Aus diesem Grund

existieren einige modellbasierte Diagnosesysteme, wie z.B. die GDE (General Dia-

gnostic Engine) von de Kleer et al. ([dKW87],[FdK93]) oder FEMO von Puppe

([Pup90]).

2.3.3 Integration von Data Mining in die Wissensakquisition

Die Diskussion der bekannten klassischen Diagnoseansätze hat gezeigt, daß kein An-

satz alle der in Abschnitt 2.3.2 motiviertenAnforderungen an ein technisches Diagno-

sesystem erfüllen kann. Abbildung 2.4 faßt die Ergebnisse noch einmal vereinfacht

zusammen.

effiziente Korrektheit bzw. automatische

Diagnoseansatz Verarbeitung Vollständigkeit Wissensakquisition

fallbasiert + - -

heuristisch + - -

modellbasiert - + +

Abbildung 2.4: Bewertung der klassischenDiagnoseansätze imHinblickauf die Dia-

gnose technischer Anlagen (+ : möglich, - : nicht möglich bzw. sehr

aufwendig)

Wünschenswert ist ein Diagnoseansatz, der die Stärken der klassischen Ansätze ver-

eint und auf diese Weise alle genannten Anforderungen bestmöglich erfüllt. Ein Weg

kann in der Kombination zweier Ansätze liegen, indem aus dem »tiefen« kausalen

Wissen des modellbasierten Ansatzes automatisch »flaches« assoziatives Wissen in

28 ..

..2.3 NEUER ANSATZ ZUR AKQUISITION VON DIAGNOSEWISSEN

Form von Regeln oder Fallbeispielen erzeugt wird. In der Literatur wird diese Vor-

gehensweise auch mit Wissenskompilierung oder Modelltransformation bezeichnet

(vgl. [CM83], [PR93], [Ste01]3).

Leschka untersucht in [Les96] am Beispiel des fallbasierten Störungsmanagements in

flexiblen Fertigungssystemen die modellbasiert-fallbasierte Kombination. Sein An-

satz ist auf die direkte Beteiligung eines Experten bei der Wissensakquisition ausge-

richtet. Dagegen wird inder vorliegenden Arbeit diemodellbasiert-heuristischeKom-

bination am Beispiel der Fehlerdiagnose für hydraulische Anlagen verfolgt, wobei die

Kernfrage lautet: Wie läßt sich eine vollständig automatische Modelltransformation

durchführen, die auch für komplexe Anlagen eine hohe Problemlösungsfähigkeit er-

möglicht? Dieser Frage wird im weiteren nachgegangen.

Neuer Wissensakquisitionsansatz

Wird für die zu diagnostizierende Anlage durch die Simulation von Fehlers-

zenarien eine Simulationsdatenbasis erzeugt, enthält sie Wissen über mögliche

Komponentenfehler und ihre Auswirkungen auf das Anlagenverhalten in Form

von Ursache



Wirkung-Zusammenhängen. Diese Simulationsdatenbasis ist je-

doch für eine heuristische Fehlerdiagnose nicht direkt von Nutzen, weil diese auf

Wirkung



Ursache-Regeln angewiesen ist (vgl. Abschnitt 2.3.2). Daher ist ein wei-

terer Transformationsschritt erforderlich, in dem mit einem Regellernverfahren das

implizite Diagnosewissen der Simulationsdatenbasis in eine explizite heuristische

Darstellung überführt wird.

Die durch Anwendung des heuristischen Diagnosewissens erzielbare Diagnosegüte,

also der Anteil der korrekt diagnostizierten Störungssituationen, ist dabei insbesonde-

re abhängig von der Korrektheit und Vollständigkeit der erzeugten Regelbasis. Eine

Voraussetzung ist daher, daß die Simulationsdatenbasisbereits ein möglichstvollstän-

diges Spektrum der Ursache / Wirkungs-Zusammenhänge der Anlage abdeckt. Bei

komplexen technischen Anlagen ist also eine große Anzahl von Simulationsläufen

notwendig, was zwangsläufig zu einer sehr großen Datenbasis führt.4

Für das Problem der Wissensakquisition aus sehr großen Datenbeständen ist bereits

in Abschnitt 2.1.3 eine mögliche Lösung angeregt worden, die den Einsatz von Data-

Mining-Verfahren vorsieht. Als konkrete Umsetzung dieses Lösungsvorschlags wird

3 Insbesondere Stein befaßt sich in [Ste01] ausführlich mit der Erzeugung und Transformation von

Modellen sowie deren Einsatz für Diagnose- und Designaufgaben.

4 Der Simulationsaufwand für die zu diagnostizierende Anlage ist sowohl von der Anzahl der Ein-

zelkomponenten als auch der möglichen Betriebsszenarien abhängig, wie in Abschnitt 4.3.2 näher

ausgeführt wird.

..

29

2WISSENSAKQUISITION MIT DATA MINING ..

in den weiteren Kapiteln dieser Arbeit die Integration von Data Mining in den au-

tomatischen Akquisitionsprozeß für Diagnosewissen behandelt. Das neue Konzept

umfaßt zwei zeitlich aufeinanderfolgende Schritte (vgl. Abbildung 2.5)5:

1. Erzeugung einer Simulationsdatenbasis durch Simulation der kausalen Anla-

genmodelle und

2. Erzeugung einer heuristischen Wissensbasis durch Data Mining in der Simula-

tionsdatenbasis.

Diagnosewissen

(implizit)

Verhaltenswissen

(explizit, kausal)

Strukturwissen und

Phys. Anlagenmodell

Domänenwissen und

Komponentenwissen

(explizit, kausal)

Gleichungssysteme

Diagnosewissen

(explizit, heuristisch)

Simulation Data Mining

Modellsynthese Automatische Wissensakquisition

Physikalische Modelle

heurist. Wissensbasis

Ursache->Wirkung Wirkung->Ursache

Simulationsdatenbasis

Abbildung 2.5: Wissenstransformationsschritte zur automatischen Akquisition von

heuristischem Diagnosewissen

Da die eigentliche Verhaltenssimulation (Schritt 1) durch die Anwendung bestehen-

der Simulationswerkzeuge vorgenommen werden kann, konzentriert sich die vorlie-

gende Arbeit auf die Erzeugung der Diagnoseregeln (Schritt 2). Als Repräsentation

für die heuristischen Diagnoseregeln werden in Kapitel 3die sogenannten Assozia-

tionsregeln ausführlich behandelt. Mit Assoziationsregeln lassen sich die für den

heuristischen Diagnoseansatz benötigten unsicheren Zusammenhänge in der Form

Symptom 1







Symptom m



Diagnose

5 Im Unterschied zu Console et al. ([CPDT93]) oder Hesse ([Hes99]), die hybride Ansätze zur ver-

zahnten Ausführung von Modellanalysen und Regelanwendungen zur Diagnosezeit vorschlagen,

wird nach dem in dieser Arbeit vorgestellten Ansatz ein rein heuristisches Diagnosesystem ge-

neriert, in dem bereits vor der ersten Diagnosesituation das in den Ausgangsmodellen enthaltene

Wissen in Regelform vorliegt.

30 ..

..2.3 NEUER ANSATZ ZUR AKQUISITION VON DIAGNOSEWISSEN

darstellen, und aus dem Data-Mining-Bereich existieren effiziente Lernalgorithmen

zu ihrer Erzeugung.

In Kapitel 4wird dieser Ansatz in ein vollständiges Konzept zur automatischen Er-

zeugung von Diagnosesystemen für hydraulische Anlagen eingebettet und detailliert

beschrieben. Die mit einer prototypischen Realisierung erzielten Ergebnisse (vgl. Ka-

pitel 5) zeigen die Vorteile des Ansatzes:



Es können keine in bezug auf die Ausgangsdatenbasis inkonsistenten Regel-

mengen entstehen, weil die (korrekten) Verhaltens- und Strukturmodelle des

Anwendungsbereichs als Wissensgrundlage dienen.



Die Gefahr der Unvollständigkeit ist klein, weil durch die Simulation ein hoher

Grad der Überdeckung von Fehlersituationen erreicht werden kann.



Der eigentliche Diagnoseprozeß im Störungsfall ist sehr effizient durchführbar,

weil in dieser Phase durch einfache Regelanwendung der direkte Schluß von

Symptomen auf ihre Ursachen möglich ist.

..

31

2WISSENSAKQUISITION MIT DATA MINING ..

32 ..

...

3 Assoziationsregeln

In diesem Kapitel wird mit den sogenannten Assoziationsregeln (engl. association

rules) ein Konstrukt zur Beschreibung von strukturellen Zusammenhängen in Daten

diskutiert. Sie wurden 1993 von Agrawal, Imielinskiund Swami in [AIS93] als Mittel

zur Warenkorbanalyse1eingeführt. Die automatische Entdeckung von Assoziations-

regeln ist heute ein wichtigesZiel innerhalb des Data Minings, denn die Regeln lassen

sich auch aus großen Datenmengen effizient lernen und sind intuitiv interpretierbar.

Allgemein beschreiben Assoziationen eine über die Zufallshäufigkeit hinausgehende

gemeinsame Auftrittswahrscheinlichkeit zweier oder mehrerer Muster bzw. Gedan-

ken. Dazu sind in der Psychologie sogenannte Assoziationsexperimente bekannt, in

denen Versuchspersonen auf ein einzelnes vorgegebenes Wort mit demjenigen ande-

ren Wort antworten sollen, das ihnen zuerst einfällt. Hieraus ergibt sich eine Häu-

figkeitsverteilung für paarweise Wortnennungen, die als Beweis für die assoziative

Arbeitsweise des menschlichen Gehirns gilt (vgl. [Rap96]).

Ähnlich ist das Prinzip der Assoziationsregeln: Sie bilden Zusammenhänge zwischen

Elementen einer Datenbasis ab, die nicht unmittelbar sichtbar sind, sondern erst durch

eine Datenanalyse gewonnen werden. Dabei stellen die Regeln keine exakten Impli-

kationen dar, d.h. sie haben eher probabilistischen oder korrelativen Charakter. Sind

Pund KAussagen über zugrundeliegende Datensätze, so hat eine Assoziationsregel

die Gestalt

P



Kmit Wahrscheinlichkeit cund relativer Häufigkeit s

und sagt aus, daß bei denjenigen Datensätzen, auf die Aussage Pzutrifft, die Aussage

Kmit einer Wahrscheinlichkeit von cassoziiert ist; die Regel läßt dabei auf einen

Anteil sder Datensätze korrekt anwenden. Meistens sind die Aussagen innerhalb der

Regeln auf einfache Vergleiche von Attributwerten sowie ihre konjunktive Verknüp-

fung beschränkt.

Im Gegensatz zu vielen anderen Regellernverfahren geht es im Data-Mining-Umfeld

üblicherweise um das Problem, alle Assoziationen zu entdecken, die bestimmte

Kriterien erfüllen. Gerade dieser Aspekt macht ihre Verwendung bei der Modell-

transformation zur Akquisition von Diagnosewissen interessant. Hier repräsen-

tieren die erzeugten Assoziationsregeln alle heuristischen Symptom



Diagnose-

Zusammenhänge, die aus den Verhaltens- und Fehlermodellen einer technischen

Anlage herleitbar sind.

1 In der Warenkorbanalyse wird das Kaufverhalten von Kunden untersucht, zum Beispiel durch die

Ermittlung von Artikelmengen, die häufig gemeinsam gekauft wurden.

..

33

3ASSOZIATIONSREGELN ..

Die weiteren Ausführungen dieses Kapitels beschäftigen sich daher mit verschiede-

nen, aus der Literatur bekanntenRepräsentationsformen für Assoziationsregelnsowie

ihrer effizienten Generierung und diskutieren jeweils ihre Eignung als heuristische

Diagnoseregeln.

Einteilung des Kapitels: Abschnitt 3.1 behandelt generelle Konzepte, kausale oder

korrelative Zusammenhänge mit herkömmlichen Regeln sowie mit Assoziationsre-

geln darzustellen. Der Schwerpunkt liegt dabei auf der Beschreibung semantischer

Aspekte, unabhängig von einer konkreten Regelsyntax oder möglichen Regelverar-

beitungsstrategien. Die anschließenden Abschnitte gehen näher auf spezielle Asso-

ziationsregelarten ein, die sich durch Variationen der Regelstruktur und / oder der

Wertebereiche der zugrundeliegenden Datenbasis ergeben. Im einzelnen werden be-

handelt: boolesche Assoziationsregeln für binäre Wertebereiche (Abschnitt 3.2), ka-

tegoriale Assoziationsregeln für diskrete Wertebereiche (Abschnitt 3.3) und Klassifi-

kationsregelnfür einelementige Konklusionen zur Vorhersage von Klassenzugehörig-

keiten (Abschnitt 3.4). Neben der Darstellung der formalen Definitionen und Eigen-

schaften von Assoziationsregeln wird insbesondere auf ihre automatische Erzeugung

eingegangen.

3.1 Regelkonzepte

Jedes regelbasierte System ist zweigeteilt und setzt sich aus einer Wissensbasis und

einer Inferenzkomponente zusammen. Die Wissensbasis wiederum besteht aus einer

Faktenbasis, dieWissen über konkreteSachverhalte des Problemkreisesrepräsentiert,

und einer Regelbasis, die Wissen über allgemeineBeziehungen zwischen Sachverhal-

ten enthält. Die wesentliche Aufgabe der Inferenzkomponente ist es, neues Wissen

herzuleiten, indem mit Hilfe der Regeln aus den vorhandenen Fakten neue Fakten

geschlußfolgert werden.

In diesem Abschnitt wird näher auf die Regelbasis eingegangen. Dazu erfolgt die

Erläuterung der Ausdrucksmöglichkeiten von Regeln, insbesondere zur Modellie-

rung von unsicheren Schlußfolgerungen (Abschnitt 3.1.1). Anschließend wird in Ab-

schnitt 3.1.2 auf das Konzept einer speziellen Regelfamilie, die Assoziationsregeln,

eingegangen und das sogenannte Assoziationsregelproblem definiert. Abschnitt 3.1.3

nimmt eine systematische Einordnung der in der Literatur bisher isoliert betrachteten

Assoziationsregeltypen vor.

34 ..

..3.1 REGELKONZEPTE

3.1.1 Regeln

Jede Regel besteht mindestens aus einem Bedingungsteil P, der Prämisse, und ei-

nem Folgerungsteil K, der Konklusion. Zusätzlich kann einer Regel eine Menge Q

von Eigenschaften zugeordnet sein, die diese Regel charakterisieren. Die zulässigen

Regelstrukturen unddie Bestandteile der Eigenschaftsmenge sind vom jeweiligen Re-

gelkonzept abhängig. Sollen im weiteren syntaktische Aspekte unberücksichtigt blei-

ben, wird eine Regel rdurch das Tripel

r





P



K



Q



oder durch die Darstellung r



P



K



Q

repräsentiert, wobei die Eigenschaftsmenge Qleer sein darf.

Der Bedingungsteil Peiner Regel ist ein Ausdruck, der sich über einer gegebenen

Datenbasis immer zu einem Wahrheitswert evaluieren läßt, während im Folgerungs-

teil Kzusätzlich noch prozedurale Elemente oder Anweisungen erlaubt sein können

(z.B. in Produktionsregelsystemen). Eine Regel stellt somit eine Folgerungsbezie-

hung dar und besitzt die folgende Semantik:

Wenn Pwahr ist



dann gilt Kmit den Eigenschaften Q



Zur Anpassung an den jeweiligen Einsatzbereich bzw. an den Regelverarbeitungsme-

chanismus existieren zahlreiche Regelvarianten. Generell lassen sich die verschie-

denen Regelstrukturen und -ausdrucksmöglichkeiten gegeneinander abgrenzen, in-

dem ihre syntaktischen und semantischen Eigenschaften betrachtet werden. In Ab-

schnitt 3.1.3 wird dazu eine Hierarchie der wichtigsten (Assoziations-) Regelarten

beschrieben.

Ein wesentlicher Aspekt bei der Abbildung von heuristischen Symptom



Diagnose-

Folgerungen ist die Repräsentation von Unsicherheit. Hierfür werden Regelkonzepte

benötigt,dieUnsicherheitswertebezüglichderAussagenüberSchlußfolgerungenvon

Prämissen auf Konklusionen enthalten. Durch eine Regel wird die Konklusion dann

u.U. nicht exakt, sondern nur mit einer gewissen Evidenz oder Wahrscheinlichkeit

hergeleitet; die Konklusion ist also nur in einem Teil der Anwendungsfälle gültig.

Zur Modellierung des unsicheren Schließens lassen sich je nach Anwendungsbereich

Ursachen berücksichtigen, die auf subjektiven oder auf objektiven Unsicherheiten

beruhen (vgl. [Ric89], [Lus90]). Subjektive Unsicherheiten entstehen durch mensch-

liche Unzulänglichkeiten (z.B. durch begriffliche Ungenauigkeiten oder subjektive

Wahrscheinlichkeiten) und werden häufig auch mit Vagheit bezeichnet. Objektive

..

35

3ASSOZIATIONSREGELN ..

Unsicherheiten hingegen liegen vor, wenn durch scharfe Interpretationen die Ex-

aktheit von Aussagen zwar scheinbar vorhanden ist, jedoch inhärente Eigenschaften

des Problembereichs oder Informationsmangel sichere Schlußfolgerungen verhindern

(z.B. durch Meßfehler, numerische Ungenauigkeiten, falsche Aggregation, Zufall-

seinflüsse oder Unkenntnis von Parametern und allgemeinen Zusammenhängen).

Sind Unsicherheitsphänomene vorhanden, so müssen diese geeignet modelliert und

den Regeln zugeordnet werden. Dies kann durch die bereits oben erwähnte Eigen-

schaftsmenge Qgeschehen. Abbildung 3.1 listet einige Regelkonzepte für unsicheres

bzw. vages Schließen sowie ihre charakterisierenden Eigenschaften auf. Auch das

Problemfeld der heuristischen Diagnose ist üblicherweise mit objektiver Unsicherheit

behaftet. In Kapitel 4wird gezeigt, daß hierfür die Assoziationsregeln eine geeignete

Repräsentationsform darstellen können. Ihre Semantik und Erzeugung wird daher in

den folgenden Abschnitten ausführlich erläutert.

Regelart Charakterisiert durch die Eigenschaft(en)

1. Probabilistische Regel bedingte Wahrscheinlichkeit

2. Produktionsregel Sicherheitsfaktor (engl. certainty factor)

3. Fuzzy-Regel Zugehörigkeitsfunktion(en)

4. Assoziationsregel relative Häufigkeit, Konfidenz (s. Abschnitt 3.1.2)

Abbildung 3.1: Regeltypen für unsicheres Schließen

3.1.2 Assoziationsregelkonzept

Zunächst wird das generelle, nicht anwendungsabhängig eingeschränkte Konzept der

Assoziationsregeln definiert. Jede Regel repräsentiert ein Muster (Beziehung zwi-

schen Attributen) innerhalb einer Datenbasis, deren Aufbau Definition 2.2 auf Sei-

te 20 entspricht. Die Muster können dabei in Abhängigkeit des betrachteten Pro-

blemkreises Funktionalitäten, Korrelationen oder zufällige Phänomene ausdrücken.

Die folgende Definition 3.1 ist angelehnt an [AIS93].

Definition 3.1 (Assoziationsregel): Es sei Deine Datenbasis mit der Attributmenge

A. Für eine Teilmenge X



AseiCXein boolescher Ausdruck, wobeiCX(evtl. logisch

verknüpfte) Aussagen über genau die Attribute in Xbeinhaltet. Weiter seien P



A

und K



AAttributmengen, für die gilt: P





/

0,K





/

0und P



K



/

0.

36 ..

..3.1 REGELKONZEPTE

Dann heißt eine Regel der Form

CP



CK



c



s

Assoziationsregel über D mit der Konfidenz c



0



1



und der relativen Häufigkeit

s



0



1



.

¾

Anmerkungen: Sei r



CP



CKeine Assoziationsregel. Durch die Einschränkun-

gen P





/

0,K





/

0und P



K



/

0werden die Ausdrucksmöglichkeiten nicht verringert,

denn es gilt:

1. bei Verletzung von P





/

0oder K





/

0:

/

0



CKundCP



/

0haben innerhalb des Assoziationsregelkonzeptskeine Aus-

sagekraft.

2. bei Verletzung von P



K



/

0:

In diesem Fall können folgende Ersetzungen so lange ausgeführt werden, bis

P



K



/

0gilt: Sei g



P



Kein Attribut, das sowohl in der Prämisse als auch

in der Konklusion auftritt. Weiter seien P



:



P



g



und K



:



K



g



. Dann

ist die betrachtete Regel rentweder tautologisch, oder sie kann so umgeformt

werden, daß gnicht mehr in der Schnittmenge vorkommt2, denn rbesitzt eine

der vier Formen:

(a) r



CP





Cg



Cg



CK



: Dann ist räquivalent zu der Regel CP





Cg



CK



.

(b) r



CP





Cg



Cg



CK



: Dann ist räquivalent zur Konjunktion der drei

Regeln CP





Cg,CP





CK



undCg



CK



.

(c) r



CP





Cg



Cg



CK



: Dann ist rtautologisch.

(d) r



CP





Cg



Cg



CK



: Dann ist räquivalent zu der Regel CP





Cg



CK



.

Eine AssoziationsregelCP



CKkann gewöhnlich nicht als strenge Folgerung aufge-

faßt werden, sondern beschreibt unsichere Zusammenhänge, d.h., in der Datenbasis

existieren sowohl Datensätze, für die die Regelbeziehung zutrifft (positive Beispiele),

als auch Datensätze, für die sie nichtzutrifft (negativeBeispiele). Zu jeder Regelwird

daher die in der Datenbasis gültige Unsicherheitssituation mit zwei statistischen Grö-

ßen aggregiert: relative Häufigkeit sund Konfidenz ceiner Regel, die in Anlehnung

an [KMRV94] gemäß der folgenden Definition 3.2 berechnet werden.

Definition 3.2 (Relative Häufigkeit und Konfidenz einer Assoziationsregel): Es

sei r



CP



CK



c



seine Assoziationsregel über einer Datenbasis D.

2 Ein Beweis der Äquivalenzen kann leicht über Wahrheitstafeln geführt werden.

..

37

3ASSOZIATIONSREGELN ..

Dann ist die relative Häufigkeit (engl. support)sder Regel rdefiniert als

s





d



D





CP



CK



ist wahr für d





d



d



D





Die Konfidenz (engl. confidence)cder Regel rwird mit

c





d



D





CP



CK



ist wahr für d





d



D



CPist wahr für d



berechnet.

Für die relative Häufigkeit sund die Konfidenz cder Regel rist auch die funktionale

Notation s



r



bzw. c



r



gebräuchlich.

¾

Beispiel 3.1: Es sei eine Datenbasis Dmit den Attributen A





A1



A5



über der

Menge der natürlichen Zahlen wie folgt gegeben:

A1A2A3A4A5

d114661

d212611

d333525

d413561

d541124

Dann gilt für die relative Häufigkeit sund die Konfidenz causgewählter Assoziati-

onsregeln r1



r4:

r1

 

A1



1







A5



1





s



3

5,c



1

r2

 

A4



6







A5



3







A3



4



8





s



4

5,c



3

4

r3







A2



5







A1



0





s



0, c



undef.

r4

 

A1



5







A3



5







A4



1





s



1

5,c



1

5

¾

Die relative Häufigkeit seiner Assoziationsregel rgibt an, für welchen Anteil der

Datensätze einer Datenbasis Ddie Regel rgültig ist; sie wird in der Literatur manch-

mal auch mit rule frequency bezeichnet. sist normiert auf das Intervall



0



1



und

kann als quantitatives Maß zur Bewertung einer Regel angesehen werden. Welche

relative Häufigkeit für eine Regel günstig ist, läßt sich nur anwendungsabhängig be-

urteilen. Tendenziell gilt aber, daß Regeln mit einem Wert nahe bei 0 Ausnahmefälle

und Regeln mit einem Wert nahe bei 1 triviale oder offensichtliche Zusammenhänge

beschreiben.

38 ..

..3.1 REGELKONZEPTE

Dagegen ist die Konfidenz cein Maß für die Güte einer Regel r



CP



CK, denn sie

gibt für rden Anteil der positiven Beispiele in der Datenbasis an. cwird manchmal

auch als Regelstärke (engl. rule strength) bezeichnet, weil – bezogen auf die Gesamt-

heit der Datensätze aus D– die Konfidenz einer Regel ein Maß für die Sicherheit

ist, mit der von einem AusdruckCPauf einen Ausdruck CKgeschlossen werden darf.

Auch dieses Maß ist auf das Intervall



0



1



normiert. Bei einem Wert c



0



5 kann si-

cherer auf die Negation der Konklusion geschlossen werden, denn aus Definition 3.2

folgt unmittelbar: c



CP



CK



1



c



CP



CK





Kann der Benutzer eines Regelsystems Hypothesen über die in der Datenbasis vor-

handenen Beziehungen anstellen, so ist die Erzeugung und Bewertung der entspre-

chenden Regeln einfach. Im Sinne des Data Minings ist jedoch vielmehr das Problem

der automatischen Erzeugung aller hinreichend häufigen und hinreichend konfiden-

ten Assoziationsregeln interessant (vgl. Definition 2.3 auf Seite 21). Dieses läßt sich

allerdings nicht effizient und problemangemessen lösen, solange die booleschen Aus-

drücke in den Regelprämissen und -konklusionen als beliebige Aussagen über die

Attribute sein dürfen.

Erst wenn der Kontext des Regeleinsatzes bekannt ist, wird es möglich, Systeme zu

erstellen, die eine Unterscheidung zwischen sinnvollen und nicht sinnvollen Regeln

vornehmen können und somit zur Regelerzeugung nicht mehr auf eine Hypothesen-

formulierung durch den Benutzer angewiesen sind. Aus diesem Grund existieren As-

soziationsregeltypen, die das Konzept anwendungsbezogen vereinfachen, indem sie

die Wertebereiche der Attribute einschränken und / oder die Regelstruktur anpassen.

Die im Hinblick auf ihre Eignung als Diagnoseregeln wichtigen Konzepte werden im

folgenden Abschnitt behandelt.

3.1.3 Assoziationsregelarten

In diesem Abschnitt wird eine integrierende Darstellung und begriffliche Abgren-

zung der wichtigsten aus der Literatur bekannten Assoziationsregelarten vorgenom-

men. Die Darstellung liefert zudem einen Überblick über die Unterschiede in der

Regelmodellierung und verweist auf diagnoserelevante Aspekte. Im allgemeinen hat

die Festlegung auf eine Regelart einen entscheidenden Einfluß auf die Konzeption

einer Problemlösung: Mit der Art der Regelmodellierung werden die wesentlichen

Ausdrucks- und Verarbeitungsmöglichkeiten des Problemlösungswissens bestimmt.

Abbildung 3.2 zeigt eine Hierarchie der im weiteren behandelten Assoziationsregel-

typen.

Obwohl mit der ersten Erwähnung des Begriffs »Assoziationsregel« in [AIS93] die

restriktivste Regelart, die booleschen Assoziationsregeln, eingeführt wurde und erst

..

39

3ASSOZIATIONSREGELN ..

Boolesche Assoziationsregeln

Assoziationsregeln

Spezielle Assoziationsregeln

Kategoriale Assoziationsregeln

Regeln

regeln

Diagnose-

Klassifikationsregeln

Abbildung 3.2: Begriffliche Hierarchie der Assoziationsregeltypen (Unterscheidung

nach syntaktischen Restriktionen)

anschließend durch andere Autoren Erweiterungen des Konzepts stattfanden, wird im

folgenden die Hierarchie von außen nach innen dargestellt.

Regeln: Hiermit ist die Gesamtheit aller Regelkonstrukte gemeint, die sich als Tri-

pel



P



K



Q



für Prämissen P



Konklusionen Kund Eigenschaftsmengen Qdarstellen

lassen (siehe Abschnitt 3.1.1).

Assoziationsregeln: Die allgemeinen Assoziationsregeln sind eine echte Teilmen-

ge der allgemeinen Regeln. Sie lassen sich als Tripel



P



K





s



c



beschreiben und

zeichnen sich neben den Eigenschaftszuordnungen Konfidenz cund relative Häufig-

keit sdurch die Beschränkung der Ausdrücke in Pund Kauf Aussagen über die Attri-

butwerte der Datensätze in einer relationalen Datenbasis aus (siehe Abschnitt 3.1.2).

Spezielle Assoziationsregeln: Werden die Ausdrücke in Pund Kweiter einge-

schränkt, die Wertebereiche der Datenbasis begrenzt oder die Eigenschaftsmenge

Qerweitert, so erhält man auf bestimmte Einsatzzwecke spezialisierte Assoziati-

onsregeln. Hierunter fallen z.B. Regeltypen wie Implikationsregeln ([BMUT97]),

Fuzzy-Assoziationsregeln ([KFW98]), temporale Assoziationsregeln ([RMS98]),

quantitative Assoziationsregeln ([SA96], [FMMT96], [MY97]), kategoriale Assozia-

tionsregeln ([BW98]) oder repräsentative Assoziationsregeln ([Kry98a], [Kry98b]).

40 ..

..3.1 REGELKONZEPTE

In dieser Arbeit werden die zur Lösung von Diagnoseproblemen geeigneten katego-

rialen Assoziationsregeln näher untersucht.

Kategoriale Assoziationsregeln: Bei dieser Regelart dürfen die Ausdrücke in Pund

Knur aus Gleichheitstests für Attribut/Wert-Paare bestehen, die evtl. durch Konjunk-

tion miteinander verbunden sind. Die Wertebereiche der Attribute müssen endlich

sein, und jeder Wert bezeichnet eine diskrete Kategorie. Üblicherweise werden die

Kategorien durch ganze Zahlen oder durch Buchstaben dargestellt. Ein Beispiel für

eine kategoriale Assoziationsregel ist

A2



4



A5



0



A9



F



c



s



Weitere Ausführungen hierzu befinden sich in Abschnitt 3.3.

Boolesche Assoziationsregeln: Für boolesche Assoziationsregeln ist die Datenbasis

per Definition auf zweielementige Wertebereiche (z.B.



0;1



) beschränkt. Die Prä-

misse Pund die Konklusion Kbestehen dann lediglich aus Attributmengen, wobei

jedes Element für einen Vergleich des Attributs auf den Wert 1 steht. Die Vergleiche

innerhalb einer Attributmenge gelten als durch Konjunktion verknüpft. Eine typische

boolesche Assoziationsregelkönnte also unter Verzicht auf Mengenklammern lauten:

A2



A4



A7



A3



A8



c



s



Kategoriale Assoziationsregeln und boolesche Regeln lassen sich ohne Informations-

verlust ineinander transformieren (siehe Abschnitt 3.3.2), die beiden Regelarten be-

sitzen also vergleichbare Eigenschaften. Die in der vorliegenden Arbeit benötigten

Eigenschaften werden anhand der booleschen Assoziationsregeln in Abschnitt 3.2

beschrieben.

Klassifikationsregeln: Bei den Klassifikationsregeln ist die Konklusion Kauf ein

festes Vorhersageziel, die Klassenzuordnung, festgelegt. Diese Einschränkung kann

mit allen anderen bisher erwähnten Einschränkungen kombiniert werden, so daß kei-

ne echte Teilmengenbeziehung zu den Assoziationsregelarten besteht (vgl. Abbil-

dung 3.2). In Abschnitt 3.4 erfolgt die nähere Beschreibung dieser Regelart.

Diagnoseregeln: Durch eine Kombination der Definitionen von Klassifikationsre-

geln und kategorialen Assoziationsregeln erhält man eine zur Lösung von Diagnose-

problemen geeignete Regelart, weil sich hiermit heuristische Symptom



Diagnose-

Zusammenhänge repräsentieren lassen. Werden z.B. an zwei Meßstellen m1und m2

die Symptome siund sjbeobachtet, die auf einen Fehler fschließen lassen, so lautet

eine typische Diagnoseregel (vgl. Definition 4.1 auf Seite 74):

m1



si



m2



sj



f



c



s



..

41

3ASSOZIATIONSREGELN ..

Da Diagnoseregeln auch allgemein zur Lösung von Klassifikationsproblemen3ge-

eignet sind, werden sie in diesem Kontext auch klassifizierende Assoziationsregeln

genannt (Näheres in Abschnitt 3.4.2).

Die weiteren Abschnitte des Kapitels gehen auf einige Assoziationsregelarten detail-

lierter ein. Zunächst werden die booleschen Assoziationsregeln dargestellt, weil an

ihnen grundlegende Eigenschaften und Algorithmen erläutert werden können. Dar-

auf aufbauend wird die effiziente Erzeugung von kategorialen und klassifizierenden

Assoziationsregeln beschrieben und zu einem Lernalgorithmus für heuristische Dia-

gnoseregeln kombiniert.

3.2 Boolesche Assoziationsregeln

Boolesche Assoziationsregeln beschreiben strukturelle Zusammenhänge in den Da-

tensätzen einer Datenbasis, deren Einträge einen zweielementigen Wertebereich be-

sitzen. Weil es sich hierbei um die zuerst eingeführte Assoziationsregelart handelt

([AIS93]), werden sie häufig auch als »klassische« Assoziationsregeln bezeichnet.

In Abschnitt 3.2.1 erfolgt eine formale Beschreibung des Konzepts und der Teilmen-

geneigenschaft, die sich durch die Beschränkung auf boolesche Wertebereiche ergibt.

Das Problem, alle Assoziationsregeln zu erzeugen, die bestimmte Kriterien erfül-

len, wird in Abschnitt 3.2.2 als Assoziationsregelproblem definiert. Abschließend

beschreibt Abschnitt 3.2.3 ein aus der Literatur bekanntes Verfahren zur effizienten

Lösung des Assoziationsregelproblems.

3.2.1 Definition und Eigenschaften

Zunächst werden einige Bezeichnungen vereinbart. Die zugrundeliegende Datenbasis

sei Dn; sie bestehe aus n



IN Datensätzen über m



IN Attributen A





A1



Am



,

die alle den Wertebereich IB





0;1



besitzen. Dann kann Dnals Teilmenge des

kartesischen Produkts aller Attributwertebereiche

Dn



dom



A1



  

dom



Am



IBm

aufgefaßt werden. Wegen der Zweiwertigkeit der Datenbasis ist es sinnvoll, auch

die Datensätze als Mengen anzusehen. Jeder Datensatz enthält dann alle Attribute,

3 DieDiagnoseist eine Klassifikationsaufgabe(HerleitungderLösungaus einerMenge vorgegebener

Alternativen anhand von Merkmalen, vgl. [Pup90]).

42 ..

..3.2 BOOLESCHE ASSOZIATIONSREGELN

für die der Wert der entsprechenden Komponente gleich 1 ist, d.h. für die Attribute

A1



Amund Datensätze di



Dngilt (mit i



1



n



und j



1



m



)

di





ai



1



ai



m

 

di





Aj



A



ai



j



1





Der Begriff der relativen Häufigkeit einer Attributmenge X



Ain der Datenbasis

Dnmacht dann eine Aussage über den Anteil derjenigen Datensätze, in denen die

Attribute aus Xden Wert 1 besitzen:

Definition 3.3 (Relative Häufigkeit einer Attributmenge): Es sei Dneine Daten-

basis mit n



IN Datensätzen und einer Attributmenge Aüber einem binären Werte-

bereich IB. Weiter sei X



A. Dann heißt

hn



X





d



Dn



X



d



n

relative Häufigkeit von X.

¾

Mit diesen Vereinbarungen ergibt sich die folgende Definition 3.4 für boolesche As-

soziationsregeln.

Definition 3.4 (Boolesche Assoziationsregel): Es sei Dneine Datenbasis mit

der Attributmenge A





A1



Am



,m



IN, über einem binären Wertebereich IB.

Weiter seien P





Ap1



Api



und K





Ak1



Akj



Teilmengen von A(wobei

p1



pi



k1



kj



1



m



), für die gilt: P



K



/

0. Dann wird eine Regel der

Form P



K



c



soder Ap1



Api



Ak1



Akj



c



s

boolesche Assoziationsregel über Dngenannt. Die Konfidenz cund die relative Häu-

figkeit sder Regel berechnen sich für n



IN Datensätze durch

c



hn



P



K



hn



P



und s



hn



P



K





¾

Des weiteren stellt der folgende Satz 3.1 eine monotone Beziehung zwischen den

relativen Häufigkeiten einer Attributmengeund ihrer Teilmengen her. Der bereits von

Agrawal et al. in [AIS93] und [AMS



96] beschriebene Zusammenhangwird in dieser

Arbeit als Monotonieeigenschaft bezeichnet.

Satz 3.1 (Monotonieeigenschaft): Es sei Dneine Datenbasis mit n



IN Datensätzen

und der Attributmenge A. Dann gilt für alle Attributmengen X



Aund X





X:

hn



X







hn



X





¾

..

43

3ASSOZIATIONSREGELN ..

Beweis: Es sei diein Datensatz der Datenbasis Dn. Aus X





Xfolgt X



di



X





di, jedoch nicht die Gegenrichtung, d.h. X



di



X





di. Auf alle Daten-

sätze d



Dbezogen gilt also



d



Dn



X





d

  

d



Dn



X



d



, und unter

Berücksichtigung von Definition 3.3 folgt die Behauptung.

¾

Die Monotonieeigenschaft sagt also aus, daß jede Teilmenge einer Attributmenge ei-

ne relative Häufigkeit besitzt, die mindestens so groß ist wie die der Menge selbst.

Daraus ergibt sich als Folgerung, daß keine Obermenge einer Attributmenge eine

größere relative Häufigkeit besitzen kann als die Menge selbst. Die zweite Inter-

pretation wird insbesondere zur Effizienzsteigerung der Assoziationsregelerzeugung

genutzt (vgl. Abschnitt 3.2.3).

3.2.2 Assoziationsregelproblem

Dieser Abschnitt motiviert und formuliert das sogenannte Assoziationsregelproblem.

Dazu wird zunächst diskutiert, welche Regelmengenüberhaupt sinnvoll sindund wel-

che Mächtigkeit sie besitzen können, bevor die Definition des Problems erfolgt.

Größe von Regelmengen

Liegt der Regelerzeugung eine Datenbasis Dnmit der aus m



IN Attributen beste-

henden Attributmenge Azugrunde, werden laut Definition 3.4 sowohl die Prämisse

Pals auch die Konklusion Kboolescher Assoziationsregeln aus Teilmengen von A

gebildet. Somit gilt für jede durch Auswertung von Dngewonnene Assoziationsre-

gelmenge R



Dn



:R



Dn





P



A





P



A





wobei P



A





X



X



A



die Potenzmenge von Aist. Aufgrund der Bedingungen

P





/

0,K





/

0und P



K



/

0bilden jedoch nicht alle Elemente von P



A





P



A



ei-

ne gültige Assoziationsregel. Über alle möglichen Datenbasen Dnmit nDatensätzen

über mAttributen betrachtet, läßt sich das theoretische Maximum der Regelanzahl,

maxDn



R



Dn





, durch die folgende Überlegung kombinatorisch ermitteln: Um eine

i-elementige Attributmenge Xaus Aauszuwählen, gibt es



m

i



Möglichkeiten. Aus ei-

ner Menge Xlassen sich durch jede Bi-Partitionierung P



K



Xzwei gültige Regeln

bilden, nämlich P



Kund K



P. Die Anzahl der möglichen Bi-Partitionierungen

einer i-elementigen Menge Xbeträgt 2i



1



1 (vgl. z.B. [Aig96]). Insgesamt ergibt

also sich die folgende Regelanzahl:

max

Dn



R



Dn







m

∑

i



2



m

i



2





2i



1



1







44 ..

..3.2 BOOLESCHE ASSOZIATIONSREGELN

Man erkennt das exponentielle Wachstum der Regelanzahl in Abhängigkeit von der

Attributanzahl m. An dem asymptotischen Wachstumsverhalten ändert jedoch auch

die Verwendung einer vereinfachten Regelstruktur nichts: Bezeichnet R



1



die Regel-

menge, in der die Konklusionen aus nur einem Attribut bestehen, dann können aus

einer i-elementigen Attributmenge Xnur izulässige Regeln gebildet werden, und es

gilt:

max

Dn



R



1





Dn







m

∑

i



2



m

i



i





m





2m



1



1



Durch die theoretische Komplexitätsbetrachtung wird deutlich, daß die Erzeugung

vollständiger Regelmengen für eine höhere Attributanzahl mnicht durchführbar ist.

Die folgenden Überlegungen zeigen jedoch, daß für praktische Problemstellungen

diese obere Abschätzung zu hoch gegriffen ist, weil nicht alle Regeln von Interesse

sind.

Abhängig von einer konkreten Datenbasis Dnkönnen viele theoretisch mögliche Re-

geln ohne Informationsgehalt sein, weil sie Strukturen beschreiben, die in Dnüber-

haupt nicht vorhanden sind. Eine solche Regel r



P



Kläßt sich z.B. an ihrer

relativen Häufigkeit s



r



0 und Konfidenz c



r



0 erkennen, denn diese Werte

können nur durch hn



P



K



0 entstehen, also durch Attributmengenkombinatio-

nen, die in keinem der Datensätze in Dnvorhanden sind (vgl. die Definitionen 3.3

und 3.4).

Als Folge hiervon sollte jede Regel eine positive Mindesthäufigkeit und Mindestkon-

fidenz besitzen, um überhaupt erzeugt zu werden. Der niedrigste sinnvolle Schwel-

lenwert berechnet sich aus dem relativen Anteil für genau einen Datensatz in Dn,so

daß bei nDatensätzen für jede Regel rgilt:

s



r





1

nund c



r





1

n



Je nach Anwendungsgebiet können aber auch höhere Schwellenwerte als 1

nsinn-

voll sein: Bereits in Abschnitt 3.1.2 wurde darauf hingewiesen, daß eine Konfidenz

c



r



0



5 eher gegen die Konklusion als für die Konklusion spricht. Da das boole-

sche Assoziationsregelkonzept keine Negation kennt, sind z.B. bei Klassifikations-

problemen für zwei Klassen (sog. dichotome Klassifikationsprobleme) nur Regeln

mit einer Konfidenz c



r





0



5 nützlich. Ein verallgemeinertes Konzept für diese

Schwellenwerte führt zur Definition 3.5 im folgenden Abschnitt.

Anmerkung: Für spezielle Problembereiche existieren in der Literatur neben Kon-

fidenz und relativer Häufigkeit zusätzliche Maße zur Regelbewertung, wie z.B. Di-

stanzmaße ([GO98],[DL98]), Intensity of Implication ([GGP98]), statistische Maße

..

45

3ASSOZIATIONSREGELN ..

([BMS97], [SBMU00], [ST96]), Fehler-basierte Maße ([KLKF98]) oder sogenann-

te Share-basierte Maße ([CHC97], [HCHC98]). Auf diese Erweiterungen wird jedoch

in der vorliegenden Arbeit nicht näher eingegangen, weil die bisher eingeführten Ei-

genschaften Q





s



c



zur Beschreibung heuristischer Diagnoseregeln hinreichend

sind.

Problemdefinition

Das Assoziationsregelproblem besteht in der Erzeugung aller für das jeweilige

Problemfeld interessanten Assoziationsregeln. Es handelt sich somit um eine

Konkretisierung des in Definition 2.3 auf Seite 21 eingeführten generischen Data-

Mining-Problemsund verwendetals Interessantheitskriteriumanwendungsabhängige

Schwellenwerte für die Regelkonfidenz und -häufigkeit.

Definition 3.5 (Assoziationsregelproblem): Es seien Dneine Datenbasis über dem

booleschen Wertebereich IB und R



Dn



die vollständige Menge der booleschen As-

soziationsregeln über Dn. Weiter sei σ



0



1



eine Häufigkeitsschwelle und γ



0



1



eine Konfidenzschwelle. Dann besteht das Assoziationsregelproblem in der Erzeu-

gung der Regelmenge

R



Dn



σ



γ



:





r



R



Dn





s



r





σund c



r





γ





¾

Eine theoretische Abschätzung der Regelanzahl



R



Dn



σ



γ





in Abhängigkeit von

der Häufigkeitsschwelle σund der Konfidenzschwelle γist nicht möglich, ohne die

Verteilung der Attributwerte in Dngenau zu kennen. Es sei daher an dieser Stelle

auf die empirische Untersuchung der Regelmengen in Diagnoseanwendungen (Ab-

schnitt 5.3.1) verwiesen.

Anmerkungen: (i) Eine Regel r



R



Dn



σ



γ



wird im folgenden auch σ-relevant

und γ-konfident genannt.

(ii) Es ist offensichtlich, daß für positive Schwellenwerte σ



0 und γ



0 die Bezie-

hung



R



Dn



σ



γ





R



Dn





gilt. An der Problemkomplexität ändert sich jedoch nichts, denn zu jedem Paar von

Parametern σundγläßt sich eine Datenbasis Dnfinden, für die



R



Dn



σ



γ









R



Dn





gilt. Dies ist allerdings nur mit unrealistischen Datenbasen möglich, deren Einträge

zum Beispiel ausschließlich aus dem Wert 1 bestehen. In praxisrelevanten Fällen er-

gibt sich durch die Verwendung positiver Schwellenwerte ein echter Laufzeitgewinn

(vgl. z.B. [CDF



00]).

46 ..

..3.2 BOOLESCHE ASSOZIATIONSREGELN

3.2.3 Basisalgorithmus zur Regelerzeugung

Dieser Abschnitt beschäftigt sich mit der Erzeugung von Assoziationsregeln. Zur

effizienten Lösung des Assoziationsregelproblems nach Definition 3.5 wird ein an

Agrawal et al. ([AMS



96]) angelehnter Algorithmus angegeben. Er stellt die Basis

für die meisten aus der Literatur bekannten Assoziationsregelalgorithmen dar – und

auch für das in Abschnitt 4.7 beschriebene Verfahren zur Generierung von Diagnose-

regeln.

Da die relative Häufigkeit s



r



einer Regel r



P



Kausschließlich durch die rela-

tive Häufigkeit der beteiligten Attributmengen hn



P



K



determiniert ist (vgl. Defi-

nition 3.4), läßt sich in Anlehnung an [AIS93] das Problem der Assoziationsregeler-

zeugung in die folgenden zwei Teile gliedern:

1. Erzeuge für eine vorgegebene Häufigkeitsschwelle σalle σ-relevanten Attri-

butmengen (engl. frequent itemsets), also die Menge

F



Dn



σ





X



P



A





X





/

0und hn



X





σ





Somit weisenalle Regeln, dieaus einer σ-relevantenAttributmengeXmit



X





1 konstruiert sind, ebenfalls die Mindesthäufigkeit σauf.

2. Erzeuge für eine vorgegebene Konfidenzschwelle γalle γ-konfidenten Bi-

Partitionen



P



K



aller Attributmengen aus F



Dn



σ



, also die Menge

R



Dn



σ



γ





P



K



F



Dn



σ





P



K



/

0und c



P



K





γ





Das Ergebnis ist die Menge aller σ-relevanten und γ-konfidenten Assoziations-

regeln über Dn.

Diese Vorgehensweise ist vollständig, d.h., es kann keine Regel r



R



Dn





R



Dn



σ



γ



existieren, für die s



r





σund c



r





γgilt. In den folgenden Un-

terabschnitten werden die beiden Schritte näher erläutert. Darüber hinaus wird auf

das Problem der Vermeidung redundanter Regeln eingegangen.

Ermittlung σ-relevanter Attributmengen

Es ist offensichtlich, daß ein naiver Algorithmus, der die relative Häufigkeit aller 2m

Attributteilmengen der Datenbasis Dnbestimmen müßte, für den praktischen Ein-

satz nicht geeignet ist. Die Monotonieeigenschaft der Attributmengenhäufigkeiten

(Satz 3.1) ermöglicht es jedoch, durch eine geschickte Erzeugungsreihenfolge viele

Attributmengen von der Suche auszuschließen. Die Grundidee ist dabei, stufenweise

..

47

3ASSOZIATIONSREGELN ..

Eingabe: Datenbasis Dnmit Attributmenge A, Häufigkeitsschwelle σ

Ausgabe: Menge aller σ-relevanten Attributmengen F



Dn



σ





X



P



A





X





/

0und hn



X





σ



(1) s



1

(2) Fs



Ai



Ai



Aund hn



Ai





σ



(3) while Fs





/

0do begin

(4) s



s



1

(5) Cs



X



Y



Z



Y



Fs



1



Z



Fs



1und



X





s



(6) Fs



X



Cs



hn



X





σ



(7) end

(8) return F



Dn



σ







s

i



1Fi

Algorithmus 3.1: Ermittlung der Attributmengen mit Mindesthäufigkeit σin einer

Datenbasis Dn

einmal als σ-relevant ermittelte Attributmengen solange um ein zusätzliches Attribut

zu erweitern, bis ihre relative Häufigkeit unter die Schwelle σgesunken ist. Diese

Überlegungen führen zu Algorithmus 3.1; er basiert auf »Apriori« aus [AMS



96].

Der Algorithmus 3.1geht stufenweisevor, wobei injeder Stufe smitCsdie Menge der

s-elementigenKandidaten(potentiellσ-relevante Mengen)und mit Fsdie Menge aller

s-elementigenσ-relevanten Attributmengenbezeichnet wird. Zunächst werden mit F1

alle Einzelattribute Aiermittelt, die in Dndie Mindesthäufigkeit σbesitzen (Zeile 2).

Danach werden diese zu zweielementigen Kandidaten C2kombiniert (Zeile 5), von

denen die σ-relevanten Attributmengen der Menge F2zugeordnet werden (Zeile 6).

Ist F2nicht leer, werden die dreielementigen Kandidaten C3durch Kombination der

Mengen in F2erzeugt usw. Der Algorithmus stoppt, wenn keine σ-relevante At-

tributmenge der nächsthöheren Kardinalität existiert (Zeile 3); das Ergebnis ist die

Vereinigung aller Fi(Zeile 8).

Laufzeitkritisch sind vor allem die Kandidatengenerierung (Erzeugung der Kandi-

datenmengen Csaus Fs



1, Zeile 5) sowie die Ermittlung der relativen Häufigkeiten

hn



X



für Attributmengen X(Zeilen 2 und 6). Eine grobe Laufzeitabschätzung ist da-

bei wie folgt möglich: Die Kandidatenmenge Cskann maximal



m

s



Attributmengen

enthalten. Für jede Menge X



Csist die relative Häufigkeit hn



X



zu bestimmen;

hierzu wird höchstens ein Durchlauf über die nDatensätze benötigt. In jeder Stufe

sergibt sich somit eine Laufzeit von O



n





m

s





. Unter der Annahme, daß in einer

konkreten Anwendung die Attributanzahl mkonstant ist (festes Datenbankschema),

48 ..

..3.2 BOOLESCHE ASSOZIATIONSREGELN

Eingabe: Datenbasis Dn, Menge σ-relevanter Attributmengen F



Dn



σ



, Kon-

fidenzschwelle γ

Ausgabe: Regelmenge R



Dn



σ



γ



(1) R



/

0

(2) for each X



F



Dn



σ



do begin

(3) if



X





1then

(4) for each P





/

0



Xdo

(5) if hn



X





hn



P





γthen

(6) R



R





P



X



P



c



hn



X



hn



P





s



s



X



(7) end

(8) return R

Algorithmus 3.2: Erzeugung γ-konfidenter Assoziationsregeln

läßt sich die Gesamtlaufzeit des Algorithmus als quasi-linear in nbezeichnen.

Erzeugung γ-konfidenter Regeln

Algorithmus 3.2 stellt die Vorgehensweise zur Erzeugung der Assoziationsregeln dar.

Es erfolgt die Aufteilung aller σ-relevanter Attributmengen X



F



Dn



σ



, die min-

destens zweielementig sind, in die möglichen Prämissen Pund Konklusionen Kmit

P



K



X(Zeilen 3 und 4). Für jede so entstandene Regel P



Kmuß geprüft wer-

den, ob sie die vorgegebene Mindestkonfidenz γbesitzt (Zeile 5). Ist dies nicht der

Fall, wird sie verworfen, ansonsten erfolgt die Berechnung der Konfidenz und rela-

tiven Häufigkeit (Zeile 6), und sie wird zur Regelmenge Rhinzugefügt. Nach der

Verarbeitung aller σ-relevanter Attributmengen wird Rals Ergebnis zurückgegeben.

Laufzeitkritisch sind die Berechnungen in den Zeilen 5 und 6. Da eine s-elementige

Menge 2sTeilmengen enthält, wird Zeile 5 O





F



Dn



σ





2s)-mal ausgeführt, wobei

sdie Mächtigkeit der größten Attributmenge in F



Dn



σ



ist. Für den Fall, daß die

relativen Häufigkeiten hn



X



und hn



P



berechnet werden müssen, beträgt der Auf-

wand zur Regelerzeugung insgesamt O



n



F



Dn



σ





2s



. Liegen die Werte dagegen

noch aus der Phase der Attributmengenerzeugung (Algorithmus 3.1) vor, entfällt der

Faktor n, und die Laufzeit ist unabhängig von der Anzahl der Datensätze.

..

49

3ASSOZIATIONSREGELN ..

Eliminierung redundanter Regeln

Abschließend soll auf den Aspekt der Redundanz bzw. Subsumption von Regeln

eingegangen werden, der für die Effizienz von Diagnoseregeln von Bedeutung ist

(vgl. Abschnitt 4.7): Eine Regel r



R



Dn



σ



γ



heißt redundant, wenn mit der ver-

kleinerten Regelmenge R



Dn



σ



γ





r



die gleichen Aussagen wie mit der Aus-

gangsmenge R



Dn



σ



γ



möglich sind. In diesem Fall wird rdurch eine Regel r





R



Dn



σ



γ



subsumiert, d.h., r



macht eine stärkere Aussage als rund ist für jeden

Datensatz d



Dngültig, für den auch rgültig ist.

Der Begriff der Subsumption stammt aus der Aussagenlogik und bezeichnet hier die

Teilmengenbeziehung zweier Klauseln π,π



einer Formel α, die in konjunktiver Nor-

malform vorliegt (siehe z.B. [KL94]). Gilt π





π, dann ist mit jeder erfüllenden

Variablenbelegung (Interpretation) für π



unmittelbar auch πerfüllt; es wird also π

von π



subsumiert. Auf diese Weise führt eine syntaktische Analyse der Klauseln

(Teilmengentest) zu einer semantischen Aussage (Erfüllbarkeit). Zwar können auch

Assoziationsregeln als Klauseln aufgefaßt werden, da hier allerdings zusätzlich die

Regelkonfidenzen berücksichtigt werden müssen, ist der Subsumptionsbegriff nicht

direkt übertragbar, wie im folgenden gezeigt wird.

Eine Menge boolescher Assoziationsregeln R



Dn



läßt sich in eine aussagenlogische

Formel αin konjunktiver Normalform transformieren; αhat dann die Gestalt

α





p1



pi



k1



kj



R



Dn







p1







pi



k1













p1







pi



kj





Folglichistauf diese Formelαdas aussagenlogischeSubsumptionskriteriumanwend-

bar. Weiter gilt, daß jeder Datensatz d



Dnals Interpretation für αangesehen werden

kann; eine erfüllende Interpretation ist daber nurfür eine Teilmengeder Klauselnvon

αbzw. der Regeln R



Dn



. Sei diese Teilmenge R



d



genannt, dann gilt

R



d



:





P



K



R



Dn







P



K





d

 

R



Dn





Subsumiert eine Regel r





R



Dn



eine andere Regel r



R



Dn



aussagenlogisch, so

müßte jede Interpretation, die für r



erfüllend ist, auch für rerfüllend sein, es müßte

also gelten:



d



Dn:r





R



d





r



R



d





Diese semantische Beziehung darf allerdings nur dann aus einem Teilmengentest ge-

folgert werden, wenn beide Regeln sichere Implikationen sind, d.h. c



r



c



r





1.

Ist mindestens eine der Regelkonfidenzen c



r



bzw. c



r





kleiner als 1, können Da-

tensätze existieren, in denen r



gilt, nicht jedoch r; somit würden zu viele Regeln

50 ..

..3.3 KATEGORIALE ASSOZIATIONSREGELN

fälschlicherweise als subsumiert erkannt. Soll trotzdem nur eine syntaktische Ana-

lyse der Regeln vorgenommen werden, ist es als Näherung sinnvoll, das aussagen-

logische Subsumptionskriterium um die Berücksichtigung der Regelkonfidenzen zu

erweitern. Dies führt zu Definition 3.6, nach der eine Regel rnur dann als von r



sub-

sumiert gelten darf, wenn sie nicht zuverlässiger ist, wenn also ihre Konfidenz c



r



nicht größer als c



r





ist.

Definition 3.6 (Subsumption von Assoziationsregeln): Es seien r



P



Kund

r



P





K



Assoziationsregeln über einer Datenbasis Dn. Dann wird rdurch r



subsumiert (r





r), wenn gilt:

P



P



und K



K



und c



r





c



r







Die Regel rwird speziellere Regel, und die Regel r



wird allgemeinere Regel genannt.

¾

Beispiel 3.2: Es sei für alle Regeln dieses Beispiels eine Konfidenz von 1



0 ange-

nommen. Dann zeigt die folgende Tabelle eine Auswahl von Regeln, die von der

Regel p1



k1



k2subsumiert werden (p2ist ein weiteres Prämissenattribut).

Subsumierte Assoziationsregel Aussagenlogisches Äquivalent

p1



p2



k1



k2

p1



k1

p1



p2



k1





p1



p2



k1









p1



p2



k2







p1



k1







p1



p2



k1



¾

Der Algorithmus 3.2 zur Regelerzeugung läßt sich einfach zur Erzeugung nichtred-

undanter Regeln erweitern, indem z.B. die redundanten Regeln aus der vollständigen

Regelmenge durch einen Subsumptionstest herausgefiltert werden (siehe Zeilen 8 bis

10 in Algorithmus 3.3). In der Praxis zeigt sich hierdurch eine deutliche Redukti-

on der Regelanzahl: So wird in Abschnitt 5.3.1 beschrieben, daß mehr als 90% der

Regeln eines Diagnosesystems redundant sind und eliminiert werden können.

3.3 Kategoriale Assoziationsregeln

Im Konzept der kategorialen Assoziationsregeln sind für die Attribute der Datenba-

sis Dnnicht nur zweielementige Wertebereiche, sondern alle endlichen Werteberei-

che zulässig. Hierdurch werden ihre Ausdrucksmöglichkeiten gegenüber den boole-

..

51

3ASSOZIATIONSREGELN ..

Eingabe: Datenbasis Dn, Menge σ-relevanter Attributmengen F



Dn



σ



, Kon-

fidenzschwelle γ

Ausgabe: redundanzfreie Regelmenge R



Dn



σ



γ



(1) R



/

0

(2) for each X



F



Dn



σ



do begin

(3) if



X





1then

(4) for each P





/

0



Xdo

(5) if hn



X





hn



P





γthen

(6) R



R





P



X



P



c



hn



X



hn



P





s



s



X



(7) end

(8) for each r



Rdo

(9) if



r



P





K





R:P



P





K



K





c



r





c



r





then

(10) R



R



r

(11) return R

Algorithmus 3.3: Erzeugung redundanzfreier γ-konfidenter Assoziationsregeln

schen Regeln stark erweitert. Im folgenden wird eine formale Definition kategoria-

ler Assoziationsregeln gegeben (Abschnitt 3.3.1) und ihre Erzeugung skizziert (Ab-

schnitt 3.3.2).

3.3.1 Definition

Während boolesche Assoziationsregeln nur Aussagen über das Vorliegen von Attri-

butwerten ungleich 0 in den Datensätzen einer Datenbasis repräsentieren, können ka-

tegoriale Assoziationsregeln auch quantitative Aspekte ausdrücken. Jedes Attribut Ai

der Datenbasis Dnhat einen endlichen Wertebereich von ki



IN diskreten Kategorien,

die z.B. einen symbolischen Wert, eine natürliche Zahl oder ein Intervall bezeich-

nen. Jeder Ausdruck in der Regelprämisse bzw. Regelkonklusion besteht dann aus

einem Attribut / Kategorie-Vergleich wie in Definition 3.7 angegeben. Ein Attribut /

Kategorie-Vergleich wird im folgenden auch als Tupel bezeichnet.

Definition 3.7 (Kategoriale Assoziationsregel): Es sei Dneine Datenbasis mit

m



IN Attributen Aiüber den endlichen Wertebereichen dom



Ai



. Weiter seien

P





Ai1



Aip



und K





Au1



Auk



Attributmengen, für die gilt: P



K



/

0.

52 ..

..3.3 KATEGORIALE ASSOZIATIONSREGELN

Dann wird mit Attributwerten ajx



dom



Aix



bzw. avx



dom



Aux



eine Regel der

Form Ai1



aj1



Aip



ajp



Au1



av1



Auk



avk



c



s

kategoriale Assoziationsregel über Dngenannt.

Ein Attribut / Kategorie-Vergleich Aix



ajxwird auch als Tupel



Aix



ajx



dargestellt.

Bezeichnen

TP:







Ai1



aj1







Aip



ajp





und TK:





Au1



av1







Auk



avk



die Tupelmengen der Regelprämisse bzw. der Regelkonklusion, dann kann die Be-

rechnung der Konfidenz cund der relativen Häufigkeit sder Regel analog zu Defini-

tion 3.4 durch

c



hn



TP



TK



hn



TP



und s



hn



TP



TK





erfolgen, wobei in diesem Fall hndie relative Häufigkeit einer Tupelmenge ist (siehe

Definition 4.11 auf Seite 107).

¾

Anmerkungen: (i) In der Literatur werden Regeln dieser Art manchmal auch

als quantitative Assoziationsregeln bezeichnet (siehe z.B. [SA96], [MY97] oder

[BW98]).

(ii) Boolesche Assoziationsregelnkönnen als Spezialfall der kategorialen Regeln auf-

gefaßt werden, wenn jeder Attributwertebereich aus den Kategorien 0 und 1 besteht.

In vielen praktischen Anwendungsbereichen haben die Datenbankattribute kontinu-

ierliche Wertebereiche. Hier ist es notwendig, zunächst eine geeignete Diskretisie-

rung, also Einteilung der Wertebereiche in diskrete Intervalle, vorzunehmen und an-

schließend jedem Intervall eine eigene Kategorie zuzuweisen. Das Ergebnis ist dann

eine kategoriale Datenbasis Dk

n. In Abschnitt 4.5 wird auf diese Vorgehensweise am

Beispiel der Diagnoseanwendung detailliert eingegangen.

3.3.2 Erzeugung kategorialer Assoziationsregeln

In diesem Abschnitt werden zwei Alternativen zur Erzeugung kategorialer Assoziati-

onsregeln skizziert. Während die erste Alternative eine Transformation der Datenba-

sis durchführt, um die vorhandenen booleschen Regelerzeugungsalgorithmen anwen-

den zu können, werden als zweite Alternative diese bestehenden Algorithmen an das

neue Problem angepaßt.

..

53

3ASSOZIATIONSREGELN ..

1. Alternative: Reduktion auf die Erzeugung boolescher Regeln

Das Problem der Erzeugung kategorialer Assoziationsregeln mit vorgegebener Min-

desthäufigkeit σund Mindestkonfidenz γkann durch Reduzierung auf das Problem

der Erzeugung boolescher Regeln (siehe Definition 3.5) gelöst werden. Dazu sind die

folgenden Schritte notwendig:

1. Transformiere die kategoriale Datenbasis Dk

nin eine boolesche Datenbasis Db

n.

2. Löse das boolesche Assoziationsregelproblem wie in Abschnitt 3.2.3 beschrie-

ben. Das Ergebnis ist eine Regelmenge R



Db

n



σ



γ



.

3. Transformiere die Regelmenge R



Db

n



σ



γ



in eine kategoriale Regelmenge

R



Dk

n



σ



γ



mit kategorialen Regeln.

Bei der Transformation von Dk

nnach Db

n(Schritt 1) wird zu jeder Kategorie ajeines

Attributs Ai



Dk

nein boolesches Attribut Aj



Db

nerzeugt. Dies erhält in einem Da-

tensatz db



Db

nden Wert 1, wenn der korrespondierende Datensatzdkfür Aiden Wert

ajbesitzt; andernfalls erhältAjin dbden Wert 0. Somit bestehtDb

naus∑m

i



1



dom



Ai





Attributen über dem Wertebereich IB, und die Algorithmen 3.1 und 3.2 sind anwend-

bar (Schritt 2). Die Rücktransformation der booleschen Regeln (Schritt 3) geschieht

dann durch die Umkehrabbildung der Attributwerte; Konfidenz, relative Häufigkeit

und Subsumptionseigenschaften der Regeln bleiben bei der Transformation unverän-

dert.

2. Alternative: Erweiterung der booleschen Regelerzeugung

Die erstgenannte Vorgehensweise zur Erzeugung von kategorialen Regeln ist ineffizi-

ent, weil sich zwar viele Attribute in Db

ngegenseitig ausschließen4, dies aber bei der

Kandidatengenerierung für σ-relevante Attributmengen (Zeile 5 in Algorithmus 3.1)

nicht berücksichtigt wird. Eine bessere Alternative ist daher die Erweiterung der bei-

den Algorithmen aus Abschnitt 3.2.3, wobei sich die Anpassungen im wesentlichen

auf zwei Aspekte beziehen:



Ersetzung der Repräsentationen jedes Attributs Aidurch Attribut / Wert-Tupel



Ai



aj



für alle aj



dom



Ai



, um die Verarbeitung von Tupelmengen zu er-

möglichen.

4 AufgrundderKonstruktionvon Db

nin Schritt1 besitzt in jedemDatensatz genaueins derbooleschen

Attribute, die aus demselben kategorialen Attribut in Dk

nentstanden sind, den Wert 1. Also kann in

Db

nkeine Kombination dieser booleschen Attribute mit Wert 1 existieren.

54 ..

..3.4 KLASSIFIKATIONSREGELN



Sicherstellung, daß bei der Kandidatengenerierung niemals zwei gleiche ka-

tegoriale Attribute in einer Tupelmenge vorkommen, d.h., für je zwei Tupel



Ai1



aj1



und



Ai2



aj2



aus derselben Menge muß gelten: Ai1





Ai2.

Durch die skizzierten Veränderungen werden dann anstelle von σ-relevanten Attri-

butmengen σ-relevante Tupelmengen erzeugt und als Grundlage zur Bildung von

Regeln verwandt (siehe auch Abschnitt 3.4.2). Ihre konkrete Realisierung wird in

Algorithmus 4.7.2 (Erzeugung von Diagnoseregeln, Seite 107) dargestellt.

3.4 Klassifikationsregeln

Klassifikationsregeln können zur Lösung von Klassifikationsaufgaben für Objekte,

Ereignisse oder Fälle genutzt werden, indem sie diese anhand einer Eigenschaftsbe-

schreibung in eine von mehreren bekannten Kategorien (Klassen) einordnen. Dabei

bestehen die Prämissen aus (evtl. mehreren verknüpften) Ausdrücken über einzel-

ne Eigenschaften, während die Konklusionen jeweils genau eine Klassenzuordnung

beinhalten. Die genaue Definition der Klassifikationsregelnist anwendungsabhängig;

imRahmenderheuristischenFehlerdiagnose werden die Eigenschaftsbeschreibungen

durch Symptome und die Klassen durch Diagnosen repräsentiert.

Im folgenden wird für die Lösung von Klassifikationsaufgaben ausschließlich die

Verwendung von kategorialen Assoziationsregeln betrachtet. Zunächst wird in Ab-

schnitt 3.4.1 dasKlassifikationsregelproblemdefiniert, bevorin Abschnitt 3.4.2 einige

Aspekte der Erzeugung und Anwendung von Assoziationsregeln für die Klassifikati-

on angesprochen werden.

3.4.1 Klassifikationsregelproblem

Im Gegensatz zum Assoziationsregelproblem, bei dem die Erzeugung einer voll-

ständigen Regelmenge mit Mindestkonfidenz und Mindesthäufigkeit im Vordergrund

steht (siehe Abschnitt 3.2.2), geht es beim Klassifikationsregelproblemüblicherweise

um die Erzeugung einer kleinen Regelmenge, die für das zugrundeliegende Problem-

feld einen geeigneten Klassifikator bildet (vgl. [QR89], [LHM98]). Hierbei wird

versucht, aus einer für den Problembereich repräsentativen Datenbasis mit bereits

klassifizierten Beispielobjekten eine möglichst genaue Abbildungsvorschrift mit ge-

neralisierenden Eigenschaften abzuleiten.

Die Klassifikationsabbildung soll also in der Lage sein, auch neue Objekte korrekt

in Klassen einzuordnen. Um diese Eigenschaft bei fehlenden Testobjekten überprü-

fen zu können, wird im allgemeinen innerhalb der Datenbasis Dneine Teilmenge

..

55

3ASSOZIATIONSREGELN ..

Dl



Dnals Lernbasis bestimmt. Die (bekannten) Objektklassifizierungen der nicht

in Dlenthaltenen Datensätze dürfen dann nicht während der Lernphase berücksichtigt

werden. Als Testbasis zur Überprüfung der Klassenvorhersage durch eine gelernte

Klassifikationsabbildung können die Restmenge Dn



Dloder die gesamte Datenbasis

Dngenutzt werden. Dies führt zu der folgenden Definition des Klassifikationsregel-

problems.

Definition 3.8 (Klassifikationsregelproblem, Klassifikator): Es sei Dneine kate-

goriale Datenbasis mit der Attributmenge A





A1



Am



C



, in der ein Attribut das

ausgezeichnete Klassenattribut Cist. Dann besteht das Klassifikationsregelproblem

darin, aus einer repräsentativen Teilmenge Dl



Dneine Klassifikationsregelmenge

R



Dl



zu erzeugen, mit der sich eine Abbildung

κ:dom



A1



  

dom



Am





dom



C



realisieren läßt, die in bezug auf die Gesamtdatenbasis Dndie Anzahl der korrekten

Klassifizierungen maximiert:



d





a1



am



c



Dn



κ



a1



am



c

 

max



κwird auch Klassifikator genannt.

¾

Ein regelbasierter Klassifikator κist nicht als m-stellige mathematische Funktion auf-

zufassen, sondern besteht aus einer Regelmenge und einer Regelanwendungsstrate-

gie zur Ableitung einer Klassenvorhersage aus einem m-stelligen Attributwertevek-

tor. Hierbei kann es Problembereiche geben, in denen eine eindeutige Klassifizierung

der Objekte nicht möglich ist; in diesen Fällen muß der Klassifikator für die Klas-

sen Wahrscheinlichkeiten berechnen können bzw. nach maximaler Wahrscheinlich-

keit entscheiden. Einige solcher Strategien werden in Abschnitt 4.8 mit Bezug auf

die Diagnoseanwendung erläutert.

3.4.2 Klassifikation mit Assoziationsregeln

Durch die Beschränkung der Konklusion auf genau eine Klassenzuordnung erhält

man Assoziationsregeln, die für die Lösung von Klassifikationsaufgaben prinzipiell

geeignet sind. In Anlehnung an Liu et al., die für diese Regelart in [LHM98] die

Bezeichnung Class Association Rules (CAR) verwenden, wird in der vorliegenden

Arbeit der Begriff klassifizierende Assoziationsregeln gewählt.

Um zur assoziationsregelbasierten Lösung einer Klassifikationsaufgabe zu gelangen,

ist die Verknüpfung des Assoziationsregelproblems (Definition 3.5) mit dem Klassi-

fikationsregelproblem (Definition 3.8) notwendig. Dies läßt sich auf der Grundlage

56 ..

..3.4 KLASSIFIKATIONSREGELN

einer kategorialen Datenbasis Dn, die ein Attribut Cmit einer Klassenzuordnung ci

für jeden Datensatz enthält, in Anlehnung an [LHM98] durch die folgende Vorge-

hensweise realisieren:

1. Erzeuge zu einerHäufigkeitsschwelleσund einer Konfidenzschwelle γdievoll-

ständige Menge der klassifizierenden Assoziationsregeln

RC



Dl



σ



γ



:





r



R



Dl



σ



γ





r



P





C



ci



und ci



dom



C





wobei Dl



Dneine repräsentative Lernbasis ist.

2. Erzeuge durch die Auswertung von Lernbasis Dlund Regelmenge RC



Dl



σ



γ



einen für Dngeeigneten Klassifikator κ.

Im Unterschied zu bekannten Klassifikationssystemen wie z.B. ID3 / C4.5 von Quin-

lan ([Qui93]), bei denen zur Bildung eines Klassifikators die Regelmenge durch lokal

optimale Entscheidungen sukzessive aufgebaut wird, ist bei der obigen Vorgehens-

weise mit der Assoziationsregelmenge RC



Dl



σ



γ



nach Schritt 1 die Gesamtheit der

klassifikationsrelevantenStrukturen in der Datenbasis bekannt. Ein wesentlicher Vor-

teil in bezug auf die Klassifikationsgüte entsteht somit dadurch, daß im 2. Schritt stets

auf die global besten Regeln zugegriffen werden kann (vgl. [LHM98]). Im folgenden

werden einige Aspekte der beiden Schritte näher erläutert.

Schritt 1: Erzeugung der klassifizierenden Assoziationsregeln

Auch die Erzeugung klassifizierender Assoziationsregeln läßt sich durch eine Pro-

blemreduktion vornehmen. Eine einfache, aber nicht sehr effiziente Strategie zur Er-

zeugung aller klassifizierenden Assoziationsregeln besteht darin, zunächst alle kate-

gorialen Regeln mit einem in Abschnitt 3.3 beschriebenen Verfahren zu erzeugen und

danach diejenigen Regeln zu entfernen, deren Konklusion nicht genau eine Klassen-

zuordnung darstellt. Bei der Verwendung realistischer Datenbasen ist jedoch nur ein

geringer Anteil der kategorialen Regeln zur Klassifikation geeignet, so daß im ersten

Schritt sehr viele unzulässige Regeln erzeugt werden.

Eine bessere Alternative besteht in der Modifizierung des Algorithmusses zur Erzeu-

gung σ-relevanter Tupelmengen. Dabei ist die Kandidatengenerierung so vorzuneh-

men, daß jede Tupelmenge genau einmal das Klassenattribut Centhält, d.h., jede

p



1-elementige Kandidatenmenge ist dann von der Gestalt





Ai1



aj1







Aip



ajp







C



ci





..

57

3ASSOZIATIONSREGELN ..

Hierdurch vereinfacht sich auch die Regelerzeugung: Eine σ-relevante Tupelmenge

kann jetzt nur noch auf eine Weise sinnvoll partitioniert werden, nämlich zur Erzeu-

gung der Regel Ai1



aj1







Aip



ajp



C



ci



In Abschnitt 4.7 wird am Beispiel der Erzeugung von Diagnoseregeln diese Vorge-

hensweise näher beschrieben. Zusätzliche Maßnahmen, die bei der Generierung klas-

sifizierender Assoziationsregeln eine Effizienzsteigerung durch Suchraumbeschnei-

dung bewirken, finden sich z.B. in [Bay97] und [WZH00]. Diese Strategien sind

jedoch teilweise nicht informationserhaltend, d.h., die Vollständigkeit der resultie-

renden Regelmenge kann von ihnen nicht garantiert werden.

Schritt 2: Erzeugung des Klassifikators

Die vollständige Menge klassifizierender Assoziationsregeln wird analysiert, um

einen Klassifikator mit maximaler Klassifikationsleistung zu bilden. Wie bereits in

Abschnitt 3.4.1 ausgeführt, gehören zu einem Klassifikator eine Regelmenge und

ein Verfahren zur Regelanwendung. Das bei der Klassifikatorbildung bestehende

Optimierungsproblem (siehe Definition 3.8) wird anhand der folgenden Überlegung

deutlich: Angenommen, es soll ein neues Objekt klassifiziert werden. Dann steigt

mit der Größe der Regelmenge auch die Wahrscheinlichkeit, daß mehrere Regeln mit

unterschiedlichen, also widersprüchlichen Klassenvorhersagen anwendbar sind. Dem

gegenüber sinkt gleichzeitig die Wahrscheinlichkeit, daß keine Regel anwendbar und

damit keine Klassenvorhersage möglich ist.

Hieraus folgt, daßeine Vielzahl vonStrategien denkbarsind, die sichin der Verteilung

des Optimierungsaufwands unterscheiden. Die beiden Extrema, zwischen denen sich

ein konkretes Verfahren befinden kann, sind dabei:

1. Reine Regelmengenoptimierung: Aus der Gesamtregelmenge wird eine bezüg-

lich der Klassifikationsleistung optimale Teilmenge ermittelt. Bei der Regelan-

wendung erfolgt lediglich die Ermittlung einer anwendbaren Regel, die sofort

zur Klassenvorhersage genutzt wird.

2. Reine Regelanwendungsoptimierung: Die Gesamtregelmenge bleibt unverän-

dert. Mit einem optimalen Verfahren wird das hierin befindliche Klassifizie-

rungswissen zu einer korrekten Klassenvorhersage genutzt. Zur Klassenvor-

hersage werden insbesondere die Regelkonfidenzen ausgewertet.

Die Ansätze zur Regelmengenoptimierung sind eher dem Bereich der anwendungsu-

nabhängigen Klassifikation zuzuordnen (z.B. [LHM98]: Classification Based on As-

sociations (CBA) oder [DZWL99]: Classification by Aggregating Emerging Patterns

58 ..

..3.4 KLASSIFIKATIONSREGELN

(CAEP)), während die Ansätze der Regelanwendungsoptimierung eher aus dem Be-

reich der Diagnose stammen (z.B. [Sho76]: Konfidenzverrechnung in MYCIN oder

die Hypothesengenerierung aus Abschnitt 4.8.3). Ab einer bestimmten Problemgröße

kann jedoch kein bekanntes Verfahren die Erzeugung eines optimalen Klassifikators,

also eine Lösung des Klassifikationsregelproblems nach Definition 3.8, garantieren;

in diesen Fällen wird nach Näherungslösungen gesucht.

Im Rahmen der Diagnoseanwendung erfolgt in Abschnitt 4.7.3 die nähere Beschrei-

bung der beiden Optimierungsansätze, wobei verschiedene Verfahren zur Ermittlung

eines Klassifikators diskutiert werden.

..

59

3ASSOZIATIONSREGELN ..

60 ..

...

4 Diagnose hydraulischer Systeme

mit Assoziationsregeln

In diesem Kapitel wird das in Abschnitt 2.3.3 entwickelte Konzept zur automatischen

Erzeugung von heuristischen Regelmodellen am Problembereich der Fehlerdiagnose

für hydraulische Anlagen umgesetzt. Dieses Konzept beruht darauf, in zwei Schritten

kausale Verhaltensmodelle einer technischen Anlage in ein heuristisches Assoziati-

onsregelmodell für diese Anlage zu transformieren.

Im ersten Schritt wird mit dem Simulationswerkzeug artdeco aus den Verhaltens- und

Strukturmodellen einer Hydraulikanlage eine Simulationsdatenbasis erzeugt. Diese

Datenbasis wird im zweiten Schritt unter Verwendung von Data-Mining-Verfahren in

ein Assoziationsregelmodell transformiert. Die Regeln repräsentieren Diagnosewis-

sen, mit dem in einer realen Fehlersituation durch einfache Regelanwendung schnell

von den Beobachtungen auf ihre Ursachen geschlossen werden kann.

Im Rahmen dieses Kapitels wird insbesondere der zweite Schritt näher behandelt.

Dazu werden die Architektur und die theoretischen Grundlagen eines Systems vorge-

stellt, welches durch eine Analyse der Simulationsdatenbasis

1. diagnoserelevante Designentscheidungen bei der Entwicklung neuer hydrauli-

scher Anlagen unterstützt,indem es Vorschläge zur Wahl geeigneter Meßstellen

macht,

2. anlagenspezifische Assoziationsregelmodelle als Wissensbasis für die heuristi-

sche Diagnose automatisch generiert und

3. eine assoziationsregelbasierte Fehlererkennung für hydraulische Anlagen

durchführt.

Einteilung des Kapitels: Abschnitt 4.1 erläutert die für das Verständnis der weite-

ren Ausführungen notwendigen Grundlagen hydraulischer Anlagen. In Abschnitt 4.2

wird das Gesamtkonzept zur automatischen Generierung von Diagnosesystemen für

hydraulische Anlagen dargestellt. Die Einzelaspekte dieses Konzepts werden in den

Abschnitten 4.3 bis 4.8 detaillierter betrachtet.

..

61

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

4.1 Einführende Bemerkungen zur Hydraulik

Die Hydraulik ist die Lehre von den Kräften und Bewegungen, die mit Hilfe von

Druckflüssigkeiten erzeugt werden; sie gliedert sich in die Bereiche Hydrostatik und

Hydrodynamik, in denen die physikalischen Eigenschaften und Verhaltensweisen von

Flüssigkeiten in ruhendem bzw. bewegtem Zustand untersucht werden (vgl. [DD98]).

In Abschnitt 4.1.1 wird eine kurze Einführung in den Aufbau und die Funktionsweise

hydraulischer Anlagen gegeben. Abschnitt 4.1.2 beschäftigt sich mit den physikali-

schen Größen und der Meßtechnik in der Hydraulik, wobei jeweils nur die im Zusam-

menhang mit der Realisierung einer wissensbasierten Diagnose wichtigen Aspekte

dargestellt werden. Abschnitt 4.1.3 behandelt die Anforderungen an eine rechnerge-

stützte Diagnose hydraulischer Anlagen.

4.1.1 Hydraulische Anlagen

Prinzip und Aufbau

Hydraulische Anlagen (auch hydraulische Schaltkreise genannt, engl. hydraulic cir-

cuits) sind technische Anlagen, deren Funktionalität auf dem Prinzip der hydrauli-

schen Leistungsumformung beruht. Dabei kommt es zu einer Umwandlung von me-

chanischer Leistung in hydraulische Leistung, üblicherweise durch eine Hydropum-

pe, die von einem Elektro- oder Verbrennungsmotor angetrieben wird. Die erzeugte

hydraulische Leistung wird dann über Leitungen sowie Steuer- und Regelventile ei-

nem oder mehreren Verbrauchern, z.B. Hydromotorenoder -zylindern, zugeführt, die

eine Rückwandlung in mechanische Leistung vornehmen.

Die wesentlichen Komponenten einer hydraulischen Anlage lassen sich also in Lei-

stungsversorgungsteile, Steuerungsteile und Arbeitsteile (sogenannte Abtriebsteile)

untergliedern (siehe Abbildung 4.1). Die Übertragung der hydraulischen Leistung

geschieht mittels einer Druckflüssigkeit, dem Hydrauliköl, das durch Rohr- oder

Schlauchleitungen fließt. Des weiteren können sich Zubehörteile wie Filter, Kühler

oder Behälter zur Aufbereitung der Flüssigkeit im Leitungssystem befinden und

elektrische Komponenten wie Relais, Schalter etc. zur Ansteuerung der mit Elektro-

magneten betätigten Schaltventile vorhanden sein (vgl. z.B. [Mat91]).1

Ein großer Vorteil hydraulischer Anlagen ist ihre hohe Kraftdichte; so können

z.B. Hydromotoren bei gleicher Leistungsabgabe wesentlichleichter und kleiner sein

als Elektromotoren ([DD98]). Daneben begünstigen die umfangreichen Steuerungs-

1 Elektrische Komponenten werden in der vorliegenden Arbeit nicht berücksichtigt. Im Fokus dieser

Arbeit stehen die hydraulischen Komponenten.

62 ..

..4.1 EINFÜHRENDE BEMERKUNGEN ZUR HYDRAULIK

Versorgung Steuerung Abtrieb

mech. hydr. mech.hydr.

Abbildung 4.1: Komponentengruppen und Leistungstransformationen innerhalb ei-

ner hydraulischen Anlage

und Regelungsmöglichkeiten ein gutes Zeitverhalten sowie kontinuierliche Verände-

rungen der Übersetzungsverhältnisse auch unter Last.

Nachteilig ist jedoch insbesondere die Gefahr von unkontrollierten Leckagen, die ne-

ben ökonomischen Schäden auch Folgen für die Umwelt haben können, z.B. durch

den Austritt von Hydrauliköl. Sowohl zur Vermeidung von inneren oder äußeren

Leckagen als auch zur Beherrschung hoher Drücke und Kräfte ist bei der Herstel-

lung hydraulischer Komponenten eine hohe Genauigkeit notwendig. Dieser erhöhte

fertigungstechnische Aufwand schlägt sich wiederum in hohen Kosten nieder; zur

Vermeidung von teuren Stillstandszeiten sind daher schnelle und genaue Methoden

der Fehlererkennung notwendig.

Abbildung 4.2 zeigt im linken Teil den schematischen Aufbau einer kleinen Beispiel-

anlage, die aus AntriebseinheitP, SteuerventilS, Hydrozylinder C, Auffangbehälter T

sowie Leitungsverbindungen besteht. Die dargestellten Größenverhältnisse, Positio-

nen und Drehungswinkel der Bauteile stimmen dabei nicht mit der Realität überein.

Ein typischer Einsatzbereich für diese Anlage könnte die Hubvorrichtung in einer

Hebebühne sein.

Verhalten einer Anlage

Das nach außen sichtbare Verhalten einer hydraulischen Anlage ist die Basis für die

Erkennung von Fehlern. Im folgenden werden die wesentlichen Einflußfaktoren für

das Anlagenverhalten besprochen, ohne näher auf die physikalischen Zusammenhän-

ge einzugehen. Diese können der Fachliteratur für Physik (z.B. [HMS88]) entnom-

men werden.

Eine hydraulische Anlage befindet sich zu jedem Zeitpunkt in einem definierten Be-

triebszustand, dessen Dauer durch die Konstanz aller internen Zustände bestimmt ist.

Hierfür wird im folgenden auch der Begriff Phase verwendet. Verändert sich minde-

stens ein interner Zustand, so geht das System in eine andere Phase über. Die Ursache

für einen Phasenwechsel kann ein äußeres Ereignis (z.B. die manuelle oder elektri-

sche Veränderung einer Ventilposition) oder ein systeminternes Ereignis (z.B. das

Erreichen einer Kolbenanschlagposition)sein. Der zeitliche Ablauf aller Phasen wird

..

63

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

F

Ventil-

stellung

Kolben-

position

[m]

ba

Ventil S

Zylinder C

P1 P3 P4 P5 P6 P7

0

b

a

P2

0

01234567

Phase

Zeit [s]

Öltank TPumpe P

0.0

0.1

0.2

Abbildung 4.2: Schematischer Aufbau (links) und Phasen (rechts) einer einfachen

hydraulischen Anlage

Phasensequenz genannt (vgl. [Hof99]).

Beispiel 4.1: Wenn keine Komponentenfehler vorliegen, läßt sich für die Beispiel-

anlage in Abbildung 4.2 die folgende Phasensequenz identifizieren (rechter Teil der

Abbildung):



Phase 1: Ausgangszustand. Der Kolben des Zylinders C ist vollständig einge-

fahren. Das Steuerventil S ist in der Mittelstellung.



Phase 2: Der Zylinderkolben fährt aus. Das Steuerventil befindet sich in der

Stellung a.



Phase 3: Der Zylinderkolben ist in der Endlage.



Phase 4: Der Zylinderkolben bleibt in der Endlage. Das Steuerventil ist in der

Mittelstellung.



Phase 5: Der Zylinderkolben fährt ein. Das Steuerventil befindet sich in der

Stellung b.



Phase 6: Der Zylinderkolben hat wieder seine Ausgangsposition erreicht.

64 ..

..4.1 EINFÜHRENDE BEMERKUNGEN ZUR HYDRAULIK



Phase 7: Endzustand. Das Steuerventil ist zurück in der Mittelstellung. Dieser

Betriebszustand entspricht dem Ausgangszustand (Phase 1), so daß eine neue

Sequenz beginnen kann.

¾

Die Phasensequenz beschreibt dabei nur das prinzipielle Verhalten einer hydrauli-

schen Anlage zur Erfüllung einer definierten Aufgabe. Das genaue zeitliche Ver-

halten hängt von verschiedenen Einflußfaktoren ab, von denen die wichtigsten die

Systemanforderungen und Komponentenfehler sind.

Innerhalb der Aufgabendefinition können an eine hydraulische Anlage unterschiedli-

che Anforderungen gestellt werden, die zu einer Veränderung des zeitlichen Verhal-

tens führen. Im Folgezyklus kann eine andere Belastung der Abtriebskomponenten

bewirken, daß einzelne oder sogar alle Phasen in ihrer Länge variieren: Es ist zum

Beispiel zu erwarten, daß das Ausfahren des Zylinders bei höherer Belastung län-

ger dauert als bei kleinerer Belastung2. Wird eine fehlerfreie Anlage innerhalb der

konstruktionsbedingt vorgesehenen Belastungsstufen betrieben, bleibt aber der Pha-

senzyklus als solcher erhalten.

Das belastungsabhängige zeitliche Verhalten einer fehlerfreien Anlage wird Soll-

Verhalten genannt. Werden Phasenausfälle, andere Phasenabfolgen oder signifikant

abweichende Phasenlängen beobachtet, kann das auf mehrere Ursachen zurückzu-

führen sein: eine falsche Montage der Anlage, eine falsche Bedienung, der Betrieb

außerhalb der Spezifikation bezüglich Umgebungstemperatur, Belastungen etc. sowie

Defekte einzelner oder mehrerer Komponenten.

Üblicherweise wird bei der Störungssuche davon ausgegangen, daß die zu diagno-

stizierende Anlage korrekt konstruiert, montiert und bedient wurde. Unter diesen

Voraussetzungen sind trotz regelmäßiger Wartung nach [DD98] verschleißbedingte

Komponentenfehlerdie häufigste undwichtigste Störungsursache. Aus diesemGrund

werden in der weiteren Arbeit alle anderen Ursachen ausgeklammert.

4.1.2 Physikalische Größen in der Hydraulik

Die genaue Ermittlung der Abweichung des Ist-Verhaltens vom Soll-Verhalten einer

hydraulischen Anlage ist in der Regel nur durch die Messung bestimmter physikali-

scher Größen möglich. Zu diesem Thema folgt eine kurze Übersicht der diagnosere-

levanten Aspekte.

2 In der Beispielanlage (Abbildung 4.2) wird die Belastung durch die von außen auf den Zylinder

wirkende Kraft Fdargestellt.

..

65

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

Größen und Einheiten

Die Bestimmung pysikalischer Größen setzt die Meßbarkeit und Vergleichbarkeit der

betreffenden Eigenschaften und Zustände voraus; hierfür ist ein geeignetes Meßver-

fahren und die Festlegung einer entsprechenden Einheit erforderlich. Aus diesem

Grund umfaßt das internationale Einheitensystem (SI) sieben Basisgrößen, die durch

Meß- bzw. Zählvorschriften oder Maßverkörperungen eindeutig festgelegt sind (siehe

z.B. [ZS92]).

Für die Berechnung und Beschreibung hydraulischer Anlagen werden vier SI-

Maßeinheiten benötigt, aus denen die Einheiten anderer wichtiger Größen abgeleitet

werden können (Abbildung 4.3).

phys. Größe Zeichen SI-Einheit Zeichen

1. Länge lMeter m

2. Masse mKilogramm kg

3. Zeit tSekunde s

4. Temperatur TKelvin K

phys. Größe Zeichen Einheit Zeichen SI-Einheiten

Druck pPascal Pa kg



m



1



s



2

Volumenstrom (Fluß) qVm3



s



1

Kraft FNewton N kg



m



s



2

Geschwindigkeit vm



s



1

Leistung PWatt W kg



m



s



3

Umdrehungsfrequenz ns



1

Abbildung 4.3: SI-Einheiten (oben) und abgeleitete Einheiten(unten) in der Hydrau-

lik

Anmerkung: Die für die Diagnose wichtigsten physikalischen Größen sind Druck

pund Fluß qV. Aus Gründen der besseren Handhabbarkeit werden sie üblicherweise

in SI-fremden Einheiten dargestellt. Dabei gilt:





p



Bar, wobei 1 bar



105Pa.





qV



Liter pro Minute, wobei 1 l



min



1



6



10



2m3



s



1.

66 ..

..4.1 EINFÜHRENDE BEMERKUNGEN ZUR HYDRAULIK

Die physikalischen Zusammenhänge und die Berechnung der in Abbildung 4.3 ge-

nannten Größen kann der Fachliteratur(z.B. [HMS88]) entnommen werden. Im Rah-

men dieser Arbeit ist lediglich wichtig, zwei Klassen von physikalischen Größen zu

unterscheiden, weil sich hierdurch Konsequenzen für die Verrechnung während der

Fehlerdiagnose ergeben:



Die skalaren Größen Länge l, Masse m, Zeit t, Temperatur T, Druck p, Lei-

stung Pund Drehzahl nwerden durch die Angabe ihres Zahlenwerts und ih-

rer Einheit charakterisiert. Zahlenwerte von Größen der gleichen Einheit dür-

fen beliebig verrechnet werden; im Rahmen der Diagnose ist insbesondere die

Summen- bzw. Differenzbildung erlaubt.



Dagegen werden die vektoriellen Größen Fluß qV, Kraft Fund Geschwindig-

keit vzusätzlich durch eine Richtungsangabe charakterisiert. Hier dürfen die

Zahlenwerte zweier Größen nur dann ohne Einschränkungen verrechnet wer-

den, wenn beide Richtungsangaben übereinstimmen. Die Zahl der möglichen

Richtungen kann sehr eingeschränkt sein, z.B. kommen für den Fluß in einer

Rohrleitung nur zwei Richtungen in Betracht.

Messung hydraulischer Größen

Das Messen ist der experimentelle Vorgang zur Bestimmung des Wertes einer physi-

kalischen Größe, die auch als Meßgröße bezeichnet wird. Der aktuelle Meßwert wird

als Bruchteil oder Vielfaches einer physikalischen Einheit angegeben und durch ein

Meßgerät ermittelt, das an einer bestimmten Meßstelle im Schaltkreis angebracht ist

(siehe z.B. [DD98]). Ein Meßwert bezieht sich also immer auf eine physikalische

Größe, einen Zeitpunkt und einen Ort.

Die Meßgeräte unterscheiden sich im eingesetzten Meßverfahren, ihrer Empfindlich-

keit, ihrer Genauigkeit usw. Sie werden entweder an den Meßstellen fest einge-

baut oder als transportable Handmeßgeräte bei Bedarf über bereits installierte Ad-

apter an das System angeschlossen. Die erfaßten Meßwerte können direkt von ei-

ner Skala abgelesen werden oder, was besonders beim Einsatz von rechnergestützten

Überwachungs- und Diagnosesystemen von Vorteil ist, automatisch gespeichert und

ausgewertet werden.

Jede Messung hat das Ziel, den wahren Wert der jeweiligen Meßgröße zu erfassen.

Dies ist jedoch stets mit einer Meßunsicherheit verbunden, so daß unter gleichen Be-

dingungen durchgeführte Wiederholungsmessungen voneinander abweichende Meß-

werte ergeben können. Die Ursachen hierfür lassen sich in zwei Gruppen aufteilen

(vgl. z.B. [HMS88]):

..

67

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..



Die systematischen Abweichungen sind abhängig vom Meßverfahren und

können z.B. durch eine falsche Kalibrierung, konstruktionsbedingte Ablese-

bzw. Quantisierungsfehler, falsche Montage oder Meßwertdriften (Verände-

rungen der Meßgröße durch die Messung) entstehen. Sie führen zu einer

unsymmetrischen Häufung der Meßwerte von Wiederholungsmessungen.



Die zufälligen Abweichungen sind abhängig vom Meßvorgang und werden von

nicht erkennbaren Einflüssen hervorgerufen. Dabei kann es sich um mensch-

liche Unzulänglichkeiten wie z.B. manuelle Ungeschicklichkeiten, falsche

Schätzungen von Zwischenwerten auf der Meßskala usw. oder um Umweltein-

flüsse handeln. Sie führen zu einer symmetrischen Häufung der Meßwerte um

einen häufigsten Wert.

Die systematischen Abweichungen lassen sich nur durch die Änderung der Meßum-

stände, d.h. durch die Anwendung eines anderen Meßgeräts oder Meßverfahrens auf-

decken und sind einer mathematischen Analyse nicht zugänglich. Zufällige Abwei-

chungen hingegen können mit einer Fehleranalyse statistisch beschrieben und einge-

grenzt werden. Das Ergebnis der Analyse ist eine Meßunsicherheit u



IR, um die der

exakte physikalische Wert xovom Meßwert xmaximal abweicht, falls keine systema-

tischen Fehler vorliegen; es gilt dann

x0



x



u



x



u





Anmerkungen: (i) Trotz der unvermeidbaren Meßunsicherheit muß der gemessene

Wert für den wahren Wert der Meßgröße repräsentativ sein, sonst ist das Meßverfah-

ren ungeeignet (vgl. [NL94]). Während die generelle Eignung der eingesetzten Meß-

verfahren im weiteren vorausgesetzt wird, werden die Meßunsicherheiten durch die

Verwendung von Meßwertintervallen statt scharfer Einzelwerte berücksichtigt (siehe

Abschnitt 4.5.1).

(ii) Im Rahmen der Meßstellenauswahl (Abschnitt 4.6) werden vom hier vorgestellten

Diagnosesystem ausschließlich Meßstellen betrachtet, an denen Druck- oder Fluß-

meßgeräte angeschlossen werden können; dies sind im allgemeinen die Leitungs-

stücke zwischen zwei hydraulischen Komponenten. Im Simulationswerkzeug artdeco

werden hierfür die in Abbildung 4.4 dargestellten Symbole verwandt.

4.1.3 Aufgaben einer rechnergestützten Diagnose

Mit dem im Rahmen dieser Arbeit entwickelten automatischen Wissensakquisitions-

konzept ist es möglich, zu einer hydraulischen Anlage ein anlagenspezifisches Dia-

gnosesystem zu erzeugen. Dieses Softwaresystem soll einen für die Wartung der

68 ..

..4.1 EINFÜHRENDE BEMERKUNGEN ZUR HYDRAULIK

0011

Abbildung 4.4: Symbole für Druckmeßgerät (links) und Flußmeßgerät (rechts)

Anlage zuständigen Hydraulikingenieur in einer realen Störungssituation schnell und

effektiv bei der Fehlersuche unterstützen. Zur Verdeutlichung der Einsatzmöglichkei-

ten eines solchen Systems wird im folgenden ein Diagnoseszenario skizziert.

Tritt eine Störung auf, werden üblicherweise zunächst die Bauteile mit leicht erkenn-

baren Verschleißerscheinungen überprüft. Hierzu gehört die Sichtprüfung auf äußere

Leckagen und Beschädigungen, Prüfung des Flüssigkeitsstands im Vorratsbehälter

sowie der Sauberkeit der Filter usw. ([DD98]). Konnten diese Fehlerursachen ausge-

schlossen werden, erfolgt der rechnergestützte Diagnoseprozeß.

Zunächst müssen dem Diagnosesystem die aktuellen Parameter der hydraulischen

Anlage übermittelt werden. Hierzu gehören neben den Informationen über die Be-

triebssituation (Phase und Belastungen) insbesondere die an vorbestimmten Meßstel-

len gewonnenen Meßwerte. Abhängig von den technischen Voraussetzungen sind

zwei Strategien der Datenübertragung möglich:

1. Manuelle Datenübertragung: Wenn keine Verbindung zwischen dem Diagno-

sesystem und der Anlage besteht, muß die Meßwerterhebung nach einem expli-

ziten Plan für jede Meßstelle manuell durchgeführt und im System eingegeben

werden. Ein Problem ist hierbei die Gefahr von Ablese- und Eingabefehlern.

2. Automatische Datenübertragung: Hier existiert eine Verbindung zwischen dem

Diagnosesystemund der Anlage, etwa deshalb, weil die Anlage bereitsrechner-

gestützt gesteuert und überwacht wird. Fest installierte Meßgeräte übermitteln

kontinuierlich die aktuellen Meßwerte.

Auf der Basis der gesammelten Informationen ermittelt das Diagnosesystem in kur-

zer Zeit3eine oder mehrere Komponenten der Anlage, die am wahrscheinlichsten

als defekt angesehen werden können. Diese Komponenten werden unter Angabe der

3 Unter »kurzer Zeit« sollten wenige Sekunden verstanden werden.

..

69

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

berechneten Wahrscheinlichkeitswerte genannt. Der Ingenieur erhält damit eine Ein-

grenzung der Fehlermöglichkeiten und überprüftnur diese Komponentebzw. Kompo-

nenten, um den realen Defekt herauszufinden. Durch das Diagnosessystem wird also

einerseits die Menge der in Betracht kommenden defekten Komponenten verringert

und zum anderen eine Reihenfolge zur Untersuchung der Komponenten vorgegeben.

Durch eine geeignete Rechnerunterstützung des Diagnoseprozesses können die Still-

standszeiten einer hydraulischen Anlage entscheidend verkürzt werden, so daß ein

hoher wirtschaftlicher Nutzen zu erwarten ist. Gerade im Hinblick auf sehr komplexe

und damit störungsanfällige Anlagen wirkt sich dieser Vorteil besonders aus.

4.2 Gesamtkonzept des Diagnoseansatzes

Im folgenden wird ein Gesamtkonzept zur Erzeugung von heuristischen Diagnosesy-

stemen für hydraulische Anlagen im Überblick vorgestellt. Es integriert und konkre-

tisiert den in Abschnitt 2.3.3 eingeführten automatischen Wissensakquisitionsansatz

und enthält Problemlösungen zur Wissensanwendung, wie zum Beispiel die Auswer-

tung der Regelmenge im Störungsfall (Hypothesengenerierung). Eine prototypische

Realisierung des Konzepts wurde als Diagnosesystemgenerator ARGUS vorgenom-

men (siehe Kapitel 5).

Zunächst werden in Abschnitt 4.2.1 die notwendigen Voraussetzungen für die Rea-

lisierung des Konzepts besprochen, bevor Abschnitt 4.2.2 die wesentlichen Einzel-

schritte sowie ihr Zusammenwirken darstellt. Anschließend wird in Abschnitt 4.2.3

auf den wichtigen Aspekt der Repräsentation des Diagnosewissens durch kategoriale

Assoziationsregeln eingegangen und in Abschnitt 4.2.4 die mit dem Konzept verfolg-

te Zielsetzung definiert.

4.2.1 Voraussetzungen

Der Einsatz des in dieser Arbeit vorgeschlagenen Diagnoseansatzes ist an eini-

ge Voraussetzungen geknüpft. Sie betreffen sowohl die Wissensakquisitionsphase

(Lernphase) als auch die Wissensanwendungsphase (Diagnosephase) des Diagnose-

systems.

Für die Lernphase müssen geeignete Verhaltens- und Strukturmodelle aller Kompo-

nenten der zu diagnostizierenden Anlage vorhanden sein. Die Modelle müssen dabei

das korrekte Verhalten als auch das im Sinne der Anlagenspezifikation fehlerhafte

Verhalten jeder Komponente im Kontext der Gesamtanlage abbilden. Des weiteren

70 ..

..4.2 GESAMTKONZEPT DES DIAGNOSEANSATZES

müssen die typischen Betriebsszenarien, z.B. die für die Anlage vorgesehenen Bela-

stungsstufen, bekannt sein. Zur Auswahl der besten Meßstellen im Schaltkreis wer-

den die Kosten, Wertebereiche und Ablesegenauigkeiten der potentiellen Meßstellen

benötigt.

Für die Diagnosephase wird angenommen, daß die technischen Installationen zur

Übertragung der Meßdaten im Störungsfall vorhanden sind. Des weiteren wird davon

ausgegangen, daß jede Störung nurauf genau eine fehlerhafte Komponente zurückzu-

führen ist, daß also keine Mehrfachfehler vorliegen. Diese Annahme ist jedoch keine

zwingende Voraussetzung zur Anwendung des Diagnoseansatzes, sie wurde ledig-

lich getroffen, um den experimentellen Aufwand zu begrenzen. Des weiteren werden

Bedienungs-, Konstruktions- oder Montagefehler grundsätzlich ausgeschlossen (sie-

he auch Abschnitt 4.1.1).

4.2.2 Einzelschritte

Das Gesamtkonzept zur heuristischen Diagnose von hydraulischen Anlagen läßt sich

in zwei Bereiche einteilen, in deren Schnittpunkt sich eine Assoziationsregelbasis

mit Symptom



Fehler-Beziehungen befindet (vgl. auch Abbildung 1.1 auf Seite 3).

Der erste Aufgabenbereich umfaßt den Aufbau der Regelbasis und besteht aus einer

Simulations- und einer Regellernphase. Diese Phasen werden für jede zu diagnosti-

zierende Anlage einmal durchlaufen; sind Parameteränderungen zur Optimierung der

Regelbasis notwendig, auch mehrfach. Der zweite Aufgabenbereich ist in eine Meß-

und eine Diagnosephase unterteilt. Ausgehend von den gemessenen Werten wird für

jeden Störungsfall der realen technischen Anlage die Regelbasis zur Ableitung des

wahrscheinlichsten Fehlers (Diagnose) genutzt.

Abbildung 4.5 skizziert den Aufbau des Diagnosesystems. Dabei werden Parallelen

zu einem KDD-System erkennbar (vgl. Abschnitt 2.2.3): Das Preprocessing besteht

aus der Symptomerkennung, Diskretisierung und Meßstellenauswahl, das Data Mi-

ning ist die Regelerzeugung, und die Hypothesengenerierung ist das Postprocessing

bzw. die Nutzbarmachung des Diagnosewissens. Im folgenden werden die Einzel-

schritte kurz beschrieben.

Simulationsphase: Die Simulationsphase dient dazu, eine Simulationsdatenbasis

aufzubauen, die das Verhalten der zu diagnostizierenden hydraulischen Anlage durch

eine Menge von Meßwertevektoren beschreibt. In jedem Vektor werden für eine spe-

zifische Betriebssituation (Phase und Belastungsstufen) die simulierten Werte an den

vorher definierten Meßstellen repräsentiert. Da die Protokollierung der Meßwerte

nach Anlagenphasen getrennt geschieht, wird die Simulationsdatenbasis im weiteren

auch Phasenprotokollmodell genannt. Das Phasenprotokollmodell enthält Simulati-

onsdaten sowohl für fehlerfreie Komponenten als auch für fehlerhafte Komponenten.

..

71

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

Differenzen-

vektoren Differenzen-

vektor

Intervallvektor

generierung

Hypothesen-

Assoziations-

regelmodell

Intervall-

vektoren

verkürzte Inter-

vallvektoren

Diagnose

Simulations-

datenbasis

Anlagenmodell

Physikalisches

Diskretisierung

Symptomerkennung SymptomerkennungRegelerzeugung

Intervallerkennung

Simulation

Meßstellenauswahl

Messung

MeßphaseSimulationsphase

Regellernphase Diagnosephase

Meßwerte-

protokoll

reale hydrau-

lische Anlage

Abbildung 4.5: Einzelschrittedes Gesamtkonzeptszur Fehlerdiagnose hydraulischer

Anlagen

Näheres wird in Abschnitt 4.3 beschrieben.

Bei der Realisierung des prototypischenDiagnosesystemgenerators ARGUS istdie Si-

mulationvon den anderen Programmteilen entkoppelt undwird mitdem separaten Si-

mulationswerkzeug artdeco durchgeführt. Hierbei handelt es sich um ein Programm-

system zur graphischen Schaltplanerstellung und Simulation fluidischer Systeme; es

wird z.B. in [SL92], [KCH



95], [Cur96] und [SCH98] beschrieben. artdeco ent-

hält bereits alle relevanten Verhaltensmodelle für die hydraulische Domäne, so daß es

durch eine Analyse der Entwurfszeichnung und die Synthese der lokalen Komponen-

tenmodelle ein globales Anlagenmodell ableiten und das Systemverhalten simulieren

kann.

72 ..

..4.2 GESAMTKONZEPT DES DIAGNOSEANSATZES

Regellernphase: Diese Phase umfaßt neben der Anwendung des eigentlichen Lernal-

gorithmus alle Vorverarbeitungsschritte, die zur Erzeugung geeigneter Diagnosere-

geln notwendig sind. Des weiteren werden Meßstellenvorschläge zur Plazierung der-

jenigen Meßgeräte gemacht, deren Auswertung die höchste Diagnosegüte verspricht.

Zunächst wird das Phasenprotokollmodell analysiert, um für jede Phase der Anlage

Symptome als Differenzen zwischen simulierten Soll- und Ist-Meßwerten zu identifi-

zieren (siehe Abschnitt 4.4). Das Ergebnis ist eine aus Differenzenvektoren bestehen-

de Datenbasis. Da das eingesetzte Assoziationsregellernverfahren nur diskrete Einga-

ben verarbeiten kann, werden anschließend die reellwertigen Differenzen in Intervalle

eingeteilt und eine Datenbasismit Intervallvektorenerzeugt (siehe Abschnitt 4.5). Ei-

ne Analyse der Diskriminierungsfähigkeit der simulierten Meßstellen führt unter Be-

rücksichtigung von benutzerdefinierten Randbedingungen zu einer optimalen Meß-

stellenauswahl (siehe Abschnitt 4.6). Es wird davon ausgegangen, daß in der realen

Anlage auch nur an diesen Stellen die Meßwerte erhoben werden können; aus diesem

Grund können aus den Intervallvektoren alle anderen Werte entfernt werden, und bei

der Regelerzeugung (siehe Abschnitt 4.7) wird nur auf Informationen zugegriffen,

die in einem realen Störungsfall meßbar sind. Das Ergebnis des letzten Schritts sind

Assoziationsregelmengen, die nach Anlagenphasen getrennt als Diagnoseregeln aus-

gewertet werden können.

Meßphase: Liegt ein Störungsfall in der realen Anlage vor, werden die aktuellen

Meßwerte an den bei der Meßstellenauswahldefinierten Stellen erhoben und als Meß-

werteprotokoll zum Diagnosesystem geleitet. Dieser Vorgang wird im weiteren nicht

näher betrachtet, da er von den technischen Voraussetzungen der zu diagnostizieren-

den Anlage abhängt.

Diagnosephase: Die Diagnosephase schließt sich an die Meßphase an und generiert

Diagnosen durch die Auswertung des Meßwerteprotokolls und die Anwendung der

Diagnoseregeln. Das Meßwerteprotokoll wird (analog zu den simulierten Meßwerte-

vektoren) durch den Vergleich mit den Soll-Meßwerten in Differenzenvektoren und

durch Diskretisierung in Intervallvektoren transformiert. Bei der Hypothesengene-

rierung (siehe Abschnitt 4.8) werden die anwendbaren Assoziationsregeln ermittelt

und durch eine Verrechnung der Regelkonfidenzen die Wahrscheinlichkeiten für je-

de Fehlerklasse bestimmt. Die Fehlerklassen mit den höchsten Bewertungen stellen

schließlich die Diagnose dar.

4.2.3 Repräsentation der Diagnoseregeln

Bei den im vorgestelltenAnsatz verarbeiteten Diagnoseregeln handelt es sich umeine

Kombination aus kategorialen Assoziationsregeln und Klassifikationsregeln(vgl. Ab-

bildung 3.2 auf Seite 40). Die Regelprämissen bestehen aus durch Konjunktion ver-

..

73

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

knüpften Meßgerät / Intervall-Vergleichen m



i, die jeweils erfüllt sind, wenn das am

Meßgerät m



Mbeobachtete Symptom in das Intervall i



Imfällt. Als Konklusion

ist nur jeweils eine Diagnose f



Ferlaubt. Gemäß Definition 4.1 gebildete Diagno-

seregeln stellen somit heuristische Symptom



Diagnose-Zusammenhänge dar.

Definition 4.1 (Diagnoseregel): Es sei M





m1



mg



die Menge der g



IN

Meßstellen mit den zugehörigen Intervallmengen Im1



Img. Weiter sei Fdie Menge

der Fehler. Dann hat eine Diagnoseregel r mit p



gPrämissenelementen die Gestalt

r:ma1



ib1







map



ibp



f



c



s

wobei a1



ap



1



g



,ibj



Imajund f



F. Die Regel rwird charakterisiert

durch die Konfidenz cund die relative Häufigkeit s.

¾

Beispiel 4.2: In der weiteren Arbeit werden die Intervalle mit i1,i2,i3, ...und die

Fehler mit Großbuchstaben A, B, C, ...oder f1,f2,f3, ...bezeichnet. Damit könnte

eine typische Diagnoseregel lauten:

r:m1



i3



m4



i4



E



c



r



0



8



s



r



0



05



Mit den entsprechenden Symbolzuordnungen (Intervall i3für m1entspricht



10



0



12



5



bar, Intervall i4für m4entspricht





3



0





1



0



l



min, Eist das Drosselventil)

läßt sich rinterpretieren als:

»Wenn die Druckdifferenz zum Normalwert an Manometer m1zwischen

10



0 und 12



5 bar und die Flußdifferenz zum Normalwert an Flußmesser

m4zwischen



3



0 und



1



0 l/min beträgt, dann liegt mit der Sicherheit

80% ein Fehler im Drosselventil vor. Diese Situation tritt in 5% aller

Fälle auf.«

¾

Anmerkungen: (i) Mit geeigneten Bezeichnungen für die Intervalle, aus denen

der Bezug zum jeweiligen Meßgerät hervorgeht, können die Diagnoseregeln auch

effizienter als boolesche Assoziationsregelnrepräsentiert werden (vgl. Abschnitt 3.2).

Hierauf wird aber aus Gründen der Übersichtlichkeit im weiteren verzichtet.

(ii) Die Prämissen können auch Bedingungen bezüglich der aktuellen Betriebssitua-

tion enthalten, d.h., die Elemente mibezeichnen neben Meßgeräten auch Kräfte, die

an den Zylindern anliegen. Das zugehörige Intervall repräsentiert in diesen Fällen

eine Belastungsstufe. Eine Angabe der Anlagenphase ist dagegen nicht erforderlich,

weil davon ausgegangen wird, daß die Zuordnung einer Regel zu der entsprechenden

Phase jederzeit eindeutig möglich ist.

(iii) Die Beschränkung der Konklusion auf eine Diagnose f



Fsteht nicht im Zu-

sammenhang mit der in Abschnitt 4.2.1 beschriebenen Einzelfehlerannahme, denn

jede Beziehung der Form s



f1



fnläßt sich durch nRegeln s



f1



s



fn

ausdrücken.

74 ..

..4.3 SIMULATION

4.2.4 Zielsetzung

Der in dieser Arbeit vorgestellte Ansatz ist ein allgemeines Konzept zur automati-

schen Generierung von Diagnosesystemen. Zu einem generierten Diagnosesystem

wird es immer manuell und anlagenspezifisch optimierte Systeme mit höheren Dia-

gnoseleistungen geben. Diese sind aber nur mit einem sehr viel höheren zeitlichen

und personellen Aufwand zu erstellen. Folglich kann es nicht das Ziel des hier be-

schriebenen Ansatzes sein, alle denkbaren Komponentenfehler einer hydraulischen

Anlage zu entdecken. Um den Hydraulikingenieur sinnvoll zu unterstützen, ist viel-

mehr die zuverlässige Erkennung derjenigen Fehler wichtig, die von Experten als

bedeutend (d.h. als gravierend und nicht zu selten) eingestuft werden. Solche Fehler

treten in der Regel an den Hauptkomponenten der Anlage auf.

Aus diesem Grund ist neben einer effizienten Verarbeitungsmöglichkeit angestrebt,

eine möglichst hohe Diagnoseleistung für die als bedeutend eingestuften Störungsur-

sachen zu bieten: Es sollen also möglichst viele dieser Fehler erkannt und möglichst

wenig Fehler falsch diagnostiziert werden. Die konkrete Bewertung der mit einem

generierten Diagnosesystem erzielbaren Diagnosegüte wird in Abschnitt 5.2 erläu-

tert.

4.3 Simulation

Im Simulationsschritt wird das fehlerfreie und das fehlerhafte Verhalten einer hy-

draulischen Anlage in repräsentativen Betriebssituationen ermittelt, indem durch die

numerische Simulation der Verhaltens- und Strukturmodelle ein Phasenprotokoll er-

zeugt wird. Bei dem Phasenprotokoll handelt es sich um ein Verhaltensprofil der An-

lage, in der für jede berücksichtigte Betriebssituation und jede Phase die simulierten

Meßwerte tabellarisch als Meßwertevektoren abgelegt sind.

Vor der eigentlichen Simulation sind die beiden Dimensionen des Phasenprotokolls

festzulegen: Zunächst muß ein Meßplan erstellt werden, in dem bestimmt wird, wel-

che physikalischen Größen während der Simulation aufzuzeichnen sind. Des weite-

ren erfolgt die Definitioneines Simulationsplans,in dem diezu simulierendenFehler-

variationen und Belastungsstufen der Anlage beschrieben werden. Diese Aufgaben

werden in den Abschnitten 4.3.1 und 4.3.2 näher erläutert.

4.3.1 Erstellung eines Meßplans

Ein Meßplan definiert die Spalten des Phasenprotokolls; er legt für eine hydrauli-

sche Anlage fest, welche simulierten Meßgrößen zu protokollieren sind. Zusätzlich

..

75

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

werden Informationen zu Anlagenphase, Belastungsstufen und Komponentenfehler

aufgenommen, da die Meßwerte hiervon abhängig sind (vgl. Abschnitt 2.3.1). Da-

mit besteht eine Zeile des Phasenprotokolls aus den Meßwerten und der zugehörigen

Betriebssituation.

Für die Meßwerte kommen im Rahmen der Diagnose hydraulischer Anlagen ledig-

lich die folgenden Meßstellen und Meßgrößen in Betracht (elektrische Komponenten

werden in dieser Arbeit nicht berücksichtigt):



An jedem Zylinder die Kolbenposition s,



an jedem Hydromotor die Drehzahl n,



an jedem Leitungsstück zwischen zwei Komponenten der Druck pund



an jedem Leitungsstück zwischen zwei Komponenten der Volumenstrom qV.

Aus technischen Gründen kann es vorkommen, daß nicht alle Leitungsstücke zwi-

schen zwei Komponenten als Druck- und Flußmeßstellen zulässig sind. Dies ist

z.B. dann der Fall, wenn hier eine Messung nur mit unverhältnismäßig hohem Auf-

wand oder wegen Unzugänglichkeit überhaupt nicht möglich ist. Randbedingungen

dieser Art sind beim Aufstellen des Meßplans zu berücksichtigen. Abbildung 4.6

zeigt eine hydraulische Anlage mit ausgewählten Fluß- und Druckmeßstellen.

1Y1 1Y2 2Y

3Y

Z1 M1 Z2

V1 V2

D1

B1

B3

R2

S1

R1

B2

D2

V3

P1 Q1

P3 Q3

P18Q18

P4 Q4

P5 Q5

P6Q6

P7Q7

P8Q8

P2 Q2

P9 Q9

P10 Q10

P11 Q11 P12Q12

P13Q13 P14Q14

P15 Q15

P16 Q16

P17Q17

Abbildung 4.6: Schaltplan einer hydraulischen Anlage und ihrer Meßstellen laut

Meßplan, dargestellt im Simulationswerkzeug artdeco

76 ..

..4.3 SIMULATION

Die zu einem Meßwertevektor gehörige Betriebssituation wird durch die folgenden

Werte gekennzeichnet:



Ein Zeitstempel t,



an jedem Zylinder die belastende Kraft Fund



an einer Anlagenkomponente der Fehler fund seine Variation v



vf(siehe

Simulationsplan, Abschnitt 4.3.2).

Da die Struktur der jeweils zu diagnostizierenden Anlage in artdeco graphisch vor-

liegt, ist es grundsätzlich möglich, den anlagenspezifischen Meßplan automatisch zu

erstellen. Dieses ist jedoch noch nicht realisiert, so daß im prototypischen Diagno-

sesystem eine manuelle Festlegung der Meßpläne notwendig ist. Dazu werden mit

Mausoperationen Druck- und Flußmeßgeräte an den gewünschten Stellen des Schalt-

plans eingefügt und die zu protokollierenden Meßgrößen festgelegt.

Anmerkungen: (i) Da für die Diagnose keine absoluten Zeitpunkte, sondern nur

die Phasen einer hydraulischen Anlage relevant sind, wird nach der Simulation eine

Phasenerkennung durchgeführt. Diese Information kann von den Meßgeräten nicht

geliefert werden und wird in einem Nachbearbeitungsschritt durch die Analyse der

Simulationsdatenbasis gewonnen. Die Phasenerkennung stellt darüber hinaus durch

Einfügungen sicher, daß trotz fehlerverursachter Phasenausfälle jede Phasensequenz

die gleiche Länge hat. Nur so ist ein phasenweiser Abgleich der Meßwerte zur Sym-

ptomerkennung möglich (vgl. Abschnitt 4.4).

(ii) Als weiterer Nachbearbeitungsschritt werden aus den Zeitpunkten tund den Zy-

linderpositionen sdie Zylindergeschwindigkeiten v



∆s

∆tberechnet. Diese sind auch

an einer realen Anlage gut zu beobachten und können für einige Fehlerarten sehr

charakteristisch sein.

4.3.2 Erstellung eines Simulationsplans

Im Simulationsplanwerden die Zeilen des Phasenprotokollsfestgelegt. Zunächst sind

für die zu diagnostizierende Anlage die typischen Belastungsstufen und Fehlervaria-

tionen zu ermitteln. Sofern keine anlagen- oder anwendungsbezogenen Gründe gegen

die Gleichverteilung aller Belastungsstufen und Fehlervariationen sprechen, muß mit

jeder möglichen Kombination eine Simulation durchgeführt werden. Je mehr Zeit

für die Simulationsphase zur Verfügung steht, desto mehr Betriebssituationen können

berücksichtigt werden und desto vollständiger ist das im Phasenprotokoll abgelegte

Verhaltensprofil der Anlage.

..

77

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

Prinzipiell ist auch die Erstellung eines Simulationsplans automatisierbar, sie wird

aber im prototypischen Diagnosesystem noch manuell durchgeführt. Im folgenden

werden die von einem Experten zu treffenden Entscheidungen zur Aufstellung ei-

nes Simulationsplans und der sich daraus ergebende Simulationsaufwand genauer

beschrieben.

Die an einem Zylinder anliegende Kraft kann je nach Betriebssituation variieren. Sie

ist eine kontinuierliche Meßgröße, deren Wertebereich anwendungsabhängig in ge-

eignete Intervalle (Belastungsstufen) zu zerlegen ist. Ist mehr als ein Zylinder vor-

handen, müssen typische Belastungsstufenkombinationen festgelegt werden. Eine

weitere Festlegung ist bezüglich der Fehler notwendig: Hier sind Fehlerklassen und

Fehlervariationen zu unterscheiden. Potentiell kann jede Anlagenkomponente defekt

sein und damit eine Fehlerklasse fdarstellen. Jede Fehlerklasse wiederum kann Feh-

ler verschiedener Schweregrade umfassen, die zu fdie Fehlervariationen vfbilden.

Es ist offensichtlich, daß sowohl das korrekte Verhalten der Anlage als auch alle Feh-

lervariationen mit jeder Belastungsstufenkombination simuliert werden müssen. Da-

mit läßt sich die Anzahl der Simulationsläufe und die Größe des Phasenprotokolls

wie folgt berechnen. Sei Fdie Menge der Fehlerklassen (Komponenten) einer An-

lage mit pPhasen, vfdie Menge der Variationen eines Fehlers f



Fund bidie

Anzahl der Belastungsstufen des i-ten von c



IN Zylindern. Unter der Annahme

der Unabhängigkeit müssen das Sollverhalten sowie alle Fehlervariationen in jeder

Belastungsstufenkombination simuliert werden; es gilt somit für den maximalen Si-

mulationsaufwand Sund die AnzahlCder Meßwertevektoren im Phasenprotokoll:

S





1



∑

f



F



vf







c

∏

i



1biund C



p



S



Anmerkungen: (i) Sind die Belastungsstufen voneinander abhängig, kann der Si-

mulationsaufwand deutlich verringert werden. Ein Zahlenbeispiel für eine konkrete

hydraulische Anlage befindet sich in Abschnitt 5.1.

(ii) Zur Evaluierung einer Regelmenge und ihrer Diagnoseleistung kann es sinnvoll

sein, auf mehrere Simulationsdatenbasen mit unterschiedlichen Fehlervariationen zu-

zugreifen (siehe auch Abschnitt 5.2). Eine mögliche Charakterisierung dieser Varia-

tionsmengen als leichte und schwere Variationen zeigt das folgende Beispiel 4.3.

Beispiel 4.3: Im fehlerfreien Fall betrage der Öffnungsgrad eines Drosselventils

50%. Die Fehlerklasse fist dann »Defekt am Drosselventil« und gibt an, daß der

aktuelle Öffnungsgrad vom Sollwert (50%) abweicht. Eine konkrete Fehlervaria-

tion kann numerisch z.B. einen Wert aus der Menge vf





0%



10%



40%



60%

 

100%



annehmen, die Höhe der Abweichung bestimmt ihren Schweregrad.

Zur verbalen Beschreibung unterschiedlicherSchweregrade bietet sichdie Zuordnung

78 ..

..4.4 SYMPTOMERKENNUNG

von linguistischen Variablen, wie sie aus dem Bereich der Fuzzy Logic bekannt sind

(vgl. z.B. [Zim93]), an. Abbildung 4.7 zeigt eine mögliche Gruppierung dieser Va-

riationen durch unscharfe Definitionen der linguistischen Variablen »einfache« und

»schwere Fehlervariation«.

¾

0.6

0.8

1.0

0.4

0.2

Zugehörigkeitsgrad

Öffnungsgrad [%]10090807060504020 3010

schwere Fehlervariation

0.0

0

einfache Fehlervariation

Abbildung 4.7: Definition der Fehlervariationen eines Drosselventils (zu Beispiel

4.3)

4.4 Symptomerkennung

Auf der Basis des Phasenprotokolls werden die Symptome der im Simulationsplan

definierten Fehler identifiziert. Dies geschieht durch den Vergleich der Meßwerte-

vektoren einer fehlerhaften Anlage mit den entsprechenden Vektoren der fehlerfreien

Anlage. Weichen die Meßwerte voneinander ab, stellen ihre Differenzen die Sym-

ptome des Fehlers dar; eine Differenz von 0 entspricht dem Soll-Verhalten. Die so

für alle Fehler entstandenen Differenzenvektoren oder Symptomvektoren werden zur

weiteren Verarbeitung in einer Datenbasis abgelegt.

Es ist zu beachten, daß eine Differenzenbildung für Meßwerte von vektoriellen Grö-

ßen der Hydraulik (Fluß qVund Geschwindigkeit v) nicht numerisch erfolgen darf,

wenn die Richtungen beider Werte (repräsentiert durch ihre Vorzeichen) ungleich

sind. Richtungsunterschiede sind aber für einige Fehlerklassen sehr charakteristisch

und im Gegensatz zu kleinen numerischen Abweichungen sogar ohne Meßgeräte

während des Anlagenbetriebs leicht zu bemerken. Daher wird die Art der Abwei-

chung im Differenzenvektor für einige Meßgrößen (z.B. Geschwindigkeiten) durch

..

79

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

einen symbolischen Wert beschrieben, was zu der folgenden Definition führt.

Definition 4.2 (Differenz zweier Meßwertevektoren): Es sei M





m1



ms



die

Menge der Meßgeräte. Weiter seien



o1





a1



1



a1



s



und



o2





a2



1



a2



s



zwei

Meßwertevektoren. Dann ist der Differenzenvektor



o∆definiert durch



o∆





o1





o2





a1



1



a2



1



a1



s



a2



s





wobei für den Differenzoperator



:IR



IR



IR

 

0







0











0















0











gilt:

a1



i



a2



i













a1



i



a2



i



falls miskalar oder sign



a1



i



sign



a2



i



0







falls mivektoriell und a1



i



0



a2



i



0







falls mivektoriell und a1



i



0



a2



i



0





0



falls mivektoriell und a1



i



0



a2



i



0









falls mivektoriell und a1



i



0



a2



i



0





0



falls mivektoriell und a1



i



0



a2



i



0









falls mivektoriell und a1



i



0



a2



i



0

¾

Die Symptomerkennung erfolgt für alle im Phasenprotokoll simulierten Fehler und

Betriebssituationen. Hierbei wird zu einem Meßwertevektor



offür das Verhalten bei

Vorliegen eines Fehlers fder zugehörige Meßwertevektor



ook für das Soll-Verhalten

ermittelt und der Differenzenvektor



o∆





of





ook



nach Definition 4.2 berechnet.4Somit

bedeutet ein positiver Symptomwert im Differenzenvektor



o∆, daß die entsprechende

physikalische Größe im Fehlerfall zu hoch ist, während ein negativer Symptomwert

eine zu niedrige physikalische Größe anzeigt.

Anmerkung: Die Einteilung und Protokollierung des Anlagenverhaltens in Phasen

ermöglicht die Beschreibung von zeitlich verteilten Symptomen (vgl. [PR93]). Einfa-

chere Diagnosesysteme basieren auf der Annahme, daß im Störungsfall der Zustand

des hydraulischen Systems zu einem einzigen Zeitpunkt erfaßt werden kann und die

Diagnose aus dieser statischen Beschreibung des Fehlverhaltens ableitbar ist. Im Ge-

gensatz hierzu repräsentieren die Differenzenvektoren im hier vorgestellten Diagno-

seansatz auch zeitliche Auswirkungen eines Fehlers, da diese phasengetrennt berech-

net werden. Hierdurch sind Veränderungen der Symptome sichtbar, die insbesondere

bei komplexen Anlagen dynamisch im Zeitablauf entstehen können.

4 Als »zugehörig« gilt derjenige Soll-Meßwertevektor, der durch die Simulation der gleichen Phase

und Belastungsstufenkombination gewonnen wurde.

80 ..

..4.5 DISKRETISIERUNG

4.5 Diskretisierung

In der Diskretisierungsphase werden die Wertebereiche für die bei der Symptomer-

kennung berechneten Meßwertdifferenzen in diskrete Intervalle eingeteilt. Das Er-

gebnis ist also eine Datenbasis mit Intervallvektoren.

Zunächst werden in Abschnitt 4.5.1 die Bedingungen einer im Hinblick auf die Dia-

gnoseanwendung sinnvollen Intervalleinteilung motiviert und definiert. Danach er-

folgt in Abschnitt 4.5.2 die Diskussion der wichtigsten aus der Literatur bekannten

Diskretisierungsverfahren. Abschließend wird in Abschnitt 4.5.3 ein neuer, im proto-

typischen Diagnosesystem realisierter Algorithmus vorgestellt und diskutiert.

4.5.1 Motivation und Definition

Zur Generierung von Diagnoseregeln wird eine Datenbasis mit Symptomvektoren

ausgewertet. Sieht man von den symbolischen Darstellungen für vektorielle Meßgrö-

ßen ab, werden Symptome durch reellwertige Differenzzahlen repräsentiert (somit

auch in den Prämissen der Diagnoseregeln). Aus den folgenden Gründen ist jedoch

die Verwendung von diskreten Intervallen an Stelle von reellwertigen Symptomen in

den Regelprämissen besser geeignet:

1. Anwendbarkeit des Regellernverfahrens:

Viele maschinelle Lernverfahren – wie auch die Assoziationsregelerzeugung –

benötigen zwingend symbolische Eingaben oder sind hiermit zumindest effizi-

enter (siehe [DKS95]).

2. Einsatzspektrum der Diagnoseregeln:

Die Diagnoseregeln sind universeller anwendbar und damit besser zur Diagno-

se neuer Betriebsszenarien geeignet, wenn die Prämissen keine einzelnen Sym-

ptomwerte enthalten.

3. Ungenauigkeit der Symptomwerte:

Es ist davon auszugehen, daß sowohl die gemessenen als auch die simulierten

Meßwerte Abweichungen von den wahren physikalischen Werten aufweisen.

Der dritte Punkt sei noch etwas weiter ausgeführt: Da die Datengrundlage des Dia-

gnosesystems aus Werten besteht, die aus simulierten und realen Messungen her-

vorgegangen sind, müssen diese nicht mit den exakten physikalischen Werten über-

einstimmen. So können die in der Simulationsphase benutzten Verhaltensmodelle

Modellierungsfehler enthalten oder eine zu geringe Modellierungstiefe aufweisen;

als Konsequenz sind Abweichungen zwischen Simulationswerten und realen Werten

..

81

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

möglich.5Auch in der Meßphase sind Abweichungen zu den realen Werten möglich,

da physikalische Meßvorgänge i.d.R. mit systematischen und zufälligen Meßfehlern

behaftet sind (vgl. Abschnitt 4.1.2). Die scharfen Differenzwerte sind daher eher als

Näherungswerte anzusehen, die eine nicht vorhandene Exaktheit vortäuschen.

Zur Vermeidung der genannten Nachteile wird der Symptomwertebereich jedes Meß-

geräts partitioniert, d.h. in disjunkte Intervalle eingeteilt; anschließend werden die

Symptome nur noch durch das jeweils umschließende Intervall repräsentiert. Ein

wichtiges Problem bei der Diskretisierung ist die Festlegung der geeigneten Intervall-

grenzen, denn aufgrund der Vergröberung kann ein Informationsverlust entstehen. Es

stellt sich eine Optimierungsaufgabe: Werden die Intervalle zu groß gewählt,wird die

Fehlervorhersage häufiger mehrdeutig, und die Wahrscheinlichkeit von Fehldiagno-

sen steigt. Dagegen bringt eine Diskretisierung in zu kleine Intervalle keinen Vorteil

gegenüber der Verwendung der Ausgangswerte. Gesucht sind daher solche Partitio-

nierungen, die eine gute Generalisierung darstellen und eine möglichst zuverlässige

Fehlervorhersage erlauben.

Neben der Diagnoseleistung sind im Hydraulikbereich jedoch weitere Randbedin-

gungen zu beachten. Durch die Einhaltung von individuellen Mindestintervallbreiten

für jedes Meßgerät kann den jeweiligen Meß-, Ablese- und Simulationsungenauig-

keiten Rechnung getragen werden. Diese kleinstmöglichen Intervalle legen Bereiche

der Ununterscheidbarkeit fest. Darüber hinaus ist eine Intervalleinteilung mit »glat-

ten« Intervallgrenzen sinnvoll, die dem menschlichen Anwender die Interpretation

der erzeugten Regeln erleichtern. Definition 4.3 legt die Kriterien für eine zulässige

Intervalleinteilung fest.

Definition 4.3 (Partitionierung eines Meßwertebereichs): Es sei m



Mein Meß-

gerät, an dem die Meßwertdifferenzen dom



m



beobachtet wurden und u



IR



0ein

absoluter Wert für die Meßunsicherheit von m. Dann ist eine Menge von g



IN In-

tervallen Im





i1



ig



eine Partitionierung des Meßwertebereichs von m, wenn

gilt:

1.



j



1



g



:ij















lj



uj





falls lj



uj



0





lj



uj





falls 0



lj



uj





0



0



0 sonst



2.



j



1



g



1



:uj



lj



1

5 So wird z.B. in artdeco bei der Modellierung von Rohrleitungen auf Reibungszahlen, Krümmungs-

winkel usw. verzichtet. In der Realität eintretende Druckminderungen, die durch Reibungsverlu-

ste aufgrund von Widerständen an den Rohrwandungen oder Änderungen der Strömungsrichtung

entstehen, sind also in der Simulation nicht berechenbar. Diese Fehler können sich im System

fortpflanzen und gegenseitig verstärken.

82 ..

..4.5 DISKRETISIERUNG

3. l1



mina



dom



m





a



u1und ug



maxa



dom



m





a





lg

4.



j



1



g



:



uj



lj





2u

5.



j



1



g



:



x



y



ZZ



d



1



2



4





10y

d



2u:lj



x

d



10y

6. analog zu 5. für uj.

¾

Anmerkung: Die Bedingungen in Definition 4.3 haben die folgende Bedeutung:

1. Festlegung der Interpretation der Intervallgrenzen; der Wert 0 bildet dabei im-

mer ein eigenes »Intervall«, damit innerhalb eines Intervalls keine Vorzeichen-

wechsel vorkommen.

2. Sicherstellung, daß der Wertebereich der Symptome durch die Intervalle

lückenlos abgedeckt wird.

3. Sicherstellung, daß sich die Extremwerte des Meßgeräts in den äußeren Inter-

vallen befinden, so daß keine Bereiche ohne Symptome abgedeckt werden.

4. Definition der minimalen Intervallbreite durch die doppelte Meßungenauigkeit

2



u; dies entspricht der Größe des Unsicherheitsintervalls für einen wahren

Meßwert x0bei Beobachtung eines Symptomwerts s, denn es gilt: x0



s



u



s



u



(vgl. Abschnitt 4.1.2).

5. bzw. 6. Festlegung, daß die Intervallgrenzen nur Vielfache der Zehnerpotenzen

der einfachen Brüche 1

1,1

2oder 1

4sein dürfen. Diese werden im folgenden als

glatte Intervallgrenzen bezeichnet.

Bevor in den nächsten Abschnitten auf Algorithmen zur Suche einer zulässigen

Intervalleinteilung eingegangen wird, gibt Beispiel 4.4 ein mögliches Ergebnis der

Diskretisierung an.

Beispiel 4.4: Es sei mein Meßgerät, an dem die Meßwerte mit der Meßunsicherheit

u



0



25 beobachtet unddie Meßwertdifferenzen (Symptome)



1



0, 1



6, 2



0, 3



0, 4



5

und 6



0 berechnet wurden. Dann ist eine zulässige Partitionierung die Intervallmenge

Im





i1



i5



mit

i1





1



5



0



,i2



0, i3



0



2



,i4



2



5



und i5



5



7



5



.

Sie genügt den Bedingungen der Definition 4.3; so gilt etwa für u5



7



5



x

d



10ymit

d



2, y



0 und x



15 (Bedingung 6).

Das folgende Bild veranschaulicht die Intervalleinteilung graphisch.

..

83

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

0 2

01

Symptomwerte

Intervalle

4387

-2 165

-1

1

i3

2

45

i

iii

¾

4.5.2 Bekannte Verfahren

Viele Algorithmen zum maschinellen Lernen benötigen einen diskreten, also höch-

stens ordinalskalierten Eingaberaum. Um sie trotzdem in Problembereichen mit

kardinalskalierten Merkmalen anwenden zu können, müssen für die reellwertigen

Eingabegrößen geeignete Intervalleinteilungen gefunden werden. In der Literatur

sind unterschiedliche Diskretisierungsansätze untersucht worden, von denen einige

auf den jeweiligen Klassifizierungs- oder Regellernalgorithmus zugeschnitten sind

(z.B. »C4.5« von Quinlan [Qui93] sowie »1RD« von Holte [Hol93]), hingegen

andere universell einsetzbar sind. Im weiteren werden nur die universellen Verfahren

betrachtet.

In Anlehnung an Dougherty et al. ([DKS95]) lassen sich diese Verfahren hinsichtlich

der folgenden drei Unterscheidungen charakterisieren:



Global vs. lokal: Globale Verfahren analysieren die Eingabedaten als ganzes

und erzeugen für jedes Merkmal genau eine Intervalleinteilung. Dagegen neh-

men lokale Verfahren auch Diskretisierungen vor, die auf separate Teilbereiche

der Eingabedaten optimiert sind; unter Umständen können also mehrere Inter-

valleinteilungen für ein Merkmal entstehen.



Unüberwacht vs. überwacht: Unüberwachte Verfahren berücksichtigen zur

Intervallbildung ausschließlich die beobachtete Verteilung der Merkmalswer-

te, während überwachte Verfahren zusätzlich die Information auswerten, mit

welchen Klassen die einzelnen Merkmalswerte korrespondieren.



Statisch vs. dynamisch: Statische Verfahren bestimmen für jedes Merkmal

separat die Einteilung in eine benutzerdefinierte Anzahl von Intervallen. Im

Gegensatz dazu berücksichtigen dynamische Verfahren die Auswirkungen, die

die Diskretisierung eines Merkmals auf die Diskretisierung anderer Merkmale

haben kann, um für jedes Merkmal die optimale Intervallanzahl und -einteilung

zu erhalten.

84 ..

..4.5 DISKRETISIERUNG

Lokale Verfahren (z.B. Fayyad und Irani [FI92]) werden insbesondere beim Lernen

von Entscheidungsbäumen eingesetzt, weil jedem inneren Knoten eine noch nicht

klassifizierte Teilmenge der Eingabedaten entspricht, für die jedesmal ein lokales Dis-

kretisierungsverfahren eingesetzt werden kann. Obwohl diese differenziertere Analy-

se der Datenbasis gegenüber schnelleren globalen Verfahren eine bessere Klassifika-

tionsgüte erwarten läßt, konnte dieses von Dougherty et al. in ihrer Studie [DKS95]

nicht nachgewiesen werden.

Üblicherweise teilen die unüberwachten Verfahren den Wertebereich in Intervalleauf,

die entweder alle gleichgroß sind oder allegleich viele Merkmalswerteenthalten. Als

Alternative kann auch eine Clusteranalyse durchgeführt werden. Dagegen bewerten

überwachte Verfahren mit unterschiedlichen Maßen den Zusammenhang zwischen

einem Merkmal und der Klasseninformation. Die bekannteren Ansätze verwenden

dazu die Statistik (z.B. Tests basierend auf χ2: »ChiMerge« [Ker92], Φ: »Stat-

Disc« [RR95], λ: »Zeta« [HS97]/[HS98]) oder die Informationstheorie (z.B. »D-2«

[CBS91] und Pfahringers Verfahren [Pfa95]).

Konstruktionsgemäß erzielen überwachte Verfahren für Klassifikations- und Diagno-

seprobleme auf die Vorhersagegüte bezogen gute Ergebnisse, es ist unter den genann-

ten aber keines in der Lage, die besonderen Anforderungen an eine Intervalleinteilung

im Zusammenhang mit der Diagnose realer hydraulischer Anlagen zu erfüllen (siehe

Definition 4.3). Aus diesem Grund wird im folgenden Abschnitt ein neuer Diskreti-

sierungsalgorithmus vorgestellt.

4.5.3 Neuer Diskretisierungsalgorithmus

Der im weiteren beschriebene Algorithmus zur Ermittlung von Intervalleinteilungen

für Meßgeräte ist insbesondere für Diagnoseanwendungen im technischen Bereich

geeignet. Er analysiert als überwachtes Verfahren, welche Fehler mit welchen Sym-

ptomwerten korrespondieren und hat gegenüber den bekannten Algorithmen den Vor-

teil, Vorgaben hinsichtlich der »glatten« Intervallgrenzen sowie hinsichtlich der Meß-

gerätequalitäten berücksichtigen zu können.

Zunächst werden einige diagnoserelevante Aspekte näher erläutert, bevor der eigent-

liche Algorithmus aufgeführt wird. Anschließend erfolgt eine Diskussion des Algo-

rithmus sowie möglicher Verbesserungen.

Diagnoserelevante Aspekte

Zur Anpassung an unterschiedliche technische Anwendungssituationen berücksich-

tigt der Algorithmus benutzerdefinierte Vorgaben für das jeweiliges Meßgerät. So

..

85

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

können als Eigenschaften eines Meßgeräts mdie Meßungenauigkeit u, die maximale

Intervallbreite tund die maximale Anzahl unterscheidbarer Meßbereiche bzw. Inter-

valle imax definiert werden. In der maximalen Intervallanzahl imax sind die symboli-

schen Intervalle (aus Definition 4.2) und das Null-Intervall (aus Definition 4.3) nicht

inbegriffen. Im folgenden wird von imax



2 ausgegangen, da sonst kein Diskretisie-

rungsalgorithmus benötigt wird:



Für imax



1 kann nur zwischen dem obligatorischen Null-Intervall (stellt den

Sollwert dar) und Differenzwerten ungleich 0 (stellt irgendein Symptom dar)

unterschieden werden.6



Für imax



2 kann nur zwischen dem obligatorischen Null-Intervall sowie posi-

tiven und negativen Differenzwerten unterschieden werden.

Ein wichtiger Aspekt zur Intervalleinteilung ist die Bestimmung der zulässigen In-

tervallgrenzen bzw. einer geeigneten Mindestintervallbreite. Insbesondere bei analo-

gen Meßgeräten, die vom Ingenieur abgelesen werden, ist eine gleichmäßige Skalen-

bzw. Intervalleinteilung sinnvoll. Die rechnerisch optimale Breite für gleich große

Intervalle läßt sich dann aus der Intervallanzahl imax und der Spannweite des Werte-

bereichs berechnen. Gleichzeitig müssen jedoch die Bedingungen 4 bis 6 der Defi-

nition 4.3 (Meßunsicherheit und »glatte« Intervallgrenzen) eingehalten werden. Dies

führt zu der folgenden Berechnungsvorschrift für die meßgeräteabhängige Mindest-

intervallbreite Sm.

Es sei m



Mein Meßgerät, an dem die Symptomwerte a1



asmita1



asbe-

obachtet wurden. Weiter seien die Meßungenauigkeit u, die maximale Intervallbreite

tund die maximale Intervallanzahl imax gegeben. Dann läßt sich die Mindestinter-

vallbreite Smwie folgt berechnen:

Sm



u



t



imax













2u



falls S





2u



t



falls S





t



minx



x



S





;x



10y

d;y



ZZ;d



1



2



4



sonst



Dabei ist S



die Intervallbreite für äquidistante Intervalle, für die gilt:

S





as



a1

imax



Beispiel 4.5: Innerhalb der Grenzen u



0



005undt



250 für ein Meßgerät mergibt

sich der in Abbildung 4.8 ausschnittsweise dargestellte Zusammenhang zwischen der

optimalen Intervallbreite S



und der gerundeten Intervallbreite Sm.

¾

6 Dieser Fall kannnicht der Definition 4.4 genügen,weil das Null-Intervall die Bedingung2 verletzen

würde.

86 ..

..4.5 DISKRETISIERUNG

Äquidistante Intervallbreite S



Gerundete Intervallbreite Sm



175

75



175

37



5



75

17



5



37



5

.

0



075



0



175

0



0375



0



075

0



0125



0



0375



0



0125

250

100

50

25

.

0



1

0



05

0



025

0



01

Abbildung 4.8: Zusammenhang zwischen optimaler und gerundeter Intervallbreite

(zu Beispiel 4.5)

Die gerundete Intervallbreite Smstellt gleichzeitig eine Mindestintervallbreite dar und

wird dazu benutzt, vom Null-Intervall ausgehend in beide Richtungen ein Raster für

die zulässigen Intervallgrenzen zu markieren. Hierfür wird abschließend eine Funk-

tion f:IR



IR eingeführt, die für einen beliebigen Symptomwert die nächste, im

Sinne der Definition 4.3 zulässige (»glatte«) Intervallgrenze berechnet:

f



x







x

Sm



sign



x





0



5





Sm



Der im folgenden beschriebene Diskretisierungsalgorithmus greift auf diese Defini-

tionen zurück.

Algorithmus

Nach der in Abschnitt 4.5.2 ausgeführten Einteilung handelt es sich bei dem neuen

Intervallbildungssalgorithmus um ein globales, überwachtes und statisches Verfah-

ren. Es geht von den Annahmen aus, daß die Symptomwerte für ein Meßgerät m

etwa gleichverteilt sind und daß benachbarte Werte von unterschiedlichen Fehlern

hervorgerufen wurden.

Anmerkung: Zwar können die erwähnten Annahmen im Einzelfall verletzt sein,

dies muß sich aber auf die erzielbare Diagnosegüte nicht negativ auswirken, wie

die folgende Überlegung zeigt. Ein Informationsverlust tritt nicht auf, wenn jedes

Intervall genau ein Symptom umschließt, weil dann jedes Intervall eine eindeutige

..

87

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

Eingabe: Symptomwerte a1



aseiner Meßstelle m



M, Meßunsicherheit

u, maximale Intervallbreite t, Intervallanzahl imax

Ausgabe: Intervallmenge Im

(1) Sortiere die Symptomwerte, so daß a1

  

asgilt

(2) Berechne die gerundete Mindestintervallbreite Sm



u



t



imax



(3) Führe die unterste und die oberste Intervallgrenze durch f



a1



Sm

2



bzw. f



as



Sm

2



ein

(4) Führe 0 als Intervallgrenze ein

(5) Für je zwei benachbarte Symptomwerte ajund aj



1:

(6) Berechne das arithmetische Mittel a



aj



aj



1

2

(7) Führe f



a



als neue Intervallgrenze ein

(8) Bilde aus den Intervallgrenzen die entsprechende Intervallmenge Im

(9) Für jedes Intervall i



Imohne Symptomwert:

(10) Ist die Anzahl der unterschiedlichen Fehlerkorrespondenzen der

beiden Nachbarintervalle von igleich?

(11) Dann vereinige imit dem kleineren Nachbarintervall

(12) Sonst vereinige imit dem Nachbarintervall, das mehr unter-

schiedliche Fehlerkorrespondenzen hat

(13) Für je zwei benachbarte Intervalle in Im:

(14) Sind die korrespondierenden Fehlermengen gleich?

(15) Dann vereinige diese beiden Intervalle

Algorithmus 4.1: Intervallbildung

Fehlervorhersage ermöglicht. Bei einer ungleichmäßigen Verteilung der Symptome

(Verletzung der ersten Annahme) steigt aber wegen der einzuhaltenden Mindestin-

tervallbreiten Smdie Wahrscheinlichkeit, daß einige Intervalle mehrere Symptome

umschließen. Wenn nun die Symptome eines Intervalls mit dem gleichen Fehler kor-

respondieren (Verletzung der zweiten Annahme), ist dennoch eine eindeutige Fehler-

vorhersage möglich.

Der Algorithmus 4.1 zur Intervallbildung gliedert sich in zwei Hauptteile: Zunächst

wird im ersten Teil (Zeilen 1 bis 8) eine grobe, aber zulässige Intervalleinteilung

realisiert, die danach im zweiten Teil (Zeilen 9 bis 15) unter Berücksichtigung der

Fehlerkorrespondenzen optimiert wird.

88 ..

..4.6 MESSSTELLENAUSWAHL

In den Zeilen 3 bis 7 werden die Intervallgrenzen ohne Berücksichtigung der Feh-

lerkorrespondenzen ermittelt. Dabei wird versucht, jeweils eine neue Intervallgrenze

mittig zwischen zwei benachbarten Symptomwerten zu plazieren; die Anwendung

der Funktion fverschiebt diese Grenze auf den nächsten zulässigen Wert (Zeilen 5

bis 7); hierdurch können leere Intervalle entstehen. Anschließend erfolgt die Aus-

wertung der Fehlerkorrespondenzen, um leere Intervalle zu entfernen (Zeilen 9 bis

12) und um benachbarte Intervalle mit den gleichen Fehlerkorrespondenzen zu ver-

einigen (Zeilen 13 bis 15). Durch die genannten Optimierungen wird die Anzahl

eindeutiger Fehlervorhersagen nicht verringert.

In Abhängigkeit von der Anzahl der Symptomwerte sbeträgt die Laufzeit des Al-

gorithmus O



s



logs



. Er wird vom Aufwand zur Sortierung der Symptomwerte in

Zeile 1 bestimmt, da die Ermittlung der gerundeten Intervallbreite Smnicht und die

nachfolgenden Schleifen nur linear von sabhängig sind.

Beispiel 4.6: Es seien an einem Meßgerät m



Mdie folgenden Symptomwerte

a1



a6und einelementige Fehlerkorrespondenzen f1



f6gegeben:

j1 23456

aj



1



01



62



03



04



56



0

fj{A} {A} {B} {C} {C} {B}

Dann ergibt sich miteiner maximalen Intervallanzahl imax



7 die Mindestbreite Sm



1



0. Die mit Algorithmus 4.1 ermittelte Intervalleinteilung ist

i1





2



0



,i2



0, i3



0



2



,i4



2



5



und i5



5



7



.

Abbildung 4.9 veranschaulicht das Ergebnis. Man erkennt, daß bis auf i3alle Inter-

valle eine eindeutige Fehlervorhersage ermöglichen.

¾

4.6 Meßstellenauswahl

Die Meßstellenauswahl dient der Ermittlung derjenigen Meßstellen in der hydrau-

lischen Anlage, die bei vorgegebenen Randbedingungen eine maximale Diagnose-

leistung ermöglichen. Die Randbedingungen begrenzen dabei entweder die Anzahl

einsetzbarer Meßgeräte oder den Kostenrahmen für Meßgeräte und Messungen. Ist

eine optimale Meßstellenteilmenge M





Mgefunden, werden aus den vollständigen

Intervallvektoren diejenigen Symptome entfernt, die an den Meßstellen aus M



M



simuliert wurden. Zur Erzeugung der Diagnoseregeln wird dann die Datenbasis mit

den so verkürzten Intervallvektoren analysiert.

..

89

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

2

A B C C B

A

0011

Symptomwerte

Intervalle

4387

-2

Fehler

0165

-1

1

2

345

i

iii

Abbildung 4.9: Ergebnis der Intervallbildung (zu Beispiel 4.6)

In Abschnitt 4.6.1 wird auf die wichtigsten Aspekte der Meßstellenauswahleingegan-

gen, und es werden einige vereinfachende Annahmen getroffen. In Abschnitt 4.6.2

erfolgt zunächst die Beschreibung statistischer Methoden der Abhängigkeitsanalyse

zur Ermittlung redundanter Meßstellen, bevor in Abschnitt 4.6.3 Alternativen zur Be-

wertung von Meßstellenteilmengen entwickelt werden.

4.6.1 Motivation und Vereinbarungen

Bei der Aufstellung eines Meßplans (vgl. Abschnitt 4.3.1) werden für die Simulation

alle potentiellen Meßstellen definiert. Es ist im allgemeinen aber nicht möglich, jede

dieser Meßstellen in der realen hydraulischen Anlage tatsächlich zu berücksichtigen,

denn häufig existieren Restriktionen bezüglich der Meßgeräteanzahl oder der Meß-

kosten. Die Auswahl der optimalen Meßstellen kann daher bereits die Konstruktion

der zu diagnostizierenden Anlage beeinflussen und legt das Meßwertprotokollfür den

Störungsfall fest.

Die eigentliche Meßphase ist die einzige Phase, die das Diagnosesystem nicht algo-

rithmisch abbilden kann, denn das Meßwertprotokoll muß durch reale Messungen

erhoben werden. Hierdurch werden Meßkosten verursacht, die je nach Art der Meß-

größe und Position der Meßstelle sehr unterschiedlich sein können7. Im weiteren

wird davon ausgegangen, daß zwei Kategorien von Meßstellen vorhanden sind:

7 Die Meßkosten entstehen in der Regel durch finanziellen und zeitlichen Aufwand (z.B. Kosten für

Anschaffung des Meßgeräts, Zeit für Montage und Ablesen etc.).

90 ..

..4.6 MESSSTELLENAUSWAHL

1. Meßstellen, die keine oder vernachlässigbare Meßkosten verursachen.

Hierzu zählen die Meßstellen zur Bestimmung der Zylinderkräfte F(Bela-

stungsstufen), Kolbenpositionen sund Drehzahlen n. Sie definieren die Menge

der fest ausgewählten Meßgeräte Mfix, weil ihre Meßergebnisse ohne Aufwand

zur Verfügung stehen.

2. Meßstellen, die Meßkosten über einem anwendungsabhängigen Schwellenwert

verursachen.

Hierbei handelt es sich i.d.R. um Meßstellen zur Bestimmung von Drücken

pund Flüssen qV. Die entsprechenden Meßgeräte definieren die Menge der

optionalen Meßgeräte Mopt, und sie unterliegen der Meßstellenauswahl.

Ferner soll vereinfachend angenommen werden, daß die Anzahl der auszuwählenden

Meßstellen durch einen benutzerdefinierten Wert v



Mopt



ohne Differenzierung

nach physikalischen Größen beschränkt ist und daß die Meßkosten an allen Meßstel-

len m



Mopt gleich groß sind. Somit ist für die Auswahl der besten v-elementigen

Teilmenge von Mopt nur ihre Diagnoseleistung zu bewerten.

Der Aufwand zur Meßstellenauswahl kann deutlich reduziert werden, wenn als Pre-

processing eine paarweise Abhängigkeitsanalyse durchgeführt wird. Von zwei als ge-

genseitig abhängig erkannten Meßstellen ist eine redundant, weil sie keine neue Dis-

kriminierungsleistung erbringt. Sie kann ohne Informationsverlust von der weiteren

Analyse ausgeschlossen werden, so daß sich die Anzahl der verbliebenen optionalen

Meßstellen verringert. Im folgenden Abschnitt werden daher zunächst verschiedene

Verfahren zur Abhängigkeitsanalyse diskutiert. Da jederzeit klar ist, daß sich alle

Ausführungen auf die Menge der optionalen Meßstellen Mopt beziehen, wird diese

auch einfach mit Mbezeichnet.

4.6.2 Abhängigkeitsanalyse

Vorbemerkungen

Angenommen, die Fehler in einer hydraulischenAnlage wirken sichauf zwei Meßge-

räte immer gleichartig aus (das heißt, sie verursachen immer miteinander korrespon-

dierende Symptome, wie es zum Beispiel bei direkt benachbarten Meßgeräten der

Fall sein kann); dann enthalten beide Meßstellen gemeinsam nicht mehr Diskrimi-

nierungsinformation als eine alleine. Als Konsequenz gilt, daß bei Berücksichtigung

beider Meßstellen zwar die Meßkosten höher sind, der Nutzen aber nicht zunehmen

kann. Sind dagegen gleichartige Symptomkorrespondenzen nicht oder nur teilweise

..

91

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

beobachtbar, kann ein positiver Nutzen entstehen, wie man am folgenden Beispiel

erkennt.

Beispiel 4.7: Es seien die an den Meßgeräten m1,m2und m3erkennbaren Symptome

und Fehler fgemäß der Intervallvektoren in der linken Tabelle gegeben, wobei die

Symptome von m1und m2eine gleiche Verteilung aufweisen und die Symptome von

m3eine hierzu unterschiedliche:

m1m2m3f

i1i3i5A

i1i3i6B

i2i4i6C

i2i4i6D





Meßgerät(e) Eindeutige Fehler



m1



-



m2



-



m3

 

A





m1



m2



-



m1



m3

 

A



,



B





m2



m3

 

A



,



B



Dann können mit der Meßgerätekombination



m1



m2



nicht mehr Fehler als mit

nur einem Meßgerät eindeutig erkannt werden, wohl aber mit den Kombinationen



m1



m3



und



m2



m3



(siehe rechte Tabelle).

¾

Zur Quantifizierung der Symptomverteilungen können die aus der statistischen

Zusammenhangs- bzw. Abhängigkeitsanalyse bekannten Zusammenhangsmaße ver-

wandt werden (siehe z.B. [Har89], [BB89], [Pol97]). In diesem Abschnitt wird die

bivariate Datenanalyse zur Bewertung der gegenseitigen Abhängigkeit zweier Meß-

geräte besprochen. Für die gleichzeitige Untersuchung von mehr als zwei Meßstellen

ist eine multivariate Datenanalyse notwendig. Die Testergebnisse zeigen jedoch, daß

für das Diagnosesystem eine bivariate Analyse ausreicht, weil mit der eigentlichen

Regelerzeugung ein multivariates Verfahren nachgelagert ist.

Die bekannten Ansätze der bivariaten Abhängigkeitsanalyse unterscheiden sich so-

wohl in ihrer Komplexität als auch in ihren Voraussetzungen und Modellen. Im fol-

genden werden in Anlehnung an Hartung ([Har89]) mit dem χ2- und dem λ-Maß

zwei bekannte, aber im Hinblick auf das Diagnoseproblem etwas veränderte statisti-

sche Maße zur Quantifizierung der Unabhängigkeit zweier Meßstellen beschrieben.

Bezeichnungen

Beide Maße basieren auf der Auswertung einer sogenannten Kreuztabelle, in der die

beobachtete Häufigkeit aller möglichen Symptomkombinationenfür zwei Meßgeräte

m1und m2



Mnotiert wird. Bezeichnet h



i



j



die gemeinsame absolute Häufigkeit

92 ..

..4.6 MESSSTELLENAUSWAHL

der Symptome i



Im1und j



Im2in der Datenbasis Dn, dann ist der Aufbau einer

Kreuztabelle wie in Abbildung 4.10 angegeben.

Im2

j1



j



Im2



∑

i1h



i1



j1





h



i1





Im2





h



i1





Im1

.

..

.

.....

.

..

.

i



Im1



h





Im1





j1





h





Im1







Im2





h





Im1







∑h





j1





h







Im2





h







n

Abbildung 4.10: Kreuztabelle für die Häufigkeiten der Symptomkombinationen

zweier Meßgeräte m1und m2

Als Abkürzung werden die als Zeilen- bzw. Spaltensummen definierten Randhäufig-

keiten benutzt. Die Summe der Zeilenrandhäufigkeiten wie auch der Spaltenrandhäu-

figkeiten ergibt wieder die Anzahl der Datensätze n.

In der Statistikliteratur ist die gemeinsame absolute Häufigkeit einer Merkmalskom-

bination h



i



j



in Dnüblicherweise datensatzbezogen definiert; es gilt also

h



i



j





d



Dn



i



d



j



d





Dahinter steht die Vorstellung, daß Merkmalsausprägungen, die häufiger gemeinsam

beobachtet werden, für eine höhereAbhängigkeitder Merkmale sprechen. Im Zusam-

menhang mit der Diagnoseproblematik sind für die Beurteilung zweier Meßgeräte je-

doch nicht die Symptomkombinationen entscheidend, die durch den gleichen Fehler

verursacht wurden; aussagekräftiger ist, wie häufig gleiche Symptomkombinationen

mit unterschiedlichen Fehlern korrespondieren. Eine Überlegung der Grenzfälle soll

dies verdeutlichen: Angenommen, es liegenzwei verschiedeneSymptomkombinatio-

nen



a



b



und



x



y



mit den folgenden Eigenschaften vor:

1.



a



b



hat die Häufigkeit h



a



b



10 und korrespondiert in allen Fällen mit dem

selben Fehler f.

2.



x



y



hat ebenfalls die Häufigkeit h



x



y



10, korrespondiert aber mit 10 ver-

schiedenen Fehlern.

..

93

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

Dies deutet im ersten Fall nur darauf hin, daß der Fehler fdie Symptome aund b

gleichzeitig verursacht, was auf dieselben physikalischen Zusammenhänge zurück-

zuführen ist. Dagegen ist im zweiten Fall die Wahrscheinlichkeit für abhängige Meß-

geräte viel größer, weil sie sogar bei zehn verschiedenen Fehlern, also zehn verschie-

denen physikalischen Zusammenhängen, die gleiche Wirkung anzeigen. Die bisheri-

ge Häufigkeitsberechnung h



i



j



kann die beiden genannten Situationen jedoch nicht

voneinander unterscheiden.

Einen Ausweg bietet eine neue Häufigkeitsfunktion, die das Auftreten von Symptom-

kombinationen in Korrespondenz zur gleichen Fehlerart nur einmal zählt. Auf die-

se Weise werden Effekte eliminiert, die allein aufgrund der gleichen physikalischen

Zusammenhänge zu häufigen Symptomkombinationen führen. Die im folgenden be-

schriebenen statistischen Verfahren zur Abhängigkeitsanalyse sind deshalb um die

neue Berechnung der gemeinsamen Häufigkeiten modifiziert worden:

h



i



j



:



∑

f



F

ci



j



f



mit ci



j



f





1



falls



d



Dn:i



d



j



d



f



d

0 sonst



Anmerkung: Eine »echte« statistische Unabhängigkeit wird auch nach der neuen

Häufigkeitsberechnung erkannt, weil ungleiche Symptomkombinationen zwangsläu-

fig auch über mehrere Fehlerarten verteilt sind. Die neue Berechnung verringert aber

die Gefahr, daß eine hohe statistische Abhängigkeit zum Ausschluß einer Meßstel-

le führt, obwohl sie einen Informationsgewinn zur Diskriminierung eines Teils der

Diagnosen beitragen könnte.

χ2-Kontingenzmaß nach Pearson / Cramer

Innerhalb der statistischen Korrelationsrechnung sind verschiedene Maße zur Quan-

tifizierung von Abhängigkeiten und Zusammenhängen (Interdependenzen) zweier

Merkmale bekannt. Mit den hier eingesetzten Verfahren können Vergleiche zwischen

den Korrelationen verschiedener Merkmalskombinationen durchgeführt werden.

Üblicherweise wird eine Einteilung der Zusammenhangsanalyseverfahren abhängig

von der Skalierung der beiden Merkmale vorgenommen:



Für nur kardinale Skalierungen: Bravais-Pearson-Korrelationskoeffizient,



für zumindest ordinale Skalierungen: Rangkorrelationskoeffizient von Spear-

man und



für alle anderen Skalierungskombinationen: Pearsonscher Kontingenzkoeffizi-

ent.

94 ..

..4.6 MESSSTELLENAUSWAHL

Besitzen die beiden Merkmale unterschiedliche Skalierungsarten, so muß das höhere

Skalenniveau abgewertet werden, d.h., das niedrigere bestimmt das anzuwendende

Verfahren. Bei dem betrachteten Diagnoseproblem bestehen die Ausprägungen ne-

ben ordinalen Intervallen auch aus nominalen Symbolen für vektorielle Meßgrößen

(vgl. Abschnitt 4.4), daher wird im weiteren nur der Kontingenzkoeffizient nach Pear-

son beschrieben.

Der Kontingenzkoeffizient basiert auf dem sogenannten χ2-Maß, das für zwei Meß-

geräte m1und m2



Mden Unterschied zwischen der tatsächlichen Häufigkeitsver-

teilung und einer hypothetischen Verteilung bei angenommener Unabhängigkeit er-

mittelt. Dazu werden die relativen quadratischen Abweichungen zwischen den in der

Datenbasis Dnbeobachteten gemeinsamen absoluten Häufigkeiten h



i



j



und den un-

ter der Annahme der Unabhängigkeit berechneten gemeinsamen Häufigkeiten



h



i



j



für alle Intervallkombinationen aus i



Im1und j



Im2aufsummiert. Definition 4.4

zeigt die Berechnung in Anlehnung an [Har89].

Definition 4.4 (Quadratische Kontingenz χ2): Es seien m1und m2



Mzwei Meß-

geräte mit den zugehörigen Intervallmengen Im1und Im2, deren kombinierte Häufig-

keitsverteilung hgemäß Abbildung 4.10 vorliegt. Weiter sei ndie Anzahl der Sym-

ptomvektorenin der DatenbasisDn. Dann ist die quadratischeKontingenzχ2



m1



m2



definiert als

χ2



m1



m2



∑

i



Im1

∑

j



Im2



h



i



j







h



i



j





2



h



i



j



mit



h



i



j



h



i







h





j



n



¾

Gilt χ2



m1



m2



0, dann weichen die berechneten gemeinsamen Häufigkeiten nicht

von den beobachteten ab, und das Meßgerät m1ist statistisch unabhängig von m2.

Der Maximalwert für die quadratische Kontingenz tritt bei vollständiger Abhängig-

keit auf und beträgt n; er ist also abhängig von der Größe der Datenbasis. Um für alle

χ2



mi



mj



einen einheitlichen Wertebereich zu erhalten, sind in der Literatur mehre-

re Normierungsansätze bekannt. Die beiden in Definition 4.5 vorgestellten Ansätze

normieren den ermittelten χ2-Wert jeweils auf das Intervall



0



1



; sie sind [Har89]

entnommen.

Definition 4.5 (Kontingenzkoeffizient K



, Cramers V2): Es seien m1und m2



M

zwei Meßgeräte, χ2ihre quadratische Kontingenz nach Definition 4.4. Dann sind der

(korrigierte) Pearsonsche Kontingenzkoeffizient K





m1



m2



und Cramers Assoziati-

onsmaßV2



m1



m2



definiert als

K





m1



m2





χ2



m1



m2



n



χ2



m1



m2





k



1

k

und V2



m1



m2





χ2



m1



m2



n





k



1





..

95

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

wobei k:



min



Im1







Im2



gilt.

¾

Mit einem normierten χ2-Maß kann die Abhängigkeitsanalyse für eine Meßstellen-

menge Mmit dem Aufwand von O





M



2



durchgeführt werden. Dazu erfolgt die pha-

senweise Bewertung von je zwei Meßstellen. Ein Ergebnis nahe bei 1 zeigt für die

betrachtete Phase eine starke Abhängigkeit der beteiligten Meßgeräte an. Tritt dieses

Ergebnis in allen Phasen auf, so kann eine der beiden Meßstellen entfernt werden und

muß bei der weiteren Analyse nicht mehr berücksichtigt werden. Der Schwellenwert,

ab dem zwei Meßstellen als abhängig zu betrachten sind, hängt vom Problembereich

ab. Dies führt zu der folgenden Definition der Abhängigkeit zweier Meßstellen.

Definition 4.6 (Symmetrische Abhängigkeit zweier Meßstellen): Es seien αK

bzw. αV



0



1



geeignete Schwellenwerte und Pdie Menge der Phasen der betrachte-

ten Anlage. Dann heißen zwei Meßstellen m1und m2



M voneinander symmetrisch

abhängig, wenn gilt:

min

p



P



K





m1



m2





αKbzw



min

p



P



V2



m1



m2





αV



¾

An der Definition der χ2-basierten Maße ist erkennbar, daß diese symmetrisch sind,

d.h., es ist keine Aussage darüber möglich, ob die Abhängigkeiten einseitig sind.

Daher ist es schwierig, bei erkannter Abhängigkeit zu entscheiden, welches Meßgerät

entfernt werden soll. Auch die Definitionslücken bei k



1 verhindern eine sinnvolle

Entscheidung, die dennoch möglich wäre, wie Beispiel 4.8 zeigt.

Beispiel 4.8: Es seien die an den Meßgeräten m1und m2



Mbeobachteten Sym-

ptome wie folgt verteilt:

m1m2

i1i2

i1i3

i1i4

Dann ist wegen k



min



Im1







Im2





1 kein Kontingenzkoeffizient nach Definiti-

on 4.5 berechenbar. Offensichtlich ist jedoch m1vollständig abhängig von m2, aber

m2vollständig unabhängig von m1. Es sollte also m1entfernt werden, da die Diskri-

minierungsleistung von m2größer ist.

¾

Eine Situation wie in Beispiel 4.8 ist in der Praxis durchaus häufiger möglich, weil die

Symptomstatistiken nach Phasen getrennt auswertet werden. Besonders in zeitlich

frühen sowie späten Anlagenphasen können manche Meßgeräte keine Symptomin-

formationen liefern, so daß undefinierte Abhängigkeitswerte die Meßstellenauswahl

96 ..

..4.6 MESSSTELLENAUSWAHL

erschweren. Diese Überlegungen zeigen, daß ein symmetrisches Abhängigkeitsmaß

für die in dieser Arbeit betrachtete Diagnoseaufgabe nicht geeignet ist; daher werden

im weiteren die asymmetrischen λ-Maße besprochen.

Proportionale Fehlerreduktion (λ-Maße)

Mit einem weiteren statistischen Verfahren läßt sich ein Abhängigkeitsmaß für

Meßstellen gewinnen, nämlich mit dem Modell der proportionalen Fehlerreduktion

(engl. proportional reduction of errors, PRE), zu denen die sogenannten λ-Maße

gehören ([GK54]). Hierbei wird versucht, die Intervalle eines Meßgeräts vorherzusa-

gen, einmal ohne und einmal mit Ausnutzung der Kenntnis, wie die Intervallvertei-

lung eines weiteren Meßgeräts ist. Der Anteil der Fehlvorhersagen nimmt dabei um

so stärker ab, je mehr Information das zusätzliche Meßgerät liefern kann, oder anders

ausgedrückt, je unabhängiger das erste vom zweiten ist.

Die relativeReduzierung des Vorhersagefehlers für dieIntervalleeines Meßgeräts, die

abhängig von der Intervallverteilung eines weiteren Meßgeräts erzielt werden kann,

wird mit den λ-Maßen quantifiziert. Bezogen auf zwei Meßgeräte m1



Mund m2



M



m1



sind sie asymmetrisch, da die Richtung der Abhängigkeit von der Wahl des

vorherzusagenden Meßgeräts abhängt. Im folgendengibtDefinition 4.7 inAnlehnung

an [EMT95] die Notation und Interpretation der Abhängigkeitsmaße an.

Definition 4.7 (Abhängigkeitsmaße λm1und λm2): Es seien m1und m2



Mzwei

Meßstellen. Weiter seien e



m1



die Anzahl der Vorhersagefehler für m1ohne Berück-

sichtigung von m2und e



m1



m2



die Anzahl der Vorhersagefehler für m1mit Berück-

sichtigung von m2. Dann sind die asymmetrischen Abhängigkeitsmaße λm1



m2



und

λm2



m1



definiert als relative Fehlerreduzierungen mit

λm1



m2



e



m1





e



m1



m2



e



m1



zur Beschreibung der Abhängigkeit m1von m2(m1



m2) bzw.

λm2



m1



e



m2





e



m2



m1



e



m2



zur Beschreibung der Abhängigkeit m2von m1(m1



m2).

¾

Durch die in Anhang A.1 gezeigte Herleitung gelangt man zu der folgenden Berech-

nung von λm1



m2



:8

λm1



m2



∑j



Im2maxi



Im1



h



i



j





maxi



Im1



h



i





n



maxi



Im1



h



i







8 Auf analoge Weise läßt sich die umgekehrte Abhängigkeit λm2



m1



herleiten.

..

97

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

Die λ-Maße sind auf den Wertebereich



0



1



normiert; der Wert 0 bedeutet, daß kei-

ne Fehlerreduktion und damit keine Abhängigkeit vorliegt, der Wert 1 weist auf eine

vollständige Abhängigkeit hin. Für den Fall, daß das abhängige Meßgerät m1ge-

nau ein Intervall liefert (vgl. auch Beispiel 4.8), existiert eine Definitionslücke für

λm1



m2



. Sofern das andere Meßgerät mehr als ein Intervall liefert (



Im2





1), ist das

λ-Maß für die entgegengesetzte Abhängigkeitsrichtung, also λm2



m1



, definiert.

Auch mit den λ-Maßen kann die Abhängigkeitsanalyse für eine Meßstellenmenge M

mit dem Aufwand von O





M



2



durchgeführt werden. Dazu wird phasenweise eine



M



M



-Tabelle mit allen Meßstellenkombinationen erzeugt, in der jede Zelle mi



j

einen Eintrag mit λmj



mi



, also die Abhängigkeit mjvon mienthält (siehe Abbil-

dung 4.11). Auf der Diagonale gilt trivialerweise λmi



mi



1, weil jedes Meßgerät

von sich selbst abhängig ist. Ein Wert λmj



mi



mit i





j, der in allen Phasen nahe bei

1 ist, läßt sich als Abhängigkeit mi



mjinterpretieren, und die Meßstelle mjkann

entfernt werden.

m1m2



m



M



m11λm2



m1





λm



M



m1



m2λm1



m2



1λm



M



m2



.

..

.

.....

.

m



M



λm1



m



M







1

Abbildung 4.11: Abhängigkeitstabelle für Meßstellenpaare

Abschließend kann also mit einem anwendungsabhängigen Schwellenwert die asym-

metrische Abhängigkeit zweier Meßstellen wie folgt definiert werden.

Definition 4.8 (Asymmetrische Abhängigkeit zweier Meßstellen): Es sei α



0



1



ein geeigneter Schwellenwert und Pdie Menge der Phasen der betrachteten Anlage.

Dann heißt eine Meßstelle m1



M abhängig von einer Meßstelle m2



M, wenn gilt:

min

p



P



λm1



m2





α



¾

4.6.3 Bewertungsfunktionen für die Meßstellenauswahl

In diesem Abschnitt werden ein bekannter und zwei neue Ansätze zur optimierten

Auswahl von v



M



Meßstellen beschrieben. Die Betrachtung der Ansätze zeigt,

98 ..

..4.6 MESSSTELLENAUSWAHL

daß ein Konflikt zwischen dem Berechnungsaufwand und der erzielbaren Diagnose-

güte besteht. Während der erste Ansatz in Anlehnung an [FdK93] jede Meßstelle

einzeln bewertet und dafür eine suboptimale Auswahl zuläßt, werden beim zweiten

Ansatz zwar im ungünstigsten Fall alle ∑v

v





1





M



v





Meßstellenkombinationen unter-

sucht, aber die beste Auswahl wird gefunden. Auch der dritte Ansatz ist ein voll-

ständiges Verfahren und ermittelt informationstheoretisch den mit vMeßstellen zu

erwartenden Diskriminierungsaufwand.

Jeder der drei Bewertungsansätze greift auf eine Funktion zurück, die zu einem ein-

zelnen Symptom oder zu einem Symptomvektor die korrespondierende Diagnosen-

menge liefert. Diese Funktion wird im folgenden mit Diagnosefunktion bezeichnet

und in Definition 4.9 eingeführt.

Definition 4.9 (Diagnosefunktion): Es sei M





m1



mc



die Menge der Meß-

geräte mit den zugehörigen Intervallmengen I1



Ic. Weiter seien a1



as





1



c



Meßgeräteindizes für einen Intervallvektor und Fdie Menge der Fehler.

Dann wird eine Funktion

δ:Ia1

  

Ias



P



F





die einen s-stelligen Symptomvektor auf ihre korrespondierende Fehlermenge abbil-

det, Diagnosefunktion genannt.

Es gelte für den Sonderfall der »leeren« Beobachtung (s



0): δ







F.

¾

Anmerkung: Die Realisation der Diagnosefunktion ist recht einfach möglich. Aus-

gedrückt durch die Operationen Selektion σund Projektion Πder Relationenalgebra

(vgl. z.B. [KE97]) kann die zu einem Intervall- bzw. Symptomvektor



skorrespon-

dierende Fehlermenge aus einer Datenbasis Dndurch

δ





s



Πf



σ



s



Dn



ermittelt werden, wobei fdas Fehlerattribut ist.

Bewertung einzelner Meßstellen

Die Bewertung einzelner Meßstellen basiert auf einem Vorschlag von Forbus und de

Kleer in [FdK93]. Hierbei gehen sie davon aus, daß während des Fehlerdiagnosepro-

zesses sukzessive Messungen zur Erhebung von Symptomen durchgeführt werden.

Dies geschieht solange, bis eine eindeutige Diagnose möglich ist. Jede zusätzliche

Messung liefert einen Informationsgewinn, der zu einer weiteren Einschränkung der

verbliebenen Fehlermenge führen kann. Damit bei einer eingeschränkten Meßge-

räteanzahl die Berechnung der optimalen Teilmenge nicht zu aufwendig wird, ver-

wenden Forbus und de Kleer ein Greedy-Verfahren, das lokal die beste zusätzliche

Meßstelle bestimmt, ohne die bisherige Auswahl zu revidieren.

..

99

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

Statt jeder Meßstelle m



Mden erwarteten Informationsgewinnzuzuordnen, wird als

Vorschau der erwartete restliche Diskriminierungsaufwand für die verbliebene Feh-

lermenge mit einer Bewertungsfunktion

f:M



IR

bestimmt. Zur Identifizierung der lokal besten Meßstelle wird dann das minimale

Ergebnis der Funktion fherangezogen. Es folgt eine Erläuterung dieser Funktion so-

wie der Anpassungen, die im Hinblick auf die Diagnoseproblematik in dieser Arbeit

notwendig sind.

Seien Imdie Menge der Intervalle einer Meßstelle m



Mund δeine Diagnosefunk-

tion nach Definition 4.9. Angenommen, es wird das Symptom s



Imbeobachtet,

dann enthält δ



i



die Menge der hiermit korrespondierenden Fehler. Es besteht kein

weiterer Diskriminierungsbedarf, wenn δ



s



genau einen Fehler enthält. Für den Fall,

daß mehrere Fehler möglich sind (



δ



s







1), muß zur Unterscheidung dieser Feh-

ler mindestens eine weitere Meßstelle zur Messung herangezogen werden. Forbus

und de Kleer bewerten die Kosten cdes verbleibenden Diskriminierungsaufwands

mit der Anzahl der zu erwartenden Folgemessungen. Diese Anzahl läßt sich infor-

mationstheoretisch mit logk



δ



s





ermitteln, wobei k



IN die durchschnittliche Inter-

vallanzahl der restlichen Meßgeräte in M



m



ist (Zur Herleitung siehe Anhang A.2,

insbesondere Definition A.1).

Zu dem erwarteten Restdiskriminierungsaufwand f



m



einer Meßstelle m



Mführt

dann die Summe der mit den Symptomwahrscheinlichkeiten P



s



gewichteten Dis-

kriminierungskosten c





δ



s







:

f



m



∑

s



Im

P



s





c





δ



s









In [FdK93] wird die Wahrscheinlichkeit P



s



über die relative Häufigkeit der verblie-

benen Fehlermenge berechnet, weil in der dort beschriebenen Diagnoseproblemstel-

lung jeder Fehler eine eindeutige Wirkung besitzt. Im Gegensatz dazu kann in der

vorliegenden Arbeit ein Fehler unterschiedliche Symptomvektoren bewirken (zum

Beispiel aufgrund unterschiedlicher Belastungsstufen), so daß für P



s



die relative

Häufigkeit des Symptoms sheranzuziehen ist (P



s





d



Dn



s



d



nfür nDatensätze).

Zusammenfassung: Nach dem Ansatz der Einzelbewertung werden die vdurch

fniedrigst bewerteten Meßstellen aus Mausgewählt, d.h., es wird eine Teilmenge

M





Mmit



M







vgesucht, für die gilt:

max

m



M





f



m





min

m



M



M





f



m





100 ..

..4.6 MESSSTELLENAUSWAHL

wobei

f



m



∑

s



Im



d



Dn



s



d



n



logk



δ



s







Bewertung von Meßstellenkombinationen

Wird statt der Bewertung einzelner Meßstellen die kombinierte Bewertung von maxi-

mal vMeßstellen vorgenommen, steigt zwar der Berechnungsaufwand beträchtlich,

aber die Gefahr, nur ein lokales Optimum zu finden, entfällt. Im folgenden wird da-

her ein neuer Ansatz entwickelt, der eine vollständige Exploration des Suchraums für

maximal v-elementige Meßstellenmengen vornimmt und das Minimum der Bewer-

tungen über alle Meßstellenkombinationen sucht.

Zur Meßstellenbewertung gemäß des neuen Ansatzes werden drei Alternativen auf-

geführt, die alle einer v-elementigen Meßstellenmenge M



v







ma1



mav



einen

vergleichbaren Kostenwert durch eine Funktion f1,f2bzw. f3mit

f1



2



3:P



M





IR

zuweisen. Die Alternativen unterscheiden sich in der Bewertung des nach Auswahl

einer Meßstellenkombination verbliebenen Diskriminierungsaufwands.

1. Alternative: Die einfachste Möglichkeit stellt eine kanonische Erweiterung der

Bewertung einzelner Meßstellen (siehe vorheriger Abschnitt) dar. Es gilt dann für die

Bewertungsfunktion f1:

f1



M



v





∑



s



Ia1



Iav

P





s





logk



δ





s







wobei δeine Diagnosefunktionnach Definition 4.9 ist und die Wahrscheinlichkeit für

die Beobachtung eines Symptomvektors



smit

P





s





d



Dn





s



d



n

berechnet wird.

Die Bewertung der Kosten durch eine Abschätzung des verbleibenden Diskriminie-

rungsaufwands mit der erwarteten Anzahl der Folgemessungen hat den Nachteil, daß

nur die mit einem Symptomvektor korrespondierenden möglichen Fehlerarten be-

rücksichtigt werden, aber nicht ihre Häufigkeitsverteilung. Der tatsächliche Infor-

mationsgewinn, der durch die Beobachtung eines Symptomvektors entsteht, hängt

..

101

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

jedoch auch von der Verteilung der vorhersagbaren Fehler ab: Bei einer Gleichvertei-

lung ist der Informationsgewinn minimal, weil der resultierende Informationsgehalt

maximal ist (vgl. Satz A.1 im Anhang). Diese Überlegung führt zur zweiten Alterna-

tive.

2. Alternative: Wird der Shannonsche Informationsgehalt der Fehlermenge zur Ab-

schätzung des verbleibenden Diskriminierungsaufwands herangezogen, ergibt sich

die folgende Bewertungsfunktion f2:

f2



M



v





∑



s



Ia1



Iav





P





s





∑

f



δ





s



P



f





s





log 1

P



f





s











wobei P





s



wie oben definiert ist und P



f





s



die bedingte Wahrscheinlichkeit für

das Vorliegendes Fehlers fbezeichnet, wenn der Symptomvektor



sbeobachtet wur-

de:

P



f





s





d



Dn





s



d



f



d





d



Dn





s



d





3. Alternative: Eine weitere Möglichkeit zur Kostenbewertung von δ





s



ist die

Abschätzung des erwarteten Diagnosefehlers. Der beste Schätzer zur Erzielung des

minimalen Diagnosefehlers ist der Modalwert der Fehlermenge, da diese Diagnose

am häufigsten korrekt ist. Die Wahrscheinlichkeit für eine falsche Fehlervorhersage

beträgt dann 1



maxf



δ





s





P



f





s



. Damit ergibt sich für die dritte Bewertungs-

funktion f3:

f3



M



v





∑



s



Ia1



Iav



P





s







1



max

f



δ





s





P



f





s







Das folgende Beispiel vergleicht die drei alternativen Kostenbewertungen.

Beispiel 4.9: Es sei die folgende Datenbasis Dnmit sechs Symptomvektoren



s1





s6, die an drei unabhängigen Meßstellen m1,m2und m3beobachtet wurden,

sowie den Fehlerzuordnungen faus der Fehlermenge F





A



B



C



gegeben:

m1m2m3f



s1i1i2i1A



s2i1i2i3A



s3i2i1i2B



s4i2i2i2A



s5i2i1i1B



s6i3i2i3C

102 ..

..4.6 MESSSTELLENAUSWAHL

Dann kann der vollständige Suchraum zur Meßstellenauswahl wie in Abbildung 4.12

als Baumstruktur dargestellt werden. Die Kanten sind mit je einer ausgewählten Meß-

stelle markiert. In jedem Knoten der Tiefe tsteht die Diagnosemenge F



δ



M



t





, die

nach Auswertung der in diesem Pfad ausgewählten Meßstellen M



t



noch zu diskri-

minieren ist: In der Wurzel ist dies die Gesamtfehlermenge F, in den inneren Knoten

eine nichtleere Teilmenge von Fund in den Blättern die leere Menge.

Abhängig von der eingesetzten Bewertungsalternative wird jedem Knoten bis zur

Tiefe v, der maximalen Meßstellenanzahl, ein Wert zugewiesen. Gesucht ist dann ein

minimal bewerteter Pfad, und die Meßstellen auf diesem Pfad bilden die optimale

Auswahl. In Abbildung 4.12 ist ein solcher Pfad (mit den Meßgeräten m1und m2)

grau hinterlegt. Für den Fall v



2 liefern die Bewertungsfunktionen f1,f2und f3die

folgenden Ergebnisse:



m1

 

m2

 

m3

 

m1



m2

 

m1



m3

 

m2



m3



f10



50 0



67 1



58 0



00 0



33 0



33

f20



46 0



59 1



00 0



00 0



33 0



33

f30



17 0



17 0



50 0



00 0



17 0



17

Die Meßstellenkombination



m1



m2



diskriminiertdie Menge der Symptomvektoren

vollständig und wird mit jeder Bewertungsalternativeals Optimum identifiziert. Auch

wenn die Funktionen unterschiedliche Werte liefern, bleibt in diesem Beispiel die

Rangordnung der Meßstellenkombinationen gleich.

¾

Zusammenfassung: Von den v-stelligen Meßstellenkombinationen wird diejenige

gewählt, die je nach angewendeter Bewertungsfunktion f1,f2oder f3den niedrigsten

Wert erhält, d.h., es wird ein Meßstellenvektor M





v



gesucht, für den gilt:

f



M





v





min

M



v





f1



2



3



M



v







Bewertung des erwarteten Diskriminierungsaufwands

Stein schlägt in [Ste01] einen neuen Ansatz vor, der sich grundsätzlich von den bisher

vorgestellten Verfahren unterscheidet. Hierbei wird nicht eine einzelne Meßstellen-

menge bewertet, sondern eine Eigenschaft der Fehlermenge Fmit einer skalierbaren

Bewertungsfunktion quantifiziert. Diese Eigenschaft ist der restliche Diskriminie-

rungsaufwand, der zu erwarten ist, wenn die informationstheoretisch besten vMeß-

..

103

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

2

m3

m

{A,B} {A,B,C}

2

m3

m m1 3

m2

mm1

{} {A,B} {A,C} {A,B} {A,C}

{} {} {} {}

2

m m1 2

m m1

m1

{}

{A,C}

{A,B,C}

1. Meßgerät

2. Meßgerät

3. Meßgerät

Abbildung 4.12: Suchbaum für die Meßstellenauswahl (zu Beispiel 4.9)

geräte ausgewählt wurden (Definition 4.10). Als Voraussetzung muß gelten, daß die

möglichen Fehler aus Fgleichverteilt sind.

Definition 4.10 (Erwarteter Diskriminierungsaufwand): Es sei M





m1



mg



eine Menge von Meßgeräten mit den zugehörigenSymptommengenI1



Ig. Für ein

Symptom s



Ij(mit j



1



g



) und eine Teilmenge D



Fder Fehler sei P



s



D



die Wahrscheinlichkeit, daß das Symptom sbeobachtet wird, wenn ein Fehler aus D

vorliegt. Weiter sei δeine Diagnosefunktion nach Definition 4.9 und kdie mittlere

Intervallanzahl der Meßstellen (k



1

g



g

∑

j



1



Ij



).

Dann ist der erwartete Diskriminierungsaufwand h, der zur Diskriminierung von D

nach der Auswertung von nMeßgeräten (1



n



g) noch zu leisten ist, durch

h



D



n













min

m



M



∑

s



Im

P



s



D





h



D



δ



s





n



1







falls n



0



D





1

logk



D





sonst

definiert.

¾

Von einem Algorithmus, der hmit der vollständigen Fehlermenge Fund der ma-

104 ..

..4.6 MESSSTELLENAUSWAHL

ximalen Meßstellenanzahl vaufruft, wird der Lösungsraum rekursiv bis zur Tiefe v

durchsucht und der jeweils darunter liegende Diskriminierungsaufwand anhand der

verbliebenen Fehlermenge Dmit logk



D



abgeschätzt. In jeder vorherigen Rekur-

sionsebene t



vwird eine optimale Meßstellenkombination mit v



tMeßgeräten

als Minimum über alle mit v



t



1 Meßgeräten verbliebenen Diskriminierungsauf-

wände berechnet. Am Ende sind die vbesten Meßgeräte dem minimal bewerteten

Rekursionspfad zu entnehmen und als Ergebnis der Meßstellenauswahl anzusehen.

Auch bei diesem Ansatz wird die im bezug auf ihre Diagnoseleistung beste Meßstel-

lenkombination garantiert gefunden. Dafür müssen jedoch im schlechtesten Fall alle

∑v

v





1





M



v





Kombinationen bewertet werden. Der folgende Abschnitt vergleicht die

vorgestellten Verfahren zur Meßstellenauswahl untereinander.

Diskussion der Ansätze

Abschließend soll eine kurze vergleichende Beurteilung der drei beschriebenen Be-

wertungsansätze zur Auswahl eineroptimalen v-elementigenMeßstellenteilmengeer-

folgen. Die wichtigsten Aspekte sind dabei ihre Laufzeit in Abhängigkeit von der

Meßstellenanzahl



M



, ihre Ergebnisqualität in bezug auf die Diskriminierungslei-

stung und ihr Verhalten bei redundanten, d.h. voneinander abhängigen Meßstellen.

Wie bereits zu den Verfahren angedeutet wurde, ist die einfache Meßstellenbewer-

tung zwar mit einer linearen Laufzeit am schnellsten, sie kann aber nicht die optimale

Meßstellenauswahl garantieren, weil die Einzelbewertung keine mehrwertigen Dis-

kriminierungsinformationen berücksichtigt. Die beiden anderen Verfahren sind voll-

ständig und finden das Optimum, haben jedoch eine exponentielle Laufzeit, da im

schlechtesten Fall alle Meßstellenkombinationen bewertet werden. Da die Verfahren

im Preprocessing angewandt werden, können sie für kleinere Werte von vaber prakti-

kabel sein. Dies gilt insbesondere, wenn vorher eine Abhängkeitsanalyse zur Entfer-

nung redundanter Meßstellen durchgeführt wurde, die einen quadratischen Aufwand

besitzt (vgl. Abschnitt 4.6.2).

Sind in der Menge Mvoneinander abhängige Meßstellen enthalten, so wirkt sich dies

negativ auf das Ergebnis der einfachen Meßstellenbewertung aus: Weil die einzel-

nen Diskriminierungsleistungender abhängigen Meßgeräte identisch sind, werden sie

auch gleich bewertet, so daß es zur Auswahl redundanter Meßstellen kommen kann.

Im Gegensatz dazu wird bei den beiden anderen Verfahren die gemeinsame Diskrimi-

nierungsleistung mehrerer Meßstellen bewertet; da sie durch redundante Meßgeräte

nicht erhöht werden kann, ändert sich auch das Ergebnis der Auswahl nicht.

Im prototypischen Diagnosesystem ARGUS wurde dem Argument der kürzeren Lauf-

zeit der Vorzug gegenüber der Exaktheit des Ergebnisses gegeben und das Verfahren

..

105

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

der Einfachbewertung mitvorheriger Abhängigkeitsanalyserealisiert. Es hat sich her-

ausgestellt, daß dieDiagnoseergebnisseauch dann sehrgut sind, wenn dieOptimalität

der Meßstellenauswahl nicht garantiert werden kann (vgl. Abschnitt 5.3.2).

4.7 Diagnoseregelerzeugung

Die Regelerzeugung stellt die eigentliche Data-Mining-Phase innerhalb des Diagno-

sesystems dar. Aus einer Datenbasis, die Intervallvektoren mit den Symptomen der

ausgewählten Meßstellen sowie die zugehörigen Betriebssituationen und Diagnosen

enthält, wird für jede Anlagenphase p



Peine separate Menge von Diagnoseregeln

Rperzeugt. Durch die phasengetrennte Regelerzeugung entfällt die Notwendigkeit,

daß jede Regelprämisse die Phaseninformation enthält. Im folgenden wird die Erzeu-

gung von Diagnoseregeln näher beschrieben.

Dazu werden zunächst in Abschnitt 4.7.1 einige Vereinbarungen für die Verwendung

von klassifizierenden Assoziationsregelnzur Diagnose hydraulischer Anlagen getrof-

fen. Wie bereits in Abschnitt 3.4 erläutert, ist es für die Erzeugung von Diagnosere-

geln nicht sinnvoll, allgemeine Assoziationsregelalgorithmen zu verwenden, weil bei

der Ermittlung σ-relevanter Tupelmengen sehr viele Kombinationen a priori ausge-

schlossen werden können; aus diesem Grund wurden einige Erweiterungen zur Lauf-

zeitverbesserung skizziert. In Abschnitt 4.7.2 erfolgt die Beschreibung eines Dia-

gnoseregelalgorithmus, der die früheren Überlegungen umsetzt. Abschließend wird

in Abschnitt 4.7.3 die Optimierung einer erzeugten Diagnoseregelmenge durch Aus-

wahl der »besten« Regeln diskutiert.

4.7.1 Vereinbarungen

Durch die bisherigen Vorverarbeitungsschritte Symptomerkennung, Diskretisierung

und Meßstellenauswahl ist auf der Grundlage des simulierten Phasenprotokollm-

odells für jede Anlagenphase eine kategoriale Datenbasis Dnerzeugt worden. Jeder

Datensatz d



Dnbeschreibt die Auswirkungen eines Fehlers in einer bestimmten

Betriebssituation der Anlage. Befinden sich im Schaltkreis cZylinder, hHydromo-

toren, uausgewählte Druckmeßstellen und vausgewählte Flußmeßstellen, ist ein

Datensatz mit den Bezeichnern aus Abschnitt 4.3 üblicherweise wie folgt aufgebaut:

d





F1

 

Fc,s1

 

sc



v1

 

vc



n1

 

nh



p1

 

pu



q1



qv,f



vf



 !   !   !

Betriebssituation Symptome Diagnose

106 ..

..4.7 DIAGNOSEREGELERZEUGUNG

wobei jedes Element der Betriebssituation und jedes Symptom ein Intervall repräsen-

tiert.

Eine Regel, die in ihrer Prämisse keine Ausdrücke über Betriebssituationen, sondern

nur über Symptome enthält, ist unabhängig von einer speziellen Situation anwendbar.

Diese Information spielt jedoch zum Zeitpunkt der Regelerzeugung keine Rolle, so

daß zur Vereinfachung nicht mehr explizit zwischen Betriebssituationenund Sympto-

men unterschieden wird und beide Teile in den Regelprämissen gleichberechtigt sind.

Des weiteren kann die Fehlerart fals »Intervall« für alle Variationen vfaufgefaßt

werden, so daß nur f, nicht aber die Variation vfals Diagnose zu berücksichtigen

ist. Insgesamt wird also vereinheitlichend davon ausgegangen, daß deinen Inter-

vallvektor für Symptome an den Meßstellen mi



Mund für eine Diagnose f



F

repräsentiert.

Die folgenden beiden Definitionen wurden bereits früher in dieser Arbeit angeführt,

müssen aber im Hinblick auf die Erzeugung von Diagnoseregeln modifiziert werden.

Zunächst wird Definition 3.3 (Seite 43) zur Bestimmung von relativen Häufigkeiten

von Tupelmengen in kategorialen Datenbasen erweitert, und anschließend wird Defi-

nition 3.6 (Seite 51) zu einem Subsumptionskriteriumfür Diagnoseregelnvereinfacht.

Definition 4.11 (RelativeHäufigkeiteiner Tupelmenge): Es sei Dneine kategoriale

Datenbasis mit n



IN Datensätzen und einer Attributmenge A





A1



Am



über

den Wertebereichen dom



Ai



. Weiter sei X







Ai1



vj1







Aip



vjp





mit vjx



dom



Aix



eine Menge von Attribut / Wert-Tupeln. Dann heißt

hn



X





d





a1



am



Dn





Ai



vj





X:ai



vj



n

relative Häufigkeit von X.

¾

Definition 4.12 (Subsumption von Diagnoseregeln): Es seien r



S



fund r



S





fzwei Diagnoseregeln für den gleichen Fehler f



F. Dann wird rdurch r



subsumiert (r





r), wenn gilt:

S



S



und c



r





c



r







¾

Der im nächsten Abschnitt entwickelte Algorithmus 4.2 greift auf die beiden Defini-

tionen zurück.

4.7.2 Algorithmus

Im Unterschied zum Basisverfahren zur Assoziationsregelerzeugung (siehe Ab-

schnitt 3.2.3) weist Algorithmus 4.2 drei wesentliche Eigenschaften auf, die im

folgenden näher erläutert werden:

..

107

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

Eingabe: Datenbasis Dnmit Intervallvektoren für Symptome an den Meßstel-

len mi



Mund für eine Diagnose aus der Fehlermenge F, Häufig-

keitsschwelle σ, Konfidenzschwelle γ

Ausgabe: Diagnoseregelmenge R



Dn



σ



γ



(1) R



/

0,s



1

(2) S

 

ma



ib



ib



Imaund hn





ma



ib







σ



(3) F1

 

F



f



f



Fund hn





F



f







σ



(4) while Fs





/

0do begin

(5) s



s



1

(6) for each t





ma1



ib1







mas



2



ibs



2







F



f



Fs



1do

begin

(7) for each



ma



ib



S



a



as



1do begin

(8) r







ma1



ib1









mas



2



ibs



2





ma



ib



f



c



s



(9) if s



r





σthen begin

(10) if c



r





γand

 

r





R:r





rthen R



R



r

(11) if c



r



1



0then Fs



Fs



t



ma



ib



(12) end

(13) end

(14) end

(15) end

(16) return R

Algorithmus 4.2: Erzeugung von σ-relevanten und γ-konfidenten Diagnoseregeln

1. Integrierte Ermittlung σ-signifikanter Tupelmengen und γ-konfidenter Regeln,

2. optimierte Erzeugung kategorialer Diagnoseregeln und

3. Vermeidung redundanter Regeln durch zusätzliche Anwendung eines Sub-

sumptionstests gemäß Definition 4.12.

In Anlehnung an das Basisverfahren geht Algorithmus 4.2 stufenweise vor, wobei in

jeder Stufe sdie Diagnoseregeln mit s



1-elementiger Prämisse erzeugt werden. Zu-

nächst werden in Zeile2 mit Salle σ-relevantenMeßstelle / Symptom-Tupelermittelt,

die später zur Erweiterung von Tupelmengen dienen. Da jede Diagnoseregel in der

Konklusion das Fehlerattribut besitzen muß, bildet die Menge F1den Ausgangspunkt

108 ..

..4.7 DIAGNOSEREGELERZEUGUNG

für potentiell zulässige Diagnoseregeln(Zeile 3). Jedes Tupel aus F1wird in der zwei-

ten Stufe um ein Symptom-Tupel aus Serweitert; das Ergebnis ist jeweils eine Regel

mit einem Prämissenelement (Zeile 8). Anschließend wird eine so erzeugte Regel auf

ihre relative Häufigkeit, Konfidenz und Subsumption getestet (Zeilen 9 bis 12), wobei

gilt:



Nicht σ-relevante Regeln bzw. Tupelmengen werden verworfen.



γ-konfidente und nicht von der bisherigen Regelmenge Rsubsumierte Regeln

werden zu Rhinzugefügt.



Regeln mit einer Konfidenz kleiner 1



0 können evtl. durch zusätzliche

Symptom-Tupel aus Seine höhere Konfidenz bekommen und stellen somit

die Erweiterungskandidaten F2für die nächste Stufe dar.

Ist F2nicht leer, werden in der folgenden Stufe die γ-konfidenten Regeln mit zwei

Prämissenelementen sowie die nächstgrößeren σ-relevanten Kandidaten in F3erzeugt

usw. Der Algorithmus stoppt, wenn aus der vorherigen Stufe kein Erweiterungskan-

didat vorhanden ist.

Die Optimierungen bestehen erstens darin, daß nur Tupelmengen erzeugt werden,

die auch das Fehlerattribut Fenthalten (Zeilen 3 und 6). Zweitens wird in Zeile 7

durch die Ausnutzung einer festen Attributreihenfolge auf einfache Weise sicherge-

stellt, daß in einer Tupelmenge kein Attribut mehrfach vorkommen kann. Als letzte

Optimierungist die Erzeugung einer Regel aus einer Tupelmenge zu nennen (Zeile8):

Hier steht die einzige sinnvolle Regelstruktur Symptom



Diagnose unmittelbar fest,

so daß keine weiteren Möglichkeiten getestet werden müssen.

Trotz der Vereinfachungen bleibt das asymptotische Laufzeitverhalten der Regeler-

zeugung gegenüber den Basisalgorithmen bestehen und kann unter der Annahme ei-

ner konstanten Meßstellenanzahl als quasi-linear in der Anzahl der Datensätze be-

zeichnet werden (vgl. Abschnitt 3.2.3).

4.7.3 Regelmengenoptimierung

In Abschnitt 3.4.2 wurde eine generelle Vorgehensweise für ein Einsatz von Asso-

ziationsregeln zur Lösung von Klassifikationsaufgaben beschrieben; sie besteht aus

der Erzeugung aller klassifizierenden Assoziationsregeln und der Bildung eines ge-

eigneten Klassifikators. Der Klassifikator ist ein Verfahren, das zur Ableitung von

Klassenvorhersagen die erzeugte Regelmenge oder eine Teilmenge hiervon auswer-

tet. Um gute Ergebnisse zu erzielen, muß eine Anpassung an den jeweiligen Pro-

blembereich erfolgen; hierzu ist eine Optimierung der Regelmenge und / oder der

..

109

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

Regelauswertung möglich. Die Regelmengenoptimierung ist eine Teilaufgabe der

Lernphase und wird daher in diesem Abschnitt behandelt. Im Gegensatz dazu findet

die optimierte Regelauswertung in der Diagnosephase statt, so daß hierauf in Ab-

schnitt 4.8 näher eingegangen wird.

Die Bestimmunggeeigneter Schwellenwerte für die relativeHäufigkeitund die Konfi-

denz der Diagnoseregeln stellt bereits ein wichtiges Mittel zur Regelmengenoptimie-

rung dar. In einigen Problembereichen können die Klassifikationsergebnisse durch

eine Auswahlder »besten« Regelnzusätzlich verbessert werden, wenn diese Teilmen-

ge die zugrundeliegenden Strukturen im Vergleich zur vollständigen Regelmenge mit

weniger Unsicherheiten beschreibt. Eine Unsicherheit besteht immer dann, wenn für

einen gegebenen Merkmalsvektor die Regelauswertung keine eindeutige Klassenzu-

ordnung liefert.

Die im folgenden skizzierte Vorgehensweise verbessert die Regelmenge im Hin-

blick auf eine naive Regelauswertung9. Sie wählt in Anlehnung an das Verfahren

»CBA-CB« (Classification Based on Associations, Classifier Building) von Liu et

al. [LHM98] zu einer festen Regelreihenfolge sukzessive diejenigen Regeln aus, mit

denen die Lerndaten am besten klassifiziert werden.

Es sei Dndie Lerndatenbasis und Rdie Menge aller klassifizierenden Assoziations-

regeln mit Mindesthäufigkeit σund Mindestkonfidenz γ. Dann kann eine optimierte

Regelmenge in drei Schritten ermittelt werden:

1. Sortiere die Regelmenge Rnach absteigender Konfidenz, innerhalb gleicher

Konfidenzen nach absteigender relativer Häufigkeit und innerhalb gleicher re-

lativer Häufigkeiten nach zunehmender Regellänge.

2. Analysiere die Regeln in der Reihenfolge aus Schritt 1: Ist die aktuell betrach-

tete Regel rifür mindestens einen Datensatz in der (Rest-)Datenbasis Dnkor-

rekt anwendbar, dann entferne alle Datensätze aus Dn, für die rianwendbar ist.

Andernfalls entferne riaus R.

3. Ermittle innerhalb der aus Schritt 2 verbliebenen Regelmenge R





r1



rc



diejenige Regel ri, für die der Klassifikationsfehler bei naiver Auswertung der

Regeln r1bis riminimal ist und entferne die Regeln ri



1bis rcaus R. Liefere

die Restmenge Rals Ergebnis zurück.

Das Verfahren stellt durch die Sortierung der Regeln in Schritt 1 sicher, daß immer die

höchstkonfidenten Regeln zur Anwendung kommen. Darüber hinaus werden Regeln

9 Mit einer »naiven Regelauswertung« soll ein Verfahren bezeichnet werden, das zu einem gegebe-

nen Attributwertevektor in einer geordneten Regelliste die erste anwendbare Regel identifiziert und

dessen Konklusion als Klassenvorhersage nutzt.

110 ..

..4.8 HYPOTHESENGENERIERUNG

entfernt, die auf der Lernmenge keine zusätzliche Klassifikationsleistung bringen:

In Schritt 2 werden diejenigen eliminiert, die nicht anwendbar waren, in Schritt 3

diejenigen, die den Klassifikationsfehler wieder ansteigen ließen. Insgesamt wird

also ein Klassifikator erzeugt, der für die definierte Regelreihenfolge eine maximale

Klassifikationsgüte liefert; es handelt sich jedoch nur um ein Näherungsverfahren,

das keine über alle möglichen Regelreihenfolgen optimale Regelauswahl garantieren

kann.

Für Problembereiche, die auf möglichst kleine Regelmengen sowie schnelle Regel-

auswertungen angewiesen sind (wie zum Beispiel einfache Klassifikationsaufgaben),

ist die Regelmengenoptimierung eine sinnvolle Maßnahme zur Verbesserung des

Klassifikators (vgl. die Untersuchung in [LHM98]). Die Diagnose hydraulischer

Anlagen erfordert jedoch eine komplexere Hypothesengenerierung, die temporale

Aspekte (zeitlich verteilte Symptome) berücksichtigen und jedem möglichen Fehler

einen Konfidenzwert zuweisen sollte, da sich heuristische Zusammenhänge häufig

nicht als eindeutige Klassifikationen darstellen lassen. Im prototypischen Diagnose-

system ARGUS wird daher die mitAlgorithmus 4.2 erzeugte Regelmenge unverändert

zur Hypothesengenerierung ausgewertet.

4.8 Hypothesengenerierung

Die Hypothesengenerierung ermittelt Hypothesen bezüglich derjenigen Komponen-

tenfehler, die das beobachtete Fehlverhalten der zu diagnostizierenden hydraulischen

Anlage erklären können. Zu einem gegebenen Symptomvektor wird durch die Aus-

wertung der anlagenspezifischen Diagnoseregeln für jede ableitbare Diagnose ein

Konfidenzwert aus dem Intervall



0



1



berechnet. Üblicherweise ist es bei Diagno-

seaufgaben in komplexen technischen Bereichen nicht möglich, genau einen sicheren

Fehler zu identifizieren. So werden statt des Idealfalls, daß genau ein Fehler die

Konfidenz 1 und alle anderen die Konfidenz 0 besitzen, mehrere Alternativen mit po-

sitivem Konfidenzwert berechnet, von denen dann eine als Diagnose zu interpretieren

ist.

Im folgenden werden die AufgabenRegelauswertung, Konfidenzberechnung und Ab-

leitung einer Diagnose behandelt. Zunächst geht Abschnitt 4.8.1 auf ein Rahmen-

konzept zur Diagnosefindung sowie einige damit verbundene Problemstellungen ein,

bevor zwei konkrete Lösungsmöglichkeiten für den wichtigsten Teilaspekt, nämlich

die Verrechnung von Regelkonfidenzen, beschrieben werden. Mit der lokalen Konfi-

denzverrechnung aus dem medizinischen Diagnosesystem MYCIN wird ein bekann-

ter Ansatz skizziert (Abschnitt 4.8.2). Dieser weist jedoch einige Nachteile auf, so

daß anschließend ein neuer Ansatz zur globalen Verrechnung entwickelt wird (Ab-

schnitt 4.8.3).

..

111

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

4.8.1 Rahmenkonzept und Problemfelder

In der Diagnosephase wirdzunächst das im Störungsfall erhobene Meßwerteprotokoll

so aufbereitet, daß es zur direkten Regelanwendung geeignet ist. Anschließend er-

folgt die Hypothesengenerierung mit der phasengetrennten Anwendung der Diagno-

seregeln sowie mit weiteren, phasenübergreifenden Konfidenzverrechnungsschritten.

Insgesamt stellt die folgende Vorgehensweise innerhalb des besprochenen Diagnose-

ansatzes ein Rahmenkonzept zur Lösung einer Diagnoseaufgabe dar:

1. Bestimme aus dem Meßwerteprotokolldie Symptomvektorenfür alle Anlagen-

phasen.

2. Verrechne innerhalb jeder Phase für jeden möglichen Fehler die Konfidenzen

der anwendbaren Diagnoseregeln.

3. Verrechne für jeden möglichen Fehler die in Schritt 2 berechneten Konfidenzen

über alle Phasen.

4. Bestimme einen Fehler als Diagnose.

Zu den einzelnen Schritten folgen weitere Erläuterungen.

Zu Schritt 1: Für die Aufbereitung des Meßwerteprotokollswerden die gleichen Ver-

arbeitungsschritte wie in der Lernphase für die Simulationsdaten durchgeführt, also

die Symptomerkennung (vgl. Abschnitt 4.4) und die Diskretisierung der Symptom-

werte (Abschnitt 4.5). Im Unterschied zur Lernphase erfolgt bei der Diskretisierung

keine Bildung neuer Intervalle, sondern nur die Zuordnung der Symptomwerte zu den

vorhandenen Intervallen, die bei der Generierung des Diagnosesystems mit Algorith-

mus 4.1 ermittelt wurden. Das Ergebnis der Vorverarbeitung ist je ein Intervallvektor

pro Anlagenphase.

Zu Schritt 2: Im ersten Verrechnungsschritt müssen alle durch die Regelkonfidenzen

repräsentierten Unsicherheiten problemangemessen verarbeitet werden. Anders als

in Abschnitt 4.7.3 (Regelmengenoptimierung) wird hierzu die reihenfolgeunabhängi-

ge Auswertung aller Diagnoseregeln, die für einen Symptomvektor anwendbar sind,

untersucht. Existiert nur eine anwendbare Regel r



Rfür einen Fehler f



F, dann

ist es sinnvoll, dem Fehler die Regelkonfidenz zuzuordnen (also c



f



:



c



r



), weil

dieser Wert ungefähr der relativen Häufigkeit von fbei Vorliegen der beobachteten

Symptome entspricht.10 Nicht eindeutig ist die Situation immer dann, wenn mehre-

re Regeln mit unterschiedlichen Konfidenzen auf denselben Fehler schließen lassen.

10 Begründung: Es sei r



s1



sp



fdie einzige anwendbare Regel für den Symptomvektor s,

die auf einen Fehler f



Fschließen läßt. Dann entspricht innerhalb der Lerndatenbasis die Re-

gelkonfidenz c



r



exakt der relativen Häufigkeit von fbei Beobachtung der Symptomteilmenge

112 ..

..4.8 HYPOTHESENGENERIERUNG

In diesen Fällen ist eine gemeinsame Verrechnung der Regelkonfidenzen notwendig,

wie Beispiel 4.10 zeigt.

Beispiel 4.10: Es seien imMeßwerteprotokolldie Meßstellen m1



m6berücksich-

tigt. Weiter sei in einer Diagnosesituationfür die Anlagenphase jder Symptomvektor

s





i2



i1



i4



i4



i3



i5



gegeben, so daß die folgenden Assoziationsregeln anwendbar

sind:

r4:m1



i2



f2



c



0



50



s



0



04

r10 :m4



i4



m6



i5



f2



c



0



50



s



0



02

r5:m5



i3



f2



c



0



40



s



0



06

r6:m6



i5



f2



c



0



40



s



0



05

"



#



$



cj



f2



r7:m2



i1



m4



i4



f6



c



0



75



s



0



04

r14 :m5



i3



f6



c



0



60



s



0



06

%



cj



f6



Dann wird eine geeignete Verrechnung der Regelkonfidenzen zur Ableitung der Feh-

lerkonfidenzen cj



f2



und cj



f6



benötigt, um eine Diagnose bestimmen zu können.

¾

Auf das Problem der phasengetrennten Kombination aller anwendbaren Regeln mit

gleicher Konklusion wird in den Abschnitten 4.8.2 und 4.8.3 näher eingegangen. Wie

in den meisten Diagnoseanwendungen sind auch im vorliegenden Problembereich

die Voraussetzungen für den Einsatz von statistischen Verfahren des probabilistischen

Schließens nicht erfüllt (vgl. [Pup91]). Daher werden in den genannten Abschnitten

zwei Verfahren vorgestellt, die zwar nicht statistisch fundiert sind, aber dennoch im

jeweiligen Einsatzgebiet die Unsicherheitsphänomene angemessen behandeln.

Zu Schritt 3: Da für einen Fehler f



Fin jeder Anlagenphase jdurch die Anwen-

dung phasenspezifischer Diagnoseregeln ein unabhängiger Konfidenzwert cj



f



be-

rechnet wird, können diese Konfidenzwerte unterschiedlich sein. Somit ist auch hier

eine geeignete Verrechnung notwendig, um eine auf die gesamte Diagnosesituation

bezogene Fehlerkonfidenz c



f



zu bestimmen. Das prototypische Diagnosesystem

ARGUS verwendet hierfür das Maximum der Fehlerkonfidenzen, da die Erfahrung

gezeigt hat, daß üblicherweise für jeden Fehler (mindestens) eine Anlagenphase exi-

stiert, in der sich dieser Fehler besonders sicher gegenüber den anderen abgrenzen



s1



sp



s,d.h.esistc



r



hn



f



s1



sp



. Weiter gilt:

hn



f



s1



sp





hn



f



s





weil nach Voraussetzung keine Regel s

¼



fmit s

¼



s



s1



sp



anwendbar ist. Die Gleichheit

gilt, falls bei der Regelerzeugung keine Regel mit Prämissenelementen aus sdie Häufigkeits- und

Konfidenzschwelle unterschritten hat.

..

113

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

läßt. Die Anlagenphasen sind untereinander ohne Prioritäten, so daß es zur Hypothe-

sengenerierung unerheblich ist, welche Phase bestimmend für die Fehlerkonfidenz

ist.

Zu Schritt 4: Da die Fehlerkonfidenzen aus den Regelkonfidenzen abgeleitet werden

(Schritt 2), gelten bei derFestlegung einer Diagnosefür den aktuellenStörungsfall die

folgenden Beziehungen: Ist die Konfidenz c



f



für einen Fehler f



Fnahe bei 1, so

deutet dies auf eine korrekte Diagnose hin; hingegen deutet ein Wert nahe bei 0 auf

eine falsche Diagnose hin. Sind die Diagnoseregeln den Problembereich repräsen-

tativ, dann ist die Wahrscheinlichkeit, daß es sich bei fum den tatsächlichen Fehler

handelt, um so kleiner, je kleiner seine Konfidenz c



f



ist. Die Diagnoseleistung wird

also dann maximiert, wenn – unter der Annahme, daß nur einzelne Fehler vorkom-

men – der höchstkonfidente Fehler f



als Schätzer für die Diagnose herangezogen

wird.11

Die Ermittlung einer Diagnose f





Faus den Einzelkonfidenzen der Fehler (Schrit-

te 3 und 4) wird in Abbildung 4.13 zusammenfassend dargestellt.

Fehler f1



Fehler fcDiagnose f



Phase 1 c1



f1





c1



fc



.

..

.

.....

.

Phase pc

p



f1





cp



fc



! !

Hypothesen c



f1



maxj



cj



f1





c



fc



maxj



cj



fc





f





Fmit

c



f





maxi



c



fi



Abbildung 4.13: Hypothesengenerierung und Ermittlung einer Diagnose f



bei c

möglichen Fehlern in pAnlagenphasen

4.8.2 Konfidenzverrechnung in MYCIN

Das medizinische Diagnosesystem MYCIN wurde in den siebziger Jahren zur re-

gelbasierten Erkennung von bakteriellen Infektionskrankheiten des Blutes und der

11 Sind Mehrfachfehler möglich, können neben der Konfidenz weitere Optimalitätseigenschaften ein-

fließen, wie zum Beispiel die Größe der Diagnosenmenge; dies wird im vorliegenden Diagnosean-

satz allerdings nicht berücksichtigt (vgl. Abschnitt 4.2.1).

114 ..

..4.8 HYPOTHESENGENERIERUNG

Gehirnhaut entwickelt (siehe z.B. [Sho76], [BS84]); es war eines der ersten erfolg-

reichen Expertensysteme überhaupt. Das Expertenwissen wurde in MYCIN mit kon-

junktiven Regeln dargestellt. Zur Repräsentation von Unsicherheit diente ein Kon-

zept, in dem jeder Regel rein Wert aus dem Intervall





1



1



als sogenannter Si-

cherheitsfaktor (engl. Certainty Factor)CF



r



zugeordnet wurde. Dies geschah üb-

licherweise manuell auf der Grundlage des Wissens von Fachexperten. Der Wert 1

bedeutete »definitiv wahr«, der Wert



1 »definitiv falsch«, und der Wert 0 reprä-

sentierte völlige Unwissenheit. Durch die Anwendung eines Verrechnungsschemas

(s.u.) wurden Sicherheitsfaktoren für Hypothesen abgeleitet.

Die weiteren Ausführungen beziehen sich in Analogie zum Konfidenzkonzept nur

auf Sicherheitsfaktoren aus dem Wertebereich



0



1



, mit denen Aussagen für, nicht

aber gegen eine Hypothese möglich sind. Da beide Konzepte auf unsicheren Aussa-

gen basierende Schlußfolgerungen zulassen, soll die Frage diskutiert werden, ob die

Anwendung des Verrechnungsschemas aus MYCIN auch im vorliegenden Diagno-

seansatz sinnvoll ist. Es wird jedoch deutlich, daß den Interpretationen der beiden

Unsicherheitsmaße unterschiedliche Voraussetzungen zugrunde liegen und daß die

im nachfolgenden Abschnitt 4.8.3 vorgestellte Alternative für den in dieser Arbeit

betrachteten Problembereich besser geeignet ist.

ImUnterschiedzudenstatistischermitteltenKonfidenzenwerdenSicherheitsfaktoren

in MYCINals Additionvon subjektivenVertrauens- undZweifelgraden aufgefaßt, die

sich auf menschliches Hintergrundwissen (manchmal auch mit Evidenz bezeichnet)

gründen. Dieses Wissen kann sich im Laufe der Zeit verändern, zum Beispiel durch

die Berücksichtigung neuer Fakten oder Regeln. Wird eine Hypothese durch mehrere

Regeln gestützt, so leistet jede Regel mit positivem Sicherheitsfaktor einen Beitrag

zum Abbau der Unsicherheit. Für eine Diagnosesituation bedeutet dies, daß jede

anwendbare Regel r



Rmit Konklusion f



Fden resultierenden Sicherheitsfak-

tor CF



f



erhöht. In Verbindung mit einem empirisch ermittelten Mindestwert von

CF



r



0



2 ergibt sich im i-ten Schritt ein neuer Sicherheitsfaktor für den Fehler f

durch die Formel

CFi



1



f





CFi



f





fallsCF



r



0



2

CFi



f



1



CFi



f





CF



r



sonst



Der Anfangswert CF0



f



wird üblicherweise mit 0 initialisiert. Für nanwendbare

Regeln muß dann die Verrechnung der Sicherheitsfaktoren nmal wiederholt werden,

wobei das ErgebnisCF



f



:



CFn



f



unabhängig von der Reihenfolge des Regelein-

satzes ist.

Eine wesentliche Eigenschaft der MYCIN-Formel ist, daß die Anzahl der Verrech-

nungsschritte einen großen Einfluß auf das Ergebnis hat. So kann durch die Akkumu-

lation auch niedriger Regelsicherheitsfaktoren der Sicherheitsfaktor einer Hypothese

..

115

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

schnell gegen den Grenzwert 1 konvergieren. Beispiel 4.11 verdeutlicht dieses Ver-

halten.

Beispiel 4.11: (i) Für die Fehler f2und f6aus Beispiel 4.10 ergeben sich mit der

MYCIN-Formel die Sicherheitsfaktoren

CF



f2



0



91 und CF



f6



0



90



obwohl alle Regelkonfidenzen zur Ableitung von f2deutlich kleiner sind als zur Ab-

leitung von f6.

(ii) Die folgende Graphik zeigt in Anlehnung an [BS84] das Wachstum verschiedener

Ergebnisse bei wiederholter Verrechnung von Regeln mit gleichem Sicherheitsfaktor.

Man erkennt, daß nach nur fünf Schritten alle untersuchten Regeln mit CF



r





0



3

ein Ergebnis von über 0



8 liefern.

Gesamt-

konfidenz

Verrechnungsschritt

CF(r)=0.1

CF(r)=0.3

CF(r)=0.5

CF(r)=0.7CF(r)=0.9

0.2

0.4

0.6

0.8

1.0

0.0 0. 1. 2. 3. 4. 5.

¾

Die Frage, ob die Konfidenzverrechnung von MYCIN auch für den in dieser Arbeit

besprochenen Diagnoseansatz geeignet ist, läßt sich durch die folgende Überlegung

beantworten. Im MYCIN-Konzept wird jede Anwendung einer Regel mit positivem

Sicherheitsfaktor als Vertrauenszuwachs bezüglich der Konklusion interpretiert, des-

halb müssen zur Konfidenzverrechnung zwei Voraussetzungen erfüllt sein:

1. Die anwendbaren Regeln müssen voneinander unabhängig sein (vgl. [Pup91])

und

2. die Verrechnung muß auf wenige Regeln beschränkt sein.

Bei einer Verletzung der ersten Voraussetzung würde die errechnete Sicherheit von

Diagnosen aufgrund identischer Begründungen – also ungerechtfertigt – zunehmen.

116 ..

..4.8 HYPOTHESENGENERIERUNG

Diese Tatsache wird im vorliegenden Diagnoseansatz durch die Eliminierung abhän-

giger Meßstellen (vgl. Abschnitt 4.6.2) sowie der Nichterzeugung subsumierter Re-

geln (vgl. Abschnitt 4.7.2) berücksichtigt, so daß keine abhängigen Regeln existieren

und Punkt 1 erfüllt ist.

Wäre die zweite Voraussetzung verletzt, so könnte der unerwünschte Fall aus Bei-

spiel 4.11 (i) eintreten, in dem für viele niedrigkonfidente Regeln eine höhere Be-

wertung als für wenige hochkonfidente Regeln berechnet wird. Im Gegensatz zur ur-

sprünglichen MYCIN-Anwendung, die relativ wenige, manuell implementierte Dia-

gnoseregeln verarbeitet, werden im vorliegenden Diagnoseansatz die Assoziations-

regeln automatisch und üblicherweise in großer Zahl generiert (zum Teil mehr als

4000, siehe Anhang B). Da sich Punkt 2 nicht erfüllen läßt, wird als Alternative im

folgenden Abschnitt eine neue, für diesen Einsatzzweck besser geeignete Konfidenz-

verrechnung entwickelt.

4.8.3 Globaler Ansatz zur Konfidenzverrechnung

Der in diesem Abschnitt vorgestellte neue Ansatz nimmt eine globale Konfidenzver-

rechnung aller anwendbaren Regeln vor. Dabei wird die Basis für die Bewertung

c



f



eines Fehlers fdurch die Konfidenz der höchstkonfidenten Regel mit Konklusi-

on fgebildet. Es ist sinnvoll, eine Erhöhung dieses Werts in Abhängigkeit von zwei

Einflußfaktoren vorzunehmen:



In Abhängigkeit vom Anteil der f vorhersagenden anwendbaren Regeln an al-

len anwendbaren Regeln: Je mehr anwendbare Regeln die Konklusion fbesit-

zen, desto höher sollte die Konfidenz von fsein.



In Abhängigkeit von der durchschnittlichen Konfidenz der f vorhersagenden

anwendbaren Regeln: Je höher die Konfidenzen der Regeln mit Konklusion f

sind, desto höher sollte die Konfidenz von fsein.

Mit der folgenden Definition werden diese Überlegungen innerhalb eines formalen

Rahmens integriert (vgl. auch [Ste01]).

Definition 4.13 (Konfidenz eines Fehlers): Es seien Rdie Menge der Diagnosere-

geln einer Anlagenphase,



a1



am



ein Symptomvektor und Seine Regelprämisse.

Weiter sei f



Fein Fehler sowie



Ra:





S



f





R





mj



i





S:i



aj



die Menge der anwendbaren Re-

geln,



Ra

f:





r



Ra



r



S



f



die Menge der anwendbaren Regeln, die den Fehler

fvorhersagen,

..

117

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..



r





Ra

fmit



r



Ra

f:c



r





c



r





eine Regel für Fehler fmit maximaler Konfi-

denz.

Dann berechnet sich die Konfidenz des Fehlers f durch

c



f



:



c



r





1



c



r







1



Ra



∑

r



Ra

f

c



r





¾

Anmerkung: c



r





stellt die Basis für die Fehlerkonfidenz c



f



dar. Die weiteren

zwei oben erwähnten Einflußfaktoren (der Anteil der fvorhersagenden anwendbaren

Regeln an allen anwendbaren Regeln



Ra

f



Ra



und die durchschnittliche Konfidenz der

fvorhersagenden anwendbaren Regeln ∑r



Ra

fc



r





Ra

f



) wurden multiplikativ miteinander

verknüpft.



1



c



r





ist ein Normierungsfaktor, so daß gilt: c



f





0



1



.

Der folgende Satz zeigt die wichtigste Eigenschaft der globalen Konfidenzverrech-

nung: Die Konfidenz eines Fehlers nimmt nur bei Vorliegen einer sicheren Regel den

Maximalwert 1 an.

Satz 4.1 (Maximum einer Fehlerkonfidenz): Nach dem Ansatz der globalen Kon-

fidenzverrechnung aus Definition 4.13 kann die Konfidenz c



f



eines Fehlers f



F

nur dann den Wert 1 annehmen, wenn eine anwendbare Regel

r



S



f



Ra

fmit c



r



1

existiert.

¾

Beweis: Zu zeigen ist, daß die Fehlerkonfidenz c



f



kleiner 1 ist, falls keine Regel-

konfidenz von 1 existiert. Angenommen, es ist zwar c



f



1, es existiert aber keine

Regel r



Ra

fmit c



r



1. Dann gibt es eine Regel maximaler Konfidenz r





Ra

fmit

c



r





1. Weiter gilt:

c



f

 

c



r





1



c



r







1



Ra





∑

r



Ra

f

c



r

 

1





1



c



r







1



Ra





∑

r



Ra

f

c



r

 

1



c



r







1



Ra





∑

r



Ra

f

c



r

 

1



∑

r



Ra

f

c



r

 



Ra



118 ..

..4.8 HYPOTHESENGENERIERUNG

Zusammen mit den Randbedingungen



Ra

f



Ra



und



r



Ra

f:c



r





1 folgt



Ra

f







Ra



und



r



Ra

f:c



r



1



Dies steht jedoch im Widerspruch zur Annahme c



r





1. Somit gilt also die Be-

hauptung c



r





1



c



f



1.

¾

Aus dem Beweis zu Satz 4.13 erkennt man weiter, daß der Wert c



f



1 nur dann

erreicht wird, wenn alle anwendbaren Regeln mit Sicherheit auf den Fehler fschlie-

ßen lassen. Bestimmend für die Konfidenz eines Fehlers ist also nicht die Anzahl der

Konfidenzverrechnungen, sondern die Eindeutigkeit und die Güte der anwendbaren

Assoziationsregeln. Das Beispiel 4.12 verdeutlicht diesen Effekt.

Beispiel 4.12: Die Konfidenzen der Fehler f2und f6aus Beispiel 4.10 nehmen in

Abhängigkeit von der Anzahl der anwendbaren Regeln



Ra



mit der globalen Konfi-

denzverrechnung nach Definition 4.13 Werte aus den folgenden Intervallen an:

CF



f2





0



50



0



65



und CF



f6





0



75



0



81





Die oberen Intervallgrenzen werden für



Ra





6, die unteren für



Ra





∞erreicht.

¾

Im folgenden werden die einzelnen Schritte des in diesem Kapitel vorgestellten Dia-

gnoseansatzes im Zusammenhang evaluiert.

..

119

4DIAGNOSE HYDRAULISCHER SYSTEME MIT ASSOZIATIONSREGELN..

120 ..

...

5 Evaluierung des Diagnoseansatzes

In diesem Kapitel wird der vorgestellte Diagnoseansatz experimentell bewer-

tet. Als Evaluierungswerkzeug diente die Expertensystemshell ARGUS (Asso-

ziationsregelgenerator für die heuristische Diagnose), mit deren Hilfe zahlreiche

Testreihen durchgeführt wurden. ARGUS ist ein ebenfalls im Rahmen dieser Arbeit

implementierter Demonstrationsprototyp, der es erlaubt, alle für die Vorverarbeitung

der Simulationsprotokolle und für die Erzeugung der Assoziationsregeln wichtigen

Parameter einzustellen sowie die Lernphase zu starten. Des weiteren ist mit dem

System eine Simulation der Diagnosephase möglich, in der über benutzerdefinier-

te Skripte verschiedene Testreihen zur Ermittlung der Diagnosegüte durchgeführt

werden können. Abbildung 5.1 zeigt die Bedienungsoberfläche von ARGUS unter

Microsoft Windows 2000 sowie eine typische Regelmenge.1

Für die Evaluierung eines Expertensystems oder eines Problemlösungsansatzes feh-

len häufig geeignete Kriterien, so daß die Qualitätsbeurteilung eine schwierige Auf-

gabe darstellen kann (vgl. [GKP



83], [Pup91]). Die in den folgenden Abschnit-

ten beschriebenen Tests beschränken sich daher auf wenige objektive und damit gut

nachvollziehbare Kriterien zur Beurteilung der Leistungsfähigkeit und sind nicht auf

spezielle Anwendungsbereiche zugeschnitten. Subjektive Kriterien, wie zum Bei-

spiel Nützlichkeit für den Endbenutzer, Änderungsfreundlichkeit o.ä. werden nicht

betrachtet.

Zur Ermittlungder objektivenLeistungsfähigkeitwurden mit ARGUS zahlreiche Dia-

gnosesysteme für mehrere hydraulische Anlagen von mittlerer bis hoher Komplexi-

tät automatisch erzeugt und getestet. Obwohl die untersuchten Anlagen individuell

unterschiedliche Verhaltensabfolgen besaßen, waren einheitliche Charakteristika der

erzeugten Diagnosesysteme bzw. ihrer Testergebnisse identifizierbar. Stellvertretend

werden sie im folgenden am Beispiel einer kleineren Testanlage dargestellt; alle kon-

kreten Zahlenangaben dieses Kapitels beziehen sich auf diese Anlage.

Einteilung des Kapitels: Zunächst erläutert Abschnitt 5.1 den Aufbau der Testanlage

und die in der Regellernphase gewählten Testparameter. Abschnitt 5.2 beschreibt dar-

aufhin die generellen Testbedingungen in der Diagnosephase sowie die Berechnung

der Diagnosegüte. Abschließend werden in Abschnitt 5.3 die Beurteilungskriterien

erläutert sowie die wichtigsten Testergebnisse graphisch dargestellt.

1 Die Evaluierung wurde unter Microsoft Windows 2000 vorgenommen, ARGUS ist aber auf jedem

Betriebssystem lauffähig, das über die JAVA-Runtime-Umgebung JRE 1.3 oder höher verfügt.

..

121

5EVALUIERUNG DES DIAGNOSEANSATZES ..

Abbildung 5.1: Oberfläche des Assoziationsregelgenerators ARGUS (vorne) und

Ausschnitt einer erzeugten Regelmenge (hinten)

5.1 Testanlage und Parameter für die Lernphase

Abbildung 5.2 zeigt die Testanlage, deren Komponentenzahl mit neun Hauptkompo-

nenten vergleichsweise niedrig ist. Durch ihre relativ komplexe Verschaltung ergibt

sich jedoch ein nichttriviales Verhalten, das aus neun Phasen besteht.

Die Hauptkomponenten sind zwei Abtriebseinheiten (doppeltwirkende Hydrozylin-

der E und H), ein Steuerventil D, ein druckgesteuertes Abschalt- / Bremssenkven-

til G, ein Rückschlagventil F, ein Absperrventil C, ein Druckbegrenzungsventil B,

eine Pumpe A sowie ein Tank I. Da teilweise auch mehrere Fehlerarten für eine Kom-

ponente berücksichtigt werden konnten (z.B. innere und äußere Leckagen an den

Zylindern), wurden im Simulationswerkzeug artdeco insgesamt elf Fehlerklassen mo-

delliert. Im weiteren werden die wichtigsten in der Lernphase verwendeten Parameter

122 ..

..5.1 TESTANLAGE UND PARAMETER FÜR DIE LERNPHASE

Abbildung 5.2: Schaltkreis (links) und Phasen (rechts) einer zu diagnostizierenden

hydraulischen Anlage, dargestellt im Simulationswerkzeug artdeco

(Phasenkennzeichnung und Phasennummerierung nachträglich hin-

zugefügt)

aufgeführt.

Simulation: Zur Aufstellung eines Meßplans erfolgte innerhalb des artdeco-

Schaltplans die Plazierung von 38 Druck- und Flußmeßgeräten sowie für jeden

der zwei Zylinder ein Meßgerät für die Zylinderposition und die anliegende Kraft.

Die zulässigen Belastungen der Zylinder (Kräfte FEund FH) betrugen für diese

Anlage konstruktionsbedingt zwischen 0 N und 900 N. Im Simulationsplan wurden

für FE



FHdie vier Belastungskombinationen 0



0, 100



100, 100



500, 900



900,

elf Fehlerklassen sowie 20 leichte und 30 mittlere bis schwere Fehlervariationen

definiert. Damit ergab sich ein Simulationsaufwand von

S



1



11



20



30





4



248

Simulationsläufen, sodaß ein vollständigesPhasenprotokollbei je neunPhasen 9



S



2232 Meßwertevektoren umfaßte (vgl. Abschnitt 4.3.2).

Symptomerkennung: Die Berechnung der Differenzenvektoren wurde nach Defi-

nition 4.2 (Seite 80) vorgenommen, welche die unterschiedlichen Eigenschaften der

skalaren und vektoriellen physikalischenGrößen berücksichtigt. Gleichzeitig erfolgte

der Aufbau von drei Datenbasen mit den Symptomvektoren für unterschiedliche Feh-

..

123

5EVALUIERUNG DES DIAGNOSEANSATZES ..

lervariationen: Dlern für die Ausgangsfehler, Dvar1für die leichten Fehlervariationen

und Dvar2für die mittleren bis schweren Variationen (vgl. Abschnitt 5.2).

Diskretisierung: Bei der Partitionierung der Wertebereiche wurden fünf Meßgerä-

teklassen gebildet und jeder Klasse eine maximale Intervallanzahl imax zugewiesen,

wobei die Drehzahlmesser für diese Testanlage nicht relevant waren. Die Intervallan-

zahlen wurden so gewählt, daß auch bei »manueller« Ablesung eine Unterscheidbar-

keit der Intervalle gewährleistet ist (Abbildung 5.3).

Physikalische Größe Meßgeräteart Maximale Intervallanzahl imax

Volumenstrom qVFlußmesser 5

Druck pDruckmesser 10

Umdrehungszahl nDrehzahlmesser 5

Geschwindigkeit v(keine) 2

Kraft FKraftmesser 3

Abbildung 5.3: Maximale Intervallanzahlen für die verschiedenen Meßgerätearten

(Anmerkung: Die Geschwindigkeiten wurden berechnet, vgl. Ab-

schnitt 4.3.1)

Meßstellenauswahl: Die Optimierung der auszuwählenden Meßstellenkombinati-

on erfolgte ausschließlich auf der Menge der Fluß- und Druckmeßstellen; die Meß-

stellen für alle anderen physikalischen Größen wurden immer automatisch ausge-

wählt, da hier vernachlässigbare Meßkosten angenommen werden konnten (vgl. Ab-

schnitt 4.6.1). Eine Abhängigkeitsanalyse mit asymmetrischen λ-Maßen (siehe De-

finition 4.7) hatte zum Ergebnis, daß etwa die Hälfte der 38 Druck- und Flußmeß-

stellen wegen Redundanz entfernt werden konnte. Anschließend wurden innerhalb

der Testreihen von den verbliebenen – also untereinander unabhängigen – Meßstellen

nach dem Ansatz der Einfachbewertung (siehe Abschnitt 4.6.3) über den Parameter v

bis zu sechs Meßstellen ausgewählt.

Regelerzeugung: Zur Erzeugung der Assoziationsregelmengen wurden verschiede-

ne Parameterkombinationen untersucht. Dabei blieb jedoch die Häufigkeitsschwelle

konstant bei σ



0, damit auch seltene Diagnosesituationen vom System erkennbar

waren. Zur Ermittlung der objektivenProblemlösungsfähigkeitdes Diagnoseansatzes

kamen Konfidenzschwellen γaus dem Intervall



0



1



1



0



zur Anwendung. Auf den

Einsatz von γ



0



0 wurde im Hinblick auf die allzu geringe Regelgüte verzichtet.

124 ..

..5.2 TESTVERFAHREN FÜR DIE DIAGNOSEPHASE

5.2 Testverfahren für die Diagnosephase

Für die Experimente standen keine realen hydraulischen Anlagen zur Verfügung; aus

diesem Grund dienten die artdeco-Simulationsprotokolle nicht nur zur Regelerzeu-

gung, sondern auch als Datengrundlage für die Testreihen zur Ermittlung der Diagno-

següte. Die Simulationsprotokolle wurden hierzu in mehrere Datenbasen aufgeteilt,

z.B. für die Testanlage aus Abbildung 5.2 in



Dlern mit den Simulationsprotokollen für die elf Ursprungsfehler,



Dvar1mit den Simulationsprotokollen für die 20 leichten Fehlervariationen und



Dvar2mit den Simulationsprotokollen für die 30 mittleren bis schweren Fehler-

variationen.

Während in der Lernphase ausschließlich die Datenbasis Dlern ausgewertet wurde,

konnte in den Testreihen für die Diagnosephase auf jeweils eine der drei erzeugten

Datenbasen zugegriffen werden. Zur Nachbildung eines realen zu diagnostizierenden

Meßwerteprotokolls wurden aus den Symptomvektoren innerhalb der Datenbasen je-

doch nur diejenigen Elemente interpretiert, die die entsprechende reale Anlage hätte

liefern können. Jeder zu einer Betriebssituation gehörende phasenvollständige Satz

von Symptomvektoren entsprach dabei genau einem Störungsfall.

Abhängig von der Wahl der zu diagnostizierenden Datenbasis sind zwei verschiedene

Qualitätsaspekte des Diagnoseansatzes unterscheidbar:

1. Eignung der Modelltransformation für Diagnoseprobleme: Durch die Anwen-

dung des Diagnosesystems auf das gelernte Phasenprotokoll Dlern kann über-

prüft werden, ob die Transformation der numerischen Verhaltensmodelle in

heuristische Assoziationsregelmodelle hinreichend informationserhaltend ist.

Dies ist der Fall, wenn alle gelernten Fälle korrekt diagnostiziert werden.

2. Anwendbarkeit auf neue Diagnosesituationen: Wird zum Testen eine andere

Datenbasis als zum Lernen eingesetzt (also Dvar1oder Dvar2statt Dlern), findet

die Anwendung der Diagnoseregeln auf bisher nicht analysierte Störungsfäl-

le der Anlage statt. Mit der hier erzielbaren Diagnosegüte läßt sich die Ge-

neralisierungsfähigkeit der Regeln bzw. die Flexibilität des Diagnoseansatzes

bewerten. Ist die Diagnosegüte hoch, steigt die Wahrscheinlichkeit, daß auch

unvorhergesehene Fehlersituationen vom Diagnosesystem korrekt erkannt wer-

den können.

Anmerkung: Zwar ist es ein Merkmal des Diagnoseansatzes, die Diagnoseregeln

aus möglichst umfassenden Fehlersimulationen zu lernen, so daß die Wahrscheinlich-

keit für das Auftreten eines vollkommen neuen Störungsfalls sehr gering ist. Generell

..

125

5EVALUIERUNG DES DIAGNOSEANSATZES ..

stellt aber die Diagnosegüte, die bei der Anwendung eines Diagnosesystems auf neue

Fälle erzielbar ist, eine wichtige Information zu dessen Beurteilung dar. Aus diesem

Grund wird der zweite Qualitätsaspekt bei der Evaluierung berücksichtigt.

Für die Diagnose eines Störungsfalls wurde die in Abschnitt 4.8.3 erläuterte globale

Konfidenzverrechnung (Definition 4.13) angewandt. Die anschließende Beurteilung

der Diagnosegüte basierte nicht nur auf dem Vergleich der höchstkonfidenten Hypo-

these f



mit der »wahren« Diagnose d, sondern differenzierte im Erfolgsfall zusätz-

lich danach, ob für weitere Hypothesen (höchstens 3) eine ähnlich hohe Konfidenz

berechnet wurde (maximale Abweichung 0



1). Mit diesen im Hinblick auf die Test-

anlage als sinnvollerachteten Grenzwerten konnte zwischen falschen sowie korrekten

Einzeldiagnosen und korrekten Diagnosenmengen unterschieden werden, wobei den

Begriffen die Kriterien aus Definition 5.1 zugrunde lagen.

Definition 5.1 (Klassifizierung von Diagnosen): Es sei Fdie Menge der Fehler und

f





Fmit c



f





maxf



F



c



f



eine Hypothese mit maximaler Konfidenz für den

aktuellen Störungsfall. Weiter sei d



Ffür diesen Fall die wahre Störungsursache.

Dann stellt f



eine Diagnose aus genau einer der folgenden Klassen dar.



Korrekte Einzeldiagnose:f



ist die korrekte Diagnose d, und die Konfidenzen

aller anderen Hypothesen aus der Fehlermenge Fsind mindestens 0



1 niedriger

als c



f





:

f





dund



f



F



f





c



f







c



f



0



1





0





Korrekte Diagnosenmenge:f



ist die korrekte Diagnose d, es existieren aber

bis zu drei weitere Hypothesen mit weniger als 0



1 niedrigerer Konfidenz als

c



f





:

f





dund



f



F



f





c



f







c



f



0



1

 



1



2



3







Fehldiagnose: Alle übrigen Fälle, d.h., es liegt eine falsche Diagnose oder

eine zu hohe Mehrdeutigkeit vor (mehr als drei Hypothesen, deren Konfidenz

weniger als 0



1vonc



f





abweicht):

f







doder



f



F



f





c



f







c



f



0



1





3



f



heißt korrekte Diagnose, wenn sie eine korrekte Einzeldiagnose ist oder in einer

korrekten Diagnosenmenge ist, f



heißt falsche Diagnose, wenn sie eine Fehldiagno-

se ist.

¾

Die Bewertung der Diagnosegüte d





0



1



für eine Testreihe ist damit zweigeteilt

und besteht aus der Summe des Anteils d1der korrekten Einzeldiagnosen und des

126 ..

..5.3 TESTERGEBNISSE

Anteils d2der korrekten Diagnosenmengen in den Testfällen. Der Anteil der Fehldia-

gnosen beträgt dann 1



d





1



d1



d2.

Im praktischen Einsatz realer hydraulischer Anlagen kommen einzelne Störun-

gen häufiger vor als andere, oder sie verursachen unterschiedliche Kosten. Da

jedoch bei den Testreihen keine zusätzlichen Informationen über die A-priori-

Wahrscheinlichkeiten und Schweregrade der Fehler vorlagen, wurden für die Ermitt-

lung der Diagnosegüte d



alle Störungsfälle gleichgewichtet, d.h., es wurde auf eine

Gewichtung von Fehlern oder die Unterscheidung zwischen einer Fehldiagnose und

einer Nichterkennung des Fehlers verzichtet.

5.3 Testergebnisse

In diesem Abschnitt werden einige Aspekte bezüglich der Regelerzeugung und der

in den Testreihen erzielten Diagnoseergebnisse präsentiert. Als wichtigste Einfluß-

größen werden die Konfidenzschwelle γ(Maß für die Regelgüte) und die Anzahl zu-

sätzlicher Meßstellen v(Maß für die Regelspezialisierung) untersucht. In bezug auf

die Testanlage aus Abbildung 5.2 werden für verschiedene Parametervariationen die

grundlegenden Trends bei der Entwicklung der Regelanzahl (Abschnitt 5.3.1) und der

Entwicklung der Diagnosegüte (Abschnitt 5.3.2) graphisch aufbereitet und diskutiert.

Abschnitt 5.3.3 gibt eine kurze Zusammenfassung der Evaluierungsergebnisse; die

vollständigen Ergebnistabellen befinden sich im Anhang B.

5.3.1 Regelanzahl

Das erste objektive Kriterium zur Beurteilung des Diagnoseansatzes ist die Anzahl

der erzeugten Assoziationsregeln



R



. Hier wird zunächst der Einfluß des in Ab-

schnitt 3.2.3 besprochenen Subsumptionstests untersucht, bevor auf die Auswirkun-

gen der Parameter vund γnäher eingegangen wird. Nicht betrachtet werden die zur

Regelerzeugung mit dem Data-Mining-Algorithmus 4.2 benötigten Zeiten, weil sie

in jedem Fall wesentlich geringer sind als die Simulationszeiten.

Abhängigkeit vom Subsumptionstest

In Abbildung 5.4 ist für einige Parameterkombinationen v/γaufgeführt, wie sich

die Anzahl der Diagnoseregeln entwickelt, wenn redundante Regeln eliminiert oder

beibehalten werden. Dabei ist R



die Menge der ohne Subsumptionstest erzeugten

Diagnoseregeln und Rdiejenige Menge, aus der gemäß Definition 4.12 von Seite 107

..

127

5EVALUIERUNG DES DIAGNOSEANSATZES ..

subsumierte Regeln entfernt wurden. Es zeigt sich anhand der letzten Zeile, daß die

Subsumptionsrate (d.h. der Anteil der subsumierten Regeln ) mit regelmäßig über

90% sehr hoch ist.

v1111 1 2 3 4 5 6

γ1



00



70



50



30



10



50



50



50



50



5



R



161 170 349 463 1254 518 728 922 1164 1322



R





1697 1748 4522 6002 12713 9167 19531 38392 65471 125416

1





R



R





0



91 0



90 0



92 0



92 0



90 0



94 0



96 0



98 0



98 0



99

Abbildung 5.4: Anteil subsumierter Regeln für verschiedene Kombinationen von

Meßstellenanzahl vund Konfidenzschwelle γ(R: Menge der nicht-

subsumierten Regeln, R



: Menge aller Regeln)

In der linken Tabellenhälfte von Abbildung 5.4 wird die Subsumptionsrate in Abhän-

gigkeit von der Konfidenzschwelle γdargestellt, in der rechten in Abhängigkeit von

der Meßgeräteanzahl v. Während die Konfidenzschwelle nur wenig Einfluß hat, führt

eine höhere Anzahl zusätzlicher Meßgeräte auch zu deutlich höheren Subsumptions-

raten. Durch die letztgenannte Abhängigkeit wird sogar das exponentielle Wachstum

der Regelanzahl (Verdopplung mitjedem neuen Meßgerät) auf einlineares Wachstum

(jeweils Zunahme um ca. 200 Regeln) verringert.

Die Gründe für dieses Verhalten sind die folgenden. Zunächst sei daran erinnert, daß

für zwei Regeln der Subsumptionstest in Definition 4.12 aus einem Strukturkriterium

(Prämisse ist Teilmenge, Konklusion ist gleich) und einem Konfidenzkriterium (Kon-

fidenz der spezielleren Regel nicht größer) besteht, wobei das Strukturkriterium die

wichtigere, weil restriktivere Bedingung für eine Subsumptionskonstellation ist.

Wird die Konfidenzschwelle gesenkt, kommen neue, minderkonfidente Regeln zur

Regelmenge hinzu, deren struktureller Aufbau unabhängig von den bisherigen Re-

geln ist. Daher wird die Erfülltheit des Strukturkriteriums und damit der Subsumpti-

onsbedingung bei den neuen Regeln nicht wahrscheinlicher als vorher, und die Sub-

sumptionsrate bleibt in etwa konstant. Anders ist die Situation bei einer Erhöhung

der Meßgeräteanzahl. Hier entstehen neue Regeln, indem alte Regeln stufenweise

um zusätzliche Prämissenelemente erweitert werden (vgl. Algorithmus 4.2). Durch

diese Vorgehensweise bei der Regelkonstruktion ist das Strukturkriterium sehr viel

wahrscheinlicher erfüllt, so daß die Subsumptionsrate stark zunimmt.

Im weiteren wird der Einfluß von Meßstellenanzahl und Konfidenzschwelle auf die

128 ..

..5.3 TESTERGEBNISSE

Diagnoseregelanzahl näher betrachtet. Dabei beziehen sich alle Ausführungen nur

noch auf Regelmengen, aus denen subsumierte Regeln entfernt wurden.

Abhängigkeit von der Meßstellenanzahl

In Abbildung 5.5 wird die Entwicklungder Regelanzahl bei einer Erhöhung der Meß-

stellenanzahl vfür zwei konstante Konfidenzschwellen γ



1



0 bzw. γ



0



5 graphisch

dargestellt. Es läßt sich der bereits imletzten Unterabschnitt erläuterte lineare Zusam-

menhang zwischen



R



und verkennen.

0123456

Anzahl zusätzlicher Meßgeräte v

0

200

400

600

800

1000

1200

1400 Regelanzahl



R



ºººº

ººººº

ºººº

ººººº

ºººº

ººººº

ºººº

ººººº

bei γ



0



5

º

bei γ



1



0

Abbildung 5.5: Entwicklung der Regelanzahl



R



in Abhängigkeit von der Meßgerä-

teanzahl v(bei konstanten Konfidenzschwellen γ)

Die absolute Anzahl der erzeugten sicheren Regeln (d.h. γ



1



0) steigt von 82 bei

keiner zusätzlichen Meßstelle bis auf 685 bei sechs Meßstellen an. Durch eine Hal-

bierung der Konfidenzschwelle verdoppelt sich die jeweilige Regelanzahl. Da bei

der Regelerzeugung in jedem Fall fixe Meßstellen berücksichtigt werden (vgl. Ab-

schnitt 4.6.1), ist die Regelmenge auch bei v



0 nicht leer.

Abhängigkeit von der Konfidenzschwelle

In Abbildung 5.6 wird die Entwicklung der Regelanzahl bei einer Erhöhung der Kon-

fidenzschwelle γfür zwei konstante Meßstellenanzahlen v



0 bzw. v



1 graphisch

dargestellt. Hier läßt sich ein exponentieller Zusammenhang zwischen



R



und γer-

kennen.

..

129

5EVALUIERUNG DES DIAGNOSEANSATZES ..

0

200

400

600

800

1000

1200

1400

0.1 0.2 0.3 0.4 0.5 0.6 0.7

Konfidenzschwelle γ

Regelanzahl



R



ºººº

ººººº

ºººº

ººººº

ºººº

ººººº

ºººº

ººººº

bei v



1

º

bei v



0

Abbildung 5.6: Entwicklung der Regelanzahl



R



in Abhängigkeit von der Konfi-

denzschwelle γ(bei konstanten Anzahlen zusätzlicher Meßgeräte v)

So nimmt z.B. für v



1 beginnend bei γ



0



1 durch eine Erhöhung der Konfidenz-

schwelle die Regelanzahl von 1254 stark ab, ehe sie bei etwa γ



0



6 mit unter 200 zu

stagnieren beginnt. In weiten Bereichen gilt die »Daumenregel«, daß eine Verdoppe-

lung der Konfidenzschwelle zu einer Halbierung der Regelanzahl führt.

Im Gegensatz zur Meßstellenanzahl, die nur linearen Einfluß hat und die voraus-

sichtlich von außen vorgegeben wird, um den jeweiligen realen technischen Rand-

bedingungen zu genügen, hat die Wahl der geeigneten Konfidenzschwelle für das zu

erzeugende Diagnosesystem größere Auswirkungen. Zwar ist die Größe der Regel-

basis nicht der entscheidende Qualitätsaspekt für ein Diagnosesystem, dennoch sind

möglichst kleine Regelmengen anzustreben, um sowohl die schnelle Verarbeitung in

der Diagnosephase als auch die Erklärbarkeit der getroffenen Diagnoseentscheidung

zu gewährleisten.

Bei der Ermittlung der geeigneten Parameterkombination für die Generierung eines

neuen Diagnosesystems ist jedoch insbesondere die Diagnosegüte ein wichtigeres

Qualitätskriterium; sie wird im folgenden Abschnitt untersucht.

5.3.2 Diagnosegüte

Auch für die Entwicklung der Diagnosegüte wird nach variabler Meßstellenanzahl v

(Veränderung der Regelspezialisierung) und variabler Konfidenzschwelle γ(Verände-

130 ..

..5.3 TESTERGEBNISSE

rung der Regelgüte) unterschieden. Die Berechnung der Diagnosegüte erfolgt gemäß

Definition 5.1, also mit einer Differenzierung der korrekten Diagnosen in korrekte

Einzeldiagnosen und korrekte Diagnosenmengen sowie mit einer Gleichgewichtung

der Störungsursachen.

In den folgenden Unterabschnitten wird die Anwendung der Diagnoseregeln auf die

Lernbasis Dlern nicht näher ausgeführt, weil für bereits kleine Meßstellenanzahlen

bzw. hohe Konfidenzschwellen die maximale Diagnosegüte von d





1



0 erzielt wird

(z.B. für v



0



γ



0



1, v



1



γ



0



5 oder v



3



γ



1



0, vgl. Abbildung B.1,

Seite 145). Ab zwei Meßstellen ist auch der Anteil der korrekten Einzeldiagnosen

d1maximal; dies stellt das optimale Ergebnis dar. Hierdurch wird deutlich, daß der

vorgestellte Wissensakquisitionsansatz zur Gewinnung heuristischer Diagnoseregeln

geeignet und praktikabel ist.

Interessant sind auch die Auswirkungen der Parameterwahl auf die Generalisierungs-

eigenschaften der Regeln; sie zeigen sich bei der Anwendung der Regeln auf neue

Diagnosesituationen. Aus diesem Grund erfolgt im weiteren eine Analyse der Re-

gelanwendungen auf die Datenbasen Dvar1und Dvar2mit Meßwerteprotokollen für

einfache bzw. mittlere bis schwere Fehlervariationen.

Abhängigkeit von der Meßstellenanzahl

Abbildung 5.7 zeigt in vier Diagrammen die Entwicklung der Diagnosegüte bei einer

Erhöhung der Meßstellenanzahl v, getrennt nach den konstanten Konfidenzschwellen

γ



1



0 und γ



0



1 sowie nach den beiden Datenbasen Dvar1und Dvar2. Es läßt sich

erkennen, daß zwar die Gesamtdiagnosegüte d



gegen 1 konvergiert, der Anteil der

korrekten Einzeldiagnosen d1aber etwa gleich bleibt bzw. leicht abnimmt.

Die beiden linken Diagramme zeigen für die leichten Fehlervariationen Dvar1einen

Anteil korrekter Einzeldiagnosen von etwa d1



0



4, die beiden rechten Diagramme

für die mittleren bis schweren Variationen Dvar2einen etwas niedrigeren Wert von

ungefähr d1



0



3. Mit zunehmender Meßstellenanzahl vnimmt d1nach einem Ma-

ximum bei v



1 leicht ab, dagegen nimmt der Anteil korrekter Diagnosenmengen

d2



d





d1deutlich zu: Zum Beispiel steigt bei γ



1



0 für Dvar1bzw. Dvar2der

Wert von d2



0



04 bzw. d2



0



08 auf den Wert d2



0



6 bzw. d2



0



7; bei γ



0



1

ist lediglich das Anfangsniveau höher.

Diese Ergebnisse sind wie folgt zu begründen. Durch eine höhere Meßstellenanzahl

nimmt der Spezialisierungsgrad der neuen Regeln stetig zu, weil bei ihrer Konstruk-

tion immer mehr Prämissenelemente eingesetzt werden. Je spezieller eine Regel ist,

desto besser beschreibt sie eine Ausnahmesituation in der Lernbasis. Auf neue, zu

einem gewissen Grad abweichende Situationen aus Dvar1oder Dvar2sind diese Re-

geln jedoch nicht anwendbar, oder aber sie bewirken mit höherer Wahrscheinlichkeit

..

131

5EVALUIERUNG DES DIAGNOSEANSATZES ..

0123456

Dvar1,γ



1



0

v

0.0

0.2

0.4

0.6

0.8

1.0 d

º

0123456

Dvar2,γ



1



0

v

0.0

0.2

0.4

0.6

0.8

1.0 d

º

0123456

Dvar1,γ



0



1

v

0.0

0.2

0.4

0.6

0.8

1.0 d

º

0123456

Dvar2,γ



0



1

v

0.0

0.2

0.4

0.6

0.8

1.0 d

º

d1: Anteil der korrekten Einzeldiagnosen

º

d



: Anteil der korrekten Diagnosen(mengen)

Abbildung 5.7: Entwicklung der Diagnosegüte din Abhängigkeit von der Meßgerä-

teanzahl v(bei konstanten Konfidenzschwellen γund für zwei Da-

tenbasen D)

uneindeutige Hypothesen (in wenigen Fällen werden sogar Einzeldiagnosen zu Dia-

gnosenmengen).

Da die leichte Abnahme des Anteils korrekter Einzeldiagnosen d1durch den größer

werdenden Anteil korrekter Diagnosenmengen d2mit steigender Meßstellenanzahl

deutlich überkompensiert wird, konvergiert die Gesamtdiagnosegüte d



gegen 1. Al-

lerdings kann aus der leichten Abnahme von d1ein Effekt des Überlernens geschlos-

sen werden.

132 ..

..5.3 TESTERGEBNISSE

Abhängigkeit von der Konfidenzschwelle

Abbildung 5.8 zeigt in vier Diagrammen die Entwicklung der Diagnosegüte bei einer

Erhöhung der Konfidenzschwelle γ, getrennt nach den konstanten Meßstellenanzah-

len v



0 und v



2 sowie nach den beiden Datenbasen Dvar1und Dvar2. Da die

beobachteten Werte für γ



0



7 bis γ



1



0 identisch sind, wird in den Diagrammen

nur der Bereich γ



0



1



0



7



dargestellt. Der Anteil korrekter Einzeldiagnosen d1

bleibt stets in etwa konstant, dagegen wird die Gesamtdiagnosegüte d



im Fall v



0

für höhere Konfidenzschwellen deutlich kleiner, der Anteil der Fehldiagnosen steigt

also.

Die Abnahme des Anteils korrekter Diagnosenmengen d2



d





d1bei steigender

Konfidenzschwelle γtritt nur auf, wenn kleine Meßstellenanzahlen vgewählt wurden.

Bei v



0 sinken die Werte von d2



0



36 für γ



0



1 auf d2



0



06 (Dvar1) bzw. d2



0



13 (Dvar2) für γ



0



7. Bereits ab zwei Meßstellen bleiben sie mit etwa d2



0



4 für

beide Testdatenbasen und für alle Konfidenzschwellen im wesentlichen unverändert.

Für den etwa konstanten Anteil korrekter Einzeldiagnosen sind bereits die wenigen

allgemeinen, aber sicheren Regeln der Parameterkombination v



0



γ



1



0 verant-

wortlich. Kommt eine solche Regel zur Anwendung, dann macht sie auch eine kor-

rekte Fehlervorhersage. Wird dagegen die Konfidenzschwelle gesenkt, kommen un-

sichere Regeln hinzu, die lediglich den Anteil korrekter Diagnosenmengen erhöhen

können. Ähnlich ist es bei einer Erhöhung der Meßstellenanzahl: Hier kommen spe-

ziellere Regeln zur Ursprungsmenge hinzu, die – im Gegensatz zur Anwendung auf

die Lernfälle – bei einer Anwendung auf die Fehlervariationen die Mehrdeutigkeiten

erhöhen. Sie sind zwar für die Lernsituationen »optimiert«, aber weniger für neue

Situationen geeignet.

Erkennbar ist, daß die gleichgerichteten Effekte, die durch eine Erhöhung von vund

durch eine Senkung von γentstehen, sich nicht einfach addieren: Bei hoher Meß-

stellenanzahl bringt die Senkung der Konfidenzschwelle keine Zunahme des Anteils

korrekter Diagnosenmengen d2. Dies bedeutet, daß in diesem Fall bereits das maxi-

male Diagnosewissen erzeugt wurde. Der Informationsgewinndurch die Erweiterung

der Datengrundlage (Auswertung neuer Meßstellen) ist also höher als der Informa-

tionsgewinn durch die tiefergehende Untersuchung der bisherigen Datengrundlage

(Absenkung der Konfidenzschwelle). Als praktische Konsequenz zur Maximierung

der Diagnoseergebnisse läßt sich hiermit (auch in Verbindung mit der Entwicklung

der Regelanzahl, vgl. Abschnitt 5.3.1) bestätigen, daß eine möglichst hohe Meßstel-

lenanzahl vangestrebt werden sollte.

..

133

5EVALUIERUNG DES DIAGNOSEANSATZES ..

0.1 0.2 0.3 0.4 0.5 0.6 0.7

Dvar1,v



0

γ

0.0

0.2

0.4

0.6

0.8

1.0 d

º

0.1 0.2 0.3 0.4 0.5 0.6 0.7

Dvar2,v



0

γ

0.0

0.2

0.4

0.6

0.8

1.0 d

º

0.1 0.2 0.3 0.4 0.5 0.6 0.7

Dvar1,v



2

γ

0.0

0.2

0.4

0.6

0.8

1.0 d

º

0.1 0.2 0.3 0.4 0.5 0.6 0.7

Dvar2,v



2

γ

0.0

0.2

0.4

0.6

0.8

1.0 d

º

d1: Anteil der korrekten Einzeldiagnosen

º

d



: Anteil der korrekten Diagnosen(mengen)

Abbildung 5.8: Entwicklung der Diagnosegüte din Abhängigkeit von der Konfi-

denzschwelle γ(bei konstanten Anzahlen zusätzlicher Meßgeräte v

und für zwei Datenbasen D)

5.3.3 Fazit

Abschließend seien die wichtigsten Ergebnisse der Evaluierung zusammengefaßt.

Die qualitativen Aussagen treffen auf die Diagnosesysteme für alle getesteten hy-

draulischen Anlagen zu. Die quantitativen Aussagen beziehen sich auf die Testanlage

aus Abbildung 5.2.



Die Diagnoseregelanzahl wächst linear mit zunehmender Meßstellenanzahl.

134 ..

..5.3 TESTERGEBNISSE



Die Diagnoseregelanzahl wächst exponentiell mit abnehmender Konfidenz-

schwelle.



Die Gesamtdiagnosegüteist bei kleinen Meßstellenanzahlen (kleiner zwei) von

der Konfidenzschwelle abhängig: Je kleiner die Konfidenzschwelle ist, desto

größer ist die Diagnosegüte.



Die Gesamtdiagnosegüte ist bei großen Meßstellenanzahlen (ab zwei) von der

Konfidenzschwelle praktisch unabhängig.



Das durch zusätzliche Meßstellen gewonnene Diagnosewissen ist »wertvoller«

als das durch niedrigere Konfidenzschwellen gewonnene Diagnosewissen.



Für die gelernten Fehlersituationen beträgt der Anteil korrekter Einzeldiagno-

sen bis zu 100%.



Für kleine Fehlervariationen beträgt der Anteil korrekter Einzeldiagnosen bis

zu 56%. Inklusive der korrekten Diagnosenmengen beträgt die Gesamtdiagno-

següte bis zu 99%.



Für mittlere bis große Fehlervariationen beträgt der Anteil korrekter Einzel-

diagnosen bis zu 42%. Inklusive der korrekten Diagnosenmengen beträgt die

Gesamtdiagnosegüte bis zu 96%.

Besonders unter Berücksichtigung der Tatsache, daß die Testbasen Dvar1und Dvar2

wesentlich größer waren als die Lernbasis Dlern (Dvar1um 75% und Dvar2um 158%,

vgl. Anhang B), sind die erzielten Diagnoseergebnisse als sehr gut anzusehen. Sie

stützen die Erwartung, daß mit dem in dieser Arbeit vorgestellten automatischen

Wissensakquisitions- und Diagnoseansatz eine effiziente Erkennung von Störungs-

fällen in hydraulischen Anlagen möglich ist.

..

135

5EVALUIERUNG DES DIAGNOSEANSATZES ..

136 ..

...

6 Zusammenfassung und Ausblick

In der Arbeit wurde ein neuer Ansatz zur automatischen Wissensakquisition für die

heuristische Diagnose komplexer hydraulischer Anlagen vorgestellt. Hierbei sind

Techniken aus den Gebietender wissensbasiertenSysteme und desData Miningsmit-

einander verknüpft worden, um zu einem Konzept zu gelangen, das die automatische

Generierung von leistungsfähigen Diagnosesystemen ermöglicht. Zur Repräsentati-

on des Diagnosewissens wurden heuristische Assoziationsregeln untersucht, die sich

mit geeigneten Lernverfahren effizient aus großen Simulationsdatenbasen erzeugen

lassen.

Neben einem Überblick über die Einsatzmöglichkeiten der Wissensentdeckung in

Datenbanken bzw. des Data Minings wurde eine systematische Einordnung der be-

kannten Assoziationsregelkonzepte vorgenommen und hinsichtlich ihrer Eignung als

Diagnoseregeln diskutiert. Anschließend erfolgte die detaillierte Beschreibung der

theoretischen und algorithmischen Grundlagen eines neuen zweistufigen Wissensak-

quisitionsansatzes, der auf einer Transformation von kausalen Anlagenmodellen in

heuristische Assoziationsregelmodelle zur Darstellung von Symptom



Diagnose-

Zusammenhängen basiert. Anhand der Diagnosegüte, die mit dem prototypischen

Diagnosesystemgenerator ARGUS für verschiedene hydraulische Anlagen in zahlrei-

chen Testreihen ermittelt wurde, konnte die Qualität des vorgestellten Diagnosean-

satzes demonstriert werden.

Der wichtigste Vorteil gegenüber existierenden Diagnoseansätzen für technische An-

lagen ist die Möglichkeit zur vollständig automatischen Wissensakquisition, insbe-

sondere auch für Anlagen von hoher Komplexität. Die hiermit verbundenen Zeit- und

Kosteneinsparungen beim Aufbau eines Diagnosesystems gehen nicht zu Lasten gu-

ter Diagnoseergebnisse, obwohl im Wissensakquisitionskonzept einige Anforderun-

gen aus der Praxis berücksichtigt wurden, die zu einem Informationsverlust führen

können (z.B. Diskretisierung mit »glatten« Intervallgrenzen, Nutzung weniger Meß-

wertintervalle, Einsatz weniger Meßgeräte usw.). Ein weiterer Vorteil liegt in der

Verwendung von heuristischen Diagnoseregeln begründet: Es ist jederzeit die Erklär-

barkeit einer Diagnoseentscheidung durch die Angabe der hierfür relevanten Regeln

gewährleistet.

Ausblick

Neben einer Suche nach neuen Anwendungsbereichen für den vorgestellten Diagno-

seansatz (z.B. pneumatische Anlagen oder andere technische Einsatzfelder) sind für

..

137

6ZUSAMMENFASSUNG UND AUSBLICK ..

weiterführende Arbeiten u.a. die folgenden Punkte denkbar:



Verknüpfung der Hypothesengenerierung mit einer Fehlersimulation: Die aus

der assoziativen Hypothesengenerierung hergeleiteten Verdachtsdiagnosen

können anhand der kausalen Verhaltensmodelle durch Simulation überprüft

werden; dies ist insbesondere dann sinnvoll, wenn die Konfidenzverrechnung

keine eindeutige Diagnose ergibt. Eine solche Strategie wird üblicherweise als

Hypothesize-and-Test bezeichnet (vgl. [Pup91]).



Automatische Optimierung von Wissensbasen: Der Diagnosesystemgenerator

ARGUS kann um die Möglichkeit erweitert werden, systematisch verschiede-

ne Parametervariationen hinsichtlich der damit erzielbaren Diagnosegüte zu te-

sten. Auf diese Weise kann ein selbstoptimierendes System entstehen, das über

die wiederholte Erzeugung von Regelbasen sowie ihre Anwendung auf Simu-

lationsdatenbasen zu einer optimalen Lernparametereinstellung für die zu dia-

gnostizierende Anlage gelangt.



Berücksichtigung von Mehrfachfehlern: Dem vorgestellten Diagnoseansatz

liegt die Annahme zugrunde, daß im Störungsfall nur genau eine Komponente

fehlerhaft ist. In der Praxis kann jedoch das gleichzeitige Auftreten mehrerer

Fehler vorkommen, insbesondere dann, wenn durch den Defekt einer Kom-

ponente Folgeschäden verursacht werden. Da die Einzelfehlerannahme nicht

konzeptionell bedingt ist (vgl. Abschnitt 4.2.1), sollte sich die Berücksichti-

gung von Mehrfachfehlern in den Diagnoseansatz integrieren lassen.



Variable Konfidenz- und Häufigkeitsschwellen in der Lernphase: Durch neue

Testreihen könnte ermittelt werden, ob zur Steuerung der Assoziationsregel-

konstruktion andere Lösungen als die bisherigen starren Konfidenz- und Häu-

figkeitsschwellen sinnvoll sind. So besteht z.B. die Möglichkeit, die Höhe die-

ser Parameter von der Regellänge abhängig zu machen, wie etwa die Verwen-

dung höherer Häufigkeitsschwellen für kurze Regeln.



Berücksichtigung weiterer Randbedingungen: Für den realen Einsatz des Dia-

gnosesystemgenerators sollte ermittelt werden, ob zusätzliche physikalische

oder technische Einschränkungen zu berücksichtigen sind. Diese könnten

z.B. in der Festlegung der zur Verfügung stehenden Meßgeräte oder von

A-priori-Wahrscheinlichkeiten für die Komponentenfehler bestehen.

138 ..

...

A Mathematischer Anhang

A.1 λ-Maße

In diesem Abschnitt wird die Berechnung des Abhängigkeitsmaßes λm1, ausgehend

von Definition 4.7 (Seite 97), hergeleitet.

Seien m1und m2



MMeßstellen mit den zugehörigen Intervallmengen Im1und Im2.

Bezogen auf eine Datenbasis Dnmit nSymptomvektoren wird die beobachtete Häu-

figkeit eines Intervalls i



Im1durch h



i





angegeben (vgl. Abbildung 4.10). Gleich-

zeitig ist h



i





die Anzahl der richtigen Fälle, falls das Intervall izur Vorhersage

für m1dient. Bezogen auf m1ist somit der Vorhersagefehler dann am geringsten,

wenn das häufigste Intervall, also der sog. Modalwert maxi



Im1



h



i





, als Schätzer

genutzt wird. Als minimale Anzahl der Vorhersagefehler ergibt sich dann

e



m1



n



max

i



Im1



h



i







Durch die zusätzliche Auswertung der Intervallverteilung des Meßgeräts m2entsteht

ein Informationsgewinn, der es erlaubt, zu jedem bei m2beobachteten Intervall den

besten Schätzer für m1anzugeben: Falls ein Intervall j



Im2beobachtet wird, ist dies

der auf jbezogene Modalwert maxi



Im1



h



i



j



, und der Vorhersagefehler beträgt

h





j





maxi



Im1



h



i



j



. Die Summe der auf diese Weise für jedes Intervall von

m2bestimmbaren minimalen Vorhersagefehler führt zu

e



m1



m2



∑

j



Im2



h





j





max

i



Im1



h



i



j





Somit ist e



m1



die Anzahl der Vorhersagefehler für m1ohne Berücksichtigung von

m2und e



m1



m2



die Anzahl der Vorhersagefehler für m1mit Berücksichtigung von

m2. Durch Einsetzung in die Formel von Definition 4.7 gelangt man zur folgenden

Berechnung von λm1



m2



:

..

139

AMATHEMATISCHER ANHANG ..

λm1



m2

 

e



m1





e



m1



m2



e



m1





n



maxi



Im1



h



i







∑j



Im2



h





j





maxi



Im1



h



i



j



n



maxi



Im1



h



i







n



maxi



Im1



h



i









n



∑j



Im2maxi



Im1



h



i



j





n



maxi



Im1



h



i







∑j



Im2maxi



Im1



h



i



j





maxi



Im1



h



i





n



maxi



Im1



h



i







Die Abhängigkeit in der Gegenrichtung, also λm2



m1



, ist analog herleitbar.

A.2 Informationsgehalt

Im folgenden wird der informationstheoretische Hintergrund der in Abschnitt 4.6.3

ab Seite 98 besprochenen Bewertungsfunktionen für Diskriminierungsaufwände bei

der Meßstellenauswahl umrissen.

Die von Shannon ([Sha48]) eingeführte Informationstheorie untersucht die Übertra-

gung und Verarbeitung von Nachrichten und die in ihnen enthaltenen Informatio-

nen. Im Gegensatz zur Abgrenzung der Begriffe Daten und Information in Ab-

schnitt 2.1.1, in der ein Kontextbezug als Charakteristikum für Information im Vor-

dergrund steht, wird in der Kommunikationstheorie Information als interpretations-

frei angesehen (vgl. [SW76]: »Information in der Kommunikationstheorie bezieht

sich nicht so sehr auf das, was gesagt wird, sondern mehr auf das, was gesagt wer-

den könnte.«). Es werden also lediglich theoretische Grenzen aufgezeigt, die bei der

Übertragung von Information unabhängig von ihrem Inhalt oder ihrer Bedeutung exi-

stieren.

Der Informationsgehalt eines Ereignisses (z.B. der Empfang eines Zeichens oder der

Ausgang eines Zufallsexperiments) wird abhängig von der Länge einer optimalen

Entscheidungskaskade, die zu seiner Identifizierung (Rekonstruktion) benötigt wird,

definiert. Dazu werden in der Regel binäre Alternativentscheidungen vorausgesetzt

und jede Entscheidung mit einem Bit bewertet. Werden alle Ereignisse der Grund-

mengeinden Blättern eines ausgeglichenenbinärenSuchbaumsplaziert,soentspricht

jede Entscheidungskaskadeeinem Suchpfad von der Wurzel zumgesuchten Blatt. Bei

140 ..

..A.2 INFORMATIONSGEHALT

nmöglichen Ereignissen sind mit Binärsuche log2nEntscheidungen zu treffen; dies

führt zur sogenannten Hartley-Formel ([Har28]).

Definition A.1 (Informationsgehalt eines Ereignisses (Hartley-Formel)): Der In-

formationsgehalt eines Ereignisses ewird mit der Hartley-Formel

I



e



log2nBits

bemessen (auch dann, wenn nkeine Zweierpotenz ist).

¾

Anmerkungen: (i) Bei der Verwendung einer nichtoptimalen Suchstrategie erhöht

sich der Informationsgehalt eines Ereignisses jedoch nicht; statt dessen werden die

Alternativentscheidungen mit weniger als einem Bit bewertet.

(ii) Wenn nicht anders angegeben, besitzen die Logarithmen die Basis 2: log :



log2



Bei nicht gleichverteilten Ereignissen muß eine optimale Entscheidungskaskade die

Ereignismenge injedem Schritt in zwei gleichwahrscheinlicheund nichtmehr in zwei

gleichgroße Teilmengen zerlegen. Dies führt zu der Beziehung

I



e



logn



log 1

P



e



Bits



die sich aus Definition A.1 ergibt, wenn einem Ereignis eaus einer gleichverteilten

Grundmenge von nEreignissen die Wahrscheinlichkeit P



e



1

nzugewiesen wird.

Hiermit wird deutlich, daß die zugrundeliegende Wahrscheinlichkeitsverteilung die

wichtigsteEinflußgröße zur QuantifizierungvonInformationsgehaltenist; nach Shan-

nons Theorie ist Information nur hierin enthalten. Die folgende Definition gibt den

Informationsgehalt beliebiger Wahrscheinlichkeitsverteilungen an.

Definition A.2 (Informationsgehalt und Informationsentropie (Shannon-

Formel)): Es sei Xeine diskrete Zufallsvariable mit den Ausgängen x1



xl.

Die Wahrscheinlichkeitsverteilung sei P



x1





P



xl



, für die ∑l

i



1P



xi



1 gilt.

Dann ist der in Bits gemessene Informationsgehalt eines Ereignisses xiaus Xeine

Funktion I:X



IR



0mit

I



xi



log 1

P



xi





Der mittlere Informationsgehalt eines Ereignisses von Xist der Erwartungswert E



I



über alle möglichen Informationsgehalte. Er wird Informationsentropie H



X



oder

H



P



x1





P



xl



genannt und mit der sogenannten Shannon-Formel in der Einheit

Bits pro Ereignis berechnet:

H



X



H



P



x1





P



xl



:



E



I





l

∑

i



1P



xi





log 1

P



xi





¾

..

141

AMATHEMATISCHER ANHANG ..

Die Informationsentropie entspricht der mittleren Anzahl von Alternativentscheidun-

gen zur Identifizierung eines Ausgangs von Xund ist damit ein Maß dafür, welchen

durchschnittlichen Informationszuwachs die Beobachtung eines Ausgangs liefert. Es

entsteht ein Informationsgewinn, weil die bisherige Unbestimmtheit über das Auftre-

ten der Ereignisse beseitigt wurde. Die Unbestimmtheit wird dabei durch die Wahr-

scheinlichkeitsverteilung determiniert.

Anmerkung: Auf ein konkretes Ereignis bezogen ist der Informationsgewinn um so

größer, je kleiner die Wahrscheinlichkeit des betreffenden Ereignisses ist. Allerdings

ist es sinnvoll, den Entropiebeitrag des »unendlichen« Informationsgehalts I



e



log 1

0eines unmöglichen Ereignisses emit P



e



0 als Null anzusehen, denn es gilt

(siehe z.B. [Top74]):

lim

x





0



x



log 1

x





0



Der folgende Satz gibt an, daß die Informationsentropie für eine Wahrscheinlich-

keitsverteilung ihren Maximalwert bei der Gleichverteilung annimmt (ein Beweis ist

z.B. in [HQ95] zu finden).

Satz A.1 (Maximale Informationsentropie): Sei Xeine diskrete Zufallsvariablemit

l



IN Ausgängen x1



xlund der Wahrscheinlichkeitsverteilung P



x1





P



xl



,

für die ∑l

i



1P



xi



1 gilt. Dann ist stets

H



X





logl



wobei die Gleichheit genau dann gilt, wenn P



X



gleichverteilt ist, d.h. falls P



x1







P



xl



1

l.

¾

142 ..

...

B Ergebnistabellen

Die Ergebnistabellen zeigen detailliertdie Resultate von mehreren Testreihen, die mit

zwei Beispielanlagen durchgeführt wurden. Jeder Einzeltest einer Testreihe bestand

aus den folgenden Schritten:

1. Festlegung einer Parameterkombination aus Konfidenzschwelle γund Anzahl

optionaler Meßgeräte v.

2. Erzeugung von jeweils einer Regelmenge für jede Anlagenphase unter Berück-

sichtigung der Parameterkombination γ/v; Lerndatenbasis ist Dlern.

3. Diagnose aller Testfälle durch Anwendung der Regelmengen auf

(a) Lerndatenbasis Dlern,

(b) Testdatenbasis Dvar1mit leichten Fehlervariationen und

(c) Testdatenbasis Dvar2mit mittleren bis schweren Fehlervariationen.

Für jede Testreihe variierte die Konfidenzschwelle γvon 1



0 bis 0



1 und die Anzahl v

der optionalen Meßgeräte von 0 bis 6. Als Häufigkeitsschwelle wurde immer σ



0

verwendet. Die wichtigsten Charakteristika der im folgenden untersuchten Testanla-

gen sind:

Anz. Haupt- Anz. Abtriebs- Anzahl Anzahl

Testanlage Abbildung komponenten komponenten Phasen Meßstellen1

15.2,S.123 9296



38

24.6,S.76 15 3 10 7



36

Die Datenbasen für die Simulationsprotokolle hatten nach der Aufbereitung der mit

dem Simulationswerkzeug artdeco erzeugten Daten (siehe Abschnitte 4.4 bis 4.6) fol-

gende Eigenschaften:

1 Feste + variable Meßstellen (vgl. Abschnitt 4.6.1).

..

143

BERGEBNISTABELLEN ..

Anz. Anz. Anz. /

0Intervalle Abb. Ergeb-

Datenbasis Fehler Zeilen Spalten2pro Spalte3nistabelle

Testanlage 1 Dlern 11 432

"



#



$

46

B.1,S.145

Dvar120 756 2



53 B.2,S.146

Dvar230 1116 B.3,S.147

Testanlage 2 Dlern 14 280

"



#



$

45

B.4,S.148

Dvar128 560 2



49 B.5,S.149

Dvar228 560 B.6,S.150

Auf einem K6/2-Rechner mit 400 MHz betragen die Zeiten für die Simulation einer

Betriebssituation etwa 40 Sekunden für die Testanlage 1 und etwa 200 Sekunden für

die Testanlage 2. Die Assoziationsregelerzeugung dauert inklusive der Datenvorver-

arbeitung in Abhängigkeit von der Parameterwahl etwa eine Sekunde bis etwa eine

Minute, die Diagnose (Regelanwendung) pro Störungsfall nur Sekundenbruchteile.

In den Ergebnistabellen besteht jeder Eintrag aus den folgenden vier Werten:

d



d1



d2



R



Dabei ist mit den Kriterien aus Definition 5.1 (Seite 126)



d1der Anteil der korrekten Einzeldiagnosen,



d2der Anteil der korrekten Diagnosenmengen,



d





d1



d2der summierte Anteil der korrekten Diagnosen und

 

R



die Anzahl der mit den Parametern γund verzeugten Diagnoseregeln.

Für jede Meßstellenanzahl vstellen die umrahmten Werte das beste Diagnoseergebnis

d



dar, wobei bei gleichen Ergebnissen dasjenige mit der kleinsten Regelanzahl



R



markiert ist.

2 Inklusive Fehler- und Phasenangabe.

3 Die durchschnittliche Anzahl der Intervalle pro Spalte ist über alle Meßstellen und alle Anlagen-

phasen gemittelt.

144 ..

..BERGEBNISTABELLEN

Anzahl zusätzlicher Meßgeräte v

γ0123456

1



00



59

0



59



0



00

82

0



95

0



95



0



00

161

0



98

0



98



0



00

263

1



00

1



00



0



00

369

1



00

1



00



0



00

486

1



00

1



00



0



00

619

1



00

1



00



0



00

685

0



90



59

0



59



0



00

82

0



95

0



95



0



00

161

0



98

0



98



0



00

263

1



00

1



00



0



00

369

1



00

1



00



0



00

486

1



00

1



00



0



00

619

1



00

1



00



0



00

685

0



80



59

0



59



0



00

82

0



95

0



95



0



00

161

0



98

0



98



0



00

265

1



00

1



00



0



00

371

1



00

1



00



0



00

488

1



00

1



00



0



00

623

1



00

1



00



0



00

689

0



70



61

0



57



0



05

86

0



95

0



91



0



05

170

0



98

0



93



0



05

278

1



00

0



98



0



02

388

1



00

0



98



0



02

509

1



00

0



98



0



02

649

1



00

0



98



0



02

717

0



60



64

0



57



0



07

92

0



95

0



91



0



05

182

0



98

0



93



0



05

298

1



00

0



98



0



02

420

1



00

0



98



0



02

547

1



00

0



98



0



02

702

1



00

0



98



0



02

775

0



50



66

0



61



0



05

181

1



00

0



95



0



05

349

1



00

1



00



0



00

518

1



00

1



00



0



00

728

1



00

1



00



0



00

922

1



00

1



00



0



00

1164

1



00

1



00



0



00

1322

0



40



66

0



61



0



05

187

1



00

0



95



0



05

362

1



00

0



98



0



02

537

1



00

1



00



0



00

760

1



00

1



00



0



00

968

1



00

1



00



0



00

1229

1



00

1



00



0



00

1402

0



30



82

0



64



0



18

255

1



00

0



95



0



05

463

1



00

0



98



0



02

685

1



00

1



00



0



00

966

1



00

1



00



0



00

1221

1



00

1



00



0



00

1560

1



00

1



00



0



00

1766

0



20



95

0



61



0



34

432

1



00

0



95



0



05

732

1



00

1



00



0



00

999

1



00

1



00



0



00

1394

1



00

1



00



0



00

1722

1



00

1



00



0



00

2126

1



00

1



00



0



00

2446

0



10



98

0



61



0



36

852

1



00

0



95



0



05

1254

1



00

1



00



0



00

1784

1



00

1



00



0



00

2269

1



00

1



00



0



00

2918

1



00

1



00



0



00

3385

1



00

1



00



0



00

4072

Abbildung B.1: Diagnosegüte und Regelanzahl zur Testanlage 1 mit Lernbasis Dlern

(in Abhängigkeit von den Lernparametern Mindestkonfidenz γund

Anzahl zusätzlicher Meßgeräte v)

..

145

BERGEBNISTABELLEN ..

Anzahl zusätzlicher Meßgeräte v

γ0123456

1



00



45

0



41



0



04

82

0



81

0



56



0



25

161

0



89

0



50



0



39

263

0



94

0



47



0



47

369

0



95

0



44



0



51

486

0



99

0



43



0



56

619

0



99

0



40



0



59

685

0



90



45

0



41



0



04

82

0



81

0



56



0



25

161

0



89

0



50



0



39

263

0



94

0



47



0



47

369

0



95

0



44



0



51

486

0



99

0



43



0



56

619

0



99

0



40



0



59

685

0



80



45

0



41



0



04

82

0



81

0



56



0



25

161

0



89

0



50



0



39

265

0



94

0



47



0



47

371

0



95

0



44



0



51

488

0



99

0



43



0



56

623

0



99

0



40



0



59

689

0



70



47

0



41



0



06

86

0



81

0



54



0



27

170

0



89

0



46



0



43

278

0



94

0



45



0



49

388

0



95

0



43



0



52

509

0



99

0



42



0



57

649

0



99

0



39



0



60

717

0



60



47

0



41



0



06

92

0



81

0



54



0



27

182

0



89

0



46



0



43

298

0



94

0



45



0



49

420

0



95

0



43



0



52

547

0



99

0



42



0



57

702

0



99

0



39



0



60

775

0



50



52

0



44



0



08

181

0



81

0



56



0



25

349

0



89

0



50



0



39

518

0



94

0



47



0



47

728

0



95

0



44



0



51

922

0



99

0



43



0



56

1164

0



99

0



40



0



59

1322

0



40



52

0



44



0



08

187

0



81

0



56



0



25

362

0



89

0



50



0



39

537

0



94

0



47



0



47

760

0



95

0



44



0



51

968

0



99

0



43



0



56

1229

0



99

0



40



0



59

1402

0



30



64

0



45



0



19

255

0



84

0



56



0



28

463

0



90

0



50



0



40

685

0



94

0



47



0



47

966

0



95

0



44



0



51

1221

0



99

0



43



0



56

1560

0



99

0



40



0



59

1766

0



20



80

0



44



0



36

432

0



81

0



56



0



25

732

0



89

0



50



0



39

999

0



94

0



47



0



47

1394

0



95

0



44



0



51

1722

0



99

0



43



0



56

2126

0



99

0



40



0



59

2446

0



10



81

0



45



0



36

852

0



81

0



56



0



25

1254

0



89

0



50



0



39

1784

0



94

0



47



0



47

2269

0



95

0



44



0



51

2918

0



99

0



43



0



56

3385

0



99

0



40



0



59

4072

Abbildung B.2: Diagnosegüte und Regelanzahl zur Testanlage 1 mit Testbasis Dvar1

(in Abhängigkeit von den Lernparametern Mindestkonfidenz γund

Anzahl zusätzlicher Meßgeräte v)

146 ..

..BERGEBNISTABELLEN

Anzahl zusätzlicher Meßgeräte v

γ0123456

1



00



44

0



36



0



08

82

0



69

0



42



0



27

161

0



74

0



34



0



40

263

0



89

0



32



0



57

369

0



95

0



31



0



64

486

0



96

0



29



0



67

619

0



96

0



26



0



70

685

0



90



44

0



36



0



08

82

0



69

0



42



0



27

161

0



74

0



34



0



40

263

0



89

0



32



0



57

369

0



95

0



31



0



64

486

0



96

0



29



0



67

619

0



96

0



26



0



70

685

0



80



44

0



36



0



08

82

0



69

0



42



0



27

161

0



74

0



34



0



40

265

0



89

0



32



0



57

371

0



95

0



31



0



64

488

0



96

0



29



0



67

623

0



96

0



26



0



70

689

0



70



44

0



31



0



13

86

0



71

0



40



0



31

170

0



74

0



31



0



43

278

0



89

0



32



0



57

388

0



95

0



31



0



64

509

0



96

0



29



0



67

649

0



96

0



26



0



70

717

0



60



44

0



31



0



13

92

0



71

0



40



0



31

182

0



74

0



31



0



43

298

0



89

0



32



0



57

420

0



95

0



31



0



64

547

0



96

0



29



0



67

702

0



96

0



26



0



70

775

0



50



48

0



35



0



13

181

0



70

0



42



0



28

349

0



74

0



34



0



40

518

0



89

0



32



0



57

728

0



95

0



31



0



64

922

0



96

0



29



0



67

1164

0



96

0



26



0



70

1322

0



40



48

0



35



0



13

187

0



71

0



42



0



29

362

0



75

0



34



0



41

537

0



89

0



32



0



57

760

0



95

0



31



0



64

968

0



96

0



29



0



67

1229

0



96

0



26



0



70

1402

0



30



60

0



38



0



22

255

0



73

0



42



0



31

463

0



76

0



34



0



42

685

0



89

0



32



0



57

966

0



95

0



31



0



64

1221

0



96

0



29



0



67

1560

0



96

0



26



0



70

1766

0



20



72

0



36



0



36

432

0



71

0



42



0



29

732

0



74

0



34



0



40

999

0



89

0



32



0



57

1394

0



95

0



31



0



64

1722

0



96

0



29



0



67

2126

0



96

0



26



0



70

2446

0



10



73

0



36



0



37

852

0



72

0



42



0



30

1254

0



75

0



34



0



41

1784

0



89

0



32



0



57

2269

0



95

0



31



0



64

2918

0



96

0



29



0



67

3385

0



96

0



26



0



70

4072

Abbildung B.3: Diagnosegüte und Regelanzahl zur Testanlage 1 mit Testbasis Dvar2

(in Abhängigkeit von den Lernparametern Mindestkonfidenz γund

Anzahl zusätzlicher Meßgeräte v)

..

147

BERGEBNISTABELLEN ..

Anzahl zusätzlicher Meßgeräte v

γ0123456

1



00



43

0



43



0



00

54

0



79

0



79



0



00

99

0



86

0



86



0



00

172

0



86

0



86



0



00

232

0



86

0



86



0



00

286

0



86

0



86



0



00

373

0



86

0



86



0



00

422

0



90



43

0



43



0



00

54

0



79

0



79



0



00

99

0



86

0



86



0



00

172

0



86

0



86



0



00

232

0



86

0



86



0



00

286

0



86

0



86



0



00

373

0



86

0



86



0



00

422

0



80



43

0



43



0



00

54

0



79

0



79



0



00

99

0



86

0



86



0



00

172

0



86

0



86



0



00

232

0



86

0



86



0



00

286

0



86

0



86



0



00

373

0



86

0



86



0



00

422

0



70



43

0



43



0



00

54

0



79

0



79



0



00

99

0



86

0



86



0



00

172

0



86

0



86



0



00

232

0



86

0



86



0



00

286

0



86

0



86



0



00

373

0



86

0



86



0



00

422

0



60



43

0



43



0



00

57

0



79

0



79



0



00

104

0



86

0



86



0



00

181

0



86

0



86



0



00

242

0



86

0



86



0



00

298

0



86

0



86



0



00

394

0



86

0



86



0



00

446

0



50



75

0



43



0



32

102

1



00

0



79



0



21

199

1



00

0



89



0



11

339

1



00

0



89



0



11

450

1



00

0



89



0



11

547

1



00

0



89



0



11

718

1



00

0



89



0



11

804

0



40



75

0



43



0



32

104

1



00

0



79



0



21

206

1



00

0



89



0



11

356

1



00

0



89



0



11

473

1



00

0



89



0



11

574

1



00

0



89



0



11

752

1



00

0



89



0



11

838

0



31



00

0



43



0



57

214

1



00

0



79



0



21

375

1



00

0



86



0



14

567

1



00

0



86



0



14

740

1



00

0



86



0



14

579

1



00

0



86



0



14

1097

1



00

0



86



0



14

1206

0



21



00

0



43



0



57

407

1



00

0



79



0



21

654

1



00

0



86



0



14

935

1



00

0



86



0



14

1179

1



00

0



86



0



14

1370

1



00

0



86



0



14

1659

1



00

0



86



0



14

1786

0



11



00

0



43



0



57

699

1



00

0



79



0



21

1134

1



00

0



86



0



14

1622

1



00

0



86



0



14

2121

1



00

0



86



0



14

2526

1



00

0



86



0



14

2988

1



00

0



86



0



14

3326

Abbildung B.4: Diagnosegüte und Regelanzahl zur Testanlage 2 mit Lernbasis Dlern

(in Abhängigkeit von den Lernparametern Mindestkonfidenz γund

Anzahl zusätzlicher Meßgeräte v)

148 ..

..BERGEBNISTABELLEN

Anzahl zusätzlicher Meßgeräte v

γ0123456

1



00



36

0



34



0



02

54

0



68

0



63



0



05

99

0



80

0



64



0



16

172

0



84

0



61



0



23

232

0



84

0



54



0



30

286

0



84

0



50



0



34

373

0



84

0



50



0



34

422

0



90



36

0



34



0



02

54

0



68

0



63



0



05

99

0



80

0



64



0



16

172

0



84

0



61



0



23

232

0



84

0



54



0



30

286

0



84

0



50



0



34

373

0



84

0



50



0



34

422

0



80



36

0



34



0



02

54

0



68

0



63



0



05

99

0



80

0



64



0



16

172

0



84

0



61



0



23

232

0



84

0



54



0



30

286

0



84

0



50



0



34

373

0



84

0



50



0



34

422

0



70



36

0



34



0



02

54

0



68

0



63



0



05

99

0



80

0



64



0



16

172

0



84

0



61



0



23

232

0



84

0



54



0



30

286

0



84

0



50



0



34

373

0



84

0



50



0



34

422

0



60



36

0



34



0



02

57

0



70

0



65



0



05

104

0



80

0



64



0



16

181

0



84

0



61



0



23

242

0



84

0



54



0



30

298

0



84

0



50



0



34

394

0



84

0



50



0



34

446

0



50



61

0



36



0



25

102

0



82

0



64



0



18

199

0



87

0



64



0



23

339

0



91

0



61



0



30

450

0



91

0



54



0



37

547

0



91

0



50



0



41

718

0



91

0



50



0



41

804

0



40



61

0



36



0



25

104

0



82

0



64



0



18

206

0



87

0



64



0



23

356

0



91

0



61



0



30

473

0



91

0



54



0



37

574

0



91

0



50



0



41

752

0



91

0



50



0



41

838

0



30



79

0



34



0



45

214

0



82

0



64



0



18

375

0



87

0



64



0



23

567

0



91

0



61



0



30

740

0



91

0



54



0



37

579

0



91

0



50



0



41

1097

0



91

0



50



0



41

1206

0



20



79

0



34



0



45

407

0



82

0



64



0



18

654

0



86

0



65



0



21

935

0



89

0



61



0



28

1179

0



89

0



54



0



35

1370

0



89

0



50



0



39

1659

0



89

0



50



0



39

1786

0



10



79

0



34



0



45

699

0



82

0



63



0



19

1134

0



86

0



65



0



21

1622

0



89

0



61



0



28

2121

0



89

0



54



0



35

2526

0



89

0



50



0



39

2988

0



89

0



50



0



39

3326

Abbildung B.5: Diagnosegüte und Regelanzahl zur Testanlage 2 mit Testbasis Dvar1

(in Abhängigkeit von den Lernparametern Mindestkonfidenz γund

Anzahl zusätzlicher Meßgeräte v)

..

149

BERGEBNISTABELLEN ..

Anzahl zusätzlicher Meßgeräte v

γ0123456

1



00



29

0



25



0



04

54

0



59

0



55



0



04

99

0



70

0



54



0



16

172

0



73

0



43



0



30

232

0



73

0



38



0



35

286

0



75

0



38



0



37

373

0



75

0



38



0



37

422

0



90



29

0



25



0



04

54

0



59

0



55



0



04

99

0



70

0



54



0



16

172

0



73

0



43



0



30

232

0



73

0



38



0



35

286

0



75

0



38



0



37

373

0



75

0



38



0



37

422

0



80



29

0



25



0



04

54

0



59

0



55



0



04

99

0



70

0



54



0



16

172

0



73

0



43



0



30

232

0



73

0



38



0



35

286

0



75

0



38



0



37

373

0



75

0



38



0



37

422

0



70



29

0



25



0



04

54

0



59

0



55



0



04

99

0



70

0



54



0



16

172

0



73

0



43



0



30

232

0



73

0



38



0



35

286

0



75

0



38



0



37

373

0



75

0



38



0



37

422

0



60



29

0



25



0



04

57

0



63

0



59



0



04

104

0



70

0



54



0



16

181

0



73

0



43



0



30

242

0



73

0



38



0



35

298

0



75

0



38



0



37

394

0



75

0



38



0



37

446

0



50



57

0



29



0



28

102

0



75

0



59



0



16

199

0



77

0



54



0



23

339

0



80

0



43



0



37

450

0



80

0



38



0



42

547

0



82

0



38



0



44

718

0



82

0



38



0



44

804

0



40



57

0



29



0



28

104

0



75

0



59



0



16

206

0



77

0



54



0



23

356

0



80

0



43



0



37

473

0



80

0



38



0



42

574

0



82

0



38



0



44

752

0



82

0



38



0



44

838

0



30



73

0



25



0



48

214

0



75

0



59



0



16

375

0



77

0



54



0



23

567

0



80

0



43



0



37

740

0



80

0



38



0



42

579

0



82

0



38



0



44

1097

0



82

0



38



0



44

1206

0



20



73

0



25



0



48

407

0



75

0



59



0



16

654

0



75

0



54



0



21

935

0



79

0



43



0



36

1179

0



79

0



38



0



41

1370

0



80

0



38



0



42

1659

0



80

0



38



0



42

1786

0



10



73

0



25



0



48

699

0



75

0



55



0



20

1134

0



75

0



54



0



21

1622

0



79

0



43



0



36

2121

0



79

0



38



0



41

2526

0



80

0



38



0



42

2988

0



80

0



38



0



42

3326

Abbildung B.6: Diagnosegüte und Regelanzahl zur Testanlage 2 mit Testbasis Dvar2

(in Abhängigkeit von den Lernparametern Mindestkonfidenz γund

Anzahl zusätzlicher Meßgeräte v)

150 ..

...

Literaturverzeichnis

[Aig96] M. Aigner. Diskrete Mathematik. Friedr. Vieweg & Sohn Verlagsgesell-

schaft, Braunschweig, Wiesbaden, 1996.

[AIS93] R. Agrawal, T. Imielinski, A. Swami. Mining association rules bet-

ween sets of items in large databases. In Peter Buneman, Sushil Jajo-

dia (Hrsg.), Proceedings of the 1993 ACM SIGMOD International Con-

ference on Management of Data, Washington, D. C., Mai 1993. ACM

Press.

[AMS



96] R. Agrawal, H. Mannila, R. Srikant, H. Toivonen, A. I. Verkamo. Fast

discovery of association rules. In U. M. Fayyad, G. Piatetsky-Shapiro,

P. Smyth, R. Uthurusamy (Hrsg.), Advances in Knowledge Discovery

andDataMining, Seiten 307–328, Cambridge, 1996.AAAI / MIT Press.

[Bay97] R. J. Bayardo Jr. Brute-force mining of high-confidence classification

rules. In Proceedings ofthe Third InternationalConference on Knowled-

ge Discovery in Databases and Data Mining, KDD’97, Seiten 123–126.

AAAI Press, 1997.

[BB89] G. Bamberg, F. Baur. Statistik. R. Oldenbourg Verlag, München, 6. Auf-

lage, 1989.

[BM99] P. Brockhausen, K. Morik. Wissensentdeckung in relationalen Da-

tenbanken: Eine Herausforderung für das maschinelle Lernen. In

G. Nakhaeizadeh (Hrsg.), Data Mining, theoretische Aspekte und An-

wendungen. Physika Verlag, 1999.

[BMS97] S. Brin, R. Motwani, C. Silverstein. Beyond market baskets: Generali-

zing association rules to correlations. In Proceedings of the 1997 ACM

SIGMOD Conference on Management of Data, Seiten 265–276, Tucson,

AZ, Mai 1997.

[BMUT97] S. Brin, R. Motwani, J. D. Ullman, S. Tsur. Dynamic itemset counting

and implication rules for market basket data. In Proceedings of the ACM

SIGMOD International Conference on Management of Data, SIGMOD-

97, Seiten 255–264. ACM Press, Mai 1997.

[Boo88] J. H. Boose. A research framework for knowledgeacquisition techniques

and tools. In Proceedings of the Second European Knowledge Acquisiti-

on Workshop, EKAW-88. GMD-Studien Nr. 143, 1988.

..

151

LITERATURVERZEICHNIS ..

[BS84] B. G. Buchanan, E. H. Shortliffe (Hrsg.). Rule-Based Expert Systems:

The MYCIN Experiments of the Stanford Heuristic Programming Pro-

ject. Addison-Wesley Publishing Company, Reading, Massachusetts,

1984.

[BW98] O. Büchter, R. Wirth. Discovery of association rules over ordinal da-

ta: A new and faster algorithm and its application to basket analysis.

In X. Wu, R. Kotagiri, K. B. Korb (Hrsg.), Research and Development

in Knowledge Discovery and Data Mining, Proceedings of the Second

Pacific-Asia Conference PAKDD-98, Seiten 36–47, Melbourne, Austra-

lia, April 1998. Springer-Verlag, Berlin, Heidelberg, New York.

[CBS91] C.-C. Chan, C. Batur, A. Srinivasan. Determination of quantization in-

tervals in rule based model for dynamic systems. In Proceedings of the

IEEE Conference on Systems, Man, and Cybernetics, Seiten 1719–1723,

Charlottesvile, Virginia, 1991.

[CDF



00] E. Cohen, M. Datar, S. Fujiwara, A. Gionis, P. Indyk, R. Motwani, J. Ull-

man, C. Yang. Finding interesting associations without support pruning.

In Proceedings of the 16th Annual IEEE Conference on Data Enginee-

ring (ICDE 2000), Februar 2000.

[CHC97] C. L. Carter, H. J. Hamilton,N. Cercone. Share based measures for item-

sets. In J. Komorowski, J. Zytkow (Hrsg.), Principles of Data Mining

and Knowledge Discovery: Proceedings of the First European Symposi-

um PKDD ’97, Seiten 14–24, Trondheim, Norway, Juni 1997. Springer-

Verlag, Berlin, Heidelberg, New York.

[CM83] B. Chandrasekaran, S. Mittal. Deep versus compiled knowledge approa-

ches to diagnostic problem solving. AAAI-83, Seiten 349–354, 1983.

[CPDT93] L. Console, L. Portinale, D. T. Dupré, P. Torasso. Second Generation

Expert Systems. Springer-Verlag, Berlin, Heidelberg, New York, 1993.

[Cur96] D. Curatolo. Wissensbasierte Methoden zur effizienten Simulation fluid-

technischerSysteme. Dissertation,Universität-GesamthochschulePader-

born, Fachbereich Mathematik/Informatik, 1996.

[DD87] H. Dreyfus, S. Dreyfus. Künstliche Intelligenz: Von den Grenzen der

Denkmaschinen und dem Wert der Intuition. Rororo, 1987.

[DD98] A. K. Dörp, W. Dücker. Meßtechnik in der Hydraulik. VDE-Verlag,

Berlin, Offenbach, 1998.

152 ..

..LITERATURVERZEICHNIS

[DKS95] J. Dougherty, R. Kohavi, M. Sahami. Supervised and unsupervised dis-

cretization of continuous features. In A. Prieditis, S. Russell (Hrsg.),

Proceedings of the 12th International Conference on Machine Learning,

Seiten 194–202, Tahoe City, CA, Juli 1995. Morgan Kaufmann, Menlo

Park, CA.

[dKW87] J. de Kleer, B. C. Williams. Diagnosing multiple faults. Artificial Intel-

ligence, 32, Seiten 97–130, 1987.

[DL98] G. Dong, J. Li. Interestingness of discovered associationrules in terms of

neighborhood-based unexpectedness. In X. Wu, R. Kotagiri, K. B. Korb

(Hrsg.), Research and Development in Knowledge Discovery and Data

Mining, Proceedings of the Second Pacific-Asia Conference PAKDD-98,

Seiten 72–86, Melbourne, Australia, April 1998. Springer-Verlag, Ber-

lin, Heidelberg, New York.

[DRSS97] J. S. Deogun, V. V. Raghavan, A. Sarkar, H. Sever. Data mining: Reser-

ach trends, challanges, and applications. In T. Y. Lin, N. Cercone (Hrsg.),

Rough Sets and Data Mining: Analysis of Imprecise Data, Seiten 9–45.

Kluwer Academic Publishers, Boston, MA, 1997.

[Düs99] R. Düsing. Knowledge Discovery in Databases und Data Mining. In

P. Chamoni, P. Gluchowski (Hrsg.), Analytische Informationssysteme:

Data Warehouse, On-Line Analytical Processing, Data Mining, Seiten

345–353. Springer-Verlag, Berlin, Heidelberg, New York, 1999.

[DZWL99] G. Dong, X. Zhang, L. Wong, J. Li. CAEP: Classification by aggregating

emerging patterns. Discovery Science, 1999.

[EMT95] A. Engel, M. Möhring, K. G. Troitzsch. Sozialwissenschaftliche Da-

tenanalyse. BI-Wissenschaftsverlag, Mannheim, Leipzig, Wien, Zürich,

1995.

[FdK93] K. D. Forbus, J. de Kleer. Building Problem Solvers. MIT Press, Cam-

bridge, Massachusetts, 1993.

[FI92] U. M. Fayyad, K. B. Irani. On the handling of continuous-valued attri-

butes in decision tree generation. Machine Learning, 8, Seiten 87–102,

1992.

[FMMT96] T. Fukuda, Y. Morimoto, S. Morishita, T. Tokuyama. Mining optimized

association rules for numeric attributes. In Proceedings of the Fifteenth

ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database

Systems, Seiten 182–191, Montreal, Canada, Juni 1996. ACM Press.

..

153

LITERATURVERZEICHNIS ..

[FPS96] U. Fayyad, G. Piatetsky-Shapiro, P. Smyth. From data mining to know-

ledge discovery in databases. In AI Magazine, Band 17, Seiten 37–54.

AAAI Press, Menlo Park, CA, 1996.

[FPSU96] U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy. Advan-

ces in Knowledge Discovery andData Mining. AAAI / MIT Press, Cam-

bridge, 1996.

[GG00] M. Grothe, P. Gentsch. Business Intelligence. Addison-Wesley Verlag,

2000.

[GGP98] S. Guillaume, F. Guillet, J. Philippe. Improving the discovery of asso-

ciation rules with intensityof implication. In J. M. Zytkow, M. Quafafou

(Hrsg.), Principles of Data Mining and Knowledge Discovery, Second

European Symposium PKDD-98, Seiten 318–327, Nantes, France, Sep-

tember 1998. Springer-Verlag, Berlin, Heidelberg, New York.

[GK54] L. Goodman, W. Kruskal. Measure of association for cross classificati-

on. Journal of the American Statistical Association, 49, Seiten 732–764,

1954.

[GKP



83] J. Gaschnig, P. Klahr, H. Pople, E. Shortliffe, A. Terry. Evaluation of

expert systems: Issues and case studies. In F. Hayes-Roth, D. A. Wa-

terman, D. B. Lenat (Hrsg.), Building Expert Systems, Seiten 241–280.

Addison-Wesley Publishing Company, Reading, Mass., 1983.

[GO98] B. Gray, M. E. Orlowska. CCAIIA: Clustering categorical attributes

into interesting association rules. In X. Wu, R. Kotagiri, K. B. Korb

(Hrsg.), Research and Development in Knowledge Discovery and Da-

ta Mining, Proceedings of the Second Pacific-Asia Conference PAKDD-

98, Seiten 132–143, Melbourne, Australia, April 1998. Springer-Verlag,

Berlin, Heidelberg, New York.

[Har28] R. V. L. Hartley. Transmission of information. Technical report, Bell

System Technical Journal, 1928.

[Har89] J. Hartung. Statistik. R. Oldenbourg Verlag, München, 7. Auflage, 1989.

[HCHC98] R. J. Hilderman, C. L. Carter, H. J. Hamilton, N. Cercone. Mining mar-

ket basket data using share measures and characterized itemsets. In

X. Wu, R. Kotagiri, K. B. Korb (Hrsg.), Research and Development

in Knowledge Discovery and Data Mining, Proceedings of the Second

Pacific-Asia Conference PAKDD-98, Seiten 159–173, Melbourne, Au-

stralia, April 1998. Springer-Verlag, Berlin, Heidelberg, New York.

154 ..

..LITERATURVERZEICHNIS

[Hel96] H. Helbig. Künstliche Intelligenz und automatische Wissensverarbei-

tung. Verlag Technik, Berlin, 2. Auflage, 1996.

[Hes99] T. Hesse. Zur wissensbasierten Diagnose fluidischer Systeme und au-

tomatischen Generierung von dialogbasierten Diagnoseunterstützungs-

systemen. Dissertation, Universität-Gesamthochschule Paderborn, Fach-

bereich Mathematik/Informatik, 1999.

[HK89] C. Hestermann, S. Karl. Methoden und Werkzeuge für die Wissensak-

quisition. Technical Report 7/89, Universität Karlsruhe, Fakultät für In-

formatik, Mai 1989.

[HL90] D. Hartmann, K. Lehner. Technische Expertensysteme. Springer-Verlag,

Berlin, Heidelberg, New York, 1990.

[HMS88] E. Hering, R. Martin, M Stohrer. Physik für Ingenieure. VDI-Verlag,

Düsseldorf, 1988.

[Hof99] M. Hoffmann. Zur Automatisierung des Designprozesses fluidischer Sy-

steme. Dissertation, Universität-Gesamthochschule Paderborn, Fachbe-

reich Mathematik/Informatik, 1999.

[Hol93] R. C. Holte. Very simple classification rules perform well on most com-

monly used datasets. Machine Learning, 11, Seiten 63–90, 1993.

[HQ95] W. Heise, P. Quattrocchi. Informations- und Codierungstheorie.

Springer-Verlag, Berlin, Heidelberg, New York, 1995.

[HS94] M. Holsheimer, A. Siebes. The search for knowledgein databases. Tech-

nical report, Centrum voor Wiskunde en Informatica, 1994.

[HS97] K. M. Ho, P. D. Scott. Zeta: A global method for discretization of con-

tinuous variables. In Proceedings of KDD-97, The Third International

Conference on Knowledge Discovery and Data Mining, Seiten 191–194,

Newport Beach, CA., August 1997. AAAI Press.

[HS98] K. M. Ho, P. D. Scott. An efficient global discretization method. In

X. Wu, R. Kotagiri, K. B. Korb (Hrsg.), Proceedings of PAKDD-98,

The Second Pacific-Asia Conference on Knowledge Discovery and Data

Mining, Seiten 383–384, Melbourne, Australia, April 1998. Springer-

Verlag, Berlin, Heidelberg, New York.

[HSA99] J. Heinsohn, R. Socher-Ambrosius. Wissensverarbeitung. Spektrum

Akademischer Verlag, Heidelberg, Berlin, 1999.

..

155

LITERATURVERZEICHNIS ..

[Inm96] W. H. Inmon. Building the Data Warehouse. John Wiley & Sons, New

York, 2. Auflage, 1996.

[KCH



95] H. Kleine Büning, D. Curatolo, M. Hoffmann, R. Lemmen, M. Suer-

mann, B. Stein. ArtDeco – Entwurfsunterstützung in der Hydraulik. KI

5/95, 1995.

[KE97] A. Kemper, A. Eickler. Datenbanksysteme. R. OldenbourgVerlag, Mün-

chen, Wien, 2. Auflage, 1997.

[Ker92] R. Kerber. ChiMerge: Discretization of numeric attributes. In AAAI-92,

Proceedings of the Tenth National Conference on Artificial Intelligence,

Seiten 123–128. AAAI Press/MIT Press, Menlo Park, 1992.

[KFW98] C. M. Kuok, A. Fu, M. H. Wong. Mining fuzzy association rules in

databases. SIGMOD Record, 27, Seiten 41–46, 1998.

[Kir97] J. Kirchner. Transformationsprogramme und Extraktionsprozesse ent-

scheidungsrelevanter Basisdaten. In H. Mucksch, W. Behme (Hrsg.),

Das Data Warehouse-Konzept. Gabler Verlag, Wiesbaden, 2. Auflage,

1997.

[KL90] W. Karbach, M. Linster. Wissensakquisition für Expertensysteme. Tech-

niken, Modelle und Softwarewerkzeuge. Hanser, München, 1990.

[KL94] H. Kleine Büning, T. Lettmann. Aussagenlogik: Deduktion und Algo-

rithmen. B. G. Teubner, Stuttgart, 1994.

[KLKF98] F. Korn, A. Labrinidis, Y. Kotidis,C. Faloutsos. Ratio rules: A new para-

digm for fast, quantifiable data mining. In Proceedings of 24th Interna-

tionalConference on Very Large Databases(VLDB’98), Seiten 582–593,

New York City, New York, USA, August 1998.

[KMRV94] M. Klemettinen, H. Mannila, P. Ronkainen, A. I. Verkamo. Finding in-

teresting rules from large sets of discovered association rules. In N. R.

Adan, B. K. Bhargava, Y. Yesha (Hrsg.), Third International Conference

on Information and Knowledge Management, Seiten 401–407, Gaithers-

burg, Maryland, November 1994. ACM Press.

[Kry98a] M. Kryszkiewics. Representative association rules and minimum con-

dition maximum consequence association rules. In J. M. Zytkow,

M. Quafafou (Hrsg.), Principles of Data Mining and Knowledge Dis-

covery, Second European Symposium PKDD-98, Seiten 361–369, Nan-

tes, France, September 1998. Springer-Verlag, Berlin, Heidelberg, New

York.

156 ..

..LITERATURVERZEICHNIS

[Kry98b] M. Kryszkiewicz. Representative association rules. In X. Wu, R. Kota-

giri, K. B. Korb (Hrsg.), Research and Development in Knowledge Dis-

covery and Data Mining, Proceedings of the Second Pacific-Asia Con-

ference PAKDD-98, Seiten 198–209, Melbourne, Australia, April 1998.

Springer-Verlag, Berlin, Heidelberg, New York.

[Les96] S. Leschka. Fallbasiertes Störungsmanagement in flexiblen Fertigungs-

systemen. Dissertation, Universität-GesamthochschulePaderborn, Heinz

Nixdorf Institut, 1996. HNI-Verlagsschriftenreihe, Band 15; Rechnerin-

tegrierte Produktion.

[LHM98] B. Liu, W. Hsu, Y. Ma. Integrating classification and association rule

mining. In R. Agrawal, P. Storloz, G. Piatetsky-Shapiro (Hrsg.), Procee-

dings of the Fourth International Conference on Knowledge Discovery

in Databases and Data Mining, KDD’98, Seiten 80–86, New York, NY,

1998. AAAI Press.

[Lus90] M. Lusti. Wissensbasierte Systeme: Algorithmen, Datenstrukturen und

Werkzeuge. BI-Wissenschaftsverlag, Mannheim, Wien, Zürich, 1990.

[Man97] H. Mannila. Methodsand problemsindata mining. In F. N. Afrati, P. Ko-

laitis (Hrsg.), Proceedings of the 6th International Conference on Data-

base Theory ICDT ’97, Delphi, Griechenland, Januar 1997. Springer-

Verlag, Berlin, Heidelberg, New York.

[Mat91] H. J. Matthies. Einführung in die Ölhydraulik. B. G. Teubner, Stuttgart,

1991.

[Mer80] P. Mertens. Die Theorie der Mustererkennung in den Wirtschaftswis-

senschaften. In I. Dahlberg (Hrsg.), Studien zur Klassifikation, Bd. 4:

Klassifikation und Erkenntnis, Proceedings der 3. Fachtagung der Ge-

sellschaft für Klassifikation e. V., Frankfurt, 1980. Indeks-Verlag.

[MY97] R. Miller, Y. Yang. Association rules over interval data. In Proceedings

of the ACM SIGMOD International Conference on Managementof Data,

SIGMOD-97, Seiten 452–461, Tucson, Arizona, USA, Mai 1997. ACM

Press.

[NL94] J. Niebuhr, G. Lindner. Physikalische Meßtechnik mit Sensoren. R. Ol-

denbourg Verlag, München, Wien, 3. Auflage, 1994.

[Pfa95] B. Pfahringer. Compression-based discretization of continuous attribu-

tes. In A. Prieditis, S. Russell (Hrsg.), Proceedings of the 12th Inter-

national Conference on Machine Learning. Morgan Kaufmann, Menlo

Park, CA, Juli 1995.

..

157

LITERATURVERZEICHNIS ..

[PGPB96] F. Puppe, U. Gappa, K. Poeck, S. Bamberger. Wissensbasierte Diagnose-

und Informationssysteme. Springer-Verlag, Berlin, Heidelberg, New

York, 1996.

[Pol97] W. Polasek. Schließende Statistik. Springer-Verlag, Berlin, Heidelberg,

New York, 1997.

[PR93] T. Pfeifer, M. M. Richter (Hrsg.). Diagnose von technischen Systemen.

DUV, Deutscher Universitäts-Verlag, Wiesbaden, 1993.

[Pup90] F. Puppe. Problemlösungsmethoden für Expertensysteme. Springer-

Verlag, Berlin, Heidelberg, New York, 1990.

[Pup91] F. Puppe. Einführung in Expertensysteme. Springer-Verlag, Berlin, Hei-

delberg, New York, 2. Auflage, 1991.

[QR89] J. R. Quinlan, R. L. Rivest. Inferring decision trees using the minimum

description length principle. Information and Computing, 80, Seiten

227–248, 1989.

[Qui93] J. R. Quinlan. C4.5: Programs for Machine Learning. Morgan Kauf-

mann Publishers, San Mateo, CA, 1993.

[Rap96] R. Rapp. Die Berechnung von Assoziationen: ein korpuslinguistischer

Ansatz. Dissertation, Universität Konstanz, Informationswissenschaft,

1996.

[Ric89] M. M. Richter. Prinzipien der künstlichen Intelligenz: Wissensrepräsen-

tation, Inferenz und Expertensysteme. B. G. Teubner, Stuttgart, 1989.

[RMS98] S. Ramaswamy, S. Mahajan, A. Silberschatz. On the discovery of inte-

resting patterns in association rules. In A. Gupta, O. Shmueli, J. Widom

(Hrsg.), VLDB’98, Proceedings of 24th International Conference on Ve-

ry Large Data Bases, Seiten 368–379, New York City, New York, USA,

August 1998. Morgan Kaufmann.

[RP99] P. Rechenberg, G. Pomberger. Informatik-Handbuch. Carl Hanser Ver-

lag, München, Wien, 2. Auflage, 1999.

[RR95] M. Richeldi, M. Rossotto. Class-driven statistical discretization of con-

tinuous attributes. In N. Lavrac, S. Wrobel (Hrsg.), ECML-95, Procee-

dings of the European Conference on Machine Learning, Seiten 335–

338. Springer-Verlag, Berlin, Heidelberg, New York, 1995.

158 ..

..LITERATURVERZEICHNIS

[SA96] R. Srikant, R. Agrawal. Mining quantitative association rules in large

relational tables. In H. V. Jagadish, I. S. Mumick (Hrsg.), Proceedings

of the 1996 ACM SIGMOD International Conference on Management of

Data, Seiten 1–12, Montreal, Quebec, Canada, Juni 1996. ACM Press.

[SBMU00] C. Silverstein, S. Brin, R. Motwani, J. D. Ullman. Scalable techniques

for mining causal structures. Data Mining and Knowledge Discovery,

4(2/3), Seiten 163–192, 2000.

[SCH98] B. Stein, D. Curatolo, M. Hoffmann. Simulation in FluidSIM. Technical

Report tr-ri-98-194, Universität-Gesamthochschule Paderborn, Fachbe-

reich Mathematik/Informatik, 1998.

[Sha48] C. E. Shannon. A mathematical theoryof communication. In BellSystem

Technical Journal, Band 27, Seiten 379–423, Juli 1948.

[Sho76] E. H. Shortliffe. Computer Based Medical Consultations: MYCIN. El-

sevier, New York, 1976.

[SL92] B. Stein, R. Lemmen. ArtDeco: A system which assists the checking

of hydraulic circuits. Workshop for Model-based Reasoning, ECAI-92,

1992.

[ST96] A. Silberschatz, A. Tuzhilin. What makes patterns interesting in know-

ledge discovery. IEEE Transactions on Knowledge and Data Enginee-

ring, 8(6), Seiten 970–974, Dezember 1996.

[Ste01] B. Stein. Model construction in analysis and synthesis tasks. Habilita-

tionsschrift, Universität-GesamthochschulePaderborn, Fachbereich Ma-

thematik/Informatik, 2001.

[SW76] C. E. Shannon, W. Weaver. Mathematische Grundlagen der Informati-

onstheorie. R. Oldenbourg Verlag, München, 1976.

[Top74] F. Topsœ. Informationstheorie. B. G. Teubner, Stuttgart, 1974.

[TS89] N. H. C. Thuy, P. Schupp. Wissensverarbeitung und Expertensysteme.

R. Oldenbourg Verlag, München, 1989.

[Ums92] W. Umstätter. Die evolutionsstrategische Entstehung von Wissen. In

Deutsche Sektion der Internationalen Gesellschaft für Wissensorganisa-

tione. V. (Hrsg.), FortschritteinderWissensorganisation,Band 2, Seiten

1–11, Frankfurt, 1992. Indeks-Verlag.

..

159

LITERATURVERZEICHNIS ..

[Wac93] I. Wachsmuth et al. Expertensysteme, Planen und Problemlösen. In

G. Görz (Hrsg.), Einführung in die künstliche Intelligenz. Addison-

Wesley Verlag, Bonn, Paris, Reading, 1. Auflage, 1993.

[WI98] S. M. Weiss, N. Indurkhya. Predictive Data Mining. Morgan Kaufmann,

San Francisco, 1998.

[Wro98] S. Wrobel. Data Mining und Wissensentdeckung in Datenbanken. KI

1/1998, Seiten 6–10, 1998.

[WZH00] Ke Wang, S. Zhou, Y. He. Growing decision trees on support-less asso-

ciation rules. In Proceedings of the Sixth ACM SIGKDD International

Conference on Knowledge Discovery and Data Mining, Seiten 265–269,

Boston, MA, August 2000.

[Zim93] H.-J.Zimmermann. Fuzzy-Technologien. VDI-Verlag, Düsseldorf, 1993.

[ZS92] J. Zeitler, G. Simon. Physik für Techniker und technische Berufe. Fach-

buchverlag Leipzig, 1992.

160 ..