scieee Science in your language
[de] (orig)
Verhaltenseffektivität von Alarmen:
Experimentelle Untersuchungen zum Einfluss von Reliabilität
und Prüfmöglichkeit auf die Anwendung von Heuristiken
Von der Fakultät V
für Verkehrs- und Maschinensysteme
der Technischen Universität Berlin
im DFG-Graduiertenkolleg
„Prospektive Gestaltung von Mensch-Technik-Interaktion“
zur Erlangung des akademischen Grades
eines Doktors der Naturwissenschaften (Dr. rer. nat.)
genehmigte Dissertation.
vorgelegt von
Dipl.-Psych. Nina Gérard
aus Heidelberg
Promotionsausschuss:
Vorsitzender: Prof. Dr.-Ing. Henning Meyer
Gutachter: Prof. Dr. phil. Dietrich Manzey
Gutachter: Prof. Dr.-Ing. Günter Wozny
Tag der wissenschaftlichen Aussprache: 16. Dezember 2011
Berlin 2012
D 83
Danksagung
Das Entstehen der vorliegenden Arbeit hat nicht nur mich in den letzten Jahren eingehend
beschäftigt, sondern noch zahlreiche andere Personen, die das Gelingen dieser Arbeit maß-
geblich unterstützt haben und ohne die ich von dieser intensiven Zeit nicht hätte so profitieren
können. An erster Stelle möchte ich dabei meinem Doktorvater Dietrich Manzey danken, der
seinem Namen durch eine intensive Betreuung alle Ehre machte. Vor allem durch seine
Konsequenz habe ich in den vier Jahren sehr viel dazugelernt und mich weiterentwickelt.
Ähnliche Geduld wies auch Marcus Bleil bei der Programmierung und Umprogrammierung
des Untersuchungs-Paradigmas auf, welches mir die Experiment-Durchführung und -
Auswertung so komfortabel wie möglich gestaltete.
Vielen Dank für die stets sehr motivierte und engagierte Mithilfe meiner studentischen Hilfs-
kräfte Thomas Nicolai, Paul Hoepner und Marlene Vogel; für das Durchführen und Doku-
mentieren von zwei mir sehr wichtigen Untersuchungen ein großes Lob und Danke an meine
Masterstudentin Ulrike Schmuntzsch und meine Diplomandin Juliane Zorn.
Auf der motivationalen Ebene möchte ich meinen Kolleg/innen des Graduiertenkollegs
prometei für die unvergessliche Zeit danken. Ich habe selten einen solchen Zusammenhalt,
eine solche Hilfsbereitschaft und Loyalität erlebt wie sie täglich in „unserem Gang“ zu spüren
war. Ich danke Anna, Anne, Christian, Janna, Micha, Nele und Rebecca fürs Zuhören, Erzäh-
len, Aufmuntern, Beruhigen, Motivieren, Ablenken und dafür, dass diese Zeit nicht nur mit
Arbeit, sondern auch mit tollen Erlebnissen und Situationen verbunden war. Besonderen
Dank meinen „Doktorgeschwistern“ Rebecca und Torsten, mit denen der fachliche Austausch
über etliche Blockaden hinweg half und die einem immer das Gefühl gaben, das Richtige zu
tun.
Vielen Dank für die großzügigen finanziellen Mittel der DFG; vor allem für das Ermöglichen,
Familie und Forschung unter einen Hut zu bringen.
Last but not least möchte ich von ganzem Herzen den beiden Menschen danken, die wohl am
meisten unter den unterschiedlichen Entstehungsphasen der Arbeit bzw. meinen damit ver-
bundenen Launen leiden mussten. Meinem Freund Dirk danke ich dafür, dass er besagte
Launen immer mal mit Humor, mal mit Verständnis zu behandeln wusste. Ohne seinen
vollen zeitlichen, fürsorglichen, motivationalen und emotionalen Einsatz wäre ich wohl
verzweifelt. Meiner Tochter Mieka danke ich für das Ausstrahlen unendlicher Energie und
Lebensfreude, das einem immer wieder dabei half, die Prioritäten richtig zu setzen.
Kurzzusammenfassung
Die zunehmende Übertragung von Aufgaben vom Menschen auf die Maschine führte in den
letzten Jahren dazu, dass die Rolle des Menschen als aktiver Operateur zunehmend durch die
des Überwachers eines Prozesses bzw. zugrundeliegenden Systems ersetzt wurde. Bei der
Überwachung komplexer Prozesse, in denen Produktivität und Sicherheit eine übergeordnete
Rolle spielen – wie zum Beispiel in der Produktionsindustrie (Chemieanlagen, Kernkraftwer-
ke) – werden Operateure von Alarmsystemen in ihrer Überwachungsaufgabe unterstützt.
Diese Systeme geben dem Operateur binäre Hinweise (Alarm oder kein Alarm) über den
Zustand des Systems. Um dabei keine kritischen Systemzustände zu verpassen, wird die
Reaktionsschwelle eines Alarmsystems üblicherweise sehr niedrig angesetzt, was zum Prob-
lem eines hohen Anteils falscher Alarme führt. Um trotz der resultierenden Flut von Alarmen
Ressourcen für die Überwachungsaufgabe und mögliche Nebenaufgaben aufrecht zu erhalten,
ist eine verbreitete Strategie, einen Großteil von Alarmen zu ignorieren. Diesen sogenannten
cry wolf-Effekt findet man überwiegend in Studien, die Probanden in experimentellen Labor-
untersuchungen vor die Wahl stellen, den Hinweisen des Alarmsystems blind zu folgen oder
diese zu ignorieren. In diesem Zusammenhang können zwei unabhängige Verhaltenstenden-
zen unterschieden werden: compliance bezeichnet das direkte Befolgen eines Alarms im
erwarteten Sinne während die reliance das Ausbleiben einer solchen Reaktion in einer alarm-
freien Phase meint. In dieser Arbeit wird in Laborexperimenten die Zuverlässigkeit der
Hinweise eines Alarmsystems im Rahmen einer Simulation von Aufgaben von Schichtarbei-
tern einer chemischen Leitwarte manipuliert. Dabei wird primär untersucht, welchen Einfluss
die Möglichkeit, die Hinweise des Alarmsystems durch aktiven Zugriff auf die Rohdaten zu
validieren, auf den cry wolf-Effekt hat. Das Reagieren auf einen Hinweis des Systems durch
Prüfen der Rohdaten wird als informed compliance bzw. informed reliance bezeichnet. In der
ersten Studie verschwand unter der Prüf-Option der cry wolf-Effekt. Dabei unterschieden die
Probanden nicht zwischen niedrigen und hohen Zuverlässigkeiten, sondern prüften die Roh-
daten auf einem durchgängig hohen Niveau. Erst bei einer sehr hohen Zuverlässigkeit domi-
nierte die compliance über die informed compliance. Selbst eine aufwendigere Operationali-
sierung des Prüfprozesses konnte die hohe Prüfrate nicht bedeutsam senken (Studie 3). Erst
als die Beanspruchung in Form des workloads in einer weiteren Studie durch eine zusätzliche
Nebenaufgabe erhöht wurde, tauchte der cry wolf-Effekt in der Bedingung mit der niedrigsten
Zuverlässigkeit wieder auf (Studie 4).
Schlagworte: Alarmsysteme, Signaldetektionstheorie, Reliance, Compliance, Cry Wolf-Effekt
Advertisement
Abstract
Recently, the main task of operators working with complex systems has shifted from actively
leading the process to rather passively monitoring the process. This is due to the increased use
of alarm systems that are supposed to support the operator in detecting critical events in the
underlying system. System failures can lead to severe safety-critical consequences, in particu-
lar in high safety environments as in cockpits or power plants and can further lead to substan-
tial additional costs in production processes as in chemical or technical plants. Alarm systems
are very sensitive to any divergences of standard values and give binary cues (an alarm vs. no
alarm) to the operator so that he can allocate his attention to secondary tasks. In order to
prevent the miss of a critical event, the threshold for an alarm is usually set rather low which
leads to the problem of increased false alarms. A common strategy of operators to cope with
this alarm flood is to ignore an alarm if the reliabililty of the alarm proves to be low. This so-
called cry wolf-effect has mainly been found in experimental studies that forced the partici-
pants to either directly comply with the cue of the alarm system or to ignore it. In this context,
one can distuinguish between two independent behavioral tendencies to a cue of an alarm
system: compliance refers to the tendency to react immediately and in the expected way to an
alarm whereas reliance means the omission of such a response if the alarm system signals no
critical event. The present work aims to analyze behavioral tendencies to cues in a laboratory
setting while offering participants the possibility to check the raw data behind a given cue.
Reacting to a cue by validating it is referred to as informed compliance (and informed reli-
ance, respectively). The main goal of this thesis is to explore the effect of the cross-checking
option on the cry wolf-effect in the context of varying reliabilities. In the first study, the cry
wolf-effect was indeed eliminated by a high checking rate throughout four levels of low to
high levels of reliability. Only under the condition of a very high reliability the participants
started to comply directly with the alarm. Even with a more complex and time-consuming
checking procedure as realized in study 3, these results could be replicated. In the final study,
only an augmented workload – operationalised by an additional concurrent task – made the
cry wolf-effect re-appear in the condition with the lowest reliability.
Keywords: Alarm Systems, Signal Detection Theory, Reliance, Compliance, Cry Wolf-Effect
IV
Inhalt
1 Einleitung 7
2 Theoretischer Hintergrund 9
2.1 Automation......................................................................................................................... 9
2.2 Alarmsysteme................................................................................................................... 12
2.3 Signaldetektionstheorie.................................................................................................... 16
2.3.1 Parameter der Signaldetektionstheorie ................................................................. 18
2.3.2 Bayes-Statistik und Signaldetektionstheorie ........................................................ 22
2.4 Erwartungswerte und Payoff-Strukturen.......................................................................... 23
2.5 Zuverlässigkeit von Alarmsystemen als verhaltenssteurendes Merkmal......................... 25
2.5.1 Die Konzepte der reliance und compliance.......................................................... 30
2.5.2 Verhaltensphänomene im Umgang mit Alarmen ................................................. 32
2.6 Kritische Diskussion bisheriger Forschung...................................................................... 39
3 Die Konzepte der Informed Compliance und Informed Reliance 42
4 Fragestellung und Untersuchungen 44
5 Die Experimentalumgebung M-TOPS 2 46
6 Ausgangsstudie: Reaktionsmöglichkeiten auf Alarme ohne Prüfmöglichkeit 50
6.1 Versuchsplan.................................................................................................................... 50
6.2 Ablauf............................................................................................................................... 51
6.3 Ergebnisse ........................................................................................................................ 52
6.4 Diskussion........................................................................................................................ 55
7 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt 57
7.1 Forschungsfrage ............................................................................................................... 57
7.2 Hypothesen....................................................................................................................... 58
7.3 Methode............................................................................................................................ 59
7.3.1 Stichprobe............................................................................................................. 59
Advertisement
V
7.3.2 Versuchsplan......................................................................................................... 60
7.3.3 Ablauf ................................................................................................................... 60
7.4 Abhängige Variablen........................................................................................................ 64
7.4.1 Manipulations-Check............................................................................................ 64
7.4.2 Allgemeine Leistung............................................................................................. 65
7.4.3 Spezifische Leistungs- und Verhaltensmaße in roten und grünen Trials ............. 65
7.4.4 Subjektive Beanspruchung ................................................................................... 67
7.5 Ergebnisse ........................................................................................................................ 67
7.5.1 Manipulations-Check............................................................................................ 67
7.5.2 Allgemeine Leistung............................................................................................. 68
7.5.3 Leistung und Verhalten in roten Trials................................................................. 71
7.5.4 Leistung und Verhalten in grünen Trials.............................................................. 74
7.5.5 Subjektive Beanspruchung ................................................................................... 76
7.6 Diskussion........................................................................................................................ 77
8 Experiment 2: Feinanalyse des Verlaufs der compliance im Bereich 0.7 – 0.9 88
8.1 Forschungsfrage ............................................................................................................... 88
8.2 Methode............................................................................................................................ 89
8.2.1 Stichprobe............................................................................................................. 89
8.2.2 Versuchsplan......................................................................................................... 89
8.2.3 Ablauf ................................................................................................................... 90
8.3 Abhängige Variablen........................................................................................................ 90
8.4 Ergebnisse ........................................................................................................................ 91
8.4.1 Manipulations-Check............................................................................................ 91
8.4.2 Anteil Verhalten.................................................................................................... 91
8.5 Diskussion........................................................................................................................ 92
9 Experiment 3: Einfluss eines erhöhten Prüfaufwandes 94
9.1 Forschungsfrage und Hypothesen.................................................................................... 94
9.2 Erweiterung des Pardigmas M-TOPS 2 ........................................................................... 96
9.3 Methode............................................................................................................................ 97
9.3.1 Stichprobe............................................................................................................. 97
9.3.2 Versuchsplan......................................................................................................... 97
9.3.3 Ablauf ................................................................................................................... 98
9.4 Abhängige Variablen........................................................................................................ 98
VI
9.5 Ergebnisse ........................................................................................................................ 99
9.5.1 Manipulations-Check............................................................................................ 99
9.5.2 Allgemeine Leistung........................................................................................... 100
9.5.3 Leistung und Verhalten in roten Trials............................................................... 101
9.5.4 Leistung und Verhalten in grünen Trials............................................................ 102
9.5.5 Subjektive Beanspruchung ................................................................................. 104
9.6 Diskussion...................................................................................................................... 104
10 Experiment 4: Einfluss eines erhöhten workloads 110
10.1 Forschungsfrage und Hypothesen.................................................................................. 110
10.2 Die Experimentalumgebung M-TOPS 2........................................................................ 111
10.3 Methode.......................................................................................................................... 112
10.3.1 Stichprobe........................................................................................................... 112
10.3.2 Versuchsplan....................................................................................................... 112
10.3.3 Ablauf ................................................................................................................. 113
10.4 Abhängige Variablen...................................................................................................... 113
10.5 Ergebnisse ...................................................................................................................... 113
10.5.1 Manipulations-Check.......................................................................................... 113
10.5.2 Allgemeine Leistung........................................................................................... 114
10.5.3 Leistung und Verhalten in roten Trials............................................................... 115
10.5.4 Leistung und Verhalten in grünen Trials............................................................ 117
10.5.5 Subjektive Beanspruchung ................................................................................. 118
10.6 Diskussion...................................................................................................................... 119
11 Zusammenfassende Diskussion 125
12 Zusammenfassung und Ausblick 133
Literatur 135
Begriffsverzeichnis 145
Abbildungsverzeichnis 147
Tabellenverzeichnis 148
Anhang 149
Advertisement
1 Einleitung 7
1 Einleitung
In den letzten Jahren hat sich die Technik rasant entwickelt. Dies führt unter anderem dazu,
dass immer mehr Systeme gestaltet werden, die dem Menschen bei der Überwachung dieser
zunehmend komplexer werdenden Technik helfen sollen. Dabei geben sie dem Operateur
Hinweise auf Fehlfunktionen im zugrundeliegenden System oder Ratschläge zum effiziente-
ren Arbeiten. Diese Form von Automation wird im Allgemeinen als Alarm- oder Assistenz-
system bezeichnet, und sie findet sich sowohl im privaten Bereich, wie bei der täglichen
Arbeit mit dem Computer in Form von Zustands- und Fehlermeldungen, als auch in Produkti-
ons- und Hochsicherheitsbereichen, wie in Cockpits, in der Produktionstechnik und in Leit-
warten von Kernkraftwerken, wieder. Der Mensch soll durch diese Meta-Funktion in seiner
Überwachungsaufgabe entlastet werden und die Möglichkeit haben, sich auf den Inhalt der
Aufgabe oder auf Nebenaufgaben zu konzentrieren. Dabei soll nicht nur die Produktivität,
sondern vor allem die Sicherheit durch schnelles Erkennen von Über- oder Unterschreitungen
von Normwerten im Prozess, erhöht werden.
Leider bringt die Anwendung von Alarmsystemen, die den Menschen bei seiner Arbeit
unterstützen sollen, neue Probleme mit sich. Dies liegt zum Einen daran, dass keine Technik
perfekt und fehlerfrei arbeiten kann und zum anderen daran, dass bereits mit wenigen Fehldi-
agnosen das Vertrauen des Menschen in das unterstützende System stark gemindert werden
kann. Ist das Vertrauen in die Leistung eines Alarmsystems erst einmal reduziert, kommt es
häufig zum Ignorieren von dessen Hinweisen und somit zu einer möglichen Gefahrensituati-
on, wie die Fabel „vom Hirtenjungen und dem Wolf“ bereits im Zeitalter von Aesop veran-
schaulichte:
Ein Hirtenjunge saß den lieben langen Tag mit seiner Herde auf einer Anhöhe
über dem Dorf und wusste nicht so recht, was mit sich anzufangen. Schließlich
kam er auf die Idee „Wolf! Wolf!“ zu brüllen und somit die Dorfbewohner in
Angst und Schrecken zu versetzen. Diese kamen sofort herbeigestürmt, um dem
Jungen und den Tieren zu Hilfe zu kommen und mussten feststellen, dass der
Hilferuf ein falscher Alarm gewesen war und sie ihre Zeit und Kräfte ver-
schwendet hatten. Einige Tage später wiederholte der Junge das Spiel und
8 Einleitung
freute sich abermals über die Gesellschaft, die er durch die herbeieilenden
Helfer erlangte. Kurze Zeit darauf jedoch bemerkte der Junge tatsächlich einen
Wolf, der sich ihm und seiner Schafsherde gefährlich näherte. So laut er konnte
rief der Junge um Hilfe: „Wolf! Wolf!“, doch die Dorfbewohner dachten an ei-
nen weiteren dummen Streich des Jungen und hörten nicht auf seine Hilferufe.
So machte sich der Wolf über die hilflose Herde des Jungen her und ver-
schlang all seine Schafe.
Diese Fabel zeigt, dass nicht nur die Angemessenheit eines Hinweises in einer kritischen
Situation ausschlaggebend ist, sondern auch der Umgang mit Hinweisen, deren Validität man
nicht kennt. Ein großes Problem im Bereich der Alarmsysteme ist also nicht nur die Tatsache,
dass kein System perfekt ist und der Mensch somit potentiellen Fehlern im Prozess sowie
potentiellen Fehlern des Alarmsystems ausgesetzt ist. Die größte Herausforderung stellt der
angemessene Umgang mit nicht perfekten Systemen dar. Die Interaktion von Mensch und
Maschine sollte daher zur Vermeidung von Unfällen bzw. zur Vermeidung des Einsatzes von
Systemen und Produkten, die nicht an die Bedürfnisse und Reaktionsmuster der Nutzer
angepasst sind, immer bereits während der Produktentwicklung eingehend analysiert werden
und den Produktentwicklungsprozess entsprechend modellieren. Dieser Ansatz wird in der
Literatur als prospektive Gestaltung bezeichnet (Rötting et al., 2007), hat jedoch bislang keine
eindeutige Definition gefunden. Der Begriff zeichnet sich nach einer theoretischen und
empirischen Exploration von Gérard et al. (2010) durch spezifische Merkmale aus. So ist
neben der iterativen Analyse von Nutzerfaktoren auch die von Aufgaben-, Kontext- und
Systemfaktoren unabdinglich. Im gesamten Produktentwicklungsprozess ist dabei das fach-
spezifische Wissen eines interdisziplinären Teams aus Designern, Ingenieuren, Informatikern
und Psychologen notwendig, die mögliche Effekte, Einflüsse und Wechselwirkungen der
unterschiedlichen Variablen antizipieren und Lösungen entwickeln können, die Konzepte und
Ansätze aus den unterschiedlichen Disziplinen berücksichtigen und vereinen. Die folgende
Arbeit soll aus der Perspektive der Ingenieurspsychologie Grundkenntnisse über den Umgang
von Operateuren mit Alarmsystemen unterschiedlicher Zuverlässigkeit unter unterschiedli-
chen Levels von Arbeitsbelastung gewinnen. Diese sollen zukünftig in der Konzeptionsphase
wichtige Hinweise für Designer, Techniker und Ingenieure geben können.
Advertisement
2.1 Automation 9
2 Theoretischer Hintergrund
Im folgenden Kapitel werden die Begriffe „Automation“ und „Automatisierung“ (siehe
Kapitel 2.1) sowie die Nutzen und Gefahren einer spezifischeren Form von Automation, der
Alarmsysteme, näher erläutert werden (siehe Kapitel 2.2). Anschließend werden zum besseren
Verständnis die zugrundeliegenden Mechanismen im Rahmen der Signaldetektionstheorie
dargestellt (siehe Kapitel 2.3).
2.1 Automation
Heute werden zunehmend Prozesse, die ehemals von menschlichen Arbeitskräften ausgeführt
wurden, auf Maschinen übertragen. Nach Hauß & Timpe (2002) wird dieser Prozess als
Automatisierung und das Resultat dieses Prozesses als Automation bezeichnet. Dieser fort-
schreitende Prozess der Automatisierung breitet sich sowohl in der Produktionsindustrie als
auch in Hochsicherheitssystemen, wie in Cockpits oder in Kernkraftwerken, aus. Automati-
sierung erfährt also eine immer größer werdende Bedeutung; zum Einen aufgrund ihrer
zunehmenden Ausbreitung, nicht zuletzt jedoch wegen ihrer ambiguen Effekte auf die Arbeit
und Leistung des Menschen (Wickens & Hollands, 2000). Die Ziele, die mit der Einführung
von Automationen erreicht werden sollen, sind die Steigerung der Produktivität sowie die
Erhöhung der Sicherheit. Automationen verfügen über bessere sensorische Fähigkeiten als
Menschen, wenn es darum geht, subtile Schwankungen in einer Datenmenge zu detektieren.
Sie können zusätzlich Daten in größeren Mengen und zeitgleich aufnehmen, verarbeiten,
speichern sowie deren gezielten Abruf ermöglichen. Mithilfe von Algorithmen können sie
Situationen bewerten und Handlungsvorschläge generieren. Diese Algorithmen allerdings
werden von Menschen, den Entwicklern der Automation, generiert. Menschliche Fehler
werden somit nicht eliminiert, sondern vom Menschen auf die Automation übertragen. Nicht
nur in der Entwicklung von Automationen bleibt der Mensch die dominierende Instanz,
sondern auch, wenn es darum geht, die Technik auszuführen und zu überwachen. Bainbridge
(1983) spricht in diesem Zusammenhang von der „Ironie der Automation“, da Automationen
zwar aufgrund ihrer größeren Leistungskraft (im Vergleich zum Menschen) eingesetzt wer-
den, jedoch wiederum vom Menschen erwartet wird, dieses System zu überwachen und zu
kontrollieren, also einen Überblick über die Leistung und die komplexen zugrundeliegenden
10 Theoretischer Hintergrund
Parametern zu haben. Auch im Falle einer Fehlfunktion wird vom Menschen erwartet ein-
zugreifen und den Fehler zu beheben. Dem Menschen, der in diesem Mensch-Maschine-
System als Operateur bezeichnet wird, kommt die Aufgabe eines Überwachers des Gesamt-
Systems zu. Somit hat sich die Aufgabe des Menschen vom aktiven Arbeiter und Bediener
eines Systems zum eher passiven Überwacher des Systems sowie der Automation entwickelt.
Während dieser Überwachungstätigkeit wird vom Operateur erwartet, dass er aktiv eingreift
und die Kontrolle über das System übernimmt, sobald Fehler den Prozess störanfällig ma-
chen. Sheridan (1992) bezeichnet diese Form der Überwachung als leitende Kontrolle („su-
pervisory control“). Folglich wird der Mensch durch den Einsatz von Automation zwar in
einem ersten Schritt entlastet und von der Aufgabe entbunden, er muss aber genau diese
Aufgabe im Versagensfall der Technik korrekt ausführen. Ein besonderes Problem in diesem
Kontext sieht Endsley (2005) darin, dass der Operateur durch seine zeitweise passive Funkti-
on des Überwachers den Überblick und die vollständige mentale Repräsentation des Prozes-
ses und dessen zugrundeliegenden Faktoren und Zusammenhänge verlieren kann. Der resul-
tierende Verlust von Fertigkeiten im Umgang mit dem System und des
Situationsbewusstseins wird in der Literatur als out of the loop unfamiliarity-Syndrom be-
schrieben (OOTLUF; Endsley & Kiris, 1995; Wickens & Hollands, 2000). Das Situationsbe-
wusstsein umfasst nach Endsley (2005) drei Stufen: die zeitnahe Wahrnehmung von Elemen-
ten in der relevanten Umgebung, das Begreifen ihrer Bedeutung und die Antizipation ihrer
Zustände in der nahen Zukunft. Die Fähigkeit zur Antizipation ist besonders wichtig im
Umgang mit dynamischen Systemen und beeinflusst die Leistung eines Operateurs maßgeb-
lich (Doane, Sohn & Jodlowski, 2004). Das passive Überwachen eines Systems und die damit
verbundene OOTLUF können zusätzlich zur sogenannten complacency führen, das heißt zu
der Neigung, die Automation unzureichend zu überprüfen und zu überwachen. Dies kann
wiederum zum Übersehen kritischer Systemzustände und durch die Passivität (und somit
durch die fehlende Übung der relevanten motorischen Handlungen) zu einem Fertigkeitsver-
lust im Falle der Kontrollübernahme bei einem Systemausfall führen (Bahner, Hüper &
Manzey, 2008; Molloy & Parasuraman, 1996; Metzger & Parasuraman, 2005; Parasuraman &
Manzey, 2010). Die mit dem OOTLUF-Phänomen verbundenen Probleme stellen vor allem in
sicherheitskritischen Umgebungen eine Gefahr dar.
Die hier beschriebenen Probleme treten je nach Art der Automation mit unterschiedlicher
Wahrscheinlichkeit auf, die im Wesentlichen von Automatisierungsstufe und -grad abhängt.
Parasuraman, Sheridan & Wickens (2000) bieten in ihrem Klassifikationsmodell eine Über-
Related document tools
Unterstützung von sauberen akademischen Beiträgen
Plag ist für sorgfältige Dokument- und Forschungstextprüfung erstellt. Identific ist nützlich für Workflows, bei denen Dokumente stärker gesichert werden müssen. Sie können einen sorgfältigeren Überprüfungsprozess unterstützen.
2.1 Automation 11
sicht über die Stufen der menschlichen Informationsverarbeitung und die äquivalenten Grade
an automatisierten Systemfunktionen. Auf der untersten Stufe stehen die sensorische Auf-
nahme und die Speicherung von Umweltsignalen im Kurzzeitgedächtnis; die äquivalente
Systemfunktion beim automatisierten System wird als Informationsaufnahme (information
acquisition) bezeichnet. Das System erfasst Umweltreize durch Schnittstellen wie Sensoren,
Kameras und andere Messsysteme. Die nächst höhere Stufe im menschlichen Verarbeitungs-
prozess umfasst das Wahrnehmen relevanter Informationen und deren Bewertung durch einen
Abgleich mit Wissen aus dem Langzeitgedächtnis (perception / working memory) und ent-
spricht der Stufe der Informationsanalyse eines Systems. Die resultierende Entscheidungsfin-
dung auf dem nächsten Level, dem decision making, wird durch Entscheidungs- und Hand-
lungsvorschläge einer Automation repräsentiert. Diese Stufe beinhaltet nicht nur die
Unterstützung bei der Entscheidungsfindung, sondern auch die Bereitstellung von Hand-
lungsvorschlägen. Die höchste Stufe der menschlichen Informationsverarbeitung, die Reakti-
onsauswahl, findet ihr Äquivalent in der Handlungsausführung einer Automation, was bedeu-
tet, dass das System nicht nur Handlungsvorschläge generiert, sondern diese auch selbst
ausführt. Das Klassifikationsmodell ist kein hierarchisches Modell. Jede Automation kann auf
den vier Verarbeitungsstufen über einen unterschiedlichen Grad an Automatisierung verfü-
gen, wie in Abbildung 1 ersichtlich.
Um das out of the looop unfamiliarity-Syndrom zu vermeiden und zu garantieren, dass der
Operateur bei einem Systemversagen zeitgerecht und sicher eingreifen kann, wurden soge-
nannte adaptive Automationen entwickelt. Diese passen ihr Automationslevel auf der einen
Seite den Fähigkeiten des Operateurs und auf der anderen Seite dem Zustand des Gesamtsys-
tems an (Moray, Inagaki & Itoh, 2000). Je nach Höhe der Arbeitsbelastung des Operateurs
handelt diese Form der Automation auf bestimmten Verarbeitungsstufen mehr oder weniger
autark, das heißt auf unterschiedlichen Graden der Automatisierung, um den Operateur bei
Bedarf zu entlasten, ihn aber dennoch „in the loop“ zu halten. Automationen, die auf den
Stufen der Informationsaufnahme und Informationsanalyse vollständig automatisiert sind,
sind Alarmsysteme. Diese beiden ersten Stufen, auf der die Daten integriert und aufgrund
einer ganzheitlichen Analyse bewertet werden, sind für ein Alarmsystem charakteristisch, da
nur durch die Analyse des Datenmusters eine Einschätzung der Situation und als Konsequenz
ein Alarm gegeben werden kann. Systeme, die sowohl bei der Datenanalyse als auch auf der
dritten Stufe, der Entscheidungsfindung assistieren, werden als decision support systems
(DSS) oder Assistenzsysteme bezeichnet.
12 Theoretischer Hintergrund
Abbildung 1: Automationsstufen für zwei Beispiel-Systeme (nach Parasuraman, Sheridan &
Wickens, 2000, S. 288)
Diese grenzen sich insofern von einem Alarmsystem ab, als dass sie explizite Handlungshin-
weise geben, während ein klassisches Alarmsystem vor einer potentiellen Gefahr warnt, die
Auswahl einer Handlung jedoch dem Operateur überlässt. Im nächsten Kapitel sollen die
Eigenschaften von Alarmsystemen genauer definiert werden.
2.2 Alarmsysteme
In Hochsicherheitssystemen wird der Operateur meist von einem Alarmsystem bei der Über-
wachung des Prozesses unterstützt. Ein Alarmsystem soll den Operateur in seiner Aufgabe
des Überwachens insofern unterstützen, dass es ihn (zum Beispiel durch akustische und/oder
visuelle Signale) auf Abweichungen im zu überwachenden System hinweist. Meyer (2004)
nennt drei Faktoren, deren Kombination ein Alarmsystem grundlegend definieren: (1) Das
Alarmsystem analysiert diskrete Ereignisse, die in ihrer Auftretenswahrscheinlichkeit unab-
hängig voneinander sind. Dies bedeutet, dass der Zustand des zugrundeliegenden Systems
entweder kritisch oder unkritisch ist, ohne dass undefinierte Zwischenzustände möglich sind.
Advertisement
2.2 Alarmsysteme 13
(2) Das Alarmsystem gibt entsprechend dieser diskreten Zustände eine binäre Antwort, das
heißt es gibt entweder einen Alarm (z.B. visuell durch ein rotes Licht) oder Entwarnung durch
einen entsprechenden Hinweis (z.B. durch ein grünes Licht). (3) Das System gibt dem Opera-
teur die Möglichkeit, auf den Hinweis des Alarmsystems entweder mit einer Handlung zu
reagieren, die negative Konsequenzen im Prozess verhindern soll, oder eine solche Handlung
zu unterlassen. Somit ist auch die Reaktionsmöglichkeit des Operateurs binär. Probleme im
Umgang mit solch binären Alarmsystemen entstehen, wenn das Alarmsystem nicht perfekt
arbeitet und die Hinweise fehlerhaft sind. Ein in der Praxis verbreitetes und in der Literatur
häufig beschriebenes Problem ist ein hoher Anteil an falschen Alarmen, die dazu führen
können, dass der Operateur die Alarme ignoriert. Dabei variieren die absolute Anzahl an
Alarmen und der Anteil falscher Alarme in der Praxis stark in Abhängigkeit der Anlage und
des zugrundeliegenden Systemzustands im Prozess. Bransby & Jenkinson (1998) führten
Befragungen in unterschiedlichen Produktionsanlagen durch und berichten von Schwankun-
gen von 30 bis 200 Alarmen pro Stunde während der normalen Prozessführung, von denen
über die Hälfte als unangemessen bewertet wurden. Grenzen in der technischen Leistungsfä-
higkeit von Sensoren auf der einen Seite und von Entwicklern niedrig gesetzte Antwort-
schwellen von Alarmsystemen auf der anderen Seite können zu einem hohen Anteil falscher
Alarme innerhalb der ohnehin großen Alarmflut führen, die auf den Operateur einbricht. Um
dennoch Aufmerksamkeit und Ressourcen für relevante Bereiche des Prozesses aufrechtzuer-
halten, reagieren Operateure auf eine hohe Rate von falschen Alarmen häufig mit dem Igno-
rieren der Alarme. Aus Sicht der Produktionsindustrie, in der ein verpasster wahrer Alarm
keine Menschenleben kosten kann, sondern „lediglich“ finanzielle und zeitliche Verluste
bedeutet, ist dieses Verhalten gerechtfertigt. Wenn die Wahrscheinlichkeit für einen wahren
Alarm sehr niedrig ist, können Ressourcen so auf andere Teilaufgaben aufgeteilt werden.
Allerdings kann das Ignorieren von Alarmen auch zum Verpassen wahrer Alarme führen und
schwerwiegende Konsequenzen nach sich ziehen. So veröffentlichte das amerikanische
National Transportation Safety Board eine Studie (2006), die helfen sollte, die genaue Ursa-
che von Unfällen zu klären, bei denen Fluglotsen einen Alarm (conflict alert) zur Überschrei-
tung des minimal geforderten Abstandes zwischen zwei Flugzeugen bekommen, aber nicht
auf diesen reagiert hatten. Bei der Befragung der Fluglotsen wurde in diesem Zusammenhang
eine zu häufige Frequenz falscher Alarme als eines der fünf größten Probleme in ihrem
Arbeitsfeld beschrieben. Bliss (2003a) fand bei einer ähnlich aufgebauten Analyse von
14 Theoretischer Hintergrund
Flugunfällen einen sehr hohen Anteil falscher Alarme im Cockpit und eine Tendenz zu
langsameren Reaktionen bis zum Ignorieren von Alarmen seitens der Piloten.
Die Angemessenheit der Reaktion des Alarmsystems auf den tatsächlichen Zustand des
Ausgangssystems bzw. das Problem falscher Alarme hängt maßgeblich von der Leistungsfä-
higkeit oder der Zuverlässigkeit des Alarmsystems ab. Die Entscheidung, ob das Alarmsys-
tem einen kritischen Zustand signalisiert oder nicht wird hauptsächlich durch den tatsächlich
zugrundeliegenden Systemstatus (XAlarm), der Leistungsfähigkeit oder Sensitivität des Alarm-
systems und dessen Antwortschwelle CAlarm getriggert (siehe Abbildung 2, Stufe 1). Die
Eigenschaften eines Alarmsystems werden meist mittels Parametern im Rahmen der Signal-
detektionstheorie beschrieben (SDT; Swets, 1964; Sorkin & Woods, 1985; Parasuraman,
Hancock & Olofinboba, 1997; Meyer & Bitan, 2001). Für ein angemessenes Grundverständ-
nis der Basisparameter eines Alarmsystems und der Entstehung eines hohen Anteils an
falschen Alarmen wird Kapitel 2.3 eine Übersicht über die Grundlagen der Signaldetekti-
onstheorie geben.
Nach einem Modell von Allendoerfer, Pai & Friedman-Berg (2008) stellen die Eigenschaften
eines Alarmsystems jedoch nur die erste Ebene eines dreistüfigen Entscheidungsprozesses im
Rahmen der Interaktion von Operateur und Alarmsystem dar (siehe Abbildung 2). Die zweite
Ebene des Modells bezieht den Operateur und dessen Umgang mit Alarmen unterschiedlicher
Zuverlässigkeit mit ein. Verhaltensdeterminierend ist dabei das Vertrauen des Operateurs in
die Diagnose des Alarmsystems. Übersteigt das Vertrauen XVertrauen den kritischen Vertrau-
enswert CVertrauen, befolgt der Operateur den Alarm. Das Vertrauen wird dabei maßgeblich
durch die wahrgenommene Zuverlässigkeit des Alarmsystems bestimmt. Eine Diskussion der
Definition der Zuverlässigkeit und deren Verhaltenseffekte werden in Kapitel 2.5 aufgeführt.
Liegen dem Operateur keine Anhaltspunkte und Validierungsmöglichkeiten der Zuverlässig-
keit des Alarmsystems vor, kommt es zu Entscheidungen unter Unsicherheit. In derart unsi-
cheren Entscheidungssituationen werden Heuristiken herangezogen, die das Antwortverhalten
leiten. Heuristiken, die in der Literatur als Reaktion auf Alarme ungewisser Zuverlässigkeit
häufig beschrieben wurden, finden sich in Kapitel 2.5.2. Die hier beschriebenen Probleme
finden sich bei binären Systemen, die eine direktes Befolgen oder aber das Ignorieren der
Diagnose des Alarmsystems fordern. Ebene 3 des Modells von Allendoerfer, Pai & Friedman-
Berg (2008) beschreibt einen Lösungsansatz, um die hohe Unsicherheit von Operateuren und
somit ungerechtfertigte extreme Antwortstrategien zu vermeiden. Operateuren wird dabei die
Möglichkeit gegeben, die Entscheidung des Alarmsystems zu überprüfen, indem man ihnen
Advertisement
2.2 Alarmsysteme 15
Zugriff auf die Rohdaten bietet. Eine Reaktion findet nur dann statt, wenn die vom Operateur
gesammelte Zusatzinformation aus den Rohdaten (XOperateur) seine interne Reaktionsschwelle
(COperateur) übersteigt. Diese Verhaltenstendenz, auf eine Anzeige des Alarmsystems zu reagie-
ren, indem die Rohdaten des Ausgangssystems überprüft werden, befindet sich zwischen den
beiden Extremen des blinden Befolgens und Ignorierens und stellt den Kernpunkt der vorlie-
genden Arbeit dar.
Abbildung 2: Drei-stüfiges Entscheidungsmodell (nach Allendoerfer, Pai & Friedman-Berg
(2008)
16 Theoretischer Hintergrund
Das Konzept des alarm-getriggerten Prüfverhaltens wird in Kapitel 3 näher definiert und im
empirischen Teil dieser Arbeit unter Einfluss unterschiedlicher Zuverlässigkeiten von Alar-
men in experimentellen Laborstudien analysiert.
2.3 Signaldetektionstheorie
Der Umgang mit Alarmen kann als ein komplexes Entscheidungsproblem verstanden werden,
das im Rahmen eines signaldetektionstheoretischen Ansatzes formalisiert werden kann
(Sorkin & Woods, 1985; Maltz & Meyer, 2001; Meyer, 2004, 2002). In diesem Kapitel sollen
die Grundlagen der Signaldetektionstheorie näher erläutert werden.
Die Signaldetektionstheorie kommt aus der Psychophysik und wurde dort auf die menschliche
Wahrnehmungsfähigkeit angewandt. Sie beschäftigt sich in ihren Grundlagen mit dem fun-
damental detection problem, welches sich aus zwei einfachen Zuständen ergibt: der eine
Zustand besteht aus einem Signal, welches einem Rauschen zugefügt ist, der andere ergibt
sich aus dem Rauschen allein. Das Detektionsproblem besteht für den Beobachter darin, dass
er nach jeder Präsentation eines Intervalls entscheiden muss, ob ein Signal vorhanden war
oder nicht (Egan, 1975). Dieses Problem kann auf Alarmsysteme und ihre Detektionsleistung
von Fehlern im zu überwachenden System übertragen werden.
Im Kontext der Mensch-Maschine-Interaktion übernimmt das Alarmsystem die Aufgabe des
Beobachters. Das Signal entspricht einem Fehler im zugrundeliegenden System und das
Rauschen einem fehlerfreien Zustand des Systems. Abbildung 3 veranschaulicht die Wahr-
scheinlichkeitsverteilung der Systemfehler und der fehlerfreien Zustände mit den jeweils
zugehörigen Mittelwerten. Jeder Systemzustand befindet sich auf einem bestimmten Punkt
der Ordinate und kann entsprechend seiner Auftretenswahrscheinlichkeit entweder der Feh-
lerverteilung oder der Verteilung fehlerfreier Zustände zugeordnet werden. Gibt das Alarm-
system für einen Zustand aus der Verteilung der Systemfehler einen Alarm aus, bedeutet dies
einen korrekten Alarm, einen sogenannten hit1. Ähnliches gilt für das Ausbleiben eines
Alarms: gehört der zugrundeliegende Zustand zur Verteilung der fehlerfreien Zustände ist die
1Zentrale englische und lateinische Fach-Termini, die sich auch im Deutschen durchgesetzt haben,
werden für den einfacheren Lesefluss englisch beibehalten, nur bei ihrer Erstnennung kursiv ge-
schrieben und im Begriffsverzeichnis (S. 145) alphabetisch aufgeführt und erläutert
Advertisement
2.3 Signaldetektionstheorie 17
Zurückweisung eines Alarms korrekt (correct rejection). Wie in Abbildung 3 ersichtlich gibt
es allerdings auch einen Bereich, in dem sich die beiden Verteilungen überlappen – einen
Bereich der Unsicherheit, ob ein Zustand der Fehlerverteilung oder der der fehlerfreien
Zustände zuzuordnen ist. In diesem Bereich kann es auch zu Fehldiagnosen des Alarmsys-
tems kommen: ein Zustand, der eigentlich aus der Verteilung der fehlerfreien Zustände
stammt, kann vom Alarmsystem als zugehörig zur Fehlerverteilung diagnostiziert werden und
es kommt zu einem falschen Alarm (false alarm). Genauso kann ein tatsächlich kritischer
Zustand vom Alarmsystem fälschlicherweise als zugehörig zur Verteilung der fehlerfreien
Systemzuständen eingeordnet werden und ein kritischer Zustand wird verpasst (miss). Tabelle
1 gibt einen Überblick über die vier möglichen Kombinationen aus Ereignissen im System
und Reaktionen des Alarmsystems. Die vier möglichen System-Reaktions-Kombinationen
stehen in komplementärer Form zueinander (Egan, 1975): aus der mathematischen Umkehr
der misses lässt sich die Anzahl der hits ableiten (miss = 1 – hit), sowie sich die correct
rejections aus der Umkehr der Anzahl der falschen Alarme ergeben (correct rejection = 1 –
false alarm) und umgekehrt.
Der Bereich der Unsicherheit, der definiert wird über den Abstand zwischen den Mittelwerten
der beiden Verteilungen, hängt maßgeblich von der Diskriminationsfähigkeit, der Sensitivität
des Alarmsystems ab. Der entscheidende zweite Aspekt, der beeinflusst, ob auf Zustände aus
dem Bereich der Überlappungen überwiegend mit einem Alarm oder keinem Alarm reagiert
wird, ist die Reaktionsschwelle oder das Antwortkriterium des Alarmsystems. Diese beiden
grundlegenden Charakteristika eines Alarmsystems werden im nächsten Kapitel dargestellt.
Tabelle 1: Ereignis-Reaktions-Matrix
18 Theoretischer Hintergrund
2.3.1 Parameter der Signaldetektionstheorie
Die Leistungsfähigkeit eines Alarmsystems wird im Rahmen der SDT hauptsächlich durch
zwei Parameter bestimmt: der Sensitivität, die etwas wie die Diskriminierfähigkeit des
Alarmsystems umschreibt und das Antwortkriterium, welches für die Antwortneigung oder
Reaktionsschwelle des Systems steht.
2.3.1.1 Sensitivität d’
Die Sensitivität, das heißt die Diskriminationsfähigkeit, eines Alarmsystems wird gemessen
anhand der Distanz der Mittelwerte der sich überlappenden Wahrscheinlichkeitsverteilungen
der Systemfehler und der Verteilung der unkritischen Systemzustände (siehe Abbildung 3). Ist
die Sensitivität hoch, weisen die beiden Zustände deutlich unterschiedliche Mittelwerte auf,
ist die Sensitivität niedrig liegen die beiden Mittelwerte sehr nah beieinander (Macmillan,
1991). Um die Sensitivität rechnerisch zu erfassen, werden die hit-Rate und die false alarm-
Rate2 als Wahrscheinlichkeit für eine positive Reaktion (Alarm) in Bezug auf die Systemzu-
stände (kritisch und normal) betrachtet.
Die hit-Rate bezeichnet den Anteil der Treffer an allen auftretenden Systemfehlern (siehe
Formel 1).
misseshits
hits
Hp
)( (1)
Die FA-Rate bezeichnet den Anteil der falschen Alarme an allen unkritischen Systemzustän-
den (siehe Formel 2).
ectioncorrectrejfalsealarm
falsealarm
FAp
)(
(2)
Um aus der hit- und der FA-Rate nun einen Wert für die Sensitivität zu berechnen, werden die
Werte z-transformiert und deren Differenz gebildet (Macmillan & Creelman, 1991):

>@

>@
FApz-d' Hpz (3)
Die z-Transformation standardisiert den Mittelwert der Verteilungen der hit- und FA-Rates
auf 0 und die Standardabweichung auf 1, so dass eine Vergleichbarkeit der beiden Werte
möglich ist. Ein gleicher Anteil von hits und false alarms bedeutet dementsprechend einen d’-
2 Im Folgenden mit FA-Rate abgekürzt
Advertisement
2.3 Signaldetektionstheorie 19
Wert von 0 (und somit die komplette Überschneidung der zwei Verteilungen), der mit stei-
gender Differenz von hit- und FA-Rate zunimmt (Macmillan & Creelman, 1991).
2.3.1.2 Antwortkriterium
Während das Sensitivitäts-Maß d’ in der Signaldetektionstheorie von Stimulus-Parametern
abhängt (dem Abstand zwischen den Mitteln der Verteilung von Signal und Rauschen, deter-
miniert durch die Empfindlichkeit des Alarmsystems) und somit über den gleichen Stimulus
konstant bleibt, unterliegt der response bias oder das Antwortkriterium der Tendenz des
Alarmsystems, eine Antwort (positiv oder negativ) der anderen vorzuziehen (Macmillan &
Creelman, 1991). Das Antwortkriterium schneidet beide Verteilungen am cutoff c und unter-
teilt die Flächen in eine Akzeptanz- und eine Ablehnungsfläche (siehe Abbildung 3).
Abbildung 3: Wahrscheinlichkeitsverteilung der Systemzustände, Sensitivität und
Antwortkriterium
Verschiedene Maße werden zur formalen Berechnung des Antwortkriteriums herangezogen.
Ein häufig verwendeter Parameter ist das Kriterium c, welches sich aus standardisierten hit-
und FA-Rates berechnen lässt.

>@

>@
^`
FApzHpzc 5,0 (4)
Wie in Kapitel 2.3 gezeigt, ergibt sich die miss-Rate aus der Differenz zwischen 1 und der hit-
Rate. Sind die FA- und die miss-Rate gleich gilt: z[p(FA)] = z(1-p[H]) = -z[p(H)] und dieser
Wert entspricht 0 (dieser Wert kann in einer z-Tabelle abgelesen werden; Bortz, 2005).
20 Theoretischer Hintergrund
Übersteigt die FA-Rate die miss-Rate wird c < 0, bei größerer miss-Rate wird c > 0. Ein
positives c bedeutet also die Tendenz, „nein“ zu sagen und somit weniger hits aber auch
weniger false alarms zu erzielen.
Ein anderes Maß zur Berechnung des Antwortkriteriums bezieht sich auf die Tatsache, dass
jedem Wert auf der Entscheidungsachse zwei Wahrscheinlichkeiten zugeordnet sind: die
Wahrscheinlichkeit, dass der Wert der Fehler-Verteilung oder der fehlerfreien Zustände
entstammt (siehe Formel 5).
)(
)(
keinFehlerAlarmp
FehlerAlarmp
LR
(5)
Jeder Punkt auf der Entscheidungsachse hat also eine zugehöriges likelihood-Verhältnis:
dieses nimmt am Schnittpunkt der beiden Verteilungen den Wert 1 ein, wird rechts vom
Schnittpunkt größer als 1 (weniger hits, weniger falsche Alarme Æ weniger Alarme bzw.
Tendenz, keine Alarme zu geben) und links vom Schnittpunkt kleiner als 1 (mehr hits, mehr
falsche Alarme Æ mehr Alarme bzw. Tendenz, Alarme zu geben). Die likelihood ratio ist
somit keine Wahrscheinlichkeit und kann Werte von 0 - annehmen.
2.3.1.3 Receiver Operating Characteristic: Verdeutlichung des Zusammenhangs
zwischen dem Antwortkriterium c und der likelihood ratio ȕ
Die receiver operating characteristic (ROC) charakterisiert das Antwortverhalten eines
Alarmsystems, indem es jeweils die hit- und FA-Rate für unterschiedlich gesetzte Antwortkri-
terien c auf einer gegebenen Sensitivitätskurve abträgt. Die ROC gibt also Aufschluss über
das Resultat aus dem Zusammenspiel von Sensitivität und Antwortkriterium. Wie in Abbil-
dung 4 ersichtlich unterscheiden sich Alarmsystem A und Alarmsystem B bei gleicher Sensi-
tivität also hinsichtlich ihres Antwortkriteriums und damit hinsichtlich Anzahl von hits und
false alarms (Alarmsystem A: hit-Rate§.9, FA-Rate§.4, Alarmsystem B: hit-Rate§.6, FA-
Rate§.1).
Advertisement
2.3 Signaldetektionstheorie 21
Abbildung 4: ROC-Kurve (nach Macmillan & Creelamn, 1991)
Gleichung (5) liefert eine Interpretationsmöglichkeit der likelihood ratio im Rahmen der
receiver operating characteristic (ROC, siehe Abbildung 3). Die likelihood ratio entspricht
der Steigung der ROC-Kurve, die kontinuierlich mit kleiner werdenden Werten vom Ant-
wortkriterium c (siehe Kapitel 2.3.1.3) und somit mit sinkender likelihood ratio abflacht. In
der Signaldetektionstheorie wird die likelihood oft mit ȕ bezeichnet und kann nach Macmillan
& Creelman (1991) bei Erfüllung der Normalverteilungs-Voraussetzung auch wie folgt
berechnet werden:


>@

>@

>@
22
5,0
5,0
'log
FAzHz
FAzHzFAzHz
cd
E
(6)
In diesem Kapitel wurden die grundlegenden Parameter der Signaldetektionstheorie beschrie-
ben, die maßgeblich bestimmen, mit welcher Wahrscheinlichkeit bestimmte Ereignisse
detektiert werden. Auch diese zu detektierenden Ereignisse haben ihre eigene Auftretens-
wahrscheinlichkeit, welche so in der SDT nicht berücksichtigt wird, die aber einen nahezu
ebenso wichtigen Einfluss auf die Wahrscheinlichkeit der Detektion dieser Ereignisse hat wie
die Parameter der SDT. Im nächsten Kapitel werden die Auftretenswahrscheinlichkeit von
kritischen Ereignissen und ihre Auswirkungen auf die Leistungsfähigkeit eines Alarmsystems
weiter beschrieben.
22 Theoretischer Hintergrund
2.3.2 Bayes-Statistik und Signaldetektionstheorie
Die Bayes-Statistik beschäftigt sich mit bedingten Wahrscheinlichkeiten, also der Wahr-
scheinlichkeit des Eintreffens eines Ereignisses unter der Annahme eines vorausgesetzten
Ereignisses. Oder übertragen auf die Signalentdeckungstheorie: ein kritisches Ereignis im
System hat eine bestimmte Auftretenswahrscheinlichkeit, die a priori-Wahrscheinlichkeit des
Ereignisses. Die a posteriori-Wahrscheinlichkeit ist die Wahrscheinlichkeit, dass dieses
Ereignis unter der Voraussetzung dass es durch einen beobachtbaren Wert indiziert wurde,
tatsächlich stattgefunden hat. Im Kontext von Alarmsystemen gibt die a posteriori-
Wahrscheinlichkeit also an, mit welcher Wahrscheinlichkeit ein kritisches Ereignis tatsächlich
stattgefunden hat, wenn es durch einen Alarm signalisiert wurde. Die a posteriori-
Wahrscheinlichkeit summiert nicht nur die Information aus der a priori-Wahrscheinlichkeit
und der likelihood ratio auf (Egan, 1975), sondern stellt auch für den Operateur die wichtigste
Wahrscheinlichkeit dar, da sie für ihn anhand der Anzahl von wahren und falschen Alarmen
direkt wahrnehmbar ist. Dies gilt nicht für die hit-und FA-Rate, die für ihre Berechnung eine
genaue Kenntnis über die Verteilung von kritischen und unkritischen Systemzuständen
voraussetzen. Mit Hilfe der likelihood ratio und der a priori-Wahrscheinlichkeit kann die a
posteriori-Wahrscheinlichkeit eines Ereignisses berechnet werden:








keinFehlerAlarmp
FehlerAlarmp
keinFehlerp
Fehlerp
AlarmFehlerp
AlarmFehlerp
AlarmkeinFehlerp
AlarmFehlerp
1 (7)
Die linke Seite der Gleichung ist das Verhältnis der a posteriori-Wahrscheinlichkeiten für
einen fehlerhaften und für einen unkritischen Zustand, die von zwei Informationstypen auf
der rechten Seite determiniert werden: (1) dem Verhältnis der a priori-Wahrscheinlichkeiten
(das heißt der Wahrscheinlichkeit des Auftretens in der Realität) und (2) der likelihood ratio,
also der Frage, ob der Alarm aus der hit-Verteilung oder Verteilung der falschen Alarme
stammt. Die a posteriori-Wahrscheinlichkeit bewegt sich also immer monoton mit der likeli-
hood ratio, das heißt wenn LR(x1)>LR(x2), dann p(FehlerŇx1)>p(FehlerŇx2).
In diesem Kapitel (2.3) wurden Systemeigenschaften von Alarmsystemen im Rahmen der
Signaldetektionstheorie genauer erläutert. Im Hinblick auf das Modell von Allendoerfer, Pai
& Friedman-Berg (2008) wird ersichtlich, dass mit den Charakteristika des Alarmsystems, die
Advertisement
2.4 Erwartungswerte und Payoff-Strukturen 23
dessen Reaktion auf bestimmte Prozesszustände determinieren, nur die erste Ebene des drei-
stufigen Entscheidungsprozesses abgedeckt ist. Auf der zweiten Ebene trifft der Operateur die
Entscheidung, dem Hinweis des Systems zu folgen oder nicht. Diese Entscheidung kann
einerseits ebenfalls mittels Parametern der Signaldetektionstheorie erfasst und beschrieben
werden, allerdings spielen bei der menschlichen Entscheidung noch weitere Faktoren wie der
Kontext, Erwartungen und Vertrauen eine Rolle. Kapitel 2.4 soll daher die Rolle des Opera-
teurs als Entscheidungsinstanz auf zweiter Ebene genauer beleuchten.
2.4 Erwartungswerte und Payoff-Strukturen
Jede Entscheidung, die ein Mensch oder ein Alarmsystem im Sinne eines Detektors trifft,
zieht bestimmte Konsequenzen nach sich. Im Rahmen der Signaldetektionstheorie ist es
möglich, ein normatives Modell zu entwickeln, welches bei der Vorhersage der erwarteten
Entscheidungen unter Berücksichtigung bestimmter Systemcharakteristika und Konsequenzen
der Entscheidungen hilfreich sein kann. Mit Hilfe so genannter Erwartungswerte können die
Kosten und Nutzen der Entscheidungen, die im Feld gravierend sein können (z.B. die Kosten,
die durch das Übersehen eines kritischen Ereignisses in einem Hochsicherheitssystem entste-
hen oder aber die Kosten, die durch unnötiges Eingreifen in den Prozess in einem Produkti-
onsprozess entstehen), abgebildet und operationalisiert werden. So können Operateure ent-
scheiden, wie sie ihr Antwortkriterium nicht nur in Abhängigkeit der Sensitivität des
Alarmsystems setzen, sondern vor allem auch abhängig von den Kosten und Nutzen, die eine
einzelne Entscheidung mit sich bringt. Die Einschätzung der Kosten und Nutzen einer be-
stimmten Entscheidung dienen Designern wiederum als Richtlinien, wie sie das Antwortkrite-
rium des Alarmsystems setzen sollten, um die Leistung des Mensch-Maschine-Systems zu
optimieren. Im Laborkontext werden Kosten und Nutzen von Entscheidungen durch soge-
nannte payoff-Strukturen simuliert, die im Folgenden beschrieben werden.
Jede Entscheidung im Rahmen von Klassifkikationsaufgaben dient der Zielerreichung, die mit
der Entscheidung verbundenen Konsequenzen im Sinne eines Gewinnes zu maximieren
(Egan, 1975). Im Laborkontext ist es möglich, unterschiedliche Erwartungen von positiven
oder negativen Konsequenzen über sogenannte payoff-Matrizen nachzubilden. Die vier
Konjunktionsmöglichkeiten aus Systemzustand und Reaktion des Operateurs (hit, false alarm,
correct rejection und miss) sind mit Kosten und Gewinnen verbunden, die in einer payoff-
24 Theoretischer Hintergrund
Matrix operationalisiert werden können. Payoff bedeutet in diesem Kontext, dass richtige und
falsche Entscheidungen des Operateurs mit Punktabzug und -zugabe aufgerechnet und ihm
am Ende ausbezahlt werden. Der Einsatz monetärer Mittel erlaubt es also, die Konsequenzen
möglicher Entscheidungen zu gewichten und zu modellieren. Wird jede der vier Ereignis-
Zellen (hit, false alarms, correct rejection und miss) in der payoff-Matrix mit seiner zugehöri-
gen Ereignis-Reaktions-Wahrscheinlichkeit multipliziert, ergibt die Summer dieser vier
Ausdrücke den erwarteten Wert, oder expected value (Egan, 1975):




miss
ectioncorrectrej
falsealarm
hit
VFehlerpmissp
VkeinFehlerpectioncorrectrejp
VkeinFehlerpfalsealarmp
VFehlerphitpVE
uu
uu
uu
uu
(8)
Dieser Ausdruck hängt also von drei Einflussfaktoren ab:
1. der a priori-Wahrscheinlichkeit
2. der hit- und FA-Rate
3. dem Gewinn oder den Kosten, die mit den Ereignis-Reaktions-Konjunktionen assozi-
iert sind
Mit Hilfe dieser Gleichung und dem Wissen des Operateurs kann nun eine normative Ent-
scheidungsregel für den Operateur abgeleitet werden. Geht man davon aus, dass der Opera-
teur eine angemessene Vorstellung der a priori-Wahrscheinlichkeit und der likelihood ratio
hat (und damit auch der a posteriori-Wahrscheinlichkeit) können die erwarteten Werte für
eine positive und eine negative Reaktion auf einen Alarm berechnet werden.
Für eine Reaktion auf einen Alarm „ja“, das heißt für eine Handlungsausführung:

falsealarmhitja VkeinFehlerpVFehlerpVE uu (9.1.)
Für die negative Antwort „nein“ dementsprechend:

ectioncorrectrejmissnein VkeinFehlerpVFehlerpVE uu (9.2.)
Natürlich sollte der Operateur nur positiv reagieren, wenn der erwartete Wert einer positiven
Reaktion den der negativen übertrifft. Durch Umstellung der Ausdrücke in Gleichungen 9.1.
und 9.2. in die entsprechende Ungleichung resultiert die Entscheidungsregel:
Advertisement
2.5 Zuverlässigkeit von Alarmsystemen als verhaltenssteurendes Merkmal 25
Wenn


misshit
falsealarmectioncorrectrej
VV
VV
AlarmkeinFehlerp
AlarmFehlerp
² (10)
sage „ja“, ansonsten sage „nein“.
In diesem Kapitel wurden erwartete Kosten und Nutzen von bestimmten Entscheidungen
formal im Rahmen der Signaldetektionstheorie erläutert. Diese Werte steuern das Antwortkri-
terium des Operateurs so, dass der erwartete outcome maximiert wird. Dabei spielt, wie
Formeln 8-10 zeigen, auch die Zuverlässigkeit des Alarmsystems eine wichtige Rolle. Die
Zuverlässigkeit eines Alarmsystems spielt also nicht nur unter den Parametern des Alarmsys-
tems eine übergeordnete Rolle, sie moderiert auch den Effekt von externen Einflussfaktoren
wie der erwarteten Konsequenzen. Im Kapitel 2.5 wird die Zuverlässigkeit als Kerncharakte-
ristik eines Alarmsystems definiert und deren Einfluss auf das Verhalten von Operateuren
beschrieben.
2.5 Zuverlässigkeit von Alarmsystemen als verhaltenssteurendes Merkmal
In Kapitel 2.3 wurde bereits beschrieben, dass sich die Verteilung von Fehldiagnosen und
korrekten Hinweisen eines Alarmsystems aus dessen Sensitivität und dem Antwortkriterium
ergibt. Üblicherweise dichotomisiert das Antwortkriterium c die Verteilungen in einen An-
nahme- und Ablehnungsbereich, also einen Wertebereich, für den das System einen Alarm
gibt und einen Bereich für den es keinen Alarm gibt. Ein solches System, welches zwischen
zwei Zuständen (kritisch und unkritisch) unterscheidet wird als binäres System bezeichnet.
Das Problem binärer Systeme ist, dass es selbst bei gegebener hoher Sensitivität des Alarm-
systems, also bei relativ geringer Überlappung der beiden Wahrscheinlichkeitsverteilungen
(siehe Kapitel 2.3.1), bei einer niedrigen Fehler-Basisrate (also einer niedrigen a priori-
Wahrscheinlichkeit für ein kritisches Ereignis; siehe Kapitel 2.3.2) zu vielen Fehlalarmen
kommen kann. Da die Sensitivität technischen und praktischen Einschränkungen unterliegt,
ist es nicht möglich, ein perfektes Alarmsystem zu konstruieren, welches diesen Bereich der
Unsicherheit zu 100% richtig bewertet. Da die Konsequenzen einer Entscheidung bzw. die in
Kapitel 2.4 beschriebenen payoff-Werte nicht immer bekannt sind, ist es in der Praxis und
insbesondere in Hochsicherheitssystemen essentiell, kritische Ereignisse mit einer hohen
Sicherheit zu detektieren, da mit ihnen schwerwiegende Konsequenzen verbunden sind, wie z.
26 Theoretischer Hintergrund
B. im Luftverkehr oder in Kernkraftwerken. Um die Sicherheit auch bei einer eingeschränkten
Sensitivität zu gewährleisten, wird das Antwortkriterium eines Alarmsystems daher meist
sehr liberal gesetzt, das heißt, dass es weniger misses, dafür aber mehr false alarms gibt.
Diese Herangehensweise wird auch als fail safe engineering bezeichnet (Sweats, 1992). Die
Sensitivität zusammen mit der Fehler-Basisrate und dem Antwortkriterium ergeben also die
Zuverlässigkeit oder die Reliabilität eines Warnsystems.
Die Reliabilität eines Alarmsystems wird in der Literatur jedoch nicht immer einheitlich
definiert. In manchen Studien wird lediglich die hit-Rate als Maß für die Zuverlässigkeit
verwendet (Parasuraman, Molloy & Singh, 1993). Dieses Vorgehen lässt jedoch das Verhal-
ten des Alarmsystems bei Absenz eines kritischen Ereignisses außer Acht und gibt somit kein
vollständiges Bild über die Leistung des Systems, da false alarms und correct rejections nicht
mit berücksichtigt werden. In vielen Studien wird die Reliabilität daher operationalisiert über
den Anteil an korrekten Reaktionen des Alarmsystems an allen Reaktionen (Wickens &
Dixon, 2007), also der Summe der hits und correct rejections relativiert an der Summe der
hits, correct rejections, false alarms und misses (siehe Formel 11).
sfalsealarmmissesectioscorrectrejhits
ectioscorrectrejhits
ätreliabilit
(11)
Studien, die in diesem Kontext den Einfluss einer variierenden Reliabilität auf die Leistung
des kombinierten Mensch-Maschine-Systems untersuchten, fanden, dass der Anteil an korrek-
ten Reaktionen eines Alarmsystems darüber entscheidet, ob die Unterstützung eines Opera-
teurs durch ein Alarmsystem überhaupt leistungssteigernd ist oder nicht. So führten Wickens
& Dixon (2007) eine Meta-Analyse durch, in der sie die Effekte von unterschiedlichen Relia-
bilitäts-Niveaus aus 22 Studien auf die Leistung des Mensch-Maschine-Gesamtsystems
analysierten. Die analysierten Studien wiesen dabei folgende notwendige Gemeinsamkeiten:
die verwendeten Alarmsysteme hatten alle eine Reliabilität < 1.0 und gaben binäre Hinweise,
die im Rahmen der Signaldetektionstheorie klassifiziert werden konnten. Den Probanden
wurden dabei parallel zu den Hinweisen des Alarmsystems visuell die Rohdaten zum System-
zustand präsentiert, allerdings wurde in keiner Studie erfasst, ob und in welchem Ausmaß
diese Rohdaten tatsächlich beachtet wurden. Die Autoren verglichen für jede Studie die
Leistung in den unterschiedlichen Reliabilitäts-Bedingungen mit der Leistung der jeweiligen
Kontrollgruppe, in der die Probanden die Detektionsaufgabe ohne Unterstützung eines
Alarmsystems erfüllten. Dabei zeigten die Ergebnisse nicht nur, dass die Leistung stark
Advertisement
2.5 Zuverlässigkeit von Alarmsystemen als verhaltenssteurendes Merkmal 27
positiv mit der Zuverlässigkeit der Automation zusammenhängt, sondern auch, dass die
Leistung der Gruppe, die von einem Alarmsystem unter einer Reliabilität von 0.7 unterstützt
wurde, die Leistung der Kontrollbedingung nicht übertraf, sondern noch verschlechterte. Lee
& See (2004) berichten von gravierenden Leistungseinbußen des Mensch-Maschine-Systems,
wenn die Zuverlässigkeit des Alarmsystems unter ein bestimmtes Level sank. Dieser soge-
nannte cut-off schwankte in unterschiedlichen Studien von 90% (Moray et al., 2000) bis zu
70% (Kantowitz et al., 1997) zu 60% (Fox, 1996) und ist somit stark kontext- und systemab-
hängig.
Auch wenn diese Befunde zum Einfluss der Reliabilität weitgehend konsistent sind, ist die
Definition der Reliabilität über den Anteil an korrekten Reaktionen an allen Reaktionen sowie
über die hit-Rate problematisch, da die beiden Maße für den Operateur nicht unmittelbar
wahrnehmbar sind und somit für diesen keinen diagnostischen Wert haben. So müsste der
Operateur in beiden Fällen Kenntnisse über die zugrundeliegende Fehler-Basisrate haben, um
einordnen zu können, wieviele der Systemfehler tatsächlich korrekt detektiert wurden und
wieviele nicht. Ein weiteres Problem an der „klassischen“ Definition der Zuverlässigkeit als
Anteil korrekter Reaktionen ist, dass diese eine Gesamtreliabilität darstellt, in der zwei Ein-
zelaspekte der Gesamtzuverlässigkeit des Alarmsystems konfundiert sind. Ein Alarmsystem
kann dabei unabhängige Leistungen zeigen in der Anzeige von Systemfehlern (Alarm) und in
der Anzeige von fehlerfreien Zuständen (kein Alarm).
Alternative Maße zum Anteil an korrekten Reaktionen sind der positive predictive value3 und
der negative predicitve value4 (Meyer, 2004). Die PPV entspricht der a posteriori-
Wahrscheinlichkeit (siehe Kapitel 2.3.2), die besagt, dass bei einem gegebenen Alarm auch
tatsächlich ein kritisches Ereignis vorliegt; die NPV repräsentiert die Wahrscheinlichkeit, dass
bei Ausbleiben eines Alarms auch tatsächlich kein kritisches Ereignis vorliegt. Ein entschei-
dendes Merkmal dieses Maßes der Zuverlässigkeit ist die explizite Berücksichtigung der a
priori-Wahrscheinlichkeit eines kritischen Ereignisses oder der Fehler-Basisrate (siehe For-
meln 12 und 13).
>@
)(1)/()()/(
)()/(
FehlerpkeinFehlerAlarmpFehlerpFehlerAlarmp
FehlerpFehlerAlarmp
PPV uu
u
(12)
3Im Folgenden als PPV bezeichnet
4Im Folgenden als NPV bezeichnet
28 Theoretischer Hintergrund
>@
)(1)/()()/(
)()/(
keinFehlerpFehlerkeinAlarmpkeinFehlerpkeinFehlerkeinAlarmp
keinFehlerpkeinFehlerkeinAlarmp
NPV uu
u
(13)
Parasuraman, Hancock & Olofinboba (1997) und Meyer (2002) haben in ihren Studien
eindrucksvoll gezeigt, wie die PPV und die NPV maßgeblich von der Auftretenswahrschein-
lichkeit eines kritischen Ereignisses beeinflusst werden. So kann selbst ein Alarmsystem mit
einer hohen Sensitivität bzw. hohen hit-Rate eine niedrige PPV aufweisen, wenn die Basisrate
gering ist. Mit der NPV verhält es sich genau umgekehrt: je weniger kritische Ereignisse es zu
detektieren gibt, umso weniger misses können auftreten und umso höher ist die NPV. Abbil-
dung 5 veranschaulicht den Einfluss der Basisrate auf die PPV und die NPV.
Abbildung 5: Einfluss der Fehler-Basisrate auf PPV und NPV
Ein weiterer Vorteil der PPV und der NPV gegenüber verbreiteten Maßen wie der hit- oder
FA-Rate ist, dass sie für den Operateur besser interpretierbar sind und somit eine höhere
Diagnostizität aufweisen. Botzer et al. (2010) fanden in empirischen Versuchen, dass die
Probanden ihr Antwortkriterium, das heißt ihr Antwortverhalten besser an die Zuverlässigkeit
anpassten, wenn diese ihnen vorab im Rahmen der PPV und NPV präsentiert wurde als wenn
sie Informationen über die hit- und FA-Rate bekamen. Während es bisher also nur wenige
aussagekräftige Studien zum Einfluss der PPV und NPV auf das Reagieren auf Alarme gibt,
finden sich in der Literatur vermehrt Studien, die den Anteil an korrekten Reaktionen als das
Maß für die Zuverlässigkeit wählen anstatt der PPV und der NPV. Betrachtet man die Defini-
tion der Reliabilität als Anteil der korrekten Reaktionen an allen Reaktionen in Formel 11 fällt
auf, dass sich diese zur PPV bzw. NPV kürzt, wenn man Alarm- und Nicht-Alarmtrials
Advertisement
2.5 Zuverlässigkeit von Alarmsystemen als verhaltenssteurendes Merkmal 29
getrennt betrachtet. Da in einigen Studien lediglich das Antwortverhalten auf Alarme unter-
sucht wird, entspricht hier der korrekte Anteil exakt der PPV (Bliss & Acton, 2003; St. John
& Manes, 2002).
Auch wenn die PPV bzw. NPV also als eine spezifischere Art der Reliabilität im Sinne des
Anteils an korrekten Reaktionen bezeichnet werden könnte, ist es schwierig, die PPV bzw.
NPV eindeutig dem Begriff „Reliabilität“ oder „Validität“ zuzuordnen. Der Begriff „Reliabi-
lität“ rechtfertigt sich zum Einen durch die mögliche Ableitung der PPV und NPV aus der
Gesamtreliabilität zu einer spezifischen Reliabilität für Alarmtrials und alarm-freie Trials.
Zum Anderen lässt sich die Zuverlässigkeit erst über eine Reihe von Hinweisen des Alarm-
systems hinweg berechnen. Genauso ist die Reliabilität im klassischen Sinne als ein Gütem
für die Messgenauigkeit über mehrere Zeitpunkte definiert. Die Angemessenheit eines einzel-
nen Hinweises des Alarmsystems würde in diesem Rahmen als dessen Validität bezeichnet
werden, die für jeden einzelnen Hinweis aussagt, ob dieser dem tatsächlichen Systemzustand
entspricht oder nicht. Aus einer anderen Sichtweise kann argumentiert werden, dass die
Reliabilität eine konstante Eigenschaft des Alarmsystems sein muss, die sich nicht durch den
externen Einfluss der Fehler-Basisrate ändern kann. Die Messgenauigkeit bzw. Reliabilität
des Alarmsystems bliebe im Rahmen dieser Argumentation in Form der Sensitivität gleich,
nur die PPV und NPV würden als eine Form der Validität von der variierenden Basisrate
beeinflusst werden. Eine dritte Interpretationsmöglichkeit wäre, nur das Zusammenspiel von
PPV und NPV als „Validität“ des Alarmsystems zu bezeichnen. In diesem Zusammenhang
würde der Anteil an tatsächlichem Informationsgehalt des Alarmsystems als Validität be-
zeichnet werden. Der Anteil an übermitteltem Informationsgehalt lässt sich nach Meyer
(2001) in Abhängigkeit der Fehlerbasisrate quantifizieren. Da in dieser Arbeit der Einfluss
von PPV und NPV als Alternative zur klassischen Reliabilität untersucht wird, werden die
PPV und NPV im Folgenden als eine Form der Reliabilität klassifiziert, ohne die Gültigkeit
der anderen Interpretationen in Frage zu stellen.
In der Literatur gibt es bislang wenige empirische Arbeiten, die die PPV und NPV als Maß
für Zuverlässigkeit systematisch variieren. Getty et al. (1995) untersuchten erstmals systema-
tisch den Einfluss der PPV von Alarmen auf die Reaktionszeiten auf diese Alarme in einem
Doppelaufgaben-Paradigma. Sie fanden mit sinkender PPV einen signifikanten Anstieg der
Reaktionszeit auf einen Alarm. Allerdings war dieser Trend nicht linear, sondern zeigte ab
einer mittleren PPV einen cut-off, an dem das Verhalten abrupt wechselte; das heißt, dass für
niedrige PPV lange Reaktionszeiten auftraten und für alle PPV im höheren Bereich einheitlich
30 Theoretischer Hintergrund
kurze. In diesem Sinne wurde also die PPV dichotomisiert in hohe und niedrige PPV, und es
wurden zwei extreme Strategien gewählt, nämlich das Ignorieren von Alarmen bzw. das sehr
langsame Reagieren auf Alarme, und das unmittelbare Einsetzen der erwarteten Reaktion auf
den Alarm. Leider nahmen an dieser Untersuchung lediglich 4 Probanden teil, von denen nur
3 das Experiment komplett durchliefen, so dass die Ergebnisse mit Vorsicht zu betrachten
sind bzw. durch weitere empirische Erhebungen gestützt werden sollten.
Im Rahmen der PPV und der NPV wird somit wird zwischen Antworttendenzen unterschie-
den, die sich auf zwei unterschiedliche Meldungen eines Assistenzsystems beziehen: eine
Warnung oder ein Alarm fordert das Eingreifen des Operateurs während ein einwandfreier
Zustand keine Reaktion verlangt. In den nächsten Kapiteln werden die Definition und Ein-
flussfaktoren auf diese zwei Verhaltenstendenzen beschrieben.
2.5.1 Die Konzepte der reliance und compliance
In Kapitel 2.2 wurde mit Bezug auf die erste Stufe des Modells von Allendoerfer, Pai &
Friedman-Berg (2008; siehe Abb. 2) erläutert, dass ein binäres Alarmsystem zwei Zustände
annehmen kann (Alarm oder keinen Alarm). An dieser Stelle ist es wichtig, im Modell eine
Ebene höher zu gehen und zwischen zwei unterschiedlichen Reaktionsweisen des Operateurs
auf die Diagnose eines Alarmsystems zu unterscheiden: compliance bezeichnet die Tendenz,
die erwartete Reaktion auf einen Alarm auszuführen, wohingegen man unter reliance das
Ausbleiben einer solchen Reaktion versteht, wenn das Alarmsystem keinen kritischen Sys-
temzustand signalisiert. Compliance und reliance repräsentieren nach Meyer (2004) die
Verhaltenskomponente von Vertrauen. Vorteil dieser verhaltensbasierten Definition von
Vertrauen ist, dass das Verhalten eine Art Endergebnis ist, welches mehrere Faktoren vereint,
die zur Handlung beitragen. Lee & See (2004) siedeln Vertrauen beispielsweise noch vor der
Intention zum Handeln an, welche dann zusammen mit äußeren Faktoren wie der Arbeitsbe-
lastung und dem erwarteten outcome das endgültige Verhalten determinieren. Meyer (2004)
postuliert, dass compliance und reliance, also das behavioralistische Vertrauen in alarm-freie
Phasen und Alarmphasen, unterschiedlichen Mechanismen unterliegen. Unterstützt wird die
Trennung dieser zwei Reaktionen durch empirische Ergebnisse, die zeigen, dass die compli-
ance hauptsächlich von false alarms und die reliance überwiegend von misses beeinflusst wird
(Meyer, 2004). Zusätzlich scheint die compliance über die Zeit hinweg konstant zu bleiben,
Advertisement
2.5 Zuverlässigkeit von Alarmsystemen als verhaltenssteurendes Merkmal 31
während die reliance mit fortschreitender Interaktion mit einem nicht perfekten Alarmsystem
sinkt (Meyer, 2001).
Während reliance und compliance bislang also als unabhängige Konstrukte interpretiert
wurden, geben neuere Studien (Dixon, Wickens & McCarley, 2007; Rice, 2009; Dixon &
Wickens, 2006) Hinweise darauf, dass false alarms die Gesamtleistung in einem Mehrfach-
aufgaben-Paradigma stärker degradieren als eine hohe Anzahl von misses, indem sie nicht nur
die compliance, sondern auch die reliance reduzierten, also auch unspezifische Effekte zeig-
ten. Somit scheinen false alarms das Gesamtvertrauen in das System zu schwächen. In einer
Studie von Dixon, Wickens & McCarley (2007) wurden die Probanden aufgefordert, im
Rahmen einer Tracking-Aufgabe den Cursor mit Hilfe eines Joysticks möglichst dicht an ein
Zielobjekt zu bewegen, während sie gleichzeitig einen Pegelstand auf Abweichungen vom
Normbereich überwachen sollten. Dabei wurden sie von einem Alarmsystem unterstützt,
welches je nach Bedingung entweder perfekt arbeitete, misses produzierte oder zu falschen
Alarmen neigte. Die Ergebnisse zeigten, dass falsche Alarme die Leistung des Gesamtsystems
quantitativ und Aufgaben-übergreifend stärker minderten als misses. Dieser Effekt falscher
Alarme entsteht laut den Autoren dadurch, dass die Leistung in der Überwachungsaufgabe
sinkt, da die Reaktionszeiten auf einen Alarm aufgrund der niedrigen compliance länger sind.
Zum Anderen führen false alarms durch ihre hohe Salienz zu einer Ablenkung der Aufmerk-
samkeit von der Parallelaufgabe, so dass die Leistung in der Parallelaufgabe nicht nur unter
misses, sondern auch unter false alarms leidet. Gleichzeitig scheinen falsche Alarme nicht nur
das Vertrauen in Alarme zu reduzieren, sondern auch in alarm-freie Phasen, das Gesamtver-
trauen in das Alarmsystem wird also geschwächt. Dabei bewirkt die gesunkene reliance eine
erhöhte Aufmerksamkeit auf die Überwachungsaufgabe in alarm-freien Phasen und lässt die
Leistung in der Parallelaufgabe somit weiterhin sinken. Weitere Hinweise auf non-selektive
Effekte von falschen Alarmen auf die compliance und die reliance liefert eine Studie von Rice
(2009). In dieser Studie zeigte die Analyse des Verhaltens der Probanden, die bei einer
Detektionsaufgabe von einer Entscheidungshilfe unterstützt wurden, dass auch die Anzahl der
misses die compliance beeinflusste, wenn auch in geringerem Ausmaß als die false alarms.
Aufgrund dieser Befunde schlägt Rice ein multiples Prozessmodell von Vertrauen in Alarme
vor (siehe Abbildung 6).
32 Theoretischer Hintergrund
Abbildung 6: multiples Prozessmodell nach Rice (2009)
Die Automationsfehler misses und false alarms beeinflussen demnach nicht eine Art generel-
les Vertrauen, was sich wiederum auf beide Reaktionstendenzen reliance und compliance
auswirkt (singuläres Prozessmodell). Vielmehr scheinen sowohl misses als auch false alarms
das Vertrauen in Alarmphasen sowie in alarm-freie Phasen zu bestimmen. Das Vertrauen in
Alarme bzw. in alarm-freie Phasen hat ebenso keinen spezifischen Einfluss, sondern determi-
niert sowohl die compliance als auch die reliance, wenn auch false alarms die compliance
stärker beeinflussen als die reliance und misses die reliance stärker als die compliance. Auch
wenn beide Automationsfehler also das Vertrauen und die Leistung des Operateurs reduzie-
ren, so wurde in der Literatur bislang hauptsächlich die compliance und dementsprechend
Probleme im Zusammenhang mit false alarms untersucht. Das liegt zum Einen daran, dass
durch das fail safe engineering das Antwortkriterium so gesetzt wird, dass false alarms
häufiger auftreten als misses und zum Anderen am salienten und unterbrechenden Charakter
von false alarms. Das nächste Kapitel gibt eine Übersicht zu den Ergebnissen von For-
schungsarbeiten, die sich mit Verhaltensphänomenen im Umgang mit Alarmen beschäftigt
haben.
2.5.2 Verhaltensphänomene im Umgang mit Alarmen
Nachdem die Effekte von false alarms und misses auf die compliance und die reliance auf
theoretischer Basis beschrieben wurden, werden in diesem Kapitel Untersuchungsergebnisse
den Umgang von Operateuren mit unzuverlässigen Alarmen veranschaulichen.
In Kapitel 2.5 wurde bereits berichtet, dass die Leistung des Mensch-Maschine-
Gesamtsystems im Vergleich zur Leistung des Operateurs alleine abnimmt, wenn die Zuver-
lässigkeit des Alarmsystems unter eine bestimmte Schwelle sinkt (Wickens & Dixon, 2007).
Die Autoren erklären sich dieses Ergebnis so, dass die Operateure sich zu häufig auf offen-
Advertisement
2.5 Zuverlässigkeit von Alarmsystemen als verhaltenssteurendes Merkmal 33
sichtlich unreliable Alarmsystem verlassen, um Ressourcen für eventuelle Nebenaufgaben zu
sparen. In Experimenten mit höherer Belastung im Sinne von mehreren Teilaufgaben fiel die
Leistung dementsprechend schlechter aus als in Studien, in denen die Probanden sich auf die
Überwachungsaufgabe fokussieren und somit die schlechte Leistung des Alarmsystems
ausgleichen konnten. Die unzureichende Überwachung wird hier also eher als eine Strategie
zur Ressourcenallokation unter Überlastung verstanden anstatt als unzureichende Überwa-
chung aus einer Art Über-Vertrauen durch mangelnde Wahrnehmung der schlechten Reliabi-
lität. Die wahrgenommene Zuverlässigkeit des Alarmsystems sowie Kontextfaktoren wie die
Arbeitsbelastung scheinen also wichtige Einflussgrößen im Umgang mit nicht-perfekten
Alarmen zu sein. Empirische Befunde zu diesen beiden Faktoren werden im Folgenden näher
beschrieben.
Bisher wurden die Effekte von Fehlinformationen des Alarmsystems auf das Vertrauen und
somit auf die reliance und die compliance des Operateurs geschildert. Doch nicht immer hat
der Operateur Wissen über die Verteilung der unterschiedlichen Fehlerarten und somit über
die Zuverlässigkeit des Alarmsystems. Hat er also keinen Zugriff auf zusätzliche Informatio-
nen oder Rohdaten, die ihm helfen, die Entscheidung eines Alarmsystems zu validieren, so
muss er eine Entscheidung unter Unsicherheit treffen (Meyer, 2004). Diese Unsicherheit ist
dann besonders ausgeprägt, wenn sich die Zuverlässigkeit des Alarmsystems in einem mittle-
ren Bereich bewegt. Befindet sich die PPV zum Beispiel bei einem Wert von 0.5, so liegt die
Diagnostizität eines Alarms bei Rate-Wahrscheinlichkeit. Kahnemann, Slovic & Tversky
(1982) und Tversky & Kahnemann (1974) beschreiben, dass Menschen in Situationen großer
Unsicherheit unterschiedliche Heuristiken als Entscheidungshilfe heranziehen, um die Wahr-
scheinlichkeit des Eintretens eines Ereignisses zu schätzen. Die Berechnung von Wahrschein-
lichkeiten nach bayestheoretischen Formeln läuft also nicht automatisiert und online ab und
eine statistisch korrekte Einschätzung scheint unwahrscheinlich. Heuristiken basieren oft auf
den Informationen, die naheliegend und leicht abrufbar sind, vernachlässigen jedoch wichtige
Hintergrundinformationen, wodurch es zu verzerrten Schätzungen kommt. Diese Verzerrun-
gen entstehen also nicht durch motivationale Faktoren wie Belohnung oder Bestrafung,
sondern treten auch dann auf, wenn sich ein Novize oder auch Profi bemüht, so akkurat wie
möglich zu schätzen. Im Zusammenhang mit Alarmsystem geht es bei jedem einzelnen Alarm
bzw. alarm-freien Trial darum, die Wahrscheinlichkeit einzuschätzen, ob die Aussage des
Alarmsystems valide ist, sprich ob ein kritischer Systemzustand vorliegt oder nicht. Haben die
Operateure nicht die Möglichkeit, die Aussage durch Zusatzinformation zu validieren, befin-
34 Theoretischer Hintergrund
den sie sich in einer typischen Situation, in der eine Entscheidung unter Unsicherheit getrof-
fen werden muss und spezifische Heuristiken im Mensch-Maschine-Kontext treten auf. Bliss
(2003b) führte eine Meta-Analyse durch, in der er die Reaktionen von Probanden auf Alarme
mit unterschiedlicher Zuverlässigkeit auf einem individuellen Niveau untersuchte. Er fand,
dass die meisten Probanden unter Unsicherheit dazu neigten, Alarme mit einer Häufigkeit zu
befolgen, die etwa deren Zuverlässigkeit entsprach. Diese Anpassung der Reaktionen auf
einen Alarm an dessen Reliabilität wird in der Literatur als probability matching bezeichnet
(Bliss, 2003; Bliss, Gilson & Deaton, 1995) und stellt eine wichtige Heuristik im Umgang mit
nicht-perfekten Alarmsystemen dar. Im Rahmen seiner Meta-Analyse fand Bliss (2003b)
allerdings auch, dass eine Minderheit der Probanden eine andere Heuristik heranzog. Bei
einer niedrigen Reliabilität wurden alle Alarme ignoriert und bei einer hohen Reliabilität
wurden alle Alarme direkt befolgt. Bliss erklärt sich den Vorteil dieses sogenannten extreme
responding so, dass es den Probanden erlaubte, bereits vor dem Experimentaldurchgang zu
entscheiden, wie sie mit den Alarmen umgehen würden.
Im vorherigen Abschnitt wurden Verhaltenseffekte der Zuverlässigkeit von Alarmsystemen
beschreiben, die vor allem unter Unsicherheit des Operateurs bezüglich der Zuverlässigkeit
des Alarmsystems entstehen. Extreme Antwortmuster, die auf einer Art Heuristik basieren,
entstehen jedoch auch in Interaktion mit Alarmsystemen, deren Zuverlässigkeit bekannt ist.
So entsteht z. B. im Umgang mit perfekten Automationen oft ein generalisiertes Über-
Vertrauen. Mosier & Skitka (1996) beschreiben in diesem Zusammenhang das Konzept des
automation bias. Der automation bias beschreibt die Tendenz, die Hinweise der Automation
als heuristische Grundlage zur Entscheidungsfindung zu nutzen, dieser also blind zu folgen,
anstatt aktiv nach Informationen wie Rohdaten zu suchen und diese zu interpretieren, um die
Hinweise der Automation zu hinterfragen. Dabei kommt es zu zwei Fehlerarten in Abhängig-
keit des Systemzustandes: ein omission-Fehler kommt dann zustande, wenn der Operateur ein
vom automatisierten System nicht angezeigten kritischen Systemzustand übersieht, ein
commission-Fehler liegt dann vor, wenn er auf einen fälschlicherweise angezeigten Fehler
tatsächlich reagiert. Solch ein übersteigertes Vertrauen in die Automation ist jedoch kein
konstantes Verhalten über die Zeit hinweg, sondern wird maßgeblich beeinflusst von den
Erfahrungen, die über die Zeit mit dem System gemacht werden. So wird das Vertrauen des
Operateurs in das System nicht nur von der generellen Reliabilität beeinflusst, sondern auch
von jeder einzelnen Entscheidung, die das System trifft. Hat der Operateur die Möglichkeit,
diese zu verifizieren (z. B. durch unmittelbares Feedback oder durch manuelles Überprüfen
Advertisement
2.5 Zuverlässigkeit von Alarmsystemen als verhaltenssteurendes Merkmal 35
des Systems), so bekommt er eine Information über die sogenannte Validität dieser Entschei-
dung (Bliss, 2003b). Eine Kenntnis über die durchschnittliche Zuverlässigkeit des Systems
gibt also ein Bild von der Gesamt-Reliabilität. Davon grenzt sich die Validität eines einzelnen
Hinweises des Alarmsystems ab, die wiederum jedoch einen erheblichen Einfluss auf die
Wahrnehmung der generellen Reliabilität haben kann. Prozess.
Auch wenn dem Operateur Anhaltspunkte über die Zuverlässigkeit des Alarmsystems vorlie-
gen, werden Probleme im Umgang mit sehr unzuverlässigen Alarmen berichtet. Am promi-
nentesten sind dabei in der Literatur Ergebnisse zum Umgang mit einer hohen Anzahl von
falschen Alarmen. Im vorherigen Kapitel wurde beschrieben, wie eine hohe Anzahl falscher
Alarme zu einer sinkenden compliance und somit zu einer verlangsamten oder sogar ausblei-
benden Reaktion auf Alarme führt. In Anlehnung an die in der Einleitung aufgeführte Fabel
des Hirtenjungen, der zu oft „Wolf!“ schrie, bezeichnet Breznitz (1984) das Verhalten, wel-
ches durch eine verlangsamte oder ganz ausbleibende Reaktion auf Alarme kennzeichnet ist,
als cry wolf-Effekt. So bestätigen Dixon & Wickens (2006) im Laborkontext signifikant
höhere Detektionszeiten von Systemfehlern, wenn das Alarmsystem einen hohen Anteil von
falschen Alarmen hatte als wenn es einen vergleichbar hohen Anteil an verpassten kritischen
Ereignissen besaß. Ein einfacheres Paradigma bieten Meyer, Feinshreiber & Parmet (2003) in
einer Studie zum Einfluss des Automationsgrads (siehe Kapitel 2.1) und der Zuverlässigkeit
einer Entscheidungshilfe auf die Detektionsleistung des Operateurs. Das Paradigma bestand
aus einer 5 x 5 Matrix, deren Felder jeweils wieder aus 5 x 5 weißen und schwarzen Quadra-
ten bestanden. Ein Feld von 2 x 2 schwarzen Feldern bedeutete ein fehlerhaftes Produkt und
sollte durch den Probanden aussortiert werden. Von den 25 Feldern wurden den Probanden
allerdings nur 14 Felder gezeigt, so dass diese ein fehlerhaftes Produkt nicht mit Sicherheit
identifizieren konnten. Das automatisierte System gab durch Markierung der entsprechenden
Quadranten Hinweise auf mögliche fehlerhafte Items. Der Proband konnte dieses Item dann
entweder selbst zur Aussortierung auswählen oder (in der Bedingung mit dem System mit
höherem Automatisierungsgrad) abwarten bis das System das Item selbst aussortierte. In
dieser Studie verließen sich die Probanden sehr stark auf die unzuverlässigen Hinweise, vor
allem dann, wenn das Assistenzsystem einen hohen Automatisierungsgrad aufwies. Das
Ergebnis deutet darauf hin, dass der cry wolf-Effekt nur dann auftritt, wenn der Operateur in
einer hohen Anforderungssituation steht und seine Ressourcen auf mehrere Aufgaben auftei-
len muss. In diesem Fall spricht man von einem erhöhten workload. Der Begriff workload
beschreibt im Kontext vom Umgang mit Alarmsystemen die mentale Belastung, die ein
36 Theoretischer Hintergrund
Operateur durch die jeweilige Anzahl und Art der Arbeitsaufgaben und Situationsfaktoren
wie Zeitdruck erfährt. Diese mentale Belastung resultiert dann ein einer differentiell empfun-
denen Beanspruchung, die abhängig ist vom Zustand und den Coping-Fähigkeiten des Indivi-
duums (Manzey, 1998). Der Begriff workload unterscheidet nicht zwischen Beanspruchung
und Belastung, sondern geht von einem Informationsverarbeitungsprozess aus, der sich durch
zielgerichtete Handlungen und rückkoppelnde Feedbackschleifen zur Bewältigung der jewei-
ligen Belastung definiert. Für diesen Verarbeitungsprozess werden freie Kapazitäten benötigt,
die nach dem Modell von Wickens (1984, 1992, 2002, 2008) ressourcenspezifisch sind. Das
Modell der multiplen Ressourcen basiert auf der allgemeinen Annahme, dass die Aufgabe
vom Menschen einen bestimmten Bedarf an Ressourcen fordert. Mit steigender Komplexität
einer Aufgabe werden mehr Ressourcen benötigt, die die zur Verfügung stehende Kapazität
übersteigen können. In diesem Fall kommt es zu einer sogenannten Verteilungspolitik, was
bedeutet, dass der Mensch bzw. Operateur die ihm zur Verfügung stehenden Ressourcen auf
bestimmte Funktionen aufteilen muss. Das Besondere an Wickens’ Modell der multiplen
Ressourcen ist die Annahme, dass für bestimmte Funktionen jeweils spezifische Ressourcen
existieren. Die unterschiedlichen Dimensionen werden dabei in einem dreidimensionalen
Würfel dargestellt, der es erlaubt, die Verarbeitung einer spezifischen Belastung zu lokalisie-
ren. Dabei gelten folgende Kriterien bzw. Dimensionen:
Verarbeitungsmodalität („codes“). Bei räumlich-analogen Aufgaben werden sowohl
bei der Informationsaufnahme, deren Verarbeitung im Arbeitsgedächtnis und der Hand-
lungsausführung andere Ressourcen benötigt als bei verbal-sprachlichen.
Sinnesmodalität („modalities“). Die Aufnahme akustischer und visueller Reize ge-
schieht über jeweils unterschiedliche Ressourcen.
Verarbeitung visueller Information („visual processing“). Diese Dimension unter-
scheidet zwischen fokaler und ambienter Aufmerksamkeit. Die fokale Aufmerksamkeit
meint dabei das fokussierte, fixierende Sehen, die ambiente Aufmerksamkeit die Ver-
teilung der Aufmerksamkeit über das gesamte Blickfeld mit Fokus auf die Peripherie.
Verarbeitungsstufen („stages“). Für die Handlungsauswahl und –ausführung werden
andere Ressourcen benötigt als bei perzeptiv-kognitiven Aktivitäten.
Reaktionsmodus („responses“). Sprachlichen und manuellen Reaktionen liegen ver-
schiedene Ressourcen zugrunde.
Laut diesem Modell ist eine parallele Aufgabenbearbeitung möglich, wenn Ressourcen
gefordert werden, die auf zwei unterschiedlichen Dimensionen liegen (z. B. akustische vs.
Advertisement
2.5 Zuverlässigkeit von Alarmsystemen als verhaltenssteurendes Merkmal 37
visuelle Sinnesmodalitäten) oder wenn unterschiedliche Stufen der Informationsverarbeitung
angesprochen werden (z.B. Verarbeitungsstufen: kognitive Aktivitäten im Arbeitsgedächtnis
vs. motorische Aktivitäten bei der Handlungsausführung). Bei der parallelen Bereitstellung
unterschiedlicher Ressourcen kommt es durch die Aktivierung unterschiedlicher Hirnareale
also zu keinen Interferenzen und somit zu keiner Leistungseinbuße (Wickens, 2008). Einer
allgemeinen, aufgaben-übergeordneten Ressource würde nach Wickens (1991) die Koordina-
tion der spezifischen Ressourcen bzw. der Verteilungspolitik abgesehen von diesen unspezifi-
schen Ressourcen zukommen. In einem ersten Schritt beschreibt der mental workload durch
einen Abgleich vom Bedarf an Ressourcen und vorhandenen Kapazitäten also die momentane
Auslastung. Die Theorie der multiplen Ressourcen setzt daraufhin da an, wo eine Überlastung
der vorhandenen Kapazitäten auftritt. Nach der Theorie der multiplen Ressourcen kommt es
dann zu einer Leistungseinbuße durch Überlastung, wenn die Aufgabenanforderungen in
einem Mehrfachaufgaben-Paradigma zeitgleich Ressourcen beanspruchen, die auf einer
Dimension liegen. Im Rahmen der Mensch-Maschine-Interaktion lassen sich so Überlastun-
gen von Operateuren durch „multi tasking“ vorhersagen und damit verbundene Leistungsein-
brüche verhindern (Wickens, 2008).
Die Definition von workload und die Bedingungen, unter denen es zu einem hohen workload
kommt, sind insofern ausschlaggebend für die Verhaltenswirksamkeit von Alarmen, dass sich
eine hohe Anzahl von Alarmen vor allem unter hohem workload negativ auf die Leistung des
Mensch-Maschine-Systeme auswirkt. So führten Dixon & Wickens (2006) eine Untersuchung
durch, in der der workload durch den Schwierigkeitsgrad der simultan zu bearbeitenden
Aufgaben und die Koinzidenz von Vorfällen manipuliert wurde. Die Probanden wurden
aufgefordert, ein Luftfahrtzeug zu bestimmten Koordinaten zu steuern und als Nebenaufgabe
in einer Tracking-Aufgabe Ziel-Objekte zu detektieren. Die Überwachungsaufgabe bestand
darin, vier Systemparameter, deren Pegelstände kontinuierlich variierten, zu kontrollieren.
Dabei wurden sie von einem Alarmsystem unterstützt, das bei einer Normwertüber- oder -
unterschreitung einen akustischen Alarm gab. Die Ergebnisse zeigten, dass Probanden in
Interaktion mit dem Alarmsystem mit einer Reliabilität von nur 0,67 (bedingt durch eine hohe
Anzahl von falschen Alarmen) nur in der Bedingung mit hoher Arbeitsbelastung durch eine
starke Abnahme korrekter Detektionen von Systemfehlern und eine drastisch sinkende Reak-
tionszeit Anzeichen des cry wolf-Effekts zeigten. Ein recht verbreitetes Mehrfachaufgaben-
Paradigma ist die „multi-task attribute battery“ (MAT-Battery; Comstock, Arnegard, 1992),
deren Module in der nächsten Studie beispielhaft geschildert werden. Bliss, Jeans & Prioux
38 Theoretischer Hintergrund
(1996) nutzten diese, um ein Doppelaufgaben-Paradigma zu simulieren Im Rahmen dieser
Untersuchung sollten die Probanden im Rahmen einer Tracking-Aufgabe den Cursor mög-
lichst genau auf dem Mittelpunkt eines Quadranten halten und gleichzeitig vier Systempara-
meter auf mögliche Grenzwertüber- und -unterschreitungen überwachen. Dabei wurden sie
ebenfalls von einem Alarmsystem unterstützt, wobei ein Alarm hier sowohl akustisch als auch
visuell in Form eines aufleuchtenden gelben Balkens mit der Unterschrift „Warnung“ präsen-
tiert wurde. 75% der präsentierten Alarme waren wahre Alarme. Die Ergebnisse zeigten, dass
die Probanden ihre Antwortfrequenz im Sinne eines probability matchings auf das Niveau der
Zuverlässigkeit des Alarmsystems senkten. Bliss & Dunn (2000) unterschieden in einer
weiteren Untersuchung zusätzlich zwischen workload, der innerhalb der Alarmaufgabe
variiert wurde, und externem workload, der durch Erweiterung des Paradigmas der MAT-
Batterie um weitere Aufgaben manipuliert wurde. Der externe workload wurde dabei auf 3
Stufen manipuliert (nur Alarmaufgabe, eine Zusatzaufgabe, zwei Zusatzaufgaben). Der
interne workload wurde ebenfalls in 3 Stufen gesteigert, indem die Frequenz von Alarmen mit
jeder Stufe zunahm, so dass es zu mehreren Unterbrechungen und erfordertem Eingreifen
seitens des Operateurs kam. Die erfassten relevanten Variablen waren die Reaktionshäufigkei-
ten und -genauigkeit auf Alarme sowie die Fehlerrate in den Konkurrenzaufgaben. Es zeigte
sich, dass sowohl steigender alarm-interner workload als auch steigender externer workload
zu einer sinkenden Reaktionsleistung in der Alarmaufgabe führte. Dieser Effekt war dann
besonders stark, wenn der (interne oder externe) workload hoch und die Zuverlässigkeit des
Alarmsystems niedrig war.
Die in diesem Kapitel aufgeführten Studien, die das Auftreten des cry wolf-Effekts in Expe-
rimentalumgebungen zeigen, basieren alle auf binären Paradigmen, also Systemen, die den
Operateur zu einer Entscheidung zwischen einem direkten Befolgen des Hinweises des
Alarmsystems oder dem Ignorieren des Systems zwingen. Diese Studien sind also auf der
zweiten Ebene des Modells von Allendoerfer, Pai und Friedman-Berg (2008) einzuordnen.
Allerdings gibt es in ihrem Modell und auch in der Praxis oft eine dritte Verhaltensalternative,
das Überprüfen des Hinweises, die in der Literatur bislang häufig vernachlässigt wurde. Das
nächste Kapitel macht deutlich, welche Effekte eine solche Prüfoption auf den cry wolf-Effekt
und Heuristiken wie das extreme responding hat und weshalb es wichtig ist, diese For-
schungslücke zu schließen.
Advertisement
2.6 Kritische Diskussion bisheriger Forschung 39
2.6 Kritische Diskussion bisheriger Forschung
Betrachtet man die Literatur zum Thema Verhaltenswirksamkeit von Alarmen fällt auf, dass
die meisten Untersuchungsumgebungen so gestaltet sind, dass die Probanden sich zwischen
zwei extremen Verhaltensweisen auf einen Alarm entscheiden müssen: den Alarm zu reagie-
ren oder den Alarm zu befolgen (siehe Kapitel 2.2). Die bisherigen Forschungsergebnisse
beziehen sich also so gut wie ausschließlich auf die zweite Stufe des Modells von Allendoer-
fer, Pai & Friedman-Berg (2008), ohne die dritte Stufe des Modells zu berücksichtigen. Diese
letzte Entscheidungsebene des Modells repräsentiert eine dritte Verhaltensmöglichkeit, die
auch in der Praxis meist gegeben ist, nämlich das Reagieren auf einen Hinweis des Alarmsys-
tems, in dem der Operateur die Rohdaten hinter diesem Hinweis überprüft. In diesem Kapitel
soll der Einfluss des gewählten Paradigmas in Bezug auf die Verhaltensoptionen, die dem
Probanden geboten werden, kontrovers diskutiert werden.
In herkömmlichen Paradigmen wird bei niedriger Zuverlässigkeit des Alarmsystems immer
wieder der cry wolf-Effekt und bei hoher Zuverlässigkeit immer wieder ein „blindes“ Befol-
gen aller Alarme gefunden. Allerdings stellt sich die Frage, ob diese Heuristiken nicht auch
ein künstliches Produkt restringierter Untersuchungs-Settings sein könnten. Wie im vorheri-
gen Kapitel veranschaulicht tritt der cry wolf-Effekt vor allem in Mehrfachaufgaben-
Paradigmen auf, das heißt unter erhöhtem workload. Zu diesem erhöhten workload und der
binären Reaktionsmöglichkeit kommt die Unsicherheit der Probanden bezüglich der Validität
eines einzelnen Hinweises, so dass nur die Anwendung von Heuristiken aus der Entschei-
dungssituation unter Unsicherheit hilft. So bietet die bereits erwähnte MAT-Battery (Com-
stock, Arnegard, 1992) zwar die Möglichkeit, die Entscheidungen des Alarmsystems direkt
mit dem aktuellen Pegelstand zu vergleichen und die Diagnosen somit zu validieren. Dieses
Validieren stellt allerdings ein passives Überprüfen dar, da die Rohdaten nicht aktiv angefor-
dert werden müssen, sondern dem Operateur kontinuierlich dargeboten werden. Diese Opera-
tionalisierung birgt den Nachteil, dass nicht erfasst werden kann, ob die Rohdaten tatsächlich
geprüft bzw. wahrgenommen wurden. Somit können auch keine Aussagen über den Einfluss
der Prüfoption auf das gesamte Verhaltensmuster und die Leistung des Mensch-Maschine-
Systems getroffen werden. Ein Beispiel für ein aktives Überprüfen des Systemstatus findet
sich bei Meyer (2002; Bitan & Meyer, 2007). In einem simulierten Krankenhaus-Setting
sollten die Probanden Zahlenwerte zweier Stationen darauf überwachen, dass sie nicht in den
Negativbereich fallen. Ein Alarmsystem signalisierte durch die Rotfärbung eines sonst grünen
40 Theoretischer Hintergrund
Balkens über der jeweiligen Station einen kritischen Zustand. Um den aktuellen Wert und
somit die Validität des Alarms zu prüfen musste die Station angeklickt werden, wobei dem
Probanden für diese Prüfaktion Punkte abgezogen wurden, so dass ein Prüfen nur dann
eingesetzt werden sollte, wenn dies rational und notwendig erschien. Die Probanden in dieser
Untersuchung wurden also nicht gezwungen, sich zwischen den Extremreaktionen Ignorieren
oder direktes Befolgen des Alarms zu entscheiden, sondern konnten zwischen den drei Reak-
tionen Ignorieren, Befolgen und Überprüfen bzw. Validieren des Alarms entscheiden. Der
Anteil des Prüfverhaltens an allen gezeigten Reaktionen war in dieser Untersuchung jedoch
nicht zentraler Gegenstand. Bietet man also an, die Validität von einzelnen Entscheidungen
eines automatisierten Systems zu überprüfen, müsste der Anteil an Extremreaktionen sinken
und das Prüfverhalten steigen.
Bliss (2003b) untersuchte in der in Kapitel 2.5.2 bereits erwähnten Meta-Analyse, wie eine
Prüfoption das Auftreten von Heuristiken wie den cry wolf-Effekt, das extreme responding
und das probability matching beeinflussen würde. Er analysierte Studien zum Umgang mit
nicht-perfekten Alarmsystemen, die sich in der Verfügbarkeit von validierender Information
unterschieden (Bliss & McAbee, 1995; Bliss, Dunn & Fuller, 1995; Bliss, Jeans & Prioux,
1996; Bliss, 1997; Bliss & Kilpatrick, 2000; Bliss & Dunn, 2000). Alle in den Studien präsen-
tierten Alarmsysteme hatten eine Zuverlässigkeit zwischen 50% und 75%, wobei die Auftei-
lung der Studien mit und ohne Zugriff auf Rohdaten hinsichtlich der Zuverlässigkeiten nahezu
ausbalanciert wurde. Das Ergebnis der Analyse zeigte, dass sich in den Studien ohne Mög-
lichkeit zur Validierung des Alarms tatsächlich mehr Extremreaktionen im Sinne eines
Befolgens aller Alarme (over-responding) finden ließ, wohingegen diese Strategie in den
Studien mit Zugriff auf Rohdaten nahezu verschwand. Wird dem Operateur also die Möglich-
keit eingeräumt, jeden Alarm oder auch jede alarm-freie Einheit durch das Überprüfen der
Rohdaten hinter dem Alarm zu validieren, so kann der Operateur seine Unsicherheit bezüg-
lich der Diagnose des Alarmsystems reduzieren und sein Antwortverhalten der tatsächlichen
Zuverlässigkeit des Alarmsystems anpassen. Die Prüfoption hat nur dann zusätzlichen Wert,
wenn der Operateur auch eine starke Unsicherheit bezüglich der Validität des Alarmes erfährt,
wenn die Zuverlässigkeit des Alarmsystems also weder extrem gut noch extrem schlecht ist.
Bislang gibt es allerdings wenige Arbeiten, die das Informationssuchverhalten eines Opera-
teurs als Reaktion auf einen Alarm systematisch untersuchen. Lorenz et al. (2002) konnten in
einer Studie zeigen, dass das Informationssuchverhalten selbst bei einem hoch automatisierten
System aufrechterhalten bleibt, wenn das Alarmsystem unreliabel ist. Das Überprüfen der
Advertisement
2.6 Kritische Diskussion bisheriger Forschung 41
Rohdaten ist von großer Bedeutung, da es hilft, das Situationsbewusstsein aufrechtzuerhalten
und „out of the loop“-bedingte Leistungseinbußen zu vermeiden. Die Verhaltenstendenz, auf
einen Alarm mit dem Überprüfen der Rohdaten zu reagieren kann als drittes Konzept neben
reliance und compliance als „informed compliance“ bezeichnet werden und soll im nächsten
Kapitel näher definiert und erläutert werden.
3 Die Konzepte der Informed Compliance und Informed Reliance 42
3 Die Konzepte der Informed Compliance und In-
formed Reliance
Neben den bereits bestehenden Konzepten der reliance und compliance, die das direkte
Befolgen der Hinweise des Alarmsystems beschreiben, bleibt eine Verhaltenstendenz bislang
unbenannt und weitgehend unergründet: das Reagieren auf einen Alarm durch Überprüfen der
Rohdaten hinter dem Alarm, welches sich auf der dritten Ebene des Modells von Allendoer-
fer, Pai & Friedman-Berg (2008; siehe Abb. 2) befindet. Zeichnet sich diese Reaktion auch
durch eine sofortige Antwort auf den Alarm aus, so entspricht sie doch nicht einem Befolgen
dessen, was der Alarm suggeriert. Die Verhaltenstendenz des Überprüfens der Rohdaten
befindet sich also zwischen den Konzepten des cry wolf-Effekts (des Ignorierens des Alarms)
und der compliance (die sofortige und erwartete Reaktion auf einen Alarm). Das alarm-
getriggerte Prüfen wird im Rahmen dieser Arbeit als informed compliance bezeichnet, da eine
Reaktion auf den Alarm gezeigt wird, die statt in einem blinden Befolgen jedoch darin be-
steht, die Validität des Alarms zu überprüfen. Das Gleiche gilt natürlich auch für alarm-freie
Trials. Das Konzept der informed reliance5(also das Überprüfen der Rohdaten, wenn das
Alarmsystem keinen Alarm gibt) ist angesiedelt zwischen den Extremen non-reliance (dem
sofortigen Eingreifen des Operateurs) und reliance (dem in diesem Fall erwarteten und er-
wünschten Ignorieren des Prozesses). Erwartet würde dieses Verhalten in Situationen, in
denen eine Unsicherheit oder Rest-Unsicherheit bezüglich der Validität eines Hinweises des
Alarmsystems vorliegt. So sollte das Prüfverhalten dort am deutlichsten ausgeprägt sein, wo
die Unsicherheit am höchsten ist, nämlich bei einer PPV von 0.5. Bei einer hohen PPV von
0.7 bleibt dabei eine Unsicherheit von 0.3, so dass im Sinne eines probability matchings
(Bliss, Gilson & Deaton, 1995), welches in diesem Fall auf das Prüfverhalten übertragen
wird, 30% der Alarme überprüft werden sollten. Kaum Unsicherheit besteht bei extremen
PPVs, wie etwas bei PPVs von 0.1 und 0.9, so dass das Prüfverhalten dort eine untergeordne-
te Rolle spielen sollte und bei niedrigen PPVs vom cry wolf-Effekt sowie bei hohen PPVs
5Korrekterweise widerspricht jedwedes Reagieren auf eine alarm-freie Phase dem Begriff der reliance
und müsste eher der non-reliance zugeordnet werden. Um die Gegenüberstellung des Prüfverhaltens
in roten und grünen Trials begrifflich zu vereinfachen wird dennoch an diesem Begriff festgehalten
(siehe Begriffsverzeichnis, S. 149)
Advertisement
2.6 Kritische Diskussion bisheriger Forschung 43
von der compliance dominiert werden. Abbildung 7 veranschaulicht den erwarteten umge-
kehrt u-förmigen Verlauf des Prüfverhaltens und den Verlauf der compliance.
Kern dieser Arbeit ist, den Einfluss von unterschiedlichen Fehler-Basisraten und von variie-
rendem workload auf das Prüfverhalten im Umgang mit nicht-perfekten Alarmsystemen
systematisch zu untersuchen. Zusätzlich wird analysiert, wie sich die Bereitstellung einer
Prüfoption auf Heuristiken, wie dem cry wolf-Effekt, auswirkt. Im nächsten Kapitel werden
die Forschungsfragen dieser Arbeit vorgestellt.
Abbildung 7: Hypothetischer umgekehrt u-förmiger Verlauf des Prüfverhaltens und
asymptotische Verläufe des Ignorierens und Bearbeitens
4 Fragestellung und Untersuchungen 44
4 Fragestellung und Untersuchungen
Aufbauend auf den Ergebnissen in der Literatur, die das Auftreten von Heuristiken im Um-
gang mit nicht-perfekten binären Alarmsystemen zeigen konnten (z. B. Bliss, 2003b, Dixon &
Wickens, 2006, Meyer, Feinshreiber & Parmet, 2003) wird in dieser Arbeit vordergründlich
der Frage nachgegangen, welchen Einfluss das Einführen einer Validierungsmöglichkeit der
Hinweise von Alarmsystemen unterschiedlicher Zuverlässigkeiten auf extreme Antwortstra-
tegien wie den cry wolf-Effekt (Breznitz, 1984) und dem extreme responding (Bliss 2003b)
hat. Dazu wird in Laborexperimenten die Zuverlässigkeit eines simulierten Alarmsystems
jeweils in gleicher Weise manipuliert. Durch Manipulation der zugrundeliegenden Basisrate
wird die PPV jeweils in einem Range von 0.1 – 0.9 in fünf äquidistanten Stufen variiert. Als
Ausgangsstudie dient dazu eine unter meiner Anleitung an der Technischen Universität
entstandene Masterarbeit (Wiczorek, 2009), die in einem binären Paradigma Verhaltenseffek-
te von nicht-perfekten Alarmen untersuchte und die Befunde zum Auftreten von Heuristiken
bestätigte. Die Daten dieser Ausgangsstudie gelten also sozusagen als Grundlage für den
Umgang mit Alarmen, wenn keine Prüfoption gegeben ist, da in den folgenden Studien die
gleichen Untersuchungsbedingungen getestet wurden. Allerdings wurde das Paradigma
abgeändert in ein System, welches das Überprüfen der Hinweise des Alarmsystems erlaubt.
Für die folgenden vier Kernstudien dieser Arbeit wurde diese Prüfoption, die in Kapitel 5
ausführlich beschrieben wird, immer dargeboten..
In der ersten Studie wird untersucht, wie sich das Prüfverhalten unter Einfluss der fünf unter-
schiedlichen PPV in einem Doppelaufgaben-Paradigma entwickelt. Erwartet wurde dabei,
dass das Prüfverhalten mit steigender Entscheidungs-Unsicherheit steigt.
Die zweite Studie analysiert den cut-off, ab dem ein Alarm als unzuverlässig angesehen wird,
das heißt, den Punkt, ab dem das Prüfverhalten (informed compliance) das direkte Befolgen
des Alarms (compliance) dominieren müsste.
Die dritte Studie baut insofern auf den Ergebnissen der ersten Studie auf, als das Überprüfen
der Rohdaten aufwendiger gemacht wird, um der Frage nachzugehen, ob das gezeigte Prüf-
verhalten nicht nur ein Produkt einer zu einfachen Operationalisierung des Prüfprocederes sei
und ob unter erhöhtem Prüfaufwand der cry wolf-Effekt wieder verstärkt auftreten würde.
Advertisement
2.6 Kritische Diskussion bisheriger Forschung 45
Studie 3 replizierte Studie 1 also mit dem einzigen Unterschied, dass zwei statt nur einem
Parameter überprüft werden mussten, um die Unsicherheit bezüglich der Validität des Alar-
mes auf null zu reduzieren. Die Ergebnisse der Studie von Bliss & Dunn (2000) lassen unter
diesem Mehraufwand in der Alarmaufgabe das Wiederauftreten des cry wolf-Effekts erwar-
ten,auch wenn in Studie 3 nicht der eigentliche workload im Sinne des Modells der multiplen
Ressourcen von Wickens (1984, 1992, 2002, 2008) erhöht wird, sondern vornehmlich der
Zeitaufwand. Um den tatsächlichen workload zu erhöhen, wird Studie 4 durchgeführt.
Studie 4 untersucht den Einfluss eines gesteigerten workloads, der durch das Hinzufügen
einer dritten Aufgabe zu dem Doppelaufgaben-Paradigma operationalisiert wird. Somit wird
in Anlehnung an Bliss & Dunn (2000) sozusagen der „externe“ workload erhöht, welcher sich
nach Bliss & Dunn (2000) ebenso in einer niedrigeren Reaktionsrate auf Alarme, also dem
cry wolf-Effekt, auswirken müsste.
Bevor im empirischen Teil die einzelnen Studien dieser Arbeit ausführlich dargestellt werden,
wird im Folgenden die für alle Studien verwendete Untersuchungsumgebung detailliert
beschrieben.
4 Fragestellung und Untersuchungen
5 Die Experimentalumgebung M-TOPS 2 46
5 Die Experimentalumgebung M-TOPS 2
Um das Prüfverhalten im Umgang mit Alarmsystemen unterschiedlicher Zuverlässigkeitsstu-
fen systematisch zu untersuchen, wurde für diese Arbeit die Multi Task Operator Performance
Simulation (Domeinski, Wagner, Schöbel & Manzey, 2007) so modifiziert, dass die Überwa-
chungsaufgabe in der multi task-Untersuchungsumgebung einen aktiven Zugriff auf die
Rohdaten zur Validierung der Entscheidungen des Alarmsystems gewährte. Das auf der
Programmiersprache Java basierende Programm simuliert drei Teilaufgaben, die in ihrer
Struktur den Aufgaben von Schichtarbeitern in einer chemischen Industrieanlage ähneln.
Der Bildschirm ist in vier Quadranten aufgeteilt, wobei der Quadrant links unten leer steht
und M-TOPS somit drei Aufgaben simultan darbietet (siehe Abbildung 8).
Bestellaufgabe. Im linken oberen Quadranten befindet sich eine Chemikalien-Bestellaufgabe.
Das obere Feld gibt den Namen der benötigten Chemikalie an, die beiden Felder darunter
geben Aufschluss über den aktuellen Vorrat und die Menge des aktuellen Bedarfs an dieser
Chemikalie. Der Proband soll nun im leerstehenden Feld per Tastatur den Differenzwert
eingeben, den er durch Subtraktion von Vorrat und Bedarf errechnet hat. Diese Bestellung
soll dann per Mausklick auf den Button „Bestellung“ abgeschickt werden. Über die Pfeiltaste
ganz oben rechts kann eine neue Aufgabe bzw. Chemikalie angefordert werden. Wird die
Aufgabe nicht bearbeitet oder klickt der Proband nicht auf die Pfeiltaste erscheint nach 15
Sekunden automatisch die nächste Aufgabe.
Tankfüllaufgabe. Im rechten oberen Quadranten befindet sich eine Tankfüllaufgabe. Bei
dieser Aufgabe soll altes Kühlwasser durch Öffnen und Schließen von jeweils einem Zu- und
Ablaufventil aus zwei Containern abgelassen und frisches nachgefüllt werden. Allerdings
kann die gleiche Aktion immer nur für einen Container ausgeführt werden, nie für beide
Container gleichzeitig. Die effizienteste Strategie ist somit, das Wasser erst aus einem Con-
tainer laufen zu lassen und dann diesen Container neu zu befüllen, während gleichzeitig das
Ablaufventil des zweiten Containers geöffnet wird. Für einen kompletten Kühlwasseraus-
tausch werden nach dieser Strategie mindestens 40 Sekunden benötigt. In der im Nachfolgen-
den geschilderten Studie musste die Tankfüllaufgabe jedoch ignoriert werden. Deshalb wird
erst in Studie 4 detaillierter auf diese Aufgabe eingegangen (siehe Kapitel 10.2).
Advertisement
2.6 Kritische Diskussion bisheriger Forschung 47
Abbildung 8: Das Interface von M-TOPS 2
Alarm-unterstützte Überwachungsaufgabe. Im rechten unteren Quadranten befindet sich
die Alarmaufgabe. Die in dieser Studie ausschließlich verwendete Version M-TOPS 2 unter-
scheidet sich in genau dieser modifizierten Aufgabe von der Originalversion M-TOPS. Die
Alarmaufgabe wird den Probanden repräsentiert als ein schwarz umrandeter Kontroll-Screen,
in den von links die verpixelte, in Schwarz- Weißtönen gehaltene Ansicht des Inhalts eines
Reaktionscontainers läuft. Nach 3 Sekunden stoppt das Bild in der Mitte des Kontroll-Screens
und bleibt für 5 Sekunden dort stehen (im Schnitt wurden pro Minute also 7,5 Bilder dargebo-
ten). In diesem Stadium hat das Bild keinerlei Aussagewert über die Qualität des Container-
Inhaltes. Auskunft gibt allein die Anzeige eines Alarmsystems unter dem Control-Screen: ein
roter Balken bedeutet einen Alarm (und besagt, dass die Temperatur im chemischen Endpro-
dukt zu hoch ist), ein grüner Balken bedeutet, dass das chemische Endprodukt einwandfrei ist
und zum Transport übergeben werden kann. In der rechten unteren Ecke befindet sich der
Zustandsmonitor mit einer Diagnose für den aktuellen Container. Diese beinhaltet die genaue
5 Die Experimentalumgebung M-TOPS 2
48 Die Experimentalumgebung M-TOPS 2
Containerbezeichnung (zusammengesetzt aus zwei Buchstaben und zwei Zahlen und gegebe-
nenfalls den Fehlertyp „Temperatur in Behälter xx zu hoch“. Die aktuelle Meldung ist je nach
Alarmzustand entweder rot oder grün markiert und verblasst nach den 5 Sekunden zu einem
Grau über der sich von unten nachschiebenden neuen Meldung. Die aktuelle Zustandsdiagno-
se ist also immer ganz unten im Zustandsmonitor abzulesen. Die Eigenschaften des Alarmsys-
tems wurden dabei über dessen Zuverlässigkeit im Rahmen der hit-Rate und FA-Rate defi-
niert. Diese beiden grundlegenden Charakteristika wurden in den unterschiedlichen
Untersuchungen konstant gehalten bei einer hit-Rate von 0.8 und einer FA-Rate von 0.4. Die
Reaktionsmöglichkeiten, die dem Probanden dargeboten werden, können in dieser Aufgabe in
zwei Modi dargestellt werden.
Der erste Modus entspricht dabei einem binären System und stellt den Probanden vor die
Entscheidung, dem Hinweis des Alarmsystems blind zu folgen oder diesen zu ignorieren. Er
kann dem Alarm vertrauen und durch den Klick auf den Button „Bearbeiten“ das Bearbeiten-
Menü öffnen und durch Markieren des Feldes „Temperatur“ die Senkung der Temperatur
veranlassen. Vertraut er dem Alarm nicht, kann er den Alarm ignorieren und seine Ressour-
cen für andere Aufgaben freigeben. Die gleichen Reaktionsmöglichkeiten bieten sich natür-
lich auch bei einem grünen Licht.
Der zweite Modus präsentiert dem Probanden eine dritte Reaktionsmöglichkeit, indem er
zusätzlich zu den Optionen, den Hinweis zu ignorieren oder blind zu befolgen, die Rohdaten
hinter dem Hinweis des Alarmsystems überprüfen kann. Zu dieser Art Validierung wird der
Button „Prüfen“ direkt unter dem „Bearbeiten“-Button angeklickt, woraufhin sich ein Prüf-
Menü öffnet. Dieses zeigt nach dem Klick auf „Parameter wählen“ eine Liste von Container-
Bezeichnungen an, in denen die Temperatur gesenkt werden kann (siehe Abbildung 8). Der
Proband muss nun aus einer Auswahl von 7 Container-Bezeichnungen genau den Container
auswählen, dessen Bezeichnung (Zahlen-Buchstaben-Kombination) zum aktuellen Container
im Zustandsmonitor passt. Ist dieser korrekt ausgewählt, öffnet sich mit einer Verzögerung
von ca. 2 Sekunden die farbige Detailansicht des Containerinhaltes. Hierbei bedeuten mehr
als zwei rote Flecken auf einem grünen Hintergrund eine tatsächlich zu hohe Temperatur und
das Endprodukt muss bearbeitet werden. Hierzu kann der Proband direkt unten im Prüfmenü
auf „Bearbeiten“ im sich öffnenden Bearbeiten-Menü auf „Temperatur“ klicken. Sind weniger
als drei rote Flecken zu sehen ist das chemische Produkt in Ordnung und es kann auf den
Button „weiter“ geklickt werden.
Advertisement
2.6 Kritische Diskussion bisheriger Forschung 49
Dieselben Reaktionsmöglichkeiten bieten sich dem Probanden bei einem grünen Licht. Der
Proband kann der Zustandsanzeige vertrauen und nichts tun, der Anzeige nicht vertrauen und
direkt bearbeiten oder die Rohdaten hinter dem grünen Licht nach einem übersehenen Fehler
des Alarmsystems (miss) überprüfen.
5 Die Experimentalumgebung M-TOPS 2
50 Ausgangsstudie: Reaktionsmöglichkeiten auf Alarme ohne Prüfmöglichkeit
6 Ausgangsstudie: Reaktionsmöglichkeiten auf
Alarme ohne Prüfmöglichkeit
Wiczorek (2009) untersuchte im Rahmen ihrer Masterarbeit systematisch Verhaltenseffekte
von Alarmen mit variierender PPV. Diese Studie entstand in Anlehnung an die Arbeit von
Getty et al. (1995), die zwar ebenso den Einfluss der PPV untersuchten, deren Studie aller-
dings aufgrund der geringen Stichprobengröße mit Vorsicht zu interpretieren ist. In der hier
aufgeführten Masterarbeit sollte mit einer Stichprobengröße von N = 56 analysiert werden, ob
systematische Variationen der PPV zu den Verhaltenseffekten, wie dem extreme responding
und dem cry wolf-Effekt führen, wie Bliss (2003b; Bliss, Gilson & Deaton, 1995) sie in
Studien mit variierter Reliabilität im Sinne des Anteils an allen korrekten Reaktionen des
Alarmsystems gefunden hatte (siehe Kapitel 2.5.2). Zu diesem Zweck wurde das in Kapitel 5
beschriebene M-TOPS 2-Paradigma verwendet. Es wurden lediglich die Alarmaufgabe und
die Bestellaufgabe verwendet, die Tankfüllaufgabe war nicht Teil der Untersuchung und
sollte ignoriert werden. Somit ergab sich ein Doppelaufgaben-Paradigma bestehend aus einer
Nebenaufgabe und einer Überwachungsaufgabe. Für die Ausgangsstudie wurde den Proban-
den das Paradigma lediglich im ersten Modus, also ohne Prüfmöglichkeit der Hinweise des
Alarmsystems dargeboten. Die Probanden befanden sich also in einer Situation von Unsicher-
heit, wenn sie sich entschieden, der Diagnose des Alarmsystems zu vertrauen oder nicht.
6.1 Versuchsplan
Der Studie lag ein einfaktorielles Untersuchungsdesign zugrunde mit dem fünffach gestuften
between-subjects-Faktor Fehler-Basisrate. Zwar durchliefen die Probanden zwei Experimen-
taldurchgänge, allerdings wurde nur der zweite Block mit in die statistische Auswertung
einbezogen, da davon ausgegangen wurde, dass sich die intendierte Strategie erst im zweiten
Block klar manifestierte. Die fünfstufige Variation der Fehler-Basisrate beeinflusst zwei
Aspekte der a posteriori-Wahrscheinlichkeit eines Alarms: die PPV in roten (Alarm-) Phasen
und die NPV in grünen (alarm-freien) Phasen. Tabelle 2 veranschaulicht die den unterschied-
lichen Bedingungen zugrundeliegenden Basisraten und die resultierenden PPV und NPV für
rote und grüne Phasen. Die sich somit ergebenden fünf Versuchsbedingungen unterschieden
Advertisement
6.2 Ablauf 51
sich ausschließlich in der Fehlerbasisrate und somit der PPV und der NPV. In allen Bedin-
gungen hatte das Alarmsystem dieselbe zugrundeliegende hit-Rate von 0.8, eine FA-Rate von
0.4 und somit eine Sensitivität d’ von 1.1 und ein Kriterium c von -0.3.
Basisrate PPV NPV
.05 .10 .98
.18 .30 .93
.33 .50 .86
.54 .70 .72
.81 .90 .41
Tabelle 2: manipulierte Basisrate und die resultierenden PPV und NPV
Abhängige Variablen waren die Verhaltensanteile des direkten Bearbeitens (compliance bei
Alarmen bzw. non-reliance in alarm-freien Trials) und des Ignorierens (cry wolf-Effekt bei
Alarmen bzw. reliance in alarm-freien Trials) an allen gezeigten Reaktionen.
6.2 Ablauf6
56 Probanden wurden den Bedingungen zufällig zugeteilt und über am Bildschirm präsentier-
te Instruktionen über das Untersuchungsparadigma und die zu erfüllenden Aufgaben aufge-
klärt. Diese Instruktion beinhaltete auch kurze praktische Übungsdurchgänge für die jeweili-
gen Teil-Aufgaben, um die Probanden mit der grundlegenden Handlungsausführung vertraut
zu machen. Um die Zuverlässigkeit des Alarmsystems durch Erfahrung mit dem System
kennenzulernen, bearbeiteten die Probanden in einem weiteren Probe-Durchgang 100 Contai-
ner mit Unterstützung des Alarmsystems. Dabei bekamen sie über Kopfhörer akustisches
Feedback über die Angemessenheit ihrer finalen Entscheidung, die sie für jeden Container
trafen. Dieser Feedback-Block sollte dabei helfen, die Operateure für die Zuverlässigkeit des
Alarmsystems zu sensibilisieren und die Häufigkeit beider Fehlerarten erfahren zu lassen. Im
Anschluss an diesen Durchgang wurden die Probanden nach ihrer Einschätzung der Auftei-
lung der hits, misses, false alarms und correct rejections über die 100 Trials befragt und im
Anschluss über die tatsächliche Verteilung aufgeklärt, um Verzerrungen zu vermeiden. Nach
dieser Aufklärung über die Zuverlässigkeit des Alarmsystems begann der erste von zwei
Experimental-Durchgängen. Nach diesem erhielten die Probanden detailliertes Feedback zur
6Wesentliche Merkmale der Versuchsausführung entsprechen den später aufgeführten Hauptstudien
dieser Arbeit. Eine genauere Beschreibung und Begründung des gewählten Vorgehens findet sich in
Abschnitt 7.3.3.
52 Ausgangsstudie: Reaktionsmöglichkeiten auf Alarme ohne Prüfmöglichkeit
Angemessenheit ihrer Reaktionen in den einzelnen Trials, bevor sie den zweiten Experimen-
taldurchgang starteten. Richtige Reaktionen in der Bestellaufgabe wurden mit 1.5 Punkten
belohnt. In der Überwachungspunkte gab es für jede richtig getroffene Entscheidung zwei
Punkte, für falsche Entscheidungen (Reagieren auf einen falschen Alarms bzw. Nicht-
Reagieren auf ein vom Alarm nicht angezeigtes kritisches Ereignis) wurden jeweils zwei
Punkte abgezogen (siehe Abschnitt 7.3.3 für eine Erläuterung der Grundlage dieser payoff-
Struktur).
6.3 Ergebnisse
Um zu kontrollieren, ob die Probanden durch die Interaktion mit dem System im Probe-
Durchgang (100 Container) die Variation der PPV und NPV in den unterschiedlichen Bedin-
gungen wahrgenommen hatten, wurde jeweils eine Varianzanalyse mit der unabhängigen
Variable PPV bzw. NPV und der abhängigen Variable geschätzte PPV bzw. NPV durchge-
führt. Diese Art Manipulations-Check ergab, dass sich die Schätzungen der manipulierten
PPV in den unterschiedlichen Bedingungen signifikant voneinander unterschieden (F(4,51) =
18,7, p < .001); das Gleiche ergab sich auch für die manipulierte NPV, (F(4,51) = 8,5, p <
.001). Tabelle 3 gibt eine Übersicht über die tatsächlichen PPV bzw. NPV und die entspre-
chenden Schätzungen.
tatsächliche PPV geschätzte PPV tatsächliche NPV geschätzte NPV
.1 M = 0.21
SD = 0.15 .98 M = 0.9
SD = 0.12
.3 M = 0.36
SD = 0.11 .93 M = 0.81
SD = 0.12
.5 M = 0.47
SD = 0.18 .86 M = 0.74
SD = 0.13
.7 M = 0.56
SD = 0.19 .72 M = 0.72
SD = 0.14
.9 M = 0.74
SD = 0.12 .41 M = 0.59
SD = 0.15
Tabelle 3: Mittelwerte und Standardabweichungen der geschätzten PPV und NPV
Um das Antwortverhalten auf die Hinweise unterschiedlicher Zuverlässigkeit zu analysieren,
wurden einfaktorielle Varianzanalysen mit dem Faktor variierende Basisrate und den abhän-
gigen Variablen des anteiligen Bearbeiten- bzw. Ignorier-Verhalten eines Containers berech-
net.
Advertisement
6.3 Ergebnisse 53
Rote Trials. Für das direkte Bearbeiten von Containern in Alarmtrials ergab sich ein signifi-
kanter Haupteffekt für die variierende Basisrate (F(4,51) = 20.44; p<.001) in dem Sinne, dass
Alarme bei einer PPV von 0.1 zum größten Teil ignoriert wurden und das Bearbeiten von
Alarmen mit zunehmender PPV anstieg. Dieses Verhaltensmuster entspricht dem klassischen
cry wolf-Effekt im unteren Bereich der PPV (Bliss, 2003b). Abbildung 9 gibt einen Überblick
über den Verlauf des Bearbeitens und Ignorierens über die verschiedenen Bedingungen.
Zusätzlich wurde auf einer individuellen Ebene nach Personen gesucht, die einer extremen
Antwortstrategie folgten. Diese wurden unterteilt in „over-responders“, wenn in mehr als 90%
der Fälle den Hinweisen des Alarmsystems gefolgt wurde und in „under-responders“, wenn in
weniger als 10% der Fälle diesem Folge geleistet wurde. Zur Auswertung wurde ein chi²-Test
durchgeführt, um die Häufigkeit des Einsatzes einer extreme responding-Strategie mit dem
Einsatz anderer Strategien, wie dem probability matching, zu vergleichen. In der chi²-Analyse
auf individuellem Niveau stellte sich heraus, dass sich der Trend von ansteigenden positiven
Reaktionen auf einen Alarm hauptsächlich aus der Mittelung extremer Antwortstrategien
zusammensetzt und somit ein Artefakt darstellen (Ȥ²(1, 56) = 4,57, p < .05; siehe Abbildung 9).
Mittlerer Anteil bearbeiteter Container in Alarmtrials und
Anzahl der Personen, die eine extreme Antwortstrategie
hlten
0
20
40
60
80
100
.1 .3 .5 .7 .9
PPV
Anteil in Prozen
t
0
2
4
6
8
10
12
absolute Anzahl
immer ignorieren
immer bearbeiten
mittleres Bearbeiten
Abbildung 9: mitteleres Bearbeiten von Alarmtrials in Prozent und abolute Anzahl von
extremen Antwortstrategien
Bei hohen PPV (0.7 und 0.9) befolgte die Mehrzahl der Probanden über 90% der Alarme
(extreme responding), wohingegen sie bei niedrigen PPV (0.1 und 0.3) über 90% der Alarme
ignorierten (under-responding). Bei der mittleren PPV von 0.5 zeigten sie sowohl positives
54 Ausgangsstudie: Reaktionsmöglichkeiten auf Alarme ohne Prüfmöglichkeit
(bearbeiten) als auch negatives (ignorieren) extreme responding. Dieses gleiche Aufteilen der
Antwortstrategien bei einer PPV von 0.5 würde hier ebenso einer probability matching-
Strategie entsprechen.
Grüne Trials. Für die Reaktion auf alarm-freie Trials zeigte sich ein signifikanter Effekt der
variierenden Basisrate auf das Bearbeiten von Containern (F(4,51) = 5,67; p = .001) im Sinne
der non-reliance (siehe Abbildung 10).
Die chi²-Analyse, die durchgeführt wurde, um die Häufigkeit von extremen Antwortstrategien
mit der Häufigkeit anderer Strategien, zu vergleichen zeigte wie schon in Alarmtrials ein
signifikantes Ergebnis (Ȥ²(1,56)= 23,14, p < .001). Die Ergebnisse zeigten in alarm-freien
Trials ein den Reaktionen in Alarmtrials entgegengesetztes Muster: auf die NPV unter 0.5
wurde von den meisten Probanden mit einem „over-responding“ (mehr als 90% der Container
wurden bearbeitet) und auf NPV unter 0.5 wurde mit einem under-responding reagiert (mehr
als 90% der Container wurden ignoriert im Sinne der reliance).
Anhang F gibt eine Übersicht über sämtliche Mittelwerte und Standardabweichungen in roten
und grünen Trials.
Mittlerer Anteil bearbeiteter Container in grünen trials und
Anzahl der Personen, die eine extreme Antwortstrategie
hlten
0
20
40
60
80
100
.98 .93 .86 .72 .41
NPV
Anteil in Prozen
t
0
2
4
6
8
10
12
absolute Anzahl
immer ignorieren
immer bearbeiten
mittleres Bearbeiten
Abbildung 10: mittleres Bearbeiten von alarm-freien Trials in Prozent und abolute Anzahl
von extremen Antwortstrategien
Advertisement
6.4 Diskussion 55
6.4 Diskussion
Die Ergebnisse der Studie geben Aufschluss über den Einfluss der PPV und der NPV auf die
Auswahl von Antwortstrategien, wenn Entscheidungen unter Unsicherheit getroffen werden
müssen. Dabei schätzten die Probanden die Zuverlässigkeit des Alarmsystems angemessen
ein, wobei sie eine leichte Tendenz zur Mitte offenbarten, indem hohe Wahrscheinlichkeiten
unter- und niedrige Wahrscheinlichkeiten überschätzt wurden. Der Verlauf des mittleren
Bearbeitens von Bedingung 0.1 bis Bedingung 0.5 zeigt ein fast perfektes Anpassen der
Antworthäufigkeit zur PPV des Alarms, wie man es im Rahmen des probability matching
erwarten würde (Bliss, 2003b). Nach einer PPV von 0.5 kam es zu einem plötzlichen starken
Anstieg der compliance, der darauf hinweist, dass die Probanden dem Alarmsystem bei den
Bedingungen 0.7 und 0.9 nahezu vollständig vertrauten. Betrachtet man jedoch das Verhal-
tensmuster auf individuellem Niveau wird klar, dass der Verlauf vor allem in unteren Berei-
chen der PPV hauptsächlich durch die Mittelung extremer Antwortstrategien entstand. So
wählten 16% der Probanden (oder 7 von 44 Probanden) in der Bedingung 0.1 die Strategie,
alle Alarme zu ignorieren, in Bedingung 0.3 waren es trotz gestiegener PPV immer noch 12%
(5 von 44 Probanden). In der Bedingung mit der größten Unsicherheit bezüglich der Validität
des Alarms (PPV = 0.5) trat eine Mischform von Extremstrategien auf: es entschieden sich
immer noch 10% der Probanden (4 von 44 Probanden) dazu, alle Alarme zu ignorieren,
während 5% der Probanden (2 von 44 Probanden) das andere Extrem wählten und alle Alar-
me befolgten. Dieses Verhaltensmuster in den unteren Bereichen der PPV bestätigt nicht nur
die Befunde zum cry wolf-Effekt (Bliss, 2003a; Bliss & Dunn, 2000; Breznitz, 1983; Dixon
& Wickens, 2006), sondern zeigt auch, dass dieser Effekt nicht nur bei extrem niedrigen PPV
auftritt, sondern bis zu einer PPV von 0.5 persistiert. Selbst im Bereich der größten Unsicher-
heit entschied sich eine Minderheit der Probanden also noch dazu, die Alarme zu ignorieren.
Das Auftreten des cry wolf-Effekts selbst bei mittleren Zuverlässigkeiten von Alarmen zeigt,
dass sich die Bedeutung des cry wolf-Effekts nicht nur auf leistungsschwache Systeme
beschränkt. Der Sprung der PPV auf 0.7 scheint subjektiv den größten Effekt zu haben, da
16% der Probanden (7 von 44 Probanden) alle Alarme befolgten und die Extremstrategie, alle
Alarme zu ignorieren verschwand. In Bedingung 0.9 wurden dann von 21% (9 von 44)
Probanden alle Alarme direkt befolgt. Das gefundene Antwortmuster entspricht den Ergebnis-
sen von Bliss (2003b), die besagen, dass Extremstrategien vor allem dann auftauchen, wenn
56 Ausgangsstudie: Reaktionsmöglichkeiten auf Alarme ohne Prüfmöglichkeit
die Probanden nicht die Möglichkeit haben, zusätzliche Information zur Zuverlässigkeit des
Alarmes heranzuziehen.
In alarm-freien Trials ergab sich ein ähnliches Bild, auch wenn die Verhaltenseffekte auf-
grund des kleineren Bereiches, in dem die NPV variierte, geringer ausfielen. Im oberen
Bereich der NPV (0.72 bzw. 0.98) dominierte die Antwortstrategie, dem grünen Licht zu
vertrauen und die Container zu ignorieren (18% bzw. 27% der Probanden folgten dieser
Strategie). Den größten Verhaltenseffekt bewirkte in grünen Trials die Änderung der NPV
von 0.72 auf 0.41: der Anteil an Probanden, die die Extremstrategie, die Container zu ignorie-
ren, wählten, nahm stark ab (auf 7% der Probanden) und das direkte Bearbeiten stieg auf ein
ähnliches Niveau an (auf 5% der Probanden).
Zusammenfassend belegen die Ergebnisse der Ausgangsstudie die Verhaltenswirksamkeit von
PPV und NPV, wie sie bereits von Getty et al. (1995) gefunden wurde. In dieser Studie
führten die Verhaltenseffekte dazu, dass die Probanden in Abhängigkeit der PPV und NPV zu
unterschiedlichen Extremstrategien neigten. In diesem Rahmen ignorierten 16% aller Proban-
den in der Bedingung mit der niedrigsten PPV im Sinne des cry wolf-Effekts alle Alarme. Bei
PPV im oberen Bereich dominierten positive Extremreaktionen, das heißt das direkte Befol-
gen von Alarmen. Dieser Befund bestätigt das Ergebnis von Bliss (2003b), der zeigte, dass
Extremreaktionen vor allem dann auftauchen, wenn die Probanden nicht die Möglichkeit
haben, die Validität der Alarme zu überprüfen.
Die im Folgenden beschriebenen Experimente 1-4 untersuchen den Einfluss einer Validie-
rungsoption der Entscheidung des Alarmsystems auf das gewählte Antwortverhalten und
bauen somit sowohl inhaltlich als auch strukturell auf der in diesem Kapitel geschilderten
Ausgangsstudie auf.
Advertisement
7.1 Forschungsfrage 57
7 Experiment 1: Einfluss einer Prüfmöglichkeit auf
den cry wolf-Effekt
In der ersten Studie der Untersuchungsreihe zum Prüfverhalten von Operateuren sollte die
Reaktionstendenz des Operateurs in Abhängigkeit von fünf unterschiedlichen Zuverlässig-
keitsniveaus von Alarmen untersucht werden. Dabei wurden der positive predictive value und
negative predictive value eines Alarmsystems durch die Manipulation der Basisrate (also der
a priori-Wahrscheinlichkeit des Auftretens eines kritischen Ereignisses) auf fünf Stufen
variiert.
7.1 Forschungsfrage
Die Ergebnisse der Ausgangsstudie zeigen, dass Probanden bei der Erfüllung der Doppel-
Aufgaben des Paradigmas M-TOPS 2 im unteren Bereich der PPV dazu neigten, einen Groß-
teil aller Alarme zu ignorieren und im oberen Bereich direkt zu befolgen, wenn sie keine
Möglichkeit hatten, die Validität der Hinweise zu überprüfen. Andere Studien, die hinsicht-
lich der zentralen Rahmenbedingungen (die Probanden sind mit konkurrierenden Aufgaben in
einem Mehrfachaufgaben-Umgebung konfrontiert und haben dabei keine Möglichkeit, die
Rohdaten in der Überwachungsaufgabe zu überprüfen) vergleichbare Paradigmen verwende-
ten, bestätigen diese Befunde (Bliss, Gilson & Deaton, 1995; Bliss, 2003b). Eine bisher
ungeklärte Frage ist, ob die Anwendung von extreme responding-Strategien unter den ge-
nannten Voraussetzungen ein allgemeines Phänomen ist oder ob Probanden nur dann zu
diesen Heuristiken greifen, wenn sie in einer Situation, in der sie keine Möglichkeit haben,
ihre Unsicherheit zu reduzieren, zu einer Entscheidung gezwungen werden.
Die Frage stellt sich also, wie Probanden auf unterschiedliche Reliabilitäten von Alarmen
reagieren, wenn sie durch eine aktive Prüfoption die Möglichkeit bekommen, ihre Unsicher-
heit bezüglich der Validität eines einzelnen Alarmes zu reduzieren. In vorliegender Experi-
mentalumgebung war die Reduzierung dieser Unsicherheit durch das Überprüfen der Rohda-
ten zu erreichen, was jedoch gleichzeitig einen erhöhten Zeitaufwand und somit Einbußen in
der Geschwindigkeit mit sich brachte. Gleichzeitig wurde der Gewinn durch die Prüfaktion
weiter reduziert, indem keine Ressourcen für das Bearbeiten der Bestellaufgabe blieben.
58 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt
Andererseits konnte nur die Validierung des Alarms einen Punkteverlust durch eine falsche
Reaktion auf einen Reaktionscontainer verhindern. Das beschriebene Untersuchungs-Setting
stellt den Probanden also die übergeordnete Aufgabe, die Überwachungsaufgabe und die
Bestellaufgabe so effizient zu bearbeiten, dass sie ihren finalen Punktestand (und somit ihre
monetäre Entlohnung) maximieren. Dieses Ziel verlangt nach einem trade-off zwischen
Genauigkeit und Geschwindigkeit, welche negativ korrelierende und somit schwer vereinba-
re Aspekte von Leistung darstellen. Der trade-off repräsentiert in diesem Sine also so etwas
wie den optimalen Kompromiss zwischen den beiden konkurrierenden Teilaspekten.
Die zentrale Frage in vorliegender Studie ist, wie verhaltenswirksam Alarme mit verschiede-
ner zugrundeliegenden Zuverlässigkeit (im Sinne der PPV und NPV) in einem Doppelaufga-
ben-Paradigma sind. Im Fokus steht dabei das aktive Prüfverhalten, welches in dieser Form
und in Abhängigkeit der PPV und der NPV bislang noch nicht hinreichend untersucht wurde.
Bevor die Operationalisierung dieser Fragestellung im Detail erklärt wird, werden im nächs-
ten Kapitel die aufgestellten Hypothesen erläutert.
7.2 Hypothesen
Erste Hinweise auf den Einfluss einer Prüfoption auf die Anwendung extremer Antwortstra-
tegien gibt Bliss (2003b), der fand, dass extreme Reaktionen nachlassen, wenn in einem
Doppelaufgaben-Paradigma die Möglichkeit zur Überprüfung der Validität des Alarms
gegeben wird. Während dieses sogenannte extreme responding (Bliss, 2003b) bei extremen
PPV und NPV die angemessene Reaktion ist, müsste das Prüfverhalten vor allem in mittleren
Bereichen der PPV und NPV, welche das größte Ausmaß an Unsicherheit mit sich bringen,
dominieren. Übertragen auf das vorliegende Paradigma muss der Proband zur Maximierung
seines Punkte-Scores also den trade-off zwischen Genauigkeit und Geschwindigkeit so
wählen, dass er nur dann den zeitkostspieligen Prüfprozess unternimmt, wenn die Unsicher-
heit bezüglich der Validität des Alarms am höchsten ist.
Dem schließt sich die Frage an, ob die PPV und die NPV das Prüfverhalten in gleicher Weise
beeinflussen oder ob sich das Prüfmuster in Alarm- und alarm-freien Trials unterscheidet,
welches als ein weiterer Nachweis für die Unabhängigkeit von reliance und compliance
anzusehen wäre.
Advertisement
7.3 Methode 59
Folgende Hypothesen wurden aus den theoretischen Überlegungen abgeleitet (siehe Abbil-
dung 7).
Hypothesenblock 1: rote Trials
H 1.1: die informed compliance ist am höchsten bei PPV im mittleren Bereich und am nied-
rigsten bei hohen und niedrigen PPV (und folgt somit einem umgekehrt u-förmigen Verlauf)
H 1.2: die compliance ist am höchsten bei der höchsten PPV (0.9)
H 1.3: der cry wolf-Effekt tritt bei der niedrigsten PPV (0.1) auf
Hypothesenblock 2: grüne Trials
H 2.1: die informed reliance ist bei der niedrigsten NPV (0.41) am höchsten
H 2.2: die reliance ist bei der höchsten NPV von 0.98 am höchsten
H 2.3: die non-reliance befindet sich über alle Bedingungen hinweg auf einem äußerst niedri-
gen Niveau
Aus diesen beiden Hypothesenblöcken ergeben sich im untersuchten Basisraten-Bereich
unterschiedliche erwartete Verläufe der reliance und compliance.
7.3 Methode
7.3.1 Stichprobe
In der Untersuchung nahmen 40 Männer und 40 Frauen mit einem mittleren Alter von 27,01
Jahren und einer Standardabweichung von 5,95 Jahren teil. Das Mindestalter betrug 19, das
Höchstalter 52 Jahre. Die Probandenserver waren über den Probandenserver PESA der
Humboldt Universität Berlin akquiriert worden, nahmen freiwillig an der Untersuchung teil.
Die Stichprobe bestand aus 40 Frauen und 40 Männern, wobei sich diese wiederum jeweils
zur Hälfte in Studenten der Naturwissenschaften und Studenten in nicht-
naturwissenschaftlichen Fächern aufteilten. Die Probanden wurden den fünf verschiedenen
Bedingungen so zugeteilt, dass sich in jeder Bedingung 4 Frauen und 4 Männer mit ingeni-
eurs- oder naturwissenschaftlichem Hintergrund und 4 Frauen und 4 Männer mit sonstigem
Hintergrund befanden.
60 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt
7.3.2 Versuchsplan
Der hier beschriebenen experimentellen Studie lag ein zweifaktorieller Versuchsplan zugrun-
de mit dem Messwiederholungs-Faktor Block (zwei sukzessive Experimentalblöcke) und dem
between-subjects-Faktor PPV bzw. NPV. Die fünf-stufige Variation der PPV und NPV
entsprach hierbei exakt der in der Ausgangsstudie beschriebenen Manipulation (siehe Kapitel
6).
7.3.3 Ablauf
Der Versuch wurde im Labor der Technischen Universität Berlin am Fachgebiet Arbeits-,
Ingenieur- und Organisationspsychologie durchgeführt. Die Testung wurde mit Gruppen bis
zu vier Probanden an jeweils einem Arbeitsplatz mit Rechner 17-Zoll-Monitore), Kopfhörer
und Stift für die paper-pencil-Befragungen durchgeführt. Eine geschulte Versuchsleiterin
instruierte die Teilnehmer und war während der Durchführung durchgängig anwesend. Jeder
Teilnehmer erhielt eine Aufwandsentschädigung von 7 € sowie zusätzlich eine leistungsab-
hängige Vergütung von bis zu 15 €, insgesamt also maximal 22 €. Um die Instruktion zu
standardisieren, wurde diese den Versuchspersonen über eine Power-Point-Präsentation
dargeboten, die sie in ihrem eigenen Tempo durchgehen konnten (siehe Anhang B). In dieser
Instruktion wurden die Teilnehmer vorerst über das Untersuchungsparadigma M-TOPS 2 und
die von ihnen zu erfüllenden Aufgaben aufgeklärt (siehe Kapitel 5) und betont, dass beide
Teil-Aufgaben für die reibungslose Bereitstellung des chemikalischen Endprodukts als
gleichwertig anzusehen seien.
Die Bestellaufgabe wurde als Erstes eingehend beschrieben und die Probanden wurden darauf
hingewiesen, dass sie für jede korrekt abgesendete Bestellung 1,5 Punkte erhalten würden. Es
wurden keine Minuspunkte für eine falsche Bestellung erteilt. Im Anschluss an die Erklärung
wurden die Probanden aufgefordert, diese Aufgabe 120 Sekunden aktiv zu üben, um sie mit
den für diese Aufgabe erforderlichen Handlungen vertraut zu machen.
Bevor die alarm-unterstützte Überwachungsaufgabe detailliert erläutert wurde, wurden die
Probanden über die Konsequenzen von falschen und richtigen Reaktionen auf einen Hinweis
des Alarmsystems aufgeklärt. Zu diesem Zweck wurde ihnen eine payoff-Matrix mit allen
Reaktionsmöglichkeiten und den daraus resultierenden Punkte-Outcomes präsentiert. In der
Alarmaufgabe wurden für einen korrekt bearbeiteten Container (fehlerhaften Container
bearbeitet oder einwandfreien Container akzeptiert) 2 Punkte ausgezahlt und für jede falsche
Advertisement
7.3 Methode 61
Reaktion (fehlerhaften Container ignoriert oder einwandfreien Container bearbeitet) 2 Punkte
vom Punktekonto abgezogen. Beide Fehlerarten (miss und false alarm) wurden bewusst
gleich gewichtet, um zu vermeiden, dass allein die payoff anstatt der kontrolliert manipulier-
ten Untersuchungsbedingungen das Antwortkriterium determiniert. Diese Gleichgewichtung
wird dadurch legitimiert, dass ein miss im Kontext eines Produktionsprozesses kein erhöhtes
Sicherheitsrisiko impliziert, sondern eher, wie ein false alarm, zeitliche Kosten bedeutet. Die
gewichtete Punktevergabe für die Bestell- und die Überwachungsaufgabe folgte einem ma-
thematisch-logischen Modell, welches die Gleichbehandlung beider Aufgaben sicherstellte.
Dabei wurde der Punkte-Outcome für die Strategie maximiert, die für die jeweilige Bedin-
gung die rationalste war.
Exkurs: Modell hinter der payoff-Struktir
In explorativen Vorversuchen (N = 6) wurde festgestellt, dass die Teilnehmer für den
Prüfprozess (vom Klick auf „Prüfen“ bis zum abgeschlossenen „Bearbeiten“ bzw.
„Weiter“) ca. 8 Sekunden Zeit brauchen. Addiert man die 3 Sekunden, die das Bild in
den Control-Screen läuft, kommt man so auf 11 Sekunden pro Trial, also 3 Sekunden
länger als wenn nicht geprüft würde. Die parallele Bearbeitung einer Bestellaufgabe
wäre in diesem Fall nicht mehr möglich. Allen Teilnehmern gelingt es im Gegenzug da-
zu, einen Container innerhalb der 5 Sekunden, die dieser im Control-Screen verharrt,
zu bearbeiten (ohne vorher geprüft zu haben). Somit benötigen die Probanden für das
direkte Bearbeiten nicht mehr Zeit, als wenn der Container unbeachtet durch den
Screen läuft. Den meisten Teilnehmern war es jedoch auch hier nicht möglich, parallel
eine Bestellaufgabe zu bearbeiten. Wird der Container ignoriert, kann zusätzlich eine
Bestellaufgabe gelöst und abgeschickt werden.
Da eine Bestellaufgabe unabhängig von der Reaktion auf einen Container in der
Alarmaufgabe vergleichsweise schneller ausgeführt werden kann als eine Aufgabe der
Alarmaufgabe (im Schnitt 6 Sekunden vs. min. 8 Sekunden) wurden die Auszahlungen
für die zwei Aufgabentypen gewichtet (1,5 Punkte für eine korrekte Bestellaufgabe vs. 2
Punkte für eine korrekte Alarmaufgabe). Diese Punktevergabe verhindert Strategien,
bei denen sich Probanden lediglich auf die Alarmaufgabe konzentrieren, um Minus-
punkte zu vermeiden. Ein Beispiel soll dieses verdeutlichen: bei einem auf 800 Sekun-
den beschränkten Versuchsdurchgang würde man mit der Extrem-Strategie, jeden Con-
62 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt
tainer in der Überwachungsaufgabe zu prüfen (Vorteil: nur korrekte Entscheidungen,
Nachteil: durch den erhöhten Zeitaufwand könnten nur 72 statt 100 Container bearbei-
tet werden) ca. 145 Punkte erreichen. Durch die alleinige Bearbeitung der Bestellauf-
gabe könnten maximal 200 Punkte erreicht werden (6 Sekunden Bearbeitungszeit, zu-
sammengesetzt aus 3 Sekunden Bearbeitung plus die 3 Sekunden Verzögerung). Die
gewinnbringendste Strategie ist also die parallele Bearbeitung der beiden Aufgaben
nach einem rationalen Antwortmuster in Abhängigkeit der Zuverlässigkeit des Alarm-
systems. Gemäß diesem hypothetischen Reaktionsmusters führt die payoff zu einer ma-
ximalen Auszahlung, wenn die Versuchspersonen einem rationalen Antwortmuster fol-
gen. In Anhang A werden die resultierenden Werte für die einzelnen
Untersuchungsbedingungen dargestellt.
Nach einer detaillierten Erklärung der Überwachungsaufgabe folgte, wie auch bei der Bestell-
aufgabe, ein Übungsdurchgang mit einem perfekten Alarmsystem. Da diese Aufgabe komple-
xer war als die Bestellaufgabe und die Probanden instruiert wurden, alle möglichen Reaktio-
nen auszuprobieren, dauerte die Übung 180 Sekunden, in denen sich die Probanden allein auf
die Überwachungsaufgabe konzentrieren sollten. Die Probanden arbeiteten in diesem Fall mit
einem perfekten Alarmsystem und bekamen über Kopfhörer eine akustische Rückmeldung
über die richtige Behandlung des aktuellen Containers (dabei wurde nur bei einer falschen
Entscheidung ein „Hupton“ gegeben, eine korrekte Entscheidung wurde akustisch nicht
rückgemeldet). Um sicherzugehen, dass sich alle Teilnehmer allen Reaktionsmöglichkeiten
bewusst waren, bekamen sie am Anschluss an diesen Übungsdurchgang einen multiple-
choice-Fragebogen vorgelegt, der alle tatsächlich möglichen Verhaltensoptionen abfragte.
Dazu wurden sie gebeten, alle möglichen Reaktionsmuster aus sechs dargebotenen Reaktio-
nen anzukreuzen (zwei Distraktoren). Die Verständnisabfrage befindet sich in Anhang C. In
die weitere Untersuchung wurden nur die Teilnehmer einbezogen, die diese Verständnisab-
frage korrekt ausgefüllt hatten. Nachdem so sichergestellt wurde, dass alle Teilnehmer mit
dem System und allen Reaktionsmöglichkeiten vertraut waren, startete ein erneuter Durch-
gang, in dem 100 Container im Rahmen der Überwachungsaufgabe kontrolliert und gegebe-
nenfalls bearbeitet werden sollten. Die Bestellaufgabe sollte vorerst weiterhin ignoriert
werden. In diesem Durchgang reagierte das Alarmsystem bereits mit der (nicht perfekten)
Zuverlässigkeit, die es auch im Experimental-Durchgang haben würde. Dieser Durchgang,
der das Kennenlernen der Zuverlässigkeit des Alarmsystems bei rot und bei grün durch eigene
Advertisement
7.3 Methode 63
Erfahrung mit dem System gewährleisten sollte, war erst nach den hundert Trials beendet, um
den Probanden die genaue Verteilungsmatrix von hits, misses, false alarms und correct
rejections präsentieren zu können. Um auch ohne zu prüfen die Angemessenheit der Ent-
scheidung des Alarmsystems zu erkennen, erhielten die Probanden auch in diesem Durchgang
das akustische Feedback. Nach dem Erfahrungs-Block wurden die Teilnehmer aufgefordert,
die geschätzte Anzahl an hits, misses, false alarms und correct rejections in eine Vier-Felder-
Matrix einzutragen. Um sicherzugehen, dass alle Probanden mit einer hinreichend genauen
Einschätzung der Zuverlässigkeit in den darauf folgenden Experimental-Block gehen, wurde
ihnen nach ihrer eigenen Einschätzung die tatsächliche Verteilung korrekter und falscher
Entscheidungen des Systems vorgelegt. Somit wurde zum Einen die Fehlervarianz reduziert,
die durch individuell unterschiedlich ausgeprägte Fähigkeiten zur Einschätzung von Wahr-
scheinlichkeiten die Verhaltensdaten verzerrt hätte. Zum Anderen zeigten Botzer et al. (2010),
dass Probanden ihr Antwortkriterium dann am besten an die unterschiedlichen Zuverlässig-
keiten des Alarmsystems anpassen, wenn sie vor der Interaktion mit dem System explizite
Informationen über die PPV und NPV bekommen. Die Probanden wurden darauf hingewie-
sen, dass die Verteilung aus dem Übungsdurchgang derjenigen in dem darauf folgenden
Experimentaldurchgang entsprechen würde. Im anschließenden ersten Experimentaldurch-
gang sollten die Bestellaufgabe und die Überwachungsaufgabe erstmalig gleichzeitig bearbei-
tet werden. Die Probanden erhielten für die Experimentalblöcke keine unmittelbare Rückmel-
dung mehr auf ihre Entscheidungen. Auf diese wurde aus zwei Gründen verzichtet. Einerseits
erfolgt auch in der Praxis oftmals keine unmittelbare, sondern vielmehr eine zeitverzögerte
Rückmeldung. Zudem sollte damit vermieden werden, dass eine einzelne fehlerhafte Ent-
scheidung die Wahrnehmung und Bewertung des darauf folgenden Trials beeinflusste (carry
over-effect). Nach dem ersten Block, der automatisch nach 800 Sekunden beendet wurde,
erhielten die Probanden ein detailliertes Feedback über das tatsächliche Auftreten von Feh-
lern, über die entsprechende Reaktion des Alarmsystems, über die finale Entscheidung der
Versuchsperson selbst und letztendlich über die resultierende erreichte Punktzahl. Diese
kumulierte Rückmeldung wurde ihnen im selben Matrizen-Schema dargeboten wie die
Beschreibung der payoff in der Instruktion. Nachdem die Probanden sich das Feedback in
Ruhe angeschaut hatten, startete der zweite Experimental-Durchgang, der wie auch der erste
ohne unmittelbares Feedback stattfand und ebenso nach 800 Sekunden endete. Nach dessen
Ende wurden die Teilnehmer gebeten, den NASA-TLX zur Einschätzung der Beanspru-
chungsdimensionen (Anhang E) und einen kurzen demographischen Fragebogen auszufüllen.
64 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt
Dieser umfasste die Abfrage des Geschlechts, des Ausbildungsstands und der Fachrichtung,
der Berufserfahrung in Jahren und ob der Teilnehmer bereits mit einem ähnlichen System wie
dem im Experiment simulierten gearbeitet hatten. Dieses System sollte in einer weiteren
offenen Antwort kurz beschrieben werden. Abschließend gab es Platz für allgemeine Bemer-
kungen zu dem Experiment. Die Angaben zum professionellen Hintergrund und dem Ge-
schlecht wurden erhoben, um einen möglichen Einfluss dieser Faktoren auf das Verhalten
kontrollieren bzw. erfassen zu können. So wurden Probanden mit ingenieurs- oder naturwis-
senschaftlichem und fachfremdem Hintergrund sowie Männer und Frauen gleichmäßig auf
die unterschiedlichen Bedingungen aufgeteilt, um Geschlechts- oder Erfahrungseffekte
auszubalancieren. Am Schluss erfolgte die Vergütung, die Klärung etwaiger Fragen und die
Verabschiedung der Teilnehmer.
7.4 Abhängige Variablen
7.4.1 Manipulations-Check
Nachdem sich die Probanden im Durchgang mit den hundert Trials ein Bild von der Vertei-
lung von hits, misses, correct rejections und false alarms machen konnten, wurden sie gebe-
ten, ihre Einschätzung dieser Verteilung in einem Vier-Felder-Schema darzulegen. Nach
Cosmides & Tooby (1996) und Tversky & Kahneman (1974) werden Wahrscheinlichkeiten
besser geschätzt, wenn die vorgegebenen Wahrscheinlichkeiten als absolute Häufigkeiten
anstatt als Prozentzahl präsentiert werden, da die absolute Häufigkeit die Menge der Grund-
gesamtheit impliziert. Durch die Bearbeitung des Schätzfragebogens sollten systematische
Verzerrungen der Einschätzung der Fehler-Verteilung erfasst werden. Direkt im Anschluss an
ihre individuelle Bewertung wurde den Probanden die tatsächliche Verteilung von hits,
misses, correct rejections und false alarms vorgelegt. Dadurch wurde abgesichert, dass alle
Probanden von dem korrekten Ausgangsniveau ausgingen und keine individuell unterschied-
lich ausgeprägten Schätzleistungen die Untersuchungsergebnisse verzerrten. Der Schätzfrage-
bogen befindet sich in Anhang D.
Um sicherzustellen, dass die Probanden die Manipulation der PPV und NPV wahrgenommen
hatten, wurden zwei einfaktorielle Varianzanalysen mit den abhängigen Variablen mittlere
geschätzte PPV bzw. NPV berechnet. Dieser Test diente sozusagen als Manipulation Check,
Advertisement
7.4 Abhängige Variablen 65
um sicherzustellen, dass die Probanden die Zuverlässigkeit des Systems bzw. die Unterschie-
de zwischen PPV und NPV möglichst zuverlässig wahrgenommen hatten.
7.4.2 Allgemeine Leistung
Punkte. Für die Bestellaufgabe wurde die erreichte Punktzahl (gemittelt über beide Blöcke)
berechnet. Diese errechnete sich aus der payoff-Struktur und ergab sich aus der Summe von
1,5 Punkten pro korrekt abgesendeter Bestellung. Ähnlich wurde die Punktzahl ermittelt, die
in der Überwachungsaufgabe erreicht wurde. Diese berechnete sich aus der payoff-Matrix, die
2 Punkte für eine richtige (hit, correct rejection) und 2 Punkte Abzug für eine falsche Reakti-
on (miss, false alarm) erbrachte. Die erreichten Punktzahlen in der Bestell- und Überwa-
chungsaufgabe wurden zu einer Gesamtpunktzahl aufaddiert.
Sensitivität. Ein verbreitetes Maß, das die die kombinierte Fähigkeit der Probanden und des
Alarmsystems erfasst, zwischen hits und false alarms zu unterscheiden, ist die Sensitivität.
Die Sensitivität wurde dabei durch die Differenz der z-transformierten hit-Rate und der z-
transformierten FA-Rate eines jeden Probanden berechnet.
7.4.3 Spezifische Leistungs- und Verhaltensmaße in roten und grünen
Trials
Anteil korrekter Trials. Als Leistungsparameter wurde der relative Anteil aller korrekten
Reaktionen der Versuchspersonen an allen Reaktionen in roten bzw. grünen Trials berechnet.
Dieses Maß entspricht in seiner Definition der Reliabilität im klassischen Sinne, also dem
Anteil an korrekten Reaktionen (hits und correct rejections) an allen Reaktionen (hits, correct
rejections, false alarms und misses). Allerdings wurde dieser Anteil für rote bzw. grüne Trials
separat berechnet. Zur inferenzstatistischen Auswertung wurde so vorgegangen wie im
vorherigen Absatz (7.4.1) beschreiben. Zwei separate zweifaktorielle Varianzanalyse mit
Messwiederholung mit der abhängigen Variable „relativer Anteil korrekter Reaktionen der
Probanden in roten bzw. in grünen Trials an allen Reaktionen“ wurde berechnet. Die unab-
hängigen Variablen waren bei jeder Varianzanalyse die fünfstufig manipulierte Basisrate mit
den zugehörigen PPV und NPV als between-subjects-Factor und der Block als Messwiederho-
lungsfaktor.
Verhaltenstendenz. Die verhaltensbezogenen abhängigen Variablen wurden aus den über
Logfiles protokollierten Mausklicks der Probanden unter Berücksichtigung des jeweils
66 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt
vorliegenden Systemzustands abgeleitet. Der relative Anteil des Bearbeitens, des Prüfens und
des Ignorierens von roten bzw. grünen Trials an allen Trials wurde jeweils für Block 1 und
Block 2 berechnet. Dabei wurden die drei Reaktionsmöglichkeiten auf einen Trial wie folgt
definiert:
xPrüfen: ein Container galt dann als geprüft, wenn innerhalb der fünf Sekunden Bear-
beitungszeit eines Trials auf den Button „Prüfen“ geklickt wurde und daraufhin die
korrekte Containerbezeichnung ausgewählt wurde, so dass die Messung startete. Wur-
de das Prüfprocedere nach dem Klick auf Prüfen abgebrochen, wurde die Reaktion
nicht als Prüfen definiert. Die Handlung wurde jedoch auch dann als Prüfen definiert,
wenn nach dem Klick auf den Button „Bearbeiten“ das Bearbeiten nicht durch Klick
auf „Temperatur senken“ abgeschlossen wurde und daraufhin ein vollständiger Prüf-
prozess durchgeführt wurde.
xBearbeiten: ein Container galt dann als bearbeitet, wenn innerhalb der fünf Sekunden
Bearbeitungszeit eines Trials ein Klick auf den Button „Bearbeiten“ ausgeführt und
daraufhin „Temperatur senken“ ausgewählt wurde, ohne dass vorher eine komplette
Prüfprozedur durchgeführt wurde. Beide Klicks waren notwendige Bedingung für die
Reaktion „Bearbeiten“.
xIgnorieren: ein Container galt dann als ignoriert, wenn innerhalb der fünf Sekunden
Bearbeitungszeit eines Trials keine Reaktion gezeigt wurde oder aber weder ein voll-
ständiger Prüf- noch ein vollständiger Bearbeitungsprozess durchgeführt wurden.
Die Erfassung des Verhaltens in relativen Werten begründet sich aus der Tatsache, dass den
Probanden, je nach Bearbeitungsgeschwindigkeit in der Überwachungsaufgabe, eine interin-
dividuell minimal unterschiedliche Anzahl an roten und grünen Trials dargeboten wurde. Da
die drei möglichen Verhaltensweisen nicht unabhängig voneinander sind, wurden für die
Verhaltensweisen jeweils drei separate Varianzanalysen gerechnet. Dasselbe gilt für die
rechnerische Abhängigkeit von roten und grünen Trials, denen die gleiche Fehler-Basisrate
zugrunde liegt. Für jede der drei möglichen Reaktionsweisen auf einen Reaktionsbehälter
(bearbeiten, prüfen, ignorieren) wurde, jeweils für rote und grüne Trials, eine separate zwei-
faktorielle Varianzanalyse mit Messwiederholung mit der abhängigen Variable relativer
Anteil Bearbeiten (bzw. Prüfen, Ignorieren) berechnet. Die unabhängige Variable war bei
jeder Varianzanalyse die fünfstufig manipulierte Basisrate mit den zugehörigen PPV bzw.
NPV als between-subjects-Faktor und der Block als Messwiederholungs-Faktor.
Advertisement
7.5 Ergebnisse 67
7.4.4 Subjektive Beanspruchung
Der NASA-TLX stellt ein anerkanntes Tool zum Messen der Aufgabenbeanspruchung dar,
der sich in vielen Arbeiten zur Mensch-Maschine-Interaktion bewährt hat. Das multi-
dimensionale Rating-Verfahren besteht aus zwei Teilen, von dem nur die bipolare Skala
verwendet wurde, da sich nach Nygren (1991) die Gewichtung der Skalen-Dimensionen als
nicht effektiv erwiesen hat. Eine Version des NASA-TLX mit den fünf Skalen „geistige
Anforderung“, „körperliche Anforderung“, „zeitliche Anforderung“, „Aufgabenausführung“,
„Anstrengung“ und „Frustration“ wie sie in dieser Studie verwendet wurde und eine kurze
inhaltliche Beschreibung der fünf Items befindet sich in Anhang E.
7.5 Ergebnisse
7.5.1 Manipulations-Check
Die mittlere geschätzte Häufigkeit von hits, misses, false alarms und correct rejections wurde
durch Integration der Daten transformiert in die geschätzte PPV (errechnet durch die ge-
schätzte hit-Rate und FA-Rate) und die geschätzte NPV (errechnet durch die geschätzte
correct rejection-Rate und miss-Rate). In einfaktoriellen Varianzanalysen wurden die ge-
schätzte PPV und NPV dann in Abhängigkeit der tatsächlichen PPV und NPV untereinander
verglichen.
PPV. Das Ergebnis der Varianzanalyse zeigte, dass sich die Einschätzungen der fünf ver-
schiedenen PPV signifikant voneinander unterschieden (F(4,75) = 63,02, p < .001), die
Probanden die Manipulation der Zuverlässigkeit des Alarmsystems also wahrgenommen
hatten. Tabelle 4 gibt eine Übersicht über die Mittelwerte und Standardabweichungen der
geschätzten PPV. Die Bonferroni-korrigierten Mehrfachvergleiche ermöglichten eine genaue-
re Analyse der Bedingungen untereinander und ergaben, dass sich die Einschätzung der PPV
von 0.1, sowie die Einschätzung der PPV von 0.9, also die beiden Extremwerte der PPV,
signifikant von den Einschätzungen aller anderen PPV unterschieden (alle signifikanten p <
.001). Dabei kam es abgesehen von einer stärkeren Überschätzung der PPV von 0.3 zu leich-
ten Überschätzungen der PPV bis 0.5 und einer leichten Unterschätzung der hohen PPV über
0.5.
68 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt
NPV. Die Probanden zeigten eine signifikant unterschiedliche Einschätzung der NPV in
Abhängigkeit der tatsächlichen NPV (F(4,75) = 15,1, p < .001; siehe Tabelle 4). Die Ergeb-
nisse der Einzelvergleiche wiesen auf, dass sich die höchste NPV (0.98) signifikant von allen
anderen NPV unterschied (im Vergleich zu NPV 0.93, p = .002, alle anderen signifikanten p <
.001). Dabei wurden die NPV von 0.98, 0.93, 0.86 und 0.72 unterschätzt und die NPV von
0.41 schließlich überschätzt.
Zusammenfassend ergab sich das Bild, dass niedrige a posteriori-Werte tendenziell über- und
hohe Werte unterschätzt werden.
tatsächliche PPV geschätzte PPV tatsächliche NPV geschätzte NPV
.1 M = 0.16
SD = 0.09 .98 M = 0.93
SD = 0.1
.3 M = 0.57
SD = 0.18 .93 M = 0.73
SD = 0.16
.5 M = 0.59
SD = 0.1 .86 M = 0.67
SD = 0.12
.7 M = 0.65
SD = 0.11 .72 M = 0.6
SD = 0.14
.9 M = 0.83
SD = 0.11 .41 M = 0.59
SD = 0.19
Tabelle 4: Mittelwerte und Standardabweichungen der geschätzten PPV und NPV
7.5.2 Allgemeine Leistung
Punkte. Eine zweifaktorielle Varianzanalyse mit der abhängigen Variablen „erreichte Ge-
samtpunktzahl“ (zusammengesetzt aus der erreichten Punktzahl in der Bestellaufgabe und der
Überwachungsaufgabe) wurde berechnet. Die unabhängige Variable war die fünfstufig
manipulierte Basisrate mit den zugehörigen PPV und NPV als between-subjects-Faktor und
dem Block als Messwiederholungs-Faktor. Die Variation der PPV (und NPV) hatte einen
signifikanten Effekt auf die erreichte Gesamtpunktzahl (F(4,75) = 5,23, p = .001). Anhang G
gibt eine Übersicht über die entsprechenden Mittelwerte. Die Probanden erreichten über die
beiden Blöcke gemittelt in der Bedingung mit einer PPV von 0.1 die höchste Punktzahl (M =
356), welche bis zu Bedingung 0.5 kontinuierlich auf M = 290 absank, in Bedingung 0.7 mit
M = 304 leicht anstieg, um in Bedingung 0.9 drastisch auf M = 267 zu sinken. Bonferroni-
korrigierte Einzelvergleiche zeigten signifikante Unterschiede zwischen den Bedingungen 0.1
und 0.5 (p = .019) sowie 0.1 und 0.9 (p = .001). Auch der Block hatte einen signifikanten
Einfluss auf die erreichte Punktzahl in der Richtung, dass im zweiten Block generell mehr
Punkte erreicht wurden als im ersten Block (F(1,75) = 163,68, p < .001). Außerdem kam es zu
Advertisement
7.5 Ergebnisse 69
einer signifikanten Interaktion zwischen Block und Bedingung (F(4,75) = 29,1, p < .001):
während die erreichte Gesamtpunktzahl in Block 1 in Bedingung 0.7 erst leicht und dann in
Bedingung 0.9 stark absank, wurde sie in Block 2 in Bedingung 0.9 auf einem ähnlichen
Level gehalten wie in den Bedingungen 0.5 und 0.7. Die höchste Punktzahl erreichten die
Probanden sowohl in Block 1 als auch in Block 2 in der Bedingung mit einer PPV von 0.1 (M
= 345 in Block 1 bzw. 368 in Block 2).
Um zu untersuchen, ob die variierende Leistung in den verschiedenen Bedingungen auf
unterschiedliche Verläufe der erreichten Punktzahl in der Bestell- und Überwachungsaufgabe
zurückzuführen sind, wurden weitere zweifaktorielle Varianzanalysen mit denselben unab-
hängigen Variablen und den abhängigen Variablen „Punktzahl in der Bestellaufgabe“ sowie
„Punktzahl in der Überwachungsaufgabe“ berechnet.
Die Varianzanalyse ergab keinen signifikanten Einfluss der Bedingung (PPV oder NPV) auf
die Bestellaufgabe (F(4,75) = 2,01, n.s). Allerdings ergab sich ein signifikanter Effekt des
Blocks auf die erreichte Punktzahl in der Bestellaufgabe (F(1,75) = 850, 32, p < .001). Im
ersten Block lag die mittlere Punktzahl bei 60 Punkten und stieg im zweiten Block auf 90
Punkte an. Die Interaktion von Bedingung und Block wurde nicht signifikant (F(4,75) = 2,01,
n.s.). Folglich spiegelte sich das Leistungsmuster der Gesamtpunktzahl über beide Aufgaben
hinweg in der erreichten Punktzahl in der Überwachungsaufgabe wider, wie das Ergebnis der
Varianzanalyse mit der abhängigen Variable Punktzahl in der Überwachungsaufgabe bestätig-
te (F(4,75) = 14,3, p < .001.). Auch der Block hatte einen signifikanten Einfluss auf die
erreichte Punktzahl in der Überwachungsaufgabe (F(1,75) = 156,81, p < .001). Während die
Probanden im ersten Block im Mittel 208 Punkte in der Überwachungsaufgabe erhielten,
steigerten sie sich in Block 2 auf mittlere 242 Punkte. Zudem konnte der signifikante Interak-
tionseffekt aus der errechneten Gesamtpunktzahl repliziert werden (F(4,75) = 37,69, p <
.001).
Sensitivität. Eine zweifaktorielle Varianzanalyse mit den manipulierte PPV bzw. NPV als
unabhängige Variablen sowie dem Messwiederholungsfaktor Block und der abhängigen
Variable „kombinierte Sensitivität der Probanden und des Alarmsystems“ ergab einen signifi-
kanten Einfluss der unabhängigen Variable PPV/NPV (F(4,75) = 22,1, p < .001). Bonferroni-
korrigierte post hoc-Tests zeigten dabei, dass Probanden in den Bedingungen mit einer PPV
von 0.1 (NPV = 0.98), einer PPV von 0.3 (NPV = 0.93) und einer PPV von 0.5 (NPV = 0.86)
eine ähnliche Sensitivität (M = 8.5 bzw. M = 6.5 bzw. M = 6.5, alle n.s.) aufwiesen, die
70 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt
genannten Bedingungen also keinen differenzierten Einfluss auf die Leistung der Probanden
hatten. Bemerkenswert ist das starke Absinken der Sensitivität in der Bedingung 0.7 (NPV =
0.72; M = 3,8), der sich signifikant von der Bedingung 0.1 (bzw. 0.98, p < .001), der Bedin-
gung 0.3 (bzw. 0.93, p < .001) und der Bedingung 0.5 (bzw.0 .86, p = .008) unterschied. In
der Bedingung 0.9 (bzw. 0.41) erreichten die Probanden nur noch eine mittlere Sensitivität
von 2.55, die sich, abgesehen von der Bedingung 0.7 (bzw. 0.72), von allen anderen Bedin-
gungen höchst-signifikant unterschied (alle p < .001). Abschließend ist festzuhalten, dass die
Sensitivität des Gesamtsystems (bestehend aus Alarmsystem und Operateur) mit einer mittle-
ren Sensitivität von Md’ = 5.5 die Sensitivität des Alarmsystems (d’ = 1.1) in allen Bedingun-
gen übertraf.
Sowohl der Messwiederholungsfaktor Block also auch die Interaktion von Block und Bedin-
gungen hatten einen signifikanten Einfluss auf die Sensitivität (F(1,75) = 20,86, p < .001
bzw. (F(4,75) = 43,82, p < .001). Dabei hatte die Sensitivität in Block 1 ihren Höhepunkt bei
einer PPV von 0.1 (M = 10,5) und fiel dann stark ab, während die Sensitivität in Block 2 in
den Bedingungen 0.1, 0.3 und 0.5 auf einem ähnlich hohen Niveau blieb (M = 5,9), um sich
dann der Sensitivität von Block 1 anzupassen und in den Bedingungen 0.7 und 0.9 weiter
abzufallen.
An dieser Stelle ist anzumerken, dass die Leistungsparameter „erreichte Punktzahl“ und
„Sensitivität“ nicht klar zu interpretieren sind, da die Leistung in roten und grünen Trials
konfundiert ist. Die Variable „erreichte Punktzahl“ in der Bestell- und Überwachungsaufgabe
wurde dennoch in die Untersuchung mit einbezogen, um die Gesamtleistung aus Überwa-
chungs- und Bestellaufgabe in den einzelnen Bedingungen zu vergleichen. Haben die Proban-
den ein holistisches Bild von den Teilaufgaben des Systems und verteilen sie die Ressourcen
möglichst effizient zwischen der Überwachungs- und Bestellaufgabe, müsste beispielsweise
in Bedingungen, in denen aufgrund der PPV und NPV ein geringer Anteil an Überprüfen und
Bearbeiten von Containern notwendig ist, mehr Bestellaufgaben bearbeitet werden können.
Die Sensitivität stellt trotz der Konfundierung roter und grüner Trials ein wichtiges Maß dar,
da sie Aufschluss über eine Leistungssteigerung des Mensch-Maschine-Systems im Vergleich
zur Leistung des Alarmsystems alleine gibt.
Ein Leistungsmaß, welches die Genauigkeit bei der Bearbeitung der einzelnen Container in
roten und in grünen Trials getrennt erfasst, ist der Anteil an korrekt bearbeiteten Containern in
Advertisement
7.5 Ergebnisse 71
Alarmtrials bzw. alarmfreien Trials. Im Folgenden werden die Leistung und das Verhalten für
die beiden Systemzustände separat analysiert.
7.5.3 Leistung und Verhalten in roten Trials
Anteil korrekter Trials. Die Varianzanalyse ergab einen signifikanten Effekt der PPV auf
den relativen Anteil korrekter Reaktionen (F(4,75) = 9,1, p < .001). Dabei kam es zu einem
fast linearen Abfall von der Bedingung mit einer PPV von 0.1 über die Bedingung 0.3 zur
Bedingung 0.5 (siehe Abbildung 11). Bis zu einer PPV von 0.7 sank die Leistung der Proban-
den stark ab, um dann bei 0.9 nahezu zu stagnieren bzw. sogar leicht anzusteigen. Dabei
unterschied sich die Leistung in Bedingung 0.1 in Bonferroni-korrigierten Einzelvergleichen
signifikant von den Bedingungen 0.7 (p < .001) und 0.9 (beide p = .001). Die Leistung in
Block 2 unterschied sich signifikant von der in Block 1 (F(1,75) = 6,97, p = .01) durch einen
leichten Anstieg des Anteils an korrekten Reaktionen. Es wurde kein Interaktionseffekt
gefunden (F(4,75) = 1,87, n.s.). Eine Übersicht über alle Mittelwerte und Standardabwei-
chungen findet sich in Anhang G.
Anteil an korrekten Reaktionen in Alarmtrials
0
20
40
60
80
100
.1 .3 .5 .7 .9
PPV
Anteil in Prozen
t
Block 1
Block 2
Abbildung 11: Prozentualer Anteil von korrekten Reaktionen an allen gezeigten Reaktionen
in Alarmtrials, gemittelt über beide Experimentalblöcke
72 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt
Verhaltenstendenz. Eine Übersicht über den Verlauf der möglichen Reaktionen auf einen
Alarm „Bearbeiten“ (compliance), „Prüfen“ (informed compliance) und „Ignorieren“ (cry
wolf-Effekt) wird in Abbildung 12 präsentiert. Die Varianzanalyse ergab einen signifikanten
Effekt des Verhaltensanteils „Bearbeiten“ an allen Trials (F(4,75) = 22,1, p < .001). In den
Bedingungen mit einer PPV von 0.1 und 0.3 wurden von den Probanden keine Reaktionsbe-
hälter direkt bearbeitet, in der Bedingung mit einer PPV von 0.5 stieg die Bearbeitungsrate
nur leicht an, und selbst bei einer recht hohen PPV von 0.7 wurden über alle Probanden
hinweg lediglich 22% direkt bearbeitet. Erst als die PPV auf einen extremen Wert von PPV =
0.9 anstieg, stieg auch die durchschnittliche Bearbeitungsrate der Probanden auf 65%. Bonfer-
roni-korrigierte post hoc-Vergleiche ergaben signifikante Unterschiede für die Bedingungen
0.1 und 0.7 (p = .018), 0.1 und 0.9 (p < .001), 0.3 und 0.7 (p = .025), 0.3 und 0.9 (p < .001). .5
und .9 (p < .001) und 0.7 und 0.9 (p < .001). Bemerkenswert an diesen Ergebnissen ist, dass
die Erhöhung der PPV von 0.7 auf 0.9 den größten Verhaltenseffekt im gesamten Bereich der
PPV hatte. Das relative Bearbeiten unterschied sich in Block 2 nicht signifikant vom Verhal-
ten in Block 1 (F(1,75) < 1, n.s.). Es ergab sich kein signifikanter Interaktionseffekt (F(4,75)
= 0,53, n.s.).
Mittlerer prozentualer Verhaltensanteil im Sinne der compliance,
informed compliance und des cry wolf-Effekts
0
20
40
60
80
100
.1 .3 .5 .7 .9
PPV
Anteil in Prozen
t
compliance
"cry wolf"
informed
compliance
Abbildung 12: Verhaltensanteile in Alarmtrials, gemittelt über beide Experimentalblöcke
Für den Anteil des Verhaltens „Prüfen“ an allen Alarmtrials zeigte sich ein signifikanter
Effekt (F(4,75) = 14,39, p < .001). Das relative Prüf-Verhalten verhielt sich hierbei gegenläu-
fig zum „Bearbeiten“, indem es die höchsten Werte bei den PPV-Stufen 0.1 und 0.3 aufwies,
Advertisement
7.5 Ergebnisse 73
sich auf den Stufen 0.5 und 0.7 in einem mittleren Bereich bewegte, und dann in Bedingung
0.9 deutlich absank. Bonferroni-korrigierte post hoc-Vergleiche ergaben signifikante Unter-
schiede zwischen den Bedingungen 0.9 und den Bedingungen 0.1, 0.3, 0.5 und 0.7 (alle p <
.001). Wie schon bei der Analyse der Variable „Bearbeiten“ fällt hier die plötzliche Verhal-
tensänderung von Bedingung 0.7 zu Bedingung 0.9 auf. Die informed compliance nimmt
deutlich ab und wird durch die compliance kompensiert. Das relative „Prüfen“ unterschied
sich in Block 2 nicht signifikant vom Verhalten in Block 1 (F(1,75) < 1, n.s.). Ein signifikan-
ter Interaktionseffekt wurde ebenso nicht gefunden (F(4,75) = 0,52, n.s.).
Die dritte Reaktionsmöglichkeit auf einen Alarm, das Ignorieren, verteilte sich in über alle
fünf Bedingungen nahezu gleich (F(4,75) = 2,22, n.s.). Die Probanden ignorierten Alarme in
allen Bedingungen zu einem sehr geringen Anteil. Dieser ohnehin geringe Anteil an ignorier-
ten Alarmen verringerte sich in Block 2 weiter signifikant (F(1,75) = 6,91, p = .012), ohne
dass ein Interaktionseffekt auftrat (F(4,75) = 0,99, n.s.). Zu einer Übersicht der Mittelwerte
siehe Anhang G.
Um auszuschließen, dass sich diese Verhaltensanteile nur im Mittel ergaben und eventuelle
extreme-responding-Strategien verdeckten, wurden die Daten zusätzlich auf einem individuel-
len Niveau analysiert. Für jede Versuchsperson wurde ausgewertet, ob diese in den beiden
direkten Reaktionen auf einen Alarm Bearbeiten und Ignorieren jeweils einen Verhaltensan-
teil von mehr als 90% aufwies (siehe Definition von extreme responding in der Ausgangsstu-
die, Kapitel 6). Die Analyse ergab, dass es lediglich in der Bedingung mit der höchsten PPV
(0.9) 5 Probanden von den insgesamt 80 Versuchspersonen gab, die über 90% der Alarme
direkt bearbeiteten. Aufgrund des geringen Anteils an Personen, die diese Form des extreme
responding wählten (16%), und angesichts der Tatsache dass die compliance mit Alarmen von
größter Zuverlässigkeit im Grunde kein Überreagieren auf Alarme darstellt, sondern genauso
gut als probability matching-Strategie betrachtet werden kann, wurde durch die Individual-
Analyse sichergestellt, dass die gefundenen Effekte als solche und nicht als Artefakte, die auf
Mittelungen beruhen, interpretiert werden können.
Die Individual-Analyse bezüglich des Ignorierens von Alarmen ergab, dass keine Person
mehr als 90% aller Alarme ignorierte.
74 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt
7.5.4 Leistung und Verhalten in grünen Trials
Anteil korrekter Trials. Die Varianzanalyse ergab einen signifikanten Effekt der NPV auf
den relativen Anteil korrekter Reaktionen in grünen Trials (F(4,75) = 5,16, p = .001). Dabei
zeigt Abbildung 13 wie der Anteil an korrekt bearbeiteten Containern von 99% (bei einer
NPV von 0.98) stetig abfiel, wobei selbst in der niedrigsten Bedingung von NPV = 0.42
immer noch 85% aller Container korrekt behandelt wurden. Es ergab sich weder ein signifi-
kanter Effekt für den Faktor Block (F(4,75) = 1,34, n.s.) noch für die Interaktion von Block
und Bedingung (F(4,75) = 1,71, n.s.). Die Mittelwerte in den einzelnen Bedingungen werden
in Anhang G aufgeführt.
Anteil an korrekten Reaktionen in alarm-freien Trials
0
20
40
60
80
100
.98 .93 .86 .72 .41
NPV
Anteil in Prozen
t
Block 1
Block 2
Abbildung 13: Prozentualer Anteil von korrekten Reaktionen an allen gezeigten Reaktionen
in alarmfreien Trials, gemittelt über beide Experimentalblöcke
Verhaltenstendenz. Abbildung 14 gibt eine Übersicht über den Verlauf der Antwortalterna-
tiven „Ignorieren“ (reliance), „Prüfen“ (informed reliance) und „Bearbeiten“ (non-reliance) in
grünen Trials. Die Varianzanalyse ergab einen signifikanten Effekt der NPV auf den relativen
Anteil an ignorierten Trials, also dem Verhalten, dem eine hohe reliance zugrunde liegt
(F(4,75) = 18,78, p < .001). Dabei wurden in Block 1 in der Bedingung mit der zuverlässigs-
ten NPV (0.98) am häufigsten nicht reagiert, grüne Trials mit einer NPV von 0.93 bzw. 0.86
wurden in mittlerem Maße ignoriert und die Bedingungen 0.72 und 0.41 wurden trotz ihrer
stark differierenden Wahrscheinlichkeiten wiederum ähnlich selten ignoriert. Bonferroni-
Advertisement
7.5 Ergebnisse 75
korrigierte Einzelvergleiche bestätigen dieses Muster durch signifikante Unterschiede zwi-
schen der Bedingung 0.98 und allen anderen Bedingungen (alle p < .05), signifikanten Unter-
schieden der Bedingung 0.93 zu allen anderen Bedingungen (alle p < .05) außer zu Bedingung
0.86 und der Bedingung 0.72 zu allen anderen Bedingung (alle p < .05) außer zu Bedingung
0.41. In Block 2 verstärkte sich diese Verhaltenstendenz noch signifikant (F(1,75) = 5,98, p =
.02). Es ergab sich kein signifikanter Interaktionseffekt (F(4,75) = 0,53, n.s.).
Der Anteil des Prüfverhaltens an allen Reaktionsmöglichkeiten änderte sich in Abhängigkeit
der NPV signifikant (F(4,75) = 16,56, p < .001; siehe Abbildung 14). Dabei schienen die
Probanden die NPV ähnlich wie beim Verhalten „Ignorieren“ in verschiedene Kategorien
einzuteilen. In der Bedingung 0.98 überprüften sie im ersten Block einen grünen Trial kaum.
Schon der subtile Anstieg der NPV zu 0.93 ließ sie jedoch die Rohdaten zu 40% überprüfen.
Bonferroni-korrigierte Einzelvergleiche zeigten dementsprechend, dass sich Bedingung 0.98
von allen anderen Bedingungen signifikant unterschied (p < .05). Ähnlich wie in Bedingung
0.93 wurden die Trials in der Bedingung 0.86 behandelt, gefolgt von einem starken Anstieg
des Prüf-Anteils in der Bedingung 0.72. In Bedingung 0.41 änderte sich das Prüfverhalten
kaum. In Block 2 verstärkte sich diese Tendenz noch signifikant (F(1,75) = 6,54, p = .013),
ohne dass ein signifikanter Interaktionseffekt entstand (F(4,75) = 0,2, n.s.). Zu einer Über-
sicht der Mittelwerte siehe Anhang G.
Der Anteil des Bearbeitens von grünen Trials unterschied sich in den fünf Bedingungen nicht
signifikant (F(4,75) = 1,86, n.s.). Die Probanden bearbeiteten im ersten Block in den Bedin-
gungen 0.98, 0.93, 0.86 und 0.72 keinen grünen Trial direkt (jeweils M = 0%) und in der
Bedingung 0.41 nur zu einem sehr geringen Anteil (M = 5%). Dieses Verhalten blieb über
beide Blöckeauf einem ähnlich niedrigen Niveau (F(1,75) = 1,83, n.s.), es ergab sich jedoch
eine signifikante Interaktion von Block und Bedingung (F(4,75) = 4,52, p = .003).
76 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt
Mittlerer prozentualer Verhaltensanteil im Sinne der reliance,
informed reliance und no reliance
0
20
40
60
80
100
.98 .93 .86 .72 .41
NPV
Anteil in Prozen
t
reliance
no reliance
informed reliance
Abbildung 14: Verhaltensanteile in alarm-freien Trials, gemittelt über beide
Experimentalblöcke
Die Individual-Analyse des Antwortverhaltens ergab folgende Verteilung von Personen, die
90% und mehr Container in grünen Trials ignorierten (reliance): 12 bei einer NPV von 0.98, 5
bei einer NPV von 0.93, 3 bei einer NPV von 0.86, 1 bei einer NPV von 0.72 und 1 bei einer
NPV von 0.41. Auch hier zeigte sich, dass der Anteil an den Probanden, die eine extreme
Strategie nutzten, sehr gering war (max. 15% in einer Bedingung von 0.98) und dass sich der
größte Anteil an „extreme respondern“ vor allem in der Bedingung mit der größten Zuverläs-
sigkeit (NPV = 0.98) wiederfanden. Diese Strategie entspricht in diesem Rahmen eher einem
probability matching als einem extreme responding. Somit sind auch für die grünen Trials alle
gemittelten Ergebnisse bedenkenlos interpretierbar.
7.5.5 Subjektive Beanspruchung
Die a posteriori-Wahrscheinlichkeit hatte keinen Einfluss auf die Beantwortung der Skalen
des NASA-TLX. Die Probanden in den fünf unterschiedlichen Bedingungen unterschieden
sich nicht signifikant in ihrer empfundenen „geistigen Anstrengung“ (F(4,75) = 1,3), „körper-
lichen Anstrengung“ (F(4,75) = 1,0), Zeit F(4,75) = 1,3), „Ausführung“ (F(4,75) = 2,2),
„Anstrengung“ (F(4,75) = 2,2), und „Frust“ (F(4,75) = 1,5; alle F-Werte nicht signifikant).
Advertisement
7.6 Diskussion 77
7.6 Diskussion
In Experiment 1 wurde der Einfluss der manipulierten PPV und NPV eines Alarmsystems auf
das Antwortverhalten von Operateuren in einem Doppelaufgaben-Paradigma untersucht. In
Anlehnung an die Ergebnisse von Getty et al. (1995) wurden dabei die PPV und die NPV als
verhaltenswirksame Faktoren im Umgang mit Alarmen angesehen. Primär sollte untersucht
werden, wie sich die Einführung einer Prüfoption der Alarme auf die in der Ausgangsstudie
gefundenen Extremreaktionen auswirkt. Im Rahmen der Hypothesenblöcke für rote und grüne
Trials wurde erwartet, dass im unteren Bereich der PPV (0.1) der cry wolf-Effekt auftritt,
während im oberen Bereich der PPV (0.9) die compliance dominiert. Zum mittleren Bereich
der PPV hin (0.3 und 0.7) wurde ein zunehmender Anteil des Überprüfens der Alarme erwar-
tet, der bei der PPV, die die größte Unsicherheit impliziert (0.5), seinen Höhepunkt findet. In
alarm-freien Trials wurden ähnliche Effekte erwartet, allerdings in abgeschwächter Form, da
die die Manipulation der Basisrate die NPV im oberen Bereich nur sehr gering beeinflusste
imd die Abstufungen der NPV dadurch weniger ausgeprägt waren als bei der PPV. Der
Höhepunkt der reliance wurde somit bei der höchsten NPV und der Höhepunkt der informed
reliance bei der niedrigsten NPV erwartet.
Der Manipulations-Check in Form der Analyse der geschätzten PPV und NPV zeigt, dass die
Probanden die Variation der PPV und auch der NPV wahrgenommen haben (siehe Tabelle 4).
Um sicherzugehen, dass diese Variation allen Probanden gleichermaßen präsent war wurde
den Probanden die tatsächliche Verteilung der unterschiedlichen Fehler- und Treffertypen
nach Ausfüllen des Schätzfragebogens präsentiert. Folglich kann keine sichere Aussage
darüber getroffen werden, ob das Verhalten in den Experimentaldurchgängen auf der Erfah-
rung mit der Zuverlässigkeit des Systems oder der schriftlichen Aufklärung basierte. Es ist
denkbar, dass die erfahrungsbasierte Schätzung durch die höhere Verarbeitungstiefe einen
gewissen Grad an Änderungsresistenz aufwies und das Verhalten weiter beeinflusste. Aus
diesem Grund werden die Schätzungen der Zuverlässigkeit trotz der schriftlichen Aufklärung
diskutiert. Tabelle 4 veranschaulicht die Mittelwerte der geschätzten PPV im Vergleich zur
tatsächlichen PPV und zeigt, dass die Probanden nach der ersten Interaktion mit dem Alarm-
system abgesehen von einer größeren Überschätzung der PPV von 0.3 ein gutes Bild der
tatsächlichen Zuverlässigkeit hatten. Die inferenzstatistische Auswertung des Schätzfragebo-
gens macht deutlich, dass die extremen PPV von 0.1 und 0.9 als signifikant unterschiedlich
und die mittleren PPV als ähnlicher wahrgenommen wurden. Die Probanden unterschieden
78 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt
nicht sehr differenziert zwischen den PPV 0.3, 0.5 und 0.7 (alle Schätzungen lagen dicht bei
0.6), was eine mögliche Erklärung für das nahezu konstante Prüfverhalten über die Bedingun-
gen 0.1 – 0.7 und das plötzliche Absinken nach einer PPV von 0.7 sein könnte. Bei der
Schätzung der NPV neigten die Probanden dazu, niedrige NPV leicht zu überschätzen und
hohe NPV zu unterschätzen. Dieser Befund entspricht zwar den Ergebnissen der Ausgangs-
studie, überrascht aber insofern, dass in der Entscheidungsforschung bekannt ist, dass diese
Tendenz dann zu finden ist, wenn den Probanden bestimmte Wahrscheinlichkeit beschrieben
werden (Kahnemann & Tversky, 1979); bei erfahrungsbasierter Einschätzung zeigte sich die
gegensätzliche Tendenz, die Auftretenswahrscheinlichkeit seltener Ereignisse zu unterschät-
zen und die häufiger Ereignisse zu überschätzen (Hertwig & Erev, 2009). Im Rahmen von
bedingten Wahrscheinlichkeiten wie der NPV ist es generell schwierig zu definieren, welcher
der Faktoren die Schätzung der Probanden letztendlich determiniert – die Auftretenswahr-
scheinlichkeit eines grünes Lichtes, die Auftretenswahrscheinlichkeit einer correct rejection
oder die Auftretenswahrscheinlichkeit eines miss. Die Unterschätzung der vielen misses bei
einer niedrigen NPV würde der Unterschätzung erfahrungsbasierter Informationen entspre-
chen.
In alarm-freien Trials scheint die aus der Interaktion mit dem System geschätzte NPV einen
deutlicheren Einfluss auf die Prüf- und Ignorier-Rate zu haben als die tatsächliche NPV.
Somit spiegelt sich das unerwartet große Absinken der informed reliance und der reliance
zwischen den Bedingungen 0.98 und 0.93 auch signifikant in der Einschätzung der NPV
wider. Außerdem erklärt sich aus den Schätzdaten die Gleichbehandlung der objektiv deutlich
differierenden NPV von 0.41 und 0.72. An dieser Stelle sei allerdings wiederholt darauf
hingewiesen, dass die Interpretation des Einflusses der subjektiven Einschätzung nur unter
Vorbehalt gilt, da nicht zu differenzieren ist, ob das Verhalten der Probanden maßgeblich von
der erfahrunsbasierten Einschätzung oder der Beschreibung der Zuverlässigkeit determiniert
wurde. Festzuhalten ist dennoch, dass die PPV und NPV für den Operateur wahrnehmbare
Größen zu sein scheinen, die das Verhalten maßgeblich beeinflussen, wie es bereits Getty et
al. (1995) für die PPV zeigen konnten. Im Folgenden wird der Effekt der manipulierten PPV
bzw. NPV auf Leistung und Verhalten der Probanden aufgezeigt
Bevor detailliert auf die Verhaltenseffekte der PPV bzw. NPV eingegangen wird, wird der
Effekt der Manipulation auf allgemeine Leistungsparameter diskutiert. Dabei muss beachtet
werden, dass Effekte aus roten und grünen Trials in den allgemeinen Leistungsparametern
wie der erreichten Gesamtpunktzahl und der Sensitivität konfundiert sind. Einen Hinweis auf
Advertisement
7.6 Diskussion 79
solche Konfundierungen von roten und grünen Trials bietet das Ergebnis, dass sich die Punkt-
zahl, die für jede korrekte Lösung einer Bestellaufgabe ausgezahlt wurde, über die unter-
schiedlichen Bedingungen hinweg nicht unterscheidet. Zur Erinnerung sei an dieser Stelle
angemerkt, dass die Operationalisierung des Experimentes bewirkt, dass es zeitlich nicht
möglich ist, einen Container in der Überwachungsaufgabe zu überprüfen und gleichzeitig eine
Bestellaufgabe zu bearbeiten. In einer Bedingung, in der die Prüfrate in der Überwachungs-
aufgabe am niedrigsten ist, würde dementsprechend eine höhere Punktzahl in der Bestellauf-
gabe erwartet werden. Tatsächlich jedoch wurde in roten und grünen Trials auf unterschiedli-
chen Levels geprüft, so dass das gemittelte Prüfniveau über die unterschiedlichen
Bedingungen hinweg fast konstant blieb. In der Überwachungsaufgabe wurde ein signifikan-
ter Einfluss der manipulierten PPV bzw. NPV gefunden. Dabei erreichten die Probanden in
der Bedingung mit der geringsten PPV die höchste Punktzahl und in den oberen PPV die
niedrigste Punktzahl. Dieser Verlauf wird weiter unten im Abschnitt zur separaten Analyse
von roten und grünen Trials anhand des Anteils an korrekten Reaktionen erklärt.
Als alternatives Leistungsmaß zur erreichten Punktzahl wurde die Sensitivität des Mensch-
Maschine-Systems erfasst. Die Sensitivität klammert im Gegensatz zur erreichten Punktzahl
den Geschwindigkeitsaspekt durch ihre Zusammensetzung aus relativen Werten (nämlich der
hit- und der FA-Rate) aus und betont die Genauigkeit der getroffenen Entscheidungen. Aller-
dings ergibt auch die Sensitivität der Probanden nur ein konfundiertes Bild über die Gesamt-
leistung, die aus roten und grünen Trials resultiert. Dies wird besonders daran deutlich, dass
die Sensitivität in den Bedingungen am höchsten ist, in denen in roten Trials am häufigsten
geprüft wurde (PPV von 0.1, 0.3 und 0.5) und in denen gegenläufig die NPV am höchsten ist
(0.98, 0.93 und 0.86) und es somit in grünen Trials auch ohne hohe Prüfrate (sondern einer
hohen reliance) zu einem hohen Anteil korrekter Entscheidungen kam. Bereits in der Bedin-
gung mit einer PPV von 0.7 ließ die Sensitivität trotz nahezu konstant hoher Prüfrate in
Alarmtrials nach. Eine Erklärung hierfür mag dementsprechend der Einbruch in der NPV
(0.72) und der damit verbundene Anstieg an misses sein. Die Sensitivität des Gesamtsystems
stellt trotz der Konfundierung der Leistung in roten und grünen Trials ein wichtiges deskripti-
ves Maß in der Auswertung der Studie dar, da sie indiziert, ob sich die Leistung des Gesamt-
systems durch die Interaktion von Alarmsystem und Operateur gegenüber der Einzelleistung
des Alarmsystems verbessert. Tatsächlich übertraf die Leistung des Mensch-Maschine-
Systems in allen Bedingungen (Md’ = 5.5) die Leistungen des Alarmsystems (Md’ = 1.1), so
dass der Operateur in keinem Setting redundant war. In weiterführenden Studien sollte die
80 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt
Detektionsleistung des Menschen allein als Kontrollbedingung erfasst und mit der Leistung
des Gesamtsystems verglichen werden. In dieser Studie lag der Fokus auf der Verhaltens-
wirksamkeit von Alarmen und weniger auf der resultierenden Leistung, so dass auf die
Erhebung einer Kontrollbedingung verzichtet sowie einfach zu diskriminierendes Material
verwendet wurde.
Ein Leistungsmaß für Genauigkeit, welches für rote und grüne Trials isoliert erfasst werden
kann, ist der Anteil von korrekten Reaktionen an allen gezeigten Reaktionen. Im Folgenden
wird auf die Ergebnisse des spezifischen Einflusses der PPV auf die Leistung und das Reakti-
onsverhalten in Alarmtrials eingegangen. In der Bedingung mit den unzuverlässigsten Alar-
men (PPV = 0.1) wiesen die Probanden die signifikant beste Leistung im Sinne eines korrekt
bearbeiteten Anteils an Containern auf, die dann mit zunehmender Leistung des Alarmsys-
tems stetig abfiel. Eine Erklärung für das vorerst paradox erscheinende Absinken der Bearbei-
tungsgenauigkeit mit steigender Zuverlässigkeit findet man bei Betrachtung des Prüfverlaufes
in Alarmtrials. Es ist naheliegend, dass der Anteil an korrekten Reaktionen dort am höchsten
ist, wo das Überprüfen der Rohdaten das dominante Verhalten ist und die Zuverlässigkeit sich
in einem niedrigen bis mittelhohen Bereich befindet. Dieses Prüfverhalten fand in den Bedin-
gungen mit den niedrigsten PPVs (0.1 und 0.3) seinen Höhepunkt und sank dann mit steigen-
der Zuverlässigkeit erst langsam und nach einer PPV von 0.7 rapide ab bis in der Bedingung
0.9 die compliance über das Prüfverhalten dominierte. An dieser Stelle soll genauer auf das
Reaktionsverhalten auf Alarme eingegangen werden.
Die Ergebnisse der Analysen des Antwortverhaltens bestätigen die Hypothesen nur teilweise.
Die Analyse ergab einen durchgängig hohen Prüf-Anteil von Alarmen mit niedrigen (0.1, 0.3)
bis mittel-hohen PPV (0.5, 0.7). Ein Ignorieren von Alarmen wurde in allen Bedingungen nur
auf einem sehr geringen Niveau gefunden. Erst bei einer PPV von 0.9 wechselte die dominan-
te Reaktion vom Prüfen zum direkten Bearbeiten. Somit konnte Hypothese H 1.2., die das
Dominieren der compliance im oberen Bereich der PPV postulierte, bestätigt werden. Die
Probanden schienen demnach bei der höchsten PPV eine Rest-Unsicherheit zu tolerieren und
bearbeiteten die ihnen vom Alarmsystem indizierten Container direkt. Ein umgekehrtes Bild
zeigte sich im Bereich der unteren PPV. Selbst bei einer PPV von 0.1, die das gleiche Rest-
Risiko birgt wie die höchste PPV von 0.9, vertrauten die Probanden dem Alarmsystem nicht,
sondern reduzierten die verbleibende Unsicherheit dadurch, dass sie die Alarme auf einem
hohen Niveau überprüften. Die H 1.1 (die informed compliance ist im Bereich mittlerer PPVs
Advertisement
7.6 Diskussion 81
am höchsten) und die H 1.3 (der cry wolf-Effekt findet sich bei einer PPV von 0.1) konnten
somit nicht bestätigt werden.
Das Verhalten bei einer PPV von 0.1 entspricht weder einer probability matching-Strategie
(Bliss, Gilson & Deaton, 1995) noch einem extreme responding (Bliss, 2003), im Rahmen
derer die Probanden die Alarme mit geringer Zuverlässigkeit hätten ignorieren müssen.
Betrachtet man die Ergebnisse der Ausgangsstudie fallen auf, dass der cry wolf-Effekt, der in
Studie 1 erwartungskonform bei einer PPV von 0.1 auftauchte, durch die eingeführte Prüfop-
tion verschwand. Dieses Ergebnis entspricht den Befunden von Bliss (2003b), der Extremre-
aktionen auf ein Fehlen von Validierungsmöglichkeiten zurückführt. Um die Verzerrung der
Mittelwerte durch Extremreaktionen auf Alarme auszuschließen, wurden die Daten auf
individueller Ebene analysiert. Es zeigte sich, dass lediglich 5 von 80 Probanden eine extreme
Antwortstrategie verfolgten (alle fünf reagierten bei einer PPV von 0.9 auf alle Alarme direkt,
so dass hier die Bezeichnung extreme responding im Grunde unpassend ist, da sie genauso
einer probability matching-Strategie entspricht) und die Mittelwerte somit nicht durch Aus-
reißerwerte verzerrt wurden. Die unerwartet hohe Prüfrate über die Bedingungen mit einer
PPV von 0.1 bis 0.7 weist auf einen sehr verantwortungsvollen Umgang mit Alarmen hin,
besonders in der Bedingung 0.1, in der sich als effektive Strategie angeboten hätte, die Alar-
me zu ignorieren. An dieser Stelle muss kritisch angemerkt werden, dass die hohe Prüfrate in
Bedingung 0.1 streng genommen auch genau anders herum interpretiert werden könnte. So
könnte der hohe Prüfanteil darauf hinweisen, dass die Probanden das Alarmsystem in roten
Trials aufgrund seiner Untauglichkeit komplett ignorierten. Der hohe Prüfanteil würde dann
dem Verhalten entsprechen, welches sie gezeigt hätten, wenn sie ohne Unterstützung durch
ein Alarmsystem einen Anteil von 0.05 fehlerhaften Behältern (entsprechend der Fehler-
Basisrate in Bedingung 0.1) hätten detektieren sollen. Um diese Annahme zu überprüfen,
sollte in zukünftigen Studien eine Kontrollbedingung erhoben werden, die die Überwa-
chungsaufgabe mit den gleichen Stufen der manipulierten Basisrate, jedoch ohne Unterstüt-
zung durch ein Alarmsystem, präsentiert. Aufgrund von Untersuchungsergebnissen zum
Aufforderungscharakter (Gibson., 1977) von Alarmen, der Salienz von Alarmen (Dixon,
Wickens & McCarley, 2007; Wickens et al., 2005) und dem Befund von Bliss (2003b), dass
Extremreaktionen wie das komplette Ignorieren des Alarmsystems mangels Validierungs-
möglichkeit entstehen, wird jedoch davon ausgegangen, dass die hohe Prüfrate eine gezielte
Reaktion auf unzuverlässige Alarme repräsentierte.
82 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt
Bei einer PPV von 0.9 fiel das Prüfverhalten stark ab und wurde von der compliance, also
dem direkten Befolgen der Alarme dominiert. Zwischen einer PPV von 0.7 und 0.9 scheint
sich also ein cut-off zu befinden, der die Daten dichotomisiert in einen Bereich, in dem das
Vertrauen auf Verhaltensebene hoch ist (compliance bei einer PPV von 0.9) und einen Be-
reich, in dem die Probanden eine große Unsicherheit empfinden (bei einer PPV von 0.1 bis
0.7), die sie durch Überprüfen der Rohdaten reduzieren. Bestätigt wird dieser Befund durch
das Ergebnis, dass sich der Anteil an bearbeiteten Containern zwischen den PPVs 0.1, 0.3, 0.5
und 0.7 nur deskriptiv unterschied und dann bei einer PPV von 0.9 komplementär zur infor-
med compliance signifikant anstieg. Vergleicht man den Verlauf der compliance in der
Ausgangsstudie sowie in der Studie von Getty et al. (1995) mit dem Verlauf in Studie 1 fällt
auf, dass in der Ausgangsstudie und bei Getty et al. (1995) der größte Verhaltenseffekt zwi-
schen einer PPV von 0.5 und 0.7 zu finden ist und dass sich dieser kritische Punkt in Studie 1
weiter nach oben auf ein Level zwischen den PPV von 0.7 und 0.9 verschoben hat. Es scheint
also, als ob die Möglichkeit zur Reduktion der Unsicherheit dazu führt, dass die Probanden
noch bei einer mittel-hohen PPV (0.7) das Bedürfnis haben, die Alarme zu validieren, wäh-
rend sie dieselbe PPV ohne Validierungsmöglichkeit schon als validen Alarm behandeln. Eine
naheliegende Erklärung ergibt sich aus der Tatsache, dass die Probanden ohne Überprü-
fungsmöglichkeit abhängiger von den Hinweisen des Alarmsystems sind, da sie die einzige
Informationsquelle über den Status des Systems darstellen.
Abschließend ist also zur Leistung und zum Verhalten in Alarmtrials festzuhalten, dass das in
Hypothese H 1.2 postulierte Dominieren der compliance in oberen Bereichen der PPV erwar-
tungskonform in den Daten gefunden werden konnte. Das Prüfverhalten dominierte allerdings
erwartungsdiskrepant nicht nur im Bereich der mittleren PPV, sondern auch in den unteren
Randbereichen der PPV. Auch wenn das Prüflevel über die Bedingungen 0.1 – 0.7 hinweg
nahezu konstant blieb, zeigte doch das starke Absinken des Prüfanteils und das Dominieren
der compliance in Bedingung 0.9, dass die PPV eine Größe ist, an der die Probanden ihr
Verhalten orientieren (Getty et al., 1995). Die hohe Prüfrate über die niedrigen und mittel-
hohen Bedingungen hinweg weist vielmehr darauf hin, dass die Probanden bei sehr unzuver-
lässigen Alarmen (PPV = 0.1) das Bedürfnis haben, ihre Unsicherheit zu reduzieren, während
sie eine quantitativ ähnliche Unsicherheit bei sehr zuverlässigen Alarmen (PPV = 0.9) tolerie-
ren.
Hypothesenblock 2 bezieht sich auf das Verhalten in grünen Trials, für welche ähnliche
Verhaltenseffekte wie für die PPV erwartet wurden, allerdings in abgeschwächter Form, da
Advertisement
7.6 Diskussion 83
die Manipulation der Basisrate dazu führte, dass der Range der NPV lediglich von mittleren
(0.41) bis zu äußerst hohen (0.98) Zuverlässigkeiten reichte.
Die Analyse des Anteils von korrekten Reaktionen an allen Reaktionen in alarm-freien Trials
zeigte einen gegensätzlichen Verlauf zu dem in Alarmtrials. Während dieser Anteil in Alarm-
trials mit steigender PPV abnahm, stieg er in alarm-freien Trials mit zunehmender NPV stetig
an. Unter einer NPV von 0.86 war die informed reliance die meist gezeigte Reaktion auf
einen alarm-freien Trial. Die Probanden steigerten den Anteil an korrekten Reaktionen mit
dieser Strategie in den Bedingungen 0.41 und 0.72 auf 87% und 90%. Ab einer NPV von 0.86
maximierte die dominierende reliance den Anteil an korrekten Reaktionen weiter auf 98%
(NPV = 0.93) bzw. 99% (NPV = 0.98). Die Dominanz der reliance in den drei Bedingungen,
in denen die Fehler-Basisrate äußerst gering war und dann deutlich zunahm, erklärt somit die
Abnahme des Anteils an korrekten Containern mit sinkender NPV.
Betrachtet man das jeweils dominante Verhalten für die unterschiedlichen NPV zeigt sich,
dass sich die Hypothesen aus Hypothesenblock 2 bestätigen. Die reliance dominierte bei den
sehr hohen NPV von 0.98, 0.93 und 0.86 und fiel dann ab einer NPV von 0.72 bis zur NPV
von 0.41 unter das Niveau des Prüfanteils ab. Im Hinblick auf die nur schwache Variation der
NPV ist bemerkenswert, wie sensibel die Probanden in grünen Trials auf Änderungen der
NPV reagieren. So prüften sie bei einer Zuverlässigkeit des Alarmsystems von 0.98 nur 6%
der Container, bei einer NPV von 0.93 bereits 43%. Die Überschätzung der NPV von 0.98 im
Rahmen des Schätzfragebogens weist darauf hin, dass dieses starke Ansteigen des Prüfverhal-
tens bei einem subtilen Abfall der Zuverlässigkeit von 0.98 auf 0.93 dadurch zustande ge-
kommen sein könnte, dass der einzige miss, der in der Bedingung 0.98 präsentiert wurde,
nicht wahrgenommen und somit das System in dieser Bedingung als perfekt interpretiert
wurde. In der Bedingung 0.93 wurde mit großer Wahrscheinlichkeit mindestens einer der vier
misses wahrgenommen, so dass der große Unterschied in der (informed) reliance zwischen
den Bedingungen 0.98 und 0.93 so entstanden sein könnte, dass erst unter einer NPV von 0.93
überhaupt ein fehlerhaftes Reagieren des Alarmsystems in grünen Trials registriert wurde.
Das Verhaltensmuster in alarm-freien Trials vervollständigt das Bild der Verhaltenswirksam-
keit der a posteriori-Wahrscheinlichkeiten, das von Getty et al. (1995) nur für die PPV unter-
sucht wurde. Mehr noch scheinen misses bzw. die NPV das Verhalten effektiver zu beeinflus-
sen als die PPV, wie man an den Verhaltensänderungen als Reaktionen auf selbst kleinste
Änderungen in der NPV erkenn kann. Das besonders sensible Behandeln von grünen Trials
entspricht den Befunden von Dixon & Wickens (2006), die eine höhere Korrelation der
84 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt
Anzahl von misses und sinkender reliance fanden als von der Anzahl falscher Alarme und
sinkender compliance. Der spezifische Einfluss der unterschiedlichen PPV und NPV auf die
Verläufe des Antwortverhaltens stützt außerdem die Annahme der Unabhängigkeit der Kon-
strukte der compliance und reliance von Meyer (2004). Der Effekt der NPV war in dieser
Studie vor allem im oberen Bereich der NPV ausgeprägt, während die NPV von 0.72 und 0.41
kaum noch differenzierte Effekte auf das Verhalten hatte. Es scheint demnach nicht allein die
Höhe der a posteriori-Wahrscheinlichkeit eines Hinweises der ausschlaggebende Faktor zu
sein, sondern auch der zugrundeliegende Systemzustand.
Überträgt man diesen Befund auf das Modell von Allendoerfer, Pai & Friedman-Berg (2008)
so kann man feststellen, dass das Kriterium des Operateurs auf der zweiten Ebene des Über-
wachungsprozesses, welches bestimmt, ob er den Hinweis des Systems befolgt oder in einem
dritten Schritt überprüft, für die beiden verschiedenen Systemzustände, und vor allem in
oberen Bereichen der Zuverlässigkeiten, unterschiedlich hoch ist. Der verhältnismäßig starke
Anstieg im Prüfverhalten bei nur äußerst geringen Änderungen der NPV von 0.98 auf 0.93
indiziert ein hohes Bedürfnis, Unsicherheit selbst bei sehr zuverlässigen grünen Trials zu
reduzieren. Bei einer PPV von 0.9 wurde den Alarmen hingegen zum Großteil vertraut, ohne
deren Validität zu überprüfen. Das Bedürfnis, Unsicherheit zu reduzieren, scheint also bei
einem hoch zuverlässigen grünen Hinweis größer zu sein als bei einem hoch zuverlässigen
Alarm. Allgemeiner formuliert scheint es subjektiv einen Unterschied zu machen, ob man
einen Fehler durch das Ausbleiben einer notwendigen Handlung verursacht (also einen miss
verursacht), oder ob ein Fehler verursacht wird, indem man eine redundante Aktion ausführt
(entsprechend eines false alarms bzw. eines unnötig ausgeführten Prüfprozesses). In diesem
Zusammenhang könnte sich auch eine Erklärung für den unerwartet hohen Anteil an über-
prüften Alarmen im unteren Bereich der PPV finden. Noch ungeklärt aber vorstellbar ist, dass
im Kontext von Systemen, die neben der Produktivität auch den Aspekt der Sicherheit evozie-
ren, ein durch ein Versäumnis verursachter Fehler ein größeres Verantwortungsgefühl mit
sich bringt als ein Fehler der durch aktionistisches Überreagieren entstand und hauptsächlich
einen unnötigen Zeitaufwand impliziert. Mögliche Parallelen sind zu sehen in den Konzepten
des omission- und commission-Fehlers, die sich in ihrem Ursprung (Mosier & Skitka, 1996)
auf Entscheidungen von Assistenzsystemen beziehen (siehe Kapitel 2.5.2). Zukünftige For-
schung sollte versuchen, dieses Konzept auf den Bereich von Alarmsystemen mit variieren-
dem Kontext (Betonung Sicherheit versus Produktion) und variierenden Konsequenzen zu
beziehen und zu evaluieren. Auch wenn es sich im vorliegenden Paradigma um die Simulati-
Advertisement
7.6 Diskussion 85
on eines Produktionsprozesses handelte, in dem der Sicherheitsaspekt keine übergeordnete
Rolle spielte, legen die Ergebnisse nahe, von einem starken Aufforderungscharakter von
Alarmen auszugehen (Gibson, 1977). Allein die Evozierung des Kontextes von „Alarmen“
und „Alarmsystemen“ impliziert womöglich unbewusst ein hohes Risiko und schwerwiegen-
de Konsequenzen. Der Einfluss dieses „framings“ (Tversky & Kahnemann, 1981) auf das
Antwortverhalten im Umgang mit Alarmen sollte in weiteren Studien untersucht werden.
Ein weiterer Kritikpunkt bezüglich der internen Validität der Untersuchungsergebnisse wurde
bereits bei der Diskussion allgemeiner Leistungsparameter erwähnt. Das generelle Problem
der Konfundierung von Effekten der PPV und NPV auf die Reaktion der Probanden gilt im
Grunde für die Verhaltensparameter ebenso wie für die Leistung. So ist es beispielsweise
möglich, dass das Verhalten in Alarmtrials bei einer PPV von 0.9 insofern von der zugehöri-
gen NPV von 0.41 in grünen Trials beeinflusst wird, dass die relativ hohe Prüfrate bei grünen
Trials Ressourcen für die Bearbeitung von Alarmtrials bindet und das intendierte Verhalten
somit verfälscht. Da in dieser Arbeit jedoch explizit der Einfluss der a posteriori-
Wahrscheinlichkeit durch Konstanthalten von Charakteristika des Alarmsystems wie dessen
Sensitivität und Antwortkriterium untersucht werden sollte, ist es in diesem Rahmen nicht
möglich, die NPV und die PPV isoliert voneinander zu manipulieren. Weiterhin muss man
davon ausgehen, dass die Konfundierung der Effekte von Alarmen und alarm-freien Phasen
auch in der Praxis auftritt. Die spezifischen Reaktionsmuster in roten und grünen Trials
weisen darauf hin, dass die Probanden rote und grüne Trials sehr differenziert behandelten
und sich die Verläufe der (informed) reliance und (informed) compliance in ihrem Verlauf
unabhängig entwickelten. Die Untersuchungsergebnisse sprechen also für die von Meyer
(2004) postulierte Unabhängigkeit der reliance und compliance und geben so wertvolle
Hinweise auf die Verhaltenseffekte der spezifischen a posteriori-Wahrscheinlichkeiten, die
bereits bei der Entwicklung von Alarmsystemen berücksichtigt werden sollten.
Zusammenfassend lässt sich festhalten, dass sich die PPV und NPV als verhaltenswirksame
Größen erwiesen haben und sich die Befunde von Getty et al. (1995), der erstmals in einem
Mehrfachaufgaben-Paradigma verhaltenswirksame Effekte der PPV von Alarmen aufweisen
konnte, bestätigen. Dabei beeinflusste insbesondere die NPV das Prüfverhalten selbst durch
geringe Variation im oberen Bereich maßgeblich. Die PPV bewirkte in den unteren und
mittleren Bereichen nur kleine Verhaltensanpassungen, während eine hohe PPV von 0.9 eine
Umkehrung des dominanten Verhaltens von der informed compliance zur compliance bewirk-
te. Die größten Verhaltenseffekte wurden also jeweils in den oberen Bereichen der PPV bzw.
86 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt
der NPV gefunden. So offenbarte die Bedingung mit einer NPV von 0.41 und einer PPV von
0.9 die größten Verhaltenseffekte in der (informed) compliance, und entsprechend die Bedin-
gung mit einer PPV von 0.1 und einer NPV von 0.98 die größten Verhaltenseffekte in der
(informed) reliance. Im Rahmen dieser deutlichen Verhaltenseffekte im oberen Bereich der a
posteriori-Wahrscheinlichkeiten konnte auch Teil-Hypothese H 2.1 (die compliance findet im
oberen Bereich der PPV (0.9) ihren Höhepunkt) bestätigt werden. Die Probanden tolerierten
also die Rest-Unsicherheit von 0.1 und verließen sich auf die Alarme. Dieses Muster, welches
für die compliance offenbar unabhängig von der Höhe der NPV sowie für die reliance unab-
hängig von der Höhe der PPV, gilt, unterstützt die von Meyer (2004) postulierte Distinktheit
der beiden Konzepte.
Im unteren Bereich der PPV befand sich dagegen die informed compliance auf unerwartet
hohem Niveau. Anstatt das zeitaufwendige Prüfprocedere dann am häufigsten durchzuführen,
wenn die Unsicherheit bezüglich der Validität des Alarms am größten ist (bei der PPV im
mittleren Bereich), schienen die Probanden sich selbst bei äußerst unzuverlässigen Alarmen
davor absichern zu wollen, keinen kritischen Systemzustand zu verpassen. Der cry wolf-
Effekt, der im Rahmen der Ausgangsstudie unter Verwendung des gleichen Paradigmas,
allerdings ohne Prüfoption, gefunden wurde, wurde eliminiert und durch eine durchgängig
hohe Prüfrate bis zu einer hohen PPV von 0.7 ersetzt. Zusätzlich verschob sich die Vertrau-
ensschwelle, ab der die Probanden einen Alarm direkt befolgten, vom Bereich zwischen 0.5
und 0.7 in der Ausgangsstudie in den Bereich zwischen 0.7 und 0.9 in der Studie mit Prüf-
möglichkeit.
Aus diesen Ergebnissen ergeben sich folgende Fragen:
xWie entwickelt sich das Prüfverhalten zwischen einer PPV von 0.7 und 0.9? Gibt es
ein bestimmtes Niveau der PPV, ab der das Prüfverhalten im Sinne eines cut-off ab-
sinkt, sinkt die informed compliance linear oder folgt sie einem ganz anderen Muster?
In Studie 2 wird der Bereich zwischen 0.7 und 0.9 in fünf äquidistante Stufen aufge-
teilt und das Prüfverhalten in diesem Bereich analysiert.
xWie robust ist der Effekt, dass der cry wolf-Effekt durch das Einführen einer Prüfopti-
on verschwindet, unter Bedingungen, die eine strenge Verteilungspolitik der Ressour-
cen erfordern? In Bezug auf die Studie von Bliss & Dunn (2000) können zwei Arten
von Belastung manipuliert werden. Innerhalb der Alarmaufgabe kann der Prüfaufwand
erhöht werden, indem nicht nur ein Parameter überprüft werden muss, um einen feh-
Advertisement
7.6 Diskussion 87
lerhaften Containerinhalt sicher zu identifizieren, sondern zwei. In Studie 4 wird die
kognitive Beanspruchung erhöht, indem das Doppelaufgaben-Paradigma durch Hinzu-
fügen der Tankfüllaufgabe zu einem Dreifachaufgaben-Paradigma erweitert wird.
88 Experiment 2: Feinanalyse des Verlaufs der compliance im Bereich 0.7 – 0.9
8 Experiment 2: Feinanalyse des Verlaufs der com-
pliance im Bereich 0.7 – 0.9
In Studie 1 wurde der deutlichste Verhaltenseffekt zwischen einer PPV von 0.7 und 0.9
gefunden. In diesem Bereich änderte sich das dominante Verhalten von der informed compli-
ance zur compliance. In Studie 2 soll analysiert werden, ob das Verhalten beispielsweise an
einer kritischen Schwelle im Sinne eines cut-off umschlägt oder ob die Verhaltensänderung
einem anderen Verlauf folgt. Zu diesem Zweck wurde der Bereich in feinere Abstufungen
von jeweils 0.05 unterteilt und das Verhalten auf den sich ergebenden fünf Stufen analysiert.
8.1 Forschungsfrage
In Studie 1 konnte gezeigt werden, dass die Probanden den dominierenden Anteil an Alarmen
überprüften, auch wenn das Alarmsystem eine hohe Reliabilität (PPV = 0.7) aufwies. Erst bei
einer PPV von 0.9 sank die Prüfhäufigkeit rapide von 62% auf 30%. Komplementär dazu
stieg die Häufigkeit des direkten Bearbeitens von 21% auf 52%. Die Zuverlässigkeit von
Alarmen scheinen die compliance und die informed compliance offenbar also erst ab einer
PPV von 0.7 maßgeblich zu beeinflussen. Die äußerst hohe Prüfrate über die Bedingungen 0.1
– 0.7 hinweg beeinflusste auch die Leistungsparameter maßgeblich. So fand sich die maxima-
le Leistung, sowohl in Parametern der Gesamtleistung (Sensitivität und erreichte Gesamt-
punktzahl) als auch in den spezifischen Leistungsmaßen (Anteil korrekter Reaktionen in roten
und grünen Trials) konsistent in den Bedingungen mit den niedrigen PPV und die schlechteste
Leistung in der Bedingung mit der höchsten PPV, in der die Probanden den Alarm direkt
befolgten. Dieser Befund weist darauf hin, dass die Leistung vom cut-off abhängt, an dem das
dominante Verhalten vom Prüfen zum direkten Bearbeiten wechselt, abfällt.
Dieser Befund erinnert an die Ergebnisse der Meta-Analyse von Wickens & Dixon (2007).
Die Studien weisen die Gemeinsamkeit auf, dass sich ein cut-off bei einer Reliabilität von 0.7
befindet, der die Leistung der Probanden maßgeblich beeinflusst. Allerdings sind auch wich-
tige Unterschiede bzw. Einschränkungen in der Vergleichbarkeit der Studien zu beachten.
Hinsichtlich der Ergebnisse nahm die Leistung in den untersuchten Paradigmen von Wickens
& Dixon (2007) unter einer Reliabilität von 0.7 ab, während er in Studie 1 zunahm. Dieses
Advertisement
8.2 Methode 89
Ergebnis lässt sich durch den unterschiedlichen Versuchsaufbau erklären, der den Probanden
in den Studien der Meta-Analyse keinen aktiven bzw. keinen quantifizierbaren Zugang zu den
Rohdaten gewährte. Eine weitere Einschränkung der Vergleichbarkeit liegt in der Definition
von Reliabilität. Zwar wurde in der Meta-Analyse die Reliabilität nicht über die PPV defi-
niert, sondern über den Anteil von korrekten Reaktionen an allen Reaktionen, doch enthielt
die Analyse einige Studien, in denen lediglich der Einfluss von hits und false alarms geprüft
wurde (z. B. Bliss & Acton, 2003; Dingus et al., 1997; Galster et al., 2001). Entfällt der Anteil
von correct rejections und misses, unterscheidet sich die Definition der Reliabilität nicht mehr
von der der PPV. Es lässt sich also vergleichend festhalten, dass die Probanden in Studie 1
unter einer Zuverlässigkeit von 0.7 auf den ersten Blick kein rationales Verhalten zu zeigen
scheinen (durch die überhöhte Prüfrate), welches auf der anderen Seite die abnehmende
Effizienz des Gesamtsystems, die Wickens & Dixon in ihrer Studie in diesem Bereich fanden,
kompensiert. Anhand der Ergebnisse von Studie 1 bleibt jedoch ungeklärt, ob es sich tatsäch-
lich um einen cut-off bei 0.7 handelt oder ob das Prüfverhalten zwischen den PPV von 0.7 und
0.9 linear abfällt. Alternativ könnte sich ein eventueller cut-off auch in den Bereich von .9
verschieben. Um den genauen Verlauf des Prüfverhaltens explorativ zu analysieren, wurde in
Studie 2 der Range der PPV von 0.7 - 0.9 in fünf Abstufungen unterteilt (0.7, 0.75, 0.8, 0.85
und 0.9).
8.2 Methode
8.2.1 Stichprobe
70 Versuchspersonen, die über den Probandenserver PESA der Humboldt Universität Berlin
akquiriert wurden, nahmen gegen eine monetäre Aufwandsentschädigung an der Untersu-
chung teil. Die Stichprobe bestand aus 40 Frauen und 30 Männern. Das Alter der Probanden
variierte von 19 bis 36 Jahren bei einem Mittelwert von 25,49 (SD = 4,02).
8.2.2 Versuchsplan
Das einfaktorielle Design von Studie 2 unterschied sich von dem von Studie 1 zum Einen in
der Auswahl der untersuchten Stufen der PPV. Der between-subjects-Faktor Fehlerbasisrate
wurde erneut fünffach gestuft, diesmal jedoch in kleineren Abstufungen in einem Range von
90 Experiment 2: Feinanalyse des Verlaufs der compliance im Bereich 0.7 – 0.9
0.7 - 0.9 (siehe Tabelle 5). Zum Anderen gab es nur einen Experimentaldurchgang, so dass
der Messwiederholungsfaktor Block entfiel. Der zweite Experimental-Durchgang entfiel in
Studie 2, da die Ergebnisse von Studie 1 zeigten, dass sich kein Interaktionseffekt von Block
und Bedingung zeigte und das Reaktionsmuster im 2. Block in Abhängigkeit der unterschied-
lichen PPV/NPV in seinem Verlauf also unverändert blieb. Dies spricht für einen Übungsef-
fekt, der sich auf alle Bedingungen gleich auswirkt und die Effekte zwischen den PPV/NPV
nicht beeinflusst.
Da sich in Studie 1 im Bereich der NPV von 0.72 und 0.41 (entsprechend des hier variierten
Bereichs einer PPV von 0.7 bis 0.9) keine signifikanten Effekte im Verhalten zeigte, lag der
Fokus von Studie 2 auf Verhaltenseffekten der PPV.
Basisrate PPV
.54 .7
.6 .75
.66 .8
.74 .85
.81 .90
Tabelle 5: manipulierte Basisrate und resultierende PPV
8.2.3 Ablauf
Der Ablauf entsprach abgesehen von der Eliminierung des zweiten Experimental-Blocks dem
von Studie 1.
8.3 Abhängige Variablen
Im Fokus von Studie 2 stand die Feinanalyse des Verlaufes des Prüfverhaltens von Alarmen
in einem Range von einer PPV von 0.7 - 0.9, deswegen wurde in Studie 2 lediglich eine
Auswahl der abhängigen Variablen aus Studie 1 erfasst (siehe Kapitel 7.4). Da in dem redu-
zierten Bereich der PPV keine relevanten Unterschiede in den Leistungsmaßen und den
subjektiven Beanspruchungsmaßen erwartet wurden, werden im Folgenden nur die Verhal-
tensdaten und die Einschätzung der tatsächlichen PPV aufgeführt. Auf die Analyse der
Leistung und des Verhaltens in alarm-freien Trials wurde komplett verzichtet, da in Studie 1
Advertisement
8.4 Ergebnisse 91
keine relevante Verhaltensänderung im entsprechenden Bereich der NPV (von 0.41 bis 0.72)
gefunden wurde.
8.4 Ergebnisse
8.4.1 Manipulations-Check
PPV. Die einfaktorielle Varianzanalyse ergab einen signifikanten Einfluss der manipulierten
PPV auf die geschätzte PPV (F(4,65) = 3,541, p = .011). Die Bonferroni-korrigierten Mehr-
fachvergleiche ergaben, dass sich die Einschätzung der PPV von 0.9 (M = 0,823) signifikant
von der Einschätzungen der PPV von 0.7 (M = 0,66) unterschied, p = .024).
8.4.2 Anteil Verhalten
Für jede der drei möglichen Reaktionsweisen auf einen Alarm (Bearbeiten, Prüfen und
Ignorieren) wurde eine einfaktorielle Varianzanalyse mit der jeweils entsprechenden abhängi-
gen Variablen Verhaltensanteil in roten Trials berechnet. Die unabhängige Variable war bei
jeder Varianzanalyse die fünfstufig manipulierte Basisrate mit der zugehörigen PPV. Um
gezielt der Frage nachzugehen, ob sich ein cut-off zwischen einer PPV von 0.7 und 0.75
findet, nach dem das Prüfverhalten abrupt abfällt und das Bearbeiten entsprechend zunimmt,
wurden außerdem zwei geplante Kontraste mit der abhängigen Variable Prüfen bzw. Bearbei-
ten berechnet, in denen Bedingung 0.7 gegen die anderen vier Bedingungen verglichen
wurde.
Die Ergebnisse der Varianzanalyse zeigten keinen signifikanten Effekt der PPV auf die
Verhaltensanteile Bearbeiten (F(4,65) = 1,59, n.s.), Prüfen (F(4,65) = 1,18, n.s.), und Ignorie-
ren (F(4,65) = 2,13, n.s.). Eine Übersicht über die Mittelwerte findet sich in Anhang H.
Der geplante Kontrast mit der abhängigen Variable Prüfen ergab, dass in der Bedingung PPV
= 0.7 signifikant häufiger geprüft wurde als in den anderen Bedingungen, t(65) = 1.999, p =
.025 (einseitig). Entsprechend wurden in Bedingung 0.7.weniger Alarme direkt bearbeitet als
in den Bedingungen 0.75, 0.8, 0.85 und 0.9, t(65) = -2.12, p = .019 (einseitig; siehe Abbildung
15).
92 Experiment 2: Feinanalyse des Verlaufs der compliance im Bereich 0.7 – 0.9
Prozentualer Verhaltensanteil im Sinne der compliance,
informed compliance und des cry wolf-Effekts
0
20
40
60
80
100
.70 .75 .80 .85 .90
PPV
Anteil in Prozen
t
compliance
"cry wolf"
informed compliance
Abbildung 15: Verhaltensanteile in Alarmtrials
8.5 Diskussion
In Studie 2 sollte der Verlauf im Bereich zwischen einer PPV von 0.7 und 0.9, in dem in
Studie 1 der stärkste Verhaltenseffekt und ein Wechsel des dominierenden Verhaltens von der
informed compliance zur compliance gefunden wurden, genauer analysiert werden. Dabei
konnten die Werte des anteiligen Prüfens, Bearbeitens und Ignorierens von Bedingung 0.7 aus
Studie 1 nahezu exakt repliziert werden; das Antwortmuster in Bedingung 0.9 entsprach
ebenso dem in Studie 1, wobei die Probanden in dieser Bedingung eine etwas niedrigere
compliance und eine entsprechend höhere informed compliance zeigten, jedoch ohne dass
sich die Dominanz der compliance änderte. Generell validieren die replizierten Antwortmus-
ter in diesen beiden Bedingungen die Ergebnisse aus Studie 1. Das Ergebnis der Fein-Analyse
des Prüfverhaltens ergab einen klaren cut-off nach einer PPV von 0.7. Betrachtet man das
Prüfverhalten in Studie 1 wird deutlich, dass die Probanden ihr Prüfverhalten erst nach einer
PPV von 0.7 von einem irrational hohen Level an die Höhe der PPV anpassten, so dass sich
das Reaktionsmuster erst bei einer PPV von 0.9 an eine Art probability matching (Bliss,
Gilson & Deaton, 1995) anglich. Studie 2 jedoch zeigt, dass diese Anpassung nicht schritt-
weise und linear verläuft, sondern dass die PPV von 0.7 bzw. 0.75 eine kritische Schwelle
repräsentiert, ab der die compliance steigt, die informed compliance sinkt, so dass kein klare
Advertisement
8.5 Diskussion 93
dominierendes Verhalten mehr auszumachen ist. Die Dominanz der informed compliance
unter einer PPV von 0.75 weist darauf hin, dass eine Zuverlässigkeit unter 0.75 als unzuver-
lässig wahrgenommen zu werden scheint. Eine NPV zwischen 0.75 und 0.85 scheint dem
hingegen weder als eindeutig zuverlässig noch unzuverlässig angesehen zu werden, so dass
sich die compliance und die informed compliance auf einem ähnlichen Niveau befinden. Ab
einer PPV von 0.9 wird dann die in Studie 1 gefundene Tendenz zur compliance als dominie-
rendes Verhalten sichtbar. Probanden neigen also dazu, bei mittel-hohen PPV unter 0.75
Ressourcen durch eine überhöhte Prüfrate zu verschwenden und erst nach dem cut-off bei
0.75 zu beginnen, ein effizienteres Reaktionsmuster zu entwickeln, indem sie ungefähr die
Hälfte aller Alarme direkt bearbeiten.
In Bezug auf die Erkenntnisse im Rahmen der Meta-Analyse (22 Studien) von Wickens &
Dion (2007) könnte die schlechte Anpassung von Personen an Alarmsysteme mit mäßiger
Zuverlässigkeit (unter 0.7) dazu beitragen, dass die Gesamtleistung des Mensch-Maschine-
Systems unter diesen Bedingungen unter die Leistung der einzelnen Akteure fällt (Wickens &
Dixon, 2007). Während in Studien ohne Prüfmöglichkeit die alarm-gestützte Überwachungs-
aufgabe durch die Anwendung einfacher Heuristiken wie dem extreme responding dabei eher
vernachlässigt wird, sollten zukünftige Studien untersuchen, ob es in Mehrfachaufgaben-
Paradigmen mit Prüfmöglichkeit durch die übermäßige Investition von Ressourcen in den
Prüfprozess zu Leistungseinbußen in den Nebenaufgaben kommt.
Bei der Gestaltung von Alarm- oder Assistenzsystemen sollte also nicht nur die Leistung des
Systems berücksichtigt werden, sondern auch die Fähigkeit der Nutzer zur Adaption an die
Zuverlässigkeit des Systems. In weiteren Studien sollte untersucht werden, ob die Gesamtleis-
tung des Mensch-Maschine-Systems mithilfe von Training der Nutzer, sich der gegebenen
Zuverlässigkeit optimal anzupassen, auch für Systeme mit einer niedrigeren Zuverlässigkeit
von 0.7 erhöht werden kann.
94 Experiment 3: Einfluss eines erhöhten Prüfaufwandes
9 Experiment 3: Einfluss eines erhöhten Prüfauf-
wandes
In Studie 1 wurde anstatt der erwarteten rationalen und effizienten Einteilung der Ressourcen
eine unerwartet hohe Prüfrate in den Bedingungen mit PPV von 0.1 – 0.7 gefunden. Im
Vergleich zur Ausgangsstudie ohne Prüfoption wurde der cry wolf-Effekt also eliminert. Eine
denkbare Erklärung für diese überhöhte Prüfrate könnte sein, dass die Kosten für den Prüf-
prozess nicht hoch genug operationalisiert waren. Unter hohen Kosten des Prüfprozesses wird
hingegen erwartet, dass die Probanden die Rohdaten nur dann prüfen, wenn die Entscheidung
unter großer Unsicherheit getroffen werden muss. So fanden Bliss & Dunn (2000) unter einer
erhöhten Arbeitsbelastung in der Alarmaufgabe einen erhöhten Anteil an ignorierten Alar-
men. In Studie 3 wird untersucht, ob der cry wolf-Effekt wieder auftritt, wenn das Überprüfen
der Rohdaten zeitaufwendiger gestaltet wird. Dabei müssen die Probanden statt einen Parame-
ter zwei Parameter sukzessive überprüfen, um ihre Unsicherheit auf 0% zu reduzieren. Eine
Überprüfung lediglich eines Parameters wäre dabei denkbar, würde die Unsicherheit jedoch
nur um 50% reduzieren.
Die Datenerhebung zu Studie 3 erfolgte an der Technischen Universität Berlin im Rahmen
einer von der Autorin dieser Arbeit betreuten Diplomarbeit (Zorn, 2011). Ein Teil der erhobe-
nen Daten wurde demnach bereits für die Diplomarbeit herangezogen, die hier berichteten
Fragestellungen umfassen in Teilen jene der Diplomarbeit, gehen jedoch deutlich über diese
hinaus.
9.1 Forschungsfrage und Hypothesen
Das Ergebnis von Studie 1 zeigte eine schlechte Adaptivität der Probanden auf variierende
Zuverlässigkeiten von Alarmen, indem sie auf einem irrational hohen Niveau die Rohdaten
hinter dem Alarm prüften. Im Rahmen dieser überhöhten Prüfrate wurde der cry wolf-Effekt,
der in der Ausgangsstudie ohne Prüfoption gefunden wurde, eliminert. Erst bei einer Zuver-
lässigkeit von 0.9 sank das anteilige Prüfverhalten auf immerhin noch 30% ab. Dieses Ergeb-
nis lässt die Frage nach den Ursachen für das ineffiziente, zeit- und kostspielige Verhalten in
den unteren Bereichen der PPV aufkommen. Eine rationale Erklärung wäre, dass sich Opera-
Advertisement
9.1 Forschungsfrage und Hypothesen 95
teure so verantwortungsbewusst wie möglich verhalten, wenn ihnen die Möglichkeit gegeben
wird, die Rohdaten des Systems zu überprüfen. Eine Erklärung methodischer Art, die die
interne Validität der Ergebnisse von Studie 1 in Frage stellt, wäre, dass das Prüfverhalten in
Studie 1 nicht aufwendig genug operationalisiert wurde, so dass den Probanden suggeriert
wurde, die Mühen und Zeitkosten des Prüfens durch höhere Genauigkeit in der Alarmaufgabe
kompensieren zu können. Um dieser Erklärungsmöglichkeit nachzugehen, wurde in Studie 3
das gleiche Experiment wie in Studie 1 durchgeführt, wobei der Prüfprozess zeit- und res-
sourcenaufwendiger operationalisiert wurde als im ersten Experiment. Um den Prüfaufwand
zu erhöhen, mussten die Probanden in Studie 3 anstatt nur einen Parameter (Temperatur) zwei
unabhängige Parameter (Temperatur und Druck) überprüfen, um einen Fehler im Endprodukt
sicher ausschließen bzw. bestätigen zu können. Diese Operationalisierung gestaltet den
Prüfprozess sowohl zeitaufwendiger als auch lästiger als in Studie 1. An dieser Stelle wird
bewusst nicht von einem erhöhten workload gesprochen, da davon ausgegangen wird, dass
der längere Prüfprozess primär mehr Zeit in Anspruch nimmt, wobei die gleichen Ressourcen
wie beim einfach Prüfprozess sukzessive, also nacheinander genutzt werden, sodass Interfe-
renzen oder Doppelbelastungen vermieden werden (Wickens, 2008). Nach Dingus et al.
(1993) müsste das Verhalten, welches in den Variablen Zeitaufwand und Anstrengung kost-
spielig ist (in diesem Falle also die informed compliance), die Auftretenswahrscheinlichkeit
dieses Verhaltens deutlich senken. Da jedoch hier davon ausgegangen wird, dass die auffällig
hohe Prüfrate aus Studie 1 einem intendierten Verhalten zugrunde liegt und nicht der Ein-
fachheit des Prüfprocederes, ergeben sich gemäß Studie 1 folgende Hypothesen:
Hypothesenblock 1: rote Trials
H 1.1: die informed compliance ist am höchsten bei PPV im mittleren Bereich und am nied-
rigsten bei hohen und niedrigen PPV (und folgt somit einem umgekehrt u-förmigen
Verlauf)
H 1.2: die compliance ist am höchsten bei der höchsten PPV (0.9)
H 1.3: der cry wolf-Effekt tritt bei der niedrigsten PPV (0.1) auf
Hypothesenblock 2: grüne Trials
H 2.1: die informed reliance ist bei der niedrigsten NPV (0.41) am höchsten
H 2.2: die reliance ist bei der höchsten NPV von 0.98 am höchsten
96 Experiment 3: Einfluss eines erhöhten Prüfaufwandes
H 2.3: die non-reliance befindet sich über alle Bedingungen hinweg auf einem äußerst niedri-
gen Niveau
Aus diesen beiden Hypothesenblöcken ergeben sich im untersuchten Basisraten-Bereich
unterschiedliche erwartete Verläufe der reliance und compliance.
9.2 Erweiterung des Paradigmas M-TOPS 2
In Studie 2 wurde das Modul der Überwachungsaufgabe des M-TOPS 2-Paradigmas leicht
modifiziert. Um den Prüfprozess zeitaufwendiger zu gestalten wurde das Prüfmenü so erwei-
tert, dass nach Klick auf den Button „Prüfen“ zwei Karteireiter („Temperatur“ und „Druck“)
sichtbar wurden. Um einen Fehler im System anhand der Rohdaten sicher auszuschließen,
mussten die Probanden beide Parameter überprüfen. Bei Abweichung nur eines Parameters
lag ein Fehler im System vor. Zur Überprüfung beider Parameter konnte ein beliebiger der
beiden Karteireiter ausgewählt werden. Die Überprüfung der Temperatur gestaltete sich dabei
genau wie in den Studien 1 und 2 (siehe Kapitel 5). Aufgrund der Rohdaten konnte der
Proband dann entweder die Temperatur durch Klick auf den Button „Temperatur bearbeiten“
korrigieren oder die Temperatur unbearbeitet lassen. An dieser Stelle konnte mit Klick auf
den Button im Prüfmenü „weiter“ der nächste Container angefordert werden oder aber mit
einem Klick auf den Karteireiter „Druck“ (bzw. „Temperatur, wenn zuerst der Druck getestet
worden war) ins Prüfmenü des zweites Parameters gelangt werden. Zur Überprüfung des
Drucks musste wie bei der Überprüfung der Temperatur vorerst die exakte Containerbezeich-
nung aus einer Liste von 7 Containernamen ausgewählt werden. Daraufhin zeigte ein sich von
links nach rechts füllender Balken mit der gleichen Verzögerung wie bei der Temperaturan-
zeige (ca. 2 Sekunden) den Fortschritt der Druckmessung an. Die eigentliche Druckmessung
wurde präsentiert in Form einer Nadel, die sich entweder im grünen Bereich (Druck ist im
Toleranzbereich) oder im roten Bereich (der Druck ist zu hoch) befand (siehe Abbildung 16).
Zum Bearbeiten oder Ignorieren des Drucks wurden die entsprechenden Verhaltensoptionen
angeboten wie zur Behandlung der Temperatur (Klick auf „weiter“, „Druck bearbeiten“ oder
Karteireiter „Temperatur“).
Advertisement
9.3 Methode 97
Abbildung 16: Prüfmenü in der erweiterten Form von M-TOPS 2
9.3 Methode
9.3.1 Stichprobe
Die Stichprobe bestand aus insgesamt 60 Personen, die zufällig den Bedingungen zugeordnet
wurden. Von diesen waren 40 Frauen und 20 Männer. Der Altersrange reichte von 19 bis 38
Jahren mit einem Mittelwert von 25,98 (SD = 3,68).
9.3.2 Versuchsplan
Der Versuchsplan von Studie 3 entsprach dem Versuchsplan von Studie 1 (siehe Kapitel
7.3.2). Wie auch in Studie 2 wurde lediglich der Messwiederholungsfaktor „Block“ entfernt,
so dass ein 5-fach gestuftes, einfaktorielles Design (Faktor Basisrate bzw. PPV und NPV)
vorlag.
98 Experiment 3: Einfluss eines erhöhten Prüfaufwandes
9.3.3 Ablauf
Der Ablauf von Studie 3 entsprach insofern dem Ablauf von Studie 2, dass die Probanden im
Gegensatz zu Studie 1 nur einen Experimental-Durchgang durchliefen.
9.4 Abhängige Variablen
In Studie 3 wurden die gleichen abhängigen Variablen erfasst wie in Studie 1.
Eine Besonderheit ergab sich bei der Berechnung des Prüfanteils, da dieser unterteilt werden
kann in vollständiges Prüfen (also das Prüfen beider Parameter, welches unumgänglich ist um
einen fehlerhaften Containerinhalt auszuschließen bzw. zu diagnostizieren) und unvollständi-
ges Prüfen (das unzureichende Prüfen nur eines Parameters). Letzteres Verhalten ist in dem
Sinne irrational, dass es dem Probanden keine zuverlässige Information über den tatsächli-
chen Zustand des Endproduktes liefert, da sich der ungeprüfte Parameter im kritischen Be-
reich befinden könnte. Eine gesonderte Analyse der Häufigkeit dieses unvollständigen Prü-
fens ergab, dass dieses Verhalten über die Bedingungen hinweg bei 0 lag (alle Werte unter
1% aller Verhaltensanteile). Deshalb beziehen sich die Analysen im folgenden Ergebnisbe-
richt lediglich auf das vollständige Prüfen. Die Definition des vollständigen Prüfens richtet
sich dabei nach der Definition des einfachen Prüfens (siehe Kapitel 7.4.3) mit dem Zusatz,
dass im Prüfmenü sowohl die Druck- als auch die Temperaturmessung gestartet worden sein
muss.
Zusätzlich zu den abhängigen Variablen aus Studie 1 wurden die Ergebnisse der subjektiven
Beanspruchung, die im Rahmen des NASA-TLX erfasst wurden, aus Studie 3 mit denen aus
Studie 1 verglichen. Da die Manipulation in Studie 3 darauf abzielte, den den Prüfprozess
schwieriger und langwieriger zu gestalten, wurde durch den Vergleich zwischen den zwei
Studien kontrolliert, ob sich der höhere Aufwand auch in der subjektiven Bewertung wieder-
finden ließ.
Advertisement
9.5 Ergebnisse 99
9.5 Ergebnisse
9.5.1 Manipulations-Check
Geschätzte PPV und NPV. Die Varianzanalyse ergab einen signifikanten Effekt der tatsäch-
lichen PPV auf die geschätzte PPV (F(4,55) = 33,97, p < .001). Tabelle 6 gibt eine Übersicht
über die Mittelwerte der jeweiligen Schätzungen. In Bonferroni-korrigierten Einzelvergleiche
konnten lediglich für die Bedingungen 0.5 und 0.7 sowie 0.9, und 0.7 und 0.9 keine signifi-
kanten Unterschiede festgestellt werden (alle anderen p < .01). Auch bei der NPV führte die
Manipulation der tatsächlichen Wahrscheinlichkeiten zu signifikant unterschiedlichen Ein-
schätzungen (F(4,55) = 16,46, p < .001). Dabei unterschied sich Bedingung 0.41 signifikant
von allen anderen Bedingungen (alle p < .01). Auch die Einschätzungen der Bedingungen
0.72 und 0.98 (p = .014), sowie die der Bedingungen 0.86 und 0.98 (p = .005) unterschieden
sich signifikant.
tatsächliche PPV geschätzte PPV tatsächliche NPV geschätzte NPV
.1 M = 0.2
SD = 0.09 .98 M = 0.93
SD = 0.64
.3 M = 0.42
SD = 0.13 .93 M = 0.84
SD = 0.1
.5 M = 0.65
SD = 0.17 .86 M = 0.7
SD = 0.16
.7 M = 0.74
SD = 0.12 .72 M = 0.73
SD = 0.11
.9 M = 0.79
SD = 0.2 .41 M = 0.47
SD = 0.25
Tabelle 6: Mittelwerte und Standardabweichungen der geschätzten PPV und NPV
Subjektive Beanspruchung. Um zu kontrollieren, ob die Erhöhung des Prüfaufwandes in
Studie 3 im Vergleich zu Studie 1 eine Steigerung der subjektiven Beanspruchung bewirkt,
wurde eine zweifaktorielle, multivariate Varianzanalyse mit den unabhängigen Variablen
PPV bzw. NPV und Experiment (1und 3) und den Items des NASA-TLX als abhängige
Variablen berechnet. Die Ergebnisse für die Items des NASA-TLX zeigten einen signifikan-
ten Haupteffekt des Faktors Experiment auf die Variablen „zeitliche Anforderung“ (F(1, 130)
= 9,7; p = .002), „Aufgabenausführung“ (F(1, 130) = 7,7; p = .006) und „Frustration“ (F(1,
130) = 17,8; p < .001). In Experiment 3 wurde entsprechend der Mittelwerte ein größerer
Zeitdruck, eine höhere Frustration und eine niedrigere Zufriedenheit mit der Leistung bei der
Erfüllung der Aufgaben empfunden wurde als in Experiment 1. Tabelle 7 gibt einen Über-
100 Experiment 3: Einfluss eines erhöhten Prüfaufwandes
blick über die signifikanten Mittelwertsunterschiede. Es ergaben sich weder signifikante
Unterschiede zwischen den einzelnen Bedingungen (alle F(4, 130) > 2,3, n.s.) noch gab es
eine signifikante Interaktion (alle F(4, 130) < 2, n.s.).
Experiment 1 Experiment 3
M SD M SD
Zeitdruck 14,78 3,97 16,6 2,67
Frustration 7,77 4,83 11,18 4,82
Zufriedenheit
mit Leistung 7,56 4,87 9,77 4,33
Tabelle 7: Mittelwertsunterschiede in den Studien 1 und 3 der Items Zeitdruck, Frustration
und Zufriedenheit des NASA-TLX
9.5.2 Allgemeine Leistung
Punkte. Die einfaktorielle Varianzanalyse ergab einen signifikanten Effekt der manipulierten
Basisrate auf die Gesamtpunktzahl (aufsummiert über die erreichte Punktzahl in der Überwa-
chungs- und Bestellaufgabe), F(4,55) = 5,74, p = .001. Dabei kam es zu einem kontinuierli-
chen Absinken der erreichten Punktzahl von der Bedingung 0.1 (M = 224) bis zur Bedingung
0.7 (M = 166) und einem leichten, dennoch nicht signifikanten Anstieg der erreichten Punkt-
zahl in der Bedingung 0.9 (M = 188).
Eine Übersichtstabelle zu den Mittelwerten in den jeweiligen Bedingungen und Aufgaben
findet sich in Anhang I.
Um die Leistung in der Bestellaufgabe getrennt von der Leistung in der Überwachungsaufga-
be zu erfassen wurde eine weitere Varianzanalyse mit der gleichen unabhängigen Variable
und der abhängigen Variable „Punkte in der Bestellaufgabe“ berechnet. Die Analyse ergab
keinen signifikanten Einfluss der Bedingung auf die erreichte Punktzahl (F(4,55) = 0,14, n.s.).
Die mittlere erreichte Punktzahl in der Bestellaufgabe lag bei 85 Punkten.
Im Gegenzug ergab die Varianzanalyse einen signifikanten Effekt der PPV bzw. NPV auf die
erreichte Punktzahl in der Überwachungsaufgabe (F(4,55) = 13,1, p < .001). Im Mittel er-
reichten die Probanden in dieser Aufgabe 105 Punkte.
Sensitivität. Die einfaktorielle Varianzanalyse mit der unabhängigen Variablen der variierten
PPV und NPV zeigte keinen signifikanten Einfluss auf die kombinierte Sensitivität der
Probanden und des Alarmsystems in den einzelnen Bedingungen (F(4,55) = 1,95, n.s.). Die
Advertisement
9.5 Ergebnisse 101
mittlere Sensitivität des Gesamtsystems über alle Bedingungen überstieg mit Md’ = 4,2 wie in
Studie 1 die Sensitivität des Alarmsystems (d’ = 1,1).
9.5.3 Leistung und Verhalten in roten Trials
Anteil an korrekten Reaktionen. Die Varianzanalyse ergab einen signifikanten Effekt für
die PPV auf den Anteil an korrekten Reaktionen an allen gezeigten Reaktionen auf einen
Alarm (F(4,55) = 2,76, p = .036). Abbildung 17 zeigt, dass der Anteil an korrekten Antworten
dabei ähnlich wie in Studie 1 von der Bedingung mit der niedrigsten PPV (0.1) von M = 96%
stetig bis zu einer PPV von 0.7 auf M = 82% abfiel und dann bei der höchsten PPV (0.9) bei
M = 85% stagnierte. Eine Mittelwertstabelle mit Standardabweichungen findet sich in An-
hang I.
Prozentualer Anteil korrekter Reaktionen
in roten und grünen Trials
0
20
40
60
80
100
0.1/.98 0.3/.93 0.5/.86 0.7/.72 0.9/.41
PPV /NPV
Anteil in Prozen
t
rote Trials
grüne Trials
Abbildung 17: Anteil an korrekt bearbeiteten Containern in roten und grünen Trials
Verhaltenstendenz. Die Varianzanalyse zeigte einen signifikanten Effekt des Einflusses der
PPV auf das Prüfverhalten (F(4,55) = 7,57; p<.001). Dabei zeigte sich ab einer PPV von 0.3
ein stetiges Abfallen des anteiligen Prüfverhaltens (informed compliance; siehe Abbildung
18). Bonferroni-Fehler-korrigierte post hoc-Tests zeigten, dass sich Bedingung 0.1 nicht
signifikant von Bedingung 0.3 unterschied. Hinsichtlich des direkten Bearbeitens (complian-
ce) zeigte sich, dass im Bereich einer PPV von 0.1- 0.5 nur auf einem äußerst geringen
Niveau (zwischen 0,01 und 0,13) bearbeitet wurde, und sich dann bei einer PPV von 0.5 eine
102 Experiment 3: Einfluss eines erhöhten Prüfaufwandes
Art cut-off fand, nach dem die compliance stark anstieg (F(4,55) = 17,81, p < .001). Das
anteilige Ignorieren von Reaktionsbehältern zeigte bei einer PPV von 0.1 seinen Höhepunkt
(M = 28%), um in allen anderen Bedingungen um den Wert von 0,1 zu schwanken. Dieses
Ergebnis wurde knapp signifikant (F(4,55) = 2,59; p = .047), die durchgeführten Einzelver-
gleiche lieferten keine signifikanten Unterschiede zwischen den einzelnen Bedingungen. Das
häufigere Ignorieren, seltenere Prüfen und kaum auftretende Bearbeiten unter der niedrigsten
PPV (0.1) entspricht also dem Muster des cry wolf-Effekts, jedoch nicht in dem Ausmaß, dass
es sich signifikant von dem Verhaltensmuster unter den höheren PPV unterschied.
Analysen auf Individualniveau ergaben, dass nur 2 bzw. 4 Probanden in den Bedingungen mit
den zwei höchsten PPV (0.9 bzw. 0.7) über 90% der Alarme direkt befolgten (compliance).
Somit sind die Mittelwerte als unbeeinflusst von extremen Strategien auf individuellem
Niveau zu betrachten. Eine Tabelle zu den deskriptiven Statistiken findet sich in Anhang I.
Prozentualer Verhaltensanteil im Sinne der compliance, informed
compliance und des cry wolf-Effekts
0
20
40
60
80
100
.1 .3 .5 .7 .9
PPV
Anteil in Prozen
t
compliance
"cry wolf"
informed compliance
Abbildung 18: Verhaltensanteile in Alarmtrials
9.5.4 Leistung und Verhalten in grünen Trials
Anteil korrekt. Die Varianzanalyse ergab auch in grünen Trials einen signifikanten Effekt
der NPV auf den Anteil an korrekten Reaktionen an allen gezeigten Reaktionen (F(4,55) =
13,27, p < .001). Wie in Experiment 1 fiel der Anteil an korrekten Reaktionen mit sinkender
NPV ab (siehe Abbildung 17). Hierbei entsprach die höchste Trefferquote in der Bedingung
mit der höchsten NPV (0.98) von M = 99% der in Experiment 1, jedoch fiel das fast lineare
Advertisement
9.5 Ergebnisse 103
Sinken dieser Trefferquote weiter ab als in Experiment 1, nämlich bis auf M = 74% in der
Bedingung mit der niedrigsten NPV (0.41). Alle Mittelwerte und Standardabweichungen
werden in Anhang I aufgeführt.
Verhaltenstendenz. Die Varianzanalyse zeigte einen signifikanten Effekt der NPV auf das
vollständige Prüfen in grünen Trials (F(4,55) = 4,14; p = .005). Der Prüfverlauf stieg fast
stetig an, wobei es zu einem Anstieg von fast 20% kam, wenn die NPV lediglich um 0.05 von
0.98 auf 0.93 sank (siehe Abbildung 19). Statistische Signifikanz in Bonferroni-korrigierten
post hoc-Tests erreichte allerdings nur der Unterschied zwischen Bedingung 0.41 und 0.98 (p
= 0.003). Auch das Ignorieren wurde signifikant von der NPV beeinflusst (F(4,55) = 9,12; p <
.001), zeigte äquivalent zum Prüfverhalten einen (wenn auch nicht statistisch signifikanten)
starken Abfall von der Bedingung 0.98 zur Bedingung 0.93, um dort bis zur nächsten NPV
von 0.86 nahezu unverändert zu bleiben und dann stark abzufallen. Dabei unterschied sich
Bedingung 0.41 außer von Bedingung 0.72 signifikant von allen anderen Bedingungen (alle p
< 0.01). Das direkte Bearbeiten von Containern in grünen Trials blieb auf einem durchweg
niedrigen Niveau und stieg lediglich in den Bedingungen mit einer NPV von 0.41 auf 20% an,
wobei die Änderungen in den verschiedenen Bedingungen knapp die Signifikanzgrenze
erreichten (F(4,55) = 2,57; p = .048).
Prozentualer Verhaltensanteil im Sinne der reliance,
informed reliance und no reliance
0
20
40
60
80
100
.98 .93 .86 .72 .41
NPV
Anteil in Prozen
t
reliance
no reliance
informed reliance
Abbildung 19: Verhaltensanteile in alarm-freien Trials
Die Analyse von extremen Antwortstrategien einzelner Probanden ergab, dass nur 2 Personen
mehr als 90% der Container in grünen Trials bei einer NPV von 0.41 direkt bearbeiteten (non-
104 Experiment 3: Einfluss eines erhöhten Prüfaufwandes
reliance). Für das Ignorieren von Containern, also das Befolgen vom Hinweis des Alarmsys-
tems (reliance) fanden sich 10 Personen in der Bedingung 0.98, 8 Personen in der Bedingung
0.93, 6 Personen in der Bedingung 0.86, 2 Personen in der Bedingung 0.72 und keine Person
in der Bedingung 0.41. Aufgrund des geringen Anteils von Personen, die eine Extrem-
Strategie im Umgang mit den Alarmen wählten (max. 16%) und der Tatsache, dass das
Ignorieren von Containern unter hohen NPV ein rationales Antwortverhalten darstellt, kann
eine Verzerrung der Mittelwerte durch extreme Antwortstrategien ausgeschlossen werden.
Anhang I enthält alle Mittelwerte und Standardabweichungen.
9.5.5 Subjektive Beanspruchung
Die a posteriori-Wahrscheinlichkeit hatte keinen Einfluss auf die Beantwortung der Skalen
des NASA-TLX. Die Probanden in den fünf unterschiedlichen Bedingungen unterschieden
sich nicht signifikant in ihrer empfundenen „geistigen Anstrengung“ (F(4, 55) = 2,4, n.s.),
„körperlichen Anstrengung“ (F(4, 55) = 0,5, n.s.), „Zeit“ (F(4, 55) = 1,7, n.s.) „Ausführung“
(F(4, 55) = 0,6, n.s.), „Anstrengung“ (F(4, 55) = 0,6, n.s.), und „Frust“ (F(4, 55) = 1, n.s.).
9.6 Diskussion
In Studie 3 wurde der Effekt eines höheren Prüfaufwands auf das Prüfverhalten untersucht.
Dabei wurde in Anlehnung an die Ergebnisse von Bliss & Dunn (2000) erwartet, dass der cry
wolf-Effekt in der Bedingung mit der niedrigsten PPV auftaucht und sich das Prüfverhalten
einem umgekehrt u-förmigen Verlauf anpasst.
Der Manipulations-Check zeigte, dass die Probanden die Variation in der PPV und der NPV
durch die Interaktion mit dem System wahrgenommen hatten und die Schätzungen die Werte
gut widerspiegelten. Dabei zeigte sich, wie auch schon in der Ausgangsstudie und Studie 1,
dass extrem hohe Werte unter- und extrem niedrige Werte überschätzt wurden. Ein Effekt
dieser Schätzung auf das Verhalten ist fraglich, da den Probanden auch in Studie 3 die tat-
sächliche Verteilung der Reaktionstypen vor Beginn des Experimental-Blocks vorgelegt
wurde.
Im Gegensatz zu Studie 1 konnte kein signifikanter Einfluss der PPV bzw. NPV auf die
Sensitivität des Mensch-Maschine-Systems gefunden werden. Die mittlere Sensitivität lag
Advertisement
9.6 Diskussion 105
dabei mit Md’ = 4.2 leicht unter der in Experiment 1 (Md’ = 5.5). Das Ausbleiben eines signi-
fikanten Unterschiedes lässt sich durch die allgemein niedrigere Prüfrate in Studie 3 erklären,
die sowohl in grünen als auch in roten Trials ein Abflachen des Verlaufs und somit eine
Verringerung der Unterschiede zwischen den Bedingungen bewirkte.
Wie in Studie 1 hatte die Variation der PPV bzw. NPV keinen Einfluss auf die erreichte
Punktzahl in der Bestellaufgabe, wie es bei einer effizienten Ressourcenaufteilung zwischen
den zwei Aufgaben erwartet worden wäre. Dieses Ergebnis lässt sich vor allem durch die,
wenn auch gesunkene, immer noch hohe Gesamt-Prüfrate in roten und grünen Trials erklären.
Der cry wolf-Effekt hätte in der Bedingung mit der niedrigsten PPV (0.1) dazu geführt, dass
die durch das Ignorieren der Überwachungsaufgabe frei gewordenen Ressourcen in die
Bestellaufgabe hätten investiert werden können. Bei einer PPV von 0.9 wurde zwar weniger
häufig geprüft als in den anderen Bedingungen, allerdings wurde in der zugehörigen NPV von
0.41 auf einem hohen Niveau geprüft, so dass sich der Prüfanteil im Mittel wieder an den in
den anderen Bedingungen anglich. In Studie 3 wurden in der Überwachungsaufgabe deutlich
weniger Punkte erzielt (M = 105) als in Studie 1 (M = 225). Dieses Ergebnis legt nahe, dass in
Studie 3 aufgrund des erhöhten zeitlichen Aufwandes der Prüfprozedur weniger Container
bearbeitet wurden als in Studie 1.
In der Überwachungsaufgabe wiederum konnte ein signifikanter Einfluss der a posteriori-
Wahrscheinlichkeit auf die erreichte Punktzahl festgestellt werden, die mit steigender PPV
absank. Um das signifikante Absinken der erreichten Punktzahl in der Überwachungsaufgabe
aufgeschlüsselt in rote und grüne Trials zu analysieren, wird im Folgenden der Anteil an
korrekten Reaktionen in Alarmtrials diskutiert.
In Alarmtrials wurde der Anteil an korrekten Reaktionen mit steigender PPV kleiner. Dieses
Muster entspricht dem von Studie 1 und kann auch hier damit erklärt werden, dass das Prüfen
der Rohdaten in den Bedingungen 0.1 – 0.7 dominierte und mit steigender PPV absank. Im
Unterschied zu den Ergebnissen aus Studie 1 fand der Anteil an korrekten Reaktionen aller-
dings bereits in der Bedingung 0.7 seinen Tiefpunkt, um dann nahezu zu stagnieren. Betrach-
tet man das dominante Verhalten in den Bedingungen 0.7 und 0.9 wird deutlich, dass die
compliance bereits in der Bedingung 0.7 stark anstieg und nur knapp unter der informed
compliance lag. Der erhöhte Prüfaufwand in Studie 3 führte im Vergleich zu Studie 1 also zu
Änderungen im Verhaltensmuster in Bedingung 0.7, in der die informed compliance in Studie
1 noch klar dominierte. In Bedingung 0.9 war dann wieder klar die compliance das am häu-
106 Experiment 3: Einfluss eines erhöhten Prüfaufwandes
figsten gezeigte Verhalten. Das leicht modifizierte Reaktionsmuster beeinflusste also auch in
Studie 3 die Leistungsparameter in Alarmtrials und soll im Folgenden näher betrachtet wer-
den.
Selbst unter der Voraussetzung eines erhöhten Prüfaufwandes passten die Probanden ihr
Antwortverhalten auf Alarme keiner Ressourcen sparenden Strategie wie dem cry wolf-Effekt
im unteren Bereich der PPV an, sondern überprüften die Validität der Aussagen des Alarm-
systems weiterhin auf einem unerwartet hohen Niveau. Der Punkt, an dem am häufigsten
geprüft wurde, fand sich dabei bei einer PPV von 0.3 statt wie erwartet bei einer PPV von 0.5.
Auch wenn das Prüfverhalten ab einer PPV von 0.3 auf beiden Seiten stetig abfiel, entspricht
das gefundene Muster somit nicht exakt dem in Hypothese H 1.1 erwarteten umgekehrt u-
förmigen Verlauf, zeigt aber doch zumindest eine Tendenz in diese Richtung. So zeigt die
Bedingung mit der niedrigsten Zuverlässigkeit (PPV = 0.1) ein Absinken der Prüfrate im
Vergleich zur Bedingung 0.3. Dieser leichte, nicht signifikante Einbruch des Prüfverhaltens
bei einer PPV von 0.1 mag zwar auf den cry wolf-Effekt hinweisen, allerdings dominierte in
dieser Bedingung der Anteil geprüfter Container den Anteil an ignorierten Containern, so dass
nur von einer leichten Tendenz gesprochen werden kann. Die Hypothese H 1.3 (der cry wolf-
Effekt tritt in der Bedingung mit der niedrigsten PPV auf) muss folglich verworfen werden.
Auch wenn Hypothese H 1.1 (das Prüfverhalten nähert sich unter erhöhtem Prüfaufwand
einem umgekehrt u-förmigen Verlauf an) nicht bestätigt werden kann, fand sich im oberen
Bereich der PPV eine deutlichere Annäherung des Prüfverhaltens an den umgekehrt u-
förmigen Verlauf des Prüfverhaltens als im unteren Bereich. Während das Prüfverhalten in
Studie 1 bis zu einer PPV von 0.7 auf einem ähnlich hohen Niveau blieb, um dann nach dem
cut-off bei 0.75 (siehe Studie 2) stark abzufallen, fand sich in Studie 3 ein fast lineares
Abfallen des Prüfverhaltens ab einer PPV von 0.5 und ein starker Anstieg der compliance von
der Bedingung 0.5 auf die Bedingung 0.7. Entsprechend bestätigte die Dominanz der compli-
ance in der Bedingung 0.9 erneut die Hypothese H 1.2. Dieser Vergleich zeigt, dass sich der
Punkt der PPV, ab dem die compliance an Bedeutung gewinnt, nach unten verschiebt, wenn
der Prüfaufwand eine strenge Verteilungspolitik zeitlicher Ressourcen einfordert. Im Bereich
unterhalb einer PPV von 0.5 hingegen ergibt sich ein gegensätzliches Bild: während die
informed compliance bis zu einer PPV von 0.3 erstmal zunimmt, bewirkte erst eine deutlich
geringe PPV von 0.1 eine Abnahme in der Prüfrate und eine Zunahme des Anteils an ignorier-
ten Containern. Im unteren Bereich der PPV (0.3) wird eine quantitativ gleiche Rest-
Unsicherheit also weniger toleriert als im oberen Bereich der PPV (0.7).
Advertisement
9.6 Diskussion 107
Die Ergebnisse von Studie 3 replizieren das Muster der dominierenden Verhaltensweisen aus
Studie 1, auch wenn sie erste, nicht-signifikante Tendenzen zu einer Anpassung des Prüfver-
haltens an einen umgekehrt u-förmigen Verlauf in oberen und sehr niedrigen Bereichen der
PPV offenbaren. Zusammenfassend kann für rote Trials festgehalten werden, dass der hoch
verantwortungsvolle Umgang mit Alarmen aus Studie 1 kein experimentelles Artefakt ist,
welches durch eine zu einfache Prüf-Prozedur entstand, die zu wenig Zeit und Ressourcen in
Anspruch nahm, sondern ein bewusstes und intendiertes Verhalten. Diese Annahme wird
noch gestützt durch den Befund, dass die Möglichkeit, die Unsicherheit hinsichtlich der
Validität der Hinweise des Alarmsystems zu reduzieren immer zu 100% genutzt wurde, das
heißt, dass jeder Prüfprozess komplett durchgeführt wurde und es zu keiner Strategie kam, bei
der nur ein Parameter überprüft und die Unsicherheit so nur zu 50% reduziert wurde, um Zeit
zu sparen. Die Priorität der Probanden lag also explizit auf Genauigkeit, die dem Geschwin-
digkeits-Aspekt vorangestellt wurde.
In alarm-freien Trials kam es zu einem kontinuierlichen Absinken des Anteils an korrekten
Reaktionen mit der reliance. Hypothese H 2.2 (die reliance ist bei einer NPV von 0.98 am
höchsten) konnte somit bestätigt werden. Generell kann festgehalten werden, dass sich der
Verlauf der reliance in Studie 3 der tatsächlichen NPV annäherte und somit eine Tendenz zum
probability matching aufzeigte (Bliss, Gilson & Deaton, 1995). Dabei kam es bei einer NPV
von 0.93 wie in Studie 1 zu einer Art „Über-Anpassung“, indem die reliance unverhältnismä-
ßig stark absank und die informed reliance entsprechend anstieg. Als Ursache für den starken
Verhaltenseffekt dieser äußerst geringen Variation der NPV wird wie in Studie 1 angenom-
men, dass der einzige miss in Bedingung 0.98 nicht wahrgenommen bzw. bewusst als ver-
nachlässigbar eingestuft wurde. Die vier misses in Bedingung 0.93 schienen hingegen bereits
so relevant, dass sie das Verhalten in Richtung eines erhöhten Prüfanteils beeinflussten. Die
Anpassung der reliance an die NPV verdient besondere Beachtung, da diese nicht wie die
PPV in äquidistanten Stufen variierte, sondern feinste Änderungen in den oberen NPV sowie
stärkere Abfälle mit sinkender NPV implizierte, welche im Verhalten erstaunlich gut wider-
gespiegelt wurden. Das Prüfverhalten stieg mit sinkender NPV an und zeigte bei der NPV von
0.41 erwartungskonform ihren Höhepunkt, so dass Hypothese H 2.1 bestätigt werden kann.
Im unteren Bereich der NPV stieg die non-reliance in den Bedingung 0.72 und 0.41 unerwar-
tet auf 19% an. Hypothese H 2.3 (die non-reliance befindet sich über alle Bedingungen
hinweg auf einem äußerst niedrigen Niveau) kann demnach nicht bestätigt werden.
108 Experiment 3: Einfluss eines erhöhten Prüfaufwandes
Vergleicht man die Reaktionsmuster aus Studie 3 mit denen aus Studie 1 fällt auf, dass sich in
den oberen Bereichen der PPV und der NPV in beiden Studien jeweils ein ähnliches Bild
ergibt. Der erhöhte Prüfaufwand in Studie 3 bewirkte jedoch zusätzlich eine Änderung des
Verhaltens auch in den unteren Bereichen der PPV und der NPV, das vom Verhaltensmuster
in Studie 1 abwich. So sank der Anteil an geprüften Containern in Alarmtrials bei einer PPV
von 0.1 leicht ab und der Anteil an ignorierten Containern stieg entsprechend an. Auch in
grünen Trials zeigte sich in den unteren Bereichen der NPV insofern ein Effekt, als sich der
Punkt, ab dem die reliance dominierte, von einer NPV ab 0.86 auf eine NPV ab 0.72 senkte.
In der Bedingung mit der niedrigsten NPV wurden außerdem immerhin 19% aller Container
im Sinne der non-reliance bearbeitet. Erhöhte Kosten des Prüfprozesses scheinen also zu einer
Anpassung des Verhaltens in Form einer effizienteren, ressourcen-sparenden Strategie, auch
in unteren Bereichen der PPV und der NPV, zu führen. Dabei wurde die Tendenz der Proban-
den sichtbar, ihr Verhalten in grünen Trials an eine probability matching-Strategie anzupassen
und in Alarmtrials an einen umgekehrt u-förmigen Verlauf. Dabei gelang die Anpassung des
Verhaltens in alarm-freien Trials besser als in Alarmtrials, in denen unverändert von Studie 1
die informed compliance in den Bedingungen 0.1 – 0.7 das am häufigsten gezeigte Verhalten
war und die compliance erst bei einer PPV von 0.9 dominierte.
Zusammenfassend unterstützt der Vergleich der Anpassungsgüte des Verhaltens in grünen
Trials an eine probability matching-Strategie und der immer noch überhöhten Prüfrate in
roten Trials erneut die Unabhängigkeit der Konzepte der reliance und compliance (Meyer,
2004). Eine Erklärung für die sensiblere Anpassung des Verhaltens an die NPV könnte sein,
dass unter erhöhtem Prüfaufwand Ressourcen primär von alarm-freien Trials abgezogen
werden, um das Verhalten an eine möglichst zeit-effiziente Strategie angepasst werden muss.
In Alarmtrials würde ein ignorierter wahrer Alarm zu einem allein durch die Reaktion des
Probanden verursachten miss führen. In grünen Trials hingegen ist es subjektiv einfacher, die
Verantwortung für einen verursachten miss dem Alarmsystem zuzuweisen, wenn dieses auf
der ersten Entscheidungsstufe des Modells von Allendoerfer, Pai & Friedman-Berg (2008)
durch einen grünen Hinweis einen fehler-freien Zustand signalisiert. Selbst bei einem gerin-
gen Level der NPV von 0.41 kam es in diesem Zusammenhang nicht zu einem Überprüfen
des Hinweises, sondern zu einem Anstieg der reliance. Diese Verhaltensweise des direkten
Bearbeitens vermied also die zeitaufwendige Prüfprozedur, die bei vergleichbar hohen PPV
(0.3 und 0.5) gezeigt wurde.
Advertisement
9.6 Diskussion 109
PPV und NPV scheinen also verhaltenswirksame Faktoren zu sein, die spezifische Effekte auf
die compliance und die reliance haben. Dieser Befund stützt und erweitert die Erkenntnisse
von Getty et al. (1995), die den lediglich Einfluss der PPV auf das Verhalten beobachteten.
Insbesondere scheinen hohe a posteriori-Wahrscheinlichkeiten einen differenzierteren Ein-
fluss zu haben als niedrige, da sich die Prüfrate bei Vorhersagewerten über 0.7 sowohl in
grünen als auch in roten Trials an die a posteriori-Wahrscheinlichkeit anpasst. Demgegenüber
weisen überhöhte Prüfraten bei niedrigen Vorhersagewerten auf das Bedürfnis hin, Unsicher-
heit bezüglich der Validität des Hinweises zu reduzieren. Ein erhöhter Prüfaufwand scheint
dabei die Anpassung der informed compliance an einen umgekehrt u-förmigen Verlauf des
Prüfverhaltens und eine Anpassung der informed reliance an eine probability matching-
Strategie zu unterstützen.
Da der Prüfaufwand nicht dem Sinne einer workload-Erhöhung, sondern eher der Erhöhung
des zeitlichen Aufwands entspricht, wurde Studie 4 in Anlehnung an die Studie von Bliss &
Dunn (2000) durchgeführt. Bliss & Dunn (2000) manipulierten nicht nur den workload
innerhalb der Überwachungsaufgabe, sondern erhöhten ihn in einer anderen Bedingung auch
durch die Erweiterung der MAT-Battery um eine Nebenaufgabe. In Studie 4 wird untersucht,
ob sich diese Tendenz durch Erhöhung der mentalen Beanspruchung durch die Erweiterung
des Paradigmas um eine dritte Aufgabe noch verstärken lässt.
110 Experiment 4: Einfluss eines erhöhten workloads
10 Experiment 4: Einfluss eines erhöhten workloads
Die Kontrastierung der Ergebnisse der Ausgangsstudie und der Studien 1 und 3 konnte
zeigen, dass die Einführung einer Prüfoption den cry wolf-Effekt eliminierte, der ohne die
Möglichkeit, die Rohdaten zu überprüfen bei niedrigen PPV gefunden wurde. In Studie 3
wurde der Prüfaufwand erhöht, in dem der Prüfprozess innerhalb der Überwachungsaufgabe
zeitaufwendiger gestaltet wurde. Diese Manipulation bewirkte zwar eine längere Bearbeitung
der Überwachungsaufgabe, jedoch keine Erhöhung des workloads, da die erforderlichen
Ressourcen für den Prüfprozess sukzessive eingesetzt wurden. In Studie 4 wurde die Erhö-
hung der subjektiven mentalen Beanspruchung über die Erweiterung des Doppelaufgaben-
Paradigmas auf ein Dreifachaufgaben-Paradigma operationalisiert und deren Effekte auf das
Verhalten, insbesondere auf das Auftauchen des cry wolf-Effekts, analysiert.
Die Datenerhebung zu Studie 4 erfolgte an der Technischen Universität Berlin im Rahmen
einer von der Autorin dieser Arbeit betreuten Masterarbeit (Schmuntzsch, 2010). Ein Teil der
erhobenen Daten wurde demnach bereits für die Masterarbeit herangezogen, die hier berichte-
ten Fragestellungen umfassen in Teilen jene der Masterarbeit, gehen jedoch deutlich über
diese hinaus.
10.1 Forschungsfrage und Hypothesen
Nachdem die Ergebnisse von Studie 1 eine irrational hohe Prüfrate gezeigt haben, die trotz
erhöhten, kostspieligeren Prüfaufwands in Studie 3 bestehen blieb, stellt sich nun die Frage,
wie sich eine Erhöhung des workloads auf dieses „over-checking“ und das Auftauchen des
cry wolf-Effekts auswirkt. Bliss & Dunn (2000) variierten in ihrer Untersuchung den worklo-
ad in der Untersuchungsumgebung MAT-Battery, indem sie zur Überwachungsaufgabe erst
eine und schließlich eine zweite Nebenaufgabe einführten (siehe Kapitel 2.5.2). Die Ergebnis-
se ergaben, dass der Anteil an ignorierten Alarmen mit der Anzahl der Nebenaufgaben, und
damit mit der Höhe des workloads, stieg. Die Tendenz zum cry wolf-Effekt wird auch in
anderen Studien bestätigt, so fanden beispielsweise Dixon & Wickens (2006) in einem Mehr-
fachaufgaben-Paradigma unter erhöhtem workload in einer Nebenaufgaben verlangsamte bis
ausbleibende Reaktionen auf einen Alarm. Bliss (2003a) fand bei der Analyse der Daten
Advertisement
10.2 Die Experimentalumgebung M-TOPS 2 111
unterschiedlicher Flugunfälle einen hohen Anteil an falschen Alarmen in Cockpits und eine
entsprechend hohe Neigung von Piloten unter hoher Arbeitsbelastung, diese zu ignorieren.
In dieser Studie wird der workload durch Hinzunahme einer zweiten Nebenaufgabe (neben
der eigentlichen Überwachungsaufgabe) erhöht, so dass das Doppelaufgaben-Paradigma zu
einem Mehrfachaufgaben-Paradigma ausgeweitet wird. In Anlehnung an die Hypothese aus
Studie 1 und an die Studie von Bliss & Dunn (2000), die zeigt, dass die Reaktionsbereitschaft
auf einen hohen Anteil falscher Alarme unter hohem workload durch Nebenaufgaben dras-
tisch abnimmt, ergeben sich für Studie 4 die gleichen Hypothesen wie für Studie 1 und 3.
Hypothesenblock 1: rote Trials
H 1.1: die informed compliance ist am höchsten bei PPV im mittleren Bereich und am nied-
rigsten bei hohen und niedrigen PPV (und folgt somit einem umgekehrt u-förmigen
Verlauf)
H 1.2: die compliance ist am höchsten bei der höchsten PPV (0.9)
H 1.3: der cry wolf-Effekt tritt bei der niedrigsten PPV (0.1) auf
Hypothesenblock 2: grüne Trials
H 2.1: die reliance passt sich im Sinne eines probability matchings an die NPV an
H 2.2: die informed reliance entwickelt sich gegenläufig zur reliance bzw. zur NPV
H 2.3: die non-reliance befindet sich über alle Bedingungen hinweg auf einem äußerst niedri-
gen Niveau
Aus diesen beiden Hypothesenblöcken ergeben sich im untersuchten Basisraten-Bereich
unterschiedliche erwartete Verläufe der reliance und compliance.
10.2 Die Experimentalumgebung M-TOPS 2
In Studie 4 wurde eine erweiterte Form der Simulation verwendet, die in Studien 1 und 2
verwendet wurde. Die Bestellaufgabe und die Überwachungsaufgabe blieben hierbei unver-
ändert, jedoch wurde eine dritte Aufgabe (eine Tankfüllaufgabe) hinzugefügt, die parallel zu
den beiden anderen Aufgaben bearbeitet werden musste. Diese Tankaufgabe befand sich im
rechten oberen Viertel der Simulation. Die Tankfüllaufgabe wurde den Probanden in der
112 Experiment 4: Einfluss eines erhöhten workloads
Instruktion nach den detaillierten Erklärungen zur Bestellaufgabe erläutert und wurde im
Anschluss 120 Sekunden lang geübt. Die Probanden wurden instruiert, das Wasser in zwei
Kühlwassertanks regelmäßig auszutauschen, um eine zu starke Überhitzung und somit eine
Gefährdung der Produktionssicherheit zu verhindern. In zwei Tanks befindet sich Wasser,
welches durch eine Grünfärbung signalisiert, ausgewechselt werden zu müssen. Über und
unter den Tanks befinden sich jeweils ein Zu- und ein Ablaufventil, wobei jeweils immer nur
ein Zu- und ein Ablaufventil gleichzeitig geöffnet werden darf. Um also einen kompletten
Wasserwechsel in beiden Tanks so schnell wie möglich zu gewährleisten, wird erst Wasser
aus einem Tank abgelassen, dann dieser gefüllt und der andere Tank gleichzeitig entleert. Ist
ein Tank mit frischem Wasser gefüllt, färbt sich dessen Inhalt blau. Ein kompletter Befüllzyk-
lus dauert 40 Sekunden.
Payoff-Struktur. Die Punktevergabe für die Bestell- und die Überwachungsaufgabe blieb
unverändert. Die Tankfüllaufgabe sollte eine weitere Nebenaufgabe neben der Überwa-
chungsaufgabe darstellen und genau wie die Bestellaufgabe gleichwertig mit den anderen
Aufgaben behandelt werden. Da die vorhergehenden Studien zeigten, dass es in einem Expe-
rimentaldurchgang von 800 Sekunden möglich ist, ungefähr 100 Bestellaufgaben zu lösen, in
diesen 800 Sekunden jedoch nur 20 komplette Füllzyklen zu bewältigen sind (40 Sekunden
mal 20), wurde die Tankfüllaufgabe mit 7,5 Punkten pro Befüllzyklus (5 mal 1,5 Punkte)
vergütet.
10.3 Methode
10.3.1 Stichprobe
Insgesamt nahmen 60 Probanden an der Untersuchung teil. Die Stichprobe bestand aus 35
Frauen und 25 Männern. Das Durchschnittsalter betrug 25,97 Jahre (SD = 4,32) mit einem
Range von 20 - 43 Jahren.
10.3.2 Versuchsplan
Der Versuchsplan entsprach dem Design von Studie 2 und 3 (einfaktorielles, fünffach gestuf-
tes Design).
Advertisement
10.4 Abhängige Variablen 113
10.3.3 Ablauf
Der Ablauf der Studie entsprach weitestgehend dem der vorangegangenen Studien. Ganz am
Ende des Experiments wurde zusätzlich nach der Beliebtheit der drei Aufgaben gefragt.
10.4 Abhängige Variablen
In Studie 4 wurden die gleichen abhängigen Variablen erfasst wie in Studie 3.
10.5 Ergebnisse
10.5.1 Manipulations-Check
Geschätzte PPV und NPV. Die Varianzanalyse ergab einen signifikanten Einfluss der
manipulierten Bedingungen auf die Einschätzung der PPV (F(4,55) = 26,93, p < .001). Tabel-
le 8 gibt eine Übersicht über die geschätzten Mittelwerte und Standardabweichungen. Alpha-
Fehler-korrigierte Einzelvergleiche zeigten, dass sich einzig die Schätzungen der Bedingun-
gen 0.3 und 0.5, 0.5 und 0.7 sowie 0.7 und 0.9 nicht signifikant voneinander unterschieden.
Alle anderen Bedingungen unterschieden sich signifikant voneinander (alle p .01).
Auch die Variation der NPV beeinflusste deren Schätzung signifikant (F(4,55) = 12,8, p <
.001; siehe Tabelle 8). Die durchgeführten Einzelvergleiche zeigten signifikante Unterschiede
für die Bedingungen 0.41 und 0.93 (p = .006), 0.41 und 0.98 (p < .001), 0.72 und 0.98 (p <
.001), 0.86 und 0.93 (p = .041) sowie .86 und .98 (p < .001). Auffällig an diesem Befund ist,
dass im oberen Bereich der NPV (0.86, 0.93 und 0.98), in dem sich die NPV nur subtil ändert,
weitaus größere Unterschiede wahrgenommen werden als bei den niedrigeren NPV, die sich
zunehmend deutlicher voneinander unterscheiden. Diese (0.41, 0.72 und 0.86) wurden subjek-
tiv als fast gleichwertig wahrgenommen. Dieses Muster repliziert die Befunde des Schätzfra-
gebogens in Studie 1.
114 Experiment 4: Einfluss eines erhöhten workloads
tatsächliche PPV geschätzte PPV tatsächliche NPV geschätzte NPV
.1 M = 0.23
SD = 0.19 .98 M = 0.93
SD = 0.09
.3 M = 0.42
SD = 0.18 .93 M = 0.79
SD = 0.12
.5 M = 0.59
SD = 0.11 .86 M = 0.62
SD = 0.12
.7 M = 0.68
SD = 0.04 .72 M = 0.64
SD = 0.11
.9 M = 0.79
SD = 0.02 .41 M = 0.59
SD = 0.15
Tabelle 8: Mittelwerte und Standardabweichungen der geschätzten PPV und NPV
Subjektive Beanspruchung. Um zu kontrollieren, ob die Erweiterung des Paradigmas um
eine dritte Aufgabe in Studie 4 im Vergleich zu Studie 1 eine Steigerung der subjektiven
Beanspruchung bewirkt, wurde eine zweifaktorielle, multivariate Varianzanalyse mit den
unabhängigen Variablen PPV bzw. NPV und Experiment (1und 4) und den Items des NASA-
TLX als abhängige Variablen berechnet. Tabelle 9 gibt einen Überblick über die Mittelwerte
und Standardabweichungen in den beiden Studien. Die Analyse ergab einen signifikanten
Haupteffekt des Faktors Experiment auf die Items „Zeitliche Anforderung“ (F(1, 130) = 4,6; p
= .033), „Aufgabenausführung“ (F(1, 130) = 11,2; p = .001) und „Frustration“ (F(1, 130) =
9,3; p < .003). Tabelle 8 gibt einen Überblick über die signifikanten Mittelwertsunterschiede.
Die Manipulation der PPV bzw. NPV beeinflusste lediglich die Bewertung der „Körperlichen
Anforderungen“ signifikant (F(4, 130) = 2,6, p = .038; alle anderen F < 1,9, n.s.). Es ergab
sich keine signifikante Interaktion aus Bedingung und Experiment (alle F(4, 130) < 1,2, n.s.).
Experiment 1 Experiment 4
M SD M SD
Zeitdruck 14,78 3,97 16,1 3,15
Frustration 7,77 4,83 10,32 5,17
Zufriedenheit
mit Leistung 7,56 4,87 10,13 4,02
Tabelle 9: Mittelwertsunterschiede zwischen den Studien 1 und 4 der Items Zeitdruck,
Frustration und Zufriedenheit des NASA-TLX
10.5.2 Allgemeine Leistung
Punkte. Die einfaktorielle Varianzanalyse ergab einen signifikanten Effekt der manipulierten
Basisrate auf die Gesamtpunktzahl (aufsummiert über die erreichte Punktzahl in der Überwa-
Advertisement
10.5 Ergebnisse 115
chungs- Tankfüll- und Bestellaufgabe), F(4,55) = 5,04 p = .002. Die höchste Punktzahl wurde
dabei in der Bedingung 0.1 (M = 316) erreicht.
Um die Leistungen in den einzelnen Aufgaben isoliert voneinander zu erfassen wurden
weitere Varianzanalysen mit den jeweils abhängigen Variablen „Punkte in der Bestellaufga-
be“, „Punkte in der Überwachungsaufgabe“ und „Punkte in der Tankfüllaufgabe“ berechnet.
Die Varianzanalyse zeigte einen signifikanten Einfluss der Bedingung auf die erreichte
Punktzahl in der Überwachungsaufgabe (F(4,55) = 12,68, p < .001). Für die erreichte Punkt-
zahl in der Bestellaufgabe und der Tankfüllaufgabe ergaben die Analysen keine signifikanten
Effekte (F(4,55) = 1,65, n.s. und F(4,55) = 0,89, n.s).
Im Mittel erreichten die Probanden über die Bedingungen hinweg in der Bestellaufgabe 75
Punkte, in der Überwachungsaufgabe 102 Punkte und in der Tankfüllaufgabe 88 Punkte. Eine
Übersichtstabelle zu den Mittelwerten in den einzelnen Bedingungen befindet sich in Anhang
J.
Sensitivität. Die einfaktorielle Varianzanalyse zeigte keinen signifikanten Einfluss der
variierenden PPV und NPV auf die Sensitivität des Gesamtsystems (F(4,55) = 2,2; n.s.). Die
mittlere Sensitivität des Mensch-Maschine-Systems überstieg mit Md’ = 4 die des Alarmsys-
tems von d’ = 1.1.
10.5.3 Leistung und Verhalten in roten Trials
Anteil korrekter Trials. Die Varianzanalyse ergab einen signifikanten Effekt der PPV auf
den Anteil an korrekten Reaktionen auf alle Reaktionscontainer (F (4,55) = 6,93; p < .001).
Abbildung 20 zeigt, dass die Treffer-Rate wie schon in Studien 1 und 3 mit steigender
Zuverlässigkeit der Alarme fast linear von M = 94% bei einer PPV von 0.1 bis auf M = 70%
bei einer PPV von 0.7 sank und bei der höchsten PPV-Stufe (0.9) wieder leicht anstieg auf
80% (siehe Anhang J).
Verhaltenstendenz. Die Ergebnisse der Varianzanalysen ergaben signifikante Effekte der
PPV auf alle drei Verhaltensweisen Bearbeiten (F(4,55) = 13.06; p < .001), Prüfen (F(4,55) =
5.68; p = 0.001) und Ignorieren (F(4,55) = 6.95; p < .001). Abbildung 21 gibt eine Übersicht
über den Verlauf dieser drei Reaktionsmöglichkeiten. Dabei blieb das anteilige Prüfverhalten
in den Bedingungen mit PPV von 0.1, 0.3 und 0.5 auf einem durchweg mittleren bzw. hohen
Niveau, um bei einer PPV von 0.7 stark abzusinken.
116 Experiment 4: Einfluss eines erhöhten workloads
Prozentualer Anteil korrekter Reaktionen
in roten und grünen Trials
0
20
40
60
80
100
0.1/.98 0.3/.93 0.5/.86 0.7/.72 0.9/.41
PPV /NPV
Anteil in Prozen
t
rote Trials
grüne Trials
Abbildung 20: Anteil an korrekt bearbeiteten Containern in roten und grünen Trials
Auch wenn die Signifikanz in den alpha-Fehler-korrigierten post hoc-Einzelvergleichen
verfehlt wurde, zeigt die graphische Veranschaulichung doch deutlich, dass bei einer PPV von
0.1 deutlich weniger häufig geprüft wurde (45%) als bei einer PPV von 0.3 (75%). Das
anteilige Ignorieren der Alarme zeigt insofern einen auffälligen Verlauf, dass es in der 0.1
Bedingung signifikant häufiger gezeigt wurde (55%) als in den anderen vier Bedingungen (im
Mittel 20%), die sich untereinander nicht signifikant voneinander unterschieden. Im Gegen-
zug stieg das direkte Bearbeiten von Alarmen fast exponentiell von 0% bei einer PPV von 0.1
auf 56% und 55% in den Bedingungen 0.7 und 0.9 an. In Bedingung 0.1 ist somit das domi-
nante Verhalten mit 55% das Ignorieren von Alarmen (cry wolf-Effekt), in Bedingung 0.3
und 0.5 wird am häufigsten geprüft (75% und 52%, informed compliance) bis das direkte
Bearbeiten (compliance) in den Bedingungen 0.7 und 0.9 überwiegt (56% und 55%). Eine
Mittelwertstabelle mit Standardabweichungen befindet sich in Anhang J.
Advertisement
10.5 Ergebnisse 117
Prozentualer Verhaltensanteil im Sinne der compliance,
informed compliance und des cry wolf-Effekts
0
20
40
60
80
100
.1 .3 .5 .7 .9
PPV
Anteil in Prozen
t
compliance
"cry wolf"
informed compliance
Abbildung 21: Verhaltensanteile in Alarmtrials
Die Suche nach extremen Reaktionen auf Individualebene zeigten, dass 3 von den 60 Proban-
den in der Bedingung mit der niedrigsten PPV (= 0.1) mehr als 90% der Alarme ignorierten
(cry wolf-Effekt). Im Gegenzug dazu befolgten 2 Personen in der Bedingung 0.7 und 1 Person
in der Bedingung 0.9 den Alarm direkt (compliance). Der durchweg geringe Anteil gibt also
keine Verzerrung der Mittelwerte der Verhaltensanteile durch extreme responding-Strategien.
10.5.4 Leistung und Verhalten in grünen Trials
Anteil korrekter Trials. In grünen Trials stieg der Anteil an korrekten Reaktionen mit
steigender NPV signifikant an (F (4,55) = 11.96; p < .001), von einem korrekten Anteil von
98% in der Bedingung NPV= 0.98 bis zu einem Anteil von 78% in der Bedingung mit der
niedrigsten NPV (0.41; siehe Anhang J).
Verhaltenstendenz. Die Varianzanalysen für die Reaktionen auf alarm-freie Trials zeigten
signifikante Effekte für das Prüfverhalten (F(4,55) = 17.174; p < .001) und das anteilige
Ignorierverhalten (F(4,55) = 16.655; p < .001). Das anteilige Bearbeiten bewegte sich in allen
Bedingungen auf dem 0%-Niveau. Die reliance (also das Ignorieren der Container) bewegte
sich in den 0.98-Bedingungen 0.98, 0.93. 9.86 und 0.72 auf einem abnehmend hohem Niveau,
um bei einer NPV von 0.41 drastisch abzufallen (siehe Abbildung 22). Das Prüfverhalten
zeigte den entsprechend komplementären Verlauf mit einem Tiefpunkt bei einer NPV von
0.98 (2%), einer kontinuierlichen Steigerung bis 0.72 (31%) und einem Höhepunkt in der
118 Experiment 4: Einfluss eines erhöhten workloads
0.41-Bedingung mit einer Prüfrate von 66%. In dieser Bedingung änderte sich also das
dominante Verhalten vom Ignorieren der Container zum Überprüfen der Container.
Prozentualer Verhaltensanteil im Sinne der reliance,
informed reliance und no reliance
0
20
40
60
80
100
.98 .93 .86 .72 .41
NPV
Anteil in Prozen
t
reliance
no reliance
informed reliance
Abbildung 22: Verhaltensanteile in alarm-freien Trials
In grünen Trials zeigten deutlich mehr Probanden die Tendenz, Container in grünen Trials zu
ignorieren, sich also reliant mit dem Hinweis des Systems zu geben. Allerdings kam diese Art
des extreme responding nur in den Bedingungen mit den vier höchsten NPV vor und selbst
hier fiel der Anteil jeweils sehr gering aus (11 Personen bei NPV = 0.98, 7 Personen bei NPV
= 0.93, 5 Personen bei NPV = 0.86 und 4 Personen bei NPV = 0.72, keine Person bei NPV =
0.41). Da die überwiegende Verhaltenstendenz, dem grünen Licht bei hohen NPV zu vertrau-
en nur bei einem geringen Anteil an Personen (max. 18%) vorkam und außerdem keinen bias,
sondern ein rationales Verhalten darstellt, welches auch im Sine des probability matching
interpretierbar ist, kann das Verhaltensmuster auch in grünen Trials bedenkenlos interpretiert
werden. In Anhang J befindet sich eine Mittelwerttabelle mit Standardabweichungen.
10.5.5 Subjektive Beanspruchung
Die a posteriori-Wahrscheinlichkeit hatte keinen Einfluss auf die Beantwortung der Skalen
des NASA-TLX. Die Probanden in den fünf unterschiedlichen Bedingungen unterschieden
sich also nicht signifikant in ihrer empfundenen „geistigen Anstrengung“ (F(4, 55) = 1, n.s.),
Advertisement
10.6 Diskussion 119
„körperlichen Anstrengung“ (F(4, 55) = 2,4, n.s.), „Zeit“ (F(4, 55) = 1,1, n.s.), „Ausführung“
(F(4, 55) = 0,6, n.s.), „Anstrengung“ (F(4, 55) = 0,5, n.s.) und „Frust“ (F(4, 55) = 0,8, n.s.).
10.6 Diskussion
In Studie 4 wurde untersucht, wie sich ein erhöhter workload auf das Antwortverhalten,
insbesondere das Prüfverhalten, als Reaktion auf Hinweise mit unterschiedlichen PPV und
NPV auswirkt. Dabei wurde in Anlehnung an die Studie von Bliss & Dunn (2000) der work-
load erhöht, indem das Doppelaufgaben-Paradigma durch Hinzufügen einer Aufgabe zum
Dreifachaufgaben-Paradigma erweitert wurde. Da in Studie 4 erstmals der tatsächliche work-
load im Sinne einer simultanen Belastung gleicher Ressourcen (Wickens, 1984, 1992, 2002,
2008) durch unterschiedliche Aufgaben gesteigert wurde, wurde erwartet, dass die erforderli-
che stringente Verteilungspolitik der Ressourcen zu einer effizienten und rationalen Anpas-
sung der informed compliance an die PPV in Form eines umgekehrt u-förmigen Verlaufs
führen und der cry wolf-Effekt wieder auftauchen würde. In alarm-freien Trials wurde in
diesem Zusammenhang erwartet, dass der Verlauf der reliance einem probability matching an
die NPV folgen würde. Studie 3, in der der zeitliche Prüfaufwand erhöht wurde, gab bereits
erste Hinweise auf eine solche Tendenz, während sich die informed reliance im Sinne eines
probability matchings an die NPV anpasste.
Der Manipulations-Check ergab ein ähnliches Bild wie schon in der Ausgangsstudie, in
Studie 1 und in Studie 3. Die Probanden nahmen dabei die Variation der PPV und der NPV
wahr und neigten dazu, hohe Wahrscheinlichkeiten zu unter- und niedrige Wahrscheinlichkei-
ten zu überschätzen.
Sucht man nach Unterschieden in der allgemeinen Leistung (Sensitivität und erreichte Punkt-
zahl) zwischen Studie 4 und den Studien 1 und 3 lässt sich lediglich ein leichtes Absinken der
Sensitivität (Md’ = 4) im Vergleich zu Studie 1 (Md’ = 5.5) feststellen. Diese Minderung der
Sensitivität in Studie 4 war aufgrund des generell gesunkenen Prüfanteils über alle Bedingun-
gen hinweg, und insbesondere in den Randbedingungen der PPV, zu erwarten. Das zweite
Maß für die allgemeine Leistung über rote und grüne Trials hinweg ist die erreichte Punkt-
zahl. Wie schon in den Studien 1 und 3 hatte die Variation der PPV bzw. NPV keinen signifi-
kanten Einfluss auf die erreichte Punktzahl in der Bestellaufgabe, sondern bewirkte lediglich
signifikante Unterschiede in der Überwachungsaufgabe. Das Ausbleiben eines Effekts der
120 Experiment 4: Einfluss eines erhöhten workloads
PPV bzw. NPV in der Bestellaufgabe in Studie 4 liegt nahe, da die Probanden die Ressourcen,
die sie durch die Anpassung des Prüfanteils an die jeweilige PPV und NPV einsparten, auf die
parallele Bearbeitung von insgesamt drei statt zwei Aufgaben aufteilen mussten. Die deutlich
geringere mittlere erreichte Punktzahl in der Überwachungsaufgabe in Studie 4 (M = 102) im
Vergleich zu Studie 1 (M = 225) erklärt sich zum Einen durch den geringeren Anteil an
korrekten Reaktionen und zum Anderen durch die Unterbrechungen durch die anderen beiden
Aufgaben. Die mittlere erreichte Punktzahl in der Bestellaufgabe blieb hingegen auf dem
gleichen Niveau (beide M = 75). Die mittlere Auszahlung von 88 Punkten für die Tankfüll-
aufgabe (somit wurden im Schnitt 12 vollständige Befüllzyklen im Experimentalblock durch-
geführt) rundet das Bild ab, dass die Probanden alle drei Aufgaben kontinuierlich bearbeite-
ten, eine Umgehung der Dreifachaufgaben-Belastung also ausgeschlossen werden kann. Um
den Unterschied in der erreichten Punktzahl in der Überwachungsaufgabe für rote und grüne
Trials separat zu analysieren, werden im Folgenden vorerst Verhalten und die spezifische
Leistung in Alarmtrials und dann in alarm-freien Trials diskutiert.
Der Anteil an korrekten Reaktionen sank wie in den Studien 1 und 3 mit steigender PPV ab
und fand bereits bei einer PPV von 0.7 seinen Tiefpunkt. Diese Tendenz wurde bereits in
Studie 3 unter erhöhtem Prüfaufwand gefunden und tritt unter erhöhtem workload in Studie 4
deutlicher hervor. Der geringe Anteil an korrekten Reaktionen in der Bedingung 0.7 spiegelt
sich im Prüfverhalten wider, welches bei 0.7 ein Minimum erreicht. Insgesamt fand sich in
Studie 4 im Vergleich zu den Studien 1 und 3 durchgängig der geringste Anteil an korrekten
Reaktionen. Da der Anteil an korrekten Reaktionen erneut auf den Verlauf der Verhaltensan-
teile zurückzuführen ist, wird an dieser Stelle das Verhalten in Abhängigkeit der PPV disku-
tiert.
Die Ergebnisse von Studie 4 zeigen, dass ein erhöhter workload dazu führt, dass der cry wolf-
Effekt wieder auftritt, auch wenn den Probanden weiterhin die Möglichkeit gegeben war, die
Rohdaten zu überprüfen. In Alarmtrials zeigten die Probanden in der Bedingung mit der
niedrigsten PPV (0.1) ein Prüfverhalten auf mittlerem Niveau (45%), welches vom Anteil der
ignorierten Alarme übertroffen wurde (55%). Dieses Muster entspricht dem klassischen cry
wolf-Effekt, wie er in der Literatur, vor allem unter Bedingungen hohen workloads, zu finden
ist (z. B. Bliss, 2003a; Bliss & Dunn, 2000; Breznitz, 1983; Dixon & Wickens, 2006). Hypo-
these H 1.3, die besagt, dass der cry wolf-Effekt bei einer PPV von 0.1 auftritt, kann also
bestätigt werden. Im weiteren Verlauf des Verhaltens befindet sich der Punkt des höchsten
Prüfanteils entgegen der Annahme von Hypothese H 1.1 bei einer PPV von 0.3, obwohl
Advertisement
10.6 Diskussion 121
objektiv die höchste Unsicherheit bei einer PPV von 0.5 zu erwarten wäre. Hypothese H 1.1
kann also nicht bestätigt werden. Auch wenn sich der Punkt des größten Prüfanteils nicht in
der Bedingung der objektiv größten Unsicherheit von 0.5 wiederfand, wurde in der Bedin-
gung größter Unsicherheit (PPV = 0.5) zu gleichen Anteilen Alarme ignoriert (cry wolf-
Effekt) und direkt bearbeitet (compliance), wie es in einer Entscheidungssituation unter
größter Unsicherheit (sprich ohne Prüfmöglichkeit) erwartet und in der Ausgangsstudie
empirisch bestätigt wurde. Auf der Verhaltensebene scheint sich folglich bei einer PPV von
0.5 doch eine subjektiv hohe Unsicherheit widerzuspiegeln, allerdings nicht wie erwartet
gekennzeichnet durch den höchsten Punkt im Verlauf des Prüfverhaltens, sondern dadurch,
dass sich die beiden direkten Verhaltensweisen bearbeiten (compliance) und ignorieren (cry
wolf-Effekt) gleich verteilten. Betrachtet man das dominierende Verhalten über die unter-
schiedlichen Bedingungen hinweg, fällt ein cut-off zwischen den Bedingungen 0.5 und 0.7
auf, an dem das dominante Verhalten vom Prüfen (informed compliance) zum direkten
Bearbeiten (compliance) wechselt. Dieser cut-off entspricht dem Wert der Ausgangsstudie, in
der ab einer PPV von 0.5 der Großteil der Alarme direkt bearbeitet wurde. Die Erhöhung des
workloads scheint also dazu zu führen, dass sich der Punkt, ab dem den Alarmen vertraut
wird, im Vergleich zu den Studien 1 und 3 wieder nach unten verschiebt. Der Bereich der
PPV, in dem die compliance dominiert, vergrößert sich unter erhöhtem workload, der eine
effiziente Verteilung der Ressourcen einfordert. Zusammenfassend zeigen die Ergebnisse zum
cut-off aus der Ausgangsstudie, Studie 1, Studie 3 und Studie 4, dass der cut-off, ab dem die
compliance dominiert, dann bereits ab dem Punkt der größten Unsicherheit zu finden ist (0.5),
wenn die Probanden gezwungen sind, unter großer Unsicherheit zu handeln und auf eine
Heuristik wie das extreme responding zurückgreifen müssen (Ausgangsstudie) oder wenn ein
erhöhter workload erfordert, die Ressourcen optimal und effizient aufzuteilen (Studie 4) und
die Prüfoption in den oberen Bereichen redundant macht. In den Studien 1 und 3, in denen die
Probanden zwar teilweise unter erhöhtem zeitlichem Druck, jedoch ohne Interferenzen zwi-
schen den beanspruchten Ressourcen, arbeiteten, vergrößerte sich der Bereich der PPV, in
dem sie durch einen dominierenden Prüfanteil ihre Unsicherheit bezüglich der Validität des
Alarmes reduzierten.
Im oberen Bereich der PPV entspricht die asymptotische Zunahme der compliance und die
Abnahme der informed compliance zwar grundsätzlich den Erwartungen des umgekehrt u-
förmigen Verlaufes, allerdings sinkt weder der Prüfanteil bei einer PPV von 0.9 weiter ab
noch steigt der Anteil des Bearbeitens weiter an. Der Anteil der compliance stagnierte in den
122 Experiment 4: Einfluss eines erhöhten workloads
Bedingung 0.9 bei ca. 55% und blieb so unter dem erwarteten Anteil im Sinne der Hypothese
H 1.2 (die compliance ist am höchsten bei einer PPV von 0.9), die demnach nicht bestätigt
werden konnte. In den Bedingungen 0.5 und 0.7 passte sich das Prüf-Verhalten hingegen
komplementär der PPV an (52% und 25%), wie man es im Rahmen des umgekehrt u-
förmigen Verlaufs für den oberen Bereich der PPV erwartet hätte.
In Alarmtrials kann das Reaktionsmuster also so zusammengefasst werden, dass die Proban-
den die unterschiedlichen PPV in drei Bereiche aufzuteilen schienen: einen Bereich großer
Unsicherheit in den Bedingungen 0.3 und 0.5 (dominantes Verhalten: informed compliance),
einen Bereich der Akzeptanz (dominantes Verhalten: compliance) bei 0.7 und 0.9 und einen
Bereich der Ablehnung bei einer PPV von 0.1 (dominantes Verhalten: Ignorieren). Hypothese
H 1.1 kann aufgrund des verschobenen Prüf-Maximums bei einer PPV von 0.3 demnach zwar
nicht bestätigt werden, jedoch entspricht der Verlauf des Prüf-Verlaufs dem erwarteten
umgekehrt u-förmigen Verlauf. An dieser Stelle wird daran erinnert, dass in Studie 1 ohne
erhöhten workload lediglich die oberen Bereiche der PPV diesem Verlauf entsprachen, da die
Probanden im unteren Bereich dazu neigten, ihre freien Ressourcen zur Reduktion der Unsi-
cherheit durch ein hohes Prüfniveau zu investieren.
Die Analyse der Leistung in alarm-freien Trials ergab einen sehr ähnlichen, kontinuierlich
sinkenden Verlauf des Anteils an korrekten Reaktionen wie in Studie 3, mit der Ausnahme,
dass die Leistung in der Bedingung mit der niedrigsten NPV nicht weiter abfiel. Dieser
Zuwachs an Leistung in Bedingung 0.41 kann durch die fast perfekt an eine probability
matching-Strategie angepasste reliance (Ignorieren des Containers, also Akzeptieren des
Hinweises des Alarmsystems) und einen dazu komplementären Verlauf der informed reliance
(Überprüfen des Hinweises) erklärt werden (Bliss, Gilson & Deaton, 1995). Der gesamte
Hypothesenblock 2 kann also bestätigt werden. Der cut-off, an dem sich das dominante
Verhalten änderte, entsprach auch dem Punkt der größten Änderung der NPV, nämlich dem
Sprung von 0.72 auf 0.41.
Im Folgenden soll der Effekt eines erhöhten workloads auf rote und grüne Trials vergleichend
diskutiert werden. Das Ergebnismuster von Studie 4 zeigt, dass sich das Verhalten der Pro-
banden unter erhöhtem workload in grünen Trials an eine probability matching-Strategie
anpasste und in roten Trials zu einem umgekehrt u-förmigen Verlauf tendierte. Diese diffe-
renzierte Anpassung der informed reliance und informed compliance an spezifische Verlaufs-
Advertisement
10.6 Diskussion 123
formen bestätigt die Unabhängigkeit der Konzepte der reliance und compliance (Meyer,
2004).
In Studie 1 zeigten die Probanden zwar einen äußerst sensiblen Umgang mit den Containern
im oberen Bereich der NPV, allerdings kam es nicht zu einer generellen Anpassung an die
NPV, sondern einer mit sinkender NPV immer schlechter werdenden Anpassungsleistung und
einem übersteigerten Prüfverhalten. In Alarmtrials zeichnete sich das Verhalten durch eine
irrational hohe Prüfrate aus, die erst bei einer PPV von 0.9 von der compliance dominiert
wurde. Unter erhöhtem Prüfaufwand in Studie 3 näherten die Probanden die Prüfrate in
grünen Trials (informed reliance) bzw. den Anteil an ignorierten Containern (reliance) dann
an die NPV an. In Alarmtrials wurde eine schwache Tendenz zu einem umgekehrt u-förmigen
Verlauf registriert, der vor allem aus dem leichten Absinken des Prüfverhaltens in der Bedin-
gung 0.1 resultierte. Während sich der cut-off, ab dem die Hinweise des Alarmsystems direkt
befolgt wurden, in grünen Trials bereits in Studie 3 unter erhöhtem Prüfaufwand nach unten
verschob (von einer NPV ab 0.72 auf eine NPV ab 0.41), sank der cut-off in roten Trials erst
in Studie 4 unter erhöhtem workload.
Ein höherer zeitlicher Prüfaufwand bewirkte also eine Anpassung des Verhaltens in alarm-
freien Trials, indem sich der Bereich der NPV, in dem die Hinweise überprüft wurden, ver-
kleinerte. In Alarmtrials resultierte lediglich eine schwache Änderung des Verlaufs im unteren
Bereich, die den cut-off nicht beeinflusste. Erst unter erhöhtem workload, der eine effiziente
Verteilung der Ressourcen notwendig machte, wurde auch der cut-off in Alarmtrials von einer
PPV von 0.7 auf eine PPV von 0.5 angepasst. Die Voraussetzung einer perfekten Anpassung
an die NPV bzw. die PPV scheint also zu sein, dass der workload so hoch ist, dass er eine
rationale Verteilungspolitik der Ressourcen erfordert. Das Hinzufügen der dritten Aufgabe
scheint Ressourcen beansprucht zu haben, die unter niedrigerem workload dem Prüfen der
Rohdaten zugeteilt worden waren. Dies entspricht auch den Annahmen von Wickens’ Theorie
der multiplen Ressourcen (1984, 1992, 2002, 2008), in denen Aufgaben interferieren, die die
gleichen Modalitäten beanspruchen. So ist bei allen drei beschriebenen Aufgaben des Para-
digmas von den gleichen beanspruchten Ressourcen auszugehen, wie von perzeptiv-
kognitiven Verarbeitungsstufen, von einer visueller Sinnesmodalität, die sich ambient verteilt,
von einer räumlich-analoger Verarbeitungsmodalität und von einem manuellem Reaktions-
modus.
124 Experiment 4: Einfluss eines erhöhten workloads
Ähnlich wie in Studie 3 wird als Ursache für die unterschiedliche Anpassungsleistung in
grünen und in roten Trials vermutet, dass ein erhöhter workload bzw. konfligierende Ressour-
cen zu einer Einsparung von Ressourcen primär in alarm-freien Trials führt. Begründet wird
diese Priorisierung roter Trials damit, dass ein verursachter miss durch das Ignorieren eines
Alarms (cry wolf-Effekt) subjektiv schwerer wiegt als ein miss, der durch das Befolgen des
Hinweises in grünen Trials (reliance) entsteht, auch wenn die payoff wie in diesem Fall beide
Fehlerarten gleich gewichtet. Interessant für zukünftige Forschung könnte in diesem Zusam-
menhang die Analyse der mentalen Repräsentation von objektiv variierenden Konsequenzen
sein. Eine mögliche Erklärung für die leicht verzerrte Anpassung der compliance und infor-
med compliance an eine effiziente Strategie könnte die Salienz der Alarme und deren hoher
Aufforderungscharakter sein, der vor allem in Hochsicherheitssystemen wie dem hier ver-
wendeten Scenario einer Chemie-Anlage deutlich wird. So sollten Erklärungen für die bessere
Anpassung der reliance an die NPV als die Anpassung der compliance an die PPV in weiteren
Studien zu den Konzepten framing (Tversky & Kahneman, 1981) und automation bias
(Mosier & Skitka, 1996) gesucht werden. Zusätzlich scheinen vor allem Alarme mit einer
niedrigen PPV bei den Probanden ein hohes Bedürfnis nach Reduktion der Unsicherheit
auszulösen und so zu einer überhöhten Prüfrate zu führen (wie in der PPV von 0.3). In oberen
Bereichen (ab einer PPV von 0.5) passte sich die informed compliance schon eher an eine
rationale Strategie an, indem sie in den Bedingungen 0.5 und 0.7 stetig abnahm folgte und die
compliance im oberen Bereich der PPV dominierte. Die bessere Anpassung der (informed)
reliance an die NPV kann zum Einen damit erklärt werden, dass einem entstehenden miss in
grünen Trials immer eine falsche Reaktion des Alarmsystems (Stufe 1 des Modells von
Allendoerfer, Pai & Friedman-Berg, 2008) zugrunde liegt, der der Operateur fälschlicherwei-
se im Sinne der reliance vertraut (Stufe 2). Somit liegt die subjektive Verantwortung für einen
miss nur anteilig beim Operateur. Zum Anderen variiert die NPV in dieser Studie lediglich im
oberen Bereich, in dem Unsicherheit bezüglich der Validität eines Hinweises unter erhöhtem
workload womöglich eher toleriert wird und sich das Prüfverhalten an eine probability mat-
ching-Strategie anpasst. Weitere Studien sollten klären, ob sich die informed reliance in
unteren Bereichen der NPV ähnlich wie die informed compliance einem umgekehrt u-
förmigen Verlauf anpasst.
Advertisement
11 Zusammenfassende Diskussion 125
11 Zusammenfassende Diskussion
Im Rahmen dieser Arbeit wurde der Einfluss einer Prüfmöglichkeit auf den Umgang mit
Alarmen, die hinsichtlich ihrer PPV und NPV variierten, untersucht. Diese Studien unter-
schieden sich wesentlich dadurch von bisherigen Studien, die den Einfluss von PPV und NPV
auf die reliance und compliance untersuchten, dass den Probanden die Möglichkeit gegeben
wurde, die Rohdaten hinter dem Hinweis des Alarmsystems aktiv anzufordern und die Diag-
nose des Systems zu validieren. Somit wurden sie nicht zu der Entscheidung gezwungen, dem
Hinweis blind zu folgen oder ihn zu ignorieren, sondern konnten vor der finalen Entscheidung
die Angemessenheit des Hinweises überprüfen. Diese Reaktion auf einen Alarm wurde als
informed compliance und informed reliance bezeichnet. Ziel der Arbeit war es, den Verlauf
der informed compliance und informed reliance in Abhängigkeit unterschiedlicher Zuverläs-
sigkeiten zu analysieren und auszuwerten, wie sich die Prüfoption in Bereichen einer niedri-
gen PPV auf den in der Literatur häufig beschriebenen cry wolf-Effekt auswirkt (Breznitz,
1984; Bliss, 2003a; Dixon & Wickens, 2006; Meyer, Feinshreiber & Parmet, 2003). Während
die Manipulation der PPV und NPV über drei der vier Studien konstant blieb, unterschieden
sich die Studien im zeitlichen Aufwand, der über die Anzahl der zu überprüfenden Parameter
manipuliert wurde, und im workload, der durch Einbindung einer dritten Aufgabe in das
Doppelaufgaben-Paradigma erfolgte.
Die Befunde zum Einfluss der subjektiven Zuverlässigkeit auf das Verhalten sind in den drei
Studien sehr ähnlich: es gibt konsistente Hinweise darauf, dass hohe Zuverlässigkeiten (in
PPV und NPV) unterschätzt und niedrige Zuverlässigkeiten überschätzt werden. Allerdings
hatten die subjektiven Zuverlässigkeiten keinen eindeutigen Einfluss auf das Verhaltensmus-
ter, da genau diese Art der individuellen Verzerrung dadurch vermieden werden sollte, dass
den Probanden im Anschluss an ihre Schätzungen die tatsächliche Verteilung der vier Fehler-
arten vorgelegt wurde. Aus den Ergebnissen zum Schätzfragebogen kann geschlossen werden,
dass Operateure fähig dazu sind, aus der Interaktion mit Alarmsystemen annähernd genaue
Schlüsse auf deren Zuverlässigkeiten zu ziehen. Dabei sind sie fähig, zwischen der NPV und
PPV zu unterscheiden und diese als unabhängige Gütekriterien eines Alarmsystems zu be-
trachten.
126 Zusammenfassende Diskussion
In der Ausgangsstudie, in der den Probanden keine Validierungsmöglichkeit der Hinweise des
Systems gegeben worden waren, wurden hauptsächlich extreme responding-Strategien (Bliss,
2003b) angewendet, indem auf Alarme mit einer PPV über 0.5 immer direkt reagiert wurde
(compliance) und Alarme mit PPV unter 0.5 ignoriert wurden (cry wolf-Effekt). Diese Heu-
ristik führt allerdings dazu, dass die Gesamtleistung des Mensch-Maschine-Systems die
Leistung eines Agenten alleine nicht übertreffen kann und somit der andere Agent redundant
wird. Ignoriert der Operateur die Hinweise des Alarmsystems, ist dieses überflüssig; befolgt
er alle Hinweise des Systems direkt, so könnte das Alarmsystem auf einer höheren Automati-
onsstufe autark arbeiten und die Entscheidung selbständig treffen sowie die Handlung ausfüh-
ren (Sheridan & Wickens, 2000). Ein System, welches dem Operateur keine Möglichkeit gibt,
die Hinweise des Alarmsystems zu validieren, kann also als kein System angesehen werden,
welches einen effizienten und sicheren Prozessablauf garantiert. In Anlehnung an diese
Folgerungen zeigen die Studien dieser Arbeit nicht nur, dass die PPV und die NPV verhal-
tenswirksame Größen sind, sondern auch, dass die Möglichkeit, die Validität der Hinweise
des Alarmsystems zu überprüfen, einen wesentlichen Einfluss auf die dominante Antwortstra-
tegie hat und der unangemessene Gebrauch von Heuristiken vermieden werden kann.
In Studie 1 wurden Alarme bis zu einer PPV von 0.7 auf einem äußerst hohen Niveau geprüft
(informed compliance) und wurden erst bei einer PPV von 0.9 direkt befolgt (compliance).
Der cry wolf-Effekt, der noch in der Ausgangsstudie unter Anwendung des gleichen Para-
digmas bei einer PPV von 0.1 gefunden wurde, wurde durch eine hohe Prüfrate im unteren
Bereich der PPV eliminiert. Mit der Prüfoption verschwanden zwar die Extremreaktionen auf
Alarme (Bliss, 2003b), es konnte aber im Gegenzug eine Art „over-checking“-Verhalten
identifiziert werden, im Rahmen dessen die Probanden 60% - 80% aller Alarme mit PPV von
0.1 – 0.7 überprüften. Diese unerwartet hohe Prüfrate (informed compliance) weist auf ein
hohes Bedürfnis der Probanden hin, ihre Unsicherheit im unteren bis mittel-hohen Bereich der
PPV zu reduzieren. Im Gegensatz zur Annahme, dass sich der Höhepunkt der Prüfrate in der
Bedingung mit der höchsten Unsicherheit (PPV = 0.5) befindet, schien dabei nicht zwischen
sehr niedrigen PPV (0.1 und 0.3) und mittleren (0.5) bis hohen PPV (0.7) unterschieden zu
werden. Erst bei einer sehr hohen PPV von 0.9 tolerierten die Probanden eine Rest-
Unsicherheit und befolgten die Alarme direkt. Im oberen Bereich der PPV folgte das Prüf-
Verhalten also dem erwarteten umgekehrt u-förmigen Verlauf, allerdings kam es erwartungs-
diskrepant im unteren Bereich der PPV zu keinem Absinken des Prüfanteils. In diesem
Zusammenhang gibt Studie 2 Hinweise darauf, dass das verhaltensbasierte Vertrauen unter
Advertisement
11 Zusammenfassende Diskussion 127
einem cut-off bei einer PPV von 0.75 fast gleichmäßig niedrig ist und die überhöhte Prüfrate
die Funktion eines Alarmsystems redundant werden lässt. Die generelle Schlussfolgerung aus
Studie 1 ist die Notwendigkeit einer Option, die Aussagen des Alarmsystems zu überprüfen,
um die allgemeine Mensch-Maschine-Leistung zu steigern und den cry wolf-Effekt zu elimi-
nieren. Allerdings ergibt sich dadurch das Problem, dass Operateure in unteren bis mittel-
hohen Bereichen auf einem unnötig hohen Niveau prüfen, um ihre Unsicherheit zu reduzieren
und mit dieser Strategie Ressourcen für eventuelle Nebenaufgaben vergeuden.
Studie 3 zeigte, dass die hohe Prüfrate in roten Trias kein künstliches Produkt der Operationa-
lisierung des Prüfprozesses war, sondern dass das Prüfverhalten in einem Setting, welches den
doppelten Prüfaufwand verlangte, indem nicht nur ein, sondern zwei Parameter überprüft
werden mussten, repliziert werden konnte. Zudem prüften die Probanden immer beide Para-
meter, brachen den Prüfprozess also nie nach bereits einem Parameter ab, um Zeit zu sparen.
Diese Vollständigkeit des Prüfprozesses belegt, dass die Probanden den Prüfprozess durch-
führten, um ihre Unsicherheit auf 0% zu reduzieren. Zwar zeigte der deskriptive Verlauf des
Prüfverhaltens eine leichte Tendenz zum cry wolf-Effekt in der Bedingung 0.1, jedoch domi-
nierte in dieser Bedingung immer noch das Prüfverhalten. Zusammenfassend bewirkte ein
gesteigerter Prüfaufwand im Sinne eines höheren Zeitaufwands und eines höheren kognitiven
Engagements in die Suche der beiden korrekten Containern nur leichte Änderungen im
Antwortmuster im Vergleich zu Studie 1. Daran anknüpfend stellte sich die Frage, ob die
Eliminierung des cry wolf-Effekts durch die überhöhte Prüfrate auch bei einer Erhöhung des
workloads bestehen bleiben würde. Die Erhöhung des workloads bedeutet die simultane
Beanspruchung der gleichen Ressourcen, so dass es zu einer stringenten Verteilungspolitik
kommen muss, um eine Überbelastung zu vermeiden (Wickens, 1984, 1992, 2002, 2008).
In Studie 4 wurde dementsprechend untersucht, ob sich ein erhöhter workload auf die Vertei-
lungspolitik der Ressourcen und damit auf das Verhaltensmuster auswirkt. Trotz Erweiterung
des Settings um eine zusätzliche Nebenaufgabe in Studie 4 unterschied sich die subjektive
Bewertung des workloads im Rahmen des NASA-TLX nicht von der subjektiven Beanspru-
chung aus Studie 3. Offensichtlich fiel es den Probanden schwer, subjektiv zwischen erhöh-
tem Prüfaufwand innerhalb einer Aufgabe und erhöhtem Gesamtworkload im Sinne konfligie-
render mentaler Ressourcen zu unterscheiden. Auf der Verhaltensebene wurde der erhöhte
workload hingegen dadurch erkennbar, dass in Studie 4 über alle Bedingungen hinweg auf
einem niedrigeren Niveau als in den Studien 1 und 3 geprüft wurde. Der größte Effekt zeigte
sich in der Bedingung mit der niedrigsten PPV (0.1), in der der cry wolf-Effekt wieder auftrat.
128 Zusammenfassende Diskussion
In den Bedingungen mit den höchsten PPV (0.7 und 0.9) wurde ein direktes Befolgen der
Alarme gefunden, die compliance dominierte also als stärkster Verhaltensanteil. Die Tendenz,
in den unteren und oberen Bereichen der PPV direkt auf Alarme zu reagieren, indem diese
ignoriert oder bearbeitet werden, und der Anstieg des Prüfverhaltens im mittleren Bereich der
PPV entsprechen dem erwarteten umgekehrt u-förmigen Verlauf. Der cut-off, an dem die
informed compliance stark absank und die compliance zum dominierenden Verhalten wurde,
verschob sich unter hohem workload von 0.7 (wie in den Studien 1 und 3 gefunden) nach
unten auf 0.5. Der erhöhte workload führte dazu, dass der Bereich der Akzeptanz von Alar-
men im oberen Bereich der PPV größer wurde und im untersten Bereich der PPV Alarme
ignoriert wurden, um Ressourcen zu sparen. Bei einer PPV von 0.3 stieg die Prüfrate stark an,
was erneut belegt, dass Unsicherheit im oberen Bereich der PPV eher akzeptiert wird als im
unteren Bereich. Das Ergebnis, dass der erhöhte externe workload, der durch die Parallelauf-
gabe manipuliert wurde, die Reaktionsrate auf Alarme reduzierte, stimmt mit dem Befund von
Bliss & Dunn (2000) überein. Außerdem bestätigen die Ergebnisse im Wesentlichen Bliss’
Theorie (2003b), dass Heuristiken in Abhängigkeit der Verfügbarkeit von Hintergrundinfor-
mation ausgewählt und herangezogen werden. Ein erhöhter worklaod scheint also das Prüf-
verhalten der Probanden so zu regulieren, dass diese ihre Ressourcen nach einer effizienteren
und sparsameren Politik einsetzen, indem sie unzuverlässige Alarme ignorieren (cry wolf-
Effekt) und zuverlässige Alarme befolgen (compliance).
Betrachtet man das Verhalten in grünen Trials, also die reliance und die informed reliance,
zeigt sich ein noch deutlicherer Einfluss des workloads auf die Strategienbildung. In Studie 1
überprüften die Probanden in grünen Trials die Hinweise des Alarmsystems auf einem sehr
hohen Niveau. Selbst bei einer geringen Minderung der NPV von 0.98 auf 0.93 reagierten die
Probanden mit einer starken Erhöhung des Prüfverhaltens. Selbst bei einer nahezu perfekten
Zuverlässigkeit von 0.93, die nur 4% misses implizierte, prüften sie ca. 40% aller Container.
Die Probanden schienen also mit dem Prüfverhalten in grünen Trials, welches das Übersehen
eines kritischen Zustands verhindert, besonders sensibel auf kleinste Änderungen in der
Zuverlässigkeit im oberen Bereich der NPV zu reagieren. Im Vergleich dazu zeigt Studie 2,
dass die Probanden ihr Prüfverhalten in roten Trials erst unter einer PPV von 0.75 anpassten.
Dieser Unterschied erklärt sich durch die erwarteten Konsequenzen: während in grünen Trials
durch die Prüfrate ein miss vermieden wird, vermeidet eine hohe Prüfrate in roten Trials ein
ungerechtfertigtes Eingreifen, welches weniger die Sicherheit als die Produktivität beein-
flusst. Die erhöhte Sensibilität im Umgang mit grünen Trials im Vergleich zum Umgang mit
Advertisement
11 Zusammenfassende Diskussion 129
roten Trials unterstützt den Befund der Unabhängigkeit von reliance und compliance (Meyer,
2004).
Vergleicht man die Anpassung des Prüfverhaltens an die NPV im Sinne eines probability
matchings fällt auf, dass diese in Studie 1 äußerst schlecht ausfällt. Die subtile Änderung der
NPV von 0.98 auf 0.93 bewirkte eine Art „Über-Anpassung“ und ließ die Prüfrate auf ein
stark überhöhtes Niveau von ca. 40% steigen, wohingegen keine Unterscheidung zwischen
einer NPV von 0.93 und 0.86 getroffen wurde. Ähnlich wurde zwischen einer NPV von 0.72
und 0.41 nicht unterschieden, was am meisten erstaunt, da diese doch am deutlichsten diffe-
rierten. Die Probanden schienen NPV unter 0.86 als gleichermaßen unzuverlässig einzuord-
nen und reagierten mit einem hohen Anteil überprüfter Container.
Schon in Studie 3, in der der Prüfprozess einen erhöhten zeitlichen Aufwand implizierte,
zeigte der Verlauf des Prüfverhaltens insofern eine bessere Anpassung an die NPV, als die
reliance mit der NPV absank, das Prüfverhalten kontinuierlich anstieg und deutlich auch
zwischen den Bedingungen 0.72 und 0.41 unterschieden wurde. Hier dominierte im Gegen-
satz zu Studie 1 ab einer NPV von 0.72 bereits die reliance über die informed reliance. Aller-
dings lag die Prüfrate in allen Bedingungen immer noch über der erwarteten Prüfrate im Sinne
eines probability matching (Bliss, Gilson & Deaton, 1995). Unter erhöhtem workload in
Studie 4 allerdings wurde ein anderes Bild sichtbar: die reliance (und komplementär die
informed reliance) passte sich fast perfekt der NPV an. Bereits die Erhöhung der zeitlichen
Kosten in Studie 3 hatten zu einer leicht verbesserten Diskrimination zwischen den einzelnen
NPV geführt, ließen aber dennoch ein übermäßiges Prüfen zu. Erst ein hoher workload, der
eine stringente Verteilung der Ressourcen erforderte, schien zu einer besseren Anpassung an
die NPV im Sinne eines probability matching zu führen. Während die Probanden in Studie 1
und 3 überwiegend eigenhändig die Rohdaten hinter dem Alarmsystem prüften, fingen sie
unter hohem workload an, sich auf die Automation zu verlassen. Dieser Befund deckt sich mit
der Aussage von Wickens & Dixon (2007): „This finding suggests that the dependence upon
automation is more heavily manifest in high workload” (S. 9).
In Alarmtrials fand eine Anpassung des Prüfverhaltens unter erhöhtem workload in Studie 4
an einen umgekehrt u-förmigen Verlauf statt, wobei sich das Prüf-Verhalten dabei im mittle-
ren Bereich der PPV von 0.3 – 0.7 einem probability matching folgte. Kombiniert man diese
Ergebnisse aus den Studien 1, 3 und 4, ist es naheliegend, dass sich hohe PPV und hohe NPV
tendenziell einem probability matching anpassen, während niedrige a posteriori-
130 Zusammenfassende Diskussion
Wahrscheinlichkeiten eine hohe Prüfrate bzw. unter hohem workload den cry wolf-Effekt
auslösen und sich somit der umgekehrt u-förmige Verlauf ergibt. Ob sich dieser Verlauf
tatsächlich auch für niedrige NPV so darstellen würde, sollte in weiteren Studien, die die
unteren Bereiche der NPV mit einbeziehen, untersucht werden.
Der für die jeweilige Höhe der PPV und NPV spezifische Verlauf der informed compliance
und informed reliance weist darauf hin, dass die Anzahl von misses hauptsächlich die (infor-
med) reliance und die Anzahl von false alarms hauptsächlich die (informed) compliance
beeinflussen (Meyer, 2004). Würden misses einen relevanten Einfluss auf die (informed)
compliance und falsche Alarme einen Einfluss auf die (informed) reliance haben, müsste sich
der Prüfverlauf durch die Mittelung von PPV und NPV über die Bedingungen jeweils fast
parallel zur x-Achse entwickeln. In den vorliegenden Studien passte sich der Verlauf des
Prüfens unter erhöhtem workload jedoch unterschiedlichen Strategien an. Während in Studie
1 sowohl in roten als auch in grünen Trials eine überhöhte Prüfrate zu finden war, kristalli-
sierte sich bereits in Studie 3 unter erhöhtem Prüfaufwand die Tendenz zum probability
matching in grünen Trials und zum umgekehrt u-förmigen Verlauf in roten Trials heraus, die
sich dann in Studie 4 unter erhöhtem workload klar manifestierten. Dieses unterschiedliche
Grundmuster in der (informed) reliance und (informed) compliance und deren distinkte
Anpassungen an erhöhten workload entsprechen den Befunden der Unabhängigkeit der
beiden Konzepte von Meyer (2004).
Zusammenfassend kann aus den hier geschilderten Studien und der Ausgangsstudie ge-
schlussfolgert werden, dass bei der Entwicklung von Alarmsystemen dem Bedürfnis von
Operateuren gerecht werden muss, ihre Unsicherheit bezüglich der Zuverlässigkeit des
Alarmsystems zu reduzieren. Die zwei Hauptfaktoren, die zu dieser Unsicherheitsreduktion
beitragen, sind zum einen Kenntnisse über die Reliabilität des Systems, also Aussagen zur
bzw. Erfahrungen mit der PPV und NPV, und zum anderen die Möglichkeit, einzelne Hinwei-
se des Alarmsystems durch eine Möglichkeit zur Überprüfung der Rohdaten zu validieren. Ist
keine Option zur Validierung der Hinweise des Alarmsystems gegeben, greifen Operateure zu
Extremstrategien, die einen der beiden Agenten redundant machen und die Gesamtleistung
des Mensch-Maschine-Systems nicht steigern können. Diese Extremreaktionen gefährden die
Sicherheit des Prozesses, wie im Rahmen des cry wolf-Effekts (Breznitz, 1984), der in der
Forschung zu reliance und compliance immer wieder gefunden wurde und der dazu führen
kann, dass kritische Ereignisse übersehen werden. Die Möglichkeit, die Rohdaten hinter den
Hinweisen des Alarmsystems zu überprüfen, ließ den cry wolf-Effekt verschwinden, so dass
Advertisement
11 Zusammenfassende Diskussion 131
das Ignorieren von Alarmen kein allgemeines Phänomen im Umgang mit unzuverlässigen
Alarmen zu sein scheint, sondern die Anwendung einer Heuristik, um mit einer Situation
großer Unsicherheit umzugehen. Auf der anderen Seite wird von einer vorhandenen Validie-
rungsoption unter gemäßigtem workload zu großer Gebrauch gemacht, so dass Ressourcen
vergeudet werden und der Arbeitsprozess ineffizient wird. Dieser „over-checking“-Strategie
wird entgegengewirkt, wenn der workload eine möglichst effiziente Verteilungspolitik der
Ressourcen erzwingt, so dass das Verhalten optimal an die Zuverlässigkeit des Alarmsystems
angepasst wird.
Die Erkenntnisse dieser Arbeit unterliegen natürlich Einschränkungen und können in unter-
schiedlichen Punkten kritisiert werden. So fanden zum Beispiel Dzindolet et al. (2003), dass
sich die Leistung des Mensch-Maschine-Systems bei kumulativem Feedback deshalb ver-
schlechtert, weil die Probanden die tatsächliche Leistung des Systems unterschätzen. Womög-
lich wären die Ergebnisse dieser Studie anders ausgefallen, wenn den Probanden kontinuierli-
ches Feedback nach jedem einzelnen Trial dargeboten worden wäre, so wie es Dzindolet et al.
(2003) in ihren Untersuchungen bestätigen konnten. Allerdings würde bei solchem Vorgehen
im hier relevanten Kontext der Prozesskontrolle die ökologische Validität leiden, da es
äußerst unwahrscheinlich ist, dass Operateure beim Überwachen komplexer Systeme ein
unmittelbares Feedback auf ihre Handlung erhalten. Im Zusammenhang mit der Rückmeldung
in Alarmtrials und alarm-freien Trials stellt sich auch ein ganz anderes Problem: in dieser
Arbeit wurde ein diskreter Prozess beschrieben, der durch einzelne, unabhängige Ereignisse
definiert wurde, die es wiederum erlauben, die vier möglichen Reaktionsweisen im Sinne der
Signaldetektionstheorie (Swets, 1964) zu kategorisieren und zu quantifizieren. Somit basieren
alle Analysen dieser Arbeit auf den Grundlagen der Signaldetektionstheorie. In der Prozess-
kontrolle unterscheidet man jedoch zwischen diskreten und kontinuierlichen Prozessen, die
sich insofern voneinander abgrenzen, dass sich letztere über dynamische Veränderungen
definieren, die kontinuierlich und ohne abgrenzbare Einheiten ablaufen. Somit entfällt die
Anwendungsmöglichkeit der Signaldetektionstheorie in einem kontinuierlichen Prozess, der
es unmöglich macht, correct rejections zu definieren. Eine Alternative zur klassischen Signal-
detektionstheorie bietet die Fuzzy Signal Detection Theory (Parasuraman, Masalonis &
Hancock, 2000), eine modifizierte Form der klassischen Signaldetektionstheorie, die auch auf
kontinuierliche Prozesse angewendet werden kann. Vorteil der Fuzzy Signal Detection
Theory (FSDT) ist, dass sich die Zustände (kritischer vs. unkritischer Systemzustand) auf
einem Kontinuum befinden anstatt zwei diskrete, sich gegenseitig ausschließende Kategorien
132 Zusammenfassende Diskussion
darzustellen (Murphy, Szalma & Hancock, 2004). Dieses Kontinuum spiegelt also in einer
gewissen Weise die dynamischen Veränderungen eines kontinuierlichen Systems und die
daraus resultierende Unsicherheit bezüglich des tatsächlichen Zustands wider. Die FSDT ist
ein vielversprechender Ansatz, Erkenntnisse über diskrete Prozesse hinaus auch in dynami-
schen Umgebungen untersuchen zu können; der Ansatz der FSDT ist allerdings auch sehr
komplex, so dass vertiefende Forschung notwendig ist, um ihre Anwendbarkeit, ihre Grenzen
und Vergleichbarkeit der Ergebnisse mit der SDT zu ergründen.
An diesem Punkt muss ebenso darauf hingewiesen, dass der Range der Fehler-Basisrate nicht
sehr praxisnah ist. In der Realität bewegen sich die tatsächlichen Fehler-Basisraten in Produk-
tionsprozessen in einem äußerst niedrigen Bereich und in Hochsicherheitsbereichen in einem
noch deutlich niedrigeren Bereich, so dass bereits eine Basisrate von 0.18 als überhöht gelten
dürfte. Die Betonung und Sinn dieser Arbeit liegt in der Grundlagenforschung, das heißt in
der Analyse des Antwortverhaltens von Operateuren auf unterschiedlichste Zuverlässigkeiten
von Hinweisen von Alarmsystemen. Zu diesem Zwecke wurden in vorliegender Laborunter-
suchung eine Simulation gewählt, die es erlaubt, die Zuverlässigkeit der grünen und roten
Hinweise des Alarmsystems und den workload durch Variation der Anzahl der zu bearbeiten-
den Aufgaben zu manipulieren. Gleichermaßen konnte die Gleichbehandlung der drei Teil-
aufgaben durch die Manipulation von Zeitkosten und von Gewinn und Kosten im Rahmen der
payoff-Matrix kontrolliert werden. Somit stellt sich die Frage nach der externen Validität der
Untersuchungsergebnisse bzw. auf welche Bereiche und Systeme die Ergebnisse generalisier-
bar sind. Gerade die Übertragung auf Hochsicherheitsbereiche erscheint schwierig, da diese
erstens äußerst niedrige Fehlerbasisraten aufweisen und zweitens nicht mit der gleich gewich-
teten payoff vereinbar sind, da ein miss in Sicherheitssystemen immer weitaus größere Kosten
verursacht als ein false alarm. Trotzdem ist es für die Entwicklung zukünftiger Systeme, die
auch in der Praxis implementiert werden sollen, unerlässlich, in einem ersten Schritt fundierte
Kenntnisse über das Verhalten des Operateurs bzw. die Interaktion zwischen Mensch und
Maschine zu gewinnen, um die gewonnenen Erkenntnisse dann bereits bei der Entwicklung
von Systemen zu berücksichtigen. Dieses prospektive Vorgehen vermeidet, dass ein Produkt
zum Einsatz kommt, welches nicht ausreichend an den Nutzer angepasst ist und post hoc auf
dessen Bedürfnisse angepasst werden muss. Ein prospektives Vorgehen, welches schon
während des Produktentwicklungsprozess von Iterationen durch Nutzerevaluationen geprägt
ist, hilft also, unnötige zeitliche und monetäre Kosten zu sparen (Gérard et al., 2011).
Advertisement
12 Zusammenfassung und Ausblick 133
12 Zusammenfassung und Ausblick
In vorliegender Arbeit wurde der Einfluss der Validierungsmöglichkeit von Alarmen unter-
schiedlicher Zuverlässigkeit auf das Reaktionsverhalten untersucht. Grundlage zu den Studien
war eine Ausgangsstudie, in der das gleiche Paradigma wie in den Studien 1-4 genutzt wurde,
in der den Probanden jedoch keine Validierungsmöglichkeit der Hinweise des Alarmsystems
gegeben worden war. Die Probanden reagierten auf die Entscheidungsunsicherheit mit Ex-
tremreaktionen in den Randbereichen der PPV bzw. NPV, wie dem cry wolf-Effekt bei
niedrigen PPV und einem „over-responding“ in den oberen Bereichen der PPV und NPV. In
den Studien 1-4 wurde der Effekt einer Prüfmöglichkeit auf das Verhalten in Abhängigkeit
der gleichen PPV und NPV untersucht. Dabei wurde angenommen, dass der zeitaufwendige
Prüfprozess nur unter hoher Unsicherheit, also bei einer mittleren Zuverlässigkeit von Alar-
men, auftreten würde, während man bei niedrigen Zuverlässigkeiten den cry wolf-Effekt und
bei hohen Zuverlässigkeiten das direkte Befolgen der Alarme erwarten würde.
Die Befunde aus Studie 1 zeigten, dass die Möglichkeit zur Rohdatenprüfung dazu führte,
dass der cry wolf-Effekt durch die Dominanz der informed compliance bei niedrigen bis
mittel-hohen PPV eliminert wurde. Erst bei einer sehr hohen Zuverlässigkeit wurden die
Alarme im Sinne der compliance direkt befolgt. In grünen Trials reagierten die Probanden mit
einer äußerst sensiblen Anpassung der Prüfrate an kleinste Änderungen im oberen Bereich der
NPV.
Im Rahmen der Erhöhung des Prüfaufwandes in Studie 3 und des workloads in Studie 4
entwickelten sich die (informed) reliance und die (informed) compliance in Abhängigkeit der
NPV bzw. PPV sehr spezifisch. Die (informed) reliance näherte sich bereits unter einem
erhöhten Prüfaufwand an eine probability matching-Strategie an (Bliss, Gilson & Deaton,
1995), während die informed compliance in den Bedingungen 0.1 – 0.7 weiterhin auf einem
unerwartet hohen Niveau dominierte. Unter hohem workload passte sich die reliance fast
perfekt an die NPV an, und die informed compliance näherte sich dem erwarteten umgekehrt
u-förmigen Verlauf an. Der spezifische Einfluss der PPV bzw. NPV auf die compliance bzw.
reliance stützen die Annahme der Distinktheit der Konzepte (Meyer, 2004).
134 Zusammenfassung und Ausblick
In Anbetracht der Ergebnisse lässt sich festhalten, dass Alarmsysteme dann einen maximalen
Gewinn darstellen, wenn der workload eines Operateurs so hoch ist, dass der Operateur
gezwungen ist, seine Ressourcen nach einer möglichst effizienten Verteilungspolitik aufzutei-
len. Ist der workload niedriger, neigen Operateure dazu, ihre Unsicherheit bezüglich der
Validität der Hinweise durch das Prüfen der Rohdaten auf einem überhöhten Niveau zu
reduzieren. Dies führt einerseits dazu, dass wichtige Ressourcen für Nebenaufgaben fehlen
und andererseits dazu, dass das Alarmsystem redundant wird. Umgekehrt zeigten die Ergeb-
nisse der Ausgangsstudie, dass die Gesamtleistung des Mensch-Maschine-Systems ohne die
Bereitstellung einer Validierungsmöglichkeit die Leistung des Alarmsystems allein nicht
übertreffen kann, da der Operateur gezwungen wird, dem System blind zu vertrauen oder es
zu ignorieren.
Einen möglichen Ausweg aus diesem Dilemma bietet das innovative Konzept der likelihood
alarms (LAS; Sorkin, Kantowitz, & Kantowitz, 1988). LAS sind keine binären Alarmsyste-
me, sondern geben Hinweise in unterschiedlichen Abstufungen, die der Sicherheit, mit der die
aktuelle Diagnose gegeben werden kann, entsprechen (Wickens & Colombe, 2007). Die
implizite Information zur Validität einzelner Hinweise kann dem Operateur helfen, sowohl
die Verteilung seiner Aufmerksamkeit als auch seine Handlungsauswahl der Validität des
Hinweises anzupassen (Wiczorek & Manzey, 2011).
Alarmsysteme können Operateure durchaus effizient bei ihrer Arbeit unterstützen und die
Sicherheit eines Prozesses erhöhen. Allerdings müssen bei der Gestaltung dieser Systeme
bereits während des Entwicklungsprozesses nicht nur die optimale Zuverlässigkeit des Sys-
tems, sondern auch der Kontext, die Reaktionsmöglichkeit des Operateurs und mögliche
Konsequenzen berücksichtigt werden. Bei der prospektiven Gestaltung von Alarmsystemen
wird so garantiert, dass es zu einer Minimierung von Redundanzen, Kosten und Überlastung
bei einer gleichzeitigen Maximierung der Produktivität und Sicherheit kommt. In dieser
Arbeit wurden in einem ersten Schritt Grundkenntnisse über den Einfluss unterschiedlicher a
posteriori-Wahrscheinlichkeiten von Alarmen auf das Prüfverhalten von Operateuren gewon-
nen, die dann in zukünftigen Arbeiten an die Praxis angepasst und angewandt werden sollten.
Advertisement
Literatur 135
Literatur
Allendoerfer, K. R., Pai, S., & Friedman-Berg, F. J. (2008). The complexity of signal detec-
tion in air traffic control alert situations. Proceeding of the Human Factors and Ergo-
nomics Society 52nd Annual Meeting, 54 – 58.
Bahner, J.E., Hueper, A..-D. & Manzey, D. (2008). Misuse of automated decision aids:
Complacency, automation bias and the impact of training experience. International
Journal of Human-Computer Studies, 66, 688-699.
Bainbridge, L. (1983). Ironies of automation. Automatica, 19, 775-779
Bitan & Meyer (2007). Self-initiated and respondent actions in a simulated control task.
Ergonomics, 50, 763-788.
Bliss, J.P. (1997). Alarm reaction patterns by pilots as a function of reaction modalitiy.
International Journal of Aviation Psychology, 7, 1-14.
Bliss, J.P. (2003a). Investigation of alarm-related accidents and incidents in aviation. Interna-
tional Journal of Aviation Psychology, 13, 249-268.
Bliss, J.P. (2003b). An investigation of extreme alarm responses of extreme alarm response
patterns in laboratory experiments. Proceedings of the Human Factors and Ergonomics
Society 47th Annual Meeting, 1683-1687. Santa Monica, CA: Human Factors and Ergo-
nomics Society. Denver, CO.
Bliss, J. P. & Acton, S. A. (2003c). Alarm mistrust in automobiles: How collision alarm
reliability affects driving. Applied Ergonomics, 34, 499 – 509.
Bliss, J. P. & Dunn, M. (2000). Behavioural implications of alarm mistrust as a function of
task workload. Ergonomics, 43, 1283-1300.
136 Literatur
Bliss, J. P., Dunn, M. & Fuller, B. S. (1995). Reversal of the cry-wolf effect: an investigation
of two methods to increase alarm response rates. Perceptual and Motor Skills, 80, 1231-
1242.
Bliss, J. P., Gilson, R. D. & Deaton, J. E. (1995). Human probability matching behaviour in
response to alarms of varying reliability. Ergonomics, 38, 2000-2012.
Bliss, J. M. & Kilpatrick, F. (2000). The influence of verbal content on alarm mistrust. Pro-
ceedings of the 2000 Human Factors and Ergnonmics Society Annual Meeting. San Di-
ego, CA.
Bliss, J. P., Jeans, S.M. & Prioux, H.J.(1996). Dual-task performance as a function of individ-
ual alarm validity and alarm system reliability information. Proceedings of the Human
Factors and Ergonomics Society 40th Annual Meeting, 1237-1241. Santa Monica, CA:
Human Factors and Ergonomics Society. Philadelphia, PA.
Bliss, J. P. & McAbee (1995). Alarm responses in a dual task paradigm as a function of
primary task criticality. Proceedings of the Human Factors and Ergonomics Society 39th
Annual Meeting, 1395-1399. Santa Monica, CA: Human Factors and Ergonomics Soci-
ety. San Diego, CA.
Bortz, J. (2005). Statistik für Sozial- und Humanwissenschaftler. Springer: Berlin Heidelberg
New York.
Botzer, A., Meyer, J., Bak, P. & Parmet, Y. (2010). User settings of cue thresholds for binary
categorization decisions. Journal of Experimental Psychology: Applied, 16, 1-15.
Bransby, M. L. & Jenkinson, J. (1998). The management of alarm systems: a review of best
practice in the procurement, design and management of alarm systems in the chemical
and power industries. HSE Research Report CRR 166.
Breznitz, S. (1983). Cry-wolf: the psychology of false alarms. Hillsdale, NJ: Erlbaum.
Advertisement
Literatur 137
Comstock, J. L., & Arnegard, R. J. (1992). The multi-attribute task battery for human opera-
tor workload and strategic behavior research. Technical Report 104174. Hampton, VA:
NASA Langley Research Center.
Cosmides & Tooby (1996). Are humans good intuitive statisticians after all? Rethinking some
conclusion from the literature on judgment under uncertainty. Cognition, 58, 1-73.
Dingus, T. A., McGehee, D. V., Manakkal, N., Jahns, S. K., Carney, C. & Hankey, J. M
(1997). Human factors field evaluation of automotive headway maintenance/collision
warning devices. Human Factors, 39, 216-229.
Dingus, T. A., Wreggit, S. S. & Hathaway J. A. (1993). Warning variables affecting personal
protective equipment use. Safety Science, 16, 655-673.
Dixon, S. R. & Wickens, C. D. (2006). Automation reliability in unmanned aerial vehicle
flight control: A reliance-compliance model of automation dependence in high work-
load. Human Factors, 48, 474 – 486.
Dixon, S.R., Wickens, C.D. & McCarley, J.S. (2007). On the independence of compliance
and reliance: Are automation false alarms worse than misses? Human Factors, 49, 564-
572.
Doane, S. M., Sohn, Y. W. & Jodlowski, M. T. (2004). Pilot ability to anticipate the conse-
quences of flight actions as a function of expertise. Human Factors, 46, 92-103.
Domeinski, J., Wagner, R., Schöbel, M., & Manzey, D. (2007). Human redundancy in auto-
mation monitoring: Effects of social loafing and social compensation. Proceedings of
the Human Factors and Ergonomics Society 51st Annual Meeting, 587-591.
Dzindolet, M. T., Peterson, S , Pomranky, R., Pierce, L. G & Beck, H. (2003). The role of
trust in automation reliance. International Journal of Human-Computer Studies, 58,
697-718.
138 Literatur
Egan, J.P. (1975). Signal Detection Theory and ROC Analysis. New York: Academic Press.
Endsley, M.R. (1995). Toward a theory of situation awareness in dynamic systems. Human
Factors, 37, 32-64.
Endsley, M. R., and Kiris, E. O. (1995). The out-of-the-loop performance problem and level
of control in automation. Human Factors , 37, 381-394.
Fox, J. M. (1996). Effects of information accuracy on user trust and compliance. In CHI 1996
Conference on Human Factors in Computing Systems, 35-36. New York: Association
for Computing Machinery.
Galster, S. M., Bolia, R. S., Roe, M. & Parasuraman, R., 2001. Effect of automated cueing on
decision implementation in a visual search task. Proceedings of the 45th Annual Meeting
of the Human Factors and Ergonomics Society. Santa Monica, CA: Human Factors and
Ergonomics Society, 321-325.
Gérard, N., Huber, S., Nachtwei, J., Satriadarma, B. & Schubert, U. (2011). A framework for
designers to support prospective design of human computer interaction. International
Journal on Human-Computer Interaction, 2, 17-38.
Getty, D.J., Swets, J.A., Pickett, R.M. & Gonthier, D. (1995). System operator response to
warnings of danger: a laboratory investigation of the effects of the predictive value of a
warning on human response time. Journal of Experimental Psychologie: Applied, 1, 19-
33.
Gibson, J.J. (1977). The theory of affordances. In: R. Shaw & J. Bransford (Hrsg.) Perceiv-
ing, acting and knowing. Hillsdale, NJ: Erlbaum.
Hart, S. G., & Staveland, L. E. (1988). Development of NASA-TLX (Task Load Index):
Results of empirical and theoretical research. In P. A. Hancock, & N. Meshkati (Eds.),
Human Mental workload, 139-183. Amsterdam: Elsevier Science Publishers.
Advertisement
Literatur 139
Hauß, Y. & Timpe, K.-P. (2002). Automatisierung und Unterstützung im Mensch-Maschine-
System. In: K.-P. Timpe, T. Jürgensohn & H. Kolrep (Hrsg.), Mensch-Maschine-
Systemtechnik. Konzepte, Modellierung, Gestaltung, Evaluation (2. Auflage). Düssel-
dorf: Symposion.
Hertwig, R. & Erev, I. (2009). The description-experience gap in risky choice. Trends in
Cognitive Sciences, 13, 517-523.
Kahnemann, D., Slovic, P. & Tversky, A. (1982). Judgment under uncertainty: Heuristics
and biases. Cambridge, UK: Cambridge University Press.
Kahnemann, D. & Tversky, A. (1979). Prospect Theory: An analysis of decision under risk.
Econometrica, 47, 263-292
Kantowitz, B. H. & Sorkin, R. D. (1983). Human Factors: Understanding People-System
Relationships. New York: Wiley.
Kantowitz, B. H., Hanowski, R. J., & Kantowitz, S. C. (1997). Driver acceptance of unreli-
able traffic information in familiar and unfamiliar settings. Human Factors, 39, 164–
176.
Kerstholt, J. H. & Passenier, P. O. (2000). Fault management in supervisory control: the
effect of false alarms and support. Ergonomics, 43, 1371-1389.
Lee, J. D. & See, K. A. (2004). Trust in automation: Designing for appropriate reliance.
Human Factors, 46, 50-80.
Lorenz, B., DiNocera, F., Röttger, S. & Parasuraman, R. (2002). Automated fault-
management in a simulated spaceflight micro-world. Aviation, Space and Environ-
mental Medicine, 73, 886-897.
Macmillan, N. A. & Creelman, C.D. (1991). Detection theory: A user’s guide. Cambridge:
Cambridge University Press.
140 Literatur
Madhavan, P., Wiegmann, D.A. & Lacson, F.C. (2006). Automation failures on tasks easily
performed by operators undermine trust in automated aids. Human Factors, 48, 241-
256.
Maltz, M. & Meyer, J. (2001). Use of warnings in an attentionally demanding detection task.
Human Factors, 43, 217-226.
Manzey. D. (1998). Psychophysiologie mentaler Beanspruchung. In: F. Rösler (Hrsg.),
Ergebnisse und Anwendungen der Psychophysiologie. Enzyklopädie der Psychologie,
C, Serie I, Bd. 5, 799-864. Göttingen: Hofgrefe.
Metzger, U. & Parasuraman, R. (2005). Automation in future air traffic management: Effects
of reliable and imperfect detection aids on controller performance and workload, Hu-
man Factors, 47, 35-49.
Meyer, J. (2001). Effects of warning validitiy and proximity on responses to warnings. Hu-
man Factors, 43, 563-572.
Meyer, J. (2004). Conceptual issues in the study of dynamic hazard warnings. Human Fac-
tors, 46, 196-204.
Meyer, J., & Bitan, Y. (2002). Why better operators receive worse warnings. Human Factors,
44, 343-354.
Meyer, J., Feinshreiber, L. and Parmet, Y. (2003). Levels of automation in a simulated failure
detection task. Proceedings of the 2003 IEEE International Conference on Systems,
Man & Cybernetics, 2101--2107.
Molloy, R. & Parasuraman, R. (1996). Monitoring an automated system for a single failure:
vigilance and task complexity effects. Human Factors, 38, 211-322.
Advertisement
Literatur 141
Moray, N., Inagaki, T., & Itoh, M. (2000). Adaptive automation, trust, and self-confidence in
fault management of time-critical tasks. Journal of Experimental Psychology – Applied,
6, 44–58.
Mosier, K. L. & Skitka, L. J. (1996). Human decision-makers and automated decision aids:
Made for each other? In: R. Parasuraman & M. Mouloua (Hrsg.), Automation and Hu-
man Performance: Theory and Applications, 201-220. Mahwah, NJ: Lawrence Erlbaum
Associates.
Murphy, L., Szalma, J. L. & Hancock, P. A. (2004). Comparison of fuzzy signal detection and
traditional signal detection theory: analyses of duration discrimination of brief light
flashes. Proceedings of the 48th Annual Meeting of the Human Factors and Ergonomics
Society. New Orleans, LA: Human Factors and Ergonomics Society, 2494-2498.
NTSB (2006). National transportation safety board safety recommendation A-06-44 through
A-06-47. Washington DC: NTSB.
Nygren, T. W. (1991). Psychometric properties of subjective workload measurement
techniques: Implications for their use in the assessment of perceived workload.
Human Factors, 33, 17-33.
Parasuraman, R., Hancock, P.A. & Olofinboba, O. (1997). Alarm effectiveness in driver-
centered collision-warning systems. Ergonomics, 40, 390-399.
Parasuraman, R. & Manzey, D. (2010). Complacency and bias in human use of automation:
An attentional integration. Human Factors, 52, 381-410.
Parasuraman, R., Masalonis, A.J., & Hancock, P.A. (2000). Fuzzy signal detection theory:
Basic postulates and formulas for analyzing human and machine performance. Human
Factors, 42, 636-659.
142 Literatur
Parasuraman, R., Molloy, R. & Singh, I.L. (1993). Performance consequences of automation-
induced “complacency”. The International Journal of Aviation Psychology, 31, 1-23.
Parasuraman, R. & Riley, V. (1997). Humans and automation: Use, misuse, disuse, abuse.
Human Factors, 39, 230-253.
Parasuraman, R., Sheridan, T. B. & Wickens, C. D. (2000). A model for types and levels of
human interaction with automation. IEEE Transactions on Systems, Man and Cybernet-
ics – Part A: Systems and Humans, 30, 286 – 296.
Rice, S. (2009). Examining single and multiple-process theories of trust in automation.
Journal of General Psychology, 13, 303-319.
Rötting, M., Wozny, G., Klostermann, A. & Huss, J. (2007). Prospektive Gestaltung von
Mensch-Technik Interaktion. Tagungsband der 7. Berliner Werkstatt Mensch-Maschine-
Systeme. Düsseldorf: VDI-Verlag.
Sheridan, T. (1992). Telerobotics, automation and human supervisory control. Cambridge,
MA:MIT Press.
Sorkin, R.D., Kantowitz, B.H. & Kantowitz, S.C. (1988). Likelihood alarm displays. Human
Factors, 30, 445-459.
Sorkin, R. D., & Woods, D.D. (1985). Systems with human monitors: a signal detec-
tion analysis. Human-computer interaction. 1, 49-75.
St. John, M. & Manes, D. I. (2002). Making unreliable automation useful. Proceedings of the
Human Factors and Ergonomics Society 46th Annual Meeting (Santa Monica, CA:
Human Factors and Ergonomics Society).
Swets, J. A. (1964). Signal detection and recognition by human observers. New
York: John Wiley & Sons.
Advertisement
Literatur 143
Swets, J.A. (1992). The science of choosing the right decision threshold in high-stakes diag-
nostics. American Psychologist, 47, 522-532.
Swets, J.A., Tanner, W.P. & Birdsall, T. G. (1961). Decision processes in perception.
Psychological Review, 68, 301-340.
Tversky, A., & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and biases.
Science, 185, 1124-1131.
Tversky, A. & Kahneman D. (1981). The framing of decisions and the psychology of choice.
Science, 211, 453-458.
Wickens, C.D. (1984). Processing resources in attention. In: R. Parasaruman and R. Davies
(Hrsg.), Varieties of attention, 63-101. New York: Academic Press.
Wickens, C.D. (1992). Engineering psychology and human performance (2nd ed.). New York:
HarperCollins.
Wickens, C.D. (2002). Multiple resources and performance prediction. Theoretical Issues in
Ergonomics Science, 3, 159-177.
Wickens, C.D. (2008). Multiple resources and mental workload. Human Factors, 50, 449-
455.
Wickens, C. D. & Colcombe, A. (2007). Dual-task performance consequences of imperfect
alerting associated with a cockpit display of traffic information. Human Factors, 49,
839-850.
Wickens, C.D. & Dixon, S. (2007). The benefits of imperfect diagnostic automation: A
synthesis of the literature. Theoretical Issues in Ergonomics Science,8, 201-212.
Wickens, C. D., Dixon, S. R., Goh, J., & Hammer, B. (2005). Pilot dependence on imperfect
diagnostic automation in simulated UAVflights: An attentional visual scanning analysis.
Technical Report AHFD-05-02/MAAD-05-02. Savoy, IL: Universitiy of Illinois.
144 Literatur
Wickens, C. D. & Hollands, J. G. (2000). Engineering psychology and human performance
(3. Aufl.). Englewood Cliffs, NJ: Prentice-Hall.
Wickens, C.D., Rice, S., Keller, D., Hutchins, S., Hughes, J. & Clayton, K. (2009). False
alerts in air traffic control conflict alerting system: Is there a “cry wolf” effect”? Human
Factors, 51, 446 – 462.
Wickens, C. D. & Xu, X. (2002). Automation trust, reliability and attention. Technical Report
HMI 02-03 (AHFD-02-14/MAAD-02-2). Savoy, IL: University of Illinois.
Wiczorek, R. & Manzey D. (2011). Evaluating likelihood alarm systems as an alternative to
binary alarm systems. In: D. Waard, N. Gérard, L. Onnasch, R. Wiczorek & D. Manzey
(Eds.) Human centred automation, 69-83. Maastricht, the Netherlands: Shaker Publis-
hing.
Advertisement
Begriffsverzeichnis 145
Begriffsverzeichnis
a posteriori: bezeichnet die Wahrscheinlichkeit, dass dieses Ereignis unter der Voraussetzung
dass es durch einen beobachtbaren Wert indiziert wurde, tatsächlich stattgefunden hat.
a priori: bezeichnet die Auftretenswahrscheinlichkeit eines kritischen Ereignisses im System.
compliance: bezeichnet die Tendenz, auf einen Alarm unmittelbar und im erwarteten Sinne zu
reagieren.
correct rejection: bezeichnet im Rahmen der Signaldetektionstheorie eine korrekte Zurück-
weisung des Alarmsystems, das heißt, dass dieses keinen Alarm gibt, wenn tatsächlich auch
kein kritischer zugrundeliegender Zustand vorliegt.
cry wolf-Effekt: bezeichnet das ausbleibende oder zeitlich verzögerte Reagieren eines Opera-
teurs auf einen Alarm.
extreme responding: bezeichnet ein extremes Antwortverhalten auf die Hinweise eines
Alarmsystems, indem entweder auf über 90% oder aber unter 10% aller Alarme reagiert wird.
false alarm: bezeichnet im Rahmen der Signaldetektionstheorie einen Alarm des Alarmsys-
tems, welches fälschlicherweise gegeben wurde, obwohl kein kritisches Ereignis zugrunde
lag.
hit: bezeichnet im Rahmen der Signaldetektionstheorie einen Treffer des Alarmsystems, das
heißt einen Alarm bei einem zugrundeliegenden kritischen Ereignis.
informed compliance: bezeichnet die Tendenz, auf einen Alarm zu reagieren, indem die
Rohdaten hinter dem Alarm überprüft werden.
informed reliance: bezeichnet die Tendenz, auf einen alarm-freien Trial zu reagieren, indem
die Rohdaten überprüft werden. Da dieses Handeln eine Reaktion auf den alarm-freien Trial
impliziert, darf korrekterweise eigentlich nicht mehr von einer Art reliance gesprochen
werden, da diese ja in ihrer Ausgangs-Definition gerade das Nicht-Eingreifen definiert. Um
das Überprüfen der Rohdaten in grünen und in roten Trials jedoch begrifflich möglichst
einfach kontrastieren zu können und um Konfundierungen durch zu viele neue Fach-Termini
zu vermeiden, wird in dieser Arbeit weiterhin der Begriff „informed reliance“ verwendet.
miss: bezeichnet im Rahmen der Signaldetektionstheorie ein durch das Alarmsystem verpass-
tes kritisches Ereignis, das heißt keinen Alarm trotz kritischen Systemzustands.
negative predicitve value: bezeichnet die Wahrscheinlichkeit, dass bei Ausbleiben eines
Alarms auch tatsächlich kein kritisches Ereignis vorliegt.
payoff: bezeichnet ein Punktesystem, bei bestimmte Verhaltensweise durch Punktzugabe oder
–abzug verstärkt bzw. bestraft werden. Die erreichte Punktzahl wird den Probanden am Ende
des Experiments in Form von monetären Mitteln ausgezahlt.
146 Begriffsverzeichnis
probability matching: bezeichnet die Anpassung der Antwortfrequenz des Operateurs an die
Reliabilität des Alarmsystems.
positive predictive value: bezeichnet die Wahrscheinlichkeit, die besagt, dass bei einem
gegebenen Alarm auch tatsächlich ein kritisches Ereignis vorliegt. die NPV repräsentiert
reliance: bezeichnet das Ausbleiben einer Reaktion, wenn das Alarmsystem keinen Alarm
gibt, das heißt keinen kritischen Zustand anzeigt.
tracking: bezeichnet eine Gruppe von Aufgaben, in denen das übergeordnete Ziel ist, ein
statisches oder sich bewegendes Objekt zu detektieren und möglichst genau zu verfolgen bzw.
zu treffen.
trade-off: bezeichnet eine Entscheidung im Sinne eines Kompromisses zwischen zwei gegen-
läufig abhängigen Faktoren.
trial: bezeichnet einen einzelnen Versuchsdurchgang innerhalb eines Blocks. Ein Trial
entspricht in vorliegenden Studien also einem Reaktionsbehälter.
workload: bezeichnet in einem ersten Schritt die mentale Belastung, die ein Operateur durch
die jeweilige Anzahl und Art der Arbeitsaufgaben und Situationsfaktoren wie Zeitdruck
erfährt. Diese mentale Belastung resultiert dann ein einer differentiell empfundenen Bean-
spruchung, die abhängig ist vom Zustand und den coping-Fähigkeiten des Individuums.
Advertisement
Abbildungsverzeichnis 147
Abbildungsverzeichnis
Abbildung 1: Automationsstufen für zwei Beispiel-Systeme (nach Parasuraman, Sheridan &
Wickens, 2000, S. 288)...........................................................................................12
Abbildung 2: Drei-stüfiges Entscheidungsmodell (nach Allendoerfer, Pai & Friedman-Berg
(2008)......................................................................................................................15
Abbildung 3: Wahrscheinlichkeitsverteilung der Systemzustände, Sensitivität und
Antwortkriterium ....................................................................................................19
Abbildung 4: ROC-Kurve (nach Macmillan & Creelamn, 1991).............................................21
Abbildung 5: Einfluss der Fehler-Basisrate auf PPV und NPV ...............................................28
Abbildung 6: multiples Prozessmodell nach Rice (2009).........................................................32
Abbildung 7: Hypothetischer umgekehrt u-förmiger Verlauf der informed compliance und
asymptotisch ansteigender Verlauf der compliance. ..............................................43
Abbildung 8: Das Interface von M-TOPS 2 .............................................................................47
Abbildung 9: mitteleres Bearbeiten von Alarmtrials in Prozent und abolute Anzahl von
extremen Antwortstrategien....................................................................................53
Abbildung 10: mittleres Bearbeiten von alarm-freien Trials in Prozent und abolute Anzahl von
extremen Antwortstrategien....................................................................................54
Abbildung 11: Prozentualer Anteil von korrekten Reaktionen an allen gezeigten Reaktionen in
Alarmtrials, gemittelt über beide Experimentalblöcke...........................................71
Abbildung 12: Verhaltensanteile in Alarmtrials, gemittelt über beide Experimentalblöcke....72
Abbildung 13: Prozentualer Anteil von korrekten Reaktionen an allen gezeigten Reaktionen in
alarmfreien Trials, gemittelt über beide Experimentalblöcke.................................74
Abbildung 14: Verhaltensanteile in alarm-freien Trials, gemittelt über beide Experimentalblöcke
.................................................................................................................................76
Abbildung 15: Verhaltensanteile in Alarmtrials.......................................................................92
Abbildung 16: Prüfmenü in der erweiterten Form von M-TOPS 2..........................................97
Abbildung 17: Anteil an korrekt bearbeiteten Containern in roten und grünen Trials...........101
Abbildung 18: Verhaltensanteile in Alarmtrials.....................................................................102
Abbildung 19: Verhaltensanteile in alarm-freien Trials.........................................................103
Abbildung 20: Anteil an korrekt bearbeiteten Containern in roten und grünen Trials...........116
Abbildung 21: Verhaltensanteile in Alarmtrials.....................................................................117
Abbildung 22: Verhaltensanteile in alarm-freien Trials.........................................................118
148 Tabellenverzeichnis
Tabellenverzeichnis
Tabelle 1: Ereignis-Reaktions-Matrix…………………………..................................................17
Tabelle 2: Manipulierte Basisrate und die resultierenden PPV und NPV in der
Ausgangsstudie..…………………………...………………………………….....….51
Tabelle 3: Mittelwerte und Standardabweichungen der geschätzten PPV und NPV in der
Ausgangsstudie …………………………………………….…………………….…52
Tabelle 4: Mittelwerte und Standardabweichungen der geschätzten PPV und NPV
in Studie 1……………..……………………...………………………………..…....68
Tabelle 5: Manipulierte Basisrate und resultierende PPV in Studie 2…..…………….….……...90
Tabelle 6: Mittelwerte und Standardabweichungen der geschätzten PPV und
NPV in Studie 3…………………..……………………………………………........99
Tabelle 7: Mittelwertsunterschiede der Items Zeitdruck, Frustration und Zufriedenheit des
NASA-TLX zwischen den Studien 1 und 3………………….….………………….100
Tabelle 8: Mittelwerte und Standardabweichungen der geschätzten PPV und NPV
in Studie 4…………………………………………………………………………..114
Tabelle 9: Mittelwertsunterschiede der Items Zeitdruck, Frustration und Zufriedenheit des
NASA-TLX zwischen den Studien 1 und 4…..………………………………….…114
Advertisement
Anhang 149
Anhang
Anhang A: Werte des Expected Value für die einzelnen Bedingungen in Alarmtrials………...150
Anhang B: Instruktion zu den Experimenten 1 + 2………………………………………...…..151
Anhang C: Multiple-Choice-Fragebogen zur Verständnisabfrage……………………………..158
Anhang D: Schätzfragebogen…………………………………………………………………..159
Anhang E: Auszug des NASA-TLX……………………………………………………………161
Anhang F: Deskriptive Statistiken der Ausgangsstudie……………………………………...…164
Anhang G: Deskriptive Statistiken von Studie 1…………………………………………….…165
Anhang H: Deskriptive Statistiken von Studie 2……………………………………………….166
Anhang I: Deskriptive Statistiken von Studie 3…………………………………………...……167
Anhang J: Deskriptive Statistiken von Studie 4……………………………………..…………168
150 Anhang A
Anhang A - Werte des Expected Value für die einzelnen Bedingungen in
Alarmtrials
In Kapitel 7.3.3 wurde der Wert bei der impliziten Entscheidungsfindung des „expected
value“ diskutiert. Dieser Wert vereint die Basisrate, die PPV und die NPV mit dem Outcome,
der für die möglichen Reaktionen zu erwarten ist. Bei Werten unter 1 wird der Gewinn
demnach mit einem Ignorieren des Signals oder des Alarms maximiert, bei Werten unter 1 mit
dem direkten Befolgen des Alarms. Generiert man mit dieser Formel eine Entscheidungshilfe
für vorliegende PPV und den Outcome für hits, misses, false alarms und correct rejections,
erhält man folgende Werte für Alarmtrials in den einzelnen Bedingungen:
PPV = 0.1, expected value = 0,11
PPV = 0.3, expected value = 0,43
PPV = 0.5, expected value = 1
PPV = 0.7, expected value = 2,33
PPV = 0.9, expected value = 9
Die vorliegenden Werte lassen erkennen, dass die mittlere PPV von 0.5 eine maximale Unsi-
cherheit generiert (Ignorieren und Befolgen von Alarmen führt zum gleichen Outcome). Unter
dieser Bedingung ist das Prüfen die einzige Möglichkeit, die Unsicherheit zu reduzieren und
somit den Outcome zu erhöhen. Bei PPV von 0.3 und 0.7 weicht der expected value schon
deutlich weiter von 1 ab bis bei den zwei extremen PPV 0.1 und 0.9 anhand der deutlich von
1 abweichenden Werte klar das Ignorieren bzw. direkte Befolgen des Alarms vorzuziehen ist.
Advertisement
Anhang B 151
Anhang B - Instruktionen zu den Experimenten 1 und 2
152 Anhang B
Advertisement
Anhang B 153
154 Anhang B
Advertisement
Anhang B 155
156 Anhang B
Advertisement
Anhang B 157
158 Anhang C
Anhang C – Multiple-Choice-Fragebogen zur Verständnisabfrage
Verständnis-Abfrage
Du hast eben ein paar Minuten lang Reaktionsbehälter überwacht.
Welche Möglichkeiten gibt es für dich, auf einen Container zu reagieren – unabhängig davon, ob
das Warnsystem einen Alarm (rotes Licht) gibt oder nicht (grünes Licht)?
Welche unten genannten Aussagen sind theoretisch richtig, wenn ein Container auf deinem
Überwachungsmonitor ist?
(Mehrfachnennungen sind möglich.)
ich kann den Reaktionsbehälter ignorieren und gar nichts tun
ich kann den Druck eines Reaktionsbehälters prüfen, dann „weiter“ klicken und weiß
dann zu 100 Prozent, ob ein Fehler im Reaktionsbehälter vorlag oder nicht
ich kann die Temperatur und den Druck eines Reaktionsbehälters prüfen und weiß dann
zu 100 Prozent, ob ein Fehler im Reaktionsbehälter vorlag oder nicht
ich kann einen Reaktionsbehälter direkt bearbeiten ohne zu prüfen
ich kann die Temperatur eines Reaktionsbehälters prüfen, dann „weiter“ klicken und weiß
dann zu 100 Prozent, ob ein Fehler im Reaktionsbehälter vorlag oder nicht
Advertisement
Anhang D 159
Anhang D – Schätzfragebogen am Beispiel der Bedingung PPV = 0.1
Blätter bitte erst um, wenn du diese Seite vollständig bearbeitest hast!
Du hast gerade mit einem Warnsystem gearbeitet, das dich bei Fehlern in Reaktionsbehältern warnen soll.
Ein Fehler in einem Reaktionsbehälter ist ein zu hohes Molekulargewicht, verursacht durch eine zu hohe
Temperatur.
In diesem Durchgang hast du ca. 100 Container kontrolliert.
Uns interessiert nun, wie zuverlässig du dieses System erlebt hast. Deswegen wirst du weiter unten
einschätzen, wie viele korrekte und inkorrekte Hinweise das System gegeben hat.
Korrekte Entscheidungen sind:
Æ Alarm (rote Lampe) und es lag tatsächlich ein Fehler vor (Temperatur zu hoch)
Æ kein Alarm (grüne Lampe) und es lag KEIN Fehler vor
Inkorrekte Entscheidungen sind:
Æ Alarm (rote Lampe) obwohl KEIN Fehler vorlag
Æ kein Alarm (grüne Lampe) obwohl ein Fehler vorlag (Temperatur zu hoch)
Angenommen, du hättest 100 Container kontrolliert, für die du jeweils eine Diagnose vom Warnsystem
bekommen hast: wie würdest du diese 100 Diagnosen in die folgende Häufigkeitsmatrix einordnen?
(Die Gesamtsumme aus allen vier Feldern muss 100 ergeben)
Wenn du die vier Felder ausgefüllt hast, überprüfe bitte noch einmal, ob die Summe aller vier Felder 100
ergibt. Dann kannst du umblättern.
Rote Lampe
(Alarm)
Grüne Lampe
(kein Alarm)
Korrekte
Entscheidungen
Alarm UND
Fehler
geschätzte
Anzahl:
_ _
Kein Alarm UND
kein Fehler
geschätzte
Anzahl:
_ _
Inkorrekte Entschei-
dungen
Alarm
OBWOHL
kein Fehler
geschätzte
Anzahl:
_ _
Kein Alarm
OBWOHL
Fehler
geschätzte
Anzahl:
_ _
160 Anhang D
Nun erfährst du, wie die tatsächliche Verteilung der Alarme auf die verschiedenen Felder ausfiel:
Wende dich jetzt bitte an die Versuchsleiterin.
Rote Lampe
(Alarm)
Grüne Lampe
(kein Alarm)
Korrekte
Entscheidungen
Alarm
UND
Fehler
Anzahl:
4
Kein Alarm
UND
kein Fehler
Anzahl:
57
Inkorrekte Entschei-
dungen
Alarm
OBWOHL
kein Fehler
Anzahl:
38
Kein Alarm
OBWOHL
Fehler
Anzahl:
1
Advertisement
Anhang E 161
Anhang E – Fragebogen zur subjektiven Anstrengung: NASA-TLX
162 Anhang E
Advertisement
Anhang E 163
164 Anhang F
Anhang F – Deskriptive Statistiken zur Ausgangsstudie
Mittleres Bearbeiten mit Standardabweichung in roten und grünen Trials in Prozent. Das
mittlere Ignorieren ergibt sich entsprechend durch die Subtraktion des anteiligen Bearbeitens
von 100
PPV/NPV Bearbeiten in Alarmtrials Bearbeiten in alarm-freien
Trials
.1 / .98 M = 25
SD = 49
M = 02
SD = 04
.3 / .93 M = 36
SD = 34
M = 02
SD = 05
.5 / .86 M = 46
SD = 35
M = 04
SD = 07
.7 / .72 M = 86
SD = 19
M = 10
SD = 16
.9 / .41 M = 94
SD = 09
M = 36
SD = 75
Advertisement
Anhang G 165
Anhang G – Deskriptive Statistiken zu Studie 1
Alarmtrials Alarm-freie Trials
PPV/NPV Bearbeiten Prüfen Ignorieren Bearbeiten Prüfen Ignorieren
.1 / .98 M = 0
SD = 0
M = 80
SD = 20
M = 19
SD = 20
M = 0
SD = 0
M = 08
SD = 14
M = 92
SD = 14
.3 / .93 M = 1
SD = 2
M = 83
SD = 12
M = 16
SD = 10
M = 0
SD = 0
M = 42
SD = 34
M = 58
SD = 34
.5 / .86 M = 11
SD = 19
M = 68
SD = 25
M = 21
SD = 15
M = 1
SD = 2
M = 36
SD = 28
M = 63
SD = 28
.7 / .72 M = 22
SD = 23
M = 63
SD = 27
M = 14
SD = 07
M = 0
SD = 1
M = 67
SD = 28
M = 33
SD = 28
.9 / .41 M = 62
SD = 34
M = 28
SD = 34
M = 09
SD = 05
M = 4
SD = 12
M = 70
SD = 25
M = 25
SD = 23
Mittlere Verhaltensanteile mit Standardabweichung in roten und grünen Trials in Prozent
PPV/NPV Anteil korrekt in roten Trials Anteil korrekt in grünen Trials
.1 / .98 M = 98
SD = 04
M = 99
SD = 01
.3 / .93 M = 96
SD = 05
M = 96
SD = 03
.5 / .86 M = 92
SD = 10
M = 92
SD = 06
.7 / .72 M = 85
SD = 11
M = 90
SD = 10
.9 / .41 M = 88
SD = 07
M = 87
SD = 16
Mittlerer Anteil an korrekt bearbeiteten Containern
PPV/NPV Punktzahl Bestellaufgabe Punktzahl Überwachungsaufgabe
.1 / .98 M = 85
SD = 21
M = 271
SD = 33
.3 / .93 M = 74
SD = 24
M = 238
SD = 38
.5 / .86 M = 63
SD = 24
M = 220
SD = 37
.7 / .72 M = 79
SD = 26
M = 213
SD = 76
.9 / .41 M = 74
SD = 19
M = 183
SD = 39
Mittlere erreichte Punktzahl in der Bestell- und Überwachungsaufgabe
166 Anhang H
Anhang H – Deskriptive Statistiken zu Studie 2
PPV Bearbeiten Prüfen Ignorieren
.7 M = 21
SD = 32
M = 66
SD = 33
M = 13
SD = 6
.75 M = 43
SD = 33
M = 46
SD = 33
M = 11
SD = 3
.8 M = 34
SD = 31
M = 49
SD = 34
M = 17
SD = 8
.85 M = 42
SD = 41
M = 46
SD = 40
M = 11
SD = 9
.9 M = 52
SD = 38
M = 38
SD = 39
M = 10
SD = 8
Mittlere Verhaltensanteile mit Standardabweichung in Alarmtrials in Prozent
Advertisement
Anhang I 167
Anhang I – Deskriptive Statistiken zu Studie 3
Alarmtrials Alarm-freie Trials
PPV / NPV Bearbeiten Prüfen Ignorieren Bearbeiten Prüfen Ignorieren
.1 / .98 M = 01
SD = 4
M = 64
SD = 32
M = 28
SD = 34
M = 00
SD = 00
M = 03
SD = 07
M = 96
SD = 09
.3 / .93 M = 09
SD = 17
M = 78
SD = 26
M = 11
SD = 12
M = 00
SD = 01
M = 21
SD = 35
M = 76
SD = 37
.5 / .86 M = 13
SD = 19
M = 69
SD = 23
M = 13
SD = 22
M = 00
SD = 00
M = 25
SD = 34
M = 74
SD = 36
.7 / .72 M = 39
SD = 42
M = 50
SD = 36
M = 06
SD = 05
M = 05
SD = 18
M = 35
SD = 36
M = 54
SD = 40
.9 / .41 M = 74
SD = 25
M = 17
SD = 21
M = 09
SD = 07
M = 19
SD = 37
M = 55
SD = 38
M = 24
SD = 24
Mittlere Verhaltensanteile mit Standardabweichung in roten und grünen Trials in Prozent
PPV/NPV Anteil korrekt in roten Trials Anteil korrekt in grünen Trials
.1 / .98 M = 96
SD = 06
M = 99
SD = 01
.3 / .93 M = 89
SD = 14
M = 95
SD = 03
.5 / .86 M = 84
SD = 17
M = 87
SD = 05
.7 / .72 M = 82
SD = 10
M = 80
SD = 12
.9 / .41 M = 85
SD = 04
M = 74
SD = 17
Mittlerer Anteil an korrekt bearbeiteten Containern
PPV/NPV Punktzahl Bestellaufgabe Punktzahl Überwachungsaufgabe
.1 / .98 M = 89
SD = 23
M = 135
SD = 20
.3 / .93 M = 87
SD = 23
M = 108
SD = 16
.5 / .86 M = 84
SD = 26
M = 93
SD = 17
.7 / .72 M = 83
SD = 26
M = 83
SD = 18
.9 / .41 M = 84
SD = 23
M = 104
SD = 23
Mittlere erreichte Punktzahl in der Bestell- und Überwachungsaufgabe
168 Anhang J
Anhang J – Deskriptive Statistiken zu Studie 4
Alarmtrials Alarm-freie Trials
PPV / NPV Bearbeiten Prüfen Ignorieren Bearbeiten Prüfen Ignorieren
.1 / .98 M = 00
SD = 00
M = 45
SD = 34
M = 55
SD = 34
M = 00
SD = 00
M = 02
SD = 06
M = 98
SD = 06
.3 / .93 M = 06
SD = 16
M = 75
SD = 24
M = 19
SD = 14
M = 00
SD = 00
M = 10
SD = 12
M = 90
SD = 12
.5 / .86 M = 22
SD = 31
M = 52
SD = 30
M = 26
SD = 19
M = 00
SD = 01
M = 25
SD = 24
M = 75
SD = 24
.7 / .72 M = 57
SD = 32
M = 25
SD = 28
M = 19
SD = 21
M = 00
SD = 00
M = 31
SD = 30
M = 69
SD = 30
.9 / .41 M = 55
SD = 32
M = 30
SD = 26
M = 15
SD = 11
M = 01
SD = 03
M = 66
SD = 22
M = 33
SD = 23
Mittlere Verhaltensanteile mit Standardabweichung in roten und grünen Trials in Prozent
PPV/NPV Anteil korrekt in roten Trials Anteil korrekt in grünen Trials
.1 / .98 M = 94
SD = 05
M = 98
SD = 01
.3 / .93 M = 86
SD = 15
M = 92
SD = 03
.5 / .86 M = 76
SD = 15
M = 88
SD = 06
.7 / .72 M = 70
SD = 12
M = 80
SD = 11
.9 / .41 M = 80
SD = 08
M = 78
SD = 14
Mittlerer Anteil an korrekt bearbeiteten Containern
PPV/NPV Punktzahl Bestell-
aufgabe
Punktzahl Tankfüll-
aufgabe
Punktzahl Überwachungs-
aufgabe
.1 / .98 M = 87
SD = 23
M = 91
SD = 33
M = 138
SD = 06
.3 / .93 M = 70
SD = 21
M = 83
SD = 15
M = 113
SD = 23
.5 / .86 M = 73
SD = 23
M = 84
SD = 17
M = 87
SD = 24
.7 / .72 M = 78
SD = 22
M = 96
SD = 14
M = 78
SD = 28
.9 / .41 M = 65
SD = 23
M = 88
SD = 15
M = 96
SD = 29
Mittlere erreichte Punktzahl in der Bestell-, Tankfüll- und Überwachungsaufgabe
Advertisement