Verhaltenseffektivität von Alarmen: Experimentelle Untersuchungen zum Einfluss von Reliabilität und Prüfmöglichkeit auf die Anwendung von Heuristiken [original]

Verhaltenseffektivität von Alarmen:

Experimentelle Untersuchungen zum Einfluss von Reliabilität

und Prüfmöglichkeit auf die Anwendung von Heuristiken

Von der Fakultät V

für Verkehrs- und Maschinensysteme

der Technischen Universität Berlin

im DFG-Graduiertenkolleg

„Prospektive Gestaltung von Mensch-Technik-Interaktion“

zur Erlangung des akademischen Grades

eines Doktors der Naturwissenschaften (Dr. rer. nat.)

genehmigte Dissertation.

vorgelegt von

Dipl.-Psych. Nina Gérard

aus Heidelberg

Promotionsausschuss:

Vorsitzender: Prof. Dr.-Ing. Henning Meyer

Gutachter: Prof. Dr. phil. Dietrich Manzey

Gutachter: Prof. Dr.-Ing. Günter Wozny

Tag der wissenschaftlichen Aussprache: 16. Dezember 2011

Berlin 2012

D 83

Danksagung

Das Entstehen der vorliegenden Arbeit hat nicht nur mich in den letzten Jahren eingehend

beschäftigt, sondern noch zahlreiche andere Personen, die das Gelingen dieser Arbeit maß-

geblich unterstützt haben und ohne die ich von dieser intensiven Zeit nicht hätte so profitieren

können. An erster Stelle möchte ich dabei meinem Doktorvater Dietrich Manzey danken, der

seinem Namen durch eine intensive Betreuung alle Ehre machte. Vor allem durch seine

Konsequenz habe ich in den vier Jahren sehr viel dazugelernt und mich weiterentwickelt.

Ähnliche Geduld wies auch Marcus Bleil bei der Programmierung und Umprogrammierung

des Untersuchungs-Paradigmas auf, welches mir die Experiment-Durchführung und -

Auswertung so komfortabel wie möglich gestaltete.

Vielen Dank für die stets sehr motivierte und engagierte Mithilfe meiner studentischen Hilfs-

kräfte Thomas Nicolai, Paul Hoepner und Marlene Vogel; für das Durchführen und Doku-

mentieren von zwei mir sehr wichtigen Untersuchungen ein großes Lob und Danke an meine

Masterstudentin Ulrike Schmuntzsch und meine Diplomandin Juliane Zorn.

Auf der motivationalen Ebene möchte ich meinen Kolleg/innen des Graduiertenkollegs

prometei für die unvergessliche Zeit danken. Ich habe selten einen solchen Zusammenhalt,

eine solche Hilfsbereitschaft und Loyalität erlebt wie sie täglich in „unserem Gang“ zu spüren

war. Ich danke Anna, Anne, Christian, Janna, Micha, Nele und Rebecca fürs Zuhören, Erzäh-

len, Aufmuntern, Beruhigen, Motivieren, Ablenken und dafür, dass diese Zeit nicht nur mit

Arbeit, sondern auch mit tollen Erlebnissen und Situationen verbunden war. Besonderen

Dank meinen „Doktorgeschwistern“ Rebecca und Torsten, mit denen der fachliche Austausch

über etliche Blockaden hinweg half und die einem immer das Gefühl gaben, das Richtige zu

tun.

Vielen Dank für die großzügigen finanziellen Mittel der DFG; vor allem für das Ermöglichen,

Familie und Forschung unter einen Hut zu bringen.

Last but not least möchte ich von ganzem Herzen den beiden Menschen danken, die wohl am

meisten unter den unterschiedlichen Entstehungsphasen der Arbeit bzw. meinen damit ver-

bundenen Launen leiden mussten. Meinem Freund Dirk danke ich dafür, dass er besagte

Launen immer – mal mit Humor, mal mit Verständnis – zu behandeln wusste. Ohne seinen

vollen zeitlichen, fürsorglichen, motivationalen und emotionalen Einsatz wäre ich wohl

verzweifelt. Meiner Tochter Mieka danke ich für das Ausstrahlen unendlicher Energie und

Lebensfreude, das einem immer wieder dabei half, die Prioritäten richtig zu setzen.

Kurzzusammenfassung

Die zunehmende Übertragung von Aufgaben vom Menschen auf die Maschine führte in den

letzten Jahren dazu, dass die Rolle des Menschen als aktiver Operateur zunehmend durch die

des Überwachers eines Prozesses bzw. zugrundeliegenden Systems ersetzt wurde. Bei der

Überwachung komplexer Prozesse, in denen Produktivität und Sicherheit eine übergeordnete

Rolle spielen – wie zum Beispiel in der Produktionsindustrie (Chemieanlagen, Kernkraftwer-

ke) – werden Operateure von Alarmsystemen in ihrer Überwachungsaufgabe unterstützt.

Diese Systeme geben dem Operateur binäre Hinweise (Alarm oder kein Alarm) über den

Zustand des Systems. Um dabei keine kritischen Systemzustände zu verpassen, wird die

Reaktionsschwelle eines Alarmsystems üblicherweise sehr niedrig angesetzt, was zum Prob-

lem eines hohen Anteils falscher Alarme führt. Um trotz der resultierenden Flut von Alarmen

Ressourcen für die Überwachungsaufgabe und mögliche Nebenaufgaben aufrecht zu erhalten,

ist eine verbreitete Strategie, einen Großteil von Alarmen zu ignorieren. Diesen sogenannten

cry wolf-Effekt findet man überwiegend in Studien, die Probanden in experimentellen Labor-

untersuchungen vor die Wahl stellen, den Hinweisen des Alarmsystems blind zu folgen oder

diese zu ignorieren. In diesem Zusammenhang können zwei unabhängige Verhaltenstenden-

zen unterschieden werden: compliance bezeichnet das direkte Befolgen eines Alarms im

erwarteten Sinne während die reliance das Ausbleiben einer solchen Reaktion in einer alarm-

freien Phase meint. In dieser Arbeit wird in Laborexperimenten die Zuverlässigkeit der

Hinweise eines Alarmsystems im Rahmen einer Simulation von Aufgaben von Schichtarbei-

tern einer chemischen Leitwarte manipuliert. Dabei wird primär untersucht, welchen Einfluss

die Möglichkeit, die Hinweise des Alarmsystems durch aktiven Zugriff auf die Rohdaten zu

validieren, auf den cry wolf-Effekt hat. Das Reagieren auf einen Hinweis des Systems durch

Prüfen der Rohdaten wird als informed compliance bzw. informed reliance bezeichnet. In der

ersten Studie verschwand unter der Prüf-Option der cry wolf-Effekt. Dabei unterschieden die

Probanden nicht zwischen niedrigen und hohen Zuverlässigkeiten, sondern prüften die Roh-

daten auf einem durchgängig hohen Niveau. Erst bei einer sehr hohen Zuverlässigkeit domi-

nierte die compliance über die informed compliance. Selbst eine aufwendigere Operationali-

sierung des Prüfprozesses konnte die hohe Prüfrate nicht bedeutsam senken (Studie 3). Erst

als die Beanspruchung in Form des workloads in einer weiteren Studie durch eine zusätzliche

Nebenaufgabe erhöht wurde, tauchte der cry wolf-Effekt in der Bedingung mit der niedrigsten

Zuverlässigkeit wieder auf (Studie 4).

Schlagworte: Alarmsysteme, Signaldetektionstheorie, Reliance, Compliance, Cry Wolf-Effekt

Abstract

Recently, the main task of operators working with complex systems has shifted from actively

leading the process to rather passively monitoring the process. This is due to the increased use

of alarm systems that are supposed to support the operator in detecting critical events in the

underlying system. System failures can lead to severe safety-critical consequences, in particu-

lar in high safety environments as in cockpits or power plants and can further lead to substan-

tial additional costs in production processes as in chemical or technical plants. Alarm systems

are very sensitive to any divergences of standard values and give binary cues (an alarm vs. no

alarm) to the operator so that he can allocate his attention to secondary tasks. In order to

prevent the miss of a critical event, the threshold for an alarm is usually set rather low which

leads to the problem of increased false alarms. A common strategy of operators to cope with

this alarm flood is to ignore an alarm if the reliabililty of the alarm proves to be low. This so-

called cry wolf-effect has mainly been found in experimental studies that forced the partici-

pants to either directly comply with the cue of the alarm system or to ignore it. In this context,

one can distuinguish between two independent behavioral tendencies to a cue of an alarm

system: compliance refers to the tendency to react immediately and in the expected way to an

alarm whereas reliance means the omission of such a response if the alarm system signals no

critical event. The present work aims to analyze behavioral tendencies to cues in a laboratory

setting while offering participants the possibility to check the raw data behind a given cue.

Reacting to a cue by validating it is referred to as informed compliance (and informed reli-

ance, respectively). The main goal of this thesis is to explore the effect of the cross-checking

option on the cry wolf-effect in the context of varying reliabilities. In the first study, the cry

wolf-effect was indeed eliminated by a high checking rate throughout four levels of low to

high levels of reliability. Only under the condition of a very high reliability the participants

started to comply directly with the alarm. Even with a more complex and time-consuming

checking procedure as realized in study 3, these results could be replicated. In the final study,

only an augmented workload – operationalised by an additional concurrent task – made the

cry wolf-effect re-appear in the condition with the lowest reliability.

Keywords: Alarm Systems, Signal Detection Theory, Reliance, Compliance, Cry Wolf-Effect

Inhalt

1 Einleitung 7

2 Theoretischer Hintergrund 9

2.1 Automation......................................................................................................................... 9

2.2 Alarmsysteme................................................................................................................... 12

2.3 Signaldetektionstheorie.................................................................................................... 16

2.3.1 Parameter der Signaldetektionstheorie ................................................................. 18

2.3.2 Bayes-Statistik und Signaldetektionstheorie ........................................................ 22

2.4 Erwartungswerte und Payoff-Strukturen.......................................................................... 23

2.5 Zuverlässigkeit von Alarmsystemen als verhaltenssteurendes Merkmal......................... 25

2.5.1 Die Konzepte der reliance und compliance.......................................................... 30

2.5.2 Verhaltensphänomene im Umgang mit Alarmen ................................................. 32

2.6 Kritische Diskussion bisheriger Forschung...................................................................... 39

3 Die Konzepte der Informed Compliance und Informed Reliance 42

4 Fragestellung und Untersuchungen 44

5 Die Experimentalumgebung M-TOPS 2 46

6 Ausgangsstudie: Reaktionsmöglichkeiten auf Alarme ohne Prüfmöglichkeit 50

6.1 Versuchsplan.................................................................................................................... 50

6.2 Ablauf............................................................................................................................... 51

6.3 Ergebnisse ........................................................................................................................ 52

6.4 Diskussion........................................................................................................................ 55

7 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt 57

7.1 Forschungsfrage ............................................................................................................... 57

7.2 Hypothesen....................................................................................................................... 58

7.3 Methode............................................................................................................................ 59

7.3.1 Stichprobe............................................................................................................. 59

7.3.2 Versuchsplan......................................................................................................... 60

7.3.3 Ablauf ................................................................................................................... 60

7.4 Abhängige Variablen........................................................................................................ 64

7.4.1 Manipulations-Check............................................................................................ 64

7.4.2 Allgemeine Leistung............................................................................................. 65

7.4.3 Spezifische Leistungs- und Verhaltensmaße in roten und grünen Trials ............. 65

7.4.4 Subjektive Beanspruchung ................................................................................... 67

7.5 Ergebnisse ........................................................................................................................ 67

7.5.1 Manipulations-Check............................................................................................ 67

7.5.2 Allgemeine Leistung............................................................................................. 68

7.5.3 Leistung und Verhalten in roten Trials................................................................. 71

7.5.4 Leistung und Verhalten in grünen Trials.............................................................. 74

7.5.5 Subjektive Beanspruchung ................................................................................... 76

7.6 Diskussion........................................................................................................................ 77

8 Experiment 2: Feinanalyse des Verlaufs der compliance im Bereich 0.7 – 0.9 88

8.1 Forschungsfrage ............................................................................................................... 88

8.2 Methode............................................................................................................................ 89

8.2.1 Stichprobe............................................................................................................. 89

8.2.2 Versuchsplan......................................................................................................... 89

8.2.3 Ablauf ................................................................................................................... 90

8.3 Abhängige Variablen........................................................................................................ 90

8.4 Ergebnisse ........................................................................................................................ 91

8.4.1 Manipulations-Check............................................................................................ 91

8.4.2 Anteil Verhalten.................................................................................................... 91

8.5 Diskussion........................................................................................................................ 92

9 Experiment 3: Einfluss eines erhöhten Prüfaufwandes 94

9.1 Forschungsfrage und Hypothesen.................................................................................... 94

9.2 Erweiterung des Pardigmas M-TOPS 2 ........................................................................... 96

9.3 Methode............................................................................................................................ 97

9.3.1 Stichprobe............................................................................................................. 97

9.3.2 Versuchsplan......................................................................................................... 97

9.3.3 Ablauf ................................................................................................................... 98

9.4 Abhängige Variablen........................................................................................................ 98

9.5 Ergebnisse ........................................................................................................................ 99

9.5.1 Manipulations-Check............................................................................................ 99

9.5.2 Allgemeine Leistung........................................................................................... 100

9.5.3 Leistung und Verhalten in roten Trials............................................................... 101

9.5.4 Leistung und Verhalten in grünen Trials............................................................ 102

9.5.5 Subjektive Beanspruchung ................................................................................. 104

9.6 Diskussion...................................................................................................................... 104

10 Experiment 4: Einfluss eines erhöhten workloads 110

10.1 Forschungsfrage und Hypothesen.................................................................................. 110

10.2 Die Experimentalumgebung M-TOPS 2........................................................................ 111

10.3 Methode.......................................................................................................................... 112

10.3.1 Stichprobe........................................................................................................... 112

10.3.2 Versuchsplan....................................................................................................... 112

10.3.3 Ablauf ................................................................................................................. 113

10.4 Abhängige Variablen...................................................................................................... 113

10.5 Ergebnisse ...................................................................................................................... 113

10.5.1 Manipulations-Check.......................................................................................... 113

10.5.2 Allgemeine Leistung........................................................................................... 114

10.5.3 Leistung und Verhalten in roten Trials............................................................... 115

10.5.4 Leistung und Verhalten in grünen Trials............................................................ 117

10.5.5 Subjektive Beanspruchung ................................................................................. 118

10.6 Diskussion...................................................................................................................... 119

11 Zusammenfassende Diskussion 125

12 Zusammenfassung und Ausblick 133

Literatur 135

Begriffsverzeichnis 145

Abbildungsverzeichnis 147

Tabellenverzeichnis 148

Anhang 149

1 Einleitung 7

1 Einleitung

In den letzten Jahren hat sich die Technik rasant entwickelt. Dies führt unter anderem dazu,

dass immer mehr Systeme gestaltet werden, die dem Menschen bei der Überwachung dieser

zunehmend komplexer werdenden Technik helfen sollen. Dabei geben sie dem Operateur

Hinweise auf Fehlfunktionen im zugrundeliegenden System oder Ratschläge zum effiziente-

ren Arbeiten. Diese Form von Automation wird im Allgemeinen als Alarm- oder Assistenz-

system bezeichnet, und sie findet sich sowohl im privaten Bereich, wie bei der täglichen

Arbeit mit dem Computer in Form von Zustands- und Fehlermeldungen, als auch in Produkti-

ons- und Hochsicherheitsbereichen, wie in Cockpits, in der Produktionstechnik und in Leit-

warten von Kernkraftwerken, wieder. Der Mensch soll durch diese Meta-Funktion in seiner

Überwachungsaufgabe entlastet werden und die Möglichkeit haben, sich auf den Inhalt der

Aufgabe oder auf Nebenaufgaben zu konzentrieren. Dabei soll nicht nur die Produktivität,

sondern vor allem die Sicherheit durch schnelles Erkennen von Über- oder Unterschreitungen

von Normwerten im Prozess, erhöht werden.

Leider bringt die Anwendung von Alarmsystemen, die den Menschen bei seiner Arbeit

unterstützen sollen, neue Probleme mit sich. Dies liegt zum Einen daran, dass keine Technik

perfekt und fehlerfrei arbeiten kann und zum anderen daran, dass bereits mit wenigen Fehldi-

agnosen das Vertrauen des Menschen in das unterstützende System stark gemindert werden

kann. Ist das Vertrauen in die Leistung eines Alarmsystems erst einmal reduziert, kommt es

häufig zum Ignorieren von dessen Hinweisen und somit zu einer möglichen Gefahrensituati-

on, wie die Fabel „vom Hirtenjungen und dem Wolf“ bereits im Zeitalter von Aesop veran-

schaulichte:

Ein Hirtenjunge saß den lieben langen Tag mit seiner Herde auf einer Anhöhe

über dem Dorf und wusste nicht so recht, was mit sich anzufangen. Schließlich

kam er auf die Idee „Wolf! Wolf!“ zu brüllen und somit die Dorfbewohner in

Angst und Schrecken zu versetzen. Diese kamen sofort herbeigestürmt, um dem

Jungen und den Tieren zu Hilfe zu kommen und mussten feststellen, dass der

Hilferuf ein falscher Alarm gewesen war und sie ihre Zeit und Kräfte ver-

schwendet hatten. Einige Tage später wiederholte der Junge das Spiel und

8 Einleitung

freute sich abermals über die Gesellschaft, die er durch die herbeieilenden

Helfer erlangte. Kurze Zeit darauf jedoch bemerkte der Junge tatsächlich einen

Wolf, der sich ihm und seiner Schafsherde gefährlich näherte. So laut er konnte

rief der Junge um Hilfe: „Wolf! Wolf!“, doch die Dorfbewohner dachten an ei-

nen weiteren dummen Streich des Jungen und hörten nicht auf seine Hilferufe.

So machte sich der Wolf über die hilflose Herde des Jungen her und ver-

schlang all seine Schafe.

Diese Fabel zeigt, dass nicht nur die Angemessenheit eines Hinweises in einer kritischen

Situation ausschlaggebend ist, sondern auch der Umgang mit Hinweisen, deren Validität man

nicht kennt. Ein großes Problem im Bereich der Alarmsysteme ist also nicht nur die Tatsache,

dass kein System perfekt ist und der Mensch somit potentiellen Fehlern im Prozess sowie

potentiellen Fehlern des Alarmsystems ausgesetzt ist. Die größte Herausforderung stellt der

angemessene Umgang mit nicht perfekten Systemen dar. Die Interaktion von Mensch und

Maschine sollte daher zur Vermeidung von Unfällen bzw. zur Vermeidung des Einsatzes von

Systemen und Produkten, die nicht an die Bedürfnisse und Reaktionsmuster der Nutzer

angepasst sind, immer bereits während der Produktentwicklung eingehend analysiert werden

und den Produktentwicklungsprozess entsprechend modellieren. Dieser Ansatz wird in der

Literatur als prospektive Gestaltung bezeichnet (Rötting et al., 2007), hat jedoch bislang keine

eindeutige Definition gefunden. Der Begriff zeichnet sich nach einer theoretischen und

empirischen Exploration von Gérard et al. (2010) durch spezifische Merkmale aus. So ist

neben der iterativen Analyse von Nutzerfaktoren auch die von Aufgaben-, Kontext- und

Systemfaktoren unabdinglich. Im gesamten Produktentwicklungsprozess ist dabei das fach-

spezifische Wissen eines interdisziplinären Teams aus Designern, Ingenieuren, Informatikern

und Psychologen notwendig, die mögliche Effekte, Einflüsse und Wechselwirkungen der

unterschiedlichen Variablen antizipieren und Lösungen entwickeln können, die Konzepte und

Ansätze aus den unterschiedlichen Disziplinen berücksichtigen und vereinen. Die folgende

Arbeit soll aus der Perspektive der Ingenieurspsychologie Grundkenntnisse über den Umgang

von Operateuren mit Alarmsystemen unterschiedlicher Zuverlässigkeit unter unterschiedli-

chen Levels von Arbeitsbelastung gewinnen. Diese sollen zukünftig in der Konzeptionsphase

wichtige Hinweise für Designer, Techniker und Ingenieure geben können.

2.1 Automation 9

2 Theoretischer Hintergrund

Im folgenden Kapitel werden die Begriffe „Automation“ und „Automatisierung“ (siehe

Kapitel 2.1) sowie die Nutzen und Gefahren einer spezifischeren Form von Automation, der

Alarmsysteme, näher erläutert werden (siehe Kapitel 2.2). Anschließend werden zum besseren

Verständnis die zugrundeliegenden Mechanismen im Rahmen der Signaldetektionstheorie

dargestellt (siehe Kapitel 2.3).

2.1 Automation

Heute werden zunehmend Prozesse, die ehemals von menschlichen Arbeitskräften ausgeführt

wurden, auf Maschinen übertragen. Nach Hauß & Timpe (2002) wird dieser Prozess als

Automatisierung und das Resultat dieses Prozesses als Automation bezeichnet. Dieser fort-

schreitende Prozess der Automatisierung breitet sich sowohl in der Produktionsindustrie als

auch in Hochsicherheitssystemen, wie in Cockpits oder in Kernkraftwerken, aus. Automati-

sierung erfährt also eine immer größer werdende Bedeutung; zum Einen aufgrund ihrer

zunehmenden Ausbreitung, nicht zuletzt jedoch wegen ihrer ambiguen Effekte auf die Arbeit

und Leistung des Menschen (Wickens & Hollands, 2000). Die Ziele, die mit der Einführung

von Automationen erreicht werden sollen, sind die Steigerung der Produktivität sowie die

Erhöhung der Sicherheit. Automationen verfügen über bessere sensorische Fähigkeiten als

Menschen, wenn es darum geht, subtile Schwankungen in einer Datenmenge zu detektieren.

Sie können zusätzlich Daten in größeren Mengen und zeitgleich aufnehmen, verarbeiten,

speichern sowie deren gezielten Abruf ermöglichen. Mithilfe von Algorithmen können sie

Situationen bewerten und Handlungsvorschläge generieren. Diese Algorithmen allerdings

werden von Menschen, den Entwicklern der Automation, generiert. Menschliche Fehler

werden somit nicht eliminiert, sondern vom Menschen auf die Automation übertragen. Nicht

nur in der Entwicklung von Automationen bleibt der Mensch die dominierende Instanz,

sondern auch, wenn es darum geht, die Technik auszuführen und zu überwachen. Bainbridge

(1983) spricht in diesem Zusammenhang von der „Ironie der Automation“, da Automationen

zwar aufgrund ihrer größeren Leistungskraft (im Vergleich zum Menschen) eingesetzt wer-

den, jedoch wiederum vom Menschen erwartet wird, dieses System zu überwachen und zu

kontrollieren, also einen Überblick über die Leistung und die komplexen zugrundeliegenden

10 Theoretischer Hintergrund

Parametern zu haben. Auch im Falle einer Fehlfunktion wird vom Menschen erwartet ein-

zugreifen und den Fehler zu beheben. Dem Menschen, der in diesem Mensch-Maschine-

System als Operateur bezeichnet wird, kommt die Aufgabe eines Überwachers des Gesamt-

Systems zu. Somit hat sich die Aufgabe des Menschen vom aktiven Arbeiter und Bediener

eines Systems zum eher passiven Überwacher des Systems sowie der Automation entwickelt.

Während dieser Überwachungstätigkeit wird vom Operateur erwartet, dass er aktiv eingreift

und die Kontrolle über das System übernimmt, sobald Fehler den Prozess störanfällig ma-

chen. Sheridan (1992) bezeichnet diese Form der Überwachung als leitende Kontrolle („su-

pervisory control“). Folglich wird der Mensch durch den Einsatz von Automation zwar in

einem ersten Schritt entlastet und von der Aufgabe entbunden, er muss aber genau diese

Aufgabe im Versagensfall der Technik korrekt ausführen. Ein besonderes Problem in diesem

Kontext sieht Endsley (2005) darin, dass der Operateur durch seine zeitweise passive Funkti-

on des Überwachers den Überblick und die vollständige mentale Repräsentation des Prozes-

ses und dessen zugrundeliegenden Faktoren und Zusammenhänge verlieren kann. Der resul-

tierende Verlust von Fertigkeiten im Umgang mit dem System und des

Situationsbewusstseins wird in der Literatur als out of the loop unfamiliarity-Syndrom be-

schrieben (OOTLUF; Endsley & Kiris, 1995; Wickens & Hollands, 2000). Das Situationsbe-

wusstsein umfasst nach Endsley (2005) drei Stufen: die zeitnahe Wahrnehmung von Elemen-

ten in der relevanten Umgebung, das Begreifen ihrer Bedeutung und die Antizipation ihrer

Zustände in der nahen Zukunft. Die Fähigkeit zur Antizipation ist besonders wichtig im

Umgang mit dynamischen Systemen und beeinflusst die Leistung eines Operateurs maßgeb-

lich (Doane, Sohn & Jodlowski, 2004). Das passive Überwachen eines Systems und die damit

verbundene OOTLUF können zusätzlich zur sogenannten complacency führen, das heißt zu

der Neigung, die Automation unzureichend zu überprüfen und zu überwachen. Dies kann

wiederum zum Übersehen kritischer Systemzustände und durch die Passivität (und somit

durch die fehlende Übung der relevanten motorischen Handlungen) zu einem Fertigkeitsver-

lust im Falle der Kontrollübernahme bei einem Systemausfall führen (Bahner, Hüper &

Manzey, 2008; Molloy & Parasuraman, 1996; Metzger & Parasuraman, 2005; Parasuraman &

Manzey, 2010). Die mit dem OOTLUF-Phänomen verbundenen Probleme stellen vor allem in

sicherheitskritischen Umgebungen eine Gefahr dar.

Die hier beschriebenen Probleme treten je nach Art der Automation mit unterschiedlicher

Wahrscheinlichkeit auf, die im Wesentlichen von Automatisierungsstufe und -grad abhängt.

Parasuraman, Sheridan & Wickens (2000) bieten in ihrem Klassifikationsmodell eine Über-

Related document tools

Unterstützung von sauberen akademischen Beiträgen

Plag ist für sorgfältige Dokument- und Forschungstextprüfung erstellt. Identific ist nützlich für Workflows, bei denen Dokumente stärker gesichert werden müssen. Sie können einen sorgfältigeren Überprüfungsprozess unterstützen.

plag.ai

2.1 Automation 11

sicht über die Stufen der menschlichen Informationsverarbeitung und die äquivalenten Grade

an automatisierten Systemfunktionen. Auf der untersten Stufe stehen die sensorische Auf-

nahme und die Speicherung von Umweltsignalen im Kurzzeitgedächtnis; die äquivalente

Systemfunktion beim automatisierten System wird als Informationsaufnahme (information

acquisition) bezeichnet. Das System erfasst Umweltreize durch Schnittstellen wie Sensoren,

Kameras und andere Messsysteme. Die nächst höhere Stufe im menschlichen Verarbeitungs-

prozess umfasst das Wahrnehmen relevanter Informationen und deren Bewertung durch einen

Abgleich mit Wissen aus dem Langzeitgedächtnis (perception / working memory) und ent-

spricht der Stufe der Informationsanalyse eines Systems. Die resultierende Entscheidungsfin-

dung auf dem nächsten Level, dem decision making, wird durch Entscheidungs- und Hand-

lungsvorschläge einer Automation repräsentiert. Diese Stufe beinhaltet nicht nur die

Unterstützung bei der Entscheidungsfindung, sondern auch die Bereitstellung von Hand-

lungsvorschlägen. Die höchste Stufe der menschlichen Informationsverarbeitung, die Reakti-

onsauswahl, findet ihr Äquivalent in der Handlungsausführung einer Automation, was bedeu-

tet, dass das System nicht nur Handlungsvorschläge generiert, sondern diese auch selbst

ausführt. Das Klassifikationsmodell ist kein hierarchisches Modell. Jede Automation kann auf

den vier Verarbeitungsstufen über einen unterschiedlichen Grad an Automatisierung verfü-

gen, wie in Abbildung 1 ersichtlich.

Um das out of the looop unfamiliarity-Syndrom zu vermeiden und zu garantieren, dass der

Operateur bei einem Systemversagen zeitgerecht und sicher eingreifen kann, wurden soge-

nannte adaptive Automationen entwickelt. Diese passen ihr Automationslevel auf der einen

Seite den Fähigkeiten des Operateurs und auf der anderen Seite dem Zustand des Gesamtsys-

tems an (Moray, Inagaki & Itoh, 2000). Je nach Höhe der Arbeitsbelastung des Operateurs

handelt diese Form der Automation auf bestimmten Verarbeitungsstufen mehr oder weniger

autark, das heißt auf unterschiedlichen Graden der Automatisierung, um den Operateur bei

Bedarf zu entlasten, ihn aber dennoch „in the loop“ zu halten. Automationen, die auf den

Stufen der Informationsaufnahme und Informationsanalyse vollständig automatisiert sind,

sind Alarmsysteme. Diese beiden ersten Stufen, auf der die Daten integriert und aufgrund

einer ganzheitlichen Analyse bewertet werden, sind für ein Alarmsystem charakteristisch, da

nur durch die Analyse des Datenmusters eine Einschätzung der Situation und als Konsequenz

ein Alarm gegeben werden kann. Systeme, die sowohl bei der Datenanalyse als auch auf der

dritten Stufe, der Entscheidungsfindung assistieren, werden als decision support systems

(DSS) oder Assistenzsysteme bezeichnet.

12 Theoretischer Hintergrund

Abbildung 1: Automationsstufen für zwei Beispiel-Systeme (nach Parasuraman, Sheridan &

Wickens, 2000, S. 288)

Diese grenzen sich insofern von einem Alarmsystem ab, als dass sie explizite Handlungshin-

weise geben, während ein klassisches Alarmsystem vor einer potentiellen Gefahr warnt, die

Auswahl einer Handlung jedoch dem Operateur überlässt. Im nächsten Kapitel sollen die

Eigenschaften von Alarmsystemen genauer definiert werden.

2.2 Alarmsysteme

In Hochsicherheitssystemen wird der Operateur meist von einem Alarmsystem bei der Über-

wachung des Prozesses unterstützt. Ein Alarmsystem soll den Operateur in seiner Aufgabe

des Überwachens insofern unterstützen, dass es ihn (zum Beispiel durch akustische und/oder

visuelle Signale) auf Abweichungen im zu überwachenden System hinweist. Meyer (2004)

nennt drei Faktoren, deren Kombination ein Alarmsystem grundlegend definieren: (1) Das

Alarmsystem analysiert diskrete Ereignisse, die in ihrer Auftretenswahrscheinlichkeit unab-

hängig voneinander sind. Dies bedeutet, dass der Zustand des zugrundeliegenden Systems

entweder kritisch oder unkritisch ist, ohne dass undefinierte Zwischenzustände möglich sind.

2.2 Alarmsysteme 13

(2) Das Alarmsystem gibt entsprechend dieser diskreten Zustände eine binäre Antwort, das

heißt es gibt entweder einen Alarm (z.B. visuell durch ein rotes Licht) oder Entwarnung durch

einen entsprechenden Hinweis (z.B. durch ein grünes Licht). (3) Das System gibt dem Opera-

teur die Möglichkeit, auf den Hinweis des Alarmsystems entweder mit einer Handlung zu

reagieren, die negative Konsequenzen im Prozess verhindern soll, oder eine solche Handlung

zu unterlassen. Somit ist auch die Reaktionsmöglichkeit des Operateurs binär. Probleme im

Umgang mit solch binären Alarmsystemen entstehen, wenn das Alarmsystem nicht perfekt

arbeitet und die Hinweise fehlerhaft sind. Ein in der Praxis verbreitetes und in der Literatur

häufig beschriebenes Problem ist ein hoher Anteil an falschen Alarmen, die dazu führen

können, dass der Operateur die Alarme ignoriert. Dabei variieren die absolute Anzahl an

Alarmen und der Anteil falscher Alarme in der Praxis stark in Abhängigkeit der Anlage und

des zugrundeliegenden Systemzustands im Prozess. Bransby & Jenkinson (1998) führten

Befragungen in unterschiedlichen Produktionsanlagen durch und berichten von Schwankun-

gen von 30 bis 200 Alarmen pro Stunde während der normalen Prozessführung, von denen

über die Hälfte als unangemessen bewertet wurden. Grenzen in der technischen Leistungsfä-

higkeit von Sensoren auf der einen Seite und von Entwicklern niedrig gesetzte Antwort-

schwellen von Alarmsystemen auf der anderen Seite können zu einem hohen Anteil falscher

Alarme innerhalb der ohnehin großen Alarmflut führen, die auf den Operateur einbricht. Um

dennoch Aufmerksamkeit und Ressourcen für relevante Bereiche des Prozesses aufrechtzuer-

halten, reagieren Operateure auf eine hohe Rate von falschen Alarmen häufig mit dem Igno-

rieren der Alarme. Aus Sicht der Produktionsindustrie, in der ein verpasster wahrer Alarm

keine Menschenleben kosten kann, sondern „lediglich“ finanzielle und zeitliche Verluste

bedeutet, ist dieses Verhalten gerechtfertigt. Wenn die Wahrscheinlichkeit für einen wahren

Alarm sehr niedrig ist, können Ressourcen so auf andere Teilaufgaben aufgeteilt werden.

Allerdings kann das Ignorieren von Alarmen auch zum Verpassen wahrer Alarme führen und

schwerwiegende Konsequenzen nach sich ziehen. So veröffentlichte das amerikanische

National Transportation Safety Board eine Studie (2006), die helfen sollte, die genaue Ursa-

che von Unfällen zu klären, bei denen Fluglotsen einen Alarm (conflict alert) zur Überschrei-

tung des minimal geforderten Abstandes zwischen zwei Flugzeugen bekommen, aber nicht

auf diesen reagiert hatten. Bei der Befragung der Fluglotsen wurde in diesem Zusammenhang

eine zu häufige Frequenz falscher Alarme als eines der fünf größten Probleme in ihrem

Arbeitsfeld beschrieben. Bliss (2003a) fand bei einer ähnlich aufgebauten Analyse von

14 Theoretischer Hintergrund

Flugunfällen einen sehr hohen Anteil falscher Alarme im Cockpit und eine Tendenz zu

langsameren Reaktionen bis zum Ignorieren von Alarmen seitens der Piloten.

Die Angemessenheit der Reaktion des Alarmsystems auf den tatsächlichen Zustand des

Ausgangssystems bzw. das Problem falscher Alarme hängt maßgeblich von der Leistungsfä-

higkeit oder der Zuverlässigkeit des Alarmsystems ab. Die Entscheidung, ob das Alarmsys-

tem einen kritischen Zustand signalisiert oder nicht wird hauptsächlich durch den tatsächlich

zugrundeliegenden Systemstatus (XAlarm), der Leistungsfähigkeit oder Sensitivität des Alarm-

systems und dessen Antwortschwelle CAlarm getriggert (siehe Abbildung 2, Stufe 1). Die

Eigenschaften eines Alarmsystems werden meist mittels Parametern im Rahmen der Signal-

detektionstheorie beschrieben (SDT; Swets, 1964; Sorkin & Woods, 1985; Parasuraman,

Hancock & Olofinboba, 1997; Meyer & Bitan, 2001). Für ein angemessenes Grundverständ-

nis der Basisparameter eines Alarmsystems und der Entstehung eines hohen Anteils an

falschen Alarmen wird Kapitel 2.3 eine Übersicht über die Grundlagen der Signaldetekti-

onstheorie geben.

Nach einem Modell von Allendoerfer, Pai & Friedman-Berg (2008) stellen die Eigenschaften

eines Alarmsystems jedoch nur die erste Ebene eines dreistüfigen Entscheidungsprozesses im

Rahmen der Interaktion von Operateur und Alarmsystem dar (siehe Abbildung 2). Die zweite

Ebene des Modells bezieht den Operateur und dessen Umgang mit Alarmen unterschiedlicher

Zuverlässigkeit mit ein. Verhaltensdeterminierend ist dabei das Vertrauen des Operateurs in

die Diagnose des Alarmsystems. Übersteigt das Vertrauen XVertrauen den kritischen Vertrau-

enswert CVertrauen, befolgt der Operateur den Alarm. Das Vertrauen wird dabei maßgeblich

durch die wahrgenommene Zuverlässigkeit des Alarmsystems bestimmt. Eine Diskussion der

Definition der Zuverlässigkeit und deren Verhaltenseffekte werden in Kapitel 2.5 aufgeführt.

Liegen dem Operateur keine Anhaltspunkte und Validierungsmöglichkeiten der Zuverlässig-

keit des Alarmsystems vor, kommt es zu Entscheidungen unter Unsicherheit. In derart unsi-

cheren Entscheidungssituationen werden Heuristiken herangezogen, die das Antwortverhalten

leiten. Heuristiken, die in der Literatur als Reaktion auf Alarme ungewisser Zuverlässigkeit

häufig beschrieben wurden, finden sich in Kapitel 2.5.2. Die hier beschriebenen Probleme

finden sich bei binären Systemen, die eine direktes Befolgen oder aber das Ignorieren der

Diagnose des Alarmsystems fordern. Ebene 3 des Modells von Allendoerfer, Pai & Friedman-

Berg (2008) beschreibt einen Lösungsansatz, um die hohe Unsicherheit von Operateuren und

somit ungerechtfertigte extreme Antwortstrategien zu vermeiden. Operateuren wird dabei die

Möglichkeit gegeben, die Entscheidung des Alarmsystems zu überprüfen, indem man ihnen

2.2 Alarmsysteme 15

Zugriff auf die Rohdaten bietet. Eine Reaktion findet nur dann statt, wenn die vom Operateur

gesammelte Zusatzinformation aus den Rohdaten (XOperateur) seine interne Reaktionsschwelle

(COperateur) übersteigt. Diese Verhaltenstendenz, auf eine Anzeige des Alarmsystems zu reagie-

ren, indem die Rohdaten des Ausgangssystems überprüft werden, befindet sich zwischen den

beiden Extremen des blinden Befolgens und Ignorierens und stellt den Kernpunkt der vorlie-

genden Arbeit dar.

Abbildung 2: Drei-stüfiges Entscheidungsmodell (nach Allendoerfer, Pai & Friedman-Berg

(2008)

16 Theoretischer Hintergrund

Das Konzept des alarm-getriggerten Prüfverhaltens wird in Kapitel 3 näher definiert und im

empirischen Teil dieser Arbeit unter Einfluss unterschiedlicher Zuverlässigkeiten von Alar-

men in experimentellen Laborstudien analysiert.

2.3 Signaldetektionstheorie

Der Umgang mit Alarmen kann als ein komplexes Entscheidungsproblem verstanden werden,

das im Rahmen eines signaldetektionstheoretischen Ansatzes formalisiert werden kann

(Sorkin & Woods, 1985; Maltz & Meyer, 2001; Meyer, 2004, 2002). In diesem Kapitel sollen

die Grundlagen der Signaldetektionstheorie näher erläutert werden.

Die Signaldetektionstheorie kommt aus der Psychophysik und wurde dort auf die menschliche

Wahrnehmungsfähigkeit angewandt. Sie beschäftigt sich in ihren Grundlagen mit dem fun-

damental detection problem, welches sich aus zwei einfachen Zuständen ergibt: der eine

Zustand besteht aus einem Signal, welches einem Rauschen zugefügt ist, der andere ergibt

sich aus dem Rauschen allein. Das Detektionsproblem besteht für den Beobachter darin, dass

er nach jeder Präsentation eines Intervalls entscheiden muss, ob ein Signal vorhanden war

oder nicht (Egan, 1975). Dieses Problem kann auf Alarmsysteme und ihre Detektionsleistung

von Fehlern im zu überwachenden System übertragen werden.

Im Kontext der Mensch-Maschine-Interaktion übernimmt das Alarmsystem die Aufgabe des

Beobachters. Das Signal entspricht einem Fehler im zugrundeliegenden System und das

Rauschen einem fehlerfreien Zustand des Systems. Abbildung 3 veranschaulicht die Wahr-

scheinlichkeitsverteilung der Systemfehler und der fehlerfreien Zustände mit den jeweils

zugehörigen Mittelwerten. Jeder Systemzustand befindet sich auf einem bestimmten Punkt

der Ordinate und kann entsprechend seiner Auftretenswahrscheinlichkeit entweder der Feh-

lerverteilung oder der Verteilung fehlerfreier Zustände zugeordnet werden. Gibt das Alarm-

system für einen Zustand aus der Verteilung der Systemfehler einen Alarm aus, bedeutet dies

einen korrekten Alarm, einen sogenannten hit1. Ähnliches gilt für das Ausbleiben eines

Alarms: gehört der zugrundeliegende Zustand zur Verteilung der fehlerfreien Zustände ist die

1Zentrale englische und lateinische Fach-Termini, die sich auch im Deutschen durchgesetzt haben,

werden für den einfacheren Lesefluss englisch beibehalten, nur bei ihrer Erstnennung kursiv ge-

schrieben und im Begriffsverzeichnis (S. 145) alphabetisch aufgeführt und erläutert

2.3 Signaldetektionstheorie 17

Zurückweisung eines Alarms korrekt (correct rejection). Wie in Abbildung 3 ersichtlich gibt

es allerdings auch einen Bereich, in dem sich die beiden Verteilungen überlappen – einen

Bereich der Unsicherheit, ob ein Zustand der Fehlerverteilung oder der der fehlerfreien

Zustände zuzuordnen ist. In diesem Bereich kann es auch zu Fehldiagnosen des Alarmsys-

tems kommen: ein Zustand, der eigentlich aus der Verteilung der fehlerfreien Zustände

stammt, kann vom Alarmsystem als zugehörig zur Fehlerverteilung diagnostiziert werden und

es kommt zu einem falschen Alarm (false alarm). Genauso kann ein tatsächlich kritischer

Zustand vom Alarmsystem fälschlicherweise als zugehörig zur Verteilung der fehlerfreien

Systemzuständen eingeordnet werden und ein kritischer Zustand wird verpasst (miss). Tabelle

1 gibt einen Überblick über die vier möglichen Kombinationen aus Ereignissen im System

und Reaktionen des Alarmsystems. Die vier möglichen System-Reaktions-Kombinationen

stehen in komplementärer Form zueinander (Egan, 1975): aus der mathematischen Umkehr

der misses lässt sich die Anzahl der hits ableiten (miss = 1 – hit), sowie sich die correct

rejections aus der Umkehr der Anzahl der falschen Alarme ergeben (correct rejection = 1 –

false alarm) und umgekehrt.

Der Bereich der Unsicherheit, der definiert wird über den Abstand zwischen den Mittelwerten

der beiden Verteilungen, hängt maßgeblich von der Diskriminationsfähigkeit, der Sensitivität

des Alarmsystems ab. Der entscheidende zweite Aspekt, der beeinflusst, ob auf Zustände aus

dem Bereich der Überlappungen überwiegend mit einem Alarm oder keinem Alarm reagiert

wird, ist die Reaktionsschwelle oder das Antwortkriterium des Alarmsystems. Diese beiden

grundlegenden Charakteristika eines Alarmsystems werden im nächsten Kapitel dargestellt.

Tabelle 1: Ereignis-Reaktions-Matrix

18 Theoretischer Hintergrund

2.3.1 Parameter der Signaldetektionstheorie

Die Leistungsfähigkeit eines Alarmsystems wird im Rahmen der SDT hauptsächlich durch

zwei Parameter bestimmt: der Sensitivität, die etwas wie die Diskriminierfähigkeit des

Alarmsystems umschreibt und das Antwortkriterium, welches für die Antwortneigung oder

Reaktionsschwelle des Systems steht.

2.3.1.1 Sensitivität d’

Die Sensitivität, das heißt die Diskriminationsfähigkeit, eines Alarmsystems wird gemessen

anhand der Distanz der Mittelwerte der sich überlappenden Wahrscheinlichkeitsverteilungen

der Systemfehler und der Verteilung der unkritischen Systemzustände (siehe Abbildung 3). Ist

die Sensitivität hoch, weisen die beiden Zustände deutlich unterschiedliche Mittelwerte auf,

ist die Sensitivität niedrig liegen die beiden Mittelwerte sehr nah beieinander (Macmillan,

1991). Um die Sensitivität rechnerisch zu erfassen, werden die hit-Rate und die false alarm-

Rate2 als Wahrscheinlichkeit für eine positive Reaktion (Alarm) in Bezug auf die Systemzu-

stände (kritisch und normal) betrachtet.

Die hit-Rate bezeichnet den Anteil der Treffer an allen auftretenden Systemfehlern (siehe

Formel 1).

misseshits

hits

Hp 

)( (1)

Die FA-Rate bezeichnet den Anteil der falschen Alarme an allen unkritischen Systemzustän-

den (siehe Formel 2).

ectioncorrectrejfalsealarm

falsealarm

FAp 

)(

(2)

Um aus der hit- und der FA-Rate nun einen Wert für die Sensitivität zu berechnen, werden die

Werte z-transformiert und deren Differenz gebildet (Macmillan & Creelman, 1991):



FApz-d' Hpz (3)

Die z-Transformation standardisiert den Mittelwert der Verteilungen der hit- und FA-Rates

auf 0 und die Standardabweichung auf 1, so dass eine Vergleichbarkeit der beiden Werte

möglich ist. Ein gleicher Anteil von hits und false alarms bedeutet dementsprechend einen d’-

2 Im Folgenden mit FA-Rate abgekürzt

2.3 Signaldetektionstheorie 19

Wert von 0 (und somit die komplette Überschneidung der zwei Verteilungen), der mit stei-

gender Differenz von hit- und FA-Rate zunimmt (Macmillan & Creelman, 1991).

2.3.1.2 Antwortkriterium

Während das Sensitivitäts-Maß d’ in der Signaldetektionstheorie von Stimulus-Parametern

abhängt (dem Abstand zwischen den Mitteln der Verteilung von Signal und Rauschen, deter-

miniert durch die Empfindlichkeit des Alarmsystems) und somit über den gleichen Stimulus

konstant bleibt, unterliegt der response bias oder das Antwortkriterium der Tendenz des

Alarmsystems, eine Antwort (positiv oder negativ) der anderen vorzuziehen (Macmillan &

Creelman, 1991). Das Antwortkriterium schneidet beide Verteilungen am cutoff c und unter-

teilt die Flächen in eine Akzeptanz- und eine Ablehnungsfläche (siehe Abbildung 3).

Abbildung 3: Wahrscheinlichkeitsverteilung der Systemzustände, Sensitivität und

Antwortkriterium

Verschiedene Maße werden zur formalen Berechnung des Antwortkriteriums herangezogen.

Ein häufig verwendeter Parameter ist das Kriterium c, welches sich aus standardisierten hit-

und FA-Rates berechnen lässt.



FApzHpzc  5,0 (4)

Wie in Kapitel 2.3 gezeigt, ergibt sich die miss-Rate aus der Differenz zwischen 1 und der hit-

Rate. Sind die FA- und die miss-Rate gleich gilt: z[p(FA)] = z(1-p[H]) = -z[p(H)] und dieser

Wert entspricht 0 (dieser Wert kann in einer z-Tabelle abgelesen werden; Bortz, 2005).

20 Theoretischer Hintergrund

Übersteigt die FA-Rate die miss-Rate wird c < 0, bei größerer miss-Rate wird c > 0. Ein

positives c bedeutet also die Tendenz, „nein“ zu sagen und somit weniger hits aber auch

weniger false alarms zu erzielen.

Ein anderes Maß zur Berechnung des Antwortkriteriums bezieht sich auf die Tatsache, dass

jedem Wert auf der Entscheidungsachse zwei Wahrscheinlichkeiten zugeordnet sind: die

Wahrscheinlichkeit, dass der Wert der Fehler-Verteilung oder der fehlerfreien Zustände

entstammt (siehe Formel 5).

)(

keinFehlerAlarmp

FehlerAlarmp

(5)

Jeder Punkt auf der Entscheidungsachse hat also eine zugehöriges likelihood-Verhältnis:

dieses nimmt am Schnittpunkt der beiden Verteilungen den Wert 1 ein, wird rechts vom

Schnittpunkt größer als 1 (weniger hits, weniger falsche Alarme Æ weniger Alarme bzw.

Tendenz, keine Alarme zu geben) und links vom Schnittpunkt kleiner als 1 (mehr hits, mehr

falsche Alarme Æ mehr Alarme bzw. Tendenz, Alarme zu geben). Die likelihood ratio ist

somit keine Wahrscheinlichkeit und kann Werte von 0 -  annehmen.

2.3.1.3 Receiver Operating Characteristic: Verdeutlichung des Zusammenhangs

zwischen dem Antwortkriterium c und der likelihood ratio ȕ

Die receiver operating characteristic (ROC) charakterisiert das Antwortverhalten eines

Alarmsystems, indem es jeweils die hit- und FA-Rate für unterschiedlich gesetzte Antwortkri-

terien c auf einer gegebenen Sensitivitätskurve abträgt. Die ROC gibt also Aufschluss über

das Resultat aus dem Zusammenspiel von Sensitivität und Antwortkriterium. Wie in Abbil-

dung 4 ersichtlich unterscheiden sich Alarmsystem A und Alarmsystem B bei gleicher Sensi-

tivität also hinsichtlich ihres Antwortkriteriums und damit hinsichtlich Anzahl von hits und

false alarms (Alarmsystem A: hit-Rate§.9, FA-Rate§.4, Alarmsystem B: hit-Rate§.6, FA-

Rate§.1).

2.3 Signaldetektionstheorie 21

Abbildung 4: ROC-Kurve (nach Macmillan & Creelamn, 1991)

Gleichung (5) liefert eine Interpretationsmöglichkeit der likelihood ratio im Rahmen der

receiver operating characteristic (ROC, siehe Abbildung 3). Die likelihood ratio entspricht

der Steigung der ROC-Kurve, die kontinuierlich mit kleiner werdenden Werten vom Ant-

wortkriterium c (siehe Kapitel 2.3.1.3) und somit mit sinkender likelihood ratio abflacht. In

der Signaldetektionstheorie wird die likelihood oft mit ȕ bezeichnet und kann nach Macmillan

& Creelman (1991) bei Erfüllung der Normalverteilungs-Voraussetzung auch wie folgt

berechnet werden:



  

5,0

'log

FAzHz

FAzHzFAzHz





(6)

In diesem Kapitel wurden die grundlegenden Parameter der Signaldetektionstheorie beschrie-

ben, die maßgeblich bestimmen, mit welcher Wahrscheinlichkeit bestimmte Ereignisse

detektiert werden. Auch diese zu detektierenden Ereignisse haben ihre eigene Auftretens-

wahrscheinlichkeit, welche so in der SDT nicht berücksichtigt wird, die aber einen nahezu

ebenso wichtigen Einfluss auf die Wahrscheinlichkeit der Detektion dieser Ereignisse hat wie

die Parameter der SDT. Im nächsten Kapitel werden die Auftretenswahrscheinlichkeit von

kritischen Ereignissen und ihre Auswirkungen auf die Leistungsfähigkeit eines Alarmsystems

weiter beschrieben.

22 Theoretischer Hintergrund

2.3.2 Bayes-Statistik und Signaldetektionstheorie

Die Bayes-Statistik beschäftigt sich mit bedingten Wahrscheinlichkeiten, also der Wahr-

scheinlichkeit des Eintreffens eines Ereignisses unter der Annahme eines vorausgesetzten

Ereignisses. Oder übertragen auf die Signalentdeckungstheorie: ein kritisches Ereignis im

System hat eine bestimmte Auftretenswahrscheinlichkeit, die a priori-Wahrscheinlichkeit des

Ereignisses. Die a posteriori-Wahrscheinlichkeit ist die Wahrscheinlichkeit, dass dieses

Ereignis unter der Voraussetzung dass es durch einen beobachtbaren Wert indiziert wurde,

tatsächlich stattgefunden hat. Im Kontext von Alarmsystemen gibt die a posteriori-

Wahrscheinlichkeit also an, mit welcher Wahrscheinlichkeit ein kritisches Ereignis tatsächlich

stattgefunden hat, wenn es durch einen Alarm signalisiert wurde. Die a posteriori-

Wahrscheinlichkeit summiert nicht nur die Information aus der a priori-Wahrscheinlichkeit

und der likelihood ratio auf (Egan, 1975), sondern stellt auch für den Operateur die wichtigste

Wahrscheinlichkeit dar, da sie für ihn anhand der Anzahl von wahren und falschen Alarmen

direkt wahrnehmbar ist. Dies gilt nicht für die hit-und FA-Rate, die für ihre Berechnung eine

genaue Kenntnis über die Verteilung von kritischen und unkritischen Systemzuständen

voraussetzen. Mit Hilfe der likelihood ratio und der a priori-Wahrscheinlichkeit kann die a

posteriori-Wahrscheinlichkeit eines Ereignisses berechnet werden:



keinFehlerAlarmp

FehlerAlarmp

keinFehlerp

Fehlerp

AlarmFehlerp

AlarmkeinFehlerp

AlarmFehlerp



1 (7)

Die linke Seite der Gleichung ist das Verhältnis der a posteriori-Wahrscheinlichkeiten für

einen fehlerhaften und für einen unkritischen Zustand, die von zwei Informationstypen auf

der rechten Seite determiniert werden: (1) dem Verhältnis der a priori-Wahrscheinlichkeiten

(das heißt der Wahrscheinlichkeit des Auftretens in der Realität) und (2) der likelihood ratio,

also der Frage, ob der Alarm aus der hit-Verteilung oder Verteilung der falschen Alarme

stammt. Die a posteriori-Wahrscheinlichkeit bewegt sich also immer monoton mit der likeli-

hood ratio, das heißt wenn LR(x1)>LR(x2), dann p(FehlerŇx1)>p(FehlerŇx2).

In diesem Kapitel (2.3) wurden Systemeigenschaften von Alarmsystemen im Rahmen der

Signaldetektionstheorie genauer erläutert. Im Hinblick auf das Modell von Allendoerfer, Pai

& Friedman-Berg (2008) wird ersichtlich, dass mit den Charakteristika des Alarmsystems, die

2.4 Erwartungswerte und Payoff-Strukturen 23

dessen Reaktion auf bestimmte Prozesszustände determinieren, nur die erste Ebene des drei-

stufigen Entscheidungsprozesses abgedeckt ist. Auf der zweiten Ebene trifft der Operateur die

Entscheidung, dem Hinweis des Systems zu folgen oder nicht. Diese Entscheidung kann

einerseits ebenfalls mittels Parametern der Signaldetektionstheorie erfasst und beschrieben

werden, allerdings spielen bei der menschlichen Entscheidung noch weitere Faktoren wie der

Kontext, Erwartungen und Vertrauen eine Rolle. Kapitel 2.4 soll daher die Rolle des Opera-

teurs als Entscheidungsinstanz auf zweiter Ebene genauer beleuchten.

2.4 Erwartungswerte und Payoff-Strukturen

Jede Entscheidung, die ein Mensch oder ein Alarmsystem im Sinne eines Detektors trifft,

zieht bestimmte Konsequenzen nach sich. Im Rahmen der Signaldetektionstheorie ist es

möglich, ein normatives Modell zu entwickeln, welches bei der Vorhersage der erwarteten

Entscheidungen unter Berücksichtigung bestimmter Systemcharakteristika und Konsequenzen

der Entscheidungen hilfreich sein kann. Mit Hilfe so genannter Erwartungswerte können die

Kosten und Nutzen der Entscheidungen, die im Feld gravierend sein können (z.B. die Kosten,

die durch das Übersehen eines kritischen Ereignisses in einem Hochsicherheitssystem entste-

hen oder aber die Kosten, die durch unnötiges Eingreifen in den Prozess in einem Produkti-

onsprozess entstehen), abgebildet und operationalisiert werden. So können Operateure ent-

scheiden, wie sie ihr Antwortkriterium nicht nur in Abhängigkeit der Sensitivität des

Alarmsystems setzen, sondern vor allem auch abhängig von den Kosten und Nutzen, die eine

einzelne Entscheidung mit sich bringt. Die Einschätzung der Kosten und Nutzen einer be-

stimmten Entscheidung dienen Designern wiederum als Richtlinien, wie sie das Antwortkrite-

rium des Alarmsystems setzen sollten, um die Leistung des Mensch-Maschine-Systems zu

optimieren. Im Laborkontext werden Kosten und Nutzen von Entscheidungen durch soge-

nannte payoff-Strukturen simuliert, die im Folgenden beschrieben werden.

Jede Entscheidung im Rahmen von Klassifkikationsaufgaben dient der Zielerreichung, die mit

der Entscheidung verbundenen Konsequenzen im Sinne eines Gewinnes zu maximieren

(Egan, 1975). Im Laborkontext ist es möglich, unterschiedliche Erwartungen von positiven

oder negativen Konsequenzen über sogenannte payoff-Matrizen nachzubilden. Die vier

Konjunktionsmöglichkeiten aus Systemzustand und Reaktion des Operateurs (hit, false alarm,

correct rejection und miss) sind mit Kosten und Gewinnen verbunden, die in einer payoff-

24 Theoretischer Hintergrund

Matrix operationalisiert werden können. Payoff bedeutet in diesem Kontext, dass richtige und

falsche Entscheidungen des Operateurs mit Punktabzug und -zugabe aufgerechnet und ihm

am Ende ausbezahlt werden. Der Einsatz monetärer Mittel erlaubt es also, die Konsequenzen

möglicher Entscheidungen zu gewichten und zu modellieren. Wird jede der vier Ereignis-

Zellen (hit, false alarms, correct rejection und miss) in der payoff-Matrix mit seiner zugehöri-

gen Ereignis-Reaktions-Wahrscheinlichkeit multipliziert, ergibt die Summer dieser vier

Ausdrücke den erwarteten Wert, oder expected value (Egan, 1975):

    



 

miss

ectioncorrectrej

falsealarm

hit

VFehlerpmissp

VkeinFehlerpectioncorrectrejp

VkeinFehlerpfalsealarmp

VFehlerphitpVE

uu

(8)

Dieser Ausdruck hängt also von drei Einflussfaktoren ab:

1. der a priori-Wahrscheinlichkeit

2. der hit- und FA-Rate

3. dem Gewinn oder den Kosten, die mit den Ereignis-Reaktions-Konjunktionen assozi-

iert sind

Mit Hilfe dieser Gleichung und dem Wissen des Operateurs kann nun eine normative Ent-

scheidungsregel für den Operateur abgeleitet werden. Geht man davon aus, dass der Opera-

teur eine angemessene Vorstellung der a priori-Wahrscheinlichkeit und der likelihood ratio

hat (und damit auch der a posteriori-Wahrscheinlichkeit) können die erwarteten Werte für

eine positive und eine negative Reaktion auf einen Alarm berechnet werden.

Für eine Reaktion auf einen Alarm „ja“, das heißt für eine Handlungsausführung:





  

falsealarmhitja VkeinFehlerpVFehlerpVE uu (9.1.)

Für die negative Antwort „nein“ dementsprechend:

   

ectioncorrectrejmissnein VkeinFehlerpVFehlerpVE uu (9.2.)

Natürlich sollte der Operateur nur positiv reagieren, wenn der erwartete Wert einer positiven

Reaktion den der negativen übertrifft. Durch Umstellung der Ausdrücke in Gleichungen 9.1.

und 9.2. in die entsprechende Ungleichung resultiert die Entscheidungsregel:

2.5 Zuverlässigkeit von Alarmsystemen als verhaltenssteurendes Merkmal 25

Wenn



misshit

falsealarmectioncorrectrej

AlarmkeinFehlerp

AlarmFehlerp



² (10)

sage „ja“, ansonsten sage „nein“.

In diesem Kapitel wurden erwartete Kosten und Nutzen von bestimmten Entscheidungen

formal im Rahmen der Signaldetektionstheorie erläutert. Diese Werte steuern das Antwortkri-

terium des Operateurs so, dass der erwartete outcome maximiert wird. Dabei spielt, wie

Formeln 8-10 zeigen, auch die Zuverlässigkeit des Alarmsystems eine wichtige Rolle. Die

Zuverlässigkeit eines Alarmsystems spielt also nicht nur unter den Parametern des Alarmsys-

tems eine übergeordnete Rolle, sie moderiert auch den Effekt von externen Einflussfaktoren

wie der erwarteten Konsequenzen. Im Kapitel 2.5 wird die Zuverlässigkeit als Kerncharakte-

ristik eines Alarmsystems definiert und deren Einfluss auf das Verhalten von Operateuren

beschrieben.

2.5 Zuverlässigkeit von Alarmsystemen als verhaltenssteurendes Merkmal

In Kapitel 2.3 wurde bereits beschrieben, dass sich die Verteilung von Fehldiagnosen und

korrekten Hinweisen eines Alarmsystems aus dessen Sensitivität und dem Antwortkriterium

ergibt. Üblicherweise dichotomisiert das Antwortkriterium c die Verteilungen in einen An-

nahme- und Ablehnungsbereich, also einen Wertebereich, für den das System einen Alarm

gibt und einen Bereich für den es keinen Alarm gibt. Ein solches System, welches zwischen

zwei Zuständen (kritisch und unkritisch) unterscheidet wird als binäres System bezeichnet.

Das Problem binärer Systeme ist, dass es selbst bei gegebener hoher Sensitivität des Alarm-

systems, also bei relativ geringer Überlappung der beiden Wahrscheinlichkeitsverteilungen

(siehe Kapitel 2.3.1), bei einer niedrigen Fehler-Basisrate (also einer niedrigen a priori-

Wahrscheinlichkeit für ein kritisches Ereignis; siehe Kapitel 2.3.2) zu vielen Fehlalarmen

kommen kann. Da die Sensitivität technischen und praktischen Einschränkungen unterliegt,

ist es nicht möglich, ein perfektes Alarmsystem zu konstruieren, welches diesen Bereich der

Unsicherheit zu 100% richtig bewertet. Da die Konsequenzen einer Entscheidung bzw. die in

Kapitel 2.4 beschriebenen payoff-Werte nicht immer bekannt sind, ist es in der Praxis und

insbesondere in Hochsicherheitssystemen essentiell, kritische Ereignisse mit einer hohen

Sicherheit zu detektieren, da mit ihnen schwerwiegende Konsequenzen verbunden sind, wie z.

26 Theoretischer Hintergrund

B. im Luftverkehr oder in Kernkraftwerken. Um die Sicherheit auch bei einer eingeschränkten

Sensitivität zu gewährleisten, wird das Antwortkriterium eines Alarmsystems daher meist

sehr liberal gesetzt, das heißt, dass es weniger misses, dafür aber mehr false alarms gibt.

Diese Herangehensweise wird auch als fail safe engineering bezeichnet (Sweats, 1992). Die

Sensitivität zusammen mit der Fehler-Basisrate und dem Antwortkriterium ergeben also die

Zuverlässigkeit oder die Reliabilität eines Warnsystems.

Die Reliabilität eines Alarmsystems wird in der Literatur jedoch nicht immer einheitlich

definiert. In manchen Studien wird lediglich die hit-Rate als Maß für die Zuverlässigkeit

verwendet (Parasuraman, Molloy & Singh, 1993). Dieses Vorgehen lässt jedoch das Verhal-

ten des Alarmsystems bei Absenz eines kritischen Ereignisses außer Acht und gibt somit kein

vollständiges Bild über die Leistung des Systems, da false alarms und correct rejections nicht

mit berücksichtigt werden. In vielen Studien wird die Reliabilität daher operationalisiert über

den Anteil an korrekten Reaktionen des Alarmsystems an allen Reaktionen (Wickens &

Dixon, 2007), also der Summe der hits und correct rejections relativiert an der Summe der

hits, correct rejections, false alarms und misses (siehe Formel 11).

sfalsealarmmissesectioscorrectrejhits

ectioscorrectrejhits

ätreliabilit 



(11)

Studien, die in diesem Kontext den Einfluss einer variierenden Reliabilität auf die Leistung

des kombinierten Mensch-Maschine-Systems untersuchten, fanden, dass der Anteil an korrek-

ten Reaktionen eines Alarmsystems darüber entscheidet, ob die Unterstützung eines Opera-

teurs durch ein Alarmsystem überhaupt leistungssteigernd ist oder nicht. So führten Wickens

& Dixon (2007) eine Meta-Analyse durch, in der sie die Effekte von unterschiedlichen Relia-

bilitäts-Niveaus aus 22 Studien auf die Leistung des Mensch-Maschine-Gesamtsystems

analysierten. Die analysierten Studien wiesen dabei folgende notwendige Gemeinsamkeiten:

die verwendeten Alarmsysteme hatten alle eine Reliabilität < 1.0 und gaben binäre Hinweise,

die im Rahmen der Signaldetektionstheorie klassifiziert werden konnten. Den Probanden

wurden dabei parallel zu den Hinweisen des Alarmsystems visuell die Rohdaten zum System-

zustand präsentiert, allerdings wurde in keiner Studie erfasst, ob und in welchem Ausmaß

diese Rohdaten tatsächlich beachtet wurden. Die Autoren verglichen für jede Studie die

Leistung in den unterschiedlichen Reliabilitäts-Bedingungen mit der Leistung der jeweiligen

Kontrollgruppe, in der die Probanden die Detektionsaufgabe ohne Unterstützung eines

Alarmsystems erfüllten. Dabei zeigten die Ergebnisse nicht nur, dass die Leistung stark

2.5 Zuverlässigkeit von Alarmsystemen als verhaltenssteurendes Merkmal 27

positiv mit der Zuverlässigkeit der Automation zusammenhängt, sondern auch, dass die

Leistung der Gruppe, die von einem Alarmsystem unter einer Reliabilität von 0.7 unterstützt

wurde, die Leistung der Kontrollbedingung nicht übertraf, sondern noch verschlechterte. Lee

& See (2004) berichten von gravierenden Leistungseinbußen des Mensch-Maschine-Systems,

wenn die Zuverlässigkeit des Alarmsystems unter ein bestimmtes Level sank. Dieser soge-

nannte cut-off schwankte in unterschiedlichen Studien von 90% (Moray et al., 2000) bis zu

70% (Kantowitz et al., 1997) zu 60% (Fox, 1996) und ist somit stark kontext- und systemab-

hängig.

Auch wenn diese Befunde zum Einfluss der Reliabilität weitgehend konsistent sind, ist die

Definition der Reliabilität über den Anteil an korrekten Reaktionen an allen Reaktionen sowie

über die hit-Rate problematisch, da die beiden Maße für den Operateur nicht unmittelbar

wahrnehmbar sind und somit für diesen keinen diagnostischen Wert haben. So müsste der

Operateur in beiden Fällen Kenntnisse über die zugrundeliegende Fehler-Basisrate haben, um

einordnen zu können, wieviele der Systemfehler tatsächlich korrekt detektiert wurden und

wieviele nicht. Ein weiteres Problem an der „klassischen“ Definition der Zuverlässigkeit als

Anteil korrekter Reaktionen ist, dass diese eine Gesamtreliabilität darstellt, in der zwei Ein-

zelaspekte der Gesamtzuverlässigkeit des Alarmsystems konfundiert sind. Ein Alarmsystem

kann dabei unabhängige Leistungen zeigen in der Anzeige von Systemfehlern (Alarm) und in

der Anzeige von fehlerfreien Zuständen (kein Alarm).

Alternative Maße zum Anteil an korrekten Reaktionen sind der positive predictive value3 und

der negative predicitve value4 (Meyer, 2004). Die PPV entspricht der a posteriori-

Wahrscheinlichkeit (siehe Kapitel 2.3.2), die besagt, dass bei einem gegebenen Alarm auch

tatsächlich ein kritisches Ereignis vorliegt; die NPV repräsentiert die Wahrscheinlichkeit, dass

bei Ausbleiben eines Alarms auch tatsächlich kein kritisches Ereignis vorliegt. Ein entschei-

dendes Merkmal dieses Maßes der Zuverlässigkeit ist die explizite Berücksichtigung der a

priori-Wahrscheinlichkeit eines kritischen Ereignisses oder der Fehler-Basisrate (siehe For-

meln 12 und 13).

)(1)/()()/(

)()/(

FehlerpkeinFehlerAlarmpFehlerpFehlerAlarmp

FehlerpFehlerAlarmp

PPV uu

(12)

3Im Folgenden als PPV bezeichnet

4Im Folgenden als NPV bezeichnet

28 Theoretischer Hintergrund

)(1)/()()/(

)()/(

keinFehlerpFehlerkeinAlarmpkeinFehlerpkeinFehlerkeinAlarmp

keinFehlerpkeinFehlerkeinAlarmp

NPV uu

(13)

Parasuraman, Hancock & Olofinboba (1997) und Meyer (2002) haben in ihren Studien

eindrucksvoll gezeigt, wie die PPV und die NPV maßgeblich von der Auftretenswahrschein-

lichkeit eines kritischen Ereignisses beeinflusst werden. So kann selbst ein Alarmsystem mit

einer hohen Sensitivität bzw. hohen hit-Rate eine niedrige PPV aufweisen, wenn die Basisrate

gering ist. Mit der NPV verhält es sich genau umgekehrt: je weniger kritische Ereignisse es zu

detektieren gibt, umso weniger misses können auftreten und umso höher ist die NPV. Abbil-

dung 5 veranschaulicht den Einfluss der Basisrate auf die PPV und die NPV.

Abbildung 5: Einfluss der Fehler-Basisrate auf PPV und NPV

Ein weiterer Vorteil der PPV und der NPV gegenüber verbreiteten Maßen wie der hit- oder

FA-Rate ist, dass sie für den Operateur besser interpretierbar sind und somit eine höhere

Diagnostizität aufweisen. Botzer et al. (2010) fanden in empirischen Versuchen, dass die

Probanden ihr Antwortkriterium, das heißt ihr Antwortverhalten besser an die Zuverlässigkeit

anpassten, wenn diese ihnen vorab im Rahmen der PPV und NPV präsentiert wurde als wenn

sie Informationen über die hit- und FA-Rate bekamen. Während es bisher also nur wenige

aussagekräftige Studien zum Einfluss der PPV und NPV auf das Reagieren auf Alarme gibt,

finden sich in der Literatur vermehrt Studien, die den Anteil an korrekten Reaktionen als das

Maß für die Zuverlässigkeit wählen anstatt der PPV und der NPV. Betrachtet man die Defini-

tion der Reliabilität als Anteil der korrekten Reaktionen an allen Reaktionen in Formel 11 fällt

auf, dass sich diese zur PPV bzw. NPV kürzt, wenn man Alarm- und Nicht-Alarmtrials

2.5 Zuverlässigkeit von Alarmsystemen als verhaltenssteurendes Merkmal 29

getrennt betrachtet. Da in einigen Studien lediglich das Antwortverhalten auf Alarme unter-

sucht wird, entspricht hier der korrekte Anteil exakt der PPV (Bliss & Acton, 2003; St. John

& Manes, 2002).

Auch wenn die PPV bzw. NPV also als eine spezifischere Art der Reliabilität im Sinne des

Anteils an korrekten Reaktionen bezeichnet werden könnte, ist es schwierig, die PPV bzw.

NPV eindeutig dem Begriff „Reliabilität“ oder „Validität“ zuzuordnen. Der Begriff „Reliabi-

lität“ rechtfertigt sich zum Einen durch die mögliche Ableitung der PPV und NPV aus der

Gesamtreliabilität zu einer spezifischen Reliabilität für Alarmtrials und alarm-freie Trials.

Zum Anderen lässt sich die Zuverlässigkeit erst über eine Reihe von Hinweisen des Alarm-

systems hinweg berechnen. Genauso ist die Reliabilität im klassischen Sinne als ein Gütemaß

für die Messgenauigkeit über mehrere Zeitpunkte definiert. Die Angemessenheit eines einzel-

nen Hinweises des Alarmsystems würde in diesem Rahmen als dessen Validität bezeichnet

werden, die für jeden einzelnen Hinweis aussagt, ob dieser dem tatsächlichen Systemzustand

entspricht oder nicht. Aus einer anderen Sichtweise kann argumentiert werden, dass die

Reliabilität eine konstante Eigenschaft des Alarmsystems sein muss, die sich nicht durch den

externen Einfluss der Fehler-Basisrate ändern kann. Die Messgenauigkeit bzw. Reliabilität

des Alarmsystems bliebe im Rahmen dieser Argumentation in Form der Sensitivität gleich,

nur die PPV und NPV würden als eine Form der Validität von der variierenden Basisrate

beeinflusst werden. Eine dritte Interpretationsmöglichkeit wäre, nur das Zusammenspiel von

PPV und NPV als „Validität“ des Alarmsystems zu bezeichnen. In diesem Zusammenhang

würde der Anteil an tatsächlichem Informationsgehalt des Alarmsystems als Validität be-

zeichnet werden. Der Anteil an übermitteltem Informationsgehalt lässt sich nach Meyer

(2001) in Abhängigkeit der Fehlerbasisrate quantifizieren. Da in dieser Arbeit der Einfluss

von PPV und NPV als Alternative zur klassischen Reliabilität untersucht wird, werden die

PPV und NPV im Folgenden als eine Form der Reliabilität klassifiziert, ohne die Gültigkeit

der anderen Interpretationen in Frage zu stellen.

In der Literatur gibt es bislang wenige empirische Arbeiten, die die PPV und NPV als Maß

für Zuverlässigkeit systematisch variieren. Getty et al. (1995) untersuchten erstmals systema-

tisch den Einfluss der PPV von Alarmen auf die Reaktionszeiten auf diese Alarme in einem

Doppelaufgaben-Paradigma. Sie fanden mit sinkender PPV einen signifikanten Anstieg der

Reaktionszeit auf einen Alarm. Allerdings war dieser Trend nicht linear, sondern zeigte ab

einer mittleren PPV einen cut-off, an dem das Verhalten abrupt wechselte; das heißt, dass für

niedrige PPV lange Reaktionszeiten auftraten und für alle PPV im höheren Bereich einheitlich

30 Theoretischer Hintergrund

kurze. In diesem Sinne wurde also die PPV dichotomisiert in hohe und niedrige PPV, und es

wurden zwei extreme Strategien gewählt, nämlich das Ignorieren von Alarmen bzw. das sehr

langsame Reagieren auf Alarme, und das unmittelbare Einsetzen der erwarteten Reaktion auf

den Alarm. Leider nahmen an dieser Untersuchung lediglich 4 Probanden teil, von denen nur

3 das Experiment komplett durchliefen, so dass die Ergebnisse mit Vorsicht zu betrachten

sind bzw. durch weitere empirische Erhebungen gestützt werden sollten.

Im Rahmen der PPV und der NPV wird somit wird zwischen Antworttendenzen unterschie-

den, die sich auf zwei unterschiedliche Meldungen eines Assistenzsystems beziehen: eine

Warnung oder ein Alarm fordert das Eingreifen des Operateurs während ein einwandfreier

Zustand keine Reaktion verlangt. In den nächsten Kapiteln werden die Definition und Ein-

flussfaktoren auf diese zwei Verhaltenstendenzen beschrieben.

2.5.1 Die Konzepte der reliance und compliance

In Kapitel 2.2 wurde mit Bezug auf die erste Stufe des Modells von Allendoerfer, Pai &

Friedman-Berg (2008; siehe Abb. 2) erläutert, dass ein binäres Alarmsystem zwei Zustände

annehmen kann (Alarm oder keinen Alarm). An dieser Stelle ist es wichtig, im Modell eine

Ebene höher zu gehen und zwischen zwei unterschiedlichen Reaktionsweisen des Operateurs

auf die Diagnose eines Alarmsystems zu unterscheiden: compliance bezeichnet die Tendenz,

die erwartete Reaktion auf einen Alarm auszuführen, wohingegen man unter reliance das

Ausbleiben einer solchen Reaktion versteht, wenn das Alarmsystem keinen kritischen Sys-

temzustand signalisiert. Compliance und reliance repräsentieren nach Meyer (2004) die

Verhaltenskomponente von Vertrauen. Vorteil dieser verhaltensbasierten Definition von

Vertrauen ist, dass das Verhalten eine Art Endergebnis ist, welches mehrere Faktoren vereint,

die zur Handlung beitragen. Lee & See (2004) siedeln Vertrauen beispielsweise noch vor der

Intention zum Handeln an, welche dann zusammen mit äußeren Faktoren wie der Arbeitsbe-

lastung und dem erwarteten outcome das endgültige Verhalten determinieren. Meyer (2004)

postuliert, dass compliance und reliance, also das behavioralistische Vertrauen in alarm-freie

Phasen und Alarmphasen, unterschiedlichen Mechanismen unterliegen. Unterstützt wird die

Trennung dieser zwei Reaktionen durch empirische Ergebnisse, die zeigen, dass die compli-

ance hauptsächlich von false alarms und die reliance überwiegend von misses beeinflusst wird

(Meyer, 2004). Zusätzlich scheint die compliance über die Zeit hinweg konstant zu bleiben,

2.5 Zuverlässigkeit von Alarmsystemen als verhaltenssteurendes Merkmal 31

während die reliance mit fortschreitender Interaktion mit einem nicht perfekten Alarmsystem

sinkt (Meyer, 2001).

Während reliance und compliance bislang also als unabhängige Konstrukte interpretiert

wurden, geben neuere Studien (Dixon, Wickens & McCarley, 2007; Rice, 2009; Dixon &

Wickens, 2006) Hinweise darauf, dass false alarms die Gesamtleistung in einem Mehrfach-

aufgaben-Paradigma stärker degradieren als eine hohe Anzahl von misses, indem sie nicht nur

die compliance, sondern auch die reliance reduzierten, also auch unspezifische Effekte zeig-

ten. Somit scheinen false alarms das Gesamtvertrauen in das System zu schwächen. In einer

Studie von Dixon, Wickens & McCarley (2007) wurden die Probanden aufgefordert, im

Rahmen einer Tracking-Aufgabe den Cursor mit Hilfe eines Joysticks möglichst dicht an ein

Zielobjekt zu bewegen, während sie gleichzeitig einen Pegelstand auf Abweichungen vom

Normbereich überwachen sollten. Dabei wurden sie von einem Alarmsystem unterstützt,

welches je nach Bedingung entweder perfekt arbeitete, misses produzierte oder zu falschen

Alarmen neigte. Die Ergebnisse zeigten, dass falsche Alarme die Leistung des Gesamtsystems

quantitativ und Aufgaben-übergreifend stärker minderten als misses. Dieser Effekt falscher

Alarme entsteht laut den Autoren dadurch, dass die Leistung in der Überwachungsaufgabe

sinkt, da die Reaktionszeiten auf einen Alarm aufgrund der niedrigen compliance länger sind.

Zum Anderen führen false alarms durch ihre hohe Salienz zu einer Ablenkung der Aufmerk-

samkeit von der Parallelaufgabe, so dass die Leistung in der Parallelaufgabe nicht nur unter

misses, sondern auch unter false alarms leidet. Gleichzeitig scheinen falsche Alarme nicht nur

das Vertrauen in Alarme zu reduzieren, sondern auch in alarm-freie Phasen, das Gesamtver-

trauen in das Alarmsystem wird also geschwächt. Dabei bewirkt die gesunkene reliance eine

erhöhte Aufmerksamkeit auf die Überwachungsaufgabe in alarm-freien Phasen und lässt die

Leistung in der Parallelaufgabe somit weiterhin sinken. Weitere Hinweise auf non-selektive

Effekte von falschen Alarmen auf die compliance und die reliance liefert eine Studie von Rice

(2009). In dieser Studie zeigte die Analyse des Verhaltens der Probanden, die bei einer

Detektionsaufgabe von einer Entscheidungshilfe unterstützt wurden, dass auch die Anzahl der

misses die compliance beeinflusste, wenn auch in geringerem Ausmaß als die false alarms.

Aufgrund dieser Befunde schlägt Rice ein multiples Prozessmodell von Vertrauen in Alarme

vor (siehe Abbildung 6).

32 Theoretischer Hintergrund

Abbildung 6: multiples Prozessmodell nach Rice (2009)

Die Automationsfehler misses und false alarms beeinflussen demnach nicht eine Art generel-

les Vertrauen, was sich wiederum auf beide Reaktionstendenzen reliance und compliance

auswirkt (singuläres Prozessmodell). Vielmehr scheinen sowohl misses als auch false alarms

das Vertrauen in Alarmphasen sowie in alarm-freie Phasen zu bestimmen. Das Vertrauen in

Alarme bzw. in alarm-freie Phasen hat ebenso keinen spezifischen Einfluss, sondern determi-

niert sowohl die compliance als auch die reliance, wenn auch false alarms die compliance

stärker beeinflussen als die reliance und misses die reliance stärker als die compliance. Auch

wenn beide Automationsfehler also das Vertrauen und die Leistung des Operateurs reduzie-

ren, so wurde in der Literatur bislang hauptsächlich die compliance und dementsprechend

Probleme im Zusammenhang mit false alarms untersucht. Das liegt zum Einen daran, dass

durch das fail safe engineering das Antwortkriterium so gesetzt wird, dass false alarms

häufiger auftreten als misses und zum Anderen am salienten und unterbrechenden Charakter

von false alarms. Das nächste Kapitel gibt eine Übersicht zu den Ergebnissen von For-

schungsarbeiten, die sich mit Verhaltensphänomenen im Umgang mit Alarmen beschäftigt

haben.

2.5.2 Verhaltensphänomene im Umgang mit Alarmen

Nachdem die Effekte von false alarms und misses auf die compliance und die reliance auf

theoretischer Basis beschrieben wurden, werden in diesem Kapitel Untersuchungsergebnisse

den Umgang von Operateuren mit unzuverlässigen Alarmen veranschaulichen.

In Kapitel 2.5 wurde bereits berichtet, dass die Leistung des Mensch-Maschine-

Gesamtsystems im Vergleich zur Leistung des Operateurs alleine abnimmt, wenn die Zuver-

lässigkeit des Alarmsystems unter eine bestimmte Schwelle sinkt (Wickens & Dixon, 2007).

Die Autoren erklären sich dieses Ergebnis so, dass die Operateure sich zu häufig auf offen-

2.5 Zuverlässigkeit von Alarmsystemen als verhaltenssteurendes Merkmal 33

sichtlich unreliable Alarmsystem verlassen, um Ressourcen für eventuelle Nebenaufgaben zu

sparen. In Experimenten mit höherer Belastung im Sinne von mehreren Teilaufgaben fiel die

Leistung dementsprechend schlechter aus als in Studien, in denen die Probanden sich auf die

Überwachungsaufgabe fokussieren und somit die schlechte Leistung des Alarmsystems

ausgleichen konnten. Die unzureichende Überwachung wird hier also eher als eine Strategie

zur Ressourcenallokation unter Überlastung verstanden anstatt als unzureichende Überwa-

chung aus einer Art Über-Vertrauen durch mangelnde Wahrnehmung der schlechten Reliabi-

lität. Die wahrgenommene Zuverlässigkeit des Alarmsystems sowie Kontextfaktoren wie die

Arbeitsbelastung scheinen also wichtige Einflussgrößen im Umgang mit nicht-perfekten

Alarmen zu sein. Empirische Befunde zu diesen beiden Faktoren werden im Folgenden näher

beschrieben.

Bisher wurden die Effekte von Fehlinformationen des Alarmsystems auf das Vertrauen und

somit auf die reliance und die compliance des Operateurs geschildert. Doch nicht immer hat

der Operateur Wissen über die Verteilung der unterschiedlichen Fehlerarten und somit über

die Zuverlässigkeit des Alarmsystems. Hat er also keinen Zugriff auf zusätzliche Informatio-

nen oder Rohdaten, die ihm helfen, die Entscheidung eines Alarmsystems zu validieren, so

muss er eine Entscheidung unter Unsicherheit treffen (Meyer, 2004). Diese Unsicherheit ist

dann besonders ausgeprägt, wenn sich die Zuverlässigkeit des Alarmsystems in einem mittle-

ren Bereich bewegt. Befindet sich die PPV zum Beispiel bei einem Wert von 0.5, so liegt die

Diagnostizität eines Alarms bei Rate-Wahrscheinlichkeit. Kahnemann, Slovic & Tversky

(1982) und Tversky & Kahnemann (1974) beschreiben, dass Menschen in Situationen großer

Unsicherheit unterschiedliche Heuristiken als Entscheidungshilfe heranziehen, um die Wahr-

scheinlichkeit des Eintretens eines Ereignisses zu schätzen. Die Berechnung von Wahrschein-

lichkeiten nach bayestheoretischen Formeln läuft also nicht automatisiert und online ab und

eine statistisch korrekte Einschätzung scheint unwahrscheinlich. Heuristiken basieren oft auf

den Informationen, die naheliegend und leicht abrufbar sind, vernachlässigen jedoch wichtige

Hintergrundinformationen, wodurch es zu verzerrten Schätzungen kommt. Diese Verzerrun-

gen entstehen also nicht durch motivationale Faktoren wie Belohnung oder Bestrafung,

sondern treten auch dann auf, wenn sich ein Novize oder auch Profi bemüht, so akkurat wie

möglich zu schätzen. Im Zusammenhang mit Alarmsystem geht es bei jedem einzelnen Alarm

bzw. alarm-freien Trial darum, die Wahrscheinlichkeit einzuschätzen, ob die Aussage des

Alarmsystems valide ist, sprich ob ein kritischer Systemzustand vorliegt oder nicht. Haben die

Operateure nicht die Möglichkeit, die Aussage durch Zusatzinformation zu validieren, befin-

34 Theoretischer Hintergrund

den sie sich in einer typischen Situation, in der eine Entscheidung unter Unsicherheit getrof-

fen werden muss und spezifische Heuristiken im Mensch-Maschine-Kontext treten auf. Bliss

(2003b) führte eine Meta-Analyse durch, in der er die Reaktionen von Probanden auf Alarme

mit unterschiedlicher Zuverlässigkeit auf einem individuellen Niveau untersuchte. Er fand,

dass die meisten Probanden unter Unsicherheit dazu neigten, Alarme mit einer Häufigkeit zu

befolgen, die etwa deren Zuverlässigkeit entsprach. Diese Anpassung der Reaktionen auf

einen Alarm an dessen Reliabilität wird in der Literatur als probability matching bezeichnet

(Bliss, 2003; Bliss, Gilson & Deaton, 1995) und stellt eine wichtige Heuristik im Umgang mit

nicht-perfekten Alarmsystemen dar. Im Rahmen seiner Meta-Analyse fand Bliss (2003b)

allerdings auch, dass eine Minderheit der Probanden eine andere Heuristik heranzog. Bei

einer niedrigen Reliabilität wurden alle Alarme ignoriert und bei einer hohen Reliabilität

wurden alle Alarme direkt befolgt. Bliss erklärt sich den Vorteil dieses sogenannten extreme

responding so, dass es den Probanden erlaubte, bereits vor dem Experimentaldurchgang zu

entscheiden, wie sie mit den Alarmen umgehen würden.

Im vorherigen Abschnitt wurden Verhaltenseffekte der Zuverlässigkeit von Alarmsystemen

beschreiben, die vor allem unter Unsicherheit des Operateurs bezüglich der Zuverlässigkeit

des Alarmsystems entstehen. Extreme Antwortmuster, die auf einer Art Heuristik basieren,

entstehen jedoch auch in Interaktion mit Alarmsystemen, deren Zuverlässigkeit bekannt ist.

So entsteht z. B. im Umgang mit perfekten Automationen oft ein generalisiertes Über-

Vertrauen. Mosier & Skitka (1996) beschreiben in diesem Zusammenhang das Konzept des

automation bias. Der automation bias beschreibt die Tendenz, die Hinweise der Automation

als heuristische Grundlage zur Entscheidungsfindung zu nutzen, dieser also blind zu folgen,

anstatt aktiv nach Informationen wie Rohdaten zu suchen und diese zu interpretieren, um die

Hinweise der Automation zu hinterfragen. Dabei kommt es zu zwei Fehlerarten in Abhängig-

keit des Systemzustandes: ein omission-Fehler kommt dann zustande, wenn der Operateur ein

vom automatisierten System nicht angezeigten kritischen Systemzustand übersieht, ein

commission-Fehler liegt dann vor, wenn er auf einen fälschlicherweise angezeigten Fehler

tatsächlich reagiert. Solch ein übersteigertes Vertrauen in die Automation ist jedoch kein

konstantes Verhalten über die Zeit hinweg, sondern wird maßgeblich beeinflusst von den

Erfahrungen, die über die Zeit mit dem System gemacht werden. So wird das Vertrauen des

Operateurs in das System nicht nur von der generellen Reliabilität beeinflusst, sondern auch

von jeder einzelnen Entscheidung, die das System trifft. Hat der Operateur die Möglichkeit,

diese zu verifizieren (z. B. durch unmittelbares Feedback oder durch manuelles Überprüfen

2.5 Zuverlässigkeit von Alarmsystemen als verhaltenssteurendes Merkmal 35

des Systems), so bekommt er eine Information über die sogenannte Validität dieser Entschei-

dung (Bliss, 2003b). Eine Kenntnis über die durchschnittliche Zuverlässigkeit des Systems

gibt also ein Bild von der Gesamt-Reliabilität. Davon grenzt sich die Validität eines einzelnen

Hinweises des Alarmsystems ab, die wiederum jedoch einen erheblichen Einfluss auf die

Wahrnehmung der generellen Reliabilität haben kann. Prozess.

Auch wenn dem Operateur Anhaltspunkte über die Zuverlässigkeit des Alarmsystems vorlie-

gen, werden Probleme im Umgang mit sehr unzuverlässigen Alarmen berichtet. Am promi-

nentesten sind dabei in der Literatur Ergebnisse zum Umgang mit einer hohen Anzahl von

falschen Alarmen. Im vorherigen Kapitel wurde beschrieben, wie eine hohe Anzahl falscher

Alarme zu einer sinkenden compliance und somit zu einer verlangsamten oder sogar ausblei-

benden Reaktion auf Alarme führt. In Anlehnung an die in der Einleitung aufgeführte Fabel

des Hirtenjungen, der zu oft „Wolf!“ schrie, bezeichnet Breznitz (1984) das Verhalten, wel-

ches durch eine verlangsamte oder ganz ausbleibende Reaktion auf Alarme kennzeichnet ist,

als cry wolf-Effekt. So bestätigen Dixon & Wickens (2006) im Laborkontext signifikant

höhere Detektionszeiten von Systemfehlern, wenn das Alarmsystem einen hohen Anteil von

falschen Alarmen hatte als wenn es einen vergleichbar hohen Anteil an verpassten kritischen

Ereignissen besaß. Ein einfacheres Paradigma bieten Meyer, Feinshreiber & Parmet (2003) in

einer Studie zum Einfluss des Automationsgrads (siehe Kapitel 2.1) und der Zuverlässigkeit

einer Entscheidungshilfe auf die Detektionsleistung des Operateurs. Das Paradigma bestand

aus einer 5 x 5 Matrix, deren Felder jeweils wieder aus 5 x 5 weißen und schwarzen Quadra-

ten bestanden. Ein Feld von 2 x 2 schwarzen Feldern bedeutete ein fehlerhaftes Produkt und

sollte durch den Probanden aussortiert werden. Von den 25 Feldern wurden den Probanden

allerdings nur 14 Felder gezeigt, so dass diese ein fehlerhaftes Produkt nicht mit Sicherheit

identifizieren konnten. Das automatisierte System gab durch Markierung der entsprechenden

Quadranten Hinweise auf mögliche fehlerhafte Items. Der Proband konnte dieses Item dann

entweder selbst zur Aussortierung auswählen oder (in der Bedingung mit dem System mit

höherem Automatisierungsgrad) abwarten bis das System das Item selbst aussortierte. In

dieser Studie verließen sich die Probanden sehr stark auf die unzuverlässigen Hinweise, vor

allem dann, wenn das Assistenzsystem einen hohen Automatisierungsgrad aufwies. Das

Ergebnis deutet darauf hin, dass der cry wolf-Effekt nur dann auftritt, wenn der Operateur in

einer hohen Anforderungssituation steht und seine Ressourcen auf mehrere Aufgaben auftei-

len muss. In diesem Fall spricht man von einem erhöhten workload. Der Begriff workload

beschreibt im Kontext vom Umgang mit Alarmsystemen die mentale Belastung, die ein

36 Theoretischer Hintergrund

Operateur durch die jeweilige Anzahl und Art der Arbeitsaufgaben und Situationsfaktoren

wie Zeitdruck erfährt. Diese mentale Belastung resultiert dann ein einer differentiell empfun-

denen Beanspruchung, die abhängig ist vom Zustand und den Coping-Fähigkeiten des Indivi-

duums (Manzey, 1998). Der Begriff workload unterscheidet nicht zwischen Beanspruchung

und Belastung, sondern geht von einem Informationsverarbeitungsprozess aus, der sich durch

zielgerichtete Handlungen und rückkoppelnde Feedbackschleifen zur Bewältigung der jewei-

ligen Belastung definiert. Für diesen Verarbeitungsprozess werden freie Kapazitäten benötigt,

die nach dem Modell von Wickens (1984, 1992, 2002, 2008) ressourcenspezifisch sind. Das

Modell der multiplen Ressourcen basiert auf der allgemeinen Annahme, dass die Aufgabe

vom Menschen einen bestimmten Bedarf an Ressourcen fordert. Mit steigender Komplexität

einer Aufgabe werden mehr Ressourcen benötigt, die die zur Verfügung stehende Kapazität

übersteigen können. In diesem Fall kommt es zu einer sogenannten Verteilungspolitik, was

bedeutet, dass der Mensch bzw. Operateur die ihm zur Verfügung stehenden Ressourcen auf

bestimmte Funktionen aufteilen muss. Das Besondere an Wickens’ Modell der multiplen

Ressourcen ist die Annahme, dass für bestimmte Funktionen jeweils spezifische Ressourcen

existieren. Die unterschiedlichen Dimensionen werden dabei in einem dreidimensionalen

Würfel dargestellt, der es erlaubt, die Verarbeitung einer spezifischen Belastung zu lokalisie-

ren. Dabei gelten folgende Kriterien bzw. Dimensionen:

Verarbeitungsmodalität („codes“). Bei räumlich-analogen Aufgaben werden sowohl

bei der Informationsaufnahme, deren Verarbeitung im Arbeitsgedächtnis und der Hand-

lungsausführung andere Ressourcen benötigt als bei verbal-sprachlichen.

Sinnesmodalität („modalities“). Die Aufnahme akustischer und visueller Reize ge-

schieht über jeweils unterschiedliche Ressourcen.

Verarbeitung visueller Information („visual processing“). Diese Dimension unter-

scheidet zwischen fokaler und ambienter Aufmerksamkeit. Die fokale Aufmerksamkeit

meint dabei das fokussierte, fixierende Sehen, die ambiente Aufmerksamkeit die Ver-

teilung der Aufmerksamkeit über das gesamte Blickfeld mit Fokus auf die Peripherie.

Verarbeitungsstufen („stages“). Für die Handlungsauswahl und –ausführung werden

andere Ressourcen benötigt als bei perzeptiv-kognitiven Aktivitäten.

Reaktionsmodus („responses“). Sprachlichen und manuellen Reaktionen liegen ver-

schiedene Ressourcen zugrunde.

Laut diesem Modell ist eine parallele Aufgabenbearbeitung möglich, wenn Ressourcen

gefordert werden, die auf zwei unterschiedlichen Dimensionen liegen (z. B. akustische vs.

2.5 Zuverlässigkeit von Alarmsystemen als verhaltenssteurendes Merkmal 37

visuelle Sinnesmodalitäten) oder wenn unterschiedliche Stufen der Informationsverarbeitung

angesprochen werden (z.B. Verarbeitungsstufen: kognitive Aktivitäten im Arbeitsgedächtnis

vs. motorische Aktivitäten bei der Handlungsausführung). Bei der parallelen Bereitstellung

unterschiedlicher Ressourcen kommt es durch die Aktivierung unterschiedlicher Hirnareale

also zu keinen Interferenzen und somit zu keiner Leistungseinbuße (Wickens, 2008). Einer

allgemeinen, aufgaben-übergeordneten Ressource würde nach Wickens (1991) die Koordina-

tion der spezifischen Ressourcen bzw. der Verteilungspolitik abgesehen von diesen unspezifi-

schen Ressourcen zukommen. In einem ersten Schritt beschreibt der mental workload durch

einen Abgleich vom Bedarf an Ressourcen und vorhandenen Kapazitäten also die momentane

Auslastung. Die Theorie der multiplen Ressourcen setzt daraufhin da an, wo eine Überlastung

der vorhandenen Kapazitäten auftritt. Nach der Theorie der multiplen Ressourcen kommt es

dann zu einer Leistungseinbuße durch Überlastung, wenn die Aufgabenanforderungen in

einem Mehrfachaufgaben-Paradigma zeitgleich Ressourcen beanspruchen, die auf einer

Dimension liegen. Im Rahmen der Mensch-Maschine-Interaktion lassen sich so Überlastun-

gen von Operateuren durch „multi tasking“ vorhersagen und damit verbundene Leistungsein-

brüche verhindern (Wickens, 2008).

Die Definition von workload und die Bedingungen, unter denen es zu einem hohen workload

kommt, sind insofern ausschlaggebend für die Verhaltenswirksamkeit von Alarmen, dass sich

eine hohe Anzahl von Alarmen vor allem unter hohem workload negativ auf die Leistung des

Mensch-Maschine-Systeme auswirkt. So führten Dixon & Wickens (2006) eine Untersuchung

durch, in der der workload durch den Schwierigkeitsgrad der simultan zu bearbeitenden

Aufgaben und die Koinzidenz von Vorfällen manipuliert wurde. Die Probanden wurden

aufgefordert, ein Luftfahrtzeug zu bestimmten Koordinaten zu steuern und als Nebenaufgabe

in einer Tracking-Aufgabe Ziel-Objekte zu detektieren. Die Überwachungsaufgabe bestand

darin, vier Systemparameter, deren Pegelstände kontinuierlich variierten, zu kontrollieren.

Dabei wurden sie von einem Alarmsystem unterstützt, das bei einer Normwertüber- oder -

unterschreitung einen akustischen Alarm gab. Die Ergebnisse zeigten, dass Probanden in

Interaktion mit dem Alarmsystem mit einer Reliabilität von nur 0,67 (bedingt durch eine hohe

Anzahl von falschen Alarmen) nur in der Bedingung mit hoher Arbeitsbelastung durch eine

starke Abnahme korrekter Detektionen von Systemfehlern und eine drastisch sinkende Reak-

tionszeit Anzeichen des cry wolf-Effekts zeigten. Ein recht verbreitetes Mehrfachaufgaben-

Paradigma ist die „multi-task attribute battery“ (MAT-Battery; Comstock, Arnegard, 1992),

deren Module in der nächsten Studie beispielhaft geschildert werden. Bliss, Jeans & Prioux

38 Theoretischer Hintergrund

(1996) nutzten diese, um ein Doppelaufgaben-Paradigma zu simulieren Im Rahmen dieser

Untersuchung sollten die Probanden im Rahmen einer Tracking-Aufgabe den Cursor mög-

lichst genau auf dem Mittelpunkt eines Quadranten halten und gleichzeitig vier Systempara-

meter auf mögliche Grenzwertüber- und -unterschreitungen überwachen. Dabei wurden sie

ebenfalls von einem Alarmsystem unterstützt, wobei ein Alarm hier sowohl akustisch als auch

visuell in Form eines aufleuchtenden gelben Balkens mit der Unterschrift „Warnung“ präsen-

tiert wurde. 75% der präsentierten Alarme waren wahre Alarme. Die Ergebnisse zeigten, dass

die Probanden ihre Antwortfrequenz im Sinne eines probability matchings auf das Niveau der

Zuverlässigkeit des Alarmsystems senkten. Bliss & Dunn (2000) unterschieden in einer

weiteren Untersuchung zusätzlich zwischen workload, der innerhalb der Alarmaufgabe

variiert wurde, und externem workload, der durch Erweiterung des Paradigmas der MAT-

Batterie um weitere Aufgaben manipuliert wurde. Der externe workload wurde dabei auf 3

Stufen manipuliert (nur Alarmaufgabe, eine Zusatzaufgabe, zwei Zusatzaufgaben). Der

interne workload wurde ebenfalls in 3 Stufen gesteigert, indem die Frequenz von Alarmen mit

jeder Stufe zunahm, so dass es zu mehreren Unterbrechungen und erfordertem Eingreifen

seitens des Operateurs kam. Die erfassten relevanten Variablen waren die Reaktionshäufigkei-

ten und -genauigkeit auf Alarme sowie die Fehlerrate in den Konkurrenzaufgaben. Es zeigte

sich, dass sowohl steigender alarm-interner workload als auch steigender externer workload

zu einer sinkenden Reaktionsleistung in der Alarmaufgabe führte. Dieser Effekt war dann

besonders stark, wenn der (interne oder externe) workload hoch und die Zuverlässigkeit des

Alarmsystems niedrig war.

Die in diesem Kapitel aufgeführten Studien, die das Auftreten des cry wolf-Effekts in Expe-

rimentalumgebungen zeigen, basieren alle auf binären Paradigmen, also Systemen, die den

Operateur zu einer Entscheidung zwischen einem direkten Befolgen des Hinweises des

Alarmsystems oder dem Ignorieren des Systems zwingen. Diese Studien sind also auf der

zweiten Ebene des Modells von Allendoerfer, Pai und Friedman-Berg (2008) einzuordnen.

Allerdings gibt es in ihrem Modell und auch in der Praxis oft eine dritte Verhaltensalternative,

das Überprüfen des Hinweises, die in der Literatur bislang häufig vernachlässigt wurde. Das

nächste Kapitel macht deutlich, welche Effekte eine solche Prüfoption auf den cry wolf-Effekt

und Heuristiken wie das extreme responding hat und weshalb es wichtig ist, diese For-

schungslücke zu schließen.

2.6 Kritische Diskussion bisheriger Forschung 39

2.6 Kritische Diskussion bisheriger Forschung

Betrachtet man die Literatur zum Thema Verhaltenswirksamkeit von Alarmen fällt auf, dass

die meisten Untersuchungsumgebungen so gestaltet sind, dass die Probanden sich zwischen

zwei extremen Verhaltensweisen auf einen Alarm entscheiden müssen: den Alarm zu reagie-

ren oder den Alarm zu befolgen (siehe Kapitel 2.2). Die bisherigen Forschungsergebnisse

beziehen sich also so gut wie ausschließlich auf die zweite Stufe des Modells von Allendoer-

fer, Pai & Friedman-Berg (2008), ohne die dritte Stufe des Modells zu berücksichtigen. Diese

letzte Entscheidungsebene des Modells repräsentiert eine dritte Verhaltensmöglichkeit, die

auch in der Praxis meist gegeben ist, nämlich das Reagieren auf einen Hinweis des Alarmsys-

tems, in dem der Operateur die Rohdaten hinter diesem Hinweis überprüft. In diesem Kapitel

soll der Einfluss des gewählten Paradigmas in Bezug auf die Verhaltensoptionen, die dem

Probanden geboten werden, kontrovers diskutiert werden.

In herkömmlichen Paradigmen wird bei niedriger Zuverlässigkeit des Alarmsystems immer

wieder der cry wolf-Effekt und bei hoher Zuverlässigkeit immer wieder ein „blindes“ Befol-

gen aller Alarme gefunden. Allerdings stellt sich die Frage, ob diese Heuristiken nicht auch

ein künstliches Produkt restringierter Untersuchungs-Settings sein könnten. Wie im vorheri-

gen Kapitel veranschaulicht tritt der cry wolf-Effekt vor allem in Mehrfachaufgaben-

Paradigmen auf, das heißt unter erhöhtem workload. Zu diesem erhöhten workload und der

binären Reaktionsmöglichkeit kommt die Unsicherheit der Probanden bezüglich der Validität

eines einzelnen Hinweises, so dass nur die Anwendung von Heuristiken aus der Entschei-

dungssituation unter Unsicherheit hilft. So bietet die bereits erwähnte MAT-Battery (Com-

stock, Arnegard, 1992) zwar die Möglichkeit, die Entscheidungen des Alarmsystems direkt

mit dem aktuellen Pegelstand zu vergleichen und die Diagnosen somit zu validieren. Dieses

Validieren stellt allerdings ein passives Überprüfen dar, da die Rohdaten nicht aktiv angefor-

dert werden müssen, sondern dem Operateur kontinuierlich dargeboten werden. Diese Opera-

tionalisierung birgt den Nachteil, dass nicht erfasst werden kann, ob die Rohdaten tatsächlich

geprüft bzw. wahrgenommen wurden. Somit können auch keine Aussagen über den Einfluss

der Prüfoption auf das gesamte Verhaltensmuster und die Leistung des Mensch-Maschine-

Systems getroffen werden. Ein Beispiel für ein aktives Überprüfen des Systemstatus findet

sich bei Meyer (2002; Bitan & Meyer, 2007). In einem simulierten Krankenhaus-Setting

sollten die Probanden Zahlenwerte zweier Stationen darauf überwachen, dass sie nicht in den

Negativbereich fallen. Ein Alarmsystem signalisierte durch die Rotfärbung eines sonst grünen

40 Theoretischer Hintergrund

Balkens über der jeweiligen Station einen kritischen Zustand. Um den aktuellen Wert und

somit die Validität des Alarms zu prüfen musste die Station angeklickt werden, wobei dem

Probanden für diese Prüfaktion Punkte abgezogen wurden, so dass ein Prüfen nur dann

eingesetzt werden sollte, wenn dies rational und notwendig erschien. Die Probanden in dieser

Untersuchung wurden also nicht gezwungen, sich zwischen den Extremreaktionen Ignorieren

oder direktes Befolgen des Alarms zu entscheiden, sondern konnten zwischen den drei Reak-

tionen Ignorieren, Befolgen und Überprüfen bzw. Validieren des Alarms entscheiden. Der

Anteil des Prüfverhaltens an allen gezeigten Reaktionen war in dieser Untersuchung jedoch

nicht zentraler Gegenstand. Bietet man also an, die Validität von einzelnen Entscheidungen

eines automatisierten Systems zu überprüfen, müsste der Anteil an Extremreaktionen sinken

und das Prüfverhalten steigen.

Bliss (2003b) untersuchte in der in Kapitel 2.5.2 bereits erwähnten Meta-Analyse, wie eine

Prüfoption das Auftreten von Heuristiken wie den cry wolf-Effekt, das extreme responding

und das probability matching beeinflussen würde. Er analysierte Studien zum Umgang mit

nicht-perfekten Alarmsystemen, die sich in der Verfügbarkeit von validierender Information

unterschieden (Bliss & McAbee, 1995; Bliss, Dunn & Fuller, 1995; Bliss, Jeans & Prioux,

1996; Bliss, 1997; Bliss & Kilpatrick, 2000; Bliss & Dunn, 2000). Alle in den Studien präsen-

tierten Alarmsysteme hatten eine Zuverlässigkeit zwischen 50% und 75%, wobei die Auftei-

lung der Studien mit und ohne Zugriff auf Rohdaten hinsichtlich der Zuverlässigkeiten nahezu

ausbalanciert wurde. Das Ergebnis der Analyse zeigte, dass sich in den Studien ohne Mög-

lichkeit zur Validierung des Alarms tatsächlich mehr Extremreaktionen im Sinne eines

Befolgens aller Alarme (over-responding) finden ließ, wohingegen diese Strategie in den

Studien mit Zugriff auf Rohdaten nahezu verschwand. Wird dem Operateur also die Möglich-

keit eingeräumt, jeden Alarm oder auch jede alarm-freie Einheit durch das Überprüfen der

Rohdaten hinter dem Alarm zu validieren, so kann der Operateur seine Unsicherheit bezüg-

lich der Diagnose des Alarmsystems reduzieren und sein Antwortverhalten der tatsächlichen

Zuverlässigkeit des Alarmsystems anpassen. Die Prüfoption hat nur dann zusätzlichen Wert,

wenn der Operateur auch eine starke Unsicherheit bezüglich der Validität des Alarmes erfährt,

wenn die Zuverlässigkeit des Alarmsystems also weder extrem gut noch extrem schlecht ist.

Bislang gibt es allerdings wenige Arbeiten, die das Informationssuchverhalten eines Opera-

teurs als Reaktion auf einen Alarm systematisch untersuchen. Lorenz et al. (2002) konnten in

einer Studie zeigen, dass das Informationssuchverhalten selbst bei einem hoch automatisierten

System aufrechterhalten bleibt, wenn das Alarmsystem unreliabel ist. Das Überprüfen der

2.6 Kritische Diskussion bisheriger Forschung 41

Rohdaten ist von großer Bedeutung, da es hilft, das Situationsbewusstsein aufrechtzuerhalten

und „out of the loop“-bedingte Leistungseinbußen zu vermeiden. Die Verhaltenstendenz, auf

einen Alarm mit dem Überprüfen der Rohdaten zu reagieren kann als drittes Konzept neben

reliance und compliance als „informed compliance“ bezeichnet werden und soll im nächsten

Kapitel näher definiert und erläutert werden.

3 Die Konzepte der Informed Compliance und Informed Reliance 42

3 Die Konzepte der Informed Compliance und In-

formed Reliance

Neben den bereits bestehenden Konzepten der reliance und compliance, die das direkte

Befolgen der Hinweise des Alarmsystems beschreiben, bleibt eine Verhaltenstendenz bislang

unbenannt und weitgehend unergründet: das Reagieren auf einen Alarm durch Überprüfen der

Rohdaten hinter dem Alarm, welches sich auf der dritten Ebene des Modells von Allendoer-

fer, Pai & Friedman-Berg (2008; siehe Abb. 2) befindet. Zeichnet sich diese Reaktion auch

durch eine sofortige Antwort auf den Alarm aus, so entspricht sie doch nicht einem Befolgen

dessen, was der Alarm suggeriert. Die Verhaltenstendenz des Überprüfens der Rohdaten

befindet sich also zwischen den Konzepten des cry wolf-Effekts (des Ignorierens des Alarms)

und der compliance (die sofortige und erwartete Reaktion auf einen Alarm). Das alarm-

getriggerte Prüfen wird im Rahmen dieser Arbeit als informed compliance bezeichnet, da eine

Reaktion auf den Alarm gezeigt wird, die statt in einem blinden Befolgen jedoch darin be-

steht, die Validität des Alarms zu überprüfen. Das Gleiche gilt natürlich auch für alarm-freie

Trials. Das Konzept der informed reliance5(also das Überprüfen der Rohdaten, wenn das

Alarmsystem keinen Alarm gibt) ist angesiedelt zwischen den Extremen non-reliance (dem

sofortigen Eingreifen des Operateurs) und reliance (dem in diesem Fall erwarteten und er-

wünschten Ignorieren des Prozesses). Erwartet würde dieses Verhalten in Situationen, in

denen eine Unsicherheit oder Rest-Unsicherheit bezüglich der Validität eines Hinweises des

Alarmsystems vorliegt. So sollte das Prüfverhalten dort am deutlichsten ausgeprägt sein, wo

die Unsicherheit am höchsten ist, nämlich bei einer PPV von 0.5. Bei einer hohen PPV von

0.7 bleibt dabei eine Unsicherheit von 0.3, so dass im Sinne eines probability matchings

(Bliss, Gilson & Deaton, 1995), welches in diesem Fall auf das Prüfverhalten übertragen

wird, 30% der Alarme überprüft werden sollten. Kaum Unsicherheit besteht bei extremen

PPVs, wie etwas bei PPVs von 0.1 und 0.9, so dass das Prüfverhalten dort eine untergeordne-

te Rolle spielen sollte und bei niedrigen PPVs vom cry wolf-Effekt sowie bei hohen PPVs

5Korrekterweise widerspricht jedwedes Reagieren auf eine alarm-freie Phase dem Begriff der reliance

und müsste eher der non-reliance zugeordnet werden. Um die Gegenüberstellung des Prüfverhaltens

in roten und grünen Trials begrifflich zu vereinfachen wird dennoch an diesem Begriff festgehalten

(siehe Begriffsverzeichnis, S. 149)

2.6 Kritische Diskussion bisheriger Forschung 43

von der compliance dominiert werden. Abbildung 7 veranschaulicht den erwarteten umge-

kehrt u-förmigen Verlauf des Prüfverhaltens und den Verlauf der compliance.

Kern dieser Arbeit ist, den Einfluss von unterschiedlichen Fehler-Basisraten und von variie-

rendem workload auf das Prüfverhalten im Umgang mit nicht-perfekten Alarmsystemen

systematisch zu untersuchen. Zusätzlich wird analysiert, wie sich die Bereitstellung einer

Prüfoption auf Heuristiken, wie dem cry wolf-Effekt, auswirkt. Im nächsten Kapitel werden

die Forschungsfragen dieser Arbeit vorgestellt.

Abbildung 7: Hypothetischer umgekehrt u-förmiger Verlauf des Prüfverhaltens und

asymptotische Verläufe des Ignorierens und Bearbeitens

4 Fragestellung und Untersuchungen 44

4 Fragestellung und Untersuchungen

Aufbauend auf den Ergebnissen in der Literatur, die das Auftreten von Heuristiken im Um-

gang mit nicht-perfekten binären Alarmsystemen zeigen konnten (z. B. Bliss, 2003b, Dixon &

Wickens, 2006, Meyer, Feinshreiber & Parmet, 2003) wird in dieser Arbeit vordergründlich

der Frage nachgegangen, welchen Einfluss das Einführen einer Validierungsmöglichkeit der

Hinweise von Alarmsystemen unterschiedlicher Zuverlässigkeiten auf extreme Antwortstra-

tegien wie den cry wolf-Effekt (Breznitz, 1984) und dem extreme responding (Bliss 2003b)

hat. Dazu wird in Laborexperimenten die Zuverlässigkeit eines simulierten Alarmsystems

jeweils in gleicher Weise manipuliert. Durch Manipulation der zugrundeliegenden Basisrate

wird die PPV jeweils in einem Range von 0.1 – 0.9 in fünf äquidistanten Stufen variiert. Als

Ausgangsstudie dient dazu eine unter meiner Anleitung an der Technischen Universität

entstandene Masterarbeit (Wiczorek, 2009), die in einem binären Paradigma Verhaltenseffek-

te von nicht-perfekten Alarmen untersuchte und die Befunde zum Auftreten von Heuristiken

bestätigte. Die Daten dieser Ausgangsstudie gelten also sozusagen als Grundlage für den

Umgang mit Alarmen, wenn keine Prüfoption gegeben ist, da in den folgenden Studien die

gleichen Untersuchungsbedingungen getestet wurden. Allerdings wurde das Paradigma

abgeändert in ein System, welches das Überprüfen der Hinweise des Alarmsystems erlaubt.

Für die folgenden vier Kernstudien dieser Arbeit wurde diese Prüfoption, die in Kapitel 5

ausführlich beschrieben wird, immer dargeboten..

In der ersten Studie wird untersucht, wie sich das Prüfverhalten unter Einfluss der fünf unter-

schiedlichen PPV in einem Doppelaufgaben-Paradigma entwickelt. Erwartet wurde dabei,

dass das Prüfverhalten mit steigender Entscheidungs-Unsicherheit steigt.

Die zweite Studie analysiert den cut-off, ab dem ein Alarm als unzuverlässig angesehen wird,

das heißt, den Punkt, ab dem das Prüfverhalten (informed compliance) das direkte Befolgen

des Alarms (compliance) dominieren müsste.

Die dritte Studie baut insofern auf den Ergebnissen der ersten Studie auf, als das Überprüfen

der Rohdaten aufwendiger gemacht wird, um der Frage nachzugehen, ob das gezeigte Prüf-

verhalten nicht nur ein Produkt einer zu einfachen Operationalisierung des Prüfprocederes sei

und ob unter erhöhtem Prüfaufwand der cry wolf-Effekt wieder verstärkt auftreten würde.

2.6 Kritische Diskussion bisheriger Forschung 45

Studie 3 replizierte Studie 1 also mit dem einzigen Unterschied, dass zwei statt nur einem

Parameter überprüft werden mussten, um die Unsicherheit bezüglich der Validität des Alar-

mes auf null zu reduzieren. Die Ergebnisse der Studie von Bliss & Dunn (2000) lassen unter

diesem Mehraufwand in der Alarmaufgabe das Wiederauftreten des cry wolf-Effekts erwar-

ten,auch wenn in Studie 3 nicht der eigentliche workload im Sinne des Modells der multiplen

Ressourcen von Wickens (1984, 1992, 2002, 2008) erhöht wird, sondern vornehmlich der

Zeitaufwand. Um den tatsächlichen workload zu erhöhen, wird Studie 4 durchgeführt.

Studie 4 untersucht den Einfluss eines gesteigerten workloads, der durch das Hinzufügen

einer dritten Aufgabe zu dem Doppelaufgaben-Paradigma operationalisiert wird. Somit wird

in Anlehnung an Bliss & Dunn (2000) sozusagen der „externe“ workload erhöht, welcher sich

nach Bliss & Dunn (2000) ebenso in einer niedrigeren Reaktionsrate auf Alarme, also dem

cry wolf-Effekt, auswirken müsste.

Bevor im empirischen Teil die einzelnen Studien dieser Arbeit ausführlich dargestellt werden,

wird im Folgenden die für alle Studien verwendete Untersuchungsumgebung detailliert

beschrieben.

4 Fragestellung und Untersuchungen

5 Die Experimentalumgebung M-TOPS 2 46

5 Die Experimentalumgebung M-TOPS 2

Um das Prüfverhalten im Umgang mit Alarmsystemen unterschiedlicher Zuverlässigkeitsstu-

fen systematisch zu untersuchen, wurde für diese Arbeit die Multi Task Operator Performance

Simulation (Domeinski, Wagner, Schöbel & Manzey, 2007) so modifiziert, dass die Überwa-

chungsaufgabe in der multi task-Untersuchungsumgebung einen aktiven Zugriff auf die

Rohdaten zur Validierung der Entscheidungen des Alarmsystems gewährte. Das auf der

Programmiersprache Java basierende Programm simuliert drei Teilaufgaben, die in ihrer

Struktur den Aufgaben von Schichtarbeitern in einer chemischen Industrieanlage ähneln.

Der Bildschirm ist in vier Quadranten aufgeteilt, wobei der Quadrant links unten leer steht

und M-TOPS somit drei Aufgaben simultan darbietet (siehe Abbildung 8).

Bestellaufgabe. Im linken oberen Quadranten befindet sich eine Chemikalien-Bestellaufgabe.

Das obere Feld gibt den Namen der benötigten Chemikalie an, die beiden Felder darunter

geben Aufschluss über den aktuellen Vorrat und die Menge des aktuellen Bedarfs an dieser

Chemikalie. Der Proband soll nun im leerstehenden Feld per Tastatur den Differenzwert

eingeben, den er durch Subtraktion von Vorrat und Bedarf errechnet hat. Diese Bestellung

soll dann per Mausklick auf den Button „Bestellung“ abgeschickt werden. Über die Pfeiltaste

ganz oben rechts kann eine neue Aufgabe bzw. Chemikalie angefordert werden. Wird die

Aufgabe nicht bearbeitet oder klickt der Proband nicht auf die Pfeiltaste erscheint nach 15

Sekunden automatisch die nächste Aufgabe.

Tankfüllaufgabe. Im rechten oberen Quadranten befindet sich eine Tankfüllaufgabe. Bei

dieser Aufgabe soll altes Kühlwasser durch Öffnen und Schließen von jeweils einem Zu- und

Ablaufventil aus zwei Containern abgelassen und frisches nachgefüllt werden. Allerdings

kann die gleiche Aktion immer nur für einen Container ausgeführt werden, nie für beide

Container gleichzeitig. Die effizienteste Strategie ist somit, das Wasser erst aus einem Con-

tainer laufen zu lassen und dann diesen Container neu zu befüllen, während gleichzeitig das

Ablaufventil des zweiten Containers geöffnet wird. Für einen kompletten Kühlwasseraus-

tausch werden nach dieser Strategie mindestens 40 Sekunden benötigt. In der im Nachfolgen-

den geschilderten Studie musste die Tankfüllaufgabe jedoch ignoriert werden. Deshalb wird

erst in Studie 4 detaillierter auf diese Aufgabe eingegangen (siehe Kapitel 10.2).

2.6 Kritische Diskussion bisheriger Forschung 47

Abbildung 8: Das Interface von M-TOPS 2

Alarm-unterstützte Überwachungsaufgabe. Im rechten unteren Quadranten befindet sich

die Alarmaufgabe. Die in dieser Studie ausschließlich verwendete Version M-TOPS 2 unter-

scheidet sich in genau dieser modifizierten Aufgabe von der Originalversion M-TOPS. Die

Alarmaufgabe wird den Probanden repräsentiert als ein schwarz umrandeter Kontroll-Screen,

in den von links die verpixelte, in Schwarz- Weißtönen gehaltene Ansicht des Inhalts eines

Reaktionscontainers läuft. Nach 3 Sekunden stoppt das Bild in der Mitte des Kontroll-Screens

und bleibt für 5 Sekunden dort stehen (im Schnitt wurden pro Minute also 7,5 Bilder dargebo-

ten). In diesem Stadium hat das Bild keinerlei Aussagewert über die Qualität des Container-

Inhaltes. Auskunft gibt allein die Anzeige eines Alarmsystems unter dem Control-Screen: ein

roter Balken bedeutet einen Alarm (und besagt, dass die Temperatur im chemischen Endpro-

dukt zu hoch ist), ein grüner Balken bedeutet, dass das chemische Endprodukt einwandfrei ist

und zum Transport übergeben werden kann. In der rechten unteren Ecke befindet sich der

Zustandsmonitor mit einer Diagnose für den aktuellen Container. Diese beinhaltet die genaue

5 Die Experimentalumgebung M-TOPS 2

48 Die Experimentalumgebung M-TOPS 2

Containerbezeichnung (zusammengesetzt aus zwei Buchstaben und zwei Zahlen und gegebe-

nenfalls den Fehlertyp „Temperatur in Behälter xx zu hoch“. Die aktuelle Meldung ist je nach

Alarmzustand entweder rot oder grün markiert und verblasst nach den 5 Sekunden zu einem

Grau über der sich von unten nachschiebenden neuen Meldung. Die aktuelle Zustandsdiagno-

se ist also immer ganz unten im Zustandsmonitor abzulesen. Die Eigenschaften des Alarmsys-

tems wurden dabei über dessen Zuverlässigkeit im Rahmen der hit-Rate und FA-Rate defi-

niert. Diese beiden grundlegenden Charakteristika wurden in den unterschiedlichen

Untersuchungen konstant gehalten bei einer hit-Rate von 0.8 und einer FA-Rate von 0.4. Die

Reaktionsmöglichkeiten, die dem Probanden dargeboten werden, können in dieser Aufgabe in

zwei Modi dargestellt werden.

Der erste Modus entspricht dabei einem binären System und stellt den Probanden vor die

Entscheidung, dem Hinweis des Alarmsystems blind zu folgen oder diesen zu ignorieren. Er

kann dem Alarm vertrauen und durch den Klick auf den Button „Bearbeiten“ das Bearbeiten-

Menü öffnen und durch Markieren des Feldes „Temperatur“ die Senkung der Temperatur

veranlassen. Vertraut er dem Alarm nicht, kann er den Alarm ignorieren und seine Ressour-

cen für andere Aufgaben freigeben. Die gleichen Reaktionsmöglichkeiten bieten sich natür-

lich auch bei einem grünen Licht.

Der zweite Modus präsentiert dem Probanden eine dritte Reaktionsmöglichkeit, indem er

zusätzlich zu den Optionen, den Hinweis zu ignorieren oder blind zu befolgen, die Rohdaten

hinter dem Hinweis des Alarmsystems überprüfen kann. Zu dieser Art Validierung wird der

Button „Prüfen“ direkt unter dem „Bearbeiten“-Button angeklickt, woraufhin sich ein Prüf-

Menü öffnet. Dieses zeigt nach dem Klick auf „Parameter wählen“ eine Liste von Container-

Bezeichnungen an, in denen die Temperatur gesenkt werden kann (siehe Abbildung 8). Der

Proband muss nun aus einer Auswahl von 7 Container-Bezeichnungen genau den Container

auswählen, dessen Bezeichnung (Zahlen-Buchstaben-Kombination) zum aktuellen Container

im Zustandsmonitor passt. Ist dieser korrekt ausgewählt, öffnet sich mit einer Verzögerung

von ca. 2 Sekunden die farbige Detailansicht des Containerinhaltes. Hierbei bedeuten mehr

als zwei rote Flecken auf einem grünen Hintergrund eine tatsächlich zu hohe Temperatur und

das Endprodukt muss bearbeitet werden. Hierzu kann der Proband direkt unten im Prüfmenü

auf „Bearbeiten“ im sich öffnenden Bearbeiten-Menü auf „Temperatur“ klicken. Sind weniger

als drei rote Flecken zu sehen ist das chemische Produkt in Ordnung und es kann auf den

Button „weiter“ geklickt werden.

2.6 Kritische Diskussion bisheriger Forschung 49

Dieselben Reaktionsmöglichkeiten bieten sich dem Probanden bei einem grünen Licht. Der

Proband kann der Zustandsanzeige vertrauen und nichts tun, der Anzeige nicht vertrauen und

direkt bearbeiten oder die Rohdaten hinter dem grünen Licht nach einem übersehenen Fehler

des Alarmsystems (miss) überprüfen.

5 Die Experimentalumgebung M-TOPS 2

50 Ausgangsstudie: Reaktionsmöglichkeiten auf Alarme ohne Prüfmöglichkeit

6 Ausgangsstudie: Reaktionsmöglichkeiten auf

Alarme ohne Prüfmöglichkeit

Wiczorek (2009) untersuchte im Rahmen ihrer Masterarbeit systematisch Verhaltenseffekte

von Alarmen mit variierender PPV. Diese Studie entstand in Anlehnung an die Arbeit von

Getty et al. (1995), die zwar ebenso den Einfluss der PPV untersuchten, deren Studie aller-

dings aufgrund der geringen Stichprobengröße mit Vorsicht zu interpretieren ist. In der hier

aufgeführten Masterarbeit sollte mit einer Stichprobengröße von N = 56 analysiert werden, ob

systematische Variationen der PPV zu den Verhaltenseffekten, wie dem extreme responding

und dem cry wolf-Effekt führen, wie Bliss (2003b; Bliss, Gilson & Deaton, 1995) sie in

Studien mit variierter Reliabilität im Sinne des Anteils an allen korrekten Reaktionen des

Alarmsystems gefunden hatte (siehe Kapitel 2.5.2). Zu diesem Zweck wurde das in Kapitel 5

beschriebene M-TOPS 2-Paradigma verwendet. Es wurden lediglich die Alarmaufgabe und

die Bestellaufgabe verwendet, die Tankfüllaufgabe war nicht Teil der Untersuchung und

sollte ignoriert werden. Somit ergab sich ein Doppelaufgaben-Paradigma bestehend aus einer

Nebenaufgabe und einer Überwachungsaufgabe. Für die Ausgangsstudie wurde den Proban-

den das Paradigma lediglich im ersten Modus, also ohne Prüfmöglichkeit der Hinweise des

Alarmsystems dargeboten. Die Probanden befanden sich also in einer Situation von Unsicher-

heit, wenn sie sich entschieden, der Diagnose des Alarmsystems zu vertrauen oder nicht.

6.1 Versuchsplan

Der Studie lag ein einfaktorielles Untersuchungsdesign zugrunde mit dem fünffach gestuften

between-subjects-Faktor Fehler-Basisrate. Zwar durchliefen die Probanden zwei Experimen-

taldurchgänge, allerdings wurde nur der zweite Block mit in die statistische Auswertung

einbezogen, da davon ausgegangen wurde, dass sich die intendierte Strategie erst im zweiten

Block klar manifestierte. Die fünfstufige Variation der Fehler-Basisrate beeinflusst zwei

Aspekte der a posteriori-Wahrscheinlichkeit eines Alarms: die PPV in roten (Alarm-) Phasen

und die NPV in grünen (alarm-freien) Phasen. Tabelle 2 veranschaulicht die den unterschied-

lichen Bedingungen zugrundeliegenden Basisraten und die resultierenden PPV und NPV für

rote und grüne Phasen. Die sich somit ergebenden fünf Versuchsbedingungen unterschieden

6.2 Ablauf 51

sich ausschließlich in der Fehlerbasisrate und somit der PPV und der NPV. In allen Bedin-

gungen hatte das Alarmsystem dieselbe zugrundeliegende hit-Rate von 0.8, eine FA-Rate von

0.4 und somit eine Sensitivität d’ von 1.1 und ein Kriterium c von -0.3.

Basisrate PPV NPV

.05 .10 .98

.18 .30 .93

.33 .50 .86

.54 .70 .72

.81 .90 .41

Tabelle 2: manipulierte Basisrate und die resultierenden PPV und NPV

Abhängige Variablen waren die Verhaltensanteile des direkten Bearbeitens (compliance bei

Alarmen bzw. non-reliance in alarm-freien Trials) und des Ignorierens (cry wolf-Effekt bei

Alarmen bzw. reliance in alarm-freien Trials) an allen gezeigten Reaktionen.

6.2 Ablauf6

56 Probanden wurden den Bedingungen zufällig zugeteilt und über am Bildschirm präsentier-

te Instruktionen über das Untersuchungsparadigma und die zu erfüllenden Aufgaben aufge-

klärt. Diese Instruktion beinhaltete auch kurze praktische Übungsdurchgänge für die jeweili-

gen Teil-Aufgaben, um die Probanden mit der grundlegenden Handlungsausführung vertraut

zu machen. Um die Zuverlässigkeit des Alarmsystems durch Erfahrung mit dem System

kennenzulernen, bearbeiteten die Probanden in einem weiteren Probe-Durchgang 100 Contai-

ner mit Unterstützung des Alarmsystems. Dabei bekamen sie über Kopfhörer akustisches

Feedback über die Angemessenheit ihrer finalen Entscheidung, die sie für jeden Container

trafen. Dieser Feedback-Block sollte dabei helfen, die Operateure für die Zuverlässigkeit des

Alarmsystems zu sensibilisieren und die Häufigkeit beider Fehlerarten erfahren zu lassen. Im

Anschluss an diesen Durchgang wurden die Probanden nach ihrer Einschätzung der Auftei-

lung der hits, misses, false alarms und correct rejections über die 100 Trials befragt und im

Anschluss über die tatsächliche Verteilung aufgeklärt, um Verzerrungen zu vermeiden. Nach

dieser Aufklärung über die Zuverlässigkeit des Alarmsystems begann der erste von zwei

Experimental-Durchgängen. Nach diesem erhielten die Probanden detailliertes Feedback zur

6Wesentliche Merkmale der Versuchsausführung entsprechen den später aufgeführten Hauptstudien

dieser Arbeit. Eine genauere Beschreibung und Begründung des gewählten Vorgehens findet sich in

Abschnitt 7.3.3.

52 Ausgangsstudie: Reaktionsmöglichkeiten auf Alarme ohne Prüfmöglichkeit

Angemessenheit ihrer Reaktionen in den einzelnen Trials, bevor sie den zweiten Experimen-

taldurchgang starteten. Richtige Reaktionen in der Bestellaufgabe wurden mit 1.5 Punkten

belohnt. In der Überwachungspunkte gab es für jede richtig getroffene Entscheidung zwei

Punkte, für falsche Entscheidungen (Reagieren auf einen falschen Alarms bzw. Nicht-

Reagieren auf ein vom Alarm nicht angezeigtes kritisches Ereignis) wurden jeweils zwei

Punkte abgezogen (siehe Abschnitt 7.3.3 für eine Erläuterung der Grundlage dieser payoff-

Struktur).

6.3 Ergebnisse

Um zu kontrollieren, ob die Probanden durch die Interaktion mit dem System im Probe-

Durchgang (100 Container) die Variation der PPV und NPV in den unterschiedlichen Bedin-

gungen wahrgenommen hatten, wurde jeweils eine Varianzanalyse mit der unabhängigen

Variable PPV bzw. NPV und der abhängigen Variable geschätzte PPV bzw. NPV durchge-

führt. Diese Art Manipulations-Check ergab, dass sich die Schätzungen der manipulierten

PPV in den unterschiedlichen Bedingungen signifikant voneinander unterschieden (F(4,51) =

18,7, p < .001); das Gleiche ergab sich auch für die manipulierte NPV, (F(4,51) = 8,5, p <

.001). Tabelle 3 gibt eine Übersicht über die tatsächlichen PPV bzw. NPV und die entspre-

chenden Schätzungen.

tatsächliche PPV geschätzte PPV tatsächliche NPV geschätzte NPV

.1 M = 0.21

SD = 0.15 .98 M = 0.9

SD = 0.12

.3 M = 0.36

SD = 0.11 .93 M = 0.81

SD = 0.12

.5 M = 0.47

SD = 0.18 .86 M = 0.74

SD = 0.13

.7 M = 0.56

SD = 0.19 .72 M = 0.72

SD = 0.14

.9 M = 0.74

SD = 0.12 .41 M = 0.59

SD = 0.15

Tabelle 3: Mittelwerte und Standardabweichungen der geschätzten PPV und NPV

Um das Antwortverhalten auf die Hinweise unterschiedlicher Zuverlässigkeit zu analysieren,

wurden einfaktorielle Varianzanalysen mit dem Faktor variierende Basisrate und den abhän-

gigen Variablen des anteiligen Bearbeiten- bzw. Ignorier-Verhalten eines Containers berech-

net.

6.3 Ergebnisse 53

Rote Trials. Für das direkte Bearbeiten von Containern in Alarmtrials ergab sich ein signifi-

kanter Haupteffekt für die variierende Basisrate (F(4,51) = 20.44; p<.001) in dem Sinne, dass

Alarme bei einer PPV von 0.1 zum größten Teil ignoriert wurden und das Bearbeiten von

Alarmen mit zunehmender PPV anstieg. Dieses Verhaltensmuster entspricht dem klassischen

cry wolf-Effekt im unteren Bereich der PPV (Bliss, 2003b). Abbildung 9 gibt einen Überblick

über den Verlauf des Bearbeitens und Ignorierens über die verschiedenen Bedingungen.

Zusätzlich wurde auf einer individuellen Ebene nach Personen gesucht, die einer extremen

Antwortstrategie folgten. Diese wurden unterteilt in „over-responders“, wenn in mehr als 90%

der Fälle den Hinweisen des Alarmsystems gefolgt wurde und in „under-responders“, wenn in

weniger als 10% der Fälle diesem Folge geleistet wurde. Zur Auswertung wurde ein chi²-Test

durchgeführt, um die Häufigkeit des Einsatzes einer extreme responding-Strategie mit dem

Einsatz anderer Strategien, wie dem probability matching, zu vergleichen. In der chi²-Analyse

auf individuellem Niveau stellte sich heraus, dass sich der Trend von ansteigenden positiven

Reaktionen auf einen Alarm hauptsächlich aus der Mittelung extremer Antwortstrategien

zusammensetzt und somit ein Artefakt darstellen (Ȥ²(1, 56) = 4,57, p < .05; siehe Abbildung 9).

Mittlerer Anteil bearbeiteter Container in Alarmtrials und

Anzahl der Personen, die eine extreme Antwortstrategie

wählten

100

.1 .3 .5 .7 .9

PPV

Anteil in Prozen

absolute Anzahl

immer ignorieren

immer bearbeiten

mittleres Bearbeiten

Abbildung 9: mitteleres Bearbeiten von Alarmtrials in Prozent und abolute Anzahl von

extremen Antwortstrategien

Bei hohen PPV (0.7 und 0.9) befolgte die Mehrzahl der Probanden über 90% der Alarme

(extreme responding), wohingegen sie bei niedrigen PPV (0.1 und 0.3) über 90% der Alarme

ignorierten (under-responding). Bei der mittleren PPV von 0.5 zeigten sie sowohl positives

54 Ausgangsstudie: Reaktionsmöglichkeiten auf Alarme ohne Prüfmöglichkeit

(bearbeiten) als auch negatives (ignorieren) extreme responding. Dieses gleiche Aufteilen der

Antwortstrategien bei einer PPV von 0.5 würde hier ebenso einer probability matching-

Strategie entsprechen.

Grüne Trials. Für die Reaktion auf alarm-freie Trials zeigte sich ein signifikanter Effekt der

variierenden Basisrate auf das Bearbeiten von Containern (F(4,51) = 5,67; p = .001) im Sinne

der non-reliance (siehe Abbildung 10).

Die chi²-Analyse, die durchgeführt wurde, um die Häufigkeit von extremen Antwortstrategien

mit der Häufigkeit anderer Strategien, zu vergleichen zeigte wie schon in Alarmtrials ein

signifikantes Ergebnis (Ȥ²(1,56)= 23,14, p < .001). Die Ergebnisse zeigten in alarm-freien

Trials ein den Reaktionen in Alarmtrials entgegengesetztes Muster: auf die NPV unter 0.5

wurde von den meisten Probanden mit einem „over-responding“ (mehr als 90% der Container

wurden bearbeitet) und auf NPV unter 0.5 wurde mit einem under-responding reagiert (mehr

als 90% der Container wurden ignoriert im Sinne der reliance).

Anhang F gibt eine Übersicht über sämtliche Mittelwerte und Standardabweichungen in roten

und grünen Trials.

Mittlerer Anteil bearbeiteter Container in grünen trials und

Anzahl der Personen, die eine extreme Antwortstrategie

wählten

100

.98 .93 .86 .72 .41

NPV

Anteil in Prozen

absolute Anzahl

immer ignorieren

immer bearbeiten

mittleres Bearbeiten

Abbildung 10: mittleres Bearbeiten von alarm-freien Trials in Prozent und abolute Anzahl

von extremen Antwortstrategien

6.4 Diskussion 55

6.4 Diskussion

Die Ergebnisse der Studie geben Aufschluss über den Einfluss der PPV und der NPV auf die

Auswahl von Antwortstrategien, wenn Entscheidungen unter Unsicherheit getroffen werden

müssen. Dabei schätzten die Probanden die Zuverlässigkeit des Alarmsystems angemessen

ein, wobei sie eine leichte Tendenz zur Mitte offenbarten, indem hohe Wahrscheinlichkeiten

unter- und niedrige Wahrscheinlichkeiten überschätzt wurden. Der Verlauf des mittleren

Bearbeitens von Bedingung 0.1 bis Bedingung 0.5 zeigt ein fast perfektes Anpassen der

Antworthäufigkeit zur PPV des Alarms, wie man es im Rahmen des probability matching

erwarten würde (Bliss, 2003b). Nach einer PPV von 0.5 kam es zu einem plötzlichen starken

Anstieg der compliance, der darauf hinweist, dass die Probanden dem Alarmsystem bei den

Bedingungen 0.7 und 0.9 nahezu vollständig vertrauten. Betrachtet man jedoch das Verhal-

tensmuster auf individuellem Niveau wird klar, dass der Verlauf vor allem in unteren Berei-

chen der PPV hauptsächlich durch die Mittelung extremer Antwortstrategien entstand. So

wählten 16% der Probanden (oder 7 von 44 Probanden) in der Bedingung 0.1 die Strategie,

alle Alarme zu ignorieren, in Bedingung 0.3 waren es trotz gestiegener PPV immer noch 12%

(5 von 44 Probanden). In der Bedingung mit der größten Unsicherheit bezüglich der Validität

des Alarms (PPV = 0.5) trat eine Mischform von Extremstrategien auf: es entschieden sich

immer noch 10% der Probanden (4 von 44 Probanden) dazu, alle Alarme zu ignorieren,

während 5% der Probanden (2 von 44 Probanden) das andere Extrem wählten und alle Alar-

me befolgten. Dieses Verhaltensmuster in den unteren Bereichen der PPV bestätigt nicht nur

die Befunde zum cry wolf-Effekt (Bliss, 2003a; Bliss & Dunn, 2000; Breznitz, 1983; Dixon

& Wickens, 2006), sondern zeigt auch, dass dieser Effekt nicht nur bei extrem niedrigen PPV

auftritt, sondern bis zu einer PPV von 0.5 persistiert. Selbst im Bereich der größten Unsicher-

heit entschied sich eine Minderheit der Probanden also noch dazu, die Alarme zu ignorieren.

Das Auftreten des cry wolf-Effekts selbst bei mittleren Zuverlässigkeiten von Alarmen zeigt,

dass sich die Bedeutung des cry wolf-Effekts nicht nur auf leistungsschwache Systeme

beschränkt. Der Sprung der PPV auf 0.7 scheint subjektiv den größten Effekt zu haben, da

16% der Probanden (7 von 44 Probanden) alle Alarme befolgten und die Extremstrategie, alle

Alarme zu ignorieren verschwand. In Bedingung 0.9 wurden dann von 21% (9 von 44)

Probanden alle Alarme direkt befolgt. Das gefundene Antwortmuster entspricht den Ergebnis-

sen von Bliss (2003b), die besagen, dass Extremstrategien vor allem dann auftauchen, wenn

56 Ausgangsstudie: Reaktionsmöglichkeiten auf Alarme ohne Prüfmöglichkeit

die Probanden nicht die Möglichkeit haben, zusätzliche Information zur Zuverlässigkeit des

Alarmes heranzuziehen.

In alarm-freien Trials ergab sich ein ähnliches Bild, auch wenn die Verhaltenseffekte auf-

grund des kleineren Bereiches, in dem die NPV variierte, geringer ausfielen. Im oberen

Bereich der NPV (0.72 bzw. 0.98) dominierte die Antwortstrategie, dem grünen Licht zu

vertrauen und die Container zu ignorieren (18% bzw. 27% der Probanden folgten dieser

Strategie). Den größten Verhaltenseffekt bewirkte in grünen Trials die Änderung der NPV

von 0.72 auf 0.41: der Anteil an Probanden, die die Extremstrategie, die Container zu ignorie-

ren, wählten, nahm stark ab (auf 7% der Probanden) und das direkte Bearbeiten stieg auf ein

ähnliches Niveau an (auf 5% der Probanden).

Zusammenfassend belegen die Ergebnisse der Ausgangsstudie die Verhaltenswirksamkeit von

PPV und NPV, wie sie bereits von Getty et al. (1995) gefunden wurde. In dieser Studie

führten die Verhaltenseffekte dazu, dass die Probanden in Abhängigkeit der PPV und NPV zu

unterschiedlichen Extremstrategien neigten. In diesem Rahmen ignorierten 16% aller Proban-

den in der Bedingung mit der niedrigsten PPV im Sinne des cry wolf-Effekts alle Alarme. Bei

PPV im oberen Bereich dominierten positive Extremreaktionen, das heißt das direkte Befol-

gen von Alarmen. Dieser Befund bestätigt das Ergebnis von Bliss (2003b), der zeigte, dass

Extremreaktionen vor allem dann auftauchen, wenn die Probanden nicht die Möglichkeit

haben, die Validität der Alarme zu überprüfen.

Die im Folgenden beschriebenen Experimente 1-4 untersuchen den Einfluss einer Validie-

rungsoption der Entscheidung des Alarmsystems auf das gewählte Antwortverhalten und

bauen somit sowohl inhaltlich als auch strukturell auf der in diesem Kapitel geschilderten

Ausgangsstudie auf.

7.1 Forschungsfrage 57

7 Experiment 1: Einfluss einer Prüfmöglichkeit auf

den cry wolf-Effekt

In der ersten Studie der Untersuchungsreihe zum Prüfverhalten von Operateuren sollte die

Reaktionstendenz des Operateurs in Abhängigkeit von fünf unterschiedlichen Zuverlässig-

keitsniveaus von Alarmen untersucht werden. Dabei wurden der positive predictive value und

negative predictive value eines Alarmsystems durch die Manipulation der Basisrate (also der

a priori-Wahrscheinlichkeit des Auftretens eines kritischen Ereignisses) auf fünf Stufen

variiert.

7.1 Forschungsfrage

Die Ergebnisse der Ausgangsstudie zeigen, dass Probanden bei der Erfüllung der Doppel-

Aufgaben des Paradigmas M-TOPS 2 im unteren Bereich der PPV dazu neigten, einen Groß-

teil aller Alarme zu ignorieren und im oberen Bereich direkt zu befolgen, wenn sie keine

Möglichkeit hatten, die Validität der Hinweise zu überprüfen. Andere Studien, die hinsicht-

lich der zentralen Rahmenbedingungen (die Probanden sind mit konkurrierenden Aufgaben in

einem Mehrfachaufgaben-Umgebung konfrontiert und haben dabei keine Möglichkeit, die

Rohdaten in der Überwachungsaufgabe zu überprüfen) vergleichbare Paradigmen verwende-

ten, bestätigen diese Befunde (Bliss, Gilson & Deaton, 1995; Bliss, 2003b). Eine bisher

ungeklärte Frage ist, ob die Anwendung von extreme responding-Strategien unter den ge-

nannten Voraussetzungen ein allgemeines Phänomen ist oder ob Probanden nur dann zu

diesen Heuristiken greifen, wenn sie in einer Situation, in der sie keine Möglichkeit haben,

ihre Unsicherheit zu reduzieren, zu einer Entscheidung gezwungen werden.

Die Frage stellt sich also, wie Probanden auf unterschiedliche Reliabilitäten von Alarmen

reagieren, wenn sie durch eine aktive Prüfoption die Möglichkeit bekommen, ihre Unsicher-

heit bezüglich der Validität eines einzelnen Alarmes zu reduzieren. In vorliegender Experi-

mentalumgebung war die Reduzierung dieser Unsicherheit durch das Überprüfen der Rohda-

ten zu erreichen, was jedoch gleichzeitig einen erhöhten Zeitaufwand und somit Einbußen in

der Geschwindigkeit mit sich brachte. Gleichzeitig wurde der Gewinn durch die Prüfaktion

weiter reduziert, indem keine Ressourcen für das Bearbeiten der Bestellaufgabe blieben.

58 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt

Andererseits konnte nur die Validierung des Alarms einen Punkteverlust durch eine falsche

Reaktion auf einen Reaktionscontainer verhindern. Das beschriebene Untersuchungs-Setting

stellt den Probanden also die übergeordnete Aufgabe, die Überwachungsaufgabe und die

Bestellaufgabe so effizient zu bearbeiten, dass sie ihren finalen Punktestand (und somit ihre

monetäre Entlohnung) maximieren. Dieses Ziel verlangt nach einem trade-off zwischen

Genauigkeit und Geschwindigkeit, welche negativ korrelierende und somit schwer vereinba-

re Aspekte von Leistung darstellen. Der trade-off repräsentiert in diesem Sine also so etwas

wie den optimalen Kompromiss zwischen den beiden konkurrierenden Teilaspekten.

Die zentrale Frage in vorliegender Studie ist, wie verhaltenswirksam Alarme mit verschiede-

ner zugrundeliegenden Zuverlässigkeit (im Sinne der PPV und NPV) in einem Doppelaufga-

ben-Paradigma sind. Im Fokus steht dabei das aktive Prüfverhalten, welches in dieser Form

und in Abhängigkeit der PPV und der NPV bislang noch nicht hinreichend untersucht wurde.

Bevor die Operationalisierung dieser Fragestellung im Detail erklärt wird, werden im nächs-

ten Kapitel die aufgestellten Hypothesen erläutert.

7.2 Hypothesen

Erste Hinweise auf den Einfluss einer Prüfoption auf die Anwendung extremer Antwortstra-

tegien gibt Bliss (2003b), der fand, dass extreme Reaktionen nachlassen, wenn in einem

Doppelaufgaben-Paradigma die Möglichkeit zur Überprüfung der Validität des Alarms

gegeben wird. Während dieses sogenannte extreme responding (Bliss, 2003b) bei extremen

PPV und NPV die angemessene Reaktion ist, müsste das Prüfverhalten vor allem in mittleren

Bereichen der PPV und NPV, welche das größte Ausmaß an Unsicherheit mit sich bringen,

dominieren. Übertragen auf das vorliegende Paradigma muss der Proband zur Maximierung

seines Punkte-Scores also den trade-off zwischen Genauigkeit und Geschwindigkeit so

wählen, dass er nur dann den zeitkostspieligen Prüfprozess unternimmt, wenn die Unsicher-

heit bezüglich der Validität des Alarms am höchsten ist.

Dem schließt sich die Frage an, ob die PPV und die NPV das Prüfverhalten in gleicher Weise

beeinflussen oder ob sich das Prüfmuster in Alarm- und alarm-freien Trials unterscheidet,

welches als ein weiterer Nachweis für die Unabhängigkeit von reliance und compliance

anzusehen wäre.

7.3 Methode 59

Folgende Hypothesen wurden aus den theoretischen Überlegungen abgeleitet (siehe Abbil-

dung 7).

Hypothesenblock 1: rote Trials

H 1.1: die informed compliance ist am höchsten bei PPV im mittleren Bereich und am nied-

rigsten bei hohen und niedrigen PPV (und folgt somit einem umgekehrt u-förmigen Verlauf)

H 1.2: die compliance ist am höchsten bei der höchsten PPV (0.9)

H 1.3: der cry wolf-Effekt tritt bei der niedrigsten PPV (0.1) auf

Hypothesenblock 2: grüne Trials

H 2.1: die informed reliance ist bei der niedrigsten NPV (0.41) am höchsten

H 2.2: die reliance ist bei der höchsten NPV von 0.98 am höchsten

H 2.3: die non-reliance befindet sich über alle Bedingungen hinweg auf einem äußerst niedri-

gen Niveau

Aus diesen beiden Hypothesenblöcken ergeben sich im untersuchten Basisraten-Bereich

unterschiedliche erwartete Verläufe der reliance und compliance.

7.3 Methode

7.3.1 Stichprobe

In der Untersuchung nahmen 40 Männer und 40 Frauen mit einem mittleren Alter von 27,01

Jahren und einer Standardabweichung von 5,95 Jahren teil. Das Mindestalter betrug 19, das

Höchstalter 52 Jahre. Die Probandenserver waren über den Probandenserver PESA der

Humboldt Universität Berlin akquiriert worden, nahmen freiwillig an der Untersuchung teil.

Die Stichprobe bestand aus 40 Frauen und 40 Männern, wobei sich diese wiederum jeweils

zur Hälfte in Studenten der Naturwissenschaften und Studenten in nicht-

naturwissenschaftlichen Fächern aufteilten. Die Probanden wurden den fünf verschiedenen

Bedingungen so zugeteilt, dass sich in jeder Bedingung 4 Frauen und 4 Männer mit ingeni-

eurs- oder naturwissenschaftlichem Hintergrund und 4 Frauen und 4 Männer mit sonstigem

Hintergrund befanden.

60 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt

7.3.2 Versuchsplan

Der hier beschriebenen experimentellen Studie lag ein zweifaktorieller Versuchsplan zugrun-

de mit dem Messwiederholungs-Faktor Block (zwei sukzessive Experimentalblöcke) und dem

between-subjects-Faktor PPV bzw. NPV. Die fünf-stufige Variation der PPV und NPV

entsprach hierbei exakt der in der Ausgangsstudie beschriebenen Manipulation (siehe Kapitel

6).

7.3.3 Ablauf

Der Versuch wurde im Labor der Technischen Universität Berlin am Fachgebiet Arbeits-,

Ingenieur- und Organisationspsychologie durchgeführt. Die Testung wurde mit Gruppen bis

zu vier Probanden an jeweils einem Arbeitsplatz mit Rechner 17-Zoll-Monitore), Kopfhörer

und Stift für die paper-pencil-Befragungen durchgeführt. Eine geschulte Versuchsleiterin

instruierte die Teilnehmer und war während der Durchführung durchgängig anwesend. Jeder

Teilnehmer erhielt eine Aufwandsentschädigung von 7 € sowie zusätzlich eine leistungsab-

hängige Vergütung von bis zu 15 €, insgesamt also maximal 22 €. Um die Instruktion zu

standardisieren, wurde diese den Versuchspersonen über eine Power-Point-Präsentation

dargeboten, die sie in ihrem eigenen Tempo durchgehen konnten (siehe Anhang B). In dieser

Instruktion wurden die Teilnehmer vorerst über das Untersuchungsparadigma M-TOPS 2 und

die von ihnen zu erfüllenden Aufgaben aufgeklärt (siehe Kapitel 5) und betont, dass beide

Teil-Aufgaben für die reibungslose Bereitstellung des chemikalischen Endprodukts als

gleichwertig anzusehen seien.

Die Bestellaufgabe wurde als Erstes eingehend beschrieben und die Probanden wurden darauf

hingewiesen, dass sie für jede korrekt abgesendete Bestellung 1,5 Punkte erhalten würden. Es

wurden keine Minuspunkte für eine falsche Bestellung erteilt. Im Anschluss an die Erklärung

wurden die Probanden aufgefordert, diese Aufgabe 120 Sekunden aktiv zu üben, um sie mit

den für diese Aufgabe erforderlichen Handlungen vertraut zu machen.

Bevor die alarm-unterstützte Überwachungsaufgabe detailliert erläutert wurde, wurden die

Probanden über die Konsequenzen von falschen und richtigen Reaktionen auf einen Hinweis

des Alarmsystems aufgeklärt. Zu diesem Zweck wurde ihnen eine payoff-Matrix mit allen

Reaktionsmöglichkeiten und den daraus resultierenden Punkte-Outcomes präsentiert. In der

Alarmaufgabe wurden für einen korrekt bearbeiteten Container (fehlerhaften Container

bearbeitet oder einwandfreien Container akzeptiert) 2 Punkte ausgezahlt und für jede falsche

7.3 Methode 61

Reaktion (fehlerhaften Container ignoriert oder einwandfreien Container bearbeitet) 2 Punkte

vom Punktekonto abgezogen. Beide Fehlerarten (miss und false alarm) wurden bewusst

gleich gewichtet, um zu vermeiden, dass allein die payoff anstatt der kontrolliert manipulier-

ten Untersuchungsbedingungen das Antwortkriterium determiniert. Diese Gleichgewichtung

wird dadurch legitimiert, dass ein miss im Kontext eines Produktionsprozesses kein erhöhtes

Sicherheitsrisiko impliziert, sondern eher, wie ein false alarm, zeitliche Kosten bedeutet. Die

gewichtete Punktevergabe für die Bestell- und die Überwachungsaufgabe folgte einem ma-

thematisch-logischen Modell, welches die Gleichbehandlung beider Aufgaben sicherstellte.

Dabei wurde der Punkte-Outcome für die Strategie maximiert, die für die jeweilige Bedin-

gung die rationalste war.

Exkurs: Modell hinter der payoff-Struktir

In explorativen Vorversuchen (N = 6) wurde festgestellt, dass die Teilnehmer für den

Prüfprozess (vom Klick auf „Prüfen“ bis zum abgeschlossenen „Bearbeiten“ bzw.

„Weiter“) ca. 8 Sekunden Zeit brauchen. Addiert man die 3 Sekunden, die das Bild in

den Control-Screen läuft, kommt man so auf 11 Sekunden pro Trial, also 3 Sekunden

länger als wenn nicht geprüft würde. Die parallele Bearbeitung einer Bestellaufgabe

wäre in diesem Fall nicht mehr möglich. Allen Teilnehmern gelingt es im Gegenzug da-

zu, einen Container innerhalb der 5 Sekunden, die dieser im Control-Screen verharrt,

zu bearbeiten (ohne vorher geprüft zu haben). Somit benötigen die Probanden für das

direkte Bearbeiten nicht mehr Zeit, als wenn der Container unbeachtet durch den

Screen läuft. Den meisten Teilnehmern war es jedoch auch hier nicht möglich, parallel

eine Bestellaufgabe zu bearbeiten. Wird der Container ignoriert, kann zusätzlich eine

Bestellaufgabe gelöst und abgeschickt werden.

Da eine Bestellaufgabe unabhängig von der Reaktion auf einen Container in der

Alarmaufgabe vergleichsweise schneller ausgeführt werden kann als eine Aufgabe der

Alarmaufgabe (im Schnitt 6 Sekunden vs. min. 8 Sekunden) wurden die Auszahlungen

für die zwei Aufgabentypen gewichtet (1,5 Punkte für eine korrekte Bestellaufgabe vs. 2

Punkte für eine korrekte Alarmaufgabe). Diese Punktevergabe verhindert Strategien,

bei denen sich Probanden lediglich auf die Alarmaufgabe konzentrieren, um Minus-

punkte zu vermeiden. Ein Beispiel soll dieses verdeutlichen: bei einem auf 800 Sekun-

den beschränkten Versuchsdurchgang würde man mit der Extrem-Strategie, jeden Con-

62 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt

tainer in der Überwachungsaufgabe zu prüfen (Vorteil: nur korrekte Entscheidungen,

Nachteil: durch den erhöhten Zeitaufwand könnten nur 72 statt 100 Container bearbei-

tet werden) ca. 145 Punkte erreichen. Durch die alleinige Bearbeitung der Bestellauf-

gabe könnten maximal 200 Punkte erreicht werden (6 Sekunden Bearbeitungszeit, zu-

sammengesetzt aus 3 Sekunden Bearbeitung plus die 3 Sekunden Verzögerung). Die

gewinnbringendste Strategie ist also die parallele Bearbeitung der beiden Aufgaben

nach einem rationalen Antwortmuster in Abhängigkeit der Zuverlässigkeit des Alarm-

systems. Gemäß diesem hypothetischen Reaktionsmusters führt die payoff zu einer ma-

ximalen Auszahlung, wenn die Versuchspersonen einem rationalen Antwortmuster fol-

gen. In Anhang A werden die resultierenden Werte für die einzelnen

Untersuchungsbedingungen dargestellt.

Nach einer detaillierten Erklärung der Überwachungsaufgabe folgte, wie auch bei der Bestell-

aufgabe, ein Übungsdurchgang mit einem perfekten Alarmsystem. Da diese Aufgabe komple-

xer war als die Bestellaufgabe und die Probanden instruiert wurden, alle möglichen Reaktio-

nen auszuprobieren, dauerte die Übung 180 Sekunden, in denen sich die Probanden allein auf

die Überwachungsaufgabe konzentrieren sollten. Die Probanden arbeiteten in diesem Fall mit

einem perfekten Alarmsystem und bekamen über Kopfhörer eine akustische Rückmeldung

über die richtige Behandlung des aktuellen Containers (dabei wurde nur bei einer falschen

Entscheidung ein „Hupton“ gegeben, eine korrekte Entscheidung wurde akustisch nicht

rückgemeldet). Um sicherzugehen, dass sich alle Teilnehmer allen Reaktionsmöglichkeiten

bewusst waren, bekamen sie am Anschluss an diesen Übungsdurchgang einen multiple-

choice-Fragebogen vorgelegt, der alle tatsächlich möglichen Verhaltensoptionen abfragte.

Dazu wurden sie gebeten, alle möglichen Reaktionsmuster aus sechs dargebotenen Reaktio-

nen anzukreuzen (zwei Distraktoren). Die Verständnisabfrage befindet sich in Anhang C. In

die weitere Untersuchung wurden nur die Teilnehmer einbezogen, die diese Verständnisab-

frage korrekt ausgefüllt hatten. Nachdem so sichergestellt wurde, dass alle Teilnehmer mit

dem System und allen Reaktionsmöglichkeiten vertraut waren, startete ein erneuter Durch-

gang, in dem 100 Container im Rahmen der Überwachungsaufgabe kontrolliert und gegebe-

nenfalls bearbeitet werden sollten. Die Bestellaufgabe sollte vorerst weiterhin ignoriert

werden. In diesem Durchgang reagierte das Alarmsystem bereits mit der (nicht perfekten)

Zuverlässigkeit, die es auch im Experimental-Durchgang haben würde. Dieser Durchgang,

der das Kennenlernen der Zuverlässigkeit des Alarmsystems bei rot und bei grün durch eigene

7.3 Methode 63

Erfahrung mit dem System gewährleisten sollte, war erst nach den hundert Trials beendet, um

den Probanden die genaue Verteilungsmatrix von hits, misses, false alarms und correct

rejections präsentieren zu können. Um auch ohne zu prüfen die Angemessenheit der Ent-

scheidung des Alarmsystems zu erkennen, erhielten die Probanden auch in diesem Durchgang

das akustische Feedback. Nach dem Erfahrungs-Block wurden die Teilnehmer aufgefordert,

die geschätzte Anzahl an hits, misses, false alarms und correct rejections in eine Vier-Felder-

Matrix einzutragen. Um sicherzugehen, dass alle Probanden mit einer hinreichend genauen

Einschätzung der Zuverlässigkeit in den darauf folgenden Experimental-Block gehen, wurde

ihnen nach ihrer eigenen Einschätzung die tatsächliche Verteilung korrekter und falscher

Entscheidungen des Systems vorgelegt. Somit wurde zum Einen die Fehlervarianz reduziert,

die durch individuell unterschiedlich ausgeprägte Fähigkeiten zur Einschätzung von Wahr-

scheinlichkeiten die Verhaltensdaten verzerrt hätte. Zum Anderen zeigten Botzer et al. (2010),

dass Probanden ihr Antwortkriterium dann am besten an die unterschiedlichen Zuverlässig-

keiten des Alarmsystems anpassen, wenn sie vor der Interaktion mit dem System explizite

Informationen über die PPV und NPV bekommen. Die Probanden wurden darauf hingewie-

sen, dass die Verteilung aus dem Übungsdurchgang derjenigen in dem darauf folgenden

Experimentaldurchgang entsprechen würde. Im anschließenden ersten Experimentaldurch-

gang sollten die Bestellaufgabe und die Überwachungsaufgabe erstmalig gleichzeitig bearbei-

tet werden. Die Probanden erhielten für die Experimentalblöcke keine unmittelbare Rückmel-

dung mehr auf ihre Entscheidungen. Auf diese wurde aus zwei Gründen verzichtet. Einerseits

erfolgt auch in der Praxis oftmals keine unmittelbare, sondern vielmehr eine zeitverzögerte

Rückmeldung. Zudem sollte damit vermieden werden, dass eine einzelne fehlerhafte Ent-

scheidung die Wahrnehmung und Bewertung des darauf folgenden Trials beeinflusste (carry

over-effect). Nach dem ersten Block, der automatisch nach 800 Sekunden beendet wurde,

erhielten die Probanden ein detailliertes Feedback über das tatsächliche Auftreten von Feh-

lern, über die entsprechende Reaktion des Alarmsystems, über die finale Entscheidung der

Versuchsperson selbst und letztendlich über die resultierende erreichte Punktzahl. Diese

kumulierte Rückmeldung wurde ihnen im selben Matrizen-Schema dargeboten wie die

Beschreibung der payoff in der Instruktion. Nachdem die Probanden sich das Feedback in

Ruhe angeschaut hatten, startete der zweite Experimental-Durchgang, der wie auch der erste

ohne unmittelbares Feedback stattfand und ebenso nach 800 Sekunden endete. Nach dessen

Ende wurden die Teilnehmer gebeten, den NASA-TLX zur Einschätzung der Beanspru-

chungsdimensionen (Anhang E) und einen kurzen demographischen Fragebogen auszufüllen.

64 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt

Dieser umfasste die Abfrage des Geschlechts, des Ausbildungsstands und der Fachrichtung,

der Berufserfahrung in Jahren und ob der Teilnehmer bereits mit einem ähnlichen System wie

dem im Experiment simulierten gearbeitet hatten. Dieses System sollte in einer weiteren

offenen Antwort kurz beschrieben werden. Abschließend gab es Platz für allgemeine Bemer-

kungen zu dem Experiment. Die Angaben zum professionellen Hintergrund und dem Ge-

schlecht wurden erhoben, um einen möglichen Einfluss dieser Faktoren auf das Verhalten

kontrollieren bzw. erfassen zu können. So wurden Probanden mit ingenieurs- oder naturwis-

senschaftlichem und fachfremdem Hintergrund sowie Männer und Frauen gleichmäßig auf

die unterschiedlichen Bedingungen aufgeteilt, um Geschlechts- oder Erfahrungseffekte

auszubalancieren. Am Schluss erfolgte die Vergütung, die Klärung etwaiger Fragen und die

Verabschiedung der Teilnehmer.

7.4 Abhängige Variablen

7.4.1 Manipulations-Check

Nachdem sich die Probanden im Durchgang mit den hundert Trials ein Bild von der Vertei-

lung von hits, misses, correct rejections und false alarms machen konnten, wurden sie gebe-

ten, ihre Einschätzung dieser Verteilung in einem Vier-Felder-Schema darzulegen. Nach

Cosmides & Tooby (1996) und Tversky & Kahneman (1974) werden Wahrscheinlichkeiten

besser geschätzt, wenn die vorgegebenen Wahrscheinlichkeiten als absolute Häufigkeiten

anstatt als Prozentzahl präsentiert werden, da die absolute Häufigkeit die Menge der Grund-

gesamtheit impliziert. Durch die Bearbeitung des Schätzfragebogens sollten systematische

Verzerrungen der Einschätzung der Fehler-Verteilung erfasst werden. Direkt im Anschluss an

ihre individuelle Bewertung wurde den Probanden die tatsächliche Verteilung von hits,

misses, correct rejections und false alarms vorgelegt. Dadurch wurde abgesichert, dass alle

Probanden von dem korrekten Ausgangsniveau ausgingen und keine individuell unterschied-

lich ausgeprägten Schätzleistungen die Untersuchungsergebnisse verzerrten. Der Schätzfrage-

bogen befindet sich in Anhang D.

Um sicherzustellen, dass die Probanden die Manipulation der PPV und NPV wahrgenommen

hatten, wurden zwei einfaktorielle Varianzanalysen mit den abhängigen Variablen mittlere

geschätzte PPV bzw. NPV berechnet. Dieser Test diente sozusagen als Manipulation Check,

7.4 Abhängige Variablen 65

um sicherzustellen, dass die Probanden die Zuverlässigkeit des Systems bzw. die Unterschie-

de zwischen PPV und NPV möglichst zuverlässig wahrgenommen hatten.

7.4.2 Allgemeine Leistung

Punkte. Für die Bestellaufgabe wurde die erreichte Punktzahl (gemittelt über beide Blöcke)

berechnet. Diese errechnete sich aus der payoff-Struktur und ergab sich aus der Summe von

1,5 Punkten pro korrekt abgesendeter Bestellung. Ähnlich wurde die Punktzahl ermittelt, die

in der Überwachungsaufgabe erreicht wurde. Diese berechnete sich aus der payoff-Matrix, die

2 Punkte für eine richtige (hit, correct rejection) und 2 Punkte Abzug für eine falsche Reakti-

on (miss, false alarm) erbrachte. Die erreichten Punktzahlen in der Bestell- und Überwa-

chungsaufgabe wurden zu einer Gesamtpunktzahl aufaddiert.

Sensitivität. Ein verbreitetes Maß, das die die kombinierte Fähigkeit der Probanden und des

Alarmsystems erfasst, zwischen hits und false alarms zu unterscheiden, ist die Sensitivität.

Die Sensitivität wurde dabei durch die Differenz der z-transformierten hit-Rate und der z-

transformierten FA-Rate eines jeden Probanden berechnet.

7.4.3 Spezifische Leistungs- und Verhaltensmaße in roten und grünen

Trials

Anteil korrekter Trials. Als Leistungsparameter wurde der relative Anteil aller korrekten

Reaktionen der Versuchspersonen an allen Reaktionen in roten bzw. grünen Trials berechnet.

Dieses Maß entspricht in seiner Definition der Reliabilität im klassischen Sinne, also dem

Anteil an korrekten Reaktionen (hits und correct rejections) an allen Reaktionen (hits, correct

rejections, false alarms und misses). Allerdings wurde dieser Anteil für rote bzw. grüne Trials

separat berechnet. Zur inferenzstatistischen Auswertung wurde so vorgegangen wie im

vorherigen Absatz (7.4.1) beschreiben. Zwei separate zweifaktorielle Varianzanalyse mit

Messwiederholung mit der abhängigen Variable „relativer Anteil korrekter Reaktionen der

Probanden in roten bzw. in grünen Trials an allen Reaktionen“ wurde berechnet. Die unab-

hängigen Variablen waren bei jeder Varianzanalyse die fünfstufig manipulierte Basisrate mit

den zugehörigen PPV und NPV als between-subjects-Factor und der Block als Messwiederho-

lungsfaktor.

Verhaltenstendenz. Die verhaltensbezogenen abhängigen Variablen wurden aus den über

Logfiles protokollierten Mausklicks der Probanden unter Berücksichtigung des jeweils

66 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt

vorliegenden Systemzustands abgeleitet. Der relative Anteil des Bearbeitens, des Prüfens und

des Ignorierens von roten bzw. grünen Trials an allen Trials wurde jeweils für Block 1 und

Block 2 berechnet. Dabei wurden die drei Reaktionsmöglichkeiten auf einen Trial wie folgt

definiert:

xPrüfen: ein Container galt dann als geprüft, wenn innerhalb der fünf Sekunden Bear-

beitungszeit eines Trials auf den Button „Prüfen“ geklickt wurde und daraufhin die

korrekte Containerbezeichnung ausgewählt wurde, so dass die Messung startete. Wur-

de das Prüfprocedere nach dem Klick auf Prüfen abgebrochen, wurde die Reaktion

nicht als Prüfen definiert. Die Handlung wurde jedoch auch dann als Prüfen definiert,

wenn nach dem Klick auf den Button „Bearbeiten“ das Bearbeiten nicht durch Klick

auf „Temperatur senken“ abgeschlossen wurde und daraufhin ein vollständiger Prüf-

prozess durchgeführt wurde.

xBearbeiten: ein Container galt dann als bearbeitet, wenn innerhalb der fünf Sekunden

Bearbeitungszeit eines Trials ein Klick auf den Button „Bearbeiten“ ausgeführt und

daraufhin „Temperatur senken“ ausgewählt wurde, ohne dass vorher eine komplette

Prüfprozedur durchgeführt wurde. Beide Klicks waren notwendige Bedingung für die

Reaktion „Bearbeiten“.

xIgnorieren: ein Container galt dann als ignoriert, wenn innerhalb der fünf Sekunden

Bearbeitungszeit eines Trials keine Reaktion gezeigt wurde oder aber weder ein voll-

ständiger Prüf- noch ein vollständiger Bearbeitungsprozess durchgeführt wurden.

Die Erfassung des Verhaltens in relativen Werten begründet sich aus der Tatsache, dass den

Probanden, je nach Bearbeitungsgeschwindigkeit in der Überwachungsaufgabe, eine interin-

dividuell minimal unterschiedliche Anzahl an roten und grünen Trials dargeboten wurde. Da

die drei möglichen Verhaltensweisen nicht unabhängig voneinander sind, wurden für die

Verhaltensweisen jeweils drei separate Varianzanalysen gerechnet. Dasselbe gilt für die

rechnerische Abhängigkeit von roten und grünen Trials, denen die gleiche Fehler-Basisrate

zugrunde liegt. Für jede der drei möglichen Reaktionsweisen auf einen Reaktionsbehälter

(bearbeiten, prüfen, ignorieren) wurde, jeweils für rote und grüne Trials, eine separate zwei-

faktorielle Varianzanalyse mit Messwiederholung mit der abhängigen Variable relativer

Anteil Bearbeiten (bzw. Prüfen, Ignorieren) berechnet. Die unabhängige Variable war bei

jeder Varianzanalyse die fünfstufig manipulierte Basisrate mit den zugehörigen PPV bzw.

NPV als between-subjects-Faktor und der Block als Messwiederholungs-Faktor.

7.5 Ergebnisse 67

7.4.4 Subjektive Beanspruchung

Der NASA-TLX stellt ein anerkanntes Tool zum Messen der Aufgabenbeanspruchung dar,

der sich in vielen Arbeiten zur Mensch-Maschine-Interaktion bewährt hat. Das multi-

dimensionale Rating-Verfahren besteht aus zwei Teilen, von dem nur die bipolare Skala

verwendet wurde, da sich nach Nygren (1991) die Gewichtung der Skalen-Dimensionen als

nicht effektiv erwiesen hat. Eine Version des NASA-TLX mit den fünf Skalen „geistige

Anforderung“, „körperliche Anforderung“, „zeitliche Anforderung“, „Aufgabenausführung“,

„Anstrengung“ und „Frustration“ wie sie in dieser Studie verwendet wurde und eine kurze

inhaltliche Beschreibung der fünf Items befindet sich in Anhang E.

7.5 Ergebnisse

7.5.1 Manipulations-Check

Die mittlere geschätzte Häufigkeit von hits, misses, false alarms und correct rejections wurde

durch Integration der Daten transformiert in die geschätzte PPV (errechnet durch die ge-

schätzte hit-Rate und FA-Rate) und die geschätzte NPV (errechnet durch die geschätzte

correct rejection-Rate und miss-Rate). In einfaktoriellen Varianzanalysen wurden die ge-

schätzte PPV und NPV dann in Abhängigkeit der tatsächlichen PPV und NPV untereinander

verglichen.

PPV. Das Ergebnis der Varianzanalyse zeigte, dass sich die Einschätzungen der fünf ver-

schiedenen PPV signifikant voneinander unterschieden (F(4,75) = 63,02, p < .001), die

Probanden die Manipulation der Zuverlässigkeit des Alarmsystems also wahrgenommen

hatten. Tabelle 4 gibt eine Übersicht über die Mittelwerte und Standardabweichungen der

geschätzten PPV. Die Bonferroni-korrigierten Mehrfachvergleiche ermöglichten eine genaue-

re Analyse der Bedingungen untereinander und ergaben, dass sich die Einschätzung der PPV

von 0.1, sowie die Einschätzung der PPV von 0.9, also die beiden Extremwerte der PPV,

signifikant von den Einschätzungen aller anderen PPV unterschieden (alle signifikanten p <

.001). Dabei kam es abgesehen von einer stärkeren Überschätzung der PPV von 0.3 zu leich-

ten Überschätzungen der PPV bis 0.5 und einer leichten Unterschätzung der hohen PPV über

0.5.

68 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt

NPV. Die Probanden zeigten eine signifikant unterschiedliche Einschätzung der NPV in

Abhängigkeit der tatsächlichen NPV (F(4,75) = 15,1, p < .001; siehe Tabelle 4). Die Ergeb-

nisse der Einzelvergleiche wiesen auf, dass sich die höchste NPV (0.98) signifikant von allen

anderen NPV unterschied (im Vergleich zu NPV 0.93, p = .002, alle anderen signifikanten p <

.001). Dabei wurden die NPV von 0.98, 0.93, 0.86 und 0.72 unterschätzt und die NPV von

0.41 schließlich überschätzt.

Zusammenfassend ergab sich das Bild, dass niedrige a posteriori-Werte tendenziell über- und

hohe Werte unterschätzt werden.

tatsächliche PPV geschätzte PPV tatsächliche NPV geschätzte NPV

.1 M = 0.16

SD = 0.09 .98 M = 0.93

SD = 0.1

.3 M = 0.57

SD = 0.18 .93 M = 0.73

SD = 0.16

.5 M = 0.59

SD = 0.1 .86 M = 0.67

SD = 0.12

.7 M = 0.65

SD = 0.11 .72 M = 0.6

SD = 0.14

.9 M = 0.83

SD = 0.11 .41 M = 0.59

SD = 0.19

Tabelle 4: Mittelwerte und Standardabweichungen der geschätzten PPV und NPV

7.5.2 Allgemeine Leistung

Punkte. Eine zweifaktorielle Varianzanalyse mit der abhängigen Variablen „erreichte Ge-

samtpunktzahl“ (zusammengesetzt aus der erreichten Punktzahl in der Bestellaufgabe und der

Überwachungsaufgabe) wurde berechnet. Die unabhängige Variable war die fünfstufig

manipulierte Basisrate mit den zugehörigen PPV und NPV als between-subjects-Faktor und

dem Block als Messwiederholungs-Faktor. Die Variation der PPV (und NPV) hatte einen

signifikanten Effekt auf die erreichte Gesamtpunktzahl (F(4,75) = 5,23, p = .001). Anhang G

gibt eine Übersicht über die entsprechenden Mittelwerte. Die Probanden erreichten über die

beiden Blöcke gemittelt in der Bedingung mit einer PPV von 0.1 die höchste Punktzahl (M =

356), welche bis zu Bedingung 0.5 kontinuierlich auf M = 290 absank, in Bedingung 0.7 mit

M = 304 leicht anstieg, um in Bedingung 0.9 drastisch auf M = 267 zu sinken. Bonferroni-

korrigierte Einzelvergleiche zeigten signifikante Unterschiede zwischen den Bedingungen 0.1

und 0.5 (p = .019) sowie 0.1 und 0.9 (p = .001). Auch der Block hatte einen signifikanten

Einfluss auf die erreichte Punktzahl in der Richtung, dass im zweiten Block generell mehr

Punkte erreicht wurden als im ersten Block (F(1,75) = 163,68, p < .001). Außerdem kam es zu

7.5 Ergebnisse 69

einer signifikanten Interaktion zwischen Block und Bedingung (F(4,75) = 29,1, p < .001):

während die erreichte Gesamtpunktzahl in Block 1 in Bedingung 0.7 erst leicht und dann in

Bedingung 0.9 stark absank, wurde sie in Block 2 in Bedingung 0.9 auf einem ähnlichen

Level gehalten wie in den Bedingungen 0.5 und 0.7. Die höchste Punktzahl erreichten die

Probanden sowohl in Block 1 als auch in Block 2 in der Bedingung mit einer PPV von 0.1 (M

= 345 in Block 1 bzw. 368 in Block 2).

Um zu untersuchen, ob die variierende Leistung in den verschiedenen Bedingungen auf

unterschiedliche Verläufe der erreichten Punktzahl in der Bestell- und Überwachungsaufgabe

zurückzuführen sind, wurden weitere zweifaktorielle Varianzanalysen mit denselben unab-

hängigen Variablen und den abhängigen Variablen „Punktzahl in der Bestellaufgabe“ sowie

„Punktzahl in der Überwachungsaufgabe“ berechnet.

Die Varianzanalyse ergab keinen signifikanten Einfluss der Bedingung (PPV oder NPV) auf

die Bestellaufgabe (F(4,75) = 2,01, n.s). Allerdings ergab sich ein signifikanter Effekt des

Blocks auf die erreichte Punktzahl in der Bestellaufgabe (F(1,75) = 850, 32, p < .001). Im

ersten Block lag die mittlere Punktzahl bei 60 Punkten und stieg im zweiten Block auf 90

Punkte an. Die Interaktion von Bedingung und Block wurde nicht signifikant (F(4,75) = 2,01,

n.s.). Folglich spiegelte sich das Leistungsmuster der Gesamtpunktzahl über beide Aufgaben

hinweg in der erreichten Punktzahl in der Überwachungsaufgabe wider, wie das Ergebnis der

Varianzanalyse mit der abhängigen Variable Punktzahl in der Überwachungsaufgabe bestätig-

te (F(4,75) = 14,3, p < .001.). Auch der Block hatte einen signifikanten Einfluss auf die

erreichte Punktzahl in der Überwachungsaufgabe (F(1,75) = 156,81, p < .001). Während die

Probanden im ersten Block im Mittel 208 Punkte in der Überwachungsaufgabe erhielten,

steigerten sie sich in Block 2 auf mittlere 242 Punkte. Zudem konnte der signifikante Interak-

tionseffekt aus der errechneten Gesamtpunktzahl repliziert werden (F(4,75) = 37,69, p <

.001).

Sensitivität. Eine zweifaktorielle Varianzanalyse mit den manipulierte PPV bzw. NPV als

unabhängige Variablen sowie dem Messwiederholungsfaktor Block und der abhängigen

Variable „kombinierte Sensitivität der Probanden und des Alarmsystems“ ergab einen signifi-

kanten Einfluss der unabhängigen Variable PPV/NPV (F(4,75) = 22,1, p < .001). Bonferroni-

korrigierte post hoc-Tests zeigten dabei, dass Probanden in den Bedingungen mit einer PPV

von 0.1 (NPV = 0.98), einer PPV von 0.3 (NPV = 0.93) und einer PPV von 0.5 (NPV = 0.86)

eine ähnliche Sensitivität (M = 8.5 bzw. M = 6.5 bzw. M = 6.5, alle n.s.) aufwiesen, die

70 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt

genannten Bedingungen also keinen differenzierten Einfluss auf die Leistung der Probanden

hatten. Bemerkenswert ist das starke Absinken der Sensitivität in der Bedingung 0.7 (NPV =

0.72; M = 3,8), der sich signifikant von der Bedingung 0.1 (bzw. 0.98, p < .001), der Bedin-

gung 0.3 (bzw. 0.93, p < .001) und der Bedingung 0.5 (bzw.0 .86, p = .008) unterschied. In

der Bedingung 0.9 (bzw. 0.41) erreichten die Probanden nur noch eine mittlere Sensitivität

von 2.55, die sich, abgesehen von der Bedingung 0.7 (bzw. 0.72), von allen anderen Bedin-

gungen höchst-signifikant unterschied (alle p < .001). Abschließend ist festzuhalten, dass die

Sensitivität des Gesamtsystems (bestehend aus Alarmsystem und Operateur) mit einer mittle-

ren Sensitivität von Md’ = 5.5 die Sensitivität des Alarmsystems (d’ = 1.1) in allen Bedingun-

gen übertraf.

Sowohl der Messwiederholungsfaktor Block also auch die Interaktion von Block und Bedin-

gungen hatten einen signifikanten Einfluss auf die Sensitivität (F(1,75) = 20,86, p < .001

bzw. (F(4,75) = 43,82, p < .001). Dabei hatte die Sensitivität in Block 1 ihren Höhepunkt bei

einer PPV von 0.1 (M = 10,5) und fiel dann stark ab, während die Sensitivität in Block 2 in

den Bedingungen 0.1, 0.3 und 0.5 auf einem ähnlich hohen Niveau blieb (M = 5,9), um sich

dann der Sensitivität von Block 1 anzupassen und in den Bedingungen 0.7 und 0.9 weiter

abzufallen.

An dieser Stelle ist anzumerken, dass die Leistungsparameter „erreichte Punktzahl“ und

„Sensitivität“ nicht klar zu interpretieren sind, da die Leistung in roten und grünen Trials

konfundiert ist. Die Variable „erreichte Punktzahl“ in der Bestell- und Überwachungsaufgabe

wurde dennoch in die Untersuchung mit einbezogen, um die Gesamtleistung aus Überwa-

chungs- und Bestellaufgabe in den einzelnen Bedingungen zu vergleichen. Haben die Proban-

den ein holistisches Bild von den Teilaufgaben des Systems und verteilen sie die Ressourcen

möglichst effizient zwischen der Überwachungs- und Bestellaufgabe, müsste beispielsweise

in Bedingungen, in denen aufgrund der PPV und NPV ein geringer Anteil an Überprüfen und

Bearbeiten von Containern notwendig ist, mehr Bestellaufgaben bearbeitet werden können.

Die Sensitivität stellt trotz der Konfundierung roter und grüner Trials ein wichtiges Maß dar,

da sie Aufschluss über eine Leistungssteigerung des Mensch-Maschine-Systems im Vergleich

zur Leistung des Alarmsystems alleine gibt.

Ein Leistungsmaß, welches die Genauigkeit bei der Bearbeitung der einzelnen Container in

roten und in grünen Trials getrennt erfasst, ist der Anteil an korrekt bearbeiteten Containern in

7.5 Ergebnisse 71

Alarmtrials bzw. alarmfreien Trials. Im Folgenden werden die Leistung und das Verhalten für

die beiden Systemzustände separat analysiert.

7.5.3 Leistung und Verhalten in roten Trials

Anteil korrekter Trials. Die Varianzanalyse ergab einen signifikanten Effekt der PPV auf

den relativen Anteil korrekter Reaktionen (F(4,75) = 9,1, p < .001). Dabei kam es zu einem

fast linearen Abfall von der Bedingung mit einer PPV von 0.1 über die Bedingung 0.3 zur

Bedingung 0.5 (siehe Abbildung 11). Bis zu einer PPV von 0.7 sank die Leistung der Proban-

den stark ab, um dann bei 0.9 nahezu zu stagnieren bzw. sogar leicht anzusteigen. Dabei

unterschied sich die Leistung in Bedingung 0.1 in Bonferroni-korrigierten Einzelvergleichen

signifikant von den Bedingungen 0.7 (p < .001) und 0.9 (beide p = .001). Die Leistung in

Block 2 unterschied sich signifikant von der in Block 1 (F(1,75) = 6,97, p = .01) durch einen

leichten Anstieg des Anteils an korrekten Reaktionen. Es wurde kein Interaktionseffekt

gefunden (F(4,75) = 1,87, n.s.). Eine Übersicht über alle Mittelwerte und Standardabwei-

chungen findet sich in Anhang G.

Anteil an korrekten Reaktionen in Alarmtrials

100

.1 .3 .5 .7 .9

PPV

Anteil in Prozen

Block 1

Block 2

Abbildung 11: Prozentualer Anteil von korrekten Reaktionen an allen gezeigten Reaktionen

in Alarmtrials, gemittelt über beide Experimentalblöcke

72 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt

Verhaltenstendenz. Eine Übersicht über den Verlauf der möglichen Reaktionen auf einen

Alarm „Bearbeiten“ (compliance), „Prüfen“ (informed compliance) und „Ignorieren“ (cry

wolf-Effekt) wird in Abbildung 12 präsentiert. Die Varianzanalyse ergab einen signifikanten

Effekt des Verhaltensanteils „Bearbeiten“ an allen Trials (F(4,75) = 22,1, p < .001). In den

Bedingungen mit einer PPV von 0.1 und 0.3 wurden von den Probanden keine Reaktionsbe-

hälter direkt bearbeitet, in der Bedingung mit einer PPV von 0.5 stieg die Bearbeitungsrate

nur leicht an, und selbst bei einer recht hohen PPV von 0.7 wurden über alle Probanden

hinweg lediglich 22% direkt bearbeitet. Erst als die PPV auf einen extremen Wert von PPV =

0.9 anstieg, stieg auch die durchschnittliche Bearbeitungsrate der Probanden auf 65%. Bonfer-

roni-korrigierte post hoc-Vergleiche ergaben signifikante Unterschiede für die Bedingungen

0.1 und 0.7 (p = .018), 0.1 und 0.9 (p < .001), 0.3 und 0.7 (p = .025), 0.3 und 0.9 (p < .001). .5

und .9 (p < .001) und 0.7 und 0.9 (p < .001). Bemerkenswert an diesen Ergebnissen ist, dass

die Erhöhung der PPV von 0.7 auf 0.9 den größten Verhaltenseffekt im gesamten Bereich der

PPV hatte. Das relative Bearbeiten unterschied sich in Block 2 nicht signifikant vom Verhal-

ten in Block 1 (F(1,75) < 1, n.s.). Es ergab sich kein signifikanter Interaktionseffekt (F(4,75)

= 0,53, n.s.).

Mittlerer prozentualer Verhaltensanteil im Sinne der compliance,

informed compliance und des cry wolf-Effekts

100

.1 .3 .5 .7 .9

PPV

Anteil in Prozen

compliance

"cry wolf"

informed

compliance

Abbildung 12: Verhaltensanteile in Alarmtrials, gemittelt über beide Experimentalblöcke

Für den Anteil des Verhaltens „Prüfen“ an allen Alarmtrials zeigte sich ein signifikanter

Effekt (F(4,75) = 14,39, p < .001). Das relative Prüf-Verhalten verhielt sich hierbei gegenläu-

fig zum „Bearbeiten“, indem es die höchsten Werte bei den PPV-Stufen 0.1 und 0.3 aufwies,

7.5 Ergebnisse 73

sich auf den Stufen 0.5 und 0.7 in einem mittleren Bereich bewegte, und dann in Bedingung

0.9 deutlich absank. Bonferroni-korrigierte post hoc-Vergleiche ergaben signifikante Unter-

schiede zwischen den Bedingungen 0.9 und den Bedingungen 0.1, 0.3, 0.5 und 0.7 (alle p <

.001). Wie schon bei der Analyse der Variable „Bearbeiten“ fällt hier die plötzliche Verhal-

tensänderung von Bedingung 0.7 zu Bedingung 0.9 auf. Die informed compliance nimmt

deutlich ab und wird durch die compliance kompensiert. Das relative „Prüfen“ unterschied

sich in Block 2 nicht signifikant vom Verhalten in Block 1 (F(1,75) < 1, n.s.). Ein signifikan-

ter Interaktionseffekt wurde ebenso nicht gefunden (F(4,75) = 0,52, n.s.).

Die dritte Reaktionsmöglichkeit auf einen Alarm, das Ignorieren, verteilte sich in über alle

fünf Bedingungen nahezu gleich (F(4,75) = 2,22, n.s.). Die Probanden ignorierten Alarme in

allen Bedingungen zu einem sehr geringen Anteil. Dieser ohnehin geringe Anteil an ignorier-

ten Alarmen verringerte sich in Block 2 weiter signifikant (F(1,75) = 6,91, p = .012), ohne

dass ein Interaktionseffekt auftrat (F(4,75) = 0,99, n.s.). Zu einer Übersicht der Mittelwerte

siehe Anhang G.

Um auszuschließen, dass sich diese Verhaltensanteile nur im Mittel ergaben und eventuelle

extreme-responding-Strategien verdeckten, wurden die Daten zusätzlich auf einem individuel-

len Niveau analysiert. Für jede Versuchsperson wurde ausgewertet, ob diese in den beiden

direkten Reaktionen auf einen Alarm Bearbeiten und Ignorieren jeweils einen Verhaltensan-

teil von mehr als 90% aufwies (siehe Definition von extreme responding in der Ausgangsstu-

die, Kapitel 6). Die Analyse ergab, dass es lediglich in der Bedingung mit der höchsten PPV

(0.9) 5 Probanden von den insgesamt 80 Versuchspersonen gab, die über 90% der Alarme

direkt bearbeiteten. Aufgrund des geringen Anteils an Personen, die diese Form des extreme

responding wählten (16%), und angesichts der Tatsache dass die compliance mit Alarmen von

größter Zuverlässigkeit im Grunde kein Überreagieren auf Alarme darstellt, sondern genauso

gut als probability matching-Strategie betrachtet werden kann, wurde durch die Individual-

Analyse sichergestellt, dass die gefundenen Effekte als solche und nicht als Artefakte, die auf

Mittelungen beruhen, interpretiert werden können.

Die Individual-Analyse bezüglich des Ignorierens von Alarmen ergab, dass keine Person

mehr als 90% aller Alarme ignorierte.

74 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt

7.5.4 Leistung und Verhalten in grünen Trials

Anteil korrekter Trials. Die Varianzanalyse ergab einen signifikanten Effekt der NPV auf

den relativen Anteil korrekter Reaktionen in grünen Trials (F(4,75) = 5,16, p = .001). Dabei

zeigt Abbildung 13 wie der Anteil an korrekt bearbeiteten Containern von 99% (bei einer

NPV von 0.98) stetig abfiel, wobei selbst in der niedrigsten Bedingung von NPV = 0.42

immer noch 85% aller Container korrekt behandelt wurden. Es ergab sich weder ein signifi-

kanter Effekt für den Faktor Block (F(4,75) = 1,34, n.s.) noch für die Interaktion von Block

und Bedingung (F(4,75) = 1,71, n.s.). Die Mittelwerte in den einzelnen Bedingungen werden

in Anhang G aufgeführt.

Anteil an korrekten Reaktionen in alarm-freien Trials

100

.98 .93 .86 .72 .41

NPV

Anteil in Prozen

Block 1

Block 2

Abbildung 13: Prozentualer Anteil von korrekten Reaktionen an allen gezeigten Reaktionen

in alarmfreien Trials, gemittelt über beide Experimentalblöcke

Verhaltenstendenz. Abbildung 14 gibt eine Übersicht über den Verlauf der Antwortalterna-

tiven „Ignorieren“ (reliance), „Prüfen“ (informed reliance) und „Bearbeiten“ (non-reliance) in

grünen Trials. Die Varianzanalyse ergab einen signifikanten Effekt der NPV auf den relativen

Anteil an ignorierten Trials, also dem Verhalten, dem eine hohe reliance zugrunde liegt

(F(4,75) = 18,78, p < .001). Dabei wurden in Block 1 in der Bedingung mit der zuverlässigs-

ten NPV (0.98) am häufigsten nicht reagiert, grüne Trials mit einer NPV von 0.93 bzw. 0.86

wurden in mittlerem Maße ignoriert und die Bedingungen 0.72 und 0.41 wurden trotz ihrer

stark differierenden Wahrscheinlichkeiten wiederum ähnlich selten ignoriert. Bonferroni-

7.5 Ergebnisse 75

korrigierte Einzelvergleiche bestätigen dieses Muster durch signifikante Unterschiede zwi-

schen der Bedingung 0.98 und allen anderen Bedingungen (alle p < .05), signifikanten Unter-

schieden der Bedingung 0.93 zu allen anderen Bedingungen (alle p < .05) außer zu Bedingung

0.86 und der Bedingung 0.72 zu allen anderen Bedingung (alle p < .05) außer zu Bedingung

0.41. In Block 2 verstärkte sich diese Verhaltenstendenz noch signifikant (F(1,75) = 5,98, p =

.02). Es ergab sich kein signifikanter Interaktionseffekt (F(4,75) = 0,53, n.s.).

Der Anteil des Prüfverhaltens an allen Reaktionsmöglichkeiten änderte sich in Abhängigkeit

der NPV signifikant (F(4,75) = 16,56, p < .001; siehe Abbildung 14). Dabei schienen die

Probanden die NPV ähnlich wie beim Verhalten „Ignorieren“ in verschiedene Kategorien

einzuteilen. In der Bedingung 0.98 überprüften sie im ersten Block einen grünen Trial kaum.

Schon der subtile Anstieg der NPV zu 0.93 ließ sie jedoch die Rohdaten zu 40% überprüfen.

Bonferroni-korrigierte Einzelvergleiche zeigten dementsprechend, dass sich Bedingung 0.98

von allen anderen Bedingungen signifikant unterschied (p < .05). Ähnlich wie in Bedingung

0.93 wurden die Trials in der Bedingung 0.86 behandelt, gefolgt von einem starken Anstieg

des Prüf-Anteils in der Bedingung 0.72. In Bedingung 0.41 änderte sich das Prüfverhalten

kaum. In Block 2 verstärkte sich diese Tendenz noch signifikant (F(1,75) = 6,54, p = .013),

ohne dass ein signifikanter Interaktionseffekt entstand (F(4,75) = 0,2, n.s.). Zu einer Über-

sicht der Mittelwerte siehe Anhang G.

Der Anteil des Bearbeitens von grünen Trials unterschied sich in den fünf Bedingungen nicht

signifikant (F(4,75) = 1,86, n.s.). Die Probanden bearbeiteten im ersten Block in den Bedin-

gungen 0.98, 0.93, 0.86 und 0.72 keinen grünen Trial direkt (jeweils M = 0%) und in der

Bedingung 0.41 nur zu einem sehr geringen Anteil (M = 5%). Dieses Verhalten blieb über

beide Blöckeauf einem ähnlich niedrigen Niveau (F(1,75) = 1,83, n.s.), es ergab sich jedoch

eine signifikante Interaktion von Block und Bedingung (F(4,75) = 4,52, p = .003).

76 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt

Mittlerer prozentualer Verhaltensanteil im Sinne der reliance,

informed reliance und no reliance

100

.98 .93 .86 .72 .41

NPV

Anteil in Prozen

reliance

no reliance

informed reliance

Abbildung 14: Verhaltensanteile in alarm-freien Trials, gemittelt über beide

Experimentalblöcke

Die Individual-Analyse des Antwortverhaltens ergab folgende Verteilung von Personen, die

90% und mehr Container in grünen Trials ignorierten (reliance): 12 bei einer NPV von 0.98, 5

bei einer NPV von 0.93, 3 bei einer NPV von 0.86, 1 bei einer NPV von 0.72 und 1 bei einer

NPV von 0.41. Auch hier zeigte sich, dass der Anteil an den Probanden, die eine extreme

Strategie nutzten, sehr gering war (max. 15% in einer Bedingung von 0.98) und dass sich der

größte Anteil an „extreme respondern“ vor allem in der Bedingung mit der größten Zuverläs-

sigkeit (NPV = 0.98) wiederfanden. Diese Strategie entspricht in diesem Rahmen eher einem

probability matching als einem extreme responding. Somit sind auch für die grünen Trials alle

gemittelten Ergebnisse bedenkenlos interpretierbar.

7.5.5 Subjektive Beanspruchung

Die a posteriori-Wahrscheinlichkeit hatte keinen Einfluss auf die Beantwortung der Skalen

des NASA-TLX. Die Probanden in den fünf unterschiedlichen Bedingungen unterschieden

sich nicht signifikant in ihrer empfundenen „geistigen Anstrengung“ (F(4,75) = 1,3), „körper-

lichen Anstrengung“ (F(4,75) = 1,0), Zeit F(4,75) = 1,3), „Ausführung“ (F(4,75) = 2,2),

„Anstrengung“ (F(4,75) = 2,2), und „Frust“ (F(4,75) = 1,5; alle F-Werte nicht signifikant).

7.6 Diskussion 77

7.6 Diskussion

In Experiment 1 wurde der Einfluss der manipulierten PPV und NPV eines Alarmsystems auf

das Antwortverhalten von Operateuren in einem Doppelaufgaben-Paradigma untersucht. In

Anlehnung an die Ergebnisse von Getty et al. (1995) wurden dabei die PPV und die NPV als

verhaltenswirksame Faktoren im Umgang mit Alarmen angesehen. Primär sollte untersucht

werden, wie sich die Einführung einer Prüfoption der Alarme auf die in der Ausgangsstudie

gefundenen Extremreaktionen auswirkt. Im Rahmen der Hypothesenblöcke für rote und grüne

Trials wurde erwartet, dass im unteren Bereich der PPV (0.1) der cry wolf-Effekt auftritt,

während im oberen Bereich der PPV (0.9) die compliance dominiert. Zum mittleren Bereich

der PPV hin (0.3 und 0.7) wurde ein zunehmender Anteil des Überprüfens der Alarme erwar-

tet, der bei der PPV, die die größte Unsicherheit impliziert (0.5), seinen Höhepunkt findet. In

alarm-freien Trials wurden ähnliche Effekte erwartet, allerdings in abgeschwächter Form, da

die die Manipulation der Basisrate die NPV im oberen Bereich nur sehr gering beeinflusste

imd die Abstufungen der NPV dadurch weniger ausgeprägt waren als bei der PPV. Der

Höhepunkt der reliance wurde somit bei der höchsten NPV und der Höhepunkt der informed

reliance bei der niedrigsten NPV erwartet.

Der Manipulations-Check in Form der Analyse der geschätzten PPV und NPV zeigt, dass die

Probanden die Variation der PPV und auch der NPV wahrgenommen haben (siehe Tabelle 4).

Um sicherzugehen, dass diese Variation allen Probanden gleichermaßen präsent war wurde

den Probanden die tatsächliche Verteilung der unterschiedlichen Fehler- und Treffertypen

nach Ausfüllen des Schätzfragebogens präsentiert. Folglich kann keine sichere Aussage

darüber getroffen werden, ob das Verhalten in den Experimentaldurchgängen auf der Erfah-

rung mit der Zuverlässigkeit des Systems oder der schriftlichen Aufklärung basierte. Es ist

denkbar, dass die erfahrungsbasierte Schätzung durch die höhere Verarbeitungstiefe einen

gewissen Grad an Änderungsresistenz aufwies und das Verhalten weiter beeinflusste. Aus

diesem Grund werden die Schätzungen der Zuverlässigkeit trotz der schriftlichen Aufklärung

diskutiert. Tabelle 4 veranschaulicht die Mittelwerte der geschätzten PPV im Vergleich zur

tatsächlichen PPV und zeigt, dass die Probanden nach der ersten Interaktion mit dem Alarm-

system abgesehen von einer größeren Überschätzung der PPV von 0.3 ein gutes Bild der

tatsächlichen Zuverlässigkeit hatten. Die inferenzstatistische Auswertung des Schätzfragebo-

gens macht deutlich, dass die extremen PPV von 0.1 und 0.9 als signifikant unterschiedlich

und die mittleren PPV als ähnlicher wahrgenommen wurden. Die Probanden unterschieden

78 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt

nicht sehr differenziert zwischen den PPV 0.3, 0.5 und 0.7 (alle Schätzungen lagen dicht bei

0.6), was eine mögliche Erklärung für das nahezu konstante Prüfverhalten über die Bedingun-

gen 0.1 – 0.7 und das plötzliche Absinken nach einer PPV von 0.7 sein könnte. Bei der

Schätzung der NPV neigten die Probanden dazu, niedrige NPV leicht zu überschätzen und

hohe NPV zu unterschätzen. Dieser Befund entspricht zwar den Ergebnissen der Ausgangs-

studie, überrascht aber insofern, dass in der Entscheidungsforschung bekannt ist, dass diese

Tendenz dann zu finden ist, wenn den Probanden bestimmte Wahrscheinlichkeit beschrieben

werden (Kahnemann & Tversky, 1979); bei erfahrungsbasierter Einschätzung zeigte sich die

gegensätzliche Tendenz, die Auftretenswahrscheinlichkeit seltener Ereignisse zu unterschät-

zen und die häufiger Ereignisse zu überschätzen (Hertwig & Erev, 2009). Im Rahmen von

bedingten Wahrscheinlichkeiten wie der NPV ist es generell schwierig zu definieren, welcher

der Faktoren die Schätzung der Probanden letztendlich determiniert – die Auftretenswahr-

scheinlichkeit eines grünes Lichtes, die Auftretenswahrscheinlichkeit einer correct rejection

oder die Auftretenswahrscheinlichkeit eines miss. Die Unterschätzung der vielen misses bei

einer niedrigen NPV würde der Unterschätzung erfahrungsbasierter Informationen entspre-

chen.

In alarm-freien Trials scheint die aus der Interaktion mit dem System geschätzte NPV einen

deutlicheren Einfluss auf die Prüf- und Ignorier-Rate zu haben als die tatsächliche NPV.

Somit spiegelt sich das unerwartet große Absinken der informed reliance und der reliance

zwischen den Bedingungen 0.98 und 0.93 auch signifikant in der Einschätzung der NPV

wider. Außerdem erklärt sich aus den Schätzdaten die Gleichbehandlung der objektiv deutlich

differierenden NPV von 0.41 und 0.72. An dieser Stelle sei allerdings wiederholt darauf

hingewiesen, dass die Interpretation des Einflusses der subjektiven Einschätzung nur unter

Vorbehalt gilt, da nicht zu differenzieren ist, ob das Verhalten der Probanden maßgeblich von

der erfahrunsbasierten Einschätzung oder der Beschreibung der Zuverlässigkeit determiniert

wurde. Festzuhalten ist dennoch, dass die PPV und NPV für den Operateur wahrnehmbare

Größen zu sein scheinen, die das Verhalten maßgeblich beeinflussen, wie es bereits Getty et

al. (1995) für die PPV zeigen konnten. Im Folgenden wird der Effekt der manipulierten PPV

bzw. NPV auf Leistung und Verhalten der Probanden aufgezeigt

Bevor detailliert auf die Verhaltenseffekte der PPV bzw. NPV eingegangen wird, wird der

Effekt der Manipulation auf allgemeine Leistungsparameter diskutiert. Dabei muss beachtet

werden, dass Effekte aus roten und grünen Trials in den allgemeinen Leistungsparametern

wie der erreichten Gesamtpunktzahl und der Sensitivität konfundiert sind. Einen Hinweis auf

7.6 Diskussion 79

solche Konfundierungen von roten und grünen Trials bietet das Ergebnis, dass sich die Punkt-

zahl, die für jede korrekte Lösung einer Bestellaufgabe ausgezahlt wurde, über die unter-

schiedlichen Bedingungen hinweg nicht unterscheidet. Zur Erinnerung sei an dieser Stelle

angemerkt, dass die Operationalisierung des Experimentes bewirkt, dass es zeitlich nicht

möglich ist, einen Container in der Überwachungsaufgabe zu überprüfen und gleichzeitig eine

Bestellaufgabe zu bearbeiten. In einer Bedingung, in der die Prüfrate in der Überwachungs-

aufgabe am niedrigsten ist, würde dementsprechend eine höhere Punktzahl in der Bestellauf-

gabe erwartet werden. Tatsächlich jedoch wurde in roten und grünen Trials auf unterschiedli-

chen Levels geprüft, so dass das gemittelte Prüfniveau über die unterschiedlichen

Bedingungen hinweg fast konstant blieb. In der Überwachungsaufgabe wurde ein signifikan-

ter Einfluss der manipulierten PPV bzw. NPV gefunden. Dabei erreichten die Probanden in

der Bedingung mit der geringsten PPV die höchste Punktzahl und in den oberen PPV die

niedrigste Punktzahl. Dieser Verlauf wird weiter unten im Abschnitt zur separaten Analyse

von roten und grünen Trials anhand des Anteils an korrekten Reaktionen erklärt.

Als alternatives Leistungsmaß zur erreichten Punktzahl wurde die Sensitivität des Mensch-

Maschine-Systems erfasst. Die Sensitivität klammert im Gegensatz zur erreichten Punktzahl

den Geschwindigkeitsaspekt durch ihre Zusammensetzung aus relativen Werten (nämlich der

hit- und der FA-Rate) aus und betont die Genauigkeit der getroffenen Entscheidungen. Aller-

dings ergibt auch die Sensitivität der Probanden nur ein konfundiertes Bild über die Gesamt-

leistung, die aus roten und grünen Trials resultiert. Dies wird besonders daran deutlich, dass

die Sensitivität in den Bedingungen am höchsten ist, in denen in roten Trials am häufigsten

geprüft wurde (PPV von 0.1, 0.3 und 0.5) und in denen gegenläufig die NPV am höchsten ist

(0.98, 0.93 und 0.86) und es somit in grünen Trials auch ohne hohe Prüfrate (sondern einer

hohen reliance) zu einem hohen Anteil korrekter Entscheidungen kam. Bereits in der Bedin-

gung mit einer PPV von 0.7 ließ die Sensitivität trotz nahezu konstant hoher Prüfrate in

Alarmtrials nach. Eine Erklärung hierfür mag dementsprechend der Einbruch in der NPV

(0.72) und der damit verbundene Anstieg an misses sein. Die Sensitivität des Gesamtsystems

stellt trotz der Konfundierung der Leistung in roten und grünen Trials ein wichtiges deskripti-

ves Maß in der Auswertung der Studie dar, da sie indiziert, ob sich die Leistung des Gesamt-

systems durch die Interaktion von Alarmsystem und Operateur gegenüber der Einzelleistung

des Alarmsystems verbessert. Tatsächlich übertraf die Leistung des Mensch-Maschine-

Systems in allen Bedingungen (Md’ = 5.5) die Leistungen des Alarmsystems (Md’ = 1.1), so

dass der Operateur in keinem Setting redundant war. In weiterführenden Studien sollte die

80 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt

Detektionsleistung des Menschen allein als Kontrollbedingung erfasst und mit der Leistung

des Gesamtsystems verglichen werden. In dieser Studie lag der Fokus auf der Verhaltens-

wirksamkeit von Alarmen und weniger auf der resultierenden Leistung, so dass auf die

Erhebung einer Kontrollbedingung verzichtet sowie einfach zu diskriminierendes Material

verwendet wurde.

Ein Leistungsmaß für Genauigkeit, welches für rote und grüne Trials isoliert erfasst werden

kann, ist der Anteil von korrekten Reaktionen an allen gezeigten Reaktionen. Im Folgenden

wird auf die Ergebnisse des spezifischen Einflusses der PPV auf die Leistung und das Reakti-

onsverhalten in Alarmtrials eingegangen. In der Bedingung mit den unzuverlässigsten Alar-

men (PPV = 0.1) wiesen die Probanden die signifikant beste Leistung im Sinne eines korrekt

bearbeiteten Anteils an Containern auf, die dann mit zunehmender Leistung des Alarmsys-

tems stetig abfiel. Eine Erklärung für das vorerst paradox erscheinende Absinken der Bearbei-

tungsgenauigkeit mit steigender Zuverlässigkeit findet man bei Betrachtung des Prüfverlaufes

in Alarmtrials. Es ist naheliegend, dass der Anteil an korrekten Reaktionen dort am höchsten

ist, wo das Überprüfen der Rohdaten das dominante Verhalten ist und die Zuverlässigkeit sich

in einem niedrigen bis mittelhohen Bereich befindet. Dieses Prüfverhalten fand in den Bedin-

gungen mit den niedrigsten PPVs (0.1 und 0.3) seinen Höhepunkt und sank dann mit steigen-

der Zuverlässigkeit erst langsam und nach einer PPV von 0.7 rapide ab bis in der Bedingung

0.9 die compliance über das Prüfverhalten dominierte. An dieser Stelle soll genauer auf das

Reaktionsverhalten auf Alarme eingegangen werden.

Die Ergebnisse der Analysen des Antwortverhaltens bestätigen die Hypothesen nur teilweise.

Die Analyse ergab einen durchgängig hohen Prüf-Anteil von Alarmen mit niedrigen (0.1, 0.3)

bis mittel-hohen PPV (0.5, 0.7). Ein Ignorieren von Alarmen wurde in allen Bedingungen nur

auf einem sehr geringen Niveau gefunden. Erst bei einer PPV von 0.9 wechselte die dominan-

te Reaktion vom Prüfen zum direkten Bearbeiten. Somit konnte Hypothese H 1.2., die das

Dominieren der compliance im oberen Bereich der PPV postulierte, bestätigt werden. Die

Probanden schienen demnach bei der höchsten PPV eine Rest-Unsicherheit zu tolerieren und

bearbeiteten die ihnen vom Alarmsystem indizierten Container direkt. Ein umgekehrtes Bild

zeigte sich im Bereich der unteren PPV. Selbst bei einer PPV von 0.1, die das gleiche Rest-

Risiko birgt wie die höchste PPV von 0.9, vertrauten die Probanden dem Alarmsystem nicht,

sondern reduzierten die verbleibende Unsicherheit dadurch, dass sie die Alarme auf einem

hohen Niveau überprüften. Die H 1.1 (die informed compliance ist im Bereich mittlerer PPVs

7.6 Diskussion 81

am höchsten) und die H 1.3 (der cry wolf-Effekt findet sich bei einer PPV von 0.1) konnten

somit nicht bestätigt werden.

Das Verhalten bei einer PPV von 0.1 entspricht weder einer probability matching-Strategie

(Bliss, Gilson & Deaton, 1995) noch einem extreme responding (Bliss, 2003), im Rahmen

derer die Probanden die Alarme mit geringer Zuverlässigkeit hätten ignorieren müssen.

Betrachtet man die Ergebnisse der Ausgangsstudie fallen auf, dass der cry wolf-Effekt, der in

Studie 1 erwartungskonform bei einer PPV von 0.1 auftauchte, durch die eingeführte Prüfop-

tion verschwand. Dieses Ergebnis entspricht den Befunden von Bliss (2003b), der Extremre-

aktionen auf ein Fehlen von Validierungsmöglichkeiten zurückführt. Um die Verzerrung der

Mittelwerte durch Extremreaktionen auf Alarme auszuschließen, wurden die Daten auf

individueller Ebene analysiert. Es zeigte sich, dass lediglich 5 von 80 Probanden eine extreme

Antwortstrategie verfolgten (alle fünf reagierten bei einer PPV von 0.9 auf alle Alarme direkt,

so dass hier die Bezeichnung extreme responding im Grunde unpassend ist, da sie genauso

einer probability matching-Strategie entspricht) und die Mittelwerte somit nicht durch Aus-

reißerwerte verzerrt wurden. Die unerwartet hohe Prüfrate über die Bedingungen mit einer

PPV von 0.1 bis 0.7 weist auf einen sehr verantwortungsvollen Umgang mit Alarmen hin,

besonders in der Bedingung 0.1, in der sich als effektive Strategie angeboten hätte, die Alar-

me zu ignorieren. An dieser Stelle muss kritisch angemerkt werden, dass die hohe Prüfrate in

Bedingung 0.1 streng genommen auch genau anders herum interpretiert werden könnte. So

könnte der hohe Prüfanteil darauf hinweisen, dass die Probanden das Alarmsystem in roten

Trials aufgrund seiner Untauglichkeit komplett ignorierten. Der hohe Prüfanteil würde dann

dem Verhalten entsprechen, welches sie gezeigt hätten, wenn sie ohne Unterstützung durch

ein Alarmsystem einen Anteil von 0.05 fehlerhaften Behältern (entsprechend der Fehler-

Basisrate in Bedingung 0.1) hätten detektieren sollen. Um diese Annahme zu überprüfen,

sollte in zukünftigen Studien eine Kontrollbedingung erhoben werden, die die Überwa-

chungsaufgabe mit den gleichen Stufen der manipulierten Basisrate, jedoch ohne Unterstüt-

zung durch ein Alarmsystem, präsentiert. Aufgrund von Untersuchungsergebnissen zum

Aufforderungscharakter (Gibson., 1977) von Alarmen, der Salienz von Alarmen (Dixon,

Wickens & McCarley, 2007; Wickens et al., 2005) und dem Befund von Bliss (2003b), dass

Extremreaktionen wie das komplette Ignorieren des Alarmsystems mangels Validierungs-

möglichkeit entstehen, wird jedoch davon ausgegangen, dass die hohe Prüfrate eine gezielte

Reaktion auf unzuverlässige Alarme repräsentierte.

82 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt

Bei einer PPV von 0.9 fiel das Prüfverhalten stark ab und wurde von der compliance, also

dem direkten Befolgen der Alarme dominiert. Zwischen einer PPV von 0.7 und 0.9 scheint

sich also ein cut-off zu befinden, der die Daten dichotomisiert in einen Bereich, in dem das

Vertrauen auf Verhaltensebene hoch ist (compliance bei einer PPV von 0.9) und einen Be-

reich, in dem die Probanden eine große Unsicherheit empfinden (bei einer PPV von 0.1 bis

0.7), die sie durch Überprüfen der Rohdaten reduzieren. Bestätigt wird dieser Befund durch

das Ergebnis, dass sich der Anteil an bearbeiteten Containern zwischen den PPVs 0.1, 0.3, 0.5

und 0.7 nur deskriptiv unterschied und dann bei einer PPV von 0.9 komplementär zur infor-

med compliance signifikant anstieg. Vergleicht man den Verlauf der compliance in der

Ausgangsstudie sowie in der Studie von Getty et al. (1995) mit dem Verlauf in Studie 1 fällt

auf, dass in der Ausgangsstudie und bei Getty et al. (1995) der größte Verhaltenseffekt zwi-

schen einer PPV von 0.5 und 0.7 zu finden ist und dass sich dieser kritische Punkt in Studie 1

weiter nach oben auf ein Level zwischen den PPV von 0.7 und 0.9 verschoben hat. Es scheint

also, als ob die Möglichkeit zur Reduktion der Unsicherheit dazu führt, dass die Probanden

noch bei einer mittel-hohen PPV (0.7) das Bedürfnis haben, die Alarme zu validieren, wäh-

rend sie dieselbe PPV ohne Validierungsmöglichkeit schon als validen Alarm behandeln. Eine

naheliegende Erklärung ergibt sich aus der Tatsache, dass die Probanden ohne Überprü-

fungsmöglichkeit abhängiger von den Hinweisen des Alarmsystems sind, da sie die einzige

Informationsquelle über den Status des Systems darstellen.

Abschließend ist also zur Leistung und zum Verhalten in Alarmtrials festzuhalten, dass das in

Hypothese H 1.2 postulierte Dominieren der compliance in oberen Bereichen der PPV erwar-

tungskonform in den Daten gefunden werden konnte. Das Prüfverhalten dominierte allerdings

erwartungsdiskrepant nicht nur im Bereich der mittleren PPV, sondern auch in den unteren

Randbereichen der PPV. Auch wenn das Prüflevel über die Bedingungen 0.1 – 0.7 hinweg

nahezu konstant blieb, zeigte doch das starke Absinken des Prüfanteils und das Dominieren

der compliance in Bedingung 0.9, dass die PPV eine Größe ist, an der die Probanden ihr

Verhalten orientieren (Getty et al., 1995). Die hohe Prüfrate über die niedrigen und mittel-

hohen Bedingungen hinweg weist vielmehr darauf hin, dass die Probanden bei sehr unzuver-

lässigen Alarmen (PPV = 0.1) das Bedürfnis haben, ihre Unsicherheit zu reduzieren, während

sie eine quantitativ ähnliche Unsicherheit bei sehr zuverlässigen Alarmen (PPV = 0.9) tolerie-

ren.

Hypothesenblock 2 bezieht sich auf das Verhalten in grünen Trials, für welche ähnliche

Verhaltenseffekte wie für die PPV erwartet wurden, allerdings in abgeschwächter Form, da

7.6 Diskussion 83

die Manipulation der Basisrate dazu führte, dass der Range der NPV lediglich von mittleren

(0.41) bis zu äußerst hohen (0.98) Zuverlässigkeiten reichte.

Die Analyse des Anteils von korrekten Reaktionen an allen Reaktionen in alarm-freien Trials

zeigte einen gegensätzlichen Verlauf zu dem in Alarmtrials. Während dieser Anteil in Alarm-

trials mit steigender PPV abnahm, stieg er in alarm-freien Trials mit zunehmender NPV stetig

an. Unter einer NPV von 0.86 war die informed reliance die meist gezeigte Reaktion auf

einen alarm-freien Trial. Die Probanden steigerten den Anteil an korrekten Reaktionen mit

dieser Strategie in den Bedingungen 0.41 und 0.72 auf 87% und 90%. Ab einer NPV von 0.86

maximierte die dominierende reliance den Anteil an korrekten Reaktionen weiter auf 98%

(NPV = 0.93) bzw. 99% (NPV = 0.98). Die Dominanz der reliance in den drei Bedingungen,

in denen die Fehler-Basisrate äußerst gering war und dann deutlich zunahm, erklärt somit die

Abnahme des Anteils an korrekten Containern mit sinkender NPV.

Betrachtet man das jeweils dominante Verhalten für die unterschiedlichen NPV zeigt sich,

dass sich die Hypothesen aus Hypothesenblock 2 bestätigen. Die reliance dominierte bei den

sehr hohen NPV von 0.98, 0.93 und 0.86 und fiel dann ab einer NPV von 0.72 bis zur NPV

von 0.41 unter das Niveau des Prüfanteils ab. Im Hinblick auf die nur schwache Variation der

NPV ist bemerkenswert, wie sensibel die Probanden in grünen Trials auf Änderungen der

NPV reagieren. So prüften sie bei einer Zuverlässigkeit des Alarmsystems von 0.98 nur 6%

der Container, bei einer NPV von 0.93 bereits 43%. Die Überschätzung der NPV von 0.98 im

Rahmen des Schätzfragebogens weist darauf hin, dass dieses starke Ansteigen des Prüfverhal-

tens bei einem subtilen Abfall der Zuverlässigkeit von 0.98 auf 0.93 dadurch zustande ge-

kommen sein könnte, dass der einzige miss, der in der Bedingung 0.98 präsentiert wurde,

nicht wahrgenommen und somit das System in dieser Bedingung als perfekt interpretiert

wurde. In der Bedingung 0.93 wurde mit großer Wahrscheinlichkeit mindestens einer der vier

misses wahrgenommen, so dass der große Unterschied in der (informed) reliance zwischen

den Bedingungen 0.98 und 0.93 so entstanden sein könnte, dass erst unter einer NPV von 0.93

überhaupt ein fehlerhaftes Reagieren des Alarmsystems in grünen Trials registriert wurde.

Das Verhaltensmuster in alarm-freien Trials vervollständigt das Bild der Verhaltenswirksam-

keit der a posteriori-Wahrscheinlichkeiten, das von Getty et al. (1995) nur für die PPV unter-

sucht wurde. Mehr noch scheinen misses bzw. die NPV das Verhalten effektiver zu beeinflus-

sen als die PPV, wie man an den Verhaltensänderungen als Reaktionen auf selbst kleinste

Änderungen in der NPV erkenn kann. Das besonders sensible Behandeln von grünen Trials

entspricht den Befunden von Dixon & Wickens (2006), die eine höhere Korrelation der

84 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt

Anzahl von misses und sinkender reliance fanden als von der Anzahl falscher Alarme und

sinkender compliance. Der spezifische Einfluss der unterschiedlichen PPV und NPV auf die

Verläufe des Antwortverhaltens stützt außerdem die Annahme der Unabhängigkeit der Kon-

strukte der compliance und reliance von Meyer (2004). Der Effekt der NPV war in dieser

Studie vor allem im oberen Bereich der NPV ausgeprägt, während die NPV von 0.72 und 0.41

kaum noch differenzierte Effekte auf das Verhalten hatte. Es scheint demnach nicht allein die

Höhe der a posteriori-Wahrscheinlichkeit eines Hinweises der ausschlaggebende Faktor zu

sein, sondern auch der zugrundeliegende Systemzustand.

Überträgt man diesen Befund auf das Modell von Allendoerfer, Pai & Friedman-Berg (2008)

so kann man feststellen, dass das Kriterium des Operateurs auf der zweiten Ebene des Über-

wachungsprozesses, welches bestimmt, ob er den Hinweis des Systems befolgt oder in einem

dritten Schritt überprüft, für die beiden verschiedenen Systemzustände, und vor allem in

oberen Bereichen der Zuverlässigkeiten, unterschiedlich hoch ist. Der verhältnismäßig starke

Anstieg im Prüfverhalten bei nur äußerst geringen Änderungen der NPV von 0.98 auf 0.93

indiziert ein hohes Bedürfnis, Unsicherheit selbst bei sehr zuverlässigen grünen Trials zu

reduzieren. Bei einer PPV von 0.9 wurde den Alarmen hingegen zum Großteil vertraut, ohne

deren Validität zu überprüfen. Das Bedürfnis, Unsicherheit zu reduzieren, scheint also bei

einem hoch zuverlässigen grünen Hinweis größer zu sein als bei einem hoch zuverlässigen

Alarm. Allgemeiner formuliert scheint es subjektiv einen Unterschied zu machen, ob man

einen Fehler durch das Ausbleiben einer notwendigen Handlung verursacht (also einen miss

verursacht), oder ob ein Fehler verursacht wird, indem man eine redundante Aktion ausführt

(entsprechend eines false alarms bzw. eines unnötig ausgeführten Prüfprozesses). In diesem

Zusammenhang könnte sich auch eine Erklärung für den unerwartet hohen Anteil an über-

prüften Alarmen im unteren Bereich der PPV finden. Noch ungeklärt aber vorstellbar ist, dass

im Kontext von Systemen, die neben der Produktivität auch den Aspekt der Sicherheit evozie-

ren, ein durch ein Versäumnis verursachter Fehler ein größeres Verantwortungsgefühl mit

sich bringt als ein Fehler der durch aktionistisches Überreagieren entstand und hauptsächlich

einen unnötigen Zeitaufwand impliziert. Mögliche Parallelen sind zu sehen in den Konzepten

des omission- und commission-Fehlers, die sich in ihrem Ursprung (Mosier & Skitka, 1996)

auf Entscheidungen von Assistenzsystemen beziehen (siehe Kapitel 2.5.2). Zukünftige For-

schung sollte versuchen, dieses Konzept auf den Bereich von Alarmsystemen mit variieren-

dem Kontext (Betonung Sicherheit versus Produktion) und variierenden Konsequenzen zu

beziehen und zu evaluieren. Auch wenn es sich im vorliegenden Paradigma um die Simulati-

7.6 Diskussion 85

on eines Produktionsprozesses handelte, in dem der Sicherheitsaspekt keine übergeordnete

Rolle spielte, legen die Ergebnisse nahe, von einem starken Aufforderungscharakter von

Alarmen auszugehen (Gibson, 1977). Allein die Evozierung des Kontextes von „Alarmen“

und „Alarmsystemen“ impliziert womöglich unbewusst ein hohes Risiko und schwerwiegen-

de Konsequenzen. Der Einfluss dieses „framings“ (Tversky & Kahnemann, 1981) auf das

Antwortverhalten im Umgang mit Alarmen sollte in weiteren Studien untersucht werden.

Ein weiterer Kritikpunkt bezüglich der internen Validität der Untersuchungsergebnisse wurde

bereits bei der Diskussion allgemeiner Leistungsparameter erwähnt. Das generelle Problem

der Konfundierung von Effekten der PPV und NPV auf die Reaktion der Probanden gilt im

Grunde für die Verhaltensparameter ebenso wie für die Leistung. So ist es beispielsweise

möglich, dass das Verhalten in Alarmtrials bei einer PPV von 0.9 insofern von der zugehöri-

gen NPV von 0.41 in grünen Trials beeinflusst wird, dass die relativ hohe Prüfrate bei grünen

Trials Ressourcen für die Bearbeitung von Alarmtrials bindet und das intendierte Verhalten

somit verfälscht. Da in dieser Arbeit jedoch explizit der Einfluss der a posteriori-

Wahrscheinlichkeit durch Konstanthalten von Charakteristika des Alarmsystems wie dessen

Sensitivität und Antwortkriterium untersucht werden sollte, ist es in diesem Rahmen nicht

möglich, die NPV und die PPV isoliert voneinander zu manipulieren. Weiterhin muss man

davon ausgehen, dass die Konfundierung der Effekte von Alarmen und alarm-freien Phasen

auch in der Praxis auftritt. Die spezifischen Reaktionsmuster in roten und grünen Trials

weisen darauf hin, dass die Probanden rote und grüne Trials sehr differenziert behandelten

und sich die Verläufe der (informed) reliance und (informed) compliance in ihrem Verlauf

unabhängig entwickelten. Die Untersuchungsergebnisse sprechen also für die von Meyer

(2004) postulierte Unabhängigkeit der reliance und compliance und geben so wertvolle

Hinweise auf die Verhaltenseffekte der spezifischen a posteriori-Wahrscheinlichkeiten, die

bereits bei der Entwicklung von Alarmsystemen berücksichtigt werden sollten.

Zusammenfassend lässt sich festhalten, dass sich die PPV und NPV als verhaltenswirksame

Größen erwiesen haben und sich die Befunde von Getty et al. (1995), der erstmals in einem

Mehrfachaufgaben-Paradigma verhaltenswirksame Effekte der PPV von Alarmen aufweisen

konnte, bestätigen. Dabei beeinflusste insbesondere die NPV das Prüfverhalten selbst durch

geringe Variation im oberen Bereich maßgeblich. Die PPV bewirkte in den unteren und

mittleren Bereichen nur kleine Verhaltensanpassungen, während eine hohe PPV von 0.9 eine

Umkehrung des dominanten Verhaltens von der informed compliance zur compliance bewirk-

te. Die größten Verhaltenseffekte wurden also jeweils in den oberen Bereichen der PPV bzw.

86 Experiment 1: Einfluss einer Prüfmöglichkeit auf den cry wolf-Effekt

der NPV gefunden. So offenbarte die Bedingung mit einer NPV von 0.41 und einer PPV von

0.9 die größten Verhaltenseffekte in der (informed) compliance, und entsprechend die Bedin-

gung mit einer PPV von 0.1 und einer NPV von 0.98 die größten Verhaltenseffekte in der

(informed) reliance. Im Rahmen dieser deutlichen Verhaltenseffekte im oberen Bereich der a

posteriori-Wahrscheinlichkeiten konnte auch Teil-Hypothese H 2.1 (die compliance findet im

oberen Bereich der PPV (0.9) ihren Höhepunkt) bestätigt werden. Die Probanden tolerierten

also die Rest-Unsicherheit von 0.1 und verließen sich auf die Alarme. Dieses Muster, welches

für die compliance offenbar unabhängig von der Höhe der NPV sowie für die reliance unab-

hängig von der Höhe der PPV, gilt, unterstützt die von Meyer (2004) postulierte Distinktheit

der beiden Konzepte.

Im unteren Bereich der PPV befand sich dagegen die informed compliance auf unerwartet

hohem Niveau. Anstatt das zeitaufwendige Prüfprocedere dann am häufigsten durchzuführen,

wenn die Unsicherheit bezüglich der Validität des Alarms am größten ist (bei der PPV im

mittleren Bereich), schienen die Probanden sich selbst bei äußerst unzuverlässigen Alarmen

davor absichern zu wollen, keinen kritischen Systemzustand zu verpassen. Der cry wolf-

Effekt, der im Rahmen der Ausgangsstudie unter Verwendung des gleichen Paradigmas,

allerdings ohne Prüfoption, gefunden wurde, wurde eliminiert und durch eine durchgängig

hohe Prüfrate bis zu einer hohen PPV von 0.7 ersetzt. Zusätzlich verschob sich die Vertrau-

ensschwelle, ab der die Probanden einen Alarm direkt befolgten, vom Bereich zwischen 0.5

und 0.7 in der Ausgangsstudie in den Bereich zwischen 0.7 und 0.9 in der Studie mit Prüf-

möglichkeit.

Aus diesen Ergebnissen ergeben sich folgende Fragen:

xWie entwickelt sich das Prüfverhalten zwischen einer PPV von 0.7 und 0.9? Gibt es

ein bestimmtes Niveau der PPV, ab der das Prüfverhalten im Sinne eines cut-off ab-

sinkt, sinkt die informed compliance linear oder folgt sie einem ganz anderen Muster?

In Studie 2 wird der Bereich zwischen 0.7 und 0.9 in fünf äquidistante Stufen aufge-

teilt und das Prüfverhalten in diesem Bereich analysiert.

xWie robust ist der Effekt, dass der cry wolf-Effekt durch das Einführen einer Prüfopti-

on verschwindet, unter Bedingungen, die eine strenge Verteilungspolitik der Ressour-

cen erfordern? In Bezug auf die Studie von Bliss & Dunn (2000) können zwei Arten

von Belastung manipuliert werden. Innerhalb der Alarmaufgabe kann der Prüfaufwand

erhöht werden, indem nicht nur ein Parameter überprüft werden muss, um einen feh-

7.6 Diskussion 87

lerhaften Containerinhalt sicher zu identifizieren, sondern zwei. In Studie 4 wird die

kognitive Beanspruchung erhöht, indem das Doppelaufgaben-Paradigma durch Hinzu-

fügen der Tankfüllaufgabe zu einem Dreifachaufgaben-Paradigma erweitert wird.

88 Experiment 2: Feinanalyse des Verlaufs der compliance im Bereich 0.7 – 0.9

8 Experiment 2: Feinanalyse des Verlaufs der com-

pliance im Bereich 0.7 – 0.9

In Studie 1 wurde der deutlichste Verhaltenseffekt zwischen einer PPV von 0.7 und 0.9

gefunden. In diesem Bereich änderte sich das dominante Verhalten von der informed compli-

ance zur compliance. In Studie 2 soll analysiert werden, ob das Verhalten beispielsweise an

einer kritischen Schwelle im Sinne eines cut-off umschlägt oder ob die Verhaltensänderung

einem anderen Verlauf folgt. Zu diesem Zweck wurde der Bereich in feinere Abstufungen

von jeweils 0.05 unterteilt und das Verhalten auf den sich ergebenden fünf Stufen analysiert.

8.1 Forschungsfrage

In Studie 1 konnte gezeigt werden, dass die Probanden den dominierenden Anteil an Alarmen

überprüften, auch wenn das Alarmsystem eine hohe Reliabilität (PPV = 0.7) aufwies. Erst bei

einer PPV von 0.9 sank die Prüfhäufigkeit rapide von 62% auf 30%. Komplementär dazu

stieg die Häufigkeit des direkten Bearbeitens von 21% auf 52%. Die Zuverlässigkeit von

Alarmen scheinen die compliance und die informed compliance offenbar also erst ab einer

PPV von 0.7 maßgeblich zu beeinflussen. Die äußerst hohe Prüfrate über die Bedingungen 0.1

– 0.7 hinweg beeinflusste auch die Leistungsparameter maßgeblich. So fand sich die maxima-

le Leistung, sowohl in Parametern der Gesamtleistung (Sensitivität und erreichte Gesamt-

punktzahl) als auch in den spezifischen Leistungsmaßen (Anteil korrekter Reaktionen in roten

und grünen Trials) konsistent in den Bedingungen mit den niedrigen PPV und die schlechteste

Leistung in der Bedingung mit der höchsten PPV, in der die Probanden den Alarm direkt

befolgten. Dieser Befund weist darauf hin, dass die Leistung vom cut-off abhängt, an dem das

dominante Verhalten vom Prüfen zum direkten Bearbeiten wechselt, abfällt.

Dieser Befund erinnert an die Ergebnisse der Meta-Analyse von Wickens & Dixon (2007).

Die Studien weisen die Gemeinsamkeit auf, dass sich ein cut-off bei einer Reliabilität von 0.7

befindet, der die Leistung der Probanden maßgeblich beeinflusst. Allerdings sind auch wich-

tige Unterschiede bzw. Einschränkungen in der Vergleichbarkeit der Studien zu beachten.

Hinsichtlich der Ergebnisse nahm die Leistung in den untersuchten Paradigmen von Wickens

& Dixon (2007) unter einer Reliabilität von 0.7 ab, während er in Studie 1 zunahm. Dieses

8.2 Methode 89

Ergebnis lässt sich durch den unterschiedlichen Versuchsaufbau erklären, der den Probanden

in den Studien der Meta-Analyse keinen aktiven bzw. keinen quantifizierbaren Zugang zu den

Rohdaten gewährte. Eine weitere Einschränkung der Vergleichbarkeit liegt in der Definition

von Reliabilität. Zwar wurde in der Meta-Analyse die Reliabilität nicht über die PPV defi-

niert, sondern über den Anteil von korrekten Reaktionen an allen Reaktionen, doch enthielt

die Analyse einige Studien, in denen lediglich der Einfluss von hits und false alarms geprüft

wurde (z. B. Bliss & Acton, 2003; Dingus et al., 1997; Galster et al., 2001). Entfällt der Anteil

von correct rejections und misses, unterscheidet sich die Definition der Reliabilität nicht mehr

von der der PPV. Es lässt sich also vergleichend festhalten, dass die Probanden in Studie 1

unter einer Zuverlässigkeit von 0.7 auf den ersten Blick kein rationales Verhalten zu zeigen

scheinen (durch die überhöhte Prüfrate), welches auf der anderen Seite die abnehmende

Effizienz des Gesamtsystems, die Wickens & Dixon in ihrer Studie in diesem Bereich fanden,

kompensiert. Anhand der Ergebnisse von Studie 1 bleibt jedoch ungeklärt, ob es sich tatsäch-

lich um einen cut-off bei 0.7 handelt oder ob das Prüfverhalten zwischen den PPV von 0.7 und

0.9 linear abfällt. Alternativ könnte sich ein eventueller cut-off auch in den Bereich von .9

verschieben. Um den genauen Verlauf des Prüfverhaltens explorativ zu analysieren, wurde in

Studie 2 der Range der PPV von 0.7 - 0.9 in fünf Abstufungen unterteilt (0.7, 0.75, 0.8, 0.85

und 0.9).

8.2 Methode

8.2.1 Stichprobe

70 Versuchspersonen, die über den Probandenserver PESA der Humboldt Universität Berlin

akquiriert wurden, nahmen gegen eine monetäre Aufwandsentschädigung an der Untersu-

chung teil. Die Stichprobe bestand aus 40 Frauen und 30 Männern. Das Alter der Probanden

variierte von 19 bis 36 Jahren bei einem Mittelwert von 25,49 (SD = 4,02).

8.2.2 Versuchsplan

Das einfaktorielle Design von Studie 2 unterschied sich von dem von Studie 1 zum Einen in

der Auswahl der untersuchten Stufen der PPV. Der between-subjects-Faktor Fehlerbasisrate

wurde erneut fünffach gestuft, diesmal jedoch in kleineren Abstufungen in einem Range von

90 Experiment 2: Feinanalyse des Verlaufs der compliance im Bereich 0.7 – 0.9

0.7 - 0.9 (siehe Tabelle 5). Zum Anderen gab es nur einen Experimentaldurchgang, so dass

der Messwiederholungsfaktor Block entfiel. Der zweite Experimental-Durchgang entfiel in

Studie 2, da die Ergebnisse von Studie 1 zeigten, dass sich kein Interaktionseffekt von Block

und Bedingung zeigte und das Reaktionsmuster im 2. Block in Abhängigkeit der unterschied-

lichen PPV/NPV in seinem Verlauf also unverändert blieb. Dies spricht für einen Übungsef-

fekt, der sich auf alle Bedingungen gleich auswirkt und die Effekte zwischen den PPV/NPV

nicht beeinflusst.

Da sich in Studie 1 im Bereich der NPV von 0.72 und 0.41 (entsprechend des hier variierten

Bereichs einer PPV von 0.7 bis 0.9) keine signifikanten Effekte im Verhalten zeigte, lag der

Fokus von Studie 2 auf Verhaltenseffekten der PPV.

Basisrate PPV

.54 .7

.6 .75

.66 .8

.74 .85

.81 .90

Tabelle 5: manipulierte Basisrate und resultierende PPV

8.2.3 Ablauf

Der Ablauf entsprach abgesehen von der Eliminierung des zweiten Experimental-Blocks dem

von Studie 1.

8.3 Abhängige Variablen

Im Fokus von Studie 2 stand die Feinanalyse des Verlaufes des Prüfverhaltens von Alarmen

in einem Range von einer PPV von 0.7 - 0.9, deswegen wurde in Studie 2 lediglich eine

Auswahl der abhängigen Variablen aus Studie 1 erfasst (siehe Kapitel 7.4). Da in dem redu-

zierten Bereich der PPV keine relevanten Unterschiede in den Leistungsmaßen und den

subjektiven Beanspruchungsmaßen erwartet wurden, werden im Folgenden nur die Verhal-

tensdaten und die Einschätzung der tatsächlichen PPV aufgeführt. Auf die Analyse der

Leistung und des Verhaltens in alarm-freien Trials wurde komplett verzichtet, da in Studie 1

8.4 Ergebnisse 91

keine relevante Verhaltensänderung im entsprechenden Bereich der NPV (von 0.41 bis 0.72)

gefunden wurde.

8.4 Ergebnisse

8.4.1 Manipulations-Check

PPV. Die einfaktorielle Varianzanalyse ergab einen signifikanten Einfluss der manipulierten

PPV auf die geschätzte PPV (F(4,65) = 3,541, p = .011). Die Bonferroni-korrigierten Mehr-

fachvergleiche ergaben, dass sich die Einschätzung der PPV von 0.9 (M = 0,823) signifikant

von der Einschätzungen der PPV von 0.7 (M = 0,66) unterschied, p = .024).

8.4.2 Anteil Verhalten

Für jede der drei möglichen Reaktionsweisen auf einen Alarm (Bearbeiten, Prüfen und

Ignorieren) wurde eine einfaktorielle Varianzanalyse mit der jeweils entsprechenden abhängi-

gen Variablen Verhaltensanteil in roten Trials berechnet. Die unabhängige Variable war bei

jeder Varianzanalyse die fünfstufig manipulierte Basisrate mit der zugehörigen PPV. Um

gezielt der Frage nachzugehen, ob sich ein cut-off zwischen einer PPV von 0.7 und 0.75

findet, nach dem das Prüfverhalten abrupt abfällt und das Bearbeiten entsprechend zunimmt,

wurden außerdem zwei geplante Kontraste mit der abhängigen Variable Prüfen bzw. Bearbei-

ten berechnet, in denen Bedingung 0.7 gegen die anderen vier Bedingungen verglichen

wurde.

Die Ergebnisse der Varianzanalyse zeigten keinen signifikanten Effekt der PPV auf die

Verhaltensanteile Bearbeiten (F(4,65) = 1,59, n.s.), Prüfen (F(4,65) = 1,18, n.s.), und Ignorie-

ren (F(4,65) = 2,13, n.s.). Eine Übersicht über die Mittelwerte findet sich in Anhang H.

Der geplante Kontrast mit der abhängigen Variable Prüfen ergab, dass in der Bedingung PPV

= 0.7 signifikant häufiger geprüft wurde als in den anderen Bedingungen, t(65) = 1.999, p =

.025 (einseitig). Entsprechend wurden in Bedingung 0.7.weniger Alarme direkt bearbeitet als

in den Bedingungen 0.75, 0.8, 0.85 und 0.9, t(65) = -2.12, p = .019 (einseitig; siehe Abbildung

15).

92 Experiment 2: Feinanalyse des Verlaufs der compliance im Bereich 0.7 – 0.9

Prozentualer Verhaltensanteil im Sinne der compliance,

informed compliance und des cry wolf-Effekts

100

.70 .75 .80 .85 .90

PPV

Anteil in Prozen

compliance

"cry wolf"

informed compliance

Abbildung 15: Verhaltensanteile in Alarmtrials

8.5 Diskussion

In Studie 2 sollte der Verlauf im Bereich zwischen einer PPV von 0.7 und 0.9, in dem in

Studie 1 der stärkste Verhaltenseffekt und ein Wechsel des dominierenden Verhaltens von der

informed compliance zur compliance gefunden wurden, genauer analysiert werden. Dabei

konnten die Werte des anteiligen Prüfens, Bearbeitens und Ignorierens von Bedingung 0.7 aus

Studie 1 nahezu exakt repliziert werden; das Antwortmuster in Bedingung 0.9 entsprach

ebenso dem in Studie 1, wobei die Probanden in dieser Bedingung eine etwas niedrigere

compliance und eine entsprechend höhere informed compliance zeigten, jedoch ohne dass

sich die Dominanz der compliance änderte. Generell validieren die replizierten Antwortmus-

ter in diesen beiden Bedingungen die Ergebnisse aus Studie 1. Das Ergebnis der Fein-Analyse

des Prüfverhaltens ergab einen klaren cut-off nach einer PPV von 0.7. Betrachtet man das

Prüfverhalten in Studie 1 wird deutlich, dass die Probanden ihr Prüfverhalten erst nach einer

PPV von 0.7 von einem irrational hohen Level an die Höhe der PPV anpassten, so dass sich

das Reaktionsmuster erst bei einer PPV von 0.9 an eine Art probability matching (Bliss,

Gilson & Deaton, 1995) anglich. Studie 2 jedoch zeigt, dass diese Anpassung nicht schritt-

weise und linear verläuft, sondern dass die PPV von 0.7 bzw. 0.75 eine kritische Schwelle

repräsentiert, ab der die compliance steigt, die informed compliance sinkt, so dass kein klare

8.5 Diskussion 93

dominierendes Verhalten mehr auszumachen ist. Die Dominanz der informed compliance

unter einer PPV von 0.75 weist darauf hin, dass eine Zuverlässigkeit unter 0.75 als unzuver-

lässig wahrgenommen zu werden scheint. Eine NPV zwischen 0.75 und 0.85 scheint dem

hingegen weder als eindeutig zuverlässig noch unzuverlässig angesehen zu werden, so dass

sich die compliance und die informed compliance auf einem ähnlichen Niveau befinden. Ab

einer PPV von 0.9 wird dann die in Studie 1 gefundene Tendenz zur compliance als dominie-

rendes Verhalten sichtbar. Probanden neigen also dazu, bei mittel-hohen PPV unter 0.75

Ressourcen durch eine überhöhte Prüfrate zu verschwenden und erst nach dem cut-off bei

0.75 zu beginnen, ein effizienteres Reaktionsmuster zu entwickeln, indem sie ungefähr die

Hälfte aller Alarme direkt bearbeiten.

In Bezug auf die Erkenntnisse im Rahmen der Meta-Analyse (22 Studien) von Wickens &

Dion (2007) könnte die schlechte Anpassung von Personen an Alarmsysteme mit mäßiger

Zuverlässigkeit (unter 0.7) dazu beitragen, dass die Gesamtleistung des Mensch-Maschine-

Systems unter diesen Bedingungen unter die Leistung der einzelnen Akteure fällt (Wickens &

Dixon, 2007). Während in Studien ohne Prüfmöglichkeit die alarm-gestützte Überwachungs-

aufgabe durch die Anwendung einfacher Heuristiken wie dem extreme responding dabei eher

vernachlässigt wird, sollten zukünftige Studien untersuchen, ob es in Mehrfachaufgaben-

Paradigmen mit Prüfmöglichkeit durch die übermäßige Investition von Ressourcen in den

Prüfprozess zu Leistungseinbußen in den Nebenaufgaben kommt.

Bei der Gestaltung von Alarm- oder Assistenzsystemen sollte also nicht nur die Leistung des

Systems berücksichtigt werden, sondern auch die Fähigkeit der Nutzer zur Adaption an die

Zuverlässigkeit des Systems. In weiteren Studien sollte untersucht werden, ob die Gesamtleis-

tung des Mensch-Maschine-Systems mithilfe von Training der Nutzer, sich der gegebenen

Zuverlässigkeit optimal anzupassen, auch für Systeme mit einer niedrigeren Zuverlässigkeit

von 0.7 erhöht werden kann.

94 Experiment 3: Einfluss eines erhöhten Prüfaufwandes

9 Experiment 3: Einfluss eines erhöhten Prüfauf-

wandes

In Studie 1 wurde anstatt der erwarteten rationalen und effizienten Einteilung der Ressourcen

eine unerwartet hohe Prüfrate in den Bedingungen mit PPV von 0.1 – 0.7 gefunden. Im

Vergleich zur Ausgangsstudie ohne Prüfoption wurde der cry wolf-Effekt also eliminert. Eine

denkbare Erklärung für diese überhöhte Prüfrate könnte sein, dass die Kosten für den Prüf-

prozess nicht hoch genug operationalisiert waren. Unter hohen Kosten des Prüfprozesses wird

hingegen erwartet, dass die Probanden die Rohdaten nur dann prüfen, wenn die Entscheidung

unter großer Unsicherheit getroffen werden muss. So fanden Bliss & Dunn (2000) unter einer

erhöhten Arbeitsbelastung in der Alarmaufgabe einen erhöhten Anteil an ignorierten Alar-

men. In Studie 3 wird untersucht, ob der cry wolf-Effekt wieder auftritt, wenn das Überprüfen

der Rohdaten zeitaufwendiger gestaltet wird. Dabei müssen die Probanden statt einen Parame-

ter zwei Parameter sukzessive überprüfen, um ihre Unsicherheit auf 0% zu reduzieren. Eine

Überprüfung lediglich eines Parameters wäre dabei denkbar, würde die Unsicherheit jedoch

nur um 50% reduzieren.

Die Datenerhebung zu Studie 3 erfolgte an der Technischen Universität Berlin im Rahmen

einer von der Autorin dieser Arbeit betreuten Diplomarbeit (Zorn, 2011). Ein Teil der erhobe-

nen Daten wurde demnach bereits für die Diplomarbeit herangezogen, die hier berichteten

Fragestellungen umfassen in Teilen jene der Diplomarbeit, gehen jedoch deutlich über diese

hinaus.

9.1 Forschungsfrage und Hypothesen

Das Ergebnis von Studie 1 zeigte eine schlechte Adaptivität der Probanden auf variierende

Zuverlässigkeiten von Alarmen, indem sie auf einem irrational hohen Niveau die Rohdaten

hinter dem Alarm prüften. Im Rahmen dieser überhöhten Prüfrate wurde der cry wolf-Effekt,

der in der Ausgangsstudie ohne Prüfoption gefunden wurde, eliminert. Erst bei einer Zuver-

lässigkeit von 0.9 sank das anteilige Prüfverhalten auf immerhin noch 30% ab. Dieses Ergeb-

nis lässt die Frage nach den Ursachen für das ineffiziente, zeit- und kostspielige Verhalten in

den unteren Bereichen der PPV aufkommen. Eine rationale Erklärung wäre, dass sich Opera-

9.1 Forschungsfrage und Hypothesen 95

teure so verantwortungsbewusst wie möglich verhalten, wenn ihnen die Möglichkeit gegeben

wird, die Rohdaten des Systems zu überprüfen. Eine Erklärung methodischer Art, die die

interne Validität der Ergebnisse von Studie 1 in Frage stellt, wäre, dass das Prüfverhalten in

Studie 1 nicht aufwendig genug operationalisiert wurde, so dass den Probanden suggeriert

wurde, die Mühen und Zeitkosten des Prüfens durch höhere Genauigkeit in der Alarmaufgabe

kompensieren zu können. Um dieser Erklärungsmöglichkeit nachzugehen, wurde in Studie 3

das gleiche Experiment wie in Studie 1 durchgeführt, wobei der Prüfprozess zeit- und res-

sourcenaufwendiger operationalisiert wurde als im ersten Experiment. Um den Prüfaufwand

zu erhöhen, mussten die Probanden in Studie 3 anstatt nur einen Parameter (Temperatur) zwei

unabhängige Parameter (Temperatur und Druck) überprüfen, um einen Fehler im Endprodukt

sicher ausschließen bzw. bestätigen zu können. Diese Operationalisierung gestaltet den

Prüfprozess sowohl zeitaufwendiger als auch lästiger als in Studie 1. An dieser Stelle wird

bewusst nicht von einem erhöhten workload gesprochen, da davon ausgegangen wird, dass

der längere Prüfprozess primär mehr Zeit in Anspruch nimmt, wobei die gleichen Ressourcen

wie beim einfach Prüfprozess sukzessive, also nacheinander genutzt werden, sodass Interfe-

renzen oder Doppelbelastungen vermieden werden (Wickens, 2008). Nach Dingus et al.

(1993) müsste das Verhalten, welches in den Variablen Zeitaufwand und Anstrengung kost-

spielig ist (in diesem Falle also die informed compliance), die Auftretenswahrscheinlichkeit

dieses Verhaltens deutlich senken. Da jedoch hier davon ausgegangen wird, dass die auffällig

hohe Prüfrate aus Studie 1 einem intendierten Verhalten zugrunde liegt und nicht der Ein-

fachheit des Prüfprocederes, ergeben sich gemäß Studie 1 folgende Hypothesen:

Hypothesenblock 1: rote Trials

H 1.1: die informed compliance ist am höchsten bei PPV im mittleren Bereich und am nied-

rigsten bei hohen und niedrigen PPV (und folgt somit einem umgekehrt u-förmigen

Verlauf)

H 1.2: die compliance ist am höchsten bei der höchsten PPV (0.9)

H 1.3: der cry wolf-Effekt tritt bei der niedrigsten PPV (0.1) auf

Hypothesenblock 2: grüne Trials

H 2.1: die informed reliance ist bei der niedrigsten NPV (0.41) am höchsten

H 2.2: die reliance ist bei der höchsten NPV von 0.98 am höchsten

96 Experiment 3: Einfluss eines erhöhten Prüfaufwandes

H 2.3: die non-reliance befindet sich über alle Bedingungen hinweg auf einem äußerst niedri-

gen Niveau

Aus diesen beiden Hypothesenblöcken ergeben sich im untersuchten Basisraten-Bereich

unterschiedliche erwartete Verläufe der reliance und compliance.

9.2 Erweiterung des Paradigmas M-TOPS 2

In Studie 2 wurde das Modul der Überwachungsaufgabe des M-TOPS 2-Paradigmas leicht

modifiziert. Um den Prüfprozess zeitaufwendiger zu gestalten wurde das Prüfmenü so erwei-

tert, dass nach Klick auf den Button „Prüfen“ zwei Karteireiter („Temperatur“ und „Druck“)

sichtbar wurden. Um einen Fehler im System anhand der Rohdaten sicher auszuschließen,

mussten die Probanden beide Parameter überprüfen. Bei Abweichung nur eines Parameters

lag ein Fehler im System vor. Zur Überprüfung beider Parameter konnte ein beliebiger der

beiden Karteireiter ausgewählt werden. Die Überprüfung der Temperatur gestaltete sich dabei

genau wie in den Studien 1 und 2 (siehe Kapitel 5). Aufgrund der Rohdaten konnte der

Proband dann entweder die Temperatur durch Klick auf den Button „Temperatur bearbeiten“

korrigieren oder die Temperatur unbearbeitet lassen. An dieser Stelle konnte mit Klick auf

den Button im Prüfmenü „weiter“ der nächste Container angefordert werden oder aber mit

einem Klick auf den Karteireiter „Druck“ (bzw. „Temperatur, wenn zuerst der Druck getestet

worden war) ins Prüfmenü des zweites Parameters gelangt werden. Zur Überprüfung des

Drucks musste wie bei der Überprüfung der Temperatur vorerst die exakte Containerbezeich-

nung aus einer Liste von 7 Containernamen ausgewählt werden. Daraufhin zeigte ein sich von

links nach rechts füllender Balken mit der gleichen Verzögerung wie bei der Temperaturan-

zeige (ca. 2 Sekunden) den Fortschritt der Druckmessung an. Die eigentliche Druckmessung

wurde präsentiert in Form einer Nadel, die sich entweder im grünen Bereich (Druck ist im

Toleranzbereich) oder im roten Bereich (der Druck ist zu hoch) befand (siehe Abbildung 16).

Zum Bearbeiten oder Ignorieren des Drucks wurden die entsprechenden Verhaltensoptionen

angeboten wie zur Behandlung der Temperatur (Klick auf „weiter“, „Druck bearbeiten“ oder

Karteireiter „Temperatur“).

9.3 Methode 97

Abbildung 16: Prüfmenü in der erweiterten Form von M-TOPS 2

9.3 Methode

9.3.1 Stichprobe

Die Stichprobe bestand aus insgesamt 60 Personen, die zufällig den Bedingungen zugeordnet

wurden. Von diesen waren 40 Frauen und 20 Männer. Der Altersrange reichte von 19 bis 38

Jahren mit einem Mittelwert von 25,98 (SD = 3,68).

9.3.2 Versuchsplan

Der Versuchsplan von Studie 3 entsprach dem Versuchsplan von Studie 1 (siehe Kapitel

7.3.2). Wie auch in Studie 2 wurde lediglich der Messwiederholungsfaktor „Block“ entfernt,

so dass ein 5-fach gestuftes, einfaktorielles Design (Faktor Basisrate bzw. PPV und NPV)

vorlag.

98 Experiment 3: Einfluss eines erhöhten Prüfaufwandes

9.3.3 Ablauf

Der Ablauf von Studie 3 entsprach insofern dem Ablauf von Studie 2, dass die Probanden im

Gegensatz zu Studie 1 nur einen Experimental-Durchgang durchliefen.

9.4 Abhängige Variablen

In Studie 3 wurden die gleichen abhängigen Variablen erfasst wie in Studie 1.

Eine Besonderheit ergab sich bei der Berechnung des Prüfanteils, da dieser unterteilt werden

kann in vollständiges Prüfen (also das Prüfen beider Parameter, welches unumgänglich ist um

einen fehlerhaften Containerinhalt auszuschließen bzw. zu diagnostizieren) und unvollständi-

ges Prüfen (das unzureichende Prüfen nur eines Parameters). Letzteres Verhalten ist in dem

Sinne irrational, dass es dem Probanden keine zuverlässige Information über den tatsächli-

chen Zustand des Endproduktes liefert, da sich der ungeprüfte Parameter im kritischen Be-

reich befinden könnte. Eine gesonderte Analyse der Häufigkeit dieses unvollständigen Prü-

fens ergab, dass dieses Verhalten über die Bedingungen hinweg bei 0 lag (alle Werte unter

1% aller Verhaltensanteile). Deshalb beziehen sich die Analysen im folgenden Ergebnisbe-

richt lediglich auf das vollständige Prüfen. Die Definition des vollständigen Prüfens richtet

sich dabei nach der Definition des einfachen Prüfens (siehe Kapitel 7.4.3) mit dem Zusatz,

dass im Prüfmenü sowohl die Druck- als auch die Temperaturmessung gestartet worden sein

muss.

Zusätzlich zu den abhängigen Variablen aus Studie 1 wurden die Ergebnisse der subjektiven

Beanspruchung, die im Rahmen des NASA-TLX erfasst wurden, aus Studie 3 mit denen aus

Studie 1 verglichen. Da die Manipulation in Studie 3 darauf abzielte, den den Prüfprozess

schwieriger und langwieriger zu gestalten, wurde durch den Vergleich zwischen den zwei

Studien kontrolliert, ob sich der höhere Aufwand auch in der subjektiven Bewertung wieder-

finden ließ.

9.5 Ergebnisse 99

9.5 Ergebnisse

9.5.1 Manipulations-Check

Geschätzte PPV und NPV. Die Varianzanalyse ergab einen signifikanten Effekt der tatsäch-

lichen PPV auf die geschätzte PPV (F(4,55) = 33,97, p < .001). Tabelle 6 gibt eine Übersicht

über die Mittelwerte der jeweiligen Schätzungen. In Bonferroni-korrigierten Einzelvergleiche

konnten lediglich für die Bedingungen 0.5 und 0.7 sowie 0.9, und 0.7 und 0.9 keine signifi-

kanten Unterschiede festgestellt werden (alle anderen p < .01). Auch bei der NPV führte die

Manipulation der tatsächlichen Wahrscheinlichkeiten zu signifikant unterschiedlichen Ein-

schätzungen (F(4,55) = 16,46, p < .001). Dabei unterschied sich Bedingung 0.41 signifikant

von allen anderen Bedingungen (alle p < .01). Auch die Einschätzungen der Bedingungen

0.72 und 0.98 (p = .014), sowie die der Bedingungen 0.86 und 0.98 (p = .005) unterschieden

sich signifikant.

tatsächliche PPV geschätzte PPV tatsächliche NPV geschätzte NPV

.1 M = 0.2

SD = 0.09 .98 M = 0.93

SD = 0.64

.3 M = 0.42

SD = 0.13 .93 M = 0.84

SD = 0.1

.5 M = 0.65

SD = 0.17 .86 M = 0.7

SD = 0.16

.7 M = 0.74

SD = 0.12 .72 M = 0.73

SD = 0.11

.9 M = 0.79

SD = 0.2 .41 M = 0.47

SD = 0.25

Tabelle 6: Mittelwerte und Standardabweichungen der geschätzten PPV und NPV

Subjektive Beanspruchung. Um zu kontrollieren, ob die Erhöhung des Prüfaufwandes in

Studie 3 im Vergleich zu Studie 1 eine Steigerung der subjektiven Beanspruchung bewirkt,

wurde eine zweifaktorielle, multivariate Varianzanalyse mit den unabhängigen Variablen

PPV bzw. NPV und Experiment (1und 3) und den Items des NASA-TLX als abhängige

Variablen berechnet. Die Ergebnisse für die Items des NASA-TLX zeigten einen signifikan-

ten Haupteffekt des Faktors Experiment auf die Variablen „zeitliche Anforderung“ (F(1, 130)

= 9,7; p = .002), „Aufgabenausführung“ (F(1, 130) = 7,7; p = .006) und „Frustration“ (F(1,

130) = 17,8; p < .001). In Experiment 3 wurde entsprechend der Mittelwerte ein größerer

Zeitdruck, eine höhere Frustration und eine niedrigere Zufriedenheit mit der Leistung bei der

Erfüllung der Aufgaben empfunden wurde als in Experiment 1. Tabelle 7 gibt einen Über-

100 Experiment 3: Einfluss eines erhöhten Prüfaufwandes

blick über die signifikanten Mittelwertsunterschiede. Es ergaben sich weder signifikante

Unterschiede zwischen den einzelnen Bedingungen (alle F(4, 130) > 2,3, n.s.) noch gab es

eine signifikante Interaktion (alle F(4, 130) < 2, n.s.).

Experiment 1 Experiment 3

M SD M SD

Zeitdruck 14,78 3,97 16,6 2,67

Frustration 7,77 4,83 11,18 4,82

Zufriedenheit

mit Leistung 7,56 4,87 9,77 4,33

Tabelle 7: Mittelwertsunterschiede in den Studien 1 und 3 der Items Zeitdruck, Frustration

und Zufriedenheit des NASA-TLX

9.5.2 Allgemeine Leistung

Punkte. Die einfaktorielle Varianzanalyse ergab einen signifikanten Effekt der manipulierten

Basisrate auf die Gesamtpunktzahl (aufsummiert über die erreichte Punktzahl in der Überwa-

chungs- und Bestellaufgabe), F(4,55) = 5,74, p = .001. Dabei kam es zu einem kontinuierli-

chen Absinken der erreichten Punktzahl von der Bedingung 0.1 (M = 224) bis zur Bedingung

0.7 (M = 166) und einem leichten, dennoch nicht signifikanten Anstieg der erreichten Punkt-

zahl in der Bedingung 0.9 (M = 188).

Eine Übersichtstabelle zu den Mittelwerten in den jeweiligen Bedingungen und Aufgaben

findet sich in Anhang I.

Um die Leistung in der Bestellaufgabe getrennt von der Leistung in der Überwachungsaufga-

be zu erfassen wurde eine weitere Varianzanalyse mit der gleichen unabhängigen Variable

und der abhängigen Variable „Punkte in der Bestellaufgabe“ berechnet. Die Analyse ergab

keinen signifikanten Einfluss der Bedingung auf die erreichte Punktzahl (F(4,55) = 0,14, n.s.).

Die mittlere erreichte Punktzahl in der Bestellaufgabe lag bei 85 Punkten.

Im Gegenzug ergab die Varianzanalyse einen signifikanten Effekt der PPV bzw. NPV auf die

erreichte Punktzahl in der Überwachungsaufgabe (F(4,55) = 13,1, p < .001). Im Mittel er-

reichten die Probanden in dieser Aufgabe 105 Punkte.

Sensitivität. Die einfaktorielle Varianzanalyse mit der unabhängigen Variablen der variierten

PPV und NPV zeigte keinen signifikanten Einfluss auf die kombinierte Sensitivität der

Probanden und des Alarmsystems in den einzelnen Bedingungen (F(4,55) = 1,95, n.s.). Die

9.5 Ergebnisse 101

mittlere Sensitivität des Gesamtsystems über alle Bedingungen überstieg mit Md’ = 4,2 wie in

Studie 1 die Sensitivität des Alarmsystems (d’ = 1,1).

9.5.3 Leistung und Verhalten in roten Trials

Anteil an korrekten Reaktionen. Die Varianzanalyse ergab einen signifikanten Effekt für

die PPV auf den Anteil an korrekten Reaktionen an allen gezeigten Reaktionen auf einen

Alarm (F(4,55) = 2,76, p = .036). Abbildung 17 zeigt, dass der Anteil an korrekten Antworten

dabei ähnlich wie in Studie 1 von der Bedingung mit der niedrigsten PPV (0.1) von M = 96%

stetig bis zu einer PPV von 0.7 auf M = 82% abfiel und dann bei der höchsten PPV (0.9) bei

M = 85% stagnierte. Eine Mittelwertstabelle mit Standardabweichungen findet sich in An-

hang I.

Prozentualer Anteil korrekter Reaktionen

in roten und grünen Trials

100

0.1/.98 0.3/.93 0.5/.86 0.7/.72 0.9/.41

PPV /NPV

Anteil in Prozen

rote Trials

grüne Trials

Abbildung 17: Anteil an korrekt bearbeiteten Containern in roten und grünen Trials

Verhaltenstendenz. Die Varianzanalyse zeigte einen signifikanten Effekt des Einflusses der

PPV auf das Prüfverhalten (F(4,55) = 7,57; p<.001). Dabei zeigte sich ab einer PPV von 0.3

ein stetiges Abfallen des anteiligen Prüfverhaltens (informed compliance; siehe Abbildung

18). Bonferroni-Fehler-korrigierte post hoc-Tests zeigten, dass sich Bedingung 0.1 nicht

signifikant von Bedingung 0.3 unterschied. Hinsichtlich des direkten Bearbeitens (complian-

ce) zeigte sich, dass im Bereich einer PPV von 0.1- 0.5 nur auf einem äußerst geringen

Niveau (zwischen 0,01 und 0,13) bearbeitet wurde, und sich dann bei einer PPV von 0.5 eine

102 Experiment 3: Einfluss eines erhöhten Prüfaufwandes

Art cut-off fand, nach dem die compliance stark anstieg (F(4,55) = 17,81, p < .001). Das

anteilige Ignorieren von Reaktionsbehältern zeigte bei einer PPV von 0.1 seinen Höhepunkt

(M = 28%), um in allen anderen Bedingungen um den Wert von 0,1 zu schwanken. Dieses

Ergebnis wurde knapp signifikant (F(4,55) = 2,59; p = .047), die durchgeführten Einzelver-

gleiche lieferten keine signifikanten Unterschiede zwischen den einzelnen Bedingungen. Das

häufigere Ignorieren, seltenere Prüfen und kaum auftretende Bearbeiten unter der niedrigsten

PPV (0.1) entspricht also dem Muster des cry wolf-Effekts, jedoch nicht in dem Ausmaß, dass

es sich signifikant von dem Verhaltensmuster unter den höheren PPV unterschied.

Analysen auf Individualniveau ergaben, dass nur 2 bzw. 4 Probanden in den Bedingungen mit

den zwei höchsten PPV (0.9 bzw. 0.7) über 90% der Alarme direkt befolgten (compliance).

Somit sind die Mittelwerte als unbeeinflusst von extremen Strategien auf individuellem

Niveau zu betrachten. Eine Tabelle zu den deskriptiven Statistiken findet sich in Anhang I.

Prozentualer Verhaltensanteil im Sinne der compliance, informed

compliance und des cry wolf-Effekts

100

.1 .3 .5 .7 .9

PPV

Anteil in Prozen

compliance

"cry wolf"

informed compliance

Abbildung 18: Verhaltensanteile in Alarmtrials

9.5.4 Leistung und Verhalten in grünen Trials

Anteil korrekt. Die Varianzanalyse ergab auch in grünen Trials einen signifikanten Effekt

der NPV auf den Anteil an korrekten Reaktionen an allen gezeigten Reaktionen (F(4,55) =

13,27, p < .001). Wie in Experiment 1 fiel der Anteil an korrekten Reaktionen mit sinkender

NPV ab (siehe Abbildung 17). Hierbei entsprach die höchste Trefferquote in der Bedingung

mit der höchsten NPV (0.98) von M = 99% der in Experiment 1, jedoch fiel das fast lineare

9.5 Ergebnisse 103

Sinken dieser Trefferquote weiter ab als in Experiment 1, nämlich bis auf M = 74% in der

Bedingung mit der niedrigsten NPV (0.41). Alle Mittelwerte und Standardabweichungen

werden in Anhang I aufgeführt.

Verhaltenstendenz. Die Varianzanalyse zeigte einen signifikanten Effekt der NPV auf das

vollständige Prüfen in grünen Trials (F(4,55) = 4,14; p = .005). Der Prüfverlauf stieg fast

stetig an, wobei es zu einem Anstieg von fast 20% kam, wenn die NPV lediglich um 0.05 von

0.98 auf 0.93 sank (siehe Abbildung 19). Statistische Signifikanz in Bonferroni-korrigierten

post hoc-Tests erreichte allerdings nur der Unterschied zwischen Bedingung 0.41 und 0.98 (p

= 0.003). Auch das Ignorieren wurde signifikant von der NPV beeinflusst (F(4,55) = 9,12; p <

.001), zeigte äquivalent zum Prüfverhalten einen (wenn auch nicht statistisch signifikanten)

starken Abfall von der Bedingung 0.98 zur Bedingung 0.93, um dort bis zur nächsten NPV

von 0.86 nahezu unverändert zu bleiben und dann stark abzufallen. Dabei unterschied sich

Bedingung 0.41 außer von Bedingung 0.72 signifikant von allen anderen Bedingungen (alle p

< 0.01). Das direkte Bearbeiten von Containern in grünen Trials blieb auf einem durchweg

niedrigen Niveau und stieg lediglich in den Bedingungen mit einer NPV von 0.41 auf 20% an,

wobei die Änderungen in den verschiedenen Bedingungen knapp die Signifikanzgrenze

erreichten (F(4,55) = 2,57; p = .048).

Prozentualer Verhaltensanteil im Sinne der reliance,

informed reliance und no reliance

100

.98 .93 .86 .72 .41

NPV

Anteil in Prozen

reliance

no reliance

informed reliance

Abbildung 19: Verhaltensanteile in alarm-freien Trials

Die Analyse von extremen Antwortstrategien einzelner Probanden ergab, dass nur 2 Personen

mehr als 90% der Container in grünen Trials bei einer NPV von 0.41 direkt bearbeiteten (non-

104 Experiment 3: Einfluss eines erhöhten Prüfaufwandes

reliance). Für das Ignorieren von Containern, also das Befolgen vom Hinweis des Alarmsys-

tems (reliance) fanden sich 10 Personen in der Bedingung 0.98, 8 Personen in der Bedingung

0.93, 6 Personen in der Bedingung 0.86, 2 Personen in der Bedingung 0.72 und keine Person

in der Bedingung 0.41. Aufgrund des geringen Anteils von Personen, die eine Extrem-

Strategie im Umgang mit den Alarmen wählten (max. 16%) und der Tatsache, dass das

Ignorieren von Containern unter hohen NPV ein rationales Antwortverhalten darstellt, kann

eine Verzerrung der Mittelwerte durch extreme Antwortstrategien ausgeschlossen werden.

Anhang I enthält alle Mittelwerte und Standardabweichungen.

9.5.5 Subjektive Beanspruchung

Die a posteriori-Wahrscheinlichkeit hatte keinen Einfluss auf die Beantwortung der Skalen

des NASA-TLX. Die Probanden in den fünf unterschiedlichen Bedingungen unterschieden

sich nicht signifikant in ihrer empfundenen „geistigen Anstrengung“ (F(4, 55) = 2,4, n.s.),

„körperlichen Anstrengung“ (F(4, 55) = 0,5, n.s.), „Zeit“ (F(4, 55) = 1,7, n.s.) „Ausführung“

(F(4, 55) = 0,6, n.s.), „Anstrengung“ (F(4, 55) = 0,6, n.s.), und „Frust“ (F(4, 55) = 1, n.s.).

9.6 Diskussion

In Studie 3 wurde der Effekt eines höheren Prüfaufwands auf das Prüfverhalten untersucht.

Dabei wurde in Anlehnung an die Ergebnisse von Bliss & Dunn (2000) erwartet, dass der cry

wolf-Effekt in der Bedingung mit der niedrigsten PPV auftaucht und sich das Prüfverhalten

einem umgekehrt u-förmigen Verlauf anpasst.

Der Manipulations-Check zeigte, dass die Probanden die Variation in der PPV und der NPV

durch die Interaktion mit dem System wahrgenommen hatten und die Schätzungen die Werte

gut widerspiegelten. Dabei zeigte sich, wie auch schon in der Ausgangsstudie und Studie 1,

dass extrem hohe Werte unter- und extrem niedrige Werte überschätzt wurden. Ein Effekt

dieser Schätzung auf das Verhalten ist fraglich, da den Probanden auch in Studie 3 die tat-

sächliche Verteilung der Reaktionstypen vor Beginn des Experimental-Blocks vorgelegt

wurde.

Im Gegensatz zu Studie 1 konnte kein signifikanter Einfluss der PPV bzw. NPV auf die

Sensitivität des Mensch-Maschine-Systems gefunden werden. Die mittlere Sensitivität lag

9.6 Diskussion 105

dabei mit Md’ = 4.2 leicht unter der in Experiment 1 (Md’ = 5.5). Das Ausbleiben eines signi-

fikanten Unterschiedes lässt sich durch die allgemein niedrigere Prüfrate in Studie 3 erklären,

die sowohl in grünen als auch in roten Trials ein Abflachen des Verlaufs und somit eine

Verringerung der Unterschiede zwischen den Bedingungen bewirkte.

Wie in Studie 1 hatte die Variation der PPV bzw. NPV keinen Einfluss auf die erreichte

Punktzahl in der Bestellaufgabe, wie es bei einer effizienten Ressourcenaufteilung zwischen

den zwei Aufgaben erwartet worden wäre. Dieses Ergebnis lässt sich vor allem durch die,

wenn auch gesunkene, immer noch hohe Gesamt-Prüfrate in roten und grünen Trials erklären.

Der cry wolf-Effekt hätte in der Bedingung mit der niedrigsten PPV (0.1) dazu geführt, dass

die durch das Ignorieren der Überwachungsaufgabe frei gewordenen Ressourcen in die

Bestellaufgabe hätten investiert werden können. Bei einer PPV von 0.9 wurde zwar weniger

häufig geprüft als in den anderen Bedingungen, allerdings wurde in der zugehörigen NPV von

0.41 auf einem hohen Niveau geprüft, so dass sich der Prüfanteil im Mittel wieder an den in

den anderen Bedingungen anglich. In Studie 3 wurden in der Überwachungsaufgabe deutlich

weniger Punkte erzielt (M = 105) als in Studie 1 (M = 225). Dieses Ergebnis legt nahe, dass in

Studie 3 aufgrund des erhöhten zeitlichen Aufwandes der Prüfprozedur weniger Container

bearbeitet wurden als in Studie 1.

In der Überwachungsaufgabe wiederum konnte ein signifikanter Einfluss der a posteriori-

Wahrscheinlichkeit auf die erreichte Punktzahl festgestellt werden, die mit steigender PPV

absank. Um das signifikante Absinken der erreichten Punktzahl in der Überwachungsaufgabe

aufgeschlüsselt in rote und grüne Trials zu analysieren, wird im Folgenden der Anteil an

korrekten Reaktionen in Alarmtrials diskutiert.

In Alarmtrials wurde der Anteil an korrekten Reaktionen mit steigender PPV kleiner. Dieses

Muster entspricht dem von Studie 1 und kann auch hier damit erklärt werden, dass das Prüfen

der Rohdaten in den Bedingungen 0.1 – 0.7 dominierte und mit steigender PPV absank. Im

Unterschied zu den Ergebnissen aus Studie 1 fand der Anteil an korrekten Reaktionen aller-

dings bereits in der Bedingung 0.7 seinen Tiefpunkt, um dann nahezu zu stagnieren. Betrach-

tet man das dominante Verhalten in den Bedingungen 0.7 und 0.9 wird deutlich, dass die

compliance bereits in der Bedingung 0.7 stark anstieg und nur knapp unter der informed

compliance lag. Der erhöhte Prüfaufwand in Studie 3 führte im Vergleich zu Studie 1 also zu

Änderungen im Verhaltensmuster in Bedingung 0.7, in der die informed compliance in Studie

1 noch klar dominierte. In Bedingung 0.9 war dann wieder klar die compliance das am häu-

106 Experiment 3: Einfluss eines erhöhten Prüfaufwandes

figsten gezeigte Verhalten. Das leicht modifizierte Reaktionsmuster beeinflusste also auch in

Studie 3 die Leistungsparameter in Alarmtrials und soll im Folgenden näher betrachtet wer-

den.

Selbst unter der Voraussetzung eines erhöhten Prüfaufwandes passten die Probanden ihr

Antwortverhalten auf Alarme keiner Ressourcen sparenden Strategie wie dem cry wolf-Effekt

im unteren Bereich der PPV an, sondern überprüften die Validität der Aussagen des Alarm-

systems weiterhin auf einem unerwartet hohen Niveau. Der Punkt, an dem am häufigsten

geprüft wurde, fand sich dabei bei einer PPV von 0.3 statt wie erwartet bei einer PPV von 0.5.

Auch wenn das Prüfverhalten ab einer PPV von 0.3 auf beiden Seiten stetig abfiel, entspricht

das gefundene Muster somit nicht exakt dem in Hypothese H 1.1 erwarteten umgekehrt u-

förmigen Verlauf, zeigt aber doch zumindest eine Tendenz in diese Richtung. So zeigt die

Bedingung mit der niedrigsten Zuverlässigkeit (PPV = 0.1) ein Absinken der Prüfrate im

Vergleich zur Bedingung 0.3. Dieser leichte, nicht signifikante Einbruch des Prüfverhaltens

bei einer PPV von 0.1 mag zwar auf den cry wolf-Effekt hinweisen, allerdings dominierte in

dieser Bedingung der Anteil geprüfter Container den Anteil an ignorierten Containern, so dass

nur von einer leichten Tendenz gesprochen werden kann. Die Hypothese H 1.3 (der cry wolf-

Effekt tritt in der Bedingung mit der niedrigsten PPV auf) muss folglich verworfen werden.

Auch wenn Hypothese H 1.1 (das Prüfverhalten nähert sich unter erhöhtem Prüfaufwand

einem umgekehrt u-förmigen Verlauf an) nicht bestätigt werden kann, fand sich im oberen

Bereich der PPV eine deutlichere Annäherung des Prüfverhaltens an den umgekehrt u-

förmigen Verlauf des Prüfverhaltens als im unteren Bereich. Während das Prüfverhalten in

Studie 1 bis zu einer PPV von 0.7 auf einem ähnlich hohen Niveau blieb, um dann nach dem

cut-off bei 0.75 (siehe Studie 2) stark abzufallen, fand sich in Studie 3 ein fast lineares

Abfallen des Prüfverhaltens ab einer PPV von 0.5 und ein starker Anstieg der compliance von

der Bedingung 0.5 auf die Bedingung 0.7. Entsprechend bestätigte die Dominanz der compli-

ance in der Bedingung 0.9 erneut die Hypothese H 1.2. Dieser Vergleich zeigt, dass sich der

Punkt der PPV, ab dem die compliance an Bedeutung gewinnt, nach unten verschiebt, wenn

der Prüfaufwand eine strenge Verteilungspolitik zeitlicher Ressourcen einfordert. Im Bereich

unterhalb einer PPV von 0.5 hingegen ergibt sich ein gegensätzliches Bild: während die

informed compliance bis zu einer PPV von 0.3 erstmal zunimmt, bewirkte erst eine deutlich

geringe PPV von 0.1 eine Abnahme in der Prüfrate und eine Zunahme des Anteils an ignorier-

ten Containern. Im unteren Bereich der PPV (0.3) wird eine quantitativ gleiche Rest-

Unsicherheit also weniger toleriert als im oberen Bereich der PPV (0.7).

9.6 Diskussion 107

Die Ergebnisse von Studie 3 replizieren das Muster der dominierenden Verhaltensweisen aus

Studie 1, auch wenn sie erste, nicht-signifikante Tendenzen zu einer Anpassung des Prüfver-

haltens an einen umgekehrt u-förmigen Verlauf in oberen und sehr niedrigen Bereichen der

PPV offenbaren. Zusammenfassend kann für rote Trials festgehalten werden, dass der hoch

verantwortungsvolle Umgang mit Alarmen aus Studie 1 kein experimentelles Artefakt ist,

welches durch eine zu einfache Prüf-Prozedur entstand, die zu wenig Zeit und Ressourcen in

Anspruch nahm, sondern ein bewusstes und intendiertes Verhalten. Diese Annahme wird

noch gestützt durch den Befund, dass die Möglichkeit, die Unsicherheit hinsichtlich der

Validität der Hinweise des Alarmsystems zu reduzieren immer zu 100% genutzt wurde, das

heißt, dass jeder Prüfprozess komplett durchgeführt wurde und es zu keiner Strategie kam, bei

der nur ein Parameter überprüft und die Unsicherheit so nur zu 50% reduziert wurde, um Zeit

zu sparen. Die Priorität der Probanden lag also explizit auf Genauigkeit, die dem Geschwin-

digkeits-Aspekt vorangestellt wurde.

In alarm-freien Trials kam es zu einem kontinuierlichen Absinken des Anteils an korrekten

Reaktionen mit der reliance. Hypothese H 2.2 (die reliance ist bei einer NPV von 0.98 am

höchsten) konnte somit bestätigt werden. Generell kann festgehalten werden, dass sich der

Verlauf der reliance in Studie 3 der tatsächlichen NPV annäherte und somit eine Tendenz zum

probability matching aufzeigte (Bliss, Gilson & Deaton, 1995). Dabei kam es bei einer NPV

von 0.93 wie in Studie 1 zu einer Art „Über-Anpassung“, indem die reliance unverhältnismä-

ßig stark absank und die informed reliance entsprechend anstieg. Als Ursache für den starken

Verhaltenseffekt dieser äußerst geringen Variation der NPV wird wie in Studie 1 angenom-

men, dass der einzige miss in Bedingung 0.98 nicht wahrgenommen bzw. bewusst als ver-

nachlässigbar eingestuft wurde. Die vier misses in Bedingung 0.93 schienen hingegen bereits

so relevant, dass sie das Verhalten in Richtung eines erhöhten Prüfanteils beeinflussten. Die

Anpassung der reliance an die NPV verdient besondere Beachtung, da diese nicht wie die

PPV in äquidistanten Stufen variierte, sondern feinste Änderungen in den oberen NPV sowie

stärkere Abfälle mit sinkender NPV implizierte, welche im Verhalten erstaunlich gut wider-

gespiegelt wurden. Das Prüfverhalten stieg mit sinkender NPV an und zeigte bei der NPV von

0.41 erwartungskonform ihren Höhepunkt, so dass Hypothese H 2.1 bestätigt werden kann.

Im unteren Bereich der NPV stieg die non-reliance in den Bedingung 0.72 und 0.41 unerwar-

tet auf 19% an. Hypothese H 2.3 (die non-reliance befindet sich über alle Bedingungen

hinweg auf einem äußerst niedrigen Niveau) kann demnach nicht bestätigt werden.

108 Experiment 3: Einfluss eines erhöhten Prüfaufwandes

Vergleicht man die Reaktionsmuster aus Studie 3 mit denen aus Studie 1 fällt auf, dass sich in

den oberen Bereichen der PPV und der NPV in beiden Studien jeweils ein ähnliches Bild

ergibt. Der erhöhte Prüfaufwand in Studie 3 bewirkte jedoch zusätzlich eine Änderung des

Verhaltens auch in den unteren Bereichen der PPV und der NPV, das vom Verhaltensmuster

in Studie 1 abwich. So sank der Anteil an geprüften Containern in Alarmtrials bei einer PPV

von 0.1 leicht ab und der Anteil an ignorierten Containern stieg entsprechend an. Auch in

grünen Trials zeigte sich in den unteren Bereichen der NPV insofern ein Effekt, als sich der

Punkt, ab dem die reliance dominierte, von einer NPV ab 0.86 auf eine NPV ab 0.72 senkte.

In der Bedingung mit der niedrigsten NPV wurden außerdem immerhin 19% aller Container

im Sinne der non-reliance bearbeitet. Erhöhte Kosten des Prüfprozesses scheinen also zu einer

Anpassung des Verhaltens in Form einer effizienteren, ressourcen-sparenden Strategie, auch

in unteren Bereichen der PPV und der NPV, zu führen. Dabei wurde die Tendenz der Proban-

den sichtbar, ihr Verhalten in grünen Trials an eine probability matching-Strategie anzupassen

und in Alarmtrials an einen umgekehrt u-förmigen Verlauf. Dabei gelang die Anpassung des

Verhaltens in alarm-freien Trials besser als in Alarmtrials, in denen unverändert von Studie 1

die informed compliance in den Bedingungen 0.1 – 0.7 das am häufigsten gezeigte Verhalten

war und die compliance erst bei einer PPV von 0.9 dominierte.

Zusammenfassend unterstützt der Vergleich der Anpassungsgüte des Verhaltens in grünen

Trials an eine probability matching-Strategie und der immer noch überhöhten Prüfrate in

roten Trials erneut die Unabhängigkeit der Konzepte der reliance und compliance (Meyer,

2004). Eine Erklärung für die sensiblere Anpassung des Verhaltens an die NPV könnte sein,

dass unter erhöhtem Prüfaufwand Ressourcen primär von alarm-freien Trials abgezogen

werden, um das Verhalten an eine möglichst zeit-effiziente Strategie angepasst werden muss.

In Alarmtrials würde ein ignorierter wahrer Alarm zu einem allein durch die Reaktion des

Probanden verursachten miss führen. In grünen Trials hingegen ist es subjektiv einfacher, die

Verantwortung für einen verursachten miss dem Alarmsystem zuzuweisen, wenn dieses auf

der ersten Entscheidungsstufe des Modells von Allendoerfer, Pai & Friedman-Berg (2008)

durch einen grünen Hinweis einen fehler-freien Zustand signalisiert. Selbst bei einem gerin-

gen Level der NPV von 0.41 kam es in diesem Zusammenhang nicht zu einem Überprüfen

des Hinweises, sondern zu einem Anstieg der reliance. Diese Verhaltensweise des direkten

Bearbeitens vermied also die zeitaufwendige Prüfprozedur, die bei vergleichbar hohen PPV

(0.3 und 0.5) gezeigt wurde.

9.6 Diskussion 109

PPV und NPV scheinen also verhaltenswirksame Faktoren zu sein, die spezifische Effekte auf

die compliance und die reliance haben. Dieser Befund stützt und erweitert die Erkenntnisse

von Getty et al. (1995), die den lediglich Einfluss der PPV auf das Verhalten beobachteten.

Insbesondere scheinen hohe a posteriori-Wahrscheinlichkeiten einen differenzierteren Ein-

fluss zu haben als niedrige, da sich die Prüfrate bei Vorhersagewerten über 0.7 sowohl in

grünen als auch in roten Trials an die a posteriori-Wahrscheinlichkeit anpasst. Demgegenüber

weisen überhöhte Prüfraten bei niedrigen Vorhersagewerten auf das Bedürfnis hin, Unsicher-

heit bezüglich der Validität des Hinweises zu reduzieren. Ein erhöhter Prüfaufwand scheint

dabei die Anpassung der informed compliance an einen umgekehrt u-förmigen Verlauf des

Prüfverhaltens und eine Anpassung der informed reliance an eine probability matching-

Strategie zu unterstützen.

Da der Prüfaufwand nicht dem Sinne einer workload-Erhöhung, sondern eher der Erhöhung

des zeitlichen Aufwands entspricht, wurde Studie 4 in Anlehnung an die Studie von Bliss &

Dunn (2000) durchgeführt. Bliss & Dunn (2000) manipulierten nicht nur den workload

innerhalb der Überwachungsaufgabe, sondern erhöhten ihn in einer anderen Bedingung auch

durch die Erweiterung der MAT-Battery um eine Nebenaufgabe. In Studie 4 wird untersucht,

ob sich diese Tendenz durch Erhöhung der mentalen Beanspruchung durch die Erweiterung

des Paradigmas um eine dritte Aufgabe noch verstärken lässt.

110 Experiment 4: Einfluss eines erhöhten workloads

10 Experiment 4: Einfluss eines erhöhten workloads

Die Kontrastierung der Ergebnisse der Ausgangsstudie und der Studien 1 und 3 konnte

zeigen, dass die Einführung einer Prüfoption den cry wolf-Effekt eliminierte, der ohne die

Möglichkeit, die Rohdaten zu überprüfen bei niedrigen PPV gefunden wurde. In Studie 3

wurde der Prüfaufwand erhöht, in dem der Prüfprozess innerhalb der Überwachungsaufgabe

zeitaufwendiger gestaltet wurde. Diese Manipulation bewirkte zwar eine längere Bearbeitung

der Überwachungsaufgabe, jedoch keine Erhöhung des workloads, da die erforderlichen

Ressourcen für den Prüfprozess sukzessive eingesetzt wurden. In Studie 4 wurde die Erhö-

hung der subjektiven mentalen Beanspruchung über die Erweiterung des Doppelaufgaben-

Paradigmas auf ein Dreifachaufgaben-Paradigma operationalisiert und deren Effekte auf das

Verhalten, insbesondere auf das Auftauchen des cry wolf-Effekts, analysiert.

Die Datenerhebung zu Studie 4 erfolgte an der Technischen Universität Berlin im Rahmen

einer von der Autorin dieser Arbeit betreuten Masterarbeit (Schmuntzsch, 2010). Ein Teil der

erhobenen Daten wurde demnach bereits für die Masterarbeit herangezogen, die hier berichte-

ten Fragestellungen umfassen in Teilen jene der Masterarbeit, gehen jedoch deutlich über

diese hinaus.

10.1 Forschungsfrage und Hypothesen

Nachdem die Ergebnisse von Studie 1 eine irrational hohe Prüfrate gezeigt haben, die trotz

erhöhten, kostspieligeren Prüfaufwands in Studie 3 bestehen blieb, stellt sich nun die Frage,

wie sich eine Erhöhung des workloads auf dieses „over-checking“ und das Auftauchen des

cry wolf-Effekts auswirkt. Bliss & Dunn (2000) variierten in ihrer Untersuchung den worklo-

ad in der Untersuchungsumgebung MAT-Battery, indem sie zur Überwachungsaufgabe erst

eine und schließlich eine zweite Nebenaufgabe einführten (siehe Kapitel 2.5.2). Die Ergebnis-

se ergaben, dass der Anteil an ignorierten Alarmen mit der Anzahl der Nebenaufgaben, und

damit mit der Höhe des workloads, stieg. Die Tendenz zum cry wolf-Effekt wird auch in

anderen Studien bestätigt, so fanden beispielsweise Dixon & Wickens (2006) in einem Mehr-

fachaufgaben-Paradigma unter erhöhtem workload in einer Nebenaufgaben verlangsamte bis

ausbleibende Reaktionen auf einen Alarm. Bliss (2003a) fand bei der Analyse der Daten

10.2 Die Experimentalumgebung M-TOPS 2 111

unterschiedlicher Flugunfälle einen hohen Anteil an falschen Alarmen in Cockpits und eine

entsprechend hohe Neigung von Piloten unter hoher Arbeitsbelastung, diese zu ignorieren.

In dieser Studie wird der workload durch Hinzunahme einer zweiten Nebenaufgabe (neben

der eigentlichen Überwachungsaufgabe) erhöht, so dass das Doppelaufgaben-Paradigma zu

einem Mehrfachaufgaben-Paradigma ausgeweitet wird. In Anlehnung an die Hypothese aus

Studie 1 und an die Studie von Bliss & Dunn (2000), die zeigt, dass die Reaktionsbereitschaft

auf einen hohen Anteil falscher Alarme unter hohem workload durch Nebenaufgaben dras-

tisch abnimmt, ergeben sich für Studie 4 die gleichen Hypothesen wie für Studie 1 und 3.

Hypothesenblock 1: rote Trials

H 1.1: die informed compliance ist am höchsten bei PPV im mittleren Bereich und am nied-

rigsten bei hohen und niedrigen PPV (und folgt somit einem umgekehrt u-förmigen

Verlauf)

H 1.2: die compliance ist am höchsten bei der höchsten PPV (0.9)

H 1.3: der cry wolf-Effekt tritt bei der niedrigsten PPV (0.1) auf

Hypothesenblock 2: grüne Trials

H 2.1: die reliance passt sich im Sinne eines probability matchings an die NPV an

H 2.2: die informed reliance entwickelt sich gegenläufig zur reliance bzw. zur NPV

H 2.3: die non-reliance befindet sich über alle Bedingungen hinweg auf einem äußerst niedri-

gen Niveau

Aus diesen beiden Hypothesenblöcken ergeben sich im untersuchten Basisraten-Bereich

unterschiedliche erwartete Verläufe der reliance und compliance.

10.2 Die Experimentalumgebung M-TOPS 2

In Studie 4 wurde eine erweiterte Form der Simulation verwendet, die in Studien 1 und 2

verwendet wurde. Die Bestellaufgabe und die Überwachungsaufgabe blieben hierbei unver-

ändert, jedoch wurde eine dritte Aufgabe (eine Tankfüllaufgabe) hinzugefügt, die parallel zu

den beiden anderen Aufgaben bearbeitet werden musste. Diese Tankaufgabe befand sich im

rechten oberen Viertel der Simulation. Die Tankfüllaufgabe wurde den Probanden in der

112 Experiment 4: Einfluss eines erhöhten workloads

Instruktion nach den detaillierten Erklärungen zur Bestellaufgabe erläutert und wurde im

Anschluss 120 Sekunden lang geübt. Die Probanden wurden instruiert, das Wasser in zwei

Kühlwassertanks regelmäßig auszutauschen, um eine zu starke Überhitzung und somit eine

Gefährdung der Produktionssicherheit zu verhindern. In zwei Tanks befindet sich Wasser,

welches durch eine Grünfärbung signalisiert, ausgewechselt werden zu müssen. Über und

unter den Tanks befinden sich jeweils ein Zu- und ein Ablaufventil, wobei jeweils immer nur

ein Zu- und ein Ablaufventil gleichzeitig geöffnet werden darf. Um also einen kompletten

Wasserwechsel in beiden Tanks so schnell wie möglich zu gewährleisten, wird erst Wasser

aus einem Tank abgelassen, dann dieser gefüllt und der andere Tank gleichzeitig entleert. Ist

ein Tank mit frischem Wasser gefüllt, färbt sich dessen Inhalt blau. Ein kompletter Befüllzyk-

lus dauert 40 Sekunden.

Payoff-Struktur. Die Punktevergabe für die Bestell- und die Überwachungsaufgabe blieb

unverändert. Die Tankfüllaufgabe sollte eine weitere Nebenaufgabe neben der Überwa-

chungsaufgabe darstellen und genau wie die Bestellaufgabe gleichwertig mit den anderen

Aufgaben behandelt werden. Da die vorhergehenden Studien zeigten, dass es in einem Expe-

rimentaldurchgang von 800 Sekunden möglich ist, ungefähr 100 Bestellaufgaben zu lösen, in

diesen 800 Sekunden jedoch nur 20 komplette Füllzyklen zu bewältigen sind (40 Sekunden

mal 20), wurde die Tankfüllaufgabe mit 7,5 Punkten pro Befüllzyklus (5 mal 1,5 Punkte)

vergütet.

10.3 Methode

10.3.1 Stichprobe

Insgesamt nahmen 60 Probanden an der Untersuchung teil. Die Stichprobe bestand aus 35

Frauen und 25 Männern. Das Durchschnittsalter betrug 25,97 Jahre (SD = 4,32) mit einem

Range von 20 - 43 Jahren.

10.3.2 Versuchsplan

Der Versuchsplan entsprach dem Design von Studie 2 und 3 (einfaktorielles, fünffach gestuf-

tes Design).

10.4 Abhängige Variablen 113

10.3.3 Ablauf

Der Ablauf der Studie entsprach weitestgehend dem der vorangegangenen Studien. Ganz am

Ende des Experiments wurde zusätzlich nach der Beliebtheit der drei Aufgaben gefragt.

10.4 Abhängige Variablen

In Studie 4 wurden die gleichen abhängigen Variablen erfasst wie in Studie 3.

10.5 Ergebnisse

10.5.1 Manipulations-Check

Geschätzte PPV und NPV. Die Varianzanalyse ergab einen signifikanten Einfluss der

manipulierten Bedingungen auf die Einschätzung der PPV (F(4,55) = 26,93, p < .001). Tabel-

le 8 gibt eine Übersicht über die geschätzten Mittelwerte und Standardabweichungen. Alpha-

Fehler-korrigierte Einzelvergleiche zeigten, dass sich einzig die Schätzungen der Bedingun-

gen 0.3 und 0.5, 0.5 und 0.7 sowie 0.7 und 0.9 nicht signifikant voneinander unterschieden.

Alle anderen Bedingungen unterschieden sich signifikant voneinander (alle p  .01).

Auch die Variation der NPV beeinflusste deren Schätzung signifikant (F(4,55) = 12,8, p <

.001; siehe Tabelle 8). Die durchgeführten Einzelvergleiche zeigten signifikante Unterschiede

für die Bedingungen 0.41 und 0.93 (p = .006), 0.41 und 0.98 (p < .001), 0.72 und 0.98 (p <

.001), 0.86 und 0.93 (p = .041) sowie .86 und .98 (p < .001). Auffällig an diesem Befund ist,

dass im oberen Bereich der NPV (0.86, 0.93 und 0.98), in dem sich die NPV nur subtil ändert,

weitaus größere Unterschiede wahrgenommen werden als bei den niedrigeren NPV, die sich

zunehmend deutlicher voneinander unterscheiden. Diese (0.41, 0.72 und 0.86) wurden subjek-

tiv als fast gleichwertig wahrgenommen. Dieses Muster repliziert die Befunde des Schätzfra-

gebogens in Studie 1.

114 Experiment 4: Einfluss eines erhöhten workloads

tatsächliche PPV geschätzte PPV tatsächliche NPV geschätzte NPV

.1 M = 0.23

SD = 0.19 .98 M = 0.93

SD = 0.09

.3 M = 0.42

SD = 0.18 .93 M = 0.79

SD = 0.12

.5 M = 0.59

SD = 0.11 .86 M = 0.62

SD = 0.12

.7 M = 0.68

SD = 0.04 .72 M = 0.64

SD = 0.11

.9 M = 0.79

SD = 0.02 .41 M = 0.59

SD = 0.15

Tabelle 8: Mittelwerte und Standardabweichungen der geschätzten PPV und NPV

Subjektive Beanspruchung. Um zu kontrollieren, ob die Erweiterung des Paradigmas um

eine dritte Aufgabe in Studie 4 im Vergleich zu Studie 1 eine Steigerung der subjektiven

Beanspruchung bewirkt, wurde eine zweifaktorielle, multivariate Varianzanalyse mit den

unabhängigen Variablen PPV bzw. NPV und Experiment (1und 4) und den Items des NASA-

TLX als abhängige Variablen berechnet. Tabelle 9 gibt einen Überblick über die Mittelwerte

und Standardabweichungen in den beiden Studien. Die Analyse ergab einen signifikanten

Haupteffekt des Faktors Experiment auf die Items „Zeitliche Anforderung“ (F(1, 130) = 4,6; p

= .033), „Aufgabenausführung“ (F(1, 130) = 11,2; p = .001) und „Frustration“ (F(1, 130) =

9,3; p < .003). Tabelle 8 gibt einen Überblick über die signifikanten Mittelwertsunterschiede.

Die Manipulation der PPV bzw. NPV beeinflusste lediglich die Bewertung der „Körperlichen

Anforderungen“ signifikant (F(4, 130) = 2,6, p = .038; alle anderen F < 1,9, n.s.). Es ergab

sich keine signifikante Interaktion aus Bedingung und Experiment (alle F(4, 130) < 1,2, n.s.).

Experiment 1 Experiment 4

M SD M SD

Zeitdruck 14,78 3,97 16,1 3,15

Frustration 7,77 4,83 10,32 5,17

Zufriedenheit

mit Leistung 7,56 4,87 10,13 4,02

Tabelle 9: Mittelwertsunterschiede zwischen den Studien 1 und 4 der Items Zeitdruck,

Frustration und Zufriedenheit des NASA-TLX

10.5.2 Allgemeine Leistung

Punkte. Die einfaktorielle Varianzanalyse ergab einen signifikanten Effekt der manipulierten

Basisrate auf die Gesamtpunktzahl (aufsummiert über die erreichte Punktzahl in der Überwa-

10.5 Ergebnisse 115

chungs- Tankfüll- und Bestellaufgabe), F(4,55) = 5,04 p = .002. Die höchste Punktzahl wurde

dabei in der Bedingung 0.1 (M = 316) erreicht.

Um die Leistungen in den einzelnen Aufgaben isoliert voneinander zu erfassen wurden

weitere Varianzanalysen mit den jeweils abhängigen Variablen „Punkte in der Bestellaufga-

be“, „Punkte in der Überwachungsaufgabe“ und „Punkte in der Tankfüllaufgabe“ berechnet.

Die Varianzanalyse zeigte einen signifikanten Einfluss der Bedingung auf die erreichte

Punktzahl in der Überwachungsaufgabe (F(4,55) = 12,68, p < .001). Für die erreichte Punkt-

zahl in der Bestellaufgabe und der Tankfüllaufgabe ergaben die Analysen keine signifikanten

Effekte (F(4,55) = 1,65, n.s. und F(4,55) = 0,89, n.s).

Im Mittel erreichten die Probanden über die Bedingungen hinweg in der Bestellaufgabe 75

Punkte, in der Überwachungsaufgabe 102 Punkte und in der Tankfüllaufgabe 88 Punkte. Eine

Übersichtstabelle zu den Mittelwerten in den einzelnen Bedingungen befindet sich in Anhang

Sensitivität. Die einfaktorielle Varianzanalyse zeigte keinen signifikanten Einfluss der

variierenden PPV und NPV auf die Sensitivität des Gesamtsystems (F(4,55) = 2,2; n.s.). Die

mittlere Sensitivität des Mensch-Maschine-Systems überstieg mit Md’ = 4 die des Alarmsys-

tems von d’ = 1.1.

10.5.3 Leistung und Verhalten in roten Trials

Anteil korrekter Trials. Die Varianzanalyse ergab einen signifikanten Effekt der PPV auf

den Anteil an korrekten Reaktionen auf alle Reaktionscontainer (F (4,55) = 6,93; p < .001).

Abbildung 20 zeigt, dass die Treffer-Rate wie schon in Studien 1 und 3 mit steigender

Zuverlässigkeit der Alarme fast linear von M = 94% bei einer PPV von 0.1 bis auf M = 70%

bei einer PPV von 0.7 sank und bei der höchsten PPV-Stufe (0.9) wieder leicht anstieg auf

80% (siehe Anhang J).

Verhaltenstendenz. Die Ergebnisse der Varianzanalysen ergaben signifikante Effekte der

PPV auf alle drei Verhaltensweisen Bearbeiten (F(4,55) = 13.06; p < .001), Prüfen (F(4,55) =

5.68; p = 0.001) und Ignorieren (F(4,55) = 6.95; p < .001). Abbildung 21 gibt eine Übersicht

über den Verlauf dieser drei Reaktionsmöglichkeiten. Dabei blieb das anteilige Prüfverhalten

in den Bedingungen mit PPV von 0.1, 0.3 und 0.5 auf einem durchweg mittleren bzw. hohen

Niveau, um bei einer PPV von 0.7 stark abzusinken.

116 Experiment 4: Einfluss eines erhöhten workloads

Prozentualer Anteil korrekter Reaktionen

in roten und grünen Trials

100

0.1/.98 0.3/.93 0.5/.86 0.7/.72 0.9/.41

PPV /NPV

Anteil in Prozen

rote Trials

grüne Trials

Abbildung 20: Anteil an korrekt bearbeiteten Containern in roten und grünen Trials

Auch wenn die Signifikanz in den alpha-Fehler-korrigierten post hoc-Einzelvergleichen

verfehlt wurde, zeigt die graphische Veranschaulichung doch deutlich, dass bei einer PPV von

0.1 deutlich weniger häufig geprüft wurde (45%) als bei einer PPV von 0.3 (75%). Das

anteilige Ignorieren der Alarme zeigt insofern einen auffälligen Verlauf, dass es in der 0.1

Bedingung signifikant häufiger gezeigt wurde (55%) als in den anderen vier Bedingungen (im

Mittel 20%), die sich untereinander nicht signifikant voneinander unterschieden. Im Gegen-

zug stieg das direkte Bearbeiten von Alarmen fast exponentiell von 0% bei einer PPV von 0.1

auf 56% und 55% in den Bedingungen 0.7 und 0.9 an. In Bedingung 0.1 ist somit das domi-

nante Verhalten mit 55% das Ignorieren von Alarmen (cry wolf-Effekt), in Bedingung 0.3

und 0.5 wird am häufigsten geprüft (75% und 52%, informed compliance) bis das direkte

Bearbeiten (compliance) in den Bedingungen 0.7 und 0.9 überwiegt (56% und 55%). Eine

Mittelwertstabelle mit Standardabweichungen befindet sich in Anhang J.

10.5 Ergebnisse 117

Prozentualer Verhaltensanteil im Sinne der compliance,

informed compliance und des cry wolf-Effekts

100

.1 .3 .5 .7 .9

PPV

Anteil in Prozen

compliance

"cry wolf"

informed compliance

Abbildung 21: Verhaltensanteile in Alarmtrials

Die Suche nach extremen Reaktionen auf Individualebene zeigten, dass 3 von den 60 Proban-

den in der Bedingung mit der niedrigsten PPV (= 0.1) mehr als 90% der Alarme ignorierten

(cry wolf-Effekt). Im Gegenzug dazu befolgten 2 Personen in der Bedingung 0.7 und 1 Person

in der Bedingung 0.9 den Alarm direkt (compliance). Der durchweg geringe Anteil gibt also

keine Verzerrung der Mittelwerte der Verhaltensanteile durch extreme responding-Strategien.

10.5.4 Leistung und Verhalten in grünen Trials

Anteil korrekter Trials. In grünen Trials stieg der Anteil an korrekten Reaktionen mit

steigender NPV signifikant an (F (4,55) = 11.96; p < .001), von einem korrekten Anteil von

98% in der Bedingung NPV= 0.98 bis zu einem Anteil von 78% in der Bedingung mit der

niedrigsten NPV (0.41; siehe Anhang J).

Verhaltenstendenz. Die Varianzanalysen für die Reaktionen auf alarm-freie Trials zeigten

signifikante Effekte für das Prüfverhalten (F(4,55) = 17.174; p < .001) und das anteilige

Ignorierverhalten (F(4,55) = 16.655; p < .001). Das anteilige Bearbeiten bewegte sich in allen

Bedingungen auf dem 0%-Niveau. Die reliance (also das Ignorieren der Container) bewegte

sich in den 0.98-Bedingungen 0.98, 0.93. 9.86 und 0.72 auf einem abnehmend hohem Niveau,

um bei einer NPV von 0.41 drastisch abzufallen (siehe Abbildung 22). Das Prüfverhalten

zeigte den entsprechend komplementären Verlauf mit einem Tiefpunkt bei einer NPV von

0.98 (2%), einer kontinuierlichen Steigerung bis 0.72 (31%) und einem Höhepunkt in der

118 Experiment 4: Einfluss eines erhöhten workloads

0.41-Bedingung mit einer Prüfrate von 66%. In dieser Bedingung änderte sich also das

dominante Verhalten vom Ignorieren der Container zum Überprüfen der Container.

Prozentualer Verhaltensanteil im Sinne der reliance,

informed reliance und no reliance

100

.98 .93 .86 .72 .41

NPV

Anteil in Prozen

reliance

no reliance

informed reliance

Abbildung 22: Verhaltensanteile in alarm-freien Trials

In grünen Trials zeigten deutlich mehr Probanden die Tendenz, Container in grünen Trials zu

ignorieren, sich also reliant mit dem Hinweis des Systems zu geben. Allerdings kam diese Art

des extreme responding nur in den Bedingungen mit den vier höchsten NPV vor und selbst

hier fiel der Anteil jeweils sehr gering aus (11 Personen bei NPV = 0.98, 7 Personen bei NPV

= 0.93, 5 Personen bei NPV = 0.86 und 4 Personen bei NPV = 0.72, keine Person bei NPV =

0.41). Da die überwiegende Verhaltenstendenz, dem grünen Licht bei hohen NPV zu vertrau-

en nur bei einem geringen Anteil an Personen (max. 18%) vorkam und außerdem keinen bias,

sondern ein rationales Verhalten darstellt, welches auch im Sine des probability matching

interpretierbar ist, kann das Verhaltensmuster auch in grünen Trials bedenkenlos interpretiert

werden. In Anhang J befindet sich eine Mittelwerttabelle mit Standardabweichungen.

10.5.5 Subjektive Beanspruchung

Die a posteriori-Wahrscheinlichkeit hatte keinen Einfluss auf die Beantwortung der Skalen

des NASA-TLX. Die Probanden in den fünf unterschiedlichen Bedingungen unterschieden

sich also nicht signifikant in ihrer empfundenen „geistigen Anstrengung“ (F(4, 55) = 1, n.s.),

10.6 Diskussion 119

„körperlichen Anstrengung“ (F(4, 55) = 2,4, n.s.), „Zeit“ (F(4, 55) = 1,1, n.s.), „Ausführung“

(F(4, 55) = 0,6, n.s.), „Anstrengung“ (F(4, 55) = 0,5, n.s.) und „Frust“ (F(4, 55) = 0,8, n.s.).

10.6 Diskussion

In Studie 4 wurde untersucht, wie sich ein erhöhter workload auf das Antwortverhalten,

insbesondere das Prüfverhalten, als Reaktion auf Hinweise mit unterschiedlichen PPV und

NPV auswirkt. Dabei wurde in Anlehnung an die Studie von Bliss & Dunn (2000) der work-

load erhöht, indem das Doppelaufgaben-Paradigma durch Hinzufügen einer Aufgabe zum

Dreifachaufgaben-Paradigma erweitert wurde. Da in Studie 4 erstmals der tatsächliche work-

load im Sinne einer simultanen Belastung gleicher Ressourcen (Wickens, 1984, 1992, 2002,

2008) durch unterschiedliche Aufgaben gesteigert wurde, wurde erwartet, dass die erforderli-

che stringente Verteilungspolitik der Ressourcen zu einer effizienten und rationalen Anpas-

sung der informed compliance an die PPV in Form eines umgekehrt u-förmigen Verlaufs

führen und der cry wolf-Effekt wieder auftauchen würde. In alarm-freien Trials wurde in

diesem Zusammenhang erwartet, dass der Verlauf der reliance einem probability matching an

die NPV folgen würde. Studie 3, in der der zeitliche Prüfaufwand erhöht wurde, gab bereits

erste Hinweise auf eine solche Tendenz, während sich die informed reliance im Sinne eines

probability matchings an die NPV anpasste.

Der Manipulations-Check ergab ein ähnliches Bild wie schon in der Ausgangsstudie, in

Studie 1 und in Studie 3. Die Probanden nahmen dabei die Variation der PPV und der NPV

wahr und neigten dazu, hohe Wahrscheinlichkeiten zu unter- und niedrige Wahrscheinlichkei-

ten zu überschätzen.

Sucht man nach Unterschieden in der allgemeinen Leistung (Sensitivität und erreichte Punkt-

zahl) zwischen Studie 4 und den Studien 1 und 3 lässt sich lediglich ein leichtes Absinken der

Sensitivität (Md’ = 4) im Vergleich zu Studie 1 (Md’ = 5.5) feststellen. Diese Minderung der

Sensitivität in Studie 4 war aufgrund des generell gesunkenen Prüfanteils über alle Bedingun-

gen hinweg, und insbesondere in den Randbedingungen der PPV, zu erwarten. Das zweite

Maß für die allgemeine Leistung über rote und grüne Trials hinweg ist die erreichte Punkt-

zahl. Wie schon in den Studien 1 und 3 hatte die Variation der PPV bzw. NPV keinen signifi-

kanten Einfluss auf die erreichte Punktzahl in der Bestellaufgabe, sondern bewirkte lediglich

signifikante Unterschiede in der Überwachungsaufgabe. Das Ausbleiben eines Effekts der

120 Experiment 4: Einfluss eines erhöhten workloads

PPV bzw. NPV in der Bestellaufgabe in Studie 4 liegt nahe, da die Probanden die Ressourcen,

die sie durch die Anpassung des Prüfanteils an die jeweilige PPV und NPV einsparten, auf die

parallele Bearbeitung von insgesamt drei statt zwei Aufgaben aufteilen mussten. Die deutlich

geringere mittlere erreichte Punktzahl in der Überwachungsaufgabe in Studie 4 (M = 102) im

Vergleich zu Studie 1 (M = 225) erklärt sich zum Einen durch den geringeren Anteil an

korrekten Reaktionen und zum Anderen durch die Unterbrechungen durch die anderen beiden

Aufgaben. Die mittlere erreichte Punktzahl in der Bestellaufgabe blieb hingegen auf dem

gleichen Niveau (beide M = 75). Die mittlere Auszahlung von 88 Punkten für die Tankfüll-

aufgabe (somit wurden im Schnitt 12 vollständige Befüllzyklen im Experimentalblock durch-

geführt) rundet das Bild ab, dass die Probanden alle drei Aufgaben kontinuierlich bearbeite-

ten, eine Umgehung der Dreifachaufgaben-Belastung also ausgeschlossen werden kann. Um

den Unterschied in der erreichten Punktzahl in der Überwachungsaufgabe für rote und grüne

Trials separat zu analysieren, werden im Folgenden vorerst Verhalten und die spezifische

Leistung in Alarmtrials und dann in alarm-freien Trials diskutiert.

Der Anteil an korrekten Reaktionen sank wie in den Studien 1 und 3 mit steigender PPV ab

und fand bereits bei einer PPV von 0.7 seinen Tiefpunkt. Diese Tendenz wurde bereits in

Studie 3 unter erhöhtem Prüfaufwand gefunden und tritt unter erhöhtem workload in Studie 4

deutlicher hervor. Der geringe Anteil an korrekten Reaktionen in der Bedingung 0.7 spiegelt

sich im Prüfverhalten wider, welches bei 0.7 ein Minimum erreicht. Insgesamt fand sich in

Studie 4 im Vergleich zu den Studien 1 und 3 durchgängig der geringste Anteil an korrekten

Reaktionen. Da der Anteil an korrekten Reaktionen erneut auf den Verlauf der Verhaltensan-

teile zurückzuführen ist, wird an dieser Stelle das Verhalten in Abhängigkeit der PPV disku-

tiert.

Die Ergebnisse von Studie 4 zeigen, dass ein erhöhter workload dazu führt, dass der cry wolf-

Effekt wieder auftritt, auch wenn den Probanden weiterhin die Möglichkeit gegeben war, die

Rohdaten zu überprüfen. In Alarmtrials zeigten die Probanden in der Bedingung mit der

niedrigsten PPV (0.1) ein Prüfverhalten auf mittlerem Niveau (45%), welches vom Anteil der

ignorierten Alarme übertroffen wurde (55%). Dieses Muster entspricht dem klassischen cry

wolf-Effekt, wie er in der Literatur, vor allem unter Bedingungen hohen workloads, zu finden

ist (z. B. Bliss, 2003a; Bliss & Dunn, 2000; Breznitz, 1983; Dixon & Wickens, 2006). Hypo-

these H 1.3, die besagt, dass der cry wolf-Effekt bei einer PPV von 0.1 auftritt, kann also

bestätigt werden. Im weiteren Verlauf des Verhaltens befindet sich der Punkt des höchsten

Prüfanteils entgegen der Annahme von Hypothese H 1.1 bei einer PPV von 0.3, obwohl

10.6 Diskussion 121

objektiv die höchste Unsicherheit bei einer PPV von 0.5 zu erwarten wäre. Hypothese H 1.1

kann also nicht bestätigt werden. Auch wenn sich der Punkt des größten Prüfanteils nicht in

der Bedingung der objektiv größten Unsicherheit von 0.5 wiederfand, wurde in der Bedin-

gung größter Unsicherheit (PPV = 0.5) zu gleichen Anteilen Alarme ignoriert (cry wolf-

Effekt) und direkt bearbeitet (compliance), wie es in einer Entscheidungssituation unter

größter Unsicherheit (sprich ohne Prüfmöglichkeit) erwartet und in der Ausgangsstudie

empirisch bestätigt wurde. Auf der Verhaltensebene scheint sich folglich bei einer PPV von

0.5 doch eine subjektiv hohe Unsicherheit widerzuspiegeln, allerdings nicht wie erwartet

gekennzeichnet durch den höchsten Punkt im Verlauf des Prüfverhaltens, sondern dadurch,

dass sich die beiden direkten Verhaltensweisen bearbeiten (compliance) und ignorieren (cry

wolf-Effekt) gleich verteilten. Betrachtet man das dominierende Verhalten über die unter-

schiedlichen Bedingungen hinweg, fällt ein cut-off zwischen den Bedingungen 0.5 und 0.7

auf, an dem das dominante Verhalten vom Prüfen (informed compliance) zum direkten

Bearbeiten (compliance) wechselt. Dieser cut-off entspricht dem Wert der Ausgangsstudie, in

der ab einer PPV von 0.5 der Großteil der Alarme direkt bearbeitet wurde. Die Erhöhung des

workloads scheint also dazu zu führen, dass sich der Punkt, ab dem den Alarmen vertraut

wird, im Vergleich zu den Studien 1 und 3 wieder nach unten verschiebt. Der Bereich der

PPV, in dem die compliance dominiert, vergrößert sich unter erhöhtem workload, der eine

effiziente Verteilung der Ressourcen einfordert. Zusammenfassend zeigen die Ergebnisse zum

cut-off aus der Ausgangsstudie, Studie 1, Studie 3 und Studie 4, dass der cut-off, ab dem die

compliance dominiert, dann bereits ab dem Punkt der größten Unsicherheit zu finden ist (0.5),

wenn die Probanden gezwungen sind, unter großer Unsicherheit zu handeln und auf eine

Heuristik wie das extreme responding zurückgreifen müssen (Ausgangsstudie) oder wenn ein

erhöhter workload erfordert, die Ressourcen optimal und effizient aufzuteilen (Studie 4) und

die Prüfoption in den oberen Bereichen redundant macht. In den Studien 1 und 3, in denen die

Probanden zwar teilweise unter erhöhtem zeitlichem Druck, jedoch ohne Interferenzen zwi-

schen den beanspruchten Ressourcen, arbeiteten, vergrößerte sich der Bereich der PPV, in

dem sie durch einen dominierenden Prüfanteil ihre Unsicherheit bezüglich der Validität des

Alarmes reduzierten.

Im oberen Bereich der PPV entspricht die asymptotische Zunahme der compliance und die

Abnahme der informed compliance zwar grundsätzlich den Erwartungen des umgekehrt u-

förmigen Verlaufes, allerdings sinkt weder der Prüfanteil bei einer PPV von 0.9 weiter ab

noch steigt der Anteil des Bearbeitens weiter an. Der Anteil der compliance stagnierte in den

122 Experiment 4: Einfluss eines erhöhten workloads

Bedingung 0.9 bei ca. 55% und blieb so unter dem erwarteten Anteil im Sinne der Hypothese

H 1.2 (die compliance ist am höchsten bei einer PPV von 0.9), die demnach nicht bestätigt

werden konnte. In den Bedingungen 0.5 und 0.7 passte sich das Prüf-Verhalten hingegen

komplementär der PPV an (52% und 25%), wie man es im Rahmen des umgekehrt u-

förmigen Verlaufs für den oberen Bereich der PPV erwartet hätte.

In Alarmtrials kann das Reaktionsmuster also so zusammengefasst werden, dass die Proban-

den die unterschiedlichen PPV in drei Bereiche aufzuteilen schienen: einen Bereich großer

Unsicherheit in den Bedingungen 0.3 und 0.5 (dominantes Verhalten: informed compliance),

einen Bereich der Akzeptanz (dominantes Verhalten: compliance) bei 0.7 und 0.9 und einen

Bereich der Ablehnung bei einer PPV von 0.1 (dominantes Verhalten: Ignorieren). Hypothese

H 1.1 kann aufgrund des verschobenen Prüf-Maximums bei einer PPV von 0.3 demnach zwar

nicht bestätigt werden, jedoch entspricht der Verlauf des Prüf-Verlaufs dem erwarteten

umgekehrt u-förmigen Verlauf. An dieser Stelle wird daran erinnert, dass in Studie 1 ohne

erhöhten workload lediglich die oberen Bereiche der PPV diesem Verlauf entsprachen, da die

Probanden im unteren Bereich dazu neigten, ihre freien Ressourcen zur Reduktion der Unsi-

cherheit durch ein hohes Prüfniveau zu investieren.

Die Analyse der Leistung in alarm-freien Trials ergab einen sehr ähnlichen, kontinuierlich

sinkenden Verlauf des Anteils an korrekten Reaktionen wie in Studie 3, mit der Ausnahme,

dass die Leistung in der Bedingung mit der niedrigsten NPV nicht weiter abfiel. Dieser

Zuwachs an Leistung in Bedingung 0.41 kann durch die fast perfekt an eine probability

matching-Strategie angepasste reliance (Ignorieren des Containers, also Akzeptieren des

Hinweises des Alarmsystems) und einen dazu komplementären Verlauf der informed reliance

(Überprüfen des Hinweises) erklärt werden (Bliss, Gilson & Deaton, 1995). Der gesamte

Hypothesenblock 2 kann also bestätigt werden. Der cut-off, an dem sich das dominante

Verhalten änderte, entsprach auch dem Punkt der größten Änderung der NPV, nämlich dem

Sprung von 0.72 auf 0.41.

Im Folgenden soll der Effekt eines erhöhten workloads auf rote und grüne Trials vergleichend

diskutiert werden. Das Ergebnismuster von Studie 4 zeigt, dass sich das Verhalten der Pro-

banden unter erhöhtem workload in grünen Trials an eine probability matching-Strategie

anpasste und in roten Trials zu einem umgekehrt u-förmigen Verlauf tendierte. Diese diffe-

renzierte Anpassung der informed reliance und informed compliance an spezifische Verlaufs-

10.6 Diskussion 123

formen bestätigt die Unabhängigkeit der Konzepte der reliance und compliance (Meyer,

2004).

In Studie 1 zeigten die Probanden zwar einen äußerst sensiblen Umgang mit den Containern

im oberen Bereich der NPV, allerdings kam es nicht zu einer generellen Anpassung an die

NPV, sondern einer mit sinkender NPV immer schlechter werdenden Anpassungsleistung und

einem übersteigerten Prüfverhalten. In Alarmtrials zeichnete sich das Verhalten durch eine

irrational hohe Prüfrate aus, die erst bei einer PPV von 0.9 von der compliance dominiert

wurde. Unter erhöhtem Prüfaufwand in Studie 3 näherten die Probanden die Prüfrate in

grünen Trials (informed reliance) bzw. den Anteil an ignorierten Containern (reliance) dann

an die NPV an. In Alarmtrials wurde eine schwache Tendenz zu einem umgekehrt u-förmigen

Verlauf registriert, der vor allem aus dem leichten Absinken des Prüfverhaltens in der Bedin-

gung 0.1 resultierte. Während sich der cut-off, ab dem die Hinweise des Alarmsystems direkt

befolgt wurden, in grünen Trials bereits in Studie 3 unter erhöhtem Prüfaufwand nach unten

verschob (von einer NPV ab 0.72 auf eine NPV ab 0.41), sank der cut-off in roten Trials erst

in Studie 4 unter erhöhtem workload.

Ein höherer zeitlicher Prüfaufwand bewirkte also eine Anpassung des Verhaltens in alarm-

freien Trials, indem sich der Bereich der NPV, in dem die Hinweise überprüft wurden, ver-

kleinerte. In Alarmtrials resultierte lediglich eine schwache Änderung des Verlaufs im unteren

Bereich, die den cut-off nicht beeinflusste. Erst unter erhöhtem workload, der eine effiziente

Verteilung der Ressourcen notwendig machte, wurde auch der cut-off in Alarmtrials von einer

PPV von 0.7 auf eine PPV von 0.5 angepasst. Die Voraussetzung einer perfekten Anpassung

an die NPV bzw. die PPV scheint also zu sein, dass der workload so hoch ist, dass er eine

rationale Verteilungspolitik der Ressourcen erfordert. Das Hinzufügen der dritten Aufgabe

scheint Ressourcen beansprucht zu haben, die unter niedrigerem workload dem Prüfen der

Rohdaten zugeteilt worden waren. Dies entspricht auch den Annahmen von Wickens’ Theorie

der multiplen Ressourcen (1984, 1992, 2002, 2008), in denen Aufgaben interferieren, die die

gleichen Modalitäten beanspruchen. So ist bei allen drei beschriebenen Aufgaben des Para-

digmas von den gleichen beanspruchten Ressourcen auszugehen, wie von perzeptiv-

kognitiven Verarbeitungsstufen, von einer visueller Sinnesmodalität, die sich ambient verteilt,

von einer räumlich-analoger Verarbeitungsmodalität und von einem manuellem Reaktions-

modus.

124 Experiment 4: Einfluss eines erhöhten workloads

Ähnlich wie in Studie 3 wird als Ursache für die unterschiedliche Anpassungsleistung in

grünen und in roten Trials vermutet, dass ein erhöhter workload bzw. konfligierende Ressour-

cen zu einer Einsparung von Ressourcen primär in alarm-freien Trials führt. Begründet wird

diese Priorisierung roter Trials damit, dass ein verursachter miss durch das Ignorieren eines

Alarms (cry wolf-Effekt) subjektiv schwerer wiegt als ein miss, der durch das Befolgen des

Hinweises in grünen Trials (reliance) entsteht, auch wenn die payoff wie in diesem Fall beide

Fehlerarten gleich gewichtet. Interessant für zukünftige Forschung könnte in diesem Zusam-

menhang die Analyse der mentalen Repräsentation von objektiv variierenden Konsequenzen

sein. Eine mögliche Erklärung für die leicht verzerrte Anpassung der compliance und infor-

med compliance an eine effiziente Strategie könnte die Salienz der Alarme und deren hoher

Aufforderungscharakter sein, der vor allem in Hochsicherheitssystemen wie dem hier ver-

wendeten Scenario einer Chemie-Anlage deutlich wird. So sollten Erklärungen für die bessere

Anpassung der reliance an die NPV als die Anpassung der compliance an die PPV in weiteren

Studien zu den Konzepten framing (Tversky & Kahneman, 1981) und automation bias

(Mosier & Skitka, 1996) gesucht werden. Zusätzlich scheinen vor allem Alarme mit einer

niedrigen PPV bei den Probanden ein hohes Bedürfnis nach Reduktion der Unsicherheit

auszulösen und so zu einer überhöhten Prüfrate zu führen (wie in der PPV von 0.3). In oberen

Bereichen (ab einer PPV von 0.5) passte sich die informed compliance schon eher an eine

rationale Strategie an, indem sie in den Bedingungen 0.5 und 0.7 stetig abnahm folgte und die

compliance im oberen Bereich der PPV dominierte. Die bessere Anpassung der (informed)

reliance an die NPV kann zum Einen damit erklärt werden, dass einem entstehenden miss in

grünen Trials immer eine falsche Reaktion des Alarmsystems (Stufe 1 des Modells von

Allendoerfer, Pai & Friedman-Berg, 2008) zugrunde liegt, der der Operateur fälschlicherwei-

se im Sinne der reliance vertraut (Stufe 2). Somit liegt die subjektive Verantwortung für einen

miss nur anteilig beim Operateur. Zum Anderen variiert die NPV in dieser Studie lediglich im

oberen Bereich, in dem Unsicherheit bezüglich der Validität eines Hinweises unter erhöhtem

workload womöglich eher toleriert wird und sich das Prüfverhalten an eine probability mat-

ching-Strategie anpasst. Weitere Studien sollten klären, ob sich die informed reliance in

unteren Bereichen der NPV ähnlich wie die informed compliance einem umgekehrt u-

förmigen Verlauf anpasst.

11 Zusammenfassende Diskussion 125

11 Zusammenfassende Diskussion

Im Rahmen dieser Arbeit wurde der Einfluss einer Prüfmöglichkeit auf den Umgang mit

Alarmen, die hinsichtlich ihrer PPV und NPV variierten, untersucht. Diese Studien unter-

schieden sich wesentlich dadurch von bisherigen Studien, die den Einfluss von PPV und NPV

auf die reliance und compliance untersuchten, dass den Probanden die Möglichkeit gegeben

wurde, die Rohdaten hinter dem Hinweis des Alarmsystems aktiv anzufordern und die Diag-

nose des Systems zu validieren. Somit wurden sie nicht zu der Entscheidung gezwungen, dem

Hinweis blind zu folgen oder ihn zu ignorieren, sondern konnten vor der finalen Entscheidung

die Angemessenheit des Hinweises überprüfen. Diese Reaktion auf einen Alarm wurde als

informed compliance und informed reliance bezeichnet. Ziel der Arbeit war es, den Verlauf

der informed compliance und informed reliance in Abhängigkeit unterschiedlicher Zuverläs-

sigkeiten zu analysieren und auszuwerten, wie sich die Prüfoption in Bereichen einer niedri-

gen PPV auf den in der Literatur häufig beschriebenen cry wolf-Effekt auswirkt (Breznitz,

1984; Bliss, 2003a; Dixon & Wickens, 2006; Meyer, Feinshreiber & Parmet, 2003). Während

die Manipulation der PPV und NPV über drei der vier Studien konstant blieb, unterschieden

sich die Studien im zeitlichen Aufwand, der über die Anzahl der zu überprüfenden Parameter

manipuliert wurde, und im workload, der durch Einbindung einer dritten Aufgabe in das

Doppelaufgaben-Paradigma erfolgte.

Die Befunde zum Einfluss der subjektiven Zuverlässigkeit auf das Verhalten sind in den drei

Studien sehr ähnlich: es gibt konsistente Hinweise darauf, dass hohe Zuverlässigkeiten (in

PPV und NPV) unterschätzt und niedrige Zuverlässigkeiten überschätzt werden. Allerdings

hatten die subjektiven Zuverlässigkeiten keinen eindeutigen Einfluss auf das Verhaltensmus-

ter, da genau diese Art der individuellen Verzerrung dadurch vermieden werden sollte, dass

den Probanden im Anschluss an ihre Schätzungen die tatsächliche Verteilung der vier Fehler-

arten vorgelegt wurde. Aus den Ergebnissen zum Schätzfragebogen kann geschlossen werden,

dass Operateure fähig dazu sind, aus der Interaktion mit Alarmsystemen annähernd genaue

Schlüsse auf deren Zuverlässigkeiten zu ziehen. Dabei sind sie fähig, zwischen der NPV und

PPV zu unterscheiden und diese als unabhängige Gütekriterien eines Alarmsystems zu be-

trachten.

126 Zusammenfassende Diskussion

In der Ausgangsstudie, in der den Probanden keine Validierungsmöglichkeit der Hinweise des

Systems gegeben worden waren, wurden hauptsächlich extreme responding-Strategien (Bliss,

2003b) angewendet, indem auf Alarme mit einer PPV über 0.5 immer direkt reagiert wurde

(compliance) und Alarme mit PPV unter 0.5 ignoriert wurden (cry wolf-Effekt). Diese Heu-

ristik führt allerdings dazu, dass die Gesamtleistung des Mensch-Maschine-Systems die

Leistung eines Agenten alleine nicht übertreffen kann und somit der andere Agent redundant

wird. Ignoriert der Operateur die Hinweise des Alarmsystems, ist dieses überflüssig; befolgt

er alle Hinweise des Systems direkt, so könnte das Alarmsystem auf einer höheren Automati-

onsstufe autark arbeiten und die Entscheidung selbständig treffen sowie die Handlung ausfüh-

ren (Sheridan & Wickens, 2000). Ein System, welches dem Operateur keine Möglichkeit gibt,

die Hinweise des Alarmsystems zu validieren, kann also als kein System angesehen werden,

welches einen effizienten und sicheren Prozessablauf garantiert. In Anlehnung an diese

Folgerungen zeigen die Studien dieser Arbeit nicht nur, dass die PPV und die NPV verhal-

tenswirksame Größen sind, sondern auch, dass die Möglichkeit, die Validität der Hinweise

des Alarmsystems zu überprüfen, einen wesentlichen Einfluss auf die dominante Antwortstra-

tegie hat und der unangemessene Gebrauch von Heuristiken vermieden werden kann.

In Studie 1 wurden Alarme bis zu einer PPV von 0.7 auf einem äußerst hohen Niveau geprüft

(informed compliance) und wurden erst bei einer PPV von 0.9 direkt befolgt (compliance).

Der cry wolf-Effekt, der noch in der Ausgangsstudie unter Anwendung des gleichen Para-

digmas bei einer PPV von 0.1 gefunden wurde, wurde durch eine hohe Prüfrate im unteren

Bereich der PPV eliminiert. Mit der Prüfoption verschwanden zwar die Extremreaktionen auf

Alarme (Bliss, 2003b), es konnte aber im Gegenzug eine Art „over-checking“-Verhalten

identifiziert werden, im Rahmen dessen die Probanden 60% - 80% aller Alarme mit PPV von

0.1 – 0.7 überprüften. Diese unerwartet hohe Prüfrate (informed compliance) weist auf ein

hohes Bedürfnis der Probanden hin, ihre Unsicherheit im unteren bis mittel-hohen Bereich der

PPV zu reduzieren. Im Gegensatz zur Annahme, dass sich der Höhepunkt der Prüfrate in der

Bedingung mit der höchsten Unsicherheit (PPV = 0.5) befindet, schien dabei nicht zwischen

sehr niedrigen PPV (0.1 und 0.3) und mittleren (0.5) bis hohen PPV (0.7) unterschieden zu

werden. Erst bei einer sehr hohen PPV von 0.9 tolerierten die Probanden eine Rest-

Unsicherheit und befolgten die Alarme direkt. Im oberen Bereich der PPV folgte das Prüf-

Verhalten also dem erwarteten umgekehrt u-förmigen Verlauf, allerdings kam es erwartungs-

diskrepant im unteren Bereich der PPV zu keinem Absinken des Prüfanteils. In diesem

Zusammenhang gibt Studie 2 Hinweise darauf, dass das verhaltensbasierte Vertrauen unter

11 Zusammenfassende Diskussion 127

einem cut-off bei einer PPV von 0.75 fast gleichmäßig niedrig ist und die überhöhte Prüfrate

die Funktion eines Alarmsystems redundant werden lässt. Die generelle Schlussfolgerung aus

Studie 1 ist die Notwendigkeit einer Option, die Aussagen des Alarmsystems zu überprüfen,

um die allgemeine Mensch-Maschine-Leistung zu steigern und den cry wolf-Effekt zu elimi-

nieren. Allerdings ergibt sich dadurch das Problem, dass Operateure in unteren bis mittel-

hohen Bereichen auf einem unnötig hohen Niveau prüfen, um ihre Unsicherheit zu reduzieren

und mit dieser Strategie Ressourcen für eventuelle Nebenaufgaben vergeuden.

Studie 3 zeigte, dass die hohe Prüfrate in roten Trias kein künstliches Produkt der Operationa-

lisierung des Prüfprozesses war, sondern dass das Prüfverhalten in einem Setting, welches den

doppelten Prüfaufwand verlangte, indem nicht nur ein, sondern zwei Parameter überprüft

werden mussten, repliziert werden konnte. Zudem prüften die Probanden immer beide Para-

meter, brachen den Prüfprozess also nie nach bereits einem Parameter ab, um Zeit zu sparen.

Diese Vollständigkeit des Prüfprozesses belegt, dass die Probanden den Prüfprozess durch-

führten, um ihre Unsicherheit auf 0% zu reduzieren. Zwar zeigte der deskriptive Verlauf des

Prüfverhaltens eine leichte Tendenz zum cry wolf-Effekt in der Bedingung 0.1, jedoch domi-

nierte in dieser Bedingung immer noch das Prüfverhalten. Zusammenfassend bewirkte ein

gesteigerter Prüfaufwand im Sinne eines höheren Zeitaufwands und eines höheren kognitiven

Engagements in die Suche der beiden korrekten Containern nur leichte Änderungen im

Antwortmuster im Vergleich zu Studie 1. Daran anknüpfend stellte sich die Frage, ob die

Eliminierung des cry wolf-Effekts durch die überhöhte Prüfrate auch bei einer Erhöhung des

workloads bestehen bleiben würde. Die Erhöhung des workloads bedeutet die simultane

Beanspruchung der gleichen Ressourcen, so dass es zu einer stringenten Verteilungspolitik

kommen muss, um eine Überbelastung zu vermeiden (Wickens, 1984, 1992, 2002, 2008).

In Studie 4 wurde dementsprechend untersucht, ob sich ein erhöhter workload auf die Vertei-

lungspolitik der Ressourcen und damit auf das Verhaltensmuster auswirkt. Trotz Erweiterung

des Settings um eine zusätzliche Nebenaufgabe in Studie 4 unterschied sich die subjektive

Bewertung des workloads im Rahmen des NASA-TLX nicht von der subjektiven Beanspru-

chung aus Studie 3. Offensichtlich fiel es den Probanden schwer, subjektiv zwischen erhöh-

tem Prüfaufwand innerhalb einer Aufgabe und erhöhtem Gesamtworkload im Sinne konfligie-

render mentaler Ressourcen zu unterscheiden. Auf der Verhaltensebene wurde der erhöhte

workload hingegen dadurch erkennbar, dass in Studie 4 über alle Bedingungen hinweg auf

einem niedrigeren Niveau als in den Studien 1 und 3 geprüft wurde. Der größte Effekt zeigte

sich in der Bedingung mit der niedrigsten PPV (0.1), in der der cry wolf-Effekt wieder auftrat.

128 Zusammenfassende Diskussion

In den Bedingungen mit den höchsten PPV (0.7 und 0.9) wurde ein direktes Befolgen der

Alarme gefunden, die compliance dominierte also als stärkster Verhaltensanteil. Die Tendenz,

in den unteren und oberen Bereichen der PPV direkt auf Alarme zu reagieren, indem diese

ignoriert oder bearbeitet werden, und der Anstieg des Prüfverhaltens im mittleren Bereich der

PPV entsprechen dem erwarteten umgekehrt u-förmigen Verlauf. Der cut-off, an dem die

informed compliance stark absank und die compliance zum dominierenden Verhalten wurde,

verschob sich unter hohem workload von 0.7 (wie in den Studien 1 und 3 gefunden) nach

unten auf 0.5. Der erhöhte workload führte dazu, dass der Bereich der Akzeptanz von Alar-

men im oberen Bereich der PPV größer wurde und im untersten Bereich der PPV Alarme

ignoriert wurden, um Ressourcen zu sparen. Bei einer PPV von 0.3 stieg die Prüfrate stark an,

was erneut belegt, dass Unsicherheit im oberen Bereich der PPV eher akzeptiert wird als im

unteren Bereich. Das Ergebnis, dass der erhöhte externe workload, der durch die Parallelauf-

gabe manipuliert wurde, die Reaktionsrate auf Alarme reduzierte, stimmt mit dem Befund von

Bliss & Dunn (2000) überein. Außerdem bestätigen die Ergebnisse im Wesentlichen Bliss’

Theorie (2003b), dass Heuristiken in Abhängigkeit der Verfügbarkeit von Hintergrundinfor-

mation ausgewählt und herangezogen werden. Ein erhöhter worklaod scheint also das Prüf-

verhalten der Probanden so zu regulieren, dass diese ihre Ressourcen nach einer effizienteren

und sparsameren Politik einsetzen, indem sie unzuverlässige Alarme ignorieren (cry wolf-

Effekt) und zuverlässige Alarme befolgen (compliance).

Betrachtet man das Verhalten in grünen Trials, also die reliance und die informed reliance,

zeigt sich ein noch deutlicherer Einfluss des workloads auf die Strategienbildung. In Studie 1

überprüften die Probanden in grünen Trials die Hinweise des Alarmsystems auf einem sehr

hohen Niveau. Selbst bei einer geringen Minderung der NPV von 0.98 auf 0.93 reagierten die

Probanden mit einer starken Erhöhung des Prüfverhaltens. Selbst bei einer nahezu perfekten

Zuverlässigkeit von 0.93, die nur 4% misses implizierte, prüften sie ca. 40% aller Container.

Die Probanden schienen also mit dem Prüfverhalten in grünen Trials, welches das Übersehen

eines kritischen Zustands verhindert, besonders sensibel auf kleinste Änderungen in der

Zuverlässigkeit im oberen Bereich der NPV zu reagieren. Im Vergleich dazu zeigt Studie 2,

dass die Probanden ihr Prüfverhalten in roten Trials erst unter einer PPV von 0.75 anpassten.

Dieser Unterschied erklärt sich durch die erwarteten Konsequenzen: während in grünen Trials

durch die Prüfrate ein miss vermieden wird, vermeidet eine hohe Prüfrate in roten Trials ein

ungerechtfertigtes Eingreifen, welches weniger die Sicherheit als die Produktivität beein-

flusst. Die erhöhte Sensibilität im Umgang mit grünen Trials im Vergleich zum Umgang mit

11 Zusammenfassende Diskussion 129

roten Trials unterstützt den Befund der Unabhängigkeit von reliance und compliance (Meyer,

2004).

Vergleicht man die Anpassung des Prüfverhaltens an die NPV im Sinne eines probability

matchings fällt auf, dass diese in Studie 1 äußerst schlecht ausfällt. Die subtile Änderung der

NPV von 0.98 auf 0.93 bewirkte eine Art „Über-Anpassung“ und ließ die Prüfrate auf ein

stark überhöhtes Niveau von ca. 40% steigen, wohingegen keine Unterscheidung zwischen

einer NPV von 0.93 und 0.86 getroffen wurde. Ähnlich wurde zwischen einer NPV von 0.72

und 0.41 nicht unterschieden, was am meisten erstaunt, da diese doch am deutlichsten diffe-

rierten. Die Probanden schienen NPV unter 0.86 als gleichermaßen unzuverlässig einzuord-

nen und reagierten mit einem hohen Anteil überprüfter Container.

Schon in Studie 3, in der der Prüfprozess einen erhöhten zeitlichen Aufwand implizierte,

zeigte der Verlauf des Prüfverhaltens insofern eine bessere Anpassung an die NPV, als die

reliance mit der NPV absank, das Prüfverhalten kontinuierlich anstieg und deutlich auch

zwischen den Bedingungen 0.72 und 0.41 unterschieden wurde. Hier dominierte im Gegen-

satz zu Studie 1 ab einer NPV von 0.72 bereits die reliance über die informed reliance. Aller-

dings lag die Prüfrate in allen Bedingungen immer noch über der erwarteten Prüfrate im Sinne

eines probability matching (Bliss, Gilson & Deaton, 1995). Unter erhöhtem workload in

Studie 4 allerdings wurde ein anderes Bild sichtbar: die reliance (und komplementär die

informed reliance) passte sich fast perfekt der NPV an. Bereits die Erhöhung der zeitlichen

Kosten in Studie 3 hatten zu einer leicht verbesserten Diskrimination zwischen den einzelnen

NPV geführt, ließen aber dennoch ein übermäßiges Prüfen zu. Erst ein hoher workload, der

eine stringente Verteilung der Ressourcen erforderte, schien zu einer besseren Anpassung an

die NPV im Sinne eines probability matching zu führen. Während die Probanden in Studie 1

und 3 überwiegend eigenhändig die Rohdaten hinter dem Alarmsystem prüften, fingen sie

unter hohem workload an, sich auf die Automation zu verlassen. Dieser Befund deckt sich mit

der Aussage von Wickens & Dixon (2007): „This finding suggests that the dependence upon

automation is more heavily manifest in high workload” (S. 9).

In Alarmtrials fand eine Anpassung des Prüfverhaltens unter erhöhtem workload in Studie 4

an einen umgekehrt u-förmigen Verlauf statt, wobei sich das Prüf-Verhalten dabei im mittle-

ren Bereich der PPV von 0.3 – 0.7 einem probability matching folgte. Kombiniert man diese

Ergebnisse aus den Studien 1, 3 und 4, ist es naheliegend, dass sich hohe PPV und hohe NPV

tendenziell einem probability matching anpassen, während niedrige a posteriori-

130 Zusammenfassende Diskussion

Wahrscheinlichkeiten eine hohe Prüfrate bzw. unter hohem workload den cry wolf-Effekt

auslösen und sich somit der umgekehrt u-förmige Verlauf ergibt. Ob sich dieser Verlauf

tatsächlich auch für niedrige NPV so darstellen würde, sollte in weiteren Studien, die die

unteren Bereiche der NPV mit einbeziehen, untersucht werden.

Der für die jeweilige Höhe der PPV und NPV spezifische Verlauf der informed compliance

und informed reliance weist darauf hin, dass die Anzahl von misses hauptsächlich die (infor-

med) reliance und die Anzahl von false alarms hauptsächlich die (informed) compliance

beeinflussen (Meyer, 2004). Würden misses einen relevanten Einfluss auf die (informed)

compliance und falsche Alarme einen Einfluss auf die (informed) reliance haben, müsste sich

der Prüfverlauf durch die Mittelung von PPV und NPV über die Bedingungen jeweils fast

parallel zur x-Achse entwickeln. In den vorliegenden Studien passte sich der Verlauf des

Prüfens unter erhöhtem workload jedoch unterschiedlichen Strategien an. Während in Studie

1 sowohl in roten als auch in grünen Trials eine überhöhte Prüfrate zu finden war, kristalli-

sierte sich bereits in Studie 3 unter erhöhtem Prüfaufwand die Tendenz zum probability

matching in grünen Trials und zum umgekehrt u-förmigen Verlauf in roten Trials heraus, die

sich dann in Studie 4 unter erhöhtem workload klar manifestierten. Dieses unterschiedliche

Grundmuster in der (informed) reliance und (informed) compliance und deren distinkte

Anpassungen an erhöhten workload entsprechen den Befunden der Unabhängigkeit der

beiden Konzepte von Meyer (2004).

Zusammenfassend kann aus den hier geschilderten Studien und der Ausgangsstudie ge-

schlussfolgert werden, dass bei der Entwicklung von Alarmsystemen dem Bedürfnis von

Operateuren gerecht werden muss, ihre Unsicherheit bezüglich der Zuverlässigkeit des

Alarmsystems zu reduzieren. Die zwei Hauptfaktoren, die zu dieser Unsicherheitsreduktion

beitragen, sind zum einen Kenntnisse über die Reliabilität des Systems, also Aussagen zur

bzw. Erfahrungen mit der PPV und NPV, und zum anderen die Möglichkeit, einzelne Hinwei-

se des Alarmsystems durch eine Möglichkeit zur Überprüfung der Rohdaten zu validieren. Ist

keine Option zur Validierung der Hinweise des Alarmsystems gegeben, greifen Operateure zu

Extremstrategien, die einen der beiden Agenten redundant machen und die Gesamtleistung

des Mensch-Maschine-Systems nicht steigern können. Diese Extremreaktionen gefährden die

Sicherheit des Prozesses, wie im Rahmen des cry wolf-Effekts (Breznitz, 1984), der in der

Forschung zu reliance und compliance immer wieder gefunden wurde und der dazu führen

kann, dass kritische Ereignisse übersehen werden. Die Möglichkeit, die Rohdaten hinter den

Hinweisen des Alarmsystems zu überprüfen, ließ den cry wolf-Effekt verschwinden, so dass

11 Zusammenfassende Diskussion 131

das Ignorieren von Alarmen kein allgemeines Phänomen im Umgang mit unzuverlässigen

Alarmen zu sein scheint, sondern die Anwendung einer Heuristik, um mit einer Situation

großer Unsicherheit umzugehen. Auf der anderen Seite wird von einer vorhandenen Validie-

rungsoption unter gemäßigtem workload zu großer Gebrauch gemacht, so dass Ressourcen

vergeudet werden und der Arbeitsprozess ineffizient wird. Dieser „over-checking“-Strategie

wird entgegengewirkt, wenn der workload eine möglichst effiziente Verteilungspolitik der

Ressourcen erzwingt, so dass das Verhalten optimal an die Zuverlässigkeit des Alarmsystems

angepasst wird.

Die Erkenntnisse dieser Arbeit unterliegen natürlich Einschränkungen und können in unter-

schiedlichen Punkten kritisiert werden. So fanden zum Beispiel Dzindolet et al. (2003), dass

sich die Leistung des Mensch-Maschine-Systems bei kumulativem Feedback deshalb ver-

schlechtert, weil die Probanden die tatsächliche Leistung des Systems unterschätzen. Womög-

lich wären die Ergebnisse dieser Studie anders ausgefallen, wenn den Probanden kontinuierli-

ches Feedback nach jedem einzelnen Trial dargeboten worden wäre, so wie es Dzindolet et al.

(2003) in ihren Untersuchungen bestätigen konnten. Allerdings würde bei solchem Vorgehen

im hier relevanten Kontext der Prozesskontrolle die ökologische Validität leiden, da es

äußerst unwahrscheinlich ist, dass Operateure beim Überwachen komplexer Systeme ein

unmittelbares Feedback auf ihre Handlung erhalten. Im Zusammenhang mit der Rückmeldung

in Alarmtrials und alarm-freien Trials stellt sich auch ein ganz anderes Problem: in dieser

Arbeit wurde ein diskreter Prozess beschrieben, der durch einzelne, unabhängige Ereignisse

definiert wurde, die es wiederum erlauben, die vier möglichen Reaktionsweisen im Sinne der

Signaldetektionstheorie (Swets, 1964) zu kategorisieren und zu quantifizieren. Somit basieren

alle Analysen dieser Arbeit auf den Grundlagen der Signaldetektionstheorie. In der Prozess-

kontrolle unterscheidet man jedoch zwischen diskreten und kontinuierlichen Prozessen, die

sich insofern voneinander abgrenzen, dass sich letztere über dynamische Veränderungen

definieren, die kontinuierlich und ohne abgrenzbare Einheiten ablaufen. Somit entfällt die

Anwendungsmöglichkeit der Signaldetektionstheorie in einem kontinuierlichen Prozess, der

es unmöglich macht, correct rejections zu definieren. Eine Alternative zur klassischen Signal-

detektionstheorie bietet die Fuzzy Signal Detection Theory (Parasuraman, Masalonis &

Hancock, 2000), eine modifizierte Form der klassischen Signaldetektionstheorie, die auch auf

kontinuierliche Prozesse angewendet werden kann. Vorteil der Fuzzy Signal Detection

Theory (FSDT) ist, dass sich die Zustände (kritischer vs. unkritischer Systemzustand) auf

einem Kontinuum befinden anstatt zwei diskrete, sich gegenseitig ausschließende Kategorien

132 Zusammenfassende Diskussion

darzustellen (Murphy, Szalma & Hancock, 2004). Dieses Kontinuum spiegelt also in einer

gewissen Weise die dynamischen Veränderungen eines kontinuierlichen Systems und die

daraus resultierende Unsicherheit bezüglich des tatsächlichen Zustands wider. Die FSDT ist

ein vielversprechender Ansatz, Erkenntnisse über diskrete Prozesse hinaus auch in dynami-

schen Umgebungen untersuchen zu können; der Ansatz der FSDT ist allerdings auch sehr

komplex, so dass vertiefende Forschung notwendig ist, um ihre Anwendbarkeit, ihre Grenzen

und Vergleichbarkeit der Ergebnisse mit der SDT zu ergründen.

An diesem Punkt muss ebenso darauf hingewiesen, dass der Range der Fehler-Basisrate nicht

sehr praxisnah ist. In der Realität bewegen sich die tatsächlichen Fehler-Basisraten in Produk-

tionsprozessen in einem äußerst niedrigen Bereich und in Hochsicherheitsbereichen in einem

noch deutlich niedrigeren Bereich, so dass bereits eine Basisrate von 0.18 als überhöht gelten

dürfte. Die Betonung und Sinn dieser Arbeit liegt in der Grundlagenforschung, das heißt in

der Analyse des Antwortverhaltens von Operateuren auf unterschiedlichste Zuverlässigkeiten

von Hinweisen von Alarmsystemen. Zu diesem Zwecke wurden in vorliegender Laborunter-

suchung eine Simulation gewählt, die es erlaubt, die Zuverlässigkeit der grünen und roten

Hinweise des Alarmsystems und den workload durch Variation der Anzahl der zu bearbeiten-

den Aufgaben zu manipulieren. Gleichermaßen konnte die Gleichbehandlung der drei Teil-

aufgaben durch die Manipulation von Zeitkosten und von Gewinn und Kosten im Rahmen der

payoff-Matrix kontrolliert werden. Somit stellt sich die Frage nach der externen Validität der

Untersuchungsergebnisse bzw. auf welche Bereiche und Systeme die Ergebnisse generalisier-

bar sind. Gerade die Übertragung auf Hochsicherheitsbereiche erscheint schwierig, da diese

erstens äußerst niedrige Fehlerbasisraten aufweisen und zweitens nicht mit der gleich gewich-

teten payoff vereinbar sind, da ein miss in Sicherheitssystemen immer weitaus größere Kosten

verursacht als ein false alarm. Trotzdem ist es für die Entwicklung zukünftiger Systeme, die

auch in der Praxis implementiert werden sollen, unerlässlich, in einem ersten Schritt fundierte

Kenntnisse über das Verhalten des Operateurs bzw. die Interaktion zwischen Mensch und

Maschine zu gewinnen, um die gewonnenen Erkenntnisse dann bereits bei der Entwicklung

von Systemen zu berücksichtigen. Dieses prospektive Vorgehen vermeidet, dass ein Produkt

zum Einsatz kommt, welches nicht ausreichend an den Nutzer angepasst ist und post hoc auf

dessen Bedürfnisse angepasst werden muss. Ein prospektives Vorgehen, welches schon

während des Produktentwicklungsprozess von Iterationen durch Nutzerevaluationen geprägt

ist, hilft also, unnötige zeitliche und monetäre Kosten zu sparen (Gérard et al., 2011).

12 Zusammenfassung und Ausblick 133

12 Zusammenfassung und Ausblick

In vorliegender Arbeit wurde der Einfluss der Validierungsmöglichkeit von Alarmen unter-

schiedlicher Zuverlässigkeit auf das Reaktionsverhalten untersucht. Grundlage zu den Studien

war eine Ausgangsstudie, in der das gleiche Paradigma wie in den Studien 1-4 genutzt wurde,

in der den Probanden jedoch keine Validierungsmöglichkeit der Hinweise des Alarmsystems

gegeben worden war. Die Probanden reagierten auf die Entscheidungsunsicherheit mit Ex-

tremreaktionen in den Randbereichen der PPV bzw. NPV, wie dem cry wolf-Effekt bei

niedrigen PPV und einem „over-responding“ in den oberen Bereichen der PPV und NPV. In

den Studien 1-4 wurde der Effekt einer Prüfmöglichkeit auf das Verhalten in Abhängigkeit

der gleichen PPV und NPV untersucht. Dabei wurde angenommen, dass der zeitaufwendige

Prüfprozess nur unter hoher Unsicherheit, also bei einer mittleren Zuverlässigkeit von Alar-

men, auftreten würde, während man bei niedrigen Zuverlässigkeiten den cry wolf-Effekt und

bei hohen Zuverlässigkeiten das direkte Befolgen der Alarme erwarten würde.

Die Befunde aus Studie 1 zeigten, dass die Möglichkeit zur Rohdatenprüfung dazu führte,

dass der cry wolf-Effekt durch die Dominanz der informed compliance bei niedrigen bis

mittel-hohen PPV eliminert wurde. Erst bei einer sehr hohen Zuverlässigkeit wurden die

Alarme im Sinne der compliance direkt befolgt. In grünen Trials reagierten die Probanden mit

einer äußerst sensiblen Anpassung der Prüfrate an kleinste Änderungen im oberen Bereich der

NPV.

Im Rahmen der Erhöhung des Prüfaufwandes in Studie 3 und des workloads in Studie 4

entwickelten sich die (informed) reliance und die (informed) compliance in Abhängigkeit der

NPV bzw. PPV sehr spezifisch. Die (informed) reliance näherte sich bereits unter einem

erhöhten Prüfaufwand an eine probability matching-Strategie an (Bliss, Gilson & Deaton,

1995), während die informed compliance in den Bedingungen 0.1 – 0.7 weiterhin auf einem

unerwartet hohen Niveau dominierte. Unter hohem workload passte sich die reliance fast

perfekt an die NPV an, und die informed compliance näherte sich dem erwarteten umgekehrt

u-förmigen Verlauf an. Der spezifische Einfluss der PPV bzw. NPV auf die compliance bzw.

reliance stützen die Annahme der Distinktheit der Konzepte (Meyer, 2004).

134 Zusammenfassung und Ausblick

In Anbetracht der Ergebnisse lässt sich festhalten, dass Alarmsysteme dann einen maximalen

Gewinn darstellen, wenn der workload eines Operateurs so hoch ist, dass der Operateur

gezwungen ist, seine Ressourcen nach einer möglichst effizienten Verteilungspolitik aufzutei-

len. Ist der workload niedriger, neigen Operateure dazu, ihre Unsicherheit bezüglich der

Validität der Hinweise durch das Prüfen der Rohdaten auf einem überhöhten Niveau zu

reduzieren. Dies führt einerseits dazu, dass wichtige Ressourcen für Nebenaufgaben fehlen

und andererseits dazu, dass das Alarmsystem redundant wird. Umgekehrt zeigten die Ergeb-

nisse der Ausgangsstudie, dass die Gesamtleistung des Mensch-Maschine-Systems ohne die

Bereitstellung einer Validierungsmöglichkeit die Leistung des Alarmsystems allein nicht

übertreffen kann, da der Operateur gezwungen wird, dem System blind zu vertrauen oder es

zu ignorieren.

Einen möglichen Ausweg aus diesem Dilemma bietet das innovative Konzept der likelihood

alarms (LAS; Sorkin, Kantowitz, & Kantowitz, 1988). LAS sind keine binären Alarmsyste-

me, sondern geben Hinweise in unterschiedlichen Abstufungen, die der Sicherheit, mit der die

aktuelle Diagnose gegeben werden kann, entsprechen (Wickens & Colombe, 2007). Die

implizite Information zur Validität einzelner Hinweise kann dem Operateur helfen, sowohl

die Verteilung seiner Aufmerksamkeit als auch seine Handlungsauswahl der Validität des

Hinweises anzupassen (Wiczorek & Manzey, 2011).

Alarmsysteme können Operateure durchaus effizient bei ihrer Arbeit unterstützen und die

Sicherheit eines Prozesses erhöhen. Allerdings müssen bei der Gestaltung dieser Systeme

bereits während des Entwicklungsprozesses nicht nur die optimale Zuverlässigkeit des Sys-

tems, sondern auch der Kontext, die Reaktionsmöglichkeit des Operateurs und mögliche

Konsequenzen berücksichtigt werden. Bei der prospektiven Gestaltung von Alarmsystemen

wird so garantiert, dass es zu einer Minimierung von Redundanzen, Kosten und Überlastung

bei einer gleichzeitigen Maximierung der Produktivität und Sicherheit kommt. In dieser

Arbeit wurden in einem ersten Schritt Grundkenntnisse über den Einfluss unterschiedlicher a

posteriori-Wahrscheinlichkeiten von Alarmen auf das Prüfverhalten von Operateuren gewon-

nen, die dann in zukünftigen Arbeiten an die Praxis angepasst und angewandt werden sollten.

Literatur 135

Literatur

Allendoerfer, K. R., Pai, S., & Friedman-Berg, F. J. (2008). The complexity of signal detec-

tion in air traffic control alert situations. Proceeding of the Human Factors and Ergo-

nomics Society 52nd Annual Meeting, 54 – 58.

Bahner, J.E., Hueper, A..-D. & Manzey, D. (2008). Misuse of automated decision aids:

Complacency, automation bias and the impact of training experience. International

Journal of Human-Computer Studies, 66, 688-699.

Bainbridge, L. (1983). Ironies of automation. Automatica, 19, 775-779

Bitan & Meyer (2007). Self-initiated and respondent actions in a simulated control task.

Ergonomics, 50, 763-788.

Bliss, J.P. (1997). Alarm reaction patterns by pilots as a function of reaction modalitiy.

International Journal of Aviation Psychology, 7, 1-14.

Bliss, J.P. (2003a). Investigation of alarm-related accidents and incidents in aviation. Interna-

tional Journal of Aviation Psychology, 13, 249-268.

Bliss, J.P. (2003b). An investigation of extreme alarm responses of extreme alarm response

patterns in laboratory experiments. Proceedings of the Human Factors and Ergonomics

Society 47th Annual Meeting, 1683-1687. Santa Monica, CA: Human Factors and Ergo-

nomics Society. Denver, CO.

Bliss, J. P. & Acton, S. A. (2003c). Alarm mistrust in automobiles: How collision alarm

reliability affects driving. Applied Ergonomics, 34, 499 – 509.

Bliss, J. P. & Dunn, M. (2000). Behavioural implications of alarm mistrust as a function of

task workload. Ergonomics, 43, 1283-1300.

136 Literatur

Bliss, J. P., Dunn, M. & Fuller, B. S. (1995). Reversal of the cry-wolf effect: an investigation

of two methods to increase alarm response rates. Perceptual and Motor Skills, 80, 1231-

1242.

Bliss, J. P., Gilson, R. D. & Deaton, J. E. (1995). Human probability matching behaviour in

response to alarms of varying reliability. Ergonomics, 38, 2000-2012.

Bliss, J. M. & Kilpatrick, F. (2000). The influence of verbal content on alarm mistrust. Pro-

ceedings of the 2000 Human Factors and Ergnonmics Society Annual Meeting. San Di-

ego, CA.

Bliss, J. P., Jeans, S.M. & Prioux, H.J.(1996). Dual-task performance as a function of individ-

ual alarm validity and alarm system reliability information. Proceedings of the Human

Factors and Ergonomics Society 40th Annual Meeting, 1237-1241. Santa Monica, CA:

Human Factors and Ergonomics Society. Philadelphia, PA.

Bliss, J. P. & McAbee (1995). Alarm responses in a dual task paradigm as a function of

primary task criticality. Proceedings of the Human Factors and Ergonomics Society 39th

Annual Meeting, 1395-1399. Santa Monica, CA: Human Factors and Ergonomics Soci-

ety. San Diego, CA.

Bortz, J. (2005). Statistik für Sozial- und Humanwissenschaftler. Springer: Berlin Heidelberg

New York.

Botzer, A., Meyer, J., Bak, P. & Parmet, Y. (2010). User settings of cue thresholds for binary

categorization decisions. Journal of Experimental Psychology: Applied, 16, 1-15.

Bransby, M. L. & Jenkinson, J. (1998). The management of alarm systems: a review of best

practice in the procurement, design and management of alarm systems in the chemical

and power industries. HSE Research Report CRR 166.

Breznitz, S. (1983). Cry-wolf: the psychology of false alarms. Hillsdale, NJ: Erlbaum.

Literatur 137

Comstock, J. L., & Arnegard, R. J. (1992). The multi-attribute task battery for human opera-

tor workload and strategic behavior research. Technical Report 104174. Hampton, VA:

NASA Langley Research Center.

Cosmides & Tooby (1996). Are humans good intuitive statisticians after all? Rethinking some

conclusion from the literature on judgment under uncertainty. Cognition, 58, 1-73.

Dingus, T. A., McGehee, D. V., Manakkal, N., Jahns, S. K., Carney, C. & Hankey, J. M

(1997). Human factors field evaluation of automotive headway maintenance/collision

warning devices. Human Factors, 39, 216-229.

Dingus, T. A., Wreggit, S. S. & Hathaway J. A. (1993). Warning variables affecting personal

protective equipment use. Safety Science, 16, 655-673.

Dixon, S. R. & Wickens, C. D. (2006). Automation reliability in unmanned aerial vehicle

flight control: A reliance-compliance model of automation dependence in high work-

load. Human Factors, 48, 474 – 486.

Dixon, S.R., Wickens, C.D. & McCarley, J.S. (2007). On the independence of compliance

and reliance: Are automation false alarms worse than misses? Human Factors, 49, 564-

572.

Doane, S. M., Sohn, Y. W. & Jodlowski, M. T. (2004). Pilot ability to anticipate the conse-

quences of flight actions as a function of expertise. Human Factors, 46, 92-103.

Domeinski, J., Wagner, R., Schöbel, M., & Manzey, D. (2007). Human redundancy in auto-

mation monitoring: Effects of social loafing and social compensation. Proceedings of

the Human Factors and Ergonomics Society 51st Annual Meeting, 587-591.

Dzindolet, M. T., Peterson, S , Pomranky, R., Pierce, L. G & Beck, H. (2003). The role of

trust in automation reliance. International Journal of Human-Computer Studies, 58,

697-718.

138 Literatur

Egan, J.P. (1975). Signal Detection Theory and ROC Analysis. New York: Academic Press.

Endsley, M.R. (1995). Toward a theory of situation awareness in dynamic systems. Human

Factors, 37, 32-64.

Endsley, M. R., and Kiris, E. O. (1995). The out-of-the-loop performance problem and level

of control in automation. Human Factors , 37, 381-394.

Fox, J. M. (1996). Effects of information accuracy on user trust and compliance. In CHI 1996

Conference on Human Factors in Computing Systems, 35-36. New York: Association

for Computing Machinery.

Galster, S. M., Bolia, R. S., Roe, M. & Parasuraman, R., 2001. Effect of automated cueing on

decision implementation in a visual search task. Proceedings of the 45th Annual Meeting

of the Human Factors and Ergonomics Society. Santa Monica, CA: Human Factors and

Ergonomics Society, 321-325.

Gérard, N., Huber, S., Nachtwei, J., Satriadarma, B. & Schubert, U. (2011). A framework for

designers to support prospective design of human computer interaction. International

Journal on Human-Computer Interaction, 2, 17-38.

Getty, D.J., Swets, J.A., Pickett, R.M. & Gonthier, D. (1995). System operator response to

warnings of danger: a laboratory investigation of the effects of the predictive value of a

warning on human response time. Journal of Experimental Psychologie: Applied, 1, 19-

33.

Gibson, J.J. (1977). The theory of affordances. In: R. Shaw & J. Bransford (Hrsg.) Perceiv-

ing, acting and knowing. Hillsdale, NJ: Erlbaum.

Hart, S. G., & Staveland, L. E. (1988). Development of NASA-TLX (Task Load Index):

Results of empirical and theoretical research. In P. A. Hancock, & N. Meshkati (Eds.),

Human Mental workload, 139-183. Amsterdam: Elsevier Science Publishers.

Literatur 139

Hauß, Y. & Timpe, K.-P. (2002). Automatisierung und Unterstützung im Mensch-Maschine-

System. In: K.-P. Timpe, T. Jürgensohn & H. Kolrep (Hrsg.), Mensch-Maschine-

Systemtechnik. Konzepte, Modellierung, Gestaltung, Evaluation (2. Auflage). Düssel-

dorf: Symposion.

Hertwig, R. & Erev, I. (2009). The description-experience gap in risky choice. Trends in

Cognitive Sciences, 13, 517-523.

Kahnemann, D., Slovic, P. & Tversky, A. (1982). Judgment under uncertainty: Heuristics

and biases. Cambridge, UK: Cambridge University Press.

Kahnemann, D. & Tversky, A. (1979). Prospect Theory: An analysis of decision under risk.

Econometrica, 47, 263-292

Kantowitz, B. H. & Sorkin, R. D. (1983). Human Factors: Understanding People-System

Relationships. New York: Wiley.

Kantowitz, B. H., Hanowski, R. J., & Kantowitz, S. C. (1997). Driver acceptance of unreli-

able traffic information in familiar and unfamiliar settings. Human Factors, 39, 164–

176.

Kerstholt, J. H. & Passenier, P. O. (2000). Fault management in supervisory control: the

effect of false alarms and support. Ergonomics, 43, 1371-1389.

Lee, J. D. & See, K. A. (2004). Trust in automation: Designing for appropriate reliance.

Human Factors, 46, 50-80.

Lorenz, B., DiNocera, F., Röttger, S. & Parasuraman, R. (2002). Automated fault-

management in a simulated spaceflight micro-world. Aviation, Space and Environ-

mental Medicine, 73, 886-897.

Macmillan, N. A. & Creelman, C.D. (1991). Detection theory: A user’s guide. Cambridge:

Cambridge University Press.

140 Literatur

Madhavan, P., Wiegmann, D.A. & Lacson, F.C. (2006). Automation failures on tasks easily

performed by operators undermine trust in automated aids. Human Factors, 48, 241-

256.

Maltz, M. & Meyer, J. (2001). Use of warnings in an attentionally demanding detection task.

Human Factors, 43, 217-226.

Manzey. D. (1998). Psychophysiologie mentaler Beanspruchung. In: F. Rösler (Hrsg.),

Ergebnisse und Anwendungen der Psychophysiologie. Enzyklopädie der Psychologie,

C, Serie I, Bd. 5, 799-864. Göttingen: Hofgrefe.

Metzger, U. & Parasuraman, R. (2005). Automation in future air traffic management: Effects

of reliable and imperfect detection aids on controller performance and workload, Hu-

man Factors, 47, 35-49.

Meyer, J. (2001). Effects of warning validitiy and proximity on responses to warnings. Hu-

man Factors, 43, 563-572.

Meyer, J. (2004). Conceptual issues in the study of dynamic hazard warnings. Human Fac-

tors, 46, 196-204.

Meyer, J., & Bitan, Y. (2002). Why better operators receive worse warnings. Human Factors,

44, 343-354.

Meyer, J., Feinshreiber, L. and Parmet, Y. (2003). Levels of automation in a simulated failure

detection task. Proceedings of the 2003 IEEE International Conference on Systems,

Man & Cybernetics, 2101--2107.

Molloy, R. & Parasuraman, R. (1996). Monitoring an automated system for a single failure:

vigilance and task complexity effects. Human Factors, 38, 211-322.

Literatur 141

Moray, N., Inagaki, T., & Itoh, M. (2000). Adaptive automation, trust, and self-confidence in

fault management of time-critical tasks. Journal of Experimental Psychology – Applied,

6, 44–58.

Mosier, K. L. & Skitka, L. J. (1996). Human decision-makers and automated decision aids:

Made for each other? In: R. Parasuraman & M. Mouloua (Hrsg.), Automation and Hu-

man Performance: Theory and Applications, 201-220. Mahwah, NJ: Lawrence Erlbaum

Associates.

Murphy, L., Szalma, J. L. & Hancock, P. A. (2004). Comparison of fuzzy signal detection and

traditional signal detection theory: analyses of duration discrimination of brief light

flashes. Proceedings of the 48th Annual Meeting of the Human Factors and Ergonomics

Society. New Orleans, LA: Human Factors and Ergonomics Society, 2494-2498.

NTSB (2006). National transportation safety board safety recommendation A-06-44 through

A-06-47. Washington DC: NTSB.

Nygren, T. W. (1991). Psychometric properties of subjective workload measurement

techniques: Implications for their use in the assessment of perceived workload.

Human Factors, 33, 17-33.

Parasuraman, R., Hancock, P.A. & Olofinboba, O. (1997). Alarm effectiveness in driver-

centered collision-warning systems. Ergonomics, 40, 390-399.

Parasuraman, R. & Manzey, D. (2010). Complacency and bias in human use of automation:

An attentional integration. Human Factors, 52, 381-410.

Parasuraman, R., Masalonis, A.J., & Hancock, P.A. (2000). Fuzzy signal detection theory:

Basic postulates and formulas for analyzing human and machine performance. Human

Factors, 42, 636-659.

142 Literatur

Parasuraman, R., Molloy, R. & Singh, I.L. (1993). Performance consequences of automation-

induced “complacency”. The International Journal of Aviation Psychology, 31, 1-23.

Parasuraman, R. & Riley, V. (1997). Humans and automation: Use, misuse, disuse, abuse.

Human Factors, 39, 230-253.

Parasuraman, R., Sheridan, T. B. & Wickens, C. D. (2000). A model for types and levels of

human interaction with automation. IEEE Transactions on Systems, Man and Cybernet-

ics – Part A: Systems and Humans, 30, 286 – 296.

Rice, S. (2009). Examining single and multiple-process theories of trust in automation.

Journal of General Psychology, 13, 303-319.

Rötting, M., Wozny, G., Klostermann, A. & Huss, J. (2007). Prospektive Gestaltung von

Mensch-Technik Interaktion. Tagungsband der 7. Berliner Werkstatt Mensch-Maschine-

Systeme. Düsseldorf: VDI-Verlag.

Sheridan, T. (1992). Telerobotics, automation and human supervisory control. Cambridge,

MA:MIT Press.

Sorkin, R.D., Kantowitz, B.H. & Kantowitz, S.C. (1988). Likelihood alarm displays. Human

Factors, 30, 445-459.

Sorkin, R. D., & Woods, D.D. (1985). Systems with human monitors: a signal detec-

tion analysis. Human-computer interaction. 1, 49-75.

St. John, M. & Manes, D. I. (2002). Making unreliable automation useful. Proceedings of the

Human Factors and Ergonomics Society 46th Annual Meeting (Santa Monica, CA:

Human Factors and Ergonomics Society).

Swets, J. A. (1964). Signal detection and recognition by human observers. New

York: John Wiley & Sons.

Literatur 143

Swets, J.A. (1992). The science of choosing the right decision threshold in high-stakes diag-

nostics. American Psychologist, 47, 522-532.

Swets, J.A., Tanner, W.P. & Birdsall, T. G. (1961). Decision processes in perception.

Psychological Review, 68, 301-340.

Tversky, A., & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and biases.

Science, 185, 1124-1131.

Tversky, A. & Kahneman D. (1981). The framing of decisions and the psychology of choice.

Science, 211, 453-458.

Wickens, C.D. (1984). Processing resources in attention. In: R. Parasaruman and R. Davies

(Hrsg.), Varieties of attention, 63-101. New York: Academic Press.

Wickens, C.D. (1992). Engineering psychology and human performance (2nd ed.). New York:

HarperCollins.

Wickens, C.D. (2002). Multiple resources and performance prediction. Theoretical Issues in

Ergonomics Science, 3, 159-177.

Wickens, C.D. (2008). Multiple resources and mental workload. Human Factors, 50, 449-

455.

Wickens, C. D. & Colcombe, A. (2007). Dual-task performance consequences of imperfect

alerting associated with a cockpit display of traffic information. Human Factors, 49,

839-850.

Wickens, C.D. & Dixon, S. (2007). The benefits of imperfect diagnostic automation: A

synthesis of the literature. Theoretical Issues in Ergonomics Science,8, 201-212.

Wickens, C. D., Dixon, S. R., Goh, J., & Hammer, B. (2005). Pilot dependence on imperfect

diagnostic automation in simulated UAVflights: An attentional visual scanning analysis.

Technical Report AHFD-05-02/MAAD-05-02. Savoy, IL: Universitiy of Illinois.

144 Literatur

Wickens, C. D. & Hollands, J. G. (2000). Engineering psychology and human performance

(3. Aufl.). Englewood Cliffs, NJ: Prentice-Hall.

Wickens, C.D., Rice, S., Keller, D., Hutchins, S., Hughes, J. & Clayton, K. (2009). False

alerts in air traffic control conflict alerting system: Is there a “cry wolf” effect”? Human

Factors, 51, 446 – 462.

Wickens, C. D. & Xu, X. (2002). Automation trust, reliability and attention. Technical Report

HMI 02-03 (AHFD-02-14/MAAD-02-2). Savoy, IL: University of Illinois.

Wiczorek, R. & Manzey D. (2011). Evaluating likelihood alarm systems as an alternative to

binary alarm systems. In: D. Waard, N. Gérard, L. Onnasch, R. Wiczorek & D. Manzey

(Eds.) Human centred automation, 69-83. Maastricht, the Netherlands: Shaker Publis-

hing.

Begriffsverzeichnis 145

Begriffsverzeichnis

a posteriori: bezeichnet die Wahrscheinlichkeit, dass dieses Ereignis unter der Voraussetzung

dass es durch einen beobachtbaren Wert indiziert wurde, tatsächlich stattgefunden hat.

a priori: bezeichnet die Auftretenswahrscheinlichkeit eines kritischen Ereignisses im System.

compliance: bezeichnet die Tendenz, auf einen Alarm unmittelbar und im erwarteten Sinne zu

reagieren.

correct rejection: bezeichnet im Rahmen der Signaldetektionstheorie eine korrekte Zurück-

weisung des Alarmsystems, das heißt, dass dieses keinen Alarm gibt, wenn tatsächlich auch

kein kritischer zugrundeliegender Zustand vorliegt.

cry wolf-Effekt: bezeichnet das ausbleibende oder zeitlich verzögerte Reagieren eines Opera-

teurs auf einen Alarm.

extreme responding: bezeichnet ein extremes Antwortverhalten auf die Hinweise eines

Alarmsystems, indem entweder auf über 90% oder aber unter 10% aller Alarme reagiert wird.

false alarm: bezeichnet im Rahmen der Signaldetektionstheorie einen Alarm des Alarmsys-

tems, welches fälschlicherweise gegeben wurde, obwohl kein kritisches Ereignis zugrunde

lag.

hit: bezeichnet im Rahmen der Signaldetektionstheorie einen Treffer des Alarmsystems, das

heißt einen Alarm bei einem zugrundeliegenden kritischen Ereignis.

informed compliance: bezeichnet die Tendenz, auf einen Alarm zu reagieren, indem die

Rohdaten hinter dem Alarm überprüft werden.

informed reliance: bezeichnet die Tendenz, auf einen alarm-freien Trial zu reagieren, indem

die Rohdaten überprüft werden. Da dieses Handeln eine Reaktion auf den alarm-freien Trial

impliziert, darf korrekterweise eigentlich nicht mehr von einer Art reliance gesprochen

werden, da diese ja in ihrer Ausgangs-Definition gerade das Nicht-Eingreifen definiert. Um

das Überprüfen der Rohdaten in grünen und in roten Trials jedoch begrifflich möglichst

einfach kontrastieren zu können und um Konfundierungen durch zu viele neue Fach-Termini

zu vermeiden, wird in dieser Arbeit weiterhin der Begriff „informed reliance“ verwendet.

miss: bezeichnet im Rahmen der Signaldetektionstheorie ein durch das Alarmsystem verpass-

tes kritisches Ereignis, das heißt keinen Alarm trotz kritischen Systemzustands.

negative predicitve value: bezeichnet die Wahrscheinlichkeit, dass bei Ausbleiben eines

Alarms auch tatsächlich kein kritisches Ereignis vorliegt.

payoff: bezeichnet ein Punktesystem, bei bestimmte Verhaltensweise durch Punktzugabe oder

–abzug verstärkt bzw. bestraft werden. Die erreichte Punktzahl wird den Probanden am Ende

des Experiments in Form von monetären Mitteln ausgezahlt.

146 Begriffsverzeichnis

probability matching: bezeichnet die Anpassung der Antwortfrequenz des Operateurs an die

Reliabilität des Alarmsystems.

positive predictive value: bezeichnet die Wahrscheinlichkeit, die besagt, dass bei einem

gegebenen Alarm auch tatsächlich ein kritisches Ereignis vorliegt. die NPV repräsentiert

reliance: bezeichnet das Ausbleiben einer Reaktion, wenn das Alarmsystem keinen Alarm

gibt, das heißt keinen kritischen Zustand anzeigt.

tracking: bezeichnet eine Gruppe von Aufgaben, in denen das übergeordnete Ziel ist, ein

statisches oder sich bewegendes Objekt zu detektieren und möglichst genau zu verfolgen bzw.

zu treffen.

trade-off: bezeichnet eine Entscheidung im Sinne eines Kompromisses zwischen zwei gegen-

läufig abhängigen Faktoren.

trial: bezeichnet einen einzelnen Versuchsdurchgang innerhalb eines Blocks. Ein Trial

entspricht in vorliegenden Studien also einem Reaktionsbehälter.

workload: bezeichnet in einem ersten Schritt die mentale Belastung, die ein Operateur durch

die jeweilige Anzahl und Art der Arbeitsaufgaben und Situationsfaktoren wie Zeitdruck

erfährt. Diese mentale Belastung resultiert dann ein einer differentiell empfundenen Bean-

spruchung, die abhängig ist vom Zustand und den coping-Fähigkeiten des Individuums.

Abbildungsverzeichnis 147

Abbildungsverzeichnis

Abbildung 1: Automationsstufen für zwei Beispiel-Systeme (nach Parasuraman, Sheridan &

Wickens, 2000, S. 288)...........................................................................................12

Abbildung 2: Drei-stüfiges Entscheidungsmodell (nach Allendoerfer, Pai & Friedman-Berg

(2008)......................................................................................................................15

Abbildung 3: Wahrscheinlichkeitsverteilung der Systemzustände, Sensitivität und

Antwortkriterium ....................................................................................................19

Abbildung 4: ROC-Kurve (nach Macmillan & Creelamn, 1991).............................................21

Abbildung 5: Einfluss der Fehler-Basisrate auf PPV und NPV ...............................................28

Abbildung 6: multiples Prozessmodell nach Rice (2009).........................................................32

Abbildung 7: Hypothetischer umgekehrt u-förmiger Verlauf der informed compliance und

asymptotisch ansteigender Verlauf der compliance. ..............................................43

Abbildung 8: Das Interface von M-TOPS 2 .............................................................................47

Abbildung 9: mitteleres Bearbeiten von Alarmtrials in Prozent und abolute Anzahl von

extremen Antwortstrategien....................................................................................53

Abbildung 10: mittleres Bearbeiten von alarm-freien Trials in Prozent und abolute Anzahl von

extremen Antwortstrategien....................................................................................54

Abbildung 11: Prozentualer Anteil von korrekten Reaktionen an allen gezeigten Reaktionen in

Alarmtrials, gemittelt über beide Experimentalblöcke...........................................71

Abbildung 12: Verhaltensanteile in Alarmtrials, gemittelt über beide Experimentalblöcke....72

Abbildung 13: Prozentualer Anteil von korrekten Reaktionen an allen gezeigten Reaktionen in

alarmfreien Trials, gemittelt über beide Experimentalblöcke.................................74

Abbildung 14: Verhaltensanteile in alarm-freien Trials, gemittelt über beide Experimentalblöcke

.................................................................................................................................76

Abbildung 15: Verhaltensanteile in Alarmtrials.......................................................................92

Abbildung 16: Prüfmenü in der erweiterten Form von M-TOPS 2..........................................97

Abbildung 17: Anteil an korrekt bearbeiteten Containern in roten und grünen Trials...........101

Abbildung 18: Verhaltensanteile in Alarmtrials.....................................................................102

Abbildung 19: Verhaltensanteile in alarm-freien Trials.........................................................103

Abbildung 20: Anteil an korrekt bearbeiteten Containern in roten und grünen Trials...........116

Abbildung 21: Verhaltensanteile in Alarmtrials.....................................................................117

Abbildung 22: Verhaltensanteile in alarm-freien Trials.........................................................118

148 Tabellenverzeichnis

Tabellenverzeichnis

Tabelle 1: Ereignis-Reaktions-Matrix…………………………..................................................17

Tabelle 2: Manipulierte Basisrate und die resultierenden PPV und NPV in der

Ausgangsstudie..…………………………...………………………………….....….51

Tabelle 3: Mittelwerte und Standardabweichungen der geschätzten PPV und NPV in der

Ausgangsstudie …………………………………………….…………………….…52

Tabelle 4: Mittelwerte und Standardabweichungen der geschätzten PPV und NPV

in Studie 1……………..……………………...………………………………..…....68

Tabelle 5: Manipulierte Basisrate und resultierende PPV in Studie 2…..…………….….……...90

Tabelle 6: Mittelwerte und Standardabweichungen der geschätzten PPV und

NPV in Studie 3…………………..……………………………………………........99

Tabelle 7: Mittelwertsunterschiede der Items Zeitdruck, Frustration und Zufriedenheit des

NASA-TLX zwischen den Studien 1 und 3………………….….………………….100

Tabelle 8: Mittelwerte und Standardabweichungen der geschätzten PPV und NPV

in Studie 4…………………………………………………………………………..114

Tabelle 9: Mittelwertsunterschiede der Items Zeitdruck, Frustration und Zufriedenheit des

NASA-TLX zwischen den Studien 1 und 4…..………………………………….…114

Anhang 149

Anhang

Anhang A: Werte des Expected Value für die einzelnen Bedingungen in Alarmtrials………...150

Anhang B: Instruktion zu den Experimenten 1 + 2………………………………………...…..151

Anhang C: Multiple-Choice-Fragebogen zur Verständnisabfrage……………………………..158

Anhang D: Schätzfragebogen…………………………………………………………………..159

Anhang E: Auszug des NASA-TLX……………………………………………………………161

Anhang F: Deskriptive Statistiken der Ausgangsstudie……………………………………...…164

Anhang G: Deskriptive Statistiken von Studie 1…………………………………………….…165

Anhang H: Deskriptive Statistiken von Studie 2……………………………………………….166

Anhang I: Deskriptive Statistiken von Studie 3…………………………………………...……167

Anhang J: Deskriptive Statistiken von Studie 4……………………………………..…………168

150 Anhang A

Anhang A - Werte des Expected Value für die einzelnen Bedingungen in

Alarmtrials

In Kapitel 7.3.3 wurde der Wert bei der impliziten Entscheidungsfindung des „expected

value“ diskutiert. Dieser Wert vereint die Basisrate, die PPV und die NPV mit dem Outcome,

der für die möglichen Reaktionen zu erwarten ist. Bei Werten unter 1 wird der Gewinn

demnach mit einem Ignorieren des Signals oder des Alarms maximiert, bei Werten unter 1 mit

dem direkten Befolgen des Alarms. Generiert man mit dieser Formel eine Entscheidungshilfe

für vorliegende PPV und den Outcome für hits, misses, false alarms und correct rejections,

erhält man folgende Werte für Alarmtrials in den einzelnen Bedingungen:

PPV = 0.1, expected value = 0,11

PPV = 0.3, expected value = 0,43

PPV = 0.5, expected value = 1

PPV = 0.7, expected value = 2,33

PPV = 0.9, expected value = 9

Die vorliegenden Werte lassen erkennen, dass die mittlere PPV von 0.5 eine maximale Unsi-

cherheit generiert (Ignorieren und Befolgen von Alarmen führt zum gleichen Outcome). Unter

dieser Bedingung ist das Prüfen die einzige Möglichkeit, die Unsicherheit zu reduzieren und

somit den Outcome zu erhöhen. Bei PPV von 0.3 und 0.7 weicht der expected value schon

deutlich weiter von 1 ab bis bei den zwei extremen PPV 0.1 und 0.9 anhand der deutlich von

1 abweichenden Werte klar das Ignorieren bzw. direkte Befolgen des Alarms vorzuziehen ist.

Anhang B 151

Anhang B - Instruktionen zu den Experimenten 1 und 2

152 Anhang B

Anhang B 153

154 Anhang B

Anhang B 155

156 Anhang B

Anhang B 157

158 Anhang C

Anhang C – Multiple-Choice-Fragebogen zur Verständnisabfrage

Verständnis-Abfrage

Du hast eben ein paar Minuten lang Reaktionsbehälter überwacht.

Welche Möglichkeiten gibt es für dich, auf einen Container zu reagieren – unabhängig davon, ob

das Warnsystem einen Alarm (rotes Licht) gibt oder nicht (grünes Licht)?

Welche unten genannten Aussagen sind theoretisch richtig, wenn ein Container auf deinem

Überwachungsmonitor ist?

(Mehrfachnennungen sind möglich.)

 ich kann den Reaktionsbehälter ignorieren und gar nichts tun

 ich kann den Druck eines Reaktionsbehälters prüfen, dann „weiter“ klicken und weiß

dann zu 100 Prozent, ob ein Fehler im Reaktionsbehälter vorlag oder nicht

 ich kann die Temperatur und den Druck eines Reaktionsbehälters prüfen und weiß dann

zu 100 Prozent, ob ein Fehler im Reaktionsbehälter vorlag oder nicht

 ich kann einen Reaktionsbehälter direkt bearbeiten ohne zu prüfen

 ich kann die Temperatur eines Reaktionsbehälters prüfen, dann „weiter“ klicken und weiß

dann zu 100 Prozent, ob ein Fehler im Reaktionsbehälter vorlag oder nicht

Anhang D 159

Anhang D – Schätzfragebogen am Beispiel der Bedingung PPV = 0.1

Blätter bitte erst um, wenn du diese Seite vollständig bearbeitest hast!

Du hast gerade mit einem Warnsystem gearbeitet, das dich bei Fehlern in Reaktionsbehältern warnen soll.

Ein Fehler in einem Reaktionsbehälter ist ein zu hohes Molekulargewicht, verursacht durch eine zu hohe

Temperatur.

In diesem Durchgang hast du ca. 100 Container kontrolliert.

Uns interessiert nun, wie zuverlässig du dieses System erlebt hast. Deswegen wirst du weiter unten

einschätzen, wie viele korrekte und inkorrekte Hinweise das System gegeben hat.

Korrekte Entscheidungen sind:

Æ Alarm (rote Lampe) und es lag tatsächlich ein Fehler vor (Temperatur zu hoch)

Æ kein Alarm (grüne Lampe) und es lag KEIN Fehler vor

Inkorrekte Entscheidungen sind:

Æ Alarm (rote Lampe) obwohl KEIN Fehler vorlag

Æ kein Alarm (grüne Lampe) obwohl ein Fehler vorlag (Temperatur zu hoch)

Angenommen, du hättest 100 Container kontrolliert, für die du jeweils eine Diagnose vom Warnsystem

bekommen hast: wie würdest du diese 100 Diagnosen in die folgende Häufigkeitsmatrix einordnen?

(Die Gesamtsumme aus allen vier Feldern muss 100 ergeben)

Wenn du die vier Felder ausgefüllt hast, überprüfe bitte noch einmal, ob die Summe aller vier Felder 100

ergibt. Dann kannst du umblättern.

Rote Lampe

(Alarm)

Grüne Lampe

(kein Alarm)

Korrekte

Entscheidungen

Alarm UND

Fehler

geschätzte

Anzahl:

_ _

Kein Alarm UND

kein Fehler

geschätzte

Anzahl:

_ _

Inkorrekte Entschei-

dungen

Alarm

OBWOHL

kein Fehler

geschätzte

Anzahl:

_ _

Kein Alarm

OBWOHL

Fehler

geschätzte

Anzahl:

_ _

160 Anhang D

Nun erfährst du, wie die tatsächliche Verteilung der Alarme auf die verschiedenen Felder ausfiel:

Wende dich jetzt bitte an die Versuchsleiterin.

Rote Lampe

(Alarm)

Grüne Lampe

(kein Alarm)

Korrekte

Entscheidungen

Alarm

UND

Fehler

Anzahl:

Kein Alarm

UND

kein Fehler

Anzahl:

Inkorrekte Entschei-

dungen

Alarm

OBWOHL

kein Fehler

Anzahl:

Kein Alarm

OBWOHL

Fehler

Anzahl:

Anhang E 161

Anhang E – Fragebogen zur subjektiven Anstrengung: NASA-TLX

162 Anhang E

Anhang E 163

164 Anhang F

Anhang F – Deskriptive Statistiken zur Ausgangsstudie

Mittleres Bearbeiten mit Standardabweichung in roten und grünen Trials in Prozent. Das

mittlere Ignorieren ergibt sich entsprechend durch die Subtraktion des anteiligen Bearbeitens

von 100

PPV/NPV Bearbeiten in Alarmtrials Bearbeiten in alarm-freien

Trials

.1 / .98 M = 25

SD = 49

M = 02

SD = 04

.3 / .93 M = 36

SD = 34

M = 02

SD = 05

.5 / .86 M = 46

SD = 35

M = 04

SD = 07

.7 / .72 M = 86

SD = 19

M = 10

SD = 16

.9 / .41 M = 94

SD = 09

M = 36

SD = 75

Anhang G 165

Anhang G – Deskriptive Statistiken zu Studie 1

Alarmtrials Alarm-freie Trials

PPV/NPV Bearbeiten Prüfen Ignorieren Bearbeiten Prüfen Ignorieren

.1 / .98 M = 0

SD = 0

M = 80

SD = 20

M = 19

SD = 20

M = 0

SD = 0

M = 08

SD = 14

M = 92

SD = 14

.3 / .93 M = 1

SD = 2

M = 83

SD = 12

M = 16

SD = 10

M = 0

SD = 0

M = 42

SD = 34

M = 58

SD = 34

.5 / .86 M = 11

SD = 19

M = 68

SD = 25

M = 21

SD = 15

M = 1

SD = 2

M = 36

SD = 28

M = 63

SD = 28

.7 / .72 M = 22

SD = 23

M = 63

SD = 27

M = 14

SD = 07

M = 0

SD = 1

M = 67

SD = 28

M = 33

SD = 28

.9 / .41 M = 62

SD = 34

M = 28

SD = 34

M = 09

SD = 05

M = 4

SD = 12

M = 70

SD = 25

M = 25

SD = 23

Mittlere Verhaltensanteile mit Standardabweichung in roten und grünen Trials in Prozent

PPV/NPV Anteil korrekt in roten Trials Anteil korrekt in grünen Trials

.1 / .98 M = 98

SD = 04

M = 99

SD = 01

.3 / .93 M = 96

SD = 05

M = 96

SD = 03

.5 / .86 M = 92

SD = 10

M = 92

SD = 06

.7 / .72 M = 85

SD = 11

M = 90

SD = 10

.9 / .41 M = 88

SD = 07

M = 87

SD = 16

Mittlerer Anteil an korrekt bearbeiteten Containern

PPV/NPV Punktzahl Bestellaufgabe Punktzahl Überwachungsaufgabe

.1 / .98 M = 85

SD = 21

M = 271

SD = 33

.3 / .93 M = 74

SD = 24

M = 238

SD = 38

.5 / .86 M = 63

SD = 24

M = 220

SD = 37

.7 / .72 M = 79

SD = 26

M = 213

SD = 76

.9 / .41 M = 74

SD = 19

M = 183

SD = 39

Mittlere erreichte Punktzahl in der Bestell- und Überwachungsaufgabe

166 Anhang H

Anhang H – Deskriptive Statistiken zu Studie 2

PPV Bearbeiten Prüfen Ignorieren

.7 M = 21

SD = 32

M = 66

SD = 33

M = 13

SD = 6

.75 M = 43

SD = 33

M = 46

SD = 33

M = 11

SD = 3

.8 M = 34

SD = 31

M = 49

SD = 34

M = 17

SD = 8

.85 M = 42

SD = 41

M = 46

SD = 40

M = 11

SD = 9

.9 M = 52

SD = 38

M = 38

SD = 39

M = 10

SD = 8

Mittlere Verhaltensanteile mit Standardabweichung in Alarmtrials in Prozent

Anhang I 167

Anhang I – Deskriptive Statistiken zu Studie 3

Alarmtrials Alarm-freie Trials

PPV / NPV Bearbeiten Prüfen Ignorieren Bearbeiten Prüfen Ignorieren

.1 / .98 M = 01

SD = 4

M = 64

SD = 32

M = 28

SD = 34

M = 00

SD = 00

M = 03

SD = 07

M = 96

SD = 09

.3 / .93 M = 09

SD = 17

M = 78

SD = 26

M = 11

SD = 12

M = 00

SD = 01

M = 21

SD = 35

M = 76

SD = 37

.5 / .86 M = 13

SD = 19

M = 69

SD = 23

M = 13

SD = 22

M = 00

SD = 00

M = 25

SD = 34

M = 74

SD = 36

.7 / .72 M = 39

SD = 42

M = 50

SD = 36

M = 06

SD = 05

M = 05

SD = 18

M = 35

SD = 36

M = 54

SD = 40

.9 / .41 M = 74

SD = 25

M = 17

SD = 21

M = 09

SD = 07

M = 19

SD = 37

M = 55

SD = 38

M = 24

SD = 24

Mittlere Verhaltensanteile mit Standardabweichung in roten und grünen Trials in Prozent

PPV/NPV Anteil korrekt in roten Trials Anteil korrekt in grünen Trials

.1 / .98 M = 96

SD = 06

M = 99

SD = 01

.3 / .93 M = 89

SD = 14

M = 95

SD = 03

.5 / .86 M = 84

SD = 17

M = 87

SD = 05

.7 / .72 M = 82

SD = 10

M = 80

SD = 12

.9 / .41 M = 85

SD = 04

M = 74

SD = 17

Mittlerer Anteil an korrekt bearbeiteten Containern

PPV/NPV Punktzahl Bestellaufgabe Punktzahl Überwachungsaufgabe

.1 / .98 M = 89

SD = 23

M = 135

SD = 20

.3 / .93 M = 87

SD = 23

M = 108

SD = 16

.5 / .86 M = 84

SD = 26

M = 93

SD = 17

.7 / .72 M = 83

SD = 26

M = 83

SD = 18

.9 / .41 M = 84

SD = 23

M = 104

SD = 23

Mittlere erreichte Punktzahl in der Bestell- und Überwachungsaufgabe

168 Anhang J

Anhang J – Deskriptive Statistiken zu Studie 4

Alarmtrials Alarm-freie Trials

PPV / NPV Bearbeiten Prüfen Ignorieren Bearbeiten Prüfen Ignorieren

.1 / .98 M = 00

SD = 00

M = 45

SD = 34

M = 55

SD = 34

M = 00

SD = 00

M = 02

SD = 06

M = 98

SD = 06

.3 / .93 M = 06

SD = 16

M = 75

SD = 24

M = 19

SD = 14

M = 00

SD = 00

M = 10

SD = 12

M = 90

SD = 12

.5 / .86 M = 22

SD = 31

M = 52

SD = 30

M = 26

SD = 19

M = 00

SD = 01

M = 25

SD = 24

M = 75

SD = 24

.7 / .72 M = 57

SD = 32

M = 25

SD = 28

M = 19

SD = 21

M = 00

SD = 00

M = 31

SD = 30

M = 69

SD = 30

.9 / .41 M = 55

SD = 32

M = 30

SD = 26

M = 15

SD = 11

M = 01

SD = 03

M = 66

SD = 22

M = 33

SD = 23

Mittlere Verhaltensanteile mit Standardabweichung in roten und grünen Trials in Prozent

PPV/NPV Anteil korrekt in roten Trials Anteil korrekt in grünen Trials

.1 / .98 M = 94

SD = 05

M = 98

SD = 01

.3 / .93 M = 86

SD = 15

M = 92

SD = 03

.5 / .86 M = 76

SD = 15

M = 88

SD = 06

.7 / .72 M = 70

SD = 12

M = 80

SD = 11

.9 / .41 M = 80

SD = 08

M = 78

SD = 14

Mittlerer Anteil an korrekt bearbeiteten Containern

PPV/NPV Punktzahl Bestell-

aufgabe

Punktzahl Tankfüll-

aufgabe

Punktzahl Überwachungs-

aufgabe

.1 / .98 M = 87

SD = 23

M = 91

SD = 33

M = 138

SD = 06

.3 / .93 M = 70

SD = 21

M = 83

SD = 15

M = 113

SD = 23

.5 / .86 M = 73

SD = 23

M = 84

SD = 17

M = 87

SD = 24

.7 / .72 M = 78

SD = 22

M = 96

SD = 14

M = 78

SD = 28

.9 / .41 M = 65

SD = 23

M = 88

SD = 15

M = 96

SD = 29

Mittlere erreichte Punktzahl in der Bestell-, Tankfüll- und Überwachungsaufgabe