Skip to main content
Open AccessOriginalarbeit

Das Konfidenz- / Signifikanzniveau impliziert ein bestimmtes Kostenverhältnis zwischen Fehler 1. Art und Fehler 2. Art

Für ein stärkeres Einbeziehen der Entscheidungstheorie in die psychologische Einzelfalldiagnostik

Published Online:https://doi.org/10.1026/0012-1924/a000329

Abstract

Zusammenfassung: Die psychologische Einzelfalldiagnostik erfordert oft konkrete Entscheidungen, z. B. ob Personen in einem psychologischen Bereich „unterdurchschnittlich“ sind. Alle deutschen Lehrbücher empfehlen, die Messunsicherheit von psychologischen Tests zu berücksichtigen, z. B. durch kritische Differenzen, Hypothesentests oder Konfidenzintervalle. Diese Empfehlungen ähneln jedoch Heuristiken ohne eine nachvollziehbare Begründung, wie das geeignete Signifikanz- oder Konfidenzniveau zu wählen ist. Die statistische Entscheidungstheorie ist ein mathematisches Framework, um rationale Entscheidungen zu treffen. Obwohl sie bereits früh in der Psychologie behandelt wurde, findet sie heute wenig Beachtung. Aus einer entscheidungstheoretischen Perspektive betrachtet, lassen sich die impliziten Annahmen aktueller Entscheidungsheuristiken aufzeigen. Die Verwendung zweiseitiger Hypothesentests und Konfidenzintervalle mit einem Signifikanzniveau von alpha = 0.05 impliziert beispielsweise, dass Fehler 1. Art 39-mal schwerwiegender eingestuft werden als Fehler 2. Art. In diesem Artikel geben wir eine kurze Einführung in die Entscheidungstheorie und nutzen dieses Framework, um die Auswirkungen auf die derzeitige Praxis zu erörtern. Außerdem stellen wir eine Umfrage unter klinischen Neuropsycholog_innen vor, die für ein Fallbeispiel ihre internen Kostenverhältnisse angaben. Obwohl die Kostenverhältnisse der Praktiker_innen variierten, wählte die Mehrheit weniger extreme Verhältnisse als die üblichen Heuristiken vermuten ließen. Wir argumentieren, dass die Einzelfalldiagnostik von einer expliziten Berücksichtigung entscheidungstheoretischer Implikationen profitieren würde und skizzieren mögliche zukünftige Forschungsrichtungen.

The Confidence / Significance Level Implies a Certain Cost Ratio Between Type I Error and Type II Error. An Appeal for a Stronger Focus on Decision Theory in Psychological Assessment

Abstract: Psychological assessment requires decisions, such as whether a person is “below the norm” in some psychological domain. German textbooks recommend considering the measurement uncertainty of psychological tests (critical differences, hypothesis tests, confidence intervals). However, these recommendations resemble heuristics without a rationale on choosing the appropriate significance or confidence level. When viewed from the perspective of decision theory, one can show the implicit assumptions of current decision heuristics. For example, hypothesis tests and confidence intervals with a significance level of alpha = 0.05 imply that type I errors are 39 times as costly as type II errors. In this contribution, we introduce decision theory and use this framework to discuss the implications of current assessment practices. We present a survey of neuropsychologists who reported their internal cost ratio for an assessment scenario. The majority chose less extreme ratios than common heuristics would imply. We argue that psychological assessment would benefit from explicitly considering the implications of decision theory.

In der psychologischen Einzelfalldiagnostik stehen wir häufig vor der Aufgabe, eine konkrete Entscheidung über eine Person zu treffen. Hierin unterscheidet sich die Einzelfalldiagnostik von psychologischer (Grundlagen–)‌Forschung, in der explizite Entscheidungen nicht zwingend notwendig sind (Irtel, 1995). Bei der Diagnostik einer neurokognitiven Störung könnte ein / eine Neuropsycholog_in zum Beispiel daran interessiert sein, ob die psychologische Eigenschaft Merkfähigkeit einer Patientin / eines Patienten „unterdurchschnittlich“ ist; oder ein / eine Schulpsycholog_in könnte erfassen wollen, ob ein Kind „überdurchschnittlich“ intelligent ist. Hierbei gilt es zu definieren, was überhaupt mit Durchschnitt gemeint ist. Oft findet man die Festlegung, dass Testwerte, die zwischen plus und minus einer Standardabweichung (SD) um den Mittelwert in der Normstichprobe liegen, als durchschnittlich gelten. Im Falle einer Normalverteilung entspricht das ungefähr 68 % aller Personen der Normstichprobe. Eine daraus resultierende Diagnose ist häufig stellvertretend für eine reale Entscheidung, z. B. ob die Patientin / der Patient eine Therapie bekommt. In der Praxis ist es zum Teil immer noch üblich, dass Psycholog_innen im diagnostischen Prozess einen Testwert aus einem psychologischen Test direkt mit einem theoretischen Normwert vergleichen. Der Testwert kann hierfür in verschiedene Normwerte überführt werden, die sich in der Festlegung des Mittelwerts und der SD unterscheiden; unter anderem IQ-Werte oder Standardwerte. Dieses Vorgehen missachtet jedoch, dass kein psychologischer Test zu 100 % reliabel misst (Bühner, 2021; Krohne & Hock, 2015). Das heißt, psychologische Messungen sind immer messfehlerbehaftet. Der Standardmessfehler (SMF) quantifiziert den Fehler bei der Messung einer konkreten Person. Die Berechnung unterscheidet sich je nach angenommenem Testmodell. Um dem Umstand unreliabler Messungen Rechnung zu tragen, muss der SMF in der Ergebnisinterpretation berücksichtigt werden (Bühner, 2021). Die wichtigsten inferenzstatistischen Verfahren sind Konfidenzintervalle (KI), Hypothesentests (HT) oder kritische Differenzen (KD), die alle drei den SMF für ihre Berechnung heranziehen.

In deutschsprachigen Lehrbüchern zur psychologischen Diagnostik ist es üblich, dass die Bedeutsamkeit des SMF betont wird, wenn es darum geht die Genauigkeit der psychologischen Messung darzustellen (z. B. durch die Angabe von KIs in Gutachten; s. Qualitätsstandards für psychologische Gutachten des Diagnostik- und Testkuratoriums der Föderation Deutscher Psychologenvereinigungen BDP und DGPs, 2017). Betrachten wir jedoch die Ebene der Entscheidungsfindung, findet sich in dieser Literatur nur wenig dazu, dass die Wahl des Signifikanzniveaus α bei KI, HT und KD eine bedeutsame entscheidungstheoretische Implikation mit sich bringt: die Gewichtung der Kosten der beiden Fehlentscheidungen, Fehler 1. Art und Fehler 2. Art (falsch-positiv bzw. falsch-negativ). Diagnostische Entscheidungen werden natürlicherweise mithilfe von HT oder KD beantwortet. Allerdings ist eine äquivalente Entscheidung auch mithilfe von KIs möglich, was in der Praxis auch häufig geschieht. In diesem Artikel untersuchen wir in einem Literaturreview aktueller deutscher Lehrbücher, welche Empfehlungen bezüglich Entscheidungsgrundlagen und -regeln in der psychologischen Diagnostik und Testtheorie genannt werden. Im Anschluss geben wir eine Einführung in die statistische Entscheidungstheorie und zeigen auf Basis des Literaturreviews die Implikationen auf, die sich daraus für die Praxis ergeben. Unter anderem zeigen wir, dass die Verwendung von zweiseitigen KIs, HTs oder KDs für Entscheidungen mit einem Signifikanzniveau von α = .05 impliziert, dass Fehler 1. Art 39-mal schwerwiegender sind als Fehler 2. Art. Wir kontrastieren diese aus Konventionen resultierenden Gewichtungen mit einer kurzen Befragung praktisch tätiger Neuropsycholog_innen, um Diskrepanzen zwischen Theorie und Praxis deutlich zu machen. Abschließend diskutieren wir Möglichkeiten, wie die psychologische Diagnostik von einem stärkeren Fokus auf die Entscheidungstheorie profitieren könnte.

Literaturreview

Wir recherchierten in den einschlägigen deutschen Lehrbüchern, welche Entscheidungsgrundlagen für die Einzelfalldiagnostik genannt und ob diese mit speziellen Empfehlungen bezüglich festzulegender Parameter (z. B. Signifikanzniveau α) versehen werden. Weiter untersuchten wir, ob und, wenn ja, wie konkrete Abschnitte (z. B. „unterdurchschnittlich“) auf dem latenten Kontinuum psychologischer Merkmale definiert werden. Bevor wir die Ergebnisse des Reviews präsentieren, wollen wir jedoch einige wichtige Begrifflichkeiten und Konzepte klären: Das beobachtete Testergebnis einer konkreten Person bezeichnen wir als Testwert. Demgegenüber steht der (uns eigentlich interessierende) wahre Wert dieser Person auf dem psychologischen Konstrukt, das der Test vorgibt zu messen.1 Die Testwerte können entweder in unstandardisierter (z. B. Punkte in einem Fragebogen) oder in standardisierter (z. B. z-Werte, Faktorwerte) Form wiedergegeben werden. Den wahren Wert betrachten wir in unserem Artikel in standardisierter Form. Um eine sprachlich verständliche Rückmeldung an die getestete Person oder mögliche Entscheidungsträger_innen geben zu können, wird das Kontinuum des latenten Konstrukts häufig in Abschnitte aufgeteilt (Diagnostik- und Testkuratorium der Föderation Deutscher Psychologenvereinigungen, 2017). Eine häufige Aufteilung ist zum Beispiel in „unterdurchschnittlich“, „durchschnittlich“ und „überdurchschnittlich“. Auf Basis des Testwerts wird dann entschieden, in welchen dieser Abschnitte der wahre Wert der Person vermutlich fällt. Es ist an dieser Stelle jedoch wichtig zu erwähnen, dass die Einteilung der Abschnitte auf dem latenten Kontinuum arbiträr ist. Ebenso ist die Anzahl der Abschnitte frei wählbar. Es ist zwar geläufig, den Abschnitt plus / minus eine SD um den Mittelwert als „durchschnittlich“ zu bezeichnen. Man könnte jedoch ebenso auch den Interquartilsabstand wählen, demzufolge die mittleren 50 % als Durchschnitt gelten (Bühner, 2021). Der wahre Wert einer Person könnte also je nach Definition in einen anderen Abschnitt fallen, was auch die Rückmeldung an die getestete Person verändert. Damit ist Transparenz hinsichtlich der verwendeten Kategorisierung unbedingt notwendig.

Die Ergebnisse des Reviews sind in dem Elektronischen Supplement ESM 1 dargestellt. Wie bereits erwähnt, stellen die Lehrbücher die Wichtigkeit des SMF bei der Betrachtung der Messgenauigkeit heraus. Unterschiede bestehen darin, welche Entscheidungsgrundlagen genannt werden, wobei grundsätzlich KI, HT und KD jeweils mindestens einmal genannt werden. Es kann jedoch ohnehin gezeigt werden, dass diese im Kontext diagnostischer Entscheidungen mathematisch äquivalent sind. Ein zweiseitiger HT mit Signifikanzniveau α testet in der Einzelfalldiagnostik etwa, ob sich der wahre Wert in kognitiver Leistungsfähigkeit einer Person von einem theoretisch relevanten Normwert aus der Population unterscheidet (z. B. z = 0; entspräche dem Populationsmittel). Die KD für das entsprechende Beispiel gibt an, wie stark der (standardisierte) beobachtete Testwert vom theoretisch relevanten Normwert aus der Population abweichen muss, damit der HT einen signifikanten Unterschied anzeigt. Ebenso entspricht ein zweiseitiges KI mit Konfidenzniveau 1 – α dem oben genannten HT. Der theoretisch relevante Normwert aus der Population befindet sich genau dann außerhalb des KIs, wenn auch der HT einen signifikanten Unterschied anzeigt. Wir werden die Überlegungen in unserem Artikel primär auf KIs beziehen. KIs haben in der Einzelfalldiagnostik die größte praktische Relevanz, da sie in jedem psychologischen Gutachten angegeben werden sollten (Diagnostik- und Testkuratorium der Föderation Deutscher Psychologenvereinigungen, 2017). Aufgrund der Äquivalenz gelten alle Überlegungen aber analog für HTs und KDs.2

Beispiel zur Äquivalenz von KI, HT und KD: Unterscheidet sich der wahre Wert einer Person mit standardisiertem Testwert Z in einem Test mit Reliabilität REL vom Populationsmittelwert 0?

KI.95 = Z ± 1.96 Wert 0 nicht in KI.95 ?

HT.05 = HT.05im kritischen Bereich ?

KD.05 = 1.96 · → |Z – 0| größer als KD.05 ?

In der frequentistischen Interpretation besagt ein KI Folgendes: Wenn wir eine Person unendlich oft mit dem gleichen Test testen, unendlich viele Testwerte dieser Person realisieren und für jeden realisierten Testwert ein KI berechnen würden, dann enthielten (1 – α) · 100 % all dieser KIs den wahren Wert der Person.

Bei der Aufteilung des latenten Kontinuums in Abschnitte zeigt sich, dass häufig von „(über- / unter–)‌durchschnittlich“ (Beauducel & Leue, 2014; Bühner, 2021) oder auch „(un)‌auffällig“ (Kubinger, 2019) die Rede ist. Meistens wird je nach Lage eines errechneten KI entschieden, in welchen Abschnitt auf dem Eigenschafts- oder Fähigkeitsspektrum der wahre Wert einer Person fällt. Am Beispiel von Intelligenzdiagnostik (IQ-Normwerte: M = 100, SD = 15) sieht diese KI-Regel wie folgt aus: Wenn der Testwert einer Person mehr als eine SD unterhalb des Mittelwerts liegt (also unter 85) und die obere Grenze des KI den Wert 85 nicht enthält, dann gilt der wahre Wert der Person als unterdurchschnittlich. Wenn der Testwert mehr als eine SD unterhalb des Mittelwerts liegt, das KI aber den Wert 85 enthält, spricht man von einem unterdurchschnittlichen bis durchschnittlichen wahren Wert. Liegt das KI komplett im Bereich zwischen Mittelwert plus / minus einer SD, ist der wahre Wert durchschnittlich. Äquivalent gilt diese Klassifizierung für überdurchschnittliche wahre Werte bei Betrachtungen von Testwerten über dem Mittelwert und der unteren Grenze des KI. Diese KI-Regel wird explizit in Bühner (2021) und Ziegler und Bühner (2012) beschrieben. An vielen anderen Stellen findet sie sich aber auch implizit angewendet, meistens in Form von Beispielen (Kubinger, 2019).

Was jedoch kaum explizit diskutiert wird, ist die Wahl des Signifikanzniveaus α bzw. des Konfidenzniveaus 1 – α. Häufig wird in Beispielen ein Konfidenzniveau von .95, .80 oder .68 gewählt. Bühner (2021) verweist hierbei zusätzlich auf Huber (1973): „Der Diagnostiker darf sich bei der Beurteilung der Fehlerrisiken auf keinen Fall von Konventionen leiten lassen, sondern muss sich ausschließlich an den nachteiligen Folgen orientieren, die einem bestimmten Probanden aus einer Fehldiagnose erwachsen würden.“ (S. 115) So deutet Huber bereits an, dass die Wahl des Signifikanzniveaus nicht heuristisch, sondern analytisch gelöst werden sollte, indem die Folgen von Fehlentscheidungen gegeneinander abgewogen werden. In keinem untersuchten Lehrbuch findet sich jedoch Information dazu, (a) welche Folgen die Wahl des Signifikanzniveaus explizit für die Gewichtung der Fehlentscheidungen hat, (b) wie sich umgekehrt aus der Gewichtung ein geeignetes Signifikanzniveau ermitteln lässt und (c) wie man eine für den Anwendungsfall passende Gewichtung wählt.

Im Folgenden wollen wir eine Einführung in die statistische Entscheidungstheorie geben. Aus dieser lässt sich ableiten, wie die Wahl des Signifikanzniveaus unmittelbar die implizite Gewichtung der Fehlentscheidungen beeinflusst bzw. dass eine für den Einzelfall sinnvoll gewählte Fehlergewichtung logisch ein bestimmtes Signifikanzniveau impliziert. Anschließend vergleichen wir die Gewichtungen, die sich aus den heuristisch gewählten Signifikanzniveaus (z. B. .01, .05, .20, oder auch .32) ergeben, mit Gewichtungen, wie Expert_innen in der neuropsychologischen Praxis sie vergeben würden.

Entscheidungstheorie

Die statistische Entscheidungstheorie ist ein disziplinübergreifendes Framework, das sich auf der Basis von Kosten- und Nutzenabwägungen mit menschlichen Entscheidungsprozessen auseinandersetzt (Laux, Gillenkirch & Schenk-Mathes, 2018). Die eher wirtschaftliche Konnotation von Kosten und Nutzen stammt aus der Ökonomie, in der die Entscheidungstheorie ihre Wurzeln hat. Dies mag auf den ersten Blick ungeeignet erscheinen für die Verwendung in psychologischen und gesundheitlichen Fragestellungen. Kosten und Nutzen sind hierbei aber nicht ausschließlich monetär zu verstehen, es können ebenso auch Zeitaufwand, Gesundheitszustand oder subjektive Einschätzungen von Zufriedenheit herangezogen werden. Tatsächlich ist die Entscheidungstheorie nicht neu in der Psychologie. Bereits Cronbach und Gleser (1957) führten entscheidungstheoretische Überlegungen im Rahmen psychologischer Einzelfalldiagnostik ein. Sie betonten, dass die Entscheidungstheorie eher eine bestimmte Sichtweise auf diagnostische Fragestellungen darstellt als ein formales mathematisches Framework für die Entwicklung und Anwendung psychologischer Tests. Im deutschsprachigen Raum sind vor allem die Lehrbücher zur psychologischen Diagnostik von Irtel (1995) sowie Krohne und Hock (2015) zu nennen, die eine Einführung in die Entscheidungstheorie enthalten. Was bisher jedoch weitgehend fehlt, ist die explizite Verknüpfung von Einzelfalldiagnostik und entscheidungstheoretischen Implikationen.

Wie bereits erwähnt, führt psychologische Diagnostik fast immer zu Entscheidungen, z. B. die Vergabe einer Diagnose, die Zuweisung zu einer bestimmten Therapie, die Empfehlung für ein Förderprogramm oder die Zulassung zu einem Beruf. Aus Sicht der Entscheidungstheorie gehören zu dieser Entscheidungssituation klar definierte Bestandteile (Irtel, 1995). Die Menge aller Zustände, über die entschieden wird, bezeichnet man als Zustandsraum . Im Falle unseres einleitenden Beispiels aus der Neuropsychologie wären diese Zustände „die Merkfähigkeit der Patientin / des Patienten ist nicht unterdurchschnittlich“ (θ1) und „die Merkfähigkeit der Patientin / des Patienten ist unterdurchschnittlich“ (θ2). Die Menge aller verfügbaren Handlungsalternativen werden im Entscheidungsraum A abgebildet; in unserem Beispiel also „der Patientin / dem Patienten wird keine verminderte Merkfähigkeit diagnostiziert“ (a1) und „der Patientin / dem Patienten wird eine verminderte Merkfähigkeit diagnostiziert“ (a2). Die Kostenfunktion C gibt für jede Kombination (a, θ) aus A und an, welche Kosten c‍(a, θ) aus der jeweiligen Kombination entstehen würden. Eine optimale Entscheidung zu treffen heißt nun, diejenige Handlungsalternative  auszuwählen, die ein vorgegebenes Entscheidungkriterium optimiert. Das in dieser Arbeit betrachtete Bayes Kriterium (nicht zu verwechseln mit dem Satz von Bayes) wählt immer diejenige Handlungsalternative, die basierend auf den vorliegenden Informationen die erwarteten Kosten minimiert oder äquivalent den erwarteten Nutzen maximiert (Longford, 2021;Robert, 2007).

Im diagnostischen Kontext bestehen bei Betrachtung eines Testergebnisses häufig lediglich zwei Möglichkeiten, entweder die Entscheidung für eine Nullhypothese H0 oder für eine Alternativhypothese H1. Die Entscheidung für die H0 entspricht in unserem Beispiel der Alternative a1, die Entscheidung für die H1 entspricht a2. Setzt man diese beiden Varianten mit den möglichen Zuständen in in Bezug, so erhält man eine Kostenmatrix mit den entsprechenden Kosten c‍(a, θ) als Einträge der Matrix (s. Abbildung 1). Wir betrachten hier den einfachsten Fall mit jeweils zwei möglichen Zuständen und Handlungsalternativen. Prinzipiell sind jedoch auch mehrere Zustände, Handlungsalternativen oder beides möglich.

Abbildung 1 Anmerkungen: c‍(ai, θk)= Kosten der Entscheidung ai bei Eintreten des Zustandes θk.Abbildung 1. Kostenmatrix für das einleitende Beispiel einer Patientin / eines Patienten, bei dem / der es um die Diagnose einer verminderten Merkfähigkeit geht. Sowohl der Zustands- als auch der Entscheidungs-raum können auf unterschiedlichen Abstraktionsebenen betrachtet werden (z. B. ist die Vergabe einer Diagnose häufig äquivalent zur Vergabe einer Therapie).

Zur Vereinfachung der weiteren Berechnungen treffen wir zunächst eine übliche Annahme: Korrekte Diagnosen haben keine Kosten und potenzielle Gewinne durch eine korrekte Diagnose (d. h. negative Kosten) werden vernachlässigt. Das heißt, c‍(a1, θ1) = c‍(a2, θ2) = 0. Wir konzentrieren uns demnach lediglich auf die Kosten im Falle einer Fehlentscheidung. Diese Annahme ist in den meisten Anwendungsfällen sinnvoll. Das entscheidungstheoretische Framework würde auch für Kostenmatrizen ohne diese Vereinfachung eine optimale Entscheidungsregel liefern. Die folgenden Herleitungen wären dann nur etwas aufwendiger. Die exakte Festlegung der Kosten für die beiden Entscheidungsfehler ist in unserem Beispiel kaum möglich. Dies ist allerdings gar nicht notwendig, da durch die obige Vereinfachung lediglich das Kostenverhältnis von Bedeutung ist. Wenn wir also die Kosten des Fehlers 2. Art („fälschlicherweise keine verminderte Merkfähigkeit diagnostiziert“) auf 1 fixieren, können wir die Kosten des Fehlers 1. Art („fälschlicherweise eine verminderte Merkfähigkeit diagnostiziert“) abhängig davon als Wert R festlegen (Longford, 2021). Wenn R > 1 bewerten wir den Fehler 1. Art als schwerwiegender, wenn R < 1 den Fehler 2. Art. Wenn R = 1, nehmen wir für beide Fehler die gleichen Kosten an.

Als nächstes betrachten wir die beiden statistischen Hypothesen vor der Durchführung eines Tests. In unserem Beispiel prüfen wir, ob der wahre Wert der Patientin / des Patienten mehr als eine SD unterhalb des Mittelwerts der Normstichprobe liegt. Generell sind auch alle anderen Formen von Hypothesen für die folgende Anwendung geeignet. Bleibt man jedoch zunächst bei unserer Annahme und lässt den wahren Wert mit höheren Werten eine bessere Merkfähigkeit beschreiben, so gilt

Abbildung 2 Anmerkungen: Die vertikale Linie trennt das latente Kontinuum von ξ in den Bereich, in dem die H1 gilt, und in den Bereich, in dem die H0 gilt. Die gestrichelte Linie zeigt die a priori angenommene Verteilung des wahren Wertes, welche hier sehr flach (und damit uninformativ) ist. Abbildung 2. (Posteriori) Wahrscheinlichkeitsverteilung eines z-standardisierten, wahren Wertes ξ mit dazugehörigem bayesianischen Kredibilitätsintervall für eine Person mit z-standardisiertem Testwert von -1.91 in einem psychologischen Test mit Reliabilität 0.80.

H0: ξ ≥ –1

H1: ξ < –1

Abbildung 2 zeigt die Wahrscheinlichkeitsdichte für den wahren Wert einer beispielhaften Person sowie ein bayesianisches Kredibilitätsintervall auf dem Niveau 1 – α. Wir betrachten ein bayesianisches KI aus den folgenden Gründen: a) Eine Herleitung des Zusammenhangs zwischen α und ist im bayesianischen Framework einfacher.3 b) Die Herleitung im bayesianischen Framework ist allgemeiner und gilt automatisch auch für das frequentistische Framework: Frequentistische KIs sind (zumindest in einfachen Modellen) ein Spezialfall von bayesianischen KIs mit flachen a priori Verteilungen. Im Extremfall der a priori Annahme einer Gleichverteilung für den wahren Wert einer Person, sind bayesianische und frequentistische KIs für unser Beispiel identisch. Alle unsere Überlegungen gelten aber ebenso für Fälle mit informativen a priori Verteilungen (eine ausführliche Einführung in bayesianische KIs findet sich z. B. in McElreath, 2020). Die a posteriori Verteilung in Abbildung 2 resultiert aus einem Testmodell mit der Annahme:

Z ∼ N (ξ, 1 – REL)

wobei Z dem z-standardisierten Testwert der Person,  dem wahren Wert der Person und REL der Reliabilität des verwendeten Tests entspricht.4 Der SMF ist somit .

Treffen wir die diagnostische Entscheidung nach der KI-Regel, entscheiden wir uns für die H1, sobald die obere Grenze des KIs kleiner als ein vorgegebener Wert ist (in unserem Fall also mehr als eine SD unterhalb des Mittelwerts der Normstichprobe). Abbildung 2 zeigt den Grenzfall, bei dem die Obergrenze des KI genau den Wert –1 beträgt und dient als „grafischer Beweis“ der im folgenden dargestellten Herleitungen. Entscheidet man sich bei dem vorliegenden KI für die Alternativhypothese, begeht man mit einer Wahrscheinlichkeit von einen Fehler 1. Art. Mit anderen Worten, die (a posteriori) Wahrscheinlichkeit P‍(H0) beträgt bei diesem Testwert . In der Fälle, in denen wir ein solches KI beobachten, ist der wahre Wert  der Person tatsächlich größer als –1 (d. h. die Person ist eigentlich nicht unterdurchschnittlich). Würde man sich hingegen für die Nullhypothese entscheiden, beginge man mit einer Wahrscheinlichkeit von einen Fehler 2. Art (Begründung analog).

Im entscheidungstheoretischen Framework wählen wir nach dem Bayes Kriterium immer die Entscheidung mit dem geringsten erwarteten Verlust. Dementsprechend sind beide möglichen Entscheidungen gleich gut, wenn deren erwarteter Verlust gleich ist, also wenn gilt (Longford, 2021):5

c2 · P‍(H1) = c1 · P‍(H0)

Wegen c2 · P‍(H1) = 1 – P‍(H0) gilt:

c2 · (1 – P‍(H0)) = c1 · P‍(H0)

()

()

Für α = .05 (und in unserem Beispiel c2 = 1) gilt daher:

()

()

()

Die Kosten eines Fehlers 1. Art („der Patientin / dem Patienten wird fälschlicherweise eine verminderte Merkfähigkeit diagnostiziert“) werden mit der oben beschriebenen KI-Entscheidungsregel bei einem (in der Praxis üblichen) Konfidenzniveau von 1 – α = .95 also implizit 39–mal höher eingeschätzt als die Kosten eines Fehlers 2. Art („der Patientin / dem Patienten wird fälschlicherweise keine verminderte Merkfähigkeit diagnostiziert“). Während diese Gewichtung für manche einzelfalldiagnostische Entscheidungssituationen sinnvoll sein mag, so scheint sie doch als Heuristik ungeeignet. Intuitiver und praktisch relevanter ist der umgekehrte Weg, also aus einem bewusst gewählten Kostenverhältnis das logisch implizierte Signifikanzniveau zu errechnen:

()

()

An dieser Stelle fällt auf, dass die oben beschriebene KI-Regel so nicht vollständig ist und lediglich den Fehler 1. Art als schwerwiegender gewichten kann (R > 1). Das liegt daran, dass stets die obere Grenze des KIs bei Werten kleiner als der Mittelwert bzw. die untere Grenze bei Werten größer als der Mittelwert betrachtet wird. Durch die eben gezeigte Gleichung zur Berechnung von α können wir die KI-Regel aber präzisieren und auch bei stärkerer Gewichtung des Fehlers 2. Art (R < 1) ein geeignetes Konfidenzniveau berechnen. Wir wollen an einem Beispiel aufzeigen, wie Entscheidungen je nach schwerwiegenderem Fehler getroffen werden können: Wir nehmen an, dass das 95 %-KI unserer Patientin / unseres Patienten für ihr / sein standardisiertes Testergebnis im Bereich Merkfähigkeit bei [–1.3, –0.7] liegt. Die plausiblen Werte auf dem Konstrukt liegen also teilweise über dem Kriterium von –1 (1 SD unterhalb des Mittelwerts), ab dem wir den wahren Wert als unterdurchschnittlich bezeichnen würden. Wenn wir nun den Fehler 1. Art als schwerwiegender gewichten (hier R = 39), dann betrachten wir die obere Grenze des KIs. Da diese oberhalb des Kriteriums liegt, würden wir uns für die Nullhypothese entscheiden, dass die Merkfähigkeit der Patientin / des Patienten durchschnittlich ist. Wenn wir aber den Fehler 2. Art als schwerwiegender gewichten (hier  ), dann betrachten wir die untere Grenze des KI. Da diese unterhalb des Kriteriums liegt, würden wir uns für die Alternativhypothese entscheiden, dass die Merkfähigkeit der Patientin / des Patienten unterdurchschnittlich ist. Es hängt also entscheidend vom Kostenverhältnis ab, welche Entscheidung wir bezüglich einer Patientin / eines Patienten treffen. Außerdem werden so die einleitend beschriebenen Zwischenkategorien wie z. B. „unterdurchschnittlich bis durchschnittlich“ vermieden.

Eine interessante Erweiterung des entscheidungstheoretischen Frameworks erlaubt es außerdem, das Kostenverhältnis als Intervall statt als exakten Wert anzugeben (z. B., R ∈ [5, 8]; Schwaferts & Augustin, 2020). Dies würde dem Umstand Rechnung tragen, dass es schwierig ist, die Kosten eines Fehlers exakt festzulegen, weil die verfügbaren Informationen häufig nicht eindeutig sind. Für jedes Kostenverhältnis in diesem Intervall kann dann eine optimale Entscheidung ermittelt werden (genauso wie für ein einzelnes, exaktes Kostenverhältnis). Wenn jedes Kostenverhältnis in dem Intervall dieselbe Entscheidung indiziert, treffen wir diese Entscheidung; andernfalls ist die durch die vorliegende Messung der Merkfähigkeit gewonnene Information angesichts der Unsicherheit in den Kosten nicht ausreichend, um eine eindeutige Entscheidung treffen zu können. In diesem Falle würden wir die Entscheidung zunächst zurückhalten. Würden wir eine zusätzliche Messung der Merkfähigkeit durchführen, könnten wir die Information aus beiden Messungen kombinieren. Dafür kann erneut das hier vorgestellte Framework angewendet werden, mit dem einzigen Unterschied, dass bei der Berechnung der a posteriori Verteilung nach der zweiten Messung, die a posteriori Verteilung nach der ersten Messung als neue a priori Verteilung verwendet wird. Eventuell reicht dann die gesammelte Information aus beiden Messungen aus, um eine eindeutige Entscheidung zu treffen. Ein konkretes Rechenbeispiel mit Kostenintervall und Mehrfachmessung ist in ESM 2 dargestellt.

Auf den ersten Blick erscheint eine 39:1 Gewichtung des Fehlers 1. Art nicht für alle Anwendungsfälle sinnvoll. Im Folgenden präsentieren wir die Ergebnisse einer Befragung von praktizierenden Neuropsycholog_innen, die für ein konkretes Fallbeispiel angeben sollten, welche Gewichtung der Fehler sie bei der Abklärung einer leichten Demenz bzw. neurokognitiven Störung vornehmen würden.

Studie

Die Studie ist Teil der Arbeit von Friemelt und Pargent (2019). Ziel der Arbeit war es, exemplarisch Kostenverhältnisse für eine einzelfalldiagnostische Entscheidungssituation durch Expert_innenurteile mithilfe eines Fragebogens zu ermitteln. Wir fokussieren uns im Folgenden auf die für unsere Diskussion relevanten Kernergebnisse und halten die Beschreibung der Studie entsprechend kurz. Eine ausführliche Darstellung findet sich unter https://osf.io/t4rhb/

Allgemeines

An der Onlinebefragung nahmen 41 praktizierende Neuropsycholog_innen teil. Diese wurden in einem internen Forum der Gesellschaft für Neuropsychologie (GNP) und in einer öffentlichen Interessengruppe für Neuropsychologie rekrutiert. Dadurch sollte sichergestellt werden, dass möglichst nur Expert_innen im Bereich der (neuro–)‌psychologischen Diagnostik an der Umfrage teilnahmen. Den Neuropsycholog_innen wurde ein vereinfachtes Fallbeispiel präsentiert: Ein 72-jähriger Patient hat ein nicht eindeutiges Testergebnis im Bereich verbale Lern- und Abrufleistung. Sowohl er als auch seine Partnerin berichten von Einschränkungen des Gedächtnisses im Alltag, wohingegen keine typischen Einschränkungen bezüglich anderer kognitiver Funktionen auftraten. Auf Basis dieser Informationen stünden die Neuropsycholog_innen nun vor der Entscheidung für oder gegen die Diagnose einer „mild neurocognitive disorder“, die zum Beispiel im Rahmen einer Alzheimererkrankung auftreten kann. Anschließend an die Darstellung des Fallbeispiels wurden drei mögliche Ausgänge beschrieben: Eine korrekte Entscheidung (keine Diagnose bei keiner Beeinträchtigung oder Diagnose bei Beeinträchtigung), ein Fehler 1. Art (Diagnose bei nicht vorliegender Beeinträchtigung) und ein Fehler 2. Art (keine Diagnose bei vorliegender Beeinträchtigung).

Dann beantworteten die Neuropsycholog_innen verschiedene Fragen zur Gewichtung der Entscheidungsfehler und gaben somit (explizit oder implizit) das Kostenverhältnis an. Zuerst wurde dichotom abgefragt, welcher Fehler als schwerwiegender eingeschätzt wird. Danach sollte direkt angegeben werden, als wie viel Mal schwerwiegender der gewählte Fehler empfunden wird (entspricht bzw.  ). Diese Fragen quantifizierten die expliziten Überzeugungen. Die darauffolgenden Fragen zielten darauf ab, durch (eventuell) intuitivere Fragestellungen eine implizite Festlegung des Kostenverhältnisses zu ermöglichen. Die ersten beiden Fragen basierten auf dem standard gamble Prinzip (Gafni, 1994). Nach diesem kann man entweder mit Sicherheit den weniger schlimmen Fehler begehen oder die Chance auf eine richtige Diagnose erhalten auf Kosten des Risikos, den schlimmeren Fehler zu begehen. Die Wahrscheinlichkeit, bei letzterem Fall den schlimmeren Fehler zu begehen, kann selbst gewählt werden. Die erste Frage dieser Art beschrieb die Wahl der Wahrscheinlichkeit als Münzwurf (Angabe der Wahrscheinlichkeiten in Prozent, z. B. 10 %), die zweite beschrieb sie als Ziehung aus Urnen (Angabe der Wahrscheinlichkeiten als Zahlenverhältnis, z. B. 1:10). Als nächstes gaben die Neuropsycholog_innen auf vier Items mit visueller Analogskala (Parkin & Devlin, 2006) an, a) wie betroffen sie jeweils wären, wenn sich herausstellte, dass sie einen Fehler 1. Art bzw. 2. Art begangen hatten und b) wie sehr sie diese Nachricht über eine Fehlentscheidung in zukünftigen vergleichbaren Entscheidungssituationen beeinflussen würde. Diese Fragen sollten eine eher persönliche Dimension erfassen. Abschließend wurde eine Receiver Operating Characteristic (ROC)-Kurve präsentiert. Diese stellte die Sensitivität und Spezifität eines Tests gegenüber. Jede Kombination aus Sensitivität und Spezifität entspricht dabei implizit einem bestimmten Kostenverhältnis. Die Neuropsycholog_innen wählten aus 15 auf der ROC-Kurve eingezeichneten Punkten denjenigen aus, der aus ihrer Sicht die geeignetste Kombination aus Sensitivität und Spezifität darstellt. Das implizierte Kostenverhältnis war dabei nicht angegeben.

Ergebnisse

25 Neuropsycholog_innen stuften für das konkrete Fallbeispiel den Fehler 1. Art (Diagnose bei nicht vorliegender Beeinträchtigung) als schwerwiegender ein, 16 Neuropsycholog_innen den Fehler 2. Art (keine Diagnose bei vorliegender Beeinträchtigung). Von denen, die den Fehler 1. Art als schwerwiegender einstuften, antworteten nur 4 konsistent auf die Fragen der persönlichen Betroffenheit und der Beeinflussung bei zukünftigen Urteilen durch eine Fehlentscheidung; das heißt, nur vier von 25 bewerteten auch bei diesen Fragen implizit den Fehler 1. Art als schlimmer. Von den 16 Neuropsycholog_innen, die den Fehler 2. Art als schwerwiegender einstuften, antworteten 11 konsistent. Der Boxplot in Abbildung 3 vergleicht die (logarithmierten) Kostenverhältnisse, die sich aus den einzelnen Fragen ergaben. Positive logarithmierte Werte entsprechen einer stärkeren Gewichtung des Fehlers 1. Art, negative logarithmierte Werte einer stärkeren Gewichtung des Fehlers 2. Art. Der Wert ln‍(R) = 0, bzw. R = 1 spricht für eine Gleichgewichtung. Die Form der Punkte zeigt an, welcher Fehler explizit als schwerwiegender angegeben wurde.

Abbildung 3 Anmerkungen: Die linke y-Achse zeigt das logarithmierte Kostenverhältnis, die rechte y-Achse das ursprüngliche Kostenverhältnis. Die Form der Punkte zeigt an, welcher Fehler ursprünglich bei der ersten Frage als schwerwiegender angegeben wurde. direkt = Explizite Frage nach dem Kostenverhältnis. Münze = Standard gamble Frage mit Angabe der Wahrscheinlichkeit als Prozentwert. Urne = Standard gamble Frage mit Angabe der Wahrscheinlichkeit als Zahlenverhältnis. Betroffenheit = Frage, wie sehr Nachricht über Fehlentscheidung betroffen machen würde. Zukunft = Frage, wie sehr Nachricht über Fehlentscheidung zukünftige Urteile beeinflussen würde. roc = Frage mit ROC-Kurve. Personenmedian = Median über alle Fragetypen pro Person. (In der Abbildung sind alle befragten Personen enthalten außer zwei, da ihre Angaben auf der ROC-Kurve zu extrem waren ( bzw. ). Diese Werte hätten die Abbildung unleserlich verzerrt.) Abbildung 3. Boxplots zu den verschiedenen Fragen zur Ermittlung des Kostenverhältnisses.

Besonders auffällig war, dass alle Mediane stark von einem durch α = .05 implizierten Kostenverhältnis von R = 39 (bzw.  ) abwichen.6 Es zeigte sich, dass die explizite Frage nach dem Kostenverhältnis und die Frage zur ROC-Kurve die größte Abweichung von einer Gleichgewichtung sowie die größte Variabilität in den Antworten aufwiesen. Jedoch entsprechen auch diese Werte lediglich bzw. (hier also einer viermal stärkeren Gewichtung des Fehlers 2. Art gegenüber dem Fehler 1. Art). Der logarithmierte Median aller anderen Fragen lag nahe 0, mit einer Tendenz in Richtung stärkerer Gewichtung des Fehlers 1. Art. Dass die Frage der ROC-Kurve am stärksten von einer Gleichgewichtung abwich, könnte damit zusammenhängen, dass viele Neuropsycholog_innen die Frage eher heuristisch beantworteten ohne ein inhaltlich angemessenes Verhältnis von Sensitivität und Spezifität zu wählen. Eine verbreitete Heuristik für einen optimalen Cut-Off ist der Punkt auf der ROC-Kurve, der der Ecke mit perfekter Sensitivität und Spezifität am nächsten liegt (Perkins & Schisterman, 2006). Bei der in der Befragung präsentierten ROC-Kurve implizierte dieser Punkt am ehesten oder  . Die Betrachtung, welcher Fehler explizit als schwerwiegender eingestuft wurde, unterstützt diese Vermutung. Es zeigte sich, dass einige Neuropsycholog_innen, die explizit den Fehler 1. Art angaben, auf der ROC-Kurve einen Punkt wählten, der implizit den Fehler 2. Art als schwerwiegender einstuft.

Zusammenfassend zeigen die Ergebnisse, dass keine Einigkeit unter den Neuropsycholog_innen bestand, welcher Fehler in dem vorliegenden Fallbeispiel als schwerwiegender einzustufen ist. Auch machte es einen Unterschied, auf welche Art und Weise versucht wurde, das Kostenverhältnis zu ermitteln. Der Fragetyp beeinflusste sowohl die Höhe als auch die Richtung des Kostenverhältnisses. Insgesamt zeigte sich aber, dass Kostenverhältnisse, die durch in der Praxis übliche Signifikanzniveaus impliziert werden (z. B. R = 39 bei α = .05, R = 19 bei α = .10, R = 9 bei α = .20), eher nicht den Einschätzungen der Praktiker_innen entsprachen.

Diskussion

In der deutschsprachigen Literatur zur psychologischen Diagnostik besteht Einigkeit, den SMF bei der Darstellung der Messgenauigkeit in der Testauswertung zu berücksichtigen, meist in Form von KIs. Es fehlen bisher jedoch eindeutige Verweise darauf, dass die Wahl des Konfidenzniveaus (oder des Signifikanzniveaus bei HT und KD) ein bestimmtes Kostenverhältnis von diagnostischen Fehlentscheidungen impliziert, wenn diagnostische Entscheidungen mithilfe dieser KIs (bzw. HT oder KD) getroffen werden. So nimmt das häufig verwendete 95 %-KI ein Kostenverhältnis von 39:1 (bzw. 1:39) zwischen Fehler 1. Art („der Patientin / dem Patienten wird fälschlicherweise eine verminderte Leistungsfähigkeit diagnostiziert“) und Fehler 2. Art („der Patientin / dem Patienten wird fälschlicherweise keine verminderte Leistungsfähigkeit diagnostiziert“) an. Wir konnten mit einer Befragung für ein konkretes Beispiel aus der Demenzdiagnostik zeigen, dass die Kostenverhältnisse, die sich aus in der Praxis üblichen Konfidenz- oder Signifikanzniveaus ergeben, von den impliziten und expliziten Kostenverhältnissen von praktizierenden Neuropsycholog_innen abweichen. Wir glauben, dass die Qualität einzelfalldiagnostischer Entscheidungen in der Psychologie stark davon profitieren würde, zukünftig das Kostenverhältnis bei Entscheidungen explizit anzugeben. Zwar sind explizite Kostenverhältnisse teilweise subjektiv und können für verschiedene Einzelfälle erheblich voneinander abweichen. Jedoch ist auch die Wahl des Konfidenz- oder Signifikanzniveaus nicht minder subjektiv, was lediglich dadurch weniger auffällt, dass Heuristiken wie 1 – α = .95 oder 1 – α = .80 verwendet werden. Auch wenn explizite Kostenverhältnisse vermeintlich angreifbarer sind als allgemeine Heuristiken, schafft genau das den nötigen Raum für die Verbesserung diagnostischer Entscheidungen durch kontinuierlichen Diskurs (Swets, Dawes & Monahan, 2000). Es erscheint daher sinnvoller, unvermeidbar subjektive Festlegungen explizit in einem entscheidungstheoretischen als implizit in einem abstrakten, inferenzstatistischen Framework zu treffen.

Im Kontext der Replikationskrise wurden ähnliche Überlegungen von Lakens et al. (2018) und Maier und Lakens (2022) geäußert. Auch diese Autoren argumentieren, von Heuristiken abzusehen und das Signifikanzniveau stattdessen durch eine entscheidungstheoretische Betrachtung des Kostenverhältnisses zu begründen. Auch der gegenteilige Vorschlag von Benjamin et al. (2018), das in psychologischer Forschung nahezu immer verwendete Signifikanzniveau von α = .05 auf α = .005 herabzusetzen (und damit einfach die Heuristik neu zu definieren), bezieht implizit entscheidungstheoretische Überlegungen mit ein. Darüber hinaus gibt es in der aktuellen (meta)‌psychologischen Forschung statistische Konzepte mit dem Ziel statistische Inferenz zu verbessern, die ebenfalls auf die Entscheidungstheorie zurückgreifen; z. B. HDI+ROPE (Highest Density Interval + Region Of Practical Equivalence; Kruschke, 2018; Schwaferts & Augustin, 2020), Equivalence Tests (Lakens, 2017) und Second Generation p–Values (Blume, Greevy, Welty, Smith & Dupont, 2019).

Diagnostikcurriculum

Wir sehen es als wichtig an, dass zukünftige Psycholog_innen über das nötige Wissen verfügen, ihre einzelfalldiagnostischen Entscheidungen vor einem entscheidungstheoretischen Hintergrund zu betrachten. Hierfür könnte im Studium als erster Schritt eine kurze Einführung in die Entscheidungstheorie im Rahmen der Diagnostik- oder Testtheorieveranstaltungen erfolgen. Viel wichtiger als die Anwendung des formalen Frameworks in aller mathematischer Tiefe oder die dogmatische Festlegung konkreter Kostenverhältnisse ist die Sensibilisierung dafür, dass durch die Wahl eines Konfidenz- oder Signifikanzniveaus implizite Annahmen über Kostenverhältnisse von Fehlern getroffen werden. Dies würde die klient_innenzentrierte Sicht auf die Einzelfalldiagnostik stärken. Die Lehrbücher von Irtel (1995) und Cronbach und Gleser (1957) bemühten sich um eine auf die Psychologie zugeschnittene Präsentation der Entscheidungstheorie, die in den aktuellen Lehrbüchern leider weitgehend fehlt. Eine mathematische Einführung findet sich meist nur in Büchern aus der Statistik. So wird z. B. in Longford (2021) und Robert (2007) nicht nur das entscheidungstheoretische Framework beschrieben, sondern auch der Zusammenhang von Signifikanzniveau und Kostenverhältnis aufgezeigt.

Unsere Betrachtung macht deutlich, dass die Expertise von Psycholog_innen gezielter im diagnostischen Prozess genutzt werden sollte. Das Aufsummieren von Testwerten und die Anwendung von Heuristiken sind mittlerweile weitgehend automatisiert. Zukünftig werden Methoden der künstlichen Intelligenz und Machine Learning Algorithmen stark an Relevanz zunehmen (Lucifora et al., 2021; Luxton, 2014). Auch wenn Psycholog_innen damit bei der Testauswertung und Entscheidungsfindung unterstützt werden können, bleibt doch die Notwendigkeit, die Algorithmen feinzukalibrieren. Gängige Algorithmen gehen davon aus, dass die Kosten diagnostischer Fehlentscheidungen in allen Fällen gleich sind. Für Machine Learning Algorithmen existieren ebenfalls Methoden, um unterschiedliche Kostenverhältnisse explizit zu berücksichtigen (Sterner, Goretzko & Pargent, 2023). Dafür ist es jedoch erforderlich, dass Psycholog_innen auf Domänenwissen zugreifen können und in der Lage sind, Kostenverhältnisse flexibel anzupassen.

Generell könnte es sinnvoll sein, psychologische Einzelfalldiagnostik stärker aus dem Blickwinkel bayesianischer statt wie bisher hauptsächlich frequentistischer Statistik zu betrachten. Das in diesem Artikel diskutierte Framework der Entscheidungstheorie lässt sich (wie in unseren Herleitungen zu Kostenverhältnissen ersichtlich) sehr einfach in die bayesianische Statistik integrieren. Zudem ist es in der bayesianischen Statistik einfacher möglich, neben den Kosten von Fehlentscheidungen auch weitere, im Frequentismus meist implizit getroffene, Vorannahmen bezüglich der Verteilung des psychologischen Konstrukts miteinfließen zu lassen. Während man aus frequentistischer Sicht a priori stets von einer Gleichverteilung ausgeht, können in der bayesianischen Statistik informierte Vorannahmen in Form einer a priori Verteilung in die Analysen miteinbezogen werden. Für ein ausführliches Vorgehen zum Vergleich komplexer Hypothesen mit Bayesfaktoren siehe Schad, Nicenboim, Bürkner, Betancourt, und Vasishth (2022). Ein Vorteil könnte auch sein, dass bayesianische Statistik stärker die vorliegenden Daten in den Fokus rückt, wohingegen die frequentistische Statistik eher die Eigenschaften „unendlich oft wiederholter“ Entscheidungen betrachtet. Aus unserer Sicht ist die Grundeinstellung psychologischer Diagnostik, stets für den Einzelfall optimale Entscheidungen zu treffen, intuitiver mit der bayesianischen Philosophie vereinbar. Natürlich sind sinnvolle diagnostische Entscheidungen jedoch mit beiden Frameworks möglich.

Curricula zur Einzelfalldiagnostik betonen zu Recht die Wichtigkeit der Auswahl von psychologischen Testverfahren mit hoher Reliabilität, weil dies die statistische Power des einzelfalldiagnostischen Hypothesentests (bzw. des dazu äquivalenten KI und KD) erhöht. Vor diesem Hintergrund mag es überraschen, dass bei der Herleitung des Signifikanzniveaus für ein festgelegtes Kostenverhältnis beide Größen nicht berücksichtigt werden. Natürlich führt auch im entscheidungstheoretischen Framework eine höhere Reliabilität zu besseren Entscheidungen. Jedoch ist bei einem Fokus auf die Kosten der Fehlentscheidungen die Power, welche sich implizit bei der Anwendung der Entscheidungsregel ergibt, zu Recht nachrangig. Wir diskutieren die Rolle der Reliabilität und der Power bei der Festlegung des Signifikanzniveaus in ESM 2.

Wir möchten betonen, dass unsere Überlegungen nicht bedeuten, dass die Angabe von KIs mit üblichen Konfidenzniveaus (z. B. .95) in psychologischen Gutachten keine gute Praxis ist oder angepasst werden sollte. Zur Angabe der Messgenauigkeit sind KIs mit hohem Konfidenzniveau standardmäßig sinnvoll (Diagnostik- und Testkuratorium der Föderation Deutscher Psychologenvereinigungen, 2017). Diese Messebene sollte jedoch strikt von der Entscheidungsebene im Gutachten getrennt werden. Sobald eine diagnostische Entscheidung getroffen wird, sollte für diese ein für den konkreten Fall angemessenes Kostenverhältnis berücksichtigt werden, welches im Optimalfall so genau wie möglich im Gutachten angegeben oder verbal beschrieben werden sollte. Ob diese Berücksichtigung durch den / die Diagnostiker_in dann mithilfe eines separaten KI, HT oder KD mit jeweils an das Kostenverhältnis angepasstem Signifikanzniveau erfolgt, ist aufgrund der Äquivalenz der Verfahren irrelevant.

Konkrete Festlegung des Kostenverhältnisses

Eine der wichtigsten offenen Fragen ist, wie Psycholog_innen ein für den Einzelfall passendes Kostenverhältnis konkret festlegen sollen. Die Psychologie hat es bisher leider vernachlässigt, a) effektive Methoden zu entwickeln und b) einen fachlichen Diskurs zu führen, ob diese Verantwortung den einzelnen Psycholog_innen obliegt oder ob z. B. Fachgesellschaften einen groben Konsens für typische diagnostische Situationen anstreben sollten. In anderen Disziplinen hat sich ein ganzer Forschungszweig zu dem Thema entwickelt, wie man Wissen über Kosten aus Expert_innen „herauslocken“ (eng. elicitation) kann. Die Gesundheitsökonomie beispielsweise sieht sich häufig mit der Frage konfrontiert, welche von mehreren Behandlungen durch öffentliche Gelder bezahlt wird. Dabei werden verschiedene Faktoren berücksichtigt und integriert, wie beispielsweise die Kosten einer Behandlung, die Wahrscheinlichkeit, mit der bestimmte Gesundheitszustände eintreten sowie die subjektive Präferenz dieser Gesundheitszustände auf Seite der Patient_innen (Brazier, Ratcliffe, Saloman & Tsuchiya, 2017; Drummond, Sculpher, Claxton, Stoddart & Torrance, 2015; Hunter, Baio, Butt, Morris, Round & Freemantle, 2015). In diesem Kontext wurde mit dem EQ–5D (Stolk, Ludwig, Rand, Hout & Ramos-Goñi, 2019) ein standardisierter Fragebogen entwickelt, mit dem Patient_innen in medizinischen Untersuchungen ihren derzeitigen Gesundheitszustand auf mehreren Dimensionen bewerten können. Fragebögen dieser Art haben das Ziel einer Quantifizierung von Präferenzen bezüglich Gesundheitszuständen durch Vergleiche mit Normwerten. Die Bewertung dieser Zustände kann durch verschiedene Arten von Fragen oder Aufgaben erfolgen (für einige Beispiele, siehe Friemelt & Pargent, 2019). Wie unsere Befragung zeigte, spielt es für die Bewertungen durchaus eine Rolle, welche Art der Frage wir zur Ermittlung eines Kostenverhältnisses verwenden. Aufgrund der geringen Konsistenz der extrahierten Kostenverhältnisse erscheint es derzeit nicht möglich, ein optimales Kostenverhältnis durch Aggregierung der in unserer Befragung verwendeten Methoden zu bestimmen. Die Konstruktion von Messinstrumenten zur Erhebung von Kostenverhältnissen erscheint uns jedoch für die Diagnostik als sinnvolles Ziel. Eine ausführliche Beschreibung weiterer, bereits bestehender Methoden zur Ermittlung von Kostenverhältnissen findet sich in Dias, Morton & Quigley (2018).

Zusammenfassung

Konkrete Entscheidungen sind in der psychologischen Einzelfalldiagnostik ebenso unvermeidbar wie damit einhergehende diagnostische Fehler. Wir plädieren dafür, weniger Fokus auf die Fehlerwahrscheinlichkeiten zu legen und stattdessen die Kosten von Fehlentscheidungen ins Zentrum der diagnostischen Arbeit zu rücken. Dies würde nicht nur einen direkteren Bezug zur realen Entscheidungssituation schaffen, sondern auch die Patient_innen und Klient_innen noch stärker in den Mittelpunkt der Einzelfalldiagnostik stellen. Zwar bedarf es weiterer Forschung, um Kostenverhältnisse sinnvoll festlegen zu können. Dafür ist es jedoch bereits jetzt wichtig, Grundlagen der Entscheidungstheorie in das Diagnostikcurriculum des Psychologiestudiums aufzunehmen. Je früher Psycholog_innen in ihrer Karriere dafür sensibilisiert werden, desto leichter sollte es ihnen fallen, Fragestellungen aus dem Blickwinkel der Entscheidungstheorie zu betrachten.

Literatur

1Mit wahrem Wert meinen wir hier die tatsächliche Ausprägung auf dem psychologischen Konstrukt, von dem wir annehmen, dass es existiert aber nicht direkt beobachtbar ist. Dieser Wert ist zu unterscheiden von der in der Klassischen Testtheorie (KTT) häufig als „wahrer Wert” bezeichneten Größe. Der Wert auf dem Konstrukt entspricht nur im parallelen und -äquivalenten Modell (ohne Intercept) dem wahren Wert aus der KTT (Steyer & Eid, 2013).

2Wir sprechen hier exemplarisch von zweiseitigen HTs, KIs und den dazugehörigen KDs. Alle aufgeführten Punkte gelten aber genauso auch bei Einseitigkeit oder KDs für verschiedene Fragestellungen. Die Formeln zur Berechnung von einseitigen HTs und KIs sowie KDs für verschiedene Fragestellungen finden sich z. B. in Bühner (2021) und Wein, Schulz, und Kraft (2002).

3Für eine Herleitung sowohl im bayesianischen als auch im frequentistischen Framework, s. Longford (2021).

4Dieses Testmodell wird auch in der KTT verwendet, um basierend auf einer Reliabilitätsschätzung approximative KIs für den Wert der Person auf dem Konstrukt zu berechnen.

5Der erwartete Verlust bei Entscheidung berechnet sich als .

6Dies entspräche einem logarithmierten Kostenverhältnis von ca. 3.66 (bzw. -3.66).