Skip to main content
Free AccessOriginalarbeit

Interrater Reliabilität und Übereinstimmungsvalidität des 4AT zur Erfassung des postoperativen Delirs

Eine Kohortenstudie

Published Online:https://doi.org/10.1024/1012-5302/a000939

Abstract

Zusammenfassung.Hintergrund: Zahlreiche Instrumente zur Erkennung eines postoperativen Delirs sind verfügbar. Leitlinien empfehlen die Benutzung des 4 A’s Test (4AT). Allerdings gibt es kaum Evidenz zur Validität und Reliabilität des deutschsprachigen 4AT. Fragestellung/Ziel: Die Zielsetzung war, die Interrater-Reliabilität des deutschsprachigen 4AT zur Erkennung eines postoperativen Delirs bei allgemeinchirurgischen und orthopädisch-traumatologischen Patient_innen und die Übereinstimmungsvalidität mit der Delirium Observation Screening (DOS)-Skala zu überprüfen. Methoden: Die Arbeit ist Teil einer prospektiven Kohortenstudie. Die Stichprobe bestand aus 202 stationären Patient_innen (≥ 65 Jahre), die einem chirurgischen Eingriff unterzogen wurden. Die Interrater-Reliabilität des 4AT (Intraklassenkoeffizient) wurde bei 33 Patient_innen durch zwei Krankenpfleger_innen überprüft. Die Übereinstimmungsvalidität zwischen der DOS und dem 4AT wurde anhand des Korrelationskoeffizienten nach Pearson berechnet. Ergebnisse: Die Interrater-Reliabilität für den 4AT-Gesamtwert und der dichotomisierte Gesamtwert lagen bei 0,92 (95%-KI: 0,84–0,96) und 0,98 (95%-KI: 0,95–0,98). Die Korrelation zwischen DOS und 4AT betrug 0,54 (p < 0,001). Schlussfolgerungen: Der 4AT kann als Screening-Instrument zur postoperativen Delirerkennung durch das Krankenpflegepersonal bei älteren, allgemeinchirurgischen und orthopädisch-traumatologischen Patient_innen eingesetzt werden. Allerdings besteht bei positiven 4AT-Ergebnissen die Notwendigkeit eines weiterführenden Assessments durch Pflegeexpert_innen oder Ärzt_innen.

Interrater reliability and concurrent validity of 4AT for the detection of postoperative delirium: A prospective cohort study

Abstract.Background: Numerous tools for detecting postoperative delirium are available. Guidelines recommend the 4 A’s Test (4AT). However, there is little evidence on the validity and reliability of the German version of 4AT. Aim: To assess the interrater reliability of the German version of 4AT test for the detection of postoperative delirium in general surgical and orthopedic-traumatological patients, and the concurrent validity with the Delirium Observation Screening Scale (DOS). Methods: The present work is part of a prospective cohort study with a sample of 202 inpatients (≥ 65 years) who underwent surgery. The interrater reliability of the 4AT (intraclass coefficients) was determined with a subsample of 33 subjects who were rated by two nurses. Concurrent validity between the DOS scale and the 4AT was calculated using Pearson’s correlation coefficient. Results: Interrater reliability for the 4AT total score and dichotomized total score were 0.92 (95% CI 0.84–0.96) and 0.98 (95% CI 0.95–0.98), respectively. The correlation between DOS and 4AT (Pearson) was 0.54 (p < 0.001). Conclusions: The 4A test can be used by nurses as a screening instrument for the detection of postoperative delirium in older patients on general surgery and orthopedic traumatology wards. In case of positive 4AT results further assessment by nurse experts or physicians is required.

Was ist zu dieser Thematik schon bekannt?

Fachgesellschaften empfehlen den 4 A’s Test (4AT) zur Erkennung des Delirs.

Welchen Erkenntniszugewinn leistet die Studie?

Aufgrund der guten Interrater-Reliabilität und Übereinstimmungsvalidität eignet sich der deutschsprachige 4AT zum postoperativen Delir-Screening älterer Patient_innen durch das Pflegefachpersonal.

Einleitung

Ein Delir ist eine akute zerebrale Dysfunktion, welche laut ICD-10 (International Classification of Diseases) und DSM-V (Diagnostic and Statistical Manual) mit einer Störung des Bewusstseins (Vigilanz), kognitiven Veränderungen (Aufmerksamkeit, Orientierung, Gedächtnis, Wahrnehmung) und einer Störung der Psychomotorik (Hyper-/Hypoaktivität) einhergeht. Der Beginn ist zumeist akut und kann einen fluktuierenden Verlauf zeigen. Aus pathophysiologischer Sicht werden zwei Arten von Delirien unterschieden: das Entzugsdelir (z.B. Alkohol bedingt) und das Nicht-Entzugsdelir.

Bis zu 50% der über 65-Jährigen entwickeln während eines Krankenhausaufenthaltes ein Delir, wobei gerade ältere Menschen mit Demenz, mit schweren Erkrankungen oder Hüftfrakturen ein höheres Delir-Risiko aufweisen (Inouye et al., 2014; Rieck et al., 2020). Die Prävalenz für Patient_innen in chirurgischen Abteilungen liegt zwischen 10–50% (postoperativ), abhängig vom Typ und von der Schwere des chirurgischen Eingriffs (National Institute for Health and Care Excellence, 2019 [NICE]). Typische Negativ-Folgen eines Delirs sind eine verlängerte Aufenthaltsdauer, eine erhöhte Morbidität und Mortalität (Chaiwat et al., 2019), beträchtliche Zusatzkosten (Bellelli et al., 2014), anhaltende kognitive Beeinträchtigungen, die auch noch bis zu sechs Monate nach Krankenhausentlassung bestehen können, sowie Institutionalisierung Betroffener in ein Pflegeheim (Siddiqi et al., 2016).

Die Beurteilung und gezielte Bewertung von Patient_innen hinsichtlich Risikofaktoren und Indikatoren, die auf ein Delir hinweisen, sind von grundlegender Bedeutung für eine frühzeitige Erkennung und Behandlung, um schwerwiegende Folgen zu vermeiden (NICE, 2019). Ein Delir wird außerhalb von Intensivstationen oft nicht erkannt und folglich auch nicht diagnostiziert beziehungsweise dokumentiert (Rieck et al., 2020). Als Gründe dafür sind unzureichende Kenntnisse über das „Delirgeschehen“ beim Gesundheitspersonal beschrieben, wie zum Beispiel das Nicht-Wissen über Kriterien zur Erkennung eines Delirs sowie über die Wahl und den Einsatz geeigneter Screening- und/oder Assessment-Instrumente, von denen es mittlerweile eine Vielzahl gibt und die sich oft stark in Zweck und klinischer Anwendbarkeit unterscheiden (Tieges et al., 2021a). In der klinischen Praxis häufig verwendete Instrumente sind die Confusion Assessment Method (CAM), die Delirium Rating Screening Scale (DRS), die Nursing Delirium Screening Scale (Nu-DESC) (De & Wand, 2015), die Delirium Observation Screening (DOS) Skala und mittlerweile auch der 4 A’s Test (4AT).

Der 4AT ist ein Test zur Erkennung von Delir und kognitiven Einschränkungen. Die vier A’s stehen für die Items Alertness (Wachheit), Abbreviated Mental Test (Orientierung), Attention (Aufmerksamkeit) und Acute change (Akute oder fluktuierende Symptomatik). Er wurde entwickelt, um den Zeitaufwand für den Routineeinsatz im Krankenhaus zu verkürzen, aufwendige Schulungen des Pflegefachpersonals zu vermeiden und somit ein benutzerfreundliches Instrument für den Einsatz im klinischen Alltag zu schaffen. Zudem sollten Limitationen anderer Instrumente behoben werden, wie etwa bei Schwierigkeiten in der Anwendung bei Patient_innen mit Seh- oder Hörbeeinträchtigung oder die Durchführbarkeit des Assessments bei „nicht-testbaren“ Patient_innen (MacLullich et al., 2019). Der 4AT wurde in verschiedene Sprachen übersetzt und in verschiedenen Settings hinsichtlich Validität und Reliabilität überprüft (Bellelli et al., 2014; De et al., 2017; Kuladee & Prachason, 2016). Eine Metaanalyse zur diagnostischen Genauigkeit des 4AT (Reference Standard: DSM-Kriterien oder ein validiertes diagnostisches Instrument) bei älteren hospitalisierten Patient_innen ergab eine gepoolte Sensitivität von 0,88 und eine gepoolte Spezifizität von 0,88 (Tieges et al., 2021a). Viele der verfügbaren Screening- und Assessment-Instrumente für das Delir sind für den schnelllebigen klinischen Alltag zu zeitaufwendig und benötigen oft eine spezielle Schulung für das Personal, was die Akzeptanz der Instrumente mindert (van Velthuijsen et al., 2016). Der 4AT wird aufgrund seiner Kürze (pro Patient_in circa drei Minuten) als ein anwenderfreundliches Instrument beschrieben, das laut Bellelli et al. (2014) kein spezielles Training der Anwender_innen benötigt. Allerdings weisen Tieges et al. (2021a) darauf hin, dass hierzu Evidenz aus Implementierungsstudien fehlt. Im Gegensatz zu reinen Beobachtungsinstrumenten wird der 4AT interaktiv, im Austausch mit den Patient_innen angewandt. Fachgesellschaften, wie das Scottish Intercollegiate Guidelines Network (2019) und das National Institute for Health and Care Excellence (2019), empfehlen die routinemäßige Anwendung des 4AT zur Delirerkennung. Die deutschsprachige S3-Leitlinie zur „Analgesie, Sedierung und Delirmanagement in der Intensivmedizin“ listet den 4AT als verfügbares Instrument zur Bewertung eines Delirs auf, mit dem Verweis, dass die deutschsprachige Version nur für den postoperativen Aufwachraum validiert vorliegt (Deutsche Gesellschaft für Anästhesiologie und Intensivmedizin [DGAI] & Deutsche Interdisziplinäre Vereinigung für Intensiv- und Notfallmedizin [DIVI], 2020).

Der 4AT ist das am häufigsten eingesetzte Instrument zur Delir-Erfassung im Vereinigten Königreich (Tieges et al., 2021b), wurde bisher allerdings hauptsächlich im internistischen, geriatrischen und im Notfallbereich mit guten Validitäts- und Reliabilitätswerten getestet. Es ist jedoch anzunehmen, dass ähnlich positive Ergebnisse auch im stationären chirurgischen Bereich erzielt werden. Postoperative Patient_innen sind aufgrund des zunehmenden Alters und des chirurgischen Eingriffs besonders gefährdet, ein Delir zu entwickeln. Deshalb könnte der 4AT in dieser Population und in diesem Setting das Pflegefachpersonal dabei unterstützen, ein postoperatives Delir frühzeitig oder überhaupt festzustellen.

Der 4AT wurde daher in unserer Studie als ein anwenderfreundliches Assessmentinstrument zur Delirerkennung eingesetzt, mit dem Zweck, eine verlässliche Basis zu schaffen, auf welcher das Pflegefachpersonal Entscheidungen über pflegerische und eventuell auch therapeutische Maßnahmen beim Delirmanagement treffen kann. Unseres Wissens wurde die einzige Validierungsarbeit zum 4AT in deutscher Sprache in einer post-operativen Aufwachstation durchgeführt (Saller et al., 2019). Es gibt somit bislang noch kaum Evidenz zur Validität und Reliabilität des deutschsprachigen 4AT, die den Einsatz im stationären Setting bei älteren postoperativen Patient_innen nach elektiven oder dringend durchgeführten Eingriffen rechtfertigen würde.

Zielsetzung

Die Zielsetzung der vorliegenden Studie war (1) die Interrater-Reliabilität des deutschsprachigen 4AT für den Einsatz zur postoperativen Delirerkennung bei Patient_innen ≥ 65 Jahren in allgemeinchirurgischen und orthopädisch-traumatologischen Abteilungen sowie (2) die Übereinstimmungsvalidität (concurrent validity) mit der DOS zu überprüfen.

Methode

Studiendesign

Die vorliegende Arbeit ist Teil einer prospektiven Kohortenstudie, welche die Inzidenz und die Dauer des Delirs sowie potenzielle Risikofaktoren des postoperativen, nicht-entzugsbedingten Delirs bei chirurgischen und orthopädischen/traumatologischen Patient_innen untersuchte. Die Berichterstattung orientiert sich an der GRRAS-Leitlinie (Guideline for Reporting Reliability and Agreement Study) (Kottner et al., 2011).

Stichprobe und Setting

Basierend auf einer Berechnung der Stichprobengröße zur Erhebung der Delir-Inzidenz (Charan & Biswas, 2013), wurden 202 Patient_innen in die Studie aufgenommen, die zwischen 1. April und 31. Oktober 2019 in einer chirurgischen und in einer traumatologischen/orthopädischen Abteilung eines Bezirkskrankenhauses in Norditalien einen stationären Aufenthalt (> 24 Stunden) hatten (siehe Abb. 1). Das Krankenhaus verfügt über 257 Akutbetten mit einer Gesamtzahl von 10.542 Einweisungen pro Jahr. Patient_innen kamen für die Studienteilnahme in Frage, wenn sie (1) 65 Jahre oder älter waren, (2) sich elektiven oder dringenden chirurgischen Eingriffen unterzogen haben und (3) mehr als 24 Stunden im Krankenhaus waren. Ausgeschlossen wurden Patient_innen, die sich (1) in einer terminalen Phase befanden und zu palliativen Zwecken operiert wurden, (2) vor einem orthopädischen/chirurgischen Eingriff ein Entzugsdelirium hatten und/oder bei denen Alkoholmissbrauch bekannt war, (3) aufgrund ihres Bewusstseins und ihres Allgemeinzustandes (z.B. diagnostizierte Demenz) nicht in der Lage waren, eine informierte Einwilligung zu erteilen, oder (4) eine bekannte psychiatrische Vorgeschichte hatten.

Abbildung 1 Stichprobengewinnung.

Instrumente

Der deutschsprachige 4AT, welcher für diese Studie zum Einsatz kam, wurde frei von der Homepage www.the4at.comwww.the4AT.comheruntergeladen (25. März 2019). Es handelte sich um die Version 1.2, 2015 (T. Saller für die deutsche Fassung, basierend auf MacLullich, Ryan, Cash 2011–2014). Wir benutzten den 4AT, um ein Delir (seine klinische Manifestation und nicht sein Risiko) zu erkennen. Der 4AT besteht aus vier Items. Item 1 schätzt den Grad der Wachheit ein (0 oder 4 Punkte), Item 2 den Grad der Orientierung mithilfe des verkürzten Mini Mental Tests (0–1–2 Punkte), Item 3 den Grad der Aufmerksamkeit mit „Monate rückwärts aufzählen“ (0–1–2 Punkte) und Item 4 bewertet das Vorhandensein von akuter oder fluktuierender Symptomatik (0 oder 4 Punkte). Bei 4 oder mehr Punkten liegt ein Delir vor (MacLullich et al., 2019).

Die DOS, die wir zur Bewertung der Übereinstimmungsvalidität benutzten, entspricht der deutschen Fassung 2.2 (www.delir.info.com). Sie besteht aus 13 Items, die mit 0 oder 1 bewertet werden. Die Gesamtpunktzahl liegt zwischen 0 und 13, wobei eine Punktzahl von 3 oder mehr das Vorliegen eines Delirs bedeutet (Park et al., 2021).

Bewerter_innen

Das beteiligte Krankenpflegefachpersonal der Chirurgie, Orthopädie und Anästhesie wurde vor dem Start der Studie von einer Schweizer Pflegeexpertin APN geschult. Bei der eineinhalb Tage dauernden Schulung wurde die Pathophysiologie und die Manifestation eines Delirs eingehend erörtert. Der 4AT und die DOS wurden vorgestellt; die Krankenpflegefachpersonen testeten unter Supervision die Anwendung in einer chirurgischen Abteilung.

Bestimmung der Übereinstimmungsvalidität (concurrent validity)

Die Übereinstimmungsvalidität ist eine Form der Kriteriumsvalidität. Sie zielt auf den Vergleich mit einem „Außenkriterium“ ab und stellt das Ausmaß dar, mit welchem die Ergebnisse eines zu überprüfenden Instrumentes mit einem gleichzeitig gemessenen externen Kriterium korreliert (Polit & Tatano Beck, 2004). Die für den Vergleich herangezogenen „Kriteriumswerte“ sollten nach Möglichkeit von einem Instrument stammen, das als Goldstandard gilt. Für die vorliegende Studie wurde die DOS als Referenz-Standard herangezogen. Die DOS weist eine gute gepoolte Spezifizität von 92% (88%–94%) und Sensitivität von 90% (76%–9 7%) auf (Park et al., 2021). Diese Angaben beziehen sich auf acht Studien, in denen die DOS-Ergebnisse mit diagnostischen Testergebnissen verglichen wurden, die entweder auf den Kriterien des DSM bzw. einer neuropsychiatrischen Untersuchung als Referenzstandard beruhten.

Überprüfung der Interrater-Reliabilität

Die Interrater-Reliabilität ist das Ausmaß, in welchem zwei oder mehrere geschulte Bewerter_innen unabhängig voneinander und gleichzeitig oder zeitnah einem zu messendem oder zu beobachtendem Attribut die gleiche Bewertung (oder Werte) beimessen (Polit & Tatano Beck, 2004). Mit den Daten, die gemäß den Anweisungen des Instrumentes aufgezeichnet werden, wird dann ein Äquivalenz- oder Übereinstimmungsindex zwischen den Bewerter_innen berechnet (Polit & Tatano Beck, 2004). Für die Berechnung der Interrater-Reliabilität durch den Intraklassen-Korrelationskoeffizienten wurde die erforderliche Stichprobengröße nach Typ-I- und Typ-II-Fehlern für die Übereinstimmung zwischen den Bewerter_innen unter Verwendung des Intraklassen-Korrelationskoeffizienten (ICC(2,k)) aus Temel and Erdogan (2017) abgeleitet. Für einen ICC = 0,85 zwischen zwei Bewerter_innen bei einem Signifikanzniveau von Alpha = 0,05 und der Wahrscheinlichkeit für einen Beta-Fehler = 0,20 war eine Stichprobengröße von 31 erforderlich.

Ablauf der Datenerhebung

Alle eingeschlossenen Patient_innen (n = 202) wurden ab dem ersten postoperativen Tag bis zum Entlassungstag bzw. maximal bis zum 14. postoperativen Tag täglich zwischen 7:00 und 14:00 Uhr mit DOS und 4AT auf ein postoperatives Delir von einer geschulten Krankenpflegefachperson der Anästhesie eingeschätzt, die nicht in die direkte Patient_innenbetreuung involviert war. Der 4AT und die DOS wurden unmittelbar nacheinander angewandt. Mit einem positiven Cut-off-Wert der DOS und/oder des 4ATs wurde der/die Psychiater_in zur weiteren Abklärung und Diagnosestellung kontaktiert.

Datenerhebung für die Übereinstimmungsvalidität

Für die Bestimmung der Übereinstimmungsvalidität wurden für alle eingeschlossenen Patient_innen ausschließlich die Daten der Delir-Einschätzung mittels 4AT und der DOS vom ersten postoperativen Tag verwendet, um die Analyse auf individueller Patient_innenebene zu ermöglichen.

Datenerhebung für die Interrater-Reliabilität

Pro Tag und für 33 Tage (zwischen 31. Juli und 30. Oktober 2019) wurde ein/eine Patient_in nach Zufallsprinzip aus der größeren Kohorte (n = 202) ausgewählt. Alle 33 Patient_innen erhielten zwischen 8:30 Uhr und 14:00 Uhr eine Einschätzung mit der deutschen Version des 4AT von zwei verschiedenen Bewerter_innen, die in Bezug auf die Rating-Ergebnisse der anderen verblindet waren. Das erste von insgesamt 33 Ratings wurde immer von derselben Krankenpflegefachperson aus der Chirurgie durchgeführt; das zweite Rating hingegen abwechselnd von einer der insgesamt neun Pflegefachpersonen der Anästhesie. Jede der neun Pflegefachpersonen führte zwischen einem und neun Einschätzungen durch. Die Bewerter_innen führten die Einschätzungen unabhängig voneinander in den Zimmern der Patient_innen durch und dokumentierten sie auf dem 4AT-Bogen. Sie kannten die Identität der Patient_innen und wussten, an welchem postoperativen Tag sich die Personen befanden, waren jedoch nicht für die Pflege und Betreuung zuständig.

Datenanalyse – Statistische Auswertung

Deskriptive Statistiken (z.B. Häufigkeiten, Median, Interquartilsabstand) wurden zur Überprüfung der Vollständigkeit und Plausibilität sowie zur Beschreibung der untersuchten Variablen verwendet. In die Analysen eingeschlossen wurden vollständig ausgefüllte Fragebögen, das heißt, wenn beim 4AT alle 4 Items (100%) und bei der DOS mindestens 12 der 13 Items (92%) ausgefüllt waren, beziehungsweise für die Übereistimmungsvalidität 13 der 13 Items (100%).

Die Übereinstimmungsvalidität zwischen DOS und 4AT (mit der Gesamtpunktezahl beider Instrumente) wurde anhand des Korrelationskoeffizienten nach Pearson berechnet. Wie beschrieben, wurden hierfür die Daten der am ersten postoperativen Tag durchgeführten Einschätzungen mit DOS und 4AT verwendet und auf individueller Patient_innenebene analysiert. Die Korrelationskoeffizienten wurden wie folgt interpretiert: < 0,25 = gering; 0,25–0,50 = mäßig; 0,50–0,75 = gut; > 0,75 = ausgezeichnet (Portney & Watkins, 2015).

Die Interrater-Reliabilität wurde mittels prozentueller Übereinstimmung (percent agreement) pro Item und für die Gesamtpunktezahl berechnet; der Intraklassen-Korrelationskoeffizient und die entsprechenden 95%-Konfidenzintervalle basierten auf einem Mittelwert-Rating. Sie wurden auf der Grundlage eines 2-Wege-Modells mit zufälligen Effekten (two-way random effect) mit mittlerer Bewertung (k = 2) und absoluter Übereinstimmung ermittelt. Die Interrater-Reliabilitäts-Koeffizienten wurden wie folgt interpretiert: ≥ 0,75 = gute Reliabilität (Portney & Watkins, 2015, S.595).

Die statistischen Analysen zur Ermittlung der Interrater-Reliabilität und der Übereinstimmungsvalidität wurden mit der Software SPSS Statistics 24 (IBM SPSS Inc, Chicago, IL) durchgeführt. Als statistische Signifikanz wurde p < 0,05festgelegt.

Ethische Aspekte

Das zuständige Ethikkomitee genehmigte die Durchführung der Studie mit Beschluss 79/2018 vom 17.10.2018. Die Patient_innen wurden entweder vor (beim elektiven Eingriff) oder nach dem Eingriff (beim Notfall) durch geschultes Krankenpflegefachpersonal bezüglich Zweck, Ziel und Durchführung der Studie informiert und zur Teilnahme eingeladen. Die Datenerfassung startete nach schriftlicher Einwilligung zur Studienteilnahme, zur Datenerhebung und -analyse sowie zur Veröffentlichung der Ergebnisse. Die Teilnehmer_innen konnten ihre Einwilligung zur Teilnahme an der Studie jederzeit zurückziehen.

Ergebnisse

Insgesamt wurden 202 Patient_innen mit einem mittleren Alter von 75 Jahren (Interquartilsabstand: 71–80 Jahre) in die Studie eingeschlossen. Dabei waren 51,2% (103) weiblich und 72,3% (146) wurden in der orthopädischen Abteilung behandelt (Tab. 1). Die Anzahl der eingeschlossenen Patient_innen variierte je nach durchgeführter Analyse (n = 33 bei der Interrater-Reliabilitätsmessung und n = 174 bei der Messung der Übereinstimmungsvalidität). Insgesamt wurden 1448 Erfassungen mit dem 4AT und 1398 mit der DOS durchgeführt. Im Beobachtungszeitraum hatten 22 der 202 Patient_innen ein positives Testergebnis (4AT ≥ 4 oder DOS ≥ 3), 19 wurden vom/von der Psychiater_in untersucht (3 wurden in der Zwischenzeit entlassen bzw. verlegt) und bei 15 Patient_innen wurde ein Delir diagnostiziert.

Tabelle 1 Stichprobenmerkmale

Interrater-Reliabilität und prozentuale Übereinstimmung

Alle Einschätzungen wurden im Frühdienst beziehungsweise in der ersten Tageshälfte durchgeführt. Der zeitliche Abstand zwischen der Einschätzung der ersten und der zweiten Bewerter_in betrug im Durchschnitt 35 Minuten (Median 35; Interquartilsabstand 20–51min). Die ICC(2,k)-Koeffizienten für den 4AT-Gesamtwert und den dichotomisierten Gesamtwert lagen bei 0,92 bzw. 0,98. Die prozentualen Übereinstimmungen (percent agreement) auf Item-Ebene lagen zwischen 96,8% (Item 4) und 100% (für Items 1,2,3) (siehe Tab. 2).

Tabelle 2 Interrater-Reliabilität (Übereinstimmung u. Intraklassenkorrelationen)

Übereinstimmungsvalidität (concurrent validity)

Die Übereinstimmungsvalidität wurde anhand der Anzahl der 4AT und DOS-Erfassungen am ersten postoperativen Tag berechnet. Von den 202 Patient_innen waren bei 174 Patient_innen die Erhebungen am ersten postoperativen Tag vollständig ausgefüllt worden. Die Korrelationsanalyse zwischen DOS und 4AT ergab einen Korrelationskoeffizienten nach Pearson von 0,54 (p < 0,001). Von den 15 Patient_innen, welche vom/von der Psychiater_in eine Delir-Diagnose erhielten, wurde neun Mal ein positives 4AT, einmal ein positives DOS und fünf Mal ein positives 4AT und DOS Ergebnis bestätigt.

Diskussion

Mit diesem Beitrag berichten wir zur Interrater-Reliabilität des deutschsprachigen 4AT und zur Übereinstimmungsvalidität (concurrent validity) mit der DOS bei allgemeinchirurgischen und orthopädisch-traumatologischen Patient_innen. Die Ergebnisse der Untersuchung zeigen, dass bei unserer Stichprobe die Delir-Inzidenz mit 7,4% (15 von 202 Patient_innen) etwas niedriger als der in der Literatur beschriebene Durchschnitt in dieser Population ist (National Institute for Health and Care Excellence, 2019). Gründe hierfür könnten sein, dass die Studie in einem Bezirkskrankenhaus mittlerer Versorgungsstufe durchgeführt wurde und Patient_innen mit Demenz oder psychiatrischen Störungen ausgeschlossen wurden.

Unsere Studie ergab, dass der 4AT eine exzellente Interrater-Reliabilität und eine hohe prozentuale Übereinstimmung zwischen den Bewerter_innen aufweist. Die ermittelte Übereinstimmungsvalidität des 4AT mit der DOS war ebenfalls gut. Die Ergebnisse stimmen mit jenen von Kuladee and Prachason (2016) überein, welche im Rahmen ihrer Studie eine Interrater-Reliabilität von 0,99 (95%-KI: 0,99–0,99; p = 0,001) berechneten. Der 4AT wurde dabei von Pflegefachpersonen ohne spezifische Schulung bei Patient_innen > 60 Jahren auf einer allgemein-medizinischen Abteilung eingesetzt. Ähnliche Ergebnisse bezüglich der Interrater-Reliabilität des 4AT erzielten Johansson et al. (2021), sowohl für die Anwendung durch Forschungsassistent_innen im Setting eines Landeskrankenhauses als auch durch Ärzt_innen und Pflegefachpersonal in Universitätskrankenhäusern (0,918, p < 0,001 bzw. 0,813, p < 0,001). Die Übereinstimmungsvalidität des deutschsprachigen 4AT in unserer Studie war gut und wurde mit der DOS überprüft, da diese in deutscher Sprache verfügbar, einfach benutzbar und praxisrelevant war (Hasemann et al., 2018). In der Literatur finden sich Beispiele, in denen der 4AT mit anderen Delir-Instrumenten verglichen wurde. So konnten Johansson et al. (2021) eine positive Korrelation zwischen dem schwedischen 4AT und der Organic Brain Syndrome Scale bei einer gemischten, hospitalisierten Population feststellten. In einer herzchirurgischen, postoperativen Patientengruppe lagen die Werte der bi-seriellen Korrelation zwischen dem 4AT und der DRS-R98 bei 0,45 (p < 0,001) und waren somit größer als die Übereinstimmung zwischen CAM und DRS-R98 (0,37, p < 0,001) (Chang et al., 2021). Die Ergebnisse zur Interrater-Reliabilität und Übereinstimmungsvalidität der deutschsprachigen Version zeigen, dass der 4AT bei Anwendung durch geschulte Pflegefachpersonen reproduzierbare und mit der DOS kongruente Einschätzungen der postoperativen Delirsymptomatik bei allgemeinchirurgischen und traumatologischen/orthopädischen Patient_innen ( > 65 Jahre) erlaubt, vergleichbar mit anderen häufig verwendeten Instrumenten (Helfand et al., 2021).

Unsere Daten zeigen, dass bei einem von fünf Patient_innen der 4AT zu einer falsch positiven Delir-Einschätzung führte (4/19 = 21%). Von 19 Patient_innen mit einem positiven Wert stellte der/die Psychiater_in nur bei 15 eine Delir-Diagnose mittels DSM-Kriterien. In der Literatur wurde bereits darauf hingewiesen, dass der 4AT falsch-positive Ergebnisse liefert, vor allem dann, wenn die Erhebung vom Krankenpflegefachpersonal der Abteilungen und nicht von geschulten Forscher_innen durchgeführt wird (Chang et al., 2021; Kuladee & Prachason, 2016). Muser et al. (2022) überprüften in ihrer Querschnittstudie die Messgenauigkeit (performance accuracy) des 4AT im Vergleich zur modifizierten „Confusion Assessment Method“ für den Notfallbereich (mCAM-ED). Der 4AT hatte fast doppelt so viele positive Einschätzungen (13,8%) wie die mCAM-ED (6,9%). Die Autor_innen gaben zu bedenken, dass falsch-positive Ergebnisse negative Folgen für die weitere Betreuung im Klinikalltag haben können, wie steigende Inakzeptanz gegenüber Delir-Screenings, sowie einem erhöhtem und nicht gerechtfertigtem Arbeitsaufwand aufgrund des „falschen“ Bedarfs von weiterführenden, vertiefenden Delir-Assessments. Chang et al. (2021) ermittelten für den 4AT bei Patient_innen auf einer herzchirurgischen Station eine Sensitivität von 58% und eine Spezifizität von 94%. Sie schlussfolgern hingegen, dass trotz der moderaten Sensitivität und der damit verbundenen falsch-positiven Werte der 4AT als Screening-Instrument eingesetzt werden kann, da die sehr kurze Anwendungszeit (2–3min/Patient_in) und die Einfachheit des Ausfüllens für den Einsatz in der klinischen Praxis sprechen würden. Während einige Autor_innen der Ansicht sind, dass eine „Übererfassung“ im Hinblick auf eine so wichtige Problematik wie das Delir akzeptiert werden kann (Kuladee & Prachason, 2016), stellt dies angesichts der knapper werdenden personellen Ressourcen sicherlich eine Herausforderung für das Betreuungsmanagement dar.

Dem nicht immer klaren und kohärenten sprachlichen Gebrauch in der Literatur entsprechend, stellt sich die Frage, für welchen Zweck (Screening oder Assessment) der 4AT verwendet werden kann. Der 4AT wurde bei seiner Entwicklung als Screening-Instrument zur raschen Erstbewertung von Delir bezeichnet (Shenkin et al., 2019). Im Zuge der letzten Revision (Version 1.2) wurde der 4AT von den Autor_innen in „Assessment test for delirium & cognitive impairment“ umbenannt („Assessment Test für Delir und kognitive Beeinträchtigung“). Das National Institute for Health and Care Excellence (2020) bezeichnet in der überarbeiteten Leitlinie zum Delirmanagement den 4AT als Screening-Tool, aber schlägt den 4AT sogar zur Delir-Diagnostik vor [„the 4 ’A’s test is a useful tool for diagnosis of delirium“ (S.7)]. In unserer Studie sind wir davon ausgegangen, dass der 4AT ein „schnelles“ Assessment-Instrument darstellt, mit welchem festgestellt werden kann, ob ein Delir vorliegt oder nicht, sodass das Krankenpflegefachpersonal über eine valide Informationsgrundlage für das Setzen von Maßnahmen zum Delirmanagement verfügt. Unsere Ergebnisse zeigen jedoch, dass sich der 4AT bei postoperativen älteren, allgemeinchirurgischen und orthopädisch-traumatologischen Patient_innen eher nicht als Assessment-Instrument eignet, aber als Screening-Instrument dem Pflegefachpersonal einfach und effizient das Herausfiltern von „Risikopatient_innen“ ermöglichen kann (Hasemann et al., 2007). Allerdings besteht bei positiven 4AT-Ergebnissen die Notwendigkeit eines weiterführenden Assessments, zum Beispiel durch einen/eine Pflegeexpert_in, um das Vorliegen eines Delirs zu bestätigen.

Limitationen

In unserer Studie wurde die Diagnosestellung hinsichtlich des Vorliegens oder Nicht-Vorliegens eines postoperativen Delirs seitens der Psychiater_innen nur bei Patient_innen mit einem positiven 4AT und/oder positiven DOS-Wert durchgeführt. Da der/die Psychiater_in aus zeitlichen Gründen nicht bei jeder Erfassung (sei es bei einem positiven als auch negativen 4AT- oder DOS-Wert) zugegen sein konnte, um eine ärztliche Diagnose zu stellen, war es im Rahmen dieser Untersuchung nur möglich, die Übereinstimmungsvalidität anhand der DOS und nicht des Goldstandards (ärztliche Diagnose) zu untersuchen. Aus Praktikabilitätsgründen wurde die Erhebung immer zwischen 7:00–14:00 Uhr durchgeführt. Sollte sich im Laufe des Tages und in der Nacht ein Delir entwickelt haben, wurde es im Rahmen der Studie womöglich nicht erfasst beziehungsweise erst am nächsten Tag, falls die Symptome angedauert haben.

Schlussfolgerungen

Unsere Ergebnisse zur Interrater-Reliabilität und Übereinstimmungsvalidität der deutschsprachigen Version zeigen, dass der 4AT bei Anwendung durch geschulte Pflegefachpersonen reproduzierbare und mit der DOS kongruente Einschätzungen der postoperativen Delirsymptomatik bei allgemeinchirurgischen und traumatologischen/orthopädischen Patient_innen (> 65 Jahre) erlaubt. Der 4AT kann alternativ zur DOS als Screening-Instrument zur postoperativen Delirerkennung benutzt werden. Sowohl die diagnostische Genauigkeit als auch der systematische Einsatz des 4AT durch Pflegefachpersonen im chirurgischen Bereich sollte in weiteren Studien, insbesondere hinsichtlich Akzeptanz und Integration in den Pflegealltag, untersucht werden.

Wir bedanken uns bei den mitwirkenden Praxispartner_innen, die diese Arbeit erst ermöglicht haben.

Literatur

  • Bellelli, G. , Morandi, A. , Davis, D. H. , Mazzola, P. , Turco, R. , Gentile, S. , Ryan, T. , Cash, H. , Guerini, F. , Torpilliesi, T. , Del Santo, F. , Trabucchi, M. , Annoni, G. & MacLullich, A. M. (2014). Validation of the 4AT, a new instrument for rapid delirium screening: a study in 234 hospitalised older people. Age and Ageing, 43(4), 496–502. https://doi.org/10.1093/ageing/afu021 First citation in articleCrossref MedlineGoogle Scholar

  • Chaiwat, O. , Chanidnuan, M. , Pancharoen, W. , Vijitmala, K. , Danpornprasert, P. , Toadithep, P. & Thanakiattiwibun, C. (2019). Postoperative delirium in critically ill surgical patients: incidence, risk factors, and predictive scores. BMC Anesthesiology, 19(1), 3939. https://doi.org/10.1186/s12871-019-0694-x First citation in articleGoogle Scholar

  • Chang, Y. , Ragheb, S. M. , Oravec, N. , Kent, D. , Nugent, K. , Cornick, A. , Hiebert, B. , Rudolph, J. L. , MacLullich, A. M. J. & Arora, R. C. (2021). Diagnostic accuracy of the "4 A’s Test" delirium screening tool for the postoperative cardiac surgery ward. The Journal of Thoracic and Cardiovascular Surgery. https://doi.org/https://doi.org/10.1016/j.jtcvs.2021.05.031 First citation in articleGoogle Scholar

  • Charan, J. , & Biswas, T. (2013). How to Calculate Sample Size for Different Study Designs in Medical Research? Indian Journal of Psychological Medicine, 35(2), 121–126. https://doi.org/10.4103/0253-7176.116232 First citation in articleCrossref MedlineGoogle Scholar

  • De, J. & Wand, A. P. F. (2015). Delirium Screening: A Systematic Review of Delirium Screening Tools in Hospitalized Patients. The Gerontologist, 55(6), 1079–1099. https://doi.org/10.1093/geront/gnv100 First citation in articleCrossref MedlineGoogle Scholar

  • De, J. , Wand, A. P. F. , Smerdely, P. I. & Hunt, G. E. (2017). Validating the 4A’s test in screening for delirium in a culturally diverse geriatric inpatient population. International Journal of Geriatric Psychiatry, 32(12), 1322–1329. https://doi.org/10.1002/gps.4615 First citation in articleCrossref MedlineGoogle Scholar

  • Deutsche Gesellschaft für Anästhesiologie und Intensivmedizin (DGAI) & Deutsche Interdisziplinäre Vereinigung für Intensiv- und Notfallmedizin (DIVI) (2020). S3-Leitlinie Analgesie, Sedierung und Delirmanagement in der Intensivmedizin (DAS-leitlinie 2020). (https://www.awmf.org/uploads/tx_szleitlinien/001-012l_S3_Analgesie-Sedierung-Delirmanagement-in-der-Intensivmedizin-DAS_2021-08.pdf) First citation in articleGoogle Scholar

  • Hasemann, W. , Kressig, R. W. , Ermini-Funfschilling, D. , Pretto, M. & Spirig, R. (2007). Screening, Assessment und Diagnostik von Delirien. Pflege, 20(4), 191–204. https://doi.org/10.1024/1012-5302.20.4.191 (Screening, Assessment und Diagnostik von Delirien.) First citation in articleLinkGoogle Scholar

  • Hasemann, W. , Tolson, D. , Godwin, J. , Spirig, R. , Frei, I. A. & Kressig, R. W. (2018). Nurses’ Recognition of Hospitalized Older Patients With Delirium and Cognitive Impairment Using the Delirium Observation Screening Scale: A Prospective Comparison Study. Journal of Gerontological Nursing, 44(12), 35–43. https://doi.org/10.3928/00989134-20181018-02 First citation in articleCrossref MedlineGoogle Scholar

  • Helfand, B. K. I. , D’Aquila, M. L. , Tabloski, P. , Erickson, K. , Yue, J. , Fong, T. G. , Hshieh, T. T. , Metzger, E. D. , Schmitt, E. M. , Boudreaux, E. D. , Inouye, S. K. & Jones, R. N. (2021). Detecting Delirium: A Systematic Review of Identification Instruments for Non-ICU Settings. Journal of the American Geriatrics Society, 69(2), 547–555. https://doi.org/10.1111/jgs.16879 First citation in articleCrossref MedlineGoogle Scholar

  • Inouye, S. , Westendorp, R. G. J. & Saczynski, J. S. (2014). Delirium in elderly people. Lancet, 383(9920), 911–922. https://doi.org/10.1016/S0140-6736(13)60688-1 First citation in articleCrossref MedlineGoogle Scholar

  • Johansson, Y. A. , Tsevis, T. , Nasic, S. , Gillsjö, C. , Johansson, L. , Bogdanovic, N. & Kenne Sarenmalm, E. (2021). Diagnostic accuracy and clinical applicability of the Swedish version of the 4AT assessment test for delirium detection, in a mixed patient population and setting. BMC Geriatrics, 21(1), 568. https://doi.org/10.1186/s12877-021-02493-3 First citation in articleCrossref MedlineGoogle Scholar

  • Kottner, J. , Audigé, L. , Brorson, S. , Donner, A. , Gajewski, B. , Hróbjartsson, A. , Roberts, C. , Shoukri, M. & Streiner, D. L. (2011). Guidelines for Reporting Reliability and Agreement Studies (GRRAS) were proposed. Journal of Clinical Epidemiology, 64(1), 96–106. https://doi.org/https://doi.org/10.1016/j.jclinepi.2010.03.002 First citation in articleCrossref MedlineGoogle Scholar

  • Kuladee, S. & Prachason, T. (2016). Development and validation of the Thai version of the 4 ’A’s Test for delirium screening in hospitalized elderly patients with acute medical illnesses. Neuropsychiatric Disease and Treatment, 12, 437–443. https://doi.org/10.2147/ndt.s97228 First citation in articleCrossref MedlineGoogle Scholar

  • MacLullich, A. M. J. , Shenkin, S. D. , Goodacre, S. , Godfrey, M. , Hanley, J. , Stíobhairt, A. , Lavender, E. , Boyd, J. , Stephen, J. , Weir, C. , MacRaild, A. , Steven, J. , Black, P. , Diernberger, K. , Hall, P. , Tieges, Z. , Fox, C. , Anand, A. , Young, J. , … Gray, A. (2019). The 4 "a"s test for detecting delirium in acute medical patients: A diagnostic accuracy study. Health Technology Assessment, 23(40), 1–193. https://doi.org/ http://doi.org/10.3310/hta23400 First citation in articleCrossref MedlineGoogle Scholar

  • Muser, O. , Seiler, K. , Bachnick, S. , Gehri, B. , Zuniga, F. & Hasemann, W. (2022). Delirium detection in hospitalized adults: the performance of the 4 ’A’s Test and the modified Confusion Assessment Method for the Emergency Department. A comparison study. Bulletin of the National Research Centre, 46. https://doi.org/10.1186/s42269-022-00863-4 First citation in articleCrossrefGoogle Scholar

  • National Institute for Health and Care Excellence [NICE]. (2019). Delirium: prevention, diagnosis and management. First citation in articleGoogle Scholar

  • National Institute for Health and Care Excellence, [NICE]. (2020). 2020 exceptional surveillance of delirium: prevention, diagnosis and management (NICE guideline CG103). www.nice.org.uk First citation in articleGoogle Scholar

  • Park, J. , Jeong, E. & Lee, J. (2021). The Delirium Observation Screening Scale: A Systematic Review and Meta-Analysis of Diagnostic Test Accuracy. Clinical Nursing Research, 30(4), 464–473. https://doi.org/10.1177/1054773820961234 First citation in articleCrossref MedlineGoogle Scholar

  • Polit, D. F. & Tatano Beck, C. (2004). Nursing Research: Principles and Methods – 7th edition (L.-R. Publishers, Ed. 7TH 04 ed.). First citation in articleGoogle Scholar

  • Portney, L. G. & Watkins, M. P. (2015). Foundation of Clinical Research (Application to practice). F. A. Davis Company. First citation in articleGoogle Scholar

  • Rieck, K. M. , Pagali, S. & Miller, D. M. (2020). Delirium in hospitalized older adults. Hospital Practice, 48(sup1), 3–16. https://doi.org/10.1080/21548331.2019.1709359 First citation in articleCrossrefGoogle Scholar

  • Saller, T. , MacLullich, A. M. J. , Schafer, S. T. , Crispin, A. , Neitzert, R. , Schule, C. , von Dossow, V. & Hofmann-Kiefer, K. F. (2019). Screening for delirium after surgery: validation of the 4 A’s test (4AT) in the post-anaesthesia care unit. Anaesthesia. https://doi.org/10.1111/anae.14682 First citation in articleCrossref MedlineGoogle Scholar

  • Scottish Intercollegiate Guidelines Network, [SIGN]. (2019). Risk reduction and management of delirium. http://www.sign.ac.uk First citation in articleGoogle Scholar

  • Shenkin, S. D. , Fox, C. , Godfrey, M. , Siddiqi, N. , Goodacre, S. , Young, J. , Anand, A. , Gray, A. , Hanley, J. , MacRaild, A. , Steven, J. , Black, P. L. , Tieges, Z. , Boyd, J. , Stephen, J. , Weir, C. J. & MacLullich, A. M. J. (2019). Delirium detection in older acute medical inpatients: a multicentre prospective comparative diagnostic test accuracy study of the 4AT and the confusion assessment method. BMC Medicine, 17(1), 138. https://doi.org/10.1186/s12916-019-1367-9 First citation in articleCrossref MedlineGoogle Scholar

  • Siddiqi, N. , Harrison, J. K. , Clegg, A. , Teale, E. A. , Young, J. , Taylor, J. & Simpkins, S. A. (2016). Interventions for preventing delirium in hospitalised non-ICU patients. Cochrane Database Systematic Review, 3, CD005563. https://doi.org/10.1002/14651858.CD005563.pub3 First citation in articleMedlineGoogle Scholar

  • Temel, G. & Erdogan, S. (2017). Determining the sample size in agreement studies. Marmara Medical Journal, 30, 101–112. https://doi.org/10.5472/marumj.344822 First citation in articleCrossrefGoogle Scholar

  • Tieges, Z. , Lowrey, J. & MacLullich, A. M. J. (2021b). What delirium detection tools are used in routine clinical practice in the United Kingdom? Survey results from 91% of acute healthcare organisations. European geriatric medicine. https://doi.org/https://doi.org/10.1007/s41999-021-00507-2 First citation in articleCrossrefGoogle Scholar

  • Tieges, Z. , MacLullich, A. M. J. , Anand, A. , Brookes, C. , Cassarino, M. , O’Connor, M. , Ryan, D. , Saller, T. , Arora, R. C. , Chang, Y. , Agarwal, K. , Taffet, G. , Quinn, T. , Shenkin, S. D. & Galvin, R. (2021a). Diagnostic accuracy of the 4AT for delirium detection in older adults: systematic review and meta-analysis. Age and Ageing, 50(3), 733–743. https://doi.org/10.1093/ageing/afaa224 First citation in articleCrossref MedlineGoogle Scholar

  • van Velthuijsen, E. L. , Zwakhalen, S. M. , Warnier, R. M. , Mulder, W. J. , Verhey, F. R. & Kempen, G. I. (2016). Psychometric properties and feasibility of instruments for the detection of delirium in older hospitalized patients: a systematic review. International Journal of Geriatric Psychiatry, 31(9), 974–989. https://doi.org/10.1002/gps.4441 First citation in articleCrossref MedlineGoogle Scholar