Skip to main content
Open AccessOriginalarbeit

Erfassung der Primärstudienqualität in psychologischen Meta-Analysen

Eine systematische Übersichtsarbeit

Published Online:https://doi.org/10.1026/0033-3042/a000484

Abstract

Zusammenfassung. Meta-Analysen haben sich als Methodik zur Zusammenfassung von Studienergebnissen etabliert und sind ein wichtiges Instrument für Wissenschaftler, aber auch für politische und soziale Entscheidungsträger. Jedoch können die Schätzungen einer Meta-Analyse verzerrt sein, wenn nicht für die methodische Qualität der eingehenden Primärstudien kontrolliert wird. Die Erfassung der Primärstudienqualität und die Bereitstellung entsprechender Instrumente sollte dementsprechend essentieller Bestandteil jeder wissenschaftlichen Disziplin sein, die sich auf Meta-Analysen zur quantitativen Integration von Studienergebnissen stützt. Die vorliegende Übersichtsarbeit bietet daher einen Überblick ob und welche Qualitätskriterien in der Psychologie herangezogen werden. Insgesamt 225 Meta-Analysen, die in den letzten 10 Jahren im Psychological Bulletin veröffentlicht wurden, gingen in die Analyse ein. Nur etwa 18 % dieser Studien berücksichtigen explizit die Qualität der eingehenden Primärstudien. Zudem weisen die Strategie der Qualitätsberücksichtigung, wie auch die verwendeten Instrumente, bzw. die entwickelten Items eine ausgeprägte Heterogenität zwischen den Studien auf. Diese Unterschiede, die Vor- und Nachteile der spezifischen Vorgehensweisen als auch die praktischen Implikationen, die sich daraus ergeben werden anschließend diskutiert. Eine englische Übersetzung als Rohfassung dieses Artikels finden Sie als Elektronisches Supplement 1.

Assessment of Study Quality in Psychological Meta-Analyses: A Systematic Review

Abstract. Meta-analyses have developed into a preferred method for aggregating effect sizes reported in primary studies and are a viable tool for both researchers as well as political and social decision-makers. However, the meta-analytic estimates may be biased because of differences in the methodological rigor between primary studies. Accordingly, the assessment of primary study quality as well as the provision of appropriate quality appraisal tools should be an essential part of any scientific discipline that uses meta-analyses for the quantitative integration of study results. The present review provides an overview of whether and which quality criteria are used in psychological meta-analyses. A total of 225 meta-analyses published in Psychological Bulletin over the last 10 years were included in the analysis. Only about 18 % of these studies explicitly consider the quality of the primary studies. Additionally, the specific approach as well as the instruments or items used show a high degree of heterogeneity between the studies. These differences, the advantages and disadvantages of the specific procedures as well as the practical implications arising from them are thoroughly discussed.

Angesichts der immensen Zunahme an publizierten psychologischen Studien und einer daraus resultierenden, gesteigerten Notwendigkeit der Informationsverdichtung, haben sich Meta-Analysen zu einem unerlässlichen Instrument der Integration und Bewertung von Studienergebnissen etabliert. Allerdings sind sie ebenfalls teils heftiger Kritik ausgesetzt. Ein Hauptkritikpunkt – die sogenannte „Garbage in – Garbage out“ Problematik – wird buchstäblich angeführt seitdem der Begriff „Meta-Analyse“ von Glass (1976) eingeführt worden ist (vgl. Eysenck, 1978). Dieser umfasst die Befürchtung, dass die Ergebnisse von Meta-Analysen verzerrt sein können, wenn man nicht die qualitativen Unterschiede der eingehenden Primärstudien berücksichtigt bzw. diese kontrolliert. Ob und in welchem Ausmaß Studienergebnisse von qualitätsrelevanten methodischen, statistischen und versuchsplanerischen Entscheidungen der Forscher abhängen, ist wiederholt Gegenstand empirischer Untersuchungen (z. B. Cuijpers, van Straten, Bohlmeijer, Hollon & Anderson, 2010; Dechartres, Trinquart, Faber & Ravaud, 2016; Landy et al., in press; Page et al., 2016; Schulz, Chalmers, Hayes & Altman, 1995; Shadish, Clark & Steiner, 2008; Silberzahn et al., 2018; Spinelli, Endicott & Goetz, 2015; Wittmann & Matt, 1986). Die Ergebnisse dieser Studien scheinen allerdings durchaus divergent und erlauben bisher noch keine einheitlichen Aussagen darüber, wie ein potentieller Einfluss qualitätsbezogener Merkmale beschaffen ist (d. h. Größe und Richtung des Effektes) und wie generalisierbar bzw. kontextspezifisch diese Effekte sind.

Ungeachtet dieser Unwägbarkeiten ist allein schon aufgrund eines potentiell starken Einflusses qualitätsrelevanter Merkmale und der Tatsache, dass sich Primärstudien einer Metaanalyse in eben diesen Charakteristika unterscheiden werden, die Berücksichtigung der Primärstudienqualität von bedeutsamer Relevanz. Während in angrenzenden Professionen – wie den Gesundheitswissenschaften und der evidenzbasierten Medizin – nahezu routinemäßig die Qualität der eingehenden Primärstudien oder deren Risiko für einen Bias1 erfasst wird (Higgins & Altman, 2008; Johnson, Low, & MacDonald, 2015), gibt es bisher noch keine systematische Untersuchung, inwieweit dies auch im Rahmen von psychologischen Meta-Analysen der Fall ist. Die vorliegende Übersichtsarbeit soll dementsprechend einen Einblick geben, ob in psychologischen Meta-Analysen qualitativen Unterschieden zwischen den Primärstudien Rechnung getragen wird. Darüber hinaus soll spezifiziert werden, in welcher Phase der Metaanalyse die Qualitätsberücksichtigung erfolgt, welche Instrumente und Items zur Erfassung verwendet werden, und wie bei der Verrechnung multipler Items konkret vorgegangen wird.

Phase der Qualitätsberücksichtigung. Die Qualität der eingehenden Primärstudien kann in unterschiedlichen Phasen der Metaanalyse berücksichtigt werden. Übergreifend lassen sich die verschiedenen Vorgehensweisen zwei Strategien zuordnen: (1) Qualitätsselektierende und (2) qualitätsintegrierende Strategien. Erstere zeichnen sich dadurch aus, dass schon in frühen Phasen der Meta-Analyse qualitätsbezogene Standards definiert werden, die dann beispielsweise in Form von Inklusions- bzw. Exklusionskriterien Anwendung finden. Das vorrangige Ziel dieser Strategie besteht dementsprechend darin, mutmaßlich qualitativ minderwertige Studien auszuschließen. Im Rahmen von qualitätsintegrierenden Strategien werden diese qualitativen Einschränkungen in der Studienauswahl nicht vorgenommen. Vielmehr werden Unterschiede in der wissenschaftlichen Sorgfalt, mit der eine Studie geplant, ausgeführt, analysiert, und / oder dokumentiert wurde, kodiert. Diese Kodierung kann dann an unterschiedlichen Stellen Berücksichtigung finden, z. B. als Gewichtungsfaktor bei der Berechnung der mittleren Effektstärke, zur deskriptiven Darstellung der Primärstudienqualität oder zur inferenzstatistischen Analyse des Einflusses qualitätsrelevanter Merkmale über Moderator- oder Sensitivitätsanalysen. Während Primärstudienqualität als Gewichtungsfaktor nur selten implementiert wird und auch generell nicht empfehlenswert ist (Ahn & Becker, 2011), finden die beiden letztgenannten Vorgehensweisen häufiger Anwendung.

Ob qualitätsselektierende oder qualitätsintegrierende Strategien die bessere Alternative darstellen ist nicht unabhängig von der Fragestellung und dem Zielpublikum der Meta-Analyse zu beantworten, wird zudem kontrovers diskutiert und dementsprechend sind die Empfehlungen, die innerhalb der Literatur gegeben werden, inkonsistent (vgl. Ahn & Becker, 2011; Johnson et al., 2014). Auch eine Kombination aus beiden Strategien ist möglich und in vielen Fällen sinnvoll, da eine qualitätsselektierende Strategie – selbst bei sehr strikt definierten Qualitätsstandards – nicht in der Lage sein wird, die komplette Variabilität in qualitätsrelevanten Merkmalen zwischen den einbezogenen Primärstudien zu eliminieren.

Instrumente und Items zur Qualitätserfassung. Es existieren bereits hunderte Instrumente, Checklisten oder Skalen zur Messung der Primärstudienqualität (im Folgenden zusammengefasst unter dem Begriff quality assessment tools, QATs), die in angrenzenden Wissenschaftsbereichen entwickelt worden sind (vgl. Jüni, Altman & Egger, 2001; Sanderson, Tatt & Higgins, 2007; Katrak, Bialocerkowski, Massy-Westropp, Kumar & Grimmer, 2004). Allerdings weisen diese teilweise erhebliche Unterschiede auf, die sich sowohl in Bezug auf die erfassten Iteminhalte als auch in der Itemanzahl manifestieren. Zudem sind viele QATs von fragwürdiger psychometrischer Qualität (Crowe & Sheppard, 2011; Moher, Cook, Jadad, Tugwell & Moher, 1999) und die Frage nach der Anwendbarkeit im Rahmen psychologischer Meta-Analysen ist noch nicht abschließend geklärt. Ein Punkt, der die Generalisierbarkeit bestehender QATs anzweifeln lässt, ist eine zumeist bestehende Einschränkung bezüglich des Anwendungskontextes. So analysierten beispielsweise Sanderson und Kollegen (2007) 86 Instrumente und Checklisten, die in epidemiologischen Studien Anwendung finden. Über die Hälfte (53 %) dieser QATs war in seiner Anwendung auf spezifische Forschungsdesigns beschränkt (z. B. nur geeignet zur Qualitätsbewertung randomisiert, kontrollierter Studien). Für Meta-Analysen, die die Auswahl der Studien nicht an die Anwendung eines speziellen Studiendesigns knüpfen, wären solche Verfahren dementsprechend nur sehr eingeschränkt anwendbar.

Verrechnungsstrategie. Sowohl etablierte als auch ad hoc entwickelte QATs erfassen Qualität häufig über multiple Items. Dies erscheint sinnvoll, da die Qualität bzw. die Validität einer Studie ein mehrdimensionales Konstrukt darstellt, dass sich aus mehreren Facetten zusammensetzt (vgl. Campbell & Stanley, 1966; Cook & Campbell, 1979; Valentine & Cooper, 2008). Die Frage nach der Verrechnungsstrategie bezieht sich auf das weitere Vorgehen im Umgang mit diesen multiplen Items, d. h. in welchem Ausmaß diese aggregiert werden. Im einfachsten Fall findet keine Form der Verrechnung statt, d. h. die Studienqualität wird weiterhin auf Ebene der Items bewertet. In diesem Fall würden beispielsweise alle qualitätsbezogenen Items einzeln im Rahmen der Moderatoranalyse getestet werden. Der Extremfall wäre die Zusammenfassung zu einem einzigen (ggf. gewichteten) Summenscore, der dann wiederum als quantitative Variable in die Moderatoranalyse eingehen oder zusätzlich noch kategorisiert werden kann (z. B. Einteilung in qualitativ hochwertige und minderwertige Studien anhand des Gesamtscores). Ein Mittelweg, wäre die Zusammenfassung einzelner Items zu Qualitätsdimensionen. Dies bietet sich vor allem dann an, wenn einzelne Items sehr ähnliche Fehlerquellen ansprechen. So lassen sich beispielsweise die Frage nach der Randomisation und der Verblindung der Teilnehmer der internen Validität einer Untersuchung zuordnen (Campbell & Stanley, 1966).

Methodik

Literatursuche und -auswahl

Um einen Einblick in die gegenwärtige Qualitätserfassung im Rahmen psychologischer Meta-Analysen zu erhalten, wurden alle Meta-Analysen, die zwischen Januar 2009 und Dezember 2019 in Psychological Bulletin veröffentlicht wurden, als Datengrundlage einbezogen. Psychological Bulletin wurde gewählt, da diese Zeitschrift Themen aller psychologischen Disziplinen veröffentlicht und dementsprechend nicht auf einzelne Teilbereiche der Psychologie beschränkt ist. Zudem kommt Psychological Bulletin eine besonders ausgeprägte Relevanz für psychologische Meta-Analysen zu (Guilera, Barrios & Gómez-Benito, 2013; White, 2019) und gehört – gemessen am Zitationsindex – zu einem der hochrangigsten Journals in der Psychologie.

In einem ersten Schritt wurden die Inhaltsverzeichnisse der Ausgaben 135 bis einschließlich 145 des Internetauftritts von Psychological Bulletin durchsucht. Es wurden alle Artikel ausgewählt, die entweder im Titel oder im Abstract die Suchbegriffe „meta-analy*“ oder „review“ enthielten. Alle diese potentiell geeigneten Arbeiten waren anschließend Gegenstand einer eingehend Volltextanalyse und wurden in die vorliegende Übersichtsarbeit einbezogen, wenn es sich (1) um eine meta-analytische (d. h. quantitative) Integration von Studienergebnissen handelt2 und (2) die Autoren die Qualität der eingehenden Primärstudien in irgendeiner Form berücksichtigen. Die Studienauswahl sowie die anschließende Kodierung wurde von zwei unabhängigen Kodierern vorgenommen. Auftretende Divergenzen wurden diskutiert, bis ein Konsens erzielt wurde. Eine ausführliche Übersicht des Literaturselektionsprozesses in Form eines PRISMA-Flowcharts (Moher, Liberati, Tetzlaff & Altman, 2009) ist als OD 1 in PsychArchives3 hinterlegt.

Kodierung von Studiencharakteristika

Zur Beschreibung der Metaanalysen und der darin verwendeten QATs wurden verschiedene Charakteristika jeder einbezogenen Metaanalysen kodiert: (1) die Strategie und die Phase der Qualitätsberücksichtigung, (2) die angewandten Instrumente, (3) die Anzahl und Inhalte der Items zur Qualitätsbestimmung, (4) die Art der Verrechnung multipler Items zur Qualitätserfassung und (5) die weiterführende Analysemethode. Zudem wurden bei allen 225 aufgefundenen Meta-Analysen das Publikationsjahr kodiert und wie viele Primärstudien jeweils in die Analyse eingegangen sind. Alle Kodierungen wurden von zwei unabhängigen Kodierern vorgenommen. Es zeigte sich für fast alle Variablen perfekte Übereinstimmung. Lediglich bei der Spezifikation der Itemanzahl zeigte sich in einem Fall eine Diskrepanz, die über Diskussion gelöst wurde.

Ergebnisse

Von insgesamt 225 quantitativen Reviews, die in den letzten 10 Jahren in Psychological Bulletin veröffentlicht wurden, wurde insgesamt in 40 Metaanalysen (d. h. in 17.78 %, siehe OD 2 für eine ausführliche Auflistung der Studien) explizit den qualitativen Unterschieden der Primärstudien Rechnung getragen. Der Unterschied in der Anzahl der einbezogenen Primärstudien zwischen Metaanalysen, die explizit die Qualität der Primärstudien berücksichtigen ( = 129.62, SD = 120.97) und solchen, die das nicht tun ( = 132.19, SD = 119.75), ist marginal und statistisch nicht signifikant: t ‍(223) = 0.123; p = .902. Das Vorgehen der Autoren und die verwendeten QATs bzw. die entwickelten Items weisen allerdings erhebliche Unterschiede zwischen den Studien auf (siehe Tabelle 1 als OD 3 für eine Übersicht), die im Folgenden dargestellt werden.

Strategie der Qualitätsbeurteilung. Ähnlich wie bei der Frage, ob überhaupt die Qualität der eingehenden Primärstudien berücksichtigt wird, so scheint auch die Auswahl der Strategie nicht von der Anzahl der eingehenden Primärstudien abhängig zu sein: t ‍(35) = 0.173, p = .864. Bei den vorliegenden Metaanalysen wurden vorrangig qualitätsintegrierende Strategien angewendet, d. h. die Studienqualität wurde in 80 % der Fälle (k = 32) im Rahmen der Kodierung erfasst. In drei dieser Meta-Analysen (Baglioni et al., 2016; Karlin, Zinger & Ford, 2015; Pahlke, Hyde & Allison, 2014) wurde dieses Vorgehen zusätzlich um eine qualitätsselektierende Strategie ergänzt, d. h. es wurden zunächst qualitätsrelevante Mindeststandards zur Spezifikation der Inklusions- oder Suchkriterien definiert und verbleibende qualitätsbezogene Unterschiede wurden anschließend über eigens definierte Items oder bestehende QATs kodiert. In allen weiteren Meta-Analysen (k = 8) wurden ausschließlich qualitätsselektierende Strategien angewendet. In den meisten Fällen (k = 7) bestanden diese in einer Beschränkung der Such- oder Inklusionstrategie auf publizierte Artikel, die ein Peer-Review durchlaufen haben.

Instrumente. Nur in etwa einem Viertel der einbezogenen Metaanalysen (k = 11) haben die Autoren auf ein bereits publiziertes Verfahren zur Qualitätsbewertung zurückgegriffen. Zu den verwendeten Verfahren gehören: die Newcastle-Ottawa-Scale (k = 3), das Critical Appraisal Skills Programme Tool (CASP; k = 3), das Cochrane Risk-ofBias Tool (k = 2, jeweils in modifizierter Version), das Quality Assessment of Diagnostic Accurracy Studies (QUADAS-2; k = 1), das Randomized Controlled Trial Psychotherapy Quality Rating (k = 1), und die Cambridge Quality Checklist (k = 1.) Keines der verwendeten Verfahren ist für die generalisierte Anwendung in psychologischen Meta-Analysen entwickelt worden. Vielmehr stammen die Verfahren aus Teildisziplinen bzw. aus angrenzenden Wissenschaftsgebieten, wie der Medizin, der Psychiatrie, oder den Erziehungswissenschaften. In einem Großteil der Studien (k = 28) verwendeten die Autoren eigens definierte Standards oder ad hoc formulierte Items. In einem Fall wurde in der Studie nicht spezifiziert, welches QAT, bzw. welche Items zur Qualitätsbewertung herangezogen wurde.

Itemcharakteristika. Die verwendeten Verfahren zur Qualitätsbewertung wiesen sowohl in Bezug auf die Anzahl der verwendeten Items (Min = 1, Max = 24, Mo = 5) als auch auf die erfassten Inhalte eine starke Heterogenität zwischen den Studien auf. Bezüglich der Inhalte wurde in den meisten Items die Angemessenheit der Operationalisierung der unabhängigen oder abhängigen Variablen erfasst, gefolgt von design-spezifischen Merkmalen (d. h., ob eine experimentelle Manipulation vorliegt), Merkmalen der Stichprobenziehung, Versuchspersonenfluktuation, Publikationsqualität, Angemessenheit der statistischen Auswertung und Spezifika der Kontrollgruppe.

Verrechnung multipler Items. Nur wenige Autoren (k = 8) erfassten die Studienqualität über ein einzelnes Item, in den meisten Fällen erfolgte die Erfassung auf Basis multipler Items. Diese wurden zumeist zu einem Gesamtwert aggregiert (k = 13), der entweder quantitativ belassen wurde (k = 8) oder die Basis für eine Kategorisierung bildete (k = 5). In den anderen Meta-Analysen wurden die Analysen zum Einfluss der Studienqualität auf Itemebene durchgeführt (k = 12).

Analyse. Wurde zuvor die Entscheidung zugunsten einer integrativen Strategie der Qualitätsberücksichtigung getroffen, so wurden die Kodierungen in den meisten Fällen zur statistischen Analyse des Qualitätseinflusses genutzt, d. h. sie wurden analysiert mit Hilfe von Moderator- (k = 21) oder Sensitivitätsanalysen (k = 4). In einem einzigen Fall wurde die Kodierung als Gewichtungsfaktor zur Bestimmung der mittleren Effektstärke einbezogen und in den anderen Fällen diente diese als Basis zur deskriptiven Beschreibung der einbezogenen Primärstudien (k = 5).

Diskussion

Das vorliegende Review gibt einen Überblick über das Vorgehen zur Berücksichtigung der Studienqualität im Rahmen von psychologischen Meta-Analysen, die innerhalb der vergangenen Dekade in Psychological Bulletin veröffentlicht wurden. Es zeigt sich, dass der Anteil an Meta-Analysen, die explizit die Qualität der eingehenden Primärstudien berücksichtigt, mit 17.78 % deutlich unter den Werten liegt, die sich beispielsweise in den Gesundheitswissenschaften oder der Medizin finden (vgl. Johnson et al., 2015; Saltaji et al., 2016). Allerdings muss man diese Quote relativiert betrachten, da häufig auch in den ausgeschlossenen Meta-Analysen qualitätsrelevante Merkmale in den Inklusionskriterien oder im Rahmen der Kodierung erfasst wurden, diese aber nicht explizit der Qualität sondern vielmehr inhaltlichen Gründen zugerechnet werden. Dementsprechend sollte die Quote nicht überstrapaziert werden. Allerdings zeigen sich im Rahmen der vorliegenden Übersichtsarbeit im spezifischen Vorgehen der Qualitätsberücksichtigung und den verwendeten QATs einige kritische Punkte. Aus den hier vorgestellten Ergebnissen lassen sich daher einige Schlussfolgerungen und Handlungsempfehlungen für die Psychologie ableiten.

Fazit 1: Es bedarf eines Konsens in der Psychologie bezüglich der inhaltlichen Definition des Begriffes „Studienqualität“. Bezüglich der Iteminhalte konnten wir feststellen, dass die Autoren teilweise sehr unterschiedliche Items zur Bewertung der Studienqualität einsetzen. Hier wird deutlich, dass es an einer gemeinsamen inhaltlichen und dementsprechend auch einer operationalen Definition von Qualität mangelt – ein Zustand der als äußerst problematisch zu erachten ist. Das Fehlen einer konsensualen Definition von Studienqualität führt dazu, dass es jedem Autor frei steht eigene Kriterien zu bestimmen. Dies hat zur Folge, dass die Ergebnisse zwischen verschiedenen Meta-Analysen nicht nur nicht mehr vergleichbar sind, sondern auch von der Wahl der verwendeten Qualitätskriterien abhängen können (Jüni et al., 1999). Wenn wir zudem die spezifischen Iteminhalte der vorliegenden QATs betrachten, so scheinen die verwendeten Kriterien in unterschiedlichem Ausmaß die Qualität der Studien widerzuspiegeln. Während bei einigen Items der Bezug zur Studienqualität deutlich erkennbar ist (z. B. bei der Frage, ob randomisiert wurde oder nicht), scheinen andere Kriterien nur lose mit der methodischen Sorgfalt einer Studie verbunden (z. B. das Land, in dem die Studie durchgeführt wurde). Besonders schwerwiegend ist allerdings, dass teilweise auch vermeintliche Qualitätsmerkmale zur Studienauswahl herangezogen werden, die sich nachteilig auf die Qualität der Metaanalyse auswirken können. So wurde in sieben Fällen eine Einschränkung der Literaturauswahl nach Publikationsstatus (d. h., nur publizierte Studien, die ein Peer-Review durchlaufen haben, werden einbezogen) vorgenommen. Obwohl dieses Vorgehen sehr verlockend erscheint, weil es einfach umzusetzen ist und ein Ziel des Peer-Review Prozesses durchaus darin besteht qualitativ schlechte Studien auszufiltern, so geht es auch mit einigen erheblichen Nachteilen einher. Zunächst ist Studienqualität zwar durchaus ein Bewertungskriterium des Review-Prozesses, allerdings bei weitem nicht das Einzige. Zudem scheint der Publikationsprozess selbst verzerrt zu sein, in dem Sinne, dass die die überwältigende Mehrheit an publizierten Ergebnissen statistisch signifikant ist, wohingegen die zugrundeliegenden Studien zugleich meist geringe Power aufweisen (Bones, 2012; Fanelli, 2012; Nelson, Simmons, & Simonsohn, 2018). Zusätzliche Verzerrungen können zudem noch auf Seiten der Forscher entstehen, z. B. durch p-hacking oder unintentionale Fehler (z. B. Brown & Heathers, 2016; Head, Holman, Lanfear, Kahn & Jennions, 2015) Durch eine Fokussierung einer Meta-Analyse auf publizierte Studien steigt somit die Gefahr für eine Überschätzung der mittleren Effektstärke enorm (Egger, Jűni, Bartlett, Holenstein & Sterne, 2003). Um einer solch nachteiligen Kriterienauswahl entgegenzuwirken, ist die Orientierung an bestehenden Qualitätsdefinitionen wünschenswert. Eine in der Psychologie weit verbreitete Definition findet sich beispielsweise in dem Rahmenwerk von Campbell und Kollegen (Campbell & Stanley, 1966;Cook & Campbell, 1979; Shadish, Cook & Campbell, 2002), die die Qualität einer Studie anhand vier breiter Kategorien beurteilen: (1) die interne Validität, (2) die externe Validität, (3) die Konstruktvalidität, und (4) die statistische Validität. Ein bereits bestehendes QAT, dass auf diese Form der multidimensionalen Repräsentation von Studienqualität zurückgreift ist beispielsweise das „Study Design and Implementation Device“ (Study DIAD; Valentine & Cooper, 2008). Dieses wurde allerdings in keiner der gesichteten Meta-Analysen angewendet, was möglicherweise mit dem damit einhergehenden Aufwand bezüglich der Itemgenese und -anzahl verbunden ist. Allerdings können neuere Entwicklungen, wie z. B. Community Augmented Meta-Analyses (CAMA, Tsuji, Bergmann & Cristia, 2014), eine große Erleichterung darstellen, da im Rahmen derer Meta-Analysen arbeitsteilig entwickelt, bearbeitet und aktualisiert werden können. Dementsprechend kann in einem solchen Fall gegebenenfalls auf bestehende Qualitätskodierungen anderer Forscher zurückgegriffen werden.

Fazit 2: Es bedarf eines generalisiert anwendbaren, psychometrisch geprüften QATs für die Psychologie. Neben der inhaltlichen scheint auch die Frage nach der operationalen Definition noch offen zu sein, bzw. scheint es an geeigneten reliablen und validen Messinstrumenten zur Erfassung der Primärstudienqualität für die Psychologie zu mangeln. Die geringe Anzahl an Autoren, die in den vorliegenden Metaanalysen auf ein publiziertes Verfahren aus den angrenzenden Wissenschaften zurückgegriffen, legt den Schluss nahe, dass eine generalisierte Anwendung dieser Verfahren auf den psychologischen Kontext nur sehr bedingt möglich scheint. Dies lässt sich u. a. mit den bereits angesprochenen Einschränkungen bezüglich der Anwendung erklären. Alle hier verwendeten, bereits publizierten Verfahren wiesen genau diese Einschränkungen auf ein bestimmtes Studiendesign auf (und mussten ggf. adaptiert werden). Im Rahmen von psychologischen Metaanalysen ist diese Fokussierung auf ein einzelnes Studiendesign allerdings eher unüblich und dementsprechend ist die Heterogenität an Studiendesigns deutlich größer als beispielsweise in der evidenzbasierten Medizin ist, wo zumeist nur randomisiert kontrollierte Studien berücksichtigt werden. Dementsprechend sind QATs, die auf bestimmte Forschungsdesigns beschränkt sind, in ihrer Anwendung meist von Vornherein ausgeschlossen. Gerade aber vor dem Hintergrund der erhöhten Diversität ist die Kontrolle der Primärstudienqualität von besonderer Bedeutung, da die Heterogenität an Studiendesigns auch mit größeren Qualitätsunterschieden zwischen den Studien einhergeht. Es mangelt dementsprechend noch an validen und reliablen QATs bzw. eines generalisierbaren Vorgehens für die Psychologie.

Fazit 3: Studienqualität ist multidimensional und sollte auch so erfasst und behandelt werden. In vielen der hier einbezogenen Metaanalysen wurde Studienqualität zwar über multiple Items erfasst, im weiterem Verlauf wurden diese allerdings häufig zu einem Gesamtwert verrechnet (z. B. über Summierung der Itemwerte). Dies erscheint vor allem vor dem Hintergrund der vorgestellten Qualitätsdefinition (im Sinne von Validitäten) nur wenig sinnvoll, da die verwendeten Items teilweise sehr unterschiedlichen Validitätsformen zuzuordnen sind, die nicht unbedingt miteinander zusammenhängen müssen. Konzeptuell stellen bestimmte Studienmerkmale daher formative und nicht reflektive Indikatoren von Studienqualität dar (Card, 2012). Das heißt es ist nicht unbedingt nötig, dass Untersuchungen, die bestimmte Merkmale aufweisen, die für die interne Validität dieser Studie sprechen, ebenfalls extern valide sein müssen und umgekehrt. Wenn man allerdings in diesem Fall die Ausprägungen verschiedener formativer Indikatoren verrechnet, kann dies zu bedeutsamen Einschränkungen der Nützlichkeit <?IMA tlsb=-1%?>und Interpretierbarkeit von QATs führen (Valentine, 2019;Valentine & Cooper, 2008). So kann z. B. eine Studie, die ein solides Studiendesign implementiert dabei aber eine nicht repräsentative ad hoc Stichprobe erhebt, denselben Qualitätswert bekommen, wie eine Studie, die ein schlechtes Studiendesign aber eine repräsentative Stichprobe vorweist (vgl. Valentine, 2019). Es ist fraglich ob auch nur einer der beiden Werte hier eine valide Aussage zur Studienqualität erlaubt.

Fazit 4: Falls möglich sollte eine statistische Evaluation des Einflusses qualitätsrelevanter Studienmerkmale erfolgen. Wie bereits in der Einleitung offengelegt, besteht noch wenig gesicherte empirische Evidenz darüber, welche qualitätsrelevanten Merkmale in welchen Situationen wirklich einen Einfluss auf die Studienergebnisse nehmen. Zu einem besseren Verständnis sowie als Grundlage zur empirisch gesicherten Entwicklung zukünftiger QATs sind diese Informationen allerdings unabdingbar. Qualitätsrelevante Studienmerkmale sollten daher im Prinzip nicht anders behandelt werden als inhaltliche Moderatorvariablen. Dementsprechend sollten Qualitätsmerkmale im besten Fall kodiert werden, um dann den Einfluss statistisch zu untersuchen, beispielsweise im Rahmen von multivariaten Metaregressionen. Dies ist allerdings nur möglich, wenn die Anzahl der eingehenden Primärstudien ausreichend groß ist.

Limitationen

Durch den Fokus auf Meta-Analysen, die in Psychological Bulletin innerhalb der letzten Dekade veröffentlicht wurden stellt sich die Frage, wie repräsentativ die hier gefunden Ergebnisse sind, d. h. wie sehr sich diese auf Meta-Analysen generalisieren lassen, die vor 2009 und / oder in anderen psychologischen Fachzeitschriften publiziert wurden.

Tatsächlich ist davon auszugehen, dass die hier gefundenen Ergebnisse nicht ohne weiteres generalisierbar sind. So zeigte sich beispielsweise in einer systematischen Übersichtsarbeit zur Berichtqualität aus dem Bereich der Arbeits- und Organisationspsychologie eine viel geringere Quote bezüglich der Anwendung von QATs zur Erfassung der Primärstudienqualität (Schalken & Rietbergen, 2017). Im Angesicht dieser Unterschiede zwischen den verschiedenen Richtungen innerhalb der Psychologie stellen die hier gefunden Ergebnisse wahrscheinlich eher mittlere Schätzungen, im extremsten Fall vielleicht sogar Best-Case Szenarien dar. Obwohl die Generalisierbarkeit und die Repräsentativität der hier gefundenen Ergebnisse dementsprechend nur eingeschränkt gegeben ist, so sind die daraus resultierenden Schlussfolgerungen uneingeschränkt gültig.

Ausblick

Die vorliegende Studie bietet einen Überblick über die Berücksichtigung der Primärstudienqualität im Rahmen psychologischer Meta-Analysen. Vor allem die hier dargestellten Unzulänglichkeiten der einbezogenen Metaanalysen verdeutlichen die kommenden Schritte, allen voran die Notwendigkeit eines gemeinsam geteilten, konsensualen Verständnisses von Studienqualität. Ohne ein solches, bleibt es dem Wissenschaftler selbst überlassen Kriterien zu bestimmen, die dann gegebenfalls nicht nützlich oder sogar nachteilig sind. Darüber hinaus mangelt es der Psychologie an einem geeigneten, generalisiert anwendbaren QATs. Dieses erscheint unerlässlich, um die Robustheit der meta-analytischen Ergebnisse gegenüber Unterschieden in der Primärstudienqualität abzusichern, aber auch, um ein tiefergehendes Verständnis dazu zu entwickeln, inwieweit und welche qualitätsrelevanten Studienmerkmale überhaupt einen Einfluss auf mittlere Effektstärken und / oder Variabilitätsmaße nehmen. Darüber hinaus kann nur ein generalisierter Standard die Replizierbarkeit der so gewonnenen Erkenntnisse sicherstellen.

Literatur

  • Ahn, S. & Becker, B. J. (2011). Incorporating quality scores in meta-analysis. Journal of Educational and Behavioral Statistics, 36, 555 – 585. First citation in articleCrossrefGoogle Scholar

  • Baglioni, C., Nanovska, S., Regen, W., Spiegelhader, K., Feige, B., Niessen, C. et al. (2016). Sleep and mental disorders: A meta-analysis of polysomnographic research. Psychological Bulletin, 142, 969 – 990. First citation in articleCrossrefGoogle Scholar

  • Bones, A. K. (2012). We knew the future all along: Scientific hypothesizing is much more accurate than other forms of precognition – A satire in one part. Perspectives on Psychological Science, 7, 307 – 309. First citation in articleCrossrefGoogle Scholar

  • Brown, N. J. L. & Heathers, J. A. J. (2016). The GRIM test: A simple technique detects numerous anomalies in the reporting of results in psychology. Social Psychology and Personality Science, 8, 363 – 369. First citation in articleCrossrefGoogle Scholar

  • Campbell, D. T. & Stanley, J. C. (1966). Experimental and Quasi-Experimental Designs for Research. Chicago, IL: Rand McNally. First citation in articleGoogle Scholar

  • Card, N. A. (2012). Applied Meta-Analysis for Social Science Research. New York, NY: Guilford Press. First citation in articleGoogle Scholar

  • Cook, T. D. & Campbell, D. T. (1979). Quasi-Experimentation: Design and Analysis issues for field settings. Boston, MA: Houghton Mifflin. First citation in articleGoogle Scholar

  • Crowe, M. & Sheppard, L. (2011). A review of critical appraisal tools show they lack rigor: Alternative tool structure is proposed. Journal of Clinical Epidemiology, 64, 79 – 89. First citation in articleCrossrefGoogle Scholar

  • Cuijpers, P., van Straten, A., Bohlmeijer, E., Hollon, S. D. & Andersson, G. (2010). The effects of psychotherapy for adult depression are overestimated: a meta-analysis of study quality and effect size. Psychological Medicine, 40, 211 – 223. First citation in articleCrossrefGoogle Scholar

  • Dechartres, A., Trinquart, L., Faber, T. & Ravaud, P. (2016). Empirical evaluation of which trial characteristics are associated with treatment effect estimates. Journal of Clinical Epidemiology, 77, 24 – 37. https://doi.org/10.1016/j.jclinepi.2016.04.005 First citation in articleCrossrefGoogle Scholar

  • Egger, M., Jűni, P., Bartlett, C., Holenstein, F. & Sterne, J. A. C. (2003). How important are comprehensive literature searches and the assessment of trial quality in systematic reviews? Empirical study. Health Technology Assessment, 7 (1), 1 – 76. https://doi.org/10.3310/hta7010 First citation in articleCrossrefGoogle Scholar

  • Eysenck, H. J. (1978). An exercise in mega-silliness. American Psychologist, 33 (5)., 517. https://doi.org/10.1037/0003-066X.33.5.517.a First citation in articleGoogle Scholar

  • Fanelli, D. (2012). Negative results are disappearing from most disciplines and countries. Scientometrics, 90, 891 – 904. https://doi.org/10.1007/s11192-011-0494-7 First citation in articleCrossrefGoogle Scholar

  • Glass, G. V. (1976). Primary, secondary, and meta-analysis of research. Educational Researcher, 5, 3 – 8. https://doi.org/10.2307/1174772 First citation in articleCrossrefGoogle Scholar

  • Guilera, G., Barrios, M. & Gómez-Benito, J. (2013). Meta-analysis in psychology: A bibliometric study. Scientometrics, 94, 943 – 954. https://doi.org/10.1007/s11192-012-0761-2 First citation in articleCrossrefGoogle Scholar

  • Head, M. L., Holman, L., Lanfear, R., Kahn, A. T. & Jennions, M. D. (2015). The extent and consequences of p-hacking in science. PLoS Biology, 13 (3), e1002106. https://doi.org/10.1371/journal.pbio.1002106 First citation in articleCrossrefGoogle Scholar

  • Higgins, J. P. T. & Altman, D. G. (2008). Assessing risk of bias in included studies. In J. P. T. HigginsS. Green (Hrsg.), Cochrane handbook for systematic reviews of interventions (S. 187 – 241). West Sussex, UK: John Wiley & Sons. First citation in articleGoogle Scholar

  • Higgins, J. P. T. & Green, S. (Hrsg.). (2011). Cochrane Handbook for Systematic Reviews of Interventions. West Sussex, UK: John Wiley & Sons. First citation in articleGoogle Scholar

  • Johnson, B. T., Low, R. E. & MacDonald, H. V. (2015). Panning for the gold in health research: Incorporating studies’ methodological quality in meta-analysis. Psychology & Health, 30 (1), 135 – 152. https://doi.org/10.1080/08870446.2014.953533 First citation in articleCrossrefGoogle Scholar

  • Jüni, P., Altman, D. G. & Egger, M. (2001). Assessing the quality of controlled clinical trials. BMJ : British Medical Journal, 323 (7303), 42 – 46. First citation in articleCrossrefGoogle Scholar

  • Jüni, P., Witschi, A., Bloch, R. & Egger, M. (1999). The hazards of scoring the quality of clinical trials for meta-analysis. JAMA, 282, 1054 – 1060. First citation in articleCrossrefGoogle Scholar

  • Karlin, B., Zinger, J. F. & Ford, R. (2015). The effects of feedback on energy conservation: A meta-analysis. Psychological Bulletin, 141, 1205 – 1227. https://doi.org/10.1037/a0039650 First citation in articleCrossrefGoogle Scholar

  • Katrak, P., Bialocerkowski, A. E., Massy-Westropp, N., Kumar, V. S. & Grimmer, K. A. (2004). A systematic review of the content of critical appraisal tools. BMC Medical Research Methodology, 4 (1), 22. First citation in articleCrossrefGoogle Scholar

  • Landy, J. F., Jia, M. L., Ding, I. L., Viganola, D., Tierney, W., Dreber, A. et al. (in press). Crowdsourcing hypothesis tests: Making transparent how design choices shape research results. Psychological Bulletin. First citation in articleGoogle Scholar

  • Moher, D., Cook, D., Jadad, A., Tugwell, P. & Moher, M. (1999). Assessing the quality of reports of randomized trials: Implications for the conduct of meta-analyses. A review. Health Technology Assessment, 3 (12) First citation in articleCrossrefGoogle Scholar

  • Moher, D., Liberati, A., Tetzlaff, J. & Altman, D. G. (2009). Preferred reporting items for systematic reviews and meta-analyses: The PRISMA statement. Annals of Internal Medicine, 151, 264 – 269. First citation in articleCrossrefGoogle Scholar

  • Nelson, L. D., Simmons, J. & Simonsohn, U. (2018). Psychology’s renaissance. Annual Review of Psychology, 69, 511 – 534. First citation in articleCrossrefGoogle Scholar

  • Page, M. J., Higgins, J. P. T., Clayton, G., Sterne, J. A. C., Hróbjartsson, A. & Savović, J. (2016). Empirical evidence of study design biases in randomized trials: Systematic review of meta-epidemiological studies. PLOS ONE, 11 (7), e0159267. https://doi.org/10.1371/journal.pone.0159267 First citation in articleCrossrefGoogle Scholar

  • Pahlke, E., Hyde, J. S. & Allison, C. M. (2014). The effects of single-sex compared with coeducational schooling on students’ performance and attitudes: A meta-analysis. Psychological Bulletin, 140, 1042 – 1072. https://doi.org/10.1037/a0035740 First citation in articleCrossrefGoogle Scholar

  • Saltaji, H., Ospina, M. B., Armijo-Olivo, S., Agarwal, S., Cummings, G. G., Amin, M. & Flores-Mir, C. (2016). Evaluation of risk of bias assessment of trials in systematic reviews of oral health interventions, 1991 – 2014: A methodology study. The Journal of the American Dental Association, 147, 720 – 728. https://doi.org/10.1016/j.adaj.2016.03.017 First citation in articleCrossrefGoogle Scholar

  • Sanderson, S., Tatt, I. D. & Higgins, J. P. T. (2007). Tools for assessing quality and susceptibility to bias in observational studies in epidemiology: A systematic review and annotated bibliography. International Journal of Epidemiology, 36, 666 – 676. https://doi.org/10.1093/ije/dym018 First citation in articleCrossrefGoogle Scholar

  • Schalken, N. & Rietbergen, C. (2017). The reporting quality of systematic reviews and meta-analyses in industrial and organizational psychology: A systematic review. Frontiers in Psychology, 8, Article 1395. https://doi.org/10.3389/fpsyg.2017.01395 First citation in articleCrossrefGoogle Scholar

  • Schulz, K. F., Chalmers, I., Hayes, R. J. & Altman, D. G. (1995). Empirical evidence of bias: Dimensions of methodological quality associated with estimates of treatment effects in controlled trials. JAMA, 273, 408 – 412. https://doi.org/10.1001/jama.273.5.408 First citation in articleCrossrefGoogle Scholar

  • Shadish, W. R., Clark, M. H. & Steiner, P. M. (2008). Can nonrandomized experiments yield accurate answers? A randomized experiment comparing random and nonrandom assignments. Journal of the American Statistical Association, 103, 1334 – 1344. First citation in articleCrossrefGoogle Scholar

  • Shadish, W. R., Cook, T. D. & Campbell, D. T. (2002). Experimental and Quasi-Experimental Designs for Generalized Causal Inference. Boston, MA: Houghton, Mifflin and Company. First citation in articleGoogle Scholar

  • Silberzahn, R., Uhlmann, E. L., Martin, D. P., Anselmi, P., Aust, F., Awtrey, E. et al. (2018). Many analysts, one data set: Making transparent how variations in analytic choices affect results. Advances in Methods and Practices in Psychological Science, 1, 337 – 356. https://doi.org/10.1177/2515245917747646 First citation in articleCrossrefGoogle Scholar

  • Spinelli, M. G., Endicott, J. & Goetz, R. R. (2015). Disagreement between therapist raters and independent evaluators in a controlled clinical trial of interpersonal psychotherapy for depressed pregnant women. Journal of Psychiatric Practice, 21 (2), 114 – 123. First citation in articleCrossrefGoogle Scholar

  • Tsuji, S., Bergmann, C. & Cristia, A. (2014). Community-augmented meta-analyses: Toward cumulative data assessment. Perspectives on Psychological Science, 9, 661 – 665. First citation in articleCrossrefGoogle Scholar

  • Valentine, J. C. (2019). Incorporating judgments about study quality into research syntheses. In H. CoopeL. V. HedgesJ. C. Valentine (Hrsg.), The Handbook of Research Synthesis and Meta-Analysis (S. 129 – 140). New York, NY: Russell Sage Foundation. First citation in articleGoogle Scholar

  • Valentine, J. C. & Cooper, H. (2008). A systematic and transparent approach for assessing the methodological quality of intervention effectiveness research: The Study Design and Implementation Assessment Device (Study DIAD). Psychological Methods, 13 (2), 130 – 149. https://doi.org/10.1037/1082-989X.13.2.130 First citation in articleCrossrefGoogle Scholar

  • White, H. D. (2019). Scientific communication and literature retrieval. In H. CoopeL. V. HedgeJ. C. Valentine (Hrsg.), Handbook of Research Synthesis and Meta-Analysis (3rd edition, S. 51 – 72). New York, NY: Russel Sage Foundation. First citation in articleGoogle Scholar

  • Wittman, W. W. & Matt, G. E. (1986). Meta-Analyse als Integration von Forschungsergebnissen am Beispiel deutschsprachiger Arbeiten zur Effektivität von Psychotherapie. Psychologische Rundschau, 37, 20 – 40. First citation in articleGoogle Scholar

1An dieser Stelle sei kurz darauf verwiesen, dass die Begriffe „Qualität“ und „Risiko für einen Bias“ nicht wechselseitig austauschbar sind und durchaus qualitative Unterschiede zwischen beiden bestehen (vgl. Higgins & Green, 2011). Da jedoch das übergreifende Ziel – die Entscheidung, wie valide das Ergebnis einer Primärstudie eingeschätzt wird – bei beiden Vorgehen vergleichbar ist, wird hier im weiteren nicht näher auf die Unterschiede eingegangen.

2Auch für qualitative Übersichtsarbeiten ist die Berücksichtigung der Studienqualität bedeutsam. Diese Arbeiten werden im vorliegenden Fall allerdings nicht eingebunden, da die Möglichkeiten der Qualitätsberücksichtigung nicht vollkommen deckungsgleich mit dem Vorgehen bei Meta-Analysen sind. So wären qualitätsintegrierende Strategien z. B. nur auf die deskriptive Darstellung beschränkt, da eine inferenzstatistische Berücksichtigung z. B. in Form von Moderatoranalysen aufgrund der fehlenden Kennwerte (d. h. Effektstärken) nicht möglich ist.

3Abrufbar unter http://dx.doi.org/10.23668/psycharchives.2679

Dr. Nadine Wedderhoff, Psychologie, Universität Trier, Universitätsring 15, 54296 Trier,