Skip to main content
Open AccessDiskussionsforum

Empfehlungen zur Bewertung wissenschaftlicher Leistungen bei Berufungsverfahren in der Psychologie

Published Online:https://doi.org/10.1026/0033-3042/a000630

Abstract

Zusammenfassung: Traditionelle metrische Indikatoren für wissenschaftliche Produktivität (z. B. Impact-Faktoren von Zeitschriften, h-Index) werden kritisiert, weil (a) empirische Studien ihre Validität in Frage stellen und sie (b) eine Kultur zu fördern scheinen, die der reinen Quantität Vorrang gegenüber der inhaltlichen Qualität der Forschung gibt. Der Ruf nach spezifischen, besseren Alternativen zu den derzeit gängigen Leistungsindikatoren wird immer lauter. Die Deutsche Gesellschaft für Psychologie hat nach der Unterzeichnung von DORA und dem Beitritt zu CoARA eine Arbeitsgruppe mit der Frage befasst, wie eine verantwortungsvollere Form der Forschungsbewertung für die Psychologie aussehen könnte. Über den aktuellen Stand dieser Überlegungen berichten wir hier: Konkret schlagen wir ein zweistufiges Bewertungsverfahren vor, das die Objektivität und Effizienz metrischer Indikatoren (Phase 1) mit einer vertieften, diskursiven Bewertung spezifischer Forschungsinhalte verbindet (Phase 2) verbindet. Wir plädieren für eine Ausweitung des Spektrums relevanter Forschungsbeiträge und schlagen Qualitätskriterien für Forschungsartikel, Datensätze und Forschungssoftware vor, welche vor allem deren methodische Stringenz erfassen. Anhand dieser Kriterien wird in der ersten Phase des Bewertungsprozesses ermittelt, ob eine Mindestschwelle für methodische Stringenz erreicht wird, die Kandidat:innen erfüllen müssen, um für eine Einstellung oder Beförderung in Frage zu kommen. Im Gegensatz dazu sollen in der zweiten Phase des Beurteilungsprozesses Metriken keine Rolle mehr spielen, sondern die spezifischen Inhalte der Forschungsarbeiten der Kandidat:innen im Fokus einer vertieften Diskussion stehen. Wir stellen konkrete Erhebungsinstrumente bereit, die zum Teil bereits in der Praxis erprobt wurden. Unser Ziel ist es, eine breite Diskussion über das Thema anzuregen und letztlich dazu beizutragen, dass die Bedeutung der wissenschaftlichen Qualität im Rahmen von Berufungsverfahren spürbar gestärkt wird.

Recommendations for the Evaluation of Academic Performance for Hiring and Promotion in Psychology

Abstract: Traditional metric indicators of scientific productivity (e. g., journal impact factors, h-index) have been criticized because (a) empirical studies cast doubt on their validity, and (b) they seem to foster a culture that prioritizes quantity over quality. Calls for specific, more valid alternatives to the current performance measures are growing louder. After adopting both DORA and CoARA, the German Psychological Society tasked a work group with outlining a more responsible form of research evaluation for psychology. Here, we report on the current status of this project; specifically, we propose a two-stage evaluation process that combines the objectivity and efficiency of metric indicators (Stage 1) with an in-depth, discursive evaluation of actual research content (Stage 2). We argue in favor of broadening the range of relevant research contributions and propose quality criteria for published research articles, datasets, and research software which focus on the methodological rigor of such contributions. These criteria are used in Phase 1 of the evaluation process to establish a minimum threshold of methodological rigor candidates must pass to be considered for hiring or promotion. In contrast, Phase 2 of the evaluation process focuses more on the actual content of the candidate’s research findings, no longer making much use of metrics. We offer assessment tools that have already undergone some testing in actual assessment practice. Our goal is to initiate a broad discussion about this topic and ultimately to help strengthen the role scientific quality plays in the course of academic hiring and promotion proceedings.

Hintergrund

Die Deutsche Gesellschaft für Psychologie trat im Januar 2023 als erste wissenschaftliche Fachgesellschaft im deutschsprachigen Raum der Coalition for Advancing Research Assessment (CoARA; https://coara.eu/) bei. Diese Koalition hat sich zur Aufgabe gestellt, die Art und Weise, in der wir Forschungsleistungen evaluieren, grundlegend zu reformieren. Die bisherige und noch immer vorherrschende Form der Evaluation anhand primär quantitativer Metriken soll überwunden werden, da sie zunehmend als dysfunktional eingeschätzt wird (Abele-Brehm & Bühner, 2016a; 2016b; European Commission. Directorate General for Research and Innovation, 2021). Neben der DGPs sind bereits 501 weitere Institutionen aus 35 Ländern (Stand: März 2023) CoARA beigetreten, unter anderem die DFG, Leibniz-Gemeinschaft, Schweizerischer Nationalfond, Wissenschaftsfonds FWF, sowie diverse Universitäten. Das angestrebte Umsteuern hat sich in der Vergangenheit jedoch schwierig gestaltet, da die Trägheit des Systems, die Beharrungskräfte und kulturellen Gewohnheiten vieler Akteur_innen, die ungeklärte Zuständigkeit für den Reformprozess, und ein Mangel an echter Steuerungsfähigkeit die notwendigen Veränderungen bisher verlangsamten oder gleich ganz blockierten.

Ein wichtiger erster Schritt auf diesem Weg wurde 2012 mit der Verabschiedung der San Francisco Declaration on Research Assessment (DORA; https://sfdora.org) getan, die die DGPs 2021 ebenfalls unterzeichnete. DORA fordert akademische Einrichtungen auf, bei Einstellungen und Beförderungen keine fragwürdigen oder diskreditierten Indikatoren für Forschungsqualität und -produktivität mehr zu verwenden und zielt dabei insbesondere auf den Impact-Factor (IF) wissenschaftlicher Zeitschriften ab. Wären IFs (oder vergleichbare Kategoriensysteme, wie die Einteilung in A/B/C-Journals – was häufig mit IF korreliert) valide Indikatoren, würde man eine deutlich positive Korrelation mit objektiven Qualitätsindikatoren der darin enthaltenen Artikel erwarten. Forschungsergebnisse zeigen jedoch, dass sie, im Gegenteil, oft gar nicht oder sogar negativ damit korrelieren (Aksnes et al., 2019; Brembs, 2018; Dougherty et al., 2019; Dougherty & Horne, 2022; Fraley & Vazire, 2014; Kepes et al., 2022; Serra-Garcia & Gneezy, 2021). Darüber hinaus zeigen großangelegte Studien, dass selbst die qua Impact-Faktor „besten“ Journals ihres jeweiligen Faches inakzeptabel schlechte Reproduzierbarkeitsraten aufweisen (Open Science Collaboration, 2015; Errington et al., 2021). Das klassische Peer-Review erfüllt daher seine Funktion offenbar nicht in ausreichendem Maße.

Neben den von DORA problematisierten IFs werden inzwischen aber auch die meisten anderen gängigen Metriken der Forschungsproduktivität sehr kritisch bewertet, und es wird von ihrer weiteren Verwendung abgeraten. Dies betrifft insbesondere (a) die reine Anzahl erworbener (Co–)‌Autorenschaften, (b) eingeworbene Drittmittelsummen, und (c) h-Indizes. Dahinter steht die Einsicht, dass die reine Menge des Forschungsoutputs einer Person wenig aussagekräftig ist, solange es an glaubwürdiger Qualitätskontrolle mangelt, und dass zumindest einige dieser Indizes nicht nur relativ leicht und risikofrei manipulierbar sind, sondern auch eifrig manipuliert werden (Chapman et al., 2019; Falagas & Alexiou, 2008; Fong & Wilhite, 2017; Gasparyan, Ayvazyan & Kitas, 2013; Pruschak & Hopp, 2022). Individuelle Drittmittelsummen sind stark vom jeweiligen Forschungsfeld abhängig, und Berufungskommissionen sollten nicht unkritisch die Vorstellung übernehmen, dass „gute“ Forschung sich durch einen möglichst schnellen Verbrauch möglichst vieler Ressourcen auszeichnet.

Unmittelbar nach der Unterzeichnung von DORA beauftragte die Deutsche Gesellschaft für Psychologie eine Arbeitsgruppe mit der Ausarbeitung eines möglichst konkreten Vorschlags, wie die Ziele der Reform in akademischen Einstellungs- und Beförderungsverfahren praktisch umgesetzt werden können. Hintergrund dafür waren unter anderem entsprechende Nachfragen aus dem Kreis der Mitglieder. Die Arbeitsgruppe entwickelte zwei eng miteinander verbundene Positionspapiere, die zusammen mit Kommentaren aus der Scientific Community in einem Sonderheft der Zeitschrift Meta-Psychology veröffentlicht werden. Wir möchten hier auf diesen Prozess aufmerksam machen und einige der wesentlichen Inhalte zusammenfassen. Zugleich soll damit für die Mitglieder der DGPs eine weitere Möglichkeit geschaffen werden, die Vorschläge in einem deutschsprachigen Forum zu kommentieren. Dabei kann und soll ein besonderer Fokus auf der Umsetzbarkeit im hiesigen akademischen Umfeld liegen. Unser Ziel ist es, möglichst viele Leser_innen der Psychologischen Rundschau zu einer Auseinandersetzung mit den Vorschlägen, zu einer aktiven Diskussion darüber, und auch zu einer Implementierung der Vorschläge zu ermuntern.

Im Folgenden werden Kernpunkte der Reformvorschläge zusammengefasst und mit Überlegungen zur Implementierung im deutschsprachigen akademischen System ergänzt. Für Details zu den Reformvorschlägen bitten wir, die zwei Positionspapiere (Schönbrodt et al., 2022; Gärtner et al., 2022) zu lesen.

Das übergeordnete Ziel der Reformvorschläge besteht zum einen darin, die inhaltliche Breite der im Rahmen von Evaluationen berücksichtigten akademischen Leistungen zu vergrößern. Konkret werden fünf Bereiche von wissenschaftlichen Aktivitäten identifiziert, die insbesondere bei Berufungsverfahren berücksichtigt werden sollen (siehe Abb. 1): (1) Forschung, (2) Lehre, (3) Führung (z. B. Mentoring, Organisations- und Managementkompetenz, strategisches Denken), (4) akademische Selbstverwaltung (z. B. an der Forschungseinrichtung oder in Fachgesellschaften) und (5) gesellschaftlicher Impact (z. B. Patente, Wissenschaftskommunikation, „Citizen Science“ (Bürgerwissenschaft), Umsetzungen in der Alltagspraxis). Diese fünf Bereiche wissenschaftlicher Aktivitäten sind als multidimensionales Profil gedacht: je nach Anforderungsprofil der Stelle sind manche Dimensionen mehr oder weniger wichtig.

Zum anderen sollen bessere Indikatoren und Verfahren für diese fünf Bereiche wissenschaftlicher Aktivitäten entwickelt werden. Für den ersten Bereich (Forschung) wurde bereits ein konkretisierter Entwurf vorgelegt (Gärtner et al., 2022). Die darin enthaltenen Indikatoren wurden auch unter dem Aspekt entwickelt, dass keine unzumutbare Mehrbelastung für Mitglieder von Berufungskommissionen entstehen soll – das neue System muss auch bei Verfahren mit einer sehr hohen Zahl von Bewerbungen funktionieren. In dem Vorschlag werden neben wissenschaftlichen Publikationen auch veröffentlichte Datensätze und die Entwicklung und Pflege von Forschungssoftware als relevante und potentiell gleichwertige Forschungsbeiträge berücksichtigt. Alle drei Arten von Forschungsbeiträgen werden auf drei voneinander unabhängigen Dimensionen evaluiert: methodische Stringenz (als eine entscheidende Facette wissenschaftlicher Qualität), Impact, sowie Quantität.

Zentral ist die Annahme, dass methodische Stringenz eine notwendige Bedingung für Wissenschaftlichkeit ist, deren Fehlen nicht durch die beiden anderen Dimensionen kompensiert werden kann: Eine kleine Menge methodisch überzeugender Forschung ist einer großen Menge methodisch schwacher Forschung eindeutig vorzuziehen. Erst wenn eine gewisse Mindestschwelle an methodischer Stringenz erreicht wurde, dürfen daher die beiden anderen Dimensionen (Impact und Menge) eine Rolle in der Evaluation spielen.

Die vorgeschlagenen Indikatoren für methodische Stringenz und Impact stellen konkrete Alternativen zum Gebrauch von Impact-Faktoren, h-Indizes und der reinen Anzahl an Publikationen dar. Dabei wird die methodische Qualität ausgewählter Forschungsbeiträge (z. B. Artikel) der Bewerber_innen direkt eingeschätzt, anstatt sich auf die bisher gängigen, weitaus weniger aussagekräftigen Proxies dafür wie z. B. den Impact-Faktor zu verlassen.

Für die anderen Bereiche wissenschaftlicher Aktivitäten (2) bis (5) wurden bisher noch nicht systematisch neue Indikatoren entwickelt. Im Folgenden beziehen wir uns entsprechend nur auf die Bewertung der Forschungsleistung (Gärtner et al., 2022).

Abbildung 1 Bereiche wissenschaftlicher Aktivitäten, Forschungsbeiträge und Bewertungsdimensionen. Die Abbildung ist unter einer freien CC–BY-4.0-Lizenz verfügbar (https://osf.io/4wynr/).

Ein zweistufiger Prozess zur Bewertung wissenschaftlicher Leistungen

Konkret wird vorgeschlagen, die akademischen Leistungen (und damit auch das Potenzial) von Personen, die sich auf Professuren bewerben, in zwei aufeinanderfolgenden Phasen zu bewerten (siehe Abbildung 2). Der Fokus von Phase 1 (Longlist) liegt darauf, effizient anhand objektivierbarer und valider Indikatoren eine Negativselektion anhand von Minimalanforderungen vorzunehmen. In gewisser Weise wird hier die Qualitätssicherung nachgeholt, die das Peer-Review-System bisher nicht in ausreichendem Maße leistet (siehe oben). In unserem aktuellen Implementierungsvorschlag berücksichtigen wir in Phase 1 nur den Bereich (1) Forschung, weil für die anderen Bereiche wissenschaftlicher Aktivitäten noch keine gut messbaren Indikatoren vorliegen und auch in der aktuellen Praxis der Bereich Forschung in der Regel das höchste Gewicht in Berufungskommissionen hat. Für diesen Bereich soll anhand von Kriterien ein gewisses Mindestniveau methodischer Stringenz etabliert werden. Sobald Indikatoren für die anderen Bereiche wissenschaftlicher Aktivitäten (2) – (5) vorliegen, können auch diese mit Minimalstandards in Phase 1 bewertet werden. Die Selektion in Phase 1 kann algorithmisch unterstützt geschehen, um den Aufwand auch bei langen Bewerbungslisten in bewältigbaren Grenzen zu halten. In Phase 1 sollte auch, wie bisher üblich, die allgemeine inhaltliche Passung zur Ausschreibung berücksichtigt werden. In Phase 2 (Shortlist) erfolgt dann eine intensive inhaltliche Auseinandersetzung mit den Arbeitsschwerpunkten und -ergebnissen der einzelnen Personen.

Abbildung 2 Zweistufiger Auswahlprozess. Die Abbildung ist unter einer freien CC-BY-4.0-Lizenz verfügbar (https://osf.io/4wynr/).

Phase 1 (Longlist): Etablierung von Minimalstandards, insbesondere in Bezug auf die methodische Stringenz

In der ersten Phase des Bewerbungsprozesses soll vorrangig die methodische Stringenz der Forschungsarbeit von Bewerber_innen bewertet werden1. Es sei vorab darauf hingewiesen, dass die hier vorgeschlagenen Kriterien vorrangig für die Bewertung empirischer Forschungsbeiträge konzipiert wurden. Solche Beiträge machen nach Ansicht der Arbeitsgruppe mit Abstand den größten Teil der Forschungsarbeiten in der Psychologie aus, sodass die Kriterien in den meisten Fällen gut anwendbar sein sollten. Selbstredend gibt es jedoch auch viele andere extrem wertvolle Arten von Forschungsbeiträgen (z. B. Theoriebildung, Methodenentwicklung, Simulation, Narratives Review). Bewerber_innen, die primär auf diesen Feldern arbeiten, haben die Möglichkeit, dies sehr einfach kenntlich zu machen und so eine andere Art der Bewertung für sich zu erwirken.

Ein Musterabsatz, der die Bedeutung einer verantwortungsvollen Forschungsbewertung hervorhebt, könnte wie folgt bereits in die Stellenausschreibung aufgenommen werden:

„Unser Institut legt Wert auf transparente, robuste und reproduzierbare Forschung, und verpflichtet sich daher zur Verwendung offener Forschungspraktiken wie FAIRe Forschungsdaten, offenen und reproduzierbaren Code und Präregistrierungen. Wir erwarten von erfolgreichen Bewerber_innen, dass sie denselben Grundsätzen folgen. Darüber hinaus praktizieren wir eine verantwortungsbewusste Form der Forschungsbewertung, in der der Qualität der wissenschaftlichen Beiträge eindeutig der Vorrang gegenüber der reinen Quantität gegeben wird. Bewerber_innen werden daher gebeten, diesbezüglich relevante Informationen über ihre eigenen veröffentlichten Publikationen, veröffentlichten Datensätze und veröffentlichte Forschungssoftware zur Verfügung zu stellen (siehe LINK)“.

Durch die Verwendung solcher Formulierungen kann wahrscheinlich bereits eine gewisse Selbstselektion potenzieller Bewerber_innen erreicht werden.

Eine erste Bewertung der methodischen Stringenz eingegangener Bewerbungen kann algorithmisch unterstützt anhand einfacher, standardisierter Qualitätsindikatoren erfolgen. Dieses Vorgehen unterscheidet sich auf den ersten Blick kaum vom bisher gängigen Vorgehen, nur dass hier nun Indikatoren verwendet werden sollen, die im Hinblick auf die wissenschaftliche Qualität von Publikationen, Datensätzen und Forschungssoftware als aussagekräftiger erachtet werden (vgl. Leising et al., 2022a, 2022b; Gärtner et al., 2022).

Um die relevanten Indikatoren zu erheben, werden Bewerber_innen gebeten, die aus ihrer Sicht besten Forschungsbeiträge aufzulisten, zu denen sie selbst substanzielle Beiträge geliefert haben. Für alle Bewerber_innen sollten hierbei dieselben Obergrenzen gelten (z. B. zehn Beiträge pro Bewerber:in), während sich die Zusammensetzung des individuellen Portfolios jeweils unterscheiden kann – ein Bewerber könnte z. B. „klassisch“ mit zehn von ihm mitverfassen Publikationen ins Rennen gehen, während eine andere Bewerberin sieben Publikationen nominiert, dafür aber drei veröffentlichte Datensätze und / ‌oder Softwareprodukte.

Bewerber_innen können in der ersten Phase nach Belieben wissenschaftliche Publikationen nominieren, zu denen sie selbst wesentliche Beiträge geleistet haben. Die Autorenreihenfolge spielt in der algorithmischen Bewertung keine explizite Rolle – es ist aber davon auszugehen, dass die meisten Bewerber_innen Publikationen nominieren, bei denen sie selbst Erst- oder Letztautor_innen sind. Die Arbeitsgruppe ist sich der erheblichen Probleme bewusst, die sich mit dem Thema „Autorenschaft“ verbinden (Fong & Wilhite, 2017; Pruschak & Hopp, 2022), kann diese jedoch an dieser Stelle nicht abschließend lösen. Eine weitere Diskussion darüber ist aus unserer Sicht dringend nötig.

Zu jeder der genannten Publikationen sollen Bewerber_innen selbst angeben, ob sie verschiedene Qualitätskriterien erfüllen, z. B.

  • eine nachweisliche Prä-Registrierung (inklusive Link) aller Analysen, die als „konfirmatorische“ Hypothesentests im Paper erscheinen
  • mathematische oder formal-logische Formulierung von Theorien und ihrer Beziehungen zu den vorgenommenen Operationalisierungen
  • reproduzierbare Auswertungsskripte oder sogar unabhängige Reproduzierbarkeits- checks,
  • offene Materialien.

Ein weiteres naheliegendes Qualitätskriterium, statistische Power, soll in dieser Phase hingegen noch keine Berücksichtigung finden, da es direkt von geschätzten Effektgrößen abhängt und die Bestimmung der Plausibilität solcher Schätzungen inhaltliche Diskussionen erfordert. Die statistische Power durchgeführter Studien sollte daher erst in Phase 2 des Bewerbungsprozesses thematisiert werden. Zusätzlich sollen Bewerber_innen drei ihrer Publikationen nominieren, über die in Phase 2 vertieft inhaltlich diskutiert werden soll. Dies werden in der Regel die aus Sicht der Bewerber_innen „besten“ ihrer Arbeiten sein.

Im Hinblick auf veröffentlichte Datensätze sollen Bewerber_innen unter anderem Auskunft zu folgenden Indikatoren geben:

  • Art der Daten, z. B. Fragebogen- / Verhaltens- / Physiologische Daten,
  • Art der Studie, z. B. Online / Labor / Experience Sampling,
  • inwieweit die offenen Daten nach den FAIR Kriterien vorliegen,
  • Stichprobengröße,
  • Zitationen des Datensatzes.

Im Hinblick auf veröffentlichte Forschungssoftware sollen Bewerber_innen unter anderem Auskunft zu den folgenden Indikatoren geben:

  • Lizenz,
  • Zitationen und andere Indikatoren der Nutzung,
  • das Vorliegen von standardisierten Testprozeduren, die die Korrektheit der Berechnungen sicherstellen („unit tests“).

Eine vollständige Auflistung und Begründung der Indikatoren findet sich in den beiden Positionspapieren (Schönbrodt et al., 2022; Gärtner et al., 2022). Gebrauchsfertige Vorlagen mit entsprechenden Indikatoren für alle drei Arten von Forschungsbeiträgen sowie weitere Informationen sind hier verfügbar: https://osf.io/4wynr/wiki/home/. Die Kommission vergibt vorab definierte Punktwerte für die Erfüllung dieser Kriterien (z. B. bis zu 12/5/24 Punkte pro Publikation / Datensatz / Softwareprodukt). Hierdurch wird sowohl der höhere wissenschaftliche Wert von Forschungsbeiträgen gewürdigt, die diese Kriterien erfüllen, als auch der erheblich höhere damit verbundene Aufwand. Der Einfachheit halber werden alle Punkte pro Beitragskategorie aufsummiert, so dass ein dreidimensionales Profil (Artikel, Datensätze, Software) der methodischen Stringenz entsteht2. Die erzielten Werte sollten eine entscheidende Rolle dabei spielen, wer zum Berufungsvortrag eingeladen wird.

Die Selbstangaben der Bewerber_innen sollten in der ersten Phase stichprobenartig überprüft werden. Bei Bewerber_innen, die zum Berufungsvortrag eingeladen werden, sollten alle Angaben gründlich geprüft werden.

Zusätzlich sollen in den Formularen von den Bewerber_innen weitere Angaben gemacht werden, bei Publikationen zum Beispiel zu statistischer Power und Zitationen. Für jeden Forschungsbeitrag soll außerdem ein narratives „Merit Statement“ formuliert werden, das erläutert, in welcher Weise ein Beitrag etwas Bedeutsames zum Wissensstand im jeweiligen Teilfach beiträgt (z. B. durch die theoretische Integrationsleistung, innovatives Experimentaldesign, besondere und seltene Stichprobe, besonderen Impact auf Entwicklung im Feld). Dieses Statement bietet auch die Flexibilität, jene Vorzüge und Aspekte eines Forschungsbeitrags sichtbar zu machen, die nicht durch die standardisierten Indikatoren erfasst werden. Bewerber_innen können auch explizit jene aufgelisteten Forschungsbeiträge markieren, die aus ihrer Sicht nicht gut durch die Indikatoren beschrieben werden, und so die Aufmerksamkeit der Kommission auf diese lenken. Diese weiteren Angaben werden in der zweiten Phase der Evaluation berücksichtigt und sollen der Kommission helfen, eine qualitative Bewertung der Forschungsleistung vorzunehmen (siehe Phase 2).

Generell ist es gedacht, dass die Hürde zu Phase 2 als Schwelle funktioniert: Alle Bewerber_innen, welche die methodischen (und anderen) Mindestanforderungen erfüllen, qualifizieren sich für Phase 2. Falls das Niveau des Bewerberfeldes so hoch ist, dass sich zu viele entsprechend qualifizieren, können die Standards entsprechend höher angesetzt werden, um eine strengere Selektion zu erreichen.

Phase 2 (Shortlist): Qualitative inhaltliche Auseinandersetzung

Nicht jede Forschung, die methodisch rigoros ist, leistet auch einen innovativen und wichtigen inhaltlichen Beitrag. Diese letzteren Dimensionen wissenschaftlicher Leistung sind jedoch viel schwieriger – oder vielleicht sogar überhaupt nicht – anhand objektivierbarer Indikatoren zu erfassen. Daher sollte in der Phase 2 des Verfahrens, die sich auf die Shortlist bezieht, das Augenmerk auf eine eingehende Diskussion über die Inhalte der Forschung gelenkt werden. Dabei können auch weitere Kriterien wie Innovation, Kreativität, (inter–)‌nationale Vernetztheit einer Person oder methodische Vielfalt evaluiert werden. Die konkreten individuellen Beiträge der Bewerber_innen zu den von ihnen nominierten besten Forschungsarbeiten (operationalisiert entweder über die Autorenposition, oder – wie wir empfehlen – über die wesentlich aussagekräftigeren CREdiT Roles) können nun auch berücksichtigt werden.

Eine sachgerechte Befassung mit den Inhalten der Forschung von Personen, die sich auf Professuren bewerben, erfordert einen substantiellen Aufwand. Zum einen müssen zumindest einige Kommissionsmitglieder wenigstens die jeweils drei von den Bewerber_innen selbst nominierten Artikel (siehe Phase 1) in Ruhe lesen, verstehen und bewerten. Die von den Bewerber_innen eingereichten Merit-Statements können hier bei der Orientierung helfen.

Um in dieser Phase den Einfluss persönlicher Präferenzen bzgl. Personen oder Forschungsfelder wenigstens abzuschwächen, empfehlen wir eine zufällige Zuordnung von mehreren Mitgliedern der Kommission zu jeder einzelnen Bewerbung. Eine aus unserer Sicht realistische Schätzung wäre, dass etwa 6 bis 8 Bewerber_innen auf der Shortlist stehen, und dass jede dieser Bewerbungen von 2 bis 3 zufällig ausgewählten Personen aus einer 15-köpfigen Kommission begutachtet wird (darunter pro Bewerbung möglichst 1 Professor:in). Dies sollte pro Kommissionsmitglied nicht mehr als 1 – 2 ganze Arbeitstage erfordern und somit „machbar“ sein. Anschließend sollte eine vertiefte Diskussion mit den Bewerber_innen über ihre bisherigen Forschungsarbeiten und ihr weiteres Forschungsprogramm stattfinden. Bei eng begrenzten Ressourcen kann dies wie bisher im Rahmen der regulären Vorstellungstermine erfolgen.

Zur Umsetzung: Chancen und Hindernisse

Die hier gemachten Vorschläge stehen im Einklang mit einer inzwischen umfangreichen Literatur, die dringenden Reformbedarf im Bereich der Wissenschaftsevaluation artikuliert (z. B. Abele-Brehm & Bühner, 2016a; 2016b; Dougherty et al., 2019; Dougherty & Horne, 2022; European Commission. Directorate General for Research and Innovation, 2021). Dennoch vollzieht sich der Übergang zu einer sachgerechteren Leistungsbewertung im Rahmen akademischer Berufungs- und Beförderungsverfahren bisher quälend langsam. Was sind mögliche Gründe dafür?

Erstens könnte es schlicht an Vorstellungen darüber mangeln, „wie es besser geht“. Um dem abzuhelfen wurde hier und in den beiden erwähnten Preprints (insbesondere bei Gärtner et al., 2022) eine alternative Vorgehensweise im Detail beschrieben, die sich direkt implementieren lässt.

Zweitens könnten Bedenken bestehen, dass eine stärker an der wissenschaftlichen Qualität (als der Quantität) orientierte Vorgehensweise einen unzumutbaren Mehraufwand für die Mitglieder von Evaluationskommissionen und / oder für Personen bedeutet, die sich bewerben. Wir sind jedoch zuversichtlich, dass solche Bedenken unbegründet sind, denn (a) werden die Bewerber_innen in Phase 1 gebeten, die meisten relevanten Angaben selbst zur Verfügung zu stellen, (b) werden solche Angaben nur für eine relativ überschaubare Anzahl von Forschungsbeiträgen verlangt, (c) lassen sich solche Angaben, wenn sie einmal vorliegen, in weiteren Verfahren direkt übernehmen, und (d) gibt es deutliche Hinweise, dass eine unabhängige Überprüfung derartiger Angaben auch an Dritte (z. B. studentische Hilfskräfte) delegiert werden kann (Leising et al., 2022b), ohne dass darunter die Urteils-Reliabilität leidet. Die Punkte a und d halten den Aufwand für Kommissionen in Grenzen, die Punkte b und c den Aufwand für Bewerber_innen.

Als Beteiligte an Berufungsverfahren haben alle Autoren des vorliegenden Artikels bereits Erfahrungen mit vereinfachten Varianten des hier skizzierten Vorgehens machen können, die gänzlich positiv waren: Eine einfache Suche nach bestimmten Schlüsselbegriffen (regist*, power, model, representative, open, etc.) in PDFs ermöglicht bereits eine schnelle und relativ gute Einschätzung der wissenschaftlichen Glaubwürdigkeit von Publikationen. In ersten Berufungskommissionen werden sogar bereits einige der hier vorgeschlagenen Bewertungskriterien von Bewerber_innen abgefragt und bei der Entscheidungsfindung berücksichtigt. Ideal wäre allerdings eine Lösung, in der wissenschaftliche Zeitschriften selbst die Erfüllung der wichtigsten Qualitätskriterien überprüfen und die Ergebnisse dann in standardisierter – und vielleicht sogar maschinenlesbarer – Form als Metadaten an die Artikel anhängen.

Drittens könnte die vollständige Übernahme des hier skizzierten Vorgehens als unzulässige Beschneidung des bereits erwähnten Ermessensspielraums von Kommissionen empfunden werden und Reaktanz erzeugen. Es sei daher darauf hingewiesen, dass es keinerlei Kontroll- oder Sanktionsgewalt in dieser Sache gibt. Kommissionen sind und bleiben selbstverständlich völlig frei in der Entscheidung, ob sie (Teile) der hier gegebenen Empfehlungen anwenden möchten oder nicht. Die Empfehlungen sind nicht mehr als ein Angebot, ein gut durchdachtes und schon zum Teil in der Praxis erprobtes System anzuwenden, anstatt an vielen Standorten eigene Verfahren zu entwickeln, die dann wieder schwer miteinander vergleichbar sind. Wir gehen davon aus, dass die hier vorgeschlagenen Kriterien nach nunmehr zehnjähriger intensiver Diskussion im Rahmen der Glaubwürdigkeitsdebatte in den Wissenschaften eine Art Minimalkonsens darstellen und von den meisten Fachvertreter_innen geteilt werden. Abwandlungen dieser Empfehlungen im Rahmen konkreter Verfahren sind aber selbstverständlich immer denkbar und legitim, etwa im Hinblick auf die relative Gewichtung einzelner Kriterien oder die Einbeziehung anderer Indikatoren, die für das zu besetzende Fach relevanter sind. Ebenso legitim ist selbstverständlich der vollständige Verzicht auf solche empirie-zentrierten Kriterien, wenn es etwa eine Professur mit Schwerpunkt in der Theorie- oder Methodenentwicklung zu besetzen gilt.

Viertens besteht auch hier wieder das altbekannte soziale Dilemma, dass diejenigen, die sich als erste aus dem noch vorherrschenden Bewertungssystem verabschieden, nach den geltenden Kriterien schlechter abschneiden und dadurch Nachteile haben könnten (Nosek & Bar-Anan, 2012). So ist es nicht ausgeschlossen, dass Universitäten, die in der Auswahl ihres Personals nicht die Gesamtzahl der (Co–)‌Autorenschaften von Bewerber_innen oder deren eingeworbene Drittmittelsummen optimieren, in einigen der derzeit gängigen Universitätsrankings schlechter dastehen als solche, die beim bisherigen Modell bleiben. Hier sind politischer Wille und Mut zur Veränderung gefragt – vor allem auf Seiten der Professurinhaber_innen – denn sie verfügen im System mit weitem Abstand über die größte Gestaltungsmacht und Unabhängigkeit. Spätestens seit der Gründung von CoARA mit ihren renommierten Mitgliedern sollte das Reformklima aber so salient geworden sein, dass ein klares Bekenntnis zu einer neuen Berufungspolitik eigentlich nur noch als Zeichen von Fortschrittlichkeit interpretiert werden kann. Wir empfehlen, durch möglichst öffentliche Positionierungen und Forderungen den Druck auf Fakultäts- und Universitätsleitungen entsprechend zu erhöhen.

Ein fünfter und bisher eher nachlässig behandelter Aspekt besteht darin, dass Kommissionen es als peinlich empfinden könnten, an Bewerber_innen methodische Standards anzulegen, die möglicherweise von den meisten Fakultätsmitgliedern selbst (noch) nicht erfüllt werden – und gleichzeitig auf Bewertungsdimensionen zu verzichten, die sie stark verinnerlicht haben und auf denen sie vielleicht selbst bisher noch glänzen. Hier kann Abhilfe geschaffen werden durch (a) ein klares Bekenntnis zum eigenen Lernbedarf und (b) entsprechende Umstellungen der eigenen Forschungspraxis. Eine solche Umstellung ist gerade für bereits etablierte Forscher_innen erheblich risikofreier als für Forscher_innen, die noch am Anfang ihrer Laufbahn stehen und über eine vergleichsweise unsichere berufliche Position verfügen.

Sechstens könnte es als unfair gegenüber Bewerber_innen wahrgenommen werden, wenn jetzt „auf einmal“ die Bewertungskriterien so deutlich in Richtung Qualität verschoben werden. Es kann die Situation entstehen, dass in der Landschaft der potentiellen akademischen Arbeitgeber die „alten“ und die „neuen“ Bewertungsstandards gleichzeitig vorhanden sind, was aus der Sicht der Karriereplanung ein gewisses Optimierungsproblem darstellt. Hierzu ist zu sagen, dass es sich bei der Umstellung ja zweifelsohne um einen schrittweisen Prozess handelt, der in dieser Hinsicht noch gewisse Ermessensspielräume zulässt. Die Unterzeichnung von CoARA durch die DGPs kann und sollte aber durchaus so verstanden werden, dass es mit der schon lange absehbaren Umstellung nunmehr „ernst wird“. Mit dem Wissen, dass Forschungsqualität und methodische Stringenz auch in Berufungsverfahren einen hohen Stellenwert einnimmt, würde es Bewerber_innen und insbesondere Jungwissenschaftler_innen (Early Career Researchers) sicher leichter fallen, sich diesen Aspekten noch stärker zuzuwenden und dies in ihrer Karrierelaufbahn zu berücksichtigen (anstatt im Dilemma von Quantität vs. Qualität zu „schwimmen“). Gleichzeitig positionieren sich Institutionen mit ihren (öffentlich kommunizierten) Bewertungskriterien und bewerben sich ihrerseits um die besten Köpfe. So können sich Bewerber_innen bewusst aussuchen, ob sie ihre Kompetenz an einer Institution einbringen, die wissenschaftliche Qualität priorisiert, oder sich stattdessen in ein Hamsterrad des „mehr, schneller, teurer“ begeben wollen, bei dem im Extremfall die wissenschaftliche Substanz eine untergeordnete Rolle spielt.

Siebtens könnte der Vorschlag, die Summe eingeworbener Drittmittel in Berufungsverfahren gar nicht mehr zu berücksichtigen, auf Widerstände stoßen. Hierzu sei gesagt, dass die Fähigkeit zur Einwerbung von Drittmitteln für die Forschung auch aus Sicht der Arbeitsgruppenmitglieder zu den wünschenswerten Qualifikationen wissenschaftlich arbeitender Personen gehört. Aus den oben genannten Gründen (Abhängigkeit der Drittmittelsummen vom Forschungsfeld, Fehlanreize für möglichst teure Forschung) empfehlen wir alternativ, zu ermitteln, ob Kandidat_innen prinzipiell in der Lage sind, Fördermittel zu akquirieren. Dies kann mit einem Nachweis über eine Mindestanzahl an erfolgreich eingeworbenen Projekten geschehen. Dabei erscheint es legitim, solche Projekte höher zu gewichten, bei deren Einwerbung die sich bewerbende Person eine federführende Rolle (als „PI“) gespielt hat, und solche, die kompetitiv sind und bei deren Begutachtung bekanntermaßen besonders hohe Maßstäbe angelegt werden (z. B. solche, die von der DFG gefördert werden).

Abschließende Bemerkungen

Mit der Unterzeichnung der DORA-Erklärung und dem Beitritt zu CoARA setzt die DGPs ihre Bemühungen um die Förderung guter wissenschaftlicher Praxis in ihren eigenen Reihen fort. So wie die Psychologie mittlerweile von anderen Fächern als klare Vorreiterin in Bezug auf reproduzierbare und offene Forschung wahrgenommen wird, besteht nun die Chance, auch im Bereich der Leistungsbewertung voranzugehen. Gerade als diejenige Disziplin, die Expertise zum Verhalten von Menschen, zur Qualität von Messinstrumenten und zu organisationalem Kulturwandel für sich in Anspruch nimmt, sollten wir das auch tun. Wir rufen daher alle DGPs-Mitglieder auf, die hier vorgeschlagenen Grundsätze und Kriterien für eine verantwortungsvolle Forschungsbewertung zu diskutieren und im Rahmen des Diskussionsforums Kommentare bei der Psychologischen Rundschau einzureichen.

An Standorten, an denen Berufungsverfahren anstehen, schlagen wir vor, diejenigen Aspekte der Empfehlungen umzusetzen, die konsensfähig und implementierbar sind. Nach unserer Einschätzung ist unser Vorschlag gut genug, um Berufungsverfahren schon jetzt substantiell zu verbessern und valider zu machen. Gleichzeitig möchten wir aber auch noch einmal betonen, dass es sich um „Work-in-Progress“ handelt: Der neue Ansatz muss (möglicherweise in Varianten) an vielen Standorten einem Praxistest unterzogen werden, begleitet von Studien zur Praktikabilität, Reliabilität und Validität der neuen Indikatoren. Die so gewonnenen Erfahrungen werden im Rahmen von CoARA in andere Fachgesellschaften und Institutionen hineingetragen, so wie auch wir von den dortigen Prozessen profitieren können. Diese koordinative Aufgabe wird von der DGPs-Kommission „Open Science“ übernommen. Noch bestehende Unsicherheiten sollten nicht davon abhalten, jetzt die ersten Schritte hin zu einer sinnvolleren Form der Forschungsbewertung zu machen. Das letztendliche Ziel ist, basierend auf den zu sammelnden Erfahrungen und einem regen Austausch miteinander, einen möglichst breiten Konsens innerhalb unserer Fachgesellschaft darüber zu erreichen, wie wir in Zukunft wissenschaftliche Leistung (und damit auch unsere eigene Arbeit) auf eine valide und zugleich praktikable Art und Weise evaluieren wollen.

Literatur

  • Abele-Brehm, A. E. & Bühner, M. (2016a). Wer soll die Professur bekommen? Psychologische Rundschau, 67, 250 – 261. https://doi.org/10.1026/0033-3042/a000335 First citation in articleLinkGoogle Scholar

  • Abele-Brehm, A. E. & Bühner, M. (2016b). Überlegungen zur Optimierung von Berufungsverfahren in der Psychologie. Psychologische Rundschau, 67, 262 – 268. https://doi.org/10.1026/0033-3042/a000333 First citation in articleLinkGoogle Scholar

  • Aksnes, D. W., Langfeldt, L & Wouters, P. (2019). Citations, citation indicators, and research quality: An overview of basic concepts and theories. SAGE Open, 9 (1), 215824401982957 https://doi.org/10.1177/2158244019829575 First citation in articleCrossrefGoogle Scholar

  • Brembs, B. (2018). Prestigious science journals struggle to reach even average reliability. Frontiers in Human Neuroscience, 12, 37. https://doi.org/10.3389/fnhum.2018.00037 First citation in articleCrossrefGoogle Scholar

  • Chapman, C. A., Bicca-Marques, J. C., Calvignac-Spencer, S., Fan, P., Fashing, P. J., Gogarten, J. et al. (2019). Games academics play and their consequences: how authorship, h-index and journal impact factors are shaping the future of academia. Proceedings. Biological Sciences, 286(1916), 20192047 https://doi.org/10.1098/rspb.2019.2047 First citation in articleCrossrefGoogle Scholar

  • Dougherty, M. R. & Horne, Z. (2022). Citation counts and journal impact factors do not capture some indicators of research quality in the behavioural and brain sciences. Royal Society Open Science, 9, 8, 220334 https://doi.org/10.1098/rsos.220334 First citation in articleCrossrefGoogle Scholar

  • Dougherty, M. R., Slevc, L. R. & Grand, J. A. (2019). Making research evaluation more transparent: Aligning research philosophy, institutional values, and reporting. Perspectives on psychological science, 14, 361 – 375. https://doi.org/10.1177/1745691618810693 First citation in articleCrossrefGoogle Scholar

  • Errington, T. M., Mathur, M., Soderberg, C. K., Denis, A., Perfito, N., Iorns, E et al. (2021). Investigating the replicability of preclinical cancer biology. ELife, 10, e71601. https://doi.org/10.7554/eLife.71601 First citation in articleCrossrefGoogle Scholar

  • European Commission. Directorate General for Research and Innovation. (2021). Towards a reform of the research assessment system: Scoping report. Publications Office. https://data.europa.eu/doi/10.2777/707440 First citation in articleGoogle Scholar

  • Falagas, M. E. & Alexiou, V.G. (2008). The top-ten in journal impact factor manipulation. Archivum Immunologiae et Therapiae Experimentalis, 56, 223 – 226. https://doi.org/10.1007/s00005-008-0024-5 First citation in articleCrossrefGoogle Scholar

  • Fong, E. A. & Wilhite, A. W. (2017). Authorship and citation manipulation in academic research. PloS one, 12 (12), e0187394. https://doi.org/10.1371/journal.pone.0187394 First citation in articleCrossrefGoogle Scholar

  • Fraley, R. C. & Vazire, S. (2014). The N-Pact Factor: Evaluating the quality of empirical Journals with Respect to Sample Size and Statistical Power. PLoS ONE, 9 (10), e109019. https://doi.org/10.1371/journal.pone.0109019 First citation in articleCrossrefGoogle Scholar

  • Gärtner, A., Leising, D. & Schönbrodt, F. D. (2022). Responsible research assessment II: A specific proposal for hiring and promotion in psychology [Preprint]. PsyArXiv. https://doi.org/10.31234/osf.io/5yexm First citation in articleCrossrefGoogle Scholar

  • Gasparyan, A.Y., Ayvazyan, L & Kitas, G.D. (2013). Authorship problems in scholarly journals: considerations for authors, peer reviewers and editors. Rheumatology International, 33, 277 – 284. https://doi.org/10.1007/s00296-012-2582-2 First citation in articleCrossrefGoogle Scholar

  • Kepes, S., Keener, S. K., McDaniel, M. A. & Hartman, N. S. (2022). Questionable research practices among researchers in the most research‐productive management programs. Journal of Organizational Behavior, job.2623. https://doi.org/10.1002/job.2623 First citation in articleCrossrefGoogle Scholar

  • Leising, D., Thielmann, I., Glöckner, A., Gärtner, A. & Schönbrodt, F. (2022a). Ten steps toward a better personality science – how quality may be rewarded more in research evaluation. Personality Science, 3, e6029. https://doi.org/10.5964/ps.6029 First citation in articleCrossrefGoogle Scholar

  • Leising, D., Thielmann, I., Glöckner, A., Gärtner, A. & Schönbrodt, F. (2022b). Ten steps toward a better personality science – a rejoinder to the comments. Personality Science, 3, e7961. https://doi.org/10.5964/ps.7961 First citation in articleCrossrefGoogle Scholar

  • Nosek, B. A. & Bar-Anan, Y. (2012). Scientific utopia: I. Opening scientific communication. Psychological Inquiry, 23, 217 – 243. https://doi.org/10.1080/1047840X.2012.692215 First citation in articleCrossrefGoogle Scholar

  • Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349 (6251), aac4716 https://doi.org/10.1126/science.aac4716 First citation in articleCrossrefGoogle Scholar

  • Pruschak, G. & Hopp, C. (2022). And the credit goes to … – Ghost and honorary authorship among social scientists. PloS one, 17 (5), e0267312. https://doi.org/10.1371/journal.pone.0267312 First citation in articleCrossrefGoogle Scholar

  • Schönbrodt, F. D., Gärtner, A., Frank, M., Gollwitzer, M., Ihle, M., Mischkowski, D. et al. (2022). Responsible research assessment I: Implementing DORA for hiring and promotion in psychology [Preprint]. PsyArXiv. https://doi.org/10.31234/osf.io/rgh5b First citation in articleCrossrefGoogle Scholar

  • Serra-Garcia, M. & Gneezy, U. (2021). Nonreplicable publications are cited more than replicable ones. Science Advances, 7 (21), eabd1705 https://doi.org/10.1126/sciadv.abd1705 First citation in articleCrossrefGoogle Scholar

1Wie oben bereits erwähnt, können auch für die anderen Bereiche wissenschaftlicher Aktivitäten Mindeststandards definiert werden. Wir beschränken uns hier jedoch auf die Diskussion von Forschungsleistung.

2Natürlich spricht nichts dagegen, auch diese Indikatoren im Sinne eines Profils auszuwerten. So könnte z. B. interessant sein, ob ein Bewerber seine “Qualitätspunkte” primär durch das Durchführen von Präregistrierungen erhielt oder vor allem durch das Ausarbeiten formalisierter Theorien.