Nicht replizieren: publizieren!?
Abstract
Zusammenfassung. In der (Pädagogischen) Psychologie sind Replikationsstudien bislang extrem seltene Ausnahmen. Dieser Artikel legt dar, dass und warum Wiederholungsstudien unentbehrlich sind. Weiterhin wird der Frage nachgegangen, warum – trotz des enormen Mehrwerts – nahezu keine Replikationen publiziert werden und warum viele „Ergebnisse“ der psychologischen Forschung nicht replizierbar sind. Dass es sich bei diesen Sachverhalten nicht um Vermutungen handelt, wird durch vorliegende Untersuchungen belegt. Die Ursachen dafür liegen in verschiedenen – teilweise voneinander abhängigen – Ebenen des Wissenschaftssystems: die verbreitete – aber abwegige – Ansicht, „statistische Signifikanz“ indiziere auch die Wahrscheinlichkeit, einen Befund replizieren zu können; die Verwechslung von „statistisch signifikant“ mit relevant; die Unsitte, getestete Untersuchungshypothesen erst im Nachhinein (ex post), also in Kenntnis der Resultate einer Studie, aufgestellt zu haben, aber in der Publikation als theoretisch abgeleiteten Ausgangspunkt (d. h. a priori formuliert) auszugeben; die α-Fehler-Inflationierung durch multiple statistische Signifikanztestungen; das exklusive Berichten von Ergebnissen, welche die Forschungshypothesen stützen, verbunden mit dem Unterschlagen abweichender Befunde; mangelnde Konstruktvalidität der verwendeten Messinstrumente; Lug und Betrug in der Wissenschaft; die Geringschätzung von Replikationen durch Zeitschriftenherausgeber, Gutachter und Drittmittelgeber. All das führt dazu, dass fast ausschließlich „statistisch signifikante“ und „neue“ Ergebnisse veröffentlicht werden und falsche Theorien persistieren. Als Gegenmaßnahmen werden beispielhaft genannt: eine großzügige finanzielle Förderung von Replikationsprojekten und ihrer Publikation; die nachdrückliche gutachterliche Befürwortung der Veröffentlichung methodisch adäquater Wiederholungsstudien; die Bereitschaft von Fachzeitschriften, dafür genug Platz bereitzustellen; die Anerkennung des großen wissenschaftlichen Werts von Wiederholungsstudien, auch in Berufungsverfahren. Daraus ergibt sich, dass mit den aufgezeigten Möglichkeiten und Forderungen zur Etablierung und Förderung von Replikationsstudien unterschiedliche Adressaten parallel angesprochen werden müssen. Nachhaltige Veränderungen sind allerdings nur erreichbar, wenn die einzelnen Akteure (Forscher; Gutachter; Zeitschriftenherausgeber; Berufungskommissionen; Drittmittelgeber) ihre individuelle Verantwortung anerkennen und entsprechende Taten folgen lassen.
Abstract. To date replications of published research results are extremely rare exceptions in (educational) psychology. The following article emphasizes the great scientific benefits and indispensability of replication studies. The question is pursued why – despite the tremendous additional value – almost no replication studies are published and why many research findings could not be replicated. There are manifold reasons for these issues: The widespread – but absurd – opinion that “statistical significance” informs about the probability to replicate a research finding; the confusion of “statistical significance” with relevance; the bad habit to pose a tested hypothesis retrospectively (ex post), thus in knowledge of the findings of the study, but passing it off as the theoretical derived origin of the research work (i. e. formulated a priori); the inflation of the α-error due to multiple significance testing; exclusively reporting results which support the research hypotheses in conjunction with embezzling deviating findings; insufficient construct validity of the measures; fraud and deceit in science; the traditional contempt for replications by editors, reviewers and third-party funders. All these reasons lead to the fact that almost exclusively “statistical significant” and “new” results are produced and published and – therefore – false theories persist. Some essential countermeasures are outlined: a generous funding of replication studies and their publications; an emphatic reviewer's acceptance of methodically adequate replication studies; the willingness to provide sufficient space in journals for replication studies; the appreciation of the great scientific benefit of replication studies, also in appointment procedures. Consequently, this would mean that different addressees have to be approached with the countermeasures in order to establish and promote replication studies. However, sustainable changes can only be achieved if all protagonists (researchers; reviewers; journal editors; appointment committees; third-party funders) acknowledge their individual responsibility and suit the action to the word.
Literatur
(2016). Response to comment “Estimating the reproducibility of psychological science”. Science, 351, 1037-c. https://doi.org/10.11126/science.aad9173
(2013). Recommendations for increasing replicability in psychology. European Journal of Personality, 27, 108 – 119. https://doi.org/10/1002/per.1919
(2016). Misconceptions of the p-value among Chilean and Italian academic psychologists. Frontiers in Psychology, 7, article 1247. https://doi.org/10.3389/fpsyg.2016.01247
(2015). Interpretation of the p value. A national survey study in academic psychologists from Spain. Psicothema, 27, 290 – 295. https://doi.org/10.7334/psicothema2014.283
(2016). Dutch agency launches first grants programme dedicated to replication: Three-year pilot devotes €3 million to verifying other studies. Nature (July 20). https://doi.org/10.1038/nature.2016.20287
(2018).
Internationale Schulleistungsvergleiche . In D. H. RostJ. R. SparfeldtS. R. Buch (Hrsg.), Handwörterbuch Pädagogische Psychologie (5. Aufl., S. 297 – 309). Weinheim: Beltz.(2000). The adaptive control of the false discovery rate in multiple comparison problems. Journal of Behavioral and Educational Statistics, 25, 60 – 83. https://doi.org/10.3102/10769986025001060
(2012). Bite-size and its undesired side effects. Perspectives on Psychological Science, 7, 67 – 71. https://doi.org/10.1177/1745691611429353
(2014). The replication recipe: What makes for a convincing replication? Journal of Experimental Social Psychology, 50, 217 – 224. http://dx.doi.org/10.1016/j.jesp.2013.10.005
(1972). Der Signifikanztest in der psychologischen Forschung. Frankfurt a. M.: Akademische Verlagsgesellschaft.
(2018). Which test not witch hunts: A diagnostic approach for conducting replication research. Economica: The Open Access, Open-Assessment E-Journal, 12 (53), 1 – 26. https://doi.org/10.5018/economics-ejournal.ja.2018-53
(1963).
Experimental and quasi-experimental designs for research on teaching . In N. L. Gage (Ed.), Handbook of research on teaching (pp. 171 – 246). Chicago, IL: Rand McNally.(1970).
Experimentelle und quasi-experimentelle Anordnungen in der Unterrichtsforschung . In K. IngenkampE. Parey (Hrsg.), Handbuch der Unterrichtsforschung (Teil I, S. 445 – 632; dt. Bearbeitung von E. Schwarz). Weinheim: Beltz.(2018). Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015. Nature Human Behavior, 2, 637 – 644. https://doi.org/10.1038/s41562-018-0399-z
(2010). Towards reporting guidelines for experimental replications: A proposal. http://carver.cs.ua.edu/Papers/Conference/2010/2010_RESER.pdf
(2017). The 7 deadly sins of psychology. A manifesto for reforming the scientific practice. Princeton, NJ: Princeton University Press.
(1994). The earth is round (p < .05). American Psychologist, 49, 997 – 1003. https://doi.org/10.1037/0003-066X.49.12.997
(2002). Principles and methods of social research (2nd ed.). Mahwah, NJ: Erlbaum.
(1982). Designing evaluations of educational and social programs. San Francisco, CA: Jossey-Bass.
Deutsche Forschungsgemeinschaft (2017). Replizierbarkeit von Forschungsergebnissen: Eine Stellungnahme der Deutschen Forschungsgemeinschaft. https://www.dfg.de/download/pdf/dfg_im_profil/reden_stellungnahmen/2017/170425_stellungnahme_replizierbarkeit_forschungsergebnisse_de.pdfDeutsche Gesellschaft für Psychologie (2015). Replikationen von Studien sichern Qualität in der Wissenschaft und bringen Forschung voran. https://www.dgps.de/index.php?id=143&tx_ttnews[tt_news]=1630&cHash=6734f2c28f16dbab9(1965). Hat Jaenschs Lehre von der Eidetik heute noch Bedeutung? Psychologische Beiträge, 8, 237 – 253.
(2018). Zur Methodologie von Replikationsstudien. Psychologische Rundschau, 69, 3 – 21. https://doi.org/10.1026/0033-3042/a000387
(2009). How many scientists fabricate and falsify research? A systematic review and meta-analysis of survey data. PLoS One, 4, e5738. https://doi.org/10.1371/journal.pone.0005738
(2010). Do pressures to publish increase scientists' bias? An empirical support from US States data. PLoS ONE, 5, e10271. https://doi.org/10.1371/journal.pone.0010271
(2018). Wo sind die Standards für hochwertige Replikationsforschung? Psychologische Rundschau, 69, 41 – 56. https://doi.org/10.1026/0033-3042/a000388
(2016). Questionable research practices revisited. Social Psychological and Personality Science, 7, 45 – 52. https://doi.org/10.1177/1948550615612150
(2012). Teaching replication. Perspectives on Psychological Science, 7, 600 – 604. https://doi.org/10.1177/1745691612460686
(2016). Comment on „Estimating the reproducibility of psychological science“. Science, 351, 1037-b. https://doi.org/10.1126/science.aad7243
(1979). Meta-analysis of research on class size and achievement. Educational Evaluation and Policy Analysis, 1, 2 – 16. https://doi.org/10.3102/01623737001001002
(1995). Basic psychology (4th ed.). New York, NY: Norton & Company.
(1996). Effect sizes and p-values. What should be reported and what should be replicated? Psychophysiology, 33, 175 – 183. https://doi.org/10.1111/j.1469-8986.1996.tb02121.x
(1982). Cognitive psychology's ambiguities: Some suggested remedies. Psychological Review, 89, 48 – 59. https://doi.org/10.1037/0033-205X.89.1.48
(2002). Misinterpretations of significance: A problem students share with their teachers? Methods of Psychological Research Online, 7 (1). https://www.dgps.de/fachgruppen/methoden/mpr-online/
(2018). Improving the replicability of psychological science through pedagogy. Advances in Methods and Practices in Psychological Science, 1, 7 – 18. https://doi.org/10.1177/2515245991774027
(2009). Visible learning. A synthesis over 800 meta-analyses relating to achievement. New York, NY: Routledge.
(1990). Replications, strict replications, and conceptual replications: Are they important? Journal of Social Behavior & Personality, 5, 41 – 49.
(1975). Reproduktionsleistungen von 10 – 14jährigen Schülern und Studenten nach kurzzeitiger Darbietung einer Bildvorlage: Anschauliche Vorstellungen oder subjektive Anschauungsbilder? Psychologie in Erziehung und Unterricht, 22, 148 – 160.
(1975). Introduction to psychology (6th ed.). New York. NY: Harcourt Brace Jovanovich.
(1979). A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics, 6, 65 – 70.
(2019). Hidden validity among fifteen commonly used measures in social and personality psychology. https://doi.org/psyarxiv.com/7rbfp/
(1985).
Kritik . In K. IngenkampH. PetillonM. Weiß (Hrsg.), Klassengröße: Je kleiner, desto besser? Forschungs- und Diskussionsstand zu Wirkungen der Klassenfrequenz (S. 85 – 91). Weinheim: Beltz.(2005). Why most published research findings are false. PLoS Med, 2, 696 – 701. https://doi.org/10.1371/journal.pmed.0020124
(1925). Die Eidetik und die typologische Forschungsmethode in ihrer Bedeutung für die Jugendpsychologie und die Pädagogik, für die allgemeine Psychologie und die Psychophysiologie der menschlichen Persönlichkeit: mit besonderer Berücksichtigung der grundlegenden Fragen und Untersuchungsmethodik. Leipzig: Quelle & Meyer.
(1930). Eidetic imagery. London: Kegan Paul.
(2012). Measuring the prevalence of questionable research practices with incentives for truth telling. Psychological Science, 23, 524 – 532. https://doi.org/10.1177/0956797611430953
(2018). The STM Report. An overview of scientific and scholary publishing (5th ed.). The Hague: International Association of Scientific, Technical and Medical Publishers.
(2017). On the reproducibility of psychological science. Journal of the American Statistical Association, 112, 1 – 10. https://doi.org/10.1080/01621459.2016.1240079
(2011). Single-case research designs: Methods for clinical and applied settings (2nd ed.). New York, NY: Oxford University Press.
(1998). HARKing: hypothesizing after the results are known. Personality and Social Psychology Review, 2, 196 – 217. https://doi.org/10.1207/s15327957pspr0203 _4
(2018). Many Labs 2: Investigating variation in replicability across samples and settings. Advances in Methods and Practices in Psychological Science, 1, 443 – 490. https://doi.org/10.1177/2515245918810225
Koninklijke Nederlandse Akademie von Wetenschappen (2018). Replication studies. Improving reproducibility in the empirical sciences. Advisory report. Amsterdam: Royal Netherlands Academy of Arts and Sciences.(2018). Cross-validation approaches for replicability in psychology. Frontiers in Psychology, 9, article 1117. https://doi.org/10.3389/fpsyg.2018.01117
(1922). Subjektive Anschauungsbilder bei Jugendlichen: eine psychologisch-pädagogische Untersuchung. Göttingen: Vandenhoeck & Ruprecht.
(2012). Subjective p intervals. Researchers underestimate the variability of p values over replication. Methodology, 8, 52 – 62. https://doi.org/10.1027/1614-2241/a000037
A unified framework to quantify the credibility of scientific findings. Advances in Methods and Practices in Psychological Science. https://doi.org/10.1177/2515245918787489
(in press).(2019). A brief guide to evaluate replications. Meta-Psychology, 3. https://doi.org/10.15626/MP.2018.843
(1993). The design of replicated studies. The American Statistician, 47, 217 – 228. https://doi.org/10.2307/2684982
(1968). Statistical significance in psychological research. Psychological Bulletin, 70, 151 – 159. https://doi.org/10.1037/h0026141
(2014). Facts are more important than novelty: Replications in the educational sciences. Educational Researcher, 43, 304 – 316 https://doi.org/10.3102/0013189X14545513
(2012). Replications in psychology research: How often do they really occur? Perspectives on Psychological Science, 7, 537 – 542. https://doi.org/10.1177/1745691612460688
(2019, April 30). Changing the logic of replication. https://doi.org/10.31234/osf.io/xw6qt
(2017). Are psychology journals anti-replication? A snapshot of editorial practices. Frontiers in Psychology, 8, article 523. https://doi.org/10.3389/fpsyg.2017.00523
(2017). Statistical significance and the dichotomization of evidence. Journal of the American Statistical Association, 112, 885 – 889. https://doi.org/10.1080/01621459.2017.128984
(1962). Editorial. Journal of Experimental Psychology, 64, 553 – 557. https://doi.org/10.1037/h0045549
National Science Foundation & Institute of Education Science (2018). Companion guidelines on replication & reproducibility in education research. A supplement to the common guidelines for education research and development. A report from the National Science Foundation and the Institute of Education Science. Washington, DC: U.S. Department of Education. https:www.nsf.gov/pubs/2013/nsf13126/nsf13126.pdf(1990). Editorial bias against replication research. Journal of Social Behavior and Personality, 5, 85 – 90.
(1975). Gibt es wirklich Eidetiker? Untersuchungen mit stereoskopischen Vorlagen nach Stromeyer & Psotka an Schulkindern und Studierenden. Psychologie in Erziehung und Unterricht, 22, 259 – 273.
(2014). Registered reports: A method to increase the credibility of published results. Social Psychology, 45, 137 – 141. https://doi.org/10.1027/1864-9335/a000192
(1986). Statistical inference: A commentary for the social and behavioural Science. Chichester: Wiley.
Open Science Collaboration (2015). Estimating the reproducibility of psychological science. Science, 349, aac4716-1-4717-7. http://science.sciencemag.org/content/349/6251/aac4716 (ausführlicher Report: Nosek, B. A., Cohoon, J., Kidwell, M. & Spies, J. R. (2018, September 18). Estimating the reproducibility of psychological science. https://osf.io/ezum7/(1995). Fundamentals of behaviour analytic research. New York, NY: Plenum.
(2013). Interpretation und Bewertung pädagogisch-psychologischer Studien (3. Aufl.). Bad Heilbrunn: Klinkhardt.
(2018).
Pädagogische Verhaltensmodifikation . In D. H. RostJ. R. SparfeldtS. R. Buch (Hrsg.), Handwörterbuch Pädagogische Psychologie (5. Aufl., S. 619 – 630). Weinheim: Beltz.Hrsg.). (1995). Pädagogische Verhaltensmodifikation. Weinheim: Beltz.
((2016). Die Verdrängung des selektiven Publizierens: 7 Fallstudien von prominenten Sozialpsychologen. https://replicationindex.com/2016/04/20/die-verdrangung-des-selektiven-publizierens-7-fallstudien-von-prominenten-sozialpsychologen/
(2009). Shall we really do it again? The powerful concept of replication is neglected in the social sciences. Review of General Psychology, 13, 90 – 100. https://doi.org/10.1037/a0015108
(2012).
Muss man alles wiederholen? Eine Analyse des Replikationsbegriffs in der modernen Wissenschaft . In W. Ambach (Ed.), Experimentelle Psychophysiologie in Grenzgebieten (S. 234 – 261). Würzburg: Ergon.(2017).
Replication . In M. C. MakelJ. A. Plucker (Eds.), Toward a more perfect psychology: Improving trust, accuracy, and transparency in research (pp. 233 – 253). Washington, DC: American Psychological Association.(2013). Methoden der empirischen Sozialforschung (10. Aufl.). München: Oldenbourg.
(2018). Forschungstransparenz als hohes wissenschaftliches Gut stärken. Konkrete Ansatzmöglichkeiten für Psychologische Institute. Psychologische Rundschau, 69, S. 37 – 43. https://doi.org/10.1026/0033-3042/a000386
(1991). Assimilation and contrast effects in part-whole question sequences: A conversational logic analysis. Public Opinion Quarterly, 55, 3 – 23. https://doi.org/10.1086/269239
(1989). Eine Analyse der Konzepte, Bedingungen und Zielsetzungen von Replikationen. Archiv für Psychologie, 141, 95 – 97.
(2002). Experimental and quasi-experimental designs for generalized causal inference. Boston, MA: Houghton Mifflin.
(1960). Tactics of scientific research. New York, NY: Basic Books.
(2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22, 1359 – 1366. https://doi.org/10.1177/0956797611417632
(2014). The value of direct replication. Perspectives on Psychological Science, 9, 76 – 80. https://doi.org/10.1177/174591613514755
(1998). Statistical significance and replicability: Why the former does not presage the latter. Theory & Psychology, 8, 291 – 311.
(2019). How replicable are links between personality traits and consequential life outcomes? The Life Outcomes Of Personality Replication Project. Psychological Science, 30, 711 – 727. https://doi.org/10.1177/0956797619831612
(2014). Expectations for replications: Are yours realistic? Psychological Science, 9, 305 – 318. https://doi.org/10.1177/17456691614528518
(2005). Fehler und Fallen der Statistik für Psychologen, Pädagogen und Sozialwissenschaftler. Münster: Waxmann.
(1959). Publication decisions and their possible effects on inferences drawn from tests of significance – or vice versa. Journal of the American Statistical Association, 54, 30 – 34. https://doi.org/10.1080/01621459.1959.10501497
(1993). Publication decisions revisited: The effect of the outcome of statistical tests on the decision to publish and vice versa. The American Statistican, 49, 108 – 112. https://doi.org/10.1080/00031305.1995.10476125
(2001). Sifting the evidence – What's wrong with significance tests? British Medical Journal, 322, 226 – 231. https://doi.org/10.1136/bmj.322.7280.226
(1962). Kritische Untersuchung zur Eidetik. Archiv für die gesamte Psychologie, 114, 260 – 336.
(1907). Über subjektive optische Anschauungsbilder. Wien, AT: Deuticke.
(2019). Publishing research with undergraduate students via replication work: The Collaborative Replications and Education Project. Frontiers in Psychology, 10, article 247. https://doi.org/10.3389/fpsyg.2019.00247
(2012). Datenverfügbarkeit reicht nicht, um Replikationsstudien zur Routine zu machen. RatSWD WorkingPaperSeries Nr. 194. Berlin: Rat für Sozial- und Wirtschaftsdaten.
(2019, February 22). No replication, no trust? How low replicability influences trust in psychology. https://doi.org/10.31219/osf.io/4ukq5
(2019).
Replikationsstudie . In M. A. Wirtz (Hrsg.), Dorsch – Lexikon der Psychologie. https://portal.hogrefe.com/dorsch/replikationsstudie/(2018). How to crack pre-registration: Toward transparent and open science. Frontiers in Psychology, 9, article 1831. https://doi.org/10.3389/fpsyg.2018.01831