Skip to main content
Originalia/Original Articles

Zur Vergleichbarkeit von Schülerleistungen bei Leseaufgaben unterschiedlichen sprachlichen Ursprungs

Comparability of Students' Reading Literacy Performance Measured with Items Originating from Different Language Backgrounds

Published Online:

Zusammenfassung: In internationalen Schulleistungsstudien stellt ein differenzieller Vorteil bei Leseaufgaben des eigenen Sprach- bzw. Kulturraums eine potenzielle Gefährdung der fairness des Tests dar. Durch die Analyse von IRT-basierten differenziellen Itemfunktionen (DIF) der PISA-Lesetestaufgaben wird geprüft, ob Schüler gleicher Fähigkeit, aber unterschiedlicher Sprachgruppen, systematische Vorteile bei Aufgaben haben, die ursprünglich aus ihren Ländern (Sprachgruppen) stammen. Besonders bei französischen und griechischen und z. T. auch bei deutschen Aufgaben lassen sich entsprechende Effekte nachweisen (d = .23). Aufgrund der geringen Anzahl wirkt sich dieser Vorteil jedoch kaum auf das mittlere Abschneiden der Länder aus. Auch die Vorteile englischsprachiger Schüler durch die Dominanz englischsprachiger Items im Lesetest lässt sich auf der Länderebene nicht zufallskritisch absichern. Die Ergebnisse machen insgesamt deutlich, dass in international vergleichenden Studien die sprachliche Herkunft der Aufgaben eine systematische Varianzquelle darstellt. Dem hieraus potenziell entstehenden cultural bias des Tests kann dabei - wie in PISA - durch eine möglichst multi-kulturelle Zusammensetzung von Testaufgaben begegnet werden.

Summary: The fact that students are at an advantage when working on reading literacy items from their own cultural and linguistic background in an international large scale assessment can be seen as a threat to the fairness of a test. An IRT-based analysis of differential item functioning (DIF) in the PISA reading literacy items was performed to investigate whether students of equal ability but from different language groups have a systematic advantage when processing items originating from their own cultural and linguistic background. Such effects were discerned especially for French and Greek, but also for German items (d = 23). Because few items from these countries were contained in the PISA assessment, this advantage does not significantly affect the mean performance of these countries, as a re-analysis of student performance on a test without the biased items shows. Furthermore, the fact that most items stem from the Anglo-American background does not mean that students in the five English-speaking countries perform significantly better. The results presented confirm that the language source of the items in international student surveys can be regarded as a systematic source of variance. The potentially resulting cultural bias of the test might be addressed - as done in PISA 2000 - by administering a balanced, multi-cultural mix of test items.


  • Adams, R. , Wu, M. (2002). PISA 2000 technical report . Paris: OECD First citation in articleGoogle Scholar

  • Allalouf, A. (2003). Revising translated differential item functioning items as a tool for improving cross-lingual assessment. Applied Measurement in Education, 16, 55– 73 First citation in articleCrossrefGoogle Scholar

  • Allalouf, A. , Hambleton, R.K. , Sireci, S. (1999). Identifying the causes of DIF in translated verbal items. Journal of Educational Measurement, 36, 185– 198 First citation in articleCrossrefGoogle Scholar

  • Angoff, W.H. , Cook, L.K. (1988). Equating the scores of the Prueba de Aptitud Academica and the Scholastic Aptitude Test (College board report No. 88-2) . New York: College Entrance Examination Board First citation in articleGoogle Scholar

  • Artelt, C. , Schlagmüller, M. (2004). Der Umgang mit literarischen Texten als Teilkompetenz im Lesen. Dimensionsanalysen und Ländervergleiche. In U. Schiefele, C. Artelt, W. Schneider & P. Stanat (Hrsg.), Struktur, Entwicklung und Förderung von Lesekompetenz: Vertiefende Analysen im Rahmen von PISA-2000 (S. 169-196). Wiesbaden: VS Verlag für Sozialwissenschaften First citation in articleCrossrefGoogle Scholar

  • Artelt, C. , Stanat, P. , Schneider, W. , Schiefele, U. (2001). Lesekompetenz: Testkonzeption und Ergebnisse. In J. Baumert, E. Klieme, M. Neubrand, M. Prenzel, U. Schiefele, W. Schneider, P. Stanat, K.-J. Tillmann & M. Weiß (Hrsg.), PISA 2000. Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich (S. 69-137). Opladen: Leske + Budrich First citation in articleGoogle Scholar

  • Baumert, J. , Artelt, C. , Klieme, E. , Neubrand, J. , Prenzel, M. , Schiefele, U. , Schneider, W. , Tillmann, K.-J. , Weiß, M. Hrsg. (2003). PISA 2000: Ein differenzierter Blick auf die Länder der Bundesrepublik Deutschland im Vergleich . Opladen: Leske + Budrich First citation in articleCrossrefGoogle Scholar

  • Baumert, J. , Klieme, E. , Neubrand, M. , Prenzel, M. , Schiefele, U. , Schneider, W. , Stanat, P. , Tillmann, K.-J. , Weiß, M. Hrsg. (2001). PISA 2000: Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich . Opladen: Leske + Budrich First citation in articleCrossrefGoogle Scholar

  • Baumert, J. , Klieme, E. , Watermann, R. (1998). Jenseits von Gesamttest- und Untertestwerten: Analyse differentieller Itemfunktionen am Beispiel des mathematischen Grundbildungstests der Dritten Internationalen Mathematik- und Naturwissenschaftsstudie der IEA (TIMSS). In H.-J. Herber & F. Hofmann (Hrsg.), Schulpädagogik und Lehrerbildung. Festschrift zum 60. Geburtstag von Josef Thonhauser (S. 301-324). Innsbruck: Studien Verlag First citation in articleGoogle Scholar

  • Bonnet, G. (2002). Reflections in a critical eye: On the pitfalls of international assessment. Assessment in Education, 9, 387– 399 First citation in articleCrossrefGoogle Scholar

  • Bonnet, G. , Daems, F. , Clopper, C.D. , Horner, S. , Lappalainen, H.-P. , Nardi, E. , Remond, M. , Robin, I. , Rosen, M. , Solheim, R.G. , Ronnessen, F.-E. , Vertecchi, B. , Vrignaud, P. , Wagner, A.K.H. , White, J. (2003). Culturally balanced assessment of reading [c-bar] . Retrieved 2003, from First citation in articleGoogle Scholar

  • Budgell, G.R. , Namburty, S.R. , Douglas, A.Q. (1995). Analysis of differential item functioning in translated assessment instruments. Applied Psychological Measurement, 19, 309– 321 First citation in articleCrossrefGoogle Scholar

  • Camilli, G. , Shapard, L.A. (1994). Methods for identifying biased test items (Vol. 4). London: Sage First citation in articleGoogle Scholar

  • Drasgow, F. (1984). Scrutinizing psychological tests: Measurement equivalence and equivalent relations with external variables are the central issues. Psychological Bulletin, 95, 134– 135 First citation in articleCrossrefGoogle Scholar

  • Ellis, B.B. (1989). Differential item functioning: Implications for test translations. Journal of Applied Psychology, 74, 912– 921 First citation in articleCrossrefGoogle Scholar

  • Ellis, B.B. , Kimmel, H.D. (1992). Identification of unique cultural responses patterns by means of item response theory. Journal of Applied Psychology, 77, 177– 184 First citation in articleCrossrefGoogle Scholar

  • Gierl, M.J. , Khaliq, S.N. (2001). Identifying sources of differential item and bundle functioning on translated achievement tests: A confirmatory analysis. Journal of Educational Measurement, 38, 164– 187 First citation in articleCrossrefGoogle Scholar

  • Glöckner-Rist, A. , Hojtink, H. (2003). The best of both worlds: Factor analysis of dichotomous data using item response theory and structural equation modeling. Structural Equation Modeling, 10, 544– 565 First citation in articleCrossrefGoogle Scholar

  • Graesser, A.C. , Singer, M. , Trabasso, T. (1994). Constructing inferences during narrative text comprehension. Psychological Review, 101, 371– 395 First citation in articleCrossrefGoogle Scholar

  • Hambleton, R.K. (1994). Guidelines for adapting educational and psychological tests: A progress report. European Journal of Psychological Assessment, 10, 229– 244 First citation in articleGoogle Scholar

  • Holland, P.W. , Wainer, H. (1993). Differential item functioning . Hillsdale, NJ: Erlbaum First citation in articleGoogle Scholar

  • Kintsch, W. (1998). Comprehension: A paradigm for cognition . Cambridge: Cambridge University Press First citation in articleGoogle Scholar

  • Kirsch, I. , de Jong, J. , Lafontaine, D. , Mc Queen, J. , Mendelovits, J. , Monseur, C. (2003). Reading for change. Performance and engagement across countries. Results from PISA 2000 . Paris: OECD First citation in articleGoogle Scholar

  • Kolen, M.J. , Brennan, R.L. (1995). Test equating. Methods and practices . New York: Springer First citation in articleCrossrefGoogle Scholar

  • Murat, F. , Rocher, R. (2003). On the methods used for international assessments of educational competences [La méthodologie des évaluations internationales]. Paris: OECD First citation in articleGoogle Scholar

  • OECD (1999). Measuring student knowledge and skills. A new framework for assessment . Paris: OECD. [In deutscher Sprache: Deutsches PISA-Konsortium. (2000). Schülerleistungen im internationalen Vergleich: Eine neue Rahmenkonzeption für die Erfassung von Wissen und Fähigkeiten. Berlin: Max-Planck-Institut für Bildungsforschung.] First citation in articleCrossrefGoogle Scholar

  • OECD (2001). Knowledge and skills for life - First results from PISA 2000 . Paris: OECD. [In deutscher Sprache: OECD (2001). Lernen für das Leben: Erste Ergebnisse der internationalen Schulleistungsstudie PISA 2000. Paris: OECD] First citation in articleCrossrefGoogle Scholar

  • Oerter, R. (1999). Theorien der Lesesozialisation - Zur Ontogenese des Lesens. In N. Groeben (Hrsg.), Internationales Archiv für Sozialgeschichte der deutschen Literatur. 10. Sonderheft: Lesesozialisation in der Mediengesellschaft (S. 27-55). Tübingen: Niemeyer First citation in articleCrossrefGoogle Scholar

  • Olson, D.R. (1980). Social aspects of meaning in oral and written language. In D.R. Olson (Ed.), The social foundations of language and thought. Essays in honor of Jerome S. Bruner (pp. 90-108). New York: Norton & Company First citation in articleGoogle Scholar

  • Olson, D.R. , Pelletier, J. (2003). Schooling and the development of literacy. In J. Valsiner & K. Conolly (Eds.), Handbook of developmental psychology (pp. 358-369). London: Sage First citation in articleGoogle Scholar

  • Rost, J. (2003). Lehrbuch Testtheorie, Testkonstruktion (2. Aufl.). Bern: Huber First citation in articleGoogle Scholar

  • Roussos, L.A. , Stout, W. (1996). A multidimensionality-based DIF analysis paradigm. Applied Psychological Measurement, 20, 355– 371 First citation in articleCrossrefGoogle Scholar

  • Schnotz, W. (1994). Aufbau von Wissensstrukturen: Untersuchungen zur Kohärenzbildung bei Wissenserwerb mit Texten (Bd. 20). Weinheim: Beltz First citation in articleGoogle Scholar

  • Sireci, S.G. (1997). Problems and issues in linking assessments across languages. Educational Measurement: Issues and Practice, 16, 12– 19 First citation in articleCrossrefGoogle Scholar

  • Stanat, P. , Lüdtke, O. in Vorb. Internationale Schulleistungsvergleiche. In Enzyklopädie der Psychologie: Kulturvergleichende PsychologieGöttingen: Hogrefe First citation in articleGoogle Scholar

  • van de Vijver, F.J.R. , Hambleton, R.K. (1996). Translating tests: Some practical guidelines. European Psychologist, 1, 89– 99 First citation in articleLinkGoogle Scholar

  • van de Vijver, F.J.R. , Poortinga, Y.H. (1997). Towards an integrated analysis of bias in cross-cultural assessment. European Journal of Psychological Assessment, 13, 29– 37 First citation in articleLinkGoogle Scholar

  • Wu, M. , Adams, R. , Wilson, M. (1998). ACER ConQuest: Generalised item response modeling software manual . Camberwell: ACER Press First citation in articleGoogle Scholar

  • Zwaan, R.A. (1994). Effect of genre expectation on text comprehension. Journal of Experimental Psychology: Learning, Memory and Cognition, 20, 920– 933 First citation in articleCrossrefGoogle Scholar