Zur Vergleichbarkeit von Schülerleistungen bei Leseaufgaben unterschiedlichen sprachlichen Ursprungs
Comparability of Students' Reading Literacy Performance Measured with Items Originating from Different Language Backgrounds
Abstract
Zusammenfassung: In internationalen Schulleistungsstudien stellt ein differenzieller Vorteil bei Leseaufgaben des eigenen Sprach- bzw. Kulturraums eine potenzielle Gefährdung der fairness des Tests dar. Durch die Analyse von IRT-basierten differenziellen Itemfunktionen (DIF) der PISA-Lesetestaufgaben wird geprüft, ob Schüler gleicher Fähigkeit, aber unterschiedlicher Sprachgruppen, systematische Vorteile bei Aufgaben haben, die ursprünglich aus ihren Ländern (Sprachgruppen) stammen. Besonders bei französischen und griechischen und z. T. auch bei deutschen Aufgaben lassen sich entsprechende Effekte nachweisen (d = .23). Aufgrund der geringen Anzahl wirkt sich dieser Vorteil jedoch kaum auf das mittlere Abschneiden der Länder aus. Auch die Vorteile englischsprachiger Schüler durch die Dominanz englischsprachiger Items im Lesetest lässt sich auf der Länderebene nicht zufallskritisch absichern. Die Ergebnisse machen insgesamt deutlich, dass in international vergleichenden Studien die sprachliche Herkunft der Aufgaben eine systematische Varianzquelle darstellt. Dem hieraus potenziell entstehenden cultural bias des Tests kann dabei - wie in PISA - durch eine möglichst multi-kulturelle Zusammensetzung von Testaufgaben begegnet werden.
Summary: The fact that students are at an advantage when working on reading literacy items from their own cultural and linguistic background in an international large scale assessment can be seen as a threat to the fairness of a test. An IRT-based analysis of differential item functioning (DIF) in the PISA reading literacy items was performed to investigate whether students of equal ability but from different language groups have a systematic advantage when processing items originating from their own cultural and linguistic background. Such effects were discerned especially for French and Greek, but also for German items (d = 23). Because few items from these countries were contained in the PISA assessment, this advantage does not significantly affect the mean performance of these countries, as a re-analysis of student performance on a test without the biased items shows. Furthermore, the fact that most items stem from the Anglo-American background does not mean that students in the five English-speaking countries perform significantly better. The results presented confirm that the language source of the items in international student surveys can be regarded as a systematic source of variance. The potentially resulting cultural bias of the test might be addressed - as done in PISA 2000 - by administering a balanced, multi-cultural mix of test items.
References
2002). PISA 2000 technical report . Paris: OECD
(2003). Revising translated differential item functioning items as a tool for improving cross-lingual assessment. Applied Measurement in Education, 16, 55– 73
(1999). Identifying the causes of DIF in translated verbal items. Journal of Educational Measurement, 36, 185– 198
(1988). Equating the scores of the Prueba de Aptitud Academica and the Scholastic Aptitude Test (College board report No. 88-2) . New York: College Entrance Examination Board
(2004). Der Umgang mit literarischen Texten als Teilkompetenz im Lesen. Dimensionsanalysen und Ländervergleiche. In U. Schiefele, C. Artelt, W. Schneider & P. Stanat (Hrsg.), Struktur, Entwicklung und Förderung von Lesekompetenz: Vertiefende Analysen im Rahmen von PISA-2000 (S. 169-196). Wiesbaden: VS Verlag für Sozialwissenschaften
(2001). Lesekompetenz: Testkonzeption und Ergebnisse. In J. Baumert, E. Klieme, M. Neubrand, M. Prenzel, U. Schiefele, W. Schneider, P. Stanat, K.-J. Tillmann & M. Weiß (Hrsg.), PISA 2000. Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich (S. 69-137). Opladen: Leske + Budrich
(Hrsg. (2003). PISA 2000: Ein differenzierter Blick auf die Länder der Bundesrepublik Deutschland im Vergleich . Opladen: Leske + Budrich
Hrsg. (2001). PISA 2000: Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich . Opladen: Leske + Budrich
1998). Jenseits von Gesamttest- und Untertestwerten: Analyse differentieller Itemfunktionen am Beispiel des mathematischen Grundbildungstests der Dritten Internationalen Mathematik- und Naturwissenschaftsstudie der IEA (TIMSS). In H.-J. Herber & F. Hofmann (Hrsg.), Schulpädagogik und Lehrerbildung. Festschrift zum 60. Geburtstag von Josef Thonhauser (S. 301-324). Innsbruck: Studien Verlag
(2002). Reflections in a critical eye: On the pitfalls of international assessment. Assessment in Education, 9, 387– 399
(2003). Culturally balanced assessment of reading [c-bar] . Retrieved 2003, from cisad.adc.education.fr/reva/pdf/cbarfinalreport.pdf
(1995). Analysis of differential item functioning in translated assessment instruments. Applied Psychological Measurement, 19, 309– 321
(1994). Methods for identifying biased test items (Vol. 4). London: Sage
(1984). Scrutinizing psychological tests: Measurement equivalence and equivalent relations with external variables are the central issues. Psychological Bulletin, 95, 134– 135
(1989). Differential item functioning: Implications for test translations. Journal of Applied Psychology, 74, 912– 921
(1992). Identification of unique cultural responses patterns by means of item response theory. Journal of Applied Psychology, 77, 177– 184
(2001). Identifying sources of differential item and bundle functioning on translated achievement tests: A confirmatory analysis. Journal of Educational Measurement, 38, 164– 187
(2003). The best of both worlds: Factor analysis of dichotomous data using item response theory and structural equation modeling. Structural Equation Modeling, 10, 544– 565
(1994). Constructing inferences during narrative text comprehension. Psychological Review, 101, 371– 395
(1994). Guidelines for adapting educational and psychological tests: A progress report. European Journal of Psychological Assessment, 10, 229– 244
(1993). Differential item functioning . Hillsdale, NJ: Erlbaum
(1998). Comprehension: A paradigm for cognition . Cambridge: Cambridge University Press
(2003). Reading for change. Performance and engagement across countries. Results from PISA 2000 . Paris: OECD
(1995). Test equating. Methods and practices . New York: Springer
(2003). On the methods used for international assessments of educational competences [La méthodologie des évaluations internationales]. Paris: OECD
(1999). Measuring student knowledge and skills. A new framework for assessment . Paris: OECD. [In deutscher Sprache: Deutsches PISA-Konsortium. (2000). Schülerleistungen im internationalen Vergleich: Eine neue Rahmenkonzeption für die Erfassung von Wissen und Fähigkeiten. Berlin: Max-Planck-Institut für Bildungsforschung.]
(2001). Knowledge and skills for life - First results from PISA 2000 . Paris: OECD. [In deutscher Sprache: OECD (2001). Lernen für das Leben: Erste Ergebnisse der internationalen Schulleistungsstudie PISA 2000. Paris: OECD]
(1999). Theorien der Lesesozialisation - Zur Ontogenese des Lesens. In N. Groeben (Hrsg.), Internationales Archiv für Sozialgeschichte der deutschen Literatur. 10. Sonderheft: Lesesozialisation in der Mediengesellschaft (S. 27-55). Tübingen: Niemeyer
(1980). Social aspects of meaning in oral and written language. In D.R. Olson (Ed.), The social foundations of language and thought. Essays in honor of Jerome S. Bruner (pp. 90-108). New York: Norton & Company
(2003). Schooling and the development of literacy. In J. Valsiner & K. Conolly (Eds.), Handbook of developmental psychology (pp. 358-369). London: Sage
(2003). Lehrbuch Testtheorie, Testkonstruktion (2. Aufl.). Bern: Huber
(1996). A multidimensionality-based DIF analysis paradigm. Applied Psychological Measurement, 20, 355– 371
(1994). Aufbau von Wissensstrukturen: Untersuchungen zur Kohärenzbildung bei Wissenserwerb mit Texten (Bd. 20). Weinheim: Beltz
(1997). Problems and issues in linking assessments across languages. Educational Measurement: Issues and Practice, 16, 12– 19
(Internationale Schulleistungsvergleiche. In Enzyklopädie der Psychologie: Kulturvergleichende PsychologieGöttingen: Hogrefe
in Vorb.1996). Translating tests: Some practical guidelines. European Psychologist, 1, 89– 99
(1997). Towards an integrated analysis of bias in cross-cultural assessment. European Journal of Psychological Assessment, 13, 29– 37
(1998). ACER ConQuest: Generalised item response modeling software manual . Camberwell: ACER Press
(1994). Effect of genre expectation on text comprehension. Journal of Experimental Psychology: Learning, Memory and Cognition, 20, 920– 933
(