Skip to main content
Published Online:https://doi.org/10.1026/0012-1924/a000063

Zusammenfassung. Im vorliegenden Beitrag wird auf die Konstruktvalidität von Aufgaben zur Erfassung englischsprachigen Lese- und Hörverstehens eingegangen. Ihre empirischen Aufgabenschwierigkeiten werden hierzu anhand von Merkmalen vorhergesagt, die kognitive Lösungsprozesse für die oder inhaltliche Anforderungen von den untersuchten Aufgaben kennzeichnen und ursprünglich aus dem Dutch Grid (Alderson et al., 2006) Merkmalskatalog stammen. Als Aufgabenstichprobe dienen die am Institut zur Qualitätsentwicklung im Bildungswesen erstellten Aufgabenmengen zur Erfassung der Bildungsstandards in der ersten Fremdsprache Englisch am Ende der Sekundarstufe I (N = 338 bzw. 289 Testitems zum Lese- bzw. Hörverstehen). Die im Raschmodell gewonnenen Aufgabenschwierigkeiten werden mehrebenenanalytisch analysiert, um neben Effekten von Itemmerkmalen Effekte der eingesetzten Stimulustexte auf Aufgabenschwierigkeit abbildbar zu machen. Im Leseverstehen zeigt sich dabei ein insgesamt nur geringer Zusammenhang zwischen Dutch Grid Merkmalen und Aufgabenschwierigkeiten. Besser gelingt die Erklärung von Aufgabenschwierigkeiten im Hörverstehen, hierbei zeigen sich auch signifikante Effekte „konstruktferner” Aufgabenmerkmale (z.B. Antwortformate). Implikationen für eine systematische Steuerung zukünftiger Aufgabenentwicklung werden diskutiert.


Guiding future item development via predicting English as a foreign language item difficulties by Dutch Grid characteristics

Abstract. The present study focuses on the construct validity of English as a foreign language reading and listening comprehension items. Corresponding items (N = 338 reading comprehension items, N = 289 listening comprehension items) were developed at the Institute for Educational Quality Improvement. One parameter logistic model item difficulties are predicted by item characteristics referring to cognitive demands, as well as content features of items, derived from the Dutch Grid catalogue (Alderson et al., 2006). A multilevel framework is used to identify the simultaneous impact of stimuli (i.e., the text heard or read) and item characteristics on empirical difficulties. Results show weak effects of Dutch Grid characteristics on reading comprehension item difficulties. More variance is explained for listening comprehension item difficulties, partially due to construct-irrelevant item features (i.e., answer formats). Implications for construct validity and systematic recommendations for future item development processes are discussed.

Literatur

  • Alderson, J. C. , Figueras, N. , Kuijper, H. , Nold, G. , Takala, S. & Tardieu, C. (2006). Analysing tests of reading and listening in relation to the Common European Framework of Reference: The experience of the Dutch CEFR construct project. Language Assessment Quarterly, 3, 3–30. First citation in articleCrossrefGoogle Scholar

  • Birch, B. M. (2007). English L2 reading. Getting to the bottom. Mahwah, NJ: Lawrence Erlbaum Associates. First citation in articleGoogle Scholar

  • Buck, G. (2001). Assessing listening. New York: Cambridge University Press. First citation in articleCrossrefGoogle Scholar

  • Cohen, J. , Cohen, P. , West, S. G. , Aiken, L. S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences. Mahwah, NJ: Lawrence Erlbaum Associates. First citation in articleGoogle Scholar

  • De Leeuw, J. , Meijer, E. (2007). Handbook of Multilevel Analysis. Berlin: Springer. First citation in articleGoogle Scholar

  • Embretson, S. , Gorin, J. (2001). Improving construct validity with cognitive psychology principles. Journal of Educational Measurement, 38, 343–368. First citation in articleCrossrefGoogle Scholar

  • Embretson, S. E. (1983). Construct validity: Construct representation versus nomothetic span. Psychological Bulletin, 93, 179–197. First citation in articleCrossrefGoogle Scholar

  • Embretson, S. E. (1998). A cognitive design system approach for generating valid tests: Approaches to abstract reasoning. Psychological Methods, 3, 300–396. First citation in articleCrossrefGoogle Scholar

  • Europarat (2001). Gemeinsamer Europäischer Referenzrahmen für Sprachen: Lernen, lehren, beurteilen. Berlin: Langenscheidt. First citation in articleGoogle Scholar

  • Freedle, R. , Kostin, I. (1993). The prediction of TOEFL reading item difficulty: Implications for construct validity. Language Testing, 10, 133–70. First citation in articleCrossrefGoogle Scholar

  • Graesser, A. C. , Millis, K. K. , Zwaan, R. A. (1997). Discourse comprehension. Annual Review of Psychology, 48, 163–189. First citation in articleCrossrefGoogle Scholar

  • Harsch, C. , Nöth, D. (2007). Was können die fremdsprachlichen Bildungsstandards der KMK leisten? Praxis Fremdsprachenunterricht, 4, 2–6. First citation in articleGoogle Scholar

  • Harsch, C. (2007). Der Gemeinsame Europäische Referenzrahmen für Sprachen. Leistung und Grenzen. Saarbrücken: VDM Verlag Dr. Müller. First citation in articleGoogle Scholar

  • Hartig. J. (2007). Skalierung und Kompetenzniveaus. In B. Beck, E. Klieme (Hrsg.), Sprachliche Kompetenzen. Konzepte und Messung. DESI Ergebnisse Band 1. Weinheim: Beltz. First citation in articleGoogle Scholar

  • Hartig. J. , Frey, A. (in Druck). Konstruktvalidierung und Skalenbeschreibung in der Kompetenzdiagnostik durch die Vorhersage von Aufgabenschwierigkeiten. Psychologische Rundschau. First citation in articleGoogle Scholar

  • Imhof, M. (2003). Zuhören – Psychologische Aspekte auditiver Informationsverarbeitung. Göttingen: Vandenhoeck & Ruprecht. First citation in articleGoogle Scholar

  • Kintsch, W. (1998). Comprehension: A paradigm for cognition. New York: Cambridge University Press. First citation in articleGoogle Scholar

  • Klieme, E. , Hartig, J. , Rauch, D. (2008). The concept of competence in educational contexts. In J. Hartig, E. Klieme, D. Leutner (Eds.), Assessment of competencies in educational contexts (pp. 60–72). Cambridge M.A.: Hogrefe/Publishing. First citation in articleGoogle Scholar

  • KMK (2004). Bildungsstandards für die erste Fremdsprache (Englisch/Französisch) für den Mittleren Schulabschluss: Beschluss vom 04. 12. 2003. München: Luchterhand. First citation in articleGoogle Scholar

  • Koda, K. (2005). Insights in second language reading: A cross linguistic approach. Cambridge: Cambridge University Press. First citation in articleCrossrefGoogle Scholar

  • Köller, O. , Knigge, M. , Tesch, B. (Hrsg.). (2010). Sprachliche Kompetenzen im Ländervergleich. Überprüfung der Erreichung der Bildungsstandards für den Mittleren Schulabschluss für Deutsch und die erste Fremdsprache in der neunten Jahrgangsstufe. Münster: Waxmann. First citation in articleGoogle Scholar

  • Kürschner, C. , Schnotz, W. (2008). Verhältnis gesprochener und geschriebener Sprache bei der Konstruktion mentaler Repräsentationen. Psychologische Rundschau, 59, 139–149. First citation in articleLinkGoogle Scholar

  • Leucht, M. (2010). Diagnostik rezeptiver Kompetenzen in der ersten Fremdsprache Englisch auf Basis des Gemeinsamen Europäischen Referenzrahmens für Sprachen. Veröffentlichte Dissertation: Freie Universität Berlin. First citation in articleGoogle Scholar

  • Leucht, M. , Retelsdorf, J. , Möller, J. , Köller, O. (2010). Zur Dimensionalität rezeptiver englischsprachiger Kompetenzen. Zeitschrift für Pädagogische Psychologie, 24, 123–138. First citation in articleLinkGoogle Scholar

  • Nold, G. , Rossa, H. (2007a). Leseverstehen. In B. Beck, E. Klieme (Hrsg.), Sprachliche Kompetenzen. Konzepte und Messung. DESI Ergebnisse Band 1. Weinheim: Beltz. First citation in articleGoogle Scholar

  • Nold, G. , Rossa, H. (2007b). Hörverstehen. In B. Beck, E. Klieme (Hrsg.), Sprachliche Kompetenzen. Konzepte und Messung. DESI Ergebnisse Band 1. Weinheim: Beltz. First citation in articleGoogle Scholar

  • Robitzsch, A. (2009). Methodische Herausforderungen bei der Kalibrierung von Leistungstests. In D. Granzer, O. Köller, A. Bremerich-Vos et al. (Hrsg.), Bildungsstandards Deutsch und Mathematik. Leistungsmessung in der Grundschule (S. 42–107). Weinheim: Beltz. First citation in articleGoogle Scholar

  • Rupp, A. A. , Vock, M. , Harsch, C. , Köller, O. (2008). Developing standards-based assessment tasks for English as a first foreign language – Context, processes, and outcomes in Germany. Münster: Waxmann. First citation in articleGoogle Scholar

  • Schnotz, W. , Dutke, S. (2004). Kognitionspsychologische Grundlagen der Lesekompetenz: Mehrebenenverarbeitung anhand multipler Informationsquellen. In U. Schiefele, C. Artelt, W. Schneider, P. Stanat (Hrsg.), Struktur, Entwicklung und Förderung von Lesekompetenz. Wiesbaden: Verlag für Sozialwissenschaften. First citation in articleCrossrefGoogle Scholar

  • Snijders, T. A. B. , Bosker, R. J. (1994). Modeled variance in two-level models. Sociological Methods and Research, 22, 342–363. First citation in articleCrossrefGoogle Scholar

  • Wu, M. L. , Adams, R. J. , Wilson, M. , Haldane, S. A. (2007). ACER ConQuest. Version 2.0. Generalised Item Response Software. Camberwell: ACER Press. First citation in articleGoogle Scholar