Abstract
Zusammenfassung. Im vorliegenden Beitrag wird auf die Konstruktvalidität von Aufgaben zur Erfassung englischsprachigen Lese- und Hörverstehens eingegangen. Ihre empirischen Aufgabenschwierigkeiten werden hierzu anhand von Merkmalen vorhergesagt, die kognitive Lösungsprozesse für die oder inhaltliche Anforderungen von den untersuchten Aufgaben kennzeichnen und ursprünglich aus dem Dutch Grid (Alderson et al., 2006) Merkmalskatalog stammen. Als Aufgabenstichprobe dienen die am Institut zur Qualitätsentwicklung im Bildungswesen erstellten Aufgabenmengen zur Erfassung der Bildungsstandards in der ersten Fremdsprache Englisch am Ende der Sekundarstufe I (N = 338 bzw. 289 Testitems zum Lese- bzw. Hörverstehen). Die im Raschmodell gewonnenen Aufgabenschwierigkeiten werden mehrebenenanalytisch analysiert, um neben Effekten von Itemmerkmalen Effekte der eingesetzten Stimulustexte auf Aufgabenschwierigkeit abbildbar zu machen. Im Leseverstehen zeigt sich dabei ein insgesamt nur geringer Zusammenhang zwischen Dutch Grid Merkmalen und Aufgabenschwierigkeiten. Besser gelingt die Erklärung von Aufgabenschwierigkeiten im Hörverstehen, hierbei zeigen sich auch signifikante Effekte „konstruktferner” Aufgabenmerkmale (z.B. Antwortformate). Implikationen für eine systematische Steuerung zukünftiger Aufgabenentwicklung werden diskutiert.
Abstract. The present study focuses on the construct validity of English as a foreign language reading and listening comprehension items. Corresponding items (N = 338 reading comprehension items, N = 289 listening comprehension items) were developed at the Institute for Educational Quality Improvement. One parameter logistic model item difficulties are predicted by item characteristics referring to cognitive demands, as well as content features of items, derived from the Dutch Grid catalogue (Alderson et al., 2006). A multilevel framework is used to identify the simultaneous impact of stimuli (i.e., the text heard or read) and item characteristics on empirical difficulties. Results show weak effects of Dutch Grid characteristics on reading comprehension item difficulties. More variance is explained for listening comprehension item difficulties, partially due to construct-irrelevant item features (i.e., answer formats). Implications for construct validity and systematic recommendations for future item development processes are discussed.
Literatur
2006). Analysing tests of reading and listening in relation to the Common European Framework of Reference: The experience of the Dutch CEFR construct project. Language Assessment Quarterly, 3, 3–30.
(2007). English L2 reading. Getting to the bottom. Mahwah, NJ: Lawrence Erlbaum Associates.
(2001). Assessing listening. New York: Cambridge University Press.
(2003). Applied multiple regression/correlation analysis for the behavioral sciences. Mahwah, NJ: Lawrence Erlbaum Associates.
(2007). Handbook of Multilevel Analysis. Berlin: Springer.
(2001). Improving construct validity with cognitive psychology principles. Journal of Educational Measurement, 38, 343–368.
(1983). Construct validity: Construct representation versus nomothetic span. Psychological Bulletin, 93, 179–197.
(1998). A cognitive design system approach for generating valid tests: Approaches to abstract reasoning. Psychological Methods, 3, 300–396.
(2001). Gemeinsamer Europäischer Referenzrahmen für Sprachen: Lernen, lehren, beurteilen. Berlin: Langenscheidt.
(1993). The prediction of TOEFL reading item difficulty: Implications for construct validity. Language Testing, 10, 133–70.
(1997). Discourse comprehension. Annual Review of Psychology, 48, 163–189.
(2007). Was können die fremdsprachlichen Bildungsstandards der KMK leisten? Praxis Fremdsprachenunterricht, 4, 2–6.
(2007). Der Gemeinsame Europäische Referenzrahmen für Sprachen. Leistung und Grenzen. Saarbrücken: VDM Verlag Dr. Müller.
(2007). Skalierung und Kompetenzniveaus. In , Sprachliche Kompetenzen. Konzepte und Messung. DESI Ergebnisse Band 1. Weinheim: Beltz.
(in Druck ). Konstruktvalidierung und Skalenbeschreibung in der Kompetenzdiagnostik durch die Vorhersage von Aufgabenschwierigkeiten. Psychologische Rundschau.2003). Zuhören – Psychologische Aspekte auditiver Informationsverarbeitung. Göttingen: Vandenhoeck & Ruprecht.
(1998). Comprehension: A paradigm for cognition. New York: Cambridge University Press.
(2008). The concept of competence in educational contexts. In , Assessment of competencies in educational contexts (pp. 60–72). Cambridge M.A.: Hogrefe/Publishing.
(2004). Bildungsstandards für die erste Fremdsprache (Englisch/Französisch) für den Mittleren Schulabschluss: Beschluss vom 04. 12. 2003. München: Luchterhand.
(2005). Insights in second language reading: A cross linguistic approach. Cambridge: Cambridge University Press.
(2010). Sprachliche Kompetenzen im Ländervergleich. Überprüfung der Erreichung der Bildungsstandards für den Mittleren Schulabschluss für Deutsch und die erste Fremdsprache in der neunten Jahrgangsstufe. Münster: Waxmann.
. (2008). Verhältnis gesprochener und geschriebener Sprache bei der Konstruktion mentaler Repräsentationen. Psychologische Rundschau, 59, 139–149.
(2010). Diagnostik rezeptiver Kompetenzen in der ersten Fremdsprache Englisch auf Basis des Gemeinsamen Europäischen Referenzrahmens für Sprachen. Veröffentlichte Dissertation: Freie Universität Berlin.
(2010). Zur Dimensionalität rezeptiver englischsprachiger Kompetenzen. Zeitschrift für Pädagogische Psychologie, 24, 123–138.
(2007a). Leseverstehen. In , Sprachliche Kompetenzen. Konzepte und Messung. DESI Ergebnisse Band 1. Weinheim: Beltz.
(2007b). Hörverstehen. In , Sprachliche Kompetenzen. Konzepte und Messung. DESI Ergebnisse Band 1. Weinheim: Beltz.
(2009). Methodische Herausforderungen bei der Kalibrierung von Leistungstests. In , Bildungsstandards Deutsch und Mathematik. Leistungsmessung in der Grundschule (S. 42–107). Weinheim: Beltz.
(2008). Developing standards-based assessment tasks for English as a first foreign language – Context, processes, and outcomes in Germany. Münster: Waxmann.
(2004). Kognitionspsychologische Grundlagen der Lesekompetenz: Mehrebenenverarbeitung anhand multipler Informationsquellen. In , Struktur, Entwicklung und Förderung von Lesekompetenz. Wiesbaden: Verlag für Sozialwissenschaften.
(1994). Modeled variance in two-level models. Sociological Methods and Research, 22, 342–363.
(2007). ACER ConQuest. Version 2.0. Generalised Item Response Software. Camberwell: ACER Press.
(