Abstract
Zusammenfassung. Kompetenzkonstrukte in der empirischen Bildungsforschung werden in der Regel auf kontinuierlichen Skalen abgebildet. Bei der Verwendung von Messmodellen der Item-Response-Theorie (IRT) kann auf Basis der gemeinsamen Metrik für individuelle Kompetenzausprägungen und Itemschwierigkeiten eine kriteriumsorientierte Testwertbeschreibung vorgenommen werden. Da die gemessene Kompetenz hierbei bezogen auf Itemschwierigkeiten beschrieben wird, ist es von großem Interesse, warum bestimmte Items empirisch schwieriger sind als andere. Der vorliegende Beitrag stellt zunächst den generellen Nutzen der Vorhersage von Itemschwierigkeiten dar. Dieser besteht (1) in der Prüfung von Hypothesen über die gemessene Kompetenz im Sinne einer Konstruktvalidierung, (2) in der Fundierung einer kriteriumsorientierten Skaleninterpretation und (3) in der Steuerung und Optimierung der Itemkonstruktion. Die IRT-basierte Vorhersage von Itemschwierigkeiten wird auf Basis von Daten aus dem DFG-Schwerpunktprogramm-Projekt zur Kompetenzmodellierung in Englisch als Fremdsprache illustriert (N = 9409). Für den Bereich Leseverstehen in Englisch als Fremdsprache kann gezeigt werden, dass sowohl die sprachlichen Anforderungen des Textes als auch die Anforderungen hinsichtlich der Informationsverarbeitung für das Konstrukt bedeutsam sind.
Abstract. In educational research, competencies are typically modeled as continuous dimensions. Using item response theory (IRT), criterion-referenced descriptions of the scores on these dimensions can be derived from a joint scale for competency distribution and item difficulties. Since scale descriptions are based on item difficulties, the factors which systematically affect item difficulties are of major interest. This paper describes the general benefits of item difficulty modeling, namely (1) construct validation by testing hypotheses about the measured construct, (2) deriving model-based criterion referenced scale descriptions, and (3) gaining information for future item development. An illustration of IRT-based item difficulty modeling is given based on the test data from a study on reading comprehension in English as foreign a language (EFL) (N = 9.409). The findings suggest that for reading comprehension in EFL both the linguistic demands of the texts as well as the type of required information processing are relevant item characteristics.
Literatur
2005). Multivariate statistical modeling with survey data. Proceedings of the Federal Committee on Statistical Methodology (FCSM) Research Conference.
(1992). Interpreting scales through scale anchoring. Journal of Educational Statistics, 17, 191–204.
(2007). Sprachliche Kompetenzen – Konzepte und Messung. Weinheim: Beltz.
. (2004). The concept of validity. Psychological Review, 111, 1061–1071.
(1988). Statistical power analysis for the behavioral sciences (2nd ed.). Mahwah, NJ: Erlbaum.
(1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281–302.
(1983). Construct validity: Construct representation versus nomothetic span. Psychological Bulletin, 93, 179–197.
(1998). A cognitive design system approach for generating valid tests: Approaches to abstract reasoning. Psychological Methods, 3, 300–396.
(1973). The linear logistic model as an instrument in educational research. Acta Psychologica, 37, 359–374.
(1993). The prediction of TOEFL reading item difficulty: implications for construct validity. Language Testing, 10, 133–170.
(2012). Testwertinterpretation. In , Test- und Fragebogenkonstruktion (2. aktualisierte und überarbeitete Auflage, S. 173–201). Berlin: Springer.
(2007). Skalierung und Definition von Kompetenzniveaus. In , Sprachliche Kompetenzen. Konzepte und Messung. DESI-Ergebnisse Band 1 (S. 83–99). Weinheim: Beltz.
(2008). Psychometric models for the assessment of competencies. In , Assessment of competencies in educational contexts (pp. 69–90). Göttingen: Hogrefe & Huber.
(in press ). An application of explanatory item response modeling for model-based proficiency scaling. Educational and Psychological Measurement.2009, 7). Explanatory models for item difficulties in reading and listening comprehension. Paper presented at the 16th Annual Meeting of the Psychometric Society, Cambridge.
(2011). Kriteriumsorientierte Diagnostik. In , Enzyklopädie der Psychologie, Themenbereich B Methodologie und Methoden, Serie II Psychologische Diagnostik, Band 2 Methoden der psychologischen Diagnostik (S. 281–324). Göttingen: Hogrefe.
(2010). Determining cognitive and linguistic demands of reading test items in English as a foreign language. Paper presented at the annual meeting of the American Educational Research Association (AERA), Denver, CO.
(2009). Automatic item generation of probability word problems. Studies in Educational Evaluation, 35, 71–76.
(2003). A hierarchical IRT model for criterion-referenced measurement. Journal of Educational and Behavioral Statistics, 25, 285–306.
(2010). PISA 2009. Bilanz nach einem Jahrzehnt. Münster: Waxmann.
. (2008). Deutsch Englisch Schülerleistungen International (DESI). Leistungsverteilungen und Bedingungsfaktoren. Weinheim: Beltz.
. (2008). The concept of competence in educational contexts. In , Assessment of competencies in educational contexts (pp. 60–72). Göttingen: Hogrefe & Huber.
(2007). Mplus statistical software. Los Angeles, CA: Muthén & Muthén.
(2010). Lesekompetenz von PISA 2000 bis PISA 2009. In , PISA 2009. Bilanz nach einem Jahrzehnt (S. 24–71). Münster: Waxmann.
(2007). Leseverstehen. In , Sprachliche Kompetenzen. Konzepte und Messung. DESI-Ergebnisse Band 1 (S. 197–211). Weinheim: Beltz.
(2009). PISA 2006 technical report. Paris: OECD.
. (2012). Interpretation von Testwerten in der IRT. In , Test- und Fragebogenkonstruktion (2. aktualisierte und überarbeitete Auflage, S. 253–264). Berlin: Springer.
(2010). Diagnostic measurement: Theory, methods, and applications. New York, NY: Guilford Press.
(2008). Developing standards-based assessment tasks for English as a first foreign language – Context, processes and outcomes in Germany. Münster: Waxmann.
(1980). Multicomponent latent trait models for ability tests. Psychometrika, 45, 479–494.
(2005). Constructing measures. An item response modelling approach. Mahwah, NJ: Erlbaum.
(2004). Descriptive and explanatory item response models. In , Explanatory item response models: A generalized linear and nonlinear approach (pp. 43–74). New York, NY: Springer.
(