Skip to main content
Published Online:https://doi.org/10.1026/0033-3042/a000109

Zusammenfassung. Kompetenzkonstrukte in der empirischen Bildungsforschung werden in der Regel auf kontinuierlichen Skalen abgebildet. Bei der Verwendung von Messmodellen der Item-Response-Theorie (IRT) kann auf Basis der gemeinsamen Metrik für individuelle Kompetenzausprägungen und Itemschwierigkeiten eine kriteriumsorientierte Testwertbeschreibung vorgenommen werden. Da die gemessene Kompetenz hierbei bezogen auf Itemschwierigkeiten beschrieben wird, ist es von großem Interesse, warum bestimmte Items empirisch schwieriger sind als andere. Der vorliegende Beitrag stellt zunächst den generellen Nutzen der Vorhersage von Itemschwierigkeiten dar. Dieser besteht (1) in der Prüfung von Hypothesen über die gemessene Kompetenz im Sinne einer Konstruktvalidierung, (2) in der Fundierung einer kriteriumsorientierten Skaleninterpretation und (3) in der Steuerung und Optimierung der Itemkonstruktion. Die IRT-basierte Vorhersage von Itemschwierigkeiten wird auf Basis von Daten aus dem DFG-Schwerpunktprogramm-Projekt zur Kompetenzmodellierung in Englisch als Fremdsprache illustriert (N = 9409). Für den Bereich Leseverstehen in Englisch als Fremdsprache kann gezeigt werden, dass sowohl die sprachlichen Anforderungen des Textes als auch die Anforderungen hinsichtlich der Informationsverarbeitung für das Konstrukt bedeutsam sind.


Using the prediction of item difficulties for construct validation and model-based proficiency scaling

Abstract. In educational research, competencies are typically modeled as continuous dimensions. Using item response theory (IRT), criterion-referenced descriptions of the scores on these dimensions can be derived from a joint scale for competency distribution and item difficulties. Since scale descriptions are based on item difficulties, the factors which systematically affect item difficulties are of major interest. This paper describes the general benefits of item difficulty modeling, namely (1) construct validation by testing hypotheses about the measured construct, (2) deriving model-based criterion referenced scale descriptions, and (3) gaining information for future item development. An illustration of IRT-based item difficulty modeling is given based on the test data from a study on reading comprehension in English as foreign a language (EFL) (N = 9.409). The findings suggest that for reading comprehension in EFL both the linguistic demands of the texts as well as the type of required information processing are relevant item characteristics.

Literatur

  • Asparouhov, T. , Muthén, B. (2005). Multivariate statistical modeling with survey data. Proceedings of the Federal Committee on Statistical Methodology (FCSM) Research Conference. First citation in articleGoogle Scholar

  • Beaton, E. , Allen, N. (1992). Interpreting scales through scale anchoring. Journal of Educational Statistics, 17, 191–204. First citation in articleGoogle Scholar

  • Beck, B. , Klieme, E. (Hrsg.). (2007). Sprachliche Kompetenzen – Konzepte und Messung. Weinheim: Beltz. First citation in articleGoogle Scholar

  • Borsboom, D. , Mellenbergh, G. J. , van Heerden, J. (2004). The concept of validity. Psychological Review, 111, 1061–1071. First citation in articleCrossrefGoogle Scholar

  • Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Mahwah, NJ: Erlbaum. First citation in articleGoogle Scholar

  • Cronbach, L. J. , Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281–302. First citation in articleCrossrefGoogle Scholar

  • Embretson, S. E. (1983). Construct validity: Construct representation versus nomothetic span. Psychological Bulletin, 93, 179–197. First citation in articleCrossrefGoogle Scholar

  • Embretson, S. E. (1998). A cognitive design system approach for generating valid tests: Approaches to abstract reasoning. Psychological Methods, 3, 300–396. First citation in articleCrossrefGoogle Scholar

  • Fischer, G. H. (1973). The linear logistic model as an instrument in educational research. Acta Psychologica, 37, 359–374. First citation in articleCrossrefGoogle Scholar

  • Freedle, R. , Kostin, I. (1993). The prediction of TOEFL reading item difficulty: implications for construct validity. Language Testing, 10, 133–170. First citation in articleCrossrefGoogle Scholar

  • Goldhammer, F. , Hartig, J. (2012). Testwertinterpretation. In H. Moosbrugger, A. Kelava (Hrsg.), Test- und Fragebogenkonstruktion (2. aktualisierte und überarbeitete Auflage, S. 173–201). Berlin: Springer. First citation in articleCrossrefGoogle Scholar

  • Hartig, J. (2007). Skalierung und Definition von Kompetenzniveaus. In B. Beck, E. Klieme (Hrsg.), Sprachliche Kompetenzen. Konzepte und Messung. DESI-Ergebnisse Band 1 (S. 83–99). Weinheim: Beltz. First citation in articleGoogle Scholar

  • Hartig, J. (2008). Psychometric models for the assessment of competencies. In J. Hartig, E. Klieme, D. Leutner (Eds.), Assessment of competencies in educational contexts (pp. 69–90). Göttingen: Hogrefe & Huber. First citation in articleGoogle Scholar

  • Hartig, J. , Frey, A. , Nold, G. , Klieme, E. (in press). An application of explanatory item response modeling for model-based proficiency scaling. Educational and Psychological Measurement. First citation in articleGoogle Scholar

  • Hartig, J. , Harsch, C. , Höhler, J. (2009, 7). Explanatory models for item difficulties in reading and listening comprehension. Paper presented at the 16th Annual Meeting of the Psychometric Society, Cambridge. First citation in articleGoogle Scholar

  • Herzberg, P. Y. , Frey, A. (2011). Kriteriumsorientierte Diagnostik. In L. Hornke, M. Amelang, M. Kersting (Hrsg.), Enzyklopädie der Psychologie, Themenbereich B Methodologie und Methoden, Serie II Psychologische Diagnostik, Band 2 Methoden der psychologischen Diagnostik (S. 281–324). Göttingen: Hogrefe. First citation in articleGoogle Scholar

  • Höhler, J. , Hartig, J. (2010). Determining cognitive and linguistic demands of reading test items in English as a foreign language. Paper presented at the annual meeting of the American Educational Research Association (AERA), Denver, CO. First citation in articleGoogle Scholar

  • Holling, H. , Bertling, J. P. , Zeuch, N. (2009). Automatic item generation of probability word problems. Studies in Educational Evaluation, 35, 71–76. First citation in articleCrossrefGoogle Scholar

  • Janssen, R. , Tuerlinckx, F. , Meulders, M. & De Boeck, P. (2003). A hierarchical IRT model for criterion-referenced measurement. Journal of Educational and Behavioral Statistics, 25, 285–306. First citation in articleCrossrefGoogle Scholar

  • Klieme, E. , Artelt, C. , Hartig, J. , Jude, N. , Köller, O. , Prenzel, M. et al. (Hrsg.). (2010). PISA 2009. Bilanz nach einem Jahrzehnt. Münster: Waxmann. First citation in articleGoogle Scholar

  • Klieme, E. , Eichler, W. , Helmke, A. , Lehmann, R. H. , Nold, G. , Rolff, H.-G. et al. (Hrsg.). (2008). Deutsch Englisch Schülerleistungen International (DESI). Leistungsverteilungen und Bedingungsfaktoren. Weinheim: Beltz. First citation in articleGoogle Scholar

  • Klieme, E. , Hartig, J. , Rauch, D. (2008). The concept of competence in educational contexts. In J. Hartig, E. Klieme, D. Leutner (Eds.), Assessment of competencies in educational contexts (pp. 60–72). Göttingen: Hogrefe & Huber. First citation in articleGoogle Scholar

  • Muthén, L. K. , Muthén, B. O. (2007). Mplus statistical software. Los Angeles, CA: Muthén & Muthén. First citation in articleGoogle Scholar

  • Naumann, J. , Artelt, C. , Schneider, W. & Stanat, P. (2010). Lesekompetenz von PISA 2000 bis PISA 2009. In E. Klieme, C. Artelt, J. Hartig, N. Jude, O. Köller, M. Prenzel, W. Schneider, P. Stanat (Hrsg.), PISA 2009. Bilanz nach einem Jahrzehnt (S. 24–71). Münster: Waxmann. First citation in articleGoogle Scholar

  • Nold, G. , Rossa, H. (2007). Leseverstehen. In B. Beck, E. Klieme (Hrsg.), Sprachliche Kompetenzen. Konzepte und Messung. DESI-Ergebnisse Band 1 (S. 197–211). Weinheim: Beltz. First citation in articleGoogle Scholar

  • OECD . (2009). PISA 2006 technical report. Paris: OECD. First citation in articleCrossrefGoogle Scholar

  • Rauch, D. , Hartig, J. (2012). Interpretation von Testwerten in der IRT. In H. Moosbrugger, A. Kelava (Hrsg.), Test- und Fragebogenkonstruktion (2. aktualisierte und überarbeitete Auflage, S. 253–264). Berlin: Springer. First citation in articleGoogle Scholar

  • Rupp, A. A. , Templin, J. , Henson, R. A. (2010). Diagnostic measurement: Theory, methods, and applications. New York, NY: Guilford Press. First citation in articleGoogle Scholar

  • Rupp, A. A. , Vock, M. , Harsch, C. , Köller, O. (2008). Developing standards-based assessment tasks for English as a first foreign language – Context, processes and outcomes in Germany. Münster: Waxmann. First citation in articleGoogle Scholar

  • Whitely, S. E. (1980). Multicomponent latent trait models for ability tests. Psychometrika, 45, 479–494. First citation in articleCrossrefGoogle Scholar

  • Wilson, M. (2005). Constructing measures. An item response modelling approach. Mahwah, NJ: Erlbaum. First citation in articleGoogle Scholar

  • Wilson, M. , De Boeck, P. (2004). Descriptive and explanatory item response models. In P. De Boeck, M. Wilson (Eds.), Explanatory item response models: A generalized linear and nonlinear approach (pp. 43–74). New York, NY: Springer. First citation in articleCrossrefGoogle Scholar