Originalia

Konstruktvalidierung und Skalenbeschreibung in der Kompetenzdiagnostik durch die Vorhersage von Aufgabenschwierigkeiten

and

Published Online:January 19, 2012https://doi.org/10.1026/0033-3042/a000109

Abstract

Zusammenfassung. Kompetenzkonstrukte in der empirischen Bildungsforschung werden in der Regel auf kontinuierlichen Skalen abgebildet. Bei der Verwendung von Messmodellen der Item-Response-Theorie (IRT) kann auf Basis der gemeinsamen Metrik für individuelle Kompetenzausprägungen und Itemschwierigkeiten eine kriteriumsorientierte Testwertbeschreibung vorgenommen werden. Da die gemessene Kompetenz hierbei bezogen auf Itemschwierigkeiten beschrieben wird, ist es von großem Interesse, warum bestimmte Items empirisch schwieriger sind als andere. Der vorliegende Beitrag stellt zunächst den generellen Nutzen der Vorhersage von Itemschwierigkeiten dar. Dieser besteht (1) in der Prüfung von Hypothesen über die gemessene Kompetenz im Sinne einer Konstruktvalidierung, (2) in der Fundierung einer kriteriumsorientierten Skaleninterpretation und (3) in der Steuerung und Optimierung der Itemkonstruktion. Die IRT-basierte Vorhersage von Itemschwierigkeiten wird auf Basis von Daten aus dem DFG-Schwerpunktprogramm-Projekt zur Kompetenzmodellierung in Englisch als Fremdsprache illustriert (N = 9409). Für den Bereich Leseverstehen in Englisch als Fremdsprache kann gezeigt werden, dass sowohl die sprachlichen Anforderungen des Textes als auch die Anforderungen hinsichtlich der Informationsverarbeitung für das Konstrukt bedeutsam sind.

Using the prediction of item difficulties for construct validation and model-based proficiency scaling

Abstract. In educational research, competencies are typically modeled as continuous dimensions. Using item response theory (IRT), criterion-referenced descriptions of the scores on these dimensions can be derived from a joint scale for competency distribution and item difficulties. Since scale descriptions are based on item difficulties, the factors which systematically affect item difficulties are of major interest. This paper describes the general benefits of item difficulty modeling, namely (1) construct validation by testing hypotheses about the measured construct, (2) deriving model-based criterion referenced scale descriptions, and (3) gaining information for future item development. An illustration of IRT-based item difficulty modeling is given based on the test data from a study on reading comprehension in English as foreign a language (EFL) (N = 9.409). The findings suggest that for reading comprehension in EFL both the linguistic demands of the texts as well as the type of required information processing are relevant item characteristics.

Literatur

Asparouhov, T. , Muthén, B. (2005). Multivariate statistical modeling with survey data. Proceedings of the Federal Committee on Statistical Methodology (FCSM) Research Conference. First citation in article Google Scholar
Beaton, E. , Allen, N. (1992). Interpreting scales through scale anchoring. Journal of Educational Statistics, 17, 191–204. First citation in article Google Scholar
Beck, B. , Klieme, E. (Hrsg.). (2007). Sprachliche Kompetenzen – Konzepte und Messung. Weinheim: Beltz. First citation in article Google Scholar
Borsboom, D. , Mellenbergh, G. J. , van Heerden, J. (2004). The concept of validity. Psychological Review, 111, 1061–1071. First citation in article Crossref, Google Scholar
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Mahwah, NJ: Erlbaum. First citation in article Google Scholar
Cronbach, L. J. , Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281–302. First citation in article Crossref, Google Scholar
Embretson, S. E. (1983). Construct validity: Construct representation versus nomothetic span. Psychological Bulletin, 93, 179–197. First citation in article Crossref, Google Scholar
Embretson, S. E. (1998). A cognitive design system approach for generating valid tests: Approaches to abstract reasoning. Psychological Methods, 3, 300–396. First citation in article Crossref, Google Scholar
Fischer, G. H. (1973). The linear logistic model as an instrument in educational research. Acta Psychologica, 37, 359–374. First citation in article Crossref, Google Scholar
Freedle, R. , Kostin, I. (1993). The prediction of TOEFL reading item difficulty: implications for construct validity. Language Testing, 10, 133–170. First citation in article Crossref, Google Scholar
Goldhammer, F. , Hartig, J. (2012). Testwertinterpretation. In H. Moosbrugger, A. Kelava (Hrsg.), Test- und Fragebogenkonstruktion (2. aktualisierte und überarbeitete Auflage, S. 173–201). Berlin: Springer. First citation in article Crossref, Google Scholar
Hartig, J. (2007). Skalierung und Definition von Kompetenzniveaus. In B. Beck, E. Klieme (Hrsg.), Sprachliche Kompetenzen. Konzepte und Messung. DESI-Ergebnisse Band 1 (S. 83–99). Weinheim: Beltz. First citation in article Google Scholar
Hartig, J. (2008). Psychometric models for the assessment of competencies. In J. Hartig, E. Klieme, D. Leutner (Eds.), Assessment of competencies in educational contexts (pp. 69–90). Göttingen: Hogrefe & Huber. First citation in article Google Scholar
Hartig, J. , Frey, A. , Nold, G. , Klieme, E. (in press). An application of explanatory item response modeling for model-based proficiency scaling. Educational and Psychological Measurement. First citation in article Google Scholar
Hartig, J. , Harsch, C. , Höhler, J. (2009, 7). Explanatory models for item difficulties in reading and listening comprehension. Paper presented at the 16th Annual Meeting of the Psychometric Society, Cambridge. First citation in article Google Scholar
Herzberg, P. Y. , Frey, A. (2011). Kriteriumsorientierte Diagnostik. In L. Hornke, M. Amelang, M. Kersting (Hrsg.), Enzyklopädie der Psychologie, Themenbereich B Methodologie und Methoden, Serie II Psychologische Diagnostik, Band 2 Methoden der psychologischen Diagnostik (S. 281–324). Göttingen: Hogrefe. First citation in article Google Scholar
Höhler, J. , Hartig, J. (2010). Determining cognitive and linguistic demands of reading test items in English as a foreign language. Paper presented at the annual meeting of the American Educational Research Association (AERA), Denver, CO. First citation in article Google Scholar
Holling, H. , Bertling, J. P. , Zeuch, N. (2009). Automatic item generation of probability word problems. Studies in Educational Evaluation, 35, 71–76. First citation in article Crossref, Google Scholar
Janssen, R. , Tuerlinckx, F. , Meulders, M. & De Boeck, P. (2003). A hierarchical IRT model for criterion-referenced measurement. Journal of Educational and Behavioral Statistics, 25, 285–306. First citation in article Crossref, Google Scholar
Klieme, E. , Artelt, C. , Hartig, J. , Jude, N. , Köller, O. , Prenzel, M. et al. (Hrsg.). (2010). PISA 2009. Bilanz nach einem Jahrzehnt. Münster: Waxmann. First citation in article Google Scholar
Klieme, E. , Eichler, W. , Helmke, A. , Lehmann, R. H. , Nold, G. , Rolff, H.-G. et al. (Hrsg.). (2008). Deutsch Englisch Schülerleistungen International (DESI). Leistungsverteilungen und Bedingungsfaktoren. Weinheim: Beltz. First citation in article Google Scholar
Klieme, E. , Hartig, J. , Rauch, D. (2008). The concept of competence in educational contexts. In J. Hartig, E. Klieme, D. Leutner (Eds.), Assessment of competencies in educational contexts (pp. 60–72). Göttingen: Hogrefe & Huber. First citation in article Google Scholar
Muthén, L. K. , Muthén, B. O. (2007). Mplus statistical software. Los Angeles, CA: Muthén & Muthén. First citation in article Google Scholar
Naumann, J. , Artelt, C. , Schneider, W. & Stanat, P. (2010). Lesekompetenz von PISA 2000 bis PISA 2009. In E. Klieme, C. Artelt, J. Hartig, N. Jude, O. Köller, M. Prenzel, W. Schneider, P. Stanat (Hrsg.), PISA 2009. Bilanz nach einem Jahrzehnt (S. 24–71). Münster: Waxmann. First citation in article Google Scholar
Nold, G. , Rossa, H. (2007). Leseverstehen. In B. Beck, E. Klieme (Hrsg.), Sprachliche Kompetenzen. Konzepte und Messung. DESI-Ergebnisse Band 1 (S. 197–211). Weinheim: Beltz. First citation in article Google Scholar
OECD . (2009). PISA 2006 technical report. Paris: OECD. First citation in article Crossref, Google Scholar
Rauch, D. , Hartig, J. (2012). Interpretation von Testwerten in der IRT. In H. Moosbrugger, A. Kelava (Hrsg.), Test- und Fragebogenkonstruktion (2. aktualisierte und überarbeitete Auflage, S. 253–264). Berlin: Springer. First citation in article Google Scholar
Rupp, A. A. , Templin, J. , Henson, R. A. (2010). Diagnostic measurement: Theory, methods, and applications. New York, NY: Guilford Press. First citation in article Google Scholar
Rupp, A. A. , Vock, M. , Harsch, C. , Köller, O. (2008). Developing standards-based assessment tasks for English as a first foreign language – Context, processes and outcomes in Germany. Münster: Waxmann. First citation in article Google Scholar
Whitely, S. E. (1980). Multicomponent latent trait models for ability tests. Psychometrika, 45, 479–494. First citation in article Crossref, Google Scholar
Wilson, M. (2005). Constructing measures. An item response modelling approach. Mahwah, NJ: Erlbaum. First citation in article Google Scholar
Wilson, M. , De Boeck, P. (2004). Descriptive and explanatory item response models. In P. De Boeck, M. Wilson (Eds.), Explanatory item response models: A generalized linear and nonlinear approach (pp. 43–74). New York, NY: Springer. First citation in article Crossref, Google Scholar

Themenheft: Modellierung von Kompetenzen im Bereich der Bildung: Eine psycholoische Perspektive

Volume 63Issue 1Januar 2012

ISSN: 0033-3042eISSN: 2190-6238

Licenses & Copyright

Keywords

Acknowledgments:

Diese Veröffentlichung wurde ermöglicht durch Sachbeihilfen der Deutschen Forschungsgemeinschaft (Kennz.: HA5050/2-2 und FR2552/2-2) im Schwerpunktprogramm „Kompetenzmodelle zur Erfassung individueller Lernergebnisse und zur Bilanzierung von Bildungsprozessen” (SPP 1293). Die DESI-Studie wurde in Auftrag gegeben und finanziert von der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland.

PDF download

Verify Phone

Congrats!

Konstruktvalidierung und Skalenbeschreibung in der Kompetenzdiagnostik durch die Vorhersage von Aufgabenschwierigkeiten

Abstract

Literatur

Licenses & Copyright

Acknowledgments:

Support & Contact

Support & Contact

Legal information

Legal information

More offers

More offers

Our partners

Our partners

Change Password

Your password must have 8 characters or more and contain 3 of the following:

Password Changed Successfully

Create a new account

Request Username

Verify Phone

Congrats!

Konstruktvalidierung und Skalenbeschreibung in der Kompetenzdiagnostik durch die Vorhersage von Aufgabenschwierigkeiten

Abstract

Literatur

Licenses & Copyright

Acknowledgments:

Support & Contact

Support & Contact

Legal information

Legal information

More offers

More offers

Our partners

Our partners