Abstract
Zusammenfassung. Für die computergestützte adaptive Testvorgabe wird eine umfangreiche, inhaltlich homogene Itembank benötigt. Hier wird berichtet, wie eine Itembank erstellt wurde, die diesen Anforderungen genügt. Die Matrizenitems, die sprachfrei schlußfolgerndes Denken erfassen, basieren auf einem expliziten Konstruktionsrational. 270 Items wurden in Kattowitz, Moskau und Wien an einer umfangreichen Stichprobe evaluiert und kalibriert. Itemparameter wurden auf der Grundlage des einparametrigen logistischen Test- (Rasch-, 1PL-) Modells geschätzt und mit früheren Untersuchungen verglichen. Die geschätzten Itemparameter aus unterschiedlichen Stichproben als auch die Parameter paralleler Items stimmen gut überein. Sie korrelieren zu r=.77 bis .84. Die Itemkonstruktionsregeln klären allein fast 60% der Itemschwierigkeitsvarianz auf.
Abstract. In order to take advantage of the benefits of computerized adaptive testing, a sufficiently large set of content and psychometricaly homogenous items is needed. The goal of this study is to create such an item bank. Matrix items measuring non-verbal reasoning ability are designed using explicit item construction rationales. 270 items are evaluated and calibrated with large samples in Katovice, Moscow and Vienna. All item parameters are estimated using a one parameter linear logistic test (Rasch-, 1PL-) model and are compared across samples. The item parameters of the corresponding items in the different samples, as well as the parallel items used here, show considerable similarity. A comparison of item difficulties with parallel items from previous studies yields r=.77 to r=84. Item design rules account for about 60% of all item difficulties.
Literatur
Berg, M. (1991). Der Konstituentenansatz - ein neues Prinzip psychologischen Testens. In H. Schuler & U. Funke, Eignungsdiagnostik in Forschung und Praxis (S. 209-214). Stuttgart: Verlag für Angewandte PsychologieBejar, I.I. Yocom, P. (1991). A generative approach to the modeling of isomorphic hidden-figures item. Applied Psychological Measurement, 15, 129– 137Büchel, F.P. Scharnhorst, U. (1993). Training des induktiven Denkens bei Lern- und Geistigbehinderten. In K.J. Klauer, Kognitives Training (S. 95-123). Göttingen: HogrefeConrad, W. Büscher, P. Hornke, L. Jäger, R. Schweizer, H. von Stünzner, W. Wiencke, W. (1971). Mannheimer Intelligenztest . Weinheim: BeltzEmbretson, S. (1983). Construct validity: construct representation versus nomothetic span. Psychological Bulletin, 93, 179– 197Fischer, G.H. (1973). The linear logistic test model as an instrument in educational research. Acta Psychologica, 37, 359– 374Formann, A.K. Piswanger, K. (1979). WMT - Wiener Matrizentest. Ein Rasch-skalierter sprachfreier Intelligenztest . Weinheim: PVUGuthke, J. Räder, E. Caruso, M. Schmidt, K.D. (1991). Entwicklung eines adaptiven computergestützten Lerntests auf der Basis der strukturellen Informationstheorie. Diagnostica, 37, 1– 28Hornke, L.F. (1978). Personen-Items-Stichproben. In K.J. Klauer (Hrsg.), Handbuch der Pädagogischen Diagnostik, Band 1. (S. 199-212). Düsseldorf: SchwannHornke, L.F. (1993). Mögliche Einspareffekte beim computergestützten Testen. Diagnostica, 39, 109– 119Hornke, L.F. (in press) Item generation models for higher order cognitive functions. In S.H. Irvine (Ed.), The foundations of item-generation for mass testing. Hillsdale: Lawrence ErlbaumHornke, L.F. Habon, M.W. (1984a). Regelgeleitete Konstruktion und Evaluation von nicht-verbalen Denkitems. In Bundesministerium der Verteidigung - PII 4 - (Hrsg.), Wehrpsychologische Untersuchungen (4/84), BonnHornke, L.F. Habon, M.W. (1984b). Erfahrungen zur rationalen Konstruktion von Testitems. Zeitschrift für Differentielle und Diagnostische Psychologie, 5, 203– 212Hornke, L.F. Wilding, U. (1996). Evaluation dreier Leistungstests mit verbalen Analogien, Matrizen und Rechenitems. (Arbeitsbericht für das Bundesministerium der Verteidigung). Institut für Psychologie der RWTH AachenHornke, L.F. Wilding, U. (1998). Evaluation adaptiver Testverläufe. Arbeitsbericht Nr. 8. Institut für Psychologie der RWTH AachenIrvine, S.H. (in press) The foundations of item-generation for mass testing . Hillsdale: Lawrence ErlbaumKlauer, K.J. (1984). Kontentvalidität. Diagnostica, 1, 1– 23Kubinger, K.D. (1987). Adaptive Tests. In R. Horn, K.-H. Ingenkamp & R.S. Jäger, Tests und Trends (6. Jahrbuch der pädagogischen Diagnostik) (S. 103-127). München: PVUKolen, M.J. Brennan, R.L. (1995). Test equating. Methods and practices . New York: SpringerMislevy, R.J. Bock, R.D. (1990). PC-BILOG 3. Item analysis and test scoring with binary logistic models . Mooresville: Scientific SoftwarePutz-Osterloh, W. (1981). Problemlösungsprozesse und Intelligenzleistung . Bern: HuberRasch, G. (1960). Probabilistic models for some intelligence and attainment tests . Copenhagen: Nielsen & LydicheRettig, K. Hornke, L.F. (1990). Adaptives Testen. In W. Sarges (Hrsg.), Managementdiagnostik (S. 444-450). Göttingen: HogrefeRost, J. (1996). Lehrbuch Testtheorie, Testkonstruktion . Bern: HuberSchott, F. Wieberg, W. (1984). Ein Verfahren zur Definition von Itemuniversa und deren kontentvalider Abbildung in Itemmengen für Tests und Treatments. Diagnostica, 30, 47– 63Vale, C.D. (1986). Linking item parameters onto a common scale. Applied Psychological Measurement, 10, 4 333– 344Wright, B.D. Stone, M.H. (1979). Best test design . Chicago: Mesa