Abstract
Zusammenfassung. Die Bedeutung des Rasch-Modells für die Testkonstruktion steht zwar außer Frage, trotzdem ist auf gewisse Probleme bei der Analyse eines Itempools nach dem Rasch-Modell hinzuweisen. Zum ersten kann es Itempools geben, die dem Rasch-Modell widersprechen und trotzdem testtheoretisch brauchbar sind: Es können die Items annähernd einer sog. Guttman-Skala folgen oder sie entsprechen dem 2- bzw. 3-PL Modell von Birnbaum. Zum zweiten geht es im Zusammenhang mit Modelltests um die “α-Überhöhung“ bzw. das Konzept der Effektgrößen: Entweder werden zu viele Modelltests durchgeführt oder es werden Modelltests bestimmt, die hinsichtlich des Effekts zwar signifikant, aber inhaltlich irrelevant sind. In Ermangelung eines methodisch fundierten Regelwerks, welche Modelltests standardmäßig im Sinne eines state of the art durchzuführen sind, um gegebenenfalls den Grad der Bewährung des Rasch-Modells für einen bestimmten Itempool als ausreichend qualifizieren zu können, wird hier ein Vorschlag gemacht.
Abstract. The importance of the Rasch model for psychological test calibration is beyond question, however, there are still a few problems to point out. Firstly, an item pool can be of practical use and psychometrically valid even when it contradicts the Rasch model: The items may fit either a Guttman scale or the 2- and 3-PL model. Secondly, a too high type-I risk may result as a consequence of multiple model checks or the practical irrelevance of the model. Since no standardised rules exist as to which kinds of model checks have to be applied in order to sufficiently establish Popper’s “degree of corroboration/confirmation” with respect to the Rasch model, a suggestion is given in this paper.
Literatur
Alexandrowicz, R. (1999). Normierung und Validierung des Begriffsbildungstests . Dipl. Arb. Univ. Wien, WienAlexandrowicz, R. (2002). Die Teststärke des Likelihoodquotiententests nach Andersen bei der Überprüfung der Modellgültigkeit des dichotomen logistischen Testmodells nach Rasch . Diss. Univ. Wien, WienAndersen, E. B. (1973). A goodness of fit test for the Rasch model. Psychometrika, 38, 123– 140Andersen, E. B. Olsen, L. W. (2001). The Life of Georg Rasch as a Mathematician and as a Statistician. In A. Boomsma, M. A. J. van Duijn & T. A. B. Snijders (Eds.), Essays on Item Response Theory (pp. 3-24). New York: SpringerBayley, N. (1993). Bayley Scales of Infant Development (2. ed.). San Antonio: The Psychological CorporationBirnbaum, A. (1968). Some latent trait models and their use in infering an examinee’s ability. In F. M. Lord & M. R. Novick (Eds.), Statistical theories of mental test scores (pp. 395-479). Reading/Mass.: Addison-WesleyBock, R. D. Aitkin, M. (1981). Marginal maximum likelihood estimation of item parameters: An application of an EM algorithm. Psychometrika, 46, 443– 459Bortz, J. Döring, N. (1995). Forschungsmethoden und Evaluation für Sozialwissenschaftler . Berlin: SpringerFischer, G. H. (1972). A measurement model for the effects of mass-media. Acta Psychologica, 36, 207– 220Fischer, G. H. (1974). Einführung in die Theorie psychologischer Tests . Bern: HuberFischer, G. H. (1981). On the existence and uniqueness of maximum-likelihood estimates in the Rasch model. Psychometrika, 46, 59– 77Fischer, G. H. (1995). Derivations of the Rasch Model. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models (pp. 15-38). New York: SpringerFischer, G. H. Ponocny, I. (1994). An extension of the partial credit model with an application to the measurement of change. Psychometrika, 59, 177– 192Formann, A. K. (1981). Über die Verwendung von Items als Teilungskriterium für Modellkontrollen im Modell von Rasch. Zeitschrift für Experimentell und Angewandte Psychologie, 28, 541– 560Formann, A. K. (2002). Identifying types, response errors, and unscalable resdpondents from personality questionnaires. Psychologische Beiträge, 44, 78– 93Glas, A. W. (1988). The derivation of some tests for the Rasch model from the multinomial distribution. Psychomterika, 53, 525– 546Glas, A. W. Verhelst, N. D. (1995). Testing the Rasch model. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch Models (pp. 69-95). New York: SpringerGoethals, R. (1994). Die praktische Erprobung von Alternativen zur multiple-choice-Vorgabe bei Computertests . Diss. Univ. Wien, WienKastner-Koller, U. Deimann, P. (1998, 2002). Der Wiener Entwicklungstest (WET) . Göttingen: HogrefeKubinger, K. D. (1989). Aktueller Stand und kritische Würdigung der Probabilistischen Testtheorie. In K. D. Kubinger (Hrsg.), Moderne Testtheorie - Ein Abriß samt neuesten Beiträgen (2. Aufl., S. 19-83). München: PVUKubinger, K. D. (2000). Kommentar (Replik auf Jürgen Rost “Was ist aus dem Rasch-Modell geworden?“): Und für die Psychologische Diagnostik hat es doch revolutionäre Bedeutung. Psychologische Rundschau, 51, 33– 34Kubinger, K. D. (2003a). Skalierung. In K. D. Kubinger & R. S. Jäger (Hrsg.), Stichwörter der Psychologischen Diagnostik (S. 387-390). Weinheim: PVUKubinger, K. D. (2003b). Testtheorie, Probabilistische. In K. D. Kubinger & R. S. Jäger (Hrsg.), Stichwörter der Psychologischen Diagnostik (S. 415-423). Weinheim: PVUKubinger, K. D. Draxler, C. (2006). A comparison of the Rasch model and constrained item response theory models for pertinent psychological test data. In M. von Davier & C. H. Carstensen (Eds.), Multivariate and Mixture Distribution Rasch Models - Extensions and Applications (pp. 295-312). New York: SpringerKubinger, K. D. Wurst, E. (2000). Adaptives Intelligenz Diagnostikum - Version 2.1 (AID 2) . Göttingen: BeltzMasters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47, 149– 174Mokken, R. J. (1971). A theory and procedure of scale analysis . The Hague: MoutonMolenaar, I. W. Sijtsma, K. (2000). Users manual MSP5 for windows: A program for Mokken scale analyses for polytomous items. Version 5.0 . Groningen: ProGAMMAMüller, H. (1999). Probabilistische Testmodelle für diskrete und kontinuierliche Ratingskalen . Bern: HuberPonocny, I. (2001). Nonparametric goodness- of-fit tests for the Rasch model. Psychometrika, 66, 437– 460Ponocny, I. Klauer, K. C. (2002). Towards identification the unscalable personality questionnair respondents: The use of person fit indices. Psychologische Beiträge, 44, 94– 107Ponocny, I. Ponocny-Seliger, E. (1999). T-Rasch 1.0 (Software Program). Groningen: ProGAMMAPopper, K. R. (1976). Logik der Forschung . Tübingen: MohrPuchhamer, M. (1989a). Die Berücksichtigung von Rateparametern im Modell von Rasch. In K. D. Kubinger (Hrsg.), Moderne Testtheorie - Ein Abriss samt neuesten Beiträgen (S. 271-280). München: PVUPuchhamer, M. (1989b). Simulationsstudien zur Schätzbarkeit der Parameter des Birnbaum-Modells. In K. D. Kubinger (Hrsg.), Moderne Testtheorie - Ein Abriss samt neuesten Beiträgen (S. 259-270). München: PVURasch, G. (1960). Probabilistic models for some intelligence and attainment tests . Copenhagen: The Danish Institute of Education Research. (Expanded Edition, 1980. Chicago: University of Chicago Press.)Rasch, D. Kubinger, K. D. (2006). Statistik für das Psychologiestudium - Mit Softwareunterstützung zur Planung und Auswertung von Untersuchungen sowie zu sequentiellen Verfahren . Heidelberg: SpectrumRost, J. Davier, v. M. (1994). A conditional item fit index for Rasch models. Applied Psychological Measurement, 18, 171– 182Rost, J. (2004). Lehrbuch Testtheorie - Testkonstruktion (2. Aufl.). Bern: HuberSmith, R. M. (1991). IPARM: Item and person analyses with the Rasch model . Chicago: MESA PressStelzl, I. (1979). Ist der Modelltest des Rasch-Modells geeignet, Homogenitätshypothesen zu prüfen? Ein Bericht über Simulationsstudien mit inhomogenen Daten. Zeitschrift für Experimentell und Angewandte Psychologie, 26, 652– 672Torgerson, W. S. (1958). Theory and methods of scaling . New York: WileyVerguts, T. De Boeck, P. (2001). Some Mantel-Haenszel Tests of Rasch Model Assumptions. British Journal of Mathematical and Statistical Psychology, 54, 21– 37Verhelst, N. D. Glas, A. W. (1995). The One Parameter Logistic Model. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch Models (pp. 215-237). New York: SpringerWagner-Menghin, M. M. (2002). Towards the identification non-scalable personality questionnair respondents: Taking response time into account. Psychologische Beiträge, 44, 62– 77Waldherr, K. (2001). Differential Item Functioning-Analysen mittels der Familie der Rasch-Modelle . Diss. Univ. Wien, WienWild, B. Kubinger, K. D. (1987). Grenzen des Modells von Rasch: Die Guttman-Skala . Vortrag auf der 29. Tagung experimentell arbeitender Psychologen in Aachen 1987Wollenberg, A. L. van den (1979). The Rasch model and time-limit-tests . Proefschrift Univ. Nijmegen, NijmegenWright, B. D. Masters, G. N. (1982). Rating Scale Analyses: Rasch Measuremment . Chicago: Mesa PressWright, B. D. Panchapekasen, N. (1969). A procedure for sample-free item analyses. Educational and Psychological Measurement, 29, 23– 48