In norming we trust
Verfahren zur statistischen Modellierung kontinuierlicher Testnormen auf dem Prüfstand
Abstract
Zusammenfassung. Ziel der Untersuchung war ein systematischer Vergleich verschiedener Verfahren zur Normdatenmodellierung. Der auf Taylor-Polynomen basierende semi-parametrische Normierungsansatz (SPCN) mittels cNORM (Lenhard, Lenhard & Gary, 2018) wurde parametrischen Anpassungen basierend auf Generalized Additive Models for Location, Scale and Shape (GAMLSS; Stasinopoulos et al., 2018) gegenübergestellt und die Normierungsgüte in Abhängigkeit der Faktoren Normstichprobengröße (n = 525, 700, 1 050, 1 750), Itemanzahl (i = 10, 20, 40) sowie Itemschwierigkeit analysiert. Die Modellierung erfolgte kreuzvalidiert auf der Basis simulierter Rohdaten von Normierungs- und Validierungsstichproben: Mittels der verschiedenen Verfahren wurden auf der Basis der Normierungsstichprobe statistische Modelle berechnet und auf die Validierungsstichprobe übertragen, um die jeweils vorhergesagten mit den tatsächlichen Normwerten zu vergleichen. Der semi-parametrische Ansatz lieferte in den meisten Fällen den geringsten Normierungsfehler und damit das beste Normierungsergebnis. Die deutlichsten Unterschiede fanden sich bei leichten bzw. schweren Testskalen in Verbindung mit einer kleinen Itemanzahl. Der Einfluss der Normstichprobengröße war bei allen Methoden vergleichbar.
Abstract. While the majority of standardized psychometric tests draw on standard scores for evaluating individual test results, statistical modeling of norm data is increasingly used in order to derive continuous test norms. The aim of the current study was to systematically compare different continuous norming approaches, namely, the semi-parametric approach (SPCN) with cNORM (Lenhard et al., 2018) with three different parametric procedures based on generalized additive models for location, scale and shape (GAMLSS; Stasinopoulos et al., 2018). The quality of the results was analyzed in terms of norm sample size (n = 525, 700, 1,050, 1,750), number of items per scale (i = 10, 20, 40), and item difficulty. We cross-validated the procedures by drawing norming and validation samples based on the same population model, simulated raw score distributions, computed the continuous norming models, and applied these to the validation sample to compare actual with predicted standard scores. SPCN showed the smallest deviations in terms of RMSE in most of the cases, especially in combinations of small item numbers with easy and difficult scales. All approaches needed far less [author: far smaller?] sample sizes compared with conventional norming and were influenced by the number of cases per norm sample.
Literatur
1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Erlbaum.
(1992). Smoothing reference centile curves: The LMS method and penalized likelihood. Statistics in Medicine, 11, 1305 – 1319. https://doi.org/10.1002/sim.4780111005
(2020). Bias and precision of continuous norms obtained using quantile regression. Assessment [Vorab-Onlinepublikation] https://doi.org/10.1177/1073191120910201
(2016). Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften (5., vollst. überarb., aktual. und erw. Aufl.). Berlin: Springer.
(2010).
(Item-Response-Theorie . In C. WolfH. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse (S. 311 – 332). Wiesbaden: VS Verlag für Sozialwissenschaften.1979). A simple sequentially rejective multiple test procedure. Scandinavian journal of statistics, 6 (2), 65 – 70.
(2001). Quantile Regression. Journal of Economic Perspectives, 15, 143 – 156. https://doi.org/10.1257/jep.15.4.143
(2019). Continuous norming of psychometric tests: A cross-validation of parametric and semi-parametric approaches. PloS one [Onlinepublikation]. 14(9) https://doi.org/10.1371/journal.pone.0222279
(2015). Peabody picture vocabulary test (4th ed.). Frankfurt am Main: Pearson.
(2018). A continuous solution to the norming problem. Assessment, 25 (1), 112 – 125. https://doi.org/10.1177/1073191116656437
(2020a). Improvement of norm score quality via regression-based continuous norming. Educational and Psychological Measurement [Vorab-Onlinepublikation], 1 – 33. https://doi.org/10.1177%2F0013164420928457
(2020b). cNORMj – Continuous norming with cNORM in Jamovi. Verfügbar unter: https://doi.org/10.13140/RG.2.2.14253.72165
(2017). Leaps: Regression subset selection [Computer Software]. Retrieved from https://cran.r-project.org/web/packages/leaps/index.html
(Hrsg.). (2012). Testtheorie und Fragebogenkonstruktion: Mit 66 Abbildungen und 41 Tabellen (2., aktual. und überarb. Aufl.). Berlin: Springer.
(2017). Regression-Based Norming for Psychological Tests and Questionnaires (Unpublished Dissertation), Tilburg University. Retrieved from https://pure.uvt.nl/ws/portalfiles/portal/16257245/Oosterhuis_Regression_12_04_2017.pdf
(2015). Sample size requirements for traditional and regression-based norms. Assessment, 23, 191 – 202. https://doi.org/10.1177/1073191115580638
(2016). Standard errors and confidence intervals of norm statistics for educational and psychological tests. Psychometrika, 82, 559 – 588. https://doi.org/10.1007/s11336-016-9535-8
(1960). Probabilistic models for some intelligence and attainment tests. Copenhagen: Nielsen & Lydiche.
(2019). Distributions for modeling location, scale, and shape. New York, NY: Chapman and Hall / CRC. https://doi.org/10.1201/9780429298547
(2018). „gamlss“ (Version 5.1 – 2) [Computer Software]. Retrieved from https://cran.r-project.org/web/packages/gamlss/gamlss.pdf
(2019). Model selection in continuous norming with GAMLSS. Assessment, 26, 1329 – 1346. https://doi.org/10.1177/1073191117715113
(1981). WAIS-R: Wechsler Adult Intelligence Scale – Revised. New York, NY: Psychological Corp.
(1985). Continuous norming: implications for the WAIS-R. Journal of Clinical Psychology, 41 (1), 86 – 94. https://doi.org/10.1002/1097-4679(198501)41:1%3C86::AID-JCLP2270410115%3E3.0.CO;2-W
(2011). Utility of inferential norming with smaller sample sizes. Journal of Psychoeducational Assessment, 29, 570 – 580. https://doi.org/10.1177/0734282910396323
(