Skip to main content
Published Online:https://doi.org/10.1026/0012-1924.51.1.1

Zusammenfassung. Aus der klassischen Testtheorie (Spearman-Brown-Formel) wird gewöhnlich die Empfehlung abgeleitet, Tests aus möglichst vielen Items zusammenzustellen. Anhand mathematischer Ableitungen wird im folgenden Beitrag gezeigt, dass die Reliabilität und Validität einer Skala nur unter sehr strengen Voraussetzungen (Parallelität bzw. Rasch-Homogenität) zwingend mit zunehmender Testlänge ansteigen. Sind diese Voraussetzungen nicht erfüllt, so kann die Verlängerung eines Tests durchaus zu Einbußen bei den Gütekriterien führen. Auch bei zufälliger Itemselektion hängt es von den Eigenschaften des jeweiligen Itempools ab, ob mit zunehmender Testlänge Einbußen oder Verbesserungen der Testgüte zu erwarten sind. Ein negativer Zusammenhang der Testlänge mit der Reliabilität und Validität kann sich demnach nicht nur bei gezielter Auswahl der Items ergeben.


Myths and paradoxes of classical test theory (I): About test length, reliability, and validity

Abstract. A common suggestion derived from classical test theory is to assemble as many items as possible for a test. However, the reliability and validity of a lengthened test must improve only if very strong assumptions (parallel or Rasch-homogenous items) are satisfied. If these assumptions are violated, lengthening a test can impair reliability and validity. Even if items are selected randomly, it depends on the characteristics of the item pool whether lengthening of a test leads to higher or lower values of reliability and validity. Consequently, a negative relationship is not only possible if items are selected systematically.

Literatur