Skip to main content
Published Online:https://doi.org/10.1026/0012-1924/a000118

Testlets sind Teilmengen von Testitems, die sich auf denselben Input beziehen. Testverfahren, die Testlets enthalten, sind in der pädagogisch-psychologischen Diagnostik weit verbreitet. Mit der Verwendung von Testlets ist allerdings ein ernstes psychometrisches Problem verbunden: Items, die einem Testlet angehören, verletzen die grundlegende Annahme der lokalen Unabhängigkeit. Gegenstand dieser Arbeit waren Einflüsse von Testlets im Prüfungsteil Leseverstehen des Tests Deutsch als Fremdsprache (TestDaF). Anhand eines Modells der Testlet-Response-Theorie (Wainer, Bradlow & Wang, 2007) wurden Antworten von Teilnehmenden (N = 2 859) auf 30 Items, aufgeteilt auf drei Lesetexte (Testlets) mit je 10 Items, analysiert. Im ersten Lesetext fielen die Testlet-Effekte deutlich aus; in den beiden anderen Lesetexten ergaben sich nur schwache Effekte. Weitere Analysen zeigten, dass die Vernachlässigung der Testlet-Effekte eine erhöhte Schätzung der Testreliabilität sowie abweichende Schätzungen der Itemtrennschärfe und Itemschwierigkeit zur Folge hatte. Implikationen der Ergebnisse für die Entwicklung, Analyse und Evaluation testlet-basierter Testverfahren werden diskutiert.


Local item dependence in the TestDaF reading section: A testlet response analysis

Testlets are subsets of test items that are based on the same input. Tests that contain testlets are common in educational and psychological testing. However, use of testlets runs into a serious psychometric problem: Items within a testlet violate the fundamental assumption of local independence. The present research examined effects of testlets in the reading section of the Test of German as a Foreign Language (TestDaF). Building on a testlet response theory model (Wainer, Bradlow, & Wang, 2007), responses of test-takers (N = 2,859) to 30 items, divided into three reading texts (testlets) with 10 items each, were analyzed. The first reading text manifested pronounced testlet effects; the other two texts showed only weak effects. Further analysis revealed that neglecting testlet effects resulted in overestimated test reliability and biased estimates of item discrimination and item difficulty. Implications of these findings for the construction, analysis, and evaluation of testlet-based tests are discussed.

Literatur