Skip to main content
Open AccessOriginalarbeit

Adaptives Testen von Textverständnis in der Grundschule

Entwicklung eines CAT-optimierten Itempools

Published Online:https://doi.org/10.1026/0012-1924/a000279

Abstract

Zusammenfassung. Die vorliegende Studie befasst sich mit Entwicklung eines Itempools für einen computeradaptiver Test (CAT) zur Erfassung von Textverständnis in der Grundschule. Der Effizienzgewinn von CATs im Vergleich zu Tests mit festgelegter Itemabfolge (FITs) wird untersucht. Für die Kalibrierung eines Textverständnisitempools wurden Stichproben von N = 1 975 Schülerinnen und Schülern aus der 3. und 4. Klassenstufe erhoben. Der finale Itempool umfasst 132 auf Messgüte geprüfte Items. Eine CAT Simulation mit 25 Items zeigte, dass ein CAT das Textverständnis mit sehr guter Reliabilität (Releap ≈ .92) erfassen kann. Ein CAT mit 8 Items erreichte eine gute Reliabilität (Releap ≈ .80). Analysen zur Konstruktvalidierung werden berichtet. Ein CAT basierend auf dem Itempool misst bis zu 19 % effizienter als ein vergleichbarer FIT und wäre besonders für die Erfassung von Textverständnis bei Schülerinnen und Schülern eines breiten Leistungsspektrums und für die Lernverlaufsdiagnostik geeignet.

Adaptive Testing of Text Comprehension in Primary School. Development of a CAT-Optimized Item Pool

Abstract. The present study describes the construction and calibration of a text comprehension item pool for a computer adaptive test (CAT) in elementary school. It investigates the efficiency gain of CATs compared to fixed-item tests (FITs). We administered the item pool to N = 1,975 pupils in the 3rd (G3) and 4th (G4) grades to estimate the psychometric properties. The item pool consists of 132 items with confirmed measurement quality. A CAT simulation with 25 content-balanced items demonstrates that the item pool measures text comprehension in G3 and G4 with good reliability (Rel ≈ .92) and an approximately constant standard error. A screening CAT with 8 items achieved good reliability (Rel ≈ .80). Further analyses for the construct validation are reported. A CAT based on the item pool can be up to 19 % more efficient than a comparable FIT and is most applicable for measuring text comprehension in groups with large individual differences and for evaluating learning progress.

Die Fähigkeit, Texte zu verstehen, ist eine wichtige Grundvoraussetzung für das lebenslange Lernen (z. B. McElvany, Becker & Lüdtke, 2009). Am Ende der Grundschule ist Textverständnis eine besonders kritische Fähigkeit, weil Schülerinnen und Schüler (SuS) in der Sekundarstufe zunehmend mit Texten lernen sollen. Das Lernen mit Texten setzt zunächst Textverständnis voraus. SuS mit gutem Textverständnis erreichen eine hohe Verständnisebene und können Texte mit hohen Anforderungen verstehen (z. B. Lenhard & Schneider, 2009). Textverständnis wird durch flüssiges und fehlerfreies Lesen begünstigt und umfasst darüber hinaus Fähigkeiten wie die Integration des Gelesenen mit dem Vorwissen (Kintsch, 1988).

Die Erfassung von Textverständnis kann für viele Kontexte (z. B. Lernverlaufsdiagnostik) hilfreiche Informationen liefern, ist aber im Vergleich zu Leseflüssigkeitstests verhältnismäßig aufwendig. Leseflüssigkeitstests sind aufgrund ihrer Konstruktionsweise ökonomisch und können für ein breites Leistungsspektrum eingesetzt werden (z. B. Schneider, Schlagmüller & Ennemoser, 2007). Im Vergleich dazu sind Textverständnistests, die eine Niveauleistung messen, häufig verhältnismäßig zeitaufwendig und zielgruppenspezifisch.

Ein computerbasierter adaptiver Test (CAT) könnte Textverständnis effizienter und zielgruppenübergreifender erfassen als ein Fixed Item Test (FIT; Frey, 2008). Ein CAT präsentiert basierend auf dem Antwortverhalten einer Person nur diejenigen Items, die einen hohen Informationsgehalt haben. Dieses Vorgehen ist nur mit einem Effizienzgewinn verbunden, wenn der CAT auf einen Itempool mit hinreichenden Qualitäten zurückgreifen kann.

In dieser Arbeit wird untersucht, ob sich die Vorteile eines CATs für die Erfassung von Textverständnis in der Grundschule zeigen lassen. Dafür wird zunächst die theoriegeleitete Konstruktion und Kalibrierung eines Itempools für die dritte und vierte Klassenstufe dargestellt. Auf Basis des kalibrierten Itempools werden zwei Teilstudien beschrieben. In der ersten Teilstudie wird mit CAT-Simulationen geprüft, welche Präzision ein CAT in Abhängigkeit zur Testlänge erreichen kann und wie groß der Effizienzgewinn eines CATs gegenüber eines FITs ist. In der zweiten Teilstudie wird anhand von Referenzmaßen die Gültigkeit der Testwertinterpretation im Sinne des Konstruktes Textverständnis geprüft.

Textverständnis

Textverständnis ist ein facettenreiches und vielschichtiges Konstrukt (Graesser & McNamara, 2011). Textverständnis erfordert zunächst die effiziente Bewältigung von Teilprozessen des Leseverstehens auf Wort- und Satzebene, die bei geübten Lesenden überwiegend automatisch ablaufen (Überblick über die Teilprozesse des Leseverstehens bei Richter, Isberner, Naumann & Kutzner, 2012). Hierzu gehört beispielsweise das Dekodieren von Wörtern. Die Bewältigung dieser Teilprozesse ist eine Voraussetzung für die zunächst lokale und dann globale Kohärenzbildung, die Herstellung von Sinnzusammenhängen zwischen mehreren Sätzen und die Integration der Textinformation mit dem sachbezogenen Weltwissen der Lesenden (Kintsch, 1988). Eine unzureichend automatisierte Ausführung von Teilprozessen des Leseverstehens auf Wort- und Satzebene beeinträchtigt die Teilprozesse auf Textebene und somit die Fähigkeit, Texte zu verstehen, da weniger kognitive Ressourcen für das Herstellen von Sinnzusammenhängen, Anwendung von Lesestrategien und Vorwissensintegration zur Verfügung stehen (Richter et al., 2012).

In der Forschung zu Discourse Processes wird unter anderem zwischen der Verständnisebene der Textbasis und des Situationsmodells unterschieden (Kintsch, 1988). Die Verständnisebene der Textbasis repräsentiert den semantischen Gehalt als propositionales Netzwerk. Das Verständnis auf Textbasisebene befähigt zur Bewältigung von Aufgaben, die sich auf explizit im Text genannte Sachverhalte beziehen. In ein Situationsmodell fließt zusätzlich zur Textbasis das sachbezogene Weltwissen der oder des Lesenden ein. Es ist somit Ergebnis eines fortlaufenden, ineinandergreifenden, textbasierten, konstruktions- und vorwissensbasierten Integrationsprozesses (Kintsch, 1988). Das Verständnis auf Situationsmodellebene befähigt zur Beantwortung von Fragen, die sich auf nicht explizit im Text genannte Zusammenhänge beziehen, wie Kausalität zwischen Ereignissen oder emotionale und motivationale Zustände von Charakteren (McKoon & Ratcliff, 1992).

Textarten können ebenfalls unterschiedliche Anforderungen für das Textverständnis darstellen. Eine wesentliche Unterscheidung wird zwischen narrativen Texten und Sachtexten (z. B. McNamara, Ozuru & Floyd, 2011) gemacht. Die narrativen Texte, die im Grundschulalter häufig gelesen werden, beschreiben zumeist einen zeitlich-kausalen Ablauf und das Handeln von Charakteren. Das Verstehen von altersangemessenen narrativen Texten fällt SuS im Grundschulalter häufig leichter, weil sie eher Alltagsvokabular verwenden und Situationen beschreiben, die sich eher mit der Lebensrealität der SuS überschneiden (McNamara et al., 2011). Die SuS haben dadurch Schemata, welche die Interpretation von Ereignissen, Situationen oder des Handelns von Charakteren erleichtern. Sachtexte hingegen vermitteln Informationen zu Themen, die häufig nicht Teil der Lebensrealität sind, und erfordern dadurch sachbezogenes Wissen. Sachtexte sind in der Regel strukturell komplexer und informationsdichter als narrative Texte. Sie enthalten häufiger Wörter, die im Alltagssprachgebrauch seltener verwendet werden (McNamara et al., 2011). Sachtexte stellen im Vergleich zu narrativen Texten typischerweise höhere Anforderungen an die Fähigkeiten der Lesenden (Fitzgerald et al., 2015).

Computer Adaptives Testen

Ein CAT hat das Potenzial, Textverständnis im Grundschulalter effizienter zu erfassen als ein FIT. Ein CAT ermittelt nach der Beantwortung eines jeden Items eine vorläufige Schätzung der individuellen Fähigkeit. Anschließend wird aus einer Menge von Items – dem Itempool – das Item präsentiert, das für die vorläufige Schätzung der Fähigkeit ein Optimalitätskriterium erfüllt. Mit diesem Vorgehen kann mit einem entsprechenden Itempool ein erheblicher Effizienzzugewinn im Vergleich zu einem FIT verbunden sein (Frey, 2008). Die Effizienz eines Tests ergibt sich dabei aus dem Verhältnis zwischen Präzision und Testlänge.

Ein CAT kann nicht nur im Mittel effizienter messen, sondern auch die Präzision über einen größeren Fähigkeitsbereich konstanter halten als dies mit einem FIT möglich ist (Embretson & Reise, 2000). Häufig soll ein FIT für eine hohe Präzision im mittleren Fähigkeitsbereich ausgelegt sein. Dafür enthält ein solcher FIT viele Items mit mittlerer Schwierigkeit, damit er in dem Fähigkeitsbereich differenziert, in dem sich die meisten SuS befinden. Dies hat jedoch zur Folge, dass es nur wenige Items gibt, die zwischen SuS in den äußeren Fähigkeitsbereichen differenzieren. Häufig ist daher die Präzision eines FITs geringer, je weiter die Fähigkeit der SuS vom Mittel abweicht. Im Vergleich zu einem FIT kann ein CAT mit einer konstanteren Präzision messen, weil die SuS diejenigen Items bearbeiten, die in ihrem Fähigkeitsbereich am besten differenzieren (Embretson & Reise, 2000).

Diese Vorteile eines CATs gegenüber einem FIT ergeben sich nur, wenn der CAT auf einen Itempool zugreifen kann, der eine hinreichend optimale Itemselektion ermöglicht (Wise & Kingsbury, 2000). Ein Itempool besteht aus Items, die (1) Konformität mit einem Modell der Item Response Theory (IRT) aufweisen und deren (2) Itemparameter in einer Kalibrierungsstudie geschätzt wurden. Darüber hinaus sollten die Items auch die Qualitätsanforderungen erfüllen, die für FITs angelegt werden. Die Optimalität der Itemselektion hängt von der Anzahl der Items, der Verteilung der Itemeigenschaften innerhalb und zwischen Inhaltsbereichen (Wise & Kingsbury, 2000) sowie den Einschränkungen in der Itemselektion ab (Magis, Yan & Von Davier, 2017). Einschränkungen in der Itemselektion können durch die Verwendung von Inhaltsbereichen und Testlets entstehen (siehe ESM 1 für einen Exkurs zu Testlets im adaptiven Testen).

Wie sich die Verteilung der Itemeigenschaften und die Einschränkungen in der Itemselektion auf die Präzision eines CATs und den Effizienzgewinn gegenüber einem FIT auswirken, kann mit einer Simulationsstudie auf Basis eines kalibrierten Itempools abgeschätzt werden. Zunächst wurde dafür ein Itempool konstruiert und kalibriert.

Entwicklung des Itempools

Die Entwicklung eines Itempools umfasste die Itemkonstruktion anhand von konstruktspezifischen und -übergreifenden Konstruktionsprinzipien und die anschließende Kalibrierungsstudie, bei der die Itemparameter geschätzt wurden. In diesem Schritt wurden die Items zusätzlich auf weitere Qualitätsanforderungen hin geprüft.

Itemkonstruktion

Ein CAT erfordert, dass Items unmittelbar nach Beantwortung gescort werden können, um eine vorläufige Fähigkeitsschätzung durchführen zu können. Items wurden daher im Multiple-Choice-Format konstruiert und bestehen aus einem Text und einer Aufgabe. Für einen Teil der Texte wurden mehrere Aufgaben konstruiert, um zum einen Unterschiede zwischen Aufgabenstellung untersuchen zu können und zum anderen den Konstruktionsaufwand zu verringern. Die SuS beantworteten jedoch immer nur eine Aufgabe zu einem Text. sSo wurden psychometrische Probleme vermieden, die durch Testlets verursacht werden können (z. B. lokale stochastische Abhängigkeit; Eckes, 2014; siehe ESM 1 für einen Exkurs zu Testlets).

Insgesamt wurden durch mehrere Projektmitarbeiterinnen und -mitarbeiter mit Erfahrungen im Bereich der empirischen Bildungs- und Leseforschung 175 Items und 108 Texte erstellt, die sich zu etwa gleichen Anteilen auf vier Inhaltsbereiche aufteilen (siehe ESM 2 für die Aufteilung der Texte und Items auf Inhaltsbereiche vor der Itemselektion). Die Inhaltsbereiche ergeben sich aus der Kreuzung von Textart (narrativer Text oder Sachtext) und der Verständnisebene (Textbasis oder Situationsmodell).

Texte

Die Texte (23 – 110 Wörter) sind in authentischer Sprache geschriebene narrative Texte oder Sachtexte. Um auch niedrigere Fähigkeitsbereiche abzudecken, besteht der kürzeste Text aus zwei Sätzen. Die narrativen Texte sind linear erzählte Geschichten mit namentlich erwähnten Figuren zumeist im Kindesalter. Die Sachtexte behandeln Themen, die üblicherweise nicht Teil des Sachunterrichts in der Grundschule sind und damit den Lernenden eher wenig bekannt sein sollten. Die Themen der Texte wurden möglichst neutral für verschiedene Gesellschaftsgruppen gestaltet. Dazu wurden geschlechterstereotype (z. B. Reiten) und traditionsbehaftete (z. B. Weihnachten) Themen vermieden. Schwierigkeitsgenerierende Merkmale in den Texten sind die Text- und Satzlänge sowie syntaktische (z. B. Konjunktionen und Relativpronomen) oder lexikalische (z. B. Wörter der Bildungssprache) Textmerkmale (siehe ESM 3 für Beispielitems). Die schwierigkeitsgenerierenden Merkmale wurden von den Testautorinnen und -autoren variiert, um eine Grundlage für unterschiedlich schwierige Items zu bilden, ohne dass dabei eine gezielte Variation zum Beispiel in Bezug auf bestimmte Merkmalskombinationen erfolgte.

Aufgaben

Die konstruierten Aufgaben erfassen Textverständnis auf Textbasis- oder Situationsmodellebene (Kintsch, 1988). Die Aufgaben auf Textbasisebene erfordern die Extraktion eines explizit in einem oder mehreren Sätzen beschriebenen Sachverhalts. Eine Aufgabe auf Situationsmodellebene kann nur anhand eines Inferenzschlusses über den Zusammenhang zwischen Personen und Ereignissen oder die Emotionen und Motivationen von Charakteren gelöst werden, der nicht explizit im Text beschrieben ist (McKoon & Ratcliff, 1992). Schwierigkeitsgenerierende Merkmale der Aufgaben sind die Verständnisebene, die Art des Inferenzschlusses sowie Anzahl und Position der Sätze, aus denen ein Sachverhalt extrahiert werden muss. Die Zuordnung der Aufgaben zu den Verständnisebenen erfolgte anhand der Frage: „Kann die Aufgabe anhand explizit im Text genannter Informationen gelöst werden?“ und wurde von einer weiteren Autorin oder einem weiteren Autor überprüft.

Kalibrierungsstudie

Die empirische Grundlage der Kalibrierung sind zwei computerbasierte Erhebungen. Die erste Erhebung (E1) fand 2011 in der dritten Jahrgangsstufe (K3) und die zweite Erhebung (E2) 2017 in der K3 und vierten Klassenstufe (K4) statt. Angaben zu den Stichproben und deren Eigenschaften können Tabelle 1 entnommen werden.

Tabelle 1 Stichprobenbeschreibung nach Erhebung (E1 & E2) und Klassenstufe (K3 & K4)

Beide Erhebungen wurden jeweils im zweiten Schulhalbjahr im und um das Ruhrgebiet durchgeführt. Die SuS der E1 waren etwas jünger, da E2 circa drei Monate später im Schuljahr stattfand. Die Erhebungen wurden durch geschulte Testleitungspaare durchgeführt. Die Erhebungszeit in beiden Studien betrug 90 Minuten. Der Testablauf startete jeweils mit dem Textverständnisitems, darauf folgten Referenzmaße. Zuletzt wurden die demographischen Fragen bearbeitet (siehe Beschreibung des Erhebungsablaufs in ESM 4). In der zweiten Erhebung konnten fehlende Werte in den demografischen Angaben (siehe Tabelle 1) durch eine Kombination aus SuS- und Lehrkraftbefragung vermieden werden. In E2 K4 ist der Anteil von SuS mit Deutsch als Familiensprache bedingt durch Selbstselektion teilnehmender Schulen größer als in den anderen beiden Stichproben. Unterschiede zwischen Klassenstufen sollten daher nicht nur als Klassenstufenunterschiede interpretiert werden. Analysen werden für die drei Teilstichproben getrennt berichtet. Die Daten von SuS ohne eine gültige Einverständniserklärung der Eltern wurden für die Analyse ausgeschlossen.

Testdesign

Der Antwortmodus des computerbasierten Tests war forced answer. Um den Einfluss von rapid guessing vor allem am Ende der Testzeit zu verringern, wurden Antworten mit einer Bearbeitungszeit von weniger als zwei Sekunden als nicht administriert gewertet (Wise & DeMars, 2006).

Aufgrund der großen Anzahl der Items wurde ein Multi-Matrix-Design (Frey, Hartig & Rupp, 2009) mit Testheften verwendet (E1 K3: n = 11, E2 K3: n = 8, E2 K4: n = 15; siehe ESM 4 für eine detaillierte Dokumentation des Testdesigns). Jedes Testheft enthielt eine Teilmenge an Linkitems, was die gemeinsame Testskalierung ermöglichte. Die Anzahl der validen Antworten (nach Bereinigung schnell geratener Antworten) pro Item variierte zwischen 176 – 204 SuS in E1, zwischen 47 – 101 SuS in E2 K3 und zwischen 88 – 125 SuS in K4. Es wurde sichergestellt, dass hinreichend viele Linkitems in den Erhebungsteilen eingesetzt wurden (E1 K3 zu E2 K3: 43 %, E1 K3 zu E2 K4: 47 %, E2 K3 zu E2 K3: 51 %). Bei der Testheftzuordnung wurde gewährleistet, dass alle SuS immer nur eine Aufgabe zu einem Text beantworteten.

Testskalierung

Die Skalierung erfolgte anhand eines eindimensionalen Mehrgruppen-3PL-IRT-Modells mit einem Pseudo-Rateparameter für alle Items (Van der Linden, 2016). Die Schätzung des IRT-Modells erfolgte mit der Marginal Maximum Likelihood Methode (MML) mit dem R-Paket ‚TAM‘ (Robitzsch, Kiefer & Wu, 2019). In dem Modell erhält jedes Item einen Schwierigkeits- (bi; auch Lageparameter) und einen Diskriminierungsparameter (ai; auch Steigungsparameter). Zusätzlich wurde ein allgemeiner Pseudo-Rateparameter (c) angenommen (siehe ESM 5 für eine detaillierte Begründung der Modellauswahl). Der Mehrgruppenansatz ermöglicht, bei Abwesenheit von Itemparameterdrift, die Daten aus K3 und K4 gemeinsam zu skalieren (Trendtel, Pham & Yanagida, 2016). Aus Gründen der Identifizierbarkeit wurde K3 als Referenzgruppe behandelt und deren Mittelwert µk3 = 0 und Standardabweichung σk3 = 1 festgelegt (Robitzsch et al., 2019). Ein Expected-A-Posteriori (EAP) Schätzer diente der Bestimmung der Personenfähigkeit (θp). Dieses Verfahren ermöglichte es, bei der Schätzung die Klassenstufenzugehörigkeit mittels klassenstufenspezifischer A-Priori-Verteilung zu berücksichtigen.

Itemselektion

Die Itemausschlüsse erfolgten iterativ in drei Schritten anhand von (1) Itemfit, (2) Diskriminierungsparametern (ai) und (3) Differential Item Functioning (DIF). Nach jedem Itemausschluss wurden die Selektionskriterien für den verbliebenen Itempool neu bestimmt und das Vorgehen solange wiederholt, bis alle Items den Selektionskriterien entsprachen. Kein Item im finalen Itempool verletzte eines der Selektionskriterien.

Itemfit

Die IRT-Modellkonformität der Items wurde mit dem Itemfit-Indikator Root Mean Square Deviation (RMSD;Yamamoto, Khorramdel & von Davier, 2013) untersucht. Der RMSD prüft die Passung zwischen der modellbasierten Item Characteristic Curve (ICC) und den empirischen Antwortmustern. Items mit Misfit können die Qualität eines Tests beeinträchtigen. Yamamoto et al. (2013) definieren in Large Scale Assemssents (LSA) einen Misfit bei einem RMSD > .15. In anderen Kontexten wurde bereits ein RMSD > .08 als „großer Misfit“ bezeichnet (Köhler, Robitzsch & Hartig, 2020). Bislang fehlen statistisch oder inhaltliche begründete RMSD-Schwellenwerte für die Klassifikation von Misfit im Kontext von CATs. Es lässt sich jedoch vermuten, dass Misfits in CATs eine höhere praktische Relevanz haben als in LSAs (Köhler & Hartig, 2017). Wir verwendeten daher den strengeren der bisher genannten Schwellenwerte (RMSD > .08).

Aufgrund des RMSD > .08 Kriteriums wurden 22 Items ausgeschlossen (siehe ESM 6 für einen Vergleich der Itemselektion mit beiden Schwellenwerten). Zusätzlich wurden die ICCs visuell auf Anomalitäten hin geprüft. Keines der selektieren Items wies eine sichtbar auffällige Abweichung von der vom Modell vorhergesagten ICC auf.

Homogenität

Der Itempool soll Textverständnis möglichst als eindimensionales Konstrukt messen und daher eine gewisse Homogenität aufweisen (McDonald, 2013). Ein Item, dass auf (mindestens) einer weiteren Dimension lädt, weist i. d. R. in einem eindimensionalen Modell eine geringere Trennschärfe auf als Items, die ausschließlich auf der Hauptdimension laden (z. B. Hartig, 2008). Für ein 3PL-IRT-Modell erscheinen Diskriminationsparameter von ai > 0.5 geeignet, um eine hinreichende Homogenität zu erzielen (Green, Bock, Humphreys, Linn & Reckase, 1984). Aufgrund des Kriteriums von ai > 0.5 wurden 16 Items ausgeschlossen.

DIF

Testfairness kann durch DIF beeinträchtig werden. DIF liegt vor, wenn sich der Verlauf der ICC zwischen Subgruppen unter Kontrolle der Fähigkeit unterscheidet (Monahan, McHorney, Stump & Perkins, 2007). Liegt uniform-DIF (uDIF) vor, unterscheidet sich die Schwierigkeit der Items zwischen ansonsten fähigkeitsgleichen Gruppen. Im Textverständnis sollten Items kein uDIF zwischen Mädchen und Jungen oder SuS mit unterschiedlichen Familiensprachen (ausschließlich Deutsch versus andere) aufweisen.

Zur Einordnung von uDIF-Effekten hat sich die ETS-Klassifikation (Monahan et al., 2007) etabliert. Eine ETS-Klassifikation von „A“ steht für einen unerheblichen nicht signifikanten, von „B“ für einen geringfügigen signifikanten und von „C“ für einen substanziellen signifikanten uDIF-Effekt (Monahan et al., 2007). Zusätzlich wurde in diesem Schritt der Itemparameterdrift zwischen K3 und K4 anhand des uDIF untersucht. Aufgrund von uDIF zwischen Jungen und Mädchen wurden drei und aufgrund von Itemparameterdrift zwei Items ausgeschlossen. Keines der Items wies substanzielles uDIF zwischen SuS mit unterschiedlichen Familiensprachen auf.

Ergebnisse der Kalibrierungsstudie

Nach dem Ausschluss von 43 Items verblieben im finalen Itempool 132 Items und 85 Texte, wobei in jedem Inhaltsbereich (Text [narrativer Text oder Sachtext] x Aufgabe [Textbasis oder Situationsmodel]) mindestens 26 Items und mindestens 23 Texte enthalten waren (siehe Tabelle 2).

Abbildung 1 Anmerkungen: Oberes Panel = Verteilung der Itemschwierigkeiten (bi). Anzahl der Punkte entspricht der Anzahl der Items im Schwierigkeitsintervall. Unteres Panel = Empirische Verteilung der EAP-Personenschätzer des Textverständnisses (θp). Abbildung 1. Eigenschaften des Itempools.
Tabelle 2 Verteilung der Items (I) und Texte (T) im Itempool auf die Inhaltsbereiche

Itemparameter. Das obere Panel der Abbildung 1 zeigt die Verteilung der Itemschwierigkeiten (bi; Abbildung 1, oberes Panel). Die Diskriminationsparameter (ai) variierten zwischen 0.50 und 4.30. Der Pseudo-Rateparameter lag bei c = .14 (siehe Tabelle der Itemparameter in ESM 7).

Das zweite Panel der Abbildung 1 zeigt die Informationskurven der einzelnen Items. Die Itemselektion des simulierten CATs basierte auf der hier dargestellten Fisher-Information der Items. Die Position und Höhe der Iteminformationskurve korrespondiert mit der Itemschwierigkeit (bi) und der Diskrimination (ai) der Items.

Aus der Modellschätzung ergab sich ein µk4 = 0.97 (σ2k4 = 1.13) für die K4, im Vergleich zur K3 als die Referenzgruppe deren Mittelwert und Standardabweichung zur Identifikation des Modells auf null bzw. eins fixiert wurden. Die empirischen Verteilungen der K3 und K4 sind im dritten Panel von oben der Abbildung 1 abgebildet. Die geschätzte Varianz der K4 σ2k4 = 1.13 war etwas größer als die der K3 (σ2k3 = 1).

Teilstudie 1: CAT-Simulation

Die CAT-Simulationen sollen herausstellen, ob (1) sich der Effizienzgewinn und die konstantere Präzision von CATs gegenüber FITs mit dem kalibrierten Itempool nachweisen lassen und (2) welche Präzision in Abhängigkeit mit der Testlänge erreicht werden kann. Eine Simulation ist für die Schätzung der Präzision in Abhängigkeit zu Fähigkeitsausprägung besonders aussagekräftig, weil sie Itemanzahl, Content Balancing und Restriktionen bei der Itemselektion berücksichtigen kann. Um die Präzision eines CAT einzuschätzen, wurden verschiedene CAT-Varianten mit dem R-Paket ‚catR‘ simuliert (Magis et al., 2017) und mit FIT-Varianten gleicher Länge verglichen. Grundlage der Simulation waren die geschätzten Item- (ai, bi und c) und Gruppenparameter (µk3, σ2k3, µk4 und σ2k4) sowie 1 000 simulierte SuS je Klassenstufe.

Die Selektion des jeweils ersten Items erfolgte nach Klassenstufenmittelwerten (µk3 und µk4), danach wurde die Itemselektion innerhalb eines CAT-Durchlaufes anhand der maximalen Fisher-Information (mFI) mit Content Balancing und der Aufgaben-Text-Zuordnung vorgenommen. Das Content Balancing erfolgte anhand des bei Kingsbury und Zara (1989) beschriebenen mehrstufigen Algorithmus, der im Wesentlichen Items auf Basis der mFI aus zufällig bestimmten Inhaltsbereichen zieht.

Die Standardfehler der Personenschätzer wurden mittels des im R-Paket ‚catR‘ implementierten Asymptotic Standard Errors bestimmt (Magis, 2016). Der mittlere Standardfehler der simulierten SuS diente danach zur Schätzung der Reliabilität, die sich wiederum aus dem mittleren Standardfehler und der Standardabweichung der Fähigkeit innerhalb der Klassenstufe ergab (Rel = 1 (Mse / σk)2 bei σk3 = 1.00, σk4 = 1.09; Bortz & Döring, 2006).

Die Simulation wurde mit drei Testlängen durchgeführt. Ein CAT mit festgelegter Testlänge kann einfacher bei Erhebungen in Klassensettings eingesetzt werden als ein CAT mit Präzisionskriterium, weil ein Präzisionskriterium zu größeren Unterschieden in der Bearbeitungszeit zwischen den SuS führen kann. In der ersten Simulation wurde von einer maximalen Testlänge von 85 Items ausgegangen (Maximal-CAT), um die maximale Präzision des Itempools zu berechnen. Die maximale Testlänge entspricht der Anzahl der Texte (N = 85), weil eine Person immer nur eine Aufgabe pro Text bearbeiten kann (siehe ESM 1 für eine detaillierte Begründung des Vorgehens). Die zweite Simulation wurde mit 25 Items durchgeführt (Präzisions-CAT). Anhand der Bearbeitungszeiten aus der Kalibrierungsstudie ließ sich errechnen, dass 80 Prozent der SuS nach 35 Minuten den Präzisions-CAT vollständig bearbeiten könnten. Der Präzisions-CAT wäre für eine Testung innerhalb einer Schulstunde (i. d. R. 45 Minuten) geeignet. Die dritte Simulation wurde mit acht Items durchgeführt (Screening-CAT). Acht Items ermöglichen die Bearbeitung von jeweils zwei Items aus jedem Inhaltsbereich. Vorherige Bearbeitungszeiten zeigten, dass 80 % der SuS den Screening-CAT vollständig innerhalb von zwölf Minuten bearbeiten könnten. Die CATs wurden jeweils mit einem FITs gleicher Länge verglichen. Die Items für die drei FITs wurden so ausgewählt, dass unter den gegebenen Restriktionen (d. h. Inhaltsbalancierung und Aufgaben-Text-Zuordnung) die Reliabilität für die jeweilige Klassenstufe maximiert wurde.

Ergebnisse CAT-Simulation

Abbildung 2 zeigt die Standardfehlerkurven der simulierten FIT und CAT über den angenommenen Fähigkeitsbereich. Der Standardfehler se unterscheidet sich zwischen der K3 und K4 nur aufgrund des Fähigkeitsniveaus, daher sind die Kurven in Abbildung 2 nicht nach Klassenstufe getrennt. Die durchgezogene Kurve zeigt den se des FITs und die gestrichelte Linie den des CATs. Es zeigt sich, dass der Präzisions-CAT (25 Items) im gesamten Fähigkeitsbereich mit akzeptabler Präzision (se < .45) misst. Ein Screening-CAT (12 Items) hat eine besonders hohe Präzision im unteren Fähigkeitsbereich.

Abbildung 2 Verlauf der Standardfehler (se) von Tests mit festgelegter Itemabfolge (FIT) und computeradaptiven Tests (CAT) über das Fähigkeitskontinuum (θp) mit unterschiedlichen Testlängen (8, 25 und 85 Items).
Tabelle 3 Ergebnisse der CAT Simulation nach Klassenstufe (K) und Testlänge in Items (I)

Die mittleren Standardfehler (Mse) unterscheiden sich in der simulierten Stichprobe von 1 000 SuS pro Testvarianten signifikant zwischen CAT und FIT für alle Testlängen und beide Klassenstufen (siehe Tabelle 3). Der Präzisionsvorteil des CATs ist dabei umso höher, je kürzer der Test ist. Die Standardabweichung der Standardfehler (SDse) ist bei allen CATs geringer als den FITs. Diese zeigt, dass die CATs mit Hilfe des kalibrierten Itempools mit einem konstanteren Standardfehler messen können, als die FITs.

In beiden Klassenstufen wurde das Textverständnis mit einer etwa gleichen Reliabilität erfasst (siehe Tabelle 3). Der Präzisions-CAT erreichte für beide Klassenstufen eine sehr gute Reliabilität von Rel ≈ .91 und der Screening-CAT zeigte eine gute Reliabilität von Rel ≈ .80.

Teilstudie 2: Testwertinterpretation

Zur Prüfung der Testwertinterpretation (TWI) im Sinne einer Textverständnis-Niveauleistung und in Abgrenzung zu Konstrukten, die stärker Leseflüssigkeit erfassen, wurden fünf Hypothesen (H1 – H5) abgeleitet. Die Hypothesen werden jeweils für die drei Teilstichproben überprüft.

Zunächst sollte der Zusammenhang zwischen Testwerten mit zunehmender theoretischer Distanz zwischen den Konstrukten abnehmen (H1). Die Testwerte für Textverständnis, gemessen mit dem Itempool (TVIP), sollte am höchsten mit anderen Maßen für Textverständnis korrelieren.

Zudem sollten TVIP höher mit Maßen für Dekodiergeschwindigkeit und Wortschatz zusammenhängen als mit Maßen für figurale kognitive Grundfertigkeiten. Zudem sollte der Zusammenhang zwischen Textverständnismaßen absolut gesehen stark sein (r > .5; H2). Ebenfalls sollte der Zusammenhang zwischen TVIP und der Dekodiergeschwindigkeit sowie dem Wortschatz mindestens moderat sein (r > .3), da Textverständnis die effiziente Bewältigung der Teilprozesse des Leseverstehen auf der Wort- und Satzebene erfordert (Richter et al., 2012). Ein moderater Zusammenhang zwischen phonologischer Rekodierung (rxyz = .44) und orthographischen Vergleichsprozessen (rxyz = .56) sowie Zugriff auf die Wortbedeutung (rxyz = .39) und dem Textverständnis konnte (unter Kontrolle der Klassenstufe in der Grundschule; Richter, Isberner, Naumann & Neeb, 2013) bereits gezeigt werden (H3). Demzufolge sollte der Zusammenhang zwischen TVIP und figuralen kognitiven Grundfertigkeiten zumindest nicht stark sein (r < .5; H4). Textverständnis umfasst auch höhergeordnete Prozesse wie das Bilden von Kohärenz. Lokale Kohärenzbildung kann im Unterschied zu anderen Leseteilprozessen einen moderaten Zusammenhang (rxyz = .36) mit der figuralen kognitiven Grundfertigkeit aufweisen (Richter et al., 2012). Zuletzt sollte die effiziente Bewältigung der Teilprozesse des Leseverstehens auf Wort- und Satzebene umso relevanter für das Textverständnis werden, je weniger Zeit für wiederholtes Lesen (z. B. von phonologisch schwierigen Wörtern) oder Anwendung von Lesestrategien zur Verfügung steht (H5). Die Dekodiergeschwindigkeit sollte geringer mit dem TVIP zusammenhängen als mit Maßen, die Textverständnis mit einem zeitrestringierten Testverfahren erfassen.

Methode

Zur Überprüfung der TWI des Textverständnisitempools (TVIP) wurden die Instrumente ELFE 1 – 6 (Lenhard & Schneider, 2006) als zeitrestringierter Test für Leseverständnis auf Textniveau, die Würzburger Leise Leseprobe – Revision (WLLP-R; Schneider, Blanke, Faust & Küspert, 2011) für die Dekodiergeschwindigkeit auf Wortebene sowie altersspezifische Maße (siehe ESM 8 für detaillierte Beschreibung der Referenzmaße) für kognitive Grundfähigkeiten (KGF; K3: Heller & Geisler, 1983, K4: Heller & Perleth, 2000) herangezogen. Letztere wurden mit einer figuralen (KGFf) und einer verbalen Facette (KGFv) gemessen. Die Testverfahren wurden im Papier-und-Bleistift-Format in den Kalibrierungsstudien miterhoben (siehe ESM 8 für detaillierte Beschreibungen).

Bei der TWI von ELFE 1 – 6 und TVIP sollten Auswertung und Testadministration berücksichtigt werden. Der Untertest Leseverständnis auf Textniveau des ELFE 1 – 6 enthielt 20 Items, die in sieben Minuten beantwortet werden konnten. Die meisten SuS schafften es nicht, alle Items in der gegebenen Zeit zu bearbeiten. Die Auswertung des Tests erfolgte anhand der Anzahl richtig beantworteter Items. Eine hohe Testleistung erforderte eine hohe Leseflüssigkeit und ein gutes Leseverständnis. Die Auswertung des TVIP erfolgte im Vergleich anhand der Schwierigkeit der beantworteten Items. Für eine hohe Testleistung mussten SuS in der Lage sein, schwierige Items richtig zu beantworteten. Der ELFE 1 – 6 erfasste möglicherweise eher eine Mischung aus Leseflüssigkeit und Leseverständnis auf Textniveau und der TVIP im Vergleich dazu eher das Niveau des Textverständnisses, unabhängiger von der Leseflüssigkeit und der Anzahl bearbeiteter Items.

Die Prüfung der ersten vier Hypothesen wurde anhand von Korrelationen zwischen dem TVIP und den Referenzmaßen in den drei Teilstichproben vorgenommen. Als Test auf Unterschiedlichkeit zweier Korrelationen diente der Williams’ t-Test. Bei der Berechnung der Korrelationen und ihrer Standardfehler wurde die hierarchische Stichprobenstruktur auf Klassenebene berücksichtigt (siehe detailliertes Vorgehen in ESM 8).

Zur Prüfung der fünften Hypothese wurden zwei lineare Regressionsmodelle mit gemischten Effekten verglichen. Die abhängige Variable des ersten Modells war TVIP und die des zweiten der ELFE 1 – 6. Beide Modelle enthielten die Referenzmaße als unabhängige Variablen (feste Effekte) und die Klassenzugehörigkeit als Zufallseffekt (‚lme4‘; Bates, Mächler, Bolker & Walker, 2014; siehe detailliertes Vorgehen in ESM 8).

Ergebnisse Testwertinterpretation

Eine vollständige Korrelationstabelle, der ausführliche Bericht der Regressionsanalyse und die einzelnen Hypothesentests aufgeschlüsselt nach Teilstichproben werden im ESM 8 berichtet.

Die Ergebnisse für die K3-Stichproben stützen die H1, dass der Zusammenhang zwischen Testwerten mit der theoretischen Distanz zwischen gemessenen Konstrukten abnimmt (rTVIP-ELFErTVIP-WLLP & rTVIP-KGFvrTVIP-KGFf & rTVIP-WLLP > rTVIP-KGFf). In der K4-Stichprobe ist KGFf und TVIP nicht signifikant niedriger korreliert als WLLP-R und TVIP (rTVIP-KGFf ≠ rTVIP-WLLP, t = 0.47, p = .641).

Zudem stützen die Ergebnisse die H2, da ein starker Zusammenhang zwischen TVIP und ELFE 1 – 6 für alle Teilstichproben besteht (rTVIP-ELFE > .5).

Des Weiteren, stützen die Ergebnisse die H3, die eine zumindest moderate Korrelation zwischen TVIP mit WLLP-R und KGFv (rTVIP-WLLP > .30 und rTVIP-KGFv > .30) für alle Teilstichproben angenommen hat.

Die H4 wird ebenfalls gestützt, da TVIP und KGFf in den K3-Stichproben weniger stark zusammenhängen (rTVIP-KGFf < .50). Die Korrelationen liegen in einem Bereich zwischen r = .10 und r = .35 in den K3-Stichproben. Die Korrelation in der K4 beträgt dabei r = .45 und ist nicht signifikant unterschiedlich von r = .5 (rTVIP-KGFf ≠ .5, t = -1.64, p = .102), die als stark angesehen wird.

Zuletzt wird die H5 gestützt, da die Testwerte im TVIP geringer von dem WLLP-R beeinflusst werden als die Testwerte im ELFE 1 – 6. Der Vergleich der Konfidenzintervalle der standardisierten Regressionsgewichte (β) zeigte keine Überlappung (siehe Tabelle 4).

Die Testwertinterpretation wird durch die überwiegende Übereinstimmung zwischen statistischen Zusammenhang und theoretischer Distanz gestützt. Nur die Korrelation zwischen TVIP und KFGf in der K4 war widererwarten höher als TVIP und WLLP-R. Der durchgehend hohe Zusammenhang zwischen ELFE 1 – 6 und TVIP sowie der geringere Zusammenhang zwischen TVIP und WLLP-R als beim ELFE 1 – 6 legt eine Interpretation im Sinne eines Textverständnisniveautests nahe.

Tabelle 4 Gemischte Regressionsmodelle mit dem Textverständnis gemessen mit dem Itempool (TVIP) und dem ELFE 1 – 6 als Kriterium, den Validierungsmaßen (Maß) als Prädiktoren

Zusammenfassung und Diskussion

Die vorliegende Studie beschreibt die Entwicklung eines CAT-optimierten Itempools für die Messung von Textverständnis in der dritten und vierten Klassenstufe der Grundschule. In zwei verlinkten Erhebungen mit insgesamt N = 1 975 SuS wurden Textverständnisitems kalibriert. Es ergab sich ein auf Qualitätsanforderungen geprüfter Itempool mit 132 Items. Auf Basis der geschätzten Item- und Klassenstufenparametern konnten drei CAT-Varianten simuliert und je einem FIT mit gleicher Länge verglichen werden.

CAT-Simulation

Die Simulationen ergaben, dass der Itempool einem CAT erlaubt, im Vergleich zu einem FIT mit durchschnittlich höherer und mit konstanter Präzision zu messen. Dies gilt für verschiedene Testlängen und über beiden Klassenstufen hinweg. Die CAT-Varianten waren bis zu 19 % reliabler als die FIT-Varianten. Die Präzisionsvorteile sind dabei umso größer, je kürzer der Test ist.

Ein auf Präzision ausgelegter CAT (35 Minuten Bearbeitungszeit) hat eine sehr gute Reliabilität. Die Reliabilität des Präzisions-CAT ist vergleichbar mit der Reliabilität, die in LSA in der Grundschule berichtet werden (Martin, Mullis & Hooper, 2017). Die LSA-Tests nehmen jedoch eine deutlich höhere Testzeit in Anspruch. Forschende könnten mit diesem CAT auch geringe Veränderungen im Textverständnis nachweisen. Durch die hohe Präzision im unteren Fähigkeitsbereich der K3 und K4 wäre ein CAT besonders für Forschung an Subgruppen im schwächeren Fähigkeitsbereich geeignet (z. B. Jungen mit sprachlichem Migrationshintergrund).

Ein Screening-CAT kann Textverständnis mit einer noch guten Reliabilität erfassen. Die Reliabilität des Screening-CAT ist vergleichbar mit der von Speed Tests wie dem ELFE 1 – 6 oder dem Leseverständnistest ELFE II auf Textniveau (Lenhard, Lenhard & Schneider, 2017). Mit einer Bearbeitungszeit von zwölf Minuten wäre ein Screening-CAT vermutlich der bisher effizienteste deutschsprachige Niveautest für Textverständnis in der Grundschule. Die Größe des Itempools würde auch Wiederholungsmessungen ohne erneute Bearbeitung der gleichen Items erlauben. Die Effizienz und die Möglichkeit zur Messwiederholung ohne Erinnerungseffekte könnte Lernverlaufsdiagnostik im Unterricht attraktiver machen (Hasselhorn, Schneider & Trautwein, 2014).

Testwertinterpretation

Die Prüfung der TWI ergab inkonsistente Ergebnisse und erfordert weitere Untersuchungen. Während in den K3-Stichproben alle fünf Hypothesen zur TWI gestützt werden, gilt dies in der K4-Stichprobe nur für drei der fünf Hypothesen. In der K4 sind KGFf höher mit dem Textverständnis assoziiert als erwartet.

Über eine Begründung für die hohe Korrelation mit den KGFf in der K4 kann momentan nur spekuliert werden. Eine Betrachtung der Regressionsmodelle zeigt, dass der Zusammenhang von Dekodiergeschwindigkeit mit TVIP in der K4 geringer ist als in der K3, während er zwischen KGFf und TVIP in der K4 höher ist als in der K3. Auf dem niedrigeren Niveau der K3 könnten SuS bei der Bearbeitung der Textverständnisitems noch stärker durch ihre Dekodiergeschwindigkeit limitiert sein. Auf dem höheren Niveau der K4 sind SuS möglicherweise stärker durch die Fähigkeit limitiert, Kohärenz und Inferenzen zu bilden. Die Fähigkeit, Kohärenz und Inferenzen zu bilden, hängt stärker mit den allgemeinen kognitiven Grundfähigkeiten zusammen als andere lesebezogenen Fähigkeiten (Segers & Verhoeven, 2016). Dieser Effekt zeigt sich nicht beim ELFE 1 – 6, weil die Bearbeitungszeit stärker begrenzt ist und dadurch auch SuS der K4 in ihrer Dekodiergeschwindigkeit limitiert sind. Der zugrundliegende Mechanismus hinter dem Zusammenhang zwischen KGFf und dem Textverständnis gemessen mit dem Itempool muss jedoch zur weiteren Prüfung der TWI tiefergehend untersucht werden.

Limitation und Ausblick

Trotz der vergleichsweise großen Itemanzahl würde der Itempool von mehr trennscharfen Items in den Fähigkeitsrandbereichen und hier vor allem im höheren Fähigkeitsbereich profitieren. Im Hinblick auf Wiederholungsmessungen wäre auch eine allgemeine Erweiterung des bestehenden Itempools sicherlich fruchtbar. Der Neukonstruktion von Items sollte zunächst eine Untersuchung der schwierigkeitsgenerierenden Itemmerkmale vorausgehen, damit Items gezielt für gewünschte Schwierigkeiten konstruiert werden können (Leucht, Harsch, Pant & Köller, 2012). Die Modellierung schwierigkeitsgenerierender Merkmale könnte darüber hinaus zur Kriterienreferenzierung der Textverständnisskala beitragen (Hartig & Frey, 2015). Des Weiteren sollte geklärt werden, ob sich mit einer Anpassung der Itemkonstruktionsprinzipien der Zusammenhang zwischen dem Textverständnis und allgemeinen kognitiven Grundfähigkeiten in der K4 verringern lässt.

In der vorliegenden Studie wurden die Bearbeitungszeiten (mit Ausnahme der Identifizierung von Rapid Guessing) noch nicht ausgewertet. Somit ist die Bearbeitungszeit zum einen eine unerschlossene Informationsquelle und zum anderen ist die Rolle der individuellen Speed-Accuracy Tradeoff nicht statistisch behandelt. Dabei ist die Beziehung zwischen Fähigkeit und Geschwindigkeit komplex (z. B. Goldhammer, 2015). In dieser Studie wurden CATs und FITs mit gleicher Itemanzahl verwendet. Dabei war die Itemanzahl so gewählt, dass 80 % der SuS den Test vollständig bearbeiten können (25 Items in 35 Minuten oder 8 Items in 12 Minuten). Eine gemeinsame Modellierung von Bearbeitungszeit und Antwortverhalten (Klein Entink, Kuhn, Hornke & Fox, 2009) könnte zum Beispiel in Zukunft die Auswertung ergänzen oder dazu beitragen, den CAT für die Verwendung im Klassensetting mit festgelegter Testzeit zu optimieren. Ein CAT könnte neben dem Informationsgehalt auch die Arbeitsintensität von Items berücksichtigen. Perspektivisch könnte dadurch die Präzision des Tests besonders in den Fähigkeitsrandbereichen verbessert werden.

Der Itempool bildet die Grundlage für eine effiziente und reliable Niveaumessung von Textverständnis in der Grundschule. Das hier beschriebene Verfahren mit festgelegter Testlänge kann in vergleichbarer Weise wie ein FIT in Klassensettings administriert werden. Interessierte sind eingeladen, sich auch vor einer Verlagspublikation des Testverfahrens an das Autorenteam zu wenden, um den Textverständnis-CAT nutzten zu können.

Besonderer Dank gebührt Dr. Franziska Schwabe, die das Projekt mit ihrem Einsatz unter anderem bei der Testentwicklung und der Datenerhebung möglich gemacht hat. Außerdem danken wir den Hilfskräften, die an dem Projekt mitgewirkt haben.

Literatur

  • Bates, D., Mächler, M., Bolker, B. & Walker, S. (2014). Fitting linear mixed-effects models using lme4. arXiv preprint arXiv:1406.5823. https://arxiv.org/abs/1406.5823v1 First citation in articleGoogle Scholar

  • Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluation (4. Aufl.). Berlin: Springer. First citation in articleCrossrefGoogle Scholar

  • Eckes, T. (2014). Lokale Abhängigkeit von Items im TestDaF-Leseverstehen. Diagnostica, 61, 93 – 106. First citation in articleLinkGoogle Scholar

  • Embretson, S. E. & Reise, S. P. (2000). Item response theory for psychologists. Hillsdale, NJ: Erlbaum. https://doi.org/10.1007/978-94-6209-404-8_3 First citation in articleGoogle Scholar

  • Fitzgerald, J., Elmore, J., Koons, H., Hiebert, E. H., Bowen, K., Sanford-Moore, E. E. & Stenner, A. J. et al. (2015). Important text characteristics for early-grades text complexity. Journal of Educational Psychology, 107, 4 – 29. https://doi.org/10.1037/a0037289 First citation in articleCrossrefGoogle Scholar

  • Frey, A. (2008). Adaptives Testen. In H. MoosbruggerA. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 261 – 278). Berlin: Springer. https://doi.org/10.1007/978-3-540-71635-8_11 First citation in articleCrossrefGoogle Scholar

  • Frey, A., Hartig, J. & Rupp, A. A. (2009). An NCME instructional module on booklet designs in large-scale assessments of student achievement: Theory and practice. Educational Measurement: Issues and Practice, 28, 39 – 53. https://doi.org/10.1111/j.1745-3992.2009.00154.x First citation in articleCrossrefGoogle Scholar

  • Goldhammer, F. (2015). Measuring ability, speed, or both? Challenges, psychometric solutions, and what can be gained from experimental control. Measurement Interdisciplinary Research and Perspectives, 13, 133 – 164. https://doi.org/10.1080/15366367.2015.1100020 First citation in articleCrossrefGoogle Scholar

  • Graesser, A. C., McNamara, D. S. & Kulikowich, J. M. (2011). Coh-Metrix: Providing multilevel analyses of text characteristics. Educational Researcher, 40, 223 – 234. https://doi.org/10.3102/0013189X11413260 First citation in articleCrossrefGoogle Scholar

  • Green, B. F., Bock, R. D., Humphreys, L. G., Linn, R. L. & Reckase, M. D. (1984). Technical guidelines for assessing computerized adaptive tests. Journal of Educational Measurement, 21, 347 – 360. https://doi.org/10.1111/j.1745-3984.1984.tb01039.x First citation in articleCrossrefGoogle Scholar

  • Hartig, J. & Frey, A. (2015). Konstruktvalidierung und Skalenbeschreibung in der Kompetenzdiagnostik durch die Vorhersage von Aufgabenschwierigkeiten. Psychologische Rundschau, 63, 43 – 49. https://doi.org/10.1026/0033-3042/a000109 First citation in articleLinkGoogle Scholar

  • Hartig, J. (2008). Assessment of competencies in educational contexts. In J. HartigE. KliemeD. Leutner. (Eds.), Psychometric models for the assessment of competencies (pp. 69 – 90). Hogrefe: Göttingen. First citation in articleGoogle Scholar

  • Hasselhorn, M., Schneider, W. & Trautwein, U. (Hrsg.). (2014). Lernverlaufsdiagnostik (Reihe: Tests und Trends, Bd. 12.). Göttingen: Hogrefe. First citation in articleGoogle Scholar

  • Heller, K. A. & Geisler, H.-J. (1983). Kognitiver Fähigkeitstest für 1. bis 3. Klassen. Weinheim: Beltz. First citation in articleGoogle Scholar

  • Heller, K. A. & Perleth, C. (2000). Kognitiver Fähigkeitstest für 4. bis 12. Klassen, Revision. Göttingen: Hogrefe. First citation in articleGoogle Scholar

  • Kingsbury, G. G. & Zara, A. R. (1989). Procedures for selecting items for computerized adaptive tests. Applied Measurement in Education, 2, 359 – 375. https://doi.org/10.1207/s15324818ame0204_6 First citation in articleCrossrefGoogle Scholar

  • Kintsch, W. (1988). The role of knowledge in discourse comprehension: A construction-integration model. Psychological Review, 95, 163 – 182. https://doi.org/10.1037/0033-295X.95.2.163 First citation in articleCrossrefGoogle Scholar

  • Klein Entink, R. H., Kuhn, J.-T., Hornke, L. F. & Fox, J.-P. (2009). Evaluating cognitive theory: A joint modeling approach using responses and response times. Psychological Methods, 14, 54 – 75. https://doi.org/10.1037/a0014877 First citation in articleCrossrefGoogle Scholar

  • Köhler, C. & Hartig, J. (2017). Practical significance of item misfit in educational assessments. Applied Psychological Measurement, 41, 388 – 400. https://doi.org/10.1177/0146621617692978 First citation in articleCrossrefGoogle Scholar

  • Köhler, C., Robitzsch, A. & Hartig, J. (2020). A bias-corrected RMSD item fit statistic: An evaluation and comparison to alternatives. Journal of Educational and Behavioral Statistics, 45 (3), 251 – 273. https://doi.org/10.3102/1076998619890566 First citation in articleCrossrefGoogle Scholar

  • Lenhard, W. & Schneider, W. (2006). ELFE 1 – 6: Ein Leseverständnistest für Erst- bis Sechstklässler. Göttingen: Hogrefe. First citation in articleGoogle Scholar

  • Lenhard, W. & Schneider, W. (Hrsg.). (2009). Diagnostik und Förderung des Leseverständnisses (Reihe: Tests und Trends, Bd. 7). Göttingen: Hogrefe. First citation in articleGoogle Scholar

  • Lenhard, W., Lenhard, A. & Schneider, W. (2017). ELFE II – Ein Leseverständnistest für Erst- bis Siebtklässler. Göttingen: Hogrefe. First citation in articleGoogle Scholar

  • Leucht, M., Harsch, C., Pant, H. A. & Köller, O. (2012). Steuerung zukünftiger Aufgabenentwicklung durch Vorhersage der Schwierigkeiten eines Tests für die erste Fremdsprache Englisch durch Dutch Grid Merkmale. Diagnostica, 58, 31 – 44. https://doi.org/10.1026/0012-1924/a000063 First citation in articleLinkGoogle Scholar

  • Magis, D. (2016). Efficient standard error formulas of ability estimators with dichotomous item response models. Psychometrika, 81, 184 – 200. https://doi.org/10.1007/s11336-015-9443-3 First citation in articleCrossrefGoogle Scholar

  • Magis, D., Yan, D. & Von Davier, A. A. (2017). Computerized adaptive and multistage testing with R: Using packages catr and mstr. Berlin: Springer. https://doi.org/10.1007/978-3-319-69218-0 First citation in articleCrossrefGoogle Scholar

  • Martin, M. O., Mullis, I. V. & Hooper, M. (2017). Methods and Procedures in PIRLS 2016. Chestnut Hill, MA: International Association for the Evaluation of Educational Achievement. First citation in articleGoogle Scholar

  • McDonald, R. P. (2013). Test theory: A unified treatment. New York, NY: Psychology Press. https://doi.org/10.4324/9781410601087 First citation in articleCrossrefGoogle Scholar

  • McElvany, N., Becker, M. & Lüdtke, O. (2009). Die Bedeutung familiärer Merkmale für Lesekompetenz, Wortschatz, Lesemotivation und Leseverhalten. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 41, 121 – 131. https://doi.org/10.1026/0049-8637.41.3.121 First citation in articleLinkGoogle Scholar

  • McKoon, G. & Ratcliff, R. (1992). Inference during reading. Psychological Review, 99, 440 – 446. https://doi.org/10.1037/0033-295x.99.3.440 First citation in articleCrossrefGoogle Scholar

  • McNamara, D. S., Ozuru, Y. & Floyd, R. G. (2011). Comprehension challenges in the fourth grade: The roles of text cohesion, text genre, and readers’ prior knowledge. International Electronic Journal of Elementary Eeducation, 4 (1), 229 – 257. Retrieved from https://www.iejee.com/index.php/IEJEE/article/view/222 First citation in articleGoogle Scholar

  • Monahan, P. O., McHorney, C. A., Stump, T. E. & Perkins, A. J. (2007). Odds ratio, delta, ETS classification, and standardization measures of DIF magnitude for binary logistic regression. Journal of Educational and Behavioral Statistics, 32, 92 – 109. https://doi.org/10.3102/1076998606298035 First citation in articleCrossrefGoogle Scholar

  • Richter, T., Isberner, B., Naumann, J. & Kutzner, Y. (2012). Prozessbezogene Diagnostik von Lesefähigkeiten bei Grundschulkindern. Zeitschrift für Pädagogische Psychologie, 26, 313 – 331. https://doi.org/10.1024/1010-0652/a000079 First citation in articleLinkGoogle Scholar

  • Richter, T., Isberner, B., Naumann, J. & Neeb, Y. (2013). Lexical quality and reading comprehension in primary school children. Scientific Studies of Reading, 17, 415 – 434. https://www.learntechlib.org/p/155644/ First citation in articleCrossrefGoogle Scholar

  • Robitzsch, A., Kiefer, T. & Wu, M. (2019). TAM: Test Analysis Modules. R package version 3.3 – 10. https://CRAN.R-project.org/package=TAM First citation in articleGoogle Scholar

  • Schneider, W., Blanke, I., Faust, V. & Küspert, P. (2011). WLLP-R. Würzburger Leise Leseprobe–Revision. Göttingen: Hogrefe. First citation in articleGoogle Scholar

  • Schneider, W., Schlagmüller, M. & Ennemoser, M. (2007). LGVT 6 – 12: Lesegeschwindigkeits- und -verständnistest für die Klassen 6 – 12. Göttingen: Hogrefe. First citation in articleGoogle Scholar

  • Segers, E. & Verhoeven, L. (2016). How logical reasoning mediates the relation between lexical quality and reading comprehension. Reading and Writing, 29, 577 – 590. https://doi.org/10.1007/s11145-015-9613-9 First citation in articleCrossrefGoogle Scholar

  • Trendtel, M., Pham, G. & Yanagida, T. (2016). Skalierung und Linking. In S. BreitC. Schreiner (Hrsg.), Large-Scale Assessment mit R: Methodische Grundlagen der österreichischen Bildungsstandardüberprüfung (S. 185 – 224). Wien: facultas. First citation in articleGoogle Scholar

  • Van der Linden, W. J. (2016). Unidimensional logistic item response models. In W. J. van der Linden (Ed.), Handbook of item response theory (pp. 13 – 30). Boca Raton: CRC Press. https://doi.org/10.1007/978-1-4757-2691-6 First citation in articleGoogle Scholar

  • Wise, S. L. & DeMars, C. E. (2006). An application of item response time: The effort-moderated IRT model. Journal of Educational Measurement, 43, 19 – 38. https://doi.org/10.1111/j.1745-3984.2006.00002.x First citation in articleCrossrefGoogle Scholar

  • Wise, S. L. & Kingsbury, G. G. (2000). Practical issues in developing and maintaining a computerized adaptive testing program. Psicológica, 21, 135 – 155. https://www.redalyc.org/pdf/169/16921108.pdf First citation in articleGoogle Scholar

  • Yamamoto, K., Khorramdel, L. & Von Davier, M. (2013). Scaling PIAAC cognitive data. In OECD (Ed.), Technical report of the survey of adult skills (PIAAC) (pp. 408 – 440). https://www.oecd.org/skills/piaac/_Technical%20Report_17OCT13.pdf First citation in articleGoogle Scholar