Skip to main content
Open AccessOriginalarbeit

Diagnosegenauigkeit von Deutschlehrkräften in der Grundschule: Eine Frage des Antwortformats?

Published Online:https://doi.org/10.1024/1010-0652/a000216

Abstract

Zusammenfassung. Die Fähigkeit einer Lehrkraft, Schülerleistungen und Aufgabenanforderungen akkurat einzuschätzen, ist essenziell, um adäquate pädagogische Entscheidungen zu treffen. Bislang ist unklar, inwiefern die Diagnoseakkuratheit von Lehrkräften auch vom Format der von den Schulkindern bearbeiteten Testaufgaben abhängt. Mit Daten der Lesekompetenzdiagnostik der Vergleichsarbeiten in der 3. Jahrgangsstufe (VERA) von 2012 bis 2016 wurde für N = 973 Grundschulklassen geprüft, ob Lehrkräfte die Schwierigkeit von Aufgaben mit geschlossenem Antwortformat (multiple-choice [MC]) vergleichbar genau einschätzen können wie für Aufgaben mit offenem Antwortformat (constructed response [CR]). Die durchschnittliche Klassenleistung (Niveaukomponente) wurde von den Lehrkräften bei CR-Aufgaben überschätzt, wohingegen die Klassenleistung bei MC-Aufgaben vergleichbar stark unterschätzt wurde. Die Korrelation zwischen Lehrkrafteinschätzung und Klassenleistung (Rangordnungskomponente) war in vier der fünf Jahre signifikant höher für CR-Aufgaben als für MC-Aufgaben. Die Diagnoseakkuratheit von Lehrkräften sollte somit nicht unabhängig vom Aufgabenformat betrachtet werden. Die Befunde werden hinsichtlich MC-spezifischer Aufgabeneigenschaften und möglicher Diagnoseprozesse diskutiert.

Judgment Accuracy of German Elementary School Teachers: A Matter of Response Formats?

Abstract. Teachers' ability to accurately assess students' performance and item difficulties is essential for making adequate educational decisions in the classroom. So far, it is unknown how the accuracy of teachers' judgments is also related to the item response format that is used for assessing students' performances. Using data of state-wide reading proficiency tests in grade 3 (VERA) from the years 2012 to 2016 (N = 973 elementary school classes), we tested whether teachers' judgment accuracy was comparable for items with closed response formats (multiple-choice [MC]) and items with open response formats (constructed response [CR]). Teachers tended to overestimate students' performance for CR items and to underestimate students' performance to a similar extent for MC items. In four out of five years, the correlation between teachers' judgments and students' performances was significantly larger for CR items than for MC items. Thus, response formats should be taken into account when it comes to the accuracy of teachers' judgments. The findings are discussed with regard to MC-specific item properties and possible judgment processes.

Die Diagnoseakkuratheit (auch Urteils- oder Diagnosegenauigkeit1) von Lehrkräften ist ein wichtiger Aspekt der diagnostischen Kompetenz (Schrader, 2013). Die akkurate Einschätzung von Schülermerkmalen und -leistungen sowie die adäquate Beurteilung von Lernsituationen und Aufgabenanforderungen gelten als elementare berufsbezogene Fähigkeiten, denen auch in der Ausbildung von Lehrkräften und bei der Qualitätsentwicklung an Schulen zunehmend Beachtung geschenkt werden, obgleich bislang umfassende Befunde fehlen, die die theoretisch angenommene Relevanz empirisch belegen (Artelt & Gräsel, 2009; Praetorius & Südkamp, 2017). Die Diagnoseakkuratheit definiert sich durch die Übereinstimmung zwischen der Einschätzung unterrichtsrelevanter Merkmale (z.B. Eigenschaften von Kindern oder Aufgaben) und der tatsächlichen Ausprägung dieser Merkmale. Wenngleich Fragen der Diagnoseakkuratheit von Lehrkräften vielfach von der Forschung adressiert wurden (vgl. z.B. Südkamp, Kaiser & Möller, 2012), ist die allgemeine Forschungslage bislang nicht vollends befriedigend (Artelt & Gräsel, 2009). Dies geht unter anderem auf die Befundlage zurück, dass die Urteilsgüte von Lehrkräften bei der Einschätzung ihrer Schülerinnen und Schüler hinsichtlich verschiedener Merkmale (z.B. Spinath, 2005) und bezogen auf verschiedene Aufgaben (Anders, Kunter, Brunner, Krauss & Baumert, 2010) zum Teil stark schwankt. Weiterhin korrelieren verschiedene Akkuratheitskomponenten in empirischen Studien nur mäßig miteinander (Spinath, 2005). Aufgrund dieser Heterogenität wird davon ausgegangen, dass es sich bei der Diagnoseakkuratheit nicht um eine übergreifende, rein diagnostische Fähigkeit von Lehrkräften handelt, sondern situations- und bereichsspezifische Komponenten berücksichtigt werden müssen (vgl. z.B. Schrader, 2009). Entsprechend bedeutsam ist es, Faktoren zu identifizieren, die signifikanten Einfluss auf die Diagnoseakkuratheit von Lehrkräften nehmen.

In diesem Zusammenhang stellt die bislang unbekannte Rolle des Aufgabenformats der bearbeiteten Referenztestaufgaben bei der aufgabenbezogenen Akkuratheit eine relevante Forschungslücke dar. Bei der Erfassung von schriftlichen Schulleistungen kann im Wesentlichen zwischen geschlossenen und offenen Antwortformaten unterschieden werden. Bei geschlossenen Antwortformaten werden mehrere Antwortoptionen vorgegeben, aus denen die Schülerinnen und Schüler die richtige[n] auswählen müssen (z.B. multiple-choice [MC]). Bei offenen Antwortformaten ist es Aufgabe der Schülerinnen und Schüler, die Antwort selbstständig zu formulieren (constructed response [CR]). Forschungsbefunde der pädagogisch-psychologischen Diagnostik zu den Charakteristika von MC- und CR-Antwortformaten (vgl. Lindner, Strobel & Köller, 2015) sowie Unterschiede der typischen Nutzungsfrequenz der Formate in deutschen Klassenzimmern (Mullis, Martin, Kennedy & Foy, 2007) legen den Schluss nahe, dass auch die (aufgabenbezogene) Diagnoseakkuratheit von Lehrkräften systematisch mit dem Aufgabenformat variieren könnte. Die vorliegende Auswertung von Daten der Vergleichsarbeiten (VERA) in der Grundschule soll daher erste Hinweise liefern, inwiefern Formateigenschaften von Testaufgaben in der zukünftigen Diskussion der Diagnoseakkuratheit von Lehrenden stärker berücksichtigt werden sollten.

Komponenten der Diagnoseakkuratheit

Bei der Untersuchung der Diagnoseakkuratheit von Lehrkräften können verschiedene Blickwinkel eingenommen werden. So kann unter anderem die Urteilsakkuratheit bezogen auf die Einschätzung der Leistung einzelner Schülerinnen und Schüler (personenbezogene Beurteilung) oder auch bezogen auf die Einschätzung der Klassenleistung in verschiedenen Aufgaben (aufgabenbezogene Beurteilung) in den Fokus gestellt werden (vgl. Schrader, 1989). Um in der vorliegenden Studie den Zusammenhang der Eigenschaften des Testformats und der Urteilsakkuratheit der Lehrkräfte zu untersuchen, wird die aufgabenbezogene Diagnoseakkuratheit betrachtet. Insbesondere für die Gestaltung eines Unterrichts, der den Schülerinnen und Schülern eine individuelle Förderung gemäß ihrer Lernvoraussetzungen bieten soll, ist die Fähigkeit wichtig, Aufgaben mit der passenden Schwierigkeit auszuwählen. Ausgehend von der Arbeit von Schrader (1989) werden typischerweise drei Komponenten zur Erfassung der Diagnoseakkuratheit von Lehrkräften herangezogen, die sich aus der Berechnung spezifischer Abweichungen des Lehrerurteils von den tatsächlichen Lösungshäufigkeiten ergeben. Diese Indikatoren werden als (1) Niveaukomponente, (2) Differenzierungskomponente und (3) Rangordnungskomponente bezeichnet. Im Folgenden erläutern wir diese Komponenten unter Berücksichtigung des Schwerpunktes unserer Studie bezogen auf die aufgabenbezogene Diagnoseakkuratheit.

Die (1) aufgabenbezogeneNiveaukomponente ergibt sich aus der Differenz zwischen der von Lehrerseite aus erwarteten Aufgabenschwierigkeit und der tatsächlichen Aufgabenschwierigkeit. Aus psychometrischer Sicht ist eine möglichst geringe Abweichung von erwarteter und tatsächlicher Aufgabenschwierigkeit wünschenswert. Da sich Über- und Unterschätzungen rechnerisch potenziell gegenseitig aufheben, kann zudem der als Urteilsfehler bezeichnete Betrag der Niveaukomponente betrachtet werden (Anders et al., 2010; vgl. auch „Niveaufehler“ bei Schrader, 1989, S. 88). Abweichungen nach oben und unten gleichen sich dann nicht mehr aus, so dass die absolute Abweichung der Lehrkrafteinschätzung von der tatsächlichen Aufgabenschwierigkeit (Urteilsfehler) gleich hoch oder höher ausfällt als die aufgabenbezogene Niveaukomponente und so eine exaktere Auskunft über die Höhe der faktischen Verschätzung unabhängig von ihrer Richtung gibt.

Die (2) aufgabenbezogeneDifferenzierungskomponente erhält man, indem die Streuung der Lehrkrafturteile für die verschiedenen Testaufgaben durch die Streuung der tatsächlichen Lösungshäufigkeiten der Aufgaben geteilt wird. Eine akkurate Einschätzung der Aufgabenheterogenität entspricht dabei einem Wert nahe 1.

Die (3) aufgabenbezogeneRangordnungskomponente gibt an, inwieweit die Lehrkraft die relative Anordnung der Aufgabenschwierigkeiten korrekt einschätzen kann. Sie wird über die Produkt-Moment-Korrelation der von der Lehrkraft erwarteten Lösungshäufigkeiten der Aufgaben und der tatsächlichen Rangfolge der klassenbezogenen Lösungshäufigkeiten operationalisiert.

Zentrale empirische Befunde zur aufgabenbezogenen Diagnoseakkuratheit von Lehrkräften an deutschen Schulen sind in Tabelle 1 zusammengefasst. Die Kennwerte variieren zum Teil stark zwischen den einzelnen Studien. Weiterhin werden in einigen Studien nicht alle Diagnoseakkuratheitskomponenten berichtet. Bei der Niveaukomponente wurde die Aufgabenschwierigkeit in allen Studien (numerisch) unterschätzt. Auch die Differenzierungskomponente fiel für Grundschullehrkräfte in der Studie von Karst (2012) kleiner als 1 aus, was einer Unterschätzung der Aufgabenheterogenität entspricht. Weiterhin streuten die Werte der Rangordnungskomponente zum Teil stark sowohl zwischen als auch innerhalb der Studien. In der größten Stichprobe betrug die mittlere Rangordnungskomponente r− = .51 (n = 1143 Grundschullehrkräfte aus sieben Bundesländern; Schrader, Helmke, Hosenfeld, Halt & Hochweber, 2006). Hohe Streuungen zwischen den Lehrkräften (–.67 ≤ r ≤ .97; SD = .24) deuten hier auf große interindividuelle Unterschiede der aufgabenbezogenen Diagnoseakkuratheit hin.

Tabelle 1 Zentrale Befunde zur aufgabenbezogenen Diagnoseakkuratheit

Zur Erklärung dieser Unterschiede kommen beim diagnostischen Urteilsprozess verschiedene Aspekte der diagnostischen Situation und der beteiligten Akteure (Lehrer- und Schülereigenschaften) in Frage. Das heuristische Modell der Diagnoseakkuratheit von Südkamp, Kaiser und Möller (2017) benennt vier zentrale Einflussfaktoren auf die Diagnoseakkuratheit: (a) Merkmale der Lehrkräfte, (b) Merkmale der Schülerinnen und Schüler, (c) Merkmale des Testinstruments, das zur Leistungsdiagnose eingesetzt wird, sowie (d) Umstände des Urteils (siehe Abbildung 1). Eine umfassende Übersicht über empirische Zusammenhänge mit diesen Faktoren liefern die Arbeiten von Karst (2012), Schrader (1987) sowie Südkamp et al. (2012).

Abbildung 1 Heuristisches Modell der Diagnoseakkuratheit adaptiert nach Südkamp et al. (2017, S. 34) mit Hervorhebung der möglichen Bedeutung von Test- und Einschätzungseigenschaften

In Hinblick auf die mögliche Relevanz von Testmerkmalen, wie sie das heuristische Modell postuliert, fehlt in den bisherigen Meta-Analysen eine Betrachtung des Antwortformats, bei der Urteile zu Aufgaben mit geschlossenem Antwortformat mit Urteilen zu Aufgaben mit offenem Antwortformat verglichen werden. Es findet sich dort jedoch die Überlegung, dass die (personenbezogene) Diagnosegenauigkeit bei curriculum-based measures (CBM) besser sein sollte als bei standardisierten Leistungstests. Denn die Lehrkräfte sind mit unterrichtsbezogenem Testmaterial vertrauter als mit Large-Scale-Asssement-Instrumenten (vgl. Südkamp et al., 2012). In diesem Sinne wäre auch eine akkuratere aufgabenbezogene Einschätzung bei dem Aufgabenformat zu erwarten, mit dem die Lehrkraft mehr (Unterrichts-)Erfahrung hat.

Dass die Diagnoseakkuratheit unterschiedlich ausfällt, je nachdem welches Aufgabenformat als diagnostisches Instrument genutzt wird, deutet sich in der Befundübersicht in Tabelle 1 für bestimmte Komponenten an. Die größte Niveaukomponente wird für eine Arbeit berichtet, bei der sowohl CR- also auch MC-Aufgaben beurteilt wurden (M(NK) = 0.24; Schrader, 1989). Die beiden niedrigsten Werte zeigten sich in der Arbeit von Karst (2012; CR-Format; M(NK) = 0.04) sowie in der Arbeit von McElvany et al. (2009; MC-Format; M(NK) = 0.02). In diesen beiden Studien zeigen sich jedoch deutliche Formatunterschiede bezüglich des Urteilsfehlers, der für MC-Aufgaben (M(|NK|) = 0.17) größer ausfällt als für CR-Aufgaben (M(|NK|) = 0.11). Bei der Differenzierungskomponente fehlen bislang MC-spezifische Befunde. Die höchste mittlere Rangordnungskomponente findet sich in einer Studie, in der nur CR-Aufgaben verwendet wurden (r− = .82; Karst, 2012), und die niedrigste in einer Studie, in der nur MC-Aufgaben eingesetzt wurden (r− = .19 ; Karing, Pfost & Artelt, 2011).

Dass CR-Aufgaben hinsichtlich des Urteilsfehlers und der Rangordnungskomponente tendenziell akkurater beurteilt werden als MC-Aufgaben, könnte selbstverständlich ein Artefakt sein, da das Antwortformat in den bisherigen Studien nicht explizit betrachtet wurde und stets mit anderen Aspekten konfundiert war (z.B. Klassenstufe, Domäne), wodurch ein direkter Vergleich der Formate über Studien hinweg problematisch ist. Allerding könnte die tendenzielle Ausrichtung der Befunde zugunsten einer höheren Urteilsakkuratheit bei Nutzung von CR-Aufgaben auch dadurch erklärt werden, dass möglicherweise eine mangelnde Vertrautheit der Lehrkräfte mit MC-Aufgabenformaten bei der Urteilsakkuratheit eine systematische Rolle spielt: Es zeigt sich nämlich eine Diskrepanz zwischen der typischen Präferenz von Grundschullehrkräften für offene Aufgabenformate zur Lesekompetenzdiagnostik und den in Large-Scale-Assessments und Vergleichsarbeiten wie VERA oft genutzten geschlossenen Aufgabenformaten. So gehörten in Deutschland der Internationalen Grundschule-Lese-Untersuchung (IGLU) 2006 zufolge beispielsweise „Zuhören beim Vorlesen“ und „mündliche Leistungsabfragen“ zu den verbreitetsten Verfahren, die regelmäßig (d.h. mindestens einmal in der letzten Woche) im Unterricht verwendet wurden. Schriftliche Aufgaben mit offenen Antwortformaten nutzten 33 % der Lehrkräfte, Aufgaben mit geschlossenen Antwortformaten hingegen nur 17 % der Lehrkräfte (Mullis et al., 2007).

Geschlossene und offene Antwortformate

Geschlossene Antwortformate, bei denen die richtige Antwort aus einer vorgegebenen Auswahl ausgewählt wird (MC), und offene Antwortformate, bei denen die richtige Antwort notiert werden muss (CR), haben spezifische Vor- und Nachteile, die in der Praxis sorgfältig gegeneinander abgewogen werden müssen (vgl. Haladyna & Rodriguez, 2013; Lindner et al., 2015). Zu den Vorteilen von MC-Aufgaben gehört, dass sie eine besonders effiziente und objektive Leistungsdiagnose ermöglichen. Sie sind jedoch nicht zur Erfassung von kreativen und schöpferischen Leistungen geeignet und Rateeffekte können einen relevanten Einfluss auf die Ergebnisse nehmen. Zu den Vorteilen von CR-Aufgaben gehört, dass sie im schulischen Bereich gemäß informeller Rückmeldungen zu Bildungsstudien von Lehrkraftseite eine höhere Akzeptanz haben und häufiger im Unterricht eingesetzt werden (vgl. Mullis et al., 2007). Die Kompetenzerfassung durch CR-Aufgaben kann jedoch verzerrt werden, da oft neben dem eigentlich zu messenden Konstrukt (z.B. naturwissenschaftliche Kompetenz) auch die Schreib- und Ausdrucksfähigkeit der Schülerinnen und Schüler in der Antwort mit erfasst wird (vgl. Waugh & Gronlund, 2013).

Insgesamt zeigt die Forschung, dass beide Aufgabenformate unter Voraussetzung einer angemessenen Aufgabenkonstruktion eine durchaus vergleichbar hochwertige Kompetenzmessung erlauben (vgl. Lindner et al., 2015). Beispielsweise berichtet Rodriguez (2003) sehr hohe Korrelationen zwischen den Ergebnissen formatspezifischer Skalen beim Vergleich von MC- und CR-Aufgaben. Auch bei der Lesekompetenzerfassung in der Grundschule, die in der vorliegenden Arbeit betrachtet wird, zeigten sich vergleichbare psychometrische Eigenschaften für MC- und CR-Aufgabenformate. So gab es bei IGLU 2006 bezüglich der Zusammenhänge zu den Deutschnoten der Kinder keine differenziellen Effekte beim Vergleich von MC- und CR-Aufgaben (Δr = 0.01 bei n = 7581 Kindern der 4. Klassenstufe; Schult & Sparfeldt, 2016). Diese Befunde unterstreichen, dass MC- und CR-Aufgaben je nach diagnostischer Situation vergleichbar hochwertige Messungen liefern können. Allerdings sind MC-Aufgaben üblicherweise leichter lösbar als CR-Aufgaben und differenzieren schlechter in Randbereichen der Leistungsfähigkeit (Lee, Liu & Linn, 2011). Vor diesem Hintergrund sind vermutlich auch das Wissen und die praktische Erfahrung mit MC- und CR-Formaten von Lehrkräften ein relevanter Faktor für die akkurate Einschätzung der formatspezifischen Aufgabenschwierigkeit, weshalb eine seltene Nutzung des MC-Formats im Unterrichtsalltag mit einer geringeren Urteilsakkuratheit einhergehen könnte.

Forschungsfragen

Vor dem Hintergrund einer typischerweise höheren Urteilsakkuratheit mit steigendem Bekanntheitsgrad der zu beurteilenden Aufgaben war es Ziel dieser Studie, explorativ der Frage nachzugehen, inwiefern sich MC- bzw. CR-spezifische Unterschiede in der aufgabenbezogenen Urteilsakkuratheit ergeben. Damit folgen wir auch entsprechenden Hinweisen in der Gesamtschau anderer Studien (vgl. Tabelle 1) und untersuchen mögliche Unterschiede in der Urteilsakkuratheit von Lehrkräften mit Blick auf das Aufgabenformat erstmals systematisch. Da MC-Aufgabentypen im Unterricht trotz (weitgehend) vergleichbarer diagnostischer Eigenschaften typischerweise seltener eingesetzt werden, erwarteten wir insgesamt, dass die Diagnoseakkuratheit bei MC-Antwortformaten aufgrund der formalen Besonderheiten und einer geringeren Alltagsvertrautheit der Lehrkräfte mit MC-Aufgaben schlechter ausfällt als für CR-Antwortformate. Hinsichtlich der Akkuratheitskomponenten ergaben sich die folgenden Hypothesen:

Hypothese 1: Gemäß früherer Befunde zur Urteilsakkuratheit von Grundschullehrkräften, die u.a. eine Überschätzung der Aufgabenschwierigkeiten zeigten, erwarteten wir, dass die Niveaukomponente für CR-Aufgaben höher ausfällt als für MC-Aufgaben.

Hypothese 2: Der Urteilsfehler sollte für MC-Aufgaben größer ausfallen als für CR-Aufgaben (im Sinne einer stärkeren Abweichung der Niveaukomponente vom Optimalwert).

Hypothese 3: Bezüglich der Differenzierungskomponente erwarteten wir aufgrund der Befunde von Schrader (1989; M(DK)= 1.07) für beide Antwortformate Werte über dem Optimalwert 1. Dabei sollten sich höhere Werte für MC-Aufgaben zeigen, und damit eine schlechtere Differenzierung als bei CR-Aufgaben.

Hypothese 4: Die Rangordnungskomponente sollte für MC-Aufgaben niedriger ausfallen als für CR-Aufgaben. Denn konform mit der Annahme, dass die Akkuratheit bei vertrauten Antwortformaten höher ausfällt als bei weniger vertrauten, fanden sich die höchsten Korrelationen zwischen Lehrkrafteinschätzung und tatsächlicher Aufgabenschwierigkeit bislang für CR-Aufgabenmaterial (siehe Tabelle 1).

Methode

Stichprobe

Zur Beantwortung unserer Forschungsfragen wurden Daten der Lesekompetenzmessung von VERA 3 aus den Jahren 2012 bis 2016 in Baden-Württemberg2 herangezogen. Bei VERA 3 handelt es sich um bundesweite schriftliche Leistungstests, die den Kompetenzstand von Schülerinnen und Schülern im zweiten Schulhalbjahr der dritten Klasse hinsichtlich ausgewählter Kompetenzbereiche aus den Bildungsstandards in den Fächern Deutsch und Mathematik untersuchen. Die Arbeiten werden vom Institut zur Qualitätsentwicklung im Bildungswesen (IQB), Berlin entwickelt3. Die Durchführung in Baden-Württemberg obliegt dem Landesinstitut für Schulentwicklung. Die Teilnahme war verpflichtend für alle öffentlichen Grundschulen. Die in dieser Arbeit berichteten Analysen beruhen auf insgesamt N = 973 Schulklassen (18176 Schülerinnen und Schüler, von denen 17586 die Aufgaben am Testtag bearbeiteten), deren Lehrkräfte an dem freiwilligen Verfahrensschritt Diagnosegenauigkeit teilnahmen, um Rückmeldungen über die eigene Urteilsakkuratheit zu erhalten4. Insgesamt n = 7 Klassen, in denen weniger als sechs Kinder an der Lesekompetenztestung teilnahmen, wurden aus den Analysen ausgeschlossen, da hier die Streuung der Leseleistung möglicherweise zu stark eingeschränkt war. Weitere n = 6 Klassen wurden ausgeschlossen, weil die Lehrkrafteinschätzung oder die Lösungshäufigkeiten der Aufgaben eine Varianz von Null hatten. Tabelle 2 zeigt die genaue Anzahl der teilnehmenden Klassen und die durchschnittliche Klassengröße aufgeschlüsselt nach Untersuchungsjahren.

Tabelle 2 Anzahl der Aufgaben getrennt nach Antwortformat, Anzahl der am Verfahrensschritt Diagnosegenauigkeit teilnehmenden Klassen und dazugehörige Klassengrößenkennwerte

Studiendesign und Durchführung

Lehrkräfte, die an dem Verfahrensschritt Diagnosegenauigkeit teilnahmen, wurden gebeten, in der Woche vor der Durchführung der VERA 3-Erhebung pro Testaufgabe ihre Einschätzung abzugeben, wie viele Schülerinnen und Schüler ihrer Klasse die jeweilige Aufgabe lösen werden. Die Lehrkräfte erhielten hierfür vollumfänglichen Einblick in das später durch die Schülerinnen und Schüler zu lösende Testmaterial. Die Vergleichsarbeiten fanden dann während der regulären Unterrichtszeit statt. Nach Instruktion durch die Lehrkraft bearbeiteten die Schülerinnen und Schüler nacheinander zwei Texte mit mehreren dazugehörigen Aufgaben. Für jeden Text standen 20 Minuten Bearbeitungszeit zur Verfügung. Die Aufgaben zu den Texten5 hatten sowohl offene CR-Antwortformate (Antwortsatz schreiben, aber auch Kurzantworten wie einen Namen oder eine Uhrzeit nennen) als auch geschlossene MC-Antwortformate (vorrangig Mehrfachwahlaufgaben [1 aus 4], aber auch True-False-Items sowie Zuordnungsaufgaben)6. Insgesamt kamen in jedem der untersuchten Jahre MC- und CR-Formate etwa gleich häufig zum Einsatz, wodurch die Lehrkräfte auch vergleichbar viele diagnostische Urteile für Aufgaben im MC- und CR-Format abgaben (siehe Tabelle 2). Nach der Durchführung von VERA 3 erhielten die Lehrkräfte eine individuelle Rückmeldung über die Übereinstimmung der von ihnen eingeschätzten Aufgabenschwierigkeiten und den tatsächlichen Leistungen ihrer Klasse. Die Lehrkräfte hatten somit die Möglichkeit, die eigene Diagnoseakkuratheit zu evaluieren.

Berechnung der Diagnoseakkuratheitskomponenten

Die drei aufgabenbezogenen Diagnoseakkuratheitskomponenten wurden, für MC- und CR-Aufgaben separat, gemäß Schrader (1989) berechnet. Da die Lehrkräfte gebeten wurden, die erwartete Anzahl der Kinder ihrer Klasse zu benennen, die die jeweilige Aufgabe korrekt lösen werden, wurde der genannte Wert durch die Gesamtanzahl der Kinder in der jeweiligen Klasse geteilt, um aufgabenweise die erwartete relative Lösungshäufigkeit zu bestimmen. Ebenso wurde die aufgabenspezifische Leseleistung der Schülerinnen und Schüler berechnet, indem die Anzahl der Kinder, die eine Aufgabe lösten, durch die Anzahl der teilnehmenden Kinder in der jeweiligen Schulklasse geteilt wurde. Für die Niveaukomponente (NK) wurde die mittlere relative Lösungshäufigkeit in der Schulklasse von der mittleren durch die Lehrkraft eingeschätzten relativen Lösungshäufigkeit abgezogen (NK = p−Lehrkraft – p−Kind). Die Differenzierungskomponente wurde klassenweise berechnet, indem die Standardabweichung der Lehrkrafteinschätzungen über die verschiedenen Aufgaben hinweg durch die Standardabweichung der empirischen Lösungshäufigkeiten der Schülerinnen und Schüler in den einzelnen Aufgaben geteilt wurde. Die Rangordnungskomponente wurde klassenweise als Produkt-Moment-Korrelation zwischen der Lehrkrafteinschätzung der Lösungshäufigkeiten und den tatsächlichen Lösungshäufigkeiten berechnet.

Inferenzstatistische Analysen

Sämtliche Analysen wurden separat für jedes der fünf Erhebungsjahre (2012–2016) durchgeführt. Die drei Diagnoseakkuratheitskomponenten wurden für jedes Lehrkraft–Schulklasse-Paar jeweils für MC-Aufgaben und CR-Aufgaben berechnet und anschließend inferenzstatistisch verglichen. Die aufgabenbezogene Niveaukomponente wurde jeweils klassenweise für MC- und CR-Aufgaben berechnet und mit einem t-Test für verbundene Stichproben statistisch geprüft. Auf die gleiche Weise wurde weiterhin der Urteilsfehler (d.h. die absolute Verschätzung|NK|) für MC- und CR-Aufgaben berechnet und getestet. Formatspezifische Unterschiede hinsichtlich der Differenzierungskomponente wurden mit dem Wilcoxon-Test für zwei abhängige Stichproben geprüft. Ein Vergleich der formatspezifischen Rangordnungskomponenten (konkret der Fisher-z-transformierten Korrelationen) erfolgte über einen t-Test für verbundene Stichproben. Die Analysen wurden in R (R Core Team, 2015) mit dem Paket vioplot (Adler, 2005) umgesetzt. Als Signifikanzniveau wurde α = .05 gewählt.

Ergebnisse

Die deskriptiven Statistiken für jede Teilstichprobe werden im oberen Abschnitt von Tabelle 3 präsentiert, während im unteren Abschnitt der Tabelle die Korrelationen zwischen gleichen Komponenten verschiedener Aufgabenformate sowie zwischen verschiedenen Komponenten gleicher Aufgabenformate berichtet werden. Darüber hinaus zeigt Abbildung 2 die Verteilungen der Klassenmittelwerte der Lehrkrafteinschätzungen und der tatsächlichen Lösungshäufigkeiten getrennt für MC- und CR-Aufgaben über die fünf Untersuchungsjahre hinweg.

Tabelle 3 Deskriptive Statistik und Interkorrelationen der Diagnoseakkuratheitskomponenten
Abbildung 2 Die Violinenplots der geschätzten und der tatsächlichen Lösungshäufigkeiten zeigen für die jeweilige Verteilung den Boxplot umrahmt mit der Kerndichteschätzung in grau (MC = Aufgaben mit geschlossenem Antwortformat; CR = Aufgaben mit offenem Antwortformat). Die weißen Punkte visualisieren den Median, die schwarzen Kästen umspannen den Interquartilsbereich. Die Whisker reichen höchstens bis eineinhalb Interquartilsabstände jenseits des jeweiligen Quartils. Whisker und Kerndichteschätzung gehen nicht über real vorhandene Werte hinaus, was sich beispielsweise durch den flach abgeschnittenen oberen Rand beim Plot ganz links zeigt (Lehrkraft MC 2012).

Hypothese 1: Niveaukomponente

In den fünf untersuchten Jahren überschätzten die Lehrkräfte die tatsächlichen Lösungshäufigkeiten von CR-Aufgaben im Schnitt um 5 bis 8 Prozentpunkte. Für MC-Aufgaben wurden die Lösungshäufigkeiten dagegen um 2 bis 10 Prozentpunkte unterschätzt. Die mittlere Niveaukomponente wich in allen Jahren in beiden Formaten signifikant vom Optimum M(NK) = 0 ab (p < .001). Der Formatunterschied war in allen fünf Jahren signifikant (p < .001) und wies überwiegend große Effektstärken auf (–2.01 ≤ d ≤ –1.08; vgl. Tabelle 4). Diese Effekte ergaben sich durch die entgegengesetzte Ausrichtung der Fehleinschätzung für MC-Aufgaben (negative Abweichung) und CR-Aufgaben (positive Abweichung; vgl. die erste Reihe in Abbildung 3).

Abbildung 3 Die Violinenplots der Diagnoseakkuratheitskomponenten zeigen für die jeweilige Verteilung den Boxplot umrahmt mit der Kerndichteschätzung (MC = Aufgaben mit geschlossenem Antwortformat; CR = Aufgaben mit offenem Antwortformat). Die gestrichelten Linien illustrieren den jeweils optimalen Akkuratheitswert (NK = 0; DK = 1, RK = 1).
Tabelle 4 Inferenzstatistische Analysen zu antwortformatspezifischen Unterschieden bei der Diagnoseakkuratheit

Hypothese 2: Urteilsfehler

Betrachtet man dagegen den Urteilsfehler, also die absoluten Abweichungen der Urteile von den tatsächlichen Lösungshäufigkeiten, so zeigte sich in vier der fünf Jahre kein signifikanter Unterschied für MC- und CR-Aufgaben (p ≥ .052). Allerdings war im Jahr 2013 die MC-Verschätzung (10 Prozentpunkte) signifikant niedriger als die CR-Verschätzung (12 Prozentpunkte; p = .014, d = –0.17).

Hypothese 3: Differenzierungskomponente

Für die Differenzierungskomponente zeigte sich im Mittelwert sowie im Median in allen Jahren bei beiden Antwortformaten ein Wert unter 1, was einer Unterschätzung der Aufgabenheterogenität durch die Lehrkräfte entspricht (vgl. Abbildung 3 und Tabelle 3). Die Abweichung vom Optimum M(DK) = 1 war dabei in sieben Fällen signifikant (p < .001; 2014 für MC: p = .26, 2016 für MC: p = .059, 2016 für CR: p = .059). In allen Jahren war die Unterschätzung signifikant ausgeprägter für CR-Aufgaben als für MC-Aufgaben (alle p < .01; vgl. Tabelle 4). Das bedeutet, dass die Lehrkräfte besser in der Lage waren, die Heterogenität der Aufgabenschwierigkeiten für MC-Aufgaben einzuschätzen.

Hypothese 4: Rangordnungskomponente

Die Rangordnungskomponente variierte sowohl zwischen den Klassen innerhalb eines Jahres (–.73 ≤ r ≤ .97), als auch zwischen den verschiedenen Jahren zum Teil erheblich (vgl. Abbildung 3). Die mittlere Korrelation war dabei in vier der fünf Jahre bei CR-Aufgaben signifikant größer als bei MC-Aufgaben (p < .01). Nur 2014 gab es eine signifikant größere Rangordnungskomponente für MC-Aufgaben gegenüber CR-Aufgaben (p = .027; vgl. Tabelle 4). Die Effektstärken schwankten über die Untersuchungsjahre hinweg zwischen d = 0.17 (2014) und d = –1.06 (2012).

Diskussion

Viele empirische Befunde legen nahe, dass verschiedene situations- und bereichsspezifische Komponenten Einfluss auf die Diagnoseakkuratheit von Lehrkräften nehmen können. Ein bislang kaum betrachteter Faktor könnte hierbei das Antwortformat der eingeschätzten Testaufgaben (MC vs. CR) darstellen. Vor diesem Hintergrund haben wir die Daten der baden-württembergischen Lesekompetenzdiagnostik aus VERA 3 für fünf aufeinander folgende Jahre analysiert, um MC- bzw. CR-formatspezifische Unterschiede bei der Einschätzung der Leistung von Schülerinnen und Schülern in verschiedenen Testaufgaben durch ihre Grundschullehrkraft zu explorieren. Dabei konnten wir bedeutsame Unterschiede in den Urteilen der Lehrkräfte identifizieren, die vermutlich auf formatspezifische Eigenschaften der Aufgaben zurückzuführen sind.

So zeigte sich hinsichtlich der Niveaukomponente (passend zu Hypothese 1) eine Unterschätzung der Schwierigkeiten von MC-Aufgaben und eine Überschätzung der Schwierigkeiten von CR-Aufgaben. Diese spezifischen Ausrichtungen der Diagnoseunakkuratheit scheinen einen systematischen Charakter zu haben, da sich ein vergleichbares Befundmuster über alle fünf untersuchten Jahre und somit auch über verschiedene eingesetzte Aufgaben und verschiedene beurteilende Lehrkräfte zeigte. Die durchschnittliche Niveaukomponente lag nur für Aufgaben mit offenem Antwortformat im positiven Wertebereich, während frühere Arbeiten eine derartige Überschätzung der Aufgabenschwierigkeiten für beide Antwortformate fanden. Für den Urteilsfehler ergab sich entgegen Hypothese 2 nur in einem der fünf betrachteten Jahre ein signifikanter Unterschied. Der dabei gefundene Vorteil für das MC-Format war mit zwei Prozentpunkten zudem eher klein. So hatten die Unter- bzw. Überschätzungen abgesehen von ihren gegensätzlichen Ausrichtungen in ihrem Betrag insgesamt ein ähnliches Ausmaß. Die Unterschätzung der Leistungen der Schülerinnen und Schüler bei MC-Aufgaben könnte möglicherweise unter anderem auf eine mangelnde Berücksichtigung der Ratewahrscheinlichkeit im MC-Aufgabenformat zurückgehen. So sollte gemäß der Anzahl der vorgegebenen Antwortoptionen eine Ratewahrscheinlichkeit von typischerweise 25 % (4 Optionen) bis zu 50 % (2 Optionen) einkalkuliert werden, was Lehrkräfte möglicherweise bei ihrer Einschätzung nicht explizit bedenken. Allerdings wären gemäß der Befundlage auch Deckeneffekte beim diagnostischen Urteil denkbar, da die mittlere Lösungswahrscheinlichkeit seitens der Schülerinnen und Schüler für MC-Aufgaben jeweils höher ausfiel als für CR-Aufgaben und Lehrkräfte bei sehr leichten Aufgaben dazu neigen, die Leistung ihrer Schülerinnen und Schüler zu unterschätzen (vgl. McElvany et al., 2009). Mit Blick auf die typischerweise geringeren Schwierigkeiten von MC-Aufgaben, wie sie sich auch in der vorliegenden Studie zeigten, scheint es den Lehrkräften also schwerer zu fallen, die Auswirkungen der Vorgabe von Antwortoptionen korrekt in ihre Schwierigkeitsschätzung einzubeziehen.

Eine ähnliche Annahme könnte man auch bezüglich der Differenzierungskomponente machen, bei der entgegen Hypothese 3 die Streuung der MC-Aufgaben akkurater eingeschätzt wurde als die Streuung der CR-Aufgaben. So war die Varianz der MC-Aufgabenschwierigkeiten in den tatsächlichen Leistungsdaten tendenziell geringer als in den CR-Aufgaben. Daher könnte der in der Literatur berichtete Befund einer typischen Unterschätzung der Heterogenität von Testaufgaben durch Lehrkräfte (vgl. Karst, 2012) systematisch mit der tatsächlichen Heterogenität der Aufgaben zusammenhängen und so die akkuratere Heterogenitätsschätzung für MC-Aufgaben bedingt haben. Die vermeintlich bessere Differenzierungskomponente sollte somit vorsichtig interpretiert werden. Weitere Heterogenität zeigt sich beim Blick auf die Variation zwischen den Lehrkräften, die in Abbildung 2 illustriert wird. Die Verteilungen deuten auf eine größere Streuung zwischen den Lehrkrafturteilen als zwischen den mittleren Klassenleitungen hin. Innerhalb der Klassen unterschätzten die Lehrkräfte jedoch im Mittel die Schülerleistungen (Differenzierungskomponente < 1).

Bezüglich der Rangordnungskomponente ergab sich (mit Ausnahme des Jahres 2014) für CR-Aufgaben die in Hypothese 4 erwartete höhere Diagnoseakkuratheit im Vergleich zu MC-Aufgaben. Das bedeutet, dass die Lehrkräfte im Mittel besser in der Lage waren, die korrekte Rangfolge der Schwierigkeiten von CR-Aufgaben zu identifizieren als von MC-Aufgaben. Dieses Muster deckt sich beispielsweise mit Befunden von Karing et al. (2011), die bei der Einschätzung von geschlossenen Leseaufgaben eine sehr niedrige Rangkomponente (r−) fanden.

Die gefundenen allgemein großen Streuungen der Niveau- und der Rangkomponenten stehen im Einklang mit früheren VERA-Befunden (vgl. Schrader et al., 2006) und deuten darauf hin, dass es auch jenseits der Formateffekte weitere moderierende Faktoren der Diagnoseakkuratheit von (Grundschul-)Lehrkräften gibt. Die beschriebenen Formatunterschiede geben jedoch gleichzeitig erste Hinweise darauf, dass möglicherweise auch der Aufgabentypus einen bedeutsamen Einfluss auf die aufgabenbezogene Urteilsakkuratheit der Lehrkräfte hat. Vor diesem Hintergrund ist es beispielsweise auch vorstellbar, dass die Lehrkräfte beim Diagnoseprozess (vgl. Schrader, 2013) bestimmte Heuristiken anwenden, ohne dabei etwa Rateeffekte bei MC-Aufgaben zu berücksichtigen. In qualitativen Interviews mit sechs Mathematiklehrkräften fanden Philipp und Leuders (2014) keine Hinweise darauf, dass Lehrkräfte beim Diagnoseprozess Aspekte des Aufgabenformats berücksichtigen. Stattdessen greifen die Lehrkräfte auf Fachwissen und auf fachdidaktisches Wissen zurück. Fachdidaktisches Wissen sollte dabei das Wissen um die Schwierigkeit von Aufgaben in Bezug auf eine bestimmte Schülerschaft mit einschließen.

Insgesamt reihen sich die Befunde damit in vorliegende Arbeiten sowie die grundsätzliche Diskussion darüber ein, dass nicht von einer übergreifenden Diagnoseakkuratheit von Lehrkräften auszugehen ist, sondern verschiedene Komponenten und situative Faktoren bedeutsamen Einfluss auf die Diagnoseakkuratheit nehmen (vgl. McElvany et al., 2009; Schrader, 2009), wie es unter anderem auch das Modell von Südkamp et al. (2017) postuliert. Das Antwortformat dürfte gemäß der in dieser Studie gewonnenen Erkenntnisse einen solchen Faktor darstellen.

Vor dem Hintergrund der Tatsache, dass in vielen bisherigen Studien zur diagnostischen Kompetenz von Lehrkräften vorwiegend MC-Aufgaben als diagnostisches Material eingesetzt wurden, könnten unsere Befunde auch zu einer Erklärung der in der Literatur berichteten heterogenen, teils geringen Urteilsakkuratheit beitragen (vgl. z.B. Karing et al., 2011). In jedem Fall sollte der potenzielle Einfluss des verwendeten Aufgabenformats zukünftig stärker in die Diskussion der (aufgabenbezogenen) Diagnoseakkuratheit einbezogen werden. Denn mit Akkuratheitsmaßen, die eher Formateffekte als diagnostische Kompetenzen widerspiegeln, könnte man nur bedingt belastbare Aussagen dazu treffen, wie Diagnoseakkuratheit mit externen Kriterien zusammenhängt. Dies sollte bei Studien beachtet werden, die den Einfluss von Diagnoseakkuratheit auf Aspekte wie die Entwicklung von Schülerinnen und Schülern oder die Qualität von Unterrichtsprozessen untersuchen.

Praktische Relevanz der Befunde

Während Aufgaben mit geschlossenen MC-Antwortformaten in Large-Scale-Assessments wie PISA (Programme for International Student Assessment), IGLU und VERA sehr häufig zum Einsatz kommen, verwenden Lehrkräfte an deutschen Schulen bei der schriftlichen Leistungserfassung im Unterrichtsalltag häufiger offene Antwortformate (Mullis et al., 2007). Möglicherweise fehlt in der Aus- und Fortbildung bislang eine gezielte Wissensvermittlung über die diagnostischen Eigenschaften und Möglichkeiten von formalen Lesetests im Allgemeinen und von geschlossenen Aufgabenformaten im Speziellen (vgl. Schmidt, 2015). Da MC- wie auch CR-Antwortformate in verschiedener Hinsicht – aber gleichermaßen – zu einer erfolgreichen Kompetenzmessung beitragen können (Haladyna & Rodriguez, 2013; Lindner et al., 2015), sollten Lehrkräfte sich mit den Eigenschaften und Einsatzmöglichkeiten dieser Formate in der Unterrichtspraxis konstruktiv auseinandersetzen. So kann beispielsweise die Nutzung von MC-Aufgaben zu einer besonders effizienten Lernverlaufsdiagnostik beitragen (vgl. Souvignier & Förster, 2011), während offene Antwortformate beispielsweise besser zur Erfassung kreativ-schöpferischer Leistungen geeignet sind (vgl. Lindner et al., 2015). Zudem können CR-Aufgaben meist besser in Randbereichen differenzieren (Lee et al., 2011), während bei MC-Aufgaben in solchen Fällen eine geringere Streuung zu erwarten ist, wie sie konkret auch in Abbildung 2 erkennbar ist.

Unsere Befunde könnten allerdings auch im Hinblick auf die Zielsetzung von VERA 3 von praktischer Bedeutung sein. So gehören die Vergleichsarbeiten zu den Large-Scale-Assessments, deren vorrangiges Anliegen die Unterrichts- und Schulentwicklung ist (Pant, 2013). Da die angemessene Einschätzung von Aufgabenmaterialien und der Klassen- bzw. Schülerleistung zu den beruflichen Basiskompetenzen einer Lehrkraft gehören (Baumert & Kunter, 2006, S. 495), ist eine Verbesserung der Diagnoseakkuratheit ausgesprochen wünschenswert. Um den Erfolg diagnostischer Prozesse im Schulalltag gemäß dem Eigenanspruch von VERA 3 zu fördern (Helmke, Hosenfeld & Schrader, 2004), könnte zukünftig im Rahmen des Verfahrensschrittes Diagnosegenauigkeit auch über eine Aufschlüsselung der Urteilsakkuratheit für MC- und CR-Aufgaben bei der Rückmeldung der Ergebnisse an die Lehrkräfte nachgedacht werden. Dies würde eine gezielte Selbstreflexion der teilnehmenden Lehrkräfte bezogen auf die eigene diagnostische Kompetenz in verschiedenen Aufgabenformaten erlauben und im besten Falle zugleich auch eine nähere Auseinandersetzung mit Antwortformaten stimulieren.

Limitationen und weiterer Forschungsbedarf

Angesichts der im Vergleich zur Gesamtstichprobe in VERA 3 niedrigen Teilnahmequoten an dem Verfahrensschritt Diagnosegenauigkeit (Range2012–2016 = 3–5 %; vgl. Tabelle 2) kann nicht ausgeschlossen werden, dass die hier untersuchten Lehrkräfte spezifische Erwartungen und Erfahrungen bezüglich ihrer eigenen diagnostischen Kompetenz hatten. Die Befunde sind damit nicht zwangsläufig repräsentativ für Grundschullehrkräfte in Deutschland. Aus Gründen der Anonymität ist zudem nicht auszumachen, inwieweit sich die Teilstichproben in den fünf betrachteten Jahrgängen hinsichtlich der Lehrpersonen überlappen, die möglicherweise mit verschiedenen Klassen wiederholt an VERA 3 teilnahmen. Der Einfluss einer wiederholten Teilnahme sollte sich allerdings nicht systematisch auf die Befunde hinsichtlich der Vergleiche verschiedener Formate auswirken, da alle teilnehmenden Lehrkräfte in jedem der fünf Jahrgänge sowohl CR-Aufgaben, als auch MC-Aufgaben beurteilten und keine differenzierte Rückmeldung bezogen auf die beiden Antwortformate erhielten. Die Formatvergleiche sind demnach in jedem Fall sinnvoll interpretierbar. Dafür spricht auch, dass sich das Befundmuster über den betrachteten Zeitraum hinweg als ausgesprochen stabil erwies. Zudem bewegte sich die Diagnoseakkuratheit in einem zu erwartenden Bereich (vgl. z.B. Karst, 2012).

Mit Blick auf das Modell von Südkamp et al. (2017, vgl. Abbildung 1) wird deutlich, dass in der vorliegenden Studie Lehrkrafteigenschaften, wie beispielsweise ihr fachliches und fachdidaktisches Wissen, aber auch ihre Erfahrung mit und ihre Einstellungen gegenüber offenen und geschlossenen Aufgabenformaten, nicht berücksichtigt werden konnten. Die Berücksichtigung derartiger lehrkraftspezifischer Hintergrundfaktoren beispielsweise durch eine ergänzende Befragung von Lehrkräften hinsichtlich ihrer Akzeptanz und Nutzungshäufigkeit von MC- und CR-Aufgaben wäre zukünftig wünschenswert und könnte Aufschluss über die Rolle dieser Faktoren für die differenzielle Diagnoseakkuratheit bringen. Informativ könnte in diesem Zusammenhang auch eine Replikation der Studie mit Daten aus einem Land sein, in dem MC-Antwortformate im Schulunterricht wesentlich etablierter sind als in Deutschland (z.B. USA). Wären die Formatunterschiede bei der Urteilsabgabe tatsächlich auf mangelnde Erfahrung mit dem MC-Format zurückführbar, sollten die Urteilsabweichungen in anderen Ländern entsprechend gleichförmiger für MC- und CR-Aufgaben ausfallen als in der vorliegenden deutschen Stichprobe.

Da sich diese Studie auf den Kompetenzbereich des Lesens bezieht und es sich bei den Lehrkräften und den Schülerinnen und Schülern um eine Grundschulstichprobe handelt, ist die Übertragbarkeit der Befunde auf andere Fächer, Kompetenzbereiche und Altersstufen nicht selbstverständlich. Die Heterogenität der Befundlage in verschiedenen Studien zur aufgabenbezogenen Urteilsakkuratheit, die in Tabelle 1 dargestellt wurde, deutet jedoch darauf hin, dass es durchaus domänenübergreifende Unterschiede hinsichtlich des Einflusses des Aufgabenformats auf die Urteilsakkuratheit geben könnte, die zukünftig beispielsweise in Form von Replikationen in anderen inhaltlichen Domänen systematisch betrachtet werden müssten. Ein wichtiger Aspekt wäre zudem, das Anspruchsniveau der MC- und CR-Aufgaben in zukünftigen Studien gezielt zu kontrollieren bzw. auszubalancieren, um auszuschließen, dass die gefundenen Effekte auf systematisch unterschiedliche Schwierigkeiten von MC- und CR-Aufgaben zurückgehen.

Fazit

Die vorliegende Studie vermittelt erste Eindrücke hinsichtlich der Rolle des Antwortformats der zu beurteilenden Aufgaben bei der Diagnoseakkuratheit von Lehrkräften. Auch wenn der Vergleich von MC- und CR-Aufgaben hinsichtlich der Niveau-, Differenzierungs- und Rangordnungskomponente insgesamt nicht grundsätzlich zugunsten einer besseren diagnostischen Akkuratheit für eines der Aufgabenformate ausfiel, zeigten sich dennoch über die Jahre hinweg konsistente formatspezifische Unterschiede (z.B. Überschätzung der Schwierigkeit von MC-Aufgaben vs. Unterschätzung der Schwierigkeit von CR-Aufgaben). Sofern sich die gefundenen Effekte in weiterer Forschung auf andere fachliche Domänen, Klassenstufen und Schulformen übertragen lassen, wäre jedenfalls eine stärker fokussierte Betrachtung von Aufgabenformaten im Rahmen der Interpretation von Befunden zur (aufgabenbezogenen) Diagnoseakkuratheit von Lehrkräften angezeigt.

Literatur

  • Adler, D. (2005). vioplot: Violin plot. R Package Version 0.2. Zugriff am 02.03.2017 https://cran.r-project.org/package = vioplot First citation in articleGoogle Scholar

  • Anders, Y., Kunter, M., Brunner, M., Krauss, S. & Baumert, J. (2010). Diagnostische Fähigkeiten von Mathematiklehrkräften und ihre Auswirkungen auf die Leistungen ihrer Schülerinnen und Schüler. Psychologie in Erziehung und Unterricht, (3), 175193. doi:10.2378/peu2010.art13d First citation in articleGoogle Scholar

  • Artelt, C. & Gräsel, C. (2009). Gasteditorial. Diagnostische Kompetenz von Lehrkräften. Zeitschrift für Pädagogische Psychologie, 23, 157–160. doi:10.1024/1010-0652.23.34.157 First citation in articleLinkGoogle Scholar

  • Baumert, J. & Kunter, M. (2006). Stichwort: Professionelle Kompetenz von Lehrkräften. Zeitschrift für Erziehungswissenschaft, 9, 469–520. doi:10.1007/s11618-006-0165–2 First citation in articleCrossrefGoogle Scholar

  • Haladyna, T. M. & Rodriguez, M. C. (2013). Developing and validating test items. New York, NY: Routledge. First citation in articleCrossrefGoogle Scholar

  • Helmke, A., Hosenfeld, I. & Schrader, F.-W. (2004). Vergleichsarbeiten als Instrument zur Verbesserung der Diagnosekompetenz von Lehrkräften. In R., ArnoldC., Griese (Hrsg.), Schulleitung und Schulentwicklung (S. 119–144). Hohengehren: Schneider. First citation in articleGoogle Scholar

  • Karing, C., Pfost, M. & Artelt, C. (2011). Hängt die diagnostische Kompetenz von Sekundarstufenlehrkräften mit der Entwicklung der Lesekompetenz und der mathematischen Kompetenz ihrer Schülerinnen und Schüler zusammen?Journal for Educational Research Online, 3(2), 119–147. First citation in articleGoogle Scholar

  • Karst, K. (2012). Kompetenzmodellierung des diagnostischen Urteils von Grundschullehrern. Münster: Waxmann. First citation in articleGoogle Scholar

  • Lee, H. S., Liu, O. L. & Linn, M. C. (2011). Validating measurement of knowledge integration in science using multiple-choice and explanation items. Applied Measurement in Education, 24, 115–136. doi:10.1080/08957347.2011.554604 First citation in articleGoogle Scholar

  • Lindner, M. A., Strobel, B. & Köller, O. (2015). Multiple-Choice-Prüfungen an Hochschulen? Ein Literaturüberblick und Plädoyer für mehr praxisorientierte Forschung. Zeitschrift für Pädagogische Psychologie, 29, 133–149. doi:10.1024/1010-0652/a000156 First citation in articleLinkGoogle Scholar

  • McElvany, N., Schroeder, S., Hachfeld, A., Baumert, J., Richter, T., Schnotz, W., … & Ullrich, M. (2009). Diagnostische Fähigkeiten von Lehrkräften: bei der Einschätzung von Schülerleistungen und Aufgabenschwierigkeiten bei Lernmedien mit instruktionalen Bildern. Zeitschrift für Pädagogische Psychologie, 23, 223–235. doi: 10.1024/1010-0652.23.34.223 First citation in articleLinkGoogle Scholar

  • Mullis, I. V. S., Martin, M. O., Kennedy, A. M. & Foy, P. (2007). IEA's Progress in International Reading Literacy Study in primary school in 40 countries. Chestnut Hill, MA: TIMSS & PIRLS International Study Center, Boston College. First citation in articleGoogle Scholar

  • Pant, H. A. (2013). Wer hat einen Nutzen von Kompetenzmodellen? Zeitschrift für Erziehungswissenschaft, 16, 71–79. doi:10.1007/s11618–013–0388-y First citation in articleCrossrefGoogle Scholar

  • Philipp, K. & Leuders, T. (2014). Diagnostic competences of mathematics teachers – Processes and resources. In P., LiljedahlC., NicolS., OesterleD., Allan (Hrsg.), Proceedings of the Joint Meeting of PME 38 and PME-NA 36Vol. 1 (S. 425–432). Vancouver: PME. First citation in articleGoogle Scholar

  • Praetorius, A.-K. & Südkamp, A. (2017). Eine Einführung in das Thema der diagnostischen Kompetenz von Lehrkräften. In A., SüdkampA.-K., Praetorius (Hrsg.), Diagnostische Kompetenz von Lehrkräften. Theoretische und methodische Weiterentwicklungen (S. 13–18). Münster: Waxmann. First citation in articleGoogle Scholar

  • R Core Team(2015). R: A language and environment for statistical computing. Wien: R Foundation for Statistical Computing. Zugriff am 02.03.2017https://www.R-project.org First citation in articleGoogle Scholar

  • Rodriguez, M. C. (2003). Construct equivalence of multiple-choice and constructed-response items: A random effects synthesis of correlations. Journal of Educational Measurement, 40, 163–184. doi:10.1111/j.1745-3984.2003.tb01102.x First citation in articleCrossrefGoogle Scholar

  • Schmidt, F. (2015). Den diagnostischen Blick schärfen – Vorstellungen und Orientierungen von Deutschlehrerinnen und Deutschlehrern zur Diagnose von Lesekompetenz. In C., BräuerD., Wieser (Hrsg.), Lehrende im Blick (S. 89–109). Wiesbaden: Springer. doi:10.1007/978-3-658-09734-9_6 First citation in articleGoogle Scholar

  • Schrader, F.-W. (1989). Diagnostische Kompetenzen von Lehrern und ihre Bedeutung für die Gestaltung und Effektivität des Unterrichts. Frankfurt a.M.: Lang. First citation in articleGoogle Scholar

  • Schrader, F.-W. (2009). Anmerkungen zum Themenschwerpunkt Diagnostische Kompetenz von Lehrkräften. Zeitschrift für Pädagogische Psychologie, 23, 237–245. doi:10.1024/1010–0652.23.34.237 First citation in articleLinkGoogle Scholar

  • Schrader, F.-W. (2013). Diagnostische Kompetenz von Lehrpersonen. Beiträge zur Lehrerbildung, 31, 154–165. First citation in articleGoogle Scholar

  • Schrader, F.-W., Helmke, A., Hosenfeld, I., Halt, A. C. & Hochweber, J. (2006). Komponenten der Diagnosegenauigkeit von Lehrkräften: Ergebnisse aus Vergleichsarbeiten in der Grundschule. In F., EderA., GastagerF., Hofmann (Hrsg.), Qualität durch Standards? Beiträge zum Schwerpunktthema der 67. Tagung der AEPF (S. 265–278). Münster: Waxmann. First citation in articleGoogle Scholar

  • Schult, J. & Sparfeldt, J. R. (2016). Reliability and validity of PIRLS and TIMSS: Does the response format matter? European Journal of Psychological Assessment. doi:10.1027/1015–5759/a000338 First citation in articleLinkGoogle Scholar

  • Souvignier, E. & Förster, N. (2011). Effekte prozessorientierter Diagnostik auf die Entwicklung der Lesekompetenz leseschwacher Viertklässler. Empirische Sonderpädagogik, 3, 243–255. First citation in articleGoogle Scholar

  • Spinath, B. (2005). Akkuratheit der Einschätzung von Schülermerkmalen durch Lehrer und das Konstrukt der diagnostischen Kompetenz. Zeitschrift für Pädagogische Psychologie, 19, 85–95. doi:10.1024/1010–0652.19.12.85 First citation in articleLinkGoogle Scholar

  • Südkamp, A., Kaiser, J. & Möller, J. (2012). Accuracy of teachers' judgments of students' academic achievement: A meta-analysis. Journal of Educational Psychology, 104, 743–762. doi:10.1037/a0027627 First citation in articleCrossrefGoogle Scholar

  • Südkamp, A., Kaiser, J. & Möller, J. (2017). Ein heuristisches Modell der Akkuratheit diagnostischer Urteile von Lehrkräften. In A., SüdkampA.-K., Praetorius (Hrsg.), Diagnostische Kompetenz von Lehrkräften. Theoretische und methodische Weiterentwicklungen (S. 33–38). Münster: Waxmann. First citation in articleGoogle Scholar

  • Waugh, C. K. & Gronlund, N. E. (2013). Assessment of student achievement (10. Aufl.). Boston, MA: Pearson. First citation in articleGoogle Scholar

1 Der gutachterlichen und herausgeberischen Bitte folgend wird im Text der Begriff Diagnoseakkuratheit verwendet, da Diagnosegenauigkeit laut Praetorius und 27-3Südkamp (2017) zu sehr mit Reliabilitätsaspekten assoziiert wird.

2 Berichte der einzelnen Jahre finden sich unter http://www.ls-bw.de/Ergebnisse+Fremdevaluation+_+VERA .

3 Details zur Konzeption und Durchführung von VERA finden sich unter https://www.iqb.hu-berlin.de/vera.

4 Aus datenschutzrechtlichen Gründen war es nicht möglich festzustellen, ob mehrere Klassen innerhalb eines Jahres von derselben Lehrkraft eingeschätzt wurden. Dabei würde es sich jedoch um Ausnahmen handeln, da die Daten pro Jahr von mindestens 132 verschiedenen Schulen stammen. Die gemittelte Lösungshäufigkeit der untersuchten Klassen unterschied sich maximal um 0.8 Prozentpunkte von der Leistung der nicht untersuchten Klassen, in denen die Lehrkraft nicht an dem freiwilligen Verfahrensschritt Diagnosegenauigkeit teilnahm; die Klassengröße der untersuchten Klassen war im Durchschnitt um etwa ein Kind kleiner als die der nicht untersuchten Klassen.

5 Beispielaufgaben finden sich unter https://www.iqb.hu-berlin.de/vera/aufgaben/dep.

6 Die Antwortformate „Textstellen unterstreichen“ (4 Aufgaben) und „Wegstrecke einzeichnen“ (1 Aufgabe) wurden ausgeschlossen, weil sie nicht eindeutig zuzuordnende Formate darstellen und es zudem in den verschiedenen Jahren teilweise unterschiedliche Auswertungsanweisungen für diese Aufgabentypen gab.

Dr. Johannes Schult, Landesinstitut für Schulentwicklung, Heilbronner Straße 172, D-70191 Stuttgart, Tel. 0711 6642-3102, Fax 0711 6642-3098, E-Mail