Skip to main content
Open AccessOriginalarbeit

Welche Klimadimensionen misst der Linzer Fragebogen zum Schul- und Klassenklima für die 4. – 8. Klasse (LFSK 4 – 8; Eder, 2000)?

Eine Mehrebenen-Strukturprüfung

Published Online:https://doi.org/10.1026/0012-1924/a000280

Abstract

Zusammenfassung. Diese Studie prüfte die dimensionale Struktur des Linzer Fragebogens zum Schul- und Klassenklima für die 4. – 8. Klassenstufe (LFSK 4 – 8) auf der Ebene des Individual- und Klassenklimas. Die Kovarianzstruktur der Bewertungen des Klassenklimas durch 2 084 Schülerinnen und Schüler, gruppiert in 96 Schulklassen, wurde mittels eines Mehrebenen-Faktorenmodells modelliert. Die Ergebnisse zur Modellpassung unterstützen die von den Autoren des LFSK 4 – 8 postulierten Klimadimensionen Schülerzentriertheit, Lerngemeinschaft, Sozial- und Leistungsdruck sowie Rivalität und Störneigung, sowohl auf Individual- als auch auf Klassenebene. Alle Klimaelemente luden erwartungskonform auf diesen Dimensionen, die hoch miteinander korrelierten. Infolge fehlender metrischer Invarianz ist davon auszugehen, dass die Klimaelemente auf individueller Ebene der Schülerinnen und Schüler respektive auf Klassenebene verschieden bedeutsam sind.

Which Classroom Climate Dimensions Does the Linzer Questionnaire of Classroom Climate 4 – 8 Measure?

Abstract. The present study investigated which dimensions of classroom climate the Linzer Questionnaire of Classroom Climate for Grades 4 through 8 (LFSK 4 – 8) measures. We analyzed a dataset including 2 084 students from 96 classrooms by means of multilevel modeling. The model fit results supported the climate dimensions proposed by the authors of the LSFK 4 – 8 (i. e., teachers’ focus on students, learning community, pressure related to social or achievement issues, rivalry and disruptions in class) at both the individual student level and the classroom level. All indicators loaded as expected on these dimensions, which exhibited high intercorrelations. The measurement model did not show metric invariance over individual student and classroom level, which indicates a different meaning of the climate dimensions at both levels.

Die Bedeutsamkeit des Klimas in Schulklassen für die Motivation und die akademischen Interessen von Schülerinnen und Schülern, ihre Leistung und Zufriedenheit mit dem Gelernten sowie für ihr Verhalten im Unterricht ist empirisch gut belegt (Eder, 2010; Reyes, Brackett, Rivers, White & Salovey, 2012; Rubie-Davies, 2015; Shewark, Zinsser & Denham, 2018). Darüber hinaus finden sich bedeutsame Zusammenhänge zu Stimmung, Wohlbefinden und Fähigkeitsselbstkonzept der Lernenden (Toren & Seginer, 2015; methodische Kritik geben Lüdtke, Robitzsch, Trautwein & Kunter, 2009; Morin, Marsh, Nagengast & Scalas, 2014). Welche Dimensionen der Lernumwelt das Klassenklima konstituieren, ist allerdings strittig. Avant, Gazelle und Faldowski (2011) akzentuieren das emotionale Klima, während Allodi (2010) das soziale Klima betont, und Fraser, Aldridge und Adolphe (2010) das Klassenklima in seiner sozial-psychologischen Bedeutung als Lernumwelt untersuchen. Diese konzeptionelle Heterogenität spiegelt sich in einer großen Bandbreite an Messinstrumenten zur Erfassung des Klassenklimas wider (Eder, 2010; Rubie-Davies, Asil & Teo, 2016). Die eingesetzten Verfahren variieren in Konstruktionsprinzip (ad hoc, theoriebasiert, empirisch-induktiv, auf qualitativen Methoden basierend), Länge, Dimensionalität (ein- vs. mehrdimensional), Datenquelle, Organisationsebene (Klasse, Schule, Bildungssektor) und Grad der empirischen Überprüfung (Clausen, Schnabel & Schröder, 2002; Götz, Frenzel & Pekrun, 2008). Der Linzer Fragebogen zum Schul- und Klassenklima für die 4. bis 8. Klassenstufe (LFSK 4 – 8) von Eder und Mayr (2000) erhebt als Selbstauskunft-Fragebogen Klimamerkmale aus der Perspektive von Schülerinnen und Schülern der Klassenstufen vier bis acht. Nach den Autoren erfasst der LFSK 4 – 8 ökonomisch und multidimensional die individuell perzipierte Lernumwelt (Individualklima), das Klassenklima und das Klima einer Schule als Ganzes. Dieser Beitrag untersucht, inwieweit der LFSK 4 – 8 die diagnostischen Ziele der multidimensionalen Erfassung des Klimas auf Individual- und Klassenebene erfüllt. Überprüft wird die dimensionale Struktur des Verfahrens und seine Messinvarianz über beide Ebenen mittels Mehrebenen-Faktorenmodellen (Marsh et al., 2012).

Der LFSK 4 – 8

Nach Eder und Mayr (2000) eignet sich der LFSK 4 – 8 zur Diagnose der individuellen Lernumwelt ebenso wie zur Feststellung des kollektiv perzipierten Klimas einer Schulklasse. Das Verfahren gliedert sich in zwei Teile, die sich auf die Organisationsebenen Schulklasse und Schule als Ganzes beziehen. Gegenstand der vorliegenden Studie ist der Teil zur Organisationsebene Schulklasse. Er erhebt mit 42 Items das Klima in der Schulklasse auf den vier Dimensionen Sozial- und Leistungsdruck, Schülerzentriertheit, Lerngemeinschaft sowie Rivalität und Störung. Diese Dimensionen setzen sich aus jeweils zwei bis fünf Klimaelementen zusammen, die, abhängig von ihrer inhaltlichen Ausrichtung, in schülerbezogene (z. B. Lernbereitschaft, Gemeinschaft, Störneigung) bzw. lehrerbezogene (z. B. pädagogisches Engagement, Vermittlungsqualität, Restriktivität) Elemente unterschieden und mit jeweils drei Items auf einer fünfstufigen Likertskala bewertet werden. Insgesamt gibt es 14 Klimaelemente [s. elektronisches Supplement (ESM) 1]. Die Auswertung des LFSK 4 – 8 erfolgt für Individual- und Klassenklima nach der gleichen Vorgehensweise: Die durch Aufsummieren der zugehörigen Itemantworten gebildeten Skalenrohwerte der Klimaelemente werden zu Dimensionswerten zusammengefasst und in schultypbezogene Standardwerte für die einzelnen Skalen bzw. Klimadimensionen überführt. Damit sind für die Diagnostik des Individualklimas Erhebungs- und Analyseeinheit identisch. Für die Diagnostik des Klassenklimas divergieren sie hingegen: Erhoben werden Individualdaten, die dann in einer Klasse aggregiert und auf der Ebene des Klassenverbandes interpretiert werden.

Strukturprüfung des LFSK 4 – 8

Zur empirischen Überprüfung der Struktur des LFSK 4 – 8 nutzten Eder und Mayr (2000) explorative Hauptkomponentenanalysen mit Varimaxrotation vergleichend auf Individual- und auf Klassenebene. Da die Autoren zwischen lehrer- und schülerbezogenen Elementen des Klimas Abhängigkeiten vermuteten, führten sie die Analysen separat für diese beiden Gruppen durch. Für die lehrerbezogenen Klimaelemente resultierte sowohl auf Individual- als auch auf Klassenebene eine zweidimensionale Struktur mit den Faktoren Schülerzentriertheit sowie Sozial- und Leistungsdruck. Für die jeweiligen Faktoren waren jedoch diskrepante Skalensets mit divergierenden Ladungsmustern festzustellen. Für die schülerbezogenen Klimaelemente konnte keine übereinstimmende Strukturierung gezeigt werden. Während auf Individualebene eine zweifaktorielle Lösung (Faktor I: Gemeinschaft, Lernbereitschaft; Faktor II: Rivalität, Störneigung) die Zusammenhangsstruktur der Klimaelemente am besten beschrieb, vereinte auf Klassenebene ein Globalfaktor alle Klimaelemente auf sich. Analog analysierten Eder und Mayr die faktorielle Struktur der Klimadimensionen Sozial- und Leistungsdruck, Schülerzentriertheit, Lerngemeinschaft sowie Rivalität und Störung (Faktorenanalyse zweiter Ordnung). Auf Individualebene resultierten zwei antagonistische Klimafaktoren (Faktor I: Schülerzentriertheit, Lerngemeinschaft; Faktor II: Sozial- und Leistungsdruck, Rivalität und Störung) und auf Klassenebene ein Globalfaktor.

Bewertung der bisherigen Strukturprüfung des LFSK 4 – 8

Die Testautoren analysierten die klimabezogenen Schülerurteile zum einen auf der Individual- und zum anderen auf der Klassenebene separat voneinander. Damit wurde die Mehrebenenstruktur der Daten nicht angemessen berücksichtigt (Snijders & Bosker, 2012). Zudem wurden lehrer- und schülerbezogene Klimaelemente getrennt untersucht und explorative Hauptkomponentenanalysen mit Varimaxrotation eingesetzt. Diese Vorgehensweise ist sowohl aus theoretischer als auch aus methodischer Sicht problematisch. Theoretisch gesehen widerspricht das gewählte Vorgehen, die Korrelationsstruktur der Skalen des LFSK 4 – 8 auf Individualebene zu faktorisieren, der Konzeptualisierung des Klassenklimas als eine kollektive übereinstimmende Lernumwelt: Nicht die einzelne Schülerin oder der einzelne Schüler ist die Referenz der Klassenklimaeinschätzung, sondern die von allen Schülerinnen und Schülern gemeinsam besuchte Schulklasse (Morin et al., 2014). Methodisch betrachtet führt die gewählte Analysestrategie zu verzerrten Parameterschätzungen für Individual- und Klassenebene, sofern sich die Faktorstrukturen auf beiden Ebenen unterscheiden (Pornprasertmanit, Lee & Preacher, 2014; Zyphur, Kaplan & Christian, 2008). Die fehlende gemeinsame Analyse aller Klimaelemente und die unangemessene Varimaxrotation schränken die Aussagekraft der Befunde weiter ein. Zudem fehlen Informationen über die Beiträge der beiden Ebenen Individuum und Klasse zur Aufklärung der Varianzen in den manifesten Variablen.

Zusammenfassend bleibt festzuhalten, dass die faktorielle Struktur des LFSK 4 – 8 weder auf Individual- noch auf Klassenebene hinreichend geklärt ist. Auch die weiterführende Frage nach der Übereinstimmung seiner Dimensionalität auf beiden Ebenen ist unbeantwortet. Die vorliegende Untersuchung will zu einer Klärung dieser Fragen beitragen.

Die vorliegende Studie

Die Forschungsziele der vorliegenden Studie, eine Struktur- und eine Äquivalenzprüfung des Klassenteils des LFSK 4 – 8, leiten sich unmittelbar aus der Messintention des Verfahrens ab: Der LFSK 4 – 8 will das Konstrukt Klassenklima auf vier latenten Klimadimensionen abbilden, um zum einen das kollektive Klima einer Schulklasse festzustellen und zum anderen das subjektiv perzipierte Klassenklima einer einzelnen Schülerin oder eines einzelnen Schülers zu diagnostizieren (Forschungsziel Strukturprüfung). Für die Ergebnisrückmeldung wird dabei „im Allgemeinen […] das Klassenprofil zum Ausgangspunkt der Besprechung gemacht“ (Eder & Mayr 2000, S. 30). Mit diesem Vorgehen verbindet sich eine weitere diagnostische Zielsetzung: Ein Vergleich der Messergebnisse zwischen der individuell wahrgenommenen Lernumwelt und dem Durchschnitt der jeweiligen Klasse soll brauchbare diagnostische Informationen liefern. Die Dimensionen des Individual- und Klassenklimas so aufeinander zu beziehen, setzt ihre äquivalente Bedeutung auf beiden Ebenen voraus. Dies soll in der vorliegenden Studie überprüft werden (Forschungsziel Äquivalenzprüfung). Da im vorliegenden Anwendungsfall auf der Klassen- resp. der Individualebene verschiedene Variablen betrachtet werden (Klassenmittel vs. individuelle Abweichungen vom Klassenmittel), kann die Untersuchung der Bedeutungsäquivalenz der Dimensionen auf beiden Ebenen nicht als Messinvarianzprüfung bezeichnet werden. Wir sprechen daher im Folgenden von Äquivalenztests. Konkret wird überprüft, ob von einer konfiguralen oder metrisch äquivalenten Abbildung der Klimadimensionen ausgegangen werden kann (für eine Erläuterung der Modellannahmen s. ESM 2).

Zur Umsetzung unserer Forschungsziele überprüften wir die Kovarianzstruktur des LFSK 4 – 8 bei simultaner Berücksichtigung der Individualebene (L1; innerhalb der Klassen) und der Klassenebene (L2; zwischen den Klassen) mittels Mehrebenen-Faktorenmodellen (ML-CFM; Marsh et al., 2012)1. Die Dimensionen des Klassenklimas werden als latente Faktoren auf beiden Ebenen über multiple Indikatoren, hier die 14 Klimaelemente des LFSK 4 – 8, abgebildet. Dadurch können Varianzanteile der kollektiven Bewertung des Klassenklimas von individuellen Wahrnehmungsunterschieden zwischen den Schülerinnen und Schülern innerhalb einer Klasse separiert und Messfehler angemessen berücksichtigt werden (Muthén, 1994). Die damit verbundene doppelt-latente Methodologie stellt außerdem sicher, dass neben den auf beiden Ebenen auftretenden Messfehlern auch der Stichprobenfehler bei der Verwendung von aggregierten L1-Beobachtungen als Basis für L2-Konstrukte berücksichtigt wird (Marsh et al., 2012).

Methode

Stichprobe

Die Daten stammen aus zwei Längsschnittstudien zur wissenschaftlichen Begleitung von gymnasialen Förderklassen für Hochbegabte (Preckel & Schmidt, 2014; Schneider, Stumpf, Preckel & Ziegler, 2012). Alle Schülerinnen und Schüler sowie deren Eltern wurden schriftlich über die Befragung aufgeklärt; die Eltern gaben ihr Einverständnis zur Teilnahme. Für die vorliegenden Analysen wurden ausschließlich die Daten von 96 Regelklassen (Stufe 6) an 12 Gymnasien in 3 Bundesländern (jeweils 4 Schulen aus RLP, BW, BY) verwendet. Die Datenerhebung erfolgte in den Jahren 2006 bis 2010, jeweils in der zweiten Hälfte des Schuljahres und während der regulären Schulzeit. Die Stichprobe umfasst N = 2 084 Schülerinnen und Schüler (davon 932 Mädchen; 2 Kinder ohne Angabe des Geschlechts) im Alter zwischen 8 und 14 Jahren (M = 11.21 Jahre; SD = .65 Jahre; 32 Altersangaben fehlten). Sie bewerteten die Klimaelemente vollständig. Die Klassengröße betrug durchschnittlich 22 Schülerinnen und Schüler pro Klasse (Range: 12 – 31). Damit entsprechen Anzahl und Umfang der Level-2 Analyseeinheiten knapp den Mindestempfehlungen für Mehrebenen-Faktorenanalysen (Lüdtke et al., 2008).

Datenanalysen

Alle Faktorenanalysen wurden mit Mplus (Version 8.2; Muthén & Muthén, 2018) durchgeführt und basieren auf dem Maximum Likelihood Schätzer mit robusten Standardfehlern (MLR; Muthén & Kaplan, 1985), da Itemparcels (s. u.) verwendet wurden (Bollen, 1989). Die Berechnung der Stichprobenmomente Mittelwert (M), Standardabweichung (SD), Schiefe und Kurtosis erfolgte mit SPSS Statistics, Version 26. Die Intraklassenkorrelationskoeffizienten wurden auf Individual- und Klassenebene mit dem Paket multilevel in R bestimmt (Bliese, 2016).

Modellspezifikation und Äquivalenztestung

Anknüpfend an die Annahmen der Testautoren wurde unter Verwendung der Bewertungen des Klassenklimas durch die Schülerschaft ein strukturgleiches Messmodell auf Individualebene (L1) und Klassenebene (L2) mit je vier latenten Klimadimensionen konstruiert. Auf L2 wurden die mittleren Klimabewertungen in den Klassen modelliert, auf L1 die Abweichungen der Schülerurteile von den jeweiligen Klassenmittelwerten. Als manifeste Indikatoren der latenten Klimadimensionen wurden die jeweiligen drei Items eines Klimaelementes zu Itemparcels gemittelt, um die Anzahl der Indikatoren zu verringern und die Reliabilität zu erhöhen (Little, Cunningham, Shahar & Widaman, 2002). Folglich resultierten 14 manifeste Variablen, die Klimaelemente, für die eine Zentrierung am Globalmittel durchgeführt wurde.

Um zusätzliche Informationen zur Angemessenheit der Mehrebenen-Faktorenanalyse und Ebenen-spezifische Fit-Indizes zu gewinnen, wurden vorab strukturäquivalente (4 Klimadimensionen) Einebenen-Faktorenmodelle für die Schülerurteile der Gesamtstichprobe (SL-CFM-G), für die Abweichungen der individuellen Schülerurteile von den Klassenmittelwerten (SL-CFM-L1) sowie für die Klassenmittelwerte (SL-CFM-L2) gerechnet (vgl. Dyer, Hanges & Hall, 2005). Ferner wurden die Intraklassenkorrelationskoeffizienten ICC1 (Muthén & Sartorra, 1995) und ICC2 (Bliese, 2000) bestimmt. Beschreibungen der Modelle inklusive der zugehörigen Gleichungen finden sich im ESM 3.

Im ersten Schritt wurde die konfigurale Äquivalenz der Klimadimensionen auf Individual- und Klassenebene überprüft: Für jedes Klimaelement wurde eine modellgeleitete Einfachladung angenommen. Die Ladung des jeweils ersten Klimaelementes wurde auf 1 fixiert. Zur Überprüfung der metrischen Äquivalenz wurden in einem weiteren Auswertungsschritt die Faktorladungen restringiert.

Beurteilungskriterien

Zur Beurteilung der ICC1 orientierten wir uns an den von James (1982) für das Klassenklima berichteten Werten (.00 < ICC1 < .50; Median: ICC1 = .12). Als Maß für die Reliabilität der durchschnittlichen Beurteilung eines Klimaelementes auf Klassenebene (Lüdtke et al., 2008) bewerteten wir den ICC2 gemäß den Empfehlungen zur Beurteilung der internen Konsistenz einer Skala (Lienert & Raatz, 1998). Die Reliabilität der latenten Klimadimensionen wurde auf Grundlage der Ladungen und Fehlervarianzen aus Modell 5 (ML-CFM) über McDonalds ω bestimmt (Geldhof, Preacher & Zyphur, 2014).

Zur Bewertung der Modellgültigkeit wurden herangezogen: χ2-Test, Root Mean Square Error of Approximation (RMSEA), Tucker-Lewis Index (TLI), Comparative Fit Index (CFI), Standardized Root Mean Square Residual (SRMR) sowie die geschätzten Modellparameter (Hu & Bentler, 1999). TLI- und CFI-Werte > .90 bzw. .97 werden als guter Modell-Fit interpretiert (Hu & Bentler, 1999). RMSEA-Werte < .05 spiegeln hervorragenden, Werte von .05 < RMSEA < .08 befriedigenden Fit wider (Marsh, Hau & Wen, 2004); Werte .10 < RMSEA gelten als inakzeptabel (Browne & Cudeck, 1993). Der SRMR zeigt bei Werten < .10 einen adäquaten bis mäßigen, bei Werten < .05 einen guten Modellfit an (Hu & Bentler, 1999). Die Residuen zur L1- bzw. L2-Kovarianzmatrix werden dabei durch getrennte SRMR-Werte beurteilt (Ryu & West, 2009).

Ergebnisse

Deskriptive Ergebnisse

Die Verteilungskennwerte und ICC-Koeffizienten der Klimaelemente sind im ESM 4 dargestellt. Den Items der Klimaelemente wurde durchschnittlich mit M = 2.29 (SD = 0.93) für Rivalität bis M = 3.58 (SD = 0.86) für Gemeinschaft zugestimmt. Schiefe und Kurtosis der Klimaelemente waren zwar meist signifikant von null verschieden, aber generell betragsmäßig < 1.

Insgesamt gesehen entsprachen die ICC1 den in der Literatur berichteten Werten (Bliese, 2000; James, 1982; Morin et al., 2014). Substanzielle Varianzanteile der Klassenebene (ICC1 > .10; Hox, Moerbeek & van de Schoot, 2018) ergaben sich für die Klimaelemente Gerechtigkeit, Lernbereitschaft, Pädagogisches Engagement, Restriktivität, Schülerbeteiligung, Störneigung und Vermittlungsqualität. Für die Klimaelemente Leistungsdruck, Unterrichtsdruck und Komparation zeigten sich ICC-Werte < .07. Systematische Unterschiede zwischen Klassen in den mittleren Bewertungen dieser Klimaelemente machen dementsprechend einen vergleichsweise geringen Varianzanteil aus. Gleichwohl kann von ausreichend variablen Bewertungen der Klimaelemente zwischen den Klassen ausgegangen werden, so dass diese Voraussetzung der Mehrebenen-Faktoren gegeben ist.

Ergebnisse der Modelltests

Ergebnisse Einebenen-Analysen

Modell 1 der Gesamtstichprobe (SL-CFM-G) und Modell 2 (SL-CFM-L1) zeigten eine sehr gute Passung auf die Daten (s. Tab. 1). Der bessere Fit von Modell 1 im Vergleich zu Modell 2 deutet auf eine vergleichbare Faktorenstruktur des Schulklassenklimas auf den Ebenen L1 und L2 hin (Dyer et al., 2005). Der Fit für Modell 3a (SL-CFM-L2) war inakzeptabel. Da Simulationsergebnisse (s. ESM 5) nahelegten, dass Mplus bei einem geringen Stichprobenumfang auf L2 in Verbindung mit niedrigen ICC1-Werten, wie im vorliegenden Datensatz gegeben, die L2-Kovarianzmatrix fehlerhaft schätzt, wurden zusätzlich die Klassenmittelwerte modelliert (Modell 3b; SL-CFM-L2MI)2. Auch für dieses Modell resultierte ein schlechter Fit.

Tabelle 1 Ergebnisse der sequenziellen konfirmatorischen Faktorenanalysen

Ergebnisse Mehrebenen-Analysen und Äquivalenztestung

Der Fit des ML-CFM-Modells mit Einfachladungen der Klimaelemente (Modell 4) erwies sich als inakzeptabel (s. Tab. 1). Nach Analysen der standardisierten Residuen und Modifikationsindizes (Schermelleh-Engel, Moosbrugger & Müller, 2003) wurden auf beiden Modellebenen Doppelladungen für die Klimaelemente Gerechtigkeit und Kontrolle auf den Dimensionen Sozial- und Leistungsdruck sowie Schülerzentriertheit zugelassen. Auf die zweite Ladung des Klimaelementes Gerechtigkeit wiesen auch die substanziellen Korrelationen zwischen diesem und den übrigen Klimaelementen der Dimension Schülerzentriertheit hin (auf Individualebene: .63 ≤ r ≤ .77; auf Klassenebene: .37 ≤ r ≤ .39). Auf Klassenebene wurde die Residualvarianz des Klimaelementes Lernbereitschaft auf 0 fixiert, weil sie knapp negativ geschätzt worden war3. Außerdem wurden residuale Kovarianzen zwischen den Klimaelementen erlaubt (s. Tab. 1). Sie sind jeweils identisch für das Modell der Gesamtstichprobe sowie für die Ebenen L1 bzw. L2 aller geprüften Modellvarianten. Abbildung 1 zeigt das finale ML-CFM (Modell 5).

Abbildung 1 Anmerkungen: Manifeste Indikatoren (Itemparcels) der Klimaelemente (KE) in rechteckigen Kästchen, grau hinterlegt. KE-1 = KE Engagement. KE-2 = KE Mitsprache. KE-3 = KE Vermittlung. KE-4 = KE Schülerbeteiligung. KE-5 = KE Kontrolle. KE-6 = KE Gemeinschaft. KE-7 = KE Lernbereitschaft. KE-8 = KE Rivalität. KE-9 = KE Störneigung. KE-10 = KE Gerechtigkeit (-). KE-11 = KE Restriktivität. KE-12 = KE Komparation. KE-13 = KE Leistungsdruck. KE-14 = KE Unterrichtsdruck. Abbildung 1. Mehrebenen-Faktorenmodell (ML-CFM) für die Klimaelemente des LFSK 4-8.

Modell 5 zeigte einen guten Modellfit (s. Tab. 1). Es bildete die postulierten Klimadimensionen auf Individualebene hervorragend, auf Klassenebene befriedigend ab.

Das genestete ML-CFM (Modell 6) mit gleich gesetzten Faktorladungen auf den Ebenen L1 und L2 ergab einen signifikant schlechteren Fit (∆= 68.391, df = 12; p < .001; s. Tab. 1). Damit ließ sich die Annahme der metrischen Äquivalenz nicht aufrechterhalten; Modell 5 wurde als finales Modell für die nachfolgenden Analysen beibehalten.

Die standardisierten Faktorladungen des finalen Modells waren für fast alle Klimaelemente sowohl innerhalb als auch zwischen den Klassen substanziell (Betrag > .40), statistisch bedeutsam (p ≤ .01) und fielen in der erwarteten Richtung aus (s. ESM 6). Allerdings zeigten sich, mit Ausnahme der Klimaelemente Gemeinschaft und Unterrichtsdruck, auf Individual- und Klassenebene erheblich divergierende Ladungsmuster mit durchweg höheren Ladungskoeffizienten auf der Klassen- als auf der Individualebene.

Die Faktoren korrelierten hoch (L1: |.239| ≤ r ≤ |.864|; L1 = .580; L2: |.713| ≤ r ≤ |.921|; L2 = .768) in erwarteter Richtung. Der gemeinsame Varianzanteil betrug bis zu 75 % auf Individual- und 85 % auf Klassenebene (s. ESM 7). Paarweise Vergleiche ergaben stärkere Zusammenhänge auf Klassen- als auf Individualebene (p < .01); am stärksten korrelierten die Faktoren Schülerzentriertheit und Lerngemeinschaft auf Klassenebene. Beide Dimensionen ließen sich dabei nicht besser durch einen Faktor auf L2 abbilden, wie ein Fit-Vergleich von Modell 5 mit einem entsprechend restringierten Modell (Modell 7; s. Tab. 1) ergab (∆ = 25.288, df = 1; p < .00001).

Die latenten Klimadimensionen unterschieden sich im Hinblick auf ihre Homogenität: Lerngemeinschaft (ωL1 = .538; ωL2 = .821), Schülerzentriertheit (ωL1 = .802; ωL2 = .978), Sozial- und Leistungsdruck (ωL1 = .529; ωL2 = .847) sowie Rivalität und Störung (ωL1 = .509; ωL2 = .710). Mit Ausnahme der Schülerzentriertheit spiegelten die latenten Dimensionen auf Individualebene nur einen geringen gemeinsamen Varianzanteil ihrer zugehörigen Klimaelemente wider. Auf Klassenebene kann die interne Konsistenz der Dimensionen als gut bis sehr gut angesehen werden.

Die Hälfte der Klimaelemente zeigte eine gute Reliabilität ihrer durchschnittlichen Beurteilung auf Klassenebene (.70 ≤ ICC2 < .85; Gerechtigkeit, Lernbereitschaft, Pädagogisches Engagement, Restriktivität, Schülerbeteiligung, Störneigung, Vermittlungsqualität; s. ESM 4). Die Klassenmittelwert-Reliabilität der übrigen Dimensionen war mäßig (.60 ≤ ICC2 < .70; Gemeinschaft, Kontrolle, Mitsprache, Rivalität, Unterrichtsdruck) bis ungenügend (.50 ≤ ICC2 < .60; Leistungsdruck und Komparation), was auf einen geringen Anteil der Beurteilungsvarianz zwischen den Klassen im Verhältnis zur Gesamtvarianz für diese Klimaelemente zurückzuführen ist (ICC1 < .10).

Diskussion

Forschungsziele der vorliegenden Studie waren eine Struktur- und Äquivalenzprüfung des Klassenteils des LFSK 4 – 8. Anhand von Mehrebenen-Faktorenanalysen wurde die hierarchische Datenstruktur berücksichtigt und sowohl Messfehlern auf Individual- und Klassenebene sowie Stichprobenfehlern auf Klassenebene Rechnung getragen.

Struktur des LFSK 4 – 8

Die Ergebnisse zur Modellpassung des ML-CFM stützen die von Eder und Mayr (2000) für das Klassenklima postulierten vier Dimensionen. Erwartungskonform luden die Klimaelemente pädagogisches Engagement, Mitsprache, Vermittlungsqualität, Schülerbeteiligung und Kontrolle auf der Dimension Schülerzentriertheit; Restriktivität, fehlende Gerechtigkeit, Komparation, Leistungs- und Unterrichtsdruck konstituierten die Dimension Sozial- und Leistungsdruck; Gemeinschaft und Lernbereitschaft bildeten die Dimension Lerngemeinschaft; die Elemente Rivalität und Störneigung repräsentierten die vierte, gleichnamige Klimadimension. Allerdings erreichte dieses Vier-Faktoren-Modell erst durch das Zulassen von Doppelladungen für die Klimaelemente Gerechtigkeit und Kontrolle auf den Dimensionen Schülerzentriertheit respektive Sozial- und Leistungsdruck eine angemessene Passung. Danach ist das Erleben von Gerechtigkeit, insbesondere auf Klassenebene, eine weitere wichtige Facette der Schülerzentriertheit; über die postulierten Klimaelemente hinaus sind reglementierende Maßnahmen und Kontrolle eine relevante Inhaltskomponente der Dimension Sozial- und Leistungsdruck.

Zwischen den Klimadimensionen zeigten sich hohe Korrelationen. Am stärksten divergierten die Dimensionen Schülerzentriertheit und Lerngemeinschaft von den Dimensionen Sozial- und Leistungsdruck sowie Rivalität und Störung. Insgesamt weisen diese Ergebnisse darauf hin, dass das Klassenklima ein relativ homogenes Konstrukt ist, „das einerseits so molar ist, dass es ganzheitlich als „Klima“ verstanden werden kann“ (Eder & Mayr, 2000, S. 41). Ob es „andererseits aber so differenzierte und spezifische Komponenten enthält, dass diese auch als Einzelindikatoren zur konkreten Beschreibung der Lernumwelt verwendet werden können“ (Eder & Mayr, 2000, S. 41), ist in Anbetracht von mehr als 80 % gemeinsamem Varianzanteil für die Klimadimensionen Schülerzentriertheit und Lerngemeinschaft fraglich. Darüber hinaus sprechen die korrelierten Residuen für gemeinsam geteilte, spezifische Varianzanteile der beteiligten Klimaelemente, die nicht durch die postulierten Klimadimensionen erklärt werden. Hiervon ausgenommen ist das Klimaelement Lernbereitschaft. Zusammenfassend stützt das vorliegende Ergebnis die von Eder und Mayr (2000) angenommene dimensionale Struktur des LFSK 4 – 8. Eine abschließende Bewertung der Gültigkeit der gefundenen Klimastruktur setzt allerdings eine Kreuzvalidierung des vorliegenden Modells voraus, da lokale Schwächen unter Zuhilfenahme von Modifikationsindikatoren behoben wurden.

Strukturäquivalenz auf Individual- und Klassenebene

Das Vier-Faktoren-Modell war sowohl auf der Ebene der Schülerschaft als auch auf der der Klasse festzustellen. Vorbehaltlich einer Kreuzvalidierung stützt das Ergebnis eine konfigurale Äquivalenz des LFSK 4 – 8 über beide Ebenen. Auf beiden Ebenen werden die strukturell gleichen Klimadimensionen erfasst – allerdings wird die Struktur auf der Individualebene wesentlich besser abgebildet als auf der Klassenebene. Dies ist auf die teilweise diskrepanten Beurteilungen der Klimaelemente durch die Schülerschaft zurückzuführen. Sie ergaben sich insbesondere für die Klimaelemente Komparation und Unterrichtsdruck. Diese Klimaelemente gehören der Dimension Sozial- und Leistungsdruck an. Sie enthalten das „Ausmaß der Belastung der Schüler und persönlichen Überforderung durch die schulischen Anforderungen“ (Eder & Mayr, S. 12) sowie „das Ausmaß, in dem Schüler einer Klasse untereinander verglichen werden, insbesondere zur Feststellung und Bewertung ihrer Leistung“ (Eder & Mayr, S. 7). Fast alle zugehörigen Items adressieren die Befragten individuell und nicht die Schulklasse. Itembeispiele sind: „Wenn man ein paar Tage krank war, muss man sehr viel nachlernen“. „Für ein gutes Zeugnis muss man bei uns sehr viel leisten“. „Die Lehrer erklären oft so schnell, dass man kaum mitkommt.“ Bei diesen Items ist fraglich, ob das zu messende Konstrukt Klassenklima den Beantwortungsprozess tatsächlich steuert (Cronbach & Meehl, 1955). Vielmehr werden die Schülerinnen und Schüler zu einer Einschätzung ihrer persönlichen Leistungsfähigkeit und einer Bewertung ihres individuell erlebten Belastungsniveaus aufgefordert. Die resultierenden interindividuellen Unterschiede spiegeln sich in den starken Abweichungen der einzelnen Schülerurteile vom jeweiligen Klassenmittelwert wider. Ohnehin stellen Marsh et al. (2012) in Frage, ob es angemessen ist, erlebte Leistungsanforderungen als L2-Variable zu konzeptualisieren. Beurteilungen verschiedener Schülerinnen und Schüler zum Leistungs- oder Schuldruck können demnach nicht als parallele Messungen (mit demselben Erwartungswert) aufgefasst werden. Inwieweit diese heterogenen Klimawahrnehmungen tatsächlich „ein real nicht vorhandenes Kollektivklima“ (Götz et al., 2008, S. 509) indizieren oder handwerklichen Schwächen der Testkonstruktion (Stapleton, Yang & Hancock, 2016) geschuldet sind, sollte weiterführend analysiert werden.

Eine weitere mögliche Erklärung für die zum Teil idiosynkratischen Bewertungsmuster der Schülerinnen und Schüler könnten Effekte von Subkulturen innerhalb einer Schulklasse sein (Marsh et al., 2012; Papaioannou, Marsh & Theodorakis, 2004; Steins, Bitan & Haep, 2015). In der vorliegenden Studie sind Cliquenbildungen innerhalb der Klassen infolge von Unterschieden in der biologischen und sozialen Reifung der Schülerinnen und Schüler, die am Beginn der Pubertät stehen, wahrscheinlich. Auch könnte die Subgruppe der leistungsschwächeren Schülerinnen und Schüler im Vergleich zur leistungsstärkeren Gruppe mehr Leistungs- und Unterrichtsdruck erleben. Darüber hinaus sind (spezifische) Methodeneffekte (z. B. individuelle Antwortstile) nicht auszuschließen (Fondel, Lischetzke, Weis & Gollwitzer, 2015), wie die Korrelationen der Residuen auf Individualebene andeuten.

Zwischen Individual- und Klassenebene divergieren die Ladungsmuster der Faktoren. Sprich, dem LFSK 4 – 8 kann keine metrische Äquivalenz attestiert werden. Individuelle und kollektive Lernumwelt können demnach nicht hinsichtlich der Stärke der Zusammenhänge der Klimadimensionen untereinander verglichen werden. Insbesondere die Klimaelemente Kontrolle, Gerechtigkeit, Lernbereitschaft und Leistungsdruck tragen mit unterschiedlichem Gewicht auf beiden Ebenen zur Konstitution der korrespondierenden Klimafaktoren bei. Beispielsweise schlägt sich ein Anstieg des L2-Faktors Sozial- und Leistungsdruck kaum in einer Steigerung des Klassenmittelwerts für das Klimaelement Leistungsdruck nieder, während ein Anstieg des korrespondierenden L1-Faktors die individuelle Diskrepanz zum Klassenmittel beim Klimaelement Leistungsdruck deutlich wachsen lässt. Das ebenfalls auf dem Faktor Sozial- und Leistungsdruck ladende Klimaelement Kontrolle spricht umgekehrt auf der Klassenebene deutlich stärker als auf der Individualebene auf eine Veränderung des Faktors an. Folglich kann, abgesehen von den Klimaelementen Gemeinschaftserleben und Unterrichtsdruck, nicht davon ausgegangen werden, dass die untersuchten Klimaelemente die gleiche inhaltliche Bedeutung auf Individual- und Klassenebene haben. Die latenten Klimadimensionen auf Klassenebene sind nicht „just a reflection of the construct at the individual level“ (Stapleton et al., 2016, S. 492), sondern eigenständige Faktoren im Sinne reflektiver Konstrukte (Lüdtke et al., 2011).

Implikationen für die praktische Anwendung

Für die praktische Anwendung bedeuten die vorliegenden Ergebnisse, dass der LFSK 4 – 8 das Individualklima im Sinne der theoretisch angenommenen Struktur valide abbildet. Es ist es allerdings nicht sinnvoll, die relative Lage eines Schülers im Vergleich zum Durchschnitt seiner Klasse für die Klimadimensionen zu bestimmen; diese diagnostische Zielsetzung leistet der LFSK 4 – 8 nicht. Folglich ist davon abzuraten, das Klassenprofil zum Ausgangspunkt der individuellen Ergebnisrückmeldung für die Ausprägung der Klimadimensionen zu machen. Für die Klimaelemente können individuelle Abweichungen vom Durchschnitt der Schulklasse sinnvoll interpretiert werden. Auf Ebene des Klassenverbandes bilden die aggregierten Skalenwerte Ausprägungen der latenten Klimadimensionen weniger valide ab. Als Verfahren zur Klimadiagnostik einer Schulklasse empfiehlt sich der LFSK 4 – 8 daher nur eingeschränkt. Damit steht dieser Anwendungsbereich des LFSK 4 – 8 in Frage.

Bei der Bewertung der diagnostischen Güte des LFSK 4 – 8 sind weiter die Ergebnisse der deskriptiven Analysen zu beachten. Sie ergaben überwiegend geringe interne Konsistenzen für die latenten Klimadimensionen auf Individualebene. Diese lassen sich zum einen darauf zurückführen, dass die inhaltlich breit konzeptualisierten Klimadimensionen Lerngemeinschaft sowie Rivalität und Störung jeweils mit nur zwei Klimaelementen gemessen werden, während die mit sechs Klimaelementen gemessene Dimension Schülerzentriertheit eine akzeptable interne Konsistenz erreichen. Auf Klassenebene lagen die Reliabilitätskoeffizienten für die Klimadimensionen in einem Bereich, der für Gruppenuntersuchungen als gut bis sehr gut angesehen wird (Aiken & Groth-Marnat, 2006). Die Klimaelemente dieser Ebene erreichten durchweg mäßige Reliabilitäten.

Limitationen

Zum einen ist die durchgeführte Strukturanalyse nicht strikt konfirmatorisch. Im Zuge der Modellkonstruktion wurden Modifikationsindikatoren genutzt, um lokale Modellschwächen zu beheben. Gleichwohl diese Modifikationen theoretisch und inhaltlich unproblematisch sind und das Modell in seiner Grundstruktur nicht substanziell veränderten, enthält das finale Modell explorativ entwickelte Parameter, so dass seine erneute Prüfung an einer unabhängigen Stichprobe notwendig ist, um die gefundene Klimastruktur und die möglichen Anwendungsbereiche der LFSK 4 – 8 abschließend zu bewerten. Zum anderen liegt auf L2 mit 96 Schulklassen ein Stichprobenumfang vor, der an der unteren Grenze des empfohlenen Mindestumfangs für Mehreben-Analysen angesiedelt ist. In Verbindung mit den vergleichsweise geringen ICC1-Werten könnte dies dazu geführt haben, dass die L2-Parameter weniger zuverlässig geschätzt wurden.

Fazit

Nach dem strukturanalytischen Ergebnis dieser Studie lassen sich die diagnostischen Zielsetzungen des LFSK 4 – 8 wie folgt bewerten: Der LFSK 4 – 8 eignet sich für die Diagnostik des individuellen Klassenklimas, die Messung des kollektiv geteilten Klimas einer Schulklasse ist jedoch optimierbar. Auf Klassenebene sollte der Einsatz des LFSK 4 – 8 auf die Beschreibung der Ausprägung der einzelnen Klimaelemente beschränkt bleiben. Für einen Vergleich der Messergebnisse zwischen der individuell wahrgenommenen Lernumwelt einer Schülerperson mit dem Durchschnitt im Klassenverband ist das Verfahren auf Ebene der Klimaelemente geeignet.

Für einige Klimaelemente blieb die Reliabilität auf Klassenebene unbefriedigend. Hier empfiehlt sich eine Überarbeitung des LFSK 4 – 8 insbesondere in Bezug auf die Klimaelemente Unterrichtsdruck und Komparation. Dazu sollten alle Items so formuliert werden, dass sie Klimamerkmale der Klasse als Gesamt adressieren (Marsh et al., 2012). Zudem sollten die zu bewertenden Klimaelemente durch verhaltensbezogene Urteile stärker „sichtbar“ gemacht und dadurch einer zuverlässigeren Beobachtung zugeführt werden (Clausen, 2002; Morin et al., 2014). Weiterführend sollte geprüft werden, ob der LFSK 4 – 8 das Klassenklima tatsächlich invariant über die Klassenstufen vier bis acht misst und dies auch äquivalent für verschiedene Schultypen tut. Schließlich sollten weitere Studien Aufschluss über mögliche Effekte von Subkulturen im Klassenverband auf die Bewertung des Klassenklimas geben.

Die Ergebnisse der vorliegenden Studie verdeutlichen die Angemessenheit einer Mehrebenen-Modellierung für die Analyse des latenten Konstruktes Klassenklima. Sie ermöglicht unverzerrte Schätzungen von L1- und L2-Parametern, eine Gesamtbeurteilung der Anpassungsgüte und die Möglichkeit zu Äquivalenzprüfungen. Weiterführend können z. B. Wirkungen des Klimas auf die Lern-‍, Leistungs- und Persönlichkeitsentwicklung der Schülerinnen und Schüler untersucht oder Maßnahmen zur Modifikation des Klassenklimas auf ihre Wirkung überprüft werden (siehe z. B. Hox et al., 2018).

Literatur

  • Aiken, L. R. & Groth-Marnat, G. (2006). Psychological testing and assessment (12th ed.). Boston: Allyn and Bacon; Pearson. First citation in articleGoogle Scholar

  • Allodi, M. W. (2010). The meaning of social climate of learning environment: Some reasons why we do not care enough about it. Learning Environments Research, 13, 89 – 104. https://doi.org/10.1007/s10984-010-9072-9 First citation in articleCrossrefGoogle Scholar

  • Avant, T. S., Gazelle, H. & Faldowski, R. (2011). Classroom emotional climate as a moderator of anxious solitary children’s longitudinal risk of peer exclusion: A child environment model. Developmental Psychology, 47, 1 711 – 1 727. https://doi.org/101037/a0024021 First citation in articleCrossrefGoogle Scholar

  • Bliese, P. D. (2000). Within-group agreement, non-independence, and reliability: Implications for data aggregation and analysis. In K. J. KleinS. W. Kozlowski (Eds.), Multilevel Theory, Research, and Methods in Organizations (pp. 349 – 381). San Francisco, CA: Jossey-Bass. First citation in articleGoogle Scholar

  • Bliese, P. (2016). multilevel: Multilevel Functions. R package version 2.6. https://CRAN.R-project.org/package=multilevel First citation in articleCrossrefGoogle Scholar

  • Bollen, K. A. (1989). Structural equations with latent variables. New York: Wiley. First citation in articleCrossrefGoogle Scholar

  • Browne, M. W. & Cudeck, R. (1993). Alternative ways of assessing model fit. In K. A. BollenJ. S. Long (Eds.), Testing structural equation models (pp. 136 – 162). Thousand Oaks, CA: Sage. First citation in articleGoogle Scholar

  • Clausen, M. (2002). Unterrichtsqualität: Eine Frage der Perspektive? Empirische Analysen zur Übereinstimmungs-, Konstrukt- und Kriteriumsvalidität. Münster: Waxmann. First citation in articleGoogle Scholar

  • Clausen, M., Schnabel, K. & Schröder, S. (2002). Konstrukte der Unterrichtsqualität im Expertenurteil. Unterrichtswissenschaft, 30, 246 – 260. First citation in articleGoogle Scholar

  • Cronbach, L. J. & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281 – 302. https://doi.org/10.1037/h0040957 First citation in articleCrossrefGoogle Scholar

  • Dyer, N. G., Hanges, P., J. & Hall, R. J. (2005). Applying multilevel confirmatory factor analysis techniques to the study of leadership. The Leadership Quarterly, 16, 149 – 167. https://doi.org/10.1016/j.leaqua.2004.09.009 First citation in articleCrossrefGoogle Scholar

  • Eder, F. (2010). Schul- und Klassenklima. In D. H. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie (S. 694 – 703). Weinheim: Beltz PVU. First citation in articleGoogle Scholar

  • Eder, F. & Mayr, J. (2000). Linzer Fragebogen zum Schul- und Klassenklima für die 4. – 8. Klasse (LFSK 4 – 8). Göttingen: Hogrefe. First citation in articleGoogle Scholar

  • Fondel, E., Lischetzke, T., Weis, S. & Gollwitzer, M. (2015). Zur Validität von studentischen Lehrveranstaltungsevaluationen – Messinvarianz über Veranstaltungsarten, Konsistenz von Urteilen und Erklärung ihrer Heterogenität. Diagnostica, 61, 124 – 135. https://doi.org/10.1026/0012-1924/a000141 First citation in articleLinkGoogle Scholar

  • Fraser, B. J., Aldridge, J. M. & Adolphe, F. S. G. (2010). A cross-national study of secondary science classroom environments in Australia and Indonesia. Research in Science Education, 40, 551 – 571. https://doi.org/10.1007/s11165-009-9133-1 First citation in articleCrossrefGoogle Scholar

  • Geldhof, J. G., Preacher, K. J. & Zyphur, M. J. (2014). Reliability estimation in a multilevel confirmatory factor analysis framework. Psychological Methods, 19, 72 – 91. https://doi.org/10.1037/a00321138 First citation in articleCrossrefGoogle Scholar

  • Götz, T., Frenzel, A. C. & Pekrun, R. (2008). Sozialklima in der Schule. In W. SchneiderM. Hasselhorn (Hrsg.), Handbuch der Pädagogischen Psychologie (Handbuch der Psychologie, Bd. 10, S. 503 – 514). Göttingen: Hogrefe. First citation in articleGoogle Scholar

  • Heck, R. H. & Thomas, S. L. (2015). Quantitative methodology series. An introduction to multilevel modeling techniques: MLM and SEM approaches using Mplus (3rd ed.). Routledge/Taylor & Francis Group. https://doi.org/10.4324/9781315746494 First citation in articleCrossrefGoogle Scholar

  • Hox, Moerbeek, van de Schoot (2018). Multilevel analysis. Techniques and applications. (3rd ed.). New York, NY: Routledge. First citation in articleGoogle Scholar

  • Hu, L. T. & Bentler, P. M. (1999). Cutoff criteria for fit indexes in covariance structure analysis: Conventional criteria versus new alternatives. Structural Equation Modeling, 6, 1 – 55. https://doi.org/10.1080/10705519909540118 First citation in articleCrossrefGoogle Scholar

  • James, L. R. (1982). Aggregation bias in estimates of perceptual agreement. Journal of Applied Psychology, 67, 219 – 229. https://doi.org/10.1037/0021-9010.67.2.219 First citation in articleCrossrefGoogle Scholar

  • Lienert, G. & Raatz, U. (1998). Testaufbau und Testanalyse (6. Aufl.). Weinheim: Beltz. First citation in articleGoogle Scholar

  • Little, T. D., Cunningham, W. A., Shahar, G. & Widaman, K. F. (2002). To parcel or not to parcel: Exploring the question, weighting the merits. Structural Equation Modeling, 9, 151 – 173. https://doi.org/10.1207/S15328007SEM0902_1 First citation in articleCrossrefGoogle Scholar

  • Lüdtke, O., Marsh, H. W., Robitzsch, A. & Trautwein, U. (2011). A 2x2 taxonomy of multilevel contextual models: Accuracy-bias trade-offs in full and partial error-correction models. Psychological Methods, 16, 444 – 467. https://doi.org/10.1037/a0024376 First citation in articleCrossrefGoogle Scholar

  • Lüdtke, O., Marsh, H. W., Robitzsch, A., Trautwein, U., Asparouhov, T. & Muthén, B. (2008). The multilevel latent covariate model: A new, more reliable approach to group-level effects in contextual studies. Psychological Methods, 13, 203 – 229. https://doi.org/10.1037/a0012869 First citation in articleCrossrefGoogle Scholar

  • Lüdtke, O., Robitzsch, A., Trautwein, U. & Kunter, M. (2009). Assessing the impact of learning environments: How to use student ratings of classroom or school characteristics in multilevel modeling. Contemporary Educational Psychology, 34, 120 – 131. https://doi.org/10.1016/j.cedpsych.2008.12.001 First citation in articleCrossrefGoogle Scholar

  • Marsh, H. W., Hau, K. T. & Wen, Z. (2004). In search of golden rules: Comment on hypothesis-testing approaches to setting cutoff values for fit indexes and dangers in overgeneralizing Hu and Bentler’s (1999) findings. Structural Equation Modeling, 11, 320 – 341. https://doi.org/10.1207/s15328007sem1103_2 First citation in articleCrossrefGoogle Scholar

  • Marsh, H. W., Lüdtke, O., Nagengast, B., Trautwein, U., Morin, A. J. S., Abduljabbar, A. S. & Köller, O. (2012). Classroom Climate and Contextual Effects: Conceptual and Methodological Issues in the Evaluation of Group-Level Effects. Educational Psychologist, 47, 106 – 124. https://doi.org/10.1080/00461520.2012.670488 First citation in articleCrossrefGoogle Scholar

  • Morin, A. J. S., Marsh, H. W., Nagengast, B. & Scalas, L. F. (2014). Doubly latent multilevel analyses of classroom climate: An illustration. Journal of Experimental Education, 82, 143 – 167. https://doi.org/10.1080/00220973.2013.769412 First citation in articleCrossrefGoogle Scholar

  • Muthén, B. O. (1994). Multilevel covariance structure analysis. Sociological Methods & Research, 22, 376 – 398. https://doi.org/10.1177/0049124194022003006 First citation in articleCrossrefGoogle Scholar

  • Muthén, B. O. & Kaplan, D. (1985). A comparison of some methodologies for the factor analysis of non-normal likert variables. British Journal of Mathematical and Statistical Psychology, 38, 171 – 189. https://doi.org/10.1111/j.2044-8317.1985.tb00832.x First citation in articleCrossrefGoogle Scholar

  • Muthén, L. K. & Muthén, B. O. (2018). Mplus user’s guide (8.2). Los Angeles, CA. First citation in articleGoogle Scholar

  • Muthén, B. O. & Satorra, A. (1995). Complex sample data in structural equation modeling. Sociological Methodology, 25, 267 – 316. First citation in articleCrossrefGoogle Scholar

  • Papaioannou, A., Marsh, H. W. & Theodorakis, Y. (2004). A multilevel approach to motivational climate in physical education and sport settings: An individual or a group level construct? Journal of Sport and Exercise Psychology, 26, 90 – 118. https://doi.org/10.1123/jsep.26.1.90 First citation in articleCrossrefGoogle Scholar

  • Pornprasertmanit, S., Lee, J. L. & Preacher, J. (2014). Ignoring clustering in confirmatory factor analysis: Some consequences for model fit and standardized parameter estimates. Multivariate Behavioral Research, 49, 518 – 543. https://doi.org/10.1080/00273171.2014.933762 First citation in articleCrossrefGoogle Scholar

  • Preckel, F. & Schmidt, I. (2014). Projektbericht 2013: Wissenschaftliche Begleitung der 5. bis 8. Klassen der gymnasialen Hochbegabtenförderung in Rheinland-Pfalz, Zeitraum 2005 – 2013. Unveröffentlichter Bericht. Universität Trier. http://www.uni-trier.de/fileadmin/fb1/prof/PSY/HBF/Sachbericht_2013_Klassen5-8_final_12-11-2014.pdf First citation in articleGoogle Scholar

  • Reyes, M. R., Brackett, M. A., Rivers, S. E., White, M. & Salovey, P. (2012). Classroom emotional climate, student engagement, and academic achievement. Journal of Educational Psychology, 104, 700 – 712. https://doi.org/10.1037/a0027268 First citation in articleCrossrefGoogle Scholar

  • Rubie-Davies, C. M. (2015). Becoming a high expectation teacher: Raising the bar. London: Routledge. First citation in articleGoogle Scholar

  • Rubie-Davies, C., Asil, M. & Teo, T. (2016). Assessing measurement invariance of the student personal perception of classroom climate across different ethnic groups. Journal of Psychoeducational Assessment, 34, 442 – 460. https://doi.org/10.1177/0734282915612689 First citation in articleCrossrefGoogle Scholar

  • Ryu, E. & West, S. G. (2009). Level-specific evaluation of model fit in multilevel structural equation modeling. Structural Equation Modeling, 16, 583 – 601. https://doi.org/10.1080/10705510903203466 First citation in articleCrossrefGoogle Scholar

  • Schermelleh-Engel, K., Moosbrugger, H. & Müller, H. (2003). Evaluating the fit of structural equation models: Tests of significance and descriptive goodness-of-fit measures. Methods of Psychological Research-Online, 8, 23 – 74. Verfügbar unter https://www.dgps.de/fachgruppen/methoden/mpr-online/ First citation in articleGoogle Scholar

  • Schneider, W., Stumpf, E., Preckel, F. & Ziegler, A. (2012). Abschlussbericht 2012: Projekt zur Evaluation der Begabtenklassen in Bayern und Baden-Württemberg Laufzeit 2008 – 2012 (PULSS I). Unveröffentlichter Bericht. Universität Würzburg, Universität Trier und Universität Nürnberg. https://www.uni-trier.de/fileadmin/fb1/prof/PSY/HBF/PULSS_Endbericht_17_12_12-final.pdf First citation in articleGoogle Scholar

  • Shewark, E. A., Zinsser, K. M. & Denham, S. A. (2018). Teachers’ perspectives on the consequences of managing classroom climate. Child & Youth Care Forum, 47, 787 – 802. https://doi.org/10.1007/s10566-018-9461-2 First citation in articleCrossrefGoogle Scholar

  • Snijders, T. A. B. & Bosker, R. J. (2012). Multilevel Analysis: An introduction to basic and advanced multilevel modeling (2nd ed.). London: Sage Publishers. First citation in articleGoogle Scholar

  • Stapleton, L. M., Yang, J. S. & Hancock, G. R. (2016). Construct Meaning in Multilevel Settings. Journal of Educational and Behavioral Statistics, 41, 481 – 520. https://doi.org/10.3102/1076998616646200 First citation in articleCrossrefGoogle Scholar

  • Steins, G., Bitan, K. & Haep, A. (2015). Sozialpsychologie des Schulalltags. Band II: Im Klassenzimmer (2., überarb. Aufl.). Lengerich: Pabst Science Publishers. First citation in articleGoogle Scholar

  • Toren, N. K. & Seginer, R. (2015). Classroom climate, parental educational involvement, and student school functioning in early adolescence: a longitudinal study. Social Psychology of Education, 18, 811 – 827. https://doi.org/10.1007/s11218-015-9316-8 First citation in articleCrossrefGoogle Scholar

  • Zyphur, M. J., Kaplan, S. A. & Christian, M. S. (2008). Assumptions of Cross-Level Measurement and Structural Invariance in the Analysis of Multilevel Data: Problems and Solutions. Group Dynamics: Theory, Research, and Practice, 12, 127 – 140. https://doi.org/10.1037/1089-2699.12.2.127 First citation in articleCrossrefGoogle Scholar

1Eine Modellierung einer dritten (Schul–)‌Ebene wurde nicht vorgenommen, da alle ICC3-Werte der Klimaelemente zur Schulebene < 0.10 ausfielen (MICC3 = 0.044; SDICC3 = 0.030). Zudem war die Anzahl der Schulen für eine verlässliche Parameterschätzung zu gering.

2Obwohl in die Kovarianzmatrix der Klassenmittelwerte in geringfügigem Ausmaß auch die Kovarianzmatrix der gruppenmittelwert-zentrierten Individualdaten eingeht (Muthén, 1994), ist diese Analysestrategie akzeptabel (Dyer et al., 2005, S. 156) und führt zu einer korrekten Modellbewertung (Pornprasertmanit et al., 2014).

3Diese Anomalie tritt wegen der typischerweise kleinen L2-Residualvarianzen in einem ML-CFM häufiger auf (Heck & Thomas, 2015).