Analyse von Lernumwelten
Ansätze zur Bestimmung der Reliabilität und Übereinstimmung von Schülerwahrnehmungen
Abstract
Zusammenfassung. In der pädagogisch-psychologischen Forschung zur Unterrichtsqualität wird häufig auf Schülerurteile zurückgegriffen. Diese werden über die Schüler einer Klasse gemittelt, wenn ein Maß für die geteilte schulische Umwelt (z. B. Unterrichtsqualität) gebildet werden soll, das sich in Beziehung zu anderen Konstrukten (z. B. Schulleistung, Schulform) setzen lässt. Oft bleibt dabei unberücksichtigt, inwiefern die Schüler einer Klasse in ihren Wahrnehmungen der schulischen Umwelt tatsächlich übereinstimmen und wie reliabel die aggregierten Schülerwahrnehmungen sind. In diesem Beitrag werden Verfahren aus der Organisationspsychologie aufgegriffen, um die Reliabilität und Übereinstimmung von Schülerwahrnehmungen zu bestimmen. Anhand einer Reihe von Skalen zur Unterrichtswahrnehmung aus der TIMS-Studie (N = 2064 Schüler in 100 Klassen) wird die Anwendung der vorgestellten Indizes veranschaulicht. Abschließend wird die Fruchtbarkeit dieser Indizes für die Analyse von Mehrebenenstrukturen diskutiert, und es werden Empfehlungen für die Forschungspraxis gegeben.
Abstract. The majority of studies in educational research rely on student ratings to assess characteristics of the learning environment. At the classroom level the aggregated student ratings reflect perceptions of the shared learning environment, corrected for individual idiosyncrasies. Although this strategy is often applied in research on learning and instruction, neither the reliability and validity of the aggregated student ratings nor the amount of within-group agreement between the students in a class have been subject to much investigation. The present study introduces and discusses different procedures proposed in organizational psychology for assessing the reliability and agreement of students' ratings of their instruction. The proposed indices will be illustrated by reanalyzing the students' ratings of their mathematics lessons in the TIMS Study (N = 2064 students in 100 classes).
References
1997). Bildungsverläufe und psychosoziale Entwicklung im Jugendalter (BIJU). Dokumentation, Band 1. Skalenlängsschnitt I, Welle 1-4 . Berlin: Max-Planck-Institut für Bildungsforschung
(1997). TIMSS - Mathematisch-naturwissenschaftlicher Unterricht im internationalen Vergleich: Deskriptive Befunde . Opladen: Leske & Budrich
(1998). Group size, ICC values, and group-level correlations: A simulation. Organizational Research Methods, 1, 355– 373
(2000). Within-group agreement, non-independence, and reliability: Implications for data aggregation and analysis. In K.J. Klein & S.W. Kozlowski (Eds.), Multilevel theory, research, and methods in organizations (pp. 349-381). San Francisco, CA: Jossey-Bass
(2003). Multilevel modeling in R. A brief introduction to R, the Multilevel package and the NLME package . Unpublished manuscript
(2005). Interrater agreement reconsidered: An alternative to the rWG indices. Organizational Research Methods, 8, 165– 184
(2002). Estimating interrater agreement with the average deviation index: A user's guide. Organizational Research Methods, 5, 159– 172
(1999). On average deviation indices for estimating interrater agreement. Organizational Research Methods, 2, 49– 68
(1998). Functional relations among constructs in the same content domain at different levels of analysis: A typology of compositional models. Journal of Applied Psychology, 83, 234– 246
(2001). Perceptions of classroom environment, achievement goals, and achievement outcomes. Journal of Educational Psychology, 93, 43– 54
(2002). Unterrichtsqualität: Eine Frage der Perspektive? . Münster: Waxmann
(2001). Statistical properties of the rWG(J) index of agreement. Psychological Methods, 6, 297– 310
(2002). Lehrkräfte und Unterricht aus Schülersicht. Zeitschrift für Pädagogik, 48, 262– 286
(1982). Unterrichtsklima. Wie Schüler den Unterricht wahrnehmen . Weinheim: Beltz
(2003). Accurate tests of statistical significance for rWG and average deviation interrater agreement indexes. Journal of Applied Psychology, 88, 356– 362
(1993). An introduction to the bootstrap . New York: Chapman & Hill
(1986). Erziehungsumwelten. Bericht aus dem Projekt “Entwicklung im Jugendalter” . Konstanz: Universität, Sozialwissenschaftliche Fakultät
(1970). A note on estimating the reliability of categorical data. Educational and Psychological Measurement, 30, 71– 76
(2002). Is quality/effectiveness an empirically demonstrable school attribute? Statistical aids for determining appropriate levels of analysis. School Effectiveness and School Improvement, 13, 91– 122
(2000). Unterricht und schulisches Lernen: Schüler als Quellen der Unterrichtsbeschreibung . Münster: Waxmann
(2003). Unterrichtsqualität . Seelze: Kallmeyersche Verlagsbuchhandlung
(1984). Estimating within-group interrater reliability with and without response bias. Journal of Applied Psychology, 69, 85– 98
(1993). rWG: An assessment of within-group interrater agreement. Journal of Applied Psychology, 78, 306– 309
(1977). The generalizability of class means. Review of Educational Research, 47, 267– 292
(2001). Is everyone in agreement? An exploration of within-group agreement in employee perceptions of the work environment. Journal of Applied Psychology, 86, 3– 16
(2003). Unterrichtsqualität aus Schülerperspektive: Kulturspezifische Profile, regionale Unterschiede und Zusammenhänge mit Effekten von Unterricht. In J. Baumert, C. Artelt, E. Klieme, M. Neubrand, M. Prenzel, U. Schiefele, W. Schneider, K.-J. Tillmann & M. Weiß (Hrsg.), PISA 2000: Ein differenzierter Blick auf die Länder der Bundesrepublik Deutschland (S. 333-359). Opladen: Leske + Budrich
(1992). A disagreement about within-group agreement: Disentangling issues of consistency versus consensus. Journal of Applied Psychology, 77, 161– 167
(2005). Multiple Ziele im Mathematikunterricht . Münster: Waxmann
(2002). Soziale Kompetenz von Schülerinnen und Schülern. Die Rolle von Schulmerkmalen für die Vorhersage ausgewählter Aspekte. Zeitschrift für Erziehungswissenschaften, 5, 49– 71
(2005). Recent issues regarding rWG, r*WG, rWG(J), and r*WG(J) . Organizational Research Methods, 8, 128– 138
(1997). Measuring interrater agreement for ratings of a single target. Applied Psychological Measurement, 21, 271– 278
(1999). Assessing interrater agreement on the job relevance of a test: A comparison of CVI, T, rWG(J), and r*WG(J) indexes. Journal of Applied Psychology, 84, 640– 647
(1999). A revised index of interrater agreement for multi-item ratings of a single target. Applied Psychological Measurement, 23, 127– 135
(2002). Individuelle Bezugsnormorientierung und soziale Vergleiche im Mathematikunterricht. Einfluss unterschiedlicher Referenzrahmen auf das fachspezifische Selbstkonzept der Begabung. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 34, 156– 166
(2002). Statistische Artefakte bei Kontexteffekten in der pädagogisch-psychologischen Forschung. Zeitschrift für Pädagogische Psychologie, 16, 217– 231
(1996). Forming inferences about some intraclass correlation coefficients. Psychological Methods, 1, 30– 46
(2002). Hierarchical linear models (2nd ed.). Thousand Oaks, CA: Sage
(1998). Bezugsnormorientierung. In D.H. Rost (Hrsg.), Handwörterbuch Pädagogische Psychologie (S. 39- 43). Weinheim: Beltz/PVU
(1998). Why do some students avoid asking for help? An examination of the interplay among students' academic efficacy, teachers' social-emotional role, and the classroom goal structure. Journal of Educational Psychology, 90, 528– 535
(1989). Interrater reliability coefficients cannot be computed when only one stimulus is rated. Journal of Applied Psychology, 75, 322– 327
(1982). Die Bezugsnorm des Lehrers aus der Sicht des Schülers. In F. Rheinberg (Hrsg.), Jahrbuch für Empirische Erziehungswissenschaft 1982. Bezugsnormen zur Schulleistungsbewertung: Analyse und Intervention (S. 161-172). Düsseldorf: Schwann
(1979). Intraclass correlations: Uses in assessing rater reliability. Psychological Bulletin, 86, 420– 428
(1999). Multilevel analysis: An introduction to basic and advanced multilevel modeling . London: Sage
(2002). Beurteilerübereinstimmung und Beurteilerreliabilität . Göttingen: Hogrefe
(