Zur Validität von studentischen Lehrveranstaltungsevaluationen
Messinvarianz über Veranstaltungsarten, Konsistenz von Urteilen und Erklärung ihrer Heterogenität
Abstract
Die Studie untersucht verschiedene Aspekte der Validität von studentischen Lehrveranstaltungsevaluationen (LVE). Anhand einer adaptierten Version des Trierer Inventars zur Lehrevaluation (TRIL) überprüften wir sowohl faktorielle Validität, Messinvarianz über Veranstaltungsarten hinweg als auch Beurteilerübereinstimmung unter Studierenden (Konsistenz vs. Methodenspezifität). Hierzu wurden konfirmatorische Faktorenanalysen unter Berücksichtigung der Multilevel-Struktur der Daten modelliert. Außerdem wurde die Heterogenität der Urteile innerhalb von Veranstaltungen durch Studierendenvariablen (Interesse am Thema, Sympathie für die Lehrperson, wahrgenommene Schwierigkeit der Inhalte) erklärt. In einer Stichprobe von 1 823 Studierendenurteilen, geschachtelt in 101 Veranstaltungen, konnte die angenommene Struktur der Items bestätigt werden, die Items waren strikt messinvariant über Vorlesungen (n = 51) und Seminare/Übungen (n = 50) hinweg. Die Konsistenz der Studierendenurteile fiel moderat aus. Etwa 50 % der Variabilität innerhalb von Veranstaltungen ließen sich durch die Studierendenvariablen erklären. Hinweise auf die diskriminante Validität der Lehrqualitätsdimensionen ergaben sich durch differentielle Vorhersagebeiträge.
The study examines different aspects of the validity of students evaluations of teaching (SETs). Taking an adapted version of the Trier Inventory of Teaching Quality (TRIL) as an example, we analyzed factorial validity, measurement invariance across course types and rater agreement between students (consistency vs. method specificity). We used confirmatory factor analysis taking the multilevel structure of the data into account. Moreover, the heterogeneity of SETs within courses was explained by student variables (interest in topics, sympathy for the teacher, perceived difficulty of contents). The proposed structure of the items was confirmed in a sample of 1 823 student ratings nested in 101 courses. The items demonstrated strict measurement invariance across lectures (n = 51) vs. seminars/excercises (n = 50). Consistency of student ratings was moderate. About 50 % of the variance in SETs within courses was explained by the student variables. As an indication of discriminant validity, differential effects of these predictors emerged for the different teaching quality dimensions.
Literatur
2003). Will teachers receive higher student evaluations by giving higher grades and less course work? Research in Higher Education, 44, 495 – 518.
(2013). Statistik und Forschungsmethoden (3. Aufl.). Weinheim: Beltz.
(2008). Structural equation modeling of multitrait-multimethod data: Different models for different types of methods. Psychological Methods, 13, 230 – 253.
(2010). Applied missing data analysis. New York, NY: Guilford.
(2007). Centering predictor variables in cross-sectional multilevel models: A new look at an old issue. Psychological Methods, 12, 121 – 138.
(1995). Lehrevaluation: Noshows, Karteileichen, Schleifendreher. Deutsche Universitätszeitung, 18, 22 – 25.
(2014). Zur Validität von studentischen Lehrveranstaltungsevaluationen–Ein Multilevel-CFA-MTMM-Modell unter Berücksichtigung von Biasvariablen. Unveröffentlichte Diplomarbeit, Universität Koblenz-Landau, Campus Landau.
(2005). Das Trierer Inventar zur Lehrevaluation. Handanweisung mit Hinweisen zu Konstruktion, Anwendung, Auswertung und Interpretation. Unveröffentlichtes Manuskript.
(2006). Die Validität studentischer Lehrveranstaltungsevaluationen und ihre Nützlichkeit für die Verbesserung der Hochschullehre: Neuere Befunde zu den Gütekriterien des „Trierer Inventars zur Lehrevaluation” (TRIL). In G. Krampen & H. ZayerHrsg., Didaktik und Evaluation in der Psychologie (S. 90 – 104). Göttingen: Hogrefe.
(2003). Das „Trierer Inventar zur Lehrveranstaltungsevaluation” (TRIL): Entwicklung und erste testtheoretische Erprobungen. In G. Krampen & H. ZayerHrsg., Psychologiedidaktik und Evaluation IV. Neue Medien, Konzepte, Untersuchungsbefunde und Erfahrungen zur psychologischen Aus-, Fort- und Weiterbildung (S. 114 – 128). Bonn: Deutscher Psychologen Verlag.
(2005). Die Wirkung von Interesse und Sympathie auf die Gesamtbeurteilung in der Lehrevaluation. Direkte und indirekte Effekte unter Berücksichtigung des Lehrverhaltens. Empirische Pädagogik, 19, 153 – 168.
(1978). Behavioral dimensions associated with students’ global ratings of college professors. Research in Higher Education, 9, 333 – 345.
(1995). The multitrait-multimethod matrix: Design, analysis, and conceptual issues. In S. T. Fiske & P. E. ShroutEds., Personality research, methods, and theory: A festschrift honoring Donald W. Fiske (pp. 111 – 124). Hillsdale, NJ: Erlbaum.
(1994). Wie erkennt man „gute Lehre”? Was studentische Vorlesungsbefragungen (nicht) aussagen. Empirische Pädagogik, 8, 153 – 168.
(1996). Qualitätsverbesserung in der Lehre statt sogenannter Lehrevaluation. Ein Plädoyer für gute Lehre und gegen schlechte Sozialforschung. Zeitschrift für Pädagogische Psychologie, 10, 153 – 166.
(2001). Evaluation von Lehre und Studium–Anforderungen an Methodik und Design. In C. SpielHrsg., Evaluation universitärer Lehre –Zwischen Qualitätsmanagement und Selbstzweck (S. 21 – 60). Münster: Waxmann.
(2006). Qualität und Evaluation im System Hochschule. In R. StockmannHrsg., Evaluationsforschung: Grundlagen und ausgewählte Forschungsfelder (S. 234 – 259). Münster: Waxmann.
(2013). Why the items versus parcels controversy needn’t be one. Psychological Methods, 18, 285 – 300.
(2008). The multilevel latent covariate model: A new, more reliable approach to group-level effects in contextual studies. Psychological Methods, 13, 203 – 229.
(2007). Students’ evaluations of university teaching: Dimensionality, reliability, validity, potential biases and usefulness. In R. P. Perry & J. C. SmartEds., The scholarship of teaching and learning in higher education: An evidence-based perspective (pp. 319 – 383). Dordrecht: Springer.
(2009). Exploratory structural equation modeling, integrating CFA and EFA: Application to students’ evaluations of university teaching. Structural Equation Modeling: A Multidisciplinary Journal, 16, 439 – 476.
(1997). Making students’ evaluations of teaching effectiveness effective. The critical issues of validity, bias, and utility. American Psychologist, 52, 1187 – 1197.
(1993). Measurement invariance, factor analysis and factorial invariance. Psychometrika, 58, 525 – 543.
(1992). Gefährden Lehrevaluationen die Freiheit der Wissenschaft? Mitteilungen des Hochschulverbandes, 4, 253 – 256.
(1998 – 2012). Mplus User’s Guide (7th ed.). Los Angeles, CA: Muthén & Muthén.
(2009). Mplus Short Courses. Topic 7 Multilevel modeling With Latent Variables Using Mplus: Cross-Sectional analysis. Unpublished manuscript, Berlin.
(1995). Complex sample data in structural equation modeling. Sociological Methodology, 25, 216 – 316.
(2012). Do teachers know how their teaching is perceived by their pupils? Procedia–Social and Behavioral Sciences, 46, 3368 – 3374.
(1996). Zur Qualität studentischer Lehrveranstaltungsevaluationen: Eine Antwort auf Kritik an der Lehrevaluation. Zeitschrift für Pädagogische Psychologie, 10, 129 – 145.
(1997). Die studentische Beurteilung von Lehrveranstaltungen: Forschungsstand und Implikationen für den Einsatz von Lehrevaluationen. In R. S. Jäger, R. H. LehmannG. TrostHrsg., Tests und Trends (S. 12 – 53). Weinheim: Beltz.
(1998). Übereinstimmung und Divergenz bei der studentischen Beurteilung von Lehrveranstaltungen: Methoden zu ihrer Berechnung und Konsequenzen für die Lehrevaluation. Zeitschrift für Differentielle und Diagnostische Psychologie, 19 (2), 73 – 92.
(2009). Lehrevaluation. Einführung und Überblick zu Forschung und Praxis der Lehrveranstaltungsevaluation an Hochschulen mit einem Beitrag zur Evaluation computerbasierten Unterrichts (Psychologie, Bd. 42, 2., leicht korrigierte Aufl.). Landau: Empirische Pädagogik e. V.
(1999). A scaled difference chi-square test statistic for moment structure analysis (UCLA Statistics Series No. 260). Los Angeles, CA: University of California, Department of Statistics.
(2009). Analyse von Strukturgleichungsmodellen mit LISREL–Version Mai 2009. Item Parceling: Bildung von Testteilen oder Item-Päckchen. Zugriff am 16. 06. 2014. Verfügbar unter www.psychologie.uzh.ch/fachrichtungen/methoden/team/christinawerner/sem/item_parceling.pdf
(2010). Lehrveranstaltungsevaluation: State of the Art, ein Definitionsvorschlag und Entwicklungslinien. Zeitschrift für Evaluation, 9, 49 – 72.
((in press). The effects of non-independent rater sets in Multilevel-Multitrait-Multimethod models. Structural Equation Modeling.
2001). Der differentielle Einfluß von Biasvariablen auf studentische Lehrveranstaltungsbewertungen. In U. EngelHrsg., Hochschul-Ranking. Zur Qualitätsbewertung von Studium und Lehre (S. 61 – 82). Frankfurt am Main/New York: Campus.
(2000). Zum Einfluß von Biasvariablen auf die Bewertung universitärer Lehre durch Studierende. Zeitschrift für Pädagogische Psychologie, 14, 38 – 47.
(2013). On the validity of student evaluation of teaching: The state of the art. Review of Educational Research, 83, 598 – 642.
(2000). Fragebogen zur Evaluation von universitären Lehrveranstaltungen durch Studierende und Lehrende. Diagnostica, 46, 169 – 181.
(1997). Exploring the measurement invariance of psychological instruments: Applications in the substance use domain. In K. J. BryantM. WindleS. G. WestEds., The science of prevention: Methodological advances from alcohol and substance abuse research (pp. 281 – 324). Washington, DC: American Psychological Association.
(2013). Fallstricke der Lehrevaluation. Möglichkeiten und Grenzen der Messbarkeit von Lehrqualität. Frankfurt am Main/New York: Campus.
(