Skip to main content
Published Online:https://doi.org/10.1026/0012-1924/a000141

Die Studie untersucht verschiedene Aspekte der Validität von studentischen Lehrveranstaltungsevaluationen (LVE). Anhand einer adaptierten Version des Trierer Inventars zur Lehrevaluation (TRIL) überprüften wir sowohl faktorielle Validität, Messinvarianz über Veranstaltungsarten hinweg als auch Beurteilerübereinstimmung unter Studierenden (Konsistenz vs. Methodenspezifität). Hierzu wurden konfirmatorische Faktorenanalysen unter Berücksichtigung der Multilevel-Struktur der Daten modelliert. Außerdem wurde die Heterogenität der Urteile innerhalb von Veranstaltungen durch Studierendenvariablen (Interesse am Thema, Sympathie für die Lehrperson, wahrgenommene Schwierigkeit der Inhalte) erklärt. In einer Stichprobe von 1 823 Studierendenurteilen, geschachtelt in 101 Veranstaltungen, konnte die angenommene Struktur der Items bestätigt werden, die Items waren strikt messinvariant über Vorlesungen (n = 51) und Seminare/Übungen (n = 50) hinweg. Die Konsistenz der Studierendenurteile fiel moderat aus. Etwa 50 % der Variabilität innerhalb von Veranstaltungen ließen sich durch die Studierendenvariablen erklären. Hinweise auf die diskriminante Validität der Lehrqualitätsdimensionen ergaben sich durch differentielle Vorhersagebeiträge.


The Validity of Students’ Evaluations of Teaching–Measurement Invariance Across Course Types, Consistency of Ratings and the Explanation of their Heterogeneity

The study examines different aspects of the validity of students’ evaluations of teaching (SETs). Taking an adapted version of the Trier Inventory of Teaching Quality (TRIL) as an example, we analyzed factorial validity, measurement invariance across course types and rater agreement between students (consistency vs. method specificity). We used confirmatory factor analysis taking the multilevel structure of the data into account. Moreover, the heterogeneity of SETs within courses was explained by student variables (interest in topics, sympathy for the teacher, perceived difficulty of contents). The proposed structure of the items was confirmed in a sample of 1 823 student ratings nested in 101 courses. The items demonstrated strict measurement invariance across lectures (n = 51) vs. seminars/excercises (n = 50). Consistency of student ratings was moderate. About 50 % of the variance in SETs within courses was explained by the student variables. As an indication of discriminant validity, differential effects of these predictors emerged for the different teaching quality dimensions.

Literatur

  • Centra, J. A. (2003). Will teachers receive higher student evaluations by giving higher grades and less course work? Research in Higher Education, 44, 495 – 518. First citation in articleCrossrefGoogle Scholar

  • Eid, M., Gollwitzer, M. & Schmitt, M. (2013). Statistik und Forschungsmethoden (3. Aufl.). Weinheim: Beltz. First citation in articleGoogle Scholar

  • Eid, M., Nussbeck, F. W., Geiser, C., Cole, D. A., Gollwitzer, M. & Lischetzke, T. (2008). Structural equation modeling of multitrait-multimethod data: Different models for different types of methods. Psychological Methods, 13, 230 – 253. First citation in articleCrossrefGoogle Scholar

  • Enders, C. K. (2010). Applied missing data analysis. New York, NY: Guilford. First citation in articleGoogle Scholar

  • Enders, C. K. & Tofighi, D. (2007). Centering predictor variables in cross-sectional multilevel models: A new look at an old issue. Psychological Methods, 12, 121 – 138. First citation in articleCrossrefGoogle Scholar

  • Esser, H. (1995). Lehrevaluation: Noshows, Karteileichen, Schleifendreher. Deutsche Universitätszeitung, 18, 22 – 25. First citation in articleGoogle Scholar

  • Fondel, E. (2014). Zur Validität von studentischen Lehrveranstaltungsevaluationen–Ein Multilevel-CFA-MTMM-Modell unter Berücksichtigung von Biasvariablen. Unveröffentlichte Diplomarbeit, Universität Koblenz-Landau, Campus Landau. First citation in articleGoogle Scholar

  • Gollwitzer, M., Gläßer, E., Kranz, D., Meininger, C., Schlotz, W., Schnell, T. et al. (2005). Das Trierer Inventar zur Lehrevaluation. Handanweisung mit Hinweisen zu Konstruktion, Anwendung, Auswertung und Interpretation. Unveröffentlichtes Manuskript. First citation in articleGoogle Scholar

  • Gollwitzer, M., Kranz, D. & Vogel, E. (2006). Die Validität studentischer Lehrveranstaltungsevaluationen und ihre Nützlichkeit für die Verbesserung der Hochschullehre: Neuere Befunde zu den Gütekriterien des „Trierer Inventars zur Lehrevaluation” (TRIL). In G. Krampen & H. ZayerHrsg., Didaktik und Evaluation in der Psychologie (S. 90 – 104). Göttingen: Hogrefe. First citation in articleGoogle Scholar

  • Gollwitzer, M. & Schlotz, W. (2003). Das „Trierer Inventar zur Lehrveranstaltungsevaluation” (TRIL): Entwicklung und erste testtheoretische Erprobungen. In G. Krampen & H. ZayerHrsg., Psychologiedidaktik und Evaluation IV. Neue Medien, Konzepte, Untersuchungsbefunde und Erfahrungen zur psychologischen Aus-, Fort- und Weiterbildung (S. 114 – 128). Bonn: Deutscher Psychologen Verlag. First citation in articleGoogle Scholar

  • Greimel-Fuhrmann, B. & Geyer, A. (2005). Die Wirkung von Interesse und Sympathie auf die Gesamtbeurteilung in der Lehrevaluation. Direkte und indirekte Effekte unter Berücksichtigung des Lehrverhaltens. Empirische Pädagogik, 19, 153 – 168. First citation in articleGoogle Scholar

  • Keaveny, T. J. & McGann, A. F. (1978). Behavioral dimensions associated with students’ global ratings of college professors. Research in Higher Education, 9, 333 – 345. First citation in articleCrossrefGoogle Scholar

  • Kenny, D. A. (1995). The multitrait-multimethod matrix: Design, analysis, and conceptual issues. In S. T. Fiske & P. E. ShroutEds., Personality research, methods, and theory: A festschrift honoring Donald W. Fiske (pp. 111 – 124). Hillsdale, NJ: Erlbaum. First citation in articleGoogle Scholar

  • Kromrey, H. (1994). Wie erkennt man „gute Lehre”? Was studentische Vorlesungsbefragungen (nicht) aussagen. Empirische Pädagogik, 8, 153 – 168. First citation in articleGoogle Scholar

  • Kromrey, H. (1996). Qualitätsverbesserung in der Lehre statt sogenannter Lehrevaluation. Ein Plädoyer für gute Lehre und gegen schlechte Sozialforschung. Zeitschrift für Pädagogische Psychologie, 10, 153 – 166. First citation in articleGoogle Scholar

  • Kromrey, H. (2001). Evaluation von Lehre und Studium–Anforderungen an Methodik und Design. In C. SpielHrsg., Evaluation universitärer Lehre –Zwischen Qualitätsmanagement und Selbstzweck (S. 21 – 60). Münster: Waxmann. First citation in articleGoogle Scholar

  • Kromrey, H. (2006). Qualität und Evaluation im System Hochschule. In R. StockmannHrsg., Evaluationsforschung: Grundlagen und ausgewählte Forschungsfelder (S. 234 – 259). Münster: Waxmann. First citation in articleGoogle Scholar

  • Little, T. D., Rhemtulla, M., Gibson, K. & Schoemann, A. M. (2013). Why the items versus parcels controversy needn’t be one. Psychological Methods, 18, 285 – 300. First citation in articleCrossrefGoogle Scholar

  • Lüdtke, O., Marsh, H. W., Robitzsch, A., Trautwein, U., Asparouhov, T. & Muthén, B. (2008). The multilevel latent covariate model: A new, more reliable approach to group-level effects in contextual studies. Psychological Methods, 13, 203 – 229. First citation in articleCrossrefGoogle Scholar

  • Marsh, H. W. (2007). Students’ evaluations of university teaching: Dimensionality, reliability, validity, potential biases and usefulness. In R. P. Perry & J. C. SmartEds., The scholarship of teaching and learning in higher education: An evidence-based perspective (pp. 319 – 383). Dordrecht: Springer. First citation in articleCrossrefGoogle Scholar

  • Marsh, H. W., Muthén, B., Asparouhov, T., Lüdtke, O., Robitzsch, A., Morin, A. J. S. et al. (2009). Exploratory structural equation modeling, integrating CFA and EFA: Application to students’ evaluations of university teaching. Structural Equation Modeling: A Multidisciplinary Journal, 16, 439 – 476. First citation in articleCrossrefGoogle Scholar

  • Marsh, H. W. & Roche, L. A. (1997). Making students’ evaluations of teaching effectiveness effective. The critical issues of validity, bias, and utility. American Psychologist, 52, 1187 – 1197. First citation in articleCrossrefGoogle Scholar

  • Meredith, W. (1993). Measurement invariance, factor analysis and factorial invariance. Psychometrika, 58, 525 – 543. First citation in articleCrossrefGoogle Scholar

  • Mußgnug, R. (1992). Gefährden Lehrevaluationen die Freiheit der Wissenschaft? Mitteilungen des Hochschulverbandes, 4, 253 – 256. First citation in articleGoogle Scholar

  • Muthén, L. K. & Muthén, B. O. (1998 – 2012). Mplus User’s Guide (7th ed.). Los Angeles, CA: Muthén & Muthén. First citation in articleGoogle Scholar

  • Muthén, L. K. & Muthén, B. (2009). Mplus Short Courses. Topic 7 Multilevel modeling With Latent Variables Using Mplus: Cross-Sectional analysis. Unpublished manuscript, Berlin. First citation in articleGoogle Scholar

  • Muthén, B. O. & Satorra, A. (1995). Complex sample data in structural equation modeling. Sociological Methodology, 25, 216 – 316. First citation in articleCrossrefGoogle Scholar

  • Pham, G., Koch, T., Helmke, A., Schrader, F.-W., Helmke, T. & Eid, M. (2012). Do teachers know how their teaching is perceived by their pupils? Procedia–Social and Behavioral Sciences, 46, 3368 – 3374. First citation in articleCrossrefGoogle Scholar

  • Rindermann, H. (1996). Zur Qualität studentischer Lehrveranstaltungsevaluationen: Eine Antwort auf Kritik an der Lehrevaluation. Zeitschrift für Pädagogische Psychologie, 10, 129 – 145. First citation in articleGoogle Scholar

  • Rindermann, H. (1997). Die studentische Beurteilung von Lehrveranstaltungen: Forschungsstand und Implikationen für den Einsatz von Lehrevaluationen. In R. S. Jäger, R. H. LehmannG. TrostHrsg., Tests und Trends (S. 12 – 53). Weinheim: Beltz. First citation in articleGoogle Scholar

  • Rindermann, H. (1998). Übereinstimmung und Divergenz bei der studentischen Beurteilung von Lehrveranstaltungen: Methoden zu ihrer Berechnung und Konsequenzen für die Lehrevaluation. Zeitschrift für Differentielle und Diagnostische Psychologie, 19 (2), 73 – 92. First citation in articleGoogle Scholar

  • Rindermann, H. (2009). Lehrevaluation. Einführung und Überblick zu Forschung und Praxis der Lehrveranstaltungsevaluation an Hochschulen mit einem Beitrag zur Evaluation computerbasierten Unterrichts (Psychologie, Bd. 42, 2., leicht korrigierte Aufl.). Landau: Empirische Pädagogik e. V. First citation in articleGoogle Scholar

  • Satorra, A. & Bentler, P. (1999). A scaled difference chi-square test statistic for moment structure analysis (UCLA Statistics Series No. 260). Los Angeles, CA: University of California, Department of Statistics. First citation in articleGoogle Scholar

  • Schermelleh-Engel, K. & Werner, C. (2009). Analyse von Strukturgleichungsmodellen mit LISREL–Version Mai 2009. Item Parceling: Bildung von Testteilen oder Item-Päckchen. Zugriff am 16. 06. 2014. Verfügbar unter www.psychologie.uzh.ch/fachrichtungen/methoden/team/christinawerner/sem/item_parceling.pdf First citation in articleGoogle Scholar

  • Schmidt, B. & Loßnitzer, T. (2010). Lehrveranstaltungsevaluation: State of the Art, ein Definitionsvorschlag und Entwicklungslinien. Zeitschrift für Evaluation, 9, 49 – 72. First citation in articleGoogle Scholar

  • Schultze, M., Koch, T. & Eid, M. (in press). The effects of non-independent rater sets in Multilevel-Multitrait-Multimethod models. Structural Equation Modeling. First citation in articleGoogle Scholar

  • Spiel, C. (2001). Der differentielle Einfluß von Biasvariablen auf studentische Lehrveranstaltungsbewertungen. In U. EngelHrsg., Hochschul-Ranking. Zur Qualitätsbewertung von Studium und Lehre (S. 61 – 82). Frankfurt am Main/New York: Campus. First citation in articleGoogle Scholar

  • Spiel, C. & Gössler, P. M. (2000). Zum Einfluß von Biasvariablen auf die Bewertung universitärer Lehre durch Studierende. Zeitschrift für Pädagogische Psychologie, 14, 38 – 47. First citation in articleLinkGoogle Scholar

  • Spooren, P., Brockx, B. & Mortelmans, D. (2013). On the validity of student evaluation of teaching: The state of the art. Review of Educational Research, 83, 598 – 642. First citation in articleCrossrefGoogle Scholar

  • Staufenbiel, T. (2000). Fragebogen zur Evaluation von universitären Lehrveranstaltungen durch Studierende und Lehrende. Diagnostica, 46, 169 – 181. First citation in articleLinkGoogle Scholar

  • Widaman, K. F. & Reise, S. P. (1997). Exploring the measurement invariance of psychological instruments: Applications in the substance use domain. In K. J. BryantM. WindleS. G. WestEds., The science of prevention: Methodological advances from alcohol and substance abuse research (pp. 281 – 324). Washington, DC: American Psychological Association. First citation in articleCrossrefGoogle Scholar

  • Wolbring, T. (2013). Fallstricke der Lehrevaluation. Möglichkeiten und Grenzen der Messbarkeit von Lehrqualität. Frankfurt am Main/New York: Campus. First citation in articleGoogle Scholar