Skip to main content
Published Online:https://doi.org/10.1026/0012-1924/a000142

Zusammenfassung. Trotz des breiten Einsatzes von Bewertungen von Lehrveranstaltungen durch Studierende wird die Validität dieser Urteile immer wieder in Frage gestellt. Insbesondere wird befürchtet, dass die Urteile dadurch verzerrt sind, dass sie durch Variablen beeinflusst werden, die nicht mit der Qualität der Lehrveranstaltung zusammenhängen. Auf der Basis eines Datensatzes mit studentischen Bewertungen von 2 898 Lehrveranstaltungen wurde der Einfluss von 10 potentiellen Biasvariablen mittels Mehrebenenanalysen untersucht. Die Variablen sind dabei auf der Ebene der Studierenden (Geschlecht, Vorab-Interesse, Rahmenbedingungen, Fehlzeiten), der Veranstaltungen (Veranstaltungsgröße, Schwund, Pflichtcharakter) und der Lehrenden (Geschlecht, Status, Lehrerfahrung) lokalisiert. Fast alle der Einflussgrößen auf den ersten beiden Ebenen sowie eine Cross-Level Interaktion der Geschlechtsvariablen sind statistisch signifikante Prädiktoren der Studierendenurteile. Mit Ausnahme des Vorab-Interesses und der Rahmenbedingungen sind diese Beziehungen aber nur schwach. Zudem ist meist schwierig zu entscheiden, ob es sich bei den Einflüssen tatsächlich um verzerrende Faktoren handelt.


Predictors of Students’ Evaluations of Teaching: A Multilevel Analysis

Abstract. Despite the widespread use of student evaluations of teaching the validity of these ratings is still called into question. In particular it is suspected that student ratings are affected by variables that are not related to the quality of teaching and thus are biased. In a dataset with 2 898 courses the influences of 10 potentially biasing variables are analyzed using multilevel modelling. The variables are located on the student level (student gender, prior interest, surrounding conditions, absenteeism), the course level (class size, dropout, mandatory participation) and the teacher level (faculty status, gender, teaching experience). Nearly all of the variables on the first two levels and a cross-level interaction between student and teacher gender were statistically significant predictors of the student evaluations. However, with the exception of prior interest and the surrounding conditions these relationships are only weak. It is also often difficult to decide whether these variables are biasing factors.

Literatur

  • Abrami, P. C. (1989). SEEQing the truth about student ratings of instruction. Educational Researcher, 18, 43 – 45. First citation in articleGoogle Scholar

  • Baek, S.-G. & Shin, H.-J. (2008). Multilevel analysis of the effects of student and course characteristics on satisfaction in undergraduate liberal arts courses. Asia Pacific Education Review, 9, 475 – 486. First citation in articleCrossrefGoogle Scholar

  • Bauer, D. J. & Curran, P. J. (2005). Probing interactions in fixed and multilevel regression: Inferential and graphical techniques. Multivariate Behavioral Research, 40, 373 – 400. First citation in articleCrossrefGoogle Scholar

  • Berger, U. & Schleußner, C. (2003). Hängen Ergebnisse einer Lehrveranstaltungs-Evaluation von der Häufigkeit des Veranstaltungsbesuches ab? Zeitschrift für Pädagogische Psychologie, 17, 125 – 131. First citation in articleLinkGoogle Scholar

  • Brockx, B., Spooren, P. & Mortelmans, D. (2011). Taking the grading leniency story to the edge. The influence of student, teacher, and course characteristics on student evaluations of teaching in higher education. Educational Assessment, Evaluation and Accountability, 23, 289 – 306. First citation in articleCrossrefGoogle Scholar

  • Centra, J. A. & Gaubatz, N. N. (2000). Is there gender bias in student evaluations of teaching? The Journal of Higher Education, 70, 17 – 33. First citation in articleCrossrefGoogle Scholar

  • Daniel, H.-D. (1994). Hörerbefragung an der Universität Mannheim: Konzeption, Erhebung, Auswertung. Empirische Pädagogik, 8, 109 – 129. First citation in articleGoogle Scholar

  • Diehl, J. M. (1994). Fragebögen zur studentischen Evaluation von Hochschulveranstaltungen. Manual und Auswertungsprogramm zum VBVOR und VBREF. Gießen: Fachbereich 06 Psychologie, Universität Gießen. First citation in articleGoogle Scholar

  • Diehl, J. M. (2001). Studentische Lehrevaluation in den Sozialwissenschaften: Fragebögen, Normen, Probleme. In E. KeinerHrsg., Evaluation (in) der Erziehungswissenschaft (S. 63 – 90). Weinheim: Beltz Verlag. First citation in articleGoogle Scholar

  • Dresel, M. & Rindermann, H. (2011). Counseling university instructors based on student evaluations of their teaching effectiveness: A multilevel test of its effectiveness under consideration of bias and unfairness variables. Research on Higher Education, 52, 717 – 737. First citation in articleCrossrefGoogle Scholar

  • Enders, C. K. & Tofighi, D. (2007). Centering predictor variables in cross-sectional multilevel models: A new look at an old issue. Psychological Methods, 12, 121 – 138. First citation in articleCrossrefGoogle Scholar

  • EvaSys (2014). EvaSys (Version 6.0) [Computerprogramm]. Lüneburg: Electric Paper. First citation in articleGoogle Scholar

  • Feldman, K. A. (1978). Course characteristics and college students’ ratings of their teachers and courses: What we know and what we don’t. Research in Higher Education, 9, 199 – 242. First citation in articleCrossrefGoogle Scholar

  • Feldman, K. A. (1983). Seniority and experience of college teachers as related to evaluations they receive from students. Research in Higher Education, 18, 3 – 124. First citation in articleCrossrefGoogle Scholar

  • Feldman, K. A. (1984). Class size and college students’ evaluations of teachers and courses: A closer look. Research in Higher Education, 21, 45 – 116. First citation in articleCrossrefGoogle Scholar

  • Feldman, K. A. (1989). Instructional effectiveness of college teachers as judged by teachers themselves, current and former students, colleagues, administrators, and external (neutral) observers. Research in Higher Education, 30, 137 – 194. First citation in articleCrossrefGoogle Scholar

  • Feldman, K. A. (1993). College students’ views of male and female college teachers: Part II–Evidence from students’ evaluations of their classroom teachers. Research in Higher Education, 34, 151 – 211. First citation in articleCrossrefGoogle Scholar

  • Feldman, K. A. (2007). Identifying exemplary teachers and teaching: Evidence from student ratings. In R. P. PerryJ. C. SmartEds., The scholarship of teaching and learning in higher education: An evidence-based perspective (pp. 93 – 143). Dordrecht: Springer. First citation in articleCrossrefGoogle Scholar

  • Gollwitzer, M., Kranz, D. & Vogel, E. (2006). Die Validität studentischer Lehrveranstaltungsevaluationen und ihre Nützlichkeit für die Verbesserung der Hochschullehre: Neuere Befunde zu den Gütekriterien des „Trierer Inventars zur Lehrevaluation“ (TRIL). In G. KrampenH. ZayerHrsg., Didaktik und Evaluation in der Psychologie (S. 90 – 104). Göttingen: Hogrefe. First citation in articleGoogle Scholar

  • Hoffmann, A. (2009). Studentische Lehrveranstaltungsevaluation–Ein Zerrbild der Qualität akademischer Lehre? Empirische Pädagogik, 23, 19 – 49. First citation in articleGoogle Scholar

  • Howard, G. S., Conway, C. G. & Maxwell, S. E. (1985). Construct validity of measures of college teaching effectiveness. Journal of Educational Psychology, 77, 187 – 196. First citation in articleCrossrefGoogle Scholar

  • Hunter, J. E. & Schmidt, F. L. (1990). Methods of meta-analysis: Correcting error and bias in research findings. Newbury Park, CA: Sage. First citation in articleGoogle Scholar

  • Kreft, I. & de Leeuw, J. (1998). Introduction of multilevel modeling. London: Sage. First citation in articleCrossrefGoogle Scholar

  • Kromrey, H. (1994). Wie erkennt man „gute Lehre“? Was studentische Vorlesungsbefragungen (nicht) aussagen. Empirische Pädagogik, 8, 153 – 168. First citation in articleGoogle Scholar

  • Marsh, H. W. (1987). Students’ evaluations of university teaching: Research findings, methodological issues, and directions for future research. International Journal of Educational Research, 11, 253 – 388. First citation in articleCrossrefGoogle Scholar

  • Marsh, H. W. (2007). Students’ evaluations of university teaching: Dimensionality, reliability, validity, potential biases and usefulness. In R. P. PerryJ. C. SmartEds., The scholarship of teaching and learning in higher education: An evidence-based perspective (pp. 319 – 383). Dordrecht: Springer. First citation in articleCrossrefGoogle Scholar

  • Marsh, H. W., Overall, J. U. & Kesler, S. P. (1979). Validity of student evaluation of instructional effectiveness: A comparison of faculty self-evaluations and evaluations by their students. Journal of Educational Psychology, 71, 149 – 160. First citation in articleCrossrefGoogle Scholar

  • Murray, H. G. (1983). Low inference classroom teaching behaviors and student ratings of college teaching effectiveness. Journal of Educational Psychology, 71, 856 – 865. First citation in articleGoogle Scholar

  • Nasser, F. & Hagtvet, K. A. (2006). Multilevel analysis of the effects of student and instructor/course characteristics on student ratings. Research in Higher Education, 47, 559 – 590. First citation in articleCrossrefGoogle Scholar

  • Olivares, O. J. (2001). Student interest, grading leniency, and teacher ratings: A conceptual analysis. Contemporary Educational Psychology, 26, 382 – 399. First citation in articleCrossrefGoogle Scholar

  • Ory, J. C. (2001). Faculty thoughts and concerns about student ratings. New Directions for Teaching and Learning, 87, 3 – 15. First citation in articleCrossrefGoogle Scholar

  • Peus, V., Valerius, G., Schärer, L., Freyer, T., Berger, M. & Voderholzer, U. (2005). Lehrevaluation an der Medizinischen Fakultät Freiburg, Teil II: Formative Lehrveranstaltungsevaluation. GMS Zeitschrift für Medizinische Ausbildung, 22. Zugriff am 28. 02. 2014 unter http://www.egms.de/static/pdf/journals/zma/2005 – 22/zma000017.pdf First citation in articleGoogle Scholar

  • Raudenbush, S. & Bryk, A. S. (2002). Hierarchical linear models. Applications and data analysis methods (2nd ed.). Los Angeles, CA: Sage. First citation in articleGoogle Scholar

  • Raudenbush, S., Bryk, A. S., Cheong, Y. F., Congdon, R. & du Toit, M. (2011). HLM 7. Hierarchical linear and nonlinear modeling. Lincolnwood, IL: Science Software International. First citation in articleGoogle Scholar

  • Rindermann, H. (1995). Untersuchungen zur Brauchbarkeit studentischer Lehrevaluationen. Landau: Verlag Empirische Pädagogik. First citation in articleGoogle Scholar

  • Rindermann, H. (2001). Lehrevaluation. Einführung und Überblick zu Forschung und Praxis der Lehrveranstaltungsevaluation an Hochschulen mit einem Beitrag zur Evaluation computerbasierten Unterrichts. Landau: Verlag Empirische Pädagogik. First citation in articleGoogle Scholar

  • Schmidt, B. & Loßnitzer, T. (2010). Lehrveranstaltungsevaluation: State of the art, ein Definitionsvorschlag und Entwicklungslinien. Zeitschrift für Evaluation, 9, 49 – 72. First citation in articleGoogle Scholar

  • Snijders, T. A. B. & Bosker, R. J. (2012). Multilevel analysis. An introduction to basic and advanced multilevel modeling (2nd ed.). Los Angeles, CA: Sage. First citation in articleGoogle Scholar

  • Spiel, C. & Gössler, P. M. (2000). Zum Einfluß von Biasvariablen auf die Bewertung universitärer Lehre durch Studierende. Zeitschrift für Pädagogische Psychologie, 14, 38 – 47. First citation in articleLinkGoogle Scholar

  • Spiel, C., Wolf, P. & Popper, V. (2002). Lehre und Lehrevaluation–(un)geliebt? Die Perspektive der Universitätslehrenden. Zeitschrift für Psychologie, 210, 27 – 39. First citation in articleLinkGoogle Scholar

  • Spinath, B. & Stehle, S. (2011). Evaluation von Hochschullehre. In L. F. HornkeM. AmelangM. KerstingHrsg., Grundfragen und Anwendungsfelder psychologischer Diagnostik (Enzyklopädie der Psychologie, Serie Psychologische Diagnostik, Bd. 1, S. 617 – 667). Göttingen: Hogrefe. First citation in articleGoogle Scholar

  • Spooren, P. (2010). On the credibility of the judge. A cross-classified multilevel analysis on students’ evaluations of teaching. Studies in Educational Evaluation, 36, 121 – 131. First citation in articleCrossrefGoogle Scholar

  • Spooren, P., Brockx, B. & Mortelmans, D. (2013). On the validity of student evaluation of teaching: The state of the art. Review of Educational Research, 83, 598 – 642. First citation in articleCrossrefGoogle Scholar

  • Staufenbiel, T. (2000). Fragebogen zur Evaluation von universitären Lehrveranstaltungen durch Studierende und Lehrende. Diagnostica, 46, 169 – 181. First citation in articleLinkGoogle Scholar

  • Staufenbiel, T. (2001). Universitätsweite Evaluation von Lehrveranstaltungen in Marburg: Vorgehen, Instrumente, Ergebnisse. In E. KeinerHrsg., Evaluation (in) der Erziehungswissenschaft (S. 43 – 61). Weinheim: Beltz Verlag. First citation in articleGoogle Scholar

  • Ting, K. (2000). A multilevel perspective on student ratings of instruction: Lessons from the Chinese experience. Research in Higher Education, 41, 637 – 661. First citation in articleCrossrefGoogle Scholar

  • Vater, A., Grohs, P. & Sedlmeier, P. (2007). Die Beeinflussbarkeit studentischer Urteile in universitären Lehrevaluationen durch potenzielle Biasvariablen. In A. KlugeK. SchülerHrsg., Qualitätssicherung und -entwicklung in der Hochschule: Methoden und Ergebnisse (S. 219 – 231). Lengerich: Pabst. First citation in articleGoogle Scholar

  • Wolbring, T. (2012). Class attendance and students’ evaluations of teaching: Do no-shows bias course ratings and rankings? Evaluation Review, 36, 72 – 96. First citation in articleCrossrefGoogle Scholar