Abstract
Zusammenfassung. Trotz des breiten Einsatzes von Bewertungen von Lehrveranstaltungen durch Studierende wird die Validität dieser Urteile immer wieder in Frage gestellt. Insbesondere wird befürchtet, dass die Urteile dadurch verzerrt sind, dass sie durch Variablen beeinflusst werden, die nicht mit der Qualität der Lehrveranstaltung zusammenhängen. Auf der Basis eines Datensatzes mit studentischen Bewertungen von 2 898 Lehrveranstaltungen wurde der Einfluss von 10 potentiellen Biasvariablen mittels Mehrebenenanalysen untersucht. Die Variablen sind dabei auf der Ebene der Studierenden (Geschlecht, Vorab-Interesse, Rahmenbedingungen, Fehlzeiten), der Veranstaltungen (Veranstaltungsgröße, Schwund, Pflichtcharakter) und der Lehrenden (Geschlecht, Status, Lehrerfahrung) lokalisiert. Fast alle der Einflussgrößen auf den ersten beiden Ebenen sowie eine Cross-Level Interaktion der Geschlechtsvariablen sind statistisch signifikante Prädiktoren der Studierendenurteile. Mit Ausnahme des Vorab-Interesses und der Rahmenbedingungen sind diese Beziehungen aber nur schwach. Zudem ist meist schwierig zu entscheiden, ob es sich bei den Einflüssen tatsächlich um verzerrende Faktoren handelt.
Abstract. Despite the widespread use of student evaluations of teaching the validity of these ratings is still called into question. In particular it is suspected that student ratings are affected by variables that are not related to the quality of teaching and thus are biased. In a dataset with 2 898 courses the influences of 10 potentially biasing variables are analyzed using multilevel modelling. The variables are located on the student level (student gender, prior interest, surrounding conditions, absenteeism), the course level (class size, dropout, mandatory participation) and the teacher level (faculty status, gender, teaching experience). Nearly all of the variables on the first two levels and a cross-level interaction between student and teacher gender were statistically significant predictors of the student evaluations. However, with the exception of prior interest and the surrounding conditions these relationships are only weak. It is also often difficult to decide whether these variables are biasing factors.
Literatur
1989). SEEQing the truth about student ratings of instruction. Educational Researcher, 18, 43 – 45.
(2008). Multilevel analysis of the effects of student and course characteristics on satisfaction in undergraduate liberal arts courses. Asia Pacific Education Review, 9, 475 – 486.
(2005). Probing interactions in fixed and multilevel regression: Inferential and graphical techniques. Multivariate Behavioral Research, 40, 373 – 400.
(2003). Hängen Ergebnisse einer Lehrveranstaltungs-Evaluation von der Häufigkeit des Veranstaltungsbesuches ab? Zeitschrift für Pädagogische Psychologie, 17, 125 – 131.
(2011). Taking the grading leniency story to the edge. The influence of student, teacher, and course characteristics on student evaluations of teaching in higher education. Educational Assessment, Evaluation and Accountability, 23, 289 – 306.
(2000). Is there gender bias in student evaluations of teaching? The Journal of Higher Education, 70, 17 – 33.
(1994). Hörerbefragung an der Universität Mannheim: Konzeption, Erhebung, Auswertung. Empirische Pädagogik, 8, 109 – 129.
(1994). Fragebögen zur studentischen Evaluation von Hochschulveranstaltungen. Manual und Auswertungsprogramm zum VBVOR und VBREF. Gießen: Fachbereich 06 Psychologie, Universität Gießen.
(2001). Studentische Lehrevaluation in den Sozialwissenschaften: Fragebögen, Normen, Probleme. In E. KeinerHrsg., Evaluation (in) der Erziehungswissenschaft (S. 63 – 90). Weinheim: Beltz Verlag.
(2011). Counseling university instructors based on student evaluations of their teaching effectiveness: A multilevel test of its effectiveness under consideration of bias and unfairness variables. Research on Higher Education, 52, 717 – 737.
(2007). Centering predictor variables in cross-sectional multilevel models: A new look at an old issue. Psychological Methods, 12, 121 – 138.
(2014). EvaSys (Version 6.0) [Computerprogramm]. Lüneburg: Electric Paper.
(1978). Course characteristics and college students’ ratings of their teachers and courses: What we know and what we don’t. Research in Higher Education, 9, 199 – 242.
(1983). Seniority and experience of college teachers as related to evaluations they receive from students. Research in Higher Education, 18, 3 – 124.
(1984). Class size and college students’ evaluations of teachers and courses: A closer look. Research in Higher Education, 21, 45 – 116.
(1989). Instructional effectiveness of college teachers as judged by teachers themselves, current and former students, colleagues, administrators, and external (neutral) observers. Research in Higher Education, 30, 137 – 194.
(1993). College students’ views of male and female college teachers: Part II–Evidence from students’ evaluations of their classroom teachers. Research in Higher Education, 34, 151 – 211.
(2007). Identifying exemplary teachers and teaching: Evidence from student ratings. In R. P. PerryJ. C. SmartEds., The scholarship of teaching and learning in higher education: An evidence-based perspective (pp. 93 – 143). Dordrecht: Springer.
(2006). Die Validität studentischer Lehrveranstaltungsevaluationen und ihre Nützlichkeit für die Verbesserung der Hochschullehre: Neuere Befunde zu den Gütekriterien des „Trierer Inventars zur Lehrevaluation“ (TRIL). In G. KrampenH. ZayerHrsg., Didaktik und Evaluation in der Psychologie (S. 90 – 104). Göttingen: Hogrefe.
(2009). Studentische Lehrveranstaltungsevaluation–Ein Zerrbild der Qualität akademischer Lehre? Empirische Pädagogik, 23, 19 – 49.
(1985). Construct validity of measures of college teaching effectiveness. Journal of Educational Psychology, 77, 187 – 196.
(1990). Methods of meta-analysis: Correcting error and bias in research findings. Newbury Park, CA: Sage.
(1998). Introduction of multilevel modeling. London: Sage.
(1994). Wie erkennt man „gute Lehre“? Was studentische Vorlesungsbefragungen (nicht) aussagen. Empirische Pädagogik, 8, 153 – 168.
(1987). Students’ evaluations of university teaching: Research findings, methodological issues, and directions for future research. International Journal of Educational Research, 11, 253 – 388.
(2007). Students’ evaluations of university teaching: Dimensionality, reliability, validity, potential biases and usefulness. In R. P. PerryJ. C. SmartEds., The scholarship of teaching and learning in higher education: An evidence-based perspective (pp. 319 – 383). Dordrecht: Springer.
(1979). Validity of student evaluation of instructional effectiveness: A comparison of faculty self-evaluations and evaluations by their students. Journal of Educational Psychology, 71, 149 – 160.
(1983). Low inference classroom teaching behaviors and student ratings of college teaching effectiveness. Journal of Educational Psychology, 71, 856 – 865.
(2006). Multilevel analysis of the effects of student and instructor/course characteristics on student ratings. Research in Higher Education, 47, 559 – 590.
(2001). Student interest, grading leniency, and teacher ratings: A conceptual analysis. Contemporary Educational Psychology, 26, 382 – 399.
(2001). Faculty thoughts and concerns about student ratings. New Directions for Teaching and Learning, 87, 3 – 15.
(2005). Lehrevaluation an der Medizinischen Fakultät Freiburg, Teil II: Formative Lehrveranstaltungsevaluation. GMS Zeitschrift für Medizinische Ausbildung, 22. Zugriff am 28. 02. 2014 unter http://www.egms.de/static/pdf/journals/zma/2005 – 22/zma000017.pdf
(2002). Hierarchical linear models. Applications and data analysis methods (2nd ed.). Los Angeles, CA: Sage.
(2011). HLM 7. Hierarchical linear and nonlinear modeling. Lincolnwood, IL: Science Software International.
(1995). Untersuchungen zur Brauchbarkeit studentischer Lehrevaluationen. Landau: Verlag Empirische Pädagogik.
(2001). Lehrevaluation. Einführung und Überblick zu Forschung und Praxis der Lehrveranstaltungsevaluation an Hochschulen mit einem Beitrag zur Evaluation computerbasierten Unterrichts. Landau: Verlag Empirische Pädagogik.
(2010). Lehrveranstaltungsevaluation: State of the art, ein Definitionsvorschlag und Entwicklungslinien. Zeitschrift für Evaluation, 9, 49 – 72.
(2012). Multilevel analysis. An introduction to basic and advanced multilevel modeling (2nd ed.). Los Angeles, CA: Sage.
(2000). Zum Einfluß von Biasvariablen auf die Bewertung universitärer Lehre durch Studierende. Zeitschrift für Pädagogische Psychologie, 14, 38 – 47.
(2002). Lehre und Lehrevaluation–(un)geliebt? Die Perspektive der Universitätslehrenden. Zeitschrift für Psychologie, 210, 27 – 39.
(2011). Evaluation von Hochschullehre. In L. F. HornkeM. AmelangM. KerstingHrsg., Grundfragen und Anwendungsfelder psychologischer Diagnostik (Enzyklopädie der Psychologie, Serie Psychologische Diagnostik, Bd. 1, S. 617 – 667). Göttingen: Hogrefe.
(2010). On the credibility of the judge. A cross-classified multilevel analysis on students’ evaluations of teaching. Studies in Educational Evaluation, 36, 121 – 131.
(2013). On the validity of student evaluation of teaching: The state of the art. Review of Educational Research, 83, 598 – 642.
(2000). Fragebogen zur Evaluation von universitären Lehrveranstaltungen durch Studierende und Lehrende. Diagnostica, 46, 169 – 181.
(2001). Universitätsweite Evaluation von Lehrveranstaltungen in Marburg: Vorgehen, Instrumente, Ergebnisse. In E. KeinerHrsg., Evaluation (in) der Erziehungswissenschaft (S. 43 – 61). Weinheim: Beltz Verlag.
(2000). A multilevel perspective on student ratings of instruction: Lessons from the Chinese experience. Research in Higher Education, 41, 637 – 661.
(2007). Die Beeinflussbarkeit studentischer Urteile in universitären Lehrevaluationen durch potenzielle Biasvariablen. In A. KlugeK. SchülerHrsg., Qualitätssicherung und -entwicklung in der Hochschule: Methoden und Ergebnisse (S. 219 – 231). Lengerich: Pabst.
(2012). Class attendance and students’ evaluations of teaching: Do no-shows bias course ratings and rankings? Evaluation Review, 36, 72 – 96.
(