KI in der Prüfungskorrektur: Ergebnisse von Forschungsinterviews mit Prüfenden

Welche Unterstützungsbedarfe haben Prüfende? Was erwarten sie von einem KI-gestützten System – und welche Befürchtungen hegen sie? Zu diesen Fragen hat das Team von KI-Exam leitfadengestützte Expert:innen-Interviews mit Prüfenden durchgeführt. Durch die Interviews hat das KI-Exam-Team jetzt ein klareres Bild, wie der Korrekturprozess bei Freitextantworten verläuft und welche Probleme dabei auftauchen. Die gewonnenen Erkenntnisse sollen in die weitere Entwicklung von KI-Exam einfließen.

So bilden Lösungshinweise oft nur eine von mehreren richtigen Antworten ab, so dass sie als nicht ausreichend, aber zumindest als guter Ratgeber empfunden werden. In diesem Zusammenhang spielt die persönliche Expertise und Erfahrung der Prüfenden eine besondere Rolle.

Als großes Hindernis bei handschriftlichen Prüfungen wird die Verteilung von Aufgabenbestandteilen über mehrere Lösungsblätter gesehen, also z. B. der erste Teil einer Lösung steht auf Seite 1, der zweite Teil auf Seite 5 – und dies oft ohne entsprechende Verweismarkierung. Das bedeutet viel Vorarbeit, um die Antworten zu strukturieren. Ein häufiges Problem sind die Lesbarkeit von Handschriften sowie die Rechtschreibung. Manche Inhalte müssen von den Prüfenden interpretiert werden – im Zweifelsfall oft zugunsten der Geprüften. Moniert wurde ferner, dass die Aufgaben teilweise einen zu großen Bewertungsspielraum bieten.

Bei der Zusammenarbeit mit Zweitprüfer:innen haben sich in den Ausschüssen oft bestimmte Abläufe und Rollen eingespielt, z. B. dass die Beurteilungen des Erstgutachters in einer Prüfer-App immer sichtbar sind. In anderen Fällen werden diese Informationen mittels Post-Its oder Korrekturzeichen und Randnotizen übermittelt.  

Trotz mancher Skepsis versprechen sich die Befragten von einem KI-Assistenzsystem wie KI-Exam Vorteile, z. B. Zeitgewinn durch eine Vereinfachung des Korrekturprozesses sowie mehr Fairness bei der Bewertung und eine bessere Kontrolle der Resultate – auch bundesweit im Vergleich zwischen unterschiedlichen Fachausschüssen. Befürchtet wird hingegen, dass beim Einsatz eines solchen Systems die soziale Komponente verloren geht. Ein Large Language Model, das dem zugrunde liegt, kann u. U. den Kontext der Aufgabe nicht verstehen. Auch besonders originelle und kreative Lösungen würden möglicherweise nicht als solche erkannt.