Google AI Research stellt Vantage vor: Ein neuartiger Ansatz zur Bewertung von Zusammenarbeit und Kreativität auf Basis großer Sprachmodelle
Googles Forschungsteam hat die Vantage-Methode vorgestellt, die große Sprachmodelle nutzt, um authentische Teaminteraktionen zu simulieren und sogenannte „überdauernde Kompetenzen“ wie Zusammenarbeit, Kreativität und kritisches Denken zu bewerten. Die Studie zeigt, dass die von der KI generierten Bewertungen eng mit denen menschlicher Experten übereinstimmen und damit einen neuartigen technologischen Weg für Bildungsbewertungen eröffnen.

Im Bildungsbereich können traditionelle standardisierte Tests feststellen, ob Schülerinnen und Schüler die Analysis beherrschen oder einen Text verstehen, doch sie haben Schwierigkeiten, Fähigkeiten wie das Lösen von Meinungsverschiedenheiten im Team, das Entwickeln innovativer Ideen unter Druck oder das kritische Analysieren von Argumenten zu messen. Diese sogenannten „dauerhaften Kompetenzen“ – Zusammenarbeit, Kreativität und kritisches Denken – verfügen seit Langem über keine wirksamen, skalierbaren Messinstrumente.
Google Research hat kürzlich einen neuen Ansatz namens Vantage vorgestellt, der große Sprachmodelle (LLMs) nutzt, um authentische Gruppeninteraktionen zu simulieren und die Leistung der Teilnehmenden zu bewerten. Ziel ist es, einen ökologisch valideren Bewertungsrahmen für diese Fähigkeiten zu schaffen.

Warum sind „dauerhafte Kompetenzen“ so schwer zu messen?
Das Forschungsteam weist darauf hin, dass die zentrale Herausforderung bei der Bewertung dauerhafter Kompetenzen in der Spannung zwischen ökologischer Validität und psychometrischer Strenge liegt. Einerseits sollten Bewertungen in Kontexten stattfinden, die realen Situationen ähneln; andererseits müssen Vergleichbarkeit und Wiederholbarkeit gewährleistet sein.
Beispielsweise basierte die Bewertung kooperativer Problemlösefähigkeiten in PISA 2015 auf Multiple-Choice-Fragen und geskripteten Interaktionen mit simulierten Teammitgliedern. Dieser Ansatz ermöglichte zwar eine strenge Kontrolle der Variablen, ging jedoch zulasten der Komplexität und Dynamik echter menschlicher Interaktion.
Laut dem Google-Research-Team bieten große Sprachmodelle das Potenzial, ein Gleichgewicht zwischen diesen konkurrierenden Anforderungen herzustellen: Sie können realistische Gesprächsszenarien erzeugen und zugleich eine kontrollierte Generierung sowie standardisierte Bewertung durch ein einheitliches Modell ermöglichen.
Der Kern von Vantage: Die Orchestrator-LLM-Architektur
Im Zentrum von Vantage steht die sogenannte „Orchestrator-LLM“-Architektur. Dieses Design verwendet ein einziges LLM, um Antworten für alle KI-Teilnehmenden zu generieren und so den gesamten Dialogverlauf koordiniert zu steuern.
Zu den Vorteilen dieses Ansatzes gehören:
Einheitliche Kontrolle über die Verhaltenslogik mehrerer KI-Rollen;
Proaktive Steuerung der Gesprächsentwicklung auf Grundlage vordefinierter Bildungsstandards;
Gezieltes Auslösen spezifischer Szenarien zu entscheidenden Zeitpunkten, um die Reaktionen der Teilnehmenden zu testen.
Bei der Bewertung von Konfliktlösungskompetenzen kann das Orchestrator-LLM beispielsweise bewusst Meinungsverschiedenheiten durch KI-Charaktere einführen, um zu beobachten, wie die menschliche Person reagiert. Die Studie ergab, dass das Orchestrator-LLM im Vergleich zu unkoordinierten, unabhängigen Agenten bei zwei Teilkompetenzen der Zusammenarbeit besser abschnitt und deutlich häufiger Nachweise zentraler Verhaltensweisen hervorrief.
Experimentelles Design und Bewertungsergebnisse
Im Experiment rekrutierte das Forschungsteam 188 Teilnehmende im Alter von 18 bis 25 Jahren, die 30-minütige kooperative Aufgaben mit KI-Charakteren bearbeiteten. Insgesamt wurden 373 Dialogtranskripte gesammelt.
Die Bewertung der Dialoge erfolgte gemeinsam durch zwei menschliche Gutachter der New York University und ein KI-basiertes Bewertungstool. Die Ergebnisse zeigten, dass:
die von der KI generierten Bewertungen eine hohe Übereinstimmung mit den Einschätzungen menschlicher Expertinnen und Experten aufwiesen;
das Orchestrator-LLM bei Messungen von Kreativität und kritischem Denken unabhängige Agenten übertraf;
der gesamte Bewertungsrahmen vielversprechende Skalierbarkeit zeigt.
Eine neue Richtung für Bildungsbewertung
Insgesamt nutzt Vantage große Sprachmodelle, um kontrollierte und zugleich realistische kooperative Szenarien zu schaffen, und bietet damit ein neues Instrument für die quantitative Bewertung „dauerhafter Kompetenzen“. Seine Orchestrator-LLM-Architektur verbessert nicht nur die Identifikation zentraler Verhaltensweisen, sondern erreicht auch ein hohes Maß an Übereinstimmung mit der Bewertung durch menschliche Expertinnen und Experten.
In einer Zeit, in der traditionelle Tests Schwierigkeiten haben, Fähigkeiten wie Zusammenarbeit und Kreativität zu erfassen, verdeutlicht Vantage das wachsende Potenzial von KI im Bereich der Bildungsbewertung.