Google AI Research przedstawia Vantage: nowe podejście do oceny współpracy i kreatywności oparte na dużych modelach językowych
Zespół badawczy Google przedstawił metodę Vantage, która wykorzystuje duże modele językowe do symulowania autentycznych interakcji zespołowych w celu oceny „trwałych kompetencji”, takich jak współpraca, kreatywność i myślenie krytyczne. Badanie pokazuje, że wyniki generowane przez AI są ściśle zgodne z ocenami ekspertów, oferując nową technologiczną ścieżkę w zakresie oceniania edukacyjnego.

W edukacji tradycyjne standaryzowane testy potrafią ocenić, czy uczniowie opanowali rachunek różniczkowy lub czy rozumieją tekst, jednak mają trudności z mierzeniem takich umiejętności jak rozwiązywanie konfliktów w zespole, generowanie innowacyjnych pomysłów pod presją czy krytyczna analiza argumentów. Te tak zwane „trwałe kompetencje” — współpraca, kreatywność i myślenie krytyczne — od dawna nie dysponują skutecznymi, skalowalnymi narzędziami pomiaru.
Google Research niedawno zaprezentowało nowe podejście o nazwie Vantage, które wykorzystuje duże modele językowe (LLM) do symulowania autentycznych interakcji grupowych i oceny wyników uczestników, dążąc do stworzenia bardziej ekologicznie trafnych ram oceny tych kompetencji.

Dlaczego „trwałe kompetencje” są tak trudne do zmierzenia?
Zespół badawczy zauważa, że główne wyzwanie w ocenie trwałych kompetencji wynika z napięcia między trafnością ekologiczną a rygorem psychometrycznym. Z jednej strony oceny powinny odbywać się w kontekstach przypominających rzeczywiste sytuacje; z drugiej muszą zapewniać porównywalność i powtarzalność.
Na przykład ocena umiejętności wspólnego rozwiązywania problemów w badaniu PISA 2015 opierała się na pytaniach wielokrotnego wyboru oraz zaprogramowanych interakcjach z symulowanymi członkami zespołu. Choć takie podejście umożliwiało ścisłą kontrolę zmiennych, odbywało się to kosztem złożoności i dynamiki autentycznych interakcji międzyludzkich.
Według zespołu Google Research duże modele językowe oferują możliwość znalezienia równowagi między tymi sprzecznymi wymaganiami: potrafią tworzyć realistyczne scenariusze konwersacyjne, a jednocześnie umożliwiają kontrolowane generowanie treści i standaryzowane ocenianie przy użyciu jednolitego modelu.
Rdzeń Vantage: architektura orkiestrującego LLM
Sercem Vantage jest tak zwana architektura „orkiestrującego LLM”. Projekt ten wykorzystuje jeden model LLM do generowania odpowiedzi dla wszystkich uczestników AI, umożliwiając skoordynowane zarządzanie całym przebiegiem dialogu.
Zalety tego podejścia obejmują:
Ujednoliconą kontrolę nad logiką zachowań wielu ról AI;
Aktywne kierowanie rozwojem rozmowy w oparciu o z góry określone standardy edukacyjne;
Celowe wywoływanie określonych scenariuszy w kluczowych momentach w celu przetestowania reakcji uczestnika.
Na przykład podczas oceny umiejętności rozwiązywania konfliktów orkiestrujący LLM może celowo wprowadzać nieporozumienia poprzez postacie AI, aby obserwować reakcję ludzkiego uczestnika. Badanie wykazało, że w porównaniu z nieskoordynowanymi, niezależnymi agentami, orkiestrujący LLM osiągał lepsze wyniki w dwóch podkompetencjach współpracy, ze znacznie wyższym wskaźnikiem ujawniania dowodów kluczowych zachowań.
Projekt eksperymentu i wyniki oceny
W eksperymencie zespół badawczy zrekrutował 188 uczestników w wieku od 18 do 25 lat, którzy realizowali 30-minutowe zadania zespołowe z postaciami AI, gromadząc łącznie 373 transkrypcje dialogów.
Oceny dialogów dokonywało wspólnie dwóch ludzkich ekspertów z Uniwersytetu Nowojorskiego oraz narzędzie oceny oparte na AI. Wyniki pokazały, że:
Oceny generowane przez AI wykazywały wysoką zgodność z ocenami ekspertów;
W zakresie kreatywności i myślenia krytycznego orkiestrujący LLM przewyższał niezależnych agentów;
Całościowe ramy oceny wykazują obiecującą skalowalność.
Nowy kierunek w ocenie edukacyjnej
Ogólnie rzecz biorąc, Vantage wykorzystuje duże modele językowe do tworzenia kontrolowanych, a jednocześnie realistycznych scenariuszy współpracy, oferując nowe narzędzie do ilościowej oceny „trwałych kompetencji”. Architektura orkiestrującego LLM nie tylko poprawia identyfikację kluczowych zachowań, ale także osiąga wysoki poziom zgodności z ocenami ekspertów.
W czasie, gdy tradycyjne testy mają trudności z uchwyceniem takich umiejętności jak współpraca i kreatywność, Vantage podkreśla rosnący potencjał AI w obszarze oceny edukacyjnej.