Google AI Research prezintă Vantage: o nouă abordare pentru evaluarea colaborării și creativității bazată pe modele lingvistice de mari dimensiuni
Echipa de cercetare Google a introdus metoda Vantage, care utilizează modele lingvistice de mari dimensiuni pentru a simula interacțiuni autentice de echipă în vederea evaluării „competențelor durabile”, precum colaborarea, creativitatea și gândirea critică. Studiul arată că scorurile generate de AI se aliniază îndeaproape cu cele ale experților umani, oferind o nouă direcție tehnologică pentru evaluarea educațională.

În educație, testele standardizate tradiționale pot evalua dacă elevii au stăpânit calculul diferențial și integral sau pot înțelege un text, însă întâmpină dificultăți în a măsura abilități precum rezolvarea dezacordurilor într-o echipă, generarea de idei inovatoare sub presiune sau analizarea critică a argumentelor. Aceste așa-numite „competențe durabile”—colaborarea, creativitatea și gândirea critică—nu au dispus mult timp de instrumente eficiente și scalabile de măsurare.
Google Research a prezentat recent o nouă abordare numită Vantage, care utilizează modele lingvistice de mari dimensiuni (LLM-uri) pentru a simula interacțiuni autentice de grup și a evalua performanța participanților, cu scopul de a construi un cadru de evaluare mai valid din punct de vedere ecologic pentru aceste competențe.

De ce sunt „competențele durabile” atât de dificil de măsurat?
Echipa de cercetare subliniază că provocarea principală în evaluarea competențelor durabile constă în tensiunea dintre validitatea ecologică și rigoarea psihometrică. Pe de o parte, evaluările ar trebui să aibă loc în contexte care seamănă cu situațiile din lumea reală; pe de altă parte, ele trebuie să asigure comparabilitate și repetabilitate.
De exemplu, evaluarea rezolvării colaborative a problemelor din PISA 2015 s-a bazat pe întrebări cu alegere multiplă și interacțiuni scriptate cu coechipieri simulați. Deși această abordare a permis un control strict al variabilelor, a sacrificat complexitatea și dinamismul interacțiunii umane autentice.
Potrivit echipei Google Research, modelele lingvistice de mari dimensiuni oferă potențialul de a echilibra aceste cerințe concurente: pot crea scenarii conversaționale realiste, permițând în același timp generare controlată și evaluare standardizată prin intermediul unui model unificat.
Nucleul Vantage: Arhitectura LLM „orchestrator”
În centrul Vantage se află așa-numita arhitectură „orchestrator LLM”. Acest design utilizează un singur LLM pentru a genera răspunsuri pentru toți participanții AI, permițând gestionarea coordonată a fluxului general al dialogului.
Avantajele acestei abordări includ:
Control unificat asupra logicii comportamentale a mai multor roluri AI;
Ghidarea proactivă a evoluției conversației pe baza unor standarde educaționale predefinite;
Declanșarea intenționată a unor scenarii specifice în momente-cheie pentru a testa reacțiile participantului.
De exemplu, atunci când se evaluează abilitățile de rezolvare a conflictelor, orchestrator LLM poate introduce în mod deliberat dezacorduri prin intermediul personajelor AI pentru a observa cum reacționează participantul uman. Studiul a constatat că, în comparație cu agenții independenți necoordonați, orchestrator LLM a obținut performanțe mai bune la două subcompetențe ale colaborării, cu o rată semnificativ mai mare de evidențiere a comportamentelor-cheie.
Designul experimental și rezultatele evaluării
În cadrul experimentului, echipa de cercetare a recrutat 188 de participanți cu vârste între 18 și 25 de ani pentru a finaliza sarcini colaborative de 30 de minute împreună cu personaje AI, colectând în total 373 de transcrieri de dialog.
Evaluarea dialogurilor a fost realizată în comun de doi evaluatori umani de la Universitatea New York și de un instrument de evaluare bazat pe AI. Rezultatele au arătat că:
Scorurile generate de AI au demonstrat un nivel ridicat de concordanță cu evaluările experților umani;
În ceea ce privește măsurarea creativității și a gândirii critice, orchestrator LLM a depășit performanța agenților independenți;
Cadrul general de evaluare prezintă un potențial promițător de scalare.
O nouă direcție pentru evaluarea educațională
În ansamblu, Vantage utilizează modele lingvistice de mari dimensiuni pentru a crea scenarii colaborative controlate, dar realiste, oferind un nou instrument pentru evaluarea cantitativă a „competențelor durabile”. Arhitectura sa de tip orchestrator LLM nu doar îmbunătățește identificarea comportamentelor-cheie, ci atinge și un nivel ridicat de consistență cu evaluările experților umani.
Într-un moment în care testele tradiționale întâmpină dificultăți în a surprinde abilități precum colaborarea și creativitatea, Vantage evidențiază potențialul tot mai extins al AI în domeniul evaluării educaționale.