Google AI Research presenta Vantage: Un nuevo enfoque para evaluar la colaboración y la creatividad basado en modelos de lenguaje de gran escala

Tecnología14.Apr.2026 09:104 min read

El equipo de investigación de Google ha presentado el método Vantage, que aprovecha modelos de lenguaje de gran escala para simular interacciones auténticas en equipo con el fin de evaluar “habilidades duraderas” como la colaboración, la creatividad y el pensamiento crítico. El estudio muestra que las puntuaciones generadas por su IA se alinean estrechamente con las de expertos humanos, ofreciendo una nueva vía tecnológica para la evaluación educativa.

Google AI Research presenta Vantage: Un nuevo enfoque para evaluar la colaboración y la creatividad basado en modelos de lenguaje de gran escala

En educación, las pruebas estandarizadas tradicionales pueden evaluar si los estudiantes han dominado el cálculo o si pueden comprender un texto, pero tienen dificultades para medir habilidades como resolver desacuerdos dentro de un equipo, generar ideas innovadoras bajo presión o analizar críticamente argumentos. Estas llamadas «habilidades duraderas»—colaboración, creatividad y pensamiento crítico—han carecido durante mucho tiempo de herramientas de medición eficaces y escalables.

Google Research presentó recientemente un nuevo enfoque llamado Vantage, que aprovecha los modelos de lenguaje de gran tamaño (LLM) para simular interacciones grupales auténticas y evaluar el desempeño de los participantes, con el objetivo de construir un marco de evaluación más ecológicamente válido para estas capacidades.

Google AI Research Introduces Vantage: A New LLM-Based Approach to Assessing Collaboration and Creativity

¿Por qué las «habilidades duraderas» son tan difíciles de medir?

El equipo de investigación señala que el principal desafío en la evaluación de las habilidades duraderas reside en la tensión entre la validez ecológica y el rigor psicométrico. Por un lado, las evaluaciones deben llevarse a cabo en contextos que se asemejen a situaciones del mundo real; por otro, deben garantizar la comparabilidad y la repetibilidad.

Por ejemplo, la evaluación de resolución colaborativa de problemas en PISA 2015 se basó en preguntas de opción múltiple e interacciones guionizadas con compañeros de equipo simulados. Si bien este enfoque permitió un control estricto de las variables, sacrificó la complejidad y el dinamismo de la interacción humana genuina.

Según el equipo de Google Research, los modelos de lenguaje de gran tamaño ofrecen el potencial de lograr un equilibrio entre estas demandas contrapuestas: pueden crear escenarios conversacionales realistas al tiempo que permiten una generación controlada y una puntuación estandarizada mediante un modelo unificado.

El núcleo de Vantage: la arquitectura del LLM orquestador

En el corazón de Vantage se encuentra la llamada arquitectura del «LLM orquestador». Este diseño utiliza un único LLM para generar respuestas para todos los participantes de IA, lo que permite una gestión coordinada del flujo general del diálogo.

Las ventajas de este enfoque incluyen:

  • Control unificado sobre la lógica conductual de múltiples roles de IA;

  • Orientación proactiva del desarrollo de la conversación basada en estándares educativos predefinidos;

  • Activación intencional de escenarios específicos en momentos clave para poner a prueba las respuestas de los participantes.

Por ejemplo, al evaluar las habilidades de resolución de conflictos, el LLM orquestador puede introducir deliberadamente desacuerdos a través de personajes de IA para observar cómo responde el participante humano. El estudio encontró que, en comparación con agentes independientes no coordinados, el LLM orquestador obtuvo mejores resultados en dos subhabilidades de colaboración, con una tasa significativamente mayor de generación de evidencia de comportamientos clave.

Diseño experimental y resultados de la evaluación

En el experimento, el equipo de investigación reclutó a 188 participantes de entre 18 y 25 años para completar tareas colaborativas de 30 minutos con personajes de IA, recopilando un total de 373 transcripciones de diálogo.

La puntuación de los diálogos fue realizada conjuntamente por dos evaluadores humanos de la Universidad de Nueva York y una herramienta de evaluación basada en IA. Los resultados mostraron que:

  • Las puntuaciones generadas por la IA demostraron una fuerte concordancia con las evaluaciones de expertos humanos;

  • En las medidas de creatividad y pensamiento crítico, el LLM orquestador superó a los agentes independientes;

  • El marco general de evaluación muestra un prometedor potencial de escalabilidad.

Una nueva dirección para la evaluación educativa

En general, Vantage aprovecha los modelos de lenguaje de gran tamaño para crear escenarios colaborativos controlados pero realistas, ofreciendo una nueva herramienta para la evaluación cuantitativa de las «habilidades duraderas». Su arquitectura de LLM orquestador no solo mejora la identificación de comportamientos clave, sino que también alcanza un alto nivel de coherencia con la evaluación experta humana.

En un momento en que las pruebas tradicionales tienen dificultades para captar habilidades como la colaboración y la creatividad, Vantage destaca el potencial en expansión de la IA en el ámbito de la evaluación educativa.