Tencent y UCLA lanzan OpenSearch-VL, un marco de agente de búsqueda profunda multimodal de código abierto
Tencent Hunyuan, en colaboración con UCLA y CUHK, ha lanzado OpenSearch-VL, un marco de código abierto para entrenar agentes de modelos de lenguaje multimodal a gran escala capaces de realizar búsquedas activas y razonamiento en múltiples pasos. El proyecto tiene como objetivo cerrar brechas clave de reproducibilidad en los flujos de datos, la integración de herramientas y las estrategias de aprendizaje por refuerzo para agentes de búsqueda profunda.

A medida que los modelos de lenguaje multimodales de gran tamaño (MLLMs) evolucionan rápidamente, la siguiente frontera consiste en permitirles ir más allá de la comprensión pasiva de imágenes hacia la recopilación activa de evidencias y el razonamiento en múltiples pasos. Este cambio—de describir imágenes a buscar, verificar y razonar de forma autónoma a través de modalidades—ha resultado difícil de reproducir en la investigación abierta debido a brechas en datos de entrenamiento de alta calidad, métodos de síntesis de trayectorias y estrategias de aprendizaje por refuerzo (RL).
Tencent Hunyuan, en colaboración con investigadores de la Universidad de California, Los Ángeles (UCLA) y la Universidad China de Hong Kong (CUHK), está intentando cerrar esa brecha con el lanzamiento de OpenSearch-VL, un marco de agente de búsqueda profunda multimodal de código abierto. El equipo ha publicado un artículo técnico y planea liberar conjuntos de datos, código y pesos del modelo para apoyar la reproducibilidad y la investigación futura.
De la Visión Pasiva a la Búsqueda Activa
Los modelos tradicionales de visión-lenguaje destacan en el reconocimiento y la descripción de contenido visual. Sin embargo, la resolución de problemas del mundo real a menudo requiere razonamiento de múltiples saltos: identificar pistas visuales, emitir consultas de búsqueda, filtrar resultados y sintetizar conocimiento externo. Según los investigadores, un cuello de botella clave ha sido la falta de trayectorias de entrenamiento estructuradas y de alta calidad que enseñen a los modelos a realizar estos pasos de manera secuencial.
Para abordar esto, OpenSearch-VL introduce una canalización de producción de datos basada en el grafo de hipervínculos de Wikipedia. El sistema toma muestras de rutas relacionales entre entidades y las convierte en tareas de preguntas y respuestas de múltiples saltos. Para evitar el aprendizaje por atajos, el equipo aplica técnicas de reescritura de entidades que ocultan respuestas directas e incorpora anclajes basados en código fuente para la localización visual, obligando al modelo a identificar pistas visuales relevantes antes de invocar herramientas externas.
El proyecto incluye dos conjuntos de datos principales:
- SearchVL-SFT, con 36.000 trayectorias de ajuste fino supervisado.
- SearchVL-RL, con 8.000 muestras de entrenamiento para aprendizaje por refuerzo.
Un Entorno Multimodal Rico en Herramientas
A diferencia de los agentes de búsqueda solo de texto, OpenSearch-VL integra un ecosistema de herramientas más amplio adaptado a entradas multimodales. En escenarios prácticos, las imágenes enviadas por los usuarios pueden estar borrosas, inclinadas o tener baja resolución, lo que limita el rendimiento de recuperación posterior.
Para compensarlo, el marco dota al agente de múltiples herramientas de preprocesamiento y recuperación, que incluyen:
- Búsqueda web y búsqueda inversa de imágenes
- Reconocimiento óptico de caracteres (OCR)
- Recorte y mejora de nitidez de imágenes
- Reconstrucción de superresolución
- Corrección de perspectiva
Este diseño fomenta la “percepción activa”, en la que el agente primero mejora o repara la entrada visual antes de iniciar la recuperación de conocimiento. El resultado es una mayor robustez y precisión de búsqueda en condiciones complejas del mundo real.
Aprender del Fracaso: GRPO Multirronda Consciente de Fallos
El uso de herramientas en horizontes largos introduce riesgos de fallos en cascada: un tiempo de espera agotado o una llamada incorrecta puede descarrilar toda la cadena de razonamiento. Los métodos convencionales de RL a menudo descartan las trayectorias fallidas, desperdiciando pasos intermedios de razonamiento potencialmente útiles.
OpenSearch-VL propone un algoritmo de “GRPO multirronda consciente de fallos” para abordar esta ineficiencia. El enfoque identifica puntos de fallo en las llamadas a herramientas, enmascara señales inválidas posteriores al fallo y aplica una limitación unilateral de la ventaja para preservar los pasos de razonamiento útiles que ocurrieron antes del error. Esto permite que el modelo aprenda estrategias de exploración efectivas incluso cuando las tareas no se completan con éxito.
Rendimiento en Benchmarks e Implicaciones para la Investigación Abierta
En evaluaciones realizadas en siete benchmarks principales de búsqueda profunda multimodal, OpenSearch-VL supuestamente mejora el rendimiento promedio en más de 10 puntos porcentuales. En tareas seleccionadas, sus resultados se acercan a los de los principales sistemas comerciales propietarios, según el equipo de investigación.
Si es validado por la comunidad en general, el lanzamiento podría ayudar a estandarizar las prácticas de entrenamiento para agentes de búsqueda multimodal y reducir la dependencia de ecosistemas cerrados. Al liberar como código abierto las canalizaciones de datos, las estrategias de entrenamiento y los marcos de integración de herramientas, los colaboradores buscan proporcionar una base reproducible para investigadores que desarrollen agentes multimodales de próxima generación.
El proyecto subraya una tendencia más amplia en la investigación en IA: pasar de modelos de percepción estáticos a sistemas interactivos capaces de razonamiento estructurado, uso de herramientas y recuperación adaptativa ante fallos—ingredientes clave para agentes autónomos más capaces.