Tencent et l’UCLA publient en open source OpenSearch-VL, un framework d’agent de recherche profonde multimodale

AI Models07.May.2026 10:175 min read

Tencent Hunyuan, en collaboration avec l’UCLA et la CUHK, a publié OpenSearch-VL, un framework open source destiné à l’entraînement d’agents basés sur des modèles de langage multimodaux de grande taille, capables de recherche active en plusieurs étapes et de raisonnement. Le projet vise à combler des lacunes majeures en matière de reproductibilité dans les pipelines de données, l’intégration d’outils et les stratégies d’apprentissage par renforcement pour les agents de recherche approfondie.

Tencent et l’UCLA publient en open source OpenSearch-VL, un framework d’agent de recherche profonde multimodale

Alors que les modèles multimodaux de grande taille (MLLM) évoluent rapidement, la prochaine frontière consiste à leur permettre d’aller au-delà de la compréhension passive des images pour atteindre une collecte active de preuves et un raisonnement en plusieurs étapes. Cette transition — passer de la description d’images à la recherche autonome, à la vérification et au raisonnement à travers les modalités — s’est révélée difficile à reproduire dans la recherche ouverte en raison de lacunes dans les données d’entraînement de haute qualité, les méthodes de synthèse de trajectoires et les recettes d’apprentissage par renforcement (RL).

Tencent Hunyuan, en collaboration avec des chercheurs de l’Université de Californie à Los Angeles (UCLA) et de l’Université chinoise de Hong Kong (CUHK), tente de combler cet écart avec la publication de OpenSearch-VL, un cadre open source d’agent de recherche approfondie multimodale. L’équipe a publié un article technique et prévoit de diffuser des ensembles de données, du code et les poids du modèle afin de favoriser la reproductibilité et la poursuite des recherches.

De la vision passive à la recherche active

Les modèles vision-langage traditionnels excellent dans la reconnaissance et la description de contenus visuels. Cependant, la résolution de problèmes dans le monde réel nécessite souvent un raisonnement multi-sauts : identifier des indices visuels, formuler des requêtes de recherche, filtrer les résultats et synthétiser des connaissances externes. Selon les chercheurs, un obstacle majeur réside dans le manque de trajectoires d’entraînement structurées et de haute qualité capables d’enseigner aux modèles comment effectuer ces étapes de manière séquentielle.

Pour y remédier, OpenSearch-VL introduit un pipeline de production de données fondé sur le graphe d’hyperliens de Wikipédia. Le système échantillonne des chemins relationnels entre entités et les convertit en tâches de questions-réponses multi-sauts. Afin d’éviter l’apprentissage par raccourci, l’équipe applique des techniques de réécriture d’entités qui masquent les réponses directes et intègre un ancrage visuel basé sur le code source, obligeant le modèle à identifier les indices visuels pertinents avant d’invoquer des outils externes.

Le projet comprend deux principaux ensembles de données :

  • SearchVL-SFT, avec 36 000 trajectoires de réglage fin supervisé.
  • SearchVL-RL, avec 8 000 échantillons d’entraînement en apprentissage par renforcement.

Un environnement multimodal riche en outils

Contrairement aux agents de recherche uniquement textuels, OpenSearch-VL intègre un écosystème d’outils plus large, adapté aux entrées multimodales. Dans des scénarios pratiques, les images soumises par les utilisateurs peuvent être floues, inclinées ou de faible résolution, ce qui limite les performances de recherche ultérieures.

Pour compenser, le cadre dote l’agent de multiples outils de prétraitement et de recherche, notamment :

  • Recherche web et recherche d’images inversée
  • Reconnaissance optique de caractères (OCR)
  • Recadrage et netteté d’image
  • Reconstruction en super-résolution
  • Correction de perspective

Cette conception favorise une « perception active », où l’agent améliore ou répare d’abord l’entrée visuelle avant d’initier la recherche de connaissances. Le résultat est une robustesse et une précision accrues de la recherche dans des conditions complexes du monde réel.

Apprendre de l’échec : GRPO multi‑tours sensible aux fautes

L’utilisation d’outils sur un horizon long introduit des risques d’échecs en cascade : un délai d’expiration ou un appel incorrect peut compromettre toute la chaîne de raisonnement. Les méthodes conventionnelles d’apprentissage par renforcement écartent souvent les trajectoires échouées, gaspillant des étapes intermédiaires de raisonnement potentiellement utiles.

OpenSearch-VL propose un algorithme de « GRPO multi‑tours sensible aux fautes » pour remédier à cette inefficacité. L’approche identifie les points de défaillance dans les appels d’outils, masque les signaux invalides après l’échec et applique un plafonnement unilatéral de l’avantage afin de préserver les étapes de raisonnement utiles survenues avant l’erreur. Cela permet au modèle d’apprendre des stratégies d’exploration efficaces même lorsque les tâches ne réussissent pas entièrement.

Performances de référence et implications pour la recherche ouverte

Lors d’évaluations sur sept principaux benchmarks de recherche approfondie multimodale, OpenSearch-VL améliorerait la performance moyenne de plus de 10 points de pourcentage. Sur certaines tâches sélectionnées, ses résultats se rapprochent de ceux des principaux systèmes commerciaux propriétaires, selon l’équipe de recherche.

Si ces résultats sont validés par la communauté au sens large, cette publication pourrait contribuer à standardiser les pratiques d’entraînement des agents de recherche multimodaux et à réduire la dépendance aux écosystèmes fermés. En open sourçant les pipelines de données, les recettes d’entraînement et les cadres d’intégration d’outils, les collaborateurs entendent fournir une base reproductible aux chercheurs développant des agents multimodaux de nouvelle génération.

Le projet met en lumière une tendance plus large dans la recherche en IA : le passage de modèles de perception statiques à des systèmes interactifs capables de raisonnement structuré, d’utilisation d’outils et de récupération adaptative après échec — des ingrédients clés pour des agents autonomes plus performants.