Tencent e UCLA rendono open-source OpenSearch-VL, un framework per agenti di ricerca profonda multimodale

AI Models07.May.2026 10:174 min read

Tencent Hunyuan, in collaborazione con UCLA e CUHK, ha rilasciato OpenSearch-VL, un framework open-source per l’addestramento di agenti basati su modelli linguistici di grandi dimensioni multimodali, capaci di ricerca attiva e ragionamento multi-step. Il progetto mira a colmare importanti lacune di riproducibilità nelle pipeline dei dati, nell’integrazione degli strumenti e nelle metodologie di reinforcement learning per agenti di ricerca profonda.

Tencent e UCLA rendono open-source OpenSearch-VL, un framework per agenti di ricerca profonda multimodale

Mentre i modelli linguistici multimodali di grandi dimensioni (MLLM) evolvono rapidamente, la prossima frontiera consiste nel consentire loro di andare oltre la comprensione passiva delle immagini verso la raccolta attiva di prove e il ragionamento multi-step. Questo cambiamento—dal descrivere immagini al cercare, verificare e ragionare autonomamente tra modalità diverse—si è dimostrato difficile da riprodurre nella ricerca aperta a causa di lacune nei dati di addestramento di alta qualità, nei metodi di sintesi delle traiettorie e nelle strategie di reinforcement learning (RL).

Tencent Hunyuan, in collaborazione con ricercatori dell’University of California, Los Angeles (UCLA) e della Chinese University of Hong Kong (CUHK), sta cercando di colmare questa lacuna con il rilascio di OpenSearch-VL, un framework open-source per agenti di deep search multimodale. Il team ha pubblicato un articolo tecnico e prevede di rilasciare dataset, codice e pesi del modello per supportare la riproducibilità e ulteriori ricerche.

Da Visione Passiva a Ricerca Attiva

I modelli tradizionali vision-language eccellono nel riconoscere e descrivere contenuti visivi. Tuttavia, la risoluzione di problemi nel mondo reale richiede spesso un ragionamento multi-hop: identificare indizi visivi, formulare query di ricerca, filtrare i risultati e sintetizzare conoscenze esterne. Secondo i ricercatori, un collo di bottiglia fondamentale è stata la mancanza di traiettorie di addestramento strutturate e di alta qualità che insegnino ai modelli come eseguire questi passaggi in sequenza.

Per affrontare questo problema, OpenSearch-VL introduce una pipeline di produzione dei dati basata sul grafo di collegamenti ipertestuali di Wikipedia. Il sistema campiona percorsi relazionali tra entità e li converte in compiti di question answering multi-hop. Per prevenire l’apprendimento tramite scorciatoie, il team applica tecniche di riscrittura delle entità che oscurano le risposte dirette e integra un ancoraggio visivo basato sul codice sorgente, costringendo il modello a identificare indizi visivi pertinenti prima di invocare strumenti esterni.

Il progetto include due dataset principali:

  • SearchVL-SFT, con 36.000 traiettorie di fine-tuning supervisionato.
  • SearchVL-RL, con 8.000 campioni di addestramento per reinforcement learning.

Un Ambiente Multimodale Ricco di Strumenti

A differenza degli agenti di ricerca solo testuali, OpenSearch-VL integra un ecosistema di strumenti più ampio, progettato per input multimodali. In scenari pratici, le immagini inviate dagli utenti possono essere sfocate, distorte o a bassa risoluzione, limitando le prestazioni di recupero delle informazioni a valle.

Per compensare, il framework dota l’agente di molteplici strumenti di pre-elaborazione e recupero, tra cui:

  • Ricerca web e ricerca inversa di immagini
  • Riconoscimento ottico dei caratteri (OCR)
  • Ritaglio e miglioramento della nitidezza delle immagini
  • Ricostruzione a super-risoluzione
  • Correzione della prospettiva

Questo design incoraggia una “percezione attiva”, in cui l’agente prima migliora o ripara l’input visivo prima di avviare il recupero della conoscenza. Il risultato è una maggiore robustezza e accuratezza della ricerca in condizioni complesse e reali.

Imparare dal Fallimento: GRPO Multi-Round Sensibile agli Errori

L’uso di strumenti su orizzonti lunghi introduce rischi di fallimenti a cascata: un timeout o una chiamata errata può compromettere l’intera catena di ragionamento. I metodi RL convenzionali spesso scartano le traiettorie fallite, sprecando passaggi intermedi di ragionamento potenzialmente utili.

OpenSearch-VL propone un algoritmo “GRPO multi-round sensibile agli errori” per affrontare questa inefficienza. L’approccio identifica i punti di fallimento nelle chiamate agli strumenti, maschera i segnali non validi successivi al fallimento e applica un clamping unilaterale del vantaggio per preservare i passaggi di ragionamento utili avvenuti prima dell’errore. Ciò consente al modello di apprendere strategie di esplorazione efficaci anche quando i compiti non vengono completamente portati a termine.

Prestazioni nei Benchmark e Implicazioni per la Ricerca Aperta

Nelle valutazioni su sette benchmark mainstream di deep search multimodale, OpenSearch-VL avrebbe migliorato le prestazioni medie di oltre 10 punti percentuali. In compiti selezionati, i suoi risultati si avvicinano a quelli dei principali sistemi commerciali proprietari, secondo il team di ricerca.

Se convalidato dalla comunità più ampia, il rilascio potrebbe contribuire a standardizzare le pratiche di addestramento per agenti di ricerca multimodale e a ridurre la dipendenza da ecosistemi chiusi. Rendendo open-source le pipeline di dati, le strategie di addestramento e i framework di integrazione degli strumenti, i collaboratori mirano a fornire una base riproducibile per i ricercatori che sviluppano agenti multimodali di nuova generazione.

Il progetto evidenzia una tendenza più ampia nella ricerca sull’IA: il passaggio da modelli di percezione statica a sistemi interattivi capaci di ragionamento strutturato, uso di strumenti e recupero adattivo dagli errori—ingredienti chiave per agenti autonomi più capaci.