Tencent și UCLA lansează OpenSearch-VL, un cadru open-source pentru agenți de căutare profundă multimodală

AI Models07.May.2026 10:175 min read

Tencent Hunyuan, în colaborare cu UCLA și CUHK, a lansat OpenSearch-VL, un cadru open-source pentru antrenarea agenților bazați pe modele lingvistice multimodale de mari dimensiuni, capabili de căutare activă în mai mulți pași și raționament. Proiectul își propune să reducă lacunele esențiale de reproductibilitate în fluxurile de date, integrarea instrumentelor și metodele de învățare prin întărire pentru agenții de căutare profundă.

Tencent și UCLA lansează OpenSearch-VL, un cadru open-source pentru agenți de căutare profundă multimodală

Pe măsură ce modelele multimodale de limbaj de mari dimensiuni (MLLM) evoluează rapid, următoarea frontieră constă în a le permite să depășească înțelegerea pasivă a imaginilor și să ajungă la colectarea activă de dovezi și la raționament în mai mulți pași. Această tranziție — de la descrierea imaginilor la căutarea, verificarea și raționarea autonomă între modalități — s-a dovedit dificil de reprodus în cercetarea deschisă din cauza lacunelor în datele de antrenare de înaltă calitate, metodele de sinteză a traiectoriilor și strategiile de învățare prin consolidare (RL).

Tencent Hunyuan, în colaborare cu cercetători de la University of California, Los Angeles (UCLA) și The Chinese University of Hong Kong (CUHK), încearcă să reducă acest decalaj prin lansarea OpenSearch-VL, un cadru open-source pentru agenți de căutare profundă multimodală. Echipa a publicat un articol tehnic și intenționează să lanseze seturi de date, cod și ponderi de model pentru a sprijini reproductibilitatea și cercetările ulterioare.

De la viziune pasivă la căutare activă

Modelele tradiționale viziune-limbaj excelează în recunoașterea și descrierea conținutului vizual. Totuși, rezolvarea problemelor din lumea reală necesită adesea raționament multi-hop: identificarea indiciilor vizuale, formularea de interogări de căutare, filtrarea rezultatelor și sintetizarea cunoștințelor externe. Potrivit cercetătorilor, un blocaj major a fost lipsa unor traiectorii de antrenare structurate și de înaltă calitate care să învețe modelele cum să efectueze acești pași în mod secvențial.

Pentru a aborda această problemă, OpenSearch-VL introduce un pipeline de producție a datelor construit pe graful de hyperlinkuri al Wikipedia. Sistemul eșantionează trasee relaționale între entități și le transformă în sarcini de tip întrebare-răspuns multi-hop. Pentru a preveni învățarea prin scurtături, echipa aplică tehnici de rescriere a entităților care ascund răspunsurile directe și integrează ancorare vizuală bazată pe cod sursă, obligând modelul să identifice indicii vizuale relevante înainte de a invoca instrumente externe.

Proiectul include două seturi de date principale:

  • SearchVL-SFT, cu 36.000 de traiectorii pentru fine-tuning supravegheat.
  • SearchVL-RL, cu 8.000 de exemple de antrenare pentru învățare prin consolidare.

Un mediu multimodal bogat în instrumente

Spre deosebire de agenții de căutare exclusiv textuali, OpenSearch-VL integrează un ecosistem mai larg de instrumente adaptat intrărilor multimodale. În scenarii practice, imaginile trimise de utilizatori pot fi neclare, înclinate sau cu rezoluție scăzută, limitând performanța ulterioară a recuperării informațiilor.

Pentru a compensa, cadrul echipează agentul cu multiple instrumente de preprocesare și recuperare, inclusiv:

  • Căutare web și căutare inversă de imagini
  • Recunoaștere optică a caracterelor (OCR)
  • Decupare și clarificare a imaginilor
  • Reconstrucție prin super-rezoluție
  • Corecție de perspectivă

Acest design încurajează „percepția activă”, în care agentul îmbunătățește sau repară mai întâi intrarea vizuală înainte de a iniția recuperarea cunoștințelor. Rezultatul este o robustețe și o acuratețe a căutării îmbunătățite în condiții complexe din lumea reală.

Învățarea din eșec: GRPO conștient de erori în mai multe runde

Utilizarea instrumentelor pe orizont lung introduce riscuri de eșec în cascadă: o expirare a timpului sau un apel incorect poate deraia întregul lanț de raționament. Metodele convenționale de RL elimină adesea traiectoriile eșuate, irosind pași intermediari de raționament potențial utili.

OpenSearch-VL propune un algoritm „GRPO conștient de erori în mai multe runde” pentru a aborda această ineficiență. Abordarea identifică punctele de eșec în apelurile de instrumente, maschează semnalele invalide apărute după eșec și aplică limitarea unilaterală a avantajului pentru a păstra pașii utili de raționament care au avut loc înainte de eroare. Acest lucru permite modelului să învețe strategii eficiente de explorare chiar și atunci când sarcinile nu sunt finalizate cu succes.

Performanță pe benchmark-uri și implicații pentru cercetarea deschisă

În evaluări pe șapte benchmark-uri principale de căutare profundă multimodală, OpenSearch-VL ar fi îmbunătățit performanța medie cu peste 10 puncte procentuale. În anumite sarcini selectate, rezultatele sale se apropie de cele ale sistemelor comerciale proprietare de top, potrivit echipei de cercetare.

Dacă va fi validată de comunitatea largă, lansarea ar putea contribui la standardizarea practicilor de antrenare pentru agenții de căutare multimodală și la reducerea dependenței de ecosisteme închise. Prin open-sourcing-ul pipeline-urilor de date, al rețetelor de antrenare și al cadrelor de integrare a instrumentelor, colaboratorii își propun să ofere o bază reproductibilă pentru cercetătorii care construiesc agenți multimodali de nouă generație.

Proiectul evidențiază o tendință mai amplă în cercetarea AI: trecerea de la modele de percepție statice la sisteme interactive capabile de raționament structurat, utilizare a instrumentelor și recuperare adaptivă după eșec — ingrediente esențiale pentru agenți autonomi mai capabili.