Tencent i UCLA udostępniają w modelu open source OpenSearch-VL, framework multimodalnego agenta głębokiego wyszukiwania

AI Models07.May.2026 10:174 min read

Tencent Hunyuan, we współpracy z UCLA i CUHK, udostępnił OpenSearch-VL — framework open source do trenowania agentów opartych na multimodalnych dużych modelach językowych, zdolnych do aktywnego, wieloetapowego wyszukiwania i rozumowania. Projekt ma na celu zniwelowanie kluczowych luk w odtwarzalności procesów przetwarzania danych, integracji narzędzi oraz metod uczenia ze wzmocnieniem dla agentów głębokiego wyszukiwania.

Tencent i UCLA udostępniają w modelu open source OpenSearch-VL, framework multimodalnego agenta głębokiego wyszukiwania

Wraz z szybkim rozwojem multimodalnych dużych modeli językowych (MLLM) kolejnym krokiem jest umożliwienie im wyjścia poza pasywne rozumienie obrazu w kierunku aktywnego pozyskiwania dowodów i wieloetapowego rozumowania. Ta zmiana — od opisywania obrazów do autonomicznego wyszukiwania, weryfikowania i wnioskowania między modalnościami — okazała się trudna do odtworzenia w otwartych badaniach ze względu na braki w wysokiej jakości danych treningowych, metodach syntezy trajektorii oraz schematach uczenia ze wzmocnieniem (RL).

Tencent Hunyuan, we współpracy z badaczami z University of California, Los Angeles (UCLA) oraz The Chinese University of Hong Kong (CUHK), próbuje zniwelować tę lukę poprzez udostępnienie OpenSearch-VL, otwartoźródłowej platformy multimodalnego agenta głębokiego wyszukiwania. Zespół opublikował artykuł techniczny i planuje udostępnić zbiory danych, kod oraz wagi modeli, aby wesprzeć odtwarzalność i dalsze badania.

Od pasywnej wizji do aktywnego wyszukiwania

Tradycyjne modele wizja–język doskonale radzą sobie z rozpoznawaniem i opisywaniem treści wizualnych. Jednak rozwiązywanie rzeczywistych problemów często wymaga wieloetapowego rozumowania: identyfikowania wskazówek wizualnych, formułowania zapytań wyszukiwawczych, filtrowania wyników oraz syntezy wiedzy zewnętrznej. Według badaczy kluczowym wąskim gardłem był brak ustrukturyzowanych, wysokiej jakości trajektorii treningowych, które uczą modele wykonywania tych kroków sekwencyjnie.

Aby temu zaradzić, OpenSearch-VL wprowadza potok generowania danych oparty na grafie hiperłączy Wikipedii. System próbuje relacyjne ścieżki między encjami i przekształca je w zadania wieloetapowego odpowiadania na pytania. Aby zapobiec uczeniu się na skróty, zespół stosuje techniki przepisywania encji, które ukrywają bezpośrednie odpowiedzi, oraz wykorzystuje wizualne ugruntowanie oparte na kotwicach kodu źródłowego, zmuszając model do identyfikowania istotnych wskazówek wizualnych przed użyciem narzędzi zewnętrznych.

Projekt obejmuje dwa główne zbiory danych:

  • SearchVL-SFT, zawierający 36 000 trajektorii do nadzorowanego dostrajania.
  • SearchVL-RL, obejmujący 8 000 próbek treningowych do uczenia ze wzmocnieniem.

Środowisko multimodalne bogate w narzędzia

W przeciwieństwie do agentów wyszukiwania opartych wyłącznie na tekście, OpenSearch-VL integruje szerszy ekosystem narzędzi dostosowany do danych multimodalnych. W praktycznych scenariuszach obrazy przesyłane przez użytkowników mogą być rozmyte, przekrzywione lub mieć niską rozdzielczość, co ogranicza skuteczność dalszego wyszukiwania.

Aby to zrekompensować, platforma wyposaża agenta w wiele narzędzi do wstępnego przetwarzania i wyszukiwania, w tym:

  • Wyszukiwanie w sieci i odwrotne wyszukiwanie obrazem
  • Optyczne rozpoznawanie znaków (OCR)
  • Przycinanie i wyostrzanie obrazu
  • Rekonstrukcję superrozdzielczą
  • Korekcję perspektywy

Takie podejście sprzyja „aktywnej percepcji”, w której agent najpierw ulepsza lub naprawia dane wizualne, zanim rozpocznie wyszukiwanie wiedzy. Efektem jest większa odporność i dokładność wyszukiwania w złożonych, rzeczywistych warunkach.

Uczenie się na błędach: wielorundowy GRPO uwzględniający awarie

Wykorzystanie narzędzi w długim horyzoncie czasowym wiąże się z ryzykiem kaskadowych błędów: przekroczenie limitu czasu lub nieprawidłowe wywołanie może zakłócić cały łańcuch rozumowania. Konwencjonalne metody RL często odrzucają nieudane trajektorie, marnując potencjalnie użyteczne pośrednie kroki rozumowania.

OpenSearch-VL proponuje algorytm „wielorundowego GRPO uwzględniającego awarie”, aby rozwiązać ten problem nieefektywności. Podejście to identyfikuje punkty awarii w wywołaniach narzędzi, maskuje nieprawidłowe sygnały po wystąpieniu błędu oraz stosuje jednostronne ograniczanie przewagi, aby zachować użyteczne kroki rozumowania, które miały miejsce przed błędem. Umożliwia to modelowi uczenie się skutecznych strategii eksploracji nawet wtedy, gdy zadania nie kończą się pełnym sukcesem.

Wyniki benchmarków i znaczenie dla otwartych badań

W ewaluacjach obejmujących siedem głównych benchmarków multimodalnego głębokiego wyszukiwania OpenSearch-VL podobno poprawia średnie wyniki o ponad 10 punktów procentowych. W wybranych zadaniach jego rezultaty zbliżają się do wyników wiodących, komercyjnych systemów własnościowych, według zespołu badawczego.

Jeśli wyniki te zostaną potwierdzone przez szerszą społeczność, publikacja może pomóc w standaryzacji praktyk treningowych dla multimodalnych agentów wyszukiwania i zmniejszyć zależność od zamkniętych ekosystemów. Udostępniając w modelu open source potoki danych, schematy treningowe i frameworki integracji narzędzi, współpracujący badacze chcą zapewnić odtwarzalne podstawy dla naukowców budujących agentów multimodalnych nowej generacji.

Projekt podkreśla szerszy trend w badaniach nad AI: przejście od statycznych modeli percepcyjnych do interaktywnych systemów zdolnych do ustrukturyzowanego rozumowania, korzystania z narzędzi i adaptacyjnego odzyskiwania sprawności po błędach — kluczowych elementów bardziej zaawansowanych autonomicznych agentów.