Tencent und UCLA veröffentlichen OpenSearch-VL, ein multimodales Deep-Search-Agenten-Framework als Open Source
Tencent Hunyuan hat in Zusammenarbeit mit der UCLA und der CUHK OpenSearch-VL veröffentlicht, ein Open-Source-Framework zum Training multimodaler Large-Language-Model-Agenten, die zu aktiver, mehrstufiger Suche und Schlussfolgerung fähig sind. Das Projekt zielt darauf ab, zentrale Reproduzierbarkeitslücken in Datenpipelines, Tool-Integration und Reinforcement-Learning-Methoden für Deep-Search-Agenten zu schließen.

Da sich multimodale große Sprachmodelle (MLLMs) rasant weiterentwickeln, besteht die nächste Herausforderung darin, sie über das passive Bildverständnis hinaus zu aktiver Beweissammlung und mehrstufigem Schlussfolgern zu befähigen. Dieser Wandel – vom Beschreiben von Bildern hin zum autonomen Suchen, Verifizieren und modalitätsübergreifenden Denken – ließ sich in der offenen Forschung bislang nur schwer reproduzieren, da es an hochwertigen Trainingsdaten, Methoden zur Trajektoriensynthese und ausgereiften Reinforcement-Learning-(RL)-Rezepten mangelt.
Tencent Hunyuan versucht gemeinsam mit Forschern der University of California, Los Angeles (UCLA) und der Chinese University of Hong Kong (CUHK), diese Lücke mit der Veröffentlichung von OpenSearch-VL zu schließen, einem Open-Source-Framework für multimodale Deep-Search-Agenten. Das Team hat eine technische Publikation veröffentlicht und plant, Datensätze, Code und Modellgewichte bereitzustellen, um Reproduzierbarkeit und weiterführende Forschung zu unterstützen.
Von passiver Wahrnehmung zu aktiver Suche
Traditionelle Vision-Language-Modelle zeichnen sich durch das Erkennen und Beschreiben visueller Inhalte aus. Die Lösung realer Probleme erfordert jedoch häufig mehrstufiges Schlussfolgern: visuelle Hinweise identifizieren, Suchanfragen stellen, Ergebnisse filtern und externes Wissen synthetisieren. Laut den Forschern besteht ein zentrales Hindernis im Mangel an strukturierten, hochwertigen Trainings-Trajektorien, die Modelle lehren, diese Schritte sequenziell auszuführen.
Um dem zu begegnen, führt OpenSearch-VL eine Datenproduktionspipeline ein, die auf dem Hyperlink-Graphen von Wikipedia basiert. Das System sampelt relationale Pfade zwischen Entitäten und wandelt sie in mehrstufige Frage-Antwort-Aufgaben um. Um Abkürzungslernen zu verhindern, setzt das Team Techniken zur Umschreibung von Entitäten ein, die direkte Antworten verschleiern, und integriert quellcodebasierte, ankerorientierte visuelle Verankerung, wodurch das Modell gezwungen wird, relevante visuelle Hinweise zu identifizieren, bevor es externe Werkzeuge aufruft.
Das Projekt umfasst zwei primäre Datensätze:
- SearchVL-SFT, mit 36.000 überwachten Fine-Tuning-Trajektorien.
- SearchVL-RL, mit 8.000 Trainingsbeispielen für Reinforcement Learning.
Eine werkzeugreiche multimodale Umgebung
Im Gegensatz zu reinen Text-Suchagenten integriert OpenSearch-VL ein breiteres Werkzeug-Ökosystem, das auf multimodale Eingaben zugeschnitten ist. In praktischen Szenarien können von Nutzern eingereichte Bilder unscharf, verzerrt oder niedrig aufgelöst sein, was die nachgelagerte Retrieval-Leistung einschränkt.
Um dies auszugleichen, stattet das Framework den Agenten mit mehreren Vorverarbeitungs- und Retrieval-Werkzeugen aus, darunter:
- Websuche und umgekehrte Bildsuche
- Optische Zeichenerkennung (OCR)
- Bildzuschnitt und Schärfung
- Super-Resolution-Rekonstruktion
- Perspektivkorrektur
Dieses Design fördert eine „aktive Wahrnehmung“, bei der der Agent visuelle Eingaben zunächst verbessert oder repariert, bevor er mit der Wissensabfrage beginnt. Das Ergebnis ist eine höhere Robustheit und Suchgenauigkeit unter komplexen realen Bedingungen.
Aus Fehlern lernen: Mehrstufiges fehlersensitives GRPO
Der Einsatz von Werkzeugen über lange Entscheidungshorizonte hinweg birgt das Risiko kaskadierender Fehler: Ein Timeout oder ein fehlerhafter Aufruf kann die gesamte Argumentationskette zum Scheitern bringen. Konventionelle RL-Methoden verwerfen fehlgeschlagene Trajektorien häufig und verschwenden damit potenziell nützliche Zwischenschritte im Denkprozess.
OpenSearch-VL schlägt zur Behebung dieser Ineffizienz einen „mehrstufigen fehlersensitiven GRPO“-Algorithmus vor. Der Ansatz identifiziert Fehlerstellen bei Werkzeugaufrufen, maskiert ungültige Signale nach dem Fehler und wendet eine einseitige Advantage-Clamping-Strategie an, um nützliche Argumentationsschritte zu bewahren, die vor dem Fehler aufgetreten sind. Dadurch kann das Modell effektive Explorationsstrategien erlernen, selbst wenn Aufgaben nicht vollständig erfolgreich abgeschlossen werden.
Benchmark-Leistung und Implikationen für die offene Forschung
In Evaluierungen über sieben gängige multimodale Deep-Search-Benchmarks hinweg verbessert OpenSearch-VL Berichten zufolge die durchschnittliche Leistung um mehr als 10 Prozentpunkte. Bei ausgewählten Aufgaben nähern sich die Ergebnisse laut Forschungsteam denen führender proprietärer kommerzieller Systeme an.
Sollte dies von der breiteren Community bestätigt werden, könnte die Veröffentlichung dazu beitragen, Trainingspraktiken für multimodale Suchagenten zu standardisieren und die Abhängigkeit von geschlossenen Ökosystemen zu verringern. Durch die Open-Source-Bereitstellung von Datenpipelines, Trainingsrezepten und Frameworks zur Werkzeugintegration wollen die Beteiligten eine reproduzierbare Grundlage für Forscher schaffen, die an multimodalen Agenten der nächsten Generation arbeiten.
Das Projekt unterstreicht einen breiteren Trend in der KI-Forschung: den Übergang von statischen Wahrnehmungsmodellen zu interaktiven Systemen, die zu strukturiertem Schlussfolgern, Werkzeugnutzung und adaptiver Fehlererholung fähig sind – zentrale Bausteine für leistungsfähigere autonome Agenten.