SALMONN-Serie: Das große Audiovideo - Verständnis - Modell zurück an der Spitze mit Inferencesleistungs - Verbesserungen, hoher Bildwiederholrate und Vermeidung von Textdatenleckagen!

Das neue Team hat umfassende Durchbrüche bei der Videoverstehensfähigkeit und der Bewertungssystematik erzielt und die führende Position der SALMONN-Familie im Bereich der Open-Source-Großmodelle für Audiovideo-Verständnis vollständig gestärkt.

Die SALMONN - Familie hat auf der Grundlage des ersten universellen Audio - Verständnismodells (ICLR 2024) und des ersten ganzheitlichen Audio - Video - Verständnismodells video - SALMONN (ICML 2024) erneut eine beeindruckende Erweiterung erfahren und die Spitzenplätze in allen wichtigen Audio - Video - Verständnisrankinglisten errungen!

Die neue Generation video - SALMONN 2/2+, das erste quelloffene Inferenz - verstärkte Audio - Video - Verständnis - Großmodell video - SALMONN - o1 (ICML 2025), das erste Hochfrequenz - Video - Verständnis - Großmodell F - 16 (ICML 2025) sowie der textleckfreie Benchmark AVUT (EMNLP 2025) wurden offiziell vorgestellt. Die neue Reihe hat in der Video - Verständnisfähigkeit und der Bewertungssystematik umfassende Durchbrüche erzielt und die führende Position der SALMONN - Familie auf dem Gebiet der quelloffenen Audio - Video - Verständnis - Großmodelle weiter gestärkt.

Das Bild wurde von Nano - Banana generiert.

Der neue Flaggschiff - Vertreter ist da: video - SALMONN 2+

video - SALMONN 2+ ist das erste Audio - Video - Großsprachmodell, das sich auf hochwertige und vollständige Videobeschreibungen konzentriert. Durch ein Bewertungssystem auf Atomereignisebene und die Optimierung durch mehrmalige verstärkte Lernverfahren (MrDPO) hat es die Informationsverluste und Halluzinationen erheblich reduziert und die besten Ergebnisse (SOTA) bei den Indikatoren für Vollständigkeit und Genauigkeit der Untertitel erzielt.

Das Forschungsunternehmen hat weiterhin festgestellt, dass die massenhafte Generierung hochwertiger Beschreibungen mit diesem Modell und die Rückführung dieser Beschreibungen in das Training neuer Modelle nicht nur die starke Beschreibungsfähigkeit erhält, sondern auch die Leistung bei Audio - Video - Verständnisaufgaben wie Fragen und Antworten deutlich verbessert.

Schließlich führt video - SALMONN 2+ in den Audio - Video - Verständnisrankinglisten wie Video - MME, WorldSense, AVUT, Video - Holmes, DailyOmni sowie in den Rankinglisten für stumme Videos wie MLVU, LVBench umfassend an. Die 72B - Version übertrifft die Leistung von geschlossenen Quellen wie GPT - 4o und Google Gemini 1.5 Pro.

Dank der gleichzeitigen Nutzung der Audio - Modalität beträgt die Leistungsdifferenz von video - SALMONN 2+ zwischen untertitelosen (End - to - End - echten Systemen) und untertitelten (mit externen manuellen Markierungen oder idealen Untertiteln, die von kommerziellen Spracherkennungssystemen generiert werden) Videos in Rankinglisten wie Video - MME weniger als 2 %. Dies zeigt, dass die Audio - Video - Kopplung die semantische Verständnisfähigkeit effektiv verbessern kann und deutliche Vorteile in Szenarien wie untertitelosen Videos und körperlichen Robotern hat.

Das Forschungsunternehmen hat zunächst ein Audio - Video - Modell auf der Grundlage von Qwen 2.5 - VL 7B erstellt und nach dem oben genannten Audio - Video - Trainingsverfahren und MrDPO - Training video - SALMONN 2+ 7B erhalten. Anschließend hat es dieses Modell genutzt, um hochwertige Beschreibungen für größere Mengen an Audio - Video - Daten zu erstellen und diese als Datenquelle für das Training von Audio - Video - Großmodellen auf der Grundlage von Qwen 2.5 - VL 3B/72B verwendet, um schließlich video - SALMONN 2+ 3B/72B zu erhalten. Experimente haben gezeigt, dass das neue Modell im Vergleich zu Basismodellen, die nur mit ursprünglichen Markierungsdaten trainiert wurden, eine umfassende Verbesserung der Video - Verständnisfähigkeit erzielt hat.

Die Ergebnisse von Ablationsexperimenten mit dem Video - MME - Datensatz haben die Wirksamkeit dieses technologischen Ansatzes bestätigt: Modelle mit hoher Beschreibungsfähigkeit können als "Generatoren" für hochwertige Trainingsdaten dienen und eine zuverlässige Datenbasis für stärkeres Audio - Video - Verständnis bieten, was die kontinuierliche Iteration und Leistungssteigerung der Modelle vorantreibt.

Inferenz - Verstärkung, damit das Modell wirklich versteht: video - SALMONN - o1 (ICML 2025)

Frage: Warum möchte der Darsteller Bürger von Montenegro werden? Wählen Sie aus:

A. Weil Montenegro ein schönes Land ist.

B. Weil er in einem Land leben möchte, dessen Name zu seiner Hautfarbe passt.

C. Er möchte ein Berg werden.

D. Er findet die Menschen in Montenegro sehr attraktiv.

E. Er findet, dass der Name des Landes cool klingt.

video - SALMONN - o1 - Inferenz:

Der Komiker sagt, dass es in Europa ein Land namens Montenegro gibt.

Dann wiederholt er den Namen und betont seine Besonderheit: "Es gibt ein Land voller Weißer, das Montenegro heißt."

Er gibt an, dass er sehr gerne Mitglied darin werden möchte und scherzt sogar, seine Staatsbürgerschaft in Montenegrinisch zu ändern.

Sein Grund, Bürger von Montenegro zu werden, ist: Es ist ein schöner Ort, und der Name passt zu seiner Hautfarbe.

Daher ist die Antwort B. Er möchte in einem Land leben, dessen Name zu seiner Hautfarbe passt.

Frage: Der Darsteller spricht über die Gewohnheiten von Heterosexuellen bei Fotos. Warum lacht das Publikum? Wählen Sie aus:

A. Das Hemd des Darstellers ist lustig.

B. Der Darsteller bringt das Publikum an seine Freunde in Erinnerung.

C. Das Publikum fühlt sich beleidigt und lacht verlegen.

D. Der Darsteller ist weiblich und findet es lustig, Heterosexuelle auszulachen.

E. Es ist schon lustig, es sich vorzustellen, und der Darsteller spielt es sogar aus.

video - SALMONN - o1 - Inferenz:

Der Darsteller macht Witze über Heterosexuelle und sagt, dass sie gerne den Kinn abheben, wenn sie sich fotografieren lassen.

Dann imitiert er selbst diese Haltung und übertreibt sie, um einen komischen Effekt zu erzielen.

Das Publikum lacht, weil es sich damit identifizieren kann und die Haltung selbst als komisch empfindet.

Daher ist die Antwort E. Es ist schon lustig, es sich vorzustellen, und der Darsteller spielt es sogar aus.

Frage: Welcher Witz ist in diesem Video und warum ist er lustig? Analysieren Sie Schritt für Schritt.

video - SALMONN - o1 - Inferenz:

Der Witz liegt darin, dass der Vizepräsident der Vereinigten Staaten, Joe Biden, eine Autobiografie geschrieben hat.

Der Sprecher (wahrscheinlich ein Komiker oder ein Zuschauer) sagt, dass er die Autobiografie viel besser findet, als sie tatsächlich ist.

Dies ist lustig, weil es sich auf die gängige Vorstellung stützt, dass Politiker sich oft positiver darstellen, als es tatsächlich gerechtfertigt ist.

Der Sprecher deutet an, dass Bidens Autobiografie unglaublich gut ist, was eine humorvolle Übertreibung der Situation ist.

In komplexen Videos wie Talkshows hängt das tiefe Verständnis nicht nur von der kombinierten Wahrnehmung von Audio und Video ab, sondern erfordert auch mehrstufige Inferenzen auf dieser Grundlage. video - SALMONN - o1 ist das erste quelloffene Audio - Video - Großsprachmodell mit Inferenz - Verstärkung: Im Gegensatz zu ähnlichen quelloffenen Systemen, die direkt die Antwort ausgeben, kann es gleichzeitig Audio - und Videoeingaben empfangen, evidenzbasierte schrittweise Inferenzen durchführen und ein Ergebnis liefern, um die Übereinstimmung zwischen Ergebnis und Begründung zu gewährleisten. Experimente haben gezeigt, dass die textbasierte Inferenz für Mathematik/Programmierung sowie die Inferenz für Bilder und Texte schwerlich auf Audio - Video - Szenarien übertragbar sind; video - SALMONN - o1 erweitert die Anwendungsgrenzen der Inferenz durch die nativen Prozessüberwachung und Inferenzoptimierung für Audio - Video - Daten, so dass das Großmodell die physische Welt umfassender und genauer verstehen kann, indem es die Inferenz als Kernpunkt nimmt.

Frage: Wie trennt die Zwillingsstudie den Einfluss von TBI (traumatische Gehirnverletzung) auf das Demenzrisiko? Analysieren Sie Schritt für Schritt.

video - SALMONN - o1 - Inferenz:

Die Frage ist, wie die Zwillingsstudie den Einfluss von TBI (traumatische Gehirnverletzung) auf das Demenzrisiko trennt. Wir müssen klären, welche Schlüsselmerkmale in dieser Studie helfen können, die Wirkung von TBI von anderen Faktoren, die das Demenzrisiko beeinflussen, zu trennen.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Das große Audiovideo-Verständnis-Modell der SALMONN-Serie ist zurück und führt die Rangliste an. Es hat umfassende Durchbrüche bei der Verbesserung der Inferenzleistung, der hohen Bildwiederholrate und der Vermeidung von Textdatenleckagen erzielt.

Der neue Flaggschiff - Vertreter ist da: video - SALMONN 2+

Inferenz - Verstärkung, damit das Modell wirklich versteht: video - SALMONN - o1 (ICML 2025)