Neues großes Sprachmodell veröffentlicht: Kann mit Fable 5 und Mythos mithalten!

Sakana AI präsentiert einen neuen Ansatz für das Training großer Modelle.

ZDX berichtete am 22. Juni. Heute hat das japanische Künstliche-Intelligenz-Unicorn Sakana AI das Sakana Fugu-Serie-Orchestrator-Modell veröffentlicht, einschließlich der beiden Modelle Fugu Ultra und Fugu. Das Fugu Ultra-Modell hat in den Benchmarks für Ingenieurwissenschaften, Naturwissenschaften und logische Schlussfolgerungen eine Leistung erreicht, die nahe an oder über diejenige von Spitzenmodellen wie Fable 5 und Mythos Preview liegt.

Im Gegensatz zu traditionellen großen Sprachmodellen beantwortet Sakana Fugu nicht selbst Fragen. Es ruft verschiedene Modelle aus der Welt auf, um Aufgaben zu erledigen. Einfach ausgedrückt, handelt Sakana Fugu wie ein "Chef", der das beste Modell für eine Aufgabe auswählt.

Fugu bedeutet auf Japanisch "Pufferfisch". Aus der offiziell veröffentlichten Animation geht hervor, dass Sakana Fugu mehrere "Kleinfische" zu einem "großen Pufferfisch", einem köstlichen Gericht, zusammenführen will.

Sakana AI ist ein japanisches Künstliche-Intelligenz-Unicorn, das im Jahr 2023 gegründet wurde und von Llion Jones, dem fünften Autor der Transformer-Publikation, mitbegründet wurde. Es hat einst die "Evolution" genutzt, um durch die Kombination kleiner Modelle eine Leistung zu erreichen, die der von großen Modellen vergleichbar ist. Jetzt haben sie in der technischen Berichterstattung zu Sakana Fugu einen neuen Ansatz für das Training von Modellen vorgeschlagen: Ein Modell soll lernen, mehrere Modelle zu steuern und verschiedene Spitzenmodelle zu einer "kollektiven Intelligenz" zusammenzuführen.

Sakana AI hat in einem Blogbeitrag festgestellt, dass Orchestrator-Modelle traditionelle große Modelle übertreffen und die neue Spitzenrichtung werden. Sie sind der Meinung, dass der Fortschritt in der KI in den letzten Jahren durch die brute Krafteinlage von Rechenleistung und Daten erreicht wurde, aber reale komplexe Aufgaben erfordern Fachwissen, das weit über die Fähigkeiten eines einzelnen Modells hinausgeht. Um die beste Leistung der Modelle zu erzielen, wird kollektives Denken benötigt, d. h. man muss wissen, wann welches Modell eingesetzt werden soll, wann Aufgaben delegiert werden sollen und wie Modelle mit verschiedenen Stärken kombiniert werden sollen.

Zugleich ist diese Orchestrierung nicht nur ein technologischer Fortschritt, sondern auch ein Produkt der Geopolitik. Sakana AI hat aus den jüngsten Exportbeschränkungen für das Anthropic-Modell gelernt und ist der Meinung, dass die Bindung an einen einzigen Anbieter dazu führen kann, dass der Zugang plötzlich wegfällt. Das Grundmodell von Fugu kann vollständig ausgetauscht werden, und wenn ein Anbieter die Lieferung einstellt, kann man einfach zu einem anderen wechseln. Sakana AI nennt dies die "realistische Vision der KI-Souveränität".

Sakana AI hat in einem Blogbeitrag festgestellt, dass Fugu selbst ein Sprachmodell ist, das speziell darauf ausgelegt ist, zu verstehen, wann Aufgaben delegiert werden sollen, wie Agenten miteinander kommunizieren sollen und wie ihre Arbeit zu einer zuverlässigen Antwort zusammengeführt werden soll. Dieser technologische Ansatz basiert auf früheren Forschungen des Teams zur Orchestrierung von Modellen, einschließlich der auf der ICLR 2026 veröffentlichten Artikel Trinity und Conductor.

Link zur technischen Berichterstattung:

https://github.com/SakanaAI/fugu/blob/main/Fugu_technical_report.pdf

Link zur Demonstration:

https://sakana.ai/fugu

01. Übertreffen von Mythos Preview und Fable 5

Steuerung der besten Modelle zur Erledigung von Aufgaben

Die technische Berichterstattung listet die Leistung der Fugu-Serie in acht Benchmarks auf, die die vier Dimensionen Programmierung, logische Schlussfolgerung, Naturwissenschaften und Agentenfähigkeiten abdecken. Die Berichterstattung zeigt, dass die Fugu-Serie in diesen Tests das Niveau von Spitzenmodellen erreicht oder nahe kommt.

Die technische Berichterstattung zeigt, dass das Fugu-Modell allein durch intelligente Steuerung in drei Benchmarks die Fähigkeiten von Mythos Preview und Fable 5 übertreffen konnte.

In Bezug auf die Anpassungsfähigkeit in verschiedenen Bereichen konzentrieren sich die Spitzenwerte der Modellauswahl von Fugu und Fugu Ultra im Terminal Bench-Test auf GPT-5.5, das in diesem Test die beste Leistung zeigt. Im GPQADiamond-Test haben beide Fugu-Modelle die Steuerung um Gemini-3.1-Pro, das führende Modell, herum organisiert.

Fugu erzielt hohe Punktzahlen auf eine völlig andere Weise als traditionelle Modelle. Es trainiert kein stärkeres Basis-Modell, um Probleme zu lösen, sondern es entscheidet, welches Modell für ein Problem eingesetzt werden soll, wie die Aufgabe aufgeteilt werden soll und wie die Lösung überprüft werden soll. Am Ende ist die Qualität der zusammengesetzten Antwort höher als die der Antworten einzelner Modelle.

Das ist genau die Kernaussage, die die technische Berichterstattung wiederholt betont: Der technische Wert von Fugu liegt nicht darin, Modelle wie GPT, Claude und Gemini zu ersetzen, sondern darin, die Fähigkeiten dieser Modelle zu kombinieren. In den heutigen großen Modellen gibt es einige, die gut in mathematischer Schlussfolgerung sind, einige, die gut in Code-Engineering sind, und einige, die gut in Sicherheitsanalyse sind. Mit der Entwicklung unterschiedlicher Stärken der Modelle wird die Orchestrierungsfähigkeit selbst zu einer unabhängigen Wettbewerbsfähigkeit.

02. Vier Mechanismen lassen Fugu die Modellarmee steuern

Die Berichterstattung erläutert die vier Grundmechanismen von Fugu:

Erstens, die Art der Frage erkennen. Es muss entschieden werden, ob die Frage des Benutzers sich auf Code, Mathematik, logische Schlussfolgerung, Informationssuche, naturwissenschaftliche Analyse oder multimodale Aufgaben bezieht. Dieser Schritt bestimmt den Ausgangspunkt der gesamten Aufgabenverteilung.

Zweitens, das passende Worker-Modell auswählen. Die Leistung verschiedener Modelle variiert stark bei verschiedenen Aufgaben. Eines der Ziele des Trainings von Fugu ist es, zu lernen, welches Modell für welche Frage eingesetzt werden soll. Die Berichterstattung erwähnt, dass selbst innerhalb derselben Aufgabe, z. B. bei programmierwettbewerbsartigen Aufgaben, verschiedene Modelle möglicherweise jeweils gut in der direkten Implementierung, der Planung der Lösung oder der Kombination verschiedener Algorithmen sind. Fugu muss diese feinen Unterschiede auch in die Entscheidung einbeziehen.

Drittens, den Agenten-Arbeitsablauf gestalten. Bei komplexen Problemen erzeugt Fugu Ultra einen vollständigen agentischen Arbeitsablauf, einschließlich der Aufteilung der Aufgabe, der Zuweisung von Teilaufgaben, der Strategie für die Freigabe von Kontext und der Synthese der endgültigen Antwort. All dies kann innerhalb des Modells in natürlicher Sprache erfolgen.

Viertens, anhand von Rückmeldungen optimieren. Das Training von Fugu umfasst nicht nur die überwachte Feinabstimmung, sondern auch Evolutionsalgorithmen und Reinforcement Learning. Die Ergebnisse realer Aufgaben werden verwendet, um die Orchestrierungsstrategie rückwärts zu optimieren. Diese Strategie hilft es, zu wissen, wie man das passende Modell für die passende Aufgabe einsetzen soll.

Es gibt zwei Versionen des Sakana Fugu-Modells: Fugu und Fugu-Ultra. Fugu legt mehr Wert auf die tägliche Nutzung und den Ausgleich zwischen Leistung und Latenz. Es versucht, bei hoher Qualität möglichst schnell zu reagieren. Daher wird es nicht immer eine sehr komplexe Multi-Agenten-Kooperation durchführen, sondern es wird über einen leichten Auswahlmechanismus schnell entscheiden, welches Worker-Modell für die aktuelle Aufgabe am besten geeignet ist.

Fugu-Ultra legt mehr Wert auf die Qualität. Es wird eine komplexere Orchestrierungsmethode anwenden, die Aufgabe in mehrere Teilaufgaben aufteilen, verschiedene Agenten zuweisen und dann die Ergebnisse zusammenführen. Diese Methode kann möglicherweise länger dauern, ist aber besser für schwierige Probleme, wie komplexe Code-Aufgaben, mathematische Schlussfolgerungen, naturwissenschaftliche Probleme und mehrstufige Planungen.

Beide Modelle haben den Vorteil, dass sie vollständig modular und unabhängig von den Modellen sind. Sakana Fugu braucht keinen Zugang zu den Gewichten der Worker-Modelle und auch nicht, dass sie Open-Source sind. Nach der Veröffentlichung eines neuen Modells kann es direkt in den Pool der Worker-Modelle aufgenommen werden. Benutzer können die Liste der verfügbaren Modelle nach Kosten, Datenschutz, Compliance usw. anpassen.

03. Rubik-Würfel lösen, Blindschach spielen, nicht vom Autowaschensproblem überwältigt

Im Anhang der technischen Berichterstattung zu Sakana Fugu gibt es einige Experimente:

Eines ist der "Einmal-Rubik-Würfel-Löser". Das Modell muss ein Python-Programm zur Lösung des Rubik-Würfels mit Standardbibliotheken auf einmal schreiben und es auf 300 durcheinander gewürfelten Würfeln testen. Die Berichterstattung besagt, dass sowohl Fugu als auch Fugu-Ultra alle Würfel erfolgreich gelöst haben. Fugu-Ultra hat dabei im Durchschnitt weniger Schritte benötigt, während Fugu schneller läuft.

Ein anderes Experiment ist der "Blindschach-Test". Das Modell muss im Schach ohne Sicht auf das Brett, ohne Liste der gültigen Züge und ohne FEN-Kodierung nur anhand der bisherigen Züge weiterspielen. Dieses Experiment testet hauptsächlich, ob das Modell seinen internen Zustand langfristig aufrechterhalten kann. In einigen repräsentativen Partien, die in der Berichterstattung gezeigt werden, hat Fugu mehrere Basismodelle und das Stockfish mit eingeschränkter Stärke besiegt.

Ein weiteres Experiment ist das "Online-Aktienhandel"-Experiment. Das Modell kann nur die vergangenen und aktuellen anonymisierten Markt-Daten sehen, darf nicht in die zukünftigen Preise schauen und muss wöchentlich Entscheidungen über Kauf, Halten oder Verkauf treffen. Die Berichterstattung besagt, dass Fugu-Ultra in fünf Durchläufen einen höheren durchschnittlichen Gewinn erzielt hat.

Diese Experimente repräsentieren möglicherweise nicht direkt die tatsächlichen Fähigkeiten des Modells, aber sie zeigen, was Fugu beweisen will: Orchestrator-Modelle können Aufgaben gut bewältigen, die langfristig laufen, Strategien anpassen und mehrstufig ausgeführt werden müssen.

Ein Netizen hat Fugu-Ultra verwendet, um einige Probleme zu lösen, die viele Modelle überfordern, wie z. B. wie viele "r" in "strawberry" sind, ob 5.11 größer als 5.1 ist und das klassische Autowaschensproblem. Er hat gesagt, dass er Fable wiedergefunden hat. Man kann sehen, dass Fugu-Ultra bei diesen drei Fragen die richtigen Antworten gegeben hat.

Das Wichtigste in der technischen Berichterstattung zu Sakana Fugu ist, dass es einen neuen Weg für die Modellforschung vorschlägt.

In der Vergangenheit haben wir uns oft gefragt, welches Modell

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Ein weiteres großes Sprachmodell wurde veröffentlicht und soll mit Fable 5 und Mythos mithalten können

01.

Übertreffen von Mythos Preview und Fable 5

Steuerung der besten Modelle zur Erledigung von Aufgaben

02.

Vier Mechanismen lassen Fugu die Modellarmee steuern

03.

Rubik-Würfel lösen, Blindschach spielen, nicht vom Autowaschensproblem überwältigt