StartseiteArtikel

Derjenige, der im Alter von 20 Jahren das Transformer geschrieben hat, hat tatsächlich ein riesiges Modell mit 218 Milliarden Parametern Open Source gemacht.

新智元2026-05-22 18:40
Gerade hat Cohere das Large Language Model Command A+ mit 218 Milliarden Parametern basierend auf dem Mixture-of-Experts (MoE) - Ansatz veröffentlicht. Es kann auf einer einzelnen NVIDIA B200 GPU ausgeführt werden, unterstützt 48 Sprachen und verfügt über native Zitierfähigkeiten. Das Aufsehenerregendste an dieser Veröffentlichung liegt jedoch nicht in den Parametern, sondern in der Lizenz: Apache 2.0.

„Attention Is All You Need“ – genau diese berühmte Studie hat alle heutigen großen Modelle hervorgebracht.

Am 20. Mai kündigte Aidan Gomez, ein Mitautor dieser Studie, auf X die Veröffentlichung des ersten vollständig quelloffenen Modells unter der Apache 2.0-Lizenz an: Cohere Command A+.

Gomez war einst Google-Forscher und ist heute Mitbegründer und CEO von Cohere.

Command A+ ist das letzte Modell der Command A-Familie und das erste MoE-Modell (Mixture of Experts) von Cohere. Mit 218 Milliarden Gesamtparametern und 25 Milliarden aktiven Parametern vereint es in einem einzigen Modell visuelle Eingabe, Inferenz, Übersetzung und KI-Agentenfähigkeiten.

Minimale Bereitstellungskonfiguration: Eine NVIDIA B200 oder zwei H100. Lizenz: Apache 2.0.

https://cohere.com/blog/command-a-plus

Laut VentureBeat ist dies das erste wirklich kommerziell nutzbare, quelloffene Flaggschiff in der Geschichte von Cohere. Mitbegründer Nick Frosst bezeichnet es als „unser bestes bisheriges Modell“.

218 Milliarden Parameter, aber nur 25 Milliarden werden pro Vorgang aktiviert

218 Milliarden Parameter klingen wie ein riesiger Ressourcenfresser. Doch bei jeder Generierung von Command A+ werden nur 25 Milliarden Parameter aktiviert.

Das ist das Wesen des MoE-Architekturkonzepts.

Ein MoE-Modell leitet die eingehenden Fragen nur an diejenigen „Experten“-Neuralnetze weiter, die am besten in der Lage sind, sie zu bearbeiten. Der Rest des Modells bleibt inaktiv. Diese Architektur ermöglicht es dem Modell, ein riesiges Wissensreservoir und eine hohe Inferenzfähigkeit zu behalten, während der Rechenaufwand und der Energieverbrauch beim Betrieb eher denen eines viel kleineren Modells entsprechen.

Laut VentureBeat werden bei OpenAIs GPT-5.5 und Anthropics Claude Opus 4.7 Schätzungen zufolge Billionen von Parametern verwendet, während Command A+ pro Vorgang nur 25 Milliarden Parameter aktiviert.

Die Einsparung von Rechenressourcen durch MoE ist heute eine gängige Praxis bei den meisten Spitzenmodellen. Cohere hat jedoch noch einen zweiten Komprimierungsschritt hinzugefügt: die Quantisierung.

Command A+ gibt es in drei Versionen: BF16, FP8 und der stark komprimierten W4A4-Version, die der technische Kern dieser Veröffentlichung ist.

Üblicherweise verschlechtert sich die Leistung von Inferenzmodellen bei Komprimierung deutlich, was in der Branche als „Quantisierungssteuer“ bezeichnet wird.

Cohere hat eine Lösung gefunden, bei der nur die MoE-Experten auf 4 Bit komprimiert werden, während der wichtigste Attention-Pfad in voller Genauigkeit beibehalten wird. Darüber hinaus wird eine Technologie namens Quantization-Aware Distillation eingesetzt.

Cohere behauptet, dass seine W4A4-Quantisierungsstrategie nahezu verlustfrei ist. Laut den von Cohere veröffentlichten Leistungsdaten erreicht die W4A4-Version bei geringer Konkurrenz 375 Token pro Sekunde, mit einer Verzögerung des ersten Tokens von nur 113 Millisekunden.

Dank dieser Strategie kann ein Modell mit 218 Milliarden Parametern auf einer einzigen NVIDIA B200 oder zwei H100-GPUs ausgeführt werden.

Vergleich der Geschwindigkeit und Verzögerung von Command A+ und dem Vorgängermodell Command A Reasoning bei verschiedenen Konkurrenzniveaus und Quantisierungen. TOPS steht für die Anzahl der pro Sekunde generierten Token, TTFT für die Verzögerung des ersten Tokens. Die Daten wurden von Cohere veröffentlicht.

Hierbei bezieht sich die Rede von „Ein-Karte-Betrieb“ auf eine Datenzentrum-GPU vom Typ Blackwell B200, nicht auf eine Consumer-Grafikkarte.

Ehemals erforderte ein Modell mit Milliarden von Parametern einen ganzen GPU-Cluster, heute reicht ein einzelner Rechner.

Das ist die Botschaft von Cohere: Große Parameter bedeuten nicht mehr, viel Geld auszugeben.

Apache 2.0 – eine Lizenz für echte Open-Source

Betrachtet man nur die Parameter und die Geschwindigkeit, so ist Command A+ ein beeindruckender technologischer Fortschritt. Doch für Entwickler ist die Apache 2.0-Lizenz noch wichtiger.

In der heutigen KI-Branche ist das Wort „Open-Source“ schon längst missbraucht.

Viele führende KI-Unternehmen stellen zwar Modelle zur Verfügung, setzen aber restriktive Nutzungsbedingungen: Große Unternehmen dürfen die Modelle nicht kommerziell nutzen und auch nicht für die Entwicklung von Konkurrenzmodellen verwenden. Herunterladen und forschen ist erlaubt, aber für kommerzielle Zwecke muss man eine Lizenz erwerben.

Cohere hat sich lange Zeit in dieser Hinsicht gewogelt.

Laut VentureBeat verwendeten seine Vorgängermodelle Command R und Command R+ die CC-BY-NC 4.0-Lizenz, also eine „Nicht-kommerzielle“-Lizenz. Forscher und Entwickler konnten die Modelle herunterladen, testen und auswerten, aber kommerzielle Nutzung war verboten.

Mit Command A+ hat Cohere diese restriktiven Bedingungen aufgegeben.

Das Modell wird unter der Apache 2.0-Lizenz veröffentlicht, einer von der OSI anerkannten echten Open-Source-Lizenz. Von unabhängigen Entwicklern bis hin zu Fortune 500-Unternehmen können alle das Modell nutzen, modifizieren, verbreiten und kommerziell nutzen, ohne Lizenzgebühren zu zahlen oder an Wettbewerbsbeschränkungen gebunden zu sein.

Das ist das erste Mal, dass Cohere so handelt. Unter der Leitung eines Mitautors des Transformer-Papiers hat es sich entschieden, sich vollständig der echten Open-Source zu verschreiben.

Laut VentureBeat wurde diese Entscheidung von Mitbegründer Nick Frosst vorangetrieben.

Frosst ist einer der drei Mitbegründer von Cohere. Er war Forscher im Google Brain Toronto Lab und einer der ersten Mitarbeiter des KI-Gurus Geoffrey Hinton. Seine Forschungsgebiete sind Kapselnetzwerke und die Interpretierbarkeit von Modellen.

Die Umstellung des Flaggschiffmodells von CC-BY-NC 4.0 auf Apache 2.0 bedeutet, dass Unternehmen nicht mehr an die Infrastruktur, die Preise oder die API-Stabilität von Cohere gebunden sind.

Ein Unternehmen kann die Gewichte von Command A+ herunterladen, mit eigenen, streng geheimen internen Daten finetunen und das Modell auf privaten Servern oder in lückenlosen Netzwerken einsetzen, ohne von Cohere abhängig zu sein.

Command A+ – Nachvollziehbarkeit als native Eigenschaft des Modells

Dass ein Modell funktioniert, und dass man es tatsächlich einsetzen kann, sind zwei verschiedene Dinge.

Um in die Produktionsumgebungen von Finanz-, Gesundheits- und Rechtsbranchen einzudringen, muss ein Modell nicht nur leistungsfähig sein, sondern auch vertrauenswürdig.

Command A+ hat hierfür eine native Lösung entwickelt: die Generierung von nativen Zitaten.

Wenn Command A+ Informationen aus externen Quellen abruft, erzeugt es nicht nur die Antwort, sondern auch sogenannte „grounding spans“ (Quellenangaben).

Indem es spezielle Tags in die Ausgabe einfügt, verknüpft das Modell jede Tatsachenaussage direkt mit dem spezifischen Dokument oder der Datenbankzeile, aus der sie stammt.

Nehmen wir als Beispiel eine Tagesverkaufsrapport. Wenn Sie Command A+ bitten, einen solchen Rapport zu erstellen, wird es nicht nur den Gesamtumsatz angeben, sondern auch die Quelle der Zahlen direkt angeben. Dadurch wird das Risiko von Fehlinformationen minimiert.

Diese Nachvollziehbarkeit ist besonders wichtig für Branchen, die streng reguliert sind.

Die Fähigkeit, als KI-Agent zu fungieren, ist ebenfalls ein wichtiger Aspekt dieser Veröffentlichung.

Command A+ unterstützt die Dialoggesteuerte Tool-Integration im Standard-Chat-Template und kann nahtlos mit internen APIs, Suchmaschinen oder SQL-Datenbanken verbunden werden.

Es ist auch vollständig multimodal und kann Text und Bilder nativ in einem Eingabekontext von 128K verarbeiten. Dies eignet es sich ideal für die Analyse von gescannten Rechnungen, Diagrammen und technischen Handbüchern.

Vergleich der multimodalen Fähigkeiten von Command A+ und Command A Vision. Command A+ ist das erste multimodale Inferenzmodell von Cohere. Die Daten wurden von Cohere veröffentlicht.

Laut den von Cohere veröffentlichten Leistungsdaten hat Command A+ auf dem ²-Bench Telecom-Test, der komplexe Inferenzfähigkeiten misst, seine Leistung von 37 % auf 85 % verbessert; auf dem Terminal-Bench Hard-Test, der die Fähigkeiten bei der KI-Agentenprogrammierung misst, von 3 % auf 25 %; und auf dem AIME 25 Mathematik-Test von 57 % auf 90 %.

Vergleich der Leistung von Command A+ und dem Vorgängermodell Command A Reasoning auf fünf quelloffenen Benchmarks. Die Daten wurden von Cohere veröffentlicht.

Alle diese Daten stammen von Cohere und wurden von VentureBeat zitiert, es handelt sich nicht um unabhängige Dritttestungen.

VentureBeat ist der Meinung, dass Command A+ mit seinen 25 Milliarden aktiven Parametern in reiner Inferenz und Mathematik mit Modellen vergleichbar ist, die viel mehr Parameter haben. In Bezug auf die Tiefe der KI-Agentenprogrammierung und die Breite der komplexen KI-Fähigkeiten liegt es jedoch hinter chinesischen Spitzenmodellen wie DeepSeek zurück.

Wichtiger als die Benchmark-Ergebnisse ist, dass Command A+ die Nachvollziehbarkeit als native Eigenschaft des Modells implementiert hat.

Autor des Transformer-Papiers und Schüler von Hinton bringen Cohere zur echten Open-Source

Abschließend noch ein Wort über die beiden Personen hinter Command A+.

https://arxiv.org/pdf/1706.03762

Im Jahr 2017 wurde das Transformer-Papier „Attention Is All You Need“ bei Google veröffentlicht. Einer der acht Autoren war der damals 20-jährige Aidan Gomez, ein Praktikant im Google Brain und Student an der Universität Toronto, wo er Informatik und Mathematik studierte.

Aidan Gomez

 

Laut TIME schlief er zusammen mit seinen Kollegen im Büro, um das Abgabedatum für eine wichtige KI-Konferenz zu treffen. Später gestand er gegenüber TIME, dass niemand damals vorhersehen konnte, wie weit diese Studie die KI-Branche voranbringen würde.

Gomez ist gut darin, komplexe Architekturen in praktische Anwendungen umzusetzen. Im Jahr 2017 gründete er FOR.ai, ein kollaboratives Projekt, das es Forschern ermöglicht, Wissen über maschinelles Lernen auszutauschen. Später wurde daraus Cohere For AI.

Im Jahr 2019 verließ er Google Brain und gründete in Toronto zusammen mit Ivan Zhang und Nick Frosst Cohere. Anstatt Chatbots für die breite Öffentlichkeit zu entwickeln, entschieden sie sich dafür, Modelle speziell für Unternehmen zu erstellen.

Nick Frosst

 

Frosst, Mitbegründer von Cohere, war Forscher im Google Brain Toronto Lab, einem der ersten Mitarbeiter des KI-Gurus Geoffrey Hinton. In der Branche wird er oft als sein begnadeter Schüler angesehen. Seine Forschungsgebiete sind Kapselnetzwerke und die Interpretierbarkeit von Modellen.

Mit einem Autor des Transformer-Papiers und einem Schüler von Hinton an Bord hatte C