Neuste Forschung von NVIDIA: Kleine Modelle sind die Zukunft der Agenten.
Forscher von NVIDIA Research und der Georgia Institute of Technology haben kürzlich eine Studie veröffentlicht und dabei eine kontroverse These aufgestellt:
Kleine Sprachmodelle (SLM) sind die Zukunft von KI-Agenten, nicht die riesigen großen Sprachmodelle.
https://arxiv.org/abs/2506.02153v1
Die Autoren führen hauptsächlich drei Gründe an:
Erstens sind SLMs bereits stark genug, um die meisten wiederholten und spezifischen Aufgaben von KI-Agenten zu bewältigen. Zweitens eignen sie sich von Natur aus besser für die Architektur von Agentensystemen, da sie flexibel und einfach zu integrieren sind. Drittens sind SLMs aus wirtschaftlicher Perspektive kostengünstiger und effizienter und können die Betriebskosten der KI erheblich senken.
Stellen Sie sich vor, ein KI-Agentensystem sei wie ein virtuelles Team, das Aufgaben automatisch aufteilen, Tools (z. B. Browser oder Code-Editoren) aufrufen und schließlich Probleme lösen kann. Derzeit verlassen sich die meisten KI-Agenten auf große Sprachmodelle (LLM) als „Gehirn“, da LLM gute Chat-Fähigkeiten haben, umfangreiches Wissen besitzen und verschiedene komplexe Probleme lösen können.
Die Studie zeigt, dass der Markt für KI-Agenten 2024 auf 5,2 Milliarden US-Dollar angewachsen ist und bis 2034 auf 200 Milliarden US-Dollar geschätzt wird. Mehr als die Hälfte der Unternehmen setzt bereits KI-Agenten ein. Aber es gibt ein Problem: Die Aufgaben von KI-Agenten sind oft wiederholend und einfach, wie z. B. „E-Mails prüfen“ oder „Berichte erstellen“. Die Verwendung von LLM, die als „Alleskönner“ gelten, für diese Aufgaben ist wie das Spielen von Minesweeper auf einem Supercomputer oder das Zustellen von Pizza mit einem Lamborghini – ein übermäßiger Ressourcenverbrauch.
Es ist nicht nur ein Ressourcenverschwendung, sondern auch die Eigenschaften der Agentensystemaufgaben ermöglichen es kleinen Modellen, sich besser an die Agentenökosystem anzupassen und somit wahrscheinlicher Ergebnisse zu liefern, die den Anforderungen entsprechen.
Im Wesentlichen ist ein KI-Agent kein Chatbot, sondern ein System aus „Werkzeugkasten + Gehirn“. SLMs sind kompakt, haben niedrige Trainings-/Feinabstimmungskosten (einige Stunden auf einer GPU reichen aus) und können sich leicht an neue Anforderungen (z. B. neue Vorschriften) anpassen. Dies bringt eine „Demokratisierung“ mit sich, sodass mehr Menschen Agenten entwickeln können, Vorurteile verringern und Innovation fördern.
Die Autoren weisen darauf hin, dass Agentenaufgaben nur einen kleinen Teil der Fähigkeiten von LLM nutzen, wie z. B. die streng formatierte Tool-Aufrufe. KI-Agentensysteme sind von Natur aus heterogen, was die Mischung von Modellen begünstigt. Der Hauptagent kann ein LLM verwenden, während Unteraufgaben von SLM bewältigt werden können.
Wenn SLMs in großem Maßstab eingesetzt werden, kann auch der Vorteil der Datensammlung genutzt werden: Während des Betriebs von Agenten entstehen naturgemäß spezialisierte Daten, die zur Feinabstimmung von SLM verwendet werden können, um einen positiven Kreislauf zu bilden und die Ergebnisse stetig zu verbessern.
01
Was sind SLMs?
Die Studie gibt eine praktische Definition von SLMs:
SLMs: Sie passen in normale Konsumelektronikgeräte (z. B. Mobiltelefone oder Notebooks), haben eine schnelle Inferenzgeschwindigkeit und können die Anfragen eines Benutzers an einen Agenten in Echtzeit bedienen. Derzeit können Modelle mit weniger als einer Milliarde Parametern als SLMs gelten. Andere größere Modelle benötigen normalerweise die Unterstützung von Cloud-Servern.
Warum diese Definition? SLMs sind wie ein „tragbares Gehirn“ und eignen sich für die Endgerätebereitstellung. LLM hingegen sind wie ein „universaler Supercomputer“, haben aber eine hohe Latenz und hohe Kosten.
Die Autoren geben ein extremes, aber interessantes Beispiel: Wenn eine KI unendlich groß wäre, würde sie aufgrund der Lichtgeschwindigkeit keine Echtzeitinteraktion ermöglichen; wenn sie unendlich klein wäre, wäre sie zu schwach, um Aufgaben zu erledigen. Das menschliche Gehirn ist der optimale Kompromiss, und SLMs sind wie das menschliche Gehirn in diesem Sinne – effizient und einfach zu verbessern.
Die Autoren vergleichen zwei Arten von Agentenarchitekturen:
Links: Ein Sprachmodell chatet mit dem Benutzer und löst direkt jedes Tool aus, sodass der gesamte Prozess in diesem einzelnen Modell abläuft.
Rechts: Ein kleiner Controllerprogramm behandelt die Tool-Aufrufe, sodass das Modell sich auf das Gespräch oder die spezifische Inferenz konzentrieren kann.
Diese Aufteilung erleichtert es, für die meisten Aufrufe kleine Sprachmodelle einzusetzen, spart Kosten und behält das große Modell nur für weniger häufige offene Fragen oder Inferenzschritte vor.
Die Studie zeigt, dass die neuesten kleinen Modelle wie Phi-3 und Hymba in Bezug auf die Tool-Nutzung, das gemeinsame Wissensschlussfolgern und die Befolgung von Anweisungen eine Leistung aufweisen, die mit der von großen Modellen zwischen 30 Milliarden und 70 Milliarden Parametern vergleichbar ist, aber die Rechenleistung in der praktischen Arbeitsflos um das 10- bis 30-fache reduziert.
NVIDIA hat auch drei reale KI-Agenten getestet und festgestellt:
MetaGPT: 60 % der Aufgaben können durch SLMs ersetzt werden
Open Operator: 40 % der Aufgaben können durch SLMs ersetzt werden
Cradle (Grafische Benutzeroberflächenautomatisierung): 70 % der Aufgaben können durch SLMs ersetzt werden
02
Wenn SLMs so gut sind, warum werden dann weiterhin LLM eingesetzt?
Die Studie geht davon aus, dass der Hauptgrund dafür, dass KI-Agenten SLMs nicht in großem Maßstab nutzen, die Pfadabhängigkeit ist.
Große Summen (bis zu 57 Milliarden US-Dollar) wurden in die zentralisierten Infrastrukturen für große Modelle investiert. Teams neigen dazu, die bezahlten Einstellungen wiederzuverwenden, anstatt sich für leichtere lokale Optionen zu entscheiden, was sich kurzfristig schwer ändern lässt.
Der Vorurteil, dass „größer besser“ sei, ist in der Branche immer noch stark. Die Forschung an kleinen Modellen verfolgt weiterhin die gleichen breiten Benchmarks wie für große Modelle, und diese Tests zeigen nicht die hervorragende Leistung von kleinen Modellen bei Agentenaufgaben.
SLMs haben fast keine Popularität wie GPT-4, und kleine Modelle haben nicht die gleichen Marketing-Hypes wie große Modelle erlebt. Daher haben viele Entwickler nie versucht, den kostengünstigeren und sinnvolleren Weg zu gehen.
Die Studie geht davon aus, dass Forscher und Agentenentwickler das Potenzial von SLMs bei Agenten besser nutzen können, wenn sie die folgenden Schritte unternehmen:
- Datensammlung und -aufbereitung
- Feinabstimmung von SLMs für bestimmte Aufgaben
- Clusterung von Aufgaben und Aufbau von „Fähigkeiten“ von SLMs
03
Einführung der chinesischen Autoren
SHIZHE DIAO
Laut seinen öffentlichen LinkedIn-Daten hat er an der Beijing Normal University und der Hong Kong University of Science and Technology studiert und war als Gastwissenschaftler an der UIUC.
Er hat bei ByteDance AI LAB ein Praktikum absolviert und ist seit 2024 als Forschungsingenieur bei NVIDIA angestellt.
Xin Dong
Laut seinem persönlichen Blog hat er seinen Doktor an der Harvard University gemacht. Er hat zuvor bei Unternehmen wie Tencent und Meta gearbeitet und Praktika absolviert.
Yonggan Fu
Laut seinen öffentlichen LinkedIn-Daten hat er seinen Bachelor an der University of Science and Technology of China abgeschlossen und seinen Doktor an der Rice University und der Georgia Institute of Technology gemacht.
Er hat bei Meta und NVIDIA Praktika absolviert und ist derzeit als Forschungsingenieur bei NVIDIA angestellt.
Dieser Artikel stammt aus dem WeChat-Account „Konfrontiere die KI“. Autor: Hu Run, Redakteur: Wang Jing. Veröffentlicht von 36Kr mit Genehmigung.