Der vernachlässigte riesige Markt: Warum ist es für Großunternehmen so schwierig, Local Agent zu meistern?
Seit der zweiten Jahreshälfte dieses Jahres kursiert in der KI-Szene ein halbwegs lustiger Spruch: „Warum wird DeepSeek R2 noch nicht veröffentlicht? Weil das Scaling Law nicht mehr funktioniert.“
Hinter den Lachen verbirgt sich die harte Realität, der die gesamte Branche gegenübersteht: Die Grenznutzen von Large Language Models nehmen ab, und die Regeln der ersten Runde des KI-Wettbewerbs verlieren ihre Gültigkeit.
Zunächst erfordert das Training von Modellen enorme Kosten: Die Kosten für das Training eines Modells auf GPT-4-Niveau haben bereits die Marke von 100 Millionen US-Dollar überschritten. Das neueste „AI Industry Trend Research Report“, das die bekannte Technologie-Investitionsfirma BOND Ende Mai 2025 veröffentlichte, zeigt, dass die Kosten für das Training der fortschrittlichsten KI-Modelle derzeit nahezu 1 Milliarde US-Dollar betragen. Dieser Kostenbetrag übersteigt bei weitem den von jedem anderen technologischen Entwicklungsprojekt in der Geschichte und markiert den Beginn einer Ära, in der nur Großkonzerne mit starkem Kapitalvorhalt die Modellierung von KI-Modellen dominieren können.
Zweitens stoßen die Modelle an ihre Wachstumsgrenzen: Vom GPT-3.5 über das GPT-4 bis zum GPT-5 war der Sprung in der Intelligenz der Large Language Models erstaunlich. Aber vom GPT-4 über das GPT-4.5 bis zum GPT-5 wird die Leistungssteigerung immer weniger deutlich, auch wenn die Anzahl der Parameter verdoppelt wird. Das Scaling Law stößt an die Wand – das einfache Anhäufen von Parametern ist kein direkter Weg zur Künstlichen Allgemeinintelligenz (AGI) mehr.
Während die Großkonzerne in Schwierigkeiten geraten, spielt sich jedoch eine Geschichte des Aufstiegs kleiner Modelle ab:
Im Mai dieses Jahres hat DeepSeek R1-0528 das ursprüngliche Large Language Model mit 671 Milliarden Parametern auf nur 8 Milliarden Parameter distilliert. Dabei hat es nicht nur seine ursprüngliche Leistung beibehalten, sondern hat im AIME 2024-Test sogar um 10 % besser abgeschnitten als das ursprüngliche Modell.
DeepSeek ist kein Einzelfall. Das neueste Qwen3-VL 4B/8B (Instruct / Thinking)-Modell von Qwen kann bei Beibehaltung eines 256K-1M langen Kontexts und vollständiger multimodaler Fähigkeiten stabil auf Geräten mit geringem Grafikspeicher laufen und bietet FP8-quantifizierte Gewichte. Dadurch wird multimodale KI tatsächlich „umsetzbar“.
Eine Studie von NVIDIA, die im Juni 2025 veröffentlicht wurde, zeigt auch, dass „Small Language Models“ (SLM) mit weniger als 10 Milliarden Parametern in den meisten Agent-Aufgaben nicht nur mit großen Large Language Models (LLM) mithalten können, sondern diese sogar übertreffen können, und dass die Betriebskosten nur ein Zehntel bis ein Dreissigstel derjenigen von LLM betragen.
Quelle: „Small Language Models are the Future of Agentic AI“ (Kleine Sprachmodelle sind die Zukunft der Agent-KI).
Diese Beispiele haben die gesamte KI-Branche geschockt – kleine Modelle, die auf den Schultern von Riesen stehen, können die Riesen selbst übertreffen.
Während OpenAI, Anthropic und andere noch darüber streiten, wie viele Billionen Parameter das nächste Modell haben soll, hat die Branche bereits still und leise von einem „Parameter-Wettlauf“ zu einer „Effizienzrevolution“ übergegangen, und KI beginnt, aus der Wolke herunterzukommen und in die Endgeräte und Gegenstände des täglichen Lebens zu gelangen.
Von Cloud First zu Local First: KI tritt in die zweite Runde ein
1965 stellte Gordon Moore seine berühmte Vorhersage auf: Die Anzahl der Transistoren auf einem integrierten Schaltkreis verdoppelt sich alle 18 bis 24 Monate. Diese Vorhersage wurde in den folgenden fünfzig Jahren zur „Goldenen Regel“ der Halbleiterindustrie, treibte das exponentielle Wachstum der Rechenleistung an und trug zur Entstehung der Mobile-Internet- und Cloud-Computing-Revolution bei.
Ab 2015 begann jedoch diese Goldene Regel zu versagen. Die Transistoren sind inzwischen so klein geworden, dass sie fast auf Atomgröße reduziert sind. Wenn man sie weiter verkleinert, stößt man auf physikalische Grenzen wie Quanteneffekte, Stromleckage und Wärmeableitung. Die Herstellungskosten steigen auch sprunghaft an, und die Errichtung einer neuen Waferfabrik kann leicht zwei oder drei Milliarden US-Dollar kosten. Mit anderen Worten, das „kostenlose Mittagessen der Rechenleistung“ ist vorbei.
Nach der Verlangsamung des Moore-Gesetzes mussten die Technologie-Riesen nach neuen Wegen suchen.
Apples Ansatz ist die „vertikale Integration“: Anstatt auf Intel zu setzen, entwickelt Apple seine eigenen Chips und schreibt von Grund auf neu, wie Hardware und Software zusammenarbeiten. Der 2020 veröffentlichte M1 war der erste für Mac maßgeschneiderte SoC (System-on-a-Chip) – CPU, GPU und KI-Neurales-Engine teilen sich einen gemeinsamen Speicherpool, was die Datenübertragung reduziert und den Energieverbrauch um das Dreifache senkt. In der Zeit von M4 und M5 hat Apple die Verkapselungstechnologie aufs Äußerste getrieben: Mit Chiplet (Kleinstchips) + 3D-Stacking werden verschiedene Funktionsmodule wie Bausteine zusammengefügt. Dadurch wird ein neues Gleichgewicht zwischen Leistung, Kosten und Stromverbrauch hergestellt. Wie in dem Artikel „A19 und M4: Zwei-Strategie“ geschrieben steht, verfolgt Apple auf der einen Seite weiterhin die Spitzenfertigungstechnologie (N3P, N2) für das iPhone, und auf der anderen Seite gräbt es sich auf dem Mac in die Verkapselungsinnovation (CoWoS, 3DIC) ein. Beide Richtungen bilden zusammen die Zwei-Motoren-Strategie für die „Post-Moore-Ära“.
NVIDIA hat einen anderen Weg eingeschlagen. Huang Renxun hat schnell erkannt, dass die Ein-Kern-Leistung nicht mehr wichtig ist und dass die Zukunft eine Zeit des „Millionen-Kern-Parallelismus“ ist. Ab 2006 hat er daher die Generalisierung der GPU-Rechenleistung vorangetrieben und die Tausende von Entwicklern mit der CUDA-Software-Ökosystem in sein Lager gezogen. 2017 tauchte erstmals der Tensor Core in der Volta-Architektur auf, der die für KI-Training üblichen Matrixmultiplikationen um das Hundertfache beschleunigt. Seitdem wurden die Ampere-, Hopper- und Blackwell-Architekturen immer ausgeklügelter, und heute sind die H100 und B200 Standard für das Training von KI-Large Language Modellen. Huang Renxun hat sogar gesagt: „Das Moore-Gesetz ist tot, und das Huang-Gesetz tritt an seine Stelle“ – Die Leistung der GPU verdoppelt sich jedes Jahr, nicht durch kleinere Transistoren, sondern durch einen klügeren Parallel-Architektur, Sparse-Computing und Hyper-Node-Verbindungen.
Genau wie die Chip-Industrie in der Vergangenheit wird auch die KI-Industrie von einem „Fertigungs-Wettlauf“ zu einer „Architektur-Innovation“ übergehen – Apples M-Serie-Chips und NVIDIAs Tensor Core sind Produkte, die neue Wege in den physikalischen Grenzen suchen.
Und die KI-Industrie durchläuft genau die gleiche Paradigmenwechsel wie die Chip-Industrie.
In den letzten drei Jahren hat die generative KI ein explosionsartiges Wachstum erlebt. Von ChatGPT bis Claude, von GPT-4 bis DeepSeek haben die Cloud-Large Language Models die Grenzen der Mensch-Maschine-Interaktion neu definiert. Doch hinter dem Wohlstand treten drei Probleme immer deutlicher zutage:
Zunächst ist die Produktivitätserfahrung unvollständig. Mit Ausnahme einiger Szenarien wie Coding IDE, in denen KI-Modelle direkt produktive Token generieren, verbleiben die KI-Modelle in den meisten Büro- und traditionellen Forschungsszenarien noch in der Phase der punktuellen Effizienzsteigerung durch Dialog und Beratung. Aufgrund von Datenschutzbedenken können die Kern-Daten und Workflows in produktiven Szenarien nicht einfach in die Cloud hochgeladen werden. Eine BBC-Bericht im August dieses Jahres zeigte, dass Hunderttausende von Benutzerdialogen mit Elon Musks Grok in Suchergebnissen öffentlich zugänglich waren, ohne dass die Benutzer davon wussten. Darüber hinaus bedeutet das Hochladen von Daten in die Cloud in Szenarien wie der Bearbeitung sensibler Akten durch Anwälte, der Analyse von Insiderinformationen durch Investmentmanager und der Verwaltung von Geschäftsgeheimnissen durch Unternehmen, dass man die Kontrolle über die Daten verliert und es unmöglich ist, sowohl Effizienz als auch Sicherheit zu gewährleisten.
Zweitens werden die Token-Kosten zu einem Hindernis für die Anwendung. Laut den Daten von Anthropic verbraucht ein Multi-Agent-System 15-mal mehr Token als ein normaler Chat. Laut einem ausländischen Bericht kann die Token-Verwendung bei der Verwendung von Agent-Produkten wie Manus und Devin bei einem einzelnen Task bis zu einer Million Token betragen, und die Kosten beginnen bei 2 US-Dollar und können bei komplexen Aufgaben sogar bis zu 50 US-Dollar erreichen. Diese Kostenstruktur macht es schwierig, hochfrequente und tiefe KI-Anwendungen zu skalieren.
Drittens beschränkt die Abhängigkeit von einem Netzwerk die Anwendungsfälle. An Bord von Flugzeugen, in der U-Bahn oder in Räumen mit eingeschränktem Netzwerkzugang versagen die Cloud-KI-Systeme. Wenn KI als das „Wasser, Strom und Gas der neuen Ära“ angepriesen wird, aber nicht so einfach wie eine lokale App auf dem Smartphone verfügbar ist, wird dieser Widerspruch immer unerträglicher.
Aber neben diesen drei Problemen bilden sich auch drei neue Kräfte:
Die Fähigkeiten kleiner Modelle ändern sich grundlegend: Das Inferenzmodell von DeepSeek R1-0528 hat die Denkstruktur eines 671-Milliarden-Parameter-Modells auf das 8B-Qwen3-Modell distilliert und hat im AIME 2024-Test um 10 % besser abgeschnitten als das ursprüngliche Modell. Seine Leistung entspricht der eines Qwen3-235B-thinking-Modells mit 30-mal so vielen Parametern. Das bedeutet, dass das Niveau der Intelligenz nicht mehr einfach proportional zur Größe des Modells ist. Technologien wie Wissensdistillation und Inferenzverbesserung ermöglichen es kleinen Modellen, „auf den Schultern von Riesen zu stehen“.
Endgeräte-Chips eröffnen neue Märkte: NVIDIA hat den DGX Spark entwickelt, der die KI-Training- und Inferenzfähigkeiten, die ursprünglich nur in Rechenzentren verfügbar waren, auf die Größe eines Desktop-Geräts reduziert. Das bedeutet, dass Hochleistungs-Inferenz und das Training kleiner Modelle nun auch auf Endgeräten möglich sind. Der Apple M5-Chip hat eine um ein Vielfaches höhere KI-Rechenleistung pro Energieverbrauch als der M4, was es möglich macht, dass Notebooks und Tablets auch offline komplexe Generierungsaufgaben ausführen können. Dies zeigt, dass die Intelligenzgrenze von Verbrauchergeräten erheblich erhöht wurde, während die Kostenkurve rapide sinkt. Auch Huawei setzt in seiner Harmony-Ökosystem auf Endgeräte-Large Language Models. Die gemeinsamen Bemühungen der Hardwarehersteller legen die Grundlagen für lokale KI.
Die Nachfrage der Benutzer wacht auf: Effizienzsteigerung durch KI, Datenhoheit und Modelläutonomie sind nicht mehr nur die Besonderheiten von Technik-Enthusiasten, sondern die dringenden Bedürfnisse von Fachanwendern. Genau wie die Umstellung von zentraler Stromversorgung auf dezentrale Photovoltaikanlagen geht auch die KI in Richtung dezentraler Bereitstellung.
Angesichts dieser Probleme und Trends bildet sich ein klarer Konsens: Die Zukunft der KI liegt nicht darin, dass die Cloud die lokale KI ersetzt, sondern darin, dass Cloud und lokale KI tief ineinander verzahnt sind, und dass die lokale Intelligenz 50 bis 80 % der alltäglichen Aufgaben übernehmen wird.
Von „Small Model“ zu „Local Agent“: Warum ist die lokale Erfahrung von KI-Produkten immer noch enttäuschend?
Die Realität ist jedoch weniger rosig als die Vision. Im Zeitalter des KI-Agenten ist die lokale Erfahrung der meisten bestehenden Produkte immer noch „enttäuschend“.
Nehmen wir als Beispiel lokale KI-Produkte wie Ollama und LM Studio. Das Kernproblem liegt nicht in der mangelnden Leistung der Modelle, sondern in der grundlegenden Diskrepanz zwischen dem Entwicklungsmuster und den Bedürfnissen der Benutzer.
Zunächst ist die Positionierung fehlerhaft. Diese Produkte sind im Wesentlichen „lokale Versionen von ChatGPT“ für Entwickler, die dazu dienen, Open-Source-Modelle auf Hugging Face schnell zu testen. Dies führt für normale Benutzer zu drei Problemen:
Entfernt von Nicht-Technik-Benutzern: Normale Benutzer wie Anwälte und Investmentmanager kennen weder Hugging Face noch das GGUF-Modellformat und haben Schwierigkeiten, diese Produkte direkt zu nutzen.
Mangelnde vertikale Integration: Die Produkte bieten nur grundlegende Chat-Funktionen oder API-Schnittstellen und können nicht den komplexen produktiven Szenarien wie der tiefen Recherche in Dokumenten gerecht werden.
Vergrößerung der Modellfehler: Die breite Positionierung als „alles-führender Chat“ führt dazu, dass Benutzer diese Produkte unbewusst mit Top-Modellen wie GPT-4 vergleichen. Benutzer brauchen kein offline Chatbot.
Zweitens gibt es Probleme mit dem Technologie-Stack. Die meisten lokalen Produkte optimieren sich auf dem falschen Technologieweg. Obwohl Ollama und LM Studio versuchen, CLI und andere Werkzeuge für Entwickler zu entwickeln, wird die Plattform für die Verwaltung von Containern um das GGUF-Open-Source-Modell zu einer historischen Last. Das Fundament des gesamten lokalen Infrastruktur ist nicht stabil:
Schranken der Inferenztechnologie: Die Produkt-Ökosystem hängt stark von Quantifizierungsmethoden nach dem Training (PTQ) wie GGUF ab. Das Problem dabei ist, dass die Quantifizierung mit niedrigen Bits (z. B. 3 Bit oder weniger) zu einem erheblichen Verlust der Modellgenauigkeit führt. Die „Intelligenzdichte“ hat eine Obergrenze, und es entsteht ein Ausgleich zwischen der Modellleistung und den Hardware-Ressourcen der Benutzer. Dies macht es schwierig, komplexe Aufgaben wie Agent-Inferenz zu bewältigen.
Mangelnde Integration der Lösungen: Die scheinbar reichhaltige Auswahl an Open-Source-GGUF-Modellen ist eher wie vorgekochte Gerichte. Sie bieten nur die „Gewürze“ (lokales Modell + API), anstatt eine integrierte Lösung von „lokales Modell + Agent-Infrastruktur + Produkt-Interaktion“ zu bieten. Normale Benutzer brauchen ein „Fertigauto“, nicht eine Menge an „Autoteilen“, die sie selbst zusammenbauen müssen.
Beschränkung der Anwendungs-Ökosystem: Entwickler können um die Drittanbieter-UGC-Quantifizierungs-Ökos