StartseiteArtikel

Der geistige Kostenfaktor fällt im Laufe eines Jahres um das 128-fache. Im Jahr 2026 kann alles ein Agent sein. Was können dann die Menschen noch tun?

新智元2026-03-13 19:37
Wenn die Intelligenzkosten von KI um das 128-fache in einem Jahr plummen und Code beginnt, "selbstständig zu arbeiten" ... Bist du 2026 bereit, dich und dein Unternehmen an Agenten zu übergeben?

Vor einigen Monaten warnte Artificial Analysis noch davor, dass die Gerüchte über ein Verlangsamen des Fortschritts in der KI stark übertrieben seien!

Allerdings glaubte Anfang 2026 wohl kaum noch jemand an die These von einem "Verlangsamen des KI - Fortschritts", denn die KI hat stetig an Tempo gewonnen.

Anfang 2025 gab es in der Welt noch keine echten "Code - Agenten".

Allerdings hatte sich bis Ende des Jahres der alte Beruf der Softwareentwicklung durch "Vibe Coding" für immer verändert.

Programmierer kopieren und fügen nicht mehr mechanisch Code in ChatGPT oder CursorChat ein, sondern geben nun mit Geschick Befehle an Agenten und beobachten, wie diese mehrere Minuten oder sogar länger ununterbrochen an der Arbeit sind.

Dies ist ein Aspekt der verrückten Realität, die uns der kürzlich veröffentlichte "Jahresbericht zur globalen KI 2025" von Artificial Analysis aufzeigt.

Im vergangenen Jahr hat der globale Wettlauf um KI - Technologie nicht nur nicht nachgelassen, sondern sich sogar intensiviert.

Natürlich bringt dieser harte Wettbewerb für die KI - Nutzer auch eine äußerst ermutigende Nachricht:

Die Kosten für die Nutzung von KI auf allen Intelligenzniveaus fallen in unglaublichem Tempo.

KI - Labore setzen stark auf Reinforcement Learning und treiben sich in der Architektur von Massiv - Sparse - Mixture - of - Experts (MoE) in die enge. Zusammen mit der Ankunft der NVIDIA - Blackwell - Hardware hat dies die Welle dieser Technologierevolution noch höher getrieben.

Der Bericht von Artificial Analysis kommt zu dem Schluss, dass fünf zentrale Trends im Jahr 2025 das gesamte KI - Ökosystem neu formten:

Extrem hoher Wettbewerbsdruck: Der Wettlauf ist nie zuvor so hart umkämpft gewesen, und neue Spieler kämpfen Hand in Hand mit internationalen Giganten.

Schlussfolgerungsfähigkeit wird zur absoluten Standardausstattung: Denkfähige Modelle dominieren den Markt.

Agenten erleben einen Durchbruch: Von Einzellbefehlen zu langfristigen, eigenständigen Aufgaben.

Multimodale Technologien überschreiten die Singularität: Videoerzeugung und Bildbearbeitung werden zum Mainstream.

Die Entstehung von nativen Sprachmodellen: End - to - End - Sprachmodelle verleihen Sprachagenten eine echte Seele.

„Denken“ wird zur absoluten Standardausstattung, die Kosten für Schlussfolgerungen auf gleicher Ebene fallen um das 128 - fache!

Anfang 2025 war OpenAIs o1 noch der einzige Anbieter von Schlussfolgerungsmodellen auf dem Markt.

Allerdings hatte sich bis Ende des Jahres die Situation komplett gewandelt, und fast alle Spitzen - KI - Labore hatten ihre eigenen "denkfähigen" Schlussfolgerungsmodelle entwickelt.

Dieser Paradigmenwechsel hat die Rangliste der intelligentesten Modelle dominiert.

OpenAI hat mit GPT - 5.2 (xhigh) Anfang und Ende des Jahres den Titel des "klügsten Gehirns" behalten.

Allerdings wird der Vorsprung dieses einstigen Marktführers rapide eingeengt.

Anthropic folgt mit Claude4.5Opus (Reasoning) dicht auf den Fersen, Google hat Gemini3Pro vorgestellt, und xAI gibt nicht nach.

Der Wettlauf um KI - Technologie bringt für normale Nutzer die gute Nachricht, dass klug nicht mehr gleich teuer ist.

Aufgrund der ständigen Verkleinerung der Modelle und der verbesserten Effizienz von Hardware und Software hat sich der Verbrauchskosten pro Token für die o1 - Klasse - Intelligenz, die wir Anfang 2025 noch verehrten, in nur einem Jahr um das 128 - fache verringert!

Jetzt können wir mit dem gleichen Budget weitaus intelligentere Modelle nutzen oder die bisherigen Spitzenintelligenzen kostengünstig verbreiten.

Von "Kopieren und Einfügen" zu "Eigenständiger Arbeit", 2025: Die Agenten kommen endlich in die Praxis

Im Jahr 2025 haben Agenten den Sprung von einfachen Testspielzeugen zu Kernproduktivitätsfaktoren in Unternehmen geschafft.

Auch in diesem Jahr haben sich unsere Erwartungen an KI von "Du gibst mir die Antwort, ich mache die Arbeit" zu "Du machst die Arbeit selber" gewandelt.

Der Auslöser für all dies war der Erfolg der Code - Agenten, und langfristige Programmieraufgaben waren die größten Gewinner dieser Produktivitätsrevolution.

Große Unternehmen und Start - Ups veröffentlichen wild Code - Agenten. Die heutigen Modelle haben nicht nur eine hervorragende Fähigkeit, Tools zu nutzen, sondern sind auch durch Reinforcement Learning mit der Instinkt zur eigenständigen Ausführung langfristiger Aufgaben versehen.

Artificial Analysis erwähnt in seinem Bericht eine Veränderung:

In der langen Arbeitsabfolge von Agenten ist nicht die Anzahl der generierten Tokens ein Maß für die Intelligenz.

Die echten Spitzenkünstler gewinnen durch die geschickte und effiziente Nutzung externer Tools.

Bei dieser harten Pareto - Front - Analyse sind die Flaggschiffmodelle von Google und Anthropic die absoluten Gewinner in Bezug auf Effizienz und Intelligenz.

Da 2025 das Jahr des Sieges der Code - Agenten war, prophezeit Artificial Analysis: 2026 wird das Jahr werden, in dem "Alles kann ein Agent sein (Agents for everything)".

Der Durchbruch der nativen Multimodalen Technologien, Video - Modelle treten in die "Zeit mit Sound"

Im Jahr 2025 hat es einen großen Durchbruch bei den nativen Multimodalen Modellen gegeben.

Video - Modelle haben in diesem Jahr endgültig das Label "Experimentierobjekt" abgeworfen und sind in den Mainstream gelangt.

Das zu Jahresbeginn noch verehrte Sora wurde bis Jahresende von RunwayGen - 4.5 um fast 200 ELO - Punkte übertroffen.

Eine noch wichtigere Veränderung ist, dass Video - Modelle nicht mehr "stumm" sind.

Veo3, das im Mai 2025 veröffentlicht wurde, war das erste Video - Modell, das in höchster Bildqualität die native Erzeugung von Audio unterstützt.

Anschließend kam es zu einem Boom in der Branche. Sora2 von OpenAI, LTX - 2 von Lightricks und andere haben "Videoerzeugung mit Hintergrundmusik und Umgebungsgeräuschen" zum Standard gemacht.

Der Bericht kommt zu dem sensationellen Schluss, dass China und die USA in der Bild - und Videoerzeugung auf dem gleichen Niveau stehen!

Der Durchbruch der End - to - End - S2S - Schlussfolgerung, die umfassende Evolution von Sprach - und Musik - KI

Im vierten Quartal 2025 hat es in der Welt der Sprach - und Musik - KI eine echte Revolution auf unterster Ebene gegeben.

Warum wirkten frühere Sprachassistenten immer etwas träge und mechanisch? Weil sie einen äußerst komplizierten "Übersetzungs"-Prozess durchlaufen mussten:

Zuerst wurde die gehörte Sprache in Text umgewandelt (STT), dann wurde der Text an ein Sprachmodell zur Verarbeitung weitergeleitet (LLM), und schließlich wurde der verarbeitete Text wieder in Sprache umgewandelt (TTS) und vorgelesen.

Dieser Kaskadenansatz hatte nicht nur eine hohe Latenz, sondern filterte auch Emotionen, Seufzer und Betonungen aus der menschlichen Stimme heraus.

Im Jahr 2025 hat die Technologie der nativen Audio - Schlussfolgerung (Native Audio Reasoning) die Modelle darin geschult, direkt anhand der Form von Schallwellen zu denken. Sie haben den "Zwischenhändler" Text verworfen und beginnen, Audio end - to - end zu verarbeiten.

Diese Technologierevolution hat die Ranglisten komplett umgeworfen.

Im vierten Quartal hat xAI mit seiner extrem schnellen Reaktionszeit und seiner beeindruckenden nativen Hörverstandsfähigkeit den bisherigen Marktführer Google Gemini2.5NativeAudioThinking geschlagen und die Spitze der BigBenchAudio - Bewertungen erreicht. Amazon Nova2.0Sonic hat dagegen die Marktbedürfnisse perfekt getroffen und sich den Titel des Kostengünstigsten erobert.

Im Bereich der Spracherkennung (STT) werden Spezialisten von Allrundlern überholt.

Multimodale Modelle wie AWS Nova2Omni können Spracherkennung so einfach wie ein "Nebenjob" erledigen.

Sie müssen nicht einmal speziell Übungen in der Stenographie machen, um eine Genauigkeit zu erreichen, die mit der von professioneller Software mithalten kann.

Um das Problem der langsamen Reaktionszeit von Sprachassistenten zu lösen, sind Modelle wie ElevenLabsScribev2Realtime und NVIDIA ParakeetRealtime auf den Markt gekommen, die sich auf minimale Latenzzeiten spezialisiert haben.

Mit diesen Modellen sind die Hindernisse für die Umsetzung von Sprachagenten in der Realität beseitigt.

Heutige Spitzenmodelle haben nicht nur eine schöne Stimme, sondern können auch Emotionen, Tempo und Betonungen perfekt steuern und natürlicherweise Lachen, Seufzer und Atemgeräusche einfügen.

Der früher so unangenehme "KI - Geschmack" ist nun fast verschwunden.

Mit der Verbreitung von Tools wie SunoV4.5 und ElevenLabsMusic können nun mit minimalen Kosten realistische Stimmen oder Musikstücke synthetisiert werden.

Natürlich hat diese Fähigkeit zur Fälschung auch große Angst ausgelöst. Die Überflutung der Markt mit geklonten Stimmen hat die Branche gezwungen, Audio - Wasserzeichen und Ursprungsüberprüfungssysteme als höchste Sicherheitsmaßnahme zu behandeln.

Der Bericht weist auch sehr vorsichtig auf die gegenwärtigen Grenzen hin:

Obwohl Sprachagenten in strukturierten Interaktionen wie Kundenservice und Reservierungen wie echte Menschen wirken, zeigen sie immer noch ihre maschinellen Unzulänglichkeiten, wenn es um unklare Kontexte, mehrstufige Dialoge mit langfristiger logischer Ableitung oder rauschechte Aufnahmeumgebungen geht.

Das Machtspiel um Rechenleistung, die Massenlieferung von NVIDIA und die "Endspiel - Wette" von 20 Milliarden US - Dollar

Im Jahr 2025 hat die unterste Hardware - Infrastruktur eine reife Evolution erfahren.

NVIDIAs Blackwell - Chips, die B200 und die GB200NVL72 - Rack - Systeme wurden 2025 in die reale Produktionsumgebung integriert.

Modelle wie IBMs Granite4 - Serie und OpenAIs GPT - 5.3Codex waren die ersten, die öffentlich ankündigten, GB200 - Cluster zu nutzen.

Im dritten Quartal veröffentlichte NVIDIA dann auch die B300 und die GB300.

Dieser Hardware - Upgrade war sehr direkt: Auf der Basis der B200 wurde nicht nur der HBM3e - Arbeitsspeicher um 50 % erhöht (auf 288 GB), sondern auch die Rechenleistung bei FP4 - Genauigkeit auf 14 PFLOPs gesteigert.

Allerdings reicht NVIDIAs Ambition weit über den Verkauf von Chips hinaus.

Im Dezember 2025 hat die gesamte Tech - Szene einen Schock erlebt: NVIDIA hat Groq für rund 20 Milliarden US - Dollar gekauft.