Microsoft hat stillschweigend Claude Code eingestellt und so die wahren Kosten von KI auf Unternehmensebene aufgezeigt

Innerhalb dieses weltweit größten Softwareunternehmens könnte ein KI-Programmierexperiment bald zu Ende gehen. Der Grund hat nichts mit Strategie zu tun, sondern liegt ausschließlich in den Kosten.

Das Divine Translation Bureau ist ein Übersetzungsteam unter 36 Krypton, das sich auf Technologie, Geschäft, Arbeitsplatz und Lebensbereiche konzentriert und vor allem neue Technologien, neue Ansichten und neue Trends aus dem Ausland vorstellt.

Im Dezember des vergangenen Jahres informierte Microsoft Tausende seiner Ingenieure, Produktmanager und Designer darüber, dass sie den von Anthropic entwickelten Befehlszeilen-Programmierintelligenzagenten Claude Code nutzen können, wobei die Firma die Kosten trägt.

Im Frühjahr hatte sich der Einfluss dieses Tools weit über die Ingenieurabteilung hinaus ausgeweitet und sich in alle Arten von nicht-technischen Positionen eingeschlichen. In den früheren Wellen von Unternehmenssoftware hätten diese Positionen möglicherweise Jahre warten müssen, um Zugang zu erhalten. Innerhalb von Microsoft wurde diese Promotion als ein Lernpraktikum definiert; von außen betrachtet war das Signal jedoch deutlicher.

Das weltweit größte Softwareunternehmen – ein Gigant mit eigenem Basismodell und Programmierassistent – kauft tatsächlich aus eigener Tasche Produkte eines Wettbewerbers, um sie seinen Mitarbeitern zur Verfügung zu stellen.

Sechs Monate später wird dieses Experiment jedoch schrittweise eingestellt. Nach einer exklusiven Meldung von The Verge berichten Windows Central und andere Medien, dass Microsoft die meisten direkten Claude Code-Lizenzen innerhalb seiner Abteilung „Erlebnis und Geräte“ (die Abteilung, die sich um die Entwicklung von Windows, Microsoft 365, Outlook, Teams und Surface kümmert) aufhebt.

Die betroffenen Ingenieure wurden gebeten, bis zum 30. Juni (dem letzten Tag des Microsoft-Geschäftsjahrs) auf GitHub Copilot CLI umzusteigen. Der von der Firma angegebene Grund ist die Vereinheitlichung der Toolchain, der wirkliche, stillschweigende Grund steht jedoch im Finanzkalender.

Die weitreichende Einstellung von Claude gibt bisher das klarste Signal: Mit den derzeitigen Token-Preisen (Worteinheiten/Zeichen) funktioniert das einzelne Wirtschaftsmodel für Unternehmens-AI-Programmierung überhaupt nicht. Dies liegt nicht daran, dass die Tools nicht gut funktionieren, sondern genau umgekehrt: Sie funktionieren so gut, dass die Ingenieure sie häufig nutzen, und diese häufige Nutzung hat schließlich die Finanzrechnung sprengen lassen.

Der offensichtlichste Beweis dafür ist Uber. Im Gegensatz zu Microsoft hat es keinen so starken finanziellen Puffer. Praveen Neppalli Naga, der Chief Technology Officer von Uber, gab im April an der Zeitschrift The Information bekannt, dass das Unternehmen in nur vier Monaten sein ursprünglich geplanten AI-Programmierbudget für das Jahr 2026 aufgebraucht hatte.

Nach Nagas Daten stieg die Nutzung von Claude Code unter den rund 5.000 Ingenieuren des Unternehmens bis März von 32 % auf 84 %. Einige Ingenieure verbrachten pro Monat zwischen 500 und 2.000 US-Dollar an Tokens. Derzeit stammt etwa 70 % des von Uber eingereichten Codes aus der KI, und bei den Backend-Updates in der Produktionsumgebung wird etwa ein Zehntel direkt von KI-Agenten veröffentlicht, ohne jegliche menschliche Intervention.

„Ich muss alles von vorne beginnen,“ sagte Naga. „Denn ich dachte, dass das Budget ausreichen würde, aber es war in einem Nu aufgebraucht.“

Dieser Satz ist ein Spiegelbild der gegenwärtigen Situation in der gesamten Branche. Die Prognosen haben fehlgeschlagen, weil die „Token-Konsummenge“, die als Prognosevariable verwendet wird, sich völlig von den von den Finanzteams bekannten Modellen wie „Softwarelizenz“ oder „Benutzerplatz“ unterscheidet. Traditionelle Unternehmenssoftwaretransaktionen werden anhand der Anzahl der Benutzer berechnet.

Transaktionen, die auf Token-Preisen basieren, werden dagegen anhand der Menge an Inhalt berechnet, den das Modell „denken“ muss. Die Agentenbasierte Programmierung lässt das Modell viel nachdenken. Eine Sitzung dauert oft mehrere Stunden, erzeugt mehrere parallele Threads und erzeugt eine riesige Menge an Kontext. Dies hat mit der ursprünglich zugrunde liegenden „Codeautovervollständigung“-Interaktion nichts mehr zu tun.

Wir haben in den letzten Monaten genau beobachtet, wie dieses Modell zusammenbricht. Im November des vergangenen Jahres hat GitHub die Registrierung neuer Benutzer für Copilot Pro und Pro+ eingestellt, weil die Kosten, die durch die Agentenbasierte Arbeitslast der bezahlenden Benutzer verursacht wurden, die monatlichen festen Paketpreise überschritten hatten.

Das Unternehmen musste zugeben, dass die bisherige Koststruktur, die für leichte Hilfestellung entwickelt wurde, nun nicht mehr aufrechterhalten werden kann.

Dies ist nicht nur ein Problem für Uber oder Microsoft, sondern die gegenwärtige Situation in der gesamten Branche. Bryan Catanzaro, der Vizepräsident für Angewandte Deep Learning bei Nvidia, sagte im April gegenüber Axios, dass für sein Team die derzeitigen Rechenleistungskosten weit höher seien als die Personalkosten für die Beschäftigung dieser Mitarbeiter.

Selbst der Chipgigant hat es so gesagt. Im Mai berichtete dann auch das Magazin Fortune, dass bei intensiver Nutzung die Kosten, die von Token-basierten KI-Tools für eine einzelne Aufgabe verursacht werden, sogar höher sein können als die Kosten des menschlichen Ingenieurs, den sie unterstützen sollen.

Danach wies ein im Finanzkreis weit verbreitetes Analysebericht von MIT aus dem Jahr 2024 darauf hin, dass bei den derzeitigen Preisen nur etwa ein Viertel aller Arbeitsplätze, von denen man annimmt, dass sie von KI ersetzt werden, tatsächlich kostengünstiger sind, wenn sie durch KI-Automatisierung ersetzt werden.

Setzt man diese Realität mit den Ausgabenprognosen in Bezug: Gartner schätzt, dass die globalen KI-Ausgaben in diesem Jahr 2,5 Billionen US-Dollar erreichen werden, was einen Anstieg von 69 % gegenüber 2025 bedeutet.

Zugleich hat diese Beratungsfirma die generative KI in die sogenannte „Talfase des Blasenbruchs“ eingeordnet. In einer Pressemitteilung im Mai prognostizierte sie, dass aufgrund zahlreicher Scheitern von Proof-of-Concept (PoC)-Projekten im Beschaffungsprozess 25 % des geplanten KI-Budgets für 2026 auf 2027 verschoben werden würden.

Eine weitere Umfrage von Gartner im April ergab auch, dass nur 28 % der KI-Infrastrukturprojekte die in ihren Geschäftskonzepten festgelegten Erwartungen vollständig erfüllen können. Dies ist nicht mehr die Schmerzkurve einer Technologie in ihrer schwierigen „Pubertät“, sondern die Kurve einer marktwidrigen Neuorientierung.

Microsofts Rückzug befindet sich in dieser Welle der Neuorientierung und ist keinesfalls zufällig. Es gibt zwei Möglichkeiten, diese Maßnahme zu interpretieren. Die erste ist die von Microsoft offiziell kommunizierte Version: Copilot CLI ist das Ziel der Unternehmensstrategie. Ingenieure können in Zukunft weiterhin das Claude-Modell innerhalb von Copilot aufrufen. Das Unternehmen möchte einfach ein Produkt haben, das es direkt über GitHub kontrollieren und gestalten kann. Dies stimmt.

Aber diesen Grund hätte Microsoft in den letzten sechs Monaten jederzeit nennen können, hat es aber bisher nicht getan. Was sich geändert hat, ist nicht die strategische Logik, sondern die Rechnung.

Die zweite Interpretation ist überzeugender und nicht zu ignorieren. Microsoft hat eine einzigartige Perspektive und weiß besser als alle anderen, wie hoch die Kosten für die Unternehmensnutzung von Claude sind, denn außer der Kundenbasis von Anthropic selbst sind die Microsoft-Ingenieure die am stärksten betroffenen Benutzer. Laut mehreren Quellen ist Claude Code innerhalb der Abteilung „Erlebnis und Geräte“ zum beliebtesten Tool geworden.

Wenn die Kosten mit zunehmender Skalierung reduziert werden könnten und damit die Bilanz positiv aussehen würde, wäre jetzt der perfekte Zeitpunkt für Microsoft, einen mehrjährigen Vertrag unter günstigen Bedingungen zu vereinbaren. Stattdessen hat es jedoch beschlossen, dieses Experiment in diesem Zeitfenster abzubrechen, um die Rechnungen am Ende des Geschäftsjahrs zu begleichen.

Wenn der mächtigste Spieler am Verhandlungstisch beschließt, einen Lieferanten aufzugeben, den sogar seine eigenen Mitarbeiter lieber haben, ist das Signal nicht mehr von „Präferenz“ abhängig.

Ob dies bedeutet, dass es eine Blase gibt, hängt davon ab, wie man sie definiert. Der Token-Preis wird tatsächlich sinken. In den letzten drei Jahren ist er etwa alle 18 Monate auf ein Zehntel seines ursprünglichen Werts gesunken. Die interessantere Frage ist jedoch: Kann die Verringerung der Token-Konsummenge pro Aufgabe die Abnahme der Kosten pro Token einholen?

Die gegenwärtigen Beweise deuten in die entgegengesetzte Richtung. Aus designtechnischer Sicht verbraucht das neue Generation von Agentensystemen bei der Bearbeitung einer Einheitsarbeit mehr Tokens, weil es länger zur Inferenz braucht, detaillierter plant und ständig die Ergebnisse mit der Außenwelt vergleichen muss.

Das eigene Infrastrukturteam von Anthropic hat öffentlich angegeben, dass die Rechenleistungskosten, die von der Inferenzarbeitslast bei einer einzelnen Abfrage verursacht werden, um mehrere Größenordnungen höher sind als bei traditionellen Chatgesprächen. Dies ist auch der Wurf, den die neuen Modelle, die in den nächsten 12 Monaten erscheinen werden, machen. Dieser Wurf hat jedoch dazu geführt, dass der CTO von Uber alles von vorne beginnen muss.

In unseren früheren Berichten gibt es ein lebendiges Beispiel. Im April hat Anthropic die Ausführung eines beliebten Open-Source-Agentenframeworks namens OpenClaw auf Verbrauchersubskriptionskonten von Claude verboten. Sie stellten fest, dass dieses Framework in einem Tag bei eigenständiger Ausführung API-Kosten von 1.000 bis 5.000 US-Dollar verursachen konnte. Damals lief das Framework auf einem Max-Paket, das nur 200 US-Dollar pro Monat kostete.

Dieser Art von Kosteneinsparung war so offensichtlich, dass Anthropic in seinen Nutzungsbedingungen eine zusätzliche Einschränkung einfügen musste. Wenn man dieses Verbrauchsmuster auf das gesamte Ingenieurteam eines Fortune 500-Unternehmens ausweitet, wird es zur überzogenen Budgetnotiz von Uber.

Die entgegengesetzte Ansicht ist ebenfalls realistisch und erwähnenswert. Wenn man die Kosten eines guten AI-Programmieragenten mit den Kosten für die Einstellung eines weiteren Senior-Ingenieurs vergleicht, ist es auch bei den heutigen Preisen in der Regel kostengünstig, wenn man nach Funktionsentwicklung berechnet. Die Produktivitätssteigerung ist nachweisbar, und die Substitution findet bereits statt. Das Problem liegt nicht in der „Wertschöpfung“ des Produkts selbst.

Das Problem liegt im „Beschaffungsmodell“. Unternehmen, die dachten, sie hätten ein Produktivitätstool gekauft, stellen plötzlich fest, dass sie tatsächlich eine Nutzwasserrechnung abgeschlossen haben, und solange niemand darauf achtet, läuft der Zähler wild. Die Lösung könnte einfach sein: Setzen Sie für jeden Ingenieur ein Budgetlimit, öffnen Sie die Zugangsberechtigungen für hochwirksame Kernpositionen oder beschränken Sie das Laufzeitkontingent der Agenten.

Viele große Käufer haben bereits damit begonnen. Dies bedeutet jedoch: Die Zeit, in der „jeder Mitarbeiter ein Claude Code-Konto bekommt“, neigt sich dem Ende zu. Die zukünftige Alternative wird eher wie die Cloud-Computing-Berechnung nach Verbrauch von AWS sein als wie die feste Softwarelizenz von Office.

Dies ist der eigentliche Gehalt der diskreten E-Mail, die Microsoft an sein Windows- und Surface-Team gesendet hat. Es bedeutet nicht das Ende der AI-Programmierung, und es bedeutet nicht einmal das Ende der Zusammenarbeit zwischen Anthropic und Microsoft – schließlich kann man das Claude-Modell weiterhin über Copilot CLI aufrufen.

Es markiert das Ende der Erkundungsphase. In dieser Phase waren die weltweit größten Softwaregiganten bereit, die Token-Kosten unbedingt zu tragen, um Erfahrung zu sammeln. Jetzt ist dieser Kurs beendet.

Jetzt beginnt der harte Teil. Unternehmen werden weiterhin AI-Programmiertools kaufen, weil die Produktivitätssteigerung real ist und der starke Wettbewerbsdruck sie nicht zurückhalten kann. Aber in Zukunft werden sie AI wie Strom kaufen: Es wird ein Verbrauchsmaximum geben, es wird ein heimlicher Zähler geben, und bei Entscheidungen muss das Finanzteam anwesend sein.

Irgendwann im Frühjahr dieses Jahres hat jemand in einem Microsoft-Sitzungszimmer die Rechnung für Claude Code angesehen, die Produktroadmap von Copilot CLI in Betracht gezogen und dann eine Entscheidung getroffen.

Das gleiche Kalkulationsverfahren spielt sich jetzt in jedem Büro eines Unternehmens-CFO ab, der an der Promotion im Dezember 2025 beteiligt war. Dieser Rückzug wird nicht auffällig sein, sondern nur in Form von E-Mails, die kurz vor Ende des Geschäftsjahrs verschickt werden. Bevor dieser Fristablauf erreicht wird, bemerkt niemand, dass das Budget bereits leer ist.

Übersetzer: boxi.

本文来自翻译, 如若转载请注明出处。

Microsoft hat Claude Code stillschweigend eingestellt und damit die wahren Kosten von KI auf Unternehmensebene offengelegt