StartseiteArtikel

Gerade jetzt ist das "Traummaschinen" von Windows hier, das deinen PC in einen Agent-Arbeitsplatz verwandelt.

爱范儿2026-06-03 07:47
Die Build-Konferenz ohne die ChatGPT-Narration könnte tatsächlich das wahre Coming-of-Age für Microsoft sein.

Die Hochzeitsreise zwischen Microsoft und OpenAI war einst die wichtigste Allianz in der gesamten KI-Branche.

Eine Seite verfügt über Modelle, die andere Seite über Cloud-Services, Bürosoftware, Entwicklertools und Unternehmenskunden. Beide Seiten haben sich gegenseitig gefördert und fast dazu veranlasst, dass Microsoft im Zeitalter der KI bereits frühzeitig ein First-Class-Ticket bekommen hat. Aber selbst wenn die Allianz so eng ist, kann Microsoft die wichtigsten KI-Visionen nicht für immer in die Hände anderer legen.

Insbesondere nachdem die Beziehung zwischen den beiden Seiten begonnen hat, auseinander zu gehen.

Die kürzlich abgehaltene Build 2026 wurde daher zu einer besonderen Pressekonferenz. Microsoft braucht jetzt mehr denn je einen durchweg erfolgreichen KI-Sieg, um der Außenwelt zu beweisen, ob es im Zeitalter der KI der Hauptakteur ist oder ob es immer noch nur der Cloud-Dienstleister von OpenAI ist?

Von den MAI-Modellen, der Azure AI Foundry, über die Quantenrechnung und die Fähigkeiten lokaler Agenten bis hin zu den Erscheinungen von Jensen Huang und dem Vater der Hummer hat Microsoft ein ganzes Ökosystem gezeigt, das Entwicklung, Modelle, Daten, Rechenleistung und Governance umfasst. Sein Ziel ist klar: Die KI soll von den von OpenAI dominierten Modellgewinnen zu einem von Microsoft dominierten Plattformgeschäft werden.

Microsoft stellt eigene Modelle vor, und MAI schließt die entscheidende Lücke in der KI-Lieferkette

Im Vergleich zum vergangenen Jahr hat Microsoft diesmal die Modelle in den Vordergrund gestellt. Microsoft-CEO Nadella sagte, dass Microsoft Foundry derzeit über 11.000 Modelle verfügt, darunter Modelle von OpenAI, Anthropic und das eigenentwickelte MAI-Modell von Microsoft.

Microsoft geht davon aus, dass Unternehmen und Entwickler nicht nur auf ein einziges Modell setzen werden, um alle Aufgaben zu erledigen. Verschiedene Aufgaben erfordern unterschiedliche Modelle, und diese werden auch von Latenzzeiten, Kosten und Fähigkeitsgrenzen begrenzt. Daher werden das Modellverzeichnis, die Modellauswahl, die Laufzeitumgebung und die Unternehmensgovernance neue Wettbewerbsfaktoren für Plattformen bilden.

Heute hat Microsoft die eigene Modellfamilie mit sieben neuen Modellen erweitert, die auf Inferenz, Code, Bilder, Sprache und Transkription ausgerichtet sind.

MAI Thinking 1 ist das Inferenzmodell. Es verwendet eine sparse MoE-Architektur mit 35 Milliarden aktiven Parametern und einer Gesamtparameteranzahl von etwa 1 Billion. Es unterstützt einen Kontext von 256.000 Token, was ausreicht, um etwa 600 Seiten Dokumente aufzunehmen.

Mustafa Suleyman, der Leiter der KI bei Microsoft, betonte, dass dieses Modell keine Drittanbieter-Modelle zur Distillation verwendet hat. Die Trainingsdaten stammen aus sauberen und rechtmäßig lizenzierten Quellen, und künstlich generierte Inhalte wurden bei der Vorhersage ausgeschlossen. Das Modell ist derzeit in der privaten Vorschauphase bei Microsoft Foundry und wird später in der öffentlichen Beta-Phase im MAI Playground zur Verfügung stehen.

Das Code-Modell MAI Code 1 Flash ist für den täglichen Entwicklungsworkflow konzipiert. Es wurde von Microsoft end-to-end trainiert und verwendet saubere und rechtmäßig lizenzierte Daten. Es wird den persönlichen Benutzern von GitHub Copilot in Visual Studio Code zur Verfügung gestellt, und der Zugang erfolgt über den Modellauswahlassistenten und den Standardautomatischen Auswahler.

Microsoft sagt, dass dieses Modell für GitHub Copilot harness trainiert und angepasst wurde, Agentic Coding unterstützt und auch adaptive Denkfähigkeiten aufweist. Einfache Anfragen bleiben kompakt, bei komplexen Aufgaben wird ein höherer Inferenzbudget eingesetzt.

Microsoft vergleicht MAI Code 1 Flash direkt mit Claude Haiku 4.5.

MAI Code 1 Flash erreicht auf der SWE Bench Pro 51,2 %, was höher ist als die 35,2 % von Claude Haiku 4.5. Es führt auch bei der genauen Befolgung von Anweisungen auf der IF Bench und hat auf der Advanced IF 14,5 Punkte Vorsprung. Es wird die gängigen Codierungsszenarien von Microsoft GitHub Copilot unterstützen, insbesondere die Codeänderung, mehrstufige Anweisungen und Agent-Aufgaben in der realen Entwicklungsumgebung.

Bilder- und Sprachmodelle sind ebenfalls in das MAI-System integriert.

MAI Image 2.5 und die Flash-Version unterstützen die Text-basierte Bildgenerierung und die Bildbearbeitung. Sie sind bereits in PowerPoint integriert und werden auf OneDrive und Foundry erweitert.

MAI Transcribe 1.5 unterstützt 43 Sprachen. Microsoft sagt, dass es fünfmal schneller ist als die Konkurrenz und wird derzeit in GitHub, Teams, Copilot und Dynamics 365 Contact Center integriert.

MAI Voice 2 unterstützt 15 Sprachen, kann die Stimme über kurze Beispiele anpassen und verfügt über einen integrierten Schutz gegen Missbrauch. Eine kostengünstigere Version, MAI Voice 2 Flash, ist ebenfalls in Planung.

Microsoft hat auch die MAI-Modelle mit seinen eigenen Chips verknüpft. MAI Thinking 1 wurde für den Maia 200 optimiert, und beim end-to-end-Betrieb der MAI-Modelle kann eine 1,4-fache Leistungssteigerung pro Watt erzielt werden.

Die Unternehmensanpassung ist auch ein wichtiger Aspekt der MAI-Modelle. In Zukunft werden alle Unternehmen nicht nur Modelle aufrufen, sondern auch ihre eigenen Prozesse in die Modelle trainieren.

Zu diesem Zweck hat Microsoft auch Microsoft Frontier Tuning vorgestellt, dessen Kernstück die reinforcement learning environments sind. Unternehmen können ihre realen Arbeitsabläufe, Aufgabenabläufe, Entscheidungen, Tool-Aufrufe und Bewertungskriterien in Trainingsumgebungen umwandeln, damit die Modelle die interne Arbeitsweise der Organisation lernen können.

Der PC wird zur Agent-Arbeitsstation, und dein Desktop wird zum Rechenzentrum

Abgesehen von den Modellen hat Microsoft auch den Schwerpunkt auf die lokale Rechenleistung gelegt.

Surface RTX Spark Dev Box ist das bemerkenswerteste Produkt in diesem Bereich. Nadella bezeichnet es als das „Traummaschine“ für Entwickler. Dieses Gerät bietet eine KI-Rechenleistung von 1 Petaflop, 20 CPU-Kerne und 128 GB vereinigten Arbeitsspeicher und soll im Herbst dieses Jahres auf den Markt kommen.

Surface RTX Spark Dev Box basiert auf der Nvidia RTX Spark-Plattform. Wie APPSO vor einigen Tagen berichtet hat, ist RTX Spark ein nächster Schritt in der Entwicklung von SoCs für PCs. Es integriert CPU, GPU und KI-Fähigkeiten auf einem Chip und unterstützt eine vereinigte Speicherarchitektur und die integrierte DRTM.

Nvidia-CEO Jensen Huang sagte in einer Videokonferenz, dass der PC sich von einem persönlichen Computer zu einem persönlichen KI-Gerät entwickelt. Er gab als Beispiel an: Wenn ein Benutzer unterwegs ist, kann er seiner PC-Nachricht senden, damit der lokale Agent Tools aufruft, Code ändert, Designvorschläge vorbringt und dann mit dem Benutzer weiterarbeitet.

Der PC ist nicht mehr nur ein Werkzeug, das von Menschen bedient wird, sondern beginnt auch, ein KI-Assistent zu werden, der Aufgaben kontinuierlich ausführen kann.

Darüber hinaus hat Microsoft für Surface RTX Spark Dev Box Windows 11 Pro mit Optimierungen für die Entwicklung vorinstalliert und Tools wie VS Code, WSL, PowerShell 7, GitHub Copilot und Coreutils for Windows integriert.

Bei der Live-Demo hatte das Gerät standardmäßig keinen News-Feed, keine Komponenten-Popups und keine Benachrichtigungen und arbeitete im dunklen Modus. Die Windows Insider-Version hat auch eine vertikale Taskleiste hinzugefügt. Nicht nur die Entwicklungstools sind noch besser organisiert, sondern auch die Befehlszeile und die Container-Umgebung sind dem Linux näher.

Technisch gesehen hat es ein einteiliges Gehäuse aus anodisiertem Aluminium, das mit 3D-Druck hergestellt wurde. Es hat 1.000 Lüftungslöcher, eine thermische Entwurfsleistung von 100 W und Schnittstellen wie USB-C, USB-A, HDMI, Ethernet und Kopfhöreranschluss.

Windows wird im Zeitalter der KI eine große Rolle spielen. Die lokale KI soll den PC zu einem Teil des Agent-Workflows machen: Entwickler können Modelle lokal debuggen, ausführen, Tools aufrufen, Logs anzeigen, Container starten und Sub-Agenten ausführen, bevor sie größere Aufgaben an die Cloud übergeben.

Agenten brauchen neue Zugänge, und Microsoft erkundet die nächste Generation von KI-Endgeräten

Während Surface RTX Spark Dev Box an Entwickler gerichtet ist, ist Project Solara eher eine Vorstudie von Microsoft für die Form von Agent-Geräten. Der nächste Computer wird nicht nur ein Gerät sein, sondern eine Gruppe von Geräten, die zusammenarbeiten.

Microsoft hat zwei Arten von Referenzgeräten gezeigt.

Die erste Art ist ein stationärer Arbeitsterminal, das auf einem