Claude: Durchfallquote unter 4% - SaaS-Bench zerreißt Illusion von Computer-Use "vollautomatischer Büroarbeit"

Für Menschen zugeschnittene SaaS-Anwendungen müssen möglicherweise alle für Agenten neu entwickelt werden.

Stellen Sie sich einen realen Arbeitstag vor: Ein Projektmanager muss den Projektstatus aktualisieren, ein Finanzexperte muss die Kundenrechnungen zusammenstellen, und ein medizinischer Administrator muss die Termine und die Versicherungsinformationen prüfen.

Dies sind keine Aufgaben für hochqualifizierte Experten. Oftmals kann ein engagierter Praktikant diese Aufgaben auch nach einem vorgegebenen Ablauf erledigen.

Aber für heutige KI - Agenten sind diese "Alltagsaufgaben" weitaus schwieriger, als es auf den ersten Blick scheint.

Der Agent muss die Geschäftsziele verstehen, Informationen über verschiedene Anwendungen hinweg suchen, den Zustand konsistent halten und nach Hunderten von Schritten alle Details korrekt in das System einfügen.

Dies ist auch die Realität, die SaaS - Bench aufdeckt: Ein Agent muss nicht nur in der Lage sein, Buttons zu drücken und Formulare auszufüllen, sondern auch in der Lage sein, langwierige Geschäftsprozesse im echten Büro zu bewältigen.

Wenn ein Agent nicht einmal die alltäglichen Aufgaben eines Praktikanten stabil erledigen kann, müssen wir uns erneut fragen: Wie weit sind wir noch von einem wirklich nutzbaren Agenten entfernt?

Blog - Link: https://unipat.ai/blog/SaaS - Bench

GitHub - Link: https://github.com/UniPat - AI/SaaS - Bench

Publikationslink: https://arxiv.org/abs/2605.15777

Der "Singularitätspunkt" für Computer - Use - Agenten ist noch nicht erreicht, stattdessen wurde uns die kalte Realität vor Augen geführt.

In den letzten 12 Monaten haben sich verschiedene GUI - Agenten beeilt, zu behaupten, dass sie die Arbeit der Menschen übernehmen können. Die Benchmark - Ergebnisse stiegen rasant, die Investoren waren begeistert, und die Medien feierten. "Vollautomatische Büroarbeit" schien in greifbarer Nähe.

Aber UniPat AI hat mit einer Reihe von Daten gerade bewiesen: All dies basiert auf Sand!

Leaderboard

23 reale Systeme, 106 Aufgaben, eine harte Praxisprüfung

Die bestehenden Agenten - Bewertungen beschränken sich im Wesentlichen auf: Simulierte Umgebungen, einfache Aufgaben und maximal einige Dutzend Schritte.

Das hat mit der realen Arbeit überhaupt nichts zu tun.

Wie sieht die reale Büroarbeit aus? Ein medizinischer Administrator schreibt eine SOAP - Anamnese, meldet den Fall und erstellt ein formelles Dokument. Ein Finanzmitarbeiter erhält einen Reimbursementantrag, genehmigt ihn, überweist das Geld und führt die Buchung durch. Dies erfordert mehrere Systeme und hunderte von Schritten.

Der Ansatz von SaaS - Bench ist sehr direkt: Bringt reale Systeme in Docker und lässt den Agenten in einer realen Frontend - und Backend - Logik, Datenbankzustand und Geschäftsregeln arbeiten.

SaaS - Bench - Aufgaben - Aufgaben aus realen Arbeitsumgebungen

SaaS - Bench hat sorgfältig 23 Open - Source - SaaS (Software - as - a - Service) - Systeme ausgewählt, die alle lokal über Docker bereitgestellt werden und die vollständige Frontend - und Backend - Logik, Datenbankzustand und Geschäftsregeln beibehalten. Sie decken sechs Fachbereiche ab:

Softwareentwicklung: OpenProject, Baserow, Code - Server, Metabase

Unternehmensfinanzen: Twenty CRM, BigCapital, HRMS, Pretix

Medizinische Verwaltung: OpenEMR, OpnForm, OnlyOffice

Teamarbeit: SiYuan, Roundcube, Mattermost, ownCloud

Agrarsupplychain: FarmOS, Grocy, Recipya, E - Label

Unabhängige Medien: PhotoPrism, MediaCMS, BookLore, Watcharr

Wichtig ist, dass diese Systeme keine "leeren Webseiten" sind: Jede Software enthält reale Geschäftsdaten, einschließlich Benutzer, Projekte, Bestellungen, Dateien und andere Entitäten. Der Agent tritt nicht in eine leere Testseite ein, sondern in eine reale Arbeitsumgebung mit historischen Daten, Störfaktoren und Quersystembeziehungen.

Aufgabenmodus, Bereich, App - dreistufige Verteilung

Von den 106 Aufgaben überschreiten 93,4 % mindestens zwei Anwendungen, und die Hälfte (53) der Aufgaben beinhaltet drei Anwendungen. Es gibt 74 reine Textaufgaben und 32 Aufgaben, die multimodale Verständnis erfordern. Schätzungsweise nach der Ausführungstrajektorie von Claude Opus 4.6 überschreiten 97,3 % der Textaufgaben 100 Schritte, und die längste Trajektorie umfasst über 300 Schritte.

Aufgabenkomplexitätsanalyse - Die meisten Aufgaben sind Cross - App + Long - Horizon

Woher kommen diese Aufgaben? Wie wird die Handlungsfähigkeit des Agenten bewertet?

SaaS - Bench verwendet die Methode "LLM - Generierung + Expertenüberprüfung", um die Aufgaben zu erstellen:

Zunächst generiert ein LLM Aufgaben rund um die sechs Fachbereiche und spezifischen Berufsrollen, definiert die Aufgabenziele, die Abhängigkeiten zwischen Anwendungen und die Überprüfungsanforderungen und reduziert durch mehrere Runden von Änderungen Mehrdeutigkeiten und Lücken.

Anschließend überprüfen Experten die Aufgaben manuell und führen eine reale Ausführungsprüfung durch. Der Schwerpunkt liegt darauf, zu beurteilen, ob die Aufgaben fachlich korrekt, natürlich, ausführbar und überprüfbar sind. Aufgaben, die Schritte zusammenwerfen, logisch unklar oder schlecht überprüfbar sind, werden geändert oder ausgeschlossen, um sicherzustellen, dass jede Aufgabe tatsächlich ausgeführt werden kann und von der Überprüfungssoftware korrekt bewertet werden kann.

Aufgabenaufbauflussdiagramm - Vier Phasen sichern die Aufgabenqualität

SaaS - Bench ermöglicht es dem Agenten, Browser - Use in der SaaS - Umgebung zu verwenden, um den Computer zu bedienen, und gibt zwei Kriterien an:

Resolved Score (Vollständiger Durchlaufscore, streng): Nur wenn alle Prüfpunkte bestanden werden, wird ein 1 vergeben, sonst 0

Checkpoint Score (Prüfpunktscore, tolerant): Die Fertigstellungsrate der Teilprüfpunkte wird nach Gewichtung berechnet

Agent → Browser - Use → Ausführung → Überprüfung → Bewertung - Übersichtsdarstellung

Die folgenden Ergebnisse werden zeigen - der große Unterschied zwischen diesen beiden Zahlen offenbart genau das Kernproblem des Agenten.

Die Rangliste ist da: Totalniederlage

Schauen wir uns diese Zahlen an -

Hauptresultate (DeepSeek V4, M2.7 und GLM5.1 sind einmodale Modelle und wurden nur im Text - Only - Bereich getestet)

Der stärkste Agent, Claude Opus 4.7, hat einen Checkpoint - Score von 43,9 % und einen End - zu - End - Vollzug - Score von nur 3,8 % - von 106 Aufgaben wurden nur 4 vollständig bestanden. Was ist mit Kimi K2.5 und Gemini 3.1 Pro? Der Vollzug - Score ist null. Keine einzige Aufgabe wurde vollständig bearbeitet.

Die Bedeutung dieser Zahlen ist äußerst hart: Der Agent kann Teile eines Arbeitsablaufs vorantreiben, aber hat fast keine Fähigkeit, einen kompletten, langwierigen Arbeitsablauf abzuschließen.

Kann es helfen, es mehrmals zu versuchen?

Pass@k - Ergebnisse von vier Modellen

Wenn jedes Modell eine Aufgabe dreimal unabhängig ausführt und es reicht, wenn es einmal erfolgreich ist, steigt der pass@3 - Score im Vergleich zum pass@1 - Score um etwa 8 Prozentpunkte.

Sonnet 4.6 steigt bei multimodalen Aufgaben von 33,9 % auf 52,1 % (+18,2pp) - es ist nicht völlig unfähig, sondern seine Ausführung ist äußerst instabil.

Dies ist keine Zufälligkeit der Umgebung. Der Anfangszustand ist bei jeder Ausführung identisch. Dies ist Pfadabhängigkeit - eine kleine Abweichung des Modells an einem Entscheidungspunkt führt zu einer vollkommen anderen Ausführungstrajektorie.

Mehrmals versuchen hilft, aber es ist keine Lösung.

Je komplexer, desto niedriger der Score

Alle drei strukturellen Dimensionen nehmen monoton ab:

Score vs. Anzahl der Anwendungen / Score vs. Schrittanzahl / Score vs. Anzahl der Prüfpunkte

Anzahl der Anwendungen 1 → 4: Der Durchschnittsscore sinkt von 53 % auf 20 %

Zunahme der Schrittanzahl: Je länger die Aufgabenlaufbahn, desto niedriger der Score

Anzahl der Prüfpunkte ≤ 6 vs. ≥ 18: Der Durchschnittsscore sinkt von 65 % auf 27 %

Aufgaben mit "Mehrere Anwendungen + Lange Laufbahn + Feingradige Überprüfung" haben den niedrigsten Score - dies ist genau die häufigste Form eines realen Arbeitsablaufs.

Vier strukturelle Fehler: Wo macht der Agent genau Fehler?

Der wahre Wert von SaaS - Bench liegt nicht in den Scores selbst, sondern darin, dass es vier fatale Mängel des Agenten in der realen Umgebung aufdeckt.

Fehler 1: Je länger die Aufgabe, desto häufiger Fehler

Selbst wenn die Durchlaufwahrscheinlichkeit jedes Prüfpunkts 95 % beträgt, beträgt die Wahrscheinlichkeit, alle 12 Prüfpunkte zu bestehen, nur 54 %. Die durchschnittliche Anzahl der Prüfpunkte in SaaS - Bench ist weit höher als 12.

Alle Modelle zeigen dasselbe Muster: Die Durchlaufwahrscheinlichkeit nimmt mit fortschreitender Aufgabe ab, und kein Modell kann seine Anfangsleistung in der zweiten Hälfte aufrechterhalten.