Marvis - Praxis-Test: Er Hat Mir Zeit Für Mich Selbst Gegeben

Eine 48-stündige intensive Erfahrung eines Social-Media-Bloggers

In den letzten beiden Tagen hat sich die WeChat-Freundesliste mit einem KI-Assistenten namens "Marvis" gefüllt.

Dies ist ein neues Produkt des Tencent App Bao-Teams. Die offizielle Positionierung ist sehr aggressiv: ein KI-Assistent auf "Betriebssystemebene". Was heißt das? Er ist nicht mehr wie ChatGPT oder Claude darauf beschränkt, nur im Browser mit Ihnen zu chatten, sondern wird direkt in Ihrem Windows-System integriert und hat die Berechtigung, lokale Dateien aufzurufen, Systemeinstellungen zu ändern, Anwendungen zu starten und sogar Mobil-Apps über den Bildschirm zu bedienen.

Der Titel der offiziellen Werbung ist sehr direkt: "Nach der Installation haben Sie sechs KI-Helfer, die für Sie arbeiten".

Als Medienmitarbeiter, der täglich von Themenfindung und Artikel schreiben umgeben ist, bin ich für diesen "allroundfähigen digitalen Assistenten" total angetan. Ich nutze die Gelegenheit, um meinen Arbeitsablauf zu optimieren. Also lade ich Marvis herunter und beginne mit dieser 48-stündigen echten Testphase, um herauszufinden, ob Marvis meine echte Produktivität steigern kann.

Alle folgenden Erfahrungen sind reine persönliche und echte Betriebsaufzeichnungen.

Wenn "klare Anforderungen" auf "Ausführungsabweichungen" treffen

Bei der Arbeit im Social-Media-Bereich ist die Themenfindung der Kern, und die Voraussetzung für die Themenfindung ist die Informationssammlung.

Deshalb lasse ich Marvis, wie ich es auch bei anderen KI-Modellen tue, eine "AIHOT"-Nachrichtenverfolgungsaufgabe erstellen, um Inspiration für meine Artikel aus den aktuellen Trends zu holen.

Die Aufgabe wird reibungslos erstellt, und Marvis teilt mir bald mit, dass die Datei erzeugt wurde. Aber als ich die Ausgabedatei voller Erwartung öffne, sehe ich nur unleserlichen Müll.

Ehrlich gesagt ist das das erste Mal, dass ich bei der Verwendung von so vielen großen Modellen und KI-Tools auf eine fehlerhafte Ausgabe stoße. Ich weise das Problem sofort im Dialogfenster darauf hin, und Marvis reagiert schnell - es "erkennt" sofort das Problem und erklärt mir: In der Aufgabenbeschreibung war die UTF-8-Kodierung bereits explizit gefordert. Der Müll entsteht normalerweise, wenn die Kodierung beim Schreiben der Datei nicht explizit angegeben wurde.

Hier gibt es ein interessantes Detail: Die Schreibanweisung forderte eindeutig die UTF-8-Kodierung, aber in der Ausführungsphase wurde dieser Schritt "vergessen".

Dies lässt mich auf ein tieferes Problem kommen: Wenn ein KI-Assistent die Berechtigung hat, direkt auf Betriebssystemdateien zuzugreifen, gibt es tatsächlich eine Lücke zwischen "Verständnis der Anweisung" und "strenge Ausführung der Anweisung". Marvis versteht, was Sie wollen, aber beim Aufruf der unterliegenden System-API zum Schreiben der Datei tritt eine Unterbrechung bei der Übertragung des "Kodierungsparameters" auf. Glücklicherweise korrigiert es das Problem schnell, und die Aufgabe läuft wieder normal.

Die erste Prüfung für einen systemebenen KI-Assistenten ist nicht, "ob er etwas kann", sondern "ob er es stabil und fehlerfrei tun kann".

Der erste Eindruck war nicht so gut, aber zumindest hat es eine gute Selbstkorrekturfähigkeit.

Scheitert die "Zeitwahrnehmung" eines KI-Assistenten?

Nachdem ich einen Artikel geschrieben habe, möchte ich, dass Marvis mir eine Weckerzeit setzt, um mich zu erinnern, mich ab und zu zu bewegen. Ich hätte nie gedacht, dass diese einfachste Anweisung ein "Vier-Akt-Stück" werden würde.

Akt 1: Zeitillusion (9:40 → Wecker auf 10:00 stellen)

Es war 9:40 Uhr, und ich bat Marvis, einen Wecker auf 10:00 Uhr zu stellen. Stattdessen erzählte es mir "logisch", dass 10:00 Uhr bereits vorbei sei, und stellte mir einen Wecker auf morgen 10:00 Uhr.

Ich war schockiert. Zwischen 9:40 und 10:00 Uhr gibt es noch 20 Minuten. Wie konnte Marvis urteilen, dass die Zeit bereits vorbei sei? Dieser Bug zeigt ein Problem auf: Die Wahrnehmung der "aktuellen Systemzeit" eines KI-Assistenten kann in bestimmten Szenarien logische Abweichungen aufweisen.

Denken wir uns die logische Abweichung einmal genauer an. Es ist möglich, dass der Agent ein falsches Tool aufgerufen hat und daher falsche Daten abgerufen hat, oder dass das Modell ein falsches Datum zurückgegeben hat. Kurzfristig ist das noch in Ordnung, aber bei längerer Nutzung ist die Stabilität ein entscheidender Faktor für die Produktivität. Die Beurteilung von Basisinformationen muss bei Marvis noch verbessert werden.

Akt 2: Normaler Betrieb (Wecker auf 10:30 Uhr stellen)

Nicht aufgeben wollend, teste ich es erneut und stellte einen Wecker auf 10:30 Uhr. Diesmal wurde die Aufgabe ohne Verzögerung erfolgreich erstellt.

Akt 3: Konservative Strategie (Wecker auf 8:00 Uhr stellen)

Ich wählte absichtlich eine Zeit, die bereits vorbei war (8:00 Uhr). Diesmal machte es nicht erneut den Fehler der "Zeitillusion", sondern wechselte in einen anderen Interaktionsmodus: Es öffnete ein manuelles Bestätigungsfenster und forderte mich auf, die Aktion auf Systemebene selbst zu bestätigen.

Diese Strategie, "wenn man sich nicht sicher ist, es dem Menschen zu überlassen", ist zwar langsamer, aber zumindest fehlerfrei. Das ist gut.

Akt 4: Selbstüberprüfung (Wecker auf 10:08 Uhr stellen)

Beim vierten Mal stellte ich einen Wecker auf 10:08 Uhr. Diesmal verhielt sich Marvis völlig anders - es begann mit der Selbstüberprüfung: Es überprüfte zuerst die aktuelle Zeit, bestätigte dann, ob die Zielzeit sinnvoll war, und führte erst dann die Erstellung aus.

Nachdem ich es noch ein paar Mal getestet habe, trat kein Problem mehr auf, und die Aufgabe wurde schnell und bequem erstellt.

Diese vier Weckertests repräsentieren fast den typischen Weg der Iteration eines KI-Produkts, von Fehlern aufgrund von Illusionen über konservative Sicherheitsnetze bis hin zu Selbstkorrekturen. Die Lern- und Fehlercorrekturgeschwindigkeit von Marvis ist schneller, als ich gedacht hatte.

Bildgenerierung und -erkennung sind immer noch Schwachstellen

Nachdem der Artikel fast fertig ist, brauche ich Bilder. Ich versuche, Marvis Bilder zu generieren zu lassen, aber die Qualität ist wirklich enttäuschend. Die Bilder sind unscharf und haben keinen einheitlichen Stil.

Dann teste ich seine "Bildsuche", insbesondere die Personenerkennung. Ich bat es, ein Foto eines öffentlichen Persönlichkeits zu finden. Dies ist eigentlich ein starkes Gebiet in seiner eigenen Ökosystem, und ich hatte Erwartungen. Aber die Ergebnisse stimmen kaum überein.

Was noch peinlicher ist, wenn ich es fragte, "Wer ist das?" anhand eines von ihm gefundenen Bildes, konnte es nur allgemeine Beschreibungen geben und konnte den Namen nicht genau nennen.

Später habe ich herausgefunden, dass Marvis derzeit keine Berechtigung und Fähigkeit zur biometrischen Gesichtserkennung hat. Dies ist nicht, weil die Technologie es nicht kann, sondern wegen der Grenzen der Datenschutz- und Compliance-Regeln - ein KI-Assistent, der freie Zugriff auf Ihren Computer hat, würde, wenn er auch noch präzise Gesichtserkennungsfähigkeiten hätte, die Sicherheitskontroversen exponentiell steigen lassen. Also ist es in Ordnung, dass es sich um ein branchenübliches Problem handelt.

Aber "Xiaoma" hat mir einen kleinen Überraschungseffekt gebracht, nämlich seine "lokale Wissensbasis". Beim Auswählen von Bildern habe ich festgestellt, dass es meine lokalen Bilder und Dokumente in eine globale Bibliothek integriert. Man muss bedenken, dass der Schreibtisch eines Medienmitarbeiters normalerweise so aussieht.

Das Bild ist nur zur Illustration. In Wirklichkeit ist es noch ungeordneter.

Bei Dokumenten ist es noch in Ordnung, aber Bilder, die man in den Computer speichert, sind fast nie wieder zu finden. Diese lokale Wissensbasis ermöglicht es mir, mit unpräzisen Suchbegriffen nach bestimmten Inhalten zu suchen, was meine Effizienz erheblich steigert.

Was die Bildgenerierung und Personenerkennung betrifft, kann Marvis derzeit keine professionellen Tools ersetzen. Sein Vorteil liegt nicht in der "Erstellung von visuellen Inhalten", sondern in der "Verwendung und Verwaltung von visuellen Inhalten".

Batch-Verarbeitung ist das eigentliche Domänen des "systemebenen KI-Assistenten"

Nachdem der Artikel geschrieben ist, kommt der am wenigsten interessanten Teil: die Synchronisierung auf mehreren Plattformen. Ich habe eine Excel-Tabelle, in der alle Veröffentlichungslinks für WeChat-Offizielle Accounts, Zhihu, Toutiao, Weibo und andere Plattformen gespeichert sind.

Früher sah der Prozess so aus: Tabelle finden → öffnen → Links einzeln kopieren → in den Browser einfügen → Anmelden → veröffentlichen. Der gesamte Prozess war manuell und dauerte mindestens zehn Minuten.

Diesmal lasse ich Marvis direkt die Tabellendatei auf dem Desktop lesen und alle darin enthaltenen URLs öffnen. Ich dachte, es würde hängen bleiben, und ich war sogar bereit, einige Minuten zu warten. Aber innerhalb von weniger als einer Minute sah ich, wie es nacheinander die folgenden Schritte absolvierte: Lesen der Desktop-Datei → Analysieren der Tabelle → Starten des Browsers → Öffnen aller Plattform-URLs. Die Tabellen im Browser waren sofort voll, und die Effizienzsteigerung war offensichtlich.

Danach ließ ich es auch die verstreuten alten Artikel auf meinem Computer organisieren und die Benennungskonventionen vereinheitlichen. Diese "Körperarbeit" hat es sauber und effizient erledigt.

Zwischen den Schreibphasen habe ich es einfach so aufgefordert, "NetEase Cloud Music zu öffnen und ein Lied abzuspielen", und es hat sofort reagiert. Am Ende ließ ich es auch alle deinstallierbaren Apps und alten Bilder auf meinem Computer scannen. Es hat nicht nur schnell analysiert, sondern auch gute Empfehlungen für die Deinstallation gegeben; auch die alten Fotos, die ich selbst vergessen hatte und die tief in der Festplatte versteckt waren, wurden von ihm ordentlich aufgeräumt.

Während ich die alten Fotos anschaute und "NetEase Cloud Music" hörte, war es Zeit für meine persönliche Stunde. Jedenfalls hat Marvis heute schon viel für mich getan, also lass es uns in die heutige "Emo"-Stunde eintauchen.

Der wahre Wert von Marvis liegt darin, "wiederholende, standardisierte und plattformübergreifende" lästige Aufgaben zu automatisieren. Er ersetzt nicht Ihren Verstand, sondern Ihre Finger.

Warum muss es immer "bestätigen"?

Während des gesamten Testprozesses habe ich bemerkt, dass Marvis ein sehr ausgeprägtes Interaktionsmerkmal hat: häufige Bestätigungen.

Es bestätigt vor dem Löschen von Dateien, vor dem Ändern von Einstellungen, vor dem Ausführen von Aktionen, die das

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Marvis - Praxis-Test: Er hat mir etwas Zeit für mich selbst gegeben.

Wenn "klare Anforderungen" auf "Ausführungsabweichungen" treffen

Scheitert die "Zeitwahrnehmung" eines KI-Assistenten?

Bildgenerierung und -erkennung sind immer noch Schwachstellen

Batch-Verarbeitung ist das eigentliche Domänen des "systemebenen KI-Assistenten"

Warum muss es immer "bestätigen"?