Entwickelte verbesserte "Hummer"-Version in Handgröße und absolvierte zwei aufeinanderfolgende Millionen-Finanziierungen

OpenClaw ist das Linux der KI-Zeit, und Violoop will der Mac werden.

Wenn Sie an der derzeit heiß diskutierten "Lobster" (OpenClaw) interessiert sind, wissen Sie vielleicht, dass es immer noch Probleme mit hoher Installationsschwelle, Schwierigkeit in der Bedienung und großen Sicherheitsrisiken gibt.

Violoop hingegen ist eine in jeder Hinsicht verbesserte Version.

Einfach ausgedrückt, ist Violoop eine handliche Hardware mit einem Touchscreen, der die aktuell bearbeiteten Aufgaben anzeigt.

Es ist ein Plug-and-Play-Produkt, das keine CPU/GPU-Ressourcen Ihres Computers beansprucht und keine Softwareinstallation erfordert. Ein normaler Computer kann über ein HDMI-Kabel mit Violoop verbunden werden und wird sofort zu einem "AI-Computer", einer verbesserten Version der "Lobster".

Links unten ist Violoop, das auf dem Schreibtisch platziert werden kann | Bildquelle: Violoop

Es verfügt über integrierte Skills und erfordert keine Vorkenntnisse. Sie können es rund um die Uhr anweisen, zu arbeiten. Natürlich hat es noch weitere Besonderheiten, die im Folgenden ausführlich beschrieben werden.

Violoop ist kein Projekt, das auf kurzfristige Trends setzt. Wir haben erstmals im November 2025 mit ihnen gesprochen, als OpenClaw noch nicht existierte. Die Entwicklung von Violoop begann sogar noch früher.

Zwei Monate später wurde OpenClaw extrem beliebt, und Violoop "geriet versehentlich" in die Wellen und absolvierte rasch eine Millionenfinanzierung in der Seed- und Angel-Runde.

Nach Informationen wird diese Runde der Finanzierung hauptsächlich für die Massenproduktion des Produkts, die weltweite Marktforschung und die kontinuierliche Erstellung des Action-Model-Datensatzes verwendet. Das Violoop-Produkt wird im April auf Kickstarter für eine weltweite Crowdfunding-Kampagne gestartet.

Es ist zweifellos eines der begehrtesten AI-Hardware-Projekte derzeit.

Violoop hat zwei Gründer. CEO Jaylen He ist ein erfahrener Unternehmer, der in der Informatik an der Universität Kalifornien, San Diego studierte. Sein letztes Projekt, ein Service für die Verwaltung von Langzeitwohnungen für Auslandsstudenten, wurde in das YC Startup Program aufgenommen.

CTO King Zhu ist ein begabter Hochschüler, der in nur 3,5 Jahren sein Bachelor- und Masterstudium an der MIT in Elektrotechnik und Computerwissenschaften absolvierte, schneller als alle anderen seiner Klasse. Später arbeitete er als Kerningenieur in verschiedenen Geschäftsbereichen von Microsoft wie Xbox, HoloLens und Surface.

Das Auftauchen von Violoop zeigt, dass die Hardware- und Softwareform von AI-OS noch nicht festgelegt ist und der Wettbewerb erst beginnt.

Mit nur einem Kabel und ohne Softwareherunterladung wird ein normaler Computer sofort zur verbesserten "Lobster"

Das Ziel von Violoop, sich über HDMI physisch an den Computer anzuschließen, besteht darin, die vollständige Datenkette von "Video-Stream + Betriebssystem-API + HID-Betrieb" verlustfrei und vollständig zu erfassen.

Beim Geräteverbund unterstützt es die Anbindung von Telegram und Feishu, und das Team hat auch eine eigene APP entwickelt. Der Vorteil der eigenen APP besteht darin, dass sie Funktionen ermöglicht, die mit IM-Tools nicht möglich sind - die Echtzeitansicht des Bildschirms des angeschlossenen Computers und die Beobachtung des AI-Betriebsprozesses.

Durch das Senden von Befehlen über das Mobiltelefon kann Violoop die laufenden Aufgaben auf dem Computerbildschirm anzeigen | Bildquelle: Violoop

"Wenn Sie beispielsweise die AI anweisen, Front-End-Code zu schreiben und die HTML-Datei auf dem Mobiltelefon nicht vorschaubar ist, können Sie über den Echtzeit-Video-Stream direkt prüfen, ob das Ergebnis Ihren Anforderungen entspricht."

Einer der Highlights von Violoop ist, dass es aktiver ist und wirklich "Arbeit im Blick hat".

Jaylen He erklärt: "Auf der Grundlage der Sicherstellung der Sicherheit, der Fähigkeit, den Host zu steuern und der Wahrnehmung des Bildschirmzustands des Benutzers bietet es dem Benutzer proaktiv Dienstleistungen an."

Beispielsweise, wenn die AI sieht, dass der Benutzer Rechnungen auf dem Computer sortiert, wird sie auch dann, wenn der Benutzer nicht weiß, was die AI kann, proaktiv fragen: "Es wurde festgestellt, dass Sie Rechnungen sortieren. Möchten Sie, dass ich dies für Sie automatisieren?" Oder wenn sie sieht, dass der Benutzer AI-bezogene Videos auf Bilibili oder YouTube ansieht, wird sie fragen: "Sind Sie an dieser Richtung interessiert? Wir können Ihnen relevante Berichte oder andere Videolinks zur Verfügung stellen."

Violoop kann die Aktionen des Benutzers sehen, hauptsächlich auf der Grundlage seines selbst entwickelten visuellen Modells, um den Bildschirminhalt zu erkennen und wie ein Mensch die Software auf dem Computer zu bedienen.

Dieser Entwurf berücksichtigt vor allem, dass viele Softwareanwendungen keine API oder Befehlszeilen-Schnittstelle bieten. "Wir folgen immer der Regel: 'Gehen Sie, wenn möglich, über die Befehlszeile'. Nur wenn die Software keine Befehlszeilen-Schnittstelle hat, übernehmen wir die visuelle Steuerung."

Im Vergleich kann Violoop sogar sehr alte Software-Systeme bedienen, die OpenClaw nicht bedienen kann, was den Handlungsbereich erheblich erweitert.

Die Hardwareparameter von Violoop | Bildquelle: Violoop

Bezüglich der Sicherheit hat Violoop ein Dual-Chip-Architektur in das Gerät integriert.

Der Hauptsteuerungschip ist für das Ausführen der AI und des Systems verantwortlich. Ein unabhängiger Sicherheitschip ist speziell für die Berechtigungsüberprüfung verantwortlich.

Beispielsweise: Wenn die AI eine Datei lesen möchte, kann der Sicherheitschip dies automatisch genehmigen. Wenn die AI jedoch eine Datei löschen, eine Nachricht senden oder auf sensible Daten zugreifen möchte, muss dies erst vom Benutzer bestätigt werden.

Der Benutzer kann die Genehmigung über die Mobil-App oder den Touchscreen des Geräts erteilen.

Dieser Entwurf fügt im Wesentlichen eine "Schutzschicht" zwischen die AI und das System hinzu.

Vor kurzem hat ein Leiter der Sicherheitsabteilung von Meta bei der Ausführung von OpenClaw auf einem Mac mini bemerkt, dass die AI mehr als 2.000 E-Mails versehentlich gelöscht hat.

Diese Art von Problemen könnte in der Agenten-Zeit immer häufiger auftreten.

Violoop möchte jedoch durch die Hardware-Entwurf die Risiken in einem kontrollierbareren Rahmen halten.

Kein Prompt erforderlich, lernt nach einem Blick

Ein weiterer interessanter Entwurf ist das Skill-Lernsystem von Violoop.

Es erfordert keine Eingabe von Prompts durch den Benutzer und kann sich nach einem Blick auf die Aktionen und Workflows des Benutzers aneignen und sich selbst verbessern.

Die Methode ist einfach: Der Benutzer muss nur auf dem Touchscreen des Geräts nach links wischen, um in den Aufnahme-Modus zu gelangen. Die AI wird den gesamten Arbeitsablauf aufzeichnen und eine vollständige Kette von Handlungsnachweisen extrahieren:

Was der Benutzer eingegeben hat
Wie das Betriebssystem reagiert hat
Welche Änderungen auf der GUI-Oberfläche aufgetreten sind

Diese Daten werden an die Cloud gesendet und dort analysiert.

Anschließend wird das System die Aufgabe in eine Reihe von Schritten zerlegen und durch verstärktes Lernen nach einem besseren Ausführungsweg suchen.

Es ist wichtig zu beachten, dass die AI die Aktionen des Benutzers nicht vollständig kopiert. In vielen Fällen sind die menschlichen Aktionen nicht die effizientesten. Das System wird versuchen, die Ausführungsweise mit den geringsten Kosten und der höchsten Erfolgsrate zu finden.

Beispielsweise: "Wenn die AI weiß, dass der Startpunkt 'Datei suchen' und der Endpunkt 'An WeChat-Freund senden' ist, wird sie lernen, wie sie die Aufgabe mit den geringsten Kosten, der schnellsten Geschwindigkeit und der höchsten Erfolgsrate erledigen kann."

Jaylen He sagt: "Wir werden eine Belohnungsfunktion entwerfen, um die AI zu ermutigen, die Maus möglichst wenig zu bewegen und möglichst wenig durch Screenshots zu entscheiden, um die Ausführungseffizienz zu optimieren."

Am Ende wird ein wiederverwendbarer Skill erzeugt.

Skills könnten ein "Zwischenzustand" sein, personalisierte Edge-Modelle sind die Zukunft

Nach Ansicht des Violoop-Teams sind die derzeit beliebten Skills hauptsächlich strukturierte Texte. Einerseits bauen sie eine Community auf, in der Benutzer Skills teilen können, andererseits erkunden sie auch eine langfristigere Richtung.

Wenn der Benutzer genügend Daten aufgezeichnet hat und die AI genügend über den Benutzer weiß und genügend persönliche Erinnerungen gesammelt hat, plant das Team, diese persönlichen Daten durch Nach-Training in ein persönliches Edge-Modell zu trainieren.

"Derzeit werden die Erinnerungen der AI hauptsächlich aus externen Datenbanken (z. B. RAG) extrahiert. In Zukunft können die Edge-Modelle diese Erinnerungen und Skills direkt internalisieren. Dadurch wird das Modell in der Verständnis von Benutzerinformationen, der Geschwindigkeit der Erinnerungsabrufs und der Generalisierungsfähigkeit des Ausführens von Skills eine qualitative Verbesserung erfahren."

In jedem Moment, in dem es mit Ihnen zusammen ist, erfasst es stillschweigend Ihre Absichten und Entscheidungsvorlieben und sammelt sie zu persönlichen "exklusiven Erinnerungen" | Bildquelle: Violoop

Das bedeutet, dass, wenn der Benutzer genügend Daten gesammelt hat, die AI nicht nur die Workflows aufruft, sondern diese Fähigkeiten direkt in das Modell "internalisieren" wird.

In diesem Fall wird die AI jedes Benutzers allmählich unterschiedlich werden.

Es wird Ihre Gewohnheiten merken, Ihren Arbeitsstil verstehen und sich allmählich zu einem für Sie speziellen Modell entwickeln.

Jaylen He sagt, dass sie sich die Zukunft als eine Kombination von "Edge-Modell + Cloud-Modell" vorstellen, wobei das Edge-Modell immer stärker individualisiert werden wird.

"Wie bei der Aktualisierung von Mobil-Apps heute: Wenn Meituan aktualisiert wird, werden alle Benutzer aktualisiert. In Zukunft werden die Softwareanwendungen jedoch stark individualisiert sein. Jeder Benutzer kann eine andere Aktualisierungsfrequenz und -inhalt haben. Wenn die persönlichen Daten eine bestimmte Menge erreichen, wird es automatisch eine unabhängige Modellaktualisierung durchführen."

Sowohl für den Benutzer als auch für Violoop selbst wird dies eine langfristigere Wettbewerbsvorteil schaffen als die einfache Erstellung von Workflows und die Skills-Community.

OpenClaw ist das Linux der AI-Zeit, Violoop möchte das Mac werden

Beim Vergleich von OpenClaw und Violoop gibt Jaylen He eine Analogie: "OpenClaw ist das Linux dieser Zeit, ein quelloffenes Betriebssystem auf unterster Ebene."

Nach Linux ist kein reines Software-Betriebssystem aufgetaucht, das es konkurrieren kann. Stattdessen haben sich Windows und macOS, kommerzielle Giganten auf Basis von Hardwareverteilung, entwickelt.

Daher möchte Violoop das Mac der AI-Zeit werden und ein Produkt mit integrierter Hardware und Software entwickeln.

"Wir glauben, dass das nächste Betriebssystem eine Kombination von 'Cloud-Modell + Edge-Modell' sein wird."

Jaylen He sagt: "Die Rechenleistungskosten der Cloud-Großmodelle sind extrem hoch. Unsere Team verbraucht täglich auf unserer eigenen Software möglicherweise mehr als 1.500 US-Dollar. Durch die Edge-Fähigkeiten können wir die multimodale Verarbeitung lokal durchführen, was nicht nur Kosten spart, sondern auch die Vorteile der Echtzeitreaktion und der Wahrnehmung der Edge nutzt."

In dieser Form fungiert das Cloud-Großmodell wie eine CPU, der Arbeitsspeicher wie ein DRAM und das Edge-Modell wie eine GPU, die bestimmte Teile der Berechnungen übernimmt.

Die multimodale Verarbeitung wird hauptsächlich lokal durchgeführt, da die Übertragung von Audio- und Video-Daten in die Cloud Zeit benötigt und die Cloud-Verarbeitung von Multimodalität teurer ist.

Das Edge-Modell versteht den Inhalt und sendet die Informationen (z. B. im JSON-Format) an die Cloud, die dann die anschließende Inferenz und Aufgabenplanung vornimmt.

Außer an den Computer kann Violoop auch einfach in das IoT-System von Smart Home integriert werden, z. B. um das Licht, die Musik, die Klimaanlage usw. zu steuern.

"Derzeit gibt es bei Smart Home relativ einheitliche Protokolle, wie HomeKit. Wir installieren das Protokoll auf der Hardware und können über die lokale Netzwerk-Scan die Geräte direkt aktualisieren und steuern."

Außerdem haben sie auf dem Mobiltelefon eine Android-Virtual Machine laufen lassen, um ähnliche Funktionen wie die Steuerung eines Mobiltelefons zu erreichen.

Dies ist keine direkte Steuerung des physischen Mobiltelefons des Benutzers, sondern die Erstellung einer simulierten Umgebung, mit der der Agent auf unterster Ebene interagiert. Ähnlich wie das 'Doubao-Mobiltelefon', aber ohne physische Einheit.

Ihr Team erklärt, dass, wenn der Benutzer Meituan oder Ctrip nutzen möchte, er diese Apps erneut herunterladen und anmelden muss. Da diese Apps die Anmeldung auf mehreren Geräten unterstützen, kann es nach der Anmeldung wie ein Assistent fungieren und Ihnen helfen, Tickets oder Lieferungen zu buchen.

An diesem Punkt wird die Vorlage eines Betriebssystems der AI-Zeit klar: Computer, Mobiltelefone, Smart Home und andere Geräte werden zu physischen Peripheriegeräten dieses Betriebssystems.

Mit anderen Worten, der Computer ist

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Sie haben eine verbesserte Version des "Hummer" entwickelt, die so groß wie eine Hand ist, und haben in zwei aufeinanderfolgenden Runden Finanziierungen im Millionenbereich abgeschlossen.

Mit nur einem Kabel und ohne Softwareherunterladung wird ein normaler Computer sofort zur verbesserten "Lobster"

Kein Prompt erforderlich, lernt nach einem Blick

Skills könnten ein "Zwischenzustand" sein, personalisierte Edge-Modelle sind die Zukunft

OpenClaw ist das Linux der AI-Zeit, Violoop möchte das Mac werden