Anstatt Mac Mini: OpenClaw auf 25-US-Dollar-Android-Smartphone laufen lassen

Gemeinschaftsfragen: Ist die Mobiltelefon-Clustering wirklich nützlich?

25 US-Dollar (etwa 173 Yuan) – was würdest du damit tun?

Würdest du dir ein Essen liefern lassen, deinen Handy-Saldo aufladen oder einfach mal einen Bluetooth-Hörersatz bestellen? Doch für einen US-amerikanischen Entwickler, der gerne mit KI experimentiert (wir nennen ihn in diesem Artikel Ethan), reichen diese 25 US-Dollar aus, um einen „Intelligenten Agenten für die physische Welt“ zu bauen.

Er hat etwas getan, das auf den ersten Blick etwas abwegig klingt: Auf einem vorbezahlten Android-Smartphone, das im Walmart für 25 bis 30 US-Dollar verkauft wird, hat er das derzeit sehr beliebte OpenClaw installiert. Das Smartphone kann nun über Discord Befehle empfangen und direkt die Hardware steuern – das heißt, es kann die Taschenlampe einschalten, Fotos machen und Objekte erkennen, Sensoren auslesen und sogar Anrufe versuchen.

Noch interessanter ist, dass er nicht mit einem einzigen Smartphone zufrieden ist. Stattdessen plant er, eine ganze Reihe von Smartphones aufzustellen und damit eine Agenten-„Smartphone-Cluster“ zu bilden.

Vom Chatbot zum handlungsfähigen Agenten

Etwas, das Ethan macht, ist eigentlich nicht so kompliziert. Die Kernstruktur ist wie folgt:

● Installieren Sie Termux (eine Linux-ähnliche Terminalumgebung für Android) auf dem Android-Smartphone.

● Führen Sie den OpenClaw-Agenten in Termux aus.

● Rufen Sie die Funktionen des Android-Systems über die Termux-API auf.

● Interagieren Sie mit dem Agenten über Discord.

Mit anderen Worten: Das 25-US-Dollar-Smartphone wird zu einem ständig online verfügbaren „Hardware-Ausführungs-Knoten“. Beispielsweise kann er in Discord den Befehl geben: „Hey Claw, schalte die Taschenlampe an und aus.“ Wenige Sekunden später leuchtet die Taschenlampe auf und erlischt dann wieder.

Der dahinter liegende Prozess ist nicht geheimnisvoll: OpenClaw empfängt die Discord-Nachricht, ruft die Termux-API auf, und diese wiederum ruft die Schnittstelle des Android-Systems auf, um die Hardwareoperationen durchzuführen. Dinge, die normalerweise nur eine App oder ein Systemprozess ausführen kann, werden jetzt von einem sprachmodellgesteuerten Agenten übernommen.

Für Ethan ist das Interessante nicht, dass das Smartphone die Taschenlampe einschalten kann, sondern dass das Modell nun physische Ausführungskapazitäten entwickelt.

Fotografie + GPT 5.2: Die visuelle Fähigkeit eines Einsteiger-Smartphones

Um zu zeigen, dass dies kein „Spielzeug-Demo“ ist, hat er einen noch konkreteren Test durchgeführt.

Er hat dem Agenten gesagt: „Mache ein Foto mit der Rückkamera und sag mir, was du siehst.“ Dann hat er das Smartphone auf einen Raspberry Pi auf dem Tisch gerichtet. Das Smartphone hat das Foto erfolgreich aufgenommen, und das Bild wurde über Discord zurückgesendet. Anschließend wurde das Bild an das aktuell konfigurierte Modell, also GPT 5.2, zur visuellen Analyse gesendet.

Das Modell hat daraufhin die folgende Beschreibung zurückgegeben: „Ein Einplatinencomputer, ein Raspberry Pi, und daran angeschlossene USB-Kabel.“

Dieser Task wurde erfolgreich umgesetzt: Das preiswerte Android-Smartphone ist für die Bildaufnahme zuständig, das Cloud-Großmodell für das visuelle Verständnis, Discord für die Interaktion und der Agent für die Prozesskoordination. Ein vollständiger „Wahrnehmung-Verständnis-Rückmeldung“-Zyklus läuft also auf einem 25-US-Dollar-Hardware-System.

Nicht nur die Smartphone-Position erfassen, sondern auch Anrufe tätigen

Darüber hinaus hat Ethan die Sensorfähigkeiten getestet. Er hat gefragt: „Wie ist die aktuelle Position des Smartphones?“

Der Agent hat die Daten des Beschleunigungssensors abgerufen, die Richtung der Schwerkraft analysiert und schließlich geantwortet, dass das Smartphone ungefähr in aufrechter Position sei. In diesem Moment hielt er tatsächlich das Smartphone aufrecht in der Hand.

Dies zeigt, dass der Agent nicht mehr nur ein „Textverständnissystem“ ist, sondern auch die physische Zustände des realen Welts erfassen kann. Hardware-Komponenten wie IMU, Kamera und Blitzlicht, die ursprünglich für Apps vorgesehen waren, sind jetzt Teil des KI-Werkzeugsets.

Vielleicht fragen Sie sich nun: Wenn das Smartphone die Kamera und die Sensoren nutzen kann, kann es dann auch Anrufe tätigen?

Theoretisch ist dies möglich. Ethan hat den Agenten angewiesen, in der Kontaktliste nach „Mike“ zu suchen und anzurufen. Das Smartphone hat tatsächlich die Anrufeingabemaske geöffnet und versucht, einen Anruf zu starten. Da es sich jedoch um ein vorbezahltes Smartphone ohne aktive SIM-Karte handelt, ist der Anruf natürlich fehlgeschlagen.

Ethan fügt hinzu: „Wenn OpenClaw die Mikrofonaudioaufnahme überwachen oder Sprache senden soll, benötigt das Smartphone Root-Rechte. Da mein Smartphone nicht rootet ist, kann ich dies nicht tun, da Android die Rechte für Anrufe und Audio sehr streng sandboxiert.“

Zukunftsvorstellung: Aufbau einer Smartphone-Cluster

Tatsächlich wählen viele Entwickler derzeit Mac Mini oder kleine Server, um Agenten-Cluster zu betreiben. Der Vorteil besteht darin, dass die Hardware leistungsstark ist, die Bereitstellung stabil ist und die Umgebung kontrollierbar ist. Im Vergleich dazu ist Ethans Entscheidung, OpenClaw auf einem preiswerten Smartphone auszuführen, eher überraschend.

Nach den obigen Demonstrationen sagt Ethan, dass das 25-US-Dollar-Smartphone zwar begrenzte Konfigurationen hat, aber als Einsteigergerät für OpenClaw hervorragend geeignet ist: „Für viele Entwickler, die OpenClaw ausprobieren möchten, aber nicht viel Geld für die Anschaffung von Hardware ausgeben möchten, sind diese preiswerten vorbezahlten Smartphones eine ausgezeichnete Wahl. Sie ermöglichen es Ihnen, schnell loszulegen und die Freude an der KI-gesteuerten Hardwaresteuerung zu erleben.“

Er gibt jedoch auch zu, dass es, wenn das Budget es zulässt, empfehlenswerter ist, OpenClaw auf einem Raspberry Pi auszuführen:

„Das Raspberry Pi läuft mit einem nativen Linux-System. Im Gegensatz zu Android-Smartphones müssen Sie nicht so viel Zeit damit verbringen, die OpenClaw-Konfiguration anzupassen, um Systembeschränkungen zu umgehen. Es ist einfacher zu bedienen und vermeidet viele Kompatibilitätsprobleme.“

Was die Zukunft angeht, hat Ethan verraten, dass er als nächstes eine Smartphone-Cluster aufbauen möchte: „Viele Leute kaufen derzeit mehrere Mac Mini, um eine OpenClaw-Cluster aufzubauen. Ich möchte auch versuchen, einige dieser preiswerten Android-Smartphones zu einer Cluster zusammenzufügen. Jedes Smartphone soll einen OpenClaw-Intelligenten Agenten ausführen, und ich möchte über Discord mit allen Agenten gleichzeitig interagieren, um zu sehen, welche interessanten Funktionen dadurch möglich werden.“

Community-Zweifel: Ist eine Smartphone-Cluster wirklich nützlich?

Nachdem Ethans Video veröffentlicht wurde, gab es in den Kommentaren unterschiedliche Meinungen.

Einige haben direkt gesagt: „Das ist cool, aber ich kann mir keine praktischen Anwendungen für die Cluster-Steuerung von Smartphones vorstellen.“ Andere haben aber auch fantasievollere Ideen entwickelt:

● Es könnte ein kostengünstiges Sicherheitssystem werden: Wenn Bewegung im Bild erkannt wird, wird automatisch ein 15-sekündiges Video aufgenommen und per SMS oder E-Mail an den Besitzer gesendet. Theoretisch ist diese Logik durchaus machbar. Da Smartphones über Kamera, Internetverbindung und Sensoren verfügen, kann es zu einem verteilten Überwachungsknoten werden, wenn der Agent die Triggerbedingungen und die Sende-Logik verknüpfen kann.

● Einige Kommentare haben auch witzig angemerkt, dass man allen Smartphones SIM-Karten einstecken könnte, und sie würden dann zu einer „Sozialmedien-Likes-Farm“ werden.

Aber in den Kommentaren gab es auch eine realistischere Stimme.

Viele Leute wollten in der Vergangenheit ähnliche Experimente durchführen, aber wurden durch die Kosten der Modelle aufgehalten. Die Nutzung der API von Spitzenmodellen erfordert ein Abonnement, und die lokal ausführbaren Open-Source-Modelle benötigen oft mindestens 40 GB Arbeitsspeicher. Für normale Entwickler mit nur 10 bis 20 GB verfügbaren Arbeitsspeicher ist es fast unmöglich, diese Modelle reibungslos auszuführen.

Heute jedoch ist die Kombination aus Cloud-API und preiswerter Hardware eine abgewogene Lösung: Die rechenintensiven Aufgaben werden an die Cloud übertragen, das Großmodell ist nur für das Verständnis zuständig, und das Smartphone ist nur für die Wahrnehmung und Ausführung verantwortlich. Dies ermöglicht es auch Entwicklern mit begrenzten Mitteln, an solchen Projekten teilzunehmen.

Was halten Sie von Ethans Experiment? Teilen Sie Ihre Meinung gerne in den Kommentaren mit.

Referenzlink: https://www.reddit.com/r/AgentsOfAI/comments/1qybhk2/this_guy_installed_openclaw_on_a_25_phone_and/

Dieser Artikel stammt aus dem WeChat-Account „CSDN“. Zusammenstellung: Zheng Liyuan. Veröffentlicht von 36 Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Anstatt einen Mac Mini zu verwenden, hat er OpenClaw auf einem Android-Smartphone für 25 US-Dollar laufen lassen: Er kann das Licht einschalten und Fotos machen.

Vom Chatbot zum handlungsfähigen Agenten

Fotografie + GPT 5.2: Die visuelle Fähigkeit eines Einsteiger-Smartphones

Nicht nur die Smartphone-Position erfassen, sondern auch Anrufe tätigen

Zukunftsvorstellung: Aufbau einer Smartphone-Cluster

Community-Zweifel: Ist eine Smartphone-Cluster wirklich nützlich?