AI-Bildauschnitt-Tool auf GitHub extrem beliebt: Browser erzeugt Bild in 5 Sekunden

Hintergrundentfernung ist nicht nur das Entfernen des Hintergrunds, sondern auch ein neuer Trend in der Branche.

In den letzten zwei Jahren ist es keine Neuigkeit mehr, Bilder mit KI zu bearbeiten. Von der Farbkorrektur und der Unschärfe des Hintergrunds bis hin zur Feinabstimmung von Hautdetails gibt es fast immer spezielle Tools, um diese Aufgaben zu bewältigen. Wenn es jedoch um das Auswählen von Objekten geht, ist dies tatsächlich der schwierigste Teil bei KI-Bildbearbeitungstools.

Doch das Auswählen von Objekten kann sowohl einfach als auch extrem nervig sein. Obwohl es nur darum geht, den Hintergrund zu entfernen, hängt es stark von der Szene ab. Zum Beispiel bei menschlichen Haaren, Kleidungsrändern, Reflexionen auf Produkten, transparenten Materialien und komplexen Lichtverhältnissen - wenn eine dieser Stellen nicht richtig bearbeitet wird, ist das ausgewählte Bild praktisch unbrauchbar.

Tatsächlich möchten viele Benutzer keine hochwertigen Designs erstellen, sondern einfach nur ein neues Profilbild ändern, ein Produktbild auswählen oder ein Cover-Material erstellen. Doch die vielen professionellen Tools sind schwierig zu bedienen, komplex und erfordern hohe Lernkosten. Neuerdings sind jedoch auf GitHub wie Pilze aus dem Boden KI-basierte Open-Source-Tools zum Auswählen von Objekten aufgetaucht. Es gibt Tools, die speziell für Profilbilder entwickelt wurden, Tools, mit denen man alles auswählen kann, und auch solche, die binnen 5 Sekunden ein Ergebnis liefern.

(Quelle: magicpfp)

Aber sind diese KI-Tools zum Auswählen von Objekten wirklich so gut, wie die Entwickler behaupten? Wir müssen sie erst einmal testen, um das herauszufinden.

KI zum Auswählen von Objekten? Schnell, aber die Qualität ist nicht hoch

Diesmal haben wir drei Tools getestet, die auf GitHub viel Beachtung fanden: magicpfp, RMBG und remove-bg. Obwohl alle drei Tools den Hintergrund von Bildern entfernen, unterscheiden sich ihre Ansätze tatsächlich. Beispielsweise ist magicpfp eher eine kleine Webseite für Profilbilder. Der Schwerpunkt liegt nicht auf dem Auswählen aller möglichen Objekte, sondern darauf, dass Benutzer ein Portraitbild hochladen können und dann die Schritte wie Hintergrundentfernung, Hintergrundwechsel und Profilbildverbesserung in einem Rutsch erledigen können. RMBG ist eher ein universelles lokales Tool zum Auswählen von Objekten, das sich auf Kostenlosigkeit, Privatsphäre und lokale Verarbeitung spezialisiert hat. remove-bg ist ein umfassenderes Tool, das WebGPU, Transformers.js und RMBG V1.4 direkt in den Browser integriert, um die Verarbeitung auf der lokalen Front-End-Seite durchzuführen.

Technisch gesehen basieren alle diese Tools auf fast identischen Prinzipien. Beispielsweise verwenden sowohl magicpfp als auch remove-bg explizit das RMBG-1.4 von BRIA. remove-bg nutzt außerdem Transformers.js, um das Modell zu optimieren und die Inferenz möglichst lokal im Browser durchzuführen.

Einfach ausgedrückt, "radieren" diese Tools nicht einfach den Hintergrund, sondern lassen das Modell entscheiden, welche Pixel zum Hauptobjekt und welche zum Hintergrund gehören, und generieren dann ein Ergebnisbild mit einem transparenten Kanal. Natürlich liegt der Grund, warum sich alle auf diese Tools konzentrieren, darin, dass die Fähigkeiten von WebGPU, WASM und der Front-End-Modellaufrufe in den letzten Jahren viel reifer geworden sind und die Leistung der Browser ebenfalls stark verbessert wurde, sodass man nun Front-End-Aufgaben ausführen kann.

Beim praktischen Test war magicpfp zwar in seinen Funktionen eingeschränkt, aber es bot die höchste Freiheit. magicpfp kann nur Profilbilder erstellen, d. h., dass das von der KI erkannte Objekt ein Mensch sein muss. Profilbilder sind ohnehin die am stärksten standardisierten Bildaufgaben. Das Hauptobjekt ist normalerweise klar definiert und die Komposition relativ festgelegt. Es ist also nicht notwendig, direkt mit komplexen Produktbildern zu beginnen.

(Quelle: the verge)

(Quelle: Lei Technology / magicpfp)

Wir haben ein Pressebild von Elon Musk an magicpfp gesendet. Die KI hat das Hauptobjekt relativ gut erkannt. Die Hauptstrukturen wie Kopf, Hände und Oberkörper wurden beibehalten, ohne dass es zu groben Fehlern wie fehlenden Fingern oder abgeschnittenen Teilen der Kleidung kam. Das Bild ist für ein Sozial-Media-Profilbild ausreichend. Das Problem ist jedoch, dass die Kanten nicht sauber sind. Es gibt deutliche Überläufe am Haaransatz, auch an den Schultern und Armen gibt es etwas Farbverschmutzung, und im linken unteren Eck wurde sogar ein Teil des Stuhls mit ausgewählt.

Glücklicherweise unterstützt magicpfp Anpassungen. Hintergrundfarbe, Kanten und Größe können alle neu eingestellt werden, sodass kleine Fehler akzeptabel sind. Leider ist magicpfp nur ein sehr kleines privates Projekt, daher ist die Generierungsgeschwindigkeit relativ langsam, weit hinter der direkten KI-Generierung zurück.

(Quelle: Lei Technology / magicpfp)

RMBG ist völlig anders. Es ist eher ein Tool, das "egal, ob das Ergebnis schön ist, ich mache die Arbeit zuerst". Zunächst einmal ist RMBG ein lokales KI-Tool. Es ist keine Registrierung erforderlich, die Bilder müssen nicht an einen Server übertragen werden, und man muss sich keine Sorgen um Gebühren machen.

Beim ersten Gebrauch zeigt sich, dass RMBG ein typisches Beispiel für "kann es, aber das Ergebnis ist mäßig" ist. Beim Pressebild von Ultraman war die Kontur des Hauptobjekts intakt, und es gab keine großen Probleme mit Gesicht, Hals und Schultern. Doch an den Haaren und Schultern ist noch deutliches grünes Restmaterial zu sehen, als ob der Hintergrund entfernt wurde, aber die Schmutzränder nicht sauber gewischt wurden. Wenn man RMBG auf ein Werbebild eines Handys anwendet, erkennt es richtig, was das Vordergrundobjekt ist, und behält die Hand und das Handy. Es ist nicht so dumm, den gesamten Hintergrund zu behalten. Doch an der rechten Seite des Handys und um die Finger herum gibt es deutliche rote und gelbe Verschmutzungen, und die Kanten sind etwas unscharf. Die warme Umgebungsbeleuchtung und die Hintergrund-Hochglanzstellen scheinen an der Außenkontur des Hauptobjekts kleben geblieben zu sein.

(Quelle: Lei Technology / RMBG)

Ehrlich gesagt, ist das Ergebnis möglicherweise nicht gut genug für kommerzielle Zwecke. Es kann höchstens als Material für Videos verwendet werden. Bei Vergrößerung wird der Fehler sichtbar. Natürlich gibt auch RMBG selbst an, dass es derzeit nur für private Zwecke geeignet ist und noch nicht auf dem Niveau für kommerzielle Anwendungen ist.

Bei remove-bg sollten Freunde, die mit KI-Tools zum Auswählen von Objekten vertraut sind, dieses Projekt nicht unbekannt sein. Es ist bekannt für seine hohe Qualität und Schnelligkeit. Die praktische Erfahrung bestätigt dies tatsächlich. Beispielsweise beim Werbebild des Handys hat es das Hauptobjekt sauberer erkannt als RMBG. Die Kontur des Handys, die Fingerkanten und die obere Bogenlinie - alle diese kritischen Stellen wurden stabiler bearbeitet. Die blendenden Farbverschmutzungen sind weniger, sodass es direkt für kommerzielle Zwecke verwendet werden kann, ohne dass der Fehler leicht bemerkt wird.

(Quelle: Huawei)

(Quelle: Lei Technology / remove-bg)

Das gleiche gilt für das Bild von Elon Musk. Obwohl es immer noch leichte Mängel an Haaren, Schultern und den überkreuzten Händen gibt, ist die Verschmutzung insgesamt deutlich geringer, und es gibt weniger störende Elemente im linken unteren Eck.

(Quelle: Lei Technology / remove-bg)

Insgesamt gesehen ist der Unterschied zwischen diesen drei Tools nicht so groß, aber ihre jeweiligen Merkmale sind sehr ausgeprägt. Beispielsweise ist magicpfp eher ein fertiges Produkt für Profilbilder, RMBG unterstützt bis zu 20 Bilder gleichzeitig, und remove-bg ist effizient und das Ergebnis ist fast direkt verwendbar. Im Vergleich zu einem hochwertigen Bild, das mit dem Pen-Tool in Photoshop Stück für Stück ausgewählt wurde, sind diese drei Tools jedoch fast alle unzureichend.

Normalpersonen brauchen möglicherweise keine perfekten Auswahlen

Nach den praktischen Tests hat man den direkten Eindruck, dass diese Open-Source-Tools noch lange nicht in der Lage sind, etablierte kommerzielle Produkte zu schlagen. Aber obwohl sie noch viele Probleme haben, haben sie es geschafft, eine Aufgabe, die früher immer an Cloud-Plattformen delegiert wurde, in den Browser und auf das lokale Gerät zu verlagern. Dies ist der Trend dieser Tools.

Wir haben bereits erwähnt, dass die ständige Verbesserung der KI-Tools zum Auswählen von Objekten auf die Entwicklung von WebGPU zurückzuführen ist. Früher konnte der Browser zwar viele Dinge ausführen, aber bei KI-Inferenzaufgaben war die Web-Umgebung immer etwas überfordert. Der Grund ist einfach: Die ältere WebGL-Technologie war eher auf Grafikrendering ausgelegt und nicht gut für allgemeine GPU-Berechnungen geeignet. Machine-Learning-Aufgaben erfordern jedoch viel parallele Rechenleistung. Deshalb mussten viele KI-Funktionen früher auf Servern ausgeführt werden, und der Browser war nur ein Interface für das Hoch- und Herunterladen von Daten.

WebGPU unterscheidet sich dadurch, dass es von Anfang an die Grafik- und allgemeinen Rechenfähigkeiten moderner GPUs vollständig an die Webseite verfügbar macht. Google Chrome hat in den letzten Jahren immer wieder Machine-Learning-Inferenz als typisches Beispiel herangezogen und betont, dass WebGPU es dem Browser ermöglicht, die lokale GPU effizienter für Hochleistungsrechnungen zu nutzen. Dadurch wird der Browser langsam zu einer echten, leichten Laufzeitumgebung für KI.

(Quelle: RMBG)

Das bedeutet, dass bei der KI-basierten Objektauswahl früher, wenn der Benutzer auf den "Auswählen"-Button klickte, der entfernte Server die eigentliche Arbeit erledigte. Der Browser war nur für das Hochladen des Bildes und das Abrufen des Ergebnisses zuständig. Deshalb hatten SaaS-Tools deutliche Vorteile: Einheitliche Qualität, stabile Geschwindigkeit und man musste sich keine Sorgen machen, ob das eigene Gerät mitkommen kann. Seit der Einführung von WebGPU kann der Browser nun direkt die lokale GPU nutzen. Viele leichte Modelle können nun lokal inferiert werden. Die Bilder müssen nicht mehr hochgeladen werden, und die Wartezeit ist kürzer. Dies ist besonders bei relativ standardisierten und klar definierten Aufgaben wie der Hintergrundentfernung deutlich zu spüren.

Die Modelle werden immer leichter, der Browser wird immer leistungsfähiger und die Aufrufmethoden sind immer einfacher. Deshalb muss die Fähigkeit zur Hintergrundentfernung nicht mehr als ein geschlossener Kreis mit Hochladen und Rückgabe von Ergebnissen auf der Cloud implementiert werden. Stattdessen kann sie in Webseiten, Widgets, Plugins oder sogar in integrierten Modulen von Design-Tools aufgeteilt werden.

Deshalb, auch wenn die Leistung dieser KI-Tools zum Auswählen von Objekten im praktischen Test mäßig ist und sie nicht mit professionellen Tools konkurrieren können, werden sie dennoch gerne von den Menschen genutzt. Dies liegt daran, dass die meisten Normalpersonen keine perfekten Bilder brauchen, sondern nur schnelle und grundsätzlich brauchbare Bilder.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

AI-Bildauschnitt-Tool wird auf GitHub extrem beliebt: In der praktischen Testung erzeugt der Browser ein Bild in 5 Sekunden. Es ist wirklich schnell, aber auch wirklich unpräzise.

KI zum Auswählen von Objekten? Schnell, aber die Qualität ist nicht hoch

Normalpersonen brauchen möglicherweise keine perfekten Auswahlen