Die Bildfunktion von ChatGPT hat eine große Verbesserung erfahren.
Der Kampf zwischen OpenAI und Google um die weltweit führende KI-Anwendung hat eine neue Runde von Angriffen und Verteidigungen begonnen.
Um Mitternacht Ortszeit in Peking am Mittwoch hat OpenAI die neue Bildfunktion von ChatGPT angekündigt. Neben besserer Bildqualität und schnellerer Generierungsgeschwindigkeit hat das neue Images-Modell auch wichtige Fortschritte in der Präzision der Bildbearbeitung erzielt. Man kann sagen, dass OpenAI nicht nur gegen Googles hochgelobte Nano Banana-Serie von Modellen reagiert, sondern auch einen Schlag gegen Photoshop gelandet hat.
OpenAI hat erklärt, dass die Funktion "ChatGPT-Bilder" basierend auf dem neuesten Flaggschiff-Bildgenerierungsmodell präzise Bearbeitungen durchführen kann, während alle Details erhalten bleiben, und es ist wahrscheinlicher, dass die gewünschten Ergebnisse erzielt werden. Bei der präzisen Bearbeitung unter Beibehaltung aller Details ist die Generierungsgeschwindigkeit um bis zu viermal erhöht.
Natürlich muss die Wirkung eines Bildgenerierungsmodells anhand von Bildern gezeigt werden.
Als der wichtigste Aspekt dieser Aktualisierung hat OpenAI erklärt, dass das neue Modell in der Lage ist, verschiedene Arten von präzisen Bearbeitungen durchzuführen, einschließlich Hinzufügen, Löschen, Zusammenführen, Mischen und Transponieren, während die ursprünglichen Merkmale des Bildes erhalten bleiben.
Zum Beispiel hier ist eine Straßenaufnahme von Los Angeles aus den späten 90er Jahren, die vom neuen ChatGPT-Bildmodell generiert wurde (Demoversion).
→ Ändere das Hemd der Person in rot, das Hut in gelb, die Geschwindigkeitsbegrenzung in 15 und den LKW in einen Feuerwehrwagen;
→ Füge links eine Gruppe von Zuschauern hinzu, auf dem Bürgersteig rechts sitzt ein Adler, und in der Ferne fliegt ein Raumschiff durch den Himmel;
→ Ein T-Shirt mit einem all-over-Druck des Bildes hängt an der Wäscheleine;
→ Mache den Skater in dem T-Shirt anziehen.
Als wichtige Anwendung von KI-generierten Bildern hat ChatGPT-Bilder auch Fortschritte bei der kreativen Umgestaltung bestehender Bilder erzielt. Zum Beispiel kann ein Privatfoto von OpenAIs CEO Altman in einen Aerobic-Trainer aus den 80er Jahren in den USA umgewandelt werden, oder sein Gesicht kann in das Weltbild "Mädchen mit Perlenohrring" eingefügt werden.
Außerdem hat ChatGPT auch eine Herausforderung an Googles traditionelles Stärkenfeld - die Generierung von Diagrammen mit reichhaltigen Textinformationen - gestellt. OpenAI hat angegeben, dass das Modell in der Textpräsentation einen Schritt weiter gegangen ist und dichtere und kleinere Texte verarbeiten kann.
Es muss erwähnt werden, dass obwohl ChatGPT bei der Generierung von lateinischen Schriftarten bereits "unterschlagbar" ist, die offizielle Seite auch eingestanden hat, dass dieses neue Modell bei der Generierung von chinesischen, arabischen und hebräischen Schriftarten noch Einschränkungen hat.
Daher ist zumindest bei der Generierung von chinesischen Textbildern Nano Banana immer noch weit über ChatGPT.
Es ist erwähnenswert, dass das neue Bildgenerierungsmodell stärker und auch günstiger geworden ist. Im Vergleich zu GPT Image 1 sind die Kosten für die Eingabe und Ausgabe von Bildern bei der aktualisierten Version GPT Image 1.5 um 20 % gesenkt.
Dieser Artikel stammt aus dem WeChat-Account "Kechuang Daily", Autor: Shi Zhengcheng. 36Kr hat die Veröffentlichung mit Genehmigung durchgeführt.