Um drei Uhr nachts bin ich völlig schlaflos: Seedance 2.0 zeigt uns, dass die "Komprimierung" des realen Arbeitsablaufs durch KI beschleunigt wird.
Um drei Uhr nachts sah ich das Video von Tim aus Film & Hurrican über Byte is Dream - Seedance 2.0. Ich konnte einfach nicht schlafen.
Das ist das erste Mal in den letzten über einem Jahr, dass der Fortschritt der KI mich so aufgeregt hat. Oder sagen wir, es hat mich erschauert.
Viele warten auf den GPT-3.5-Moment im Videobereich und denken, dass es noch ein bis zwei Jahre dauern wird. Seedance 2.0 zeigt uns, dass er bereits in greifbarer Nähe ist.
Seine Stärke liegt darin, dass es Kameraführungen, Szenarioskripte und die Übereinstimmung von Bild und Ton vollständig KI-gesteuert macht und das sehr gut beherrscht. Es versteht Licht und Schatten, Perspektive und Kamerasprache.
Was Tim im Video zeigt, ist Kontrolle, eine perfekte Nachahmung der physischen Welt durch die KI.
Die Logik der KI wird immer klarer und einfacher. Die KI komprimiert unseren Arbeitsablauf rasant: von Regie und Drehung bis zur Montage und Musikbearbeitung; von Produktmanagement und Entwicklung bis zur Tests und Abnahme.
Alle Zwischenschritte werden schrittweise reduziert.
In diesem Artikel möchte ich darüber sprechen, wie die KI unseren Arbeitsablauf verändert und wie sie unsere Arbeit neu strukturiert.
01
Der GPT-3.5-Moment der Videobranche
Das unbezwingbare Aufregung, das Tim im Video zeigt, teile ich voll und ganz.
Früher dachten wir, dass Kameraführungen ein Privileg der physischen Welt seien, mit Laufschienen, Kranarmen, Drohnen und Steadicams. Diese Geräte sind teuer, und die Personen, die sie bedienen, noch teurer.
Seedance 2.0 hat all dies in Parameter umgewandelt. Im Video wird die Generierung von Videos aus Bildern demonstriert: ein Foto des Protagonisten + ein Foto der Szenerie.
Es kann den Protagonisten in dieser Szenerie nach der von Ihnen gewählten Kameraführung bewegen, und die Konsistenz mehrerer Subjekte wird erstaunlich gut aufrechterhalten.
Zieh- und Schwenkbewegungen erforderte früher das Verlegen von Schienen und die Zusammenarbeit eines Lichttechnikers, um die Lichtpositionen in jeder Sekunde anzupassen.
Jetzt ist dies nur eine Zeile in einem Prompt. Die physischen Beschränkungen der realen Welt werden durch die Parameterbeschränkungen der mathematischen Welt ersetzt.
Seedance 2.0 scheint die Konsistenz des dreidimensionalen Raums zu verstehen.
Es weiß, wie sich die Hintergrundobjekte bei einer Linksdrehung der Kamera verschieben sollen. Es weiß, wie sich die Länge der Schatten ändern soll, wenn das Licht von rechts einfällt.
Seedance 2.0 beginnt auch mit der Montage. Die KI kann den Rhythmus eines Videos verstehen, die emotionalen Höhepunkte in den Bildern erkennen und automatisch die Takte der Musik anpassen.
Für einen Schnittmeister kann die einst stundenlange Arbeit der "Rohmontage" jetzt nur noch Sekunden dauern.
Das Gleiche gilt für den Ton. Im Bild eines Basketballplatzes werden die komplexen Geräusche des Spiels synchronisiert.
Diese Wahrnehmungskonsistenz ist ein wichtiges Kriterium für das menschliche Gehirn, um "Wahrheit" zu beurteilen, und die KI schafft es.
Die Film- und Videopostproduktion war ursprünglich ein äußerst komplexes Systemprojekt. Der Regisseur ist für die Konzeption verantwortlich, der Kameramann für die Umsetzung der Idee in Licht und Schatten, der Schnittmeister für die Neuorganisation der Bilder zu einer Erzählung und der Musikproduzent für die Stimulation von Emotionen durch den Ton.
Dies ist ein äußerst teurer, ineffizienter und reibungsreicher linearer Arbeitsablauf. Seedance 2.0 hat diese Kette zerbrochen und alle diese Berufe in ein Modell integriert.
Im Wesentlichen komprimiert die KI derzeit unseren gesamten Arbeitsablauf.
Von Seedance 2.0 können wir die ersten Anzeichen einer Komprimierung des Arbeitsablaufs von Regisseur, Kameramann, Schnittmeister und Musikproduzenten erkennen.
Der GPT-3.5-Moment im Videobereich ist bereits da.
In den nächsten ein bis zwei Jahren wird es ein Umstrukturierungsprozess in der Branche geben, und die alte Ordnung bricht zusammen.
02
Die KI komprimiert unseren Arbeitsablauf extrem
Die Veränderungen im Videobereich sind nur ein Aspekt der Umgestaltung des Arbeitsablaufs durch die KI. Tiefgreifendere Veränderungen finden im Softwarebereich statt, auf unseren Handybildschirmen.
Neulich habe ich mit Tongyi Qianwen von Alibaba eine Milchtee bestellt. Diese Erfahrung hat mich viel nachdenken lassen.
Es könnte das Ende der App-Ära bedeuten, oder besser gesagt, es könnte das Zeitalter der "Instant-Software" ankündigen.
Unsere heutige Interneterfahrung ist durch die Form der "App" eingeschränkt.
Wenn Sie eine Milchtee bestellen möchten, müssen Sie Ihr Handy entsperren, die Liefer-App finden, sie öffnen, auf das Startbildschirmwerbung warten, in die Suchleiste tippen, "Milchtee" eingeben, aus einer Liste von mehreren Dutzend Restaurants auswählen, die Restaurantseite öffnen, aus mehreren Dutzend Produkten wählen, den Süßigkeitsgrad und die Eismenge festlegen, bestellen und bezahlen.
Das ist ein äußerst langer Prozess.
Warum müssen wir diesen Prozess durchlaufen? Weil die App versucht, die Bedürfnisse aller Menschen zu befriedigen. Sie sucht den größten gemeinsamen Nenner und muss daher seltene Anforderungen auf Unterseiten verstecken und aus kommerziellen Gründen verschiedene Empfehlungen einfügen.
Für mich brauche ich das nicht. Ich bestelle normalerweise nur in diesen 3 Restaurants. Ich weiß, welches Restaurant den besten Limonade hat und welches die sauberste Küche hat.
Ich brauche nur: "Bestelle mir eine Tasse von meinem üblichen Restaurant, ohne Zucker."
Die Fähigkeiten von Tongyi Qianwen nähern sich jetzt diesem Idealzustand.
Sie geben ihm einen Befehl, und er ruft im Hintergrund über Code und Agenten direkt die Schnittstellen auf und liefert das Ergebnis.
Das ist die "Absichts-Schnittstelle". Sie geben Ihre Absicht an, und die KI liefert das Ergebnis. Alle Zwischenschritte wie UI, Interaktion und Navigation werden komprimiert.
Wenn die Fähigkeiten der KI von der von Andrej Karpathy vorgeschlagenen "Vibe Coding" zu einem starken Agenten evolvieren, wird jede unserer Anforderungen über eine "Einmal-App" geliefert, die sofort generiert wird.
Der traditionelle Arbeitsablauf von "Produktmanager-Anforderungsdokument - Entwickler schreibt Code - Tester sucht nach Fehlern - endgültige Lieferung", der Wochen oder sogar Monate dauern kann, wird von der KI in weniger als einer Minute komprimiert.
Dies wirft eine grundlegende geschäftliche Frage auf: Warum sollte ich eine App von mehreren hundert Megabyte herunterladen, wenn ich in einer Minute eine "App" generieren kann, die meinen momentanen Bedürfnissen entspricht?
Das bestehende App-Ökosystem hat unüberwindliche strukturelle Widersprüche. Jede Person hat einzigartige Bedürfnisse, und die KI kann die natürlichen Sprachanforderungen der Benutzer direkt in ein Ergebnis umwandeln.
Das bedeutet, dass die KI für den Benutzer eine "exklusive App" schafft, die nach der Nutzung verworfen werden kann und nicht gespeichert werden muss.
Dies ist eine enorme Herausforderung für die heutigen Internetriesen. Ihre Wettbewerbsvorteile basieren auf der Anzahl der installierten Apps und der Nutzungsdauer der Benutzer.
Wenn die Apps verschwinden und der Zugang über KI-Agenten erfolgt, woher kommt dann der Traffic? Wo können sie ihre Werbung platzieren?
Der Zugang zum nächsten Zeitalter wird allmählich klarer.
Warum alle großen Unternehmen wild um die Entwicklung von großen Modellen kämpfen und nach dem einzigen "Super-Agenten" suchen, ist damit erklärt.
Werden viele Apps, die gegenwärtig Sammelprodukte für verschiedene Anforderungen sind, in der KI-Ära zu Produkten für individuelle Anforderungen werden?
Heutige App-Entwickler könnten zu "Daten-API-Anbietern" werden. Mit der starken Komprimierung des Lieferprozesses und der Kostenreduktion werden die App-Anforderungen tatsächlich zu API-Anforderungen.
Jeder Dialog mit der KI ist wie die Lieferung eines Produkts durch einen Produktmanager.
Schließlich bedeutet das Verschwinden des traditionellen Arbeitsablaufs die Auflösung der Unternehmensorganisation.
Das Unternehmen als Organisationsform existiert im Wesentlichen, um die Transaktionskosten zu senken. Weil Kommunikation und Vertrauen teuer sind, müssen wir Menschen zusammenbringen, Verträge abschließen und Gehälter zahlen.
Wenn eine Person mit der Hilfe der KI die Arbeit eines ganzen Teams erledigen kann, wird eine große Organisation überflüssig. Wir werden immer mehr "Ein-Person-Unternehmen" sehen...
So gesehen
Ich bin überzeugt, dass die Veränderungen, die die KI in der Welt bringt, sich beschleunigen.
Dieser Artikel stammt aus dem WeChat-Account "Hard AI", Autor: Xiaoxiao Mao. Veröffentlicht von 36Kr mit Genehmigung.