Dies sind die 25 entscheidenden Erkenntnisse des JinQiu-Fonds für radikale Investitionen in KI, die er aus dem Silicon Valley mitgebracht hat.
Zu Beginn des Jahres 2025 organisierte der Jin Qiu Fund, eines der derzeit aktivsten KI-Investitionsinstitute in China, eine Veranstaltung namens Scale With AI im Silicon Valley.
In 5 Tagen und 4 Nächten teilten Schlüsselunternehmen der KI-Branche wie OpenAI, xAI, Anthropic, Google, Meta, Perplexity, Luma, Runway und viele Investitionsinstitute des Silicon Valley die neuesten Fortschritte im Silicon Valley im Bereich KI sowie zahlreiche Vorhersagen und Einschätzungen für die Trends im Jahr 2025.
Als Organisator dieser Veranstaltung investierte der Jin Qiu Fund nicht nur in einige aktive KI-Fonds in Nordamerika und knüpfte Verbindungen zum globalen KI-Markt, sondern führte auch das Soil-Seed-Programm ein, um Early-Stage-Unternehmer im KI-Bereich auf radikale, schnell und flexibel entscheidende Weise zu unterstützen. Im vergangenen Jahr 2024 investierte Jin Qiu häufig in verschiedene Projekte, darunter die KI-Marketingplattform Aha Lab und die KI-Inhaltsplattform Dream Dimension.
Im Folgenden sind fünfundzwanzig wichtige Erkenntnisse über den Fortschritt der KI auf dieser Reise ins Silicon Valley aufgeführt, die in vier Abschnitte unterteilt sind: große Modelle, Videomodelle, KI-Anwendungen und verkörperte Intelligenz.
Über große Modelle: Hat das Scaling Law ein Limit erreicht und woher kommt die Innovation aus dem Silicon Valley?
1. Für LLMs ist die Ära des Pre-Trainings größtenteils vorbei, aber beim Post-Training gibt es noch viele Möglichkeiten. Der begrenzte Einsatz beim Pre-Training liegt hauptsächlich an den begrenzten Ressourcen, während die Margen beim Post-Training höher sind, daher bietet das Post-Training viele Chancen.
2. Pre-Training ist die Voraussetzung für das RL (Reinforcement Learning) im Post-Training, das Modell muss grundlegende Fähigkeiten besitzen, damit das RL punktuell erfolgen kann. RL verändert nicht die Intelligenz des Modells, sondern mehr die Denkweise. Im Vergleich dazu ist Pre-Training Nachahmung, wohingegen RL Schöpfung ist und unterschiedliche Dinge tun kann.
3. Einige Vorhersagen könnten im nächsten Jahr Konsens werden, z. B. Veränderungen der Modellarchitektur; der Unterschied zwischen Closed-Source und Open-Source könnte sich erheblich verringern; synthetische Daten könnten durch große Modelle generiert und dann für das Training kleiner Modelle verwendet werden, andersherum ist es schwieriger. Der Hauptunterschied zwischen synthetischen und echten Daten besteht in der Qualität.
4. Teambildung für das Post-Training, theoretisch reichen fünf Personen (nicht unbedingt Vollzeit). Zum Beispiel eine Person für die Pipeline (Infrastruktur), eine für die Daten (Dateneffekt), eine für das Modell selbst (SFT), eine für die Produktmodellkoordination und Sammlung von Nutzerdaten usw.
5. Ein wichtiges Geheimnis der Innovation des Silicon Valley besteht darin, dass die Unternehmen dort leicht eine flache Organisationskultur entwickeln. Bei OpenAI gibt es beispielsweise keinen bestimmten Entscheidungsträger, jeder arbeitet sehr autonom, und die Zusammenarbeit zwischen den Teams ist sehr frei. Sogar das alteingesessene Unternehmen Google baut leise die mittlere Führungsebene ab und viele frühere Manager wechseln in operative Rollen.
Über Videomodelle: Das Limit des Scaling Law ist noch weit entfernt
6. Die Videogenerierung befindet sich noch auf dem Level von GPT-1 und -2. Derzeit entspricht das Videoniveau etwa der Version SD1.4. In Zukunft wird es Open-Source-Versionen mit kommerzieller Leistung geben. Das aktuelle Problem ist der Datensatz, da es aufgrund von Urheberrechten keine großen öffentlichen Datensätze für Videos gibt. Die Art und Weise, wie jedes Unternehmen Daten abruft, verarbeitet und bereinigt, ist unterschiedlich und führt zu unterschiedlichen Modellen sowie zu Schwierigkeiten bei Open-Source-Implementierungen.
7. Ein schwieriger Punkt beim DiT-Ansatz besteht darin, die Einhaltung physikalischer Gesetze zu verbessern und sich nicht nur auf statistische Wahrscheinlichkeiten zu verlassen. Die Effizienz der Videogenerierung ist ein Engpass. Derzeit ist das Ausführen auf Hochleistungsgrafikkarten langwierig. Dies ist ein Hindernis für die Kommerzialisierung und ein Diskussionsthema in der Wissenschaft. Anwendungen haben sich jedoch nicht verlangsamt, obwohl die Modelliteration von LLMs langsamer wird. Von einem Produktstandpunkt aus ist der ausschließliche Fokus auf die Text-zu-Video-Generierung keine gute Richtung.
8. Es wird 1-2 Jahre dauern, um die DiT-Technologieroute auszuschöpfen. Die DiT-Route hat viele Optimierungsmöglichkeiten. Ein effizienteres Modellarchitektur ist sehr wichtig. Bei LLM beispielsweise wurde anfangs alles auf möglichst große Modelle gebracht, später erkannte man, dass MOE hinzugefügt und die Datenverteilung optimiert werden können, um ohne große Modelle effektiv zu arbeiten. Reine DiT-Skalierung ist ineffizient.
9. Das Scaling Law für Videos existiert in einem bestimmten Umfang, erreicht jedoch nicht das Level von LLMs. Die Modelle mit den größten Parametern haben ca. 30 Milliarden. 30 Milliarden sind nachweislich effektiv, aber Modelle mit 300 Milliarden sind praktisch nicht existent. Unterschiede bestehen hauptsächlich in den Daten.
10. Als Sora veröffentlicht wurde, dachten viele, es würde zum DiT konvergieren, tatsächlich gibt es jedoch viele technologische Pfade, z. B. basierend auf GAN oder autoregressive Echtzeitgenerierung, wie das kürzlich populäre Projekt Oasis.
11. Technische Lösungen zur Beschleunigung der Langvideogenerierung zeigen, wo das Limit von DiT liegt. Je größer das Modell und je besser die Daten, desto höher die Klarheit der generierten Videos. DiT-Modelle können theoretisch größer werden, aber ob es ein Limit gibt, bleibt abzuwarten.
12. Trainingdaten für Videomodalitäten gibt es reichlich, aber es ist wichtig, effizient qualitativ hochwertige Daten auszuwählen. Die Menge hängt vom Verständnis des Urheberrechts ab. Aber die Berechnungskapazität ist ebenfalls ein Engpass.
13. Die Realitätsnähe der Videogenerierung beruht hauptsächlich auf den Fähigkeiten des Basismodells, während die ästhetische Verbesserung in der Post-Training-Phase erreicht wird.
14. Multi-Modalität-Modelle befinden sich noch in einem frühen Stadium. Das Vorhersagen der nächsten Sekunden von Videos ist schwierig, das Hinzufügen von Text erschwert dies noch.
Über KI-Anwendungen: Die Trends im Silicon Valley sind anders als in China
15. Die Silicon Valley VCs neigen dazu, 2025 als großes Investitionsjahr im Anwendungsbereich anzusehen. Einer der Standards für die Investition in KI-Produkte ist es, sich nur auf eine Richtung zu konzentrieren, um den Wettbewerb schwer kopierbar zu machen.
16. KI-Produktfirmen gelten als eine neue Art von Unternehmen, die anders sind als vorherige SaaS-Unternehmen. Das Wachstum erfolgt sehr schnell, besonders in der Seed-Phase.
17. Ein Nischendenken bei VCs ist, dass es unter bestimmten Bedingungen möglich ist, in chinesische Unternehmer zu investieren.
18. Silicon-Valley-VCs entwickeln verschiedene Investitionsstrategien.
19. Storm Venture mag es zu sehen, wie bestehende Firmen PMF erreicht haben und sieht sie als Wachstumschancen für weiteres Wachstum.
20. Leonis Capital hat einige Vorhersagen für KI im Jahr 2025 getroffen.
21. Für AI-Coding-Unternehmen ist eine mögliche Strategie im Modelltraining von Interesse.
22. Ein wichtiger Trend im Coding ist die Verwendung von Erhöhungstechniken, um die Leistung von Codeagenten zu verbessern.
Über verkörperte Intelligenz: Fulminante Roboter mit vollständig menschlichen Generalisierungsfähigkeiten sind vielleicht nicht in unserer Generation zu erwarten
23. Einige im Silicon Valley glauben, dass verkörperte Roboter noch nicht ihren Durchbruchs-Moment hatten, ähnlich wie Chatgpt.
24. Der Datacapture-Kreislauf für Roboter ist schwer zu erreichen, da sie nicht über ikonische Datensätze wie ImageNet verfügen.
25. Verkörperte Intelligenz steht im Spannungsfeld zwischen generellen Modellen und Modellen für spezifische Aufgaben.