StartseiteArtikel

Hsieh Xiangyang hat ein großes Modell entwickelt, das alles erkennen kann.

咏仪2024-11-23 14:06
"Karten zu besprechen schadet der Beziehung, aber ohne Karten gibt es keine Beziehung."

Autor | Deng Yongyi

Redakteur | Su Jianxun

"Karten besprechen schadet der Beziehung, keine Karten, keine Beziehung."

Auf der IDEA-Konferenz 2024 warf der Vorsitzende des Gründungsrats der IDEA und ausländisches Mitglied der Nationalen Akademie der Technik der USA, Shen Xiangyang, einen besonders realistischen und humorvollen Ausspruch in den Raum.

Andererseits zeigt dies auch seine ausgeprägte optimistische Stimmung gegenüber der Zukunft im Zeitalter der KI.

Die Entwicklung großflächiger Modelle ist nicht mehr so steil wie nach der Veröffentlichung von ChatGPT. Im zweiten Jahr der menschlichen Erforschung von AGI (Allgemeine Künstliche Intelligenz) hat sich die Iteration großer Sprachmodelle verlangsamt. Entsprechend stehen KI-Anwendungen und ihre Implementierung im Zentrum der globalen Diskussionen.

Aber Shen Xiangyang ist der Ansicht, dass, obwohl GPT-5 noch nicht in Sicht ist, das Wachstum der Rechenleistung weiterhin optimistisch ist – Laut EPOCH AI-Statistiken zeigt sich bei den Anforderungen großer Modelle an Rechenleistung jedes Jahr ein Wachstum von mehr als dem Vierfachen.

Bei diesem Wachstumstempo funktioniert das bisherige Mooresche Gesetz, wonach sich die Rechenleistung alle 18 Monate verdoppelt, nicht mehr. Shen Xiangyang legte besonderen Wert auf Hwangs Law von Jen-Hsun Huang, um das Wachstum der Rechenleistung durch die Modelltraining zu messen. Wenn die Rechenleistung konstant mit dem Vierfachen pro Jahr zunimmt, könnte es in zehn Jahren zu einer millionenfachen Steigerung der Nachfrage nach Rechenleistung kommen, obwohl dieses Gesetz noch der Zeitprüfung bedarf.

"Um große Modelle voranzutreiben, reicht es nicht aus, nur die Parameter und die Modellgröße zu vergrößern; es erfordert auch höhere Schulungsanforderungen und eine größere Datenmenge. In gewisser Weise stehen die Anforderungen an die Rechenleistung im Quadrat zu den Parametern, was zu enormen Ansprüchen führt", sagte er.

Shen Xiangyang Quelle: Geschrieben vom Autor

"In den letzten Jahren haben alle über die 'Drei Werkzeuge der Künstlichen Intelligenz' gesprochen, tatsächlich dreht sich alles um 'Rechenleistung, Algorithmen, Daten'." Bei dieser Konferenz verknüpfte Shen Xiangyang diese Themen und verbrachte 3 Stunden, um die neuesten Fortschritte der IDEA in diesen drei Bereichen zu präsentieren.

Visuelle Modelle bleiben ein Forschungsschwerpunkt von IDEA – das neueste allgemeinvisuelle Großmodell DINO-X, das offiziell von IDEA vorgestellt wurde, kann tatsächlich objektbezogenes Verständnis bieten.

Das bedeutet, dass DINO-X im Gegensatz zu herkömmlichen visuellen Modellen, die durch Trainingsdaten eingeschränkt sind, in der Lage ist, die Zielerkennung in der offenen Welt (Open-World) Umzusetzen – ohne Nutzervorgaben können direkt alle Objekte erkannt werden, einschließlich seltener Langschwanzobjekte (Objekte, die selten vorkommen, aber eine große Vielfalt aufweisen).

Dies wird die Einsatzszenarien des Modells erheblich erweitern.

Beispielsweise war "embodied intelligence" das ganze Jahr 2024 ein heißes Thema in der KI-Branche. Für hochanspruchsvolle Szenarien wie Dienstleistungen für sehbehinderte Menschen oder Serviceroboter hing man stark von einer großen Menge qualitativ hochwertiger Datenetiketten ab, was großen Arbeitsaufwand erforderte. Mit DINO-X können visuelle Modelle Unternehmen bei der Etikettierung helfen, große Mengen qualitativ hochwertiger Bilder schnell zu kennzeichnen oder den Etikettierern automatisierte Ergebnisvorschläge bieten, wodurch der manuelle Kennzeichnungsaufwand verringert wird.

Quelle: IDEA

Für konventionelle visuelle Modellszenarien, DINO-X wird auch ein starker Zusatz in Bereichen wie autonomes Fahren, intelligente Sicherheit und industrielle Inspektion, fähig, mit verschiedenen komplexen Szenarien umzugehen und Objekte zu erkennen, die für traditionelle Modelle schwer zu erkennen sind.

Das IDEA-Team hat auch eine Branchenplattform-Architektur eingeführt, die es ermöglicht, dass ein großes Modell ohne erneutes Training genutzt werden kann, indem es verbunden mit allgemeiner Erkennungstechnologie lernt, um die vielfältigen Anforderungen der B2B-Anwendungen zu unterstützen.

"Ein Modell, um eine Million Probleme zu lösen", ist der entscheidende Leitgedanke dieser Modellvorstellung.

Im Gegensatz zu der gängigen Methode des "Verständnis des gesamten Bildes" optimiert IDEA das Halluzinationsproblem großer Modelle durch die Integration eines Sprachmoduls auf Objektebene. In Kombination mit einer selbstentwickelten Methode zur "Optimierung von visuellen Hinweisen" ist es möglich, ohne Änderung der Modellstruktur und ohne erneute Schulung, auch im Bereich von kleinen Stichproben szenenspezifische Anpassungen vorzunehmen.

Quelle: IDEA Institut

Allerdings werden durch die ständige Vergrößerung der Modellgröße qualitativ hochwertige Daten zu einem Flaschenhals. "Die Entwicklung der künstlichen Intelligenz hat bereits alle qualitativ hochwertigen Daten der Menschheit ausgeschöpft", sagte Shen Xiangyang.

Synthetische Daten sind daraufhin entstanden. Das IDEA-Team stellte auch eine selbstentwickelte Kontextrografentechnologie vor, die Probleme wie den Mangel an Vielfalt bei früheren textbasierten Synthetisierungsansätzen behebt. Diese Technik fungiert als "Leitfaden" für synthetische Daten und nutzt Rautraform als Struktur, um Kontextschnipsel für die Synthese zu leiten.

Aus den Experimentergebnissen geht hervor, dass die Lösung des IDEA-Teams eine kontinuierliche Leistungssteigerung für Großmodelle ermöglicht, die über die aktuellen Best Practices (SOTA) hinausgeht; in Bezug auf den Tokenverbrauch spart man durchschnittlich 85,7% der Kosten. Derzeit ist die Betaplattform dieser Technologie durch APIs zur Verfügung gestellt worden.

Im Jahr 2024 beschleunigte IDEA merklich ihre Bereitstellung von KI-Anwendungen. Im Vergleich zur Leseplattform für wissenschaftliche Arbeiten im vergangenen Jahr verkündete IDEA dieses Jahr mehr Anwendungen in vertikalen Bereichen.

In der Vorhersage hat IDEA mehrere Expertengroßmodelle im Chemiebereich entwickelt, die in der Fähigkeit zur Vorhersage von Moleküleigenschaften und chemischen Reaktionen branchenführend sind.

KI-Modelle können auch auf wissenschaftliche Daten angewendet werden, um die Verarbeitungsgeschwindigkeit zu erhöhen. Das von IDEA neu vorgestellte multimodale chemische Literaturgroßmodell wurde gemeinsam mit Xtai Technology eingeführt, um die Patentdatenbergung Plattform PatSight zu veröffentlichen. Dieses Modell verkürzt die Bergungszeit von Patentchemikalien im Arzneimittelbereich von mehreren Wochen auf eine Stunde.

Und einer der wichtigsten Trends in diesem Jahr – KI-Programmierung – ist eine Folge der ständig steigenden Intelligenzebene der Modelle und wird zu der nächsten heißen Anwendung werden. Das MoonBit-Team des IDEA Instituts präsentierte das Programmiermodul MoonBit ihrer Entwicklungsplattform. Dieses cloudnativen KI-Programmierwerkzeug verfügt über umfassende Multi-Backend-Unterstützung und plattformübergreifende Fähigkeiten, kann direkt auf Hardware laufen, unterstützt RISC-V-Architektur, und wird im Dezember offiziell freigegeben.

Modelle entwickeln sich auch von der Software- zur Hardware-Ebene, um in der realen Welt Wirkung zu erzielen.

In der gut positionierten Greater Bay Area IDEA gibt es bedeutende grundlegende Hardwareindustrie Vorteile. Auf dieser Konferenz kündigte IDEA gleich drei Kooperationen an: Mit Tencent in der Aufgabe, in Shenzhen Futian District Innovation Laboratories zu errichten, fokussiert auf Environment Embodied Intelligence Technologie; mit Meituan zur Erkundung der intelligenten Drohnenvision Technologie; und mit BYD zur Erweiterung der industriellen Roboterintelligenz Anwendungen.

"Niedrigökonomie der Luft" ist ein weiteres von IDEA betontes Gebiet. IDEA veröffentlichte nicht nur das "Weißbuch zur Entwicklung der Niedrigökonomie 3.0", sondern initiierte zusammen mit 17 ersten Mitgliedern die Mitgestaltung von OpenSILAS Innovation Consortium, mit der Absicht, ein offen teilbares, technikführendes, kontinuierlich weiterentwickeltes System und Plattform zu schaffen.

Das Jahr 2024 markiert bereits die vierte Konferenz des IDEA. In diesen vier Jahren hat sich die KI von der auf CV (Visuelle Erkennung) zentrierten 1.0-Ära in die von generativer KI dominierte 2.0-Ära weiterentwickelt und weitere bedeutende Themen wie KI-Regulierung aufgeworfen, die für das nächste Zeitalter von Bedeutung sind. Jetzt muss sich die menschliche Gesellschaft vielleicht mehr Gedanken darüber machen: Wie können wir besser mit KI koexistieren?

"Die Entwicklung der KI, kann der wirtschaftlichen Größten Wachstums zu dem maximalen Wohlergehen der Menschheit umgewandelt werden? Das ist für die Anwesenden, die Kollegen aus dem Forschungsinstitut von IDEA, die in der technischen Entwicklung tätig sind, und die Kollegen aus der Industrieumsetzung auf dem Weg der Entwicklung der künstlichen Intelligenz eine zentrale Denkaufgabe," sagte Shen Xiangyang.

Herzlich willkommen zum Folgen