Tesla teilt seine neuesten Technologien, und die Kernarchitektur von FSD wird enthüllt.
Nutzt Tesla auch VLA?
Nach vielen Jahren hat Tesla endlich wieder eine technische Präsentation gemacht. Auf der renommierten Konferenz für Computervision ICCV (International Conference on Computer Vision) wurde die Kernarchitektur von FSD enthüllt. Ein Detail dieser Präsentation hat in der Branche heftige Debatten ausgelöst, und es wird vermutet, dass Tesla auch VLA nutzt.
Handelt es sich bei der Debatte zwischen VLA und Weltmodellen um die spannendste technologische Richtung von 2025? Gibt es endlich eine von Elon Musk favorisierte Antwort?
Nutzt Tesla auch VLA?
Ashok Elluswamy, der Vizepräsident für Fahrerassistenzsysteme bei Tesla, hat kürzlich als Gast auf der ICCV einen Vortrag mit dem Titel "Building Foundational Models for Robotics at Tesla" gehalten.
Das war das erste Mal in drei Jahren, dass Tesla technische Details öffentlich machte. Die letzte öffentliche Präsentation war 2022 auf dem Tesla AI Day, als Elluswamy ebenfalls teilnahm und ein neues Paradigma für das Occupancy Network vorschlug, das die Branche revolutionierte.
Bisher wurde der Inhalt des aktuellen Vortrags noch nicht veröffentlicht. Es ist nur eine PowerPoint - Folie herausgekommen, aber diese enthält viele Informationen und hat zu breiten Diskussionen geführt.
Aus dem unscharfen Bild kann man erkennen, dass der Titel der Folie "Interpretierbarkeit und Sicherheitsgarantien" lautet - beide sind wichtige Themen im Bereich des autonomen Fahrens.
Unterhalb des Bildes wird die Kernarchitektur von FSD gezeigt. FSD ist inzwischen zu einem großen neuronalen Netzwerk integriert, das multimodale Informationen verarbeiten kann. Dazu gehören Kameravideos, Navigationsdaten, die Bewegungszustände des Fahrzeugs und Audiodaten.
Die Ausgabe umfasst Informationen zur Panoramasegmentierung, 3D - Occupancy Network, 3D - Gauss - Rendering, Sprache und weitere Ausgaben, die Tesla mit Punkten verschleiert. Am Ende werden diese Informationen inferiert und in Aktionen umgewandelt.
Die Informationen, die aus diesem Bild ersichtlich und impliziert sind, stimmen mit einigen Ansichten chinesischer Akteure überein. Es gibt vor allem zwei Punkte.
Der Kampf zwischen VLA und Weltmodellen: Der Schritt in die Ära der großen Modelle
Erstens hat die Tatsache, dass Teslas aktuelle Architektur Sprachinformationen ausgibt, viele Vermutungen angestoßen. Wie bekannt ist, gab es in der Branche dieses Jahr nicht nur Uneinigkeiten bei der Wahl der Sensoren, sondern auch eine neue Debatte über die Softwarealgorithmen, nämlich der Kampf zwischen VLA und Weltmodellen.
Das erste Paradigma wird von DeepRoute.ai und Li Auto vertreten, das zweite von Huawei und NIO. Einige Akteure glauben, dass man beide Ansätze kombinieren sollte.
Die Anhänger von VLA meinen, dass dieses Paradigma einerseits die riesigen Datenmengen aus dem Internet nutzen kann, um allgemeines Wissen zu sammeln und die Welt besser zu verstehen. Andererseits hat das Modell durch seine Sprachfähigkeit auch die Fähigkeit, logische Schlussfolgerungen zu ziehen und langfristige Daten zu verstehen.
Einige Branchenmitglieder behaupten, dass einige Akteure, die nicht den VLA - Ansatz verfolgen, aufgrund des Mangels an leistungsstarken Chips nicht in der Lage sind, große Modelle einzusetzen.
Die Anhänger von Weltmodellen halten dagegen fest, dass Weltmodelle näher an der Kernfrage liegen. Jin Yuzhi, der CEO von Huaweis Automobil - Geschäftseinheit, meint, "Der Weg von VLA scheint geschickt, aber er führt nicht wirklich zum autonomen Fahren."
Ren Shaoqing, ein bekannter KI - Wissenschaftler und Vizepräsident für Fahrerassistenzsysteme bei NIO, sagte kürzlich in einem Interview, dass Weltmodelle in Bezug auf die Fähigkeit zur Raum - Zeit - Wahrnehmung eine "höhere Bandbreite" haben als VLA. Das heißt, sie können mehr Informationen erkennen und nutzen.
Dennoch stimmt er zu, dass Sprache derzeit sehr wichtig ist und einen großen Wert bei der Datentrainierung, logischen Schlussfolgerung und Mensch - Maschine - Interaktion hat.
Aus Teslas enthüllten Informationen geht ebenfalls hervor, dass Sprache in der autonomen Fahrweise eine wichtige Rolle spielt. Einige glauben daher, dass Tesla auch VLA - Technologie nutzt, während andere meinen, dass Tesla möglicherweise nur Straßenschilder erkennt und diese in Sprache umwandelt. Was denken Sie? Teilen Sie Ihre Meinung gerne in den Kommentaren.
Zweitens zeigt sich aus den aktuellen Informationen, dass Teslas FSD in die Ära der großen Modelle eingetreten ist und die Anzahl der Parameter weiterhin steigt. DeepRoute.ai sagte bereits bei der VLA - Präsentation, dass die Branche in die Ära der großen Modelle eintritt. Modelle mit mehr Parametern erfordern leistungsstärkere Chips. Deshalb gibt es in diesem Jahr viele neue Fahrzeuge über 200.000 Yuan mit 1000 TOPS oder sogar 2000 TOPS Rechenleistung.
Das neue intelligente Fahrerassistenz - Chip von Tesla soll eine Rechenleistung von 2000 TOPS haben, und die Anzahl der Modellparameter soll um das Zehnfache steigen. Die Algorithmusleistung ist daher sehr erwartenswert.
Vielleicht ist Tesla so selbstbewusst in Bezug auf die zukünftige Leistung, dass FSD kürzlich seinen aggressiven Modus wieder aufgenommen hat.
Die neuesten Updates von FSD: Diese Veränderungen gibt es
FSD hat die Version V14.1.3 herausgebracht, mit insgesamt 10 Updates. Es ist sicherer und hat mehr "Menschenlichkeit".
In Bezug auf die Sicherheit wurde die Fähigkeit verbessert, kleine Hindernisse wie Äste, Reifen und Kisten seitlich zu umfahren. Auch bei ungeschützten Wendungen, Spurwechseln und Auffahrten wird besser umgegangen.
Die Selbstreinigungsfunktion der Frontkamera ist schneller und effizienter. Wenn Rückstände auf der Frontscheibe die Sicht der Frontkamera beeinträchtigen, wird jetzt eine Warnung ausgelöst, und Sie können sich an den Service wenden.
Beim Thema Individualisierung können Sie vor dem Fahren Ihre Fahrpräferenzen über das Geschwindigkeitsprofil noch genauer anpassen. Wenn FSD auf Sonderfahrzeuge wie Polizeiautos, Krankenwagen und Feuerwehrautos trifft, wird nun das Anhalten an der Seite oder das Zurückweichen hinzugefügt.
Bei Staus wurde eine Navigations - und Routenfunktion in das neuronale Netzwerk von FSD integriert, das in Echtzeit Umfahrrouten berechnen kann.
Nach der Ankunft am Ziel können Sie auch die Parkposition auswählen, z. B. an der Straße oder im Parkhaus.
Einige Tage vor diesem kleinen Update hat FSD den Mad Max Mode wieder aufgenommen. Der Fahrstil in diesem Modus ist sehr aggressiv. Videos von Fahrzeugbesitzern zeigen, dass FSD in Los Angeles in der Nacht zwischen den Autos hin und her schießt und wild Spur wechselt. Es scheint sogar effizienter zu sein als der Berufsverkehr mit dem Helikopter.
Elluswamy hat auch zwei Szenarien empfohlen, in denen dieser Modus geeignet ist, z. B. wenn Sie knapp den Flug verpassen oder eilig sind, Ihr Kind von der Schule abzuholen.
Elluswamys letzter Beitrag auf seiner sozialen Plattform war am Tag vor seinem ICCV - Vortrag. Deshalb ist immer noch ein Rätsel, welche Magie Teslas FSD V14 nach dem Occupancy Network und dem End - to - End - Ansatz jetzt hat.
Wir wissen, dass chinesische Akteure weiterhin Fortschritte machen, auch wenn Tesla keine öffentlichen Präsentationen mehr macht. Sowohl VLA als auch Weltmodelle sind noch in der Erkundungsphase.
Selbst wenn Tesla sich für eine Richtung entschieden hat, bedeutet das nicht, dass dies die richtige Antwort ist. Wie He Xiaopeng sagte, "Eigentlich interessiert sich kein chinesischer KI - Akteur mehr für das, was Musk macht."
Nachdem die Fahrzeuge nicht mehr nur auf BBA setzen, begibt sich die chinesische Algorithmenentwicklung für autonomes Fahren auch auf den Weg, sich von der Tesla - Anbetung zu lösen.
Dieser Artikel stammt aus dem WeChat - Kanal "Intelligent Car Reference" (ID: AI4Auto), geschrieben von Yifan und lizenziert von 36Kr.