29 Personen, Unternehmenswert 12 Milliarden Yuan.
In letzter Zeit hat das US-amerikanische AI-Start-up LMArena die Abschlussmeldung über eine Serie A-Finanzierung bekannt gegeben. Der Finanzierungsbetrag belief sich auf 150 Millionen US-Dollar, und der Unternehmenswert nach der Finanzierung erreichte 1,7 Milliarden US-Dollar (etwa 12 Milliarden Yuan). Diese Runde Finanzierung wurde von Felicis Ventures und dem Investmentfonds UC Investments der Universität Kalifornien, Berkeley, angeführt. Bekannte US-amerikanische Risikokapitalgeber wie A16Z, Lightspeed Venture Partners, The House Fund, LDVP und Kleiner Perkins haben an der Finanzierung mitgemacht.
Es gibt hauptsächlich drei Gründe, warum diese Finanzierung interessant ist:
Erstens hat sich der Unternehmenswert von LMArena sehr schnell erhöht. Die letzte Finanzierungsrunde war die Seed-Runde im Mai 2025, die von A16Z angeführt wurde. Damals lag der Unternehmenswert bei 600 Millionen US-Dollar. Das heißt, der Unternehmenswert hat sich in sieben Monaten verdreifacht, und das Unternehmen ist schnell zum Unicorn aufgestiegen.
Zweitens ist das Team von LMArena sehr klein. Laut den Aufzeichnungen von Datenplattformen wie PitchBook Anfang 2026 hat das Unternehmen nur insgesamt 29 Mitarbeiter. Das entspricht einem Unternehmenswert von 400 Millionen Yuan pro Person.
Schließlich scheint das Produkt von LMArena keine technologische Komplexität zu haben, und viele Leute glauben, dass "ich das auch kann". Streng genommen ist LMArena keine AI-Firma, sondern eine Website, die große Modelle bewertet und klassifiziert. Man kann es als die Version des Antutu-Benchmarks für große Modelle verstehen.
Während die verschiedenen großen Modelle in einem harten Wettbewerb zueinander stehen, war es unerwartet, dass ein "Benchmark-Tool" für große Modelle zuerst ordentlich Geld verdient hat.
Ein Unicorn aus Versehen
Dass LMArena ein Unicorn geworden ist, ist eigentlich ein Ergebnis aus Versehen.
LMArena hat seine Wurzeln in der Open-Source-Akademieorganisation LMSYS Org. Diese Organisation wurde von Studenten und Professoren aus renommierten Universitäten wie der Universität Kalifornien, Berkeley, der Universität Kalifornien, San Diego, und der Carnegie Mellon University initiiert. Die Kernmission besteht darin, die Nutzung und Bewertung von großen Modellen für die breite Öffentlichkeit zugänglich zu machen, indem Open-Source-Modelle, -Systeme und -Datensätze entwickelt werden.
Es ist erwähnenswert, dass der Anteil an chinesischen Mitgliedern in der LMSYS Org sehr hoch ist. Promovendus Lianmin Zheng von Berkeley, Assistentprofessor Hao Zhang von UCSD und Forscher Wei-Lin Chiang von Berkeley sind alle Kernmitglieder.
Im März 2023 hat die LMSYS Org ein Open-Source-Modell namens Vicuna veröffentlicht, dessen Leistung mit ChatGPT mithalten kann. Sie stellten jedoch fest, dass es damals keine zuverlässige Testmethode gab, um wirklich die Qualität der Modelle zu unterscheiden. Deshalb hat das Forschungsteam im April 2023 eine Open-Testplattform namens Chatbot Arena ins Leben gerufen. Unerwartet wurde diese Plattform immer beliebter in der AI-Community. Im September 2024 wurde die Chatbot Arena-Plattform offiziell in LMArena umbenannt und ist heute eine der autoritativsten Plattformen für die Bewertung von großen Modellen weltweit.
Das Kernkonzept von LMArena ist sehr einfach: "anonyme Duelle".
Nachdem man die Website von LMArena besucht hat, wird man vom System aufgefordert, einen beliebigen Hinweistext einzugeben. Anschließend wählt das System zufällig zwei AI-Modelle aus, um Ausgaben für diesen Hinweistext zu generieren. Die Benutzer vergleichen die Qualität der beiden Ausgaben, ohne die Identität der Modelle zu kennen, und wählen aus, welches Modell gewonnen hat. Das gewinnende Modell bekommt Punkte hinzugefügt, das verlierende Modell verliert Punkte. Nach Hunderttausenden oder Millionen solcher Duelle kann man die endgültige Punktzahl jedes Modells ermitteln.
Dieses Bewertungssystem, obwohl einfach, löst auf sehr direkte Weise das zentrale Problem bei der Bewertung von großen Modellen.
Die traditionellen Bewertungsmethoden für große Modelle sind in der Regel "Aufgabenlösen", wie z. B. MMLU (Massive Multi-Task Language Understanding), GSM8K (Grundschulmathematik) und HumanEval (Codegenerierung). Mit der Entwicklung der großen Modelle stehen diese Bewertungen jedoch vor drei tödlichen Herausforderungen: Sättigung, Kontamination und Entkopplung.
Zuerst die Sättigung. Mit der zunehmenden Fähigkeit der großen Modelle, "Aufgaben zu lösen", nähern sie sich der menschlichen Obergrenze. Die Unterscheidungskraft solcher Tests wird immer geringer. Wenn alle 90 Punkte oder sogar über 95 Punkte erzielen, verliert die Prüfung ihren Sinn.
Jetzt zur Kontamination. Da die Testaufgaben normalerweise im Internet öffentlich zugänglich sind, können die großen Modelle gezielt darauf trainiert werden, was die Testergebnisse verfälscht.
Das am schwersten zu lösende Problem ist die Entkopplung. Die Testaufgaben unterscheiden sich von den tatsächlichen Anwendungsfällen der Benutzer. Ein großes Modell, das gut in der Prüfung abschneidet, kann möglicherweise nicht reale Probleme lösen. Das Phänomen "hohe Noten, geringe Fähigkeiten" gibt es auch bei großen Modellen.
Indem LMArena reale menschliche Präferenzen sammelt, ändert es die Bewertungsmethode für große Modelle von "Klassenprüfung" zu "Arena-Duell" und löst damit die drei oben genannten Probleme auf einmal.
Heute wird die Rangliste von LMArena in der AI-Branche als die autoritativste "Richtungweisung für menschliche Präferenzen" weitgehend akzeptiert. Über 400 große Modelle wurden von LMArena bewertet und klassifiziert, und es nehmen monatlich Millionen unabhängiger Benutzer an den Bewertungen teil. Ob OpenAI, Google oder die großen chinesischen AI-Firmen - jedes Mal, wenn eine neue Version eines Modells veröffentlicht wird, wird es an LMArena geschickt, um in die Rangliste aufgenommen zu werden. Wenn ein Modell eine hohe Punktzahl bekommt, wird dies auf der Pressekonferenz sicherlich viel gefeiert.
Kommerzialisierung des "Bewertungstools" - Wird es von großen Konzernen "adoptieren" lassen?
Anfang 2025 hat LMArena sich offiziell als Unternehmen registriert und hat die Umstellung von einem akademischen Projekt auf die kommerzielle Entwicklung begonnen.
Wenn man von "Benchmarking" spricht, denkt man leicht an die einst beliebten Android-Benchmark-Tools in China. Solche Tools haben normalerweise Benutzer, Bekanntheit und Traffic, aber es ist schwierig, eine Möglichkeit für die kommerzielle Monetarisierung zu finden. Das Ende ist oft, dass sie von großen Konzernen "adoptieren" lassen, allmählich an Glaubwürdigkeit verlieren und schließlich von den Benutzern verlassen werden. Wird LMArena auch vor solchen Problemen stehen?
Die Antwort ist natürlich ja. Obwohl LMArena noch keine direkten Investitionen von großen AI-Konzernen erhalten hat, haben Risikokapitalgeber wie A16Z viele AI-Firmen mit großen Summen investiert. Die indirekten Interessenverbindungen dürfen nicht vernachlässigt werden.
Die größte Frage an die Glaubwürdigkeit von LMArena ist das im Frühjahr 2024 in der AI-Community heiß diskutierte "Betrugs-Skandal" von Meta.
Im April 2025 haben Forscher von mehreren AI-Firmen und Universitäten wie Cohere, der Stanford University und dem Massachusetts Institute of Technology gemeinsam einen Artikel veröffentlicht, in dem sie LMArena beschuldigten, einige AI-Firmen bei der Manipulation der Rangliste zu unterstützen.
Der Artikel weist darauf hin, dass Meta vor der Veröffentlichung von Llama 4 privat 27 Modellvarianten auf der Plattform von LMArena getestet hat, aber schließlich nur die Punktzahl des besten Modells veröffentlicht hat, um an der Spitze der Rangliste zu stehen. Darüber hinaus meint der Artikel, dass LMArena die Anzahl der "Duelle" von Modellen von großen Konzernen wie Meta, OpenAI und Google gezielt erhöht hat, um diesen Firmen einen unfairen Vorteil bei der Rangfolge zu verschaffen.
Auf diese Beschuldigungen hat LMArena geantwortet, dass "einige Behauptungen nicht mit den Tatsachen übereinstimmen", und dass es ohnehin sinnlos sei, die Punktzahlen von vorab veröffentlichten Modellen zu veröffentlichen.
Um die Transparenz aufrechtzuerhalten, wird LMArena einen Teil des Codes Open-Source machen und regelmäßig Datensätze über die Duelle veröffentlichen, damit Forscher sie analysieren können. Aber die Kontroverse über die Fairness wird wahrscheinlich immer mit der Kommerzialisierung von LMArena einhergehen.
Zum "Zertifizierungsbeamten" der Produkte in der AI-Zeit werden
Was sind also andere bessere kommerzielle Möglichkeiten für LMArena, ohne die Fairness zu opfern?
Im September 2025 hat LMArena sein erstes kommerzielles Produkt, AI Evaluations, offiziell eingeführt. AI Evaluations richtet sich hauptsächlich an Unternehmen oder Forschungsinstitute, die große AI-Modelle entwickeln, und bietet ihnen Modellevaluierungsdienste. Der ARR (Annual Recurring Revenue, der monatliche Umsatz multipliziert mit 12) von AI Evaluations erreichte im Dezember 2025 bereits 30 Millionen US-Dollar.
Angesichts der Tatsache, dass AI Evaluations erst seit weniger als vier Monaten auf dem Markt ist, ist dies ein ziemlich guter Erfolg. Aber es reicht offensichtlich nicht aus, um den Unternehmenswert von 1,7 Milliarden US-Dollar zu rechtfertigen. Welches Potenzial in AI Evaluations haben die Silicon Valley-Risikokapitalgeber, die in dieses Produkt investiert haben, gesehen?
Nach der Leitung der Seed-Runde-Finanzierung von LMArena hat A16Z in einem Artikel seine Investitionslogik erklärt. Die Kernaussagen lassen sich grob in drei Punkte zusammenfassen:
Erstens hält A16Z die Bewertung von LMArena für "tatsächlich" zum Standard bei der Beurteilung der Leistung von großen AI-Modellen geworden und als "schlüsselvolle Infrastruktur" für die Entwicklung der AI-Branche.
Zweitens hat LMArena einen einfachen und erfolgreichen Fliehkraftmechanismus geschaffen: Mit mehr Modellen werden mehr Benutzer angezogen, was wiederum mehr Präferenzdaten generiert, was dann wieder mehr Modelle anzieht. Offensichtlich ist dieser Fliehkraftmechanismus, sobald er einmal etabliert ist, eine nicht zu replizierende Wettbewerbsvorteil.
Drittens glaubt A16Z, dass eine neutrale und kontinuierliche Bewertung in Zukunft eine unabdingbare Voraussetzung für die Regulierung von großen AI-Modellen sein wird.
A16Z hat einige mögliche Geschäftsszenarien für die Zukunft von LMArena vorhergesagt. Einer der wichtigsten ist die Bereitstellung von Compliance-Unterstützung für regulierte Branchen wie Krankenhäuser oder andere kritische Infrastrukturen. Für diese Branchen hängt die Zuverlässigkeit von AI nicht von den Versprechen der AI-Firmen ab, sondern muss durch transparente und kontinuierliche Bewertungen gewährleistet werden. A16Z träumt davon, dass die "LMArena-Zertifizierung" in Zukunft zur "Grünen Zertifizierung" von AI-Produkten werden wird. Die Anzahl der Benutzerbewertungen auf der LMArena-Plattform wird in Zukunft nicht mehr Millionen, sondern Milliarden betragen.
Anfang 2025 hat LMArena das Produkt Inclusion Arena eingeführt, das direkt über API und SDK die Tests in reale AI-Anwendungen integriert, um Feedbackdaten aus der Produktionsumgebung zu sammeln. Bis Juli 2025 hatte dieses Produkt bereits über 500.000 echte Duellaufzeichnungen gesammelt. Sein Wert liegt nicht nur darin, dass die Referenzwertigkeit der Rangliste stark erhöht wird, sondern es bildet auch tatsächlich eine "Continuous Integration/Continuous Deployment-Pipeline" für AI.
A16Z gibt zu, dass LMArena vor der großen Herausforderung steht, "die Neutralität unter kommerziellem Druck aufrechtzuerhalten". Aber Unternehmen, die es schaffen, AI "zuverlässig, vorhersagbar und vertrauenswürdig" zu machen, werden in Zukunft den größten Wert schaffen.
Dieser Artikel stammt aus dem WeChat-Account "Touzhongwang", Verfasser: Tao Huidong. Veröffentlicht von 36Kr mit Genehmigung.