StartseiteArtikel

"Nanobananen" LMArena hat in zwei Wochen 5 Millionen Stimmen erhalten und das 10-fache Traffic ausgelöst. Google und OpenAI stehen sich gegenüber.

新智元2025-09-04 18:05
LMArena ist eine AI-Arena, die niemals zu Ende geht.

Im August stieg nano‑banana an die Spitze der Text-zu-Bild-Liste auf LMArena und trieb den Traffic in der LMArena-Community um das Zehnfache an. Die monatlich aktiven Nutzer beliefen sich auf über 3 Millionen. Nach dem Start der Blindtestphase von nano‑banana auf LMArena haben sich in nur zwei Wochen über 5 Millionen Stimmen insgesamt eingeholt, und es gewann alleine über 2,5 Millionen direkte Stimmen, was einen Rekord an Beteiligung setzt. Seit seiner Einführung im Jahr 2023 ist LMArena zur Arena geworden, in der Techriesen wie Google und OpenAI um die Spitze kämpfen.

Im vergangenen August hat ein geheimnisvoller KI-Bildeditor namens „Nano-Banane“ mühelos die Spitze der Image Edit Arena erreicht und den Traffic auf LMArena im August sprengen lassen:

Der Traffic stieg um das Zehnfache, und die monatlich aktiven Nutzer beliefen sich auf über 3 Millionen.

Seit der Blindtestphase von nano‑banana auf LMArena haben sich in nur zwei Wochen über 5 Millionen Stimmen insgesamt eingeholt, und es gewann alleine über 2,5 Millionen direkte Stimmen, was einen Rekord an Beteiligung setzt.

Die geheimnisvolle Identität von nano‑banana hat auch in der LMArena-Community zahlreiche Spekulationen ausgelöst.

Bevor Google „Nano-Banane“ in Anspruch nahm und es offiziell als Gemini 2.5 Flash Image benannte, hatten viele Internetnutzer bereits erraten, dass Google der eigentliche Besitzer von Nano Banana ist.

Einige Internetnutzer haben auch die Anleitung für die Nutzung der originalen „Nano-Banane“ auf LMArena gepostet. Diese Methode ist nicht nur kostenlos, sondern erfordert auch keine Anmeldung.

LMArena ermöglicht es nicht nur den Nutzern, „nah“ an die neuesten Modelle heranzukommen, sondern bietet auch eine echte „Römische Arena“ für das Aufeinandertreffen von KI-Modellen. Hier können die neuesten Modelle von Unternehmen wie Google und OpenAI in echten Konfrontationen getestet werden und werden von Tausenden von Nutzern beurteilt.

Die Stimmen und Rückmeldungen der Nutzer bestimmen die Rangliste dieser KI-Modelle und liefern auch reale Anwendungsfälle für die Hersteller von KI-Modellen, damit sie ihre Modelle gezielter verbessern können.

Der Ruhm von nano‑banana hat den Traffic auf LMArena um das Zehnfache erhöht. Laut Wei-Lin Chiang, dem Chief Technology Officer von LMArena, hat die Plattform inzwischen über 3 Millionen monatlich aktive Nutzer.

Sowohl Google als auch LMArena sind die größten Gewinner dieser Traffic-Feier.

Von Chatbot Arena zu LMArena

Die Mitbegründer von LMArena, Wei-Lin Chiang und Anastasios Angelopoulos

LMArena war ursprünglich als Chatbot Arena bekannt und entstand aus einem Forschungsprojekt an der Universität Berkeley im Jahr 2023. Später wurde es in LMArena umbenannt.

Chatbot Arena fungiert wie ein Nutzer-Community-Bewertungszentrum. Es hat die traditionelle Methode der Bewertung von KI-Technologien durch Fachtests verändert und die Bewertungsgewalt an die Community-Nutzer abgegeben. Es nutzt anonyme, crowdsourcing-basierte paarweise Vergleiche, um KI-Modelle zu bewerten.

Nutzer können auch Modelle auswählen und selbst testen.

Die Veröffentlichung von KI-Modellen wie ChatGPT und Llama 1 hat die Entstehung von Chatbot Arena ermöglicht.

Damals gab es noch keine effektive Methode zur Bewertung von KI-Modellen. Deshalb haben Chiang zusammen mit den Forschern Anastasios Angelopoulos und Ion Stoica von der Universität Berkeley Chatbot Arena, später LMArena, gegründet.

Ihre Idee war es, eine offene, web-basierte Plattform zu schaffen, die von der Community getragen wird und alle Menschen einlädt, an der Bewertung teilzunehmen.

Chatbot Arena hat schnell viel Aufmerksamkeit erregt, und Tausende von Menschen kamen, um abzustimmen. Mit diesen Nutzerstimmendaten haben sie die erste Version der Rangliste erstellt.

Anfänglich waren hauptsächlich Open-Source-Modelle auf der Liste vertreten. Das einzige kommerzielle Modell war Claude und GPT.

Mit der Hinzunahme von mehr Modellen hat die Beliebtheit von Chatbot Arena stetig zugenommen. Techriesen haben gebeten, ihre Produkte in die Rangliste aufzunehmen und haben versucht, die Spitze der Liste zu erreichen.

Der Erfolg von Chatbot Arena hat auch viele Technologieunternehmen dazu gebracht, es als eine Art Leitfaden für KI-Technologien zu betrachten. Sie beobachten die Veränderungen der Chatbot Arena-Rangliste genauso aufmerksam wie Wall-Street-Händler die Börse.

All dies hat Joseph Spisak, der Direktor der Produktverwaltung bei Meta AI, sehr überrascht. Er ist beeindruckt von der großen Wirkung, die einige Studenten erzielen konnten.

Chiang hofft, dass LMArena eine Plattform werden kann, die für alle zugänglich ist. Er möchte, dass mehr Nutzer diese Modelle testen und ihre Meinungen und Präferenzen äußern, um der Community und den Anbietern von KI-Modellen zu helfen, die KI anhand von realen Anwendungsfällen besser zu bewerten.

Wie Chiang sagt, sind die beliebtesten und am schnellsten wachsenden Modelle in der LMArena-Community oft aus realen Anwendungsfällen hervorgegangen. „Nano-Banane“ ist eines der erfolgreichsten Beispiele.

Das anonyme Auftreten und der Blindtest-Mechanismus haben nano-banana auf LMArena natürlich berühmt gemacht. Damals konnten normale Nutzer nano-banana nicht manuell auswählen, sondern stießen nur zufällig auf es in den Battles. In der Community wurden viele Beiträge geschrieben, in denen die Nutzer über ihre Erfahrungen berichteten, wie sie viele Runden spielen mussten, um auf die „Banane“ zu stoßen.

Zurzeit ist Gemini 2.5 Flash Image der „Doppel-Champion“ auf LMArena und hat die erste Stelle in beiden Listen, der Image Edit Arena und der Text-to-Image-Liste, erreicht.

Aus der Rangliste auf LMArena kann man auch die besten Modelle in verschiedenen Bereichen erkennen.

Zum Beispiel hat Claude im Bereich Coding die beste Platzierung. Im kreativen Bereich ist Gemini unter den Spitzenplatzierten.

Vielleicht aufgrund von internen Anpassungen des KI-Teams bei Meta hat Chiang nicht viel über Llama 4 gehört. Aber er glaubt, dass das von Meta entwickelte „All-in-One-Modell“ möglicherweise einen Trend für die Zukunft der Branche darstellt.

Warum sind KI-Hersteller auf der Suche nach einer Spitzenplatzierung?

Warum legen Hersteller von KI-Modellen wie OpenAI, Google und Anthropic so viel Wert darauf, ihre Modelle in Ranglisten wie LMArena aufzunehmen?

Ist es, um ihre Marke zu promoten oder um Nutzerrückmeldungen zu erhalten, um ihre Modelle zu verbessern?

Offensichtlich ist die Promotierung der Marke und die Beglaubigung der Qualität ein direktes kurzfristiges Ziel.

LMArena ist eine der am meisten beobachteten öffentlichen Ranglisten in der Branche. Die Gesamtzahl der abgegebenen Stimmen beläuft sich bereits auf mehrere Millionen. Technologie-Medien zitieren auch gerne die Daten von LMArena, was für die Marken von KI-Modellen eine deutliche Verbesserung der Reputation und des Traffics bedeutet.

Zweitens erhalten die Hersteller von KI-Modellen hier Rückmeldungen, die näher an der „realen Nutzung“ liegen.

LMArena nutzt eine anonyme, zufällige Paarungsmethode für die Abstimmungen und wendet das Elo-System an. Dies reduziert subjektive Einflüsse wie „Markenhalo“ und „Positionseffekt“ und spiegelt die echte Meinung der Nutzer über die Qualität der Antworten der Modelle wider.

Das Elo-System wurde ursprünglich für die Bewertung von Schachspielern entwickelt und ist auch der Kernmechanismus hinter der LMArena-Rangliste. Gemäß dieser Regel hat jeder Spieler (oder jedes Modell) einen Elo-Wert. Nach jedem Spiel wird der Elo-Wert beider Spieler (oder Modelle) auf der Grundlage des Ergebnisses und der Erwartungen aktualisiert.

Jede Stimme eines Nutzers wird somit zu einem Spiel. Nach Tausenden von Spielen konvergieren die Elo-Werte der Modelle, und die Rangliste spiegelt dann die echten Präferenzen der Nutzer genauer wider.

Darüber hinaus bietet LMArena eine Bühne, auf der Hersteller von KI-Modellen, unabhängig davon, ob es um Open-Source- oder Closed-Source-Modelle geht, miteinander konkurrieren können. Dies führt natürlich zu einer höheren Sichtbarkeit und bietet den Nutzern auch eine größere Auswahl an Informationen.

Wie Chiang sagt, möchte er LMArena zu einem offenen Raum machen, in dem jeder teilnehmen und seine Meinung äußern kann.

Alles hier wird durch die Community getragen. Die Nutzer werden ermutigt, Fragen zu stellen und abzustimmen, um ihre Meinung über verschiedene Modelle auszudrücken.

Für Hersteller von KI-Modellen bietet LMArena eine gute Möglichkeit, sich selbst zu bewerten.

Sie können sehen, wie ihre Modelle in ihrem Bereich platziert sind und erhalten Berichte und Analysen von LMArena, die auf den Rückmeldungen der Community basieren. So können sie die Leistung ihrer Modelle genau bewerten und gezielt Verbesserungen vornehmen.

Brauchen wir neue Benchmarks für LLMs?

Wenn alle Modelle nahe an den bestehenden Benchmarks sind, brauchen wir dann noch neue Benchmarks?

Chiang ist der Meinung, dass dies sehr notwendig ist. Ein zentrales Prinzip dabei ist, dass diese Benchmarks in realen Anwendungsfällen verankert sein müssen.

Zum Beispiel sollten die Benchmarks über die traditionellen Ansätze hinausgehen und sich eher an realen Nutzerszenarien orientieren, insbesondere an solchen, die von Fachleuten getrieben werden, die gut darin sind, KI-Tools zu nutzen, um Aufgaben zu erledigen.

Nehmen wir als Beispiel den neuesten WebDev-Benchmark von LMArena. Nutzer können hier einem Modell mitteilen, wie eine Website erstellt werden soll. Ein solcher Benchmark kann die KI-Technologie enger mit realen Anwendungsfällen verbinden und so die Umsetzung in der Praxis beschleunigen.

Chiang findet die Studie von MIT, wonach die meisten Unternehmen, die in KI investieren, keine Rendite sehen, sehr interessant.

Er glaubt, dass diese Studie zeigt, wie wichtig es ist, die KI eng mit realen Anwendungsfällen zu verbinden. Dies ist auch der Grund, warum er die LMArena-Plattform auf weitere Branchen ausweiten möchte.

Er hofft, dass durch Benchmarks, die in realen Anwendungsfällen verankert sind, die Kluft zwischen Technologie und praktischen Anwendungen geschlossen werden kann und dass