228 Stunden lang: Rasant 100 Artikel geschrieben, 11,4 Milliarden Token verbraucht

Neue Spieler sind aufgetreten. Menschen, habt ihr Angst?

Dieses chinesische Neujahr hat die härteste "Reality-Show" im Bereich Künstliche Intelligenz (KI) ihre vorläufige Endphase erreicht.

Die Hauptfigur ist weder ein Animationscharakter noch ein kampferprobter Roboter, sondern ein 7×24-Stunden-unermüdlicher KI-Wissenschaftler namens FARS (Fully Automated Research System).

Dieses von Analemma entwickelte vollautomatische Forschungssystem hat in 228 Stunden, 28 Minuten und 33 Sekunden kontinuierlicher öffentlicher Laufzeit eigene Hypothesen aufgestellt, Experimente durchgeführt und Artikel geschrieben. Insgesamt wurden 244 Forschungsannahmen generiert und 100 Kurzartikel ("short paper") "produziert".

Das bedeutet, dass in dieser fließbandartigen "Forschungsfabrik" alle etwa 2 Stunden ein Artikel fertiggestellt wird.

Das Ziel, dass die KI 100 Artikel selbst schreibt, wurde in 228 Stunden erreicht. Derzeit läuft noch die einmonatige Live-Übertragung weiter. Link zur Live-Übertragung: https://analemma.ai/fars

Diese industrielle Durchsatzleistung, die von der traditionellen Forschungsweise abweicht, hat die Zuschauer rasch in Aufregung versetzt.

Die ersten Fachleute, die die Ergebnisse gründlich untersucht haben, haben eine ziemlich einheitliche Einschätzung abgegeben: Die Ergebnisse übertreffen die Erwartungen und sind sehr gut.

Wenn man diese Artikel als Beiträge zu Top-Konferenzen für Menschen ansieht, sind sie nicht besonders beeindruckend. Wenn man jedoch bedenkt, dass es sich um die vorläufigen Ergebnisse eines vollautomatischen Systems handelt, übersteigt die Fertigstellung deutlich die Erwartungen vieler Menschen.

"Wenn man bedenkt, dass dies nur der autonome Anfang einer KI ist und dass sie 7×24 Stunden stabil Artikel von dieser Qualität produziert, was braucht man dann noch mehr?"

Außerdem funktioniert es tatsächlich, und es gibt keine allumfassenden Halluzinationen.

Zumindest in der aktuellen Phase hat FARS einen wichtigen Sprung gemacht. Es hat erstmals bewiesen, dass eine unbeaufsichtigte Forschungs-"Fließband" nicht nur funktioniert, sondern auch in relativ stabilen Bedingungen kontinuierlich Kurzartikel von akademischer Wettbewerbsfähigkeit produzieren kann.

Die "Seltenheit des Publizierens von Artikeln" ist zerstört.

Die furchtbare "industrielle Taktung": Rechenleistung wird in Wissen umgewandelt

FARS ist kein einzelnes Modell, sondern ein System mit mehreren Agenten, das aus vier Funktionsmodulen besteht:

Ideation (Konzeption): Verantwortlich für die Literaturrecherche und die Generierung von Hypothesen
Planning (Planung): Verantwortlich für die Planung von Experimenten
Experiment (Experiment): Verantwortlich für das Schreiben und die Ausführung von Code
Writing (Schreiben): Verantwortlich für das Verfassen von Artikeln

Aus der Echtzeit-Betriebsoberfläche lässt sich direkt erkennen, dass FARS mehrere Forschungsaufgaben parallel in Form einer Projektwarteschlange bearbeitet. Jedes Thema durchläuft nacheinander die vier Phasen Ideation → Planning → Experiment → Writing. Der Prozess ist stark modularisiert und zeigt deutliche Merkmale einer "Forschungsbaustelle".

FARS-Echtzeit-Betriebsoberfläche: Die automatisierte Forschungsfließband wird erstmals in einer beobachtbaren Form vollständig dargestellt, von der Hypothesengenerierung bis zum Artikel schreiben.

Um FARS konzentriert an der Forschung zu arbeiten, hat Analemma für es einen Rechencluster mit 160 Grafikkarten aufgebaut und es ermöglicht, fast alle Open-Source- und Closed-Source-Großmodelle einzusetzen. Die experimentellen Bedingungen übertreffen die meisten Hochschul-Labore.

Die Produktivität dieser "Fließband" ist bereits aufmerksamkeitserregend. Innerhalb eines kontinuierlichen Betriebszyklus von etwa 228 Stunden (≈9,5 Tage):

Das System hat 244 Forschungsannahmen generiert.
Es wurden 100 Kurzartikel fertiggestellt.
Insgesamt wurden 11,4 Milliarden Token verbraucht.
Die Gesamtkosten beliefen sich auf etwa 104.000 US-Dollar (≈750.000 Yuan).

Der gesamte Prozess verlief ohne menschliche Eingriffe.

Nach weiterer Normalisierung wird die "industrielle Taktung" dieses Systems noch deutlicher: Im Durchschnitt wird alle etwa 2 Stunden und 17 Minuten ein Forschungsartikel fertiggestellt. Die durchschnittlichen Kosten pro Artikel betragen etwa 1.000 US-Dollar, und es werden mehr als eine Milliarde Token verbraucht.

Im Vergleich zur üblichen Forschungszykluszeit von 3 bis 6 Monaten pro Artikel bei Menschen ist diese Produktivitätsdifferenz fast von einer Größenordnung, und die Kosten sind äußerst niedrig.

Wenn man jedoch von der Produktivität zur Effizienz schaut, ist der Verbrauch von etwa 114 Millionen Token pro Artikel deutlich höher als bei normalem Schreibgenerieren (normalerweise im Millionenbereich) und bei üblichen komplexen Agentenaufgaben (normalerweise im Millionen- oder Milliardenbereich).

Dies zeigt, dass FARS sich noch in der Phase der "Austausch von Rechenleistung gegen Intelligenz" befindet. Seine Leistung basiert eher auf der Rechenintensität als auf der maximalen Komprimierung der Algorithmuseffizienz.

Insgesamt gesehen hat FARS durch praktische Ergebnisse bewiesen, dass eine end-to-end-automatisierte Forschungsfließband in Bezug auf die Produktivität tatsächlich machbar ist. Andererseits gibt es noch Raum für Verbesserungen bei den Token- und Kostenstrukturen, um es "kostengünstig im großen Maßstab zu betreiben".

Qualität: Schreibt es schnell, aber auch gut?

Eine große Menge bedeutet nicht automatisch eine hohe Qualität. Welches Niveau haben die Artikel, die FARS geschrieben hat?

Dafür hat das Forschungs-Team das von der Stanford University entwickelte KI-Bewertungssystem Agentic Reviewer (paperreview.ai) verwendet, um die 100 Artikel gemäß den Bewertungsstandards der ICLR einheitlich zu bewerten.

Laut der öffentlichen Bewertung der Entwickler erreicht der Agentic Reviewer in Bezug auf die Übereinstimmung der Bewertungen das Niveau menschlicher Gutachter.

Die Entwickler haben einen Vergleichstest anhand der ICLR 2025-Bewertungsdaten durchgeführt, wobei der Spearman-Korrelationskoeffizient verwendet wurde. Mensch vs. Mensch: 0,41; KI vs. Mensch: 0,42. Die Entwickler glauben, dass die agentische Bewertung sich dem menschlichen Niveau annähert.

Aus den gesamten Bewertungsergebnissen geht hervor, dass die 100 Artikel, die von FARS produziert wurden, einen Durchschnittswert von 5,05 (Bereich 3,0–6,3) erreicht haben.

Einige Artikel liegen im unteren Bereich von 3,0–4,5, und nur wenige haben einen Wert von über 6,0 erreicht.

Die Artikel von FARS haben hauptsächlich einen Wert um 5, was zeigt, dass die Qualität nicht zufällig schwankt, sondern eine relativ stabile "Qualitätszone" gebildet hat. Einige wenige Proben haben einen Wert von über 6, was bedeutet, dass das System gelegentlich hervorragende Arbeiten produzieren kann.

Wie sieht es mit diesem Ergebnis im Vergleich zu den menschlichen Leistungen aus?

Zum Vergleich: Der Durchschnittswert der menschlichen Beiträge zur ICLR 2026 betrug 4,21, und der Durchschnittswert der akzeptierten Artikel betrug 5,39.

Demzufolge liegt der Durchschnittswert von 5,05 von FARS deutlich über dem gesamten Durchschnittswert der menschlichen Beiträge, aber es besteht immer noch eine Lücke zum "durchschnittlichen Akzeptanzwert".

Man kann sagen, dass es besser als die unteren, aber noch nicht so gut wie die oberen ist.

Der Durchschnittswert der von FARS generierten wissenschaftlichen Artikel übersteigt den Durchschnittswert der menschlichen Beitragenden, aber es besteht immer noch eine Lücke zum durchschnittlichen Akzeptanzwert.

Es muss nochmals betont werden, dass diese automatisierte Produktion hauptsächlich aus Kurzartikeln besteht und

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

228 Stunden lang rasant 100 Artikel geschrieben, 11,4 Milliarden Token verbraucht: FARS ist wahnsinnig geworden!

Die furchtbare "industrielle Taktung": Rechenleistung wird in Wissen umgewandelt

Qualität: Schreibt es schnell, aber auch gut?