Schrecklich, die KIs aus dem Jahr 1930 kommen alle, um die Arbeitsplätze von Programmierern zu übernehmen.
Am Tag der Arbeit muss auch das fast 100-jährige Vintage-Großmodell arbeiten.
Ja, jemand hat das Großmodell, das nur Kenntnisse aus dem Jahr 1930 hat, so feinjustiert, dass es wie ein Softwareingenieur arbeitet...
Der Prozess war einfacher, als man sich gedacht hatte. Mit nur 250 Trainingsbeispielen hat der starke Alte sein erstes Programmierproblem in seinem Leben gelöst –
Er hat einen Patch für die xarray-Bibliothek erstellt.
Ein KI-System, das noch nie einen Fernseher gesehen hat, beginnt jetzt, sich von den Claude-Systemen „verderben“ zu lassen und will den Programmierern den Job wegnehmen. (Nur eine Figur der Rede)
Der mittelalterliche siliziumbasierte Softwareingenieur
Zuerst etwas Hintergrundinformation: Wer ist 1930?
Dies ist die kürzlich sehr beliebte „Alte KI“, deren vollständiger Name talkie-1930-13b ist.
Die Verantwortlichen sind der KI-Forscher Nick Levine, der Dozent an der Universität Toronto, David Duvenaud, und der bekannte – der eigentliche Vater der GPT-Serie, Alec Radford.
Das interessanteste an der Gestaltung des Alten ist die strenge Regel bei den Trainingsdaten: Kein einzelnes Wort nach dem 1. Januar 1931 darf hinein!
Ja, es kennt weder den Fernseher noch das Internet und weiß auch nicht, wie der Zweite Weltkrieg ausgegangen ist...
Die Welt des Alten ist für immer am Mitternacht des 31. Dezember 1930 stehen geblieben.
Was das Internet jedoch „weichmacht“, ist, dass dieser Antiquität, als man ihr eine Python-Programmieraufgabe gab, diese fast einhundert Jahre alter „Geist der Vergangenheit“ tatsächlich ihre erste Zeile Python-Code geschrieben hat.
Das ist unglaublich.
Jetzt macht der Alte erneut Druck.
Jemand hat Alec Radfords 1930er Vintage-LLM feinjustiert, um reale Softwareentwicklungsprobleme aus dem SWE-bench zu lösen.
Wer hätte gedacht, dass der Alte es tatsächlich schaffte.
Nach 250 Trainingsbeispielen hat er seine erste Korrektur umgesetzt – ein kleiner Patch für die xarray-Bibliothek.
Der Hundertjährige startet hartnäckig in seinen Job.
Übrigens hat das Team den gesamten Prozess veröffentlicht, wie der Alte diesen Patch für die xarray-Bibliothek umgesetzt hat.
Ehrlich gesagt, wenn man es nach den Standards moderner LLMs beurteilt, ist diese Demo ziemlich ärgerlich.
Für ein einfaches Problem hat der Alte ganze 49 Runden gebraucht, es war lang und langsam.
Bei einigen Runden war es fast unerträglich, er war so dumm, es machte einen richtig nervös, aber man kann ja nicht einen alten Mann anschreien.
Aber manchmal macht es sogar noch mehr Spaß. Es ist wie ein Actionroman.
Ich gebe ein ganz „direktes, nicht umständliches“ Beispiel. (Nur eine Figur der Rede)
Der Alte hat am Anfang tatsächlich versagt.
Bei der 12. Runde des Dialogs hat es fehlgeschlagen, den Patch anzuwenden.
Der Code kann fehlschlagen, aber der alte Soldat stirbt nicht.
Der Alte hat nicht aufgegeben, er hat weiter probiert, bis er endlich begriffen hat, wo er sich geirrt hat...
Dann, in der 44. Runde, hat er es repariert!!
Ich weiß, dass die Korrektur an sich einfach ist. Selbst im Vergleich zu Anfängern ist die Codequalität vermutlich nicht so gut, geschweige denn im Vergleich zu den besten KI-Systemen.
Aber das Wichtigste ist das Denken des Alten während des gesamten Lösungsprozesses.
Die in diesem Prozess gezeigte Fähigkeit zum Schlussfolgern ist genau dieselbe wie die, die wir bei modernen Modellen sehen.
Ein Modell aus dem Jahr 1930 macht auch Fehler, reflektiert und korrigiert sich selbst.
Auch die Leistung im Benchmark ist beeindruckend.
Wenn die Anzahl der Trainingsdaten während der Feinjustierung auf etwa 75.000 Trajektorien, also 1 Milliarde Token, erweitert wird, erreicht das Modell auf SWE-bench-Verified 4,5% Pass@1.
Man muss bedenken, dass es zuvor auf HumanEval nur 4% Pass@100 erreicht hat. Der Fortschritt ist beträchtlich.
Obwohl der absolute Wert noch niedrig ist, ist es für ein Modell mit 1930er Kenntnissen schon erstaunlich.
Noch interessanter ist ein anderes Vergleichsexperiment.
Tatsächlich hat das Team auch ein Bruder-Modell für den Alten trainiert, namens talkie-web, das auf Internetdaten vortrainiert wurde.
Mit derselben Feinjustierung hat talkie-web auf SWE-bench-Verified 5,5% erreicht.
Ja, selbst wenn das Team dem Zwillingsbruder Internetdaten gibt, ist er nur 1 Prozentpunkt besser als der Alte.
Die obigen Ergebnisse können gerne reproduziert werden.
Dies ist kein Zeitreise-Actionroman. Das Team hat das Projekt auf GitHub open source gemacht. Der Link befindet sich am Ende des Artikels. Interessierte können es gerne testen.
Das Team selbst ist sehr aufgeregt und schreibt im README:
Wenn Sie über mehr Rechenleistung verfügen, würden wir gerne die vollständigen Skalierungskurven des 1930er-Modells und des Internet-Modells bei der fortgesetzten Nachbereitungs-Expansion vergleichen.
Das möchte man unbedingt sehen. Das ist viel interessanter als ein einfacher Benchmark, der nur die Stärke zeigt.
Was ist Intelligenz?
Das Team hat nicht die Gründe dahinter analysiert, aber ich habe viele Kommentare von Nutzern unter dem Beitrag gelesen und finde, dass dies ein Thema ist, das diskutiert werden sollte.
Wir haben immer gedacht, dass KI die gesamte Internetdatenmenge verarbeiten muss, um intelligent zu werden.
Aber wenn ein Modell, das nur Bücher vor 1930 gelesen hat, nach einer kleinen Nachbereitung Code schreiben und Bugs beheben kann...
Müssen wir nicht auch unser Verständnis von „Was ist Intelligenz“ neu überdenken?
4,5% Pass@1 ist im Vergleich zu den heutigen besten Systemen natürlich nicht viel. Aber das, was es beweist, ist wichtiger als jede Benchmark-Zahl.
Ein Mensch aus den 1930er Jahren, der fast dasselbe Bildungssystem hatte, könnte moderner Softwareentwicklung durchaus folgen.
Die Datenmenge aus vor einem Jahrhundert, zusammen mit der richtigen Nachbereitungsmethode, reicht aus, um moderne Schlussfolgerungen zu ermöglichen.
Die Grenze der Intelligenz liegt vielleicht nie in der Menge der Vortrainingsdaten.
Sie brauchen kein Modell, das alle Kenntnisse gelernt hat. Es muss nur über grundlegende Sprachverstehensfähigkeiten verfügen, und das reicht.
Vielleicht können wir uns auch mal kurz auf der Reise der Skalierung anhalten, uns umsehen und mit den Menschen um uns herum plaudern –
Hey, sag mal...
Was ist eigentlich das Wesen der Intelligenz?
Referenzlinks:
[1]https://x.com/rdolmedo_/status/2050665193374732430?s=20
[2]https://github.com/RicardoDominguez/talkie-coder
Dieser Artikel stammt aus dem WeChat-Account „Liangziwei“. Autor: Immer auf der Suche nach neuesten Technologien. Veröffentlicht von 36Kr mit Genehmigung.