Neues Meilenstein von Google AI: System zur "Forschung betreiben" entwickelt, schreibt Expertensoftware mit LLM + Baumsuche

Reduzieren Sie die Fehlersuche und konzentrieren Sie sich auf Innovation.

Große Modelle werden immer effizienter im Bereich der Wissenschaftsforschung.

Gestern hat Google einen sensationellen Artikel veröffentlicht und ein KI-System vorgestellt, das Wissenschaftlerinnen und Wissenschaftlern dabei helfen kann, „expertenmäßige“ wissenschaftliche Software zu schreiben.

Dieses System kombiniert große Sprachmodelle und traditionelle Baumsuche. Es kann automatisch Softwareprogramme für wissenschaftliche Aufgaben schreiben und optimieren, kann aus verschiedenen Quellen vorhandenes Wissen sammeln, dieses Wissen integrieren und neu kombinieren, um einen neuen Forschungsansatz zu entwickeln.

Google hat festgestellt, dass dieses System nicht nur regelmäßig auf Expertenniveau performt, sondern auch oft die Leistung von Menschen übertrifft. In verschiedenen Bereichen wie Genomik, öffentlicher Gesundheit und numerischer Analyse hat dieses System sogar die besten Forschungsgruppen und nationale integrierte Systeme übertroffen.

Titel der Studie: An AI system to help scientists write expert-level empirical software

Link zur Studie: https://www.alphaxiv.org/abs/2509.06503v1

Somit können Wissenschaftlerinnen und Wissenschaftler in verschiedenen Forschungsbereichen dieses KI-System nutzen, um neue Forschungsansätze und empirische Programme zu entwickeln und die wissenschaftliche Forschung effizienter durchzuführen.

Die Anwendung von KI im Bereich der Wissenschaftsforschung zeichnet sich traditionell durch Automatisierung aus. Sie kann Wissenschaftlerinnen und Wissenschaftlern bei der Durchführung von Machbarkeitsanalysen helfen, repetitive und anstrengende Aufgaben erledigen, die Zeit, die Wissenschaftlerinnen und Wissenschaftler bei der wiederholten Überprüfung und Programmierung verschwenden, reduzieren und die Kreativität der Forschenden anregen.

Dieses Google-System kann Forschungsansätze integrieren und neu kombinieren, neue Strategien in wissenschaftlichen Aufgaben entwickeln und effizientere Modelle erstellen. Es ermöglicht die Einbindung von KI-Systemen in den Innovationsprozess der Wissenschaftsforschung und die Transformation von einem einfachen Codegenerierungstool zu einer iterativen, suchgetriebenen Softwareentwicklung, die von quantifizierbaren Zielen geleitet wird.

Einige Internetnutzer haben jedoch Bedenken hinsichtlich der zunehmenden Einbindung von KI in die Wissenschaftsforschung geäußert:

Das aktuelle Google-KI-System weist immer noch erhebliche Einschränkungen auf. Das System ist auf „bewertbare wissenschaftliche Aufgaben“ ausgerichtet – also auf Berechnungsaufgaben, bei denen die Leistung der Software durch Indikatoren wie Genauigkeit, Fehlerrate oder Benchmark-Ranglisten quantifiziert werden kann. Obwohl es ein breites Spektrum wissenschaftlicher Bereiche abdeckt, wird die Leistung bei nicht quantifizierbaren Aufgaben nicht erwähnt.

Es ist erwähnenswert, dass der ehemalige Google-Suchmitarbeiter Deedy Das diese Arbeit geteilt hat und am Prompt im Anhang der Studie besonders interessiert ist.

Der im Artikel verwendete Befehl: „Bitte erstellen Sie einen Algorithmus, der die Stärken zweier Strategien kombiniert, um eine wirklich hervorragende Mischstrategie zu entwickeln, deren Punktzahl höher ist als die jeder einzelnen Strategie.“ Dies zeigt, dass hervorragende Ergebnisse nicht immer sehr komplexe Prompt-Befehle erfordern.

Die ausführlichen Inhalte der Studie lauten wie folgt:

Diese Studie führt ein KI-System ein, das automatisch expertenmäßige empirische Software für wissenschaftliche Berechnungsaufgaben erstellt. Das System kombiniert große Sprachmodelle und Baumsuchalgorithmen, um iterativ Lösungen für wissenschaftliche Software zu generieren, zu bewerten und zu verbessern. Die Kerninnovation besteht darin, dass das große Sprachmodell nicht nur zur einmaligen Codegenerierung verwendet wird, sondern als intelligenter „Mutation“-Motor im Suchprozess des Systems fungiert, der Forschungsansätze aus der wissenschaftlichen Literatur integrieren und neu kombinieren kann.

Abbildung 1: (a) Systemarchitektur: Zeigt, wie bewertbare Probleme und Forschungsansätze in ein großes Sprachmodell (LLM) eingegeben werden, von dem Code generiert und in einer Sandbox-Umgebung evaluiert wird. Die Ergebnisse werden in einer Baumsuchstruktur organisiert. (b) Leistungsvergleich: Vergleich der Erfolgsraten verschiedener Methoden. Die Ergebnisse zeigen, dass die Kombination von expertengesteuerter Baumsuche (TS) die höchste Erfolgsrate erzielt hat. (c) Herkunft der Forschungsansätze: Einschließlich Expertenwissen, wissenschaftlicher Artikel und von KI generierten neu kombinierten Lösungen.

Problemstellung und Methode

Das Ziel dieses Systems sind „bewertbare wissenschaftliche Aufgaben“ – also Berechnungsaufgaben, bei denen die Leistung der Software durch Indikatoren wie Genauigkeit, Fehlerrate oder Benchmark-Ranglisten quantifiziert werden kann. Solche Aufgaben umfassen ein breites Spektrum wissenschaftlicher Berechnungsanwendungen, von der Genomik über die Epidemiologie bis hin zur Bildanalyse.

Diese Methodik basiert auf der Zusammenarbeit dreier Kernkomponenten:

1. LLM-basierte Codevariation

Anstatt Code von Grund auf neu zu generieren, wird der vorhandene Kandidaten-Code kontinuierlich von dem LLM umgeschrieben und optimiert. Das System nutzt das Verständnis des LLM für Programmierlogik und domänenspezifischen Kontext, kombiniert es mit Forschungsansätzen und Leistungsrückmeldungen und führt so intelligente Änderungen und Verbesserungen durch.

2. Baumsuchnavigation

Der Codegenerierungsprozess wird in einen Baumsuchalgorithmus integriert, um den riesigen Software-Lösungsraum systematisch zu erkunden. Der Suchprozess findet ein Gleichgewicht zwischen „Nutzung“ (konzentrierte Verbesserung bestehender guter Lösungen) und „Erkundung“ (Suche nach neuen Methoden) und verwendet eine von AlphaZero inspirierte Variante des PUCT-Algorithmus.

3. Integration von Forschungsansätzen

Eine Besonderheit dieses Systems ist die Möglichkeit, über verschiedene Kanäle externes Wissen einzubringen:

Direkte Injektion von Forschungsansätzen aus wissenschaftlichen Artikeln und Lehrbüchern
Nutzung von Tools wie Gemini Deep Research, um Forschungsansätze aus dem LLM zu generieren
Programmgesteuerte Neukombination bestehender erfolgreicher Lösungen, um Mischstrategien zu entwickeln

Dieses System wurde im Rahmen des Kaggle playground Wettbewerbs entwickelt und iterativ verbessert. Aufgrund des schnellen Iterationszyklus und des klaren Referenzpunkts der menschlichen Leistung ist es eine ideale Testplattform.

Hauptbefunde in verschiedenen wissenschaftlichen Bereichen

Genomik: Einzelzell-RNA-Sequenzierung

Bei der herausfordernden Aufgabe, technische Batch-Effekte aus Einzelzell-RNA-Sequenzierungsdaten zu entfernen und gleichzeitig das biologische Signal zu erhalten, hat das System 40 neue Methoden entwickelt, deren Leistung alle veröffentlichten Methoden auf der OpenProblems-Rangliste übertrifft. Die beste Methode, BBKNN (TS), kombiniert die ComBat-korrigierte PCA-Embedding mit batch-ausgeglichenen k-nächsten Nachbarn und verbessert die Leistung gegenüber der bisher besten Methode (ComBat) um 14%.

Abbildung 2: Fortschrittsdiagramm der Baumsuche, das die Verbesserung der Leistung während des Iterationsprozesses zeigt und an den Bruchpunkten die wichtigsten algorithmischen Innovationen markiert. Das System hat Methoden zur Optimierung der batch-sensiblen Graphenkonstruktion und zur Implementierung der ComBat-Genexpressionskorrektur entwickelt.

Geospatialanalyse: Satellitenbildsegmentierung

Bei der dichten pixelweisen semantischen Segmentierung von Satellitenbildern mit dem DLRSD-Datensatz haben die drei besten Lösungen des Systems die neuesten wissenschaftlichen Artikel deutlich übertroffen, mit einem durchschnittlichen IoU-Score von mehr als 0,80. Diese Lösungen basieren auf bestehenden Architekturen (UNet++, SegFormer), optimieren jedoch ihre Integration mit leistungsstarken vortrainierten Encodern und umfangreichen Datenverstärkungsstrategien.

Abbildung 3: Beispiel für Satellitenbildsegmentierungsergebnisse, die das Originalbild (oberste Zeile), die echte Maske (mittlere Zeile) und die Systemvorhersage (unterste Zeile) zeigen. Das System hat verschiedene Merkmale wie Flughäfen, Landebahnen, Flugzeuge und Infrastruktur erfolgreich segmentiert.

Neurowissenschaft: Vorhersage der hirnenweiten neuronalen Aktivität

Beim Modellieren der Aktivität von über 70.000 Neuronen im Zebrabärblingehirn (ZAPBench) hat das vom System generierte beste Modell alle Baseline-Modelle bei der mehrschrittigen Vorhersage übertroffen und ist um mehrere Größenordnungen schneller in der Trainingsphase als konkurrierende Videomodelle. Das System hat erfolgreich den biophysikalischen Neuronen-Simulator (Jaxley) in eine leistungsstarke Lösung integriert.

Zeitreihenvorhersage

Im GIFT-Eval-Benchmark, der 28 verschiedene Zeitreihendatensätze umfasst, hat das System auf mehreren Datensätzen die Rangliste übertroffen. Bemerkenswerterweise hat es von Grund auf eine einheitliche Vorhersagebibliothek erstellt, die sich selbst an verschiedene Datensätze anpasst und Zeitreihen in ihre einzelnen Bestandteile zerlegt.

Abbildung 4: Verteilung der vom System gefundenen erfolgreichen Vorhersagemethoden. Gradienten-Boosting-Methoden (GBM) und Ensemble-Methoden sind bei verschiedenen Vorhersageaufgaben die am häufigsten erfolgreichen Strategien.

Numerische Analyse: Komplexe Integration

Bei der Bewertung von oszillierenden Integralen mit unendlichen Grenzen (bei denen Standardalgorithmen wie scipy.integrate.quad() völlig versagen) hat der evolvierte Code 17 von 19 ausgelagerten Integralen korrekt bewertet, mit einem Fehler von weniger als 3%. Die Lösung implementiert komplexe mathematische Heuristiken, einschließlich Bereichsteilung und Euler-Transformation zur Beschleunigung der Reihenentwicklung.

Technologische Innovation: Forschungsansätze und Neukombination

Eine Schlüsselinnovation ist die systematische Integration von Forschungsansätzen und ihre intelligenten Neukombination. Das System kann die Kernprinzipien verschiedener Methoden analysieren und Anweisungen zur Erstellung von Mischmethoden generieren.

Abbildung 5: Analyse der Ergebnisse der Methodenneukombination, die den Leistungsvergleich zwischen den ursprünglichen Methoden und ihren kombinierten Versionen zeigt. Grüne Balken stellen erfolgreiche Verbesserungen dar, rote Balken eine Leistungseinbuße, während blaue Balken die Leistung der ursprünglichen Methode anzeigen.

Zusammenfassung

Diese Studie zeigt, dass KI nicht nur Automatisierung ermöglichen kann, sondern auch in mehreren wissenschaftlichen Bereichen systematisch die Leistung von Menschen bei der Entwicklung wissenschaftlicher Software übertreffen kann. Das System erzielt in Bereichen wie Bioinformatik, Epidemiologie, Geospatialanalyse, Neurowissenschaft und numerischer Analyse kontinuierlich expertengleiche oder sogar übermenschliche Ergebnisse, was seine breite Anwendbarkeit unterstreicht.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Neues Meilenstein von Google AI: Ein System, das "Forschung betreiben" kann, ist entstanden. Es schreibt Expertensoftware mit LLM + Baumsuche.

Problemstellung und Methode

Hauptbefunde in verschiedenen wissenschaftlichen Bereichen

Technologische Innovation: Forschungsansätze und Neukombination

Zusammenfassung