StartseiteArtikel

Anthrops aktueller Blog: Der Engpass für biologische Agenten liegt nicht im Modell, sondern in der Dateninfrastruktur

机器之心2026-06-09 16:41
Wenn Sie möchten, dass KI-Agenten wissenschaftliche Forschung betreiben, müssen Sie zuerst die Datenbank von Grund auf neu aufbauen.

Derzeit machen Coding Agents im Bereich der Softwareentwicklung beeindruckende Fortschritte. Wenn Wissenschaftler diese Entwicklung sehen, können sie sich kaum enthalten, hohe Hoffnungen zu setzen: Wann wird es dem künstlichen Intelligenz-Agenten möglich sein, in gleicher Geschwindigkeit die Menschen bei der Lösung der komplexen Probleme in der Medikamentenentwicklung, Virusüberwachung und biologischen Modellierung zu unterstützen?

Allerdings ist die Entwicklung der KI im biologischen Bereich weit langsamer als im Programmierbereich...

Kürzlich hat Anthropic einen neuen wissenschaftlichen Blogbeitrag veröffentlicht - "Paving the way for agents in biology" (Den Weg für Agenten in der Biologie ebnen). In diesem Artikel wird festgestellt: Der Engpass, der die Explosion der biologischen KI-Agenten hemmt, liegt nicht darin, dass die Inferenzfähigkeit der großen Modelle zu schwach ist, sondern darin, dass die bestehende biologische Dateninfrastruktur der Menschen wirklich viel zu rückständig ist.

Deshalb muss die biologische Dateninfrastruktur besser geeignet für die Nutzung durch Agenten werden, wenn man möchte, dass KI-Agenten wirklich an biologischen Forschungen teilnehmen.

Dieser Artikel wurde von Laura Luebbert geschrieben, einer Biologin und Machine-Learning-Forscherin.

Interessanterweise hat Laura Luebbert angegeben, dass dieser Blogbeitrag eine Woche vor der Ankündigung von Karpathy, dass er sich bei Anthropic engagieren würde, fertiggestellt wurde. Da Teile des Artikels Karpathy betreffen, war sie sich nicht sicher, ob Anthropic den Artikel als zu "Karpathy-ähnlich" empfinden würde. Überraschenderweise wurde die Ankündigung von Anthropic am gleichen Tag gemacht, an dem sie die erste Version des Artikels an sie schickte...

Im Folgenden werden wir uns genauer ansehen, wie dieser Artikel analysiert.

Die bestehende biologische Dateninfrastruktur ist für Agenten zu schwierig zu bedienen

Der Autor verwendet eine sehr interessante Analogie: Es ist so, als würde man einen KI-Agenten anweisen, mit einem Auto durch eine alte Stadt zu fahren, die vor der Erfindung des Autos gebaut wurde: Diese Stadt mag schön sein und ihre Stadtplanung aufwendig sein, aber es gibt überall enge und kurvenreiche Straßen, die für moderne Fahrzeuge schwer zu befahren sind. Im Bereich der biologischen Daten entspricht dies den verschiedenen speziellen Dateiformaten, verteilten Datenbanken und einmaligen Suchskripten.

Naturgemäß kann man der Stadt Verkehrszeichen, Parkplätze hinzufügen und manchmal auch einige Straßen verbreitern, aber die grundlegende Stadtplanung bleibt schwierig zu befahren, da sie ursprünglich für eine andere Verkehrsart konzipiert wurde.

Im Gegensatz dazu ist die Softwareinfrastruktur fast von Natur aus für "Autos", also Agenten, geeignet: Ausgebaute Straßen, klare Fahrspuren, standardisierte Signale und ein System, das eine schnelle Fahrt von A nach B ermöglicht, also Versionskontrolle, gut dokumentierte APIs und Paketmanager.

Deshalb entwickeln sich Coding-Agenten deutlich schneller als biologische Agenten.

Im Bereich der Software gibt es in der Regel strukturierte digitale Arbeitsabläufe und zuverlässige Schnittstellen, während die Infrastruktur zur Datenabfrage und -verifikation in der Computergenetik oft fragil, heterogen und stark von bestimmten Prozessen abhängig ist. Entsprechend müssen die Tools zur Bedienung dieser Infrastruktur maßgeschneidert und nur für bestimmte Bereiche oder Annahmen geeignet sein.

Darüber hinaus können Softwareergebnisse leicht getestet und schnell kompiliert und verifiziert werden. Beispielsweise kann ein Agent ein Problem auf GitHub lösen, indem er einen Patch erstellt. Wenn der Patch die Projekttests besteht, kann man feststellen, ob er wirksam ist. In der Biologie gibt es jedoch nur wenige einfache, verifizierbare und gleichzeitig sinnvolle Belohnungssignale.

Deshalb liegt der Engpass der biologischen Agenten nicht nur in der Inferenzfähigkeit, sondern auch in der fehlenden Möglichkeit, eine weitgehend verfügbare, deterministische Ausführungsschicht zur Abfrage biologischer Daten zu nutzen. Wissenschaftler können ihre Absicht sehr natürlich ausdrücken, beispielsweise "Finden Sie alle menschlichen Kinasen mit dieser Domäne und laden Sie ihre Strukturen herunter". Agenten haben jedoch oft keine zuverlässige Möglichkeit, auf die Datenbanken zuzugreifen, die die benötigten Informationen enthalten.

In der Biologie und in wissenschaftlichen Arbeitsabläufen können selbst kleine Fehler schwerwiegende Folgen haben. Beispielsweise kann die Extraktion von Koordinaten aus einer falschen Genomversion die anschließende biologische Interpretation ungültig machen. Auch das versehentliche Vermischen von RefSeq- und GenBank-Einträgen, die Behandlung eines Teils des Genoms als komplettes Genom, die Verwechslung von Segmentnamen bei Segmentviren oder das Übersehen von relevanten Einträgen aufgrund von Inkonsistenzen in den Metadatenfeldern können zu den gleichen Problemen führen.

Das ist es, was die Schönheit und die Schwierigkeit der Forschung ausmacht: Die Details sind oft von entscheidender Bedeutung.

Deshalb muss die biologische Dateninfrastruktur verbessert werden, wenn man möchte, dass Agenten wirklich bei der wissenschaftlichen Entdeckung helfen.

Karpathys "Kritik" an der Webentwicklung betrifft dasselbe Problem wie die biologischen Agenten

Der Autor ist der Meinung, dass die Diskrepanz zwischen den Anforderungen der Agenten und den von Menschen entwickelten Tools nicht nur im biologischen Bereich auftritt. Wenn man Agenten in Umgebungen setzt, die vollständig auf die Gewohnheiten der Menschen zugeschnitten sind, treten ähnliche Konflikte auf.

Vor einigen Monaten hat Karpathy bei einer Präsentation über die Softwareentwicklung in der KI-Zeit klagen müssen, dass er mit Vibe Coding eine kleine Web-Anwendung geschrieben hat, aber es ihm eine Woche gedauert hat, um die Authentifizierung, die Bezahlung und die Bereitstellung in der Browser-Hintergrundseite zu erledigen.

Dafür hat Karpathy kommentiert: "Der Code war eigentlich der einfachste Teil! Der größte Teil der Arbeit wurde im Browser durch Klicken erledigt." Das Problem war "Öffnen Sie diese URL und klicken Sie auf dieses Dropdown-Menü."

Das Fazit ist: Wir müssen diese Prozesse für die Agenten neu gestalten.

Das ist genau das Problem, mit dem sich Biologen seit langem befassen: Wir versuchen, intelligente Systeme in einer Umgebung zu betreiben, die für das Klicken von Menschen im Browser entwickelt wurde, und diese Umgebung ist voller heterogener Informationen, impliziter Vereinbarungen und manueller Prozesse.

Fallstudie: Die "Klicksteuer" in der Virologie

Bereits vor der Entstehung von KI-Agenten haben Computergenetiker und Genetiker traditionelle computergenetische Tools entwickelt, um dieses Problem zu lindern. Biopython, BioPerl, BioJulia, Entrez Direct, BioMart, gget und viele andere Arbeitsablaufbibliotheken dienen dazu, biologische Daten aus der Browser-Oberfläche zu befreien, damit Forscher direkt mit diesen Daten rechnen können.

Das Problem ist jedoch, dass biologische Daten nicht in einer einzigen Datenbank gespeichert sind und keine einheitliche Schnittstelle haben. Sie sind eher wie ein chaotisches Straßennetz: Jede Straße hat ihre eigenen Bezeichner, Vereinbarungen, Formate, Filterlogiken und Programmberechtigungen. Einige Daten können leicht über ein Programm abgerufen werden, andere sind jedoch viel schwieriger zugänglich.

Die Virologie ist einer der schwierigeren Bereiche. Bei vielen Forschungsarbeiten, von der Impfstoffentwicklung und der Entwicklung von Diagnose-Reagenzien bis hin zur Erstellung von Trainingsdaten für Proteinmodelle, ist der erste Schritt die Suche nach Sequenzen in der NCBI Virus-Datenbank. NCBI Virus ist eine Sammlung von Virussequenz-Einträgen, die Daten aus GenBank, RefSeq und dem internationalen INSDC-Ökosystem, einschließlich Pathoplexus, zusammenfasst und über eine durchsuchbare Web-Oberfläche zugänglich macht.

Forscher, die an der Entwicklung von Tools zur Überwachung von Virusepidemien beteiligt sind, wissen genau, wie viel Fachwissen hinter diesen Suchprozessen steckt. In Virologielabors werden die Anweisungen zur Datenbankverwaltung von NCBI Virus oft in Form einer langen Liste komplexer Filterkriterien weitergegeben. Benutzer müssen diese Kriterien manuell in der Web-Oberfläche wiederholen.

Das ist genau der Typ von "Browser-Klick-Arbeitsablauf", über den Karpathy geklagt hat.

Der Artikel verwendet als Beispiel die Ausbruchserklärung der Bundibugyo-Ebola-Virus-Epidemie in Kongo Mitte Mai 2026, um diese Situation zu veranschaulichen.

Sobald die ersten Virusgenomen der plötzlich auftretenden Epidemie von den Frontline-Forschern sequenziert wurden, mussten die globalen öffentlichen Gesundheitsbehörden sofort drei dringende Fragen beantworten:

  1. Wie stark hat sich dieser neue Virusstamm im Vergleich zu historischen Ebola-Viren verändert?
  2. Können die bestehenden Diagnose-Kits diesen Virus noch genau nachweisen?
  3. Sind die bestehenden Antikörpermedikamente und Therapien noch in der Lage, Patienten zu schützen?

Um diese Fragen zu beantworten, muss der erste Schritt der Analyse die Suche in der NCBI Virus-Datenbank sein, um das neue Genom mit historischen Daten zu vergleichen.

Allerdings sind die Filterkriterien zur Erstellung eines solchen Vergleichsdatasets in Virologielabors sehr komplex und werden oft als lange Liste von Wissenschaftlern aneinander weitergegeben. Forscher müssen in der komplexen Web-Oberfläche manuell Dutzende von Filtern auswählen. Für Menschen ist dies außerordentlich langweilig, und für KI-Agenten, die darauf abzielen, die Effizienz durch Automatisierung zu erhöhen, ist es eine Katastrophe...

Was passiert, wenn ein Agent versucht, selbst zu suchen?