CVEvolve: Der selbstentdeckende Algorithmus für wissenschaftliche Bildverarbeitung vom Argonne National Laboratory in den USA mit Full - Stack

Drei Bildgebungsprobleme lösen

Das Forschungsteam des Argonne National Laboratory (ANL) in den Vereinigten Staaten hat nach einer systematischen Analyse früherer auf Künstlicher Intelligenz basierter Automatisierungsarbeiten ein Null-Code-Selbststeuerungs-Agenten-Framework namens CVEvolve entwickelt, um die für die Verarbeitung von Forschungsdaten erforderlichen Algorithmen zu finden. Dieses Framework verfügt über eine außerordentlich starke Allgemeingültigkeit. Es erfordert keine vordefinierte Problemstruktur und keine festen Prozessvorlagen. Es kann verschiedene Elemente wie Code, Daten, Bewertungsindikatoren, Suchaufzeichnungen und Visualisierungsergebnisse in einer geschlossenen Schleife verbinden und unterstützt die Entwicklung von ausführbaren Algorithmen für Computer Vision und Bildverarbeitung.

Die Ableitung einer objektiv und strengen wissenschaftlichen Schlussfolgerung ist so schwierig wie das Goldpanning im Sandmeer. Vor allem in der heutigen Zeit, in der eine Vielzahl fortschrittlicher wissenschaftlicher Instrumente und Simulationsverfahren weit verbreitet sind, sind die von der Forschungsproduktion generierten Datenmengen riesig, die Struktur locker und die Daten hochgradig unstrukturiert. Der Prozess der Verarbeitung von Forschungsdaten ist wie das Aussortieren von Gold aus Sand und hat sich zu dem entscheidendsten und zentralsten Schritt vor der Freischaltung des Datenwerts und der Aufdeckung wissenschaftlicher Wahrheiten entwickelt.

Die reale Herausforderung liegt jedoch genau hier: Domänenspezialisten verfügen oft nicht über die erforderlichen Fachkenntnisse in Computer Vision, Bildverarbeitung und Softwareentwicklung für die Datenverarbeitung. Technische Experten, die gut in der Datenverarbeitung sind, können die Fachhintergründe jedoch nicht tiefgehend verstehen und haben Schwierigkeiten, anpassungsfähige Verarbeitungsprozesse für reale Forschungsszenarien zu entwerfen.

Um die Fachwissenslücke bei der Verarbeitung von Forschungsdaten zu überwinden, hat das Forschungsteam des Argonne National Laboratory (ANL) in den Vereinigten Staaten nach einer systematischen Analyse früherer auf Künstlicher Intelligenz basierter Automatisierungsarbeiten ein Null-Code-Selbststeuerungs-Agenten-Framework namens CVEvolve entwickelt, um die für die Verarbeitung von Forschungsdaten erforderlichen Algorithmen zu finden. Dieses Framework verfügt über eine außerordentlich starke Allgemeingültigkeit. Es erfordert keine vordefinierte Problemstruktur und keine festen Prozessvorlagen. Es kann verschiedene Elemente wie Code, Daten, Bewertungsindikatoren, Suchaufzeichnungen und Visualisierungsergebnisse in einer geschlossenen Schleife verbinden, unterstützt die Entwicklung von ausführbaren Algorithmen für Computer Vision und Bildverarbeitung, ist nicht an eine einzelne Modellierungsart gebunden und verfügt über die vollständigen Fähigkeiten der Codeerstellung (Ausführung), der Effektbewertung, der historischen Nachverfolgung, der Ergebnisprüfung und der strategischen iterativen Optimierung.

Kurz gesagt, kann CVEvolve selbstständig spezielle Algorithmen für die Verarbeitung verschiedener Forschungsdaten in realen Szenarien entwickeln. Domänenspezialisten, die keine Programmierung und keine Bildverarbeitung verstehen, können so ohne Schreiben einer einzigen Codezeile schnell mit intelligenten Analysemethoden umgehen, und die Ergebnisse sind umfassender, zuverlässiger und effizienter als die früheren Methoden.

Die relevanten Ergebnisse wurden unter dem Titel 「CVEvolve: Autonomous Algorithm Discovery for Unstructured Scientific Data Processing」 auf der Preprint-Plattform arXiv veröffentlicht.

Forschungshighlights:

* Es wird ein allgemeines Agenten-Framework für die autonome Entdeckung von Algorithmen zur Verarbeitung von Forschungsdaten vorgeschlagen, das speziell für unstrukturierte Probleme entwickelt wurde und keine vordefinierte Problemstruktur und keine festen Prozessvorlagen erfordert.

* CVEvolve führt eine Sucharchitektur mit langer Sichtweite ein, die die Mechanismen von generate, tune und evolve mit der rückverfolgungsbewussten Zustandsverwaltung und der agentengetriebenen Beibehaltungstestung kombiniert, um die Flexibilität, Autonomie und Reife des Frameworks sicherzustellen.

* CVEvolve wurde anhand mehrerer Aufgaben wie der Registrierung von Röntgenfluoreszenzmikroskopiebildern, der Detektion von Bragg-Peaks und der Segmentierung von Hochenergiediffraktionsmikroskopiebildern validiert, was seine Fähigkeit zur Entdeckung praktischer Algorithmen und zur Beschleunigung wissenschaftlicher Entdeckungen bestätigt.

Paper ansehen: https://hyper.ai/papers/2605.11359

Erstellung von spezifischen Validierungsdatensätzen für drei Arten von Aufgaben

In dieser Studie wurden alle Datensätze speziell für Vergleichsexperimente erstellt.

Datensatz für die Registrierung von Fluoreszenzmikroskopiebildern

Auf der Grundlage echter Röntgenfluoreszenzbilder wurden künstlich Verschiebungen, Poisson-Rauschen, Scangestörungen und Unschärfe hinzugefügt, um die Bildunterschiede bei realen Fokusschwankungen zu simulieren. Die Bilder wurden in logarithmischer Skala dargestellt und haben eine Größe von nur 10 - 30 Pixeln. Der Datensatz besteht aus 809 Paaren von Test- und Referenzbildern. 10 % wurden zufällig als Reserve-Testmenge (holdout set) ausgewählt, und die verbleibenden 90 % wurden für die iterative Entwicklung der Algorithmen verwendet.

Beispielbild des Datensatzes für die Registrierung von Fluoreszenzmikroskopiebildern

Datensatz für die Detektion von Bragg-Peaks

Die Daten stammen aus den Diffraktionsbildern, die an allen Scanpunkten aufgenommen wurden. Anschließend wurden sie in zwei Gruppen aufgeteilt. Die Bilder in jeder Gruppe wurden pixelweise überlagert, um zwei Bilder zu erzeugen. Eines wurde für die Effektbewertung in der Algorithmentwicklungsstufe verwendet, und das andere wurde als Reserve-Testmenge (holdout set) beibehalten. Die Bragg-Peaks in beiden Bildern wurden manuell markiert.

Datensatz für die Segmentierung von Hochenergiediffraktionsmikroskopiebildern: Der Entwicklungsdatensatz enthält 5 Bilder und ihre manuell erstellten Labels, und die Reserve-Testmenge besteht aus 2 Proben.

Drei Prozesse und fünf Werkzeuge: Aufbau eines Agentenwerkzeugs mit LLM als Kern

Im Gesamtaufbau ist CVEvolve ein autonomer Suchcontroller mit einem Large Language Model (LLM)-Agenten als Kern. Der Agent kann mithilfe von Werkzeugen Kandidatenlösungen generieren, ausführen und bewerten, und der Controller bestimmt auf der Grundlage historischer Daten die Richtung für die weitere Exploration. Die Iterationsstrategie basiert auf dem Pty-Chi-Evolve-Framework und umfasst die drei Arten von Aktionen generate, tune und evolve. Durch eine erweiterte Werkzeugmenge und eine verbesserte Zustandsverwaltung kann es auf mehr Aufgaben angepasst werden.

Um die Länge des Kontexts zu kontrollieren und die Rechenkosten zu reduzieren, wird in jeder Iteration ein neuer Kontext verwendet. Nur die Systemhinweise und die Aufgabenhinweise, die der aktuellen Aktion entsprechen, werden beibehalten, und die historischen Dialogaufzeichnungen werden nicht akkumuliert. In derselben Iteration können generate und tune von mehreren parallelen Arbeitern gleichzeitig ausgeführt werden, so dass das System mehrere neue Lösungen gleichzeitig erkunden oder mehrere Optimierungsrunden für verschiedene ursprüngliche Inhalte vornehmen kann, bevor es die Dialogaufzeichnungen aktualisiert.

Nach jeder Iteration werden die von dem Agenten vorgeschlagenen Kandidatenalgorithmen nach ihrer Abstammungslinie (Lineage) gruppiert, um die Vererbungszusammenhänge zwischen Eltern und Kindern zu verfolgen und gute Entwurfsmuster beizubehalten. Die Kandidatenauswahlarchitektur basiert auf dem MAP-Elites-Algorithmus und erfolgt zufällig. Bei den Schritten tune und evolve wählt CVEvolve zufällige Kandidaten anstelle der jeweils besten Kandidaten.

Arbeitsablauf in drei Phasen

Schematischer Arbeitsablauf von CVEvolve

* Phase der Arbeitsraumvorbereitung: Die Arbeit beginnt mit der Vorbereitung des Arbeitsraums und dem Aufbau der Laufzeitumgebung. Die Aufgabenbeschreibung oder die vom Benutzer angegebenen Bewertungsindikatoren werden automatisch in ausführbaren Bewertungscode umgewandelt.

* Phase der Baselinebewertung: Die vorhandenen Baselinealgorithmen werden ausgeführt und evaluiert, um eine Basis für die nachfolgenden Vergleichsarbeiten zu schaffen.

* Phase der iterativen Algorithmentwicklung: Es wird eine mehrfache zyklische Suche gemäß der Strategie von generate, tune und evolve durchgeführt. Dabei ist generate für die breite Exploration und die mehrthreadige Neuentwicklung neuer Algorithmen verantwortlich, tune für die grundlegende Optimierung und die zufällige Auswahl und Parameteroptimierung von Kandidatenalgorithmen, und evolve für die iterative Weiterentwicklung und die Fusion der Stärken mehrerer Algorithmen zur Erzeugung neuer Algorithmen.

Darüber hinaus enthält der gesamte Arbeitsablauf aus Gründen der Strenge und Rationalität der Forschung auch optionale Reparaturrunden, um fehlerhafte Kandidatenalgorithmen zu reparieren, nach jeder Runde eine unabhängige Testmenge auszusondern und die Suchzustandsdatenbank abzufragen. Alle Kandidaten, Indikatoren, Iterationsrunden und Abstammungslinien werden während des gesamten Prozesses aufgezeichnet.

Fünf Kernwerkzeuge

* Dateisystemwerkzeug: Unterstützt das Auflisten, Lesen, Schreiben, Bearbeiten, Kopieren, Verschieben und Löschen von Dateien im Arbeitsraum. Erlaubt dem Agenten, Kandidaten-Code, Hilfsskripte und Bewertungswerkzeuge in der Sitzungssandbox zu schreiben.

* Umgebungsverwaltung und Codeausführungswerkzeug: Unterstützt die Installation oder Deinstallation von Abhängigkeiten und die Ausführung von Python-Skripten im Arbeitsraum.

* Bildanzeigewerkzeug: Unterstützt die Verarbeitung von Fließkomma-Bildern, die logarithmische Anzeige und Skalierung von Hochdynamikbereichsbildern sowie die Umwandlung von TIFF- in PNG-Format. Dies ermöglicht es dem Agenten, feine Strukturen, Helligkeitsänderungen und Anomalien zu erkennen, die bei normaler linearer Darstellung schwer zu bemerken sind.

* Suchzustandswerkzeug: Unterstützt den Agenten bei der Festlegung von Kernindikatoren, der Aufzeichnung von Bewertungsergebnissen, der Überprüfung historischer Daten, der Analyse von Kandidatenergebnissen und der Einreichung neuer Kandidaten in die Suchaufzeichnungen der strukturierten Abfragesprache.

* Web-Suchwerkzeug: Öffnet den Zugang zu arXiv, Semantic Scholar und Tavily, um dem Agenten die Iteration der Algorithmentwicklung mithilfe externer technischer Referenzinformationen zu ermöglichen.

Darüber hinaus wurde in der Entwurfsphase ein Multimodal-Bild-Follow-Up-Middleware hinzugefügt, um die Einschränkung zu überwinden, dass das LLM-Interface keine Bilder direkt übermitteln kann. Wenn das Werkzeug den Bildpfad zurückgibt, wird das gerenderte Bild automatisch als Follow-Up-Nachricht in den Dialog eingefügt.

Kern- und unterste Ausführungsarchitektur

CVEvolve basiert auf der Agentenanwendung von LangGraph. Bei der Ausführung wird ein vereinfachtes Knotendiagramm verwendet, und die Verarbeitung erfolgt über die vier Kernprozesse 「Nachrichtenempfang - Modellinferenz - Werkzeugaufruf - Bildnachverarbeitung」. Nachdem das Werkzeug den Bildpfad zurückgibt, wird das Bildverarbeitungsmodul es in multimodale Beobachtungsdaten umwandeln und an das Modell zurücksenden, um für die nächste Inferenzrunde verwendet zu werden, wie in der folgenden Abbildung gezeigt:

Ausführungsarchitektur von CVEvolve basierend auf LangGraph

Validierung der Praktikabilität von CVEvolve in drei Arten von wissenschaftlichen Bildverarbeitungsszenarien

Um die praktische Wirksamkeit und die Generalisierungsfähigkeit von CVEvolve zu demonstrieren, hat das Forschungsteam speziell drei realitätsnahe wissenschaftliche Bildverarbeitungsexperimente durchgeführt, und alle Experimente wurden mit Claude Opus 4.6 durchgeführt.

Registrierung von Fluoreszenzmikroskopiebildern

Die Forscher haben zunächst die Fähigkeit von CVEvolve gezeigt, robuste Algorithmen für die Translationsregistrierung von Röntgenfluoreszenzmikroskopie (XRF)-Bildern zu finden. Diese Aufgabe dient zur Kalibrierung der Bildverschiebung nach der Fokussierung des Mikroskops.

Die Baselinealgorithmen umfassen zwei Arten: die Phasenkorrelation mit einem Hanning-Fenster-Vorverarbeitungsschritt (phase correlation with a Hanning window preprocessor) und die erschöpfende Fehlerminimierung (brute-force error minimization). Der Vergleichsindikator für die Leistung ist die durchschnittliche euklidische Entfernung zwischen den berechneten und den tatsächlichen Verschiebungen (the average Euclidean distance between calculated and ground-truth shifts).

Die Studie hat die Fehlerentwicklung und die Leistungscharakteristiken über 20 Suchrunden gezeigt. In der ersten Baseline-Runde betrug der durchschnittliche euklidische Fehler der brute-force error minimization 1,25, und der Fehler der Phasenkorrelation mit Hanning-Fenster-Vorverarbeitung betrug 5,8. Nach den generate- und evolve-Runden nahm der Registrierungsfehler kontinuierlich ab und erreichte schließlich 0,8 und 0,43. Nach der neunten Runde stabilisierte sich die Leistung. Dies ist in der folgenden Abbildung gezeigt.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。