Große Sprachmodelle dringen in das Bauingenieurwesen ein: Erster Bewertungsmaßstab für "Betonarbeiter" - Prüfung von Fähigkeiten zum Lesen und Ändern von Bauzeichnungen

DrafterBench evaluiert die Fähigkeiten von Large Language Models (LLMs) in der Modellierungstechnik und es gibt derzeit Mängel.

Der erste Benchmark für die Bewertung von automatisierten Ingenieurtasks, DrafterBench, kann dazu verwendet werden, die Leistung von Large Language Models (LLMs) bei der Aufgabe der Änderung von Ingenieurzeichnungen im Bauwesen zu testen. Durch die Simulation realer Ingenieuranweisungen werden die Fähigkeiten des Modells zur Verständnis von strukturierten Daten, zum Aufruf von Werkzeugen, zur Befolgung von Anweisungen und zur kritischen Argumentation umfassend untersucht. Die Forschungsergebnisse zeigen, dass die derzeitigen führenden LLMs zwar über gewisse Fähigkeiten verfügen, aber die allgemeine Leistung noch nicht ausreicht, um die Anforderungen in der Praxis des Ingenieurwesens zu erfüllen.

In der heutigen Zeit des Wettlaufs um die KI sind die LLMs längst nicht mehr zufrieden, nur in der akademischen Welt "Aufgaben zu lösen".

Nachdem GPT - 4o die Physik - Olympiade bestanden hat und DeepSeek Websites beherrscht aufbauen kann, müssen die LLMs sich einer realeren Frage stellen:

Können diese sogenannten "expertenmäßigen" LLMs tatsächlich auf die Baustelle gehen? Können sie den Arbeitsaufwand von Ingenieuren im Bauwesen reduzieren? Sind sie in der Welt der Bauzeichnungen nützliche Helfer oder nur Theoretiker?

Die Antwort ist noch nicht bekannt, aber DrafterBench hat den ersten Schritt zur Bewertung unternommen.

Ein Forschungsteam aus dem AIS - Labor der McGill University in Kanada hat zusammen mit der University of California, Santa Barbara (UCSB) den ersten Benchmark für die Bewertung von LLMs bei automatisierten Ingenieurtasks, DrafterBench, offiziell vorgestellt.

Dies ist der erste umfangreiche Testsuite, der speziell für die "Aufgabe der Änderung von Bauzeichnungen im praktischen Ingenieurwesen" entwickelt wurde. Sein Ziel ist es, zu überprüfen und aufzuzeigen, ob die vorhandenen LLMs in der Lage sind, die realen "Arbeitsaufgaben" in Bereichen wie dem Bauwesen zu bewältigen.

Link zur Publikation: https://arxiv.org/abs/2507.11527

Link zum Code: https://github.com/Eason - Li - AIS/DrafterBench

Link zu den Daten: https://huggingface.co/datasets/Eason666/DrafterBench

Warum wird DrafterBench benötigt?

Die Änderung von Ingenieurzeichnungen ist eine der zeitaufwändigsten und am häufigsten vorkommenden Aufgaben in Bereichen wie dem Bauwesen und der Architektur und auch ein Bereich, in dem die Notwendigkeit der Automatisierung äußerst hoch ist.

Tausende von Ingenieuren und Zeichnern im praktischen Bereich wiederholen täglich sehr kleine, aber wichtige Aufgaben wie "die Position einer Traverse ändern", "den Durchmesser einer Rohrleitung etwas vergrößern" oder "einer Bauteilzeichnung eine Kennzeichnung hinzufügen".

Diese Art von Arbeit ist normalerweise mit einem großen Arbeitsaufwand, hohen Standards und einer geringen Fehlerquote verbunden, erfordert aber keine hohen technischen Fähigkeiten. Es wird von den Arbeitnehmern eine starke Gesamtausführungsfähigkeit in Bezug auf "Aufgabenverständnis, Detailbearbeitung und Zusammenarbeit in der Aufgabenkette" verlangt.

Deshalb hat das Forschungsteam die Frage gestellt:

Wenn ein LLM die Anweisungen in einer Zeichnung verstehen, eine Werkzeugkette aufrufen und die Zeichenelemente präzise ändern kann, ist es nicht nur ein "Meister im Schreiben von Präsentationen", sondern auch ein "Segen für Ingenieure im Bauwesen".

Wie funktioniert DrafterBench?

DrafterBench hat die Änderung von Zeichnungen als Kernaufgabe. Es wurden 1920 hochwertige Aufgaben aus 20 realen Projekten gesammelt und entwickelt, die 12 Arten von Anweisungen umfassen und reale Ingenieuranweisungen unterschiedlicher Schwierigkeit und Stile simulieren.

DrafterBench befragt das Modell nicht nur "schrittweise", sondern bewertet umfassend die folgenden vier Dimensionen der Aufgabenfähigkeit.

Fähigkeit zum Verständnis von strukturierten Daten: Kann das Modell die Schlüsseldetails aus Sätzen unterschiedlicher Stile genau extrahieren?

Fähigkeit zum Aufruf von Werkzeugen: Kann das Modell mehrere Werkzeuge zu einer effektiven Handlungskette kombinieren und die richtige Reihenfolge und die Parameter korrekt aufrufen?

Fähigkeit zur Befolgung von Anweisungen: Bei einer langen Anweisung mit mehreren Änderungszielen kann das Modell alle Aufgaben ausführen und die Ausführungskette nicht abbrechen?

Fähigkeit zur kritischen Argumentation: Kann das Modell fehlende Informationen oder unlogische Inhalte in der Anweisung erkennen und die unklären Details ergänzen und die Fehler korrigieren?

Dies ist keine Theoriearbeit, sondern eine reale Ingenieurpraxis.

Wie bewertet DrafterBench ein Modell?

In DrafterBench muss das Modell die Aufgabe durch "Aufruf von Werkzeugen über Code" erfüllen.

Diese Werkzeuge umfassen die Bearbeitung von Zeichenelementen, die Anpassung von Kennzeichnungen, die Zeichenlogik usw. Sie sind voneinander abhängig und bilden eine "Ingenieuraufgabenkette".

Aber es gibt ein Problem:

Werden die Werkzeuge richtig aufgerufen? Sind sie vernünftig kombiniert?

Werden die Zwischenschritte erfolgreich übertragen? Werden überflüssige oder falsche Befehle verwendet?

Es ist nicht möglich, dies nur anhand der Ausgabe der Zeichnung zu beurteilen. Deshalb hat DrafterBench ein ganzes Dual - Funktionssystem (Dual function system) entwickelt.

Jedes Werkzeug hat eine "Stellvertreterversion", die die Zeichnung nicht tatsächlich ändert, sondern die Aufrufreihenfolge, die Parameterwerte und den Variablenstatus aufzeichnet und in einer strukturierten JSON - Form ausgibt, um die "Aktionspfade" des Modells klar wiederherzustellen.

DrafterBench betrachtet nicht nur, ob das Modell die Aufgabe richtig gelöst hat, sondern auch "warum es falsch gelöst hat, in welchem Schritt es fehlgeschlagen ist und wo der Fehler liegt".

Wie performt das Modell? Ein gemischtes Bild!

DrafterBench hat die führenden SOTA - LLMs bewertet, darunter die OpenAI GPT - 4o / o1 - Serie, Claude 3.5 Sonnet, Deepseek - V3 - 685B, Qwen2.5 - 72B - Instruct und LLaMA3 - 70B - Instruct.

Insgesamt haben diese Modelle eine gewisse Leistung erreicht, die durchschnittlichen Punktzahlen liegen über 65 Punkten.

OpenAI o1 führt mit einer Gesamtwertung von 79,9 an. Claude3.5 Sonnet und Deepseek - V3 - 685B haben ebenfalls eine sehr ähnliche Leistung mit 73,79 bzw. 73,09 Punkten.

Dies zeigt, dass die derzeitigen führenden LLMs über eine gewisse Fähigkeit zur Bearbeitung von Ingenieuraufgaben verfügen, insbesondere bei der Ausführung einfacher Anweisungen ist ihre Leistung stabil.

Allerdings liegt die Gesamtleistung der Modelle immer noch weit hinter den tatsächlichen Anforderungen in der Industrie an die Ausführungsgenauigkeit und die Vollständigkeit des Prozesses.

Was noch wichtiger ist, es gibt deutliche Unterschiede zwischen den Modellen in den vier Dimensionen der Aufgabenfähigkeit.

Beispielsweise ist die Leistung der Modelle bei der Aufgabe des Verständnisses strukturierten Daten insgesamt stabil, und sie sind robuster gegenüber verschiedenen Sprachstilen.

Bei der Aufgabe des Werkzeugaufrufs schwankt die Genauigkeit jedoch deutlich, mit einer durchschnittlichen Schwankung von 9 Prozentpunkten. Bei der Fähigkeit zur Befolgung von Anweisungen zeigen einige Modelle eine starke Aufgabenbelastungsfähigkeit. Beispielsweise haben OpenAI o1 und Claude3.5 Sonnet eine gute Störunterdrückung und können die Grundvollständigkeit der Aufgaben aufrechterhalten.

Bei der Aufgabe der kritischen Argumentation ist die Leistungsdifferenz zwischen den Modellen besonders deutlich.

OpenAI o1 zeichnet sich bei der Erkennung fehlender Informationen in Anweisungen und der Filterung von Schlüsselinformationen aus, während Qwen2.5 in der Ergänzung von Details stärker ist.

Die anderen Modelle zeigen in diesen beiden Dimensionen starke Schwankungen und unterschiedliche Leistungen.

Das Forschungsteam hat weiterhin ein automatisches Fehleranalysewerkzeug verwendet, um die Ursachen für das Scheitern jeder Aufgabe strukturiert zurückverfolgen zu können.

Die Ergebnisse zeigen, dass die häufigsten Fehlertypen der Modelle unklare Parameterdefinitionen, fehlgeschlagene Variablenübertragungen, durcheinandergekommenen Funktionsaufrufstrukturen, falsche Werkzeugauswahl und chaotische Logik bei der Kombination mehrerer Werkzeuge sind.

Was noch wichtiger ist, selbst wenn mehrere Schritte korrekt ausgeführt werden, führt eine Abweichung in einem wichtigen Schritt dazu, dass die endgültige Änderung der Zeichnung fehlschlägt.

Dies erklärt auch, warum die Genauigkeit der Einzelaufgaben der meisten Modelle bei etwa 60 % liegt, die Vollständigkeit der Gesamtaufgabenänderung jedoch deutlich niedriger ist, nur bei etwa 40 %.

Schlussfolgerung und Ausblick

Diese Bewertungsergebnisse zeigen, dass obwohl die derzeitigen LLMs bereits über eine gewisse Fähigkeit verfügen, komplexe Aufgabenstrukturen zu zerlegen und Ingenieurwerkzeuge aufzurufen, sie es noch schwer tun, alle Details einer gesamten Aufgabenkette sicher zu beherrschen. Ihre Anpassungsfähigkeit an reale Szenarien reicht noch nicht aus, um die Anforderungen in der Praxis des Ingenieurwesens zu erfüllen.

Wenn die meisten früheren Bewertungen von LLMs noch auf der Frage "kann es" basierten, liegt der Beitrag von DrafterBench darin, dass die Modelle erstmals einer Prüfung unterzogen wurden, ob sie "gut arbeiten können".

Im Bauwesen werden Helfer benötigt, die fehlertolerant, gut urteilen können, die Regeln kennen und ausführen können. DrafterBench liefert die Datenunterstützung und den Pfad zur Validierung für dieses Ziel.

Das Forschungsteam wird künftig die Aufgabearten auf die Prüfung von Zeichnungen, die Überprüfung von Vorschriften und die intelligente Generierung von Bauprotokollen in anderen Ingenieuranwendungen erweitern, um die Fähigkeitsgrenzen der Modelle kontinuierlich zu erweitern.

Du hast ein Modell, DrafterBench hat die Aufgaben.

Schau, ob dein Modell es tatsächlich in der Welt der Zeichnungen schafft.

Dieser Artikel stammt aus dem WeChat - Account "New Intelligence Yuan", Autor: New Intelligence Yuan, veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Große Sprachmodelle wechseln in das Bauingenieurwesen. Das erste Bewertungsmaßstab für die ersten "Betonarbeiter": Prüfung der Fähigkeiten zum Lesen und Ändern von Bauzeichnungen.

Warum wird DrafterBench benötigt?

Wie funktioniert DrafterBench?

Wie bewertet DrafterBench ein Modell?

Schlussfolgerung und Ausblick