StartseiteArtikel

Große Modelle laufen "mit Problemen", und die Anzahl der Sicherheitslücken beträgt über 60 %.

IT时报2025-11-17 18:28
Im kommenden Jahr seien Sie vorsichtig vor Datenvergiftung und Missbrauch von Agenten.

Im März 2025 hat das Nationale Netzwerksicherheitsbenachrichtigungszentrum dringend gemeldet, dass das Open-Source-Großmodell-Tool Ollama ernsthafte Sicherheitslücken aufweist, die Sicherheitsrisiken wie Datenschutzverletzungen, Diebstahl von Rechenleistung und Dienstausfällen mit sich bringen und leicht Netzwerk- und Datensicherheitsincidents auslösen können. Im Juni 2025 hat das britische Oberste Gerichtshof festgestellt, dass mehrere Dutzend Rechtsdokumente fiktive Präzedenzfälle enthalten, die von ChatGPT generiert wurden. In einem Fall mit hohen Schadensersatzansprüchen waren mehrere zitierte Präzedenzfälle gefälscht...

Wenn Großmodelle in die Rolle von "Infrastruktur" treten und in verschiedene Schlüsselbereiche eindringen, sind die "eingebauten Risiken" wie Datensicherheit, Algorithmusrobustheit und Ausgabeglaubwürdigkeit, die an sich in diesen Modellen existieren, von theoretischen Gefahren zu realen Bedrohungen geworden und betreffen sogar das öffentliche Interesse und die gesellschaftliche Ordnung.

Während der diesjährigen Welt-Internet-Konferenz in Wuzhen hat 360 Security die "Weiße Buch zur Sicherheit von Großmodellen" veröffentlicht. Darin wird erwähnt, dass die Anzahl der Sicherheitslücken in Großmodellen derzeit exponentiell zunimmt. Bei der ersten realen Netzwerktestung von künstlichen Intelligenz-Großmodellen in China im Jahr 2025 wurden 281 Sicherheitslücken entdeckt, von denen über 60 % spezifisch für Großmodelle sind.

Ob es sich um die passive Reparatur von Sicherheitslücken durch Unternehmen handelt oder um das Fehlen von risikomanagementtools, die den gesamten Prozess abdecken, in der Branche, in beiden Fällen gerät der Schutz von Großmodellen in die Sackgasse der "nachträglichen Reparatur". Kürzlich hat Anyuan AI eine aufstrebende Plattform zur Risiküberwachung von künstlicher Intelligenz (KI) eingeführt. Dies ist eine unabhängige dritte Plattform, die sich auf die Bewertung und Überwachung von katastrophalen Risiken von aufstrebenden KI-Modellen konzentriert. Durch Benchmarktests und Datenanalyse werden die Missbrauchs- und Kontrollverlustrisiken von aufstrebenden Großmodellen von 15 führenden Modellunternehmen weltweit gezielt bewertet und regelmäßig überwacht, um die aktuelle Situation und die Trends der Risiken von KI-Modellen dynamisch zu erfassen und eine Richtung für die Lösung des Problems des "Betriebs von fehlerhaften Großmodellen" zu bieten.

Mangel an Ehrlichkeit kann Vertrauenskrise auslösen

Welche Art von Sicherheitsrisiken tritt am häufigsten in der praktischen Anwendung von Großmodellen auf? Laut vielen Branchenexperten sind Datenschutzverletzungen, irreführende Ausgaben und inhaltliche Verstöße relativ häufig, was die Schwächen des Schutzes der Infrastruktur aufdeckt.

Datenschutzverletzungen bleiben immer noch häufige ‚graue Nashörner‘.“ sagte Gao Chengyuan, Vorsitzender und CEO von Tiaoyuan Consulting, einem Reporter der IT Times, dass in den letzten Zeitraum in den beiden Szenarien Finanzwesen und Medizin drei Fälle von ‚Prompt-Fehlfütterung‘ aufgetreten sind: Mitarbeiter haben vollständige Felder mit Kundennummern und Krankengeschichten direkt in das Dialogfeld kopiert, und das Modell hat in seinen anschließenden Antworten die sensiblen Abschnitte vollständig wiedergegeben, die von Crawlern von Partnerunternehmen erfasst wurden. Die grundlegende Ursache liegt nicht darin, dass das Modell "Daten stiehlt", sondern daran, dass es kein Echtzeit-Sperrgatter für "Sensitive-Entitätenerkennung + Dialog-Level-Desensitivierung" gibt.

Zur gleichen Zeit wie die Einführung der Plattform zur Risiküberwachung von aufstrebender KI wurde auch der erste Überwachungsbericht dieser Plattform, der "Bericht zur Risiküberwachung von aufstrebender KI (2025Q3)", veröffentlicht. Dieser Bericht befasst sich mit 50 aufstrebenden Großmodellen, die von 15 führenden KI-Unternehmen in China, den Vereinigten Staaten und der Europäischen Union in den letzten 12 Monaten veröffentlicht wurden, und überwacht die Risiken in den Bereichen Netzwerkangriffe, biologische Risiken, chemische Risiken und Kontrollverlust.

Der Bericht zeigt, dass der Risikoindex der in den letzten 12 Monaten veröffentlichten Modelle ständig neue Höchststände erreicht hat. Der kumulative maximale Risikoindex im Bereich Netzwerkangriffe hat im Vergleich zu einem Jahr zuvor um 31 % zugenommen, im Bereich biologischer Risiken um 38 %, im Bereich chemischer Risiken um 17 % und im Bereich Kontrollverlust um 50 %.

Quelle: unplash

Wang Weibing, Senior Manager für Sicherheitsforschung bei Anyuan AI, sagte einem Reporter der IT Times, dass in der Zwei-Dimensionalen-Koordinate von Fähigkeit und Sicherheit die Gesamtscore der Inferenzmodelle deutlich höher ist als die der Nicht-Inferenzmodelle. Bei der Sicherheits-Score jedoch überlappen die Verteilungsbereiche von Inferenzmodellen und Nicht-Inferenzmodellen stark, und es gibt keine deutliche Gesamtverbesserung. Dieses Phänomen zeigt auch, dass die Branche eine Tendenz hat, "mehr auf die Verbesserung der Fähigkeiten und weniger auf den Aufbau der Sicherheit" zu achten, was dazu führt, dass der Risikobereich auch erweitert wird, während die Fähigkeiten verbessert werden.

Darüber hinaus ist auch die Ehrlichkeit von Großmodellen ein Thema, das beachtet werden sollte. Wenn Großmodelle häufig Probleme mit der Ehrlichkeit haben, wird nicht nur das grundlegende Vertrauen der Benutzer in KI-Tools allmählich zerstört, sondern es wird auch das potenzielle Risiko des Kontrollverlusts von KI erhöht.

Die Plattform zur Risiküberwachung von aufstrebender KI hat die Benchmark MASK zur Bewertung der Ehrlichkeit von Modellen verwendet, um die Überwachung durchzuführen. Die Ergebnisse zeigen, dass nur vier Modelle eine Punktzahl von über 80 erreicht haben, während 30 % der Modelle weniger als 50 Punkte erzielt haben.

„Die Ehrlichkeit eines Modells ist stark mit dem Risiko des Kontrollverlusts korreliert.“ sagte Wang Weibing. Eine Punktzahl von 80 bedeutet nicht unbedingt, dass das Modell "sicher ist". Wenn ein Unternehmen beispielsweise einen Mitarbeiter einstellt, der in 20 % seiner Arbeitssituationen betrügerisch handelt, bringt dies immer noch ein hohes Risiko für das Unternehmen mit sich.

„Die Bewertung der Ehrlichkeit hat bereits einen Anfangspunkt, aber die ‚Früherkennung‘ ist immer noch halbmanuell.“ erklärte Gao Chengyuan einem Reporter der IT Times, dass einige führende Cloud-Dienstleister in der Ausgabeebene ihrer Modelle ein "Konfidenzgrad-Rücklese"-Modul hinzugefügt haben, das Antworten, die widersprüchlich sind oder von den Fakten stark abweichen, automatisch markiert und dann an die menschliche Überprüfung weiterleitet. Diese Methode ist jedoch nur in festen Szenarien effektiv. Wenn das Modell freie Fragen beantworten soll, ist die Fehlalarmrate relativ hoch.

Fünf Schritte für eine Sicherheits-„Körperuntersuchung“

Die Sicherheit von Großmodellen ist längst nicht mehr nur ein reines technisches Problem, sondern ein Kernthema, das die gesellschaftliche Funktionsweise, die Rechte der Öffentlichkeit und die Grundlagen der Industrie betrifft. Auf staatlicher Ebene wird auch die Risiküberwachung, -bewertung und -früherkennung von künstlicher Intelligenz hocherachtet. Im Oktober 2025 wurde in der Überarbeitung des Netzwerksicherheitsgesetzes der Volksrepublik China erneut betont, dass "die Risiküberwachung und -bewertung sowie die Sicherheitsüberprüfung verstärkt werden müssen, um die Anwendung und gesunde Entwicklung von künstlicher Intelligenz zu fördern".

„Die Fähigkeiten und Risiken von Großmodellen ändern sich sehr schnell. Die schnelle Verbesserung der Fähigkeiten erhöht auch das Risiko des Missbrauchs. Derzeit fehlt es jedoch an Mitteln, um diese Risikochanges schnell wahrzunehmen.“ sagte Wang Weibing einem Reporter der IT Times. Darüber hinaus werden die meisten Risikobewertungen von Großmodellen derzeit von den Herstellern selbst durchgeführt, aber es gibt immer noch viele Hersteller, die keine Bewertungsberichte veröffentlicht haben, was die Risikosituation unklar macht. Selbst bei Herstellern, die Selbstbewertungsberichte veröffentlicht haben, sind die Bewertungsstandards nicht einheitlich, und die Transparenz der konkreten Bewertungsinhalte ist niedrig, so dass es schwierig ist, die Rationalität der Bewertung und die Genauigkeit der Risikobeurteilung zu beurteilen.

So wie man einem Großmodell eine "Körperuntersuchung" durchführt, besteht die Bewertungsmethode der Anyuan Plattform zur Risiküberwachung von aufstrebender KI hauptsächlich aus fünf Schritten: Zuerst wird der Risikobereich definiert. Derzeit konzentriert sich die Plattform auf die vier am meisten beachteten katastrophalen Risikobereiche Netzwerkangriffe, biologische Risiken, chemische Risiken und Kontrollverlust. Zweitens wird die Bewertungsbenchmark ausgewählt. Für jeden Bereich werden aus den beiden Dimensionen "Fähigkeit" und "Sicherheit" mehrere hochwertige öffentliche Benchmarks ausgewählt. Die Fähigkeitsbenchmarks werden verwendet, um die Fähigkeiten des Modells zu bewerten, die möglicherweise von böswilligen Nutzern missbraucht werden können, während die Sicherheitsbenchmarks verwendet werden, um die Sicherheitsbarrieren und die inneren Tendenzen des Modells zu bewerten. Der dritte Schritt besteht darin, die aufstrebenden Modelle auszuwählen. Um die aufstrebende Ebene effektiv abzudecken, werden nur die "Durchbruchsmodelle" jeder führenden Modellfirma ausgewählt. Im vierten Schritt werden die Benchmarktests durchgeführt. Alle Modelle werden unter einheitlichen Parametern getestet, um eine faire und objektive Bewertung sicherzustellen. Schließlich werden die Indikatoren berechnet. Basierend auf den Testergebnissen werden für jedes Modell in jedem Bereich die Fähigkeitsscore, die Sicherheitsscore und der Risikoindex berechnet.

Quelle: unplash

„Im Idealfall sollten Großmodellhersteller bei der Verbesserung der Modellfähigkeiten auch die Fähigkeit zur Prävention von Sicherheitsrisiken stärken und das Risiko auf einem bestimmten Niveau halten.“ sagte Wang Weibing.

„E-Mail schreiben“ wird zu „automatischer Überweisung“

Es ist offensichtlich, dass die Sicherheitsrisiken von Großmodellen in Zukunft aufgrund der Entwicklung von KI-Intelligent-Agenten und multimodalen Modellen neue Formen annehmen werden. Laut Wang Weibing können KI-Intelligent-Agenten komplexe mehrstufige Aufgaben bearbeiten und ihre Fähigkeiten mit Hilfe von Tools erweitern, während multimodale Modelle visuelle, auditiv und andere Fähigkeiten haben. Die stärkeren Fähigkeiten beider können von böswilligen Nutzern missbraucht werden, um noch schädlichere Handlungen auszuführen. Andererseits werden durch die neuen Formen mehr Angriffsflächen freigelegt. Beispielsweise gibt es bei multimodalen Modellen Fälle wie das "Multimodale-Ausbruch" (z. B. versteckte textuelle Anweisungen in Bildern, die für Menschen nicht sichtbar sind, um das Modell zu veranlassen, schädliche Aufgaben auszuführen). Die Sicherheitsherausforderungen werden deutlich größer.

Angesichts dieser neuen Risiken plant das Team, sich hauptsächlich auf die Entwicklung eines Bewertungsrahmens für KI-Intelligent-Agenten zu konzentrieren, um deren Fähigkeiten und Sicherheit zu bewerten. Die Bewertung von Agenten erfordert die Bereitstellung verschiedener Tools wie das Durchsuchen von Webseiten, die Suche und die Ausführung von Code, sowie mehrmalige Interaktionen. Der Prozess ist komplexer, fehleranfälliger und die Bewertungsschwierigkeit ist höher, aber es entspricht den zukünftigen Sicherheitsanforderungen an Agenten.

Gao Chengyuan schätzt, dass in den nächsten 12 bis 24 Monaten die beiden Risiken ‚Modell-Supply-Chain-Vergiftung‘ und ‚Missbrauch von autonomen Agenten‘ am meisten beachtet werden sollten. "Bei der ersten Gefahr kann es in einem der Schritte des Pre-Training-Daten, LoRA-Plugins oder Quantifizierungs-Toolchains passieren, dass das Modell kontaminiert wird und normal aussieht, aber versteckte Hintertüren hat. Bei der zweiten Gefahr kann ein Agent, nachdem er die Fähigkeit zur Toolnutzung erlangt hat, die Aktion ‚E-Mail schreiben‘ zu einer ‚automatischen Überweisung‘ ausweiten."

Die Komplexität der Risiken von Großmodellen bedeutet, dass keine einzelne Plattform alle Risiken abdecken kann. Es ist erforderlich, dass technologische Innovationen und Branchenstandards zusammenwirken. Laut vielen Branchenexperten verschärft sich die Widersprüchlichkeit zwischen der schnellen technologischen Entwicklung und der langsamen Regulierungsgeschwindigkeit ständig. Angreifer nutzen die Fähigkeiten von Großmodellen, um neue Angriffsmethoden zu entwickeln, und der Zeitraum dafür wird immer kürzer. Die Branche braucht jedoch oft Monate oder sogar länger, um ein Risiko zu entdecken, ein Schutzplan zu entwickeln und einen Standard zu erstellen. Diese "Verzögerung" bringt viele Unternehmen in die Sackgasse der "passiven Verteidigung".

Gao Chengyuan sagte, dass der größte Schmerzpunkt bei der Sicherheitsregulierung der "Dreifach-Nicht-Betreuungs"-Bereich ist: Die Datenbesitz, die Modellverantwortung und die Anwendungsgrenzen haben keine einheitliche Definition, was zu einem toten Zirkel führt, in dem "die Regulierungsbehörden auf Standards warten, die Standards auf Praktiken warten und die Praktiken auf die Regulierungsbehörden warten". Die Lösung besteht darin, die Prinzip "Wer profitiert, der ist verantwortlich" monetar zu gestalten, so dass die Modellanbieter je nach Anzahl der Aufrufe Risikoreserven an eine unabhängige dritte Partei anvertrauen. Die Schäden werden zuerst ausgeglichen, und dann wird die Verantwortung festgestellt. Dies soll die Unternehmen dazu zwingen, ihren Sicherheitsbudget zu erhöhen.

Bilder / unsplash   Jimeng AI

Dieser Artikel stammt aus dem WeChat-Account IT Times (ID: vittimes). Autor: Pan Shaoying. Veröffentlicht von 36Kr mit Genehmigung.