Weltweit erstmals: Schwergewichtige Studie in "Nature" - Das Zeitalter des "Datenklauens" in der Computervision ist vorbei
Die Technologie des maschinellen Sehens (Computer Vision, CV) wird in vielen Bereichen wie selbstfahrenden Autos und Konsumelektronikgeräten weit verbreitet eingesetzt. Dabei spielen Bilddatensätze eine grundlegende Rolle. Die Entstehung großer Bilddatensätze wie ImageNet hat in der Branche des maschinellen Sehens revolutionäre Durchbrüche erzielt.
Allerdings gab es in den letzten zehn Jahren ethische Probleme wie unbefugte Nutzung, fehlende Vielfalt, fehlender Einverständnis und fehlende Entschädigung, da die Datenerhebung der meisten Datensätze auf Webcrawling beruhte.
Die „angeborenen Mängel“ der Daten schwächen nicht nur die Fairness und Genauigkeit von Künstlicher Intelligenz (KI)-Systemen, sondern verstärken auch unbewusst soziale Vorurteile wie Rassismus und Sexismus.
Beispielsweise haben einige Studien gezeigt, dass kommerzielle Gesichtserkennungssysteme bei der Erkennung von Frauen mit dunkler Hautfarbe viel häufiger Fehler machen als bei Männern mit heller Hautfarbe. Einige bekannte Datensätze wurden aufgrund ethischer Streitigkeiten bei der Datenerhebung zurückgezogen. Selbst die noch in Gebrauch befindlichen Datensätze wie COCO, VQA2.0 oder MIAP weisen immer noch deutliche Mängel in Bezug auf Bevölkerungsvielfalt und selbsterklärende Informationen auf.
Vor diesem Hintergrund hat Sony AI den weltweit ersten öffentlich zugänglichen, global vielfältigen und auf Einwilligung der Nutzer basierenden Datensatz – FHIBE – vorgestellt, der speziell für die Bewertung der Fairness von menschenzentrierten maschinellen Sehaufgaben entwickelt wurde.
Dem Bericht zufolge enthält FHIBE 10.318 Bilder aus 81 Ländern und Regionen, die 1.981 unabhängige Personen betreffen und ein breites Spektrum von visuellen Aufgaben von der Gesichtserkennung bis hin zur visuellen Fragestellung abdecken.
Darüber hinaus verfügt FHIBE über die bisher umfassendsten Anmerkungsinformationen, einschließlich demografischer Merkmale, physikalischer Eigenschaften, Umweltfaktoren, Geräteparameter und pixelgenauen Anmerkungsdaten. Dadurch können feinere Vorurteildiagnosen durchgeführt werden, und es wird den Fachleuten ermöglicht, die Quellen von Vorurteilen präzise zu lokalisieren und potenzielle Risiken effektiv abzuwenden.
Der zugehörige Forschungsartikel mit dem Titel „Fair human-centric image dataset for ethical AI benchmarking“ wurde in der renommierten wissenschaftlichen Zeitschrift Nature veröffentlicht.
Link zum Artikel: https://www.nature.com/articles/s41586-025-09716-2
„Da für die meisten maschinellen Sehaufgaben keine öffentlich zugänglichen und ethisch korrekten Datensätze verfügbar sind, ist es selbst der grundlegendste erste Schritt, Vorurteile zu überprüfen, sehr schwierig“, sagte Alice Xiang, Leiterin der globalen KI-Governance bei Sony und Hauptforscherin von FHIBE. „Wir hoffen, dass Entwickler in der Lage sein werden, Vorurteile in KI-Systemen zu überprüfen, ohne auf problematische Datensätze zurückgreifen zu müssen.“
Dieser Erfolg ist ein wichtiges Meilenstein in der Entwicklung von vertrauenswürdiger Künstlicher Intelligenz (Trustworthy AI). Er hebt nicht nur den Maßstab für die Messung der Fairness von KI-Systemen an, sondern bietet auch einen Weg für die verantwortungsvolle Datenverwaltung in der KI-Branche.
Der weltweit erste, „menschenzentrierte“ Datensatz
Im Gegensatz zu früheren Ansätzen nutzt FHIBE eine globale Crowdsourcing- und Selbstberichterstattungsmethode. Datenlieferanten haben Bilder aus 81 Ländern und Regionen gesammelt. Jeder Teilnehmer hat ein von ihm aufgenommenes Foto hochgeladen und Selbstberichtsinformationen wie Alter, Pronomen, Herkunftsregion und Hautfarbe bereitgestellt, wodurch 1.234 Kreuzgruppen gebildet wurden.
Um die Vielfalt der Bilddaten sicherzustellen, stammen die Bilder von 785 Kameramodellen aus 45 Herstellern. Sie spiegeln 16 Szenentypen, 6 Beleuchtungsbedingungen, 7 Wetterbedingungen, 3 Aufnahmeanfänge und 5 Aufnahmestrecken realitätsgetreu wider.
Im Vergleich zu anderen ähnlichen Datensätzen ist die regionale Verteilung von FHIBE besonders ausgeglichen: 44,7 % der Daten stammen aus Afrika, 40,6 % aus Asien und Ozeanien. Dies verbessert deutlich das Problem, dass in der Vergangenheit Porträtdaten übermäßig auf Nordamerika und Europa konzentriert waren.
Abbildung | Anmerkungen zu Bildthemen, Geräten und Umgebungen. Die Metadaten aller Bilder in FHIBE sind verfügbar.
Jedes Bild in FHIBE ist mit Angaben zu Haltung, Interaktion, Erscheinungsmerkmalen, Altersgruppe sowie pixelgenauen Anmerkungen zu Gesichtern und Personenrahmen versehen, einschließlich 33 Markierungspunkten und 28 Segmentierungslabels. Jede Anmerkung ist mit einer anonymisierten Nummer und den von der Anmerkungsperson freiwillig offen gelegten demografischen Informationen versehen, um Rückverfolgbarkeit und Transparenz zu gewährleisten. Laut dem Artikel macht die Kombination von pixelgenauen Anmerkungen und Attributlabels FHIBE zum „derzeitig am vollständigsten annotierten Fairnessdatensatz“.
Abbildung | Beispielbilder aus FHIBE mit detaillierten pixelgenauen Anmerkungen, Markierungspunkten, Segmentierungsmasken und Begrenzungsrahmen.
Es ist erwähnenswert, dass das Forschungsteam bei der Datenerhebung streng die Datenschutzgesetze wie die Allgemeine Datenschutzverordnung (GDPR) beachtet hat. Die Einwilligungsform enthält klare Klauseln über die Zwecke der Datenerhebung, die Offenlegungserfordernisse, die Verarbeitung von biometrischen Daten und sensiblen Informationen usw. Die Teilnehmer haben die Einwilligungsform freiwillig unterzeichnet, nachdem sie die Zwecke vollständig verstanden haben, und haben ausdrücklich zugestimmt, dass ihre biometrischen Daten für die Forschung zur Fairness von KI-Systemen verwendet werden dürfen. Sie behalten sich das Recht vor, ihre Einwilligung jederzeit zurückzuziehen.
Darüber hinaus hat das Forschungsteam mithilfe eines generativen Diffusionsmodells Bilder von nichtwilligen Personen und personenidentifizierbaren Informationen in den Bildern repariert (z. B. Zufallsbystander oder Nummernschilder entfernt) und manuell überprüft, um das Risiko der Wiederidentifikation, das bei traditionellen Datenschutzmaßnahmen auftreten kann, zu vermeiden.
KI kann auch „übersehen“: Bewertung der Fairness bestehender Modelle
Neben der ethischen Korrektheit ist FHIBE auch in Bezug auf die Methodik sehr streng. Dies umfasst hauptsächlich:
Demografie + phänotypische Details: Selbstberichtete Attribute der Teilnehmer wie Pronomen, Herkunft, Altersgruppe, Frisur, Make-up und Kopfbedeckung.
Umgebungsbackground: Die Bilder enthalten Metadaten über Beleuchtung, Wetter und Szenentyp.
Präzise Anmerkungen: Begrenzungsrahmen, Markierungspunkte und Segmentierungsmasken usw.
Nur für Bewertungszwecke: FHIBE ist ein Datensatz zur Vorurteilsprüfung. Es wird sichergestellt, dass er nur zur Messung der Fairness und nicht zur Verstärkung von Vorurteilen verwendet wird.
Dies schafft die Voraussetzungen für die breite Anwendung von FHIBE bei der Bewertung der Fairness von Modellen. Mithilfe von FHIBE hat das Forschungsteam systematisch die Vorurteile verschiedener gängiger schmaler Modelle und generischer Basismodelle getestet, insbesondere 8 Kategorien von maschinellen Sehaufgaben: Pose-Schätzung, Personensegmentierung, Personenerkennung, Gesichtserkennung, Gesichtsanalyse, Gesichtsprüfung, Gesichtsrekonstruktion und Gesichtsaufwertung.
Die Forschung hat gezeigt, dass auf der Grundlage einer Analyse der Kreuzgruppen (Pronomen × Alter × Herkunft × Hautfarbe) Gruppen von jungen Menschen (18 - 29 Jahre) mit heller Hautfarbe und asiatischer Herkunft in der Regel eine höhere Genauigkeit erzielen, während die Genauigkeit der Modellerkennung bei älteren Menschen (über 50 Jahre) mit dunkler Hautfarbe und afrikanischer Herkunft niedriger ist.
Die Leistung verschiedener Modelle in bestimmten Kreuzkombinationen variiert ebenfalls. Beispielsweise zeigt RetinaFace bei der Gesichtserkennung in der Kombination „she/her/hers × Typ I × Asien“ die beste Leistung und in der Kombination „he/him/his × Typ II × Afrika“ die schlechteste Leistung. MTCNN hingegen zeigt in der Kombination „she/her/hers × Typ II × Afrika“ die beste Leistung und in der Kombination „he/him/his × Typ IV × Europa“ die schlechteste Leistung.
Darüber hinaus hat FHIBE auch bisher nicht erkannte feine Vorurteile entdeckt, beispielsweise:
Wegen der mangelnden Fähigkeit, Menschen mit grauer oder weißer Haarfärbe zu erkennen, ist die Leistung von Gesichtsanalysemodellen bei der Verarbeitung älterer Personen schlechter.
Wegen der größeren Unterschiede in der Frisur ist die Genauigkeit von Gesichtsprüfungsmodellen bei der Erkennung von Frauen niedriger.
Angesichts dieser Unterschiede kann FHIBE mithilfe von Merkmalsregression und Entscheidungsbaumanalyse Störfaktoren identifizieren, die sich auf die Leistung der Personenerkennung auswirken, einschließlich Körperhaltung (z. B. liegende Haltung), Subjektinteraktion (z. B. Umarmung/Kuss), Bildseitenverhältnis und Sichtbarkeit von Markierungspunkten (die den Grad der Körperverdeckung widerspiegeln) usw.
Bei den multimodalen Basismodellen hat das Team vor allem die beiden gängigen Modelle CLIP und BLIP-2 getestet. Die Ergebnisse zeigen:
CLIP: Bei der Bildklassifizierung neigt CLIP dazu, Bildern mit den Pronomen „he/him/his“ (0,69) eher neutrale Labels (nicht spezifiziert) zuzuweisen als Bildern mit den Pronomen „she/her/hers“ (0,38), was auf eine Tendenz hinweist, Männer als Standard anzusehen. Es gibt auch Assoziationsverzerrungen bei anderen Bildattributen, z. B. werden afrikanische oder asiatische Personen oft mit „draußen“ oder „ländlichen“ Szenen in Verbindung gebracht.
Abbildung | Verzerrungen bei der Vorhersage von CLIP auf dem FHIBE-Datensatz
BLIP-2: Bei offenen Fragen generiert BLIP-2 auch dann, wenn die Frage keine Informationen über Geschlecht oder Rasse enthält, Beschreibungen mit geschlechtlichen oder rassistischen Vorurteilen. Bei negativen Hinweisen wie „Kriminalität“ werden bei afrikanischen oder asiatischen Personen, Personen mit dunkler Hautfarbe und Personen mit den Pronomen „he/him/his“ höhere schädliche Stereotype ausgelöst.
Abbildung | Analyseergebnisse von BLIP-2
Der Artikel weist darauf hin, dass FHIBE ein Wendepunkt in der Förderung einer verantwortungsvolleren Entwicklung von KI ist und den Weg für zukünftige ethische Datenerhebungsarbeiten ebnet. Gleichzeitig hat das Forschungsteam auch eingestanden, dass dieses auf Ethik und Menschen ausgerichtete Konsensmodell für die Datenerhebung immer noch praktische Beschränkungen aufweist, insbesondere:
Hohe Kosten. Die Rekrutierung, Prüfung und Entschädigung der Teilnehmer erfordert viel Personal und Geld, weit mehr als die Methode des Webcrawlings.
Fehlende visuelle Vielfalt. Im Vergleich zum Webcrawling haben die auf Konsens basierenden Daten eine höhere Standardisierung und eine geringere visuelle Vielfalt, sind aber deutlich besser als andere auf Einwilligung basierende Datensätze (wie CCv1, CCv2).
Risiko von Betrug. Es besteht die Möglichkeit, dass die Teilnehmer bei der Selbstberichterstattung Fehler machen oder falsche Angaben machen. Hohe Entschädigungen können die Teilnehmer dazu verleiten, falsche Identitätsangaben zu machen. Daher ist es erforderlich, verdächtige Stichproben mithilfe von Reverse-Suche und manueller Überprüfung auszuschließen.
In Zukunft hofft das Forschungsteam, mit FHIBE als Ausgangspunkt umfassende und auf Konsens basierende Bilder und Anmerkungsdaten zu integrieren und die institutionalisierte Praxis in der Branche des maschinellen Sehens bei der Datenerhebung, Einverständniserklärung, Datenschutz und Vielfaltdesign voranzutreiben.
Andererseits hoffen sie auch, dass FHIBE als Prüfwerkzeug eingesetzt werden kann, um die Leistung und die Vorurteile von Modellen zu bewerten und zu überwachen und so die Entwicklung von KI-Systemen mit höherer Inklusion und Vertrauenswürdigkeit zu unterstützen.