StartseiteArtikel

Zusammenfassung der NeurIPS 2025-Vorlesung von He Kaiming: Drei Jahrzehnte der visuellen Objekterkennung

机器之心2025-12-11 19:47
Eine kurze Geschichte der visuellen Zielerkennung

Kurz vor kurzem fand die NeurIPS 2025 erfolgreich statt. Als eine der angesehensten Konferenzen in der Künstlichen Intelligenzbranche waren dort viele Arbeiten und Vorträge von Prominenten der Wissenschaftszene vertreten.

Eine Auszeichnung war besonders beeindruckend und erwartet worden – die klassische Studie „Faster R-CNN“, gemeinsam verfasst von Ren Shaoqing, He Kaiming, Ross Girshick und Sun Jian, erhielt den „Test of Time Award“.

Wer mit Computer Vision in Berührung kam, kennt diesen Namen sicherlich. Seit ihrer Veröffentlichung im Jahr 2015 ist „Faster R-CNN“ zweifellos eines der bahnbrechendsten Arbeiten in diesem Bereich geworden. Sie hat nicht nur das Kernparadigma moderner Objekterkennungsframeworks festgelegt, sondern auch wie ein Leuchtfeuer gewirkt, das die Entwicklung von visuellen Modellen in den folgenden zehn Jahren maßgeblich beeinflusst und geleitet hat.

Link zur Studie: https://arxiv.org/pdf/1506.01497

Als Zeuge und Zusammenfassender dieses historischen Moments hielt He Kaiming auf der Konferenz einen Vortrag mit dem Titel „A Brief History of Visual Object Detection“.

Die Präsentationsfolien von He Kaimings Vortrag sind bereits veröffentlicht und können unter folgendem Link abgerufen werden:

https://people.csail.mit.edu/kaiming/neurips2025talk/neurips2025_fasterrcnn_kaiming.pdf

Aus He Kaimings Vortrag geht hervor, dass es sich nicht nur um einen technischen Bericht handelt, sondern eher wie eine Heldengeschichte darüber, wie Computer gelernt haben, die Welt zu „sehen“. Er fasst die Entwicklung der visuellen Objekterkennung in den letzten 30 Jahren zusammen. Jede Arbeit, die im Vortrag vorgestellt wurde, hat den Test der Zeit in verschiedenen Top-Konferenzen bestanden und hat die Entwicklung der visuellen Intelligenz entscheidend beeinflusst.

Wundern Sie sich nicht: Warum können heutige KI-Systeme in Sekundenschnelle Katzen, Hunde, Autos und sogar ihre Positionen in einem Foto erkennen, während dies vor ein paar Jahren als fast unmöglich galt?

Lasst uns uns in die Fußstapfen des Meisters begeben und in die damalige „ursprüngliche“ Zeit zurückreisen, um zu sehen, wie diese Entwicklung zustande kam.

Ursprünglich: Handgefertigte „Lupe“

Vor dem Aufstieg des Deep Learning waren Computer Vision-Wissenschaftler eher wie „Handwerker“.

Frühe Versuche in der Gesichtserkennung: Bereits in den 90er Jahren begannen Wissenschaftler, Neuronale Netze und statistische Methoden zur Gesichtserkennung zu verwenden:

1996: Rowley et al. veröffentlichten „Neural Network-Based Face Detection“. Dies war die erste CV-Studie, die He Kaiming las. Sie nutzten frühe Neuronale Netze, um Gesichter in Bildpyramiden zu finden.

1997: Osuna et al. führten Support Vector Machines ein und veröffentlichten „SVM for Face Detection“, in der sie versuchten, eine perfekte Klassifizierungslinie in den Daten zu zeichnen.

2001: Der berühmte Viola-Jones-Framework tauchte auf. Er ermöglichte eine extrem schnelle Gesichtserkennung durch einfache Merkmalskombinationen. Bis heute verdanken viele alte Kameras ihre Fokussierungsfunktion ihm.

Die Goldene Zeit der Feature-Engineering: Da es schwierig war, „gesamte Gesichter“ zu finden, suchten sie stattdessen nach „Schlüsselpunkten“ und „Texturen“. In den folgenden Jahren standen Merkmalsdeskriptoren im Mittelpunkt:

1999: Lowe stellte SIFT vor, eine „skaleninvariante Merkmalsdarstellung“, die auch bei Rotation und Skalierung von Objekten diese erkennen konnte und damals der absolute King war.

2003: Sivic und Zisserman griffen auf Text-Suche zurück und entwickelten das „Bag of Visual Words“-Modell, das Bilder als eine Sammlung von „visuellen Wörtern“ ansah.

2005: Dalal und Triggs erfanden HOG (Histogram of Oriented Gradients), um die Konturen von Fußgängern zu beschreiben. Im selben Jahr stellten Grauman und Darrell den „Pyramid Match Kernel“ vor, um die Ähnlichkeit zwischen zwei Merkmalsgruppen zu vergleichen.

2006: Lazebnik et al. entwickelten das „Spatial Pyramid Matching“-Modell, um das Problem des Verlusts von räumlichen Informationen im Bag-of-Words-Modell zu lösen.

2008: Der Höhepunkt der Feature-Engineering, das DPM (Deformable Part Model), tauchte auf. Es sieht Objekte als eine Sammlung von deformierbaren Teilen (wie Kopf, Hände und Füße eines Menschen) an, die wie Federn miteinander verbunden sind. Dies war der Höhepunkt der traditionellen Methoden.

Wo lagen die Probleme? Die Merkmale wurden von Menschen entworfen (Hand-crafted), und Klassifikatoren (wie SVM) konnten nur auf diesen begrenzten Informationen arbeiten. Diese Methode war nicht nur langsam, sondern auch schwierig an komplexe Szenarien anzupassen.

Der Beginn: Die „gewaltige Ästhetik“ von AlexNet und R-CNN

Im Jahr 2012 tauchte AlexNet auf und bewies, dass Deep Learning in der Lage war, Merkmale viel besser zu extrahieren als von Menschen entworfene Methoden. Aber wie konnte man es für die Objekterkennung nutzen?

Der Blitz des Deep Learning: Im Jahr 2012 gewann AlexNet (Krizhevsky et al.) mit überwältigender Überlegenheit beim ImageNet-Wettbewerb. Es bewies, dass tiefe Convolutional Neural Networks (CNN) in der Lage sind, Merkmale viel besser zu extrahieren als von Menschen entworfene Methoden.

R-CNN: Von der Klassifikation zur Detektion. Aber wie konnte man CNN für die Objekterkennung (Markieren der Position von Objekten) nutzen? Im Jahr 2014 stellten Girshick et al. das bahnbrechende R-CNN (Region-based CNN) vor. Der Ansatz war direkt:

Zuerst nutzten sie eine traditionelle Methode (Selective Search), um etwa 2000 „Region Proposals“ in einem Bild zu finden.

Dann wurden diese Regionen in das CNN eingespeist, um Merkmale zu extrahieren, und anschließend mit SVM klassifiziert.

Der Höhepunkt: Die „Geschwindigkeitsentwicklung“ von Faster R-CNN

Da R-CNN jedes Kandidatenfenster durch das CNN schickte, war der Rechenaufwand enorm. Wissenschaftler begannen zu überlegen, wie man die Berechnungen wiederverwenden konnte.

2014: He Kaimings Team stellte SPP-Net (Spatial Pyramid Pooling) vor. Es führte die räumliche Pyramidenpooling-Schicht ein, die es dem neuronalen Netz ermöglichte, Bilder beliebiger Größe zu verarbeiten und nur einmal die Merkmale des gesamten Bildes zu berechnen, was die Detektion erheblich beschleunigte.

2015: Girshick griff auf SPP-Net zurück und entwickelte Fast R-CNN. Es führte die RoI Pooling ein und integrierte die Merkmalsgewinnung und die Klassifikationsregression in ein einzelnes Netzwerk. Es war nicht nur schnell, sondern auch end-to-end trainierbar.

Das letzte Hindernis: Trotzdem war die Erstellung von Region Proposals immer noch von der sperrigen traditionellen Methode (Selective Search) abhängig, was zum Geschwindigkeitshindernis des Systems wurde.

2015: Die Entstehung von Faster R-CNN: He Kaimings Team entwickelte das RPN (Region Proposal Network). Inspiriert von dem „Space Displacement Net“ von LeCun et al. aus dem Jahr 1991, ließ es das neuronale Netzwerk auf der Merkmalskarte „gleiten“ und prognostizierte die möglichen Positionen von Objekten über vordefinierte Anchor-Punkte.

Ab diesem Zeitpunkt wurden alle Schritte der Objekterkennung – Vorschlag, Merkmalsgewinnung, Klassifikation, Regression – vollständig von neuronalen Netzwerken übernommen, was eine echte end-to-end Echtzeit-Objekterkennung ermöglichte. Sowohl die Geschwindigkeit als auch die Genauigkeit nahmen sprunghaft zu, und die Computer Vision trat endlich in die Ära der Echtzeit-Objekterkennung ein.

Die neue Welt hinter dem Nebel: Transformer und Alles andere

Faster R-CNN hat eine Ära eingeleitet, aber die Erforschung hat nie aufgehört. Im zweiten Teil seines Vortrags zeigte He Kaiming, wie der technologische Fortschritt weiterging:

Wenn es um Geschwindigkeit geht, kann man doch auch auf den Schritt der „Region Proposals“ verzichten?

2016: YOLO (You Only Look Once) und SSD (Single Shot MultiBox Detector) wurden entwickelt. Sie geben direkt die Positionen und Klassen aller Objekte in einem Bild aus, ähnlich wie ein Mensch das gesamte Bild auf einen Blick erfasst, und sind daher extrem schnell.

2017: Um das Problem der geringen Genauigkeit bei einstufigen Detektoren (Ungleichgewicht zwischen positiven und negativen Beispielen) zu lösen, entwickelte He Kaimings Team Focal Loss (RetinaNet).

2017: Mask R-CNN tauchte auf. Es fügte eine zusätzliche Verzweigung zu Faster R-CNN hinzu, die nicht nur Objekte markieren, sondern auch pixelgenau aus dem Bild „ausschneiden“ kann (Instanzsegmentierung). Es führte RoI Align ein, um das Problem der Pixelausrichtung zu lösen.

2020: DETR (Detection Transformer) führte die Transformer-Architektur in die Computer Vision ein. Es verzichtete vollständig auf Anchor-Punkte und komplexe Nachverarbeitung (NMS) und definierte die Objekterkennung neu mit einem globalen Aufmerksamkeitsmechanismus.

2023: SAM (Segment Anything Model) tauchte auf. Es lernte, „alles zu segmentieren“ durch das Training auf großen Datensätzen und zeigte das Potenzial von großen visuellen Modellen, da es nicht auf bestimmte Trainingsklassen beschränkt ist.

Was haben wir in dieser „Zeit der Entdeckungen“ gelernt?

Was haben wir in den letzten Jahrzehnten gelernt?

He Kaiming sagte: „Schreibe Papers über Objekterkennung und gewinne den Test of Time Award :)“

Am Ende seines Vortrags schloss er mit einem sehr symbolischen Bild, das mit Nano-Banana generiert wurde: Ein Schiff segelt in den nebeligen Ozean.

Er sagte, wissenschaftliche Erforschung ist wie das Segeln in den Nebel.

Es gibt keine vorgezeichnete Karte.

Wir wissen nicht einmal, ob das Ziel existiert.

Von handgefertigten Merkmalen über CNN bis hin zu Transformer, jeder Sprung war wie die Entdeckung eines neuen Kontinents von Entdeckern im Nebel. Faster R-CNN ist nicht