StartseiteArtikel

Andrew Ng bietet einen neuen Kurs an, in dem er OCR lehrt und die Dokumentextraktion mit Agenten löst.

量子位2026-01-16 15:31
OCR kehrt in die technologisch anspruchsvolle Zone zurück.

Kennt Ihr OCR? Vor 2025 wird es vielleicht jeder kennen.

Aber nach 2025, denkt Ihr immer noch, dass Ihr wirklich OCR versteht?

Ja, mit den Innovationen in den tiefen Wasserbereichen der Architektur, des Gedächtnisses, der Speicherung und anderen Bereichen bei der Entwicklung von großen KI-Modellen ist OCR wieder zu einem technischen Spezialgebiet geworden. DeepSeek forscht daran, Zhipu forscht daran, auch Alibaba Qianwen und Tencent Hunyuan forschen daran...

Wie kann man sich dann schnell in OCR im Zeitalter der KI ausbilden?

Es ist wieder Professor Andrew Ng. Er hat schnell einen neuen Kurs entwickelt, um Ihnen zu helfen, OCR schnell zu verstehen.

In dem neuen Kurs wird direkt ein neues Konzept vorgestellt - Agenten-basierte Dokumentextraktion (Agent Doc Extraction).

Es ist nicht nur die Weiterentwicklung der OCR-Technologie im Zeitalter der Agenten, sondern auch ein einheitlicher Arbeitsablauf für Agenten.

Und diese Methode hat eine Genauigkeit von 99,15 % im DocVQA-Benchmark erreicht.

Mit dem neuen Kurs werden Sie Schritt für Schritt dabei unterstützt, den lokalen Code auszuführen, und es wird auch ein vollständiger Leitfaden für die Bereitstellung auf AWS gegeben.

OCR wird wieder zu einem technischen Spezialgebiet

Bevor wir uns ADE näher ansehen, lernen wir zunächst die jüngsten intensiven Updates der OCR-Technologie von verschiedenen Großunternehmen kennen.

Wenn wir uns auf das Jahr 2025 besinnen, wird schnell klar, dass dieser Kurs von Professor Andrew Ng auch eine zeitnahe Reaktion auf die Rückkehr in die tiefen Wasserbereiche dieser Technologie ist.

Ab Oktober 2025 hat DeepSeek die Diskussionen über diese Technologie entfacht.

DeepSeek-OCR setzt auf die "visuelle Komprimierung alles". Mit einem speziellen visuellen Encoder kann es Texte mit zehntausenden von Wörtern auf hundert visuelle Token komprimieren und behält auch bei einer Komprimierung um den Faktor 10 eine Genauigkeit von 97 % bei. Eine einzelne A100-40G-Grafikkarte kann pro Tag über 200.000 Seiten Dokumente verarbeiten.

Fast zur gleichen Zeit hat Zhipu zusammen mit der Tsinghua-Universität das Glyph-Framework veröffentlicht. Ähnlich wie DeepSeek wandelt es auch sehr lange Texte in kompakte Bilder um, indem es "Text in Bilder rendert", und überwindet so problemlos die Beschränkungen des Kontextfensters.

Später im Dezember hat Zhipu die multimediale Serie GLM-4.6V offiziell veröffentlicht, die Versionen mit 9 Milliarden und 106 Milliarden Parametern enthält.

Die erste Version zeichnet sich in der kostengünstigen lokalen OCR-Szene aus und unterstützt komplexe Scans, Notizen und unscharfe Dokumente. Die zweite Version kann dank eines 128K-Kontextfensters sogar langfristige Steuerformulare, Verträge und wissenschaftliche Diagramme über Seiten hinweg verstehen und bringt die OCR-Technologie auf die Ebene des Dokumentverständnisses und der Wissensextraktion.

Tatsächlich hat auch die Version Qwen3-VL-30B, die Alibaba Qianwen im Oktober veröffentlichte, wichtige Verbesserungen im OCR-Bereich vorgenommen.

Ende November hat auch Tencent Hunyuan sich an diesem Sammelangriff beteiligt. Die Open-Source-Version HunyuanOCR mit 1 Milliarde Parametern hat schnell Beachtung bekommen.

Obwohl es wenige Parameter hat, kann es Tabellen, strukturierte Dokumente und mehrsprachigen Inhalt verarbeiten. Es läuft schnell und ist einfach bereitzustellen, weshalb es schnell zu einem beliebten Open-Source-Projekt geworden ist.

Neue Methode der Agenten-basierten Dokumentextraktion

Professor Andrew Ng, ein Renner in der Maschinelles Lernen, hat offensichtlich auch die starke Nachfrage nach OCR bemerkt und schnell einen Kurs entwickelt, um es schnell zu verstehen.

Er lehrt nicht, wie man die OCR-Technologie verbessert, sondern wie man OCR mit einem Agentengehirn ausstattet.

Zunächst wird im Kurs die Entwicklung der OCR-Technologie ausführlich vorgestellt.

Von der Zeit der Regeln zu Beginn bis zum heutigen Zeitalter der Agenten hat jede Aktualisierung die Lücken der traditionellen OCR-Technologie geschlossen.

Früher bei der Verwendung von Tesseract musste man alles manuell mit Regeln programmieren. Später gab es PaddleOCR, das mit Deep Learning Texte erkennt.

Aber beide Techniken "flachen" das Dokument beim Extrahieren von Texten aus, was dazu führt, dass wichtige Informationen wie die Tabellenstruktur, die Beziehung zwischen Bildunterschriften und die Lesereihenfolge verloren gehen.

Somit erhält das nachgelagerte große Modell nur halbfertige Daten, was leicht zu Halluzinationen führt.

Das ADE-Konzept im Kurs ist wie drei Pfeiler für OCR. Mit der Strategie "Visuelles Primat" versteht es die Layoutstruktur des Dokuments, das "Daten-konzentrierte" Vorgehen gewährleistet die Genauigkeit, und dank der Agentenfähigkeit kann es aktiv denken.

Nach der Implementierung des DPT (Dokument-Vor-Training Transformer)-Modells behandelt der ADE-Arbeitsablauf das Dokument als ein ganzes visuelles Objekt und versteht seine Layout- und räumlichen Beziehungen.

Darüber hinaus hat das DPT-Modell in den DocVQA-Benchmarktests eine Punktzahl von 99,15 % erreicht und hat sogar die Leistung von Menschen übertroffen.

In der Praxis hat ADE auch eine sehr starke Robustheit gezeigt.

Ob es sich um riesige Tabellen mit über 1.000 Zellen, komplexe handschriftliche Differentialgleichungen, Zertifikate mit gekrümmten Stempeln oder sogar reine Installationsanleitungen in Bildform handelt, es kann alles präzise analysieren.

Im Bereich der Umsetzung führt ADE die visuelle Verankerung-Technologie ein. Sie kann nicht nur Texte extrahieren, sondern auch jedem Datenblock eine eindeutige ID und genaue Pixelkoordinaten zuweisen und lokale Screenshots erstellen.

So kann man, wenn die KI eine Antwort auf eine bestimmte Datenfrage gibt, direkt auf den entsprechenden Ort im Originaldokument zugreifen, was bedeutet, "es gibt Bilder, also stimmt es".

Darüber hinaus bietet der Kurs einen sehr praktischen Leitfaden für die Cloud-Bereitstellung und lehrt Ihnen, wie Sie diese Technologie in der Cloud einsetzen und auf AWS eine vollautomatische Pipeline aufbauen können.

Laden Sie einfach PDFs in den S3-Speicherbucket hoch. Lambda wird dann automatisch die ADE-Analyse durchführen, die strukturierten Markdown-Dateien speichern, die Bedrock-Wissensbasis indizieren und schließlich mit Strands Agents einen Branchenwissensassistenten erstellen, der Dinge merken und schlussfolgern kann.

Von der Erkennung von Texten in Pixeln bis zur massiven Nutzung in der Cloud - man kann nur sagen, dass diese 3-stündige Kurs "keinen Verlust und keinen Schaden" bringt.

Kurslink: https://www.deeplearning.ai/short-courses/document-ai-from-ocr-to-agentic-doc-extraction/

Dieser Artikel stammt aus dem WeChat-Account "QuantaBits" von Wen Le und wurde von 36Kr mit Genehmigung veröffentlicht.