StartseiteArtikel

36Kr Forschungsinstitut | Einblicke in die natürliche Sprachverarbeitung (NLP) Technologie in China 2024

36氪研究院2024-12-31 07:30
Politik und Nachfrage treiben gemeinsam an, multimodale Ansätze und Modelloptimierung weisen den Weg in die Zukunft.

1. Definition und Entwicklungsverlauf der Branche

Die Technologie der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) ist ein Teilbereich der künstlichen Intelligenz, der sich auf die Forschung zur Interaktion zwischen Computern und menschlicher natürlicher Sprache konzentriert. Ziel ist es, Computern die Fähigkeit zu verleihen, menschliche Sprache (einschließlich Text und Sprache) zu verstehen, zu erzeugen und zu verarbeiten. NLP ist eine interdisziplinäre Technologie, die Informatik, künstliche Intelligenz und Sprachwissenschaft kombiniert und durch Vielfalt, Interdisziplinarität, Komplexität, Interaktivität und kontinuierlichen Wandel gekennzeichnet ist.

Die Entwicklung der natürlichen Sprachverarbeitung (NLP) lässt sich in vier Hauptphasen unterteilen:

(1) Entstehungs- und Anfangsphase (1950er- bis 1960er-Jahre). Die Forschung begann mit der Erforschung der maschinellen Übersetzung. Während des Zweiten Weltkriegs erzielte der Computer große Erfolge bei der Entschlüsselung von Codes, was zur Forschung an der maschinellen Übersetzung führte. Aufgrund begrenzten Verständnisses menschlicher Sprache, künstlicher Intelligenz und maschineller Lernstrukturen sowie begrenzter Rechenleistung und Datenmengen konnten die anfänglichen Systeme jedoch nur Wort-für-Wort-Übersetzungen und einfache Regelverarbeitungen durchführen, wie frühe regelbasierte maschinelle Übersetzungen.

(2) Regelbasierte Phase (1970er- bis 1980er-Jahre). Es entstanden eine Reihe von regelbasierten, handgefertigten NLP-Systemen, deren Komplexität und Tiefe sich schrittweise erhöhten und die begannen, Grammatik und Referenzverarbeitung zu umfassen. Einige Systeme konnten für Aufgaben wie Datenbankabfragen verwendet werden. Mit der Entwicklung der Sprachwissenschaft und wissensbasierter künstlicher Intelligenz profitierten die späteren Systeme von modernen Sprachtheorien, die deklaratives Sprachwissen und seine Verarbeitungsprozesse klar unterschieden. Diese Phase zeichnet sich durch komplexe handgefertigte Regelwerke aus, die den Fortschritt in der Komplexität des Sprachverständnisses vorantrieben.

(3) Statistische Lernphase (1990er-Jahre bis 2012). Mit zunehmender Verfügbarkeit digitaler Texte wurde die Erforschung von Algorithmen vielversprechend. Anfänglich wurden durch die Erfassung bestimmter Mengen von Online-Texten Modelle extrahiert, jedoch waren Wortanzahlen begrenzt in ihrer Fähigkeit, das Sprachverständnis zu verbessern. Später wandte man sich dem Aufbau annotierter sprachlicher Ressourcen zu, wobei überwachtes maschinelles Lernen zur Modellbildung genutzt wurde, z.B. zur Erstellung von Ressourcen, die Wortbedeutungen, benannte Entitäten oder grammatische Strukturen markieren. Diese Periode repositionierte die Forschung an NLP, indem sie die Sprachverarbeitung stärker auf statistische Modelle und Algorithmen stützte und legte die Grundlagen für das anschließende Zeitalter des tiefen Lernens.

(4) Tiefenlernphase (seit 2013). Die Einführung der Tiefenlernmethoden hat die Arbeitsweise im Bereich NLP grundlegend verändert. Von 2013 bis 2018 ermöglichten durch tiefes Lernen konstruierte Modelle die bessere Verarbeitung von Kontexten und ähnlichen Semantiken, indem Wörter und Sätze durch Vektoren im Raum repräsentiert wurden, um semantisches Verständnis zu erreichen. Seit 2018 ist NLP zu einem erfolgreichen Beispiel für großes selbstüberwachtes neuronales Lernen geworden. Transformer-Modelle und vortrainierte Sprachmodelle (wie BERT, GPT) haben die NLP-Leistung weiter verbessert, was zu einer breiten Anwendung in verschiedenen Bereichen und zu einem neuen Fortschritt führte.

2. Treiber der Branchenentwicklung

Staatliche Unterstützung und Regulierung

NLP entwickelt sich unter starker Unterstützung, positiver Führung und strenger Regulierung durch staatliche Politik rasant. Die Regierung hat eine Reihe von Richtlinien zur Unterstützung der künstlichen Intelligenzbranche erlassen, die eine solide politische Grundlage für die Forschung und Innovation von NLP-Technologien bieten. Zum Beispiel betont der „General Plan für die digitale China-Entwicklung“ die Förderung der Anwendung digitaler Technologien, einschließlich der tiefen Integration KI-bezogener Technologien in verschiedenen Bereichen, und bietet so einen strategischen Leitfaden auf Makroebene für die Anwendung von NLP in verschiedenen Branchen. Es ermutigt Unternehmen und Forschungseinrichtungen, die innovative Praxis von NLP-Technologien zur Verbesserung des digitalen Serviceniveaus und zur Optimierung von Geschäftsprozessen aktiv zu erkunden. Gleichzeitig haben die Cyberraum-Verwaltungen in den letzten Jahren Managementmaßnahmen für AIGC erlassen, die die Anwendung von NLP-Technologien im Bereich der Inhaltserstellung durch detaillierte Regularien, wie Inhaltsprüfung, Datensicherheit und ethische Normen, festlegten und so die Entwicklung der Branche auf einem standardisierten Wachstumspfad effektiv förderten.

Zunehmende Nachfrage nach intelligenter Automatisierung in traditionellen Branchen

Mit der Beschleunigung des digitalen Wandels stehen traditionelle Branchen wie Finanzen, Gesundheitswesen und Recht vor der doppelten Herausforderung der Datenverarbeitung und Prozessoptimierung, was ständig steigende Anforderungen an die Intelligenz von Geschäftslösungen mit sich bringt. Im Finanzsektor ist die NLP-Technologie zu einem wichtigen Werkzeug zur Erhöhung der Forschungseffizienz und des Risikomanagements geworden. Forscher, die mit einer Fülle von Finanzinformationen, Unternehmensberichten und Marktbewegungen konfrontiert sind, können mit Hilfe von NLP-Produkten, die Funktionen wie Informationsklassifizierung, Stimmungsanalyse, automatische Zusammenfassung und personalisierte Informationsvorschläge bieten, wertvolle Informationen schnell filtern und Markttendenzen sowie Investitionsmöglichkeiten präzise erkennen, wodurch Entscheidungseffizienz und Genauigkeit erheblich gesteigert werden. Im Gesundheitswesen hilft NLP dabei, medizinische Dokumentationen zu automatisieren und zu strukturieren, was die Arbeitsbelastung von Ärzten erheblich verringert. Im Rechtswesen ermöglicht NLP die schnelle Generierung von Dokumenten, die intelligente Überprüfung von Vertragsklauseln, die Suche und Analyse von Fällen und verbessert so Effizienz und Genauigkeit der juristischen Arbeit bei gleichzeitiger Reduzierung von Personalkosten und Fehlerwahrscheinlichkeit. Diese Intelligenzanforderungen traditioneller Branchen bieten der NLP-Technologie umfangreiche Anwendungsszenarien und Marktmöglichkeiten und treiben die stetige Entwicklung der NLP-Industrie voran.

3. Aktueller Stand der Branche

Struktur der Wertschöpfungskette

Die NLP-Wertschöpfungskette besteht aus einer grundlegenden Schicht im oberen Bereich, einer Technologieschicht in der Mitte und einer Anwendungsschicht im unteren Bereich.

Die obere Schicht, die Basis der gesamten NLP-Branche, umfasst hauptsächlich Hardware, Datendienste, Open-Source-Modelle und Cloud-Services. In Bezug auf Hardware muss zur Erfüllung der Anforderungen der groß angelegten Datenverarbeitung Hochleistungsserver, GPUs, TPUs und andere Spezialchips bereitgestellt werden, die der komplexen NLP-Modelltrainings starke Rechenkapazitäten bieten. In Bezug auf Datendienste sind die Quellen der Datenerfassung vielfältig, z.B. das Scraping von Texten durch Webcrawler von einer großen Menge an Webseiten oder die Erfassung von Sprachdaten durch Sensoren. Dabei sind auch sorgfältige Datenbereinigungen erforderlich, um Duplikate, Fehler und irrelevante Daten zu entfernen, um die Datenpräzision sicherzustellen, und professionelle Datenanmerkungsverfahren, die je nach Anforderungen verschiedener NLP-Aufgaben Text nach Wortarten, Semantik, Entitys, etc. kennzeichnen, um hochwertige Materialien für das Training der Modelle bereitzustellen. Open-Source-Modelle bieten der Branchenentwicklung einen bequemen technologischen Ausgangspunkt. Viele Forschungsinstitute und Entwickler tragen Open-Source-NLP-Modelle wie BERT bei, mit denen Unternehmen und Forscher auf diesen Open-Source-Ergebnissen aufbauen und Optimierungen vornehmen können, um die technologische Innovation zu beschleunigen. Cloud-Services, mit ihrer elastischen Rechen-, Speicher- und Netzwerkressourcen bieten Vorteile, die die Eintrittsbarrieren für NLP-Forschung und -Anwendungen reduzieren.

Der Mittelbereich der Wertschöpfungskette konzentriert sich auf die Entwicklung und Bereitstellung von NLP-Technologien und -Produkten. Hier werden viele fortschrittliche Techniken der natürlichen Sprachverarbeitung zusammengeführt, wie z.B. neuronale Netzwerke auf der Basis von tiefem Lernen, einschließlich rekurrenter neuronaler Netzwerke (RNN), Long Short-Term Memory-Netzwerke (LSTM), Aufmerksamkeitsmechanismen (Attention) und der in den letzten Jahren populär gewordenen Transformer-Architektur. Die Hauptkonkurrenten lassen sich in Internet- und KI-Unternehmen unterteilen. Internetfirmen verfügen über eine gut entwickelte Produktökosysteme, umfangreiche Produkterfahrung und Daten sowie eine große Kundendatenbank und können durch C-End-Vorteile Produktinnovation und -anwendung vorantreiben. KI-Unternehmen zeichnen sich durch starke technische Expertise aus und nutzen als Ausgangspunkt vertikale Bereiche und spezifische Szenarien und entwickeln maßgeschneiderte Produkte für verschiedene Branchen.

Der untere Teil der Wertschöpfungskette betrifft die Anwendung von NLP-Produkten, die sich in Anwendungsszenarien und Anwendungssektoren unterteilen lassen. Hauptanwendungsszenarien umfassen intelligente Sprachsteuerung, intelligente Kundendienste, intelligente Risikokontrolle und intelligente Überwachung; Hauptanwendungsbranchen umfassen Finanzen, E-Commerce, Transport, öffentliche Verwaltung. Im Bereich der intelligenten Sprachsteuerung ermöglicht NLP Funktionen wie Spracherkennung, Sprachsynthese und Sprachinteraktion, z.B. durch intelligente Sprachassistenten, die Sprachbefehle von Benutzern zuverlässig erkennen und darauf antworten, und in Geräten wie Smartphones und Smart Home-Produkten weit verbreitet sind. Im Bereich der intelligenten Kundendienste ermöglichen Systeme durch das Verständnis der Absichten von Kundenanfragen schnelle Antworten und das Bearbeiten von Beschwerden, was nicht nur die Kundenzufriedenheit verbessert, sondern auch die Personalkosten der Unternehmen senkt und in Branchen wie E-Commerce und Finanzen weit verbreitet ist. Im Bereich der intelligenten Risikokontrolle verwendet NLP Technologien zur Analyse großer Mengen von Finanzdaten, einschließlich Nachrichten, Unternehmensberichten, Aussagen in sozialen Medien, um finanzielle Risiken im Voraus zu warnen und Finanzinstitutionen bei der Entwicklung von Risikokontrollstrategien zu unterstützen; im Bereich der intelligenten Überwachung wird NLP zur Analyse und Interpretation von regulatorischen Dokumenten, UnternehmensCompliance-Berichten etc. genutzt, um die Effizienz und Genauigkeit der Überwachung zu verbessern und spielt eine wichtige Rolle in Bereichen wie Finanzaufsicht und Marktaufsicht.

Marktgröße

In den letzten Jahren hat die Technologie der natürlichen Sprachverarbeitung aufgrund der allgemeinen Entwicklung der künstlichen Intelligenz und des drängenden Bedarfs an digitalem Wandel in vielen Branchen eine rasche Durchdringung in zahlreichen Bereichen erfahren, dank ihrer einzigartigen Vorteile in den Bereichen Textverständnis, -generierung und -interaktion. Von der weit verbreiteten Anwendung in intelligenten Kundendiensten in E-Commerce und Finanzsektoren bis hin zu intelligenten Schreibassistenten, die Content-Erstellung in Bereichen wie Medien und Werbung unterstützen, wird der kommerzielle Wert der NLP-Technologie deutlich. Laut CIDP-Beraterdaten wird der NLP-Markt 2024 auf 30,85 Milliarden Yuan geschätzt, und bis 2030 voraussichtlich 210,50 Milliarden Yuan erreichen, mit einer durchschnittlichen jährlichen Wachstumsrate von 36,5 %.

4. Branchentrends

Trend eins: Multimodale Integration führt zur Interaktionsrevolution

Mit der stetigen Weiterentwicklung der Technologie wird NLP nicht mehr nur auf die einfache Textverarbeitung beschränkt sein, sondern sich tief mit anderen Modalitäten wie Bild- und Audioverarbeitung integrieren. Im Bereich der intelligenten Geräte werden zukünftige intelligente Heimautomationssysteme in der Lage sein, Sprachbefehle (NLP) mit Bildverarbeitung durch Kameras (CV) zu kombinieren, um die Nutzerszenarien und -bedürfnisse präzise zu erkennen und eine intelligentere Haussteuerung zu ermöglichen. Zum Beispiel: Wenn der Benutzer sagt "Schalte das Licht im Wohnzimmer aus, in dem sich Personen befinden", kann das System schnell die Menschen im Wohnzimmer identifizieren, die entsprechenden Lichter orten und die Aktion ausführen. Im Bereich der Bildungstechnologie kann multimodales NLP dazu beitragen, immersive Lernumgebungen zu schaffen, indem das Lehrmaterial Text mit Bild- und Audioerläuterungen kombiniert, und NLP-Technologie kann basierend auf dem Lernfortschritt und den Fragen der Schüler in verschiedenen Formen wie Sprache und Text interaktiv antworten, was die Lernergebnisse und -erfahrung erheblich verbessert.

Trend zwei: Modellbeschleunigung und personalisierte Anpassung laufen parallel

Einerseits wird das NLP-Modell zur Erfüllung der Anforderungen von mobilen Endgeräten und Edge-Computing-Geräten stetig beschleunigt. Durch Modellkomprimierungstechniken und neue algorithmische Architektur-Optimierungen wird der Bedarf an Rechenressourcen und Speicher reduziert, sodass intelligente Assistenten auf ressourcenbegrenzten Endgeräten wie Smartphones und Wearables effizient arbeiten können, mit schnellerer Reaktionsgeschwindigkeit und geringerem Energieverbrauch. Andererseits wird die personalisierte Anpassung für unterschiedliche Branchen und Nutzergruppen zum Trend. Unternehmen können basierend auf ihren eigenen Geschäftsdaten auf sie zugeschnittene NLP-Modelle erstellen, z.B. ein medizinisches Unternehmen könnte ein Modell für das Verständnis und die Analyse von medizinischen Fachbegriffen zur Verarbeitung von Patientenakten und für medizinische Forschung entwickeln; Finanzinstitute könnten ein Modell erstellen, das auf ihre eigenen Risikomanagement- und Investitionsstrategien zugeschnitten ist, um Marktanalysen und Entscheidungen zu unterstützen, und so die NLP-Dienste präzise und professionell machen, um die digitale Transformation und Innovation in verschiedenen Branchen tiefgreifend zu fördern.