Einheitliche Suche und Empfehlung: Neue Erkundungen der Informationsbeschaffung im Zeitalter von großen Sprachmodellen

SIGIR 2026 | Vereinheitlichung von Suche und Empfehlung: Neue Erkundungen zur Informationsbeschaffung im Zeitalter großer Sprachmodelle

Mit der zunehmenden Anwendung in der Informationensuche und Empfehlungssystemen bietet das Large Language Model (LLM) neue Möglichkeiten für die einheitliche Modellierung der beiden Hauptwege der Informationsgewinnung: Suche und Empfehlung.

Die Suche beschreibt die unmittelbaren Informationsbedürfnisse, die der Benutzer aktiv ausdrückt. Die Empfehlung spiegelt die langfristigen Interessen und Präferenzen wider, die sich aus den historischen Handlungen des Benutzers ergeben. Obwohl die Interaktionsformen beider unterschiedlich sind, dienen sie im Wesentlichen dazu, die Informationsbedürfnisse des Benutzers zu verstehen und zu befriedigen.

Wenn es gelingt, diese beiden Arten von Signalen in einem einzigen Large Language Model-Framework einheitlich zu modellieren, kann das Modell hoffentlich die Benutzerabsicht vollständiger verstehen und ein personalisierteres Erlebnis der Informationsgewinnung bieten.

In dieser Arbeit hat das Team der Universität Leiden untersucht, wie ein Large Language Model mit Milliarden von Parametern für die einheitliche Modellierung von Suche und Empfehlung eingesetzt werden kann, ohne dass eine vollständige Parameter-Fine-Tuning erforderlich ist. Sie haben das GEMS-Framework vorgeschlagen: Einerseits wird der Gradientenkonflikt zwischen verschiedenen Aufgaben durch die mehrfache Subraum-Gradientenzerlegung gemildert. Andererseits wird die Störung des allgemeinen Wissensraums des Large Language Models durch die Nullraum-Projektion reduziert.

Der zugehörige Forschungsartikel wurde von der renommierten AI-Konferenz SIGIR 2026 akzeptiert.

Link zum Artikel: https://arxiv.org/abs/2601.09496

GitHub-Adresse: https://github.com/Polaris-JZ/GEMS

Die Experimente zeigen, dass GEMS die Leistung bei der Suche und Empfehlung insgesamt verbessern kann und einen neuen Weg für ein stabileres, deploymentsfreundliches und auf Large Language Modellen basierendes einheitliches Such- und Empfehlungssystem bietet.

Forschungshintergrund

Suche und Empfehlung sind die beiden wichtigsten Dienste moderner Informationsplattformen. Die Suche wird normalerweise durch die aktive Eingabe einer Abfrage durch den Benutzer ausgelöst und spiegelt die unmittelbaren Informationsbedürfnisse wider. Die Empfehlung modelliert dagegen die langfristigen Interessen und Präferenzen basierend auf den historischen Handlungen des Benutzers. Obwohl die Interaktionsformen beider unterschiedlich sind, haben sie dasselbe Ziel: die Informationsbedürfnisse des Benutzers zu verstehen und zu befriedigen.

In den letzten Jahren haben die Entwicklung der generativen Empfehlung und der Large Language Modelle neue Möglichkeiten für die Einheit von Suche und Empfehlung eröffnet. Bestehende Methoden transformieren normalerweise sowohl die Such- als auch die Empfehlungsranking in bedingte Generierungsprobleme: Das Modell generiert direkt die Identifikatoren der Zielobjekte basierend auf der Benutzerabfrage, den historischen Interaktionen oder einer Kombination aus beiden. Dieser einheitliche Generierungsansatz ist flexibel und kann die semantische Verständnisfähigkeit des vortrainierten Sprachmodells nutzen.

Aber wenn dieser Ansatz auf Large Language Modelle erweitert wird, wird das Problem komplexer. Das Fine-Tuning aller Parameter ist kostspielig in Bezug auf Training und Speicherung und schwierig auf größere Large Language Modelle zu skalieren. Parameter-effiziente Fine-Tuning-Methoden wie LoRA reduzieren zwar die Kosten, lösen aber das Problem des Aufgabenkonflikts bei der Einheit von Suche und Empfehlung nicht wirklich.

Genauer gesagt konzentriert sich die Suchaufgabe stärker auf die semantische Relevanz zwischen der aktuellen Abfrage und den Kandidatenobjekten, während die Empfehlungsaufgabe die langfristigen Präferenzen und die kollaborativen Filterungssignale aus den historischen Handlungen des Benutzers betont. Die Optimierungsziele beider Aufgaben stimmen nicht vollständig überein. Wenn sie die gleichen Modellparameter teilen, kann die Gradientenaktualisierung einer Aufgabe die Leistung der anderen Aufgabe beeinträchtigen, was zu instabilem Joint-Training führt.

Zugleich kann das Fine-Tuning auf Such- und Empfehlungsdaten das ursprüngliche allgemeine semantische Wissen des Large Language Models stören und dazu führen, dass das Modell die Benutzerabsicht fehlinterpretiert: Abfragen oder Präferenzen, die das Modell vor dem Fine-Tuning richtig verstand, können nach dem Fine-Tuning Ergebnisse generieren, die nicht mit der tatsächlichen Absicht übereinstimmen.

Abbildung | Zwei Schlüsselherausforderungen bei der Einheit von Suche und Empfehlung in Large Language Modellen. Abbildung (a) zeigt, dass es in verschiedenen Schichten des Large Language Models unter PEFT-Settings deutliche Gradientenkonflikte zwischen der Such- und der Empfehlungsaufgabe gibt. Abbildung (b) zeigt die mögliche Fehlinterpretation der Benutzerabsicht durch das Fine-Tuning, d.h. das Modell kann die Benutzerbedürfnisse vor dem Fine-Tuning richtig verstehen, aber nach dem Fine-Tuning kann es aufgrund der Überanpassung an die Aufgaben-Daten Ergebnisse generieren, die nicht mit der tatsächlichen Absicht übereinstimmen.

Deshalb ist die Einheit von Suche und Empfehlung nicht einfach die Frage, wie man zwei Aufgaben in ein Modell integriert oder wie man die Fine-Tuning-Parameter reduziert. Wichtiger ist: Wie kann man den hohen Kosten des vollständigen Parameter-Fine-Tuning vermeiden, den Gradientenkonflikt zwischen Suche und Empfehlung mildern und die ursprüngliche allgemeine semantische Verständnisfähigkeit des Large Language Models schützen?

Forschungsmethode

Um die oben genannten Probleme zu lösen, schlägt der Artikel GEMS vor. Die Grundidee besteht darin, die Gradientenaktualisierung in einem niedrigdimensionalen Gradientensubraum zu organisieren und die Optimierungssignale von Suche und Empfehlung in verschiedene Subräume zu zerlegen.

GEMS besteht aus zwei Kernmodulen: Multi-Subspace Decomposition und Null-Space Projection.

Abbildung | Überblick über das GEMS-Framework. Bei der einheitlichen Suche und Empfehlung generiert GEMS zunächst die Gradienten der Such- und Empfehlungsaufgaben getrennt und teilt sie durch die Multi-Subspace Decomposition in einen gemeinsamen Subraum, einen suchspezifischen Subraum und einen empfehlungsspezifischen Subraum auf. Anschließend integriert es die Aktualisierungen der verschiedenen Subräume mithilfe eines adaptiven Fusionsmechanismus. Schließlich beschränkt es die Aktualisierungsrichtung durch die Null-Space Projection, um die Störung des allgemeinen Wissensraums des Large Language Models zu reduzieren.

1. Multi-Subspace Decomposition: Milderung des Gradientenkonflikts zwischen Suche und Empfehlung

GEMS teilt zunächst den Optimierungsraum in drei komplementäre Subräume auf: einen gemeinsamen Subraum, einen suchspezifischen Subraum und einen empfehlungsspezifischen Subraum.

Der gemeinsame Subraum dient dazu, die Signale zu erfassen, die sowohl für die Suche als auch für die Empfehlung benötigt werden, wie z.B. die Benutzerinteressen, die Objektsemantik und die allgemeinen Matching-Muster zwischen beiden. Der suchspezifische Subraum modelliert die Abfragesemantik und die query-item Relevanz. Der empfehlungsspezifische Subraum erfasst die langfristigen Benutzerpräferenzen, die Muster der Handlungsserie und die kollaborativen Filterungssignale.

Der Vorteil dieser Gestaltung ist, dass die übereinstimmenden Optimierungsrichtungen in der Suche und Empfehlung in den gemeinsamen Subraum gelangen können, während die potenziell konfliktträchtigen aufgaben-spezifischen Signale in ihren jeweiligen Subräumen eingeschränkt werden. Mit anderen Worten, GEMS mischt nicht einfach die Gradienten der beiden Aufgaben, sondern unterscheidet explizit zwischen "gemeinsam nützlichen Signalen" und "aufgaben-spezifischen Signalen", um die destruktiven Störungen zu reduzieren.

Darüber hinaus hat GEMS einen adaptiven Gating-Mechanismus entwickelt, der die Beiträge des suchspezifischen Subraums und des empfehlungsspezifischen Subraums automatisch anpasst, basierend auf der Aufgabenverlust, der Gradientennorm und dem Prozentsatz der Stichproben in der Batch. Dadurch kann das Modell die beiden Aufgaben während des Trainings dynamisch ausbalancieren, anstatt auf feste Gewichte für eine einfache Addition zu vertrauen.

2. Null-Space Projection: Schutz des allgemeinen Wissens des Large Language Models

Neben der Milderung des Aufgabenkonflikts befasst sich GEMS auch mit einem anderen wichtigen Problem: Ob das Fine-Tuning die ursprüngliche allgemeine semantische Fähigkeit des Large Language Models zerstört.

Dafür schlägt der Artikel Null-Space Projection vor. Dieses Modul schätzt zunächst den dominierenden Wissensraum in der vortrainierten Repräsentation des Large Language Models mithilfe eines allgemeinen Korpus und projiziert dann die durch das Aufgaben-Fine-Tuning erzeugten Aktualisierungen in den orthogonalen Komplementraum dieses Wissensraums. Anschaulich gesagt, wird versucht, zu vermeiden, dass das Modell in "den Hauptrichtungen, die das allgemeine Wissen tragen" zu stark verändert wird.

Auf diese Weise ermöglicht GEMS es dem Modell, die neuen Informationen zu lernen, die für die Such- und Empfehlungsaufgaben erforderlich sind, und gleichzeitig das Risiko der Zerstörung der ursprünglichen Sprachverständnis- und Inferenzfähigkeit zu verringern. Dies ist besonders wichtig für die Einheit von Suche und Empfehlung, da das Verständnis der Benutzerabsicht oft stark von der allgemeinen semantischen Fähigkeit des Large Language Models abhängt.

Forschungsergebnisse

Der Artikel hat Experimente auf zwei Datensätzen durchgeführt, die Such- und Empfehlungsaktivitäten enthalten, einschließlich Qilin und Amazon. Die Experimente umfassen sowohl die Empfehlungs- als auch die Suchaufgabe und wurden systematisch mit traditionellen Such-/Empfehlungsmodelle, generativen einheitlichen Such- und Empfehlungsmethoden sowie parameter-effizienten Fine-Tuning-Methoden wie LoRA und LoRA-MoE verglichen.

Die Experimentergebnisse zeigen, dass GEMS auf verschiedenen Datensätzen und in verschiedenen Aufgaben die beste oder nahezu beste Leistung erzielt. Insbesondere bei den beiden Backbone-Settings T5-base und Qwen2.5-3B-Instruct kann GEMS einen stabilen Vorteil behalten, was bedeutet, dass diese Methode nicht nur für mittlere vortrainierte Modelle geeignet ist, sondern auch auf Large Language Modelle mit Milliarden von Parametern erweitert werden kann.

Abbildung | Such- und Empfehlungsergebnisse von GEMS auf T5-base.

Abbildung | Such- und Empfehlungsergebnisse von GEMS auf Qwen-3B.

Ablations-Experimente bestätigen weiter die Notwendigkeit der beiden Kernmodule. Nach dem Entfernen von Multi-Subspace Decomposition sinkt die Modellleistung deutlich, was zeigt, dass die explizite Unterscheidung zwischen gemeinsamen Signalen und aufgaben-spezifischen Signalen für die Milderung der Störungen zwischen Suche und Empfehlung von entscheidender Bedeutung ist. Nach dem Entfernen von Null-Space Projection kann das Modell zwar immer noch eine gewisse Verbesserung erzielen, aber die Gesamtleistung ist schwächer als die von vollständigen GEMS, was zeigt, dass der Schutz des vortrainierten Wissens ebenfalls wichtig für das stabile Verständnis der Absicht ist.

Abbildung | Ablations-Experimente der Kernmodule von GEMS.

Der Artikel hat auch eine Analyse des Gradientenkonflikts durchgeführt. Die Ergebnisse zeigen, dass im Vergleich zu normalen PEFT-Methoden GEMS den Gradientenkonflikt zwischen Suche und Empfehlung in allen Schichten des Large Language Models deutlich reduzieren kann, insbesondere in den Attention-bezogenen Schichten ist es stabiler. Dies zeigt, dass der Vorteil von GEMS nicht nur in den endgültigen Metriken sichtbar ist, sondern auch in der Optimierungsprozess selbst.

Abbildung | Vergleich des Gradientenkonflikts zwischen GEMS und PEFT.

Darüber hinaus zeigen die Experimente zum Erhalt der Benutzerabsicht, dass normale PEFT-Methoden leichter das Problem "richtige Vorhersage vor dem Fine-Tuning, falsche Vorhersage nach dem Fine-Tuning" haben, während GEMS diese Art von Degradation deutlich reduzieren kann. Dies zeigt, dass der

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Einheitliche Suche und Empfehlung: Neue Erkundungen der Informationsbeschaffung im Zeitalter der großen Sprachmodelle

Forschungshintergrund

Forschungsmethode

Forschungsergebnisse