Das erste Raum-Zeit-Sequenz-Inferenz-Framework: Können große Modelle wirklich Raum-Zeit-Daten verstehen?

Das erste Raum-Zeit-Schlussfolgerungsmodell STReasoner zeichnet sich durch geringe Kosten und hohe Generalisierbarkeit aus und unterstützt die kausale Rückverfolgung und Vorhersage.

【Einführung】STReasoner ist das erste Inferenzmodell, das Zeitreihen, räumliche Strukturen und natürliche Sprache kombiniert. Es kann die Quelle von Anomalien identifizieren, die Auswirkungswege verfolgen, die Beziehungen zwischen Knoten verstehen und zukünftige Entwicklungen vorhersagen. Im Vergleich zu herkömmlichen Vorhersagemodellen legt STReasoner mehr Wert auf kausale und strukturelle Inferenz und hat zudem extrem geringe Rechenkosten. Es zeigt eine starke Generalisierungs- und Inferenzfähigkeit.

Zeitreihen sind in realen Systemen weit verbreitet, wie beispielsweise in Verkehrsnetzen, Stromversorgungssystemen und Krankheitsausbreitungen. Diese Systeme weisen nicht nur zeitliche Dynamik auf, sondern auch komplexe räumliche Abhängigkeiten. Traditionelle Methoden konzentrieren sich auf eine Sache: Die zukünftigen Werte genauer vorherzusagen.

Aber in realen Szenarien sind oft wichtigere Fragen: Welcher Knoten hat die aktuelle Anomalie verursacht? Wie breitet sich der Einfluss entlang der räumlichen Struktur aus? Welche kausalen Beziehungen bestehen zwischen verschiedenen Zeitschritten?

Wie in Abbildung 1 gezeigt, interessiert uns in einem Verkehrsnetz, wenn in einer bestimmten Region um 9 Uhr Stau auftritt, wirklich: 「Woher stammt es?」

Diese Art von Fragen kann nicht durch Einzelpunktvorhersagen gelöst werden, sondern erfordert eine mehrstufige Inferenz über Zeit und Raum: Das Modell lokalisert zunächst die Anomaliezeit des Zielknotens (Zeitdimension), verfolgt anschließend entlang der Graphenstruktur die potenziellen Einflusswege (Räumliche Dimension) und richtet die Propagationsverzögerungen zwischen verschiedenen Knoten aus (Zeit-Raum-Kopplung). Schließlich identifiziert es die echte kausale Quelle. Dieser Prozess erfordert im Wesentlichen die gleichzeitige Integration von zeitlicher Dynamik, räumlicher Abhängigkeit und semantischen Abfragen, um eine strukturierte Inferenz über Knoten und Zeitschritte hinweg durchzuführen.

Allerdings konzentrieren sich die bestehenden Methoden hauptsächlich auf die numerische Vorhersage und können diese komplexen Entscheidungsprobleme kaum unterstützen. Dies hebt die Notwendigkeit der Entwicklung von Fähigkeiten für die spatio-temporale Zeitreiheninferenz hervor.

Die Entwicklung der spatio-temporalen Inferenz wird durch drei Schlüsselprobleme eingeschränkt:

Datenproblem: Mangel an hochwertigen, ausgerichteten Daten. Die bestehenden Daten enthalten selten gleichzeitig Zeitreihen, räumliche Strukturen und die entsprechenden Beschreibungen in natürlicher Sprache. Das Modell fehlt die Datenbasis, um 「Inferenz」 zu lernen.
Evaluierungsproblem: Mangel an systematischer Aufgabendefinition. In der Vergangenheit gab es keinen einheitlichen Rahmen, um die spatio-temporale Inferenzfähigkeit systematisch zu bewerten. Die meisten Arbeiten beschränken sich immer noch auf Vorhersageaufgaben.
Modellierungsproblem: Mangel an effektivem Trainingsmechanismus. Wie können Zeitreihen + Graph + Text integriert werden? Wie kann verhindert werden, dass das Modell nur die zeitlichen Muster nutzt und die räumlichen Informationen ignoriert?

Ein Forschungsunternehmen aus der Emory University, Microsoft, der Griffith University und anderen Institutionen hat STReasoner vorgeschlagen - das erste Time Series LLM-Framework für die komplexe spatio-temporale Zeitreiheninferenz (Spatio-Temporal Reasoning in Time Series). Experimente zeigen, dass dieses Modell bei Aufgaben wie kausaler Rückverfolgung, räumlicher Beziehungsinferenz und zeitlicher Vorhersage eine deutliche Leistungssteigerung erzielt und auf echten Daten eine starke Generalisierungsfähigkeit zeigt. Gleichzeitig betragen die Rechenkosten nur 0,004× der Kosten von geschlossenen Modellen.

Link zur Publikation: https://arxiv.org/abs/2601.03248

Link zum Code: https://github.com/LingFengGold/STReasoner

Drei Schritte zur Erstellung eines spatio-temporalen Modells, das 「tatsächlich inferieren kann」

Eine sauberere Methode zur Datenkonstruktion

Um die Trainierung und Evaluierung von spatio-temporalen Inferenzmodellen systematisch zu unterstützen, haben die Forscher zunächst einen kontrollierbaren Datenerzeugungsrahmen erstellt und auf dieser Grundlage den einheitlichen Bewertungsstandard ST-Bench vorgeschlagen.

Wie in der Abbildung gezeigt, haben die Forscher ein Network SDE + Multi-Agent-System entworfen, das speziell für die Erzeugung von drei streng ausgerichteten Datentypen verwendet wird:

Zeitreihen (wie sich das System im Laufe der Zeit ändert)
Graphstruktur (wie die Knoten sich gegenseitig beeinflussen)
Beschreibung in natürlicher Sprache (was diese Änderungen 「bedeuten」)

Der gesamte Prozess kann so verstanden werden: Zunächst wird die Welt definiert, dann werden die Daten erzeugt und schließlich wird überprüft, ob sie sinnvoll sind.

Zunächst wird ein vollständiges Szenario definiert, beispielsweise ein Verkehrssystem, und die Knoten, Verbindungsbeziehungen und zeitliche Dynamik werden festgelegt;

Scenario Generation Agent: Erzeugt ein vollständiges Szenario (z. B. ein Verkehrssystem, ein Ausbreitungsprozess)
Scenario Parsing Agent: Zerlegt dieses Szenario in strukturierte Informationen (Knoten, Verbindungsbeziehungen, zeitliche Muster usw.)

Dann wird die Änderung jedes Knotens durch SDE modelliert, und gleichzeitig werden räumliche Abhängigkeiten und Propagationsverzögerungen eingeführt;

SDE Parameters Agent: Legt für jeden Knoten die zeitliche Dynamik fest (Trend, Rauschen, Periode usw.)
Time-Varying Adjacency Agent: Legt für die Verbindungen zwischen den Knoten die Einflussstärke, die Richtung und die Propagationsverzögerung fest.

Schließlich werden diese Informationen in das Simulation-Modul geschrieben, um echte spatio-temporale Zeitreihen zu erzeugen. Um zu vermeiden, dass 「die Daten stimmen, aber die Semantik falsch ist」, haben die Autoren zwei Judge eingeführt:

Scenario Judge: Überprüft, ob das Szenario selbst sinnvoll ist
Parameter Judge: Überprüft, ob die erzeugten Daten wirklich der Szenariobeschreibung entsprechen

Wie in der Abbildung gezeigt, haben die Autoren nach der Erstellung von hochwertigen Daten den einheitlichen Standard ST-Bench weiter entwickelt und die spatio-temporale Inferenz in vier Arten von Aufgaben aufgeteilt:

T1: Kausale Rückverfolgung → Wer hat das aktuelle Phänomen verursacht?

T2: Entitätserkennung → Welche Rolle spielt jeder Knoten?

T3: Korrelationsinferenz → Wie beeinflussen und verbreiten sich die Knoten untereinander?

T4: Spatio-temporale Vorhersage → Wie wird die Zukunft unter diesen Beziehungen aussehen?

Diese vier Arten von Aufgaben decken genau eine vollständige Kette ab: Struktur verstehen → Beziehungen inferieren → Ursachen erklären → Zukunft vorhersagen

Design des STReasoner-Modells

Bei der spatio-temporalen Inferenzaufgabe muss das Modell gleichzeitig drei Arten von Informationen verarbeiten: Zeitreihen, räumliche Strukturen und Fragen in natürlicher Sprache. Daher ist eine zentrale Frage: Wie kann man es einem Sprachmodell ermöglichen, sowohl 「zeitliche numerische Werte zu verstehen」, als auch 「die Graphstruktur zu verstehen」 und gleichzeitig die Inferenz durchzuführen?

Der Entwurf von STReasoner ist sehr direkt: Die Zeitreihen werden in Vektoren codiert (Time Series Encoder), die Graphstruktur wird in Text geschrieben (Graph Prompting) und zusammen mit der Frage an das Sprachmodell übergeben.

Dreistufiges Training: Von der Ausrichtung zur Inferenz und schließlich zur Verstärkung

STReasoner verwendet eine dreistufige Trainingsstrategie:

Stufe 1: Modalausrichtung (Align): In dieser Stufe werden hauptsächlich automatisch generierte Basis-Fragen-Antwort-Daten (ST-Align) genutzt, um die korrespondierenden Beziehungen zwischen Zeitreihen, Graphstrukturen und Text zu lernen, wie beispielsweise Trenderkennung und Verständnis von Knotenbeziehungen.

Stufe 2: Einfügung von Inferenzfähigkeiten (SFT + CoT): In dieser Stufe wählt der Autor durch reject sampling die korrekt inferierten Proben von Claude-4.5-Sonnat aus, baut CoT-Daten auf und führt eine überwachte Feineinstellung des Modells durch.

Stufe 3: Verstärkendes Lernen (S-GRPO)

In dieser Stufe wird die Inferenzfähigkeit des Modells durch verstärkendes Lernen weiter verbessert. Das verstärkende Lernen verwendet einen räumlich sensiblen Belohnungsmechanismus (S-GRPO). Der Kernmechanismus besteht darin, für dieselbe Frage zwei Arten von Eingaben zu konstruieren:

w/ spatial (mit Graphstruktur)
w/o spatial (ohne Graphstruktur)

Nur wenn das Modell in der 「mit Struktur」-Situation besser abschneidet, wird eine zusätzliche Belohnung gewährt:

Dieser Mechanismus zwingt das Modell direkt dazu, wirklich auf die räumliche Struktur zu vertrauen, anstatt nur auf die zeitlichen Muster zu schauen.

Experimentelle Ergebnisse

Betrachtet man die Gesamtresultate, zeigt STReasoner in verschiedenen Arten von Aufgaben eine sehr konsistente Überlegenheit.

Bei den drei Arten von Aufgaben T1 (Kausale Rückverfolgung), T2 (Entitätserkennung) und T3 (Räumliche Korrelationsinferenz), die auf kausale und strukturelle Inferenz legen, schneidet das Modell deutlich besser ab als die bestehenden Open-Source-Methoden und übertrifft in mehreren Indikatoren die verglichenen großen Modelle. Dies zeigt, dass es tatsächlich die Fähigkeit zur Inferenz auf der Grundlage der spatio-temporalen Struktur gelernt hat, und nicht nur die Musteranpassung.

Im Vergleich dazu ist die Leistung von STReasoner bei der T4 (Spatio-temporale Vorhersage)-Aufgabe, die eher auf numerische Vorhersage ausgerichtet ist, im Wesentlichen mit der von geschlossenen großen Modellen vergleichbar, mit nur geringfügigen Unterschieden. Dies zeigt, dass es bei Beibehaltung der Inferenzfähigkeit die Vorhersagegenauigkeit nicht geopfert hat.

Wichtiger noch ist, dass diese Leistung mit extrem geringen Kosten erzielt wird: Die gesamte Inferenzkosten belaufen sich nur auf etwa 0,004× der Kosten von geschlossenen Modellen, was ein sehr wettbewerbsfähiges Gleichgewicht zwischen Kosten und Leistung darstellt.

Starke Generalisierungsfähigkeit

Um zu überprüfen, ob das Modell wirklich