Deep Dive · GraphRAG

GraphRAG als Retrieval mit Beziehungskontext

GraphRAG erweitert Retrieval-Augmented Generation um explizite Entitäten, Beziehungen und Pfade. Es wird relevant, wenn Antworten nachvollziehbare Zusammenhänge zwischen Textstellen brauchen.

Graphkontext

Multi-Hop

Pfade

Auditierbarkeit

Kuratierter erster Schnitt · Stand Juni 2026

Die Grundidee

GraphRAG ist RAG mit einem expliziten im Retrieval. Das System nutzt semantische Textstellen, Entitäten, Relationen, Pfade und Communities, um den Antwortkontext fachlich zu strukturieren.

Der Kern ist bessere Kontextauswahl mit mehreren Signalen. bleibt oft ein sinnvoller Teil der Pipeline; GraphRAG ergänzt Beziehungskontext, wenn die Antwort aus Zusammenhängen entsteht.

Fünf Graph-Perspektiven in GraphRAG

GraphRAG wird klarer, wenn die Rolle des Graphen genau benannt wird. Ein Wissensgraph ist die semantische Basis; Dokument- und Domänen-Graphen sind die wichtigsten fachlichen Grundformen; Conversational und dynamische Graphen ergänzen Laufzeitkontext und Veränderung. Entscheidend ist, welche Frage der Graph beantwortet.

Semantische Basis

Wissensgraph

Der Oberbegriff für explizites Wissen aus Entitäten, Beziehungen, Eigenschaften und Quellen. Im GraphRAG ist er die strukturierte Kontextschicht, aus der Retrieval Pfade, Nachbarschaften oder Communities auswählt.

Relevant, wenn Wissen maschinenlesbar, verknüpfbar und erklärbar werden soll.

Fachliche Realität

Domänen-Graph

Modelliert konkrete fachliche Objekte und Regeln einer begrenzten Domäne: Verträge, Produkte, Systeme, Risiken, Rollen oder Nachweise. Er beantwortet Fragen nach Bedeutung, Gültigkeit und Abhängigkeit.

Relevant, wenn Antworten über belastbare Fachbeziehungen laufen.

Korpus und Quellen

Dokument-Graph

Erschließt Dokumente, Chunks, Textstellen, Claims, Erwähnungen und Communities. Er ist stärker Retrieval-Index als Fachmodell und muss deshalb von geprüften Domänenaussagen getrennt bleiben.

Relevant, wenn große Textmengen quellenbezogen durchsuchbar werden sollen.

Interaktion und Memory

Conversational Graph

Hält Gesprächsverlauf, Nutzerziele, offene Fragen, Präferenzen, Entscheidungen und Feedback als nutzbaren Kontext fest. Er verbindet GraphRAG mit Agent Memory und längeren Arbeitsprozessen.

Relevant, wenn Antworten von Session-Verlauf, Rollen oder Nutzerfeedback abhängen.

Zeit und Veränderung

Dynamischer Graph

Macht Aktualität, Versionen, Events, Gültigkeitszeiträume und Drift sichtbar. Er ist weniger ein eigener Inhaltstyp als die Evolutionsschicht, die verhindert, dass GraphRAG veralteten Kontext liefert.

Relevant, wenn Wissen sich laufend ändert oder zeitlich bewertet werden muss.

Reife Systeme verbinden oft mehrere Perspektiven: Ein Dokument-Graph liefert Quellen, Chunks und extrahierte Aussagen; ein Domänen-Graph ordnet diese Aussagen fachlichen Objekten, Regeln und Verantwortlichkeiten zu; ein Conversational oder dynamischer Graph hält fest, was im Verlauf einer Nutzung gelernt, bestätigt oder überholt wurde. Die Verwechslung beginnt, wenn ein aus Text extrahierter Retrieval-Graph schon wie eine geprüfte fachliche Wahrheit behandelt wird.

Zur vollständigen Typologie mit Kriterienvergleich

Wie GraphRAG arbeitet

Vom Korpus zur erklärbaren Antwort

Quellen vorbereiten

Dokumente, Tabellen oder Notizen werden bereinigt, segmentiert und mit Metadaten versehen.

Graph konstruieren

Entitäten, Relationen und Communities entstehen aus den Quellen oder aus vorhandenen Datenmodellen.

Frage analysieren

Das System entscheidet, ob eine Frage lokale Entitäten, Beziehungspfade, Cluster oder einen Überblick braucht.

Graphkontext holen

Retrieval liefert relevante Knoten, Kanten, Pfade, Nachbarschaften, Quellen und gegebenenfalls Textchunks.

Kontext verdichten

Der Graphkontext wird gefiltert, gerankt und so komprimiert, dass das LLM ihn sinnvoll nutzen kann.

Antwort formulieren

Das LLM erzeugt eine Antwort, die möglichst auf Quellen, Beziehungen und nachvollziehbaren Zwischenschritten basiert.

Retrieval-Modi

GraphRAG ist kein einzelner Algorithmus. In der Praxis werden fünf Retrieval-Modi kombiniert, je nachdem ob eine Frage eine bekannte Entität, einen Pfad, einen Überblick, hybride Signale oder eine präzise Graphabfrage braucht. Frameworks wie Microsoft GraphRAG oder Neo4j verwenden teils eigene englische Namen; sie stehen als Synonyme an jedem Modus.

Lokale Suche

auch: Local Search · Entity-first

Startet bei konkreten Entitäten oder Dokumentstellen und sammelt direkte Nachbarschaft, Quellen und relevante Pfade. Gut für Detailfragen, Nachweise und konkrete Objekte.

Welche Risiken hängen an Vertrag X?

Multi-Hop-Pfade

auch: Path-based Retrieval

Verfolgt mehrere Beziehungsschritte, wenn die Antwort über Zwischenknoten entsteht.

Welche Services sind indirekt von System Y abhängig?

Community-Überblick

auch: Global Search

Nutzt Cluster, Communities oder vorbereitete Zusammenfassungen, um große Korpora thematisch überblickbar zu machen. Gut für Muster, Themen und Lagebilder.

Welche Hauptthemen tauchen in allen Reports wiederholt auf?

Hybrides Retrieval

auch: Text-based Retrieval · Chunk-first

Startet meist mit Vektorsuche auf Textchunks und kombiniert Graphpfade, Metadaten und Reranking, wenn kein Signal allein reicht.

Welche Policy-Stellen und Nachweise passen zu dieser Anfrage?

Text-to-Cypher

auch: NL2Cypher

Übersetzt eine Nutzerfrage mit Hilfe des Graphschemas in eine kontrollierte Graphabfrage. Gut für präzise Beziehungsmuster.

Welche Kunden sind über Verträge mit Policy B verbunden?

Wie diese Modi als durchgängige Abläufe kombiniert werden, zeigt die Entscheidungskarte GraphRAG Retrieval Patterns.

Ein Beispiel: Vertrag, Klausel, Policy

GraphRAG wird greifbar, wenn eine Frage mehrere Dinge verbinden muss. Das Beispiel zeigt, wie aus einer fachlichen Frage ein Beziehungskontext wird.

Frage

Welche Verträge mit Kunde Nordstern enthalten Klauseln, die von der neuen Datenschutz-Policy betroffen sind?

Reine Textnähe findet oft

findet Textstellen zu Kunde Nordstern
findet ähnliche Abschnitte zur Datenschutz-Policy
kann aber Vertragspartei, Klauseltyp und Policy-Bezug vermischen

Graphkontext

Kunde Nordstern -[:HAT_VERTRAG]-> Vertrag A

Vertrag A -[:ENTHÄLT]-> Klausel 12

Klausel 12 -[:REGELT]-> Datenverarbeitung

Datenschutz-Policy 2026 -[:BETRIFFT]-> Datenverarbeitung

Die Antwort kann die betroffenen Verträge nennen, den Pfad über Klausel und Policy zeigen und die relevanten Quellenstellen getrennt zitierbar halten.

Kostenmodell

Indexing ist der teure Teil

GraphRAG verschiebt Aufwand nach vorne: Der Graph muss gebaut, verdichtet, geprüft und aktualisiert werden. Dieser Aufwand lohnt sich, wenn der Beziehungskontext echte Qualitätsgewinne erzeugt.

LLM-Extraktion für Entitäten, Relationen und gegebenenfalls Claims kostet Zeit, Tokens und Review-Aufwand.
Entity Resolution ist oft teurer als die erste Extraktion, weil gleiche Dinge über Quellen hinweg zusammengeführt werden müssen.
Community Detection und Zusammenfassungen helfen bei Überblicksfragen, erzeugen aber zusätzliche Indexing-Arbeit.
Neue oder geänderte Quellen brauchen Re-Indexing-Strategien, sonst driftet der Graph vom aktuellen Wissensstand weg.

Qualitätsfrage

Der Graph muss den Kontext besser machen

GraphRAG ist sinnvoll, wenn der Graph echte Retrieval-Qualität erzeugt. Ein guter Kontext ist präzise, erklärbar und stabil genug für die jeweilige Frage.

Sind Entitäten sauber aufgelöst oder erzeugen Aliasse mehrere Knoten?
Sind Beziehungstypen fachlich eindeutig genug, um Antwortpfade zu erklären?
Kann jede Graph-Aussage auf Quelle, Zeitpunkt und Extraktionslauf zurückgeführt werden?
Verbessert der Graph echte Testfragen oder nur Demo-Fragen?
Bleibt der Kontext klein genug, damit das LLM nicht mit Graphrauschen überladen wird?

Was eine Antwort prüfbar macht

GraphRAG ist stark, wenn Antwort und Herleitung sichtbar werden. Dafür müssen Quellen, Pfade und extrahierte Graphfakten getrennt behandelbar bleiben.

Quelle

Jede Aussage braucht nachvollziehbare Dokumente, Abschnitte oder Datensätze.

Pfad

Die Antwort sollte zeigen können, welche Entitäten und Beziehungen sie verbunden hat.

Graphfakt

Extrahierte Beziehung und LLM-Formulierung sollten unterscheidbar bleiben.

Review

Unsichere Aussagen brauchen Confidence, Stichprobe oder manuelle Bestätigung.

GraphRAG lohnt sich eher

Fragen laufen über mehrere Dokumente oder Systeme.
Beziehungen, Rollen, Zuständigkeiten oder Abhängigkeiten sind entscheidend.
Antworten müssen erklärbar, auditierbar oder quellenbezogen sein.

Eine einfachere RAG-Baseline passt eher

Die meisten Fragen lassen sich aus einem einzelnen Textabschnitt beantworten.
Es gibt keine stabilen Entitätstypen oder wiederkehrenden Beziehungsmuster.
Der Aufwand für Graphpflege wäre höher als der erwartete Qualitätsgewinn.

Architekturvarianten

GraphRAG ist kein einzelnes Produkt. Je nach Frage, Datenreife und Betriebsmodell sieht die Architektur unterschiedlich aus.

Vector-only RAG

Startpunkt für dokumentennahe Fragen mit schneller semantischer Suche und schlanker Modellierung.

Hybrid Retrieval

Kombiniert Vektorsuche mit Graph- oder Metadatensignalen. Häufig der pragmatische nächste Schritt.

Microsoft GraphRAG Pipeline

Stark für Korpus-Überblicke, Communities und Global Search über größere Dokumentmengen.

Neo4j GraphRAG Stack

Produktionsnäher, wenn Graphdatenbank, Cypher, Vektorindex und Betrieb zusammen gedacht werden.

RAG, Hybrid oder GraphRAG?

GraphRAG sollte eine konkrete Verbesserung gegenüber einfacheren Retrieval-Mustern zeigen. Maßgeblich ist, welche Architektur die Testfragen am verlässlichsten beantwortet.

MusterStark beiGrenzeEvaluationssignal

RAGFragen, deren Antwort in wenigen passenden Textstellen liegt.Beziehungen, Versionen und Abhängigkeiten bleiben implizit.Der richtige Chunk ist unter den ersten Treffern.

Hybrid RetrievalFragen, die Textnähe plus Filter, Metadaten, Keywords oder erste Graphsignale brauchen.Fusion und Gewichtung müssen evaluiert werden.Mehrere Signale verbessern Treffer sichtbar gegenüber Vector-only.

GraphRAGFragen, deren Antwort über Entitäten, Pfade, Communities oder mehrere Quellen entsteht.Indexing, Graphpflege und Evaluation sind aufwendiger.Der Graph liefert erklärbare Pfade, die eine reine Trefferliste nicht stabil liefert.

Die Bausteine sauber trennen

GraphRAG vermischt schnell mehrere Themen. Für die Praxis hilft eine klare Trennung: Der Graph speichert Beziehungen, baut ihn auf, stabilisiert Bedeutung, und Retrieval entscheidet, welcher Kontext in die Antwort kommt.

Das konkrete Netz aus Knoten, Kanten, Eigenschaften und Quellen.

Die Pipeline, die aus Quellen einen belastbaren Graph erzeugt und pflegt.

Die fachliche Bedeutungsschicht für Begriffe, Beziehungstypen und Regeln.

Die Muster, die festlegen, ob Kontext über Chunks, Entitäten, Hybrid-Signale, Cypher oder Agenten geholt wird.

Praxisentscheidung

Mit einem Vergleichsszenario starten

Der beste Einstieg ist ein kleiner Benchmark: 5 bis 10 echte Fragen, eine einfache RAG-Baseline, ein enger Graph mit klaren Entitätstypen und eine Auswertung, bei welchen Fragen Beziehungskontext wirklich hilft.

Minimaler Pilot

Ein GraphRAG-Pilot sollte klein genug sein, um schnell zu lernen, aber konkret genug, um echte Architekturentscheidungen vorzubereiten.

20 bis 50 repräsentative Dokumente oder ein klarer Ausschnitt aus einem größeren Korpus.
5 bis 8 Entitätstypen und wenige fachlich belastbare Beziehungstypen.
10 echte Fragen, davon einige, die RAG wahrscheinlich nicht stabil beantworten kann.
Eine RAG-Baseline als Vergleich, damit der Graph-Mehrwert messbar wird.
Bewertung nach Antwortqualität, Erklärbarkeit, Indexing-Aufwand und Pflegeaufwand.

Nächste Schritte

Nächstes Konzept: Hybrid Retrieval Retrieval Patterns Knowledge Graphs Graph Construction Hybrid Retrieval Architektur