GraphRAG erweitert Retrieval-Augmented Generation um explizite Entitäten, Beziehungen und Pfade. Es wird relevant, wenn Antworten nachvollziehbare Zusammenhänge zwischen Textstellen brauchen.
Graphkontext
Multi-Hop
Pfade
Auditierbarkeit
Kuratierter erster Schnitt · Stand Mai 2026
Die Grundidee
GraphRAG ist RAG mit einem expliziten im Retrieval. Das System nutzt semantische Textstellen, Entitäten, Relationen, Pfade und Communities, um den Antwortkontext fachlich zu strukturieren.
Der Kern ist bessere Kontextauswahl mit mehreren Signalen. bleibt oft ein sinnvoller Teil der Pipeline; GraphRAG ergänzt Beziehungskontext, wenn die Antwort aus Zusammenhängen entsteht.
Fünf Graph-Perspektiven in GraphRAG
GraphRAG wird klarer, wenn die Rolle des Graphen genau benannt wird. Ein Wissensgraph ist die semantische Basis; Dokument- und Domänen-Graphen sind die wichtigsten fachlichen Grundformen; Conversational und dynamische Graphen ergänzen Laufzeitkontext und Veränderung. Entscheidend ist, welche Frage der Graph beantwortet.
Ein Dokument-Graph entsteht aus Textquellen. Er zerlegt, extrahiert und verdichtet Dokumente für besseres Retrieval.
Ausgangspunkt ist ein Textkorpus: PDFs, Webseiten, Verträge, Policies, Reports oder Tickets.
Das System zerlegt Quellen in Chunks oder Text Units und extrahiert daraus Entitäten, Beziehungen, Claims, Communities oder Summaries.
Der Graph ist primär ein Retrieval- und Analyseindex: Er hilft, Textstellen, Themencluster, lokale Entitätskontexte oder globale Korpusüberblicke zu finden.
Die extrahierten Beziehungen sind abgeleitetes Textwissen. Sie können nützlich sein, sind aber nicht automatisch fachlich geprüft oder vollständig.
Form 2
Domänen-Graph
Ein Domänen-Graph modelliert die fachliche Welt. Ein Vertrag kann darin ein fachliches Objekt sein, während der PDF-Volltext anderswo liegt. Sein Hauptzweck ist Bedeutung, Navigation und Nachvollziehbarkeit.
Ausgangspunkt ist eine fachliche Welt: Personen, Organisationen, Verträge, Systeme, Produkte, Regeln, Risiken oder Nachweise.
Der Graph modelliert konkrete fachliche Objekte und deren Beziehungen, unabhängig davon, ob der Volltext eines Dokuments im Graph liegt.
Der Graph ist primär ein Bedeutungs- und Entscheidungsmodell: Er hilft, Verantwortlichkeiten, Gültigkeit, Abhängigkeiten und fachliche Pfade zu verstehen.
Die Beziehungen sollten bewusst modelliert, gepflegt und geprüft werden. Ontologie oder Schema dienen als Leitplanke, sind aber kein dritter GraphRAG-Typ.
Der eigentliche Unterschied
Für die Praxis bleiben Dokument-Graph und Domänen-Graph die wichtigste Unterscheidung. Der eine macht Textkorpora navigierbar, der andere modelliert fachliche Realität. Wissensgraph, Conversational Graph und dynamischer Graph helfen, diese Grundformen sauber einzuordnen.
Kriterium
Dokument-Graph
Domänen-Graph
Startfrage
Was steht in diesen Dokumenten, und welche Textstellen oder Themen helfen bei meiner Frage?
Welche fachlichen Dinge existieren in unserer Domäne, und wie hängen sie belastbar zusammen?
LLM-extrahierte Beziehungen können unvollständig, redundant oder fachlich falsch sein.
Das Modell kann zu groß, zu abstrakt oder schlecht gepflegt werden.
Reife Systeme verbinden oft mehrere Perspektiven: Ein Dokument-Graph liefert Quellen, Chunks und extrahierte Aussagen; ein Domänen-Graph ordnet diese Aussagen fachlichen Objekten, Regeln und Verantwortlichkeiten zu; ein Conversational oder dynamischer Graph hält fest, was im Verlauf einer Nutzung gelernt, bestätigt oder überholt wurde. Die Verwechslung beginnt, wenn ein aus Text extrahierter Retrieval-Graph schon wie eine geprüfte fachliche Wahrheit behandelt wird.
Wie GraphRAG arbeitet
Vom Korpus zur erklärbaren Antwort
01
Quellen vorbereiten
Dokumente, Tabellen oder Notizen werden bereinigt, segmentiert und mit Metadaten versehen.
02
Graph konstruieren
Entitäten, Relationen und Communities entstehen aus den Quellen oder aus vorhandenen Datenmodellen.
03
Frage analysieren
Das System entscheidet, ob eine Frage lokale Entitäten, Beziehungspfade, Cluster oder einen Überblick braucht.
Der Graphkontext wird gefiltert, gerankt und so komprimiert, dass das LLM ihn sinnvoll nutzen kann.
06
Antwort formulieren
Das LLM erzeugt eine Antwort, die möglichst auf Quellen, Beziehungen und nachvollziehbaren Zwischenschritten basiert.
Retrieval-Modi
GraphRAG ist kein einzelner Algorithmus. In der Praxis werden verschiedene Retrieval-Modi kombiniert, je nachdem ob eine Frage eine bekannte Entität, einen Pfad, einen Überblick oder hybride Signale braucht.
Lokale Suche
Startet bei einer bekannten Entität und sammelt direkte Nachbarschaft, Quellen und relevante Pfade.
Welche Risiken hängen an Vertrag X?
Multi-Hop-Pfade
Verfolgt mehrere Beziehungsschritte, wenn die Antwort über Zwischenknoten entsteht.
Welche Services sind indirekt von System Y abhängig?
Community-Überblick
Nutzt Cluster oder Communities, um große Korpora thematisch zusammenzufassen.
Welche Hauptthemen tauchen in allen Reports wiederholt auf?
Hybrides Retrieval
Kombiniert Vektorsuche, Graphpfade, Metadaten und Reranking, wenn kein Signal allein reicht.
Welche Policy-Stellen und Nachweise passen zu dieser Anfrage?
Text-based Retrieval
Startet mit Vektorsuche auf Textchunks und erweitert den Kontext danach über verbundene Entitäten, Quellen oder Multi-Hop-Beziehungen im Graph.
Welche Services hängen am Chunk zur Reporting-Migration?
Local Search
Startet bei konkreten Entitäten oder Dokumentstellen und sammelt deren direkte Nachbarschaft. Gut für Detailfragen, Nachweise und konkrete Objekte.
Welche Klauseln in Vertrag A hängen an Policy B?
Global Search
Nutzt Communities, Cluster oder vorbereitete Zusammenfassungen, um große Korpora überblickbar zu machen. Gut für Muster, Themen und Lagebilder.
Welche Hauptthemen ziehen sich durch alle Risiko-Reports?
NL2Cypher
Übersetzt eine Nutzerfrage mit Hilfe des Graphschemas in eine kontrollierte Graphabfrage. Gut für präzise Beziehungsmuster.
Welche Kunden sind über Verträge mit Policy B verbunden?
Ein Beispiel: Vertrag, Klausel, Policy
GraphRAG wird greifbar, wenn eine Frage mehrere Dinge verbinden muss. Das Beispiel zeigt, wie aus einer fachlichen Frage ein Beziehungskontext wird.
Frage
Welche Verträge mit Kunde Nordstern enthalten Klauseln, die von der neuen Datenschutz-Policy betroffen sind?
Reine Textnähe findet oft
findet Textstellen zu Kunde Nordstern
findet ähnliche Abschnitte zur Datenschutz-Policy
kann aber Vertragspartei, Klauseltyp und Policy-Bezug vermischen
Die Antwort kann die betroffenen Verträge nennen, den Pfad über Klausel und Policy zeigen und die relevanten Quellenstellen getrennt zitierbar halten.
Kostenmodell
Indexing ist der teure Teil
GraphRAG verschiebt Aufwand nach vorne: Der Graph muss gebaut, verdichtet, geprüft und aktualisiert werden. Dieser Aufwand lohnt sich, wenn der Beziehungskontext echte Qualitätsgewinne erzeugt.
LLM-Extraktion für Entitäten, Relationen und gegebenenfalls Claims kostet Zeit, Tokens und Review-Aufwand.
Entity Resolution ist oft teurer als die erste Extraktion, weil gleiche Dinge über Quellen hinweg zusammengeführt werden müssen.
Community Detection und Zusammenfassungen helfen bei Überblicksfragen, erzeugen aber zusätzliche Indexing-Arbeit.
Neue oder geänderte Quellen brauchen Re-Indexing-Strategien, sonst driftet der Graph vom aktuellen Wissensstand weg.
Qualitätsfrage
Der Graph muss den Kontext besser machen
GraphRAG ist sinnvoll, wenn der Graph echte Retrieval-Qualität erzeugt. Ein guter Kontext ist präzise, erklärbar und stabil genug für die jeweilige Frage.
Sind Entitäten sauber aufgelöst oder erzeugen Aliasse mehrere Knoten?
Sind Beziehungstypen fachlich eindeutig genug, um Antwortpfade zu erklären?
Kann jede Graph-Aussage auf Quelle, Zeitpunkt und Extraktionslauf zurückgeführt werden?
Verbessert der Graph echte Testfragen oder nur Demo-Fragen?
Bleibt der Kontext klein genug, damit das LLM nicht mit Graphrauschen überladen wird?
Was eine Antwort prüfbar macht
GraphRAG ist stark, wenn Antwort und Herleitung sichtbar werden. Dafür müssen Quellen, Pfade und extrahierte Graphfakten getrennt behandelbar bleiben.
Quelle
Jede Aussage braucht nachvollziehbare Dokumente, Abschnitte oder Datensätze.
Pfad
Die Antwort sollte zeigen können, welche Entitäten und Beziehungen sie verbunden hat.
Graphfakt
Extrahierte Beziehung und LLM-Formulierung sollten unterscheidbar bleiben.
Review
Unsichere Aussagen brauchen Confidence, Stichprobe oder manuelle Bestätigung.
GraphRAG lohnt sich eher
Fragen laufen über mehrere Dokumente oder Systeme.
Beziehungen, Rollen, Zuständigkeiten oder Abhängigkeiten sind entscheidend.
Antworten müssen erklärbar, auditierbar oder quellenbezogen sein.
Eine einfachere RAG-Baseline passt eher
Die meisten Fragen lassen sich aus einem einzelnen Textabschnitt beantworten.
Es gibt keine stabilen Entitätstypen oder wiederkehrenden Beziehungsmuster.
Der Aufwand für Graphpflege wäre höher als der erwartete Qualitätsgewinn.
Architekturvarianten
GraphRAG ist kein einzelnes Produkt. Je nach Frage, Datenreife und Betriebsmodell sieht die Architektur unterschiedlich aus.
GraphRAG sollte eine konkrete Verbesserung gegenüber einfacheren Retrieval-Mustern zeigen. Maßgeblich ist, welche Architektur die Testfragen am verlässlichsten beantwortet.
MusterStark beiGrenzeEvaluationssignal
RAGFragen, deren Antwort in wenigen passenden Textstellen liegt.Beziehungen, Versionen und Abhängigkeiten bleiben implizit.Der richtige Chunk ist unter den ersten Treffern.
Hybrid RetrievalFragen, die Textnähe plus Filter, Metadaten, Keywords oder erste Graphsignale brauchen.Fusion und Gewichtung müssen evaluiert werden.Mehrere Signale verbessern Treffer sichtbar gegenüber Vector-only.
GraphRAGFragen, deren Antwort über Entitäten, Pfade, Communities oder mehrere Quellen entsteht.Indexing, Graphpflege und Evaluation sind aufwendiger.Der Graph liefert erklärbare Pfade, die eine reine Trefferliste nicht stabil liefert.
Die Bausteine sauber trennen
GraphRAG vermischt schnell mehrere Themen. Für die Praxis hilft eine klare Trennung: Der Graph speichert Beziehungen, baut ihn auf, stabilisiert Bedeutung, und Retrieval entscheidet, welcher Kontext in die Antwort kommt.
Das konkrete Netz aus Knoten, Kanten, Eigenschaften und Quellen.
Die Pipeline, die aus Quellen einen belastbaren Graph erzeugt und pflegt.
Die fachliche Bedeutungsschicht für Begriffe, Beziehungstypen und Regeln.
Die Muster, die festlegen, ob Kontext über Chunks, Entitäten, Hybrid-Signale, Cypher oder Agenten geholt wird.
Praxisentscheidung
Mit einem Vergleichsszenario starten
Der beste Einstieg ist ein kleiner Benchmark: 5 bis 10 echte Fragen, eine einfache RAG-Baseline, ein enger Graph mit klaren Entitätstypen und eine Auswertung, bei welchen Fragen Beziehungskontext wirklich hilft.
Minimaler Pilot
Ein GraphRAG-Pilot sollte klein genug sein, um schnell zu lernen, aber konkret genug, um echte Architekturentscheidungen vorzubereiten.
20 bis 50 repräsentative Dokumente oder ein klarer Ausschnitt aus einem größeren Korpus.
5 bis 8 Entitätstypen und wenige fachlich belastbare Beziehungstypen.
10 echte Fragen, davon einige, die RAG wahrscheinlich nicht stabil beantworten kann.
Eine RAG-Baseline als Vergleich, damit der Graph-Mehrwert messbar wird.
Bewertung nach Antwortqualität, Erklärbarkeit, Indexing-Aufwand und Pflegeaufwand.