Architektur-Detail · Dokumentmengen verstehen

Microsoft GraphRAG Pipeline

Die Microsoft GraphRAG Indexing-Pipeline extrahiert per LLM Entitäten und Relationen aus Dokumenten, erkennt thematische Communities (Leiden-Algorithmus) und generiert Community-Summaries. Global Search beantwortet Überblicksfragen; Local Search zielt auf spezifische Entitäten.

Praxisnah

Aufwand: mittel

Datenreife: mittel

Team-Reife: mittel

Kuratierte Architekturentscheidung auf Basis der lokalen Compass-Daten

Relevant wenn

Wenn Zusammenfassungen und Muster über viele Dokumente gefragt sind, nicht Punkt-Abfragen zu einzelnen Entitäten.

Quellenlage

Offiziell belegtes Referenzmuster aus Microsoft GraphRAG: Dokumente werden vorverarbeitet, Entitäten und Beziehungen werden extrahiert, Themencluster werden gebildet und danach für konkrete oder übergreifende Fragen durchsucht.

Welches Problem löst das Muster?

Überblicksfragen über große, heterogene Dokumentkorpora — 'Was sind die Hauptthemen in diesen 500 Berichten?'

Systemkarte

Wie der Architekturfluss aussieht

Die Motion Map verdichtet das Muster auf seine wichtigsten Stationen: Eingabe, Daten- oder Graphschicht, Retrieval, Kontrolle und Antwort. Sie ist bewusst kleiner als die Referenzarchitektur darunter und soll zuerst die Leserichtung und die Systemgrenzen sichtbar machen.

Architekturblick

Was du bauen, betreiben und messen musst

Diese Seite ist eine Entscheidungshilfe für den Stack. Der Blick liegt auf Datenfluss, Failure Modes, Evaluation, Tooling und dem nächsten sinnvollen Migrationsschritt.

Stack-Schnitt

IngestionLLM ExtractionGraph IndexCommunity DetectionCommunity SummariesLocal SearchGlobal Search

Runtime-Datenfluss

Dokumente werden vor der Abfrage analysiert: Text Units, Entitäten, Beziehungen und Communities entstehen als Index-Artefakte. Zur Laufzeit wählt die Anfrage Local oder Global Search und nutzt vorberechnete Graph- und Summary-Strukturen.

Migrationspfad

Als Framework-Pilot starten. Für Produktion klären, welche Artefakte in eine dauerhafte Datenhaltung, Governance, Monitoring und Aktualisierungsstrategie überführt werden.

Failure Modes

Indexing wird teuer, bevor der Nutzen belegt ist.
Community Summaries altern, wenn Dokumente häufig wechseln.
Extrahierte Beziehungen wirken fachlich plausibel, sind aber nicht validiert.

Evaluation

Global-Search-Fragen getrennt von Local-Search-Fragen bewerten.
Indexing-Kosten pro Korpusversion messen.
Extraktionsfehler stichprobenartig mit Quellenpfaden prüfen.

Tooling & Betrieb

microsoft/graphrag
Python
OpenAI oder Azure OpenAI
Parquet-Artefakte
Batch-Evaluation

Referenzarchitektur

Wie die Microsoft GraphRAG Pipeline arbeitet

Microsoft GraphRAG ist vor allem eine Dokument-GraphRAG-Pipeline. Der wichtigste Unterschied zu Pure RAG ist die Vorarbeit: Das System extrahiert Entitäten und Beziehungen, bildet Communities und erzeugt Summaries, bevor Fragen beantwortet werden. Dadurch wird Überblick über große Dokumentmengen möglich, aber Indexing-Kosten und Aktualisierung werden zur Architekturfrage.

01
Dokumentmenge abgrenzen
Zuerst wird ein klarer Textbestand gewählt: Reports, Policies, Verträge, Forschungsdokumente oder Webseiten. Die Architektur funktioniert am besten, wenn dieser Ausschnitt stabil genug für Indexing ist.
02
Chunks und Text Units erzeugen
Dokumente werden in analysierbare Einheiten zerlegt. Diese Einheiten sind das Rohmaterial für Entitäten, Beziehungen, Claims und spätere Quellenbezüge.
03
Entitäten und Beziehungen extrahieren
LLM-Aufrufe erkennen Dinge, Konzepte und Relationen im Text. Diese Extraktion baut den Dokument-Graphen, ist aber noch keine geprüfte Fachontologie.
04
Communities erkennen
Der Graph wird in thematische Cluster zerlegt. Diese Communities sind wichtig, weil sie Überblicksfragen über große Dokumentmengen ermöglichen.
05
Summaries vorberechnen
Für Communities und andere Artefakte werden Zusammenfassungen erzeugt. Qualität und Kosten entstehen stark in dieser Vorarbeit.
06
Local oder Global Search nutzen
Local Search beantwortet spezifische Fragen nahe an Entitäten. Global Search nutzt Community Summaries für Überblick, Muster und große Themenlinien.

Aufwand: mittel
Datenreife: mittel
Team-Reife: mittel

Nicht ideal wenn

Echtzeit-Aktualität, günstige Indexierung oder Punktabfragen dominieren.

Trade-offs

Sehr hohe Indexierungskosten: LLM-Calls je Chunk machen große Korpora teuer. Community-Summaries sind statisch — bei neuen Dokumenten muss der Index neu gebaut werden. Kein guter Fit für Echtzeit-Queries oder Punkt-Abfragen.

Retrieval-Modi

Local Search, Global Search und Communities

Diese Architektur ist besonders hilfreich, wenn du einzelne Textstellen und wissen willst, welche Themen, Gruppen oder Muster sich durch viele Dokumente ziehen.

Local Search

Gut für konkrete Fragen zu einer Entität, einem Thema oder einem engen Ausschnitt. Der Graph hilft, nahe Textstellen, Beziehungen und Quellenkontext zu sammeln.

Global Search

Gut für Überblicksfragen wie Hauptthemen, Muster oder Lagebilder über viele Dokumente. Die Antwort entsteht stärker aus vorberechneten Community Summaries.

Community Summaries

Der zentrale Unterschied zu einfachem Chunk-Retrieval: Das System erstellt Zwischenwissen über Cluster, damit große Dokumentmengen zusammenfassend befragbar werden.

Dokument-Graph statt Domänen-Graph

Die Knoten und Kanten stammen aus Texten. Sie helfen beim Retrieval, sind aber nicht automatisch das fachlich gepflegte Modell eines Unternehmens.

Qualitätshebel

Wo diese Pipeline kritisch wird

Die Pipeline kann sehr wertvoll sein und bringt Aufwand mit. Qualität, Kosten und Aktualität entstehen vor allem im Indexing und in der Frage, ob Local oder Global Search zum Problem passt.

Indexing-Kosten vorher schätzen

Microsoft GraphRAG verlagert viel Arbeit vor die erste Frage. LLM-Extraktion und Summaries können teuer werden, besonders bei großen oder häufig wechselnden Dokumentmengen.

Fragetypen trennen

Der Ansatz glänzt bei Überblick und Mustererkennung. Wenn vor allem Punktabfragen, aktuelle Daten oder transaktionale Graphabfragen dominieren, passt er weniger gut.

Extraktionen validieren

Entitäten und Relationen sind maschinell abgeleitet. Für fachkritische Antworten müssen Stichproben, Quellenpfade und Fehlertypen geprüft werden.

Update-Strategie klären

Wenn Dokumente häufig neu kommen, wird inkrementelles Aktualisieren zur Architekturfrage. Statische Summaries altern schnell.

Stack-Komponenten

Pythonmicrosoft/graphragAzure OpenAI / OpenAIParquet Store

Ausbaustufen

Vom Framework-Test zur Zielarchitektur

Microsoft GraphRAG eignet sich gut, um die Methode zu verstehen und gegen RAG zu benchmarken. Für produktive Systeme muss danach entschieden werden, welche Teile Framework bleiben und welche durch Datenbank, Governance, Monitoring oder Semantic Layer ersetzt werden.

Stufe 1
Kleiner Dokumentbestand, klare Local- und Global-Search-Fragen, Kosten und Qualität messen.
Stufe 2
Antworten gegen RAG vergleichen: Quellenqualität, Überblicksnutzen, Halluzinationen und Indexing-Kosten.
Stufe 3
Datenhaltung, Rechte, Monitoring, Aktualisierung, Evaluation und UI/Agenten-Integration bewusst ergänzen.
Stufe 4
Wenn fachliche Objekte, Regeln und Prozesse dauerhaft modelliert werden müssen, ist ein Knowledge-Graph- oder Semantic-Layer-Stack nötig.

Konkrete Beispiele

In welchem Kontext das Muster typischerweise Sinn ergibt und welchen Beitrag es dort leistet.

Großes Research-Korpus

Hunderte Dokumente sollen thematisch verstanden und zusammengefasst werden.

Community Detection hilft, globale Muster und Cluster sichtbar zu machen.

Strategieanalyse

Viele Quellen enthalten wiederkehrende Akteure, Themen und Narrative.

Die Pipeline erzeugt Überblicksantworten über das gesamte Korpus.

Einsteigerbeispiel: EU AI Act

Ein Team lädt den EU AI Act und ergänzende Leitfäden als Dokumentbestand. Die Pipeline extrahiert Entitäten, Themen und Communities aus den Texten.

Das Muster hilft bei Überblicksfragen wie: Welche Pflichten tauchen in mehreren Kapiteln wieder auf? Es baut dafür einen Dokument-Graphen, keinen gepflegten Domänen-Graphen.

Nächste Umsetzungsschritte

1
Pilotkorpus abgrenzen
2
Global-Search-Fragen formulieren
3
Indexierungskosten vor dem Pilot schätzen

Quellen und Ressourcen

Microsoft Research GraphRAG microsoft/graphrag GraphRAG Docs

Microsoft GraphRAG Pipeline

Praxisnah

Aufwand: mittel

Datenreife: mittel

Team-Reife: mittel

Kuratierte Architekturentscheidung auf Basis der lokalen Compass-Daten

Wie die Microsoft GraphRAG Pipeline arbeitet

Konkrete Beispiele

In welchem Kontext das Muster typischerweise Sinn ergibt und welchen Beitrag es dort leistet.

Großes Research-Korpus

Hunderte Dokumente sollen thematisch verstanden und zusammengefasst werden.

Community Detection hilft, globale Muster und Cluster sichtbar zu machen.

Strategieanalyse

Viele Quellen enthalten wiederkehrende Akteure, Themen und Narrative.

Die Pipeline erzeugt Überblicksantworten über das gesamte Korpus.

Einsteigerbeispiel: EU AI Act

Ein Team lädt den EU AI Act und ergänzende Leitfäden als Dokumentbestand. Die Pipeline extrahiert Entitäten, Themen und Communities aus den Texten.

Das Muster hilft bei Überblicksfragen wie: Welche Pflichten tauchen in mehreren Kapiteln wieder auf? Es baut dafür einen Dokument-Graphen, keinen gepflegten Domänen-Graphen.

Microsoft GraphRAG Pipeline

Welches Problem löst das Muster?

Wie der Architekturfluss aussieht

Was du bauen, betreiben und messen musst

Stack-Schnitt

Runtime-Datenfluss

Migrationspfad

Failure Modes

Evaluation

Tooling & Betrieb

Wie die Microsoft GraphRAG Pipeline arbeitet

Dokumentmenge abgrenzen

Chunks und Text Units erzeugen

Entitäten und Beziehungen extrahieren

Communities erkennen

Summaries vorberechnen

Local oder Global Search nutzen

Nicht ideal wenn

Trade-offs

Local Search, Global Search und Communities

Local Search

Global Search

Community Summaries

Dokument-Graph statt Domänen-Graph

Wo diese Pipeline kritisch wird

Indexing-Kosten vorher schätzen

Fragetypen trennen

Extraktionen validieren

Update-Strategie klären

Stack-Komponenten

Vom Framework-Test zur Zielarchitektur

Framework-Pilot

Evaluation

Produktionsarchitektur

Domänen-Graph prüfen

Konkrete Beispiele

Großes Research-Korpus

Strategieanalyse

Einsteigerbeispiel: EU AI Act

Nächste Umsetzungsschritte

Verwandte Konzepte, Tools und Plattformen

Quellen und Ressourcen

Microsoft GraphRAG Pipeline

Welches Problem löst das Muster?

Wie der Architekturfluss aussieht

Was du bauen, betreiben und messen musst

Stack-Schnitt

Runtime-Datenfluss

Migrationspfad

Failure Modes

Evaluation

Tooling & Betrieb

Wie die Microsoft GraphRAG Pipeline arbeitet

Dokumentmenge abgrenzen

Chunks und Text Units erzeugen

Entitäten und Beziehungen extrahieren

Communities erkennen

Summaries vorberechnen

Local oder Global Search nutzen

Nicht ideal wenn

Trade-offs

Local Search, Global Search und Communities

Local Search

Global Search

Community Summaries

Dokument-Graph statt Domänen-Graph

Wo diese Pipeline kritisch wird

Indexing-Kosten vorher schätzen

Fragetypen trennen

Extraktionen validieren

Update-Strategie klären

Stack-Komponenten

Vom Framework-Test zur Zielarchitektur

Framework-Pilot

Evaluation

Produktionsarchitektur

Domänen-Graph prüfen

Konkrete Beispiele

Großes Research-Korpus

Strategieanalyse