Zum Inhalt springen
GraphRAG Compass
  • Grundlagen
  • Architekturen
  • Praxis
  • Business Cases
  • Lernpfad
  • Simulation
  • Landkarte
GraphRAG Compass

Öffentlicher Field Guide für GraphRAG, Knowledge Graphs, AI-Architekturen und bessere Entscheidungen in komplexen Wissenssystemen.

Erkunden

  • Grundlagen
  • Architekturen
  • Praxis
  • Business Cases
  • Simulation
  • Landkarte

Lernen

  • Lernpfad
  • Mini-Use-Case
  • GraphRAG Poster
  • Glossar

Über

  • About
  • LinkedIn

Discovery

  • llms.txt
  • llms-full.txt
  • sitemap.xml

Rechtliches

  • Impressum
  • Datenschutz

© 2026 Meierhoff Systems · GraphRAG Compass

Orientierung für Entscheidungen in Wissenssystemen

Zurück zum Architekturmuster

Architektur-Detail · Dokumentmengen verstehen

Microsoft GraphRAG Pipeline

Die Microsoft GraphRAG Indexing-Pipeline extrahiert per LLM Entitäten und Relationen aus Dokumenten, erkennt thematische Communities (Leiden-Algorithmus) und generiert Community-Summaries. Global Search beantwortet Überblicksfragen; Local Search zielt auf spezifische Entitäten.

Praxisnah
Aufwand: mittel
Datenreife: mittel
Team-Reife: mittel

Kuratierte Architekturentscheidung auf Basis der lokalen Compass-Daten

Relevant wenn

Wenn Zusammenfassungen und Muster über viele Dokumente gefragt sind, nicht Punkt-Abfragen zu einzelnen Entitäten.

Quellenlage

Offiziell belegtes Referenzmuster aus Microsoft GraphRAG: Dokumente werden vorverarbeitet, Entitäten und Beziehungen werden extrahiert, Themencluster werden gebildet und danach für konkrete oder übergreifende Fragen durchsucht.

Welches Problem löst das Muster?

Überblicksfragen über große, heterogene Dokumentkorpora — 'Was sind die Hauptthemen in diesen 500 Berichten?'

Systemkarte

Wie der Architekturfluss aussieht

Die Motion Map verdichtet das Muster auf seine wichtigsten Stationen: Eingabe, Daten- oder Graphschicht, Retrieval, Kontrolle und Antwort. Sie ist bewusst kleiner als die Referenzarchitektur darunter und soll zuerst die Leserichtung und die Systemgrenzen sichtbar machen.

Motion Map

MS GraphRAG

Docs
Extraktion
Doc Graph
Community
Summary
Search
Antwort

Viel Nutzen entsteht vor der ersten Frage: Indexing, Communities, Summaries.

Architekturblick

Was du bauen, betreiben und messen musst

Diese Seite ist eine Entscheidungshilfe für den Stack. Der Blick liegt auf Datenfluss, Failure Modes, Evaluation, Tooling und dem nächsten sinnvollen Migrationsschritt.

Stack-Schnitt

IngestionLLM ExtractionGraph IndexCommunity DetectionCommunity SummariesLocal SearchGlobal Search

Runtime-Datenfluss

Dokumente werden vor der Abfrage analysiert: Text Units, Entitäten, Beziehungen und Communities entstehen als Index-Artefakte. Zur Laufzeit wählt die Anfrage Local oder Global Search und nutzt vorberechnete Graph- und Summary-Strukturen.

Migrationspfad

Als Framework-Pilot starten. Für Produktion klären, welche Artefakte in eine dauerhafte Datenhaltung, Governance, Monitoring und Aktualisierungsstrategie überführt werden.

Failure Modes

  • Indexing wird teuer, bevor der Nutzen belegt ist.
  • Community Summaries altern, wenn Dokumente häufig wechseln.
  • Extrahierte Beziehungen wirken fachlich plausibel, sind aber nicht validiert.

Evaluation

  • Global-Search-Fragen getrennt von Local-Search-Fragen bewerten.
  • Indexing-Kosten pro Korpusversion messen.
  • Extraktionsfehler stichprobenartig mit Quellenpfaden prüfen.

Tooling & Betrieb

  • microsoft/graphrag
  • Python
  • OpenAI oder Azure OpenAI
  • Parquet-Artefakte
  • Batch-Evaluation

Referenzarchitektur

Wie die Microsoft GraphRAG Pipeline arbeitet

Microsoft GraphRAG ist vor allem eine Dokument-GraphRAG-Pipeline. Der wichtigste Unterschied zu Pure RAG ist die Vorarbeit: Das System extrahiert Entitäten und Beziehungen, bildet Communities und erzeugt Summaries, bevor Fragen beantwortet werden. Dadurch wird Überblick über große Dokumentmengen möglich, aber Indexing-Kosten und Aktualisierung werden zur Architekturfrage.

  1. 01

    Dokumentmenge abgrenzen

    Zuerst wird ein klarer Textbestand gewählt: Reports, Policies, Verträge, Forschungsdokumente oder Webseiten. Die Architektur funktioniert am besten, wenn dieser Ausschnitt stabil genug für Indexing ist.

  2. 02

    Chunks und Text Units erzeugen

    Dokumente werden in analysierbare Einheiten zerlegt. Diese Einheiten sind das Rohmaterial für Entitäten, Beziehungen, Claims und spätere Quellenbezüge.

  3. 03

    Entitäten und Beziehungen extrahieren

    LLM-Aufrufe erkennen Dinge, Konzepte und Relationen im Text. Diese Extraktion baut den Dokument-Graphen, ist aber noch keine geprüfte Fachontologie.

  4. 04

    Communities erkennen

    Der Graph wird in thematische Cluster zerlegt. Diese Communities sind wichtig, weil sie Überblicksfragen über große Dokumentmengen ermöglichen.

  5. 05

    Summaries vorberechnen

    Für Communities und andere Artefakte werden Zusammenfassungen erzeugt. Qualität und Kosten entstehen stark in dieser Vorarbeit.

  6. 06

    Local oder Global Search nutzen

    Local Search beantwortet spezifische Fragen nahe an Entitäten. Global Search nutzt Community Summaries für Überblick, Muster und große Themenlinien.

Aufwand
mittel

Implementierungs-, Integrations- und Betriebsaufwand.

Datenreife
mittel

Qualität, Struktur und Zugänglichkeit der Daten vor dem Pilot.

Team-Reife
mittel

Erfahrung mit RAG, Graphdenken, Infrastruktur und Evaluation.

Nicht ideal wenn

Echtzeit-Aktualität, günstige Indexierung oder Punktabfragen dominieren.

Trade-offs

Sehr hohe Indexierungskosten: LLM-Calls je Chunk machen große Korpora teuer. Community-Summaries sind statisch — bei neuen Dokumenten muss der Index neu gebaut werden. Kein guter Fit für Echtzeit-Queries oder Punkt-Abfragen.

Retrieval-Modi

Local Search, Global Search und Communities

Diese Architektur ist besonders hilfreich, wenn du einzelne Textstellen und wissen willst, welche Themen, Gruppen oder Muster sich durch viele Dokumente ziehen.

Local Search

Gut für konkrete Fragen zu einer Entität, einem Thema oder einem engen Ausschnitt. Der Graph hilft, nahe Textstellen, Beziehungen und Quellenkontext zu sammeln.

Global Search

Gut für Überblicksfragen wie Hauptthemen, Muster oder Lagebilder über viele Dokumente. Die Antwort entsteht stärker aus vorberechneten Community Summaries.

Community Summaries

Der zentrale Unterschied zu einfachem Chunk-Retrieval: Das System erstellt Zwischenwissen über Cluster, damit große Dokumentmengen zusammenfassend befragbar werden.

Dokument-Graph statt Domänen-Graph

Die Knoten und Kanten stammen aus Texten. Sie helfen beim Retrieval, sind aber nicht automatisch das fachlich gepflegte Modell eines Unternehmens.

Qualitätshebel

Wo diese Pipeline kritisch wird

Die Pipeline kann sehr wertvoll sein und bringt Aufwand mit. Qualität, Kosten und Aktualität entstehen vor allem im Indexing und in der Frage, ob Local oder Global Search zum Problem passt.

Indexing-Kosten vorher schätzen

Microsoft GraphRAG verlagert viel Arbeit vor die erste Frage. LLM-Extraktion und Summaries können teuer werden, besonders bei großen oder häufig wechselnden Dokumentmengen.

Fragetypen trennen

Der Ansatz glänzt bei Überblick und Mustererkennung. Wenn vor allem Punktabfragen, aktuelle Daten oder transaktionale Graphabfragen dominieren, passt er weniger gut.

Extraktionen validieren

Entitäten und Relationen sind maschinell abgeleitet. Für fachkritische Antworten müssen Stichproben, Quellenpfade und Fehlertypen geprüft werden.

Update-Strategie klären

Wenn Dokumente häufig neu kommen, wird inkrementelles Aktualisieren zur Architekturfrage. Statische Summaries altern schnell.

Stack-Komponenten

Pythonmicrosoft/graphragAzure OpenAI / OpenAIParquet Store

Ausbaustufen

Vom Framework-Test zur Zielarchitektur

Microsoft GraphRAG eignet sich gut, um die Methode zu verstehen und gegen RAG zu benchmarken. Für produktive Systeme muss danach entschieden werden, welche Teile Framework bleiben und welche durch Datenbank, Governance, Monitoring oder Semantic Layer ersetzt werden.

  1. Stufe 1

    Kleiner Dokumentbestand, klare Local- und Global-Search-Fragen, Kosten und Qualität messen.

  2. Stufe 2

    Antworten gegen RAG vergleichen: Quellenqualität, Überblicksnutzen, Halluzinationen und Indexing-Kosten.

  3. Stufe 3

    Datenhaltung, Rechte, Monitoring, Aktualisierung, Evaluation und UI/Agenten-Integration bewusst ergänzen.

  4. Stufe 4

    Wenn fachliche Objekte, Regeln und Prozesse dauerhaft modelliert werden müssen, ist ein Knowledge-Graph- oder Semantic-Layer-Stack nötig.

Konkrete Beispiele

In welchem Kontext das Muster typischerweise Sinn ergibt und welchen Beitrag es dort leistet.

Großes Research-Korpus

Hunderte Dokumente sollen thematisch verstanden und zusammengefasst werden.

Community Detection hilft, globale Muster und Cluster sichtbar zu machen.

Strategieanalyse

Viele Quellen enthalten wiederkehrende Akteure, Themen und Narrative.

Die Pipeline erzeugt Überblicksantworten über das gesamte Korpus.

Einsteigerbeispiel: EU AI Act

Ein Team lädt den EU AI Act und ergänzende Leitfäden als Dokumentbestand. Die Pipeline extrahiert Entitäten, Themen und Communities aus den Texten.

Das Muster hilft bei Überblicksfragen wie: Welche Pflichten tauchen in mehreren Kapiteln wieder auf? Es baut dafür einen Dokument-Graphen, keinen gepflegten Domänen-Graphen.

Nächste Umsetzungsschritte

  1. 1

    Pilotkorpus abgrenzen

  2. 2

    Global-Search-Fragen formulieren

  3. 3

    Indexierungskosten vor dem Pilot schätzen

Verwandte Konzepte, Tools und Plattformen

GraphRAGGraph ConstructionMicrosoft GraphRAG

Quellen und Ressourcen

Microsoft Research GraphRAGmicrosoft/graphragGraphRAG Docs
Vorheriges ThemaHybrid RetrievalNächstes ThemaNeo4j GraphRAG Stack