Zum Inhalt springen
GraphRAG Compass
  • Grundlagen
  • Architekturen
  • Praxis
  • Business Cases
  • Lernpfad
  • Simulation
  • Landkarte
GraphRAG Compass

Öffentlicher Field Guide für GraphRAG, Knowledge Graphs, AI-Architekturen und bessere Entscheidungen in komplexen Wissenssystemen.

Erkunden

  • Grundlagen
  • Architekturen
  • Praxis
  • Business Cases
  • Simulation
  • Landkarte

Lernen

  • Lernpfad
  • Mini-Use-Case
  • GraphRAG Poster
  • Glossar

Über

  • About
  • LinkedIn

Discovery

  • llms.txt
  • llms-full.txt
  • sitemap.xml

Rechtliches

  • Impressum
  • Datenschutz

© 2026 Meierhoff Systems · GraphRAG Compass

Orientierung für Entscheidungen in Wissenssystemen

Alle Phasen
Entwerfen: Systemdesign & Entwurf
01Systementwurf spezifizieren02Komponenten und Verantwortlichkeiten spezifizieren03Ingestion-Pipeline spezifizieren04Speicherarchitektur spezifizieren05Graphschema für die Umsetzung spezifizieren06Anfrage- und Ergebnislauf spezifizieren07Toolklassen für die Umsetzung spezifizieren08Prototyp-Ausschnitt spezifizieren09Phase-3-Checkpoint

System-Step 3 von 9

Ingestion-Pipeline spezifizieren

Spezifizieren, wie Quellen technisch wiederholbar verarbeitet werden: Parsing, Chunking, Metadaten, Embeddings, Entitäten, Beziehungen, Review-Gates und Schreibpfade.

Was du mitnimmst

Ingestion ist die technische Pipeline, mit der aus vorbereiteten Quellen nutzbare Systemartefakte werden.

Ingestion-Pipeline spezifizieren: Ingestion ist die technische Pipeline, mit der aus vorbereiteten Quellen nutzbare Systemartefakte werden.

Systemziel

Was hier geklärt wird

Du spezifizierst Verarbeitungsschritte, Parameter, Review-Gates und Schreibpfade vor dem ersten Retrieval.

Kontext

Die Architekturfrage

Die Architekturfrage lautet: Wie verarbeitet das System Quellen so, dass Suche, Graph und Herkunftsprüfung zuverlässige Artefakte bekommen?

Für den Mini-Use-Case gibt es drei Quellen. Die Richtlinie enthält die Prüfpflicht und ihre Gültigkeit. Der Systemkatalog benennt Systeme und ihre wichtigsten Stammdaten, zum Beispiel System-ID und zuständiges Team. Die Projektliste zeigt, welches System zu welchem Projekt gehört.

Eine gute Pipeline-Spezifikation respektiert diese Unterschiede. Sie hält fest, wie jede Quelle gelesen wird, welche Version sie hat, welche Chunks entstehen, welche Entitäten erkannt werden und an welcher Stelle Beziehungen geprüft werden.

Prinzip

Architekturprinzip

RichtliniePflicht + GültigkeitSystemkatalogSystem + TeamProjektlisteProjektzuordnungZwischenständeChunks · MetadatenEntitäten · KantenReviewprüfenfreigebenSucheChunksGraphPfadeBelegeTracePrinzip: erst prüfbare Artefakte,dann schreiben

Aus Quellen werden erst prüfbare Zwischenstände, dann Schreibaufträge.

In der Praxis übernehmen Libraries und Frameworks viele Teilschritte: Parser lesen Dokumente, Chunking-Libraries teilen Text, Embedding-Modelle erzeugen Vektoren und Graph-Tools schreiben Knoten und Kanten. Architekturseitig spezifizierst du, welche Zwischenstände sichtbar sein müssen, welche Parameter gelten, wo geprüft wird und welche technischen Ablagen beschrieben werden.

Systementwicklung

Systembaustein

Pipeline-SchrittWas dabei geklärt wirdErgebnis oder Schreibziel
Quellen lesenWelche Abschnitte, Tabellenzeilen und Metadaten nutzbar sindRohtext, Tabellen, Metadaten
Chunks bildenWelche Textstücke später auffindbar sein müssenChunks mit Quelle, Abschnitt und Version
Embeddings erzeugenWelche Chunks über semantische Suche erreichbar sindVector Store
Entitäten auflösenWelche Namen dasselbe System, Projekt oder Team meineneindeutige Entitäten
Beziehungen prüfenWelche Kanten fachlich belastbar sindReview-Gate mit Herkunft
Schreibaufträge erzeugenWelche geprüften Artefakte in welche technische Ablage gehenVector Store, Graph Store, Belegablage
Trace vorbereitenWelche Parameter und Prüfschritte später sichtbar bleibenIngestion-Trace

Der Systembaustein ist eine Pipeline-Spezifikation. Er ergänzt die Komponentenkarte aus dem vorherigen Schritt: Dort ging es um Rollen, hier geht es um den konkreten Herstellungsweg der Artefakte.

Abwägen

Trade-off

Was wird einfacher, was schwieriger?

Die Entscheidung: Du startest mit einem festen Importlauf. Ein Quellenstand wird vollständig verarbeitet und danach geprüft.

Die Konsequenz: Live-Updates, Löschung, Reprocessing und konkurrierende Versionen bleiben zunächst draußen. Dafür siehst du sauber, welche Artefakte entstehen: Chunks, Embeddings, Entitäten, Beziehungen, Herkunft und Trace.

Der Trade-off hilft dir beim Grundverständnis: Ein fester Importlauf macht den Herstellungsweg verständlich. Laufende Updates bringen das System näher an den Betrieb und verlangen zusätzliche Regeln für Versionierung, Löschung und Wiederverarbeitung.

Fehlerbild

Typischer Baufehler

Worauf du achten musst

Die typische Falle: Parsing, Chunking, Extraktion und Graph-Schreiben laufen in einem Durchgang und schreiben alles direkt in die Ablagen. Das wirkt produktiv, bis eine falsche Beziehung in der Antwort auftaucht.

Dann beginnt die Fehlersuche rückwärts: Wurde der Abschnitt falsch gelesen, der Chunk ungünstig geschnitten, "CRM" falsch aufgelöst oder eine unsichere Aussage als feste Kante gespeichert?

Plane die Pipeline mit sichtbaren Zwischenständen: Rohtext, Chunks, Metadaten, Entitäten, Beziehungen, Herkunft und Review-Gate.

Prüfen

Woran du es erkennst

Prüfpunkt

Du erkennst eine zu grobe Pipeline, wenn eine falsche Kante nur durch kompletten Neuimport korrigiert werden kann. Dann fehlen Zwischenstände, Review-Gate oder Versionierungsmodell.

Üben

Mini-Aufgabe

Nutze den Mini-Use-Case: Richtlinie A wurde aktualisiert, aber die Antwort verweist weiterhin auf die alte Fassung. Markiere zwei Stellen in der Pipeline, an denen du Versionierung oder Prüfung brauchst.

Musterlösung
  1. 1Quellen lesen: Die neue Richtlinienversion bekommt eine eigene Versions- und Gültigkeitsinformation.
  2. 2Schreiben in Suche und Graph: Alte Chunks, Beziehungen und Herkunftsbelege werden aktualisiert, deaktiviert oder als veraltet markiert.

So bleibt nachvollziehbar, welche Antwort auf welchem Quellenstand beruht.

Reflektieren

Selbsttest

1.Warum ist Ingestion mehr als Datei-Upload?

Weil aus Quellen mehrere Systembausteine entstehen: Chunks, Embeddings, Entitäten, Beziehungen, Herkunftsbelege und Schreibaufträge.

2.Wo entstehen viele GraphRAG-Fehler besonders früh?

Beim Lesen, Schneiden, Extrahieren, Zusammenführen und Versionieren der Quellen.

3.Was prüft ein Review-Gate?

Es prüft, ob ein erzeugtes Artefakt stabil genug ist, um in Suche, Graph oder Antwortlogik genutzt zu werden.

Kernaussage

Ingestion ist die technische Pipeline, mit der aus vorbereiteten Quellen nutzbare Systemartefakte werden.

Vorheriger StepNächster Step

Status

Auf dieser Seite

SystemzielArchitekturfrageArchitekturprinzipSystembausteinTrade-offBaufehlerWoran du es erkennstMini-AufgabeSelbsttest

Systembau-Modus

Systemdesign statt Tooldemo.

Query-Wege und Datenfluss werden sichtbar.

Tools sind Beispiele, nicht die Architektur selbst.

Vertiefen

Konzept im CompassGraph ConstructionChunking & Document ProcessingProvenance & Trust

Output

Pipeline-Spezifikation mit Verarbeitungsschritten, Parametern, Gates und Outputs

Checkpoint

Du kannst erklären, wie vorbereitete Artefakte technisch wiederholbar erzeugt werden.