Zum Inhalt springen
GraphRAG Compass
  • Grundlagen
  • Architekturen
  • Praxis
  • Business Cases
  • Lernpfad
  • Simulation
  • Landkarte
GraphRAG Compass

Öffentlicher Field Guide für GraphRAG, Knowledge Graphs, AI-Architekturen und bessere Entscheidungen in komplexen Wissenssystemen.

Erkunden

  • Grundlagen
  • Architekturen
  • Praxis
  • Business Cases
  • Simulation
  • Landkarte

Lernen

  • Lernpfad
  • Mini-Use-Case
  • GraphRAG Poster
  • Glossar

Über

  • About
  • LinkedIn

Discovery

  • llms.txt
  • llms-full.txt
  • sitemap.xml

Rechtliches

  • Impressum
  • Datenschutz

© 2026 Meierhoff Systems · GraphRAG Compass

Orientierung für Entscheidungen in Wissenssystemen

Zurück zum Architekturmuster

Architektur-Detail · Retrieval

Klassisches RAG

Die kleinste produktionsfähige RAG-Architektur: Ingestion, Chunking, Embeddings, Vector Store, Retriever, Prompt Builder, LLM Gateway und Evaluation. Der Architekturwert liegt in sauberen Grenzen: Was wird offline indexiert, was passiert zur Laufzeit, welche Metadaten steuern Retrieval und wie wird Qualität gemessen?

Einstieg
Aufwand: niedrig
Datenreife: niedrig
Team-Reife: niedrig

Kuratierte Architekturentscheidung auf Basis der lokalen Compass-Daten

Relevant wenn

Wenn Fragen durch wenige Textstellen beantwortbar sind und du zuerst eine messbare Baseline für Chunking, Retrieval, Quellenqualität und Antwortverhalten brauchst.

Quellenlage

Reales Standardmuster aus RAG-Frameworks. Der Compass-Name bündelt typische RAG-Bausteine wie Dokumentladen, Textzerlegung, Umwandlung in Suchvektoren, Vektordatenbank, Abruf und Antwortgenerierung.

Welches Problem löst das Muster?

Ein Team braucht eine belastbare Retrieval-Baseline für unstrukturierte Dokumente, bevor Graphsignale, Ontologien oder Agentenlogik hinzukommen.

Systemkarte

Wie der Architekturfluss aussieht

Die Motion Map verdichtet das Muster auf seine wichtigsten Stationen: Eingabe, Daten- oder Graphschicht, Retrieval, Kontrolle und Antwort. Sie ist bewusst kleiner als die Referenzarchitektur darunter und soll zuerst die Leserichtung und die Systemgrenzen sichtbar machen.

Motion Map

Klassisches RAG

Kontext
Docs
Chunks
Embed
Vector DB
Frage
LLM
Antwort

Einfachster RAG-Stack: stark bei Textstellen, schwach bei Beziehungen.

Architekturblick

Was du bauen, betreiben und messen musst

Diese Seite ist eine Entscheidungshilfe für den Stack. Der Blick liegt auf Datenfluss, Failure Modes, Evaluation, Tooling und dem nächsten sinnvollen Migrationsschritt.

Stack-Schnitt

LoaderChunkerEmbedding JobVector StoreRetrieverPrompt BuilderLLM GatewayEval Set

Runtime-Datenfluss

Quellen werden extrahiert, in Chunks zerlegt, eingebettet und mit Metadaten im Vector Store gespeichert. Zur Laufzeit wird die Frage eingebettet, Top-k wird geladen, optional gefiltert oder rerankt und als begrenztes Kontextpaket an das LLM übergeben.

Migrationspfad

Erst Baseline stabilisieren, dann Keyword-Suche, Filter und Reranking ergänzen. GraphRAG erst prüfen, wenn echte Testfragen zeigen, dass Beziehungen oder Mehrsprung-Kontext fehlen.

Failure Modes

  • Chunk-Grenzen trennen Ursache, Lösung und Quelle voneinander.
  • Metadaten fehlen, deshalb landet veralteter oder falscher Kontext im Prompt.
  • Top-k ist zu breit oder zu eng und verdeckt relevante Quellen.
  • Antwortqualität wird bewertet, obwohl eigentlich Retrievalqualität defekt ist.

Evaluation

  • Goldene Fragen mit erwarteten Quellen pflegen.
  • Recall@k, MRR und Quellenabdeckung vor Antwortqualität messen.
  • Vector-only als Baseline für spätere Hybrid- oder GraphRAG-Ausbaustufen sichern.

Tooling & Betrieb

  • LangChain oder LlamaIndex
  • pgvector, Qdrant, Weaviate, Pinecone oder Milvus
  • Reranker
  • Prompt- und Retrieval-Tracing

Referenzarchitektur

Was in klassischem RAG wirklich passiert

Klassisches RAG baut keinen Knowledge Graph und trainiert das LLM nicht neu. Die Architektur macht Dokumente suchbar: Sie findet semantisch passende Textstellen und gibt sie als Kontext an das Modell. Der gesamte Nutzen steht und fällt deshalb mit Dokumentaufbereitung, Chunking, Retrieval und Evaluation.

  1. 01

    Quellen vorbereiten

    PDFs, Webseiten, Markdown, Tickets oder Wissensartikel werden extrahiert, bereinigt und mit Metadaten versehen.

  2. 02

    Chunking

    Die Texte werden in suchbare Abschnitte zerlegt. Größe, Überlappung und Abschnittsgrenzen entscheiden stark über die spätere Trefferqualität.

  3. 03

    Embedding

    Jeder Chunk wird in einen Vektor umgewandelt. Der Vektor repräsentiert semantische Nähe, nicht fachliche Wahrheit.

  4. 04

    Vector Store

    Vektoren, Chunk-Text und Metadaten werden in pgvector, Pinecone, Weaviate, Qdrant, Milvus oder einem ähnlichen Store gespeichert.

  5. 05

    Retrieval

    Eine Nutzerfrage wird ebenfalls eingebettet. Die ähnlichsten Chunks werden gesucht, optional gefiltert und als Kontext zusammengestellt.

  6. 06

    Antwort

    Das LLM formuliert die Antwort aus Frage, Kontext und Prompt. Idealerweise werden Quellen und Grenzen sichtbar gemacht.

Aufwand
niedrig

Implementierungs-, Integrations- und Betriebsaufwand.

Datenreife
niedrig

Qualität, Struktur und Zugänglichkeit der Daten vor dem Pilot.

Team-Reife
niedrig

Erfahrung mit RAG, Graphdenken, Infrastruktur und Evaluation.

Nicht ideal wenn

Mehrsprung-Fragen, explizite Entitätsbeziehungen, robuste Auditpfade oder fachliche Regeln den Kontext bestimmen.

Trade-offs

Sehr schnell zu bauen, aber betrieblich empfindlich: Chunking, Metadaten, Embedding-Modell, Top-k, Reranking und Prompt-Budget entscheiden über Qualität. Es gibt keine explizite Beziehungsmodellierung; Mehrsprung-Fragen und implizite Abhängigkeiten bleiben systematische Schwächen.

Qualitätshebel

Wo du zuerst optimierst

Bei klassischem RAG ist schlechte Antwortqualität meistens kein einzelnes Modellproblem. Häufig fehlen passende Chunk-Grenzen, Metadaten, Testfragen oder eine klare Trennung zwischen Retrieval- und Antwortqualität.

Chunking ist Architektur

Zu kleine Chunks verlieren Zusammenhang, zu große Chunks verwässern den Treffer. Der erste Qualitätshebel ist die Zerlegung.

Metadaten begrenzen den Suchraum

Quelle, Datum, Dokumenttyp, Sprache, Abteilung oder Version können verhindern, dass semantisch ähnliche, aber fachlich falsche Treffer in den Kontext rutschen.

Evaluation braucht echte Fragen

Eine kleine Testmenge mit erwarteten Quellen ist wertvoller als Bauchgefühl. Miss, ob die richtigen Chunks gefunden werden, bevor du Antworten bewertest.

Reranking ist oft der nächste Hebel

Wenn Top-k zu breit ist, kann ein Reranker die ersten Treffer gegen die konkrete Frage neu sortieren, bevor das LLM antwortet.

Stack-Komponenten

Loader / ChunkerEmbedding JobVector StoreRetrieverPrompt BuilderLLM GatewayEvaluation Set

Ausbaustufen

Wohin dieses Muster wachsen kann

Klassisches RAG ist selten das Ende der Reise, aber ein guter Startpunkt. Es zeigt, welche Fragen mit Dokumentähnlichkeit lösbar sind und wo zusätzliche Signale nötig werden.

  1. Stufe 1

    Starte mit wenigen Quellen, sauberem Chunking, Metadatenfiltern und einer kleinen Evaluation.

  2. Stufe 2

    Ergänze Keyword-Suche, Filter, Reranking oder strukturierte Signale, wenn reine Ähnlichkeit zu unscharf ist.

  3. Stufe 3

    Ergänze Entitäten, Beziehungen und Pfade, wenn Fragen mehrere Dokumente, Abhängigkeiten oder fachliche Relationen verbinden.

  4. Stufe 4

    Ergänze Regeln, Rollen, Begriffe und erlaubte Aktionen, wenn Antworten an Fachlogik oder Governance gebunden werden müssen.

Konkrete Beispiele

In welchem Kontext das Muster typischerweise Sinn ergibt und welchen Beitrag es dort leistet.

Interne Wissenssuche

Mitarbeitende fragen natürlich nach Inhalten aus Handbüchern, Wikis und PDFs.

Ein Vektorindex findet passende Abschnitte, das LLM formuliert daraus eine quellennahe Antwort.

Support-FAQ

Tickets und Help-Center-Artikel enthalten ähnliche Fehlerbilder mit unterschiedlichen Formulierungen.

Semantische Suche findet relevante Lösungen auch ohne exakte Keywords.

Einsteigerbeispiel: HR-Handbuch

Eine Mitarbeiterin fragt: Wie viele Tage Sonderurlaub gibt es bei einem Umzug? Die Antwort steht in einem PDF-Abschnitt des HR-Handbuchs.

Klassisches RAG reicht, weil die Frage durch wenige ähnliche Textstellen beantwortet werden kann und keine Beziehungen über mehrere Systeme nötig sind.

Nächste Umsetzungsschritte

  1. 1

    Ingestion- und Chunking-Pipeline festlegen

  2. 2

    Goldene Fragen mit erwarteten Quellen sammeln

  3. 3

    Recall@k und Quellenqualität messen

Verwandte Konzepte, Tools und Plattformen

RAG

Quellen und Ressourcen

LangChain RAG Tutorial
Nächstes ThemaHybrid Retrieval