Zum Inhalt springen
GraphRAG Compass
  • Grundlagen
  • Architekturen
  • Praxis
  • Business Cases
  • Lernpfad
  • Simulation
  • Landkarte
GraphRAG Compass

Öffentlicher Field Guide für GraphRAG, Knowledge Graphs, AI-Architekturen und bessere Entscheidungen in komplexen Wissenssystemen.

Erkunden

  • Grundlagen
  • Architekturen
  • Praxis
  • Business Cases
  • Simulation
  • Landkarte

Lernen

  • Lernpfad
  • Mini-Use-Case
  • GraphRAG Poster
  • Glossar

Über

  • About
  • LinkedIn

Discovery

  • llms.txt
  • llms-full.txt
  • sitemap.xml

Rechtliches

  • Impressum
  • Datenschutz

© 2026 Meierhoff Systems · GraphRAG Compass

Orientierung für Entscheidungen in Wissenssystemen

Alle Phasen
Phase 2 von 4 · Klären: Practice Brief & Anforderungen
01Einen Praxisfall eingrenzen02Quellen inventarisieren03Anforderungen an Chunks klären04Aussagen mit Herkunft modellieren05Entitäten und Beziehungen fachlich klären06Identität und Zeit stabilisieren07Antwortweg fachlich vergleichen08Evaluieren und Fehler lokalisieren09Phase-2-Checkpoint

Phase 2 · Praxis-Step 8 von 9

Evaluieren und Fehler lokalisieren

Testfragen mit Erwartung nutzen, um Antwortfehler gezielt einer Pipeline-Station zuzuordnen.

Was du mitnimmst

Testfragen mit Erwartung machen GraphRAG gezielt verbesserbar.

Evaluieren und Fehler lokalisieren: Testfragen mit Erwartung machen GraphRAG gezielt verbesserbar.

Praxisziel

Was du praktisch entscheidest

Du erstellst eine Testfrage mit Erwartung: erwartete Antwort, Quellen, Entitäten, Graphpfad und Fehlersignale.

Szenario

Ausgangslage im Mini-Use-Case

Die Antwort auf "Welche Projekte sind von Richtlinie A betroffen?" nennt Projekt Alpha nicht. Jetzt brauchst du eine einfache Diagnose: Wurde die Quelle gefunden? Ist der Chunk brauchbar? Existiert die Beziehung CRM -> Projekt Alpha? Kam der Pfad im Kontextpaket an?

Evaluation macht diese Diagnose wiederholbar. Du legst vorher fest, was eine gute Antwort enthalten soll. Danach vergleichst du Erwartung und Systemlauf.

Für diesen Lernpfad reicht ein einfacher Begriff: Testfrage mit Erwartung. Du legst vor dem Systemlauf fest, was eine gute Antwort enthalten soll.

Heuristik

Arbeitsprinzip

Testfrage + ErwartungAntwort: Projekt AlphaQuelle: policy-a + ListePfad: Richtlinie → System → ProjektSystemlaufQuelle ✓CRM ✓Projekt fehltFehlerPfadprüfenPipeline-Stationen gezielt prüfen✓Quelle✓Chunk✓Entität!Beziehung!Kontext✓Antwort

Arbeite in vier Schritten:

1. Testfrage festlegen: Welche Frage prüft eine wichtige Fähigkeit?

2. Erwartung notieren: Welche Antwort, Quellen, Entitäten und Pfade müssen auftauchen?

3. Systemlauf prüfen: Was wurde tatsächlich gefunden, verbunden und an das LLM gegeben?

4. Fehlerstation benennen: Liegt das Problem bei Quelle, Chunk, Beziehung, Pfad, Kontextpaket oder Antwort?

Für den Practice Brief reicht ein einfacher Trace: Frage, Erwartung, gefundene Quellen, erkannte Entitäten, Graphpfade, Kontextpaket, Antwort und Fehlersignal.

Greifbar machen

Praxisartefakt

Praxis-Hinweis: In der Praxis werden solche Testfragen als kleines Eval-Set gepflegt, zum Beispiel in einer Tabelle, JSON-/YAML-Datei oder einem Eval-Tool. Jede Frage enthält erwartete Quellen, Entitäten, Pfade und Fehlersignale. Bei Änderungen an Chunking, Extraktion, Retrieval oder Prompt sieht das Team dadurch, welche Station besser wurde und wo neue Fehler entstehen.

evaluation-question.jsonjson
{
  "question": "Welche Projekte sind betroffen, wenn CRM als kritisches Kundensystem jährlich geprüft werden muss?",
  "expected_answer": "Projekt Alpha ist betroffen, weil es CRM nutzt.",
  "expected_sources": ["policy-a Abschnitt 4.2", "project-list Zeile 12"],
  "expected_entities": ["policy-a", "system-crm", "project-alpha"],
  "expected_graph_path": [
    "policy-a -> defines_obligation_for -> system-crm",
    "system-crm -> used_by -> project-alpha"
  ],
  "failure_signals": [
    "Projekt Alpha fehlt",
    "Quelle fehlt",
    "Pfad fehlt im Trace"
  ],
  "pipeline_checks": ["source_found", "chunk_usable", "relation_exists", "path_delivered", "answer_cites_source"]
}

Schlüssel kurz erklärt

  • question ist die Testfrage.
  • expected_answer beschreibt die Zielantwort.
  • expected_sources, expected_entities und expected_graph_path halten fest, was im System gefunden werden muss.
  • failure_signals benennt sichtbare Fehler.
  • pipeline_checks zerlegt die Prüfung in Stationen, damit die Fehlerquelle eingegrenzt werden kann.

Achten auf

Typischer Qualitätsfehler

Worauf du achten musst

Eine Antwort wird subjektiv als "gut" bewertet, obwohl Quellen oder Beziehungspfade fehlen.

Ein zweiter Fehler ist ein zu kleines Testset. Aussagekräftiger sind wenige, aber unterschiedliche Testfragen: direkte Quellenfrage, Beziehungsfrage, Grenzfall, veraltete Information und unklare Identität.

Prüfen

Woran du es erkennst

Signal

Niemand kann sagen, ob der Fehler im Retrieval, im Graph, im Prompt oder in der Antwortgenerierung liegt.

Ein weiteres Signal: Verbesserungen werden zufällig. Man ändert Chunkgröße, Prompt und Graphschema gleichzeitig und verliert die Ursache der Verbesserung.

Üben

Mini-Aufgabe

Erstelle eine zweite Testfrage für Teamverantwortung. Ergänze erwartete Quelle, Entitäten, Graphpfad und Fehlersignal.

Musterlösung
Testfrage

Welches Team ist für CRM verantwortlich?

Erwartete Quelle

Systemkatalog oder Verantwortlichkeitsnotiz.

Erwartete Entitäten

System CRM und Customer Core.

Erwarteter Pfad

CRM -> Projekt Alpha -> Customer Core.

Fehlersignal

Die Antwort nennt ein Team und lässt Quelle oder Gültigkeit offen.

Stärkere Variante

"Welches Team ist aktuell für CRM verantwortlich?" Dann muss die Antwort eine Kante finden und Gültigkeit beachten.

Reflektieren

Selbsttest

1.Was ist eine Testfrage mit Erwartung?

Eine Testfrage mit Erwartung ist ein Testfall mit erwarteter Antwort, erwarteten Quellen, erwarteten Entitäten, erwartetem Pfad und klaren Fehlersignalen.

2.Welche Pipeline-Stationen können Antwortfehler erzeugen?

Fehler können aus Quelle, Chunking, Retrieval, Entity Linking, Graphpfad, Kontextpaket, Prompt oder Antwortformulierung entstehen.

3.Woran erkennst du die Fehlerquelle?

Du vergleichst Erwartung und Trace: Wurde die Quelle gefunden? Ist der Chunk brauchbar? Existiert der Pfad? Lag der Kontext im Prompt? Hat das LLM den Kontext korrekt formuliert?

Kernaussage

Testfragen mit Erwartung machen GraphRAG gezielt verbesserbar.

Vorheriger StepNächster Step

Status

Auf dieser Seite

PraxiszielAusgangslageArbeitsprinzipPraxisartefaktQualitätsfehlerDiagnosesignalMini-AufgabeSelbsttest

Vertiefen

Konzept im CompassReranking & Retrieval EvaluationEvaluation & Observability

Kernaussage

Testfragen mit Erwartung machen GraphRAG gezielt verbesserbar.

Output

evaluation-question.json mit erwarteten Quellen, Entitäten, Pfaden und Fehlersignal

Checkpoint

Du kannst ein Antwortproblem auf Dokument, Chunk, Index, Graph, Retrieval, Prompt oder Antwort zurückführen.

Praxis-Modus

Mini-Use-Case statt Tooldemo.

Artefakte nur dort, wo sie eine Entscheidung sichtbar machen.

Herstellerneutral, mit Neo4j nur als spätere Option.