Phase 2 · Praxis-Step 8 von 9
Testfragen mit Erwartung nutzen, um Antwortfehler gezielt einer Pipeline-Station zuzuordnen.
Was du mitnimmst
Testfragen mit Erwartung machen GraphRAG gezielt verbesserbar.

Praxisziel
Du erstellst eine Testfrage mit Erwartung: erwartete Antwort, Quellen, Entitäten, Graphpfad und Fehlersignale.
Szenario
Die Antwort auf "Welche Projekte sind von Richtlinie A betroffen?" nennt Projekt Alpha nicht. Jetzt brauchst du eine einfache Diagnose: Wurde die Quelle gefunden? Ist der Chunk brauchbar? Existiert die Beziehung CRM -> Projekt Alpha? Kam der Pfad im Kontextpaket an?
Evaluation macht diese Diagnose wiederholbar. Du legst vorher fest, was eine gute Antwort enthalten soll. Danach vergleichst du Erwartung und Systemlauf.
Für diesen Lernpfad reicht ein einfacher Begriff: Testfrage mit Erwartung. Du legst vor dem Systemlauf fest, was eine gute Antwort enthalten soll.
Heuristik
Arbeite in vier Schritten:
1. Testfrage festlegen: Welche Frage prüft eine wichtige Fähigkeit?
2. Erwartung notieren: Welche Antwort, Quellen, Entitäten und Pfade müssen auftauchen?
3. Systemlauf prüfen: Was wurde tatsächlich gefunden, verbunden und an das LLM gegeben?
4. Fehlerstation benennen: Liegt das Problem bei Quelle, Chunk, Beziehung, Pfad, Kontextpaket oder Antwort?
Für den Practice Brief reicht ein einfacher Trace: Frage, Erwartung, gefundene Quellen, erkannte Entitäten, Graphpfade, Kontextpaket, Antwort und Fehlersignal.
Greifbar machen
Praxis-Hinweis: In der Praxis werden solche Testfragen als kleines Eval-Set gepflegt, zum Beispiel in einer Tabelle, JSON-/YAML-Datei oder einem Eval-Tool. Jede Frage enthält erwartete Quellen, Entitäten, Pfade und Fehlersignale. Bei Änderungen an Chunking, Extraktion, Retrieval oder Prompt sieht das Team dadurch, welche Station besser wurde und wo neue Fehler entstehen.
{
"question": "Welche Projekte sind betroffen, wenn CRM als kritisches Kundensystem jährlich geprüft werden muss?",
"expected_answer": "Projekt Alpha ist betroffen, weil es CRM nutzt.",
"expected_sources": ["policy-a Abschnitt 4.2", "project-list Zeile 12"],
"expected_entities": ["policy-a", "system-crm", "project-alpha"],
"expected_graph_path": [
"policy-a -> defines_obligation_for -> system-crm",
"system-crm -> used_by -> project-alpha"
],
"failure_signals": [
"Projekt Alpha fehlt",
"Quelle fehlt",
"Pfad fehlt im Trace"
],
"pipeline_checks": ["source_found", "chunk_usable", "relation_exists", "path_delivered", "answer_cites_source"]
}Schlüssel kurz erklärt
question ist die Testfrage.expected_answer beschreibt die Zielantwort.expected_sources, expected_entities und expected_graph_path halten fest, was im System gefunden werden muss.failure_signals benennt sichtbare Fehler.pipeline_checks zerlegt die Prüfung in Stationen, damit die Fehlerquelle eingegrenzt werden kann.Achten auf
Worauf du achten musst
Eine Antwort wird subjektiv als "gut" bewertet, obwohl Quellen oder Beziehungspfade fehlen.
Ein zweiter Fehler ist ein zu kleines Testset. Aussagekräftiger sind wenige, aber unterschiedliche Testfragen: direkte Quellenfrage, Beziehungsfrage, Grenzfall, veraltete Information und unklare Identität.
Prüfen
Signal
Niemand kann sagen, ob der Fehler im Retrieval, im Graph, im Prompt oder in der Antwortgenerierung liegt.
Ein weiteres Signal: Verbesserungen werden zufällig. Man ändert Chunkgröße, Prompt und Graphschema gleichzeitig und verliert die Ursache der Verbesserung.
Üben
Erstelle eine zweite Testfrage für Teamverantwortung. Ergänze erwartete Quelle, Entitäten, Graphpfad und Fehlersignal.
Welches Team ist für CRM verantwortlich?
Systemkatalog oder Verantwortlichkeitsnotiz.
System CRM und Customer Core.
CRM -> Projekt Alpha -> Customer Core.
Die Antwort nennt ein Team und lässt Quelle oder Gültigkeit offen.
"Welches Team ist aktuell für CRM verantwortlich?" Dann muss die Antwort eine Kante finden und Gültigkeit beachten.
Reflektieren
Eine Testfrage mit Erwartung ist ein Testfall mit erwarteter Antwort, erwarteten Quellen, erwarteten Entitäten, erwartetem Pfad und klaren Fehlersignalen.
Fehler können aus Quelle, Chunking, Retrieval, Entity Linking, Graphpfad, Kontextpaket, Prompt oder Antwortformulierung entstehen.
Du vergleichst Erwartung und Trace: Wurde die Quelle gefunden? Ist der Chunk brauchbar? Existiert der Pfad? Lag der Kontext im Prompt? Hat das LLM den Kontext korrekt formuliert?
Kernaussage
Testfragen mit Erwartung machen GraphRAG gezielt verbesserbar.