Phase 2 · Praxis-Step 8 von 9

Evaluieren und Fehler lokalisieren

Testfragen mit Erwartung nutzen, um Antwortfehler gezielt einer Pipeline-Station zuzuordnen.

Was du mitnimmst

Testfragen mit Erwartung machen GraphRAG gezielt verbesserbar.

Praxisziel

Was du praktisch entscheidest

Du erstellst eine Testfrage mit Erwartung: erwartete Antwort, Quellen, Entitäten, Graphpfad und Fehlersignale.

Szenario

Ausgangslage im Mini-Use-Case

Die Antwort auf "Welche Projekte sind von Richtlinie A betroffen?" nennt Projekt Alpha nicht. Jetzt brauchst du eine einfache Diagnose: Wurde die Quelle gefunden? Ist der Chunk brauchbar? Existiert die Beziehung CRM -> Projekt Alpha? Kam der Pfad im Kontextpaket an?

Evaluation macht diese Diagnose wiederholbar. Du legst vorher fest, was eine gute Antwort enthalten soll. Danach vergleichst du Erwartung und Systemlauf.

Für diesen Lernpfad reicht ein einfacher Begriff: Testfrage mit Erwartung. Du legst vor dem Systemlauf fest, was eine gute Antwort enthalten soll.

Heuristik

Arbeitsprinzip

Arbeite in vier Schritten:

1. Testfrage festlegen: Welche Frage prüft eine wichtige Fähigkeit?

2. Erwartung notieren: Welche Antwort, Quellen, Entitäten und Pfade müssen auftauchen?

3. Systemlauf prüfen: Was wurde tatsächlich gefunden, verbunden und an das LLM gegeben?

4. Fehlerstation benennen: Liegt das Problem bei Quelle, Chunk, Beziehung, Pfad, Kontextpaket oder Antwort?

Für den Practice Brief reicht ein einfacher Trace: Frage, Erwartung, gefundene Quellen, erkannte Entitäten, Graphpfade, Kontextpaket, Antwort und Fehlersignal.

Greifbar machen

Praxisartefakt

Praxis-Hinweis: In der Praxis werden solche Testfragen als kleines Eval-Set gepflegt, zum Beispiel in einer Tabelle, JSON-/YAML-Datei oder einem Eval-Tool. Jede Frage enthält erwartete Quellen, Entitäten, Pfade und Fehlersignale. Bei Änderungen an Chunking, Extraktion, Retrieval oder Prompt sieht das Team dadurch, welche Station besser wurde und wo neue Fehler entstehen.

evaluation-question.jsonjson

{
  "question": "Welche Projekte sind betroffen, wenn CRM als kritisches Kundensystem jährlich geprüft werden muss?",
  "expected_answer": "Projekt Alpha ist betroffen, weil es CRM nutzt.",
  "expected_sources": ["policy-a Abschnitt 4.2", "project-list Zeile 12"],
  "expected_entities": ["policy-a", "system-crm", "project-alpha"],
  "expected_graph_path": [
    "policy-a -> defines_obligation_for -> system-crm",
    "system-crm -> used_by -> project-alpha"
  ],
  "failure_signals": [
    "Projekt Alpha fehlt",
    "Quelle fehlt",
    "Pfad fehlt im Trace"
  ],
  "pipeline_checks": ["source_found", "chunk_usable", "relation_exists", "path_delivered", "answer_cites_source"]
}

Schlüssel kurz erklärt

question ist die Testfrage.
expected_answer beschreibt die Zielantwort.
expected_sources, expected_entities und expected_graph_path halten fest, was im System gefunden werden muss.
failure_signals benennt sichtbare Fehler.
pipeline_checks zerlegt die Prüfung in Stationen, damit die Fehlerquelle eingegrenzt werden kann.

Achten auf

Typischer Qualitätsfehler

Worauf du achten musst

Eine Antwort wird subjektiv als "gut" bewertet, obwohl Quellen oder Beziehungspfade fehlen.

Ein zweiter Fehler ist ein zu kleines Testset. Aussagekräftiger sind wenige, aber unterschiedliche Testfragen: direkte Quellenfrage, Beziehungsfrage, Grenzfall, veraltete Information und unklare Identität.

Prüfen

Woran du es erkennst

Signal

Niemand kann sagen, ob der Fehler im Retrieval, im Graph, im Prompt oder in der Antwortgenerierung liegt.

Ein weiteres Signal: Verbesserungen werden zufällig. Man ändert Chunkgröße, Prompt und Graphschema gleichzeitig und verliert die Ursache der Verbesserung.

Üben

Mini-Aufgabe

Erstelle eine zweite Testfrage für Teamverantwortung. Ergänze erwartete Quelle, Entitäten, Graphpfad und Fehlersignal.

Musterlösung

Testfrage

Welches Team ist für CRM verantwortlich?

Erwartete Quelle

Systemkatalog oder Verantwortlichkeitsnotiz.

Erwartete Entitäten

System CRM und Customer Core.

Erwarteter Pfad

CRM -> Projekt Alpha -> Customer Core.

Fehlersignal

Die Antwort nennt ein Team und lässt Quelle oder Gültigkeit offen.

Stärkere Variante

"Welches Team ist aktuell für CRM verantwortlich?" Dann muss die Antwort eine Kante finden und Gültigkeit beachten.

Reflektieren

Selbsttest

1.Was ist eine Testfrage mit Erwartung?

Eine Testfrage mit Erwartung ist ein Testfall mit erwarteter Antwort, erwarteten Quellen, erwarteten Entitäten, erwartetem Pfad und klaren Fehlersignalen.

2.Welche Pipeline-Stationen können Antwortfehler erzeugen?

Fehler können aus Quelle, Chunking, Retrieval, Entity Linking, Graphpfad, Kontextpaket, Prompt oder Antwortformulierung entstehen.

3.Woran erkennst du die Fehlerquelle?

Du vergleichst Erwartung und Trace: Wurde die Quelle gefunden? Ist der Chunk brauchbar? Existiert der Pfad? Lag der Kontext im Prompt? Hat das LLM den Kontext korrekt formuliert?

Kernaussage

Testfragen mit Erwartung machen GraphRAG gezielt verbesserbar.

Vorheriger Step Nächster Step

Phase 2 · Praxis-Step 8 von 9

Evaluieren und Fehler lokalisieren

Testfragen mit Erwartung nutzen, um Antwortfehler gezielt einer Pipeline-Station zuzuordnen.

Was du mitnimmst

Testfragen mit Erwartung machen GraphRAG gezielt verbesserbar.

Praxisziel

Was du praktisch entscheidest

Du erstellst eine Testfrage mit Erwartung: erwartete Antwort, Quellen, Entitäten, Graphpfad und Fehlersignale.

Szenario

Ausgangslage im Mini-Use-Case

Evaluation macht diese Diagnose wiederholbar. Du legst vorher fest, was eine gute Antwort enthalten soll. Danach vergleichst du Erwartung und Systemlauf.

Für diesen Lernpfad reicht ein einfacher Begriff: Testfrage mit Erwartung. Du legst vor dem Systemlauf fest, was eine gute Antwort enthalten soll.

Heuristik

Arbeitsprinzip

Arbeite in vier Schritten:

1. Testfrage festlegen: Welche Frage prüft eine wichtige Fähigkeit?

2. Erwartung notieren: Welche Antwort, Quellen, Entitäten und Pfade müssen auftauchen?

3. Systemlauf prüfen: Was wurde tatsächlich gefunden, verbunden und an das LLM gegeben?

4. Fehlerstation benennen: Liegt das Problem bei Quelle, Chunk, Beziehung, Pfad, Kontextpaket oder Antwort?

Für den Practice Brief reicht ein einfacher Trace: Frage, Erwartung, gefundene Quellen, erkannte Entitäten, Graphpfade, Kontextpaket, Antwort und Fehlersignal.

Greifbar machen

Praxisartefakt

evaluation-question.jsonjson

{
  "question": "Welche Projekte sind betroffen, wenn CRM als kritisches Kundensystem jährlich geprüft werden muss?",
  "expected_answer": "Projekt Alpha ist betroffen, weil es CRM nutzt.",
  "expected_sources": ["policy-a Abschnitt 4.2", "project-list Zeile 12"],
  "expected_entities": ["policy-a", "system-crm", "project-alpha"],
  "expected_graph_path": [
    "policy-a -> defines_obligation_for -> system-crm",
    "system-crm -> used_by -> project-alpha"
  ],
  "failure_signals": [
    "Projekt Alpha fehlt",
    "Quelle fehlt",
    "Pfad fehlt im Trace"
  ],
  "pipeline_checks": ["source_found", "chunk_usable", "relation_exists", "path_delivered", "answer_cites_source"]
}

Schlüssel kurz erklärt

question ist die Testfrage.
expected_answer beschreibt die Zielantwort.
expected_sources, expected_entities und expected_graph_path halten fest, was im System gefunden werden muss.
failure_signals benennt sichtbare Fehler.
pipeline_checks zerlegt die Prüfung in Stationen, damit die Fehlerquelle eingegrenzt werden kann.

Achten auf

Typischer Qualitätsfehler

Worauf du achten musst

Eine Antwort wird subjektiv als "gut" bewertet, obwohl Quellen oder Beziehungspfade fehlen.

Prüfen

Woran du es erkennst

Signal

Niemand kann sagen, ob der Fehler im Retrieval, im Graph, im Prompt oder in der Antwortgenerierung liegt.

Ein weiteres Signal: Verbesserungen werden zufällig. Man ändert Chunkgröße, Prompt und Graphschema gleichzeitig und verliert die Ursache der Verbesserung.

Üben

Mini-Aufgabe

Erstelle eine zweite Testfrage für Teamverantwortung. Ergänze erwartete Quelle, Entitäten, Graphpfad und Fehlersignal.

Musterlösung

Testfrage

Welches Team ist für CRM verantwortlich?

Erwartete Quelle

Systemkatalog oder Verantwortlichkeitsnotiz.

Erwartete Entitäten

System CRM und Customer Core.

Erwarteter Pfad

CRM -> Projekt Alpha -> Customer Core.

Fehlersignal

Die Antwort nennt ein Team und lässt Quelle oder Gültigkeit offen.

Stärkere Variante

"Welches Team ist aktuell für CRM verantwortlich?" Dann muss die Antwort eine Kante finden und Gültigkeit beachten.

Reflektieren

Selbsttest

1.Was ist eine Testfrage mit Erwartung?

Eine Testfrage mit Erwartung ist ein Testfall mit erwarteter Antwort, erwarteten Quellen, erwarteten Entitäten, erwartetem Pfad und klaren Fehlersignalen.

2.Welche Pipeline-Stationen können Antwortfehler erzeugen?

Fehler können aus Quelle, Chunking, Retrieval, Entity Linking, Graphpfad, Kontextpaket, Prompt oder Antwortformulierung entstehen.

3.Woran erkennst du die Fehlerquelle?

Du vergleichst Erwartung und Trace: Wurde die Quelle gefunden? Ist der Chunk brauchbar? Existiert der Pfad? Lag der Kontext im Prompt? Hat das LLM den Kontext korrekt formuliert?

Kernaussage

Testfragen mit Erwartung machen GraphRAG gezielt verbesserbar.

Vorheriger Step Nächster Step