Praxis · Retrieval bewerten

Evaluation & Observability

Evaluation und Observability zeigen, welcher Pipeline-Schritt Qualität verbessert oder Fehler verursacht: Dokument, Retrieval, Graph, Antwort, Tool oder Feedback.

Retrieval bewerten

Evaluation

Querschnittsthema

Wie misst man RAG-, Retrieval-, Graph- und Agentenqualität?

2 Min LesezeitRetrieval bewerten

Warum es wichtig ist

Ohne Messung bleibt unklar, ob GraphRAG wirklich besser ist oder nur komplexer. Observability zeigt, wo Fehler entstehen: Dokument, Retrieval, Graph, Prompt, Tool oder Antwort.

Kernideen

Die wichtigsten Prinzipien dieses Themas auf einen Blick.

RAG-Qualität braucht mehr als Antwortbewertung: Dokumente, Retrieval, Kontext und Quellen müssen getrennt sichtbar sein.

Graphqualität misst Knoten, Kanten, Provenance, Aktualität und Pfadnützlichkeit.

Agentenqualität umfasst Tool-Erfolg, Übergaben, Abbrüche, Kosten und Korrekturen.

Produktive Systeme brauchen Traces, Kosten-/Latenzwerte, Fehlerklassen und Feedback-Schleifen.

Startfragen

Diese Fragen machen das Thema praktisch prüfbar. Hak sie ab – sie eignen sich als Einstieg für Workshops, Pilotvorhaben oder Architekturreviews.

0/4 geprüft

Die Grundidee

Evaluation beantwortet: Wird das System wirklich besser? Observability beantwortet: Warum passiert etwas im System? Für GraphRAG reicht es nicht, nur die finale Antwort zu bewerten. Du musst sehen können, welche Dokumente verarbeitet wurden, welche Treffer geladen wurden, welche Graphpfade genutzt wurden, welche Tools liefen und wo Kosten, Latenz oder Fehler entstehen.

Was getrennt gemessen werden sollte

Gute Evaluation trennt die Pipeline-Schritte. Sonst wirkt jedes Problem wie ein LLM-Problem.

Dokumentqualität

Sind Parsing, Tabellen, Chunks, Metadaten und Versionen so gut, dass Retrieval überhaupt eine Chance hat?

Retrievalqualität

Findet das System die richtigen Quellen, sortiert sie brauchbar und baut ein gutes Kontextpaket?

Graphqualität

Sind Entitäten, Kanten, Pfade, Provenance und Aktualität belastbar genug für Antworten?

Antwortqualität

Ist die Antwort korrekt, belegt, vollständig, verständlich und ehrlich über Unsicherheit?

Agentenqualität

Wählt der Agent die richtigen Tools, stoppt er rechtzeitig und bleibt er innerhalb seiner Grenzen?

Produktqualität

Hilft das System im echten Workflow schneller, sicherer oder nachvollziehbarer als die bisherige Arbeitsweise?

Was ein Trace enthalten sollte

Ein Trace ist die nachvollziehbare Spur eines Laufs. Er hilft, einen Fehler später wirklich zu rekonstruieren.

Nutzerfrage, Zeitpunkt, Rolle und erlaubter Datenraum.
Welche Retriever, Filter, Graphabfragen oder Tools gestartet wurden.
Welche Quellen, Chunks, Entitäten und Graphpfade ins Kontextpaket kamen.
Welche Treffer verworfen oder durch Reranking verschoben wurden.
Welche Antwort erzeugt wurde und auf welche Quellen sie sich stützt.
Latenz, Kosten, Fehler, Abbrüche und Nutzerfeedback.

Beispiele

Observability ist praktisch, wenn du Fehler siehst und lokalisieren kannst.

Antwort ist falsch

Schwach

Nur die LLM-Antwort bewerten und am Prompt drehen.

Besser

Trace prüfen: falscher Chunk gefunden, richtige Quelle nicht unter Top 10. Problem liegt im Retrieval, nicht im Prompt.

Graphpfad fehlt

Schwach

GraphRAG pauschal als schlechter als RAG bewerten.

Besser

Messen, ob Entitäten erkannt wurden, ob der Pfad existiert und ob die Graphabfrage ihn überhaupt geladen hat.

Agent ruft falsches Tool auf

Schwach

Toolbeschreibung länger machen und hoffen.

Besser

Tool-Auswahl loggen, Fehlaufrufe klassifizieren und mit Testfragen prüfen, wann welches Tool gewählt werden soll.

Praktische Arbeitsregel

Baue für jeden kritischen Use Case zuerst eine kleine Baseline: manuelle Recherche oder einfaches RAG. Danach misst du nur Änderungen, die gegen diese Baseline besser werden: bessere Quellen, weniger Rauschen, bessere Belege, geringere Latenz oder weniger manuelle Nacharbeit.

Typische Fehler

Evaluation wird oft zu spät eingeführt. Dann ist das System komplex, aber niemand weiß, ob es besser geworden ist.

Nur Endantworten bewerten: Dann weißt du nicht, welcher Pipeline-Schritt kaputt ist.
Keine Baseline pflegen: Ohne Vergleich gegen manuelle Recherche oder RAG ist Mehrwert schwer belegbar.
Nur Durchschnittswerte anschauen: Kritische Fragen können schlecht sein, obwohl der Mittelwert gut aussieht.
Feedback ohne Kontext speichern: Ein Daumen-runter hilft wenig, wenn Quellen, Toolcalls und Trace fehlen.
Kosten und Latenz ignorieren: Ein System kann korrekt, aber praktisch unbrauchbar sein.
Evaluation nicht versionieren: Änderungen an Prompt, Index, Graph oder Modell müssen vergleichbar bleiben.

Evaluation & Observability

Warum es wichtig ist

Kernideen

Startfragen

Die Grundidee

Was getrennt gemessen werden sollte

Dokumentqualität

Retrievalqualität

Graphqualität

Antwortqualität

Agentenqualität

Produktqualität

Was ein Trace enthalten sollte

Beispiele

Antwort ist falsch

Graphpfad fehlt

Agent ruft falsches Tool auf

Praktische Arbeitsregel

Typische Fehler

Verwandte Konzepte

Evaluation & Observability

Warum es wichtig ist

Kernideen

Startfragen

Die Grundidee

Was getrennt gemessen werden sollte

Dokumentqualität

Retrievalqualität

Graphqualität

Antwortqualität

Agentenqualität

Produktqualität

Was ein Trace enthalten sollte

Beispiele

Antwort ist falsch

Graphpfad fehlt

Agent ruft falsches Tool auf

Praktische Arbeitsregel

Typische Fehler

Verwandte Konzepte