Praxis · Retrieval bewerten

Reranking & Retrieval Evaluation

Reranking und Retrieval Evaluation prüfen, ob die richtigen Quellen oben landen und ob das Kontextpaket wirklich antwortfähig ist.

Retrieval bewerten

Reranking

Querschnittsthema

Wie bewertet man Trefferlisten und Kontextpakete?

2 Min LesezeitRetrieval bewerten

Warum es wichtig ist

Ein LLM kann nur mit dem Kontext arbeiten, den es bekommt. Wenn Retrieval ähnlich, aber falsch liefert, wirkt die Antwort überzeugend und bleibt trotzdem unzuverlässig.

Kernideen

Die wichtigsten Prinzipien dieses Themas auf einen Blick.

Recall@k prüft, ob relevante Quellen unter den ersten Treffern des Vektorindex oder Hybrid-Retrievers überhaupt gefunden werden.

Precision prüft, wie viel unnötiger oder falscher Kontext im Kontextpaket landet.

Reranking sortiert Kandidaten gegen die konkrete Frage neu.

Indexqualität zeigt sich an Golden Questions, falschen ähnlichen Treffern, Filtereffekten und stabilen Top-k-Einstellungen.

Startfragen

Diese Fragen machen das Thema praktisch prüfbar. Hak sie ab – sie eignen sich als Einstieg für Workshops, Pilotvorhaben oder Architekturreviews.

0/5 geprüft

Die Grundidee

Retrieval Evaluation prüft, ob das System die richtigen Quellen findet, bevor das LLM antwortet. Reranking ist der Schritt danach: Eine erste Trefferliste wird noch einmal gegen die konkrete Frage sortiert. Das Ziel ist besserer Kontext: weniger Rauschen, relevantere Quellen und ein Kontextpaket, aus dem die Antwort wirklich belegbar entsteht.

Metriken in einfachen Worten

Die Begriffe klingen technisch, beantworten aber einfache Produktfragen: Wird die richtige Quelle gefunden, steht sie weit oben und ist das Kontextpaket brauchbar?

Recall@k

Wurden die relevanten Quellen überhaupt unter den ersten k Treffern des Vektorindex oder Hybrid-Retrievers gefunden? Beispiel: Ist die richtige Policy unter den Top 10?

Precision

Wie viel Rauschen steckt in der Trefferliste? Eine Liste mit 20 Treffern hilft wenig, wenn nur einer davon brauchbar ist.

Ranking

Stehen die besten Treffer weit oben? Für Nutzer und LLM zählt, ob und wann etwas gefunden wird.

Antwortfähigkeit

Reicht das Kontextpaket wirklich aus, um die Frage korrekt und mit Quelle zu beantworten?

Wie Reranking praktisch wirkt

Reranking ersetzt Retrieval nicht. Es sortiert eine vorhandene Kandidatenliste besser.

1
Retriever sammelt Kandidaten: zum Beispiel über Vektorindex, Keyword-Suche, Filter oder Graphnachbarschaft.
2
Kandidaten werden dedupliziert: doppelte oder fast gleiche Textstellen werden zusammengeführt.
3
Reranker bewertet neu: Die Kandidaten werden gegen die konkrete Frage sortiert.
4
Kontextpaket wird gebaut: Nur die besten und passendsten Quellen gehen an das LLM.
5
Ergebnis wird geprüft: Hat sich die Trefferqualität gegenüber der Baseline wirklich verbessert?

Beispiele

Die Beispiele zeigen, wie Retrieval Evaluation Fehler sichtbar macht, bevor sie als überzeugende Antwort beim Nutzer landen.

Policy-Frage

Problem

Top-5 enthält ähnliche HR-Texte, aber nicht die konkrete Policy zur Ausnahme.

Besser

Evaluation markiert die erwartete Policy als Pflichtquelle; Reranking hebt sie nach oben.

Technische Fehlermeldung

Problem

Vektorsuche findet semantisch ähnliche Artikel, aber nicht den exakten Fehlercode.

Besser

Indexqualität, Filter und Hybrid Retrieval werden getrennt geprüft; Reranking sortiert nach Produktversion und Symptombeschreibung.

GraphRAG-Frage

Problem

Textstellen sind richtig, aber der Beziehungspfad zwischen Kunde, Vertrag und Risiko fehlt.

Besser

Das Testset erwartet Quellen und Graphpfad; die Bewertung prüft beides getrennt.

Was in ein gutes Testset gehört

Ein kleines, gutes Testset ist oft wertvoller als eine große Zahl oberflächlicher Fragen.

Echte Nutzerfrage mit realistischem Prompt.
Erwartete Quelle oder Quellenmenge.
Erwartete Entitäten, wenn Graphkontext wichtig ist.
Minimaler Antwortkontext: Was muss im Kontextpaket enthalten sein?
Negativbeispiele: Welche ähnlichen Quellen wären falsch?
Schweregrad: Was passiert, wenn diese Frage falsch beantwortet wird?

Typische Fehler

Retrieval-Fehler sind tückisch, weil das LLM aus schlechtem Kontext trotzdem flüssige Antworten bauen kann.

Nur die finale Antwort bewerten: Dann bleibt unsichtbar, ob Retrieval oder LLM das Problem verursacht.
Keine Baseline haben: Ohne Vector-only oder Keyword-only Vergleich weißt du nicht, ob Hybrid oder Graph wirklich hilft.
Top-k beliebig setzen: Mehr Treffer wirken sicherer, erhöhen aber Rauschen und Kosten.
Reranking blind vertrauen: Ein Reranker kann wichtige Quellen nach unten sortieren, wenn die Testfragen schlecht sind.
Keine Negativbeispiele pflegen: Ähnliche, aber falsche Quellen sind oft die gefährlichsten Treffer.
Evaluation einmalig machen: Dokumente, Graph und Nutzerfragen ändern sich; Retrievalqualität driftet.

Reranking & Retrieval Evaluation

Warum es wichtig ist

Kernideen

Startfragen

Die Grundidee

Metriken in einfachen Worten

Recall@k

Precision

Ranking

Antwortfähigkeit

Wie Reranking praktisch wirkt

Beispiele

Policy-Frage

Technische Fehlermeldung

GraphRAG-Frage

Was in ein gutes Testset gehört

Typische Fehler

Verwandte Konzepte

Reranking & Retrieval Evaluation

Warum es wichtig ist

Kernideen

Startfragen

Die Grundidee

Metriken in einfachen Worten

Recall@k

Precision

Ranking

Antwortfähigkeit

Wie Reranking praktisch wirkt

Beispiele

Policy-Frage

Technische Fehlermeldung

GraphRAG-Frage

Was in ein gutes Testset gehört

Typische Fehler

Verwandte Konzepte