Recall@k
Wurden die relevanten Quellen überhaupt unter den ersten k Treffern des Vektorindex oder Hybrid-Retrievers gefunden? Beispiel: Ist die richtige Policy unter den Top 10?
Praxis · Retrieval bewerten
Reranking und Retrieval Evaluation prüfen, ob die richtigen Quellen oben landen und ob das Kontextpaket wirklich antwortfähig ist.
Wie bewertet man Trefferlisten und Kontextpakete?
Ein LLM kann nur mit dem Kontext arbeiten, den es bekommt. Wenn Retrieval ähnlich, aber falsch liefert, wirkt die Antwort überzeugend und bleibt trotzdem unzuverlässig.
Die wichtigsten Prinzipien dieses Themas auf einen Blick.
Recall@k prüft, ob relevante Quellen unter den ersten Treffern des Vektorindex oder Hybrid-Retrievers überhaupt gefunden werden.
Precision prüft, wie viel unnötiger oder falscher Kontext im Kontextpaket landet.
Reranking sortiert Kandidaten gegen die konkrete Frage neu.
Indexqualität zeigt sich an Golden Questions, falschen ähnlichen Treffern, Filtereffekten und stabilen Top-k-Einstellungen.
Diese Fragen machen das Thema praktisch prüfbar. Hak sie ab – sie eignen sich als Einstieg für Workshops, Pilotvorhaben oder Architekturreviews.
Retrieval Evaluation prüft, ob das System die richtigen Quellen findet, bevor das LLM antwortet. Reranking ist der Schritt danach: Eine erste Trefferliste wird noch einmal gegen die konkrete Frage sortiert. Das Ziel ist besserer Kontext: weniger Rauschen, relevantere Quellen und ein Kontextpaket, aus dem die Antwort wirklich belegbar entsteht.
Die Begriffe klingen technisch, beantworten aber einfache Produktfragen: Wird die richtige Quelle gefunden, steht sie weit oben und ist das Kontextpaket brauchbar?
Wurden die relevanten Quellen überhaupt unter den ersten k Treffern des Vektorindex oder Hybrid-Retrievers gefunden? Beispiel: Ist die richtige Policy unter den Top 10?
Wie viel Rauschen steckt in der Trefferliste? Eine Liste mit 20 Treffern hilft wenig, wenn nur einer davon brauchbar ist.
Stehen die besten Treffer weit oben? Für Nutzer und LLM zählt, ob und wann etwas gefunden wird.
Reicht das Kontextpaket wirklich aus, um die Frage korrekt und mit Quelle zu beantworten?
Reranking ersetzt Retrieval nicht. Es sortiert eine vorhandene Kandidatenliste besser.
Retriever sammelt Kandidaten: zum Beispiel über Vektorindex, Keyword-Suche, Filter oder Graphnachbarschaft.
Kandidaten werden dedupliziert: doppelte oder fast gleiche Textstellen werden zusammengeführt.
Reranker bewertet neu: Die Kandidaten werden gegen die konkrete Frage sortiert.
Kontextpaket wird gebaut: Nur die besten und passendsten Quellen gehen an das LLM.
Ergebnis wird geprüft: Hat sich die Trefferqualität gegenüber der Baseline wirklich verbessert?
Die Beispiele zeigen, wie Retrieval Evaluation Fehler sichtbar macht, bevor sie als überzeugende Antwort beim Nutzer landen.
Problem
Top-5 enthält ähnliche HR-Texte, aber nicht die konkrete Policy zur Ausnahme.
Besser
Evaluation markiert die erwartete Policy als Pflichtquelle; Reranking hebt sie nach oben.
Problem
Vektorsuche findet semantisch ähnliche Artikel, aber nicht den exakten Fehlercode.
Besser
Indexqualität, Filter und Hybrid Retrieval werden getrennt geprüft; Reranking sortiert nach Produktversion und Symptombeschreibung.
Problem
Textstellen sind richtig, aber der Beziehungspfad zwischen Kunde, Vertrag und Risiko fehlt.
Besser
Das Testset erwartet Quellen und Graphpfad; die Bewertung prüft beides getrennt.
Ein kleines, gutes Testset ist oft wertvoller als eine große Zahl oberflächlicher Fragen.
Retrieval-Fehler sind tückisch, weil das LLM aus schlechtem Kontext trotzdem flüssige Antworten bauen kann.