Architektur-Detail · Retrieval

Hybrid Retrieval

Hybrid Retrieval ist eine Orchestrierungsarchitektur: Query Router, Vector Search, Keyword/BM25, Metadatenfilter, optionaler Graph Lookup, Fusion, Deduplizierung, Reranking und Context Assembler. Der Kern ist die messbare Kombination mehrerer Signale mit klaren Failure Modes, Latenzbudget und Rollback.

Praxisnah

Aufwand: mittel

Datenreife: mittel

Team-Reife: mittel

Kuratierte Architekturentscheidung auf Basis der lokalen Compass-Daten

Relevant wenn

Wenn RAG als Baseline existiert und echte Testfragen zeigen, dass ein zusätzliches Signal wiederholt die richtigen Quellen oder Beziehungen rettet.

Quellenlage

Reales Suchmuster, aber kein einzelner offizieller Produktname. Der Compass fasst hier Vektorsuche, Keyword-Suche, Gewichtung mehrerer Trefferlisten und optional Graphsignale zusammen.

Welches Problem löst das Muster?

Eine einzelne Suchtechnik liefert in der Praxis falsche oder unvollständige Kontextpakete: semantisch ähnliche Treffer reichen nicht, exakte Begriffe fehlen, Metadaten werden ignoriert oder Graphnachbarschaften bleiben ungenutzt.

Systemkarte

Wie der Architekturfluss aussieht

Die Motion Map verdichtet das Muster auf seine wichtigsten Stationen: Eingabe, Daten- oder Graphschicht, Retrieval, Kontrolle und Antwort. Sie ist bewusst kleiner als die Referenzarchitektur darunter und soll zuerst die Leserichtung und die Systemgrenzen sichtbar machen.

Architekturblick

Was du bauen, betreiben und messen musst

Diese Seite ist eine Entscheidungshilfe für den Stack. Der Blick liegt auf Datenfluss, Failure Modes, Evaluation, Tooling und dem nächsten sinnvollen Migrationsschritt.

Stack-Schnitt

Query RouterVector SearchKeyword SearchMetadata FilterGraph LookupFusionRerankerContext Assembler

Runtime-Datenfluss

Eine Anfrage wird analysiert und parallel oder gestuft an mehrere Retriever geschickt. Trefferlisten aus Vektor, Keyword, Filter und Graph werden normalisiert, dedupliziert, gewichtet, rerankt und erst danach als kompaktes Kontextpaket an das LLM gegeben.

Migrationspfad

Mit RAG starten, dann das erste klar messbare Fehlermuster ergänzen: exakte Begriffe, Metadaten, Graphnachbarn oder Reranking. Jede neue Signalquelle braucht eine eigene Messung und ein Rollback-Signal.

Failure Modes

Fusion mischt inkompatible Scores und erzeugt scheinbar präzise, aber falsche Rankings.
Graphsignal verstärkt falsche Entity Resolution.
Mehr Retriever erhöhen Latenz, Kosten und Debug-Aufwand.
Deduplizierung fehlt und verschwendet Kontextfenster mit fast identischen Chunks.

Evaluation

Jedes Signal einzeln gegen dieselben Testfragen messen.
Ablation testen: Vector-only, Keyword-only, Graph-only und kombiniert.
Antwortqualität, Latenz, Kontextbudget und Quellenvielfalt messen.

Tooling & Betrieb

OpenSearch, Elasticsearch oder BM25
Vector Store
Neo4j, FalkorDB oder Graphindex
Reciprocal Rank Fusion
Reranking
Observability

Referenzarchitektur

Was Hybrid Retrieval anders macht

Hybrid Retrieval akzeptiert, dass kein Suchsignal allein stabil genug ist. Semantische Nähe, exakte Begriffe, Metadaten und Graphnachbarschaften beantworten unterschiedliche Teile derselben Frage. Die Architekturaufgabe ist deshalb kontrollierte Zusammenführung.

01
Frage analysieren
Die Anfrage wird nicht sofort an einen einzigen Retriever geschickt. Zuerst wird geklärt, ob sie eher nach Begriffen, Bedeutung, Metadaten oder Beziehungen fragt.
02
Mehrere Suchsignale starten
Vector Search findet semantisch ähnliche Chunks, Keyword Search findet exakte Begriffe, Filter begrenzen Quellen und Graph Traversal ergänzt Nachbarschaften.
03
Kandidaten normalisieren
Jede Suche liefert ihre eigene Trefferliste: Vektorsuche nach Bedeutung, Keyword-Suche nach exakten Begriffen, Filter nach Metadaten. Diese Listen müssen vergleichbar gemacht, dedupliziert und mit Quelleninformationen zusammengeführt werden.
04
Fusion und Reranking
Fusion bedeutet: Aus mehreren Trefferlisten wird eine gemeinsame Rangliste gebaut. Ein Reranker kann diese Kandidaten danach noch einmal gegen die konkrete Frage sortieren.
05
Kontextpaket bauen
Die finale Auswahl wird als begrenztes Kontextpaket zusammengestellt: Textstellen, Metadaten, gegebenenfalls Entitäten und Pfade.
06
Antwort mit Quellen
Das LLM antwortet auf Basis dieses Kontextpakets. Gute Architektur macht sichtbar, welche Signale die Antwort getragen haben.

Aufwand: mittel
Datenreife: mittel
Team-Reife: mittel

Nicht ideal wenn

Kein einzelnes Fehlermuster belegt ist, keine stabilen Metadaten oder Entitäten existieren oder Latenz und Debug-Aufwand extrem knapp sind.

Trade-offs

Mehr Signale erhöhen nicht automatisch Präzision. Fusion kann falsche Scores mischen, Graphsignale hängen an Entity Resolution, und zusätzliche Retriever erhöhen Latenz, Kosten und Beobachtungsbedarf. Ohne Ablation wirkt Hybrid schnell besser, obwohl nur mehr Kontext in den Prompt gelangt.

Signalmodell

Welche Signale kombiniert werden

Der wichtigste Architekturgedanke: Jedes Signal hat eine eigene Stärke und eine eigene Fehlerklasse. Hybrid Retrieval wird erst wertvoll, wenn diese Signale bewusst getrennt, gemessen und danach fusioniert werden.

Vector Search

Gut für semantische Nähe, Paraphrasen und natürlich formulierte Fragen. Schwächer bei exakten IDs, Zahlen, kurzen Begriffen und fachlichen Relationen.

Keyword Search / BM25

BM25 ist ein klassisches Suchverfahren für Volltextsuche. Es bewertet, wie gut exakte Wörter aus der Frage in einem Text vorkommen. Gut für Namen, Produktcodes, Gesetzesartikel oder Fehlermeldungen. Schwächer bei Synonymen und impliziter Bedeutung.

Metadatenfilter

Gut, um Suchräume fachlich zu begrenzen: Dokumenttyp, Zeitraum, Sprache, Version, Abteilung, Kunde oder Berechtigungsbereich.

Graphsignal

Gut, wenn ein gefundener Einstiegspunkt erweitert werden muss: Nachbarn, Pfade, Abhängigkeiten, Zuständigkeiten oder Entitätskontext.

Qualitätshebel

Wo Hybrid Retrieval kippt

Hybrid Retrieval verbessert nicht automatisch alles. Ohne getrennte Messung, Deduplizierung und klares Kontextbudget kann es sogar schlechter werden: mehr Treffer, aber weniger Präzision.

Jedes Suchsignal einzeln testen

Teste dieselbe Fragenliste einmal nur mit Vektorsuche, einmal nur mit Keyword-Suche, einmal nur mit Filtern und einmal kombiniert. So siehst du, ob Hybrid Retrieval wirklich besser wird oder nur mehr Trefferrauschen erzeugt.

Gewichtung nicht raten

Wenn Trefferlisten kombiniert werden, muss entschieden werden, welches Signal stärker zählt: Bedeutungsnähe, exakte Wörter, Aktualität, Quelle oder Graphnähe. Diese Gewichtung sollte aus echten Testfragen entstehen, nicht aus Bauchgefühl.

Deduplizierung einplanen

Mehrere Retriever liefern oft dieselben Chunks oder fast gleiche Passagen. Ohne Deduplizierung verschwendest du Kontextfenster.

Kontextbudget begrenzen

Hybrid heißt besser ausgewählter Kontext. Das Kontextpaket muss knapp, begründet und quellenstark bleiben.

Stack-Komponenten

Query RouterVector SearchBM25 / KeywordMetadata FilterGraph LookupFusionRerankerObservability

Ausbaustufen

Wohin dieses Muster wachsen kann

Hybrid Retrieval ist oft der pragmatische Mittelweg: stärker als reine Vektorsuche, aber noch nicht so schwer wie ein vollständiger GraphRAG-Stack. Es zeigt sehr gut, ob ein Graphsignal wirklich gebraucht wird oder ob bessere Retrieval-Fusion ausreicht.

Stufe 1
Die Baseline: semantische Suche über Chunks, schnell gebaut und gut vergleichbar.
Stufe 2
Mehrere Suchsignale werden kombiniert, wenn einzelne Retriever systematisch falsche oder unvollständige Treffer liefern.
Stufe 3
Der nächste Schritt, wenn Entitäten, Pfade und Beziehungen als Kern der Antwort gebraucht werden.
Stufe 4
Später wird festgelegt, welche Quellen gesucht werden dürfen, welche Rollen welche Informationen sehen, wie Treffer bewertet werden und welche fachlichen Regeln vor der Antwort gelten.

Konkrete Beispiele

In welchem Kontext das Muster typischerweise Sinn ergibt und welchen Beitrag es dort leistet.

Technischer Support mit Abhängigkeiten

Eine Frage passt zu mehreren Artikeln, aber nur eine Produktversion und ein Modul sind betroffen.

Vektor-Retrieval liefert Kandidaten, Graphbeziehungen liefern Präzision.

Compliance-Frage

Eine Regel steht im Dokument, relevante Kontrollen und Nachweise liegen im Graph.

Die Antwort kombiniert Textstelle und Beziehungspfad.

Einsteigerbeispiel: Fehlermeldung plus Version

Ein Nutzer sucht nach Fehlercode E-104. Keyword-Suche findet den exakten Fehlercode, Vektorsuche findet ähnlich beschriebene Symptome, ein Metadatenfilter begrenzt alles auf Produktversion 3.2.

Hybrid Retrieval ist sinnvoll, weil exakte Begriffe, Bedeutungsnähe und strukturierte Filter zusammen bessere Treffer liefern als ein einzelnes Suchsignal.

Nächste Umsetzungsschritte

1
Vector-only, Keyword-only und Hybrid mit derselben Fragenliste vergleichen
2
Fusion- und Deduplizierungsregel festlegen
3
Latenz, Quellenabdeckung und Kontextbudget messen

Hybrid Retrieval

Welches Problem löst das Muster?

Wie der Architekturfluss aussieht

Was du bauen, betreiben und messen musst

Stack-Schnitt

Runtime-Datenfluss

Migrationspfad

Failure Modes

Evaluation

Tooling & Betrieb

Was Hybrid Retrieval anders macht

Frage analysieren

Mehrere Suchsignale starten

Kandidaten normalisieren

Fusion und Reranking

Kontextpaket bauen

Antwort mit Quellen

Nicht ideal wenn

Trade-offs

Welche Signale kombiniert werden

Vector Search

Keyword Search / BM25

Metadatenfilter

Graphsignal

Wo Hybrid Retrieval kippt

Jedes Suchsignal einzeln testen

Gewichtung nicht raten

Deduplizierung einplanen

Kontextbudget begrenzen

Stack-Komponenten

Wohin dieses Muster wachsen kann

Vector-only RAG