Zum Inhalt springen
GraphRAG Compass
  • Grundlagen
  • Architekturen
  • Praxis
  • Business Cases
  • Lernpfad
  • Simulation
  • Landkarte
GraphRAG Compass

Öffentlicher Field Guide für GraphRAG, Knowledge Graphs, AI-Architekturen und bessere Entscheidungen in komplexen Wissenssystemen.

Erkunden

  • Grundlagen
  • Architekturen
  • Praxis
  • Business Cases
  • Simulation
  • Landkarte

Lernen

  • Lernpfad
  • Mini-Use-Case
  • GraphRAG Poster
  • Glossar

Über

  • About
  • LinkedIn

Discovery

  • llms.txt
  • llms-full.txt
  • sitemap.xml

Rechtliches

  • Impressum
  • Datenschutz

© 2026 Meierhoff Systems · GraphRAG Compass

Orientierung für Entscheidungen in Wissenssystemen

Zurück zu Hybrid Retrieval

Deep Dive · Hybrid Retrieval

Hybrid Retrieval als kontrollierte Kombination von Suchsignalen

Hybrid Retrieval verbindet semantische Suche, Filter, Keyword-Signale, Graphkontext und Reranking. Es ist der pragmatische Schritt, wenn RAG zu breit ist, aber ein vollständiger GraphRAG-Ansatz noch zu groß wäre.

Vector + Graph
Fusion
Reranking
Evaluation

Kuratierter erster Schnitt · Stand Mai 2026

Die Grundidee

Hybrid Retrieval sagt: Eine einzige Suchlogik reicht selten für produktive RAG-Systeme. findet semantische Nähe, aber Metadaten, Keywords, Zeitbezug und Graphbeziehungen können die Treffer präziser und belastbarer machen.

Der Kern ist kontrollierte Kombination. Ein gutes Hybrid Retrieval erklärt, welches Signal wann zählt und wie aus mehreren Trefferlisten ein kleines, gutes Kontextpaket wird.

Orientierungsfrage

Wenn RAG als Baseline steht und zusätzliche Signale helfen, ist Hybrid Retrieval der pragmatische nächste Schritt.

Motion Map

Hybrid Retrieval

Frage
Vektor
Graph
Filter
Fusion
LLM
Antwort

Die passende Kombination macht den Kontext präziser.

Signaltypen

Hybrid Retrieval beginnt mit der Frage, welche Signale in der Domäne wirklich helfen. Jedes System braucht eine bewusst ausgewählte Signalmenge.

Vektorähnlichkeit

Findet semantisch ähnliche Chunks, auch wenn Frage und Dokument unterschiedliche Wörter nutzen.

Keyword / BM25

Stark bei exakten Begriffen, IDs, Fehlermeldungen, Produktnamen oder regulatorischen Referenzen.

Metadatenfilter

Grenzt Treffer nach Quelle, Version, Sprache, Datum, Dokumenttyp oder Berechtigung ein.

Graphnachbarschaft

Ergänzt relevante Entitäten, Beziehungen, Pfade oder abhängige Objekte aus einem Graph.

Zeitbezug

Bevorzugt aktuelle, gültige oder zeitraumbezogene Informationen und hält alte Treffer einordenbar.

Reranking

Sortiert Kandidaten nach Frage-Relevanz neu und reduziert ähnlich klingende, aber fachlich falsche Treffer.

Fusion-Strategien

Die eigentliche Architekturentscheidung liegt oft in der Fusion: Werden Treffer vorher gefiltert, parallel gesucht, gewichtet oder nachträglich gererankt?

Filter-first

Metadaten oder Berechtigungen begrenzen zuerst den Suchraum. Danach laufen Vektor-, Keyword- oder Graphsuche nur auf erlaubten Kandidaten.

Parallel Retrieval

Mehrere Retriever laufen nebeneinander. Die Trefferlisten werden danach zusammengeführt und dedupliziert.

Reciprocal Rank Fusion

Treffer werden danach bewertet, wie weit oben sie in mehreren Listen stehen. Das ist robust, wenn Scores nicht direkt vergleichbar sind.

Gewichtetes Scoring

Signale bekommen Gewichte, zum Beispiel 60 Prozent Vektor, 25 Prozent Keyword, 15 Prozent Graph. Das ist flexibel, aber tuning-intensiv.

Reranking nach Fusion

Nach der Zusammenführung bewertet ein Reranker die Kandidaten erneut gegen die konkrete Frage.

Mini-Pipeline

Eine Hybrid-Pipeline ist eine Reihe von Auswahlentscheidungen: Welche Signale starten, wie Treffer fusioniert werden, und was am Ende wirklich in den Prompt kommt.

01

Frage verstehen: Entitäten, Zeitraum, Quelle, Berechtigung und erwartete Antwortform erkennen.

02

Mehrere Retriever auslösen: Vektor, Keyword, Metadaten, Graph oder domänenspezifische Suche.

03

Kandidaten zusammenführen: Deduplizieren, Scores normalisieren, Quellen gruppieren.

04

Reranken: Die besten Kandidaten nach Relevanz zur Frage neu sortieren.

05

Kontextpaket bauen: Wenige belastbare Chunks, Graphpfade und Quellenstellen an das LLM geben.

06

Antwort evaluieren: Prüfen, welches Signal wirklich zur richtigen Antwort beigetragen hat.

Ein Beispiel: Supportfrage

Hybrid Retrieval wird greifbar, wenn eine Frage semantische Suche braucht, aber Produktversion, Modul und technische Beziehungen die richtigen Treffer eingrenzen.

Frage

Warum schlägt Login für Kunden auf Version 4.2 nach der Reporting-Migration fehl?

Vektortreffer

  • Supportartikel zu Login-Fehlern
  • Release-Notes zur Reporting API
  • alte Authentifizierungsanleitung

Filter

  • Produktversion 4.2
  • Dokumentdatum nach Migration
  • Modul Reporting

Graphkontext

  • Service Atlas -[:NUTZT]-> Reporting API
  • Reporting API -[:ÄNDERT_AUTH]-> OAuth Flow 4.2
  • Incident 381 -[:BETRIFFT]-> Kundenlogin

Die finale Antwort nutzt den aktuellen Release-Abschnitt, den passenden Supportartikel und den Graphpfad vom betroffenen Service zur geänderten Authentifizierung.

Trade-offs

  • Mehr Qualität, mehr Tuning

    Jedes Signal kann helfen, aber jedes Signal braucht Gewichtung, Tests und Pflege.

  • Mehr Latenz

    Mehrere Retriever, Fusion und Reranking kosten Zeit. Parallelisierung und Caching werden schnell wichtig.

  • Mehr Evaluation

    Man muss messen, welches Signal welchen Beitrag leistet. Sonst wird Hybrid Retrieval zur Black Box.

  • Zu viele Signale

    Wenn alles kombiniert wird, wird das Ergebnis schwer erklärbar. Gute Hybrid-Systeme sind bewusst sparsam.

Wann Hybrid Retrieval reicht

Hybrid Retrieval reicht oft, wenn Beziehungen punktuell helfen, aber kein großer GraphRAG-Index, keine Global Search und keine umfassende Graphpflege nötig sind. Sobald Fragen systematisch über viele Beziehungspfade, Communities oder Graphsummaries laufen, wird plausibler.

Evaluation

Signale einzeln bewerten

Hybrid Retrieval sollte nicht als großes Kombinationspaket bewertet werden. Besser ist eine Ablation: Signal für Signal prüfen, was wirklich Qualität bringt.

  • Vector-only Baseline messen: Welche Fragen beantwortet reine Vektorsuche bereits gut?
  • Metadatenfilter einzeln testen: Verbessern Version, Datum, Quelle oder Berechtigung die Treffer?
  • Graphsignal isolieren: Welche Fragen profitieren wirklich von Beziehungen oder Nachbarschaften?
  • Reranking abgleichen: Wandert der richtige Kontext sichtbar nach oben?
  • Ablation nutzen: Je ein Signal abschalten und prüfen, ob die Qualität fällt.

Mini-Ranking: Fusion sichtbar machen

Hybrid Retrieval wird greifbarer, wenn Scores und Entscheidungsgründe gemeinsam sichtbar werden: Ein Kandidat kann trotz guter Vektorähnlichkeit zurückfallen.

KandidatVektorKeywordMetadatenGraphFusion
Release Notes 4.2: OAuth-Änderung Reporting API#2#1#1#1oben
Supportartikel: Loginfehler allgemein#1#2#3#3mittig
Alte Authentifizierungsanleitung 3.9#3#3#5#4unten
Incident 381: Reporting-Migration blockiert Login#4#4#2#2oben nach Reranking

Die Bausteine sauber trennen

Hybrid Retrieval nutzt oft Konzepte aus mehreren Ebenen: für semantische Breite, für Beziehungen und Reranking für die finale Kontextauswahl.

Semantische Kandidaten für dokumentennahe Fragen.

Explizite Beziehungen, Nachbarschaften und Pfade.

Wenn Graphkontext selbst zum primären Retrieval-Modell wird.

Praxisentscheidung

Mit zwei Signalen starten

Der beste Einstieg ist ein kleiner Signal-Mix. Starte mit RAG plus einem zweiten Signal: Metadatenfilter, Keyword-Suche oder Graphnachbarschaft. Sobald der Nutzen messbar ist, lohnt sich komplexere Fusion.

Nächste Schritte

Nächstes Konzept: Semantic LayerRAGHybrid Retrieval Architektur