Phase 1 · Step 5 von 9
Du siehst, warum ähnliche Inhalte auffindbar werden, auch wenn andere Wörter verwendet werden.
Was du mitnimmst
Vektoren sind stark für Ähnlichkeit; Beziehungspfade brauchen ergänzende Graphsignale.

Du lernst, wie semantische Suche ähnliche Inhalte findet, auch wenn andere Wörter verwendet werden. Danach kannst du einschätzen, welche Fragen mit passenden Texttreffern gut funktionieren und welche Fragen zusätzlich Beziehungen zwischen Dingen brauchen.
Nachdem klar ist, warum RAG sucht, kommt die technische Anschlussfrage: Wie findet das System passende Inhalte, auch wenn die Wörter nicht exakt gleich sind?
Genau hier kommen Embeddings und Vektoren ins Spiel. Sie machen Ähnlichkeit berechenbar.
Dieser Schritt erklärt die Suchseite von RAG und GraphRAG. Du erkennst später schneller, ob eine Frage vor allem gute Texttreffer braucht oder ob zusätzlich Beziehungen zwischen Dingen gebraucht werden.
Embeddings übersetzen Text in Vektoren. Ein Vektor ist eine Liste von Zahlen, zum Beispiel [0.12, -0.04, 0.87, ...]. Diese Zahlen beschreiben, wo ein Text im Bedeutungsraum liegt.
Ein Vektorindex sucht nach Einträgen, deren Zahlenmuster nah beieinanderliegen. So findet das System ähnliche Inhalte, auch wenn andere Wörter verwendet werden.
Bei kleinen Beständen könnte ein System jeden Vektor exakt mit der Anfrage vergleichen. Bei Millionen Chunks wird das langsam. Deshalb nutzen viele Vektorindizes ANN: Approximate Nearest Neighbor. Das bedeutet, dass die Suche nicht garantiert jeden möglichen Treffer exakt prüft, sondern sehr schnell gute Kandidaten findet.
HNSW ist ein verbreitetes Verfahren dafür. Man kann es sich wie ein mehrstufiges Nachbarschaftsnetz vorstellen: Die Suche startet in einer groben Ebene, springt immer näher in die richtige Bedeutungsregion und prüft am Ende nur noch eine kleine Kandidatenmenge.
Ähnlichkeit ist ein starkes Suchsignal. Explizite Rollen, Abhängigkeiten und begründende Pfade brauchen zusätzlich strukturierte Beziehungssignale.
Darum ist RAG oft die Baseline für GraphRAG. Es zeigt, was semantische Suche bereits gut kann und wo Beziehungslogik zusätzlich Mehrwert liefert.
Vektoren finden Nachbarschaft im Bedeutungsraum. Graphen finden Wege im Beziehungsraum.
Umwandlung von Text oder Daten in einen Vektor.
Zahlenliste, die einen Text, einen Abschnitt oder eine Frage als Punkt im Bedeutungsraum beschreibt.
Suchstruktur für ähnliche Vektoren.
Approximate Nearest Neighbor; schnelle Näherungssuche für ähnliche Vektoren.
Hierarchical Navigable Small World; verbreitetes ANN-Verfahren mit mehrstufigem Nachbarschaftsnetz.
Die k ähnlichsten Treffer einer Suche.
Ähnliche Bedeutung bei unterschiedlicher Wortwahl.
Bleiben wir beim Compliance-Fall. Ein Nutzer sucht: "Wie häufig müssen wir unser Kundensystem kontrollieren?" In der Richtlinie steht aber: "Kritische Kundensysteme müssen jährlich geprüft werden."
Ein Vektorindex kann diese Nähe finden. Die Wörter unterscheiden sich – "kontrollieren" statt "prüfen", "Kundensystem" statt "kritisches Kundensystem" –, die Bedeutung liegt nah beieinander. RAG liefert passende Textstellen, und das LLM formuliert daraus eine verständliche Antwort mit Quelle.
Technisch läuft das oft so: Die Frage wird eingebettet, ANN oder HNSW sucht schnell nach ähnlichen Chunks, Top-k wählt eine kleine Trefferliste aus, und diese Treffer gehen danach in Reranking, Graphkontext oder direkt ins Antwortmodell.
Bei einer zweiten Frage braucht das System zusätzlich Beziehungen: "Welche Projekte sind betroffen, wenn CRM jährlich geprüft werden muss?" Die Antwort entsteht aus Verbindungsschritten: CRM -> ist_klassifiziert_als -> kritisches Kundensystem -> unterliegt -> Prüfpflicht (Abschnitt 4.2), und CRM -> genutzt_von -> Projekt Alpha.
Der didaktische Punkt: Vektoren liefern gute Kandidaten. Graphen liefern Beziehungspfade. Ein gutes System kombiniert beide Signale passend zur Frage.
Der typische Denkfehler ist, semantische Nähe mit Wissen gleichzusetzen. Ein ähnlicher Text ist ein Hinweis, aber noch keine geprüfte Aussage.
Ein zweiter Denkfehler ist, GraphRAG einzuführen, bevor eine RAG-Baseline gemessen wurde. Die Baseline zeigt, welchen konkreten Mehrwert der Graph liefern soll.
RAG reicht oft, wenn Fragen durch wenige passende Textstellen beantwortbar sind. Graphkontext wird relevant, wenn die Frage Entitäten verbinden, Abhängigkeiten verfolgen oder mehrere Schritte über Quellen hinweg erklären muss.
Ein Warnsignal für reine Vektorsuche im RAG-System ist eine Frage, bei der die Antwort von Rollen, Pfaden, Gültigkeit oder Beziehungstypen abhängt.
Ein Unternehmen hat ein internes Wissenssystem für Richtlinien, Systeme, Projekte und Verantwortlichkeiten.
Formuliere drei Nutzerfragen:
1. eine Frage mit klarer Textähnlichkeit 2. eine Frage mit anderer Wortwahl, aber ähnlicher Bedeutung 3. eine Frage, die mehrere Dinge über Beziehungen verbinden muss
Markiere anschließend, welche Frage RAG gut lösen kann und welche Frage Graphkontext braucht.
"Was steht in Abschnitt 4.2 der Richtlinie für kritische Kundensysteme?" RAG kann den passenden Abschnitt gut finden, wenn Frage und Überschrift ähnlich benannt sind.
"Wie oft müssen wir unser Kundensystem kontrollieren?" RAG kann helfen, wenn die Richtlinie Begriffe wie "kritische Kundensysteme" und "jährlich prüfen" verwendet – die Bedeutung liegt nah, die Wörter nicht.
"Welche Projekte sind betroffen, wenn CRM jährlich geprüft werden muss?" Hier wird Graphkontext sinnvoll, weil die Antwort über mehrere Verbindungen läuft: Richtlinie, Systemklasse, CRM, Projekt Alpha und verantwortliches Team.
Ein Vektorindex findet Inhalte, die semantisch ähnlich zur Anfrage sind, auch wenn andere Wörter verwendet werden.
Weil Nähe Ähnlichkeit beschreibt. Fachliche Beziehungen wie "verursacht", "gehört zu" oder "ist verantwortlich für" brauchen eigene Evidenz.
Eine Frage wie "Welche Projekte und Teams sind über CRM von der Prüfpflicht betroffen?" ist ein Warnsignal, weil sie Beziehungsschritte und Pfade braucht.
Kernaussage
Vektoren sind stark für Ähnlichkeit; Beziehungspfade brauchen ergänzende Graphsignale.