Phase 1 · Step 5 von 9 · Lesezeit ca. 5 Min.

Wie semantische Suche ähnliche Inhalte findet

Du siehst, warum ähnliche Inhalte auffindbar werden, auch wenn andere Wörter verwendet werden.

Was du mitnimmst

Vektoren sind stark für Ähnlichkeit; Beziehungspfade brauchen ergänzende Graphsignale.

Lernziel

Du lernst, wie semantische Suche ähnliche Inhalte findet, auch wenn andere Wörter verwendet werden. Danach kannst du einschätzen, welche Fragen mit passenden Texttreffern gut funktionieren und welche Fragen zusätzlich Beziehungen zwischen Dingen brauchen.

Erklärung

Nachdem klar ist, warum RAG sucht, kommt die technische Anschlussfrage: Wie findet das System passende Inhalte, auch wenn die Wörter nicht exakt gleich sind?

Genau hier kommen Embeddings und Vektoren ins Spiel. Sie machen Ähnlichkeit berechenbar.

Dieser Schritt erklärt die Suchseite von RAG und GraphRAG. Du erkennst später schneller, ob eine Frage vor allem gute Texttreffer braucht oder ob zusätzlich Beziehungen zwischen Dingen gebraucht werden.

Embeddings übersetzen Text in Vektoren. Ein Vektor ist eine Liste von Zahlen, zum Beispiel [0.12, -0.04, 0.87, ...]. Diese Zahlen beschreiben, wo ein Text im Bedeutungsraum liegt.

Ein Vektorindex sucht nach Einträgen, deren Zahlenmuster nah beieinanderliegen. So findet das System ähnliche Inhalte, auch wenn andere Wörter verwendet werden.

Bei kleinen Beständen könnte ein System jeden Vektor exakt mit der Anfrage vergleichen. Bei Millionen Chunks wird das langsam. Deshalb nutzen viele Vektorindizes ANN: Approximate Nearest Neighbor. Das bedeutet, dass die Suche nicht garantiert jeden möglichen Treffer exakt prüft, sondern sehr schnell gute Kandidaten findet.

HNSW ist ein verbreitetes Verfahren dafür. Man kann es sich wie ein mehrstufiges Nachbarschaftsnetz vorstellen: Die Suche startet in einer groben Ebene, springt immer näher in die richtige Bedeutungsregion und prüft am Ende nur noch eine kleine Kandidatenmenge.

Ähnlichkeit ist ein starkes Suchsignal. Explizite Rollen, Abhängigkeiten und begründende Pfade brauchen zusätzlich strukturierte Beziehungssignale.

Darum ist RAG oft die Baseline für GraphRAG. Es zeigt, was semantische Suche bereits gut kann und wo Beziehungslogik zusätzlich Mehrwert liefert.

Mentales Modell

Vektoren finden Nachbarschaft im Bedeutungsraum. Graphen finden Wege im Beziehungsraum.

Begriffe

Embedding

Umwandlung von Text oder Daten in einen Vektor.

Vektor

Zahlenliste, die einen Text, einen Abschnitt oder eine Frage als Punkt im Bedeutungsraum beschreibt.

Vektorindex

Suchstruktur für ähnliche Vektoren.

ANN

Approximate Nearest Neighbor; schnelle Näherungssuche für ähnliche Vektoren.

HNSW

Hierarchical Navigable Small World; verbreitetes ANN-Verfahren mit mehrstufigem Nachbarschaftsnetz.

Top-k

Die k ähnlichsten Treffer einer Suche.

Semantische Nähe

Ähnliche Bedeutung bei unterschiedlicher Wortwahl.

Beispiel

Bleiben wir beim Compliance-Fall. Ein Nutzer sucht: "Wie häufig müssen wir unser Kundensystem kontrollieren?" In der Richtlinie steht aber: "Kritische Kundensysteme müssen jährlich geprüft werden."

Ein Vektorindex kann diese Nähe finden. Die Wörter unterscheiden sich – "kontrollieren" statt "prüfen", "Kundensystem" statt "kritisches Kundensystem" –, die Bedeutung liegt nah beieinander. RAG liefert passende Textstellen, und das LLM formuliert daraus eine verständliche Antwort mit Quelle.

Technisch läuft das oft so: Die Frage wird eingebettet, ANN oder HNSW sucht schnell nach ähnlichen Chunks, Top-k wählt eine kleine Trefferliste aus, und diese Treffer gehen danach in Reranking, Graphkontext oder direkt ins Antwortmodell.

Bei einer zweiten Frage braucht das System zusätzlich Beziehungen: "Welche Projekte sind betroffen, wenn CRM jährlich geprüft werden muss?" Die Antwort entsteht aus Verbindungsschritten: CRM -> ist_klassifiziert_als -> kritisches Kundensystem -> unterliegt -> Prüfpflicht (Abschnitt 4.2), und CRM -> genutzt_von -> Projekt Alpha.

Der didaktische Punkt: Vektoren liefern gute Kandidaten. Graphen liefern Beziehungspfade. Ein gutes System kombiniert beide Signale passend zur Frage.

Typischer Denkfehler

Der typische Denkfehler ist, semantische Nähe mit Wissen gleichzusetzen. Ein ähnlicher Text ist ein Hinweis, aber noch keine geprüfte Aussage.

Ein zweiter Denkfehler ist, GraphRAG einzuführen, bevor eine RAG-Baseline gemessen wurde. Die Baseline zeigt, welchen konkreten Mehrwert der Graph liefern soll.

Woran du es erkennst

RAG reicht oft, wenn Fragen durch wenige passende Textstellen beantwortbar sind. Graphkontext wird relevant, wenn die Frage Entitäten verbinden, Abhängigkeiten verfolgen oder mehrere Schritte über Quellen hinweg erklären muss.

Ein Warnsignal für reine Vektorsuche im RAG-System ist eine Frage, bei der die Antwort von Rollen, Pfaden, Gültigkeit oder Beziehungstypen abhängt.

Mini-Aufgabe

Ein Unternehmen hat ein internes Wissenssystem für Richtlinien, Systeme, Projekte und Verantwortlichkeiten.

Formuliere drei Nutzerfragen:

1. eine Frage mit klarer Textähnlichkeit 2. eine Frage mit anderer Wortwahl, aber ähnlicher Bedeutung 3. eine Frage, die mehrere Dinge über Beziehungen verbinden muss

Markiere anschließend, welche Frage RAG gut lösen kann und welche Frage Graphkontext braucht.

Musterlösung

Klare Textähnlichkeit

"Was steht in Abschnitt 4.2 der Richtlinie für kritische Kundensysteme?" RAG kann den passenden Abschnitt gut finden, wenn Frage und Überschrift ähnlich benannt sind.

Andere Wortwahl, ähnliche Bedeutung

"Wie oft müssen wir unser Kundensystem kontrollieren?" RAG kann helfen, wenn die Richtlinie Begriffe wie "kritische Kundensysteme" und "jährlich prüfen" verwendet – die Bedeutung liegt nah, die Wörter nicht.

Beziehungskette

"Welche Projekte sind betroffen, wenn CRM jährlich geprüft werden muss?" Hier wird Graphkontext sinnvoll, weil die Antwort über mehrere Verbindungen läuft: Richtlinie, Systemklasse, CRM, Projekt Alpha und verantwortliches Team.

Selbsttest

1.Was findet ein Vektorindex gut?

Ein Vektorindex findet Inhalte, die semantisch ähnlich zur Anfrage sind, auch wenn andere Wörter verwendet werden.

2.Warum braucht semantische Nähe manchmal zusätzliche Beziehungssignale?

Weil Nähe Ähnlichkeit beschreibt. Fachliche Beziehungen wie "verursacht", "gehört zu" oder "ist verantwortlich für" brauchen eigene Evidenz.

3.Welche Frage wäre ein Warnsignal für reine Vektorsuche?

Eine Frage wie "Welche Projekte und Teams sind über CRM von der Prüfpflicht betroffen?" ist ein Warnsignal, weil sie Beziehungsschritte und Pfade braucht.

Kernaussage

Vektoren sind stark für Ähnlichkeit; Beziehungspfade brauchen ergänzende Graphsignale.

Vorherige Lektion Nächste Lektion

Wie semantische Suche ähnliche Inhalte findet

Du siehst, warum ähnliche Inhalte auffindbar werden, auch wenn andere Wörter verwendet werden.

Was du mitnimmst

Vektoren sind stark für Ähnlichkeit; Beziehungspfade brauchen ergänzende Graphsignale.

Lernziel

Erklärung

Nachdem klar ist, warum RAG sucht, kommt die technische Anschlussfrage: Wie findet das System passende Inhalte, auch wenn die Wörter nicht exakt gleich sind?

Genau hier kommen Embeddings und Vektoren ins Spiel. Sie machen Ähnlichkeit berechenbar.

Embeddings übersetzen Text in Vektoren. Ein Vektor ist eine Liste von Zahlen, zum Beispiel [0.12, -0.04, 0.87, ...]. Diese Zahlen beschreiben, wo ein Text im Bedeutungsraum liegt.

Ein Vektorindex sucht nach Einträgen, deren Zahlenmuster nah beieinanderliegen. So findet das System ähnliche Inhalte, auch wenn andere Wörter verwendet werden.

Ähnlichkeit ist ein starkes Suchsignal. Explizite Rollen, Abhängigkeiten und begründende Pfade brauchen zusätzlich strukturierte Beziehungssignale.

Darum ist RAG oft die Baseline für GraphRAG. Es zeigt, was semantische Suche bereits gut kann und wo Beziehungslogik zusätzlich Mehrwert liefert.

Mentales Modell

Vektoren finden Nachbarschaft im Bedeutungsraum. Graphen finden Wege im Beziehungsraum.

Begriffe

Embedding

Umwandlung von Text oder Daten in einen Vektor.

Vektor

Zahlenliste, die einen Text, einen Abschnitt oder eine Frage als Punkt im Bedeutungsraum beschreibt.

Vektorindex

Suchstruktur für ähnliche Vektoren.

ANN

Approximate Nearest Neighbor; schnelle Näherungssuche für ähnliche Vektoren.

HNSW

Hierarchical Navigable Small World; verbreitetes ANN-Verfahren mit mehrstufigem Nachbarschaftsnetz.

Top-k

Die k ähnlichsten Treffer einer Suche.

Semantische Nähe

Ähnliche Bedeutung bei unterschiedlicher Wortwahl.

Beispiel

Der didaktische Punkt: Vektoren liefern gute Kandidaten. Graphen liefern Beziehungspfade. Ein gutes System kombiniert beide Signale passend zur Frage.

Typischer Denkfehler

Der typische Denkfehler ist, semantische Nähe mit Wissen gleichzusetzen. Ein ähnlicher Text ist ein Hinweis, aber noch keine geprüfte Aussage.

Ein zweiter Denkfehler ist, GraphRAG einzuführen, bevor eine RAG-Baseline gemessen wurde. Die Baseline zeigt, welchen konkreten Mehrwert der Graph liefern soll.

Woran du es erkennst

Ein Warnsignal für reine Vektorsuche im RAG-System ist eine Frage, bei der die Antwort von Rollen, Pfaden, Gültigkeit oder Beziehungstypen abhängt.

Mini-Aufgabe

Ein Unternehmen hat ein internes Wissenssystem für Richtlinien, Systeme, Projekte und Verantwortlichkeiten.

Formuliere drei Nutzerfragen:

1. eine Frage mit klarer Textähnlichkeit 2. eine Frage mit anderer Wortwahl, aber ähnlicher Bedeutung 3. eine Frage, die mehrere Dinge über Beziehungen verbinden muss

Markiere anschließend, welche Frage RAG gut lösen kann und welche Frage Graphkontext braucht.

Musterlösung

Klare Textähnlichkeit

"Was steht in Abschnitt 4.2 der Richtlinie für kritische Kundensysteme?" RAG kann den passenden Abschnitt gut finden, wenn Frage und Überschrift ähnlich benannt sind.

Andere Wortwahl, ähnliche Bedeutung

Beziehungskette

Selbsttest

1.Was findet ein Vektorindex gut?

Ein Vektorindex findet Inhalte, die semantisch ähnlich zur Anfrage sind, auch wenn andere Wörter verwendet werden.

2.Warum braucht semantische Nähe manchmal zusätzliche Beziehungssignale?

Weil Nähe Ähnlichkeit beschreibt. Fachliche Beziehungen wie "verursacht", "gehört zu" oder "ist verantwortlich für" brauchen eigene Evidenz.

3.Welche Frage wäre ein Warnsignal für reine Vektorsuche?

Eine Frage wie "Welche Projekte und Teams sind über CRM von der Prüfpflicht betroffen?" ist ein Warnsignal, weil sie Beziehungsschritte und Pfade braucht.

Kernaussage

Vektoren sind stark für Ähnlichkeit; Beziehungspfade brauchen ergänzende Graphsignale.