Deep Dive · RAG

RAG als Basismuster für dokumentenbasiertes Fragen

RAG verbindet semantische Suche mit LLM-Antworten: Erst werden passende Textstellen über Embeddings gefunden, dann nutzt das Modell diese Textstellen als Kontext. Das Muster ist besonders stark, wenn Nutzer natürlich fragen sollen, aber die Antwort in eigenen Dokumenten liegen muss.

Embeddings

Retrieval

Chunks

Kontextqualität

Kuratierter erster Schnitt · Stand Juni 2026

Die Grundidee

RAG beantwortet Fragen mit zusätzlichem Kontext aus eigenen Dokumenten. Das System sucht zuerst nach semantisch ähnlichen Textstellen. Diese Fundstücke werden zusammen mit der Frage an das LLM gegeben, damit die Antwort auf konkretem Kontext basiert.

Der entscheidende Punkt: RAG macht Dokumentwissen über Bedeutungssuche zugänglich. Es geht weniger um exakte Stichwörter als um passende Kontexte: Welche Textstellen helfen dem Modell, eine konkrete Frage sachlich, quellenbezogen und verständlich zu beantworten?

Wie die Pipeline funktioniert

Vom Dokument zur Antwort

Dokumente vorbereiten

Quellen werden in kleinere Chunks zerlegt. Größe, Überlappung und Metadaten entscheiden stark darüber, ob später der richtige Kontext gefunden wird.

Embeddings erzeugen

Jeder Chunk wird in einen Vektor übersetzt. Der Vektor beschreibt numerische Nähe im Modellraum und macht ähnliche Formulierungen vergleichbar.

Antwort mit Kontext generieren

Das LLM erhält Frage und gefundene Textstellen. Die Qualität hängt davon ab, ob der Kontext vollständig, präzise und widerspruchsarm ist.

Wichtige Begriffe

Viele Missverständnisse entstehen, wenn Embeddings, Index, Retriever und LLM als eine einzige magische Komponente behandelt werden. Praktisch sind es getrennte Entscheidungen, die jeweils Fehler erzeugen können.

Embedding

Numerische Repräsentation eines Textes. Ähnliche Formulierungen, Themen und Begriffe liegen im Modellraum näher beieinander.

Vektorindex

Datenstruktur für schnelle Ähnlichkeitssuche. Sie macht große Dokumentmengen über semantische Nähe durchsuchbar.

Retriever

Komponente, die aus Frage, Filtern, Index und Ranking den Kontext für das LLM zusammenstellt.

Chunk

Kleiner Textabschnitt aus einer Quelle. Gute Chunks sind klein genug für präzise Treffer und groß genug für tragfähigen Kontext.

Similarity Edge

Graphbeziehung zwischen ähnlichen Chunks oder Entitäten. Sie macht semantische Nähe im Graph navigierbar.

Chunking-Strategien

Chunking ist eine frühe Qualitätsentscheidung. Der Schnitt entscheidet, wie gut der Retriever genau die Textstelle findet, die eine Antwort trägt.

Feste Länge

Texte werden nach Zeichen oder Tokens geschnitten. Das ist einfach, schnell und braucht zusätzliche Prüfung bei Überschriften, Tabellen und Sinnabschnitten.

Semantisches Chunking

Abschnitte folgen Überschriften, Absätzen oder Themenwechseln. Das ist meist besser für Handbücher, Policies und längere Fachtexte.

Parent/Child-Chunks

Kleine Chunks werden gesucht, aber größere Elternabschnitte als Kontext mitgegeben. Das verbindet präzise Treffer mit genug Lesekontext.

Overlap

Überlappung verhindert harte Schnittkanten. Eine gut gewählte Überlappung erhält Kontext und begrenzt Duplikate im Ranking.

Retrieval steuern

Ein gutes RAG-System verbindet ähnliche Treffer mit Steuerung: erlaubte Quellen, passende Trefferzahl und Relevanzsortierung bestimmen gemeinsam, welcher Kontext zur Frage passt.

Metadatenfilter

Quelle, Dokumenttyp, Datum, Sprache, Version oder Berechtigung grenzen Treffer ein, bevor sie dem LLM gegeben werden.

Top-k

Die Anzahl der Treffer ist eine Qualitätsentscheidung: Sie balanciert Kontextbreite und Präzision.

Reranking

Ein zweites Modell sortiert die ersten Vektortreffer nach Frage-Relevanz neu. Das hilft besonders bei ähnlichen, aber fachlich falschen Chunks.

Mini-Pipeline

Ein kleines Beispiel zeigt, wo Qualität entsteht: bei Quelle, Chunk, Metadaten, Trefferliste und Kontextauswahl.

Dokument

Release-Notes beschreiben, dass die Reporting API ab Version 4.2 andere Authentifizierung braucht.

Chunks

Ein Abschnitt enthält die Änderung, ein anderer die Migrationsschritte, ein dritter bekannte Fehlerbilder.

Embedding

Jeder Abschnitt bekommt einen Vektor und Metadaten wie Produkt, Version, Datum und Quelle.

Trefferliste

Die Frage nach Authentifizierungsfehlern findet mehrere ähnliche Abschnitte aus Release-Notes und Supportartikeln.

Antwortkontext

Filter und Reranking wählen die aktuelle Version, die Migrationsschritte und den passenden Fehlerartikel aus.

Wofür es stark ist

Guter Einstieg, wenn Wissen überwiegend in Dokumenten liegt und Fragen nah am Text beantwortet werden können.
Schnell prototypisierbar, weil viele Frameworks, Vektordatenbanken und Managed Services dieses Muster unterstützen.
Nützlich für semantische Suche, FAQ-ähnliche Fragen, Support-Wissen, Handbücher und interne Dokumentation.

Wo die Grenze liegt

Chunking ist eine Produktentscheidung: Wenn Abschnitte ungünstig geschnitten sind, fehlen dem LLM später genau die Sätze, die eine Antwort tragen.
Metadaten und Filter machen Treffer passend zu Quelle, Zeitraum, Sprache oder Dokumenttyp.
Qualität braucht Evaluation: Treffer müssen gegen echte Fragen geprüft werden, sonst bleibt unklar, ob das Retrieval wirklich hilfreich ist.

Evaluation

Retrieval-Qualität messen

Ohne Messung bleibt RAG ein Bauchgefühl. Eine kleine Testmenge mit echten Fragen und erwarteten Quellen reicht oft, um Chunking, Filter, Top-k und Reranking gezielt zu verbessern.

Recall@k

Ist der richtige Kontext unter den ersten k Treffern vorhanden?

Precision

Wie viele der gelieferten Treffer helfen tatsächlich bei der Antwort?

MRR

Wie weit oben steht der erste wirklich relevante Treffer?

Golden Questions

Eine kleine Sammlung echter Fragen mit erwarteten Quellen macht Retrieval-Qualität sichtbar.

Typische Fehlerbilder

Viele RAG-Probleme entstehen bereits im bereitgestellten Kontext. Das Modell antwortet auf die Textstellen, die es bekommen hat. Wenn der Kontext falsch, alt oder zu breit ist, wird auch die Antwort instabil.

Ähnlich, aber fachlich falsch

Ein Treffer nutzt dieselben Begriffe, bezieht sich aber auf eine andere Produktversion oder einen anderen Prozess.

Richtiger Abschnitt, falscher Ausschnitt

Der Chunk enthält den Anfang der Erklärung, aber die entscheidende Ausnahme steht im nächsten Absatz.

Veraltete Quelle

Der Vektorindex findet ein altes Dokument, weil es semantisch gut passt, obwohl eine neuere Version gilt.

Zu viel Kontext

Viele mittelmäßig relevante Chunks verdrängen den einen wirklich wichtigen Abschnitt im Prompt.

Drei Beispiel-Fragen

RAG wird greifbarer, wenn man es als Antwortmuster für dokumentennahe Fragen betrachtet: Nutzer können natürlich fragen, und der passende Kontext muss auffindbar sein.

Was sagt unser Onboarding-Handbuch zur ersten Projektwoche?

RAG findet passende Abschnitte auch dann, wenn die Frage anders formuliert ist als die Überschrift im Dokument.

Welche Support-Artikel passen zu dieser Fehlermeldung?

Die semantische Suche kann ähnliche Beschreibungen, Workarounds und Troubleshooting-Schritte zusammenbringen.

Fasse die wichtigsten Aussagen aus unseren Produktnotizen zur Migration zusammen.

Mehrere relevante Chunks können als Kontext dienen, wenn Reranking und Quellenbegrenzung sauber eingestellt sind.

Wann reicht RAG?

RAG ist ein guter Startpunkt für dokumentennahe Fragen. Die Entscheidung hängt daran, wie viel zusätzliche Struktur der Antwortkontext braucht.

SituationEinordnungWarum

Antwort liegt meist in einem einzelnen DokumentabschnittRAG reicht oftSemantische Suche findet den passenden Kontext mit überschaubarer Modellierung.

Quelle, Version, Sprache oder Berechtigung entscheiden über GültigkeitRAG plus starke FilterMetadaten begrenzen den Suchraum auf gültige und passende Chunks.

Antwort entsteht über mehrere Dokumente, Entitäten oder AbhängigkeitenHybrid Retrieval oder GraphRAG prüfenBeziehungskontext wird selbst Teil der Antwort und braucht ein eigenes Retrieval-Signal.

Fragen verlangen konsistente Metriken, Regeln oder erlaubte AktionenSemantic Layer ergänzenEin Semantic Layer definiert die gültige fachliche Interpretation hinter den gefundenen Texten.

Praxisentscheidung

RAG steht und fällt mit Retrieval-Qualität

In einem Projekt entsteht Antwortqualität aus dem Zusammenspiel von LLM, Dokumentaufbereitung, sinnvollen Chunkgrößen, robusten Metadaten, Reranking und einer kleinen Sammlung echter Testfragen. Wenn mehrere Retrieval-Signale kombiniert werden müssen, ist der nächste naheliegende Schritt.

Nächste Schritte

Nächstes Konzept: Vektorindex Architektur Vector-only RAG Hybrid Retrieval Im Lernpfad vertiefen

RAG als Basismuster für dokumentenbasiertes Fragen

Die Grundidee

Wie die Pipeline funktioniert

Dokumente vorbereiten

Embeddings erzeugen

Ähnliche Chunks suchen

Antwort mit Kontext generieren

Wichtige Begriffe

Embedding

Vektorindex

Retriever

Chunk

Similarity Edge

Chunking-Strategien

Feste Länge

Semantisches Chunking

Parent/Child-Chunks

Overlap

Retrieval steuern

Metadatenfilter

Top-k

Reranking

Mini-Pipeline

Dokument

Chunks

Embedding

Trefferliste

Antwortkontext

Wofür es stark ist

Wo die Grenze liegt

Retrieval-Qualität messen

Recall@k

Precision

MRR

Golden Questions

Typische Fehlerbilder

Ähnlich, aber fachlich falsch

Richtiger Abschnitt, falscher Ausschnitt

Veraltete Quelle

Zu viel Kontext

Drei Beispiel-Fragen

Was sagt unser Onboarding-Handbuch zur ersten Projektwoche?

Welche Support-Artikel passen zu dieser Fehlermeldung?

Fasse die wichtigsten Aussagen aus unseren Produktnotizen zur Migration zusammen.

Wann reicht RAG?

RAG steht und fällt mit Retrieval-Qualität

RAG als Basismuster für dokumentenbasiertes Fragen

Die Grundidee

Wie die Pipeline funktioniert

Dokumente vorbereiten

Embeddings erzeugen

Ähnliche Chunks suchen

Antwort mit Kontext generieren

Wichtige Begriffe

Embedding

Vektorindex

Retriever

Chunk

Similarity Edge

Chunking-Strategien

Feste Länge

Semantisches Chunking

Parent/Child-Chunks

Overlap

Retrieval steuern

Metadatenfilter

Top-k

Reranking

Mini-Pipeline

Dokument

Chunks

Embedding

Trefferliste

Antwortkontext

Wofür es stark ist

Wo die Grenze liegt

Retrieval-Qualität messen

Recall@k

Precision

MRR