Abschnitts-Chunking
Dokumente haben klare Überschriften, Kapitel oder FAQ-Fragen.
Der Chunk folgt der natürlichen Dokumentstruktur. Das ist oft besser als starre Tokenlängen.
Praxis · Daten vorbereiten
Chunking und Document Processing machen aus PDFs, Webseiten, Tabellen und Wikis suchbare, zitierbare Wissenseinheiten.
Wie werden Dokumente so vorbereitet, dass Retrieval stabil wird?
Viele RAG-Probleme entstehen vor dem Retrieval: Tabellen gehen verloren, Überschriften werden getrennt, Versionen fehlen oder Chunks schneiden genau an der falschen Stelle.
Die wichtigsten Prinzipien dieses Themas auf einen Blick.
Dokumentstruktur erhalten: Überschriften, Tabellen, Listen, Fußnoten und Anhänge haben semantische Bedeutung.
Chunkgröße ist eine Produktentscheidung: Der Chunk muss auffindbar sein und genug Bedeutung für die Antwort tragen.
Parent/Child-Chunks verbinden präzise Suche mit genügend Kontext.
Metadaten wie Quelle, Datum, Version, Sprache, Abschnitt und Berechtigung gehören zum Vektorindex- und Retrieval-Design.
Diese Fragen machen das Thema praktisch prüfbar. Hak sie ab – sie eignen sich als Einstieg für Workshops, Pilotvorhaben oder Architekturreviews.
Chunking bedeutet nicht einfach: Text in gleich große Stücke schneiden. Für RAG ist ein Chunk die kleinste sinnvolle Wissenseinheit, die gefunden, zitiert und in eine Antwort eingebaut werden kann. Document Processing ist die Vorarbeit dafür: Dokumente werden so gelesen, bereinigt, strukturiert und mit Metadaten versehen, dass Retrieval später nicht gegen kaputte Textfragmente arbeitet.
Eine stabile RAG-Pipeline entsteht meistens in diesen Schritten. Jeder Schritt kann Retrievalqualität verbessern oder beschädigen.
Dokument laden: PDF, HTML, Markdown, Office-Datei, Ticket oder Wiki-Seite.
Struktur erkennen: Titel, Überschriften, Tabellen, Listen, Seiten, Anhänge und Fußnoten.
Text bereinigen: Navigation, doppelte Header, kaputte Zeilenumbrüche und irrelevante Boilerplate entfernen.
Chunks schneiden: entlang semantischer Grenzen und mit passender Länge.
Metadaten ergänzen: Quelle, Version, Datum, Berechtigung, Dokumenttyp und Abschnitt.
Qualität prüfen: echte Fragen gegen erwartete Quellen testen.
Es gibt nicht die eine perfekte Chunkgröße. Gute Verarbeitung orientiert sich an Dokumenttyp, Frageform und späterem Antwortformat.
Dokumente haben klare Überschriften, Kapitel oder FAQ-Fragen.
Der Chunk folgt der natürlichen Dokumentstruktur. Das ist oft besser als starre Tokenlängen.
Kleine Textstücke lassen sich gut finden, brauchen aber mehr Umfeld für die Antwort.
Gesucht wird im kleinen Child-Chunk, geantwortet wird mit dem größeren Parent-Abschnitt.
PDFs enthalten Tabellen, Spalten, Fußnoten oder Werte, die beim normalen Textauszug zerfallen.
Tabellen brauchen eigene Extraktion und Metadaten, sonst findet Retrieval zwar Text, aber nicht die Bedeutung.
Version, Datum, Dokumenttyp, Abteilung oder Berechtigung entscheiden, ob ein Treffer überhaupt zählen darf.
Gute Metadaten verhindern, dass semantisch ähnliche, aber fachlich falsche Quellen in den Kontext kommen.
Diese Beispiele zeigen, warum Chunking eine fachliche und technische Parameter.
Schlecht
Alle 1.000 Zeichen schneiden. Dadurch landet die Überschrift in einem Chunk und die Ausnahme im nächsten.
Besser
Nach Überschriften und Unterabschnitten schneiden. Ausnahme, Regel und Quelle bleiben zusammen.
Schlecht
Klauseln, Anhänge und Definitionen als flachen Text behandeln.
Besser
Klauselnummer, Abschnitt, Vertragspartner, Version und Gültigkeitsdatum als Metadaten speichern.
Schlecht
Codeblöcke, Warnhinweise und Tabellen in denselben Fließtext pressen.
Besser
Code, Warnungen und Tabellen separat extrahieren und mit Überschrift und Produktversion verbinden.
Metadaten sind nicht Beiwerk. Sie entscheiden, welche Treffer überhaupt zulässig sind und welche Quellen in einer Antwort genannt werden können.
Viele Retrieval-Probleme sehen wie Modellprobleme aus, entstehen aber in Wahrheit beim Dokumentimport.