Phase 2 · Praxis-Step 3 von 9
Abschnitte, Tabellen, Überschriften, Versionen und Metadaten als nutzbaren Antwortkontext erhalten.
Was du mitnimmst
Chunking ist Parametrisierung plus Qualitätsprüfung.

Praxisziel
Du erkennst, woran ein schwacher oder guter Chunk sichtbar wird, und kannst daraus Anforderungen für Chunking-Parameter und Metadaten ableiten.
Szenario
Richtlinie A enthält einen Abschnitt zu kritischen Kundensystemen. Direkt darunter steht eine Tabelle mit Prüfintervallen. Der brauchbare Chunk hält Überschrift, Regeltext und Tabelle gemeinsam auffindbar.
Ein RAG-System gibt dem LLM genau die Chunks, die im Kontextpaket landen. Die entscheidende Tabellenzeile muss deshalb im Chunk selbst oder über einen verlässlichen Parent-Child-Kontext sichtbar sein.
Bei GraphRAG kommt noch etwas dazu: Aus Chunks werden später belegte Aussagen, Entitäten und Beziehungen extrahiert. Ein sauberer Chunk verbessert deshalb Antwortqualität und Graphqualität.
Heuristik
Ein Chunk soll eine beantwortbare Sinneinheit sein. Er braucht genug Struktur, damit Quelle, Abschnitt, Version und fachlicher Kontext erhalten bleiben.
Die Chunk-Grenze sollte fachlich Sinn ergeben. Überschrift, Regeltext und zugehörige Tabelle gehören zusammen, wenn sie gemeinsam eine Pflicht definieren. Große Chunks bleiben fokussiert, wenn sie eine klare Antwortaufgabe tragen.
In der Umsetzung übernehmen Libraries und Ingestion-Tools das technische Splitten, zum Beispiel über Parser, Textsplitter oder GraphRAG-/Neo4j-nahe Importwerkzeuge. Deine Aufgabe ist die Parametrisierung und Qualitätsprüfung: Chunkgröße, Overlap, Tabellenbehandlung, Metadaten, Berechtigungen und die Frage, ob die erzeugten Chunks die spätere Antwort tragen.
Greifbar machen
Das Beispiel zeigt, woran ein Chunk als Antwortkontext taugt. Entscheidend ist die fachliche Einheit: Überschrift, Regeltext, Tabelle, Quelle und Metadaten bleiben zusammen nutzbar.
{
"chunk_id": "chunk-policy-a-4-2-critical-systems",
"source_id": "policy-a",
"section_id": "4.2",
"title": "Prüfpflichten kritischer Kundensysteme",
"text": "Kritische Kundensysteme müssen jährlich geprüft werden.",
"attached_context": {
"table": "Systemklasse: kritisches Kundensystem · Prüfintervall: jährlich · Verantwortlich: Customer Core",
"heading": "Kritische Kundensysteme"
},
"metadata": {
"version": "2026-04",
"permission_scope": "internal",
"source_owner": "Compliance",
"document_type": "policy"
},
"quality_rule": "Überschrift, Regeltext und zugehörige Tabelle bleiben gemeinsam auffindbar."
}Schlüssel kurz erklärt
chunk_id identifiziert den Textabschnitt.source_id und section_id zeigen die Herkunft.text ist der eigentliche Antwortkontext.attached_context hält Tabellen, Überschriften oder Parent-Kontext zusammen.metadata enthält Filter- und Belegfelder.quality_rule beschreibt, woran der erzeugte Chunk geprüft wird.Achten auf
Worauf du achten musst
Überschriften, Tabellen und Fußnoten werden von ihrem Kontext getrennt. Dadurch wirkt die Antwort später unvollständig, obwohl die Quelle eigentlich vorhanden war.
Ein zweiter Fehler ist Metadatenarmut. Der Text ist zwar da, aber Abschnitt, Version, Sprache, Dokumenttyp oder Berechtigung fehlen. Dann fehlen dem System wichtige Filter-, Beleg- und Sicherheitsinformationen.
Prüfen
Signal
Die richtige Quelle erscheint in den Treffern, und der gefundene Chunk braucht zusätzlichen Kontext, um die Frage zu beantworten.
Ein weiteres Signal: Top-k wird immer weiter erhöht, damit "irgendwo" der fehlende Kontext dabei ist. Das kann kurzfristig helfen und verdeckt oft ein Chunking-Problem.
Üben
Nimm den Abschnitt "kritische Kundensysteme müssen jährlich geprüft werden" und notiere, welche Metadaten das Chunking-Tool mitführen soll. Ergänze außerdem eine Qualitätsregel, an der du die erzeugten Chunks prüfen würdest.
source_id, section_id, version, valid_from, permission_scope, source_owner und document_type.
section_id, version und permission_scope, weil sie Belegbarkeit und Sichtbarkeit beeinflussen.
Überschrift, Regeltext und zugehörige Tabelle müssen im selben Kontext erhalten bleiben oder über Parent-Child-Kontext wieder zusammengeführt werden.
Ein guter Chunk enthält Text und eine kleine Kontextkarte. Wenn später eine Antwort sagt "CRM muss jährlich geprüft werden", kann sie auf Richtlinie A, Abschnitt 4.2, Version 2026-04 und den internen Sichtbarkeitsbereich verweisen.
Reflektieren
Dann enthält der Treffer nur einen Teil der Antwort. Das LLM sieht zum Beispiel den Regeltext, während die zugehörige Tabellenzeile im Kontextpaket fehlt.
Wichtig sind Quelle, Abschnitt, Version, Gültigkeit, Berechtigung und Besitzer. Sie machen eine Antwort belegbar, filterbar und später kontrollierbar.
Für RAG muss der Chunk eine Frage beantworten können. Für Graphaufbau muss er zusätzlich genug Struktur enthalten, damit belegte Aussagen, Entitäten und Beziehungen sauber extrahiert werden können.
Kernaussage
Chunking ist Parametrisierung plus Qualitätsprüfung.