Phase 2 · Praxis-Step 3 von 9

Anforderungen an Chunks klären

Abschnitte, Tabellen, Überschriften, Versionen und Metadaten als nutzbaren Antwortkontext erhalten.

Was du mitnimmst

Chunking ist Parametrisierung plus Qualitätsprüfung.

Praxisziel

Was du praktisch entscheidest

Du erkennst, woran ein schwacher oder guter Chunk sichtbar wird, und kannst daraus Anforderungen für Chunking-Parameter und Metadaten ableiten.

Szenario

Ausgangslage im Mini-Use-Case

Richtlinie A enthält einen Abschnitt zu kritischen Kundensystemen. Direkt darunter steht eine Tabelle mit Prüfintervallen. Der brauchbare Chunk hält Überschrift, Regeltext und Tabelle gemeinsam auffindbar.

Ein RAG-System gibt dem LLM genau die Chunks, die im Kontextpaket landen. Die entscheidende Tabellenzeile muss deshalb im Chunk selbst oder über einen verlässlichen Parent-Child-Kontext sichtbar sein.

Bei GraphRAG kommt noch etwas dazu: Aus Chunks werden später belegte Aussagen, Entitäten und Beziehungen extrahiert. Ein sauberer Chunk verbessert deshalb Antwortqualität und Graphqualität.

Heuristik

Arbeitsprinzip

Ein Chunk soll eine beantwortbare Sinneinheit sein. Er braucht genug Struktur, damit Quelle, Abschnitt, Version und fachlicher Kontext erhalten bleiben.

Die Chunk-Grenze sollte fachlich Sinn ergeben. Überschrift, Regeltext und zugehörige Tabelle gehören zusammen, wenn sie gemeinsam eine Pflicht definieren. Große Chunks bleiben fokussiert, wenn sie eine klare Antwortaufgabe tragen.

In der Umsetzung übernehmen Libraries und Ingestion-Tools das technische Splitten, zum Beispiel über Parser, Textsplitter oder GraphRAG-/Neo4j-nahe Importwerkzeuge. Deine Aufgabe ist die Parametrisierung und Qualitätsprüfung: Chunkgröße, Overlap, Tabellenbehandlung, Metadaten, Berechtigungen und die Frage, ob die erzeugten Chunks die spätere Antwort tragen.

Greifbar machen

Praxisartefakt

Das Beispiel zeigt, woran ein Chunk als Antwortkontext taugt. Entscheidend ist die fachliche Einheit: Überschrift, Regeltext, Tabelle, Quelle und Metadaten bleiben zusammen nutzbar.

chunk-requirements.jsonjson

{
  "chunk_id": "chunk-policy-a-4-2-critical-systems",
  "source_id": "policy-a",
  "section_id": "4.2",
  "title": "Prüfpflichten kritischer Kundensysteme",
  "text": "Kritische Kundensysteme müssen jährlich geprüft werden.",
  "attached_context": {
    "table": "Systemklasse: kritisches Kundensystem · Prüfintervall: jährlich · Verantwortlich: Customer Core",
    "heading": "Kritische Kundensysteme"
  },
  "metadata": {
    "version": "2026-04",
    "permission_scope": "internal",
    "source_owner": "Compliance",
    "document_type": "policy"
  },
  "quality_rule": "Überschrift, Regeltext und zugehörige Tabelle bleiben gemeinsam auffindbar."
}

Schlüssel kurz erklärt

chunk_id identifiziert den Textabschnitt.
source_id und section_id zeigen die Herkunft.
text ist der eigentliche Antwortkontext.
attached_context hält Tabellen, Überschriften oder Parent-Kontext zusammen.
metadata enthält Filter- und Belegfelder.
quality_rule beschreibt, woran der erzeugte Chunk geprüft wird.

Achten auf

Typischer Qualitätsfehler

Worauf du achten musst

Überschriften, Tabellen und Fußnoten werden von ihrem Kontext getrennt. Dadurch wirkt die Antwort später unvollständig, obwohl die Quelle eigentlich vorhanden war.

Ein zweiter Fehler ist Metadatenarmut. Der Text ist zwar da, aber Abschnitt, Version, Sprache, Dokumenttyp oder Berechtigung fehlen. Dann fehlen dem System wichtige Filter-, Beleg- und Sicherheitsinformationen.

Prüfen

Woran du es erkennst

Signal

Die richtige Quelle erscheint in den Treffern, und der gefundene Chunk braucht zusätzlichen Kontext, um die Frage zu beantworten.

Ein weiteres Signal: Top-k wird immer weiter erhöht, damit "irgendwo" der fehlende Kontext dabei ist. Das kann kurzfristig helfen und verdeckt oft ein Chunking-Problem.

Üben

Mini-Aufgabe

Nimm den Abschnitt "kritische Kundensysteme müssen jährlich geprüft werden" und notiere, welche Metadaten das Chunking-Tool mitführen soll. Ergänze außerdem eine Qualitätsregel, an der du die erzeugten Chunks prüfen würdest.

Musterlösung

Metadatenfelder

source_id, section_id, version, valid_from, permission_scope, source_owner und document_type.

Wichtig im Mini-Use-Case

section_id, version und permission_scope, weil sie Belegbarkeit und Sichtbarkeit beeinflussen.

Qualitätsregel

Überschrift, Regeltext und zugehörige Tabelle müssen im selben Kontext erhalten bleiben oder über Parent-Child-Kontext wieder zusammengeführt werden.

Guter Chunk

Ein guter Chunk enthält Text und eine kleine Kontextkarte. Wenn später eine Antwort sagt "CRM muss jährlich geprüft werden", kann sie auf Richtlinie A, Abschnitt 4.2, Version 2026-04 und den internen Sichtbarkeitsbereich verweisen.

Reflektieren

Selbsttest

1.Warum können Chunk-Grenzen mitten in einer Tabelle oder Überschrift die Retrieval-Qualität zerstören?

Dann enthält der Treffer nur einen Teil der Antwort. Das LLM sieht zum Beispiel den Regeltext, während die zugehörige Tabellenzeile im Kontextpaket fehlt.

2.Welche Metadatenfelder sind für GraphRAG besonders wichtig?

Wichtig sind Quelle, Abschnitt, Version, Gültigkeit, Berechtigung und Besitzer. Sie machen eine Antwort belegbar, filterbar und später kontrollierbar.

3.Was unterscheidet einen guten Chunk für RAG von einem guten Chunk für Graphaufbau?

Für RAG muss der Chunk eine Frage beantworten können. Für Graphaufbau muss er zusätzlich genug Struktur enthalten, damit belegte Aussagen, Entitäten und Beziehungen sauber extrahiert werden können.

Kernaussage

Chunking ist Parametrisierung plus Qualitätsprüfung.

Vorheriger Step Nächster Step

Phase 2 · Praxis-Step 3 von 9

Anforderungen an Chunks klären

Abschnitte, Tabellen, Überschriften, Versionen und Metadaten als nutzbaren Antwortkontext erhalten.

Was du mitnimmst

Chunking ist Parametrisierung plus Qualitätsprüfung.

Praxisziel

Was du praktisch entscheidest

Du erkennst, woran ein schwacher oder guter Chunk sichtbar wird, und kannst daraus Anforderungen für Chunking-Parameter und Metadaten ableiten.

Szenario

Ausgangslage im Mini-Use-Case

Bei GraphRAG kommt noch etwas dazu: Aus Chunks werden später belegte Aussagen, Entitäten und Beziehungen extrahiert. Ein sauberer Chunk verbessert deshalb Antwortqualität und Graphqualität.

Heuristik

Arbeitsprinzip

Ein Chunk soll eine beantwortbare Sinneinheit sein. Er braucht genug Struktur, damit Quelle, Abschnitt, Version und fachlicher Kontext erhalten bleiben.

Greifbar machen

Praxisartefakt

Das Beispiel zeigt, woran ein Chunk als Antwortkontext taugt. Entscheidend ist die fachliche Einheit: Überschrift, Regeltext, Tabelle, Quelle und Metadaten bleiben zusammen nutzbar.

chunk-requirements.jsonjson

{
  "chunk_id": "chunk-policy-a-4-2-critical-systems",
  "source_id": "policy-a",
  "section_id": "4.2",
  "title": "Prüfpflichten kritischer Kundensysteme",
  "text": "Kritische Kundensysteme müssen jährlich geprüft werden.",
  "attached_context": {
    "table": "Systemklasse: kritisches Kundensystem · Prüfintervall: jährlich · Verantwortlich: Customer Core",
    "heading": "Kritische Kundensysteme"
  },
  "metadata": {
    "version": "2026-04",
    "permission_scope": "internal",
    "source_owner": "Compliance",
    "document_type": "policy"
  },
  "quality_rule": "Überschrift, Regeltext und zugehörige Tabelle bleiben gemeinsam auffindbar."
}

Schlüssel kurz erklärt

chunk_id identifiziert den Textabschnitt.
source_id und section_id zeigen die Herkunft.
text ist der eigentliche Antwortkontext.
attached_context hält Tabellen, Überschriften oder Parent-Kontext zusammen.
metadata enthält Filter- und Belegfelder.
quality_rule beschreibt, woran der erzeugte Chunk geprüft wird.

Achten auf

Typischer Qualitätsfehler

Worauf du achten musst

Überschriften, Tabellen und Fußnoten werden von ihrem Kontext getrennt. Dadurch wirkt die Antwort später unvollständig, obwohl die Quelle eigentlich vorhanden war.

Prüfen

Woran du es erkennst

Signal

Die richtige Quelle erscheint in den Treffern, und der gefundene Chunk braucht zusätzlichen Kontext, um die Frage zu beantworten.

Ein weiteres Signal: Top-k wird immer weiter erhöht, damit "irgendwo" der fehlende Kontext dabei ist. Das kann kurzfristig helfen und verdeckt oft ein Chunking-Problem.

Üben

Mini-Aufgabe

Musterlösung

Metadatenfelder

source_id, section_id, version, valid_from, permission_scope, source_owner und document_type.

Wichtig im Mini-Use-Case

section_id, version und permission_scope, weil sie Belegbarkeit und Sichtbarkeit beeinflussen.

Qualitätsregel

Überschrift, Regeltext und zugehörige Tabelle müssen im selben Kontext erhalten bleiben oder über Parent-Child-Kontext wieder zusammengeführt werden.

Guter Chunk

Reflektieren

Selbsttest

1.Warum können Chunk-Grenzen mitten in einer Tabelle oder Überschrift die Retrieval-Qualität zerstören?

Dann enthält der Treffer nur einen Teil der Antwort. Das LLM sieht zum Beispiel den Regeltext, während die zugehörige Tabellenzeile im Kontextpaket fehlt.

2.Welche Metadatenfelder sind für GraphRAG besonders wichtig?

Wichtig sind Quelle, Abschnitt, Version, Gültigkeit, Berechtigung und Besitzer. Sie machen eine Antwort belegbar, filterbar und später kontrollierbar.

3.Was unterscheidet einen guten Chunk für RAG von einem guten Chunk für Graphaufbau?

Kernaussage

Chunking ist Parametrisierung plus Qualitätsprüfung.

Vorheriger Step Nächster Step