Graph-Typ · Korpus und Quellen

Dokument-Graph

Ein Dokument-Graph erschließt Texte als Netz aus Dokumenten, Chunks, Erwähnungen, Claims, Quellen, Themen und Communities.

Zweck

Struktur

Use Cases

Tools

Was steht in diesen Quellen, und welche Textstellen, Claims oder Themen helfen bei meiner Frage?

Rolle im Compass

Er erklärt viele GraphRAG-Pipelines: Der Graph entsteht aus Dokumenten und dient primär als Retrieval- und Analyseindex. Die einfachste Form ist ein Lexical Graph aus Dokumenten, Chunks, Sequenzen und Chunk-zu-Dokument-Beziehungen.

Er macht große Textkorpora navigierbar, zitierbar und für lokale sowie globale Suchfragen nutzbar.

Typische Knoten

SourceDocument
Chunk
TextUnit
EntityMention
Claim
Community
Summary
Citation

Typische Kanten

contains
next
similar-to
mentions
supports
co-occurs-with
belongs-to-community
summarizes

Quellen

PDFs
Webseiten
E-Mails
Reports
Tickets
Verträge
Transkripte

Zeitverhalten

Meist über Indexläufe aktualisiert. Änderungen an Quellen brauchen Re-Indexing, Deduplikation und Provenance.

Stärken

Schneller Einstieg, weil vorhandene Dokumente genutzt werden können.
Gut für Quellenbelege, Überblicksfragen und Korpusnavigation.
Lexical Graph, Similarity Edges, Community- und Claim-Strukturen helfen bei großen Dokumentmengen.

Grenzen

Extrahierte Beziehungen sind Kandidaten, keine geprüfte Fachwahrheit.
Entity Resolution und Dubletten werden schnell teuer.
Der Graph kann viel Rauschen enthalten, wenn Extraktion und Ranking schwach sind.

Beispiele

Research-Korpus

Papers, Reports und Notizen werden in Themencluster und Claims zerlegt, um Forschungsfragen über mehrere Quellen zu beantworten.

Vertragsarchiv

Verträge werden in Klauseln, Parteien, Fristen und Belege zerlegt, damit relevante Stellen schneller auffindbar sind.

Retrieval

Wie dieser Graph abgefragt wird

Retrieval kombiniert Textähnlichkeit, Chunk-Nachbarschaft, Entitätserwähnungen, Communities, Claims und Quellenzitate.

Use Cases

Korpus-Überblick und Themencluster
Quellenbasierte Q&A
Literatur- und Reportanalyse
Vorstufe für geprüfte Domänen-Graphen

Qualitätssignale

Antworten verweisen sauber auf Quellenstellen.
Extrahierte Entitäten werden über Dokumente hinweg zusammengeführt.
Global- und Local-Search-Fragen verbessern sich gegenüber Vector-only.

Typische Fehler

Der Graph wird mit fachlicher Wahrheit verwechselt.
Chunks, Mentions und Entities werden ohne klare Provenance vermischt.
Communities liefern schöne Zusammenfassungen, aber keine belastbaren Antworten.

Weaviate / Qdrant / Pinecone

Vektorindexe als häufige Ergänzung für hybride Dokumentretrievals.

Pragmatischer Einstieg

Wie man klein beginnt

Mit 20 bis 50 repräsentativen Dokumenten, echten Testfragen und einer RAG-Baseline starten.

Andere Graph-Typen

Wissensgraph Domänen-Graph Conversational Graph Dynamischer Graph

Dokument-Graph

Rolle im Compass

Typische Knoten

Typische Kanten

Quellen

Zeitverhalten

Stärken

Grenzen

Beispiele

Research-Korpus

Vertragsarchiv

Wie dieser Graph abgefragt wird

Use Cases

Qualitätssignale

Typische Fehler

Tools und Plattformen

Microsoft GraphRAG

LlamaIndex

Neo4j LLM Knowledge Graph Builder

Weaviate / Qdrant / Pinecone

Wie man klein beginnt

Verwandte Compass-Seiten

Andere Graph-Typen

Dokument-Graph

Rolle im Compass

Typische Knoten

Typische Kanten

Quellen

Zeitverhalten

Stärken

Grenzen

Beispiele

Research-Korpus

Vertragsarchiv

Wie dieser Graph abgefragt wird

Use Cases

Qualitätssignale

Typische Fehler

Tools und Plattformen

Microsoft GraphRAG

LlamaIndex

Neo4j LLM Knowledge Graph Builder

Weaviate / Qdrant / Pinecone

Wie man klein beginnt

Verwandte Compass-Seiten

Andere Graph-Typen