Typische Knoten
- SourceDocument
- Chunk
- TextUnit
- EntityMention
- Claim
- Community
- Summary
- Citation
Graph-Typ · Korpus und Quellen
Ein Dokument-Graph erschließt Texte als Netz aus Dokumenten, Chunks, Erwähnungen, Claims, Quellen, Themen und Communities.
Was steht in diesen Quellen, und welche Textstellen, Claims oder Themen helfen bei meiner Frage?
Er erklärt viele GraphRAG-Pipelines: Der Graph entsteht aus Dokumenten und dient primär als Retrieval- und Analyseindex. Die einfachste Form ist ein Lexical Graph aus Dokumenten, Chunks, Sequenzen und Chunk-zu-Dokument-Beziehungen.
Er macht große Textkorpora navigierbar, zitierbar und für lokale sowie globale Suchfragen nutzbar.
Meist über Indexläufe aktualisiert. Änderungen an Quellen brauchen Re-Indexing, Deduplikation und Provenance.
Papers, Reports und Notizen werden in Themencluster und Claims zerlegt, um Forschungsfragen über mehrere Quellen zu beantworten.
Verträge werden in Klauseln, Parteien, Fristen und Belege zerlegt, damit relevante Stellen schneller auffindbar sind.
Retrieval
Retrieval kombiniert Textähnlichkeit, Chunk-Nachbarschaft, Entitätserwähnungen, Communities, Claims und Quellenzitate.
Dokumentenorientierte Indexing-Pipeline mit Communities und Global Search.
Framework für Dokumentindexe, Knowledge-Graph-Indexe und Retrieval-Pipelines.
Pragmatischer Einstieg, um aus Dokumenten Graphkandidaten zu erzeugen.
Vektorindexe als häufige Ergänzung für hybride Dokumentretrievals.
Pragmatischer Einstieg
Mit 20 bis 50 repräsentativen Dokumenten, echten Testfragen und einer RAG-Baseline starten.