Deep Dive · Graph Construction

Graph Construction als Weg von Quellen zu belastbarem Kontext

Graph Construction beschreibt, wie aus Dokumenten, Tabellen und Ereignissen ein nutzbarer Knowledge Graph entsteht. Entscheidend sind Extraktion, Validierung, Provenance, Entity Resolution und laufende Pflege.

Extraktion

Entity Resolution

Provenance

Validierung

Kuratierter erster Schnitt · Stand Juni 2026

Die Grundidee

Graph Construction ist die praktische Arbeit, die vor einem guten liegt. Aus Quellen werden konkrete Knoten, Kanten und Eigenschaften. Ein LLM kann dabei helfen, Entitäten und Beziehungen zu erkennen. Fachliche Gültigkeit entsteht durch Regeln, Quellenbezug und Review.

Der wichtigste Perspektivwechsel: Graph Construction ist kein einmaliger Import. Es ist eine Pipeline mit Qualitätsregeln. Quellen ändern sich, Entitäten werden umbenannt, Aussagen veralten und Fehler müssen korrigierbar bleiben.

Von Quelle zu Graph

Die Pipeline als praktische Arbeitsfolge

01
Quelle auswählen
Zuerst wird geklärt, welche Quellen wirklich graphwürdig sind: Verträge, Tickets, Meetingnotizen, Policies, Tabellen oder Systemevents.
02
Parsing und Chunking
Dokumente werden in verarbeitbare Abschnitte zerlegt. Layout, Tabellen, Überschriften und Metadaten müssen erhalten bleiben.
03
Entitäten extrahieren
Das System erkennt Kandidaten für Knoten: Personen, Organisationen, Systeme, Entscheidungen, Risiken, Dokumente oder Ereignisse.
04
Relationen extrahieren
Aus Textstellen werden Beziehungskandidaten: verantwortet, betrifft, enthält, entscheidet, hängt ab von oder verlangt Nachweis.
05
Entity Resolution
Gleiche Entitäten werden zusammengeführt. Aliasse, Schreibweisen und Rollen müssen geprüft werden, sonst fragmentiert der Graph.
06
Validieren
Extraktionen werden gegen Quellen, Stichproben und Testfragen geprüft. Ohne Validierung bleibt der Graph nur plausibel.
07
Graph schreiben
Knoten, Kanten, Eigenschaften, Similarity Edges und Provenance werden in die Graphdatenbank geschrieben, idealerweise nachvollziehbar versioniert.
08
Updates regeln
Neue Dokumente, gelöschte Quellen und geänderte Aussagen brauchen Update- und Korrekturregeln.

Typische Fehlerquellen

Die häufigsten Probleme sehen am Anfang klein aus und werden später teuer: falsche Identitäten, zu generische Beziehungen, fehlende Quellen oder veraltete Aussagen.

Dubletten

Michael Meierhoff, M. Meierhoff und ein E-Mail-Alias werden als drei Personen angelegt.

Falsche Relationen

Ein Dokument erwähnt ein System, aber der Graph interpretiert daraus fälschlich eine technische Abhängigkeit.

Zu feines Schema

Jede sprachliche Nuance wird ein eigener Knotentyp. Der Graph wird präzise wirkend, aber praktisch unbenutzbar.

Zu grobes Schema

Alles wird Dokument, Thema oder Person. Beziehungen verlieren ihre fachliche Bedeutung.

Veraltete Aussagen

Eine alte Entscheidung bleibt im Graph aktiv, obwohl sie durch ein späteres Meeting ersetzt wurde.

Fehlende Provenance

Der Graph weiß etwas, kann aber nicht zeigen, aus welcher Quelle, welchem Abschnitt oder welchem Extraktionslauf es stammt.

Ein Beispiel durch die Pipeline

Das Beispiel zeigt, wie aus einem kurzen Meeting-Text zuerst Kandidaten und dann prüfbare Graph-Aussagen entstehen.

Quelle

Im Steering-Meeting am 12. Mai entscheidet Anna Keller, dass Service Atlas bis Q3 auf System Nova migriert. Ben Meier verantwortet die technische Umsetzung. Risiko: Die alte Reporting-Schnittstelle ist noch nicht freigegeben.

Extrahierte Entitäten

Anna KellerService AtlasQ3System NovaBen MeierReporting-Schnittstelle

Beziehungskandidaten

Anna Keller entscheidet Migration
Service Atlas migriert auf System Nova
Ben Meier verantwortet technische Umsetzung
Reporting-Schnittstelle blockiert Migration

Prüfbare Graph-Aussagen

(Person: Anna Keller) -[:ENTSCHEIDET]-> (Entscheidung: Migration Service Atlas)

(Service: Atlas) -[:MIGRIERT_AUF]-> (System: Nova)

(Person: Ben Meier) -[:VERANTWORTET]-> (Aufgabe: technische Umsetzung)

(Risiko: Reporting-Schnittstelle nicht freigegeben) -[:BETRIFFT]-> (Service: Atlas)

Welche Risiken gefährden die Migration von Service Atlas und wer ist für die Umsetzung verantwortlich?

Pragmatisches Startschema

Ein Startschema muss nicht vollständig sein. Es muss nur genug Struktur geben, damit Extraktion, Review und Abfragen nicht beliebig werden.

TypRolle im GraphTypische Kanten

PersonMenschen mit Rolle oder Verantwortungverantwortet, entscheidet, erwähnt

OrganisationTeams, Kunden, Dienstleister oder interne Einheitenbesitzt, beauftragt, betreibt

DokumentQuelle für Aussagen und Nachweiseerwähnt, belegt, ersetzt

EntscheidungBeschlüsse mit Datum, Kontext und Gültigkeitbetrifft, ersetzt, erzeugt

RisikoUnsicherheiten, Blocker oder Compliance-Themenbetrifft, wird_mitigiert_durch

SystemTechnische Anwendungen, Datenquellen oder Serviceshängt_ab_von, integriert_mit

EventMeetings, Incidents, Releases oder Änderungenerzeugt, verändert, dokumentiert

Qualitätssicherung

Validierung ist Teil der Konstruktion

Ein Graph ist erst wertvoll, wenn Nutzer den Aussagen trauen können. Deshalb gehören Provenance, Stichproben, Confidence, Review und Regressionstests direkt zur Construction-Pipeline.

Jede extrahierte Aussage braucht Provenance: Quelle, Abschnitt, Zeitpunkt und Extraktionslauf.
Stichproben prüfen Knoten, Beziehungstypen und Richtung der Kanten.
Confidence-Werte sind Hinweise, keine Wahrheit. Niedrige Confidence braucht Review oder Ausschluss.
Regressionstests nutzen echte Fragen: Nach einer Schemaänderung müssen bekannte Antworten weiter funktionieren.
Manuelle Korrekturen brauchen Vorrang vor automatischer Re-Extraktion, sonst wiederholt das System alte Fehler.

Human-in-the-loop Review

Review ist ein Lernsignal für die Construction-Pipeline. Gute Stichproben zeigen, wo Schema, Prompts oder Entity Resolution nachgeschärft werden müssen.

Stratifizierte Stichprobe

Gezielt prüfen: neue Quellen, niedrige Confidence, wichtige Beziehungstypen und geschäftskritische Entitäten getrennt samplen.

Kanten zuerst prüfen

Knoten sind oft leichter korrekt zu erkennen als Beziehungstyp und Richtung. Review sollte besonders Kanten bewerten.

Review-Entscheidungen speichern

Akzeptiert, korrigiert, verworfen und unklar sollten als Zustände persistiert werden, damit die Pipeline daraus lernen kann.

Fehlerklassen zurückspielen

Wiederkehrende Fehler werden zu Prompt-, Schema-, Extraktions- oder Ontologie-Anpassungen und fließen in konkrete Korrekturen ein.

Ontologie als Leitplanke

Gute Graph Construction braucht nicht sofort eine große formale . Aber sie braucht eine fachliche Leitplanke: Welche Entitätstypen sind erlaubt? Welche Beziehungen bedeuten wirklich etwas? Welche Aussagen müssen geprüft werden?

Minimalmodell

Ein kleines Schema gibt Extraktion und Review genug Richtung, ohne die Domäne zu überformalisieren.

Erlaubte Beziehungen

Beziehungstypen sollten fachlich benannt und begrenzt sein. Sonst entstehen viele plausible, aber schwer nutzbare Kanten.

Lernende Pflege

Das Modell darf wachsen, aber kontrolliert: neue Typen entstehen aus echten Fragen und wiederkehrenden Fehlern.

Praxisentscheidung

Klein starten, aber Qualität von Anfang an mitbauen

Der beste Einstieg ist ein enger Use Case mit wenigen Dokumenttypen und klaren Beispiel-Fragen. Der Graph muss nicht groß sein. Er muss prüfbar sein: mit Quellenbezug, Korrekturmöglichkeit und einer Messlatte für Antwortqualität.

Nächste Schritte

Nächstes Konzept: Retrieval-Strategien Knowledge Graphs Ontologien & RDF Neo4j GraphRAG Stack

Graph Construction als Weg von Quellen zu belastbarem Kontext

Die Grundidee

Von Quelle zu Graph

Quelle auswählen

Parsing und Chunking

Entitäten extrahieren

Relationen extrahieren

Entity Resolution

Validieren

Graph schreiben

Updates regeln

Typische Fehlerquellen

Dubletten

Falsche Relationen

Zu feines Schema

Zu grobes Schema

Veraltete Aussagen

Fehlende Provenance

Ein Beispiel durch die Pipeline

Quelle

Extrahierte Entitäten

Beziehungskandidaten

Prüfbare Graph-Aussagen

Pragmatisches Startschema

Validierung ist Teil der Konstruktion

Human-in-the-loop Review

Stratifizierte Stichprobe

Kanten zuerst prüfen

Review-Entscheidungen speichern

Fehlerklassen zurückspielen

Ontologie als Leitplanke

Minimalmodell

Erlaubte Beziehungen

Lernende Pflege

Klein starten, aber Qualität von Anfang an mitbauen

Graph Construction als Weg von Quellen zu belastbarem Kontext

Die Grundidee

Von Quelle zu Graph

Quelle auswählen

Parsing und Chunking

Entitäten extrahieren

Relationen extrahieren

Entity Resolution

Validieren

Graph schreiben

Updates regeln

Typische Fehlerquellen

Dubletten

Falsche Relationen

Zu feines Schema

Zu grobes Schema

Veraltete Aussagen

Fehlende Provenance

Ein Beispiel durch die Pipeline

Quelle

Extrahierte Entitäten

Beziehungskandidaten

Prüfbare Graph-Aussagen

Pragmatisches Startschema

Validierung ist Teil der Konstruktion

Human-in-the-loop Review

Stratifizierte Stichprobe

Kanten zuerst prüfen

Review-Entscheidungen speichern

Fehlerklassen zurückspielen

Ontologie als Leitplanke

Minimalmodell

Erlaubte Beziehungen

Lernende Pflege

Klein starten, aber Qualität von Anfang an mitbauen