Phase 4 · Operational Step 5 von 9

Kosten, Latenz und Skalierung einplanen

Jede Frageklasse bekommt eine passende Route mit begründeter Antwortzeit, Kostenwirkung und Qualitätsziel.

Was du mitnimmst

GraphRAG-Betrieb braucht Qualitätsgewinn pro zusätzlichem Kosten- und Latenzschritt.

Betriebsziel

Welche Betriebsfähigkeit du herstellst

Du definierst Betriebsgrenzen für Antwortzeit, Traversal-Tiefe, Reranking, Caching und Modellnutzung.

Input

Ausgangsartefakt aus Entwerfen

Aus Entwerfen kommt die Query-Orchestration. Absichern ergänzt Betriebsgrenzen: Welche Route passt zu welcher Frage, wie tief darf der Graph durchsucht werden, wann wird Reranking genutzt und welche Antwortzeit bleibt akzeptabel?

Prinzip

Betriebsprinzip

Kosten folgen Suchweg, Datenmenge, Modellnutzung und Wiederverwendung.

Das Prinzip lautet: Jede Frageklasse bekommt den passenden Weg. Quellenfragen bleiben schlank. Beziehungspfad-Fragen dürfen Graphkontext nutzen. Uneindeutige Treffer bekommen Reranking. Wiederkehrende Quellen und stabile Pfade werden gecacht. Dadurch wird GraphRAG gezielt dort aufwendiger, wo der zusätzliche Schritt eine bessere Antwort ermöglicht.

Die Betriebsgrenze ist ein Entscheidungsrahmen. Sie sagt vor dem Lauf, wie viel Tiefe, Kontext und Modellarbeit für eine Frageklasse angemessen sind. Wenn ein teurerer Weg wenig Qualitätsgewinn liefert, wird die Route kleiner geschnitten. Wenn der Graphpfad die Antwort nachvollziehbar macht, darf die Route mehr kosten.

Operational Artefact

Betriebsartefakt

Route	Einsatz	Kostentreiber	Grenze
Vector Search	direkte Quellenfrage	Embedding-Suche, Kontextgröße	kleine Kontextpakete
Graph Traversal	Beziehungspfad-Frage	Traversal-Tiefe, Evidence Check	maximal 3 Hops
Reranking	uneindeutige Treffer	zusätzlicher Modell- oder Rankinglauf	nur bei kritischen Fragen
Answer Compose	finale Antwort	Token und Promptgröße	Quellen- und Pfadpflicht

Das Artefakt hilft dem Team, Kosten konkret zu diskutieren. Jede Route bekommt einen Einsatzgrund, einen Kostentreiber und eine Grenze. So lässt sich später erklären, warum eine direkte Quellenfrage schnell bleibt und warum eine Beziehungspfad-Frage mehr Zeit bekommen darf.

Control

Kontrollfrage

Diese Frage muss beantwortbar sein

Verbessert der aufwendigere Suchweg die Qualität der relevanten Frageklasse sichtbar genug?

Risk

Betriebsrisiko

Worauf du achten musst

Ein einheitlicher Suchweg wird für alle Fragen genutzt. Dann verbrauchen einfache Quellenfragen zu viel Aufwand, während Beziehungspfad-Fragen nicht genug Kontext bekommen.

Prüfen

Woran du es erkennst

Prüfpunkt

Kosten und Latenz sind kontrolliert, wenn jede Route eine Begründung, ein Budget und ein Qualitätsziel hat.

Üben

Mini-Aufgabe

Lege für die Frage "Was steht in Richtlinie A Abschnitt 4.2?" und die Frage "Welche Teams sind von CRM betroffen?" je eine passende Route und Grenze fest.

Musterlösung

Die erste Frage läuft über Metadatenfilter oder Vector Search mit kleinem Kontextpaket. Die zweite Frage nutzt Entity Linking, Graph Traversal bis drei Hops, Evidence Check und danach Answer Compose mit Quellen- und Pfadpflicht.

Reflektieren

Prüffragen

1.Welche Schritte treiben Kosten und Latenz?

Traversal-Tiefe, Reranking, Kontextgröße, Modellaufrufe und die Embedding-Suche.

2.Warum brauchen unterschiedliche Fragen unterschiedliche Routen?

Quellenfragen, Beziehungspfad-Fragen und uneindeutige Treffer brauchen unterschiedlich viel Kontext. Die Route soll zum erwarteten Qualitätsgewinn passen.

3.Wann ist ein teurerer Suchweg gerechtfertigt?

Wenn er die Qualität der relevanten Frageklasse sichtbar verbessert.

Kernaussage

GraphRAG-Betrieb braucht Qualitätsgewinn pro zusätzlichem Kosten- und Latenzschritt.

Vorheriger Step Nächster Step

Phase 4 · Operational Step 5 von 9

Kosten, Latenz und Skalierung einplanen

Jede Frageklasse bekommt eine passende Route mit begründeter Antwortzeit, Kostenwirkung und Qualitätsziel.

Was du mitnimmst

GraphRAG-Betrieb braucht Qualitätsgewinn pro zusätzlichem Kosten- und Latenzschritt.

Betriebsziel

Welche Betriebsfähigkeit du herstellst

Du definierst Betriebsgrenzen für Antwortzeit, Traversal-Tiefe, Reranking, Caching und Modellnutzung.

Input

Ausgangsartefakt aus Entwerfen

Prinzip

Betriebsprinzip

Kosten folgen Suchweg, Datenmenge, Modellnutzung und Wiederverwendung.

Operational Artefact

Betriebsartefakt

Route	Einsatz	Kostentreiber	Grenze
Vector Search	direkte Quellenfrage	Embedding-Suche, Kontextgröße	kleine Kontextpakete
Graph Traversal	Beziehungspfad-Frage	Traversal-Tiefe, Evidence Check	maximal 3 Hops
Reranking	uneindeutige Treffer	zusätzlicher Modell- oder Rankinglauf	nur bei kritischen Fragen
Answer Compose	finale Antwort	Token und Promptgröße	Quellen- und Pfadpflicht

Control

Kontrollfrage

Diese Frage muss beantwortbar sein

Verbessert der aufwendigere Suchweg die Qualität der relevanten Frageklasse sichtbar genug?

Risk

Betriebsrisiko

Worauf du achten musst

Ein einheitlicher Suchweg wird für alle Fragen genutzt. Dann verbrauchen einfache Quellenfragen zu viel Aufwand, während Beziehungspfad-Fragen nicht genug Kontext bekommen.

Prüfen

Woran du es erkennst

Prüfpunkt

Kosten und Latenz sind kontrolliert, wenn jede Route eine Begründung, ein Budget und ein Qualitätsziel hat.

Üben

Mini-Aufgabe

Lege für die Frage "Was steht in Richtlinie A Abschnitt 4.2?" und die Frage "Welche Teams sind von CRM betroffen?" je eine passende Route und Grenze fest.

Musterlösung

Reflektieren

Prüffragen

1.Welche Schritte treiben Kosten und Latenz?

Traversal-Tiefe, Reranking, Kontextgröße, Modellaufrufe und die Embedding-Suche.

2.Warum brauchen unterschiedliche Fragen unterschiedliche Routen?

Quellenfragen, Beziehungspfad-Fragen und uneindeutige Treffer brauchen unterschiedlich viel Kontext. Die Route soll zum erwarteten Qualitätsgewinn passen.

3.Wann ist ein teurerer Suchweg gerechtfertigt?

Wenn er die Qualität der relevanten Frageklasse sichtbar verbessert.

Kernaussage

GraphRAG-Betrieb braucht Qualitätsgewinn pro zusätzlichem Kosten- und Latenzschritt.

Vorheriger Step Nächster Step