{
  "title": "Context Engineering: Warum Prompt Engineering nie ausgereicht hat",
  "excerpt": "Bis 2026 ist die eigentliche Aufgabe in modernen KI-Systemen nicht, einen cleveren Prompt zu schreiben. Es geht darum zu entscheiden, was das Modell sieht, wann es das sieht und wie dieser Kontext strukturiert, persistiert und in dauerhaftes Gedächtnis verwandelt wird.",
  "content_html": "<p>Eine Zeit lang war „Prompt Engineering“ der Name, den wir der Kunst gaben, gute Ergebnisse aus großen Sprachmodellen herauszuholen. Das machte Sinn in den frühen Tagen. Die meisten Menschen nutzten Einzelinteraktionen, und der Haupthebel fühlte sich tatsächlich wie die Formulierung an: klarer fragen, ein Beispiel hinzufügen, das Format einschränken – und das Modell verhielt sich besser.</p>\n<p>Dieser Rahmen ist nun zu klein für das wirkliche Problem.</p>\n<p>Wenn ein KI-System im Produktivbetrieb versagt, liegt das Problem meist nicht darin, dass das Modell einen weiteren cleveren Satz im System-Prompt gebraucht hätte. Das Problem ist, dass das Modell nicht die richtigen Informationen gesehen hat, zu viele irrelevante Informationen gesehen hat, die richtigen Informationen in der falschen Form gesehen hat oder den richtigen Zustand nicht von einem Schritt zum nächsten übertragen konnte. Mit anderen Worten: Das Problem war nicht nur der Prompt. Das Problem war die <strong>gesamte Kontext-Pipeline</strong>.</p>\n<p>Deshalb hat sich der Begriff <strong>Context Engineering</strong> durchgesetzt. Die Formulierung gelangte Mitte 2025 in den Mainstream der KI-Diskussion, als Tobi Lütke und Andrej Karpathy argumentierten, dass „Prompt Engineering“ die wirkliche Arbeit, die in den Aufbau zuverlässiger LLM-Systeme fließt, herunterspiele.[1] Aber die zugrunde liegende Disziplin ist älter als der Name. Wenn Sie RAG, Tool Calling, Gedächtnissysteme, Zusammenfassungen oder Evaluierungs-Loops gebaut haben, haben Sie bereits Teile von Context Engineering gemacht. Was sich geändert hat, ist, dass wir endlich einen Namen haben, der den gesamten Job beschreibt.</p>\n<h2>Ein einfaches mentales Modell</h2>\n<p>Wenn Sie das einfachstmögliche Bild wollen: Context Engineering ist die Schicht zwischen der Außenwelt und dem Arbeitsgedächtnis des Modells.</p>\n<pre><code class=\"language-mermaid\">flowchart TD\n    U[\"User request\"] --> CE[\"Context engine\"]\n\n    I[\"Instructions and policies\"] --> CE\n    R[\"Retrieved knowledge\"] --> CE\n    M[\"Memory and saved state\"] --> CE\n    T[\"Tool definitions and results\"] --> CE\n    H[\"Recent conversation history\"] --> CE\n\n    CE --> W[\"Model context window\"]\n    W --> L[\"LLM reasons and acts\"]\n    L --> O[\"Answer or tool call\"]\n    O --> S[\"New memory, logs, and state\"]\n    S --> CE\n</code></pre>\n<p>Das ist das ganze Spiel.</p>\n<p>Das Modell ist die Reasoning-Engine. Die Context Engine entscheidet, worüber das Modell nachdenken darf.</p>\n<h2>Der Name ist neu. Der Job nicht.</h2>\n<p>Ein Grund, warum der Begriff Anklang findet, ist, dass er mehrere Fäden zusammenführt, die sich bisher getrennt entwickelt hatten.</p>\n<p>Retrieval-Augmented Generation, oder RAG, lehrte uns, dass Modelle zur Inferenzzeit Zugriff auf externes Wissen brauchen.[2] ReAct lehrte uns, dass Reasoning und Handeln besser funktionieren, wenn Modelle Tools aufrufen, Ergebnisse beobachten und von dort weitermachen können.[3] Gedächtnisforschung lehrte uns, dass langlaufende Assistenten Indexierung, Retrieval und Lesestrategien brauchen, statt endloser Transkript-Akkumulation.[4] Long-Context-Evaluation zeigte, dass einfach mehr Tokens in ein Modell zu stopfen nicht dasselbe ist wie besseres Arbeitsgedächtnis zu geben.[5][6][7]</p>\n<p>So betrachtet, ist Context Engineering kein Ersatz für diese Ideen. Es ist der Schirm über ihnen.</p>\n<p>Dieser Schirm ist wichtig, weil moderne KI-Systeme nicht mehr isolierte Prompts sind. Sie sind dynamische Systeme, die Anweisungen, Dokumente, strukturierte Daten, Tool-Outputs und vorherigen Zustand zu einem temporären Kontextfenster für den nächsten Schritt zusammenbauen. LangChain beschrieb das treffend, als es Context Engineering als die Arbeit definierte, die richtigen Informationen und Tools im richtigen Format bereitzustellen, damit das LLM die Aufgabe plausibel erledigen kann.[8]</p>\n<p>Die Formulierung „plausibel die Aufgabe erledigen“ leistet dort viel Arbeit. Es ist der richtige Test.</p>\n<p>Wenn ein Agent versagt, sollte die erste Frage nicht lauten: „Wie mache ich den Prompt schlauer?“</p>\n<p>Die erste Frage sollte lauten: „Habe ich dem Modell tatsächlich gegeben, was es zum Erfolg braucht?“</p>\n<h2>Warum Prompt Engineering zu klein wurde</h2>\n<p>Prompt Engineering ist nach wie vor wichtig. Es ist nur zu einem Teilbereich einer größeren Disziplin geworden.</p>\n<p>Das alte mentale Modell war:</p>\n<table>\n<thead>\n<tr>\n<th>Prompt Engineering</th>\n<th>Context Engineering</th>\n</tr>\n</thead>\n<tbody>\n<tr>\n<td>Bessere Anweisungen schreiben</td>\n<td>Die volle Informationsumgebung aufbauen</td>\n</tr>\n<tr>\n<td>Fokus auf eine einzelne Anfrage</td>\n<td>Fokus auf Mehrschritt-Systeme</td>\n</tr>\n<tr>\n<td>Größtenteils statisch</td>\n<td>Dynamisch und zustandsbehaftet</td>\n</tr>\n<tr>\n<td>Wortlaut optimieren</td>\n<td>Auswahl, Struktur, Gedächtnis und Tools optimieren</td>\n</tr>\n<tr>\n<td>Einen einzelnen Modellaufruf verbessern</td>\n<td>Den gesamten Loop verbessern</td>\n</tr>\n</tbody>\n</table>\n<p>Dieser Unterschied wird offensichtlich, sobald Sie einen Agenten bauen.</p>\n<p>Angenommen, Sie bauen einen Support-Agenten für Enterprise-Software. Der Nutzer fragt: „Warum laufen unsere API-Requests in Timeouts?“</p>\n<p>Wenn Sie nur in Prompt-Kategorien denken, könnten Sie den Wortlaut verbessern:</p>\n<ul>\n<li>Bitten Sie das Modell, prägnant zu sein</li>\n<li>Bitten Sie es, Beweise zu zitieren</li>\n<li>Bitten Sie es, Schritt für Schritt zu denken</li>\n</ul>\n<p>Das sind gute Verbesserungen. Aber sie reichen nicht.</p>\n<p>Die wirklichen Systemfragen sind schwieriger:</p>\n<ul>\n<li>Hat der Agent Zugriff auf die Incident-Runbooks?</li>\n<li>Kann er die neuesten Logs und Statusseiten sehen?</li>\n<li>Weiß er, zu welchem Kundensegment dieses Konto gehört?</li>\n<li>Erinnert er sich an frühere Wendungen im Gespräch?</li>\n<li>Kann er das Ticketsystem abfragen?</li>\n<li>Kann er veraltete Dokumente von aktuellen unterscheiden?</li>\n<li>Wenn er zu viel Kontext bekommt, was wird gekürzt?</li>\n</ul>\n<p>Das ist Context Engineering.</p>\n<p>Der Prompt ist ein einzelner Posten darin.</p>\n<h2>Was zählt als Kontext</h2>\n<p>In der Praxis umfasst Kontext alles, was das Modell zur Inferenzzeit sieht, nicht nur den sichtbaren Prompt.[8][9]</p>\n<p>Das bedeutet normalerweise:</p>\n<ul>\n<li>Systemanweisungen</li>\n<li>Die aktuelle Nutzeranfrage</li>\n<li>Retrieval-Dokumente</li>\n<li>Strukturierte Daten wie JSON, Tabellen, Schemas und Datensätze</li>\n<li>Tool-Definitionen</li>\n<li>Tool-Outputs</li>\n<li>Jüngste Gesprächshistorie</li>\n<li>Langzeitgedächtnis oder gespeicherte Notizen</li>\n<li>Sicherheits-, Richtlinien- und Formatierungsbeschränkungen</li>\n<li>Umgebungszustand wie Dateien, Tabs, Tickets oder Arbeitsverzeichnisse</li>\n</ul>\n<p>Deshalb ist die Formulierung „das Kontextfenster füllen“ so zentral geworden. Das Kontextfenster ist nicht nur ein Ort, an den Text kommt. Es ist das temporäre Arbeitsgedächtnis des Modells. Alles, was hineingelangt, konkurriert um Aufmerksamkeit.</p>\n<p>Und Konkurrenz ist das Schlüsselwort.</p>\n<p>Jedes zusätzliche Token ist nicht nur zusätzliche Information. Es ist auch zusätzliche Ablenkung.</p>\n<h2>Warum größere Kontextfenster das Problem nicht gelöst haben</h2>\n<p>Einer der häufigsten Irrtümer auf dem aktuellen KI-Markt ist, dass größere Kontextfenster Context Engineering weniger wichtig gemacht hätten.</p>\n<p>Die Forschung zeigt in die entgegengesetzte Richtung.</p>\n<p><em>Lost in the Middle</em> zeigte, dass Modelle lange Kontexte oft ungleichmäßig nutzen, besser abschneiden, wenn relevante Informationen am Anfang oder Ende stehen, und schlechter, wenn wichtige Informationen in der Mitte liegen.[5] Die Long-Context-RAG-Studie von Databricks fand heraus, dass zwar mehr abgerufene Dokumente helfen können, aber nur eine kleine Zahl state-of-the-art-Modelle starke Performance über 64k Tokens hinaus beibehielt.[6] Chromas <em>Context Rot</em>-Bericht ging noch weiter: Selbst einfache Aufgaben werden mit wachsender Eingabelänge weniger zuverlässig, besonders wenn Mehrdeutigkeit und Ablenkungen hinzukommen.[7]</p>\n<p>Dies ist der Teil, den viele Teams auf die harte Tour lernen.</p>\n<p>Größere Fenster beseitigen nicht die Notwendigkeit zu wählen. Sie machen die Kosten schlechter Entscheidungen zunächst weniger offensichtlich und später schmerzhafter.</p>\n<p>Ein langer Prompt kann auf mindestens vier verschiedene Arten scheitern:</p>\n<ol>\n<li><strong>Context Poisoning</strong>: Eine falsche Tatsache, Halluzination oder veraltetes Ergebnis wird weitergetragen.</li>\n<li><strong>Context Distraction</strong>: Zu viele relevant-aber-nicht-kritische Details überwältigen die Kernaufgabe.</li>\n<li><strong>Context Confusion</strong>: Verschiedene Kontextstücke widersprechen sich.</li>\n<li><strong>Context Waste</strong>: Nützliche Tokens sind unter redundantem oder wertlosem Material begraben.</li>\n</ol>\n<p>Deshalb geht es bei Context Engineering nicht darum, Tokens zu maximieren. Es geht darum, die <strong>Signaldichte</strong> im Kontextfenster zu maximieren.</p>\n<h2>Vom Retrieval zur Navigation</h2>\n<p>Hier kommt eine der besten jüngsten Ideen ins Spiel.</p>\n<p>Jason Liu argumentierte, dass der nächste Schritt nach klassischem Chunk-basiertem RAG darin besteht, nicht nur an „die ähnlichsten Passagen“ zu denken, sondern an die <strong>Form des Suchraums</strong>.[10] Sein Rahmen ist besonders nützlich, weil er eine Entwicklung aufzeichnet, durch die viele Teams bereits gehen:</p>\n<ol>\n<li>Minimale Chunks</li>\n<li>Chunks mit Quellmetadaten</li>\n<li>Bessere Handhabung multimodaler und strukturierter Inhalte</li>\n<li>Facets und Query Refinement</li>\n</ol>\n<p>Die ersten drei sind Verbesserungen dessen, was abgerufen wird.</p>\n<p>Die vierte ist interessanter. Sie verbessert, was der Agent <strong>über das Korpus selbst</strong> lernt.</p>\n<p>Facets geben dem Modell so etwas wie periphere Sicht. Statt nur die Top-Chunks zurückzugeben, kann das System auch aggregierte Metadaten zurückgeben:</p>\n<ul>\n<li>Welche Dokumenttypen dominieren das Ergebnisset</li>\n<li>Welche Teams oder Eigentümer erscheinen am häufigsten</li>\n<li>Welche Daten clusteren zusammen</li>\n<li>Welche Kategorien sind vorhanden, aber unterrepräsentiert in den Top-Ergebnissen</li>\n</ul>\n<p>Das ist wichtig, weil Similarity Search darauf verzerrt ist, was am leichtesten zu matchen ist, nicht unbedingt was am wichtigsten zu prüfen ist.[10] Ein Retrieval-System mag gut dokumentierte, gelöste Incidents überrepräsentieren und spärliche, noch offene Incidents unterrepräsentieren. Eine juristische Suche mag unterschriebene Verträge überrepräsentieren und die unsignierten verstecken, die tatsächlich Aufmerksamkeit brauchen. Facets helfen dem Agenten, nicht nur „was gematcht hat“ zu sehen, sondern „was sonst noch in der Nähe existiert“.</p>\n<p>Das ist ein großer konzeptioneller Wandel.</p>\n<p>RAG ging meist um Retrieval.</p>\n<p>Context Engineering geht zunehmend um <strong>Navigation</strong>.</p>\n<h2>Die sechs Aufgaben des Context Engineering</h2>\n<p>Der einfachste Weg, Context Engineering greifbar zu machen, ist es, in die tatsächlichen Jobs aufzuteilen, die es erledigt.</p>\n<h3>1. Selection</h3>\n<p>Die erste Aufgabe ist zu entscheiden, was überhaupt ins Fenster gehört.</p>\n<p>Das umfasst Retrieval, Ranking, Filtering, Quellenwahl und Frische-Checks. Es klingt offensichtlich, aber hier wird noch immer eine enorme Qualität gewonnen oder verloren. Benchmarks wie BRIGHT zeigen, dass realistisches Retrieval viel schwieriger ist als oberflächliches semantisches Matching vermuten lässt.[11] Wenn Ihre Retrieval-Qualität schwach ist, wird keine Menge nachgelagerter Prompt-Polierung das Ergebnis vollständig retten.</p>\n<p>Selection ist nicht nur „relevante Chunks finden“. Es ist:</p>\n<ul>\n<li>die richtige Quelle wählen</li>\n<li>die richtige Granularität wählen</li>\n<li>die richtige Menge wählen</li>\n<li>die richtige Reihenfolge wählen</li>\n</ul>\n<p>Gute Systeme holen oft weniger als naive Systeme, aber bewusster.</p>\n<h3>2. Structure</h3>\n<p>Die zweite Aufgabe ist zu entscheiden, wie der gewählte Kontext repräsentiert wird.</p>\n<p>Die gleiche Information kann hilfreich oder nutzlos sein, je nach Formatierung. Anthropics Tool-Use-Guidance ist da explizit: Tool-Beschreibungen und Interfaces prägen das Modellverhalten stark.[9] Long-Context-Prompting-Guidance gibt ähnliche Empfehlungen für XML-Tagging, Quellenlabeling und klar getrennte Dokumentabschnitte.[12]</p>\n<p>In der Praxis bedeutet Struktur:</p>\n<ul>\n<li>Quellen labeln</li>\n<li>Anweisungen von Daten trennen</li>\n<li>Komplexe Dokumente in konsistentem Markup wrappen</li>\n<li>Tabellen als Tabellen erhalten, wenn sie wichtig sind</li>\n<li>Zitate und Metadaten mit Beweisen zurückgeben</li>\n</ul>\n<p>Ein kurzes, gut gelabeltes Ergebnis übertrifft oft einen riesigen JSON-Blob.</p>\n<h3>3. Compression</h3>\n<p>Die dritte Aufgabe ist, Kontext zu reduzieren, ohne das Wichtige zu zerstören.</p>\n<p>Hier werden viele Agentensysteme entweder viel besser oder viel schlechter.</p>\n<p>Kompression kann bedeuten:</p>\n<ul>\n<li>frühere Wendungen zusammenfassen</li>\n<li>veraltete Historie kürzen</li>\n<li>nur die letzten Nutzerwendungen wörtlich behalten</li>\n<li>haltbare Fakten aus langen Threads extrahieren</li>\n<li>stabile Präfixe cachen, um Kosten und Latenz zu senken</li>\n</ul>\n<p>OpenAIs Prompt-Caching-Dokumentation zeigt, dass Prompt-Reihenfolge ökonomisch wie kognitiv wichtig ist: Statische, geteilte Präfixe sind billiger und schneller, wenn sie vorne platziert werden, weil Cache-Hits von exakter Präfix-Wiederverwendung abhängen.[13] OpenAIs neuere Responses-API-Arbeit an Compaction treibt dieselbe Idee weiter, indem langlaufende Agenten-Historie als etwas behandelt wird, das vor dem Füllen des Fensters in eine token-effizientere Repräsentation komprimiert werden sollte.[14]</p>\n<p>Kompression ist nicht optional. Die einzige Frage ist, ob Sie sie bewusst machen oder das Kontextfenster sich selbst degradieren lassen.</p>\n<h3>4. Memory</h3>\n<p>Die vierte Aufgabe ist zu entscheiden, was über die aktuelle Wendung hinaus persistieren soll.</p>\n<p>Hier machen viele Teams denselben Fehler: Sie verwechseln Gedächtnis mit Transkript-Aufbewahrung.</p>\n<p>Aber gutes Gedächtnis ist nicht „alles für immer behalten“. LongMemEval rahmt Langzeitgedächtnis als Drei-Stufen-Problem: Indexierung, Retrieval und Lesen.[4] Das ist der richtige Weg, darüber nachzudenken. Ein Gedächtnissystem sollte dem Modell helfen, die richtige vorherige Tatsache im richtigen Moment wiederzufinden, nicht es in der kompletten Vergangenheit zu ertränken.</p>\n<p>Das führt zu einer nützlichen Unterscheidung:</p>\n<ul>\n<li><strong>Arbeitsgedächtnis</strong>: der kurzfristige Kontext, der für die aktuelle Aufgabe gebraucht wird</li>\n<li><strong>Referenzgedächtnis</strong>: externalisierte Fakten, Zusammenfassungen, Notizen oder Artefakte, die später neu geladen werden können</li>\n</ul>\n<p>Wenn alles im Arbeitsgedächtnis bleibt, wird das Modell abgelenkt.\nWenn alles hinausgeschoben wird, verliert das Modell den Zusammenhang.</p>\n<p>Context Engineering entscheidet, was in welche Schicht gehört.</p>\n<h3>5. Tool and Interface Design</h3>\n<p>Die fünfte Aufgabe ist, Tools für das Modell lesbar zu machen.</p>\n<p>Das ist ein unterschätzter Teil der Disziplin. Eine Tool-Oberfläche ist nicht nur Software-API-Design. Sie ist auch Kontext-Design.</p>\n<p>Das Modell muss verstehen:</p>\n<ul>\n<li>was das Tool tut</li>\n<li>wann es es nutzen soll</li>\n<li>was jeder Parameter bedeutet</li>\n<li>was der Output impliziert</li>\n<li>was als Nächstes zu tun ist, nachdem es das Ergebnis gesehen hat</li>\n</ul>\n<p>Deshalb sind Tool-Beschreibungen so wichtig.[9] Deshalb ist Jason Lius Betonung von Tool-Ergebnissen wichtig.[10] Der Output eines Tools beantwortet nicht nur die aktuelle Anfrage. Er lehrt den Agenten, wie er über die nächste Anfrage nachdenken soll.</p>\n<p>Wenn die Tool-Oberfläche durch ein Protokoll wie MCP standardisiert wird, wird das noch wichtiger. MCP macht es einfacher, Tools, Ressourcen und Prompts mit LLM-Anwendungen zu verbinden, aber es entscheidet nicht, welche Informationen aufbereitet, wie gefiltert oder wie viel davon in den nächsten Modellaufruf injiziert werden soll.[15] Das Protokoll ist die Infrastruktur. Context Engineering bleibt die Kunst.</p>\n<h3>6. Isolation and Orchestration</h3>\n<p>Die sechste Aufgabe ist zu entscheiden, wann Kontext nicht geteilt werden soll.</p>\n<p>Das ist einer der größten Unterschiede zwischen Spielzeug-Demos und Produktions-Agenten.</p>\n<p>Manchmal ist die richtige Antwort nicht ein größerer geteilter Prompt. Es sind mehrere kleinere Prompts mit isolierten Scopes.</p>\n<p>Anthropics Multi-Agent-Research-System ist ein starkes Beispiel.[16] Ihre Subagenten laufen parallel mit separaten Kontextfenstern, was ihnen hilft, verschiedene Zweige eines Problems zu erkunden, ohne sich gegenseitig mit jedem Zwischenschritt zu kontaminieren. LangChain beschreibt ein ähnliches Muster unter „isolate“: Manchmal ist der beste Weg, Agenten-Zuverlässigkeit zu verbessern, Kontexte zu splitten statt sie anzuhäufen.[17]</p>\n<p>Das ist wichtig, weil geteilter Kontext versteckte Kosten hat. Er schafft Pfadabhängigkeit. Ein einzelner schlechter Zweig kann den nächsten beeinflussen, und den nächsten, und den nächsten.</p>\n<p>Isolation ist ein Weg, den Schadensradius zu begrenzen.</p>\n<h2>Was sich 2026 geändert hat</h2>\n<p>2025 war Context Engineering meist ein nützlicher Name für ein Problem, das die Leute bereits spürten. 2026 beginnt es, sich zu einer Architektur zu verfestigen.</p>\n<p>Der erste große Wandel ist, dass Builder dauerhaften Zustand <strong>außerhalb</strong> des rohen Kontextfensters verschieben. Anthropics Context Editing und Memory Tool trennen explizit, was live im Arbeitsfenster bleibt, von dem, was über Sessions hinweg persistieren soll.[18] OpenAIs Januar-2026-Cookbook zur Personalisierung macht denselben Schritt in anderer Form: strukturierte Zustandsobjekte, die über Runs hinweg persistieren und bewusst zu Beginn jedes Runs zurück ins Arbeitsgedächtnis injiziert werden.[19] OpenAIs Responses API treibt das einen Schritt weiter mit nativer Compaction, sodass langlaufende Agenten-Loops nicht von jedem Team verlangen, ein eigenes Zusammenfassungssubsystem von Grund auf zu bauen.[14]</p>\n<p>Anthropics Managed Agents macht das zugrunde liegende Muster ungewöhnlich explizit: <strong>Die Session ist nicht das Kontextfenster des Modells</strong>.[20] Das ist eine kritische Idee für 2026. Das Fenster ist temporäres Arbeitsgedächtnis. Das Session-Log ist das dauerhafte Objekt. Das Harness entscheidet, wie dieser dauerhafte Kontext geschnitten, komprimiert und für den nächsten Modellaufruf rehydriert wird.</p>\n<p>Der zweite Wandel ist, dass Retrieval <strong>just in time</strong> und oberflächen-nativer wird. Statt jeden möglicherweise relevanten Token vorzuladen, geben Teams Agenten Retrieval-Oberflächen, die sie bereits bedienen können. Mintlify's ChromaFs ist ein gutes Beispiel: Statt eine volle Sandbox für Dokumenten-Retrieval zu booten, präsentiert es Docs als virtuelles Dateisystem, navigierbar mit <code>ls</code>, <code>cat</code> und <code>grep</code>, was die p90-Session-Erstellung von etwa 46 Sekunden auf etwa 100 Millisekunden senkt.[21] Turso's AgentFS treibt dieselbe Intuition in Richtung allgemeiner Agenten-Ausführung: eine Copy-on-Write-Dateisystem-Abstraktion mit portabler Single-File-Speicherung und eingebautem Auditing.[22]</p>\n<p>Der dritte Wandel ist, dass <strong>Context Graphs</strong> zu einer Implementierungsrichtung werden, nicht nur einer Metapher. Foundation Capitals These machte den Begriff sichtbar, aber die stärkere Behauptung ist architektonisch: Wenn Agenten im Ausführungspfad sitzen, können sie Entscheidungsspuren als dauerhafte Artefakte erfassen, nicht nur finale Outputs emittieren.[26][27] Open-Source-Systeme wie Graphiti und kommerzielle Plattformen wie Zep operationalisieren das als temporale Kontext-Graphen mit Gültigkeitsfenstern, Provenanz-Episoden und hybridem Retrieval über Semantik, Keywords und Graph-Struktur.[23] TrustGraph verfolgt einen verwandten Ansatz, indem es Kontext als versioniertes Artefakt behandelt: Graph, Embeddings, Evidenz und Policies gebündelt in portable „Context Cores“, die wie Build-Outputs promoted oder zurückgerollt werden können.[24][25]</p>\n<p>Der vierte Wandel ist, dass Context Engineering nun in realer Software-Praxis sichtbar wird, nicht nur in Plattform-Blogs. Die MSR-Papier 2026 zu Context Engineering in Open-Source-Software untersuchte 466 Repositories und fand, dass KI-Kontextdateien wie <code>AGENTS.md</code> sich verbreiten, aber noch keine stabile Inhaltsstruktur haben.[28] Das ist wichtig, weil es einen Schritt von der Theorie zu operativen Artefakten markiert. Kontext ist nicht länger nur etwas, das zur Laufzeit inferiert wird. Er wird verfasst, versioniert, reviewed und gemined als Teil des Software-Lebenszyklus.</p>\n<p>Wenn Sie das 2026-Mentalmodell in einem Bild wollen, sieht es so aus:</p>\n<pre><code class=\"language-mermaid\">flowchart LR\n    E[\"Session log / events\"] --> A[\"Context assembler\"]\n    F[\"Files, docs, and tools\"] --> A\n    G[\"Context graph / memory\"] --> A\n    P[\"Policies and AGENTS.md\"] --> A\n\n    A --> W[\"Working context window\"]\n    W --> X[\"Agent action\"]\n\n    X --> E\n    X --> G\n</code></pre>\n<p>Das ist eine sehr andere Architektur als „Prompt + Vektor-Suche“.</p>\n<h2>Wo Context Graphs tatsächlich passen</h2>\n<p>Ein Grund, warum diese Diskussion trübe wird, ist, dass Leute <strong>Context Engineering</strong> und <strong>Context Graph</strong> verwenden, als ob sie dasselbe bedeuten. Tun sie nicht.</p>\n<p>Context Engineering ist die breitere Disziplin. Es ist die Arbeit zu entscheiden, was ins nächste Kontextfenster kommt, was draußen bleibt, was komprimiert und was bei Bedarf abgerufen wird.</p>\n<p>Ein Context Graph ist ein mögliches Langzeitgedächtnis-Substrat innerhalb dieses größeren Systems.</p>\n<p>Diese Unterscheidung ist wichtig, weil nicht jeder nützliche Agent einen Context Graph braucht. Ein Dokumentationsassistent über größtenteils statische Inhalte mag gutes Retrieval, Tool-Design und Compaction brauchen, aber keinen Graphen. Ein Coding-Agent kommt überraschend weit mit Repository-Anweisungen, einem dauerhaften Session-Log und einer Dateisystem-Abstraktion.[20][21][22][28]</p>\n<p>Context Graphs werden überzeugend, wenn das Problem vier Eigenschaften hat:</p>\n<ul>\n<li><strong>Zeitliche Wahrheit ist wichtig.</strong> Sie müssen nicht nur wissen, was jetzt wahr ist, sondern was zum Zeitpunkt der Entscheidung wahr war.[23]</li>\n<li><strong>Provenanz ist wichtig.</strong> Sie müssen Fakten zurückverfolgen können zur Episode, dem Dokument oder der Interaktion, die sie produzierte.[23][24]</li>\n<li><strong>Präzedenz ist wichtig.</strong> Die Aufgabe hängt davon ab, wie ähnliche Fälle zuvor behandelt wurden, einschließlich Ausnahmen und Genehmigungen.[26][27]</li>\n<li><strong>Cross-Entity-Reasoning ist wichtig.</strong> Das nützliche Gedächtnis ist keine flache Notiz, sondern ein Netzwerk von Personen, Richtlinien, Incidents, Accounts, Tickets und Ergebnissen.[23][25]</li>\n</ul>\n<p>Deshalb ist die beste Definition eines Context Graphs meiner Ansicht nach nicht „eine Graphdatenbank für KI“. Es ist eine <strong>dauerhafte Repräsentation von Präzedenz</strong>.</p>\n<p>Deshalb sind Entscheidungsspuren so wichtig. Foundation Capitals Rahmen ist hier nützlich: Regeln sagen dem Agenten, was im Allgemeinen passieren sollte; Entscheidungsspuren sagen ihm, was in einem spezifischen Fall unter realen Einschränkungen mit realen Ausnahmen passiert ist.[26] Sobald diese Spuren über Entitäten und Zeit verknüpft sind, bekommt man etwas viel Wertvolleres als generisches Gedächtnis. Man bekommt durchsuchbares Urteilsvermögen.</p>\n<h2>Wie ich es 2026 bauen würde</h2>\n<p>Wenn ich heute einen ernsthaften Context-Engineering-Stack bauen würde, würde ich nicht mit dem Graphen anfangen. Ich würde mit den Interfaces und Promotion-Regeln anfangen.</p>\n<h3>1. Baue zuerst eine dauerhafte Session-Schicht</h3>\n<p>Jede Aktion, jedes Tool-Ergebnis, jede Beobachtung und jedes wichtige Zwischenartefakt sollte in einem append-only Session-Log oder Event-Store landen. Das ist Ihr wiederherstellbares Kontextobjekt.[14][20]</p>\n<p>Verwechseln Sie nicht das aktive Kontextfenster mit der Source of Truth.</p>\n<p>Das Fenster ist zum Reasoning.\nDie Session ist für Recovery, Replay, Debugging und selektive Rehydration.</p>\n<h3>2. Behandle den Context Assembler als Product Surface</h3>\n<p>Der Assembler sollte explizit verwalten:</p>\n<ul>\n<li>Token-Budgets</li>\n<li>Quellenpriorität</li>\n<li>Frische</li>\n<li>Compaction-Schwellen</li>\n<li>Historien-Kürzung</li>\n<li>Zitierformatierung</li>\n<li>Cache-bewusste Reihenfolge</li>\n</ul>\n<p>Das ist die Schicht, die entscheidet, was das Modell <em>jetzt</em> sieht. Sie sollte beobachtbar, testbar und billig zu ändern sein.[18][19][14]</p>\n<h3>3. Bevorzuge Just-in-Time-Retrieval gegenüber Eager Stuffing</h3>\n<p>Geben Sie dem Modell zuerst leichtgewichtige Handles: Dateipfade, Objekt-IDs, URLs, Query-Templates, Ticket-IDs, Incident-IDs. Dann lassen Sie es Details nur holen, wenn nötig.[9][18][21]</p>\n<p>Hier werden Dateisysteme, MCP-Tools, Search-APIs und strukturierte Queries wertvoller als riesige Top-K-Dumps.</p>\n<h3>4. Promote nur hochwertigen Zustand ins Langzeitgedächtnis</h3>\n<p>Nicht alles sollte Gedächtnis werden.</p>\n<p>Ich würde vier Klassen von Artefakten promoten:</p>\n<ul>\n<li>stabile Nutzer- oder Account-Präferenzen</li>\n<li>dauerhafte Fakten mit Provenanz</li>\n<li>wichtige Zwischenzusammenfassungen</li>\n<li>Entscheidungsspuren und Ausnahmen</li>\n</ul>\n<p>Alles andere sollte im Session-Log bleiben, bis es beweist, dass es eine Promotion verdient.</p>\n<h3>5. Baue den Context Graph als promoted Memory Layer</h3>\n<p>Das ist der Teil, den viele Teams invertieren.</p>\n<p>Der Graph sollte nicht Ihr rohes Transkript in Graph-Form sein. Er sollte die kuratierte Schicht sein, die über Sessions und unterhalb der Echtzeit-Assembly sitzt:</p>\n<ul>\n<li>Entitäten</li>\n<li>Beziehungen</li>\n<li>Zeitliche Gültigkeit</li>\n<li>Quell-Episoden</li>\n<li>Genehmigungen</li>\n<li>Ausnahmen</li>\n<li>Ergebnisse</li>\n</ul>\n<p>Wenn Sie den Promotion-Schritt überspringen, wird der Graph zu einer Müllhalde.\nWenn Sie Promotion richtig hinbekommen, wird der Graph zum Gedächtnis dafür, wie die Organisation tatsächlich reasoned.[23][26]</p>\n<h3>6. Packe Kontext wie Code</h3>\n<p>Bis 2026 ist eine der vielversprechendsten Ideen, Kontext als versioniertes Artefakt zu behandeln. In Softwareprojekten zeigt sich das als <code>AGENTS.md</code> und andere repository-spezifische Kontextdateien.[28] In graph-nativen Systemen zeigt es sich als Context Cores: portable Bündel aus Ontologie, Graph-Struktur, Embeddings, Provenanz und Retrieval-Policy.[24][25]</p>\n<p>Das ist wichtig, weil Kontextänderungen dieselbe operative Disziplin brauchen wie Codeänderungen:</p>\n<ul>\n<li>Review</li>\n<li>Versionierung</li>\n<li>Rollback</li>\n<li>Environment-Promotion</li>\n<li>Evaluation</li>\n</ul>\n<p>Sobald Kontext ein Artefakt wird, wird er regierbar.</p>\n<h3>7. Trenne Observability von Intelligence</h3>\n<p>Sie brauchen beides:</p>\n<ul>\n<li><strong>Observability des Agenten-Laufs</strong></li>\n<li><strong>Observability des Kontextsystems</strong></li>\n</ul>\n<p>Das sind nicht dieselben Dinge.</p>\n<p>Ich will wissen:</p>\n<ul>\n<li>was das Modell gesehen hat</li>\n<li>was es nicht gesehen hat</li>\n<li>was komprimiert wurde</li>\n<li>was just in time abgerufen wurde</li>\n<li>was ins Gedächtnis promoted wurde</li>\n<li>welche Graph-Nachbarschaft traversiert wurde</li>\n<li>welche Präzedenz tatsächlich die Aktion beeinflusst hat</li>\n</ul>\n<p>Wenn Sie diese Fragen nicht beantworten können, debuggen Sie immer noch im Dunkeln Prompts.</p>\n<h2>Ein praktisches Reifegradmodell</h2>\n<p>Wenn Sie versuchen zu bewerten, wo Ihr eigenes System steht, ist dieses Reifegradmodell nützlicher als abstrakte Definitionen.</p>\n<h3>Level 0: Prompt-Only</h3>\n<p>Sie haben einen System-Prompt, eine Nutzernachricht und vielleicht ein paar Beispiele.</p>\n<p>Das kann für enge Aufgaben überraschend gut funktionieren. Es bricht schnell, wenn die Aufgabe frisches Wissen, Persistenz oder Tools braucht.</p>\n<h3>Level 1: Retrieval-Enhanced</h3>\n<p>Sie fügen zur Laufzeit Dokumente hinzu.</p>\n<p>Hier hören viele Teams auf. Hier beginnen auch viele Teams, die Grenzen naiven Chunkings, Rankings und Kontext-Bloats zu sehen.</p>\n<h3>Level 2: Agent-Aware</h3>\n<p>Sie verwalten jetzt absichtlich Historie, Tool-Ergebnisse, Gedächtnis und Formatierung.</p>\n<p>Das ist das erste Level, wo „Context Engineering“ ein nützlicher Begriff wird, weil das System nicht mehr nur Prompt plus Retrieval ist. Es baut dynamisch mehrere Formen von Kontext zusammen.</p>\n<h3>Level 3: Adaptive</h3>\n<p>Das System ändert, wie es Kontext aufbaut, basierend auf der Aufgabe.</p>\n<p>Es kann:</p>\n<ul>\n<li>unter Quellen wählen</li>\n<li>ältere Historie komprimieren</li>\n<li>Gedächtnis selektiv neu laden</li>\n<li>Arbeit an spezialisierte Tools routen</li>\n<li>Teilprobleme in isolierte Kontexte splitten</li>\n</ul>\n<p>An diesem Punkt ist Kontext-Konstruktion Teil der Kernlogik der Anwendung.</p>\n<h3>Level 4: Context-Native</h3>\n<p>Das System behandelt Kontext als first-class Engineering Surface.</p>\n<p>Es hat:</p>\n<ul>\n<li>explizite Kontext-Budgets</li>\n<li>Retrieval- und Generation-Evals</li>\n<li>Metadaten- und Facet-bewusste Navigation</li>\n<li>Memory-Policies</li>\n<li>Observability um Failure Modes</li>\n<li>Kosten-bewusste Prompt-Assembly</li>\n</ul>\n<p>Hin bewegen sich die stärksten Produktionssysteme.</p>\n<h2>Wie gutes Context Engineering in der Praxis aussieht</h2>\n<p>Wenn ich die ganze Disziplin auf eine Checkliste reduzieren müsste, würde sie so aussehen:</p>\n<ol>\n<li>Beginne mit der Aufgabe, nicht mit dem Prompt. Definiere zuerst, was Erfolg bedeutet.</li>\n<li>Zähle die Kontextquellen auf, die das Modell brauchen könnte. Anweisungen, Docs, Tools, Gedächtnis, Zustand, Richtlinien.</li>\n<li>Trenne Arbeitsgedächtnis von Referenzgedächtnis. Nicht alles sollte im aktiven Fenster leben.</li>\n<li>Retrieve mit Absicht. Mehr Chunks ist nicht dasselbe wie besseres Recall.</li>\n<li>Strukturiere Kontext so, dass das Modell ihn schnell parsen kann. Labels, Quellen, Tabellen und Grenzen zählen.</li>\n<li>Designe Tools so, als wären sie Teil des Prompts, denn das sind sie.</li>\n<li>Kürze aggressiv. Wenn Sie einen Menschen nicht bitten würden, es noch einmal zu lesen, zwingen Sie das Modell nicht dazu.</li>\n<li>Messe Retrieval und Generation getrennt. Sonst diagnostizieren Sie das falsche Problem.</li>\n<li>Verwende isolierte Kontexte, wenn Aufgaben verzweigen oder parallel laufen können.</li>\n<li>Promote dauerhafte Fakten und Entscheidungsspuren absichtlich. Nicht jedes Transkript gehört ins Langzeitgedächtnis.</li>\n<li>Packe kritischen Kontext wie Code. Anweisungen, Richtlinien und Graph-Artefakte sollten versioniert werden.</li>\n<li>Behandle Kontext-Bugs wie Software-Bugs. Sie sollten beobachtbar, reproduzierbar und fixierbar sein.</li>\n</ol>\n<p>Keines davon ist glamourös. Genau deshalb zählt es.</p>\n<p>Prompt Engineering wurde populär, weil es wie eine Abkürzung klang.</p>\n<p>Context Engineering zählt, weil es die tatsächliche Arbeit beschreibt.</p>\n<h2>Die wirkliche Kernaussage</h2>\n<p>Der Schwerpunkt in der KI verschiebt sich.</p>\n<p>Die Grenzfrage war früher: <strong>Wie schlau ist das Modell?</strong></p>\n<p>Die angewandte Frage ist zunehmend: <strong>Was bekommt das Modell zu sehen, bevor es handeln muss?</strong></p>\n<p>Das ist ein anderes Engineering-Problem. Es geht weniger um einzelne Prompts und mehr um Systemdesign. Weniger um Formulierung und mehr um Informationsfluss. Weniger um One-Shot-Output-Qualität und mehr darum, ob ein Agent über Zeit zuverlässig bleiben kann.</p>\n<p>Deshalb wird Context Engineering als Disziplin weiter wachsen. Je besser die Modelle werden, desto mehr der verbleibenden Fehler sehen wie Kontextfehler aus. Fehlender Zustand. Falsches Tool. Schlechtes Retrieval. Aufgeblähte Historie. Schlechte Formatierung. Widersprüchliche Evidenz. Schwaches Gedächtnis. Unbegrenzte Loops.</p>\n<p>Die Ironie ist, dass KI-Systeme dadurch eher wie klassische Software wirken, nicht weniger. Wir sind zurück dabei, Pipelines, Interfaces, Zustandsmaschinen, Speicherhierarchien, Caches und Observability-Schichten zu bauen. Das Neue ist, dass all diese Stücke jetzt im Dienste einer probabilistischen Reasoning-Engine existieren.</p>\n<p>Der Name mag neu sein. Die Richtung nicht.</p>\n<p>Zuverlässige KI-Systeme werden von Teams gebaut, die Kontext als first-class Product Surface behandeln.</p>\n<p>Alle anderen werden das Modell weiterhin als unzuverlässig bezeichnen.</p>\n<p><strong>References:</strong></p>\n<p>[1] <a href=\"https://simonwillison.net/2025/Jun/27/context-engineering/\">Simon Willison. (2025, June 27). <em>Context engineering</em>.</a></p>\n<p>[2] <a href=\"https://arxiv.org/abs/2005.11401\">Lewis, P. et al. (2020). <em>Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks</em>.</a></p>\n<p>[3] <a href=\"https://arxiv.org/abs/2210.03629\">Yao, S. et al. (2023). <em>ReAct: Synergizing Reasoning and Acting in Language Models</em>.</a></p>\n<p>[4] <a href=\"https://arxiv.org/abs/2410.10813\">Wu, D. et al. (2025). <em>LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory</em>.</a></p>\n<p>[5] <a href=\"https://arxiv.org/abs/2307.03172\">Liu, N. F. et al. (2023). <em>Lost in the Middle: How Language Models Use Long Contexts</em>.</a></p>\n<p>[6] <a href=\"https://arxiv.org/abs/2411.03538\">Leng, Q. et al. (2024). <em>Long Context RAG Performance of Large Language Models</em>.</a></p>\n<p>[7] <a href=\"https://www.trychroma.com/research/context-rot\">Hong, K., Troynikov, A., and Huber, J. (2025, July 14). <em>Context Rot: How Increasing Input Tokens Impacts LLM Performance</em>.</a></p>\n<p>[8] <a href=\"https://blog.langchain.com/the-rise-of-context-engineering\">LangChain. (2025, June 23). <em>The rise of \"context engineering\"</em>.</a></p>\n<p>[9] <a href=\"https://docs.anthropic.com/en/docs/agents-and-tools/tool-use/implement-tool-use\">Anthropic. <em>How to implement tool use</em>.</a></p>\n<p>[10] <a href=\"https://jxnl.co/writing/2025/08/27/facets-context-engineering/\">Jason Liu. (2025, August 27). <em>Beyond Chunks: Why Context Engineering is the Future of RAG</em>.</a></p>\n<p>[11] <a href=\"https://arxiv.org/abs/2407.12883\">Su, H. et al. (2025). <em>BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval</em>.</a></p>\n<p>[12] <a href=\"https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/long-context-tips\">Anthropic. <em>Long context prompting tips</em>.</a></p>\n<p>[13] <a href=\"https://platform.openai.com/docs/guides/prompt-caching\">OpenAI. <em>Prompt caching</em>.</a></p>\n<p>[14] <a href=\"https://openai.com/index/equip-responses-api-computer-environment\">OpenAI. (2026, March 19). <em>From model to agent: Equipping the Responses API with a computer environment</em>.</a></p>\n<p>[15] <a href=\"https://modelcontextprotocol.io/\">Model Context Protocol. <em>What is the Model Context Protocol (MCP)?</em></a></p>\n<p>[16] <a href=\"https://www.anthropic.com/engineering/built-multi-agent-research-system\">Anthropic. (2025, June 13). <em>How we built our multi-agent research system</em>.</a></p>\n<p>[17] <a href=\"https://blog.langchain.com/context-engineering-for-agents/\">LangChain. (2025, July 2). <em>Context Engineering</em>.</a></p>\n<p>[18] <a href=\"https://claude.com/blog/context-management\">Anthropic. (2025, September 29). <em>Managing context on the Claude Developer Platform</em>.</a></p>\n<p>[19] <a href=\"https://developers.openai.com/cookbook/examples/agents_sdk/context_personalization\">Okcular, E. (2026, January 5). <em>Context Engineering for Personalization - State Management with Long-Term Memory Notes using OpenAI Agents SDK</em>.</a></p>\n<p>[20] <a href=\"https://www.anthropic.com/engineering/managed-agents\">Anthropic. <em>Scaling Managed Agents: Decoupling the brain from the hands</em>.</a></p>\n<p>[21] <a href=\"https://www.mintlify.com/blog/how-we-built-a-virtual-filesystem-for-our-assistant\">Mintlify. (2026, March 24). <em>How we built a virtual filesystem for our Assistant</em>.</a></p>\n<p>[22] <a href=\"https://docs.turso.tech/agentfs/introduction\">Turso. <em>AgentFS</em>.</a></p>\n<p>[23] <a href=\"https://github.com/getzep/graphiti\">Zep. <em>Graphiti: Build Real-Time Knowledge Graphs for AI Agents</em>.</a></p>\n<p>[24] <a href=\"https://github.com/trustgraph-ai/trustgraph\">TrustGraph. <em>The context development platform</em>.</a></p>\n<p>[25] <a href=\"https://docs.trustgraph.ai/guides/context-cores/\">TrustGraph. <em>Working with Context Cores</em>.</a></p>\n<p>[26] <a href=\"https://foundationcapital.com/ideas/context-graphs-ais-trillion-dollar-opportunity\">Gupta, J., and Garg, A. (2025, December 22). <em>AI's trillion-dollar opportunity: Context graphs</em>.</a></p>\n<p>[27] <a href=\"https://foundationcapital.com/ideas/why-context-graphs-are-the-missing-layer-for-ai\">Garg, A. (2026, January 16). <em>Why context graphs are the missing layer for AI</em>.</a></p>\n<p>[28] <a href=\"https://arxiv.org/abs/2510.21413\">Mohsenimofidi, S., Galster, M., Treude, C., and Baltes, S. (2026). <em>Context Engineering for AI Agents in Open-Source Software</em>.</a></p>",
  "source_hash": "sha256:43286410ec2f1b23129ef8d7330ac9e09e780a8159635d34658ade10aac0581a",
  "model": "moonshotai/kimi-k2.6",
  "generated_at": "2026-05-31T02:56:21.590959+00:00"
}