{
  "title": "Context Engineering: Warum Prompt Engineering nie ausgereicht hat",
  "excerpt": "Bis 2026 ist die eigentliche Aufgabe in modernen KI-Systemen nicht das Verfassen eines cleveren Prompts. Es geht darum zu entscheiden, was das Modell sieht, wann es das sieht und wie dieser Kontext strukturiert, persistiert und in dauerhaftes Gedächtnis verwandelt wird.",
  "content_html": "<p>Eine Zeit lang war „Prompt Engineering“ der Name, den wir der Kunst gaben, gute Ergebnisse aus großen Sprachmodellen herauszuholen. Das machte Sinn in den frühen Tagen. Die meisten Leute nutzten Einzelinteraktionen, und der Haupthebel fühlte sich tatsächlich wie Formulierung an: klarer fragen, ein Beispiel hinzufügen, das Format einschränken – und das Modell verhielt sich besser.</p>\n<p>Dieser Rahmen ist jetzt zu klein für das wirkliche Problem.</p>\n<p>Wenn ein KI-System in der Produktion versagt, liegt das Problem meist nicht darin, dass das Modell einen cleveren Satz mehr im System-Prompt gebraucht hätte. Das Problem ist, dass das Modell die richtigen Informationen nicht gesehen hat, zu viele irrelevante Informationen gesehen hat, die richtigen Informationen im falschen Format gesehen hat oder den richtigen Zustand nicht von einem Schritt zum nächsten übertragen konnte. Mit anderen Worten: Das Problem war nicht nur der Prompt. Das Problem war die <strong>gesamte Kontext-Pipeline</strong>.</p>\n<p>Darum hat sich der Begriff <strong>Context Engineering</strong> durchgesetzt. Die Formulierung gelangte Mitte 2025 in den Mainstream der KI-Diskussion, als Tobi Lütke und Andrej Karpathy argumentierten, dass „Prompt Engineering“ die wirkliche Arbeit unterschätzt, die in den Aufbau zuverlässiger LLM-Systeme fließt.[1] Aber die zugrunde liegende Disziplin ist älter als der Name. Wenn Sie RAG, Tool Calling, Memory-Systeme, Zusammenfassungen oder Evaluierungs-Loops gebaut haben, haben Sie bereits Teile von Context Engineering gemacht. Was sich geändert hat, ist, dass wir endlich einen Namen haben, der den gesamten Job beschreibt.</p>\n<h2>Ein einfaches mentales Modell</h2>\n<p>Wenn Sie das einfachstmögliche Bild wollen: Context Engineering ist die Schicht zwischen der Außenwelt und dem Arbeitsgedächtnis des Modells.</p>\n<pre><code class=\"language-mermaid\">flowchart TD\n    U[\"User request\"] --&gt; CE[\"Context engine\"]\n\n    I[\"Instructions and policies\"] --&gt; CE\n    R[\"Retrieved knowledge\"] --&gt; CE\n    M[\"Memory and saved state\"] --&gt; CE\n    T[\"Tool definitions and results\"] --&gt; CE\n    H[\"Recent conversation history\"] --&gt; CE\n\n    CE --&gt; W[\"Model context window\"]\n    W --&gt; L[\"LLM reasons and acts\"]\n    L --&gt; O[\"Answer or tool call\"]\n    O --&gt; S[\"New memory, logs, and state\"]\n    S --&gt; CE\n</code></pre>\n<p>Das ist das ganze Spiel.</p>\n<p>Das Modell ist die Reasoning-Engine. Die Context Engine entscheidet, worüber das Modell nachdenken darf.</p>\n<h2>Der Name ist neu. Der Job nicht.</h2>\n<p>Ein Grund, warum der Begriff so stark ankommt, ist, dass er mehrere Stränge zusammenführt, die sich bisher getrennt entwickelt hatten.</p>\n<p>Retrieval-Augmented Generation, oder RAG, lehrte uns, dass Modelle zur Inferenzzeit Zugriff auf externes Wissen brauchen.[2] ReAct lehrte uns, dass Reasoning und Handeln besser funktionieren, wenn Modelle Tools aufrufen, Ergebnisse beobachten und von dort weitermachen können.[3] Memory-Forschung lehrte uns, dass langlaufende Assistenten Indexierung, Retrieval und Lese-Strategien brauchen, anstatt endlos Transkripte anzuhäufen.[4] Long-Context-Evaluierung zeigte, dass einfach mehr Tokens in ein Modell zu stopfen nicht dasselbe ist wie ihm ein besseres Arbeitsgedächtnis zu geben.[5][6][7]</p>\n<p>So betrachtet, ist Context Engineering kein Ersatz für diese Ideen. Es ist der Schirm über ihnen.</p>\n<p>Dieser Schirm ist wichtig, weil moderne KI-Systeme keine isolierten Prompts mehr sind. Sie sind dynamische Systeme, die Anweisungen, Dokumente, strukturierte Daten, Tool-Outputs und vorherigen Zustand zu einem temporären Kontextfenster für den nächsten Schritt zusammenbauen. LangChain beschrieb das treffend, als es Context Engineering als die Arbeit definierte, die richtigen Informationen und Tools im richtigen Format bereitzustellen, damit das LLM die Aufgabe plausibel erledigen kann.[8]</p>\n<p>Die Formulierung „plausibel die Aufgabe erledigen“ leistet dort viel Arbeit. Es ist der richtige Test.</p>\n<p>Wenn ein Agent versagt, sollte die erste Frage nicht lauten: „Wie mache ich den Prompt schlauer?“</p>\n<p>Die erste Frage sollte lauten: „Habe ich dem Modell tatsächlich gegeben, was es zum Erfolg braucht?“</p>\n<h2>Warum Prompt Engineering zu klein wurde</h2>\n<p>Prompt Engineering ist immer noch wichtig. Es ist nur zu einer Teilmenge einer größeren Disziplin geworden.</p>\n<p>Das alte mentale Modell war:</p>\n<table>\n<thead>\n<tr>\n<th>Prompt Engineering</th>\n<th>Context Engineering</th>\n</tr>\n</thead>\n<tbody>\n<tr>\n<td>Bessere Anweisungen schreiben</td>\td>\n<td>Die volle Informationsumgebung aufbauen</td>\n</tr>\n<tr>\n<td>Fokus auf eine einzelne Anfrage</td>\n<td>Fokus auf Multi-Step-Systeme</td>\n</tr>\n<tr>\n<td>Meist statisch</td>\n<td>Dynamisch und zustandsbehaftet</td>\n</tr>\n<tr>\n<td>Wortlaut optimieren</td>\n<td>Auswahl, Struktur, Gedächtnis und Tools optimieren</td>\n</tr>\n<tr>\n<td>Einen einzelnen Modellaufruf verbessern</td>\n<td>Den gesamten Loop verbessern</td>\n</tr>\n</tbody>\n</table>\n<p>Dieser Unterschied wird offensichtlich, sobald Sie einen Agenten bauen.</p>\n<p>Angenommen, Sie bauen einen Support-Agenten für Enterprise-Software. Der Nutzer fragt: „Warum laufen unsere API-Requests in Timeouts?“</p>\n<p>Wenn Sie nur in Prompt-Kategorien denken, könnten Sie den Wortlaut verbessern:</p>\n<ul>\n<li>Bitten Sie das Modell, prägnant zu sein</li>\n<li>Bitten Sie es, Beweise zu zitieren</li>\n<li>Bitten Sie es, Schritt für Schritt zu denken</li>\n</ul>\n<p>Das sind gute Verbesserungen. Aber sie reichen nicht.</p>\n<p>Die wirklichen Systemfragen sind schwieriger:</p>\n<ul>\n<li>Hat der Agent Zugriff auf die Incident-Runbooks?</li>\n<li>Kann er die neuesten Logs und Statusseiten sehen?</li>\n<li>Weiß er, zu welchem Kundensegment dieses Konto gehört?</li>\n<li>Erinnert er sich an frühere Wendungen im Gespräch?</li>\n<li>Kann er das Ticketsystem abfragen?</li>\n<li>Kann er veraltete Dokumente von aktuellen unterscheiden?</li>\n<li>Wenn er zu viel Kontext bekommt, was wird gekürzt?</li>\n</ul>\n<p>Das ist Context Engineering.</p>\n<p>Der Prompt ist ein einzelner Posten darin.</p>\n<h2>Was zählt als Kontext</h2>\n<p>In der Praxis umfasst Kontext alles, was das Modell zur Inferenzzeit sieht, nicht nur den sichtbaren Prompt.[8][9]</p>\n<p>Das bedeutet normalerweise:</p>\n<ul>\n<li>Systemanweisungen</li>\n<li>Die aktuelle Nutzeranfrage</li>\n<li>Retrieval-Dokumente</li>\n<li>Strukturierte Daten wie JSON, Tabellen, Schemas und Records</li>\n<li>Tool-Definitionen</li>\n<li>Tool-Outputs</li>\n<li>Kürzliche Gesprächshistorie</li>\n<li>Langzeitgedächtnis oder gespeicherte Notizen</li>\n<li>Sicherheits-, Policy- und Formatierungsbeschränkungen</li>\n<li>Umgebungszustand wie Dateien, Tabs, Tickets oder Arbeitsverzeichnisse</li>\n</ul>\n<p>Darum ist die Formulierung „das Kontextfenster füllen“ so zentral geworden. Das Kontextfenster ist nicht nur ein Ort, wo Text hinkommt. Es ist das temporäre Arbeitsgedächtnis des Modells. Alles, was hineingelangt, konkurriert um Aufmerksamkeit.</p>\n<p>Und Konkurrenz ist das Schlüsselwort.</p>\n<p>Jedes zusätzliche Token ist nicht nur zusätzliche Information. Es ist auch zusätzliche Ablenkung.</p>\n<h2>Warum größere Kontextfenster das Problem nicht gelöst haben</h2>\n<p>Einer der häufigsten Irrtümer auf dem aktuellen KI-Markt ist, dass größere Kontextfenster Context Engineering weniger wichtig gemacht hätten.</p>\n<p>Die Forschung zeigt in die entgegengesetzte Richtung.</p>\n<p><em>Lost in the Middle</em> zeigte, dass Modelle lange Kontexte oft ungleichmäßig nutzen: Sie performen besser, wenn relevante Informationen am Anfang oder Ende stehen, und schlechter, wenn wichtige Informationen in der Mitte sitzen.[5] Databricks' Long-Context-RAG-Studie fand heraus, dass zwar mehr abgerufene Dokumente helfen können, aber nur eine kleine Zahl state-of-the-art Modelle starke Performance über 64k Tokens hielt.[6] Chromas <em>Context Rot</em>-Bericht ging noch weiter: Selbst einfache Aufgaben werden weniger zuverlässig, wenn die Eingabelänge wächst, besonders wenn Mehrdeutigkeit und Ablenkungen eingeführt werden.[7]</p>\n<p>Das ist der Teil, den viele Teams auf die harte Tour lernen.</p>\n<p>Größere Fenster beseitigen nicht die Notwendigkeit zu wählen. Sie machen die Kosten schlechter Entscheidungen zuerst weniger offensichtlich und später schmerzhafter.</p>\n<p>Ein langer Prompt kann auf mindestens vier verschiedene Arten scheitern:</p>\n<ol>\n<li><strong>Context Poisoning</strong>: Eine falsche Tatsache, Halluzination oder veraltetes Ergebnis wird weitergetragen.</li>\n<li><strong>Context Distraction</strong>: Zu viele relevant-aber-nicht-kritische Details überwältigen die Kernaufgabe.</li>\n<li><strong>Context Confusion</strong>: Verschiedene Kontextstücke widersprechen sich.</li>\n<li><strong>Context Waste</strong>: Nützliche Tokens werden unter redundantem oder minderwertigem Material begraben.</li>\n</ol>\n<p>Darum geht es bei Context Engineering nicht darum, Tokens zu maximieren. Es geht darum, die <strong>Signaldichte</strong> im Kontextfenster zu maximieren.</p>\n<h2>Von Retrieval zu Navigation</h2>\n<p>Hier kommt eine der besten jüngeren Ideen ins Spiel.</p>\n<p>Jason Liu argumentierte, dass der nächste Schritt nach klassischem Chunk-basiertem RAG darin besteht, nicht nur an „die ähnlichsten Passagen“ zu denken, sondern an die <strong>Form des Suchraums</strong>.[10] Sein Rahmen ist besonders nützlich, weil er eine Progression aufzeichnet, die viele Teams bereits durchlaufen:</p>\n<ol>\n<li>Minimale Chunks</li>\n<li>Chunks mit Quell-Metadaten</li>\n<li>Bessere Handhabung multimodaler und strukturierter Inhalte</li>\n<li>Facets und Query-Refinement</li>\n</ol>\n<p>Die ersten drei sind Verbesserungen dessen, was abgerufen wird.</p>\n<p>Die vierte ist interessanter. Sie verbessert, was der Agent <strong>über das Korpus selbst</strong> lernt.</p>\n<p>Facets geben dem Modell so etwas wie periphere Sicht. Anstatt nur die Top-Chunks zurückzugeben, kann das System auch aggregierte Metadaten zurückgeben:</p>\n<ul>\n<li>Welche Dokumententypen dominieren das Ergebnisset</li>\n<li>Welche Teams oder Owner erscheinen am häufigsten</li>\n<li>Welche Daten clusteren zusammen</li>\n<li>Welche Kategorien sind vorhanden, aber unterrepräsentiert in den Top-Ergebnissen</li>\n</ul>\n<p>Das ist wichtig, weil Similarity Search darauf verzerrt ist, was am leichtesten zu matchen ist, nicht unbedingt was am wichtigsten zu prüfen ist.[10] Ein Retrieval-System mag gut dokumentierte, gelöste Incidents überrepräsentieren und spärliche, noch offene Incidents unterrepräsentieren. Eine juristische Suche mag signierte Verträge überrepräsentieren und die unsignierten verstecken, die tatsächlich Aufmerksamkeit brauchen. Facets helfen dem Agenten, nicht nur „was gematcht hat“ zu sehen, sondern „was sonst noch in der Nähe existiert“.</p>\n<p>Das ist ein großer konzeptioneller Shift.</p>\n<p>RAG ging meist um Retrieval.</p>\n<p>Context Engineering geht zunehmend um <strong>Navigation</strong>.</p>\n<h2>Die sechs Aufgaben des Context Engineering</h2>\n<p>Am einfachsten wird Context Engineering konkret, wenn man es in die tatsächlichen Jobs zerlegt, die es erledigt.</p>\n<h3>1. Selection</h3>\n<p>Die erste Aufgabe ist zu entscheiden, was überhaupt ins Fenster verdient.</p>\n<p>Das umfasst Retrieval, Ranking, Filtering, Quellenwahl und Freshness-Checks. Es klingt offensichtlich, aber hier wird noch immer enorm viel Qualität gewonnen oder verloren. Benchmarks wie BRIGHT zeigen, dass realistisches Retrieval viel schwieriger ist als oberflächliches semantisches Matching vermuten lässt.[11] Wenn Ihre Retrieval-Qualität schwach ist, wird keine Menge downstream Prompt-Polishing das Ergebnis vollständig retten.</p>\n<p>Selection ist nicht nur „relevante Chunks finden“. Es ist:</p>\n<ul>\n<li>die richtige Quelle wählen</li>\n<li>die richtige Granularität wählen</li>\n<li>die richtige Menge wählen</li>\n<li>die richtige Reihenfolge wählen</li>\n</ul>\n<p>Gute Systeme holen oft weniger als naive Systeme, aber dafür bewusster.</p>\n<h3>2. Structure</h3>\n<p>Die zweite Aufgabe ist zu entscheiden, wie der gewählte Kontext repräsentiert wird.</p>\n<p>Die gleiche Information kann hilfreich oder nutzlos sein, je nach Formatierung. Anthropics Tool-Use-Guidance ist da explizit: Tool-Beschreibungen und Interfaces formen das Modellverhalten stark.[9] Long-Context-Prompting-Guidance macht ähnliche Empfehlungen für XML-Tagging, Quellenlabeling und klar getrennte Dokumentabschnitte.[12]</p>\n<p>In der Praxis bedeutet Struktur:</p>\n<ul>\n<li>Quellen labeln</li>\n<li>Anweisungen von Daten trennen</li>\n<li>Komplexe Dokumente in konsistentem Markup wrappen</li>\n<li>Tabellen als Tabellen erhalten, wenn sie wichtig sind</li>\n<li>Zitate und Metadaten mit Beweisen zurückgeben</li>\n</ul>\n<p>Ein kurzes, gut gelabeltes Ergebnis schlägt oft einen riesigen JSON-Blob.</p>\n<h3>3. Compression</h3>\n<p>Die dritte Aufgabe ist, Kontext zu reduzieren, ohne das Wichtige zu zerstören.</p>\n<p>Hier werden viele Agentensysteme entweder viel besser oder viel schlechter.</p>\n<p>Compression kann bedeuten:</p>\n<ul>\n<li>Frühere Wendungen zusammenfassen</li>\n<li>Veraltete Historie trimmen</li>\n<li>Nur die letzten Nutzerwendungen wörtlich behalten</li>\n<li>Dauerhafte Fakten aus langen Threads extrahieren</li>\n<li>Stabile Prefixes cachen, um Kosten und Latenz zu senken</li>\n</ul>\n<p>OpenAIs Prompt-Caching-Dokumentation zeigt, dass Prompt-Reihenfolge sowohl ökonomisch als auch kognitiv wichtig ist: Statische, geteilte Prefixes sind billiger und schneller, wenn sie vorne platziert werden, weil Cache-Hits von exakter Prefix-Wiederverwendung abhängen.[13] OpenAIs neuere Responses-API-Arbeit an Compaction treibt dieselbe Idee weiter, indem langlaufende Agenten-Historie als etwas behandelt wird, das vor dem Füllen des Fensters in eine token-effizientere Repräsentation komprimiert werden sollte.[14]</p>\n<p>Compression ist nicht optional. Die einzige Frage ist, ob Sie sie bewusst machen oder das Kontextfenster sich selbst degradieren lassen.</p>\n<h3>4. Memory</h3>\n<p>Die vierte Aufgabe ist zu entscheiden, was über die aktuelle Wendung hinaus persistieren soll.</p>\n<p>Hier machen viele Teams denselben Fehler: Sie verwechseln Gedächtnis mit Transkript-Aufbewahrung.</p>\n<p>Aber gutes Gedächtnis ist nicht „alles für immer behalten“. LongMemEval rahmt Langzeitgedächtnis als Drei-Stufen-Problem: Indexierung, Retrieval und Lesen.[4] Das ist der richtige Weg, darüber nachzudenken. Ein Memory-System sollte dem Modell helfen, die richtige vorherige Tatsache im richtigen Moment wiederzufinden, nicht es in der kompletten Vergangenheit zu ertränken.</p>\n<p>Das führt zu einer nützlichen Unterscheidung:</p>\n<ul>\n<li><strong>Working Memory</strong>: Der Kurzzeitkontext, der für die aktuelle Aufgabe gebraucht wird</li>\n<li><strong>Reference Memory</strong>: Externalisierte Fakten, Zusammenfassungen, Notizen oder Artefakte, die später neu geladen werden können</li>\n</ul>\n<p>Wenn alles im Working Memory bleibt, wird das Modell abgelenkt.\nWenn alles hinausgeschoben wird, verliert das Modell Kontinuität.</p>\n<p>Context Engineering entscheidet, was in welche Schicht gehört.</p>\n<h3>5. Tool and Interface Design</h3>\n<p>Die fünfte Aufgabe ist, Tools für das Modell lesbar zu machen.</p>\n<p>Das ist ein unterschätzter Teil der Disziplin. Eine Tool-Oberfläche ist nicht nur Software-API-Design. Sie ist auch Kontext-Design.</p>\n<p>Das Modell muss verstehen:</p>\n<ul>\n<li>was das Tool tut</li>\n<li>wann es es zu nutzen hat</li>\n<li>was jeder Parameter bedeutet</li>\n<li>was der Output impliziert</li>\n<li>was als Nächstes zu tun ist, nachdem es das Ergebnis gesehen hat</li>\n</ul>\n<p>Darum sind Tool-Beschreibungen so wichtig.[9] Darum ist auch Jason Lius Betonung von Tool-Ergebnissen wichtig.[10] Der Output eines Tools beantwortet nicht nur die aktuelle Anfrage. Er lehrt den Agenten, wie er über die nächste Anfrage nachdenken soll.</p>\n<p>Wenn die Tool-Oberfläche durch ein Protokoll wie MCP standardisiert wird, wird das noch wichtiger. MCP macht es einfacher, Tools, Ressourcen und Prompts mit LLM-Anwendungen zu verbinden, aber es entscheidet nicht, welche Informationen aufbereitet werden sollen, wie sie gefiltert werden oder wie viel davon in den nächsten Modellaufruf injiziert werden soll.[15] Das Protokoll ist die Infrastruktur. Context Engineering bleibt das Handwerk.</p>\n<h3>6. Isolation and Orchestration</h3>\n<p>Die sechste Aufgabe ist zu entscheiden, wann Kontext <em>nicht</em> geteilt werden soll.</p>\n<p>Das ist einer der größten Unterschiede zwischen Spielzeug-Demos und Produktions-Agenten.</p>\n<p>Manchmal ist die richtige Antwort nicht ein größerer geteilter Prompt. Es sind mehrere kleinere Prompts mit isolierten Scopes.</p>\n<p>Anthropics Multi-Agent-Research-System ist ein starkes Beispiel.[16] Ihre Subagenten laufen parallel mit separaten Kontextfenstern, was ihnen hilft, verschiedene Zweige eines Problems zu erkunden, ohne sich gegenseitig mit jedem Zwischendetail zu kontaminieren. LangChain beschreibt ein ähnliches Muster unter „isolate“: Manchmal ist der beste Weg, Agenten-Zuverlässigkeit zu verbessern, Kontexte zu splitten statt sie anzuhäufen.[17]</p>\n<p>Das ist wichtig, weil geteilter Kontext einen versteckten Kostenpunkt hat. Er schafft Pfadabhängigkeit. Ein einzelner schlechter Zweig kann den nächsten Schritt beeinflussen, und den nächsten, und den nächsten.</p>\n<p>Isolation ist ein Weg, die Blast Radius zu begrenzen.</p>\n<h2>Was sich 2026 geändert hat</h2>\n<p>2025 war Context Engineering meist ein nützlicher Name für ein Problem, das Leute bereits spürten. 2026 beginnt es, sich zu einer Architektur zu verfestigen.</p>\n<p>Der erste große Shift ist, dass Builder dauerhaften Zustand <strong>außerhalb</strong> des rohen Kontextfensters verschieben. Anthropics Context-Editing- und Memory-Tool trennen explizit, was live im Working Window bleibt, von dem, was über Sessions persistieren soll.[18] OpenAIs Januar-2026-Cookbook zur Personalisierung macht denselben Move in anderer Form: strukturierte Zustandsobjekte, die über Runs persistieren und bewusst zu Beginn jedes Runs zurück ins Working Memory injiziert werden.[19] OpenAIs Responses API treibt das dann mit nativer Compaction einen Schritt weiter, damit langlaufende Agenten-Loops nicht von jedem Team ein eigenes Zusammenfassungs-Subsystem von Grund auf bauen müssen.[14]</p>\n<p>Anthropics Managed Agents macht das zugrunde liegende Muster ungewöhnlich explizit: <strong>Die Session ist nicht das Kontextfenster des Modells</strong>.[20] Das ist eine kritische 2026-Idee. Das Fenster ist transientes Arbeitsgedächtnis. Das Session-Log ist das dauerhafte Objekt. Der Harness entscheidet, wie dieser dauerhafte Kontext geschnitten, komprimiert und für den nächsten Modellaufruf rehydriert wird.</p>\n<p>Der zweite Shift ist, dass Retrieval <strong>just in time</strong> und interface-nativer wird. Anstatt jeden möglicherweise relevanten Token vorzuladen, geben Teams Agenten Retrieval-Oberflächen, die sie bereits bedienen können. Mintlifys ChromaFs ist ein gutes Beispiel: Statt einen vollen Sandbox für Dokumenten-Retrieval zu booten, präsentiert es Docs als virtuelles Dateisystem, navigierbar mit <code>ls</code>, <code>cat</code> und <code>grep</code>, was p90 Session Creation von etwa 46 Sekunden auf etwa 100 Millisekunden senkt.[21] Turso's AgentFS treibt dieselbe Intuition in Richtung allgemeiner Agenten-Ausführung: eine Copy-on-Write-Dateisystem-Abstraktion mit portabler Single-File-Speicherung und eingebautem Auditing.[22]</p>\n<p>Der dritte Shift ist, dass <strong>Context Graphs</strong> zu einer Implementierungsrichtung werden, nicht nur einer Metapher. Foundation Capitals These machte den Begriff sichtbar, aber die stärkere Behauptung ist architektonisch: Wenn Agenten im Ausführungspfad sitzen, können sie Entscheidungsspuren als dauerhafte Artefakte erfassen, nicht nur finale Outputs emittieren.[26][27] Open-Source-Systeme wie Graphiti und kommerzielle Plattformen wie Zep operationalisieren das als temporale Kontext-Graphen mit Validity Windows, Provenance-Episoden und hybridem Retrieval über Semantik, Keywords und Graph-Struktur.[23] TrustGraph geht einen verwandten Ansatz, indem es Kontext als versioniertes Artefakt behandelt: Graph, Embeddings, Evidence und Policies gebündelt in portable „Context Cores“, die wie Build-Outputs promoted oder zurückgerollt werden können.[24][25]</p>\n<p>Der vierte Shift ist, dass Context Engineering jetzt in realer Software-Praxis sichtbar ist, nicht nur in Plattform-Blogs. Die 2026er-MSR-Arbeit über Context Engineering in Open-Source-Software untersuchte 466 Repositories und fand, dass KI-Kontextdateien wie <code>AGENTS.md</code> sich verbreiten, aber noch keine stabile Inhaltsstruktur haben.[28] Das ist wichtig, weil es einen Move von Theorie zu operativen Artefakten markiert. Kontext ist nicht länger nur etwas, das zur Laufzeit inferiert wird. Er wird verfasst, versioniert, reviewed und gemined als Teil des Software-Lebenszyklus.</p>\n<p>Wenn Sie das 2026er-Mentalmodell in einem Bild wollen, sieht es so aus:</p>\n<pre><code class=\"language-mermaid\">flowchart LR\n    E[\"Session log / events\"] --&gt; A[\"Context assembler\"]\n    F[\"Files, docs, and tools\"] --&gt; A\n    G[\"Context graph / memory\"] --&gt; A\n    P[\"Policies and AGENTS.md\"] --&gt; A\n\n    A --&gt; W[\"Working context window\"]\n    W --&gt; X[\"Agent action\"]\n\n    X --&gt; E\n    X --&gt; G\n</code></pre>\n<p>Das ist eine sehr andere Architektur als „Prompt + Vektor-Suche“.</p>\n<h2>Wo Context Graphen tatsächlich passen</h2>\n<p>Ein Grund, warum diese Diskussion matschig wird, ist, dass Leute <strong>Context Engineering</strong> und <strong>Context Graph</strong> so verwenden, als ob sie dasselbe bedeuten. Tun sie nicht.</p>\n<p>Context Engineering ist die breitere Disziplin. Es ist die Arbeit zu entscheiden, was ins nächste Kontextfenster kommt, was draußen bleibt, was komprimiert wird und was on demand abgerufen wird.</p>\n<p>Ein Context Graph ist ein mögliches Langzeitgedächtnis-Substrat innerhalb dieses größeren Systems.</p>\n<p>Diese Unterscheidung ist wichtig, weil nicht jeder nützliche Agent einen Context Graph braucht. Ein Dokumentationsassistent über größtenteils statische Inhalte mag gutes Retrieval, Tool-Design und Compaction brauchen, aber keinen Graphen. Ein Coding-Agent kommt überraschend weit mit Repository-Anweisungen, einem dauerhaften Session-Log und einer Dateisystem-Abstraktion.[20][21][22][28]</p>\n<p>Context Graphen werden überzeugend, wenn das Problem vier Eigenschaften hat:</p>\n<ul>\n<li><strong>Temporale Wahrheit ist wichtig.</strong> Sie müssen nicht nur wissen, was jetzt wahr ist, sondern was zum Zeitpunkt der Entscheidung wahr war.[23]</li>\n<li><strong>Provenance ist wichtig.</strong> Sie müssen Fakten zurückverfolgen können zur Episode, dem Dokument oder der Interaktion, die sie produzierte.[23][24]</li>\n<li><strong>Präzedenz ist wichtig.</strong> Die Aufgabe hängt davon ab, wie ähnliche Fälle zuvor behandelt wurden, einschließlich Ausnahmen und Genehmigungen.[26][27]</li>\n<li><strong>Cross-Entity-Reasoning ist wichtig.</strong> Das nützliche Gedächtnis ist keine flache Notiz, sondern ein Netzwerk von Personen, Policies, Incidents, Accounts, Tickets und Outcomes.[23][25]</li>\n</ul>\n<p>Darum ist die beste Definition eines Context Graphen meiner Meinung nach nicht „eine Graphdatenbank für KI“. Es ist eine <strong>dauerhafte Repräsentation von Präzedenz</strong>.</p>\n<p>Darum sind auch Decision Traces so wichtig. Foundation Capitals Rahmen ist hier nützlich: Regeln sagen dem Agenten, was im Allgemeinen passieren sollte; Decision Traces sagen ihm, was in einem spezifischen Fall unter realen Einschränkungen mit realen Ausnahmen passiert ist.[26] Sobald diese Traces über Entitäten und Zeit verknüpft sind, bekommt man etwas viel Wertvolleres als generisches Gedächtnis. Man bekommt durchsuchbares Urteilsvermögen.</p>\n<h2>Wie ich es 2026 bauen würde</h2>\n<p>Wenn ich heute einen ernsthaften Context-Engineering-Stack bauen würde, würde ich nicht mit dem Graphen anfangen. Ich würde mit den Interfaces und Promotion-Regeln anfangen.</p>\n<h3>1. Zuerst eine dauerhafte Session-Schicht bauen</h3>\n<p>Jede Aktion, jedes Tool-Ergebnis, jede Beobachtung und jedes wichtige Zwischenartefakt sollte in einem append-only Session-Log oder Event-Store landen. Das ist Ihr wiederherstellbares Kontextobjekt.[14][20]</p>\n<p>Verwechseln Sie nicht das aktive Kontextfenster mit der Source of Truth.</p>\n<p>Das Fenster ist zum Reasoning.\nDie Session ist für Recovery, Replay, Debugging und selektive Rehydration.</p>\n<h3>2. Den Context Assembler als Product Surface behandeln</h3>\n<p>Der Assembler sollte explizit managen:</p>\n<ul>\n<li>Token-Budgets</li>\n<li>Quellenpriorität</li>\n<li>Freshness</li>\n<li>Compaction-Thresholds</li>\n<li>Historie-Trimming</li>\n<li>Zitationsformatierung</li>\n<li>Cache-aware Ordering</li>\n</ul>\n<p>Das ist die Schicht, die entscheidet, was das Modell <em>jetzt</em> sieht. Sie sollte beobachtbar, testbar und billig zu ändern sein.[18][19][14]</p>\n<h3>3. Just-in-Time-Retrieval gegenüber Eager Stuffing bevorzugen</h3>\n<p>Geben Sie dem Modell zuerst leichtgewichtige Handles: Dateipfade, Objekt-IDs, URLs, Query-Templates, Ticket-IDs, Incident-IDs. Dann lassen Sie es Details nur ziehen, wenn nötig.[9][18][21]</p>\n<p>Hier werden Dateisysteme, MCP-Tools, Search-APIs und strukturierte Queries wertvoller als riesige Top-K-Dumps.</p>\n<h3>4. Nur hochwertigen Zustand in Langzeitgedächtnis promoten</h3>\n<p>Nicht alles sollte Gedächtnis werden.</p>\n<p>Ich würde vier Klassen von Artefakten promoten:</p>\n<ul>\n<li>stabile Nutzer- oder Account-Präferenzen</li>\n<li>dauerhafte Fakten mit Provenance</li>\n<li>wichtige Zwischenzusammenfassungen</li>\n<li>Decision Traces und Ausnahmen</li>\n</ul>\n<p>Alles andere sollte im Session-Log bleiben, bis es beweist, dass es Promotion verdient.</p>\n<h3>5. Den Context Graph als promoted Memory Layer bauen</h3>\n<p>Das ist der Teil, den viele Teams invertieren.</p>\n<p>Der Graph sollte nicht Ihr rohes Transkript in Graph-Form sein. Er sollte die kuratierte Schicht sein, die über Sessions und unterhalb der Echtzeit-Assembly sitzt:</p>\n<ul>\n<li>Entitäten</li>\n<li>Beziehungen</li>\n<li>Zeitgültigkeit</li>\n<li>Quell-Episoden</li>\n<li>Genehmigungen</li>\n<li>Ausnahmen</li>\n<li>Outcomes</li>\n</ul>\n<p>Wenn Sie den Promotion-Schritt überspringen, wird der Graph zur Müllhalde.\nWenn Sie Promotion richtig machen, wird der Graph zum Gedächtnis dafür, wie die Organisation tatsächlich reasoniert.[23][26]</p>\n<h3>6. Kontext wie Code packagieren</h3>\n<p>Bis 2026 ist eine der vielversprechendsten Ideen, Kontext als versioniertes Artefakt zu behandeln. In Software-Projekten zeigt sich das als <code>AGENTS.md</code> und andere repository-spezifische Kontextdateien.[28] In graph-nativen Systemen zeigt es sich als Context Cores: portable Bündel aus Ontologie, Graph-Struktur, Embeddings, Provenance und Retrieval-Policy.[24][25]</p>\n<p>Das ist wichtig, weil Kontextänderungen dieselbe operative Disziplin brauchen wie Codeänderungen:</p>\n<ul>\n<li>Review</li>\n<li>Versionierung</li>\n<li>Rollback</li>\n<li>Environment-Promotion</li>\n<li>Evaluierung</li>\n</ul>\n<p>Sobald Kontext ein Artefakt wird, wird er regierbar.</p>\n<h3>7. Observability von Intelligence trennen</h3>\n<p>Sie brauchen beides:</p>\n<ul>\n<li><strong>Observability des Agenten-Runs</strong></li>\n<li><strong>Observability des Kontextsystems</strong></li>\n</ul>\n<p>Das sind nicht dasselbe.</p>\n<p>Ich will wissen:</p>\n<ul>\n<li>was das Modell sah</li>\n<li>was es nicht sah</li>\n<li>was komprimiert wurde</li>\n<li>was just in time abgerufen wurde</li>\n<li>was in Gedächtnis promotet wurde</li>\n<li>welche Graph-Nachbarschaft traversiert wurde</li>\n<li>welches Präzedenz tatsächlich die Aktion beeinflusst hat</li>\n</ul>\n<p>Wenn Sie diese Fragen nicht beantworten können, debuggen Sie immer noch Prompts im Dunkeln.</p>\n<h2>Ein praktisches Reifegradmodell</h2>\n<p>Wenn Sie versuchen, einzuschätzen, wo Ihr eigenes System steht, ist dieses Reifegradmodell nützlicher als abstrakte Definitionen.</p>\n<h3>Level 0: Prompt-Only</h3>\n<p>Sie haben einen System-Prompt, eine Nutzernachricht und vielleicht ein paar Beispiele.</p>\n<p>Das kann für enge Aufgaben überraschend gut funktionieren. Es bricht schnell, wenn die Aufgabe frisches Wissen, Persistenz oder Tools braucht.</p>\n<h3>Level 1: Retrieval-Enhanced</h3>\n<p>Sie fügen zur Laufzeit Dokumente hinzu.</p>\n<p>Das ist, wo viele Teams aufhören. Es ist auch, wo viele Teams die Limitationen von naivem Chunking, Ranking und Context Bloat sehen.</p>\n<h3>Level 2: Agent-Aware</h3>\n<p>Sie managen jetzt absichtlich Historie, Tool-Ergebnisse, Gedächtnis und Formatierung.</p>\n<p>Das ist das erste Level, wo „Context Engineering“ ein nützlicher Begriff wird, weil das System nicht länger nur Prompt plus Retrieval ist. Es baut dynamisch mehrere Formen von Kontext zusammen.</p>\n<h3>Level 3: Adaptive</h3>\n<p>Das System ändert, wie es Kontext baut, basierend auf der Aufgabe.</p>\n<p>Es kann:</p>\n<ul>\n<li>unter Quellen wählen</li>\n<li>ältere Historie komprimieren</li>\n<li>Gedächtnis selektiv neu laden</li>\n<li>Arbeit an spezialisierte Tools routen</li>\n<li>Teilprobleme in isolierte Kontexte splitten</li>\n</ul>\n<p>An diesem Punkt ist Kontext-Konstruktion Teil der Kernlogik der Anwendung.</p>\n<h3>Level 4: Context-Native</h3>\n<p>Das System behandelt Kontext als first-class Engineering Surface.</p>\n<p>Es hat:</p>\n<ul>\n<li>explizite Kontext-Budgets</li>\n<li>Retrieval- und Generation-Evals</li>\n<li>Metadaten- und Facet-aware Navigation</li>\n<li>Memory-Policies</li>\n<li>Observability um Failure Modes</li>\n<li>Cost-aware Prompt Assembly</li>\n</ul>\n<p>Das ist, wo die stärksten Produktionssysteme hinfahren.</p>\n<h2>Wie gutes Context Engineering in der Praxis aussieht</h2>\n<p>Wenn ich die ganze Disziplin auf eine Checkliste reduzieren müsste, würde sie so aussehen:</p>\n<ol>\n<li>Beginnen Sie mit der Aufgabe, nicht dem Prompt. Definieren Sie zuerst, wie Erfolg aussieht.</li>\n<li>Zählen Sie die Kontextquellen auf, die das Modell brauchen könnte. Anweisungen, Docs, Tools, Gedächtnis, Zustand, Policies.</li>\n<li>Trennen Sie Working Memory von Reference Memory. Nicht alles sollte im aktiven Fenster leben.</li>\n<li>Retrieven Sie mit Absicht. Mehr Chunks ist nicht dasselbe wie besseres Recall.</li>\n<li>Strukturieren Sie Kontext so, dass das Modell ihn schnell parsen kann. Labels, Quellen, Tabellen und Grenzen zählen.</li>\n<li>Designen Sie Tools so, als wären sie Teil des Prompts, denn das sind sie.</li>\n<li>Trimmen Sie aggressiv. Wenn Sie einen Menschen nicht bitten würden, es nochmal zu lesen, zwingen Sie das Modell nicht dazu.</li>\n<li>Messen Sie Retrieval und Generation getrennt. Sonst diagnostizieren Sie das falsche Problem.</li>\n<li>Verwenden Sie isolierte Kontexte, wenn Aufgaben verzweigen oder parallel laufen können.</li>\n<li>Promoten Sie dauerhafte Fakten und Decision Traces absichtlich. Nicht jedes Transkript gehört ins Langzeitgedächtnis.</li>\n<li>Packen Sie kritischen Kontext wie Code. Anweisungen, Policies und Graph-Artefakte sollten versioniert sein.</li>\n<li>Behandeln Sie Kontext-Bugs wie Software-Bugs. Sie sollten beobachtbar, reproduzierbar und fixbar sein.</li>\n</ol>\n<p>Nichts davon ist glamourös. Genau deshalb zählt es.</p>\n<p>Prompt Engineering wurde populär, weil es wie eine Abkürzung klang.</p>\n<p>Context Engineering zählt, weil es die tatsächliche Arbeit beschreibt.</p>\n<h2>Die wirkliche Erkenntnis</h2>\n<p>Der Schwerpunkt in der KI verschiebt sich.</p>\n<p>Die Frontier-Frage war früher: <strong>Wie schlau ist das Modell?</strong></p>\n<p>Die angewandte Frage ist zunehmend: <strong>Was bekommt das Modell zu sehen, bevor es handeln muss?</strong></p>\n<p>Das ist ein anderes Engineering-Problem. Es geht weniger um einzelne Prompts und mehr um Systemdesign. Weniger um Formulierung und mehr um Informationsfluss. Weniger um One-Shot-Output-Qualität und mehr darum, ob ein Agent über Zeit zuverlässig bleiben kann.</p>\n<p>Darum wird Context Engineering als Disziplin weiter wachsen. Je besser die Modelle werden, desto mehr der verbleibenden Fehler sehen wie Kontextfehler aus. Fehlender Zustand. Falsches Tool. Schlechtes Retrieval. Aufgeblähte Historie. Schlechte Formatierung. Widersprüchliche Beweise. Schwaches Gedächtnis. Unbegrenzte Loops.</p>\n<p>Die Ironie ist, dass das KI-Systeme <em>mehr</em> wie klassische Software fühlen lässt, nicht weniger. Wir sind zurück dabei, Pipelines, Interfaces, Zustandsmaschinen, Memory-Hierarchien, Caches und Observability-Schichten zu bauen. Das Neue ist, dass all diese Stücke jetzt im Dienst einer probabilistischen Reasoning-Engine existieren.</p>\n<p>Der Name mag neu sein. Die Richtung nicht.</p>\n<p>Zuverlässige KI-Systeme werden von Teams gebaut, die Kontext als first-class Product Surface behandeln.</p>\n<p>Alle anderen werden das Modell weiterhin als unzuverlässig bezeichnen.</p>\n<p><strong>References:</strong></p>\n<p>[1] <a href=\"https://simonwillison.net/2025/Jun/27/context-engineering/\">Simon Willison. (2025, June 27). <em>Context engineering</em>.</a></p>\n<p>[2] <a href=\"https://arxiv.org/abs/2005.11401\">Lewis, P. et al. (2020). <em>Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks</em>.</a></p>\n<p>[3] <a href=\"https://arxiv.org/abs/2210.03629\">Yao, S. et al. (2023). <em>ReAct: Synergizing Reasoning and Acting in Language Models</em>.</a></p>\n<p>[4] <a href=\"https://arxiv.org/abs/2410.10813\">Wu, D. et al. (2025). <em>LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory</em>.</a></p>\n<p>[5] <a href=\"https://arxiv.org/abs/2307.03172\">Liu, N. F. et al. (2023). <em>Lost in the Middle: How Language Models Use Long Contexts</em>.</a></p>\n<p>[6] <a href=\"https://arxiv.org/abs/2411.03538\">Leng, Q. et al. (2024). <em>Long Context RAG Performance of Large Language Models</em>.</a></p>\n<p>[7] <a href=\"https://www.trychroma.com/research/context-rot\">Hong, K., Troynikov, A., and Huber, J. (2025, July 14). <em>Context Rot: How Increasing Input Tokens Impacts LLM Performance</em>.</a></p>\n<p>[8] <a href=\"https://blog.langchain.com/the-rise-of-context-engineering\">LangChain. (2025, June 23). <em>The rise of \"context engineering\"</em>.</a></p>\n<p>[9] <a href=\"https://docs.anthropic.com/en/docs/agents-and-tools/tool-use/implement-tool-use\">Anthropic. <em>How to implement tool use</em>.</a></p>\n<p>[10] <a href=\"https://jxnl.co/writing/2025/08/27/facets-context-engineering/\">Jason Liu. (2025, August 27). <em>Beyond Chunks: Why Context Engineering is the Future of RAG</em>.</a></p>\n<p>[11] <a href=\"https://arxiv.org/abs/2407.12883\">Su, H. et al. (2025). <em>BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval</em>.</a></p>\n<p>[12] <a href=\"https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/long-context-tips\">Anthropic. <em>Long context prompting tips</em>.</a></p>\n<p>[13] <a href=\"https://platform.openai.com/docs/guides/prompt-caching\">OpenAI. <em>Prompt caching</em>.</a></p>\n<p>[14] <a href=\"https://openai.com/index/equip-responses-api-computer-environment\">OpenAI. (2026, March 19). <em>From model to agent: Equipping the Responses API with a computer environment</em>.</a></p>\n<p>[15] <a href=\"https://modelcontextprotocol.io/\">Model Context Protocol. <em>What is the Model Context Protocol (MCP)?</em></a></p>\n<p>[16] <a href=\"https://www.anthropic.com/engineering/built-multi-agent-research-system\">Anthropic. (2025, June 13). <em>How we built our multi-agent research system</em>.</a></p>\n<p>[17] <a href=\"https://blog.langchain.com/context-engineering-for-agents/\">LangChain. (2025, July 2). <em>Context Engineering</em>.</a></p>\n<p>[18] <a href=\"https://claude.com/blog/context-management\">Anthropic. (2025, September 29). <em>Managing context on the Claude Developer Platform</em>.</a></p>\n<p>[19] <a href=\"https://developers.openai.com/cookbook/examples/agents_sdk/context_personalization\">Okcular, E. (2026, January 5). <em>Context Engineering for Personalization - State Management with Long-Term Memory Notes using OpenAI Agents SDK</em>.</a></p>\n<p>[20] <a href=\"https://www.anthropic.com/engineering/managed-agents\">Anthropic. <em>Scaling Managed Agents: Decoupling the brain from the hands</em>.</a></p>\n<p>[21] <a href=\"https://www.mintlify.com/blog/how-we-built-a-virtual-filesystem-for-our-assistant\">Mintlify. (2026, March 24). <em>How we built a virtual filesystem for our Assistant</em>.</a></p>\n<p>[22] <a href=\"https://docs.turso.tech/agentfs/introduction\">Turso. <em>AgentFS</em>.</a></p>\n<p>[23] <a href=\"https://github.com/getzep/graphiti\">Zep. <em>Graphiti: Build Real-Time Knowledge Graphs for AI Agents</em>.</a></p>\n<p>[24] <a href=\"https://github.com/trustgraph-ai/trustgraph\">TrustGraph. <em>The context development platform</em>.</a></p>\n<p>[25] <a href=\"https://docs.trustgraph.ai/guides/context-cores/\">TrustGraph. <em>Working with Context Cores</em>.</a></p>\n<p>[26] <a href=\"https://foundationcapital.com/ideas/context-graphs-ais-trillion-dollar-opportunity\">Gupta, J., and Garg, A. (2025, December 22). <em>AI's trillion-dollar opportunity: Context graphs</em>.</a></p>\n<p>[27] <a href=\"https://foundationcapital.com/ideas/why-context-graphs-are-the-missing-layer-for-ai\">Garg, A. (2026, January 16). <em>Why context graphs are the missing layer for AI</em>.</a></p>\n<p>[28] <a href=\"https://arxiv.org/abs/2510.21413\">Mohsenimofidi, S., Galster, M., Treude, C., and Baltes, S. (2026). <em>Context Engineering for AI Agents in Open-Source Software</em>.</a></p>",
  "source_hash": "sha256:06439831ac1517be8133283f1d00da17f9c53f69c1ad451e26852bea67244ceb",
  "model": "moonshotai/kimi-k2.6",
  "generated_at": "2026-06-10T20:58:18.197247+00:00"
}