{
  "title": "Ingeniería de Contexto: Por Qué la Ingeniería de Prompts Nunca Fue Suficiente",
  "excerpt": "Para 2026, el verdadero trabajo en los sistemas de IA modernos no es escribir un prompt ingenioso. Es decidir qué ve el modelo, cuándo lo ve, y cómo ese contexto se estructura, persiste y se convierte en memoria duradera.",
  "content_html": "<p>Durante un tiempo, la \"ingeniería de prompts\" fue el nombre que le dimos al arte de obtener buenos resultados de los grandes modelos de lenguaje. Tenía sentido en los primeros días. La mayoría de las personas usaban interacciones de un solo turno, y la palanca principal realmente parecía ser la redacción: preguntar con más claridad, agregar un ejemplo, restringir el formato, y el modelo se comportaba mejor.</p><p>Ese enfoque ya es demasiado pequeño para el problema real.</p><p>Cuando un sistema de IA falla en producción, el problema generalmente no es que el modelo necesitaba una oración más ingeniosa en el prompt del sistema. El problema es que el modelo no vio la información correcta, vio demasiada información irrelevante, vio la información correcta en el formato equivocado, o no pudo llevar el estado correcto de un paso al siguiente. En otras palabras, el problema no era solo el prompt. El problema era el <strong>pipeline de contexto completo</strong>.</p><p>Por eso el término <strong>ingeniería de contexto</strong> ha ganado popularidad. La frase entró en la discusión mainstream de IA a mediados de 2025, cuando Tobi Lütke y Andrej Karpathy argumentaron que la \"ingeniería de prompts\" subestimaba el trabajo real involucrado en construir sistemas LLM confiables.[1] Pero la disciplina subyacente es más antigua que el nombre. Si has construido RAG, llamadas a herramientas, sistemas de memoria, resumen o bucles de evaluación, ya has hecho partes de la ingeniería de contexto. Lo que cambió es que finalmente tenemos un nombre que describe el trabajo completo.</p><h2>Un Modelo Mental Simple</h2><p>Si quieres la imagen más simple posible, la ingeniería de contexto es la capa entre el mundo exterior y la memoria de trabajo del modelo.</p><pre><code class=\"language-mermaid\">flowchart TD\n    U[\"Solicitud del usuario\"] --&gt; CE[\"Motor de contexto\"]\n\n    I[\"Instrucciones y políticas\"] --&gt; CE\n    R[\"Conocimiento recuperado\"] --&gt; CE\n    M[\"Memoria y estado guardado\"] --&gt; CE\n    T[\"Definiciones y resultados de herramientas\"] --&gt; CE\n    H[\"Historial reciente de conversación\"] --&gt; CE\n\n    CE --&gt; W[\"Ventana de contexto del modelo\"]\n    W --&gt; L[\"El LLM razona y actúa\"]\n    L --&gt; O[\"Respuesta o llamada a herramienta\"]\n    O --&gt; S[\"Nueva memoria, logs y estado\"]\n    S --&gt; CE</code></pre><p>Ese es todo el juego.</p><p>El modelo es el motor de razonamiento. El motor de contexto decide sobre qué razona el modelo.</p><h2>El Nombre Es Nuevo. El Trabajo No.</h2><p>Una razón por la que el término resuena es que une varios hilos que habían estado evolucionando por separado.</p><p>La Generación Aumentada por Recuperación, o RAG, nos enseñó que los modelos necesitan acceso a conocimiento externo en tiempo de inferencia.[2] ReAct nos enseñó que el razonamiento y la acción funcionan mejor cuando los modelos pueden llamar herramientas, observar resultados y continuar desde allí.[3] La investigación sobre memoria nos enseñó que los asistentes de larga duración necesitan estrategias de indexación, recuperación y lectura en lugar de acumulación interminable de transcripciones.[4] La evaluación de contexto largo mostró que simplemente meter más tokens en un modelo no es lo mismo que darle mejor memoria de trabajo.[5][6][7]</p><p>Visto así, la ingeniería de contexto no es un reemplazo de esas ideas. Es el paraguas que las cubre a todas.</p><p>Ese paraguas importa porque los sistemas de IA modernos ya no son prompts aislados. Son sistemas dinámicos que ensamblan instrucciones, documentos, datos estructurados, salidas de herramientas y estado previo en una ventana de contexto temporal para el siguiente paso. LangChain lo describió bien cuando definió la ingeniería de contexto como el trabajo de proporcionar la información y las herramientas correctas en el formato correcto para que el LLM pueda completar la tarea de manera plausible.[8]</p><p>La frase \"completar la tarea de manera plausible\" hace mucho trabajo ahí. Es la prueba correcta.</p><p>Si un agente falla, la primera pregunta no debería ser: \"¿Cómo hago el prompt más inteligente?\"</p><p>La primera pregunta debería ser: \"¿Realmente le di al modelo lo que necesitaba para tener éxito?\"</p><h2>Por Qué la Ingeniería de Prompts Se Volvió Demasiado Pequeña</h2><p>La ingeniería de prompts sigue importando. Solo se convirtió en un subconjunto de una disciplina más amplia.</p><p>El modelo mental antiguo era:</p><table><thead><tr><th>Ingeniería de prompts</th><th>Ingeniería de contexto</th></tr></thead><tbody><tr><td>Escribir mejores instrucciones</td><td>Construir el entorno de información completo</td></tr><tr><td>Enfocarse en una sola solicitud</td><td>Enfocarse en sistemas de múltiples pasos</td></tr><tr><td>Mayormente estático</td><td>Dinámico y con estado</td></tr><tr><td>Optimizar la redacción</td><td>Optimizar selección, estructura, memoria y herramientas</td></tr><tr><td>Mejorar una sola llamada al modelo</td><td>Mejorar el bucle completo</td></tr></tbody></table><p>Esta distinción se vuelve obvia en el momento en que construyes un agente.</p><p>Supón que estás construyendo un agente de soporte para software empresarial. El usuario pregunta: \"¿Por qué nuestras solicitudes de API están agotando el tiempo de espera?\"</p><p>Si piensas solo en términos de prompt, podrías mejorar la redacción:</p><ul><li>Pedir al modelo que sea conciso</li><li>Pedirle que cite evidencia</li><li>Pedirle que piense paso a paso</li></ul><p>Esas son mejoras válidas. Pero no son suficientes.</p><p>Las preguntas reales del sistema son más difíciles:</p><ul><li>¿Tiene el agente acceso a los runbooks de incidentes?</li><li>¿Puede ver los últimos logs y páginas de estado?</li><li>¿Sabe a qué nivel de cliente pertenece esta cuenta?</li><li>¿Recuerda los turnos anteriores de la conversación?</li><li>¿Puede consultar el sistema de tickets?</li><li>¿Puede distinguir documentos obsoletos de los actuales?</li><li>Si obtiene demasiado contexto, ¿qué se recorta?</li></ul><p>Eso es ingeniería de contexto.</p><p>El prompt es un elemento dentro de ella.</p><h2>Qué Cuenta Como Contexto</h2><p>En la práctica, el contexto incluye todo lo que el modelo ve en tiempo de inferencia, no solo el prompt visible.[8][9]</p><p>Eso generalmente significa:</p><ul><li>Instrucciones del sistema</li><li>La solicitud actual del usuario</li><li>Documentos recuperados</li><li>Datos estructurados como JSON, tablas, esquemas y registros</li><li>Definiciones de herramientas</li><li>Salidas de herramientas</li><li>Historial reciente de conversación</li><li>Memoria a largo plazo o notas guardadas</li><li>Restricciones de seguridad, políticas y formato</li><li>Estado del entorno como archivos, pestañas, tickets o directorios de trabajo</li></ul><p>Por eso la frase \"llenar la ventana de contexto\" se ha vuelto tan central. La ventana de contexto no es solo un lugar donde va el texto. Es la memoria de trabajo temporal del modelo. Todo lo que entra en ella compite por atención.</p><p>Y la competencia es la palabra clave.</p><p>Cada token adicional no es simplemente información adicional. También es distracción adicional.</p><h2>Por Qué las Ventanas de Contexto Más Grandes No Resolvieron el Problema</h2><p>Uno de los malentendidos más comunes en el mercado actual de IA es que las ventanas de contexto más grandes hicieron que la ingeniería de contexto fuera menos importante.</p><p>La investigación apunta en la dirección opuesta.</p><p><em>Lost in the Middle</em> mostró que los modelos a menudo usan contextos largos de manera desigual, rindiendo mejor cuando la información relevante aparece cerca del principio o del final, y peor cuando la información importante está en el medio.[5] El estudio de RAG de contexto largo de Databricks encontró que, si bien agregar más documentos recuperados puede ayudar, solo un pequeño número de modelos de última generación mantuvo un rendimiento sólido por encima de 64k tokens.[6] El informe <em>Context Rot</em> de Chroma fue aún más lejos: incluso las tareas simples se vuelven menos confiables a medida que crece la longitud de entrada, especialmente cuando se introducen ambigüedad y distractores.[7]</p><p>Esta es la parte que muchos equipos aprenden de la manera difícil.</p><p>Las ventanas más grandes no eliminan la necesidad de elegir. Hacen que el costo de las malas elecciones sea menos obvio al principio y más doloroso después.</p><p>Un prompt largo puede fallar de al menos cuatro maneras diferentes:</p><ol><li><strong>Envenenamiento de contexto</strong>: un hecho incorrecto, alucinación o resultado desactualizado se lleva hacia adelante.</li><li><strong>Distracción de contexto</strong>: demasiado detalle relevante pero no crítico abruma la tarea principal.</li><li><strong>Confusión de contexto</strong>: diferentes piezas de contexto se contradicen entre sí.</li><li><strong>Desperdicio de contexto</strong>: tokens útiles están enterrados bajo material redundante o de bajo valor.</li></ol><p>Por eso la ingeniería de contexto no se trata de maximizar tokens. Se trata de maximizar la <strong>densidad de señal</strong> dentro de la ventana de contexto.</p><h2>De la Recuperación a la Navegación</h2><p>Aquí es donde entra una de las mejores ideas recientes.</p><p>Jason Liu argumentó que el siguiente paso después del RAG clásico basado en fragmentos es dejar de pensar solo en \"los pasajes más similares\" y comenzar a pensar en la <strong>forma del espacio de búsqueda</strong>.[10] Su enfoque es especialmente útil porque traza una progresión por la que muchos equipos ya están pasando:</p><ol><li>Fragmentos mínimos</li><li>Fragmentos con metadatos de fuente</li><li>Mejor manejo de contenido multimodal y estructurado</li><li>Facetas y refinamiento de consultas</li></ol><p>Los primeros tres son mejoras en lo que se recupera.</p><p>El cuarto es más interesante. Mejora lo que el agente aprende <strong>sobre el corpus en sí</strong>.</p><p>Las facetas le dan al modelo algo parecido a la visión periférica. En lugar de devolver solo los mejores fragmentos, el sistema también puede devolver metadatos agregados:</p><ul><li>Qué tipos de documentos dominan el conjunto de resultados</li><li>Qué equipos o propietarios aparecen con más frecuencia</li><li>Qué fechas se agrupan juntas</li><li>Qué categorías están presentes pero subrepresentadas en los mejores resultados</li></ul><p>Eso importa porque la búsqueda por similitud está sesgada hacia lo que es más fácil de hacer coincidir, no necesariamente lo que es más importante inspeccionar.[10] Un sistema de recuperación puede sobre-mostrar incidentes resueltos bien documentados y sub-mostrar incidentes escasos y aún abiertos. Una búsqueda legal puede sobre-mostrar contratos firmados y ocultar los no firmados que realmente necesitan atención. Las facetas ayudan al agente a ver no solo \"qué coincidió\", sino \"qué más existe cerca\".</p><p>Este es un cambio conceptual importante.</p><p>RAG era principalmente sobre recuperación.</p><p>La ingeniería de contexto es cada vez más sobre <strong>navegación</strong>.</p><h2>Los Seis Trabajos de la Ingeniería de Contexto</h2><p>La forma más fácil de hacer concreta la ingeniería de contexto es dividirla en los trabajos reales que realiza.</p><h3>1. Selección</h3><p>El primer trabajo es decidir qué merece entrar en la ventana.</p><p>Esto incluye recuperación, clasificación, filtrado, elección de fuente y verificaciones de frescura. Suena obvio, pero es donde todavía se gana o se pierde una enorme cantidad de calidad. Benchmarks como BRIGHT muestran que la recuperación realista es mucho más difícil de lo que sugiere la coincidencia semántica superficial.[11] Si la calidad de tu recuperación es débil, ninguna cantidad de pulido de prompts posteriores salvará completamente el resultado.</p><p>La selección no es solo \"encontrar fragmentos relevantes\". Es:</p><ul><li>elegir la fuente correcta</li><li>elegir la granularidad correcta</li><li>elegir la cantidad correcta</li><li>elegir el orden correcto</li></ul><p>Los buenos sistemas a menudo recuperan menos que los sistemas ingenuos, pero lo hacen de manera más intencional.</p><h3>2. Estructura</h3><p>El segundo trabajo es decidir cómo se representa el contexto elegido.</p><p>La misma información puede ser útil o inútil dependiendo del formato. La guía de uso de herramientas de Anthropic es explícita al respecto: las descripciones e interfaces de herramientas moldean fuertemente el comportamiento del modelo.[9] La guía de prompts de contexto largo hace recomendaciones similares para el etiquetado XML, el etiquetado de fuentes y las secciones de documentos claramente separadas.[12]</p><p>En la práctica, la estructura significa:</p><ul><li>etiquetar fuentes</li><li>separar instrucciones de datos</li><li>envolver documentos complejos en marcado consistente</li><li>preservar tablas como tablas cuando importa</li><li>devolver citas y metadatos con evidencia</li></ul><p>Un resultado corto y bien etiquetado a menudo supera a un blob JSON gigante.</p><h3>3. Compresión</h3><p>El tercer trabajo es reducir el contexto sin destruir lo que importa.</p><p>Aquí es donde muchos sistemas de agentes mejoran mucho o empeoran mucho.</p><p>La compresión puede significar:</p><ul><li>resumir turnos anteriores</li><li>recortar historial obsoleto</li><li>mantener solo los últimos turnos del usuario literalmente</li><li>extraer hechos duraderos de hilos largos</li><li>almacenar en caché prefijos estables para reducir costo y latencia</li></ul><p>La documentación de caché de prompts de OpenAI muestra que el orden de los prompts importa económica y cognitivamente: los prefijos compartidos estáticos son más baratos y rápidos cuando se colocan al frente porque los aciertos de caché dependen de la reutilización exacta del prefijo.[13] El trabajo más reciente de OpenAI en la API de Responses sobre compactación lleva la misma idea más lejos al tratar el historial de agentes de larga duración como algo que debe comprimirse en una representación más eficiente en tokens antes de que se llene la ventana.[14]</p><p>La compresión no es opcional. La única pregunta es si la haces deliberadamente o dejas que la ventana de contexto se degrade por sí sola.</p><h3>4. Memoria</h3><p>El cuarto trabajo es decidir qué debe persistir más allá del turno actual.</p><p>Aquí es donde muchos equipos cometen el mismo error: confunden la memoria con la retención de transcripciones.</p><p>Pero la buena memoria no es \"guardar todo para siempre\". LongMemEval enmarca la memoria a largo plazo como un problema de tres etapas: indexación, recuperación y lectura.[4] Esa es la forma correcta de pensarlo. Un sistema de memoria debería ayudar al modelo a recuperar el hecho previo correcto en el momento correcto, no ahogarlo en el pasado completo.</p><p>Esto lleva a una distinción útil:</p><ul><li><strong>Memoria de trabajo</strong>: el contexto a corto plazo necesario para la tarea actual</li><li><strong>Memoria de referencia</strong>: hechos externalizados, resúmenes, notas o artefactos que pueden recargarse más tarde</li></ul><p>Si todo permanece en la memoria de trabajo, el modelo se distrae.<br>Si todo se saca, el modelo pierde continuidad.</p><p>La ingeniería de contexto decide qué pertenece a cada capa.</p><h3>5. Diseño de Herramientas e Interfaces</h3><p>El quinto trabajo es hacer que las herramientas sean legibles para el modelo.</p><p>Esta es una parte subestimada de la disciplina. Una superficie de herramientas no es solo diseño de API de software. También es diseño de contexto.</p><p>El modelo necesita entender:</p><ul><li>qué hace la herramienta</li><li>cuándo usarla</li><li>qué significa cada parámetro</li><li>qué implica la salida</li><li>qué hacer a continuación después de ver el resultado</li></ul><p>Por eso las descripciones de herramientas importan tanto.[9] También es por eso que el énfasis de Jason Liu en los resultados de herramientas es importante.[10] La salida de una herramienta no solo responde la consulta actual. Le enseña al agente cómo pensar en la siguiente consulta.</p><p>Cuando la superficie de herramientas se estandariza a través de un protocolo como MCP, esto se vuelve aún más importante. MCP facilita la conexión de herramientas, recursos y prompts a aplicaciones LLM, pero no decide qué información debe mostrarse, cómo debe filtrarse o cuánta debe inyectarse en la siguiente llamada al modelo.[15] El protocolo es la plomería. La ingeniería de contexto sigue siendo el arte.</p><h3>6. Aislamiento y Orquestación</h3><p>El sexto trabajo es decidir cuándo no compartir contexto.</p><p>Esta es una de las mayores diferencias entre demos de juguete y agentes en producción.</p><p>A veces la respuesta correcta no es un prompt compartido más grande. Son múltiples prompts más pequeños con alcances aislados.</p><p>El sistema de investigación multi-agente de Anthropic es un ejemplo sólido.[16] Sus subagentes se ejecutan en paralelo con ventanas de contexto separadas, lo que les ayuda a explorar diferentes ramas de un problema sin contaminarse mutuamente con cada detalle intermedio. LangChain describe un patrón similar bajo \"aislar\": a veces la mejor manera de mejorar la confiabilidad del agente es dividir contextos en lugar de acumularlos.[17]</p><p>Esto importa porque el contexto compartido tiene un costo oculto. Crea dependencia de camino. Una sola rama mala puede influir en el siguiente paso, y el siguiente, y el siguiente.</p><p>El aislamiento es una forma de limitar el radio de explosión.</p><h2>Qué Cambió en 2026</h2><p>En 2025, la ingeniería de contexto era principalmente un nombre útil para un problema que la gente ya sentía. En 2026, está comenzando a endurecerse en una arquitectura.</p><p>El primer gran cambio es que los constructores están moviendo el estado duradero <strong>fuera</strong> de la ventana de contexto sin procesar. La edición de contexto y la herramienta de memoria de Anthropic separan explícitamente lo que permanece activo en la ventana de trabajo de lo que debe persistir entre sesiones.[18] El cookbook de enero de 2026 de OpenAI sobre personalización hace el mismo movimiento en una forma diferente: objetos de estado estructurados que persisten entre ejecuciones y se inyectan deliberadamente de vuelta en la memoria de trabajo al inicio de cada ejecución.[19] La API de Responses de OpenAI luego lleva esto un paso más allá con compactación nativa, para que los bucles de agentes de larga duración no requieran que cada equipo construya un subsistema de resumen personalizado desde cero.[14]</p><p>Los Managed Agents de Anthropic hace el patrón subyacente inusualmente explícito: <strong>la sesión no es la ventana de contexto del modelo</strong>.[20] Esa es una idea crítica de 2026. La ventana es memoria de trabajo transitoria. El log de sesión es el objeto duradero. El arnés decide cómo dividir, compactar y rehidratar ese contexto duradero de vuelta en la siguiente llamada al modelo.</p><p>El segundo cambio es que la recuperación se está volviendo más <strong>justo a tiempo</strong> y más nativa de la interfaz. En lugar de cargar por adelantado cada token posiblemente relevante, los equipos están dando a los agentes superficies de recuperación que ya saben cómo operar. ChromaFs de Mintlify es un buen ejemplo: en lugar de arrancar un sandbox completo para la recuperación de documentación, presenta los docs como un sistema de archivos virtual navegable con <code>ls</code>, <code>cat</code> y <code>grep</code>, reduciendo la creación de sesiones p90 de aproximadamente 46 segundos a aproximadamente 100 milisegundos.[21] AgentFS de Turso lleva la misma intuición hacia la ejecución general de agentes: una abstracción de sistema de archivos copy-on-write con almacenamiento portátil de un solo archivo y auditoría integrada.[22]</p><p>El tercer cambio es que los <strong>grafos de contexto</strong> se están convirtiendo en una dirección de implementación, no solo en una metáfora. La tesis de Foundation Capital hizo visible el término, pero la afirmación más fuerte es arquitectónica: cuando los agentes están en el camino de ejecución, pueden capturar trazas de decisiones como artefactos duraderos, no solo emitir salidas finales.[26][27] Los sistemas de código abierto como Graphiti y las plataformas comerciales como Zep operacionalizan esto como grafos de contexto temporales con ventanas de validez, episodios de procedencia e recuperación híbrida a través de semántica, palabras clave y estructura de grafo.[23] TrustGraph adopta un enfoque relacionado al tratar el contexto como un artefacto versionado: grafo, embeddings, evidencia y políticas empaquetados en \"núcleos de contexto\" portátiles que pueden promoverse o revertirse como salidas de compilación.[24][25]</p><p>El cuarto cambio es que la ingeniería de contexto ahora es visible en la práctica real de software, no solo en blogs de plataformas. El artículo de MSR de 2026 sobre ingeniería de contexto en software de código abierto estudió 466 repositorios y encontró que los archivos de contexto de IA como <code>AGENTS.md</code> se están extendiendo, pero aún sin una estructura de contenido estable.[28] Eso importa porque marca un movimiento de la teoría a los artefactos operacionales. El contexto ya no es solo algo inferido en tiempo de ejecución. Se está creando, versionando, revisando y minando como parte del ciclo de vida del software.</p><p>Si quieres el modelo mental de 2026 en una imagen, se ve así:</p><pre><code class=\"language-mermaid\">flowchart LR\n    E[\"Log de sesión / eventos\"] --&gt; A[\"Ensamblador de contexto\"]\n    F[\"Archivos, docs y herramientas\"] --&gt; A\n    G[\"Grafo de contexto / memoria\"] --&gt; A\n    P[\"Políticas y AGENTS.md\"] --&gt; A\n\n    A --&gt; W[\"Ventana de contexto de trabajo\"]\n    W --&gt; X[\"Acción del agente\"]\n\n    X --&gt; E\n    X --&gt; G</code></pre><p>Esa es una arquitectura muy diferente a \"prompt + búsqueda vectorial\".</p><h2>Dónde Encajan Realmente los Grafos de Contexto</h2><p>Una razón por la que esta conversación se vuelve confusa es que la gente usa <strong>ingeniería de contexto</strong> y <strong>grafo de contexto</strong> como si significaran lo mismo. No es así.</p><p>La ingeniería de contexto es la disciplina más amplia. Es el trabajo de decidir qué va en la próxima ventana de contexto, qué queda fuera, qué se comprime y qué se recupera bajo demanda.</p><p>Un grafo de contexto es un posible sustrato de memoria a largo plazo dentro de ese sistema más grande.</p><p>Esa distinción importa porque no todo agente útil necesita un grafo de contexto. Un asistente de documentación sobre contenido mayormente estático puede necesitar buena recuperación, diseño de herramientas y compactación, pero no un grafo. Un agente de codificación puede llegar sorprendentemente lejos con instrucciones de repositorio, un log de sesión duradero y una abstracción de sistema de archivos.[20][21][22][28]</p><p>Los grafos de contexto se vuelven convincentes cuando el problema tiene cuatro características:</p><ul><li><strong>La verdad temporal importa.</strong> Necesitas saber no solo qué es verdad ahora, sino qué era verdad en el momento de la decisión.[23]</li><li><strong>La procedencia importa.</strong> Necesitas rastrear hechos hasta el episodio, documento o interacción que los produjo.[23][24]</li><li><strong>El precedente importa.</strong> La tarea depende de cómo se manejaron casos similares antes, incluidas excepciones y aprobaciones.[26][27]</li><li><strong>El razonamiento entre entidades importa.</strong> La memoria útil no es una nota plana, sino una red de personas, políticas, incidentes, cuentas, tickets y resultados.[23][25]</li></ul><p>Por eso la mejor definición de un grafo de contexto, en mi opinión, no es \"una base de datos de grafos para IA\". Es una <strong>representación duradera de precedente</strong>.</p><p>Por eso también importan tanto las trazas de decisiones. El enfoque de Foundation Capital es útil aquí: las reglas le dicen al agente qué debería suceder en general; las trazas de decisiones le dicen qué sucedió en un caso específico, bajo restricciones reales, con excepciones reales.[26] Una vez que esas trazas están vinculadas entre entidades y tiempo, obtienes algo mucho más valioso que la memoria genérica. Obtienes juicio buscable.</p><h2>Cómo Lo Construiría en 2026</h2><p>Si estuviera construyendo un stack serio de ingeniería de contexto hoy, no comenzaría con el grafo. Comenzaría con las interfaces y las reglas de promoción.</p><h3>1. Construir primero una capa de sesión duradera</h3><p>Cada acción, resultado de herramienta, observación y artefacto intermedio importante debe aterrizar en un log de sesión de solo adición o almacén de eventos. Este es tu objeto de contexto recuperable.[14][20]</p><p>No confundas la ventana de contexto activa con la fuente de verdad.</p><p>La ventana es para razonar.<br>La sesión es para recuperación, reproducción, depuración y rehidratación selectiva.</p><h3>2. Tratar el ensamblador de contexto como una superficie de producto</h3><p>El ensamblador debe gestionar explícitamente:</p><ul><li>presupuestos de tokens</li><li>prioridad de fuente</li><li>frescura</li><li>umbrales de compactación</li><li>recorte de historial</li><li>formato de citas</li><li>ordenamiento consciente de caché</li></ul><p>Esta es la capa que decide qué ve el modelo <em>ahora</em>. Debe ser observable, testeable y barato de cambiar.[18][19][14]</p><h3>3. Preferir la recuperación justo a tiempo sobre el relleno anticipado</h3><p>Dale al modelo primero manejadores ligeros: rutas de archivos, IDs de objetos, URLs, plantillas de consulta, IDs de tickets, IDs de incidentes. Luego déjalo extraer detalles solo cuando sea necesario.[9][18][21]</p><p>Aquí es donde los sistemas de archivos, las herramientas MCP, las APIs de búsqueda y las consultas estructuradas se vuelven más valiosas que los volcados gigantes de top-K.</p><h3>4. Promover solo el estado de alto valor a la memoria a largo plazo</h3><p>No todo debería convertirse en memoria.</p><p>Promovería cuatro clases de artefactos:</p><ul><li>preferencias estables de usuario o cuenta</li><li>hechos duraderos con procedencia</li><li>resúmenes intermedios importantes</li><li>trazas de decisiones y excepciones</li></ul><p>Todo lo demás debería permanecer en el log de sesión hasta que demuestre que merece ser promovido.</p><h3>5. Construir el grafo de contexto como una capa de memoria promovida</h3><p>Esta es la parte que muchos equipos invierten.</p><p>El grafo no debería ser tu transcripción sin procesar en forma de grafo. Debería ser la capa curada que se sienta por encima de las sesiones y por debajo del ensamblado en tiempo real:</p><ul><li>entidades</li><li>relaciones</li><li>validez temporal</li><li>episodios de fuente</li><li>aprobaciones</li><li>excepciones</li><li>resultados</li></ul><p>Si omites el paso de promoción, el grafo se convierte en un vertedero.<br>Si haces bien la promoción, el grafo se convierte en la memoria de cómo razona realmente la organización.[23][26]</p><h3>6. Empaquetar el contexto como código</h3><p>Para 2026, una de las ideas más prometedoras es tratar el contexto como un artefacto versionado. En proyectos de software esto aparece como <code>AGENTS.md</code> y otros archivos de contexto específicos del repositorio.[28] En sistemas nativos de grafos aparece como núcleos de contexto: paquetes portátiles de ontología, estructura de grafo, embeddings, procedencia y política de recuperación.[24][25]</p><p>Esto importa porque los cambios de contexto necesitan la misma disciplina operacional que los cambios de código:</p><ul><li>revisión</li><li>versionado</li><li>reversión</li><li>promoción de entorno</li><li>evaluación</li></ul><p>Una vez que el contexto se convierte en un artefacto, se vuelve gobernable.</p><h3>7. Separar la observabilidad de la inteligencia</h3><p>Necesitas ambas:</p><ul><li><strong>observabilidad de la ejecución del agente</strong></li><li><strong>observabilidad del sistema de contexto</strong></li></ul><p>Esas no son la misma cosa.</p><p>Quiero saber:</p><ul><li>qué vio el modelo</li><li>qué no vio</li><li>qué se compactó</li><li>qué se recuperó justo a tiempo</li><li>qué se promovió a memoria</li><li>qué vecindario del grafo se recorrió</li><li>qué precedente influyó realmente en la acción</li></ul><p>Si no puedes responder esas preguntas, todavía estás depurando prompts en la oscuridad.</p><h2>Un Modelo de Madurez Práctico</h2><p>Si estás tratando de evaluar dónde se encuentra tu propio sistema, este modelo de madurez es más útil que las definiciones abstractas.</p><h3>Nivel 0: Solo Prompt</h3><p>Tienes un prompt del sistema, un mensaje de usuario y quizás un par de ejemplos.</p><p>Esto puede funcionar sorprendentemente bien para tareas estrechas. Se rompe rápidamente cuando la tarea requiere conocimiento fresco, persistencia o herramientas.</p><h3>Nivel 1: Recuperación Mejorada</h3><p>Agregas documentos en tiempo de ejecución.</p><p>Aquí es donde muchos equipos se detienen. También es donde muchos equipos comienzan a ver las limitaciones del fragmentado, clasificación e hinchazón de contexto ingenuos.</p><h3>Nivel 2: Consciente del Agente</h3><p>Ahora gestionas historial, resultados de herramientas, memoria y formato de manera intencional.</p><p>Este es el primer nivel donde \"ingeniería de contexto\" se convierte en un término útil, porque el sistema ya no es solo prompt más recuperación. Está ensamblando múltiples formas de contexto dinámicamente.</p><h3>Nivel 3: Adaptativo</h3><p>El sistema cambia cómo construye el contexto según la tarea.</p><p>Puede:</p><ul><li>elegir entre fuentes</li><li>comprimir historial más antiguo</li><li>recargar memoria selectivamente</li><li>enrutar trabajo a herramientas especializadas</li><li>aislar subproblemas en contextos separados</li></ul><p>En este punto, la construcción de contexto es parte de la lógica central de la aplicación.</p><h3>Nivel 4: Nativo de Contexto</h3><p>El sistema trata el contexto como una superficie de ingeniería de primera clase.</p><p>Tiene:</p><ul><li>presupuestos de contexto explícitos</li><li>evaluaciones de recuperación y generación</li><li>navegación consciente de metadatos y facetas</li><li>políticas de memoria</li><li>observabilidad alrededor de modos de fallo</li><li>ensamblado de prompts consciente del costo</li></ul><p>Hacia aquí se dirigen los sistemas de producción más sólidos.</p><h2>Cómo Se Ve la Buena Ingeniería de Contexto en la Práctica</h2><p>Si tuviera que reducir toda la disciplina a una lista de verificación, se vería así:</p><ol><li>Comienza con la tarea, no con el prompt. Define primero cómo se ve el éxito.</li><li>Enumera las fuentes de contexto que el modelo podría necesitar. Instrucciones, docs, herramientas, memoria, estado, políticas.</li><li>Separa la memoria de trabajo de la memoria de referencia. No todo debería vivir en la ventana activa.</li><li>Recupera con intención. Más fragmentos no es lo mismo que mejor recuperación.</li><li>Estructura el contexto para que el modelo pueda analizarlo rápidamente. Las etiquetas, fuentes, tablas y límites importan.</li><li>Diseña las herramientas como si fueran parte del prompt, porque lo son.</li><li>Recorta agresivamente. Si no le pedirías a un humano que lo releyera, no fuerces al modelo a releerlo.</li><li>Mide la recuperación y la generación por separado. De lo contrario, diagnosticarás el problema equivocado.</li><li>Usa contextos aislados cuando las tareas se ramifican o pueden ejecutarse en paralelo.</li><li>Promueve hechos duraderos y trazas de decisiones intencionalmente. No toda transcripción pertenece a la memoria a largo plazo.</li><li>Empaqueta el contexto crítico como código. Las instrucciones, políticas y artefactos de grafo deben versionarse.</li><li>Trata los bugs de contexto como bugs de software. Deben ser observables, reproducibles y corregibles.</li></ol><p>Nada de esto es glamoroso. Por eso exactamente importa.</p><p>La ingeniería de prompts se popularizó porque sonaba como un atajo.</p><p>La ingeniería de contexto importa porque describe el trabajo real.</p><h2>La Conclusión Real</h2><p>El centro de gravedad en IA se está moviendo.</p><p>La pregunta fronteriza solía ser: <strong>¿Qué tan inteligente es el modelo?</strong></p><p>La pregunta aplicada es cada vez más: <strong>¿Qué ve el modelo antes de tener que actuar?</strong></p><p>Ese es un problema de ingeniería diferente. Tiene menos que ver con prompts individuales y más con el diseño de sistemas. Menos con la redacción y más con el flujo de información. Menos con la calidad de salida de un solo turno y más con si un agente puede mantenerse confiable a lo largo del tiempo.</p><p>Por eso la ingeniería de contexto seguirá creciendo como disciplina. Cuanto mejores se vuelven los modelos, más los fallos restantes parecen fallos de contexto. Estado faltante. Herramienta incorrecta. Mala recuperación. Historial inflado. Formato deficiente. Evidencia contradictoria. Memoria débil. Bucles sin límite.</p><p>La ironía es que esto hace que los sistemas de IA se parezcan más al software clásico, no menos. Estamos de vuelta construyendo pipelines, interfaces, máquinas de estado, jerarquías de memoria, cachés y capas de observabilidad. La novedad es que todas esas piezas ahora existen al servicio de un motor de razonamiento probabilístico.</p><p>El nombre puede ser nuevo. La dirección no lo es.</p><p>Los sistemas de IA confiables serán construidos por equipos que traten el contexto como una superficie de producto de primera clase.</p><p>Todos los demás seguirán llamando al modelo inestable.</p><hr><p><strong>Referencias:</strong></p><p>[1] <a href=\"https://simonwillison.net/2025/Jun/27/context-engineering/\">Simon Willison. (2025, 27 de junio). <em>Context engineering</em>.</a></p><p>[2] <a href=\"https://arxiv.org/abs/2005.11401\">Lewis, P. et al. (2020). <em>Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks</em>.</a></p><p>[3] <a href=\"https://arxiv.org/abs/2210.03629\">Yao, S. et al. (2023). <em>ReAct: Synergizing Reasoning and Acting in Language Models</em>.</a></p><p>[4] <a href=\"https://arxiv.org/abs/2410.10813\">Wu, D. et al. (2025). <em>LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory</em>.</a></p><p>[5] <a href=\"https://arxiv.org/abs/2307.03172\">Liu, N. F. et al. (2023). <em>Lost in the Middle: How Language Models Use Long Contexts</em>.</a></p><p>[6] <a href=\"https://arxiv.org/abs/2411.03538\">Leng, Q. et al. (2024). <em>Long Context RAG Performance of Large Language Models</em>.</a></p><p>[7] <a href=\"https://www.trychroma.com/research/context-rot\">Hong, K., Troynikov, A., and Huber, J. (2025, 14 de julio). <em>Context Rot: How Increasing Input Tokens Impacts LLM Performance</em>.</a></p><p>[8] <a href=\"https://blog.langchain.com/the-rise-of-context-engineering\">LangChain. (2025, 23 de junio). <em>The rise of \"context engineering\"</em>.</a></p><p>[9] <a href=\"https://docs.anthropic.com/en/docs/agents-and-tools/tool-use/implement-tool-use\">Anthropic. <em>How to implement tool use</em>.</a></p><p>[10] <a href=\"https://jxnl.co/writing/2025/08/27/facets-context-engineering/\">Jason Liu. (2025, 27 de agosto). <em>Beyond Chunks: Why Context Engineering is the Future of RAG</em>.</a></p><p>[11] <a href=\"https://arxiv.org/abs/2407.12883\">Su, H. et al. (2025). <em>BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval</em>.</a></p><p>[12] <a href=\"https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/long-context-tips\">Anthropic. <em>Long context prompting tips</em>.</a></p><p>[13] <a href=\"https://platform.openai.com/docs/guides/prompt-caching\">OpenAI. <em>Prompt caching</em>.</a></p><p>[14] <a href=\"https://openai.com/index/equip-responses-api-computer-environment\">OpenAI. (2026, 19 de marzo). <em>From model to agent: Equipping the Responses API with a computer environment</em>.</a></p><p>[15] <a href=\"https://modelcontextprotocol.io/\">Model Context Protocol. <em>What is the Model Context Protocol (MCP)?</em></a></p><p>[16] <a href=\"https://www.anthropic.com/engineering/built-multi-agent-research-system\">Anthropic. (2025, 13 de junio). <em>How we built our multi-agent research system</em>.</a></p><p>[17] <a href=\"https://blog.langchain.com/context-engineering-for-agents/\">LangChain. (2025, 2 de julio). <em>Context Engineering</em>.</a></p><p>[18] <a href=\"https://claude.com/blog/context-management\">Anthropic. (2025, 29 de septiembre). <em>Managing context on the Claude Developer Platform</em>.</a></p><p>[19] <a href=\"https://developers.openai.com/cookbook/examples/agents_sdk/context_personalization\">Okcular, E. (2026, 5 de enero). <em>Context Engineering for Personalization - State Management with Long-Term Memory Notes using OpenAI Agents SDK</em>.</a></p><p>[20] <a href=\"https://www.anthropic.com/engineering/managed-agents\">Anthropic. <em>Scaling Managed Agents: Decoupling the brain from the hands</em>.</a></p><p>[21] <a href=\"https://www.mintlify.com/blog/how-we-built-a-virtual-filesystem-for-our-assistant\">Mintlify. (2026, 24 de marzo). <em>How we built a virtual filesystem for our Assistant</em>.</a></p><p>[22] <a href=\"https://docs.turso.tech/agentfs/introduction\">Turso. <em>AgentFS</em>.</a></p><p>[23] <a href=\"https://github.com/getzep/graphiti\">Zep. <em>Graphiti: Build Real-Time Knowledge Graphs for AI Agents</em>.</a></p><p>[24] <a href=\"https://github.com/trustgraph-ai/trustgraph\">TrustGraph. <em>The context development platform</em>.</a></p><p>[25] <a href=\"https://docs.trustgraph.ai/guides/context-cores/\">TrustGraph. <em>Working with Context Cores</em>.</a></p><p>[26] <a href=\"https://foundationcapital.com/ideas/context-graphs-ais-trillion-dollar-opportunity\">Gupta, J., and Garg, A. (2025, 22 de diciembre). <em>AI's trillion-dollar opportunity: Context graphs</em>.</a></p><p>[27] <a href=\"https://foundationcapital.com/ideas/why-context-graphs-are-the-missing-layer-for-ai\">Garg, A. (2026, 16 de enero). <em>Why context graphs are the missing layer for AI</em>.</a></p><p>[28] <a href=\"https://arxiv.org/abs/2510.21413\">Mohsenimofidi, S., Galster, M., Treude, C., and Baltes, S. (2026). <em>Context Engineering for AI Agents in Open-Source Software</em>.</a></p>",
  "source_hash": "sha256:352e42d5b8ff71176c26e2e3f9853217033b811bae4f0beaef2cc91e2401caa9",
  "model": "claude-sonnet-4-6",
  "generated_at": "2026-04-23T20:55:39.493774+00:00"
}