{
  "title": "El Sistema de Archivos es la Base de Datos: Por Qué los Agentes Necesitan un Nuevo Primitivo de Almacenamiento",
  "excerpt": "Los pipelines RAG le dieron memoria a los agentes. Pero la próxima ola de infraestructura agéntica está convergiendo en un primitivo completamente diferente: el sistema de archivos virtual. Desde ChromaFs de Mintlify hasta AgentFS de Turso y la capa VFS empresarial de Box, el patrón es inconfundible. El sistema de archivos se está convirtiendo en la interfaz universal para la cognición de los agentes, y la base de datos se está convirtiendo silenciosamente en su sustrato.",
  "content_html": "<p>Algo interesante está ocurriendo en el espacio de infraestructura agéntica, y no es lo que la mayoría de la gente esperaba. Durante los últimos dos años, el paradigma dominante para dar a los agentes acceso al conocimiento ha sido la Generación Aumentada por Recuperación (RAG): embebe tus documentos, almacénalos en una base de datos vectorial y deja que el modelo los consulte en tiempo de inferencia. RAG funcionó. Era suficientemente bueno. Pero «suficientemente bueno» tiene fecha de caducidad, y en 2026, esa fecha está venciendo.</p><p>Un nuevo patrón está emergiendo en toda la industria, y está convergiendo desde múltiples direcciones a la vez. Mintlify reemplazó todo su pipeline RAG con un sistema de archivos virtual y vio cómo la creación de sesiones pasó de 46 segundos a 100 milisegundos [1]. Turso construyó AgentFS, un sistema de archivos respaldado por SQLite que le da a cada agente su propia copia aislada con semántica copy-on-write [2]. Box, el gigante empresarial de contenido, anunció que está reposicionando toda su plataforma como una capa de sistema de archivos virtual para agentes de IA [3]. Y ByteDance publicó como código abierto OpenViking, una base de datos de contexto que organiza toda la memoria, recursos y habilidades de los agentes como un sistema de archivos jerárquico [4].</p><p>Estos no son experimentos de nicho. Son señales de un cambio fundamental. <strong>El sistema de archivos se está convirtiendo en la interfaz universal para la cognición de los agentes, y la base de datos se está convirtiendo silenciosamente en su sustrato.</strong></p><h2>Por Qué RAG Llegó a su Límite</h2><p>RAG era la respuesta correcta para 2023. Tenías un montón de documentos, un modelo con una ventana de contexto limitada y necesitabas una forma de recuperar fragmentos relevantes en el momento de la consulta. Los embeddings vectoriales y la búsqueda por similitud resolvieron ese problema de manera elegante.</p><p>Pero los agentes no son chatbots. Un agente no hace una pregunta y se va. Explora. Lee un archivo, descubre una referencia, la sigue, lee otro archivo, ejecuta un comando, escribe una salida. Esto no es un problema de recuperación. Es un problema de navegación.</p><p>Los pipelines RAG tienen dificultades con esto por tres razones. Primero, son apátridas por diseño. Cada consulta es independiente; no existe el concepto de «estaba mirando este directorio, ahora muéstrame el archivo adyacente». Segundo, aplanan la estructura. Un sitio de documentación con una jerarquía clara de secciones, páginas y ejemplos de código queda fragmentado en trozos anónimos de 512 tokens que pierden su contexto organizacional. Tercero, son costosos a escala. El cómputo de embeddings, el mantenimiento del índice vectorial y el re-ranking añaden latencia y costos que se acumulan a medida que crece el corpus.</p><p>El sistema de archivos resuelve los tres problemas. Es inherentemente con estado (el agente tiene un directorio de trabajo). Preserva la estructura (directorios, subdirectorios, archivos). Y es rápido porque las operaciones son simples: <code>ls</code>, <code>cat</code>, <code>grep</code>, <code>find</code>. Estas no son abstracciones novedosas. Son la interfaz más probada en la historia de la computación.</p><h2>La Convergencia: Cuatro Enfoques, Un Patrón</h2><p>Lo que hace significativo este momento es que el patrón del sistema de archivos está emergiendo de forma independiente en contextos muy diferentes.</p><p><strong>ChromaFs de Mintlify</strong> es quizás el ejemplo más instructivo. Mintlify impulsa asistentes de documentación para miles de empresas. Su arquitectura original era RAG de manual: fragmentar los documentos, embebedlos, recuperarlos en el momento de la consulta. Cuando la reemplazaron con ChromaFs, un sistema de archivos virtual que intercepta comandos UNIX y los traduce en consultas a la base de datos Chroma, los resultados fueron dramáticos. La creación de sesiones pasó de 46 segundos a 100 milisegundos, una mejora de 460x. El costo marginal por conversación cayó de $0.0137 a efectivamente cero [1]. La clave: el agente ya sabe cómo navegar un sistema de archivos. Enseñarle a usar <code>cat /auth/oauth.mdx</code> es trivial comparado con enseñarle a formular la consulta vectorial correcta.</p><p><strong>AgentFS de Turso</strong> ataca un problema diferente: el aislamiento y la auditabilidad de los agentes. Cada agente obtiene su propio sistema de archivos respaldado por SQLite con semántica copy-on-write. El sistema de archivos del host es una capa base de solo lectura; el agente escribe en una capa delta de SQLite. Cada operación de archivo, llamada a herramienta y cambio de estado queda registrado. Todo el entorno de ejecución del agente —archivos, estado, historial— cabe en un único archivo SQLite portátil [2]. Esto no es solo un sistema de archivos. Es un entorno de ejecución auditable y reproducible.</p><p><strong>El VFS empresarial de Box</strong> es el más significativo estratégicamente. El CEO de Box, Aaron Levie, ha sido explícito: los agentes necesitan un sistema de archivos para hacer trabajo de conocimiento en la empresa [3]. Pero Box no está vendiendo un sistema de archivos literal. Está vendiendo un «contrato dinámico de entrega de datos» que puede estar respaldado por almacenamiento de objetos, bases de datos relacionales o su propia plataforma de contenido. El sistema de archivos es la interfaz; el almacenamiento subyacente es lo que tenga sentido para los datos. Lo que hace interesante la propuesta de Box es la capa de gobernanza: permisos, registros de auditoría y límites de cumplimiento que se transfieren automáticamente desde la plataforma de contenido al agente.</p><p><strong>OpenViking de ByteDance</strong> lleva el patrón más lejos. Organiza todo el contexto del agente —memorias, recursos, habilidades, conocimiento— bajo un protocolo <code>viking://</code> usando semántica estándar de sistema de archivos. Los agentes navegan con <code>ls</code> y <code>find</code>. Pero la parte inteligente es el modelo de acceso por niveles: cada pieza de contexto se procesa en tres capas. L0 es un resumen de una oración para recuperación rápida. L1 es una visión general con información central para planificación. L2 es el contenido completo para lectura profunda [4]. El agente comienza con L0, profundiza en L1 cuando necesita más, y solo carga L2 cuando está haciendo trabajo detallado. En el benchmark LoCoMo, esto redujo el consumo de tokens de 24,6 millones a 4,2 millones mientras aumentaba las tasas de completación de tareas al 52% [4].</p><h2>Sistema de Archivos como Interfaz, Base de Datos como Sustrato</h2><p>El patrón que conecta los cuatro es lo que yo llamaría la <strong>dualidad VFS</strong>: el sistema de archivos gana como interfaz, y la base de datos gana como sustrato. Esta no es una elección excluyente. Es una arquitectura en capas.</p><p>Por qué el sistema de archivos gana como interfaz es sencillo. Los LLMs son entrenados en internet, e internet está construida por desarrolladores que piensan en términos de archivos, directorios, rutas y herramientas de línea de comandos. Los modelos son inusualmente competentes con estos primitivos porque han visto miles de millones de ejemplos de desarrolladores navegando bases de código, leyendo archivos y ejecutando comandos de shell. Cuando le das a un agente un sistema de archivos, lo estás encontrando donde viven sus datos de entrenamiento.</p><p>Por qué la base de datos gana como sustrato es igualmente claro. En el momento en que la memoria del agente necesita ser compartida, auditada, consultada por múltiples agentes o ser confiable bajo concurrencia, necesitas las garantías de una base de datos. Transacciones ACID, control de acceso, búsqueda semántica, historial de versiones: estos son problemas difíciles que las bases de datos han pasado décadas resolviendo. Reimplementarlos sobre un sistema de archivos literal es un camino al dolor.</p><p>El patrón VFS te da ambos. El agente ve archivos y directorios. El sistema ve tablas, índices y listas de control de acceso. ChromaFs almacena todo en Chroma pero lo expone como archivos. AgentFS almacena todo en SQLite pero lo expone como un sistema de archivos POSIX. OpenViking usa su propio motor de almacenamiento pero lo expone como rutas <code>viking://</code>. Box usa su plataforma de contenido empresarial pero lo expone como un árbol navegable.</p><h2>¿Puede un VFS Realmente Superar al Sistema de Archivos Nativo?</h2><p>La objeción natural a todo esto es: ¿por qué no usar simplemente el sistema de archivos real? POSIX está ahí mismo. Todos los sistemas operativos lo incluyen. ¿Por qué añadir una capa de abstracción?</p><p>Quería responder esta pregunta empíricamente, así que construí <a href=\"https://github.com/subramanya1997/markdownfs\">markdownfs</a>, un sistema de archivos virtual desde cero en Rust diseñado específicamente para cargas de trabajo de agentes [6]. Soporta el conjunto completo de comandos tipo UNIX (<code>ls</code>, <code>cat</code>, <code>grep</code>, <code>find</code>, <code>chmod</code>, <code>chown</code>), versionado estilo Git con almacenamiento direccionable por contenido, permisos multiusuario, y expone tres métodos de acceso: una CLI/REPL, una API HTTP/REST y un servidor MCP al que agentes como Claude y Cursor pueden conectarse directamente.</p><p>La arquitectura es simple: una tabla de inodos en memoria respaldada por un almacén de blobs direccionable por contenido usando hashing SHA-256, con <code>tokio::RwLock</code> para acceso concurrente seguro. Los archivos se deduplicán automáticamente. El control de versiones usa el mismo modelo de commit/revert que Git, pero a nivel del sistema de archivos. La persistencia se maneja mediante snapshots atómicos en bincode.</p><p>Cuando comparé markdownfs con el sistema de archivos nativo en las operaciones estándar de agentes (creación de archivos, lecturas, escrituras, listado de directorios, grep, find, mover, copiar, eliminación), markdownfs promedió aproximadamente <strong>130x más rápido</strong> en general. Las razones son estructurales, no accidentales. Las operaciones en memoria eliminan completamente la E/S de disco. El almacenamiento direccionable por contenido significa que los archivos duplicados se almacenan una sola vez. Las lecturas sin copia significan que el agente obtiene datos sin sobrecarga de serialización. Y porque todo el estado del sistema de archivos vive en un único proceso, no hay límites de llamadas al sistema que cruzar.</p><p>La comparación es particularmente llamativa para las operaciones que los agentes realizan con más frecuencia:</p><table><thead><tr><th>Operación</th><th>Por Qué Gana el VFS</th></tr></thead><tbody><tr><td><strong>Lecturas repetidas</strong> (el agente relee contexto)</td><td>En memoria, sin copia. Sin búsquedas en disco, sin fallos de caché de página.</td></tr><tr><td><strong>grep en archivos</strong> (el agente busca patrones)</td><td>Todo el contenido está en memoria. Sin recorrido de directorios, sin gestión de descriptores de archivo.</td></tr><tr><td><strong>Creación rápida de archivos</strong> (el agente produce artefactos de trabajo)</td><td>Sin journaling del sistema de archivos, sin asignación de inodos en disco, sin fsync.</td></tr><tr><td><strong>Listado de directorios</strong> (el agente explora la estructura)</td><td>Búsqueda en BTreeMap vs. syscalls readdir.</td></tr></tbody></table><p>Pero el rendimiento no es el argumento real. El argumento real es lo que el sistema de archivos nativo <em>no puede hacer</em>. Un sistema de archivos POSIX no tiene concepto de búsqueda semántica. No tiene versionado integrado (necesitas Git para eso). No tiene modelo de acceso por niveles (obtienes el archivo completo o nada). No tiene deduplicación de contenido. No tiene registro de auditoría de operaciones de agentes. Y, de manera crítica, no tiene interfaz MCP, lo que significa que los agentes no pueden acceder a él a través del protocolo estándar hacia el que está convergiendo el ecosistema.</p><p>El VFS no es solo más rápido. Es un primitivo más rico. Te da la interfaz familiar de <code>ls</code> y <code>cat</code> mientras añade las capacidades que los agentes realmente necesitan: versionado, permisos, búsqueda, deduplicación y acceso nativo al protocolo vía MCP o HTTP.</p><h2>Qué Significa Esto para RAG</h2><p>Para ser claros, RAG no está muerto. La búsqueda vectorial sigue siendo valiosa para consultas difusas y semánticas donde el agente genuinamente no sabe qué está buscando. Pero la evaluación honesta es que RAG ha sido sobreutilizado. Muchos de los casos de uso donde los equipos desplegaron pipelines RAG —recuperación de documentación, navegación de bases de código, gestión del conocimiento empresarial— se sirven mejor con una interfaz de sistema de archivos.</p><p>La evidencia es llamativa. La mejora de 460x de Mintlify vino de reemplazar RAG con un sistema de archivos, no de aumentarlo [1]. Investigaciones de Letta muestran que los agentes que usan operaciones simples de sistema de archivos logran un 74% de precisión en benchmarks de memoria, competitivo con herramientas de recuperación especializadas. Y los enfoques de búsqueda por palabras clave agéntica pueden lograr más del 90% del rendimiento de RAG sin bases de datos vectoriales [5].</p><p>El futuro probablemente será híbrido. RAG para búsqueda semántica abierta. Sistema de archivos para navegación estructurada y ejecución de tareas. Pero el centro de gravedad está desplazándose hacia el sistema de archivos, y las implicaciones estratégicas son significativas.</p><h2>El Imperativo Estratégico</h2><p>Si estás construyendo infraestructura agéntica, necesitas una estrategia VFS. He aquí por qué.</p><p><strong>Para empresas SaaS</strong>: la lección de Box es que el sistema de archivos se está convirtiendo en la superficie de integración para los agentes. Si el contenido de tu plataforma no es navegable como un sistema de archivos, los agentes te ignorarán. Las empresas SaaS que expongan sus datos a través de interfaces tipo sistema de archivos se convertirán en parte del flujo de trabajo agéntico. Las que no lo hagan se volverán invisibles para los agentes, lo que significa invisibles para los usuarios.</p><p><strong>Para proveedores de infraestructura</strong>: la base de datos no va a desaparecer. Se está moviendo por debajo del sistema de archivos. Esto es en realidad una buena noticia para las empresas de bases de datos. Turso entendió esto y construyó AgentFS sobre SQLite. Cada agente que se pone en marcha crea una nueva base de datos. Cuantos más agentes ejecute el mundo, más bases de datos necesitará el mundo. Pero la base de datos necesita desaparecer detrás de una abstracción de sistema de archivos.</p><p><strong>Para empresas</strong>: la historia de gobernanza es lo que importa. La propuesta de Box no es realmente sobre sistemas de archivos. Es sobre el hecho de que su modelo de permisos, registro de auditoría e infraestructura de cumplimiento se extiende automáticamente a los agentes cuando se accede al contenido a través de la capa VFS [3]. Esta es la respuesta a la pregunta que todo CISO está haciendo: «¿Cómo dejamos que los agentes accedan a nuestro contenido sin crear una pesadilla de seguridad?»</p><h2>La Capa Unificadora</h2><p>La pila de infraestructura agéntica ha estado evolucionando en fases claras: herramientas (MCP), habilidades y grafos de contexto. El sistema de archivos virtual encaja en este arco como el <strong>mecanismo de entrega</strong> para los tres. Las herramientas MCP se invocan a través del sistema de archivos. Las habilidades se almacenan como archivos. Los grafos de contexto se navegan como árboles de directorios. El sistema de archivos no reemplaza estas capas. Las unifica detrás de una única interfaz familiar.</p><p>Este es el verdadero insight. El sistema de archivos no es una idea nueva. Es la abstracción más antigua de la computación. Pero eso es exactamente por qué funciona para los agentes. En un mundo donde estamos inventando nuevos paradigmas cada trimestre, el movimiento más poderoso podría ser volver a la interfaz más probada que tenemos y poner una base de datos moderna detrás de ella.</p><p>Las empresas que entienden esto —Mintlify, Turso, Box, ByteDance— no están construyendo algo nuevo. Están reconociendo algo antiguo y dándole un nuevo trabajo.</p><hr><p><strong>Referencias:</strong></p><p>[1] <a href=\"https://www.mintlify.com/blog/how-we-built-a-virtual-filesystem-for-our-assistant\">Mintlify. (2026, 2 de abril). <em>How we built a virtual filesystem for our Assistant</em>. Mintlify Blog.</a></p><p>[2] <a href=\"https://turso.tech/blog/agentfs\">Turso. (2026). <em>The Missing Abstraction for AI Agents: The Agent Filesystem</em>. Turso Blog.</a></p><p>[3] <a href=\"https://www.blocksandfiles.com/ai-ml/2026/03/09/box-pitches-virtual-filesystem-layer-for-ai-agents/5208017\">Blocks and Files. (2026, 9 de marzo). <em>Box pitches 'virtual filesystem' layer for AI agents</em>. Blocks and Files.</a></p><p>[4] <a href=\"https://github.com/volcengine/OpenViking\">Volcengine. (2026). <em>OpenViking: An open-source context database for AI Agents</em>. GitHub.</a></p><p>[5] <a href=\"https://signals.aktagon.com/articles/2026/02/keyword-search-is-all-you-need-achieving-rag-level-performance-without-vector-databases-using-agentic-tool-use/\">Signals. (2026, febrero). <em>Keyword Search is All You Need: Achieving RAG-Level Performance Without Vector Databases Using Agentic Tool Use</em>. Signals.</a></p><p>[6] <a href=\"https://github.com/subramanya1997/markdownfs\">Subramanya N. (2026). <em>markdownfs: A high-performance, concurrent markdown database built in Rust</em>. GitHub.</a></p>",
  "source_hash": "sha256:ea80be6a7f1e92f4b1cd368f4ce0178d49cbe7579c9693b08d174d40c5961953",
  "model": "claude-sonnet-4-6",
  "generated_at": "2026-04-13T19:26:51.490435+00:00"
}