{
  "title": "O Sistema de Arquivos É o Banco de Dados: Por Que Agentes Precisam de um Novo Primitivo de Armazenamento",
  "excerpt": "Os pipelines RAG deram memória aos agentes. Mas a próxima onda de infraestrutura agêntica está convergindo para um primitivo completamente diferente: o sistema de arquivos virtual. Do ChromaFs da Mintlify ao AgentFS da Turso e à camada VFS empresarial da Box, o padrão é inconfundível. O sistema de arquivos está se tornando a interface universal para a cognição de agentes, e o banco de dados está silenciosamente se tornando seu substrato.",
  "content_html": "<p>Algo interessante está acontecendo no espaço de infraestrutura agêntica, e não é o que a maioria das pessoas esperava. Nos últimos dois anos, o paradigma dominante para dar aos agentes acesso ao conhecimento foi a Geração Aumentada por Recuperação (RAG): incorpore seus documentos, armazene-os em um banco de dados vetorial e deixe o modelo consultá-los no momento da inferência. O RAG funcionou. Era bom o suficiente. Mas \"bom o suficiente\" tem prazo de validade, e em 2026, esse prazo está expirando.</p><p>Um novo padrão está emergindo em toda a indústria, convergindo de múltiplas direções ao mesmo tempo. A Mintlify substituiu todo o seu pipeline RAG por um sistema de arquivos virtual e viu o tempo de criação de sessão cair de 46 segundos para 100 milissegundos [1]. A Turso construiu o AgentFS, um sistema de arquivos baseado em SQLite que dá a cada agente sua própria sandbox com copy-on-write [2]. A Box, gigante de conteúdo empresarial, anunciou que está reposicionando toda a sua plataforma como uma camada de sistema de arquivos virtual para agentes de IA [3]. E a ByteDance abriu o código do OpenViking, um banco de dados de contexto que organiza toda a memória, recursos e habilidades do agente como um sistema de arquivos hierárquico [4].</p><p>Esses não são experimentos de nicho. São sinais de uma mudança fundamental. <strong>O sistema de arquivos está se tornando a interface universal para a cognição de agentes, e o banco de dados está silenciosamente se tornando seu substrato.</strong></p><h2>Por Que o RAG Atingiu um Limite</h2><p>O RAG era a resposta certa para 2023. Você tinha uma pilha de documentos, um modelo com uma janela de contexto limitada e precisava de uma forma de trazer à tona os trechos relevantes no momento da consulta. Embeddings vetoriais e busca por similaridade resolveram esse problema de forma elegante.</p><p>Mas agentes não são chatbots. Um agente não faz uma pergunta e vai embora. Ele explora. Lê um arquivo, descobre uma referência, a segue, lê outro arquivo, executa um comando, escreve uma saída. Isso não é um problema de recuperação. É um problema de navegação.</p><p>Os pipelines RAG têm dificuldades com isso por três razões. Primeiro, eles são stateless por design. Cada consulta é independente; não há conceito de \"eu estava olhando para este diretório, agora me mostre o arquivo adjacente\". Segundo, eles achatam a estrutura. Um site de documentação com uma hierarquia clara de seções, páginas e exemplos de código é fragmentado em chunks anônimos de 512 tokens que perdem seu contexto organizacional. Terceiro, eles são caros em escala. O cálculo de embeddings, a manutenção do índice vetorial e o re-ranking adicionam latência e custo que se acumulam conforme o corpus cresce.</p><p>O sistema de arquivos resolve os três problemas. É inerentemente stateful (o agente tem um diretório de trabalho). Preserva a estrutura (diretórios, subdiretórios, arquivos). E é rápido porque as operações são simples: <code>ls</code>, <code>cat</code>, <code>grep</code>, <code>find</code>. Essas não são abstrações novas. São a interface mais testada em batalha na computação.</p><h2>A Convergência: Quatro Abordagens, Um Padrão</h2><p>O que torna este momento significativo é que o padrão de sistema de arquivos está emergindo de forma independente em contextos muito diferentes.</p><p><strong>O ChromaFs da Mintlify</strong> é talvez o exemplo mais instrutivo. A Mintlify alimenta assistentes de documentação para milhares de empresas. Sua arquitetura original era RAG clássico: fragmentar os docs, incorporá-los, recuperar no momento da consulta. Quando substituíram por ChromaFs — um sistema de arquivos virtual que intercepta comandos UNIX e os traduz em consultas ao banco de dados Chroma — os resultados foram dramáticos. A criação de sessão passou de 46 segundos para 100 milissegundos, uma melhoria de 460x. O custo marginal por conversa caiu de $0,0137 para efetivamente zero [1]. O insight principal: o agente já sabe como navegar em um sistema de arquivos. Ensiná-lo a usar <code>cat /auth/oauth.mdx</code> é trivial comparado a ensiná-lo a formular a consulta vetorial correta.</p><p><strong>O AgentFS da Turso</strong> ataca um problema diferente: isolamento e auditabilidade do agente. Cada agente recebe seu próprio sistema de arquivos baseado em SQLite com semântica copy-on-write. O sistema de arquivos do host é uma camada base somente leitura; o agente escreve em uma camada delta SQLite. Cada operação de arquivo, chamada de ferramenta e mudança de estado é registrada. Todo o runtime do agente — arquivos, estado, histórico — cabe em um único arquivo SQLite portátil [2]. Isso não é apenas um sistema de arquivos. É um ambiente de execução auditável e reproduzível.</p><p><strong>O VFS empresarial da Box</strong> é o mais estrategicamente significativo. O CEO da Box, Aaron Levie, foi explícito: agentes precisam de um sistema de arquivos para realizar trabalho de conhecimento na empresa [3]. Mas a Box não está vendendo um sistema de arquivos literal. Está vendendo um \"contrato dinâmico de entrega de dados\" que pode ser suportado por armazenamento de objetos, bancos de dados relacionais ou sua própria plataforma de conteúdo. O sistema de arquivos é a interface; o armazenamento subjacente é o que faz sentido para os dados. O que torna a jogada da Box interessante é a camada de governança: permissões, trilhas de auditoria e limites de conformidade que se transferem automaticamente da plataforma de conteúdo para o agente.</p><p><strong>O OpenViking da ByteDance</strong> leva o padrão mais longe. Ele organiza todo o contexto do agente — memórias, recursos, habilidades, conhecimento — sob um protocolo <code>viking://</code> usando semântica padrão de sistema de arquivos. Os agentes navegam com <code>ls</code> e <code>find</code>. Mas a parte inteligente é o modelo de acesso em camadas: cada peça de contexto é processada em três camadas. L0 é um resumo de uma frase para recuperação rápida. L1 é uma visão geral com informações essenciais para planejamento. L2 é o conteúdo completo para leitura aprofundada [4]. O agente começa com L0, aprofunda-se em L1 quando precisa de mais, e só carrega L2 quando está fazendo trabalho detalhado. No benchmark LoCoMo, isso reduziu o consumo de tokens de 24,6 milhões para 4,2 milhões, enquanto aumentava as taxas de conclusão de tarefas para 52% [4].</p><h2>Sistema de Arquivos como Interface, Banco de Dados como Substrato</h2><p>O padrão que conecta os quatro é o que eu chamaria de <strong>dualidade VFS</strong>: o sistema de arquivos vence como interface, e o banco de dados vence como substrato. Essa não é uma escolha de um ou outro. É uma arquitetura em camadas.</p><p>Por que o sistema de arquivos vence como interface é direto. LLMs são treinados na internet, e a internet é construída por desenvolvedores que pensam em termos de arquivos, diretórios, caminhos e ferramentas de linha de comando. Os modelos são excepcionalmente competentes com esses primitivos porque viram bilhões de exemplos de desenvolvedores navegando em bases de código, lendo arquivos e executando comandos shell. Quando você dá a um agente um sistema de arquivos, está encontrando-o onde seus dados de treinamento vivem.</p><p>Por que o banco de dados vence como substrato é igualmente claro. No momento em que a memória do agente precisa ser compartilhada, auditada, consultada por múltiplos agentes ou tornada confiável sob concorrência, você precisa de garantias de banco de dados. Transações ACID, controle de acesso, busca semântica, histórico de versões: esses são problemas difíceis que os bancos de dados passaram décadas resolvendo. Reimplementá-los em cima de um sistema de arquivos literal é um caminho para a dor.</p><p>O padrão VFS oferece os dois. O agente vê arquivos e diretórios. O sistema vê tabelas, índices e listas de controle de acesso. O ChromaFs armazena tudo no Chroma, mas o expõe como arquivos. O AgentFS armazena tudo no SQLite, mas o expõe como um sistema de arquivos POSIX. O OpenViking usa seu próprio mecanismo de armazenamento, mas o expõe como caminhos <code>viking://</code>. A Box usa sua plataforma de conteúdo empresarial, mas a expõe como uma árvore navegável.</p><h2>Mas um VFS Pode Realmente Superar o Sistema de Arquivos Nativo?</h2><p>A objeção natural a tudo isso é: por que não usar o sistema de arquivos real? O POSIX está bem ali. Todo sistema operacional vem com ele. Por que adicionar uma camada de abstração?</p><p>Queria responder a essa pergunta empiricamente, então construí o <a href=\"https://github.com/subramanya1997/markdownfs\">markdownfs</a>, um sistema de arquivos virtual do zero em Rust projetado especificamente para cargas de trabalho de agentes [6]. Ele suporta o conjunto completo de comandos semelhantes ao UNIX (<code>ls</code>, <code>cat</code>, <code>grep</code>, <code>find</code>, <code>chmod</code>, <code>chown</code>), versionamento no estilo Git com armazenamento endereçável por conteúdo, permissões multiusuário, e expõe três métodos de acesso: um CLI/REPL, uma API HTTP/REST e um servidor MCP ao qual agentes como Claude e Cursor podem se conectar diretamente.</p><p>A arquitetura é simples: uma tabela de inodes em memória suportada por um armazenamento de blobs endereçável por conteúdo usando hash SHA-256, com <code>tokio::RwLock</code> para acesso concorrente seguro. Os arquivos são deduplicados automaticamente. O controle de versão usa o mesmo modelo de commit/revert do Git, mas no nível do sistema de arquivos. A persistência é tratada por meio de snapshots atômicos em bincode.</p><p>Quando fiz benchmark do markdownfs contra o sistema de arquivos nativo nas operações padrão de agentes (criação de arquivos, leituras, escritas, listagem de diretórios, grep, find, mover, copiar, exclusão), o markdownfs foi em média aproximadamente <strong>130x mais rápido</strong> no geral. As razões são estruturais, não acidentais. Operações em memória eliminam completamente o I/O de disco. O armazenamento endereçável por conteúdo significa que arquivos duplicados são armazenados uma vez. Leituras zero-copy significam que o agente obtém dados sem overhead de serialização. E porque todo o estado do sistema de arquivos vive em um único processo, não há fronteiras de chamadas de sistema para cruzar.</p><p>A comparação é particularmente marcante para as operações que os agentes realizam com mais frequência:</p><table><thead><tr><th>Operação</th><th>Por Que o VFS Vence</th></tr></thead><tbody><tr><td><strong>Leituras repetidas</strong> (agente relendo contexto)</td><td>Em memória, zero-copy. Sem buscas em disco, sem falhas de cache de página.</td></tr><tr><td><strong>grep em arquivos</strong> (agente buscando padrões)</td><td>Todo o conteúdo está em memória. Sem travessia de diretório, sem gerenciamento de file handle.</td></tr><tr><td><strong>Criação rápida de arquivos</strong> (agente produzindo artefatos de trabalho)</td><td>Sem journaling do sistema de arquivos, sem alocação de inode em disco, sem fsync.</td></tr><tr><td><strong>Listagem de diretórios</strong> (agente explorando estrutura)</td><td>Lookup em BTreeMap vs. syscalls readdir.</td></tr></tbody></table><p>Mas o desempenho não é o argumento real. O argumento real é o que o sistema de arquivos nativo <em>não consegue fazer</em>. Um sistema de arquivos POSIX não tem conceito de busca semântica. Não tem versionamento embutido (você precisa do Git para isso). Não tem modelo de acesso em camadas (você obtém o arquivo inteiro ou nada). Não tem deduplicação de conteúdo. Não tem trilha de auditoria de operações do agente. E, criticamente, não tem interface MCP, o que significa que os agentes não podem acessá-lo através do protocolo padrão para o qual o ecossistema está convergindo.</p><p>O VFS não é apenas mais rápido. É um primitivo mais rico. Oferece a interface familiar de <code>ls</code> e <code>cat</code> enquanto adiciona as capacidades que os agentes realmente precisam: versionamento, permissões, busca, deduplicação e acesso nativo ao protocolo via MCP ou HTTP.</p><h2>O Que Isso Significa para o RAG</h2><p>Para ser claro, o RAG não está morto. A busca vetorial continua valiosa para consultas semânticas difusas onde o agente genuinamente não sabe o que está procurando. Mas a avaliação honesta é que o RAG foi aplicado em excesso. Muitos dos casos de uso onde equipes implantaram pipelines RAG — recuperação de documentação, navegação em base de código, gestão de conhecimento empresarial — são melhor atendidos por uma interface de sistema de arquivos.</p><p>A evidência é marcante. O speedup de 460x da Mintlify veio de substituir o RAG por um sistema de arquivos, não de aumentá-lo [1]. Pesquisas da Letta mostram que agentes usando operações simples de sistema de arquivos alcançam 74% de precisão em benchmarks de memória, competitivo com ferramentas de recuperação especializadas. E abordagens de busca por palavras-chave agênticas podem alcançar mais de 90% do desempenho do RAG sem bancos de dados vetoriais [5].</p><p>O futuro provavelmente será híbrido. RAG para busca semântica aberta. Sistema de arquivos para navegação estruturada e execução de tarefas. Mas o centro de gravidade está se deslocando para o sistema de arquivos, e as implicações estratégicas são significativas.</p><h2>O Imperativo Estratégico</h2><p>Se você está construindo infraestrutura agêntica, precisa de uma estratégia VFS. Veja por quê.</p><p><strong>Para empresas SaaS</strong>: a lição da Box é que o sistema de arquivos está se tornando a superfície de integração para agentes. Se o conteúdo da sua plataforma não é navegável como um sistema de arquivos, os agentes vão ignorá-la. As empresas SaaS que expõem seus dados por meio de interfaces semelhantes a sistemas de arquivos se tornarão parte do fluxo de trabalho agêntico. As que não o fizerem se tornarão invisíveis para os agentes, o que significa invisíveis para os usuários.</p><p><strong>Para fornecedores de infraestrutura</strong>: o banco de dados não vai desaparecer. Está se movendo para baixo do sistema de arquivos. Isso é na verdade uma boa notícia para empresas de banco de dados. A Turso entendeu isso e construiu o AgentFS em cima do SQLite. Cada agente que é iniciado cria um novo banco de dados. Quanto mais agentes o mundo executar, mais bancos de dados o mundo precisará. Mas o banco de dados precisa desaparecer por trás de uma abstração de sistema de arquivos.</p><p><strong>Para empresas</strong>: a história de governança é o que importa. A proposta da Box não é realmente sobre sistemas de arquivos. É sobre o fato de que seu modelo de permissões, trilha de auditoria e infraestrutura de conformidade se estendem automaticamente aos agentes quando o conteúdo é acessado pela camada VFS [3]. Esta é a resposta para a pergunta que todo CISO está fazendo: \"Como permitimos que agentes acessem nosso conteúdo sem criar um pesadelo de segurança?\"</p><h2>A Camada Unificadora</h2><p>A pilha de infraestrutura agêntica tem evoluído em fases claras: ferramentas (MCP), habilidades e grafos de contexto. O sistema de arquivos virtual se encaixa nesse arco como o <strong>mecanismo de entrega</strong> para os três. Ferramentas MCP são invocadas pelo sistema de arquivos. Habilidades são armazenadas como arquivos. Grafos de contexto são navegados como árvores de diretórios. O sistema de arquivos não substitui essas camadas. Ele as unifica por trás de uma única interface familiar.</p><p>Este é o insight real. O sistema de arquivos não é uma ideia nova. É a abstração mais antiga da computação. Mas é exatamente por isso que funciona para agentes. Em um mundo onde estamos inventando novos paradigmas a cada trimestre, o movimento mais poderoso pode ser voltar à interface mais comprovada que temos e colocar um banco de dados moderno por trás dela.</p><p>As empresas que entendem isso — Mintlify, Turso, Box, ByteDance — não estão construindo algo novo. Estão reconhecendo algo antigo e dando a ele um novo trabalho.</p><h2>Referências</h2><p>[1] <a href=\"https://www.mintlify.com/blog/how-we-built-a-virtual-filesystem-for-our-assistant\">Mintlify. (2026, 2 de abril). <em>How we built a virtual filesystem for our Assistant</em>. Mintlify Blog.</a></p><p>[2] <a href=\"https://turso.tech/blog/agentfs\">Turso. (2026). <em>The Missing Abstraction for AI Agents: The Agent Filesystem</em>. Turso Blog.</a></p><p>[3] <a href=\"https://www.blocksandfiles.com/ai-ml/2026/03/09/box-pitches-virtual-filesystem-layer-for-ai-agents/5208017\">Blocks and Files. (2026, 9 de março). <em>Box pitches 'virtual filesystem' layer for AI agents</em>. Blocks and Files.</a></p><p>[4] <a href=\"https://github.com/volcengine/OpenViking\">Volcengine. (2026). <em>OpenViking: An open-source context database for AI Agents</em>. GitHub.</a></p><p>[5] <a href=\"https://signals.aktagon.com/articles/2026/02/keyword-search-is-all-you-need-achieving-rag-level-performance-without-vector-databases-using-agentic-tool-use/\">Signals. (2026, fevereiro). <em>Keyword Search is All You Need: Achieving RAG-Level Performance Without Vector Databases Using Agentic Tool Use</em>. Signals.</a></p><p>[6] <a href=\"https://github.com/subramanya1997/markdownfs\">Subramanya N. (2026). <em>markdownfs: A high-performance, concurrent markdown database built in Rust</em>. GitHub.</a></p>",
  "source_hash": "sha256:ea80be6a7f1e92f4b1cd368f4ce0178d49cbe7579c9693b08d174d40c5961953",
  "model": "claude-sonnet-4-6",
  "generated_at": "2026-04-13T19:26:41.045449+00:00"
}