{
  "title": "Le Système de Fichiers est la Base de Données : Pourquoi les Agents ont Besoin d'une Nouvelle Primitive de Stockage",
  "excerpt": "Les pipelines RAG ont donné de la mémoire aux agents. Mais la prochaine vague d'infrastructure agentique converge vers une primitive entièrement différente : le système de fichiers virtuel. De ChromaFs de Mintlify à AgentFS de Turso en passant par la couche VFS enterprise de Box, le schéma est indéniable. Le système de fichiers devient l'interface universelle pour la cognition des agents, et la base de données devient discrètement son substrat.",
  "content_html": "<p>Quelque chose d'intéressant se passe dans l'espace de l'infrastructure agentique, et ce n'est pas ce que la plupart des gens attendaient. Depuis deux ans, le paradigme dominant pour donner aux agents accès à la connaissance a été la Génération Augmentée par Récupération : embarquez vos documents, stockez-les dans une base de données vectorielle, et laissez le modèle les interroger au moment de l'inférence. Le RAG fonctionnait. C'était suffisant. Mais « suffisant » a une date de péremption, et en 2026, cette date est en train d'expirer.</p><p>Un nouveau schéma émerge dans l'industrie, et il converge simultanément depuis plusieurs directions. Mintlify a remplacé l'intégralité de son pipeline RAG par un système de fichiers virtuel et a vu la création de session passer de 46 secondes à 100 millisecondes [1]. Turso a construit AgentFS, un système de fichiers basé sur SQLite qui donne à chaque agent son propre bac à sable copy-on-write [2]. Box, le géant du contenu d'entreprise, a annoncé qu'il repositionne l'intégralité de sa plateforme comme une couche de système de fichiers virtuel pour les agents IA [3]. Et ByteDance a publié en open source OpenViking, une base de données de contexte qui organise toute la mémoire, les ressources et les compétences des agents sous forme d'un système de fichiers hiérarchique [4].</p><p>Ce ne sont pas des expériences de niche. Ce sont des signaux d'un changement fondamental. <strong>Le système de fichiers devient l'interface universelle pour la cognition des agents, et la base de données devient discrètement son substrat.</strong></p><h2>Pourquoi le RAG a Atteint ses Limites</h2><p>Le RAG était la bonne réponse pour 2023. Vous aviez un tas de documents, un modèle avec une fenêtre de contexte limitée, et vous aviez besoin d'un moyen de faire remonter les passages pertinents au moment de la requête. Les embeddings vectoriels et la recherche par similarité ont résolu ce problème avec élégance.</p><p>Mais les agents ne sont pas des chatbots. Un agent ne pose pas une seule question et ne repart pas. Il explore. Il lit un fichier, découvre une référence, la suit, lit un autre fichier, exécute une commande, produit un résultat. Ce n'est pas un problème de récupération. C'est un problème de navigation.</p><p>Les pipelines RAG peinent avec cela pour trois raisons. Premièrement, ils sont sans état par conception. Chaque requête est indépendante ; il n'existe pas de concept « j'étais en train de regarder ce répertoire, montre-moi maintenant le fichier adjacent ». Deuxièmement, ils aplatissent la structure. Un site de documentation avec une hiérarchie claire de sections, de pages et d'exemples de code est découpé en morceaux anonymes de 512 tokens qui perdent leur contexte organisationnel. Troisièmement, ils sont coûteux à grande échelle. Le calcul des embeddings, la maintenance des index vectoriels et le re-ranking ajoutent tous de la latence et des coûts qui s'accumulent à mesure que le corpus grandit.</p><p>Le système de fichiers résout les trois. Il est intrinsèquement avec état (l'agent a un répertoire de travail). Il préserve la structure (répertoires, sous-répertoires, fichiers). Et il est rapide parce que les opérations sont simples : <code>ls</code>, <code>cat</code>, <code>grep</code>, <code>find</code>. Ce ne sont pas de nouvelles abstractions. Ce sont les interfaces les plus éprouvées de l'informatique.</p><h2>La Convergence : Quatre Approches, Un Seul Schéma</h2><p>Ce qui rend ce moment significatif, c'est que le schéma du système de fichiers émerge indépendamment dans des contextes très différents.</p><p><strong>ChromaFs de Mintlify</strong> est peut-être l'exemple le plus instructif. Mintlify alimente des assistants de documentation pour des milliers d'entreprises. Leur architecture originale était du RAG classique : découper les docs, les embarquer, les récupérer au moment de la requête. Quand ils l'ont remplacée par ChromaFs, un système de fichiers virtuel qui intercepte les commandes UNIX et les traduit en requêtes vers la base de données Chroma, les résultats ont été spectaculaires. La création de session est passée de 46 secondes à 100 millisecondes, une amélioration de 460x. Le coût marginal par conversation est passé de 0,0137 $ à pratiquement zéro [1]. L'insight clé : l'agent sait déjà naviguer dans un système de fichiers. Lui apprendre à utiliser <code>cat /auth/oauth.mdx</code> est trivial comparé à lui apprendre à formuler la bonne requête vectorielle.</p><p><strong>AgentFS de Turso</strong> s'attaque à un problème différent : l'isolation et l'auditabilité des agents. Chaque agent obtient son propre système de fichiers basé sur SQLite avec une sémantique copy-on-write. Le système de fichiers hôte est une couche de base en lecture seule ; l'agent écrit dans une couche delta SQLite. Chaque opération de fichier, appel d'outil et changement d'état est enregistré. L'intégralité du runtime de l'agent — fichiers, état, historique — tient dans un seul fichier SQLite portable [2]. Ce n'est pas seulement un système de fichiers. C'est un environnement d'exécution auditable et reproductible.</p><p><strong>Le VFS enterprise de Box</strong> est le plus stratégiquement significatif. Le PDG de Box, Aaron Levie, a été explicite : les agents ont besoin d'un système de fichiers pour effectuer du travail de connaissance en entreprise [3]. Mais Box ne propose pas un système de fichiers littéral. Ils proposent un « contrat de livraison de données dynamique » qui peut être soutenu par du stockage objet, des bases de données relationnelles ou leur propre plateforme de contenu. Le système de fichiers est l'interface ; le magasin de support est ce qui a du sens pour les données. Ce qui rend le positionnement de Box intéressant, c'est la couche de gouvernance : les permissions, les pistes d'audit et les frontières de conformité qui se transmettent automatiquement de la plateforme de contenu à l'agent.</p><p><strong>OpenViking de ByteDance</strong> pousse le schéma le plus loin. Il organise tout le contexte des agents — mémoires, ressources, compétences, connaissances — sous un protocole <code>viking://</code> utilisant la sémantique standard des systèmes de fichiers. Les agents naviguent avec <code>ls</code> et <code>find</code>. Mais la partie ingénieuse est le modèle d'accès par niveaux : chaque élément de contexte est traité en trois couches. L0 est un résumé en une phrase pour une récupération rapide. L1 est une vue d'ensemble avec les informations essentielles pour la planification. L2 est le contenu complet pour une lecture approfondie [4]. L'agent commence par L0, plonge dans L1 quand il a besoin de plus, et ne charge L2 que lorsqu'il effectue un travail détaillé. Sur le benchmark LoCoMo, cela a réduit la consommation de tokens de 24,6 millions à 4,2 millions tout en augmentant les taux de complétion des tâches à 52 % [4].</p><h2>Le Système de Fichiers comme Interface, la Base de Données comme Substrat</h2><p>Le schéma qui relie les quatre est ce que j'appellerais la <strong>dualité VFS</strong> : le système de fichiers gagne comme interface, et la base de données gagne comme substrat. Ce n'est pas un choix binaire. C'est une architecture en couches.</p><p>Pourquoi le système de fichiers gagne comme interface est simple. Les LLMs sont entraînés sur internet, et internet est construit par des développeurs qui pensent en termes de fichiers, de répertoires, de chemins et d'outils en ligne de commande. Les modèles sont inhabituellement compétents avec ces primitives parce qu'ils ont vu des milliards d'exemples de développeurs naviguant dans des bases de code, lisant des fichiers et exécutant des commandes shell. Quand vous donnez un système de fichiers à un agent, vous le rencontrez là où vivent ses données d'entraînement.</p><p>Pourquoi la base de données gagne comme substrat est tout aussi clair. Dès que la mémoire d'un agent doit être partagée, auditée, interrogée par plusieurs agents, ou rendue fiable sous concurrence, vous avez besoin des garanties d'une base de données. Les transactions ACID, le contrôle d'accès, la recherche sémantique, l'historique des versions : ce sont des problèmes difficiles que les bases de données ont passé des décennies à résoudre. Les réimplémenter au-dessus d'un système de fichiers littéral est une voie vers la souffrance.</p><p>Le schéma VFS vous donne les deux. L'agent voit des fichiers et des répertoires. Le système voit des tables, des index et des listes de contrôle d'accès. ChromaFs stocke tout dans Chroma mais l'expose comme des fichiers. AgentFS stocke tout dans SQLite mais l'expose comme un système de fichiers POSIX. OpenViking utilise son propre moteur de stockage mais l'expose comme des chemins <code>viking://</code>. Box utilise sa plateforme de contenu enterprise mais l'expose comme un arbre navigable.</p><h2>Mais un VFS Peut-il Vraiment Battre le Système de Fichiers Natif ?</h2><p>L'objection naturelle à tout cela est : pourquoi ne pas simplement utiliser le vrai système de fichiers ? POSIX est là. Chaque système d'exploitation le fournit. Pourquoi ajouter une couche d'abstraction ?</p><p>Je voulais répondre à cette question empiriquement, alors j'ai construit <a href=\"https://github.com/subramanya1997/markdownfs\">markdownfs</a>, un système de fichiers virtuel from-scratch en Rust conçu spécifiquement pour les charges de travail agentiques [6]. Il supporte l'ensemble complet des commandes de type UNIX (<code>ls</code>, <code>cat</code>, <code>grep</code>, <code>find</code>, <code>chmod</code>, <code>chown</code>), le versionnage de style Git avec stockage adressable par contenu, les permissions multi-utilisateurs, et expose trois méthodes d'accès : un CLI/REPL, une API HTTP/REST, et un serveur MCP auquel des agents comme Claude et Cursor peuvent se connecter directement.</p><p>L'architecture est simple : une table d'inodes en mémoire soutenue par un magasin de blobs adressable par contenu utilisant le hachage SHA-256, avec <code>tokio::RwLock</code> pour un accès concurrent sûr. Les fichiers sont dédupliqués automatiquement. Le contrôle de version utilise le même modèle commit/revert que Git, mais au niveau du système de fichiers. La persistance est gérée via des snapshots bincode atomiques.</p><p>Quand j'ai comparé markdownfs au système de fichiers natif sur les opérations standard des agents (création de fichiers, lectures, écritures, listage de répertoires, grep, find, déplacement, copie, suppression), markdownfs était en moyenne environ <strong>130x plus rapide</strong> dans l'ensemble. Les raisons sont structurelles, pas accidentelles. Les opérations en mémoire éliminent entièrement les E/S disque. Le stockage adressable par contenu signifie que les fichiers dupliqués ne sont stockés qu'une seule fois. Les lectures zero-copy signifient que l'agent obtient les données sans surcharge de sérialisation. Et parce que l'intégralité de l'état du système de fichiers vit dans un seul processus, il n'y a pas de frontières d'appels système à franchir.</p><p>La comparaison est particulièrement frappante pour les opérations que les agents effectuent le plus fréquemment :</p><table><thead><tr><th>Opération</th><th>Pourquoi le VFS Gagne</th></tr></thead><tbody><tr><td><strong>Lectures répétées</strong> (l'agent relit le contexte)</td><td>En mémoire, zero-copy. Pas de recherches disque, pas de défauts de cache de pages.</td></tr><tr><td><strong>grep sur des fichiers</strong> (l'agent cherche des patterns)</td><td>Tout le contenu est en mémoire. Pas de traversée de répertoires, pas de gestion de descripteurs de fichiers.</td></tr><tr><td><strong>Création rapide de fichiers</strong> (l'agent produit des artefacts de travail)</td><td>Pas de journalisation du système de fichiers, pas d'allocation d'inodes sur disque, pas de fsync.</td></tr><tr><td><strong>Listage de répertoires</strong> (l'agent explore la structure)</td><td>Recherche BTreeMap vs appels système readdir.</td></tr></tbody></table><p>Mais la performance n'est pas le vrai argument. Le vrai argument est ce que le système de fichiers natif <em>ne peut pas faire</em>. Un système de fichiers POSIX n'a pas de concept de recherche sémantique. Il n'a pas de versionnage intégré (vous avez besoin de Git pour ça). Il n'a pas de modèle d'accès par niveaux (vous obtenez le fichier entier ou rien). Il n'a pas de déduplication de contenu. Il n'a pas de piste d'audit des opérations des agents. Et surtout, il n'a pas d'interface MCP, ce qui signifie que les agents ne peuvent pas y accéder via le protocole standard vers lequel l'écosystème converge.</p><p>Le VFS n'est pas seulement plus rapide. C'est une primitive plus riche. Il vous donne l'interface familière de <code>ls</code> et <code>cat</code> tout en ajoutant les capacités dont les agents ont réellement besoin : versionnage, permissions, recherche, déduplication et accès natif au protocole via MCP ou HTTP.</p><h2>Ce que Cela Signifie pour le RAG</h2><p>Pour être clair, le RAG n'est pas mort. La recherche vectorielle reste précieuse pour les requêtes floues et sémantiques où l'agent ne sait genuinement pas ce qu'il cherche. Mais l'évaluation honnête est que le RAG a été sur-appliqué. Beaucoup des cas d'usage où les équipes ont déployé des pipelines RAG — récupération de documentation, navigation dans les bases de code, gestion des connaissances d'entreprise — sont mieux servis par une interface de système de fichiers.</p><p>Les preuves sont frappantes. L'accélération de 460x de Mintlify est venue du remplacement du RAG par un système de fichiers, pas de son augmentation [1]. Des recherches de Letta montrent que les agents utilisant de simples opérations de système de fichiers atteignent 74 % de précision sur les benchmarks de mémoire, compétitif avec les outils de récupération spécialisés. Et les approches de recherche par mots-clés agentiques peuvent atteindre plus de 90 % des performances du RAG sans bases de données vectorielles du tout [5].</p><p>L'avenir est probablement hybride. RAG pour la recherche sémantique ouverte. Système de fichiers pour la navigation structurée et l'exécution de tâches. Mais le centre de gravité se déplace vers le système de fichiers, et les implications stratégiques sont significatives.</p><h2>L'Impératif Stratégique</h2><p>Si vous construisez de l'infrastructure agentique, vous avez besoin d'une stratégie VFS. Voici pourquoi.</p><p><strong>Pour les entreprises SaaS</strong> : la leçon de Box est que le système de fichiers devient la surface d'intégration pour les agents. Si le contenu de votre plateforme n'est pas navigable comme un système de fichiers, les agents vous contourneront. Les entreprises SaaS qui exposent leurs données via des interfaces de type système de fichiers feront partie du flux de travail agentique. Celles qui ne le font pas deviendront invisibles aux agents, ce qui signifie invisibles aux utilisateurs.</p><p><strong>Pour les fournisseurs d'infrastructure</strong> : la base de données ne disparaît pas. Elle se déplace sous le système de fichiers. C'est en réalité une bonne nouvelle pour les entreprises de bases de données. Turso l'a compris et a construit AgentFS au-dessus de SQLite. Chaque agent qui démarre crée une nouvelle base de données. Plus le monde fait tourner d'agents, plus le monde a besoin de bases de données. Mais la base de données doit disparaître derrière une abstraction de système de fichiers.</p><p><strong>Pour les entreprises</strong> : c'est l'histoire de la gouvernance qui compte. Le discours de Box ne porte pas vraiment sur les systèmes de fichiers. Il porte sur le fait que leur modèle de permissions, leur piste d'audit et leur infrastructure de conformité s'étendent automatiquement aux agents lorsque le contenu est accédé via la couche VFS [3]. C'est la réponse à la question que chaque RSSI pose : « Comment permettons-nous aux agents d'accéder à notre contenu sans créer un cauchemar de sécurité ? »</p><h2>La Couche Unificatrice</h2><p>La pile d'infrastructure agentique a évolué en phases claires : outils (MCP), compétences et graphes de contexte. Le système de fichiers virtuel s'inscrit dans cet arc comme le <strong>mécanisme de livraison</strong> pour les trois. Les outils MCP sont invoqués via le système de fichiers. Les compétences sont stockées comme des fichiers. Les graphes de contexte sont navigués comme des arborescences de répertoires. Le système de fichiers ne remplace pas ces couches. Il les unifie derrière une interface unique et familière.</p><p>C'est là le vrai insight. Le système de fichiers n'est pas une nouvelle idée. C'est l'abstraction la plus ancienne de l'informatique. Mais c'est exactement pourquoi il fonctionne pour les agents. Dans un monde où nous inventons de nouveaux paradigmes chaque trimestre, le mouvement le plus puissant pourrait être de revenir à l'interface la plus éprouvée que nous ayons et de mettre une base de données moderne derrière elle.</p><p>Les entreprises qui comprennent cela — Mintlify, Turso, Box, ByteDance — ne construisent pas quelque chose de nouveau. Elles reconnaissent quelque chose d'ancien et lui donnent un nouveau rôle.</p><p><strong>Références :</strong></p><p>[1] <a href=\"https://www.mintlify.com/blog/how-we-built-a-virtual-filesystem-for-our-assistant\">Mintlify. (2026, 2 avril). <em>How we built a virtual filesystem for our Assistant</em>. Mintlify Blog.</a></p><p>[2] <a href=\"https://turso.tech/blog/agentfs\">Turso. (2026). <em>The Missing Abstraction for AI Agents: The Agent Filesystem</em>. Turso Blog.</a></p><p>[3] <a href=\"https://www.blocksandfiles.com/ai-ml/2026/03/09/box-pitches-virtual-filesystem-layer-for-ai-agents/5208017\">Blocks and Files. (2026, 9 mars). <em>Box pitches 'virtual filesystem' layer for AI agents</em>. Blocks and Files.</a></p><p>[4] <a href=\"https://github.com/volcengine/OpenViking\">Volcengine. (2026). <em>OpenViking: An open-source context database for AI Agents</em>. GitHub.</a></p><p>[5] <a href=\"https://signals.aktagon.com/articles/2026/02/keyword-search-is-all-you-need-achieving-rag-level-performance-without-vector-databases-using-agentic-tool-use/\">Signals. (2026, février). <em>Keyword Search is All You Need: Achieving RAG-Level Performance Without Vector Databases Using Agentic Tool Use</em>. Signals.</a></p><p>[6] <a href=\"https://github.com/subramanya1997/markdownfs\">Subramanya N. (2026). <em>markdownfs: A high-performance, concurrent markdown database built in Rust</em>. GitHub.</a></p>",
  "source_hash": "sha256:ea80be6a7f1e92f4b1cd368f4ce0178d49cbe7579c9693b08d174d40c5961953",
  "model": "claude-sonnet-4-6",
  "generated_at": "2026-04-13T19:26:44.440321+00:00"
}