Plateforme de données

Plateforme de données : un pilier essentiel du socle IA pour l’administration

La mise à disposition d’une plateforme de données robuste et sécurisée constitue l’un des piliers fondamentaux du socle IA. Cette plateforme permet de centraliser, structurer et rendre accessibles les données nécessaires au développement d’applications intelligentes, tout en garantissant la sécurité et le respect des règles de protection des données.

Au cœur de cette stratégie se trouve le context engineering, une approche qui vise à enrichir les modèles d’intelligence artificielle avec des données pertinentes, fiables et contextualisées, afin d’améliorer la qualité des réponses et des services proposés aux agents publics et aux citoyens.

Le context engineering : une approche centrée sur la qualité des données

Le context engineering repose sur l’idée que la performance d’une IA dépend directement de la qualité et de la pertinence des données auxquelles elle a accès. Pour répondre aux besoins spécifiques de l’administration, cette approche s’appuie sur :

  • L’aggrégation de sources variées (publiques et privées) ;
  • La structuration et l’indexation intelligente des données ;
  • La mise à disposition sécurisée selon les niveaux de sensibilité.

Grâce à cette méthode, les agents publics bénéficient d’outils d’IA capables de fournir des réponses précises, actualisées et adaptées à leur contexte métier.

RAG-as-a-service : une architecture adaptée à tous les besoins

Pour répondre aux exigences de sécurité et de souplesse, la plateforme propose une solution de RAG-as-a-service (Retrieval-Augmented Generation), via Albert API, hébergé en infrastructure SecNumCloud.

Ce service permet de :

  • déposer des collections de documents, qui seront automatiquement ingérée, chunkées, vectorisées ;
  • rechercher dans ces collections (via de la recherche sémantique, lexicale, ou hybride) ;
  • utiliser ce contexte pour alimenter les réponses d'un LLM.

Des sources de données publiques et privées

Sources publiques : transparence et accessibilité

La plateforme de données intègre plusieurs sources publiques majeures, accessibles via des infrastructures sécurisées :

  • data.gouv.fr : la plateforme nationale des données ouvertes. Elle est accessible via API, un serveur MCP, ou en téléchargement direct des datasets.
  • Corpus MediaTech : un ensemble de ressources juridiques et administratives, incluant :
    • Légifrance (textes de loi, codes, décrets) ;
    • La jurisprudence ;
    • La documentation de la fonction publique ;
    • Les formulaires CERFA.
  • Catalogue de données centralisé : une interface unique pour faciliter la recherche et l’accès aux données publiques.

Sources privées : sécurité et respect des permissions

Pour les données sensibles ou internes à l’administration, la plateforme propose une intégration sécurisée avec LaSuite (Fichiers, Docs, Grist) : permettant d’accéder aux documents internes tout en respectant les permissions existantes.

Cette approche permet de concilier performance, sécurité et flexibilité, en adaptant l’infrastructure aux besoins spécifiques de chaque administration.