Réalisation de produits numériques

Publié le mardi 17 octobre 2023

Le 17 octobre, les membres de l’incubateur se sont à nouveau retrouvés pour échanger autours de sujets nouveaux, liés à la réalisation de produits numériques. Comme à son habitude, cette rencontre s’est déroulée suivant un ordre du jour souple, permettant à tous de s’exprimer librement, sous formes de pitch de moins de 3 minutes, questionnés et relancés par les autres membres présents.

Présentations des produits et demandes de l’Administration

Albert. Pitch produit et explication des choix techniques réalisés (fine tuning d’un modèle libre, llama2, base d’entraînement, etc). Albert est un moteur de réponse en langage naturel, entrainé sur des fiches de la (Ouvre une nouvelle fenêtre) DILA, qui permet à l’agent public de répondre de manière précise et circonstanciée à un usager. Les premiers tests ont montré une meilleure performance que la concurrence (Chat GPT notamment), car basé sur des données plus récentes, propres à la France, et capable de citer ses sources.

Lutte contre la fraude chez France Connect. Oliver Boudou nous a présenté l’enjeu de la fraude sur France Connect : usurpation d’identité et détournement de prestations sociales, les fraudes sont aujourd’hui détectées manuellement et très a posteriori. L’objectif est de lutter contre les quelques dizaines de milliers de tentatives qui ont lieu chaque mois, pour la plupart peu ou pas détectées.

Aristote. Renaud Monnet (CentraleSupélec) a présenté un produit qui sera disponible sous forme d’API et intégré à différents environnement d’enseignement interactif (Wooclap, Moodle…) et qui permettra de générer de manière automatisée des quiz et évaluations.

Actualités et vie du consortium

- Le Ministre de la Transformation et de la Fonction publique, Stanislas Guérini, a réuni le 05/10 certains membres de l’incubateur pour une discussion autour de l’IA dans les services publics. Ce fût l’occasion de discuter souveraineté, jeux de données, et déploiement d’Albert, premier produit de l’incubateur, issu du datalab (Etalab, DINUM).

- Le premier comité de financement a lieu le 18 octobre, au lendemain du MeetUp, et a pour objet le financement de trois produits, Albert dans les maisons France Services, Camembert 2.0, présentés dans les Brèves du 12/09/2023 et Aristote, présenté ce jour.
^{[UPDATE 19/10/23 : les trois produits ont été financés, à hauteur de 100% du montant sollicité]}

Présentations des produits en phase d’idéation

Mistral AI a évoqué l’idée d’un outil de tests automatisés, sous licence libre, permettant de d’éprouver les performance et la qualité des modèles via une série de paires de questions (ouvertes puis fermées). Gilles Moyse a ainsi insisté sur la nécessaire qualité des LLM : “Un outil grand public qui ne fonctionne qu’à 80%, 8 fois sur 10, n’est pas suffisant pour être qualifié de bon modèle”.

Aide à la réponse à des rescrits fiscaux. Pour un volume en dizaines de millions/an, la DGFIP propose de fine-tuner du LLAMA2 sur des données officielles. Ce produit porté par la DGFIP, fera comme tous les autres l’objet d’une fiche action.

Assistant virtuel de réponse en droit du travail : Aider les agents chargés de renseignements en droit du travail à dispenser au public demandeur une information juridique de qualité

Échange autour de la notion de données ouvertes ou fermées à l’entrainement des LLM

Benoît Sagot, Gilles Moyse et plus généralement quelques membres de l’incubateur ont échangé publiquement sur le sujet. Il est à noter ces différents points :

La langue et la “culture” française ne pèse aujourd’hui que 0,2% de la totalité des données d’entraînement. Il serait intéressant de questionner la souveraineté des modèles à cet égard : comment garantir une maîtrise, en amont du fine-tuning ?
La question de la source de la donnée, en particulier de LLM comme LLAMA2. Benoît Sagot en distingue trois types :
- Les données blanches : l’open data, totalements ouvertes
- Les données noires : issues de contenus privés, de données persos, etc.
- Les données grises : pourtant protégés par le droit d’auteur, certaines données sont pourtant aspirées et utilisées pour l’entraînement de LLM.
Il est donc essentiel de trouver une solution pour garantir une juste contre-partie aux ayants droits et aboutir sur un débouché juridique pour l’entraînement. Quelques pistes sont à l’étude coté DINUM, rapportées au prochain MeetUp par Pierre Pezziardi.

L’importance de ce débat est par ailleurs confirmé par les différentes sorties dans la (Ouvre une nouvelle fenêtre) presse grand public ou (Ouvre une nouvelle fenêtre) plus spécialisée.

Meet-Up

Produits incubés

Produits interministériels