Brèves du 21/05/2024

Le 21 mai, ont été présentées les produits de l’incubateur et leur avancement :

Albert MFS (ANCT)

Montant investi : 100 000€
Dernier rendez vous : 24/05/24
Résumé : Déploiement d’Albert, sous forme de chat disponible en ligne et assistant de l’agent dans sa réponse à l’usager.

Actualité :
Le passage de Mistral à Llama3 a provoqué un saut qualitatif.

Néanmoins, il est à noter le difficile développement “commercial” de la solution : même si le nombre de maisons France Services intégrées à l’expérimentation augmente, les agents se saisissent encore peu de l’outil, et les nombreuses erreurs de la version 1, moindres dans la version actuelle, a créé un évènement déceptif, rendant difficile la récupération des premiers usagers.

Un comité d’investissement Albert est prévu pour juin 2024.

Aristote (MESRI)

Montant investi : 100 000€
Dernier rendez vous : 06/05/24

Résumé : Outil de génération de quiz à partir de supports de cours réalisé par CentraleSupelec.

Actualité :

Intégration prochaine à POD (plateforme vidéo de l’enseignement supérieur) et à FUN
Quelques professeurs en beta test à l’heure actuelle. Peu concluant à ce stade en environnement scientifique.

SpeechToText (FUN)

Montant investi : 100 000€
Dernier rendez vous : 14/05/24
Résumé : Une solution de transcription voix vers texte, libre, frugal et adapté à des cas d’usage asynchrones comme le sous-titrage de documents audio-visuels.

Actualité :
Les développements ont commencé avec en ligne de mire au moins deux déploiements d’ici le début de l’été :

le sous-titrage du contenu d’une à plusieurs instances peerTube, publiques (ENT) et privées (Framasoft)
le sous-titrage de toute la bibliothèque FUN
L’intégration à La Suite est en discussion pour rester dans un contexte asynchrone, par exemple en fournissant quelques minutes après une visioconférence sa restranscription et son compte-rendu. Le taux de reconnaissance visé est de 95%.

Panneaux-ramax (IGN)

Montant investi : 343 000€
Dernier rendez vous : 22/05/24
Résumé : Un outil d’intelligence artificielle utilisant des photos panoramiques du terrain pour y détecter panneaux de signalisation ou infrastructures publiques. Cette interprétation automatique permet de constituer un jeu de données géographiques de qualité autorisant diverses réutilisations publiques comme privées (ex. OpenStreetMap fiabilise son calculateur d’itinéraire).

Actualité :
Le déploiement de Panoramax sur l’ensemble du territoire français se poursuit et s’intensifie à travers un soutien important de la Fabrique des géocommuns. Diverses collectivités, SDIS, et conseils départementaux ont rejoint le projet et fournissent leurs prises de vue.

Les derniers développements permettent de détecter les places de parking adaptées aux personnes en situation de handicap et pousse encore plus loin la détection de panneaux. Par ailleurs, un entraînement spécifique a été réalisé pour modérer les images téleversées et détecter automatiquement les contenus inadaptés.

Camembert 2.0 (INRIA)

Montant investi : 60 000€
Dernier rendez vous : 13/05/24
Résumé : Un LLM de réference en Français, frugal, et adapté à des tâches de classification.

Actualité : Le nouveau jeu de données d’entraînement a été constitué : 400B tokens avec CultaraX(Fr)+ Hal (archives scientifiques franchophones) + autres données blanches. Le modèle est en toute fin d’entraînement à JeanZay où il peine à bénéficier d’une priorité suffisante. Plusieurs modèles : CamemBERTa 100M paramètres et CamemBERT à 700M.

Les téléchargements de Camembert sur HuggingFace sont passés de 20M à 42M en moins d’un an, témoignant de nombreux usages académiques et industriels.

LANGU:IA (Ministère Culture)

Montant investi : 150 000€
Dernier rendez vous : 7/5/24
Prochain rendez vous : 22/5/24
Résumé : Proposer une sensibilisation à l’IA sous la forme d’un module d’apprentissage interactif intégré à PIX. Le module recueille des préférences humaines en comparant des LLM et publie ce jeu de donnée utile au benchmark ou à l’étalonnage de LLM francophones.

Actualité :
L’accord avec PIX a été signé et engagé en ingénierie pédagogique côté PIX. Lucie Termignon constitue une équipe pour début juin pour développer l’arène de LLM. Le module assemblé sera disponible dans PIX pour le sommet de la Francophonie le 4 octobre. Selon l’avancement, seul le texte sera traîté, et le son et l’image si les travaux avancent suffisamment.

LIRIAe (MTECT)

Montant investi : 150 000€
Dernier rendez vous : 5/05/24
Résumé : Une liseuse intelligente pour faciliter le travail des instructeurs de dossiers environnementaux

Actualité :
Les travaux débutent.

RAGtime (DINUM)

Montant investi : 100 000€
Dernier rendez vous : 17/05/24
Résumé : Une solution de testabilité des LLM utilisée pour comparer des IA entre elles et entre différentes versions d’une même solution, permettant d’éviter des régressions de qualité, par exemple.

Actualité : Le produit est disponible sur PyPi (donc utilisable). Une première utilisation a été réalisée à l’aide de la base open source de questions/réponses en langage naturel de Google. Le produit est assez mature pour être intégré et utilisé pour tester un LLM sur des questions génériques. Un dépot github, intégrant le code et deux exemples a été livré.

Tous ces produits ont fait l’objet d’échanges riches, de débats et d’avis sur les différents sujets. D’autres initiatives, et cas d’usage de l’IA ont été présentés, publics et privés, permettant un tour de table des actualités et besoins (puissance de calcul, experts…) de chacun, parfois solutionnés au sein même du meetup.