Camembert 2.0

Un LLM de réference en Français, frugal, et adapté à des tâches de classification.

Porteur : INRIA - ALMAnaCH

Chef de projet : Djamé SEDDAH

Le modèle le plus utilisé pour le français bientôt obsolète

Il existe un besoin croissant de moteurs de recherche sémantiques fiables, c'est à dire qui soient en capacité de fournir à des modèles de langue (LLM) les documents nécessaires à leur apprentissage et à leur fonctionnement. En d'autres termes, ce procédé permet de contextualiser une requête, en s'attachant à comprendre l'intention de la question et en fournissant un ensemble de documents pour y répondre. Les meilleures de ces approches reposent sur du search and rerank.

Dans ce domaine, les modèles de langue tels CamemBERT ou CamemBERTa ont cependant été entraînés avec des données désormais obsolètes, ce qui diminue leurs performances lors de la mise en production. Lorsque CamemBERT a été entraîné en septembre 2019, il n'y avait évidemment aucune mention de la COVID-19 ni de discussions sur les restrictions de santé publique.

Innovation et impact

CamemBERT est à ce jour le modèle le plus utilisé pour le français avec 22 millions de téléchargement complets depuis sa release sur HuggingFace fin 2019. De nombreuses entreprises françaises s'appuient sur ce NLP pour augmenter leur efficacité : ENEDIS a par exemple utilisé CamemBERT pour aider à répartir 100 000 demandes de clients par jour vers 1 500 opérateurs, une tâche auparavant manuelle avec un retour sur investissement d'environ 3 millions d'euros par an.

La frugalité et la fiabilité des données d'entraînement (francophones et de sources libres) de CamemBERT/a par rapport à des modèles open source concurrents en font un leader pour de nombreuses applications, tous les usages ne justifiant pas le recours à de plus volumineux Large Language Models. La faible consommation en ressources des modèles utilisant Camembert s'explique par forme: un modèle entraîné sur beaucoup moins de données mais destiné à fournir des embeddings, des représentations vectorielles contextualisées, à des classifieurs plutôt que du texte généré par un modèle génératif, par définition beaucoup plus large et coûteux en ressources.

Stratégie de mise en marché

Le plan consiste d’abord à créer un corpus actualisé de textes en français, principalement issus de notre propre projet OSCAR. Le nouveau corpus servira à entraîner un nouveau modèle CamemBERTa de pointe, en plus d'un nouveau modèle CamemBERT, afin de garantir une compatibilité ascendante avec les applications existantes. Nous évaluerons également les performances de ces modèles mis à jour. Le modèle CamemBERT est d'ores et déjà utilisé par certains membres de l'incubateur (de part sa singularité, évoquée précédemment) mais pourra également servir directement à des tâches de classification pour les administrations.

Mesure d’impact :

Nombre de téléchargements sur HuggingFace (Indicatif quantitatif)
Réutilisation effective en production et citation dans des papiers de recherche (Indicateur qualitatif)

Budget envisagé, Durée et Équipe

60k€ qui couvriront la puissance machine et les mois d’ingénieurs nécessaires à l’entraînement de ces modèles. Durée projet : 3-6 mois.

PI : Djamé Seddah, Inria Centre de Paris, équipe-projet ALMAnaCH

Participants : Wissam Antoun, Benoît Sagot.