SpeechToText

Une solution de transcription voix vers texte, libre, frugal et adapté à des cas d’usage asynchrones comme le sous-titrage de documents audiovisuels.

Porteur : France Université Numérique

Automatiser la transcription de vidéos et les rendre accessibles.
Chef de produit : Manuel Raynaud
Signataire : Olivier Haemmerlé

L’irritant

La vidéo est un support d’apprentissage et de communication souvent utilisé sur internet. Il est plus facile d’appréhender une vidéo pour la plupart des personnes. Cependant ce support est difficilement accessible aux personnes en situation de handicap.

D’après un rapport du CNNum du 5 février 2020, 9,6 millions de personnes en situation de handicap en France sont concernées par cette problématique d’accessibilité.

Concernant les vidéos, la solution la plus pertinente pour les rendre accessible est de réaliser leur transcription. La transcription consiste à retranscrire sous forme d’un texte le contenu d’une vidéo.

La transcription d’une vidéo rend aussi son accès plus facile aux personnes maîtrisant mal la langue.

Chez FUN MOOC, le catalogue vidéo représente environ 3300 heures de vidéo partiellement retranscrites et que nous devons finir de retranscrire.

La bonne idée

Afin d’adresser cet irritant et qu’un grand nombre d’autres projets libres puissent en profiter, nous allons faire évoluer le remote runner du projet Peertube pour en proposer une version dédiée à la transcription des vidéos.

Initialement prévu pour traiter l’encodage des vidéos, il est possible d’étendre son fonctionnement à d’autres tâches lourdes dont le passage à l’échelle nécessite une externalisation.

Il est aussi possible d’étendre l’usage à d’autres plateformes vidéo que Peertube en développant des connecteurs pour d’autres langages et frameworks. C’est ce que France Université Numérique a fait, sur sa plateforme de VOD Marsha après avoir publié une application Django qui peut être installée sur n’importe quel projet : https://github.com/openfun/django-peertube-runner-connector.

Une fois le nouveau runner disponible, France Université Numérique pourra donc le déployer sur son infrastructure de production afin d’automatiser et systématiser la transcription de toutes les vidéos de son catalogue. Ce développement profitera aussi à toutes les administrations qui utilisent Peertube.

La stratégie de mise en marché

La déclinaison du runner sera développée conjointement avec Framasoft, éditeur de Peertube, puis il sera intégré dans la plateforme VOD Marsha. La mise en production a eu lieu en juillet 2024 dans la version 6.2 de PeerTube.

Le catalogue de vidéos dont dispose France Université Numérique sera utilisé pour mesurer la qualité des transcriptions. C’est cet indicateur de qualité qui validera la solution retenue. Nous testerons plusieurs variantes du modèle whisper afin de sélectionner la plus pertinente et la plus efficace.

Nous soumettrons à relecture les transcriptions aux créateurs des vidéos afin qu’ils mesurent leur qualité.

A 6 mois nous visons la transcription totale du catalogue de France Université Numérique et à 1 an la mise à disposition du projet en opensource à la communauté Peertube.

Montant

Une prestation avec Framasoft sera réalisée pour une valeur de 60 000€. 40 000€ afin de monter une infrasturture permettant d’exploiter le potentiel du GPU pour faire fonctionner le runner. Soit 100 000€ de financement demandé à Alliance.

France Université Numérique mobilisera 100 000€ sur son ingénierie interne, suivi de projet et exploitation de la solution en production pendant 1 an.