Transcr'IA

Sous-titrage asynchrone de vidéos grâce à l’IA
Rendre les vidéos accessibles à tous de manière massive

Le problème

La vidéo est un support d’apprentissage et de communication souvent utilisé sur internet. Il est plus facile d’appréhender une vidéo pour la plupart des personnes. Cependant ce support est difficilement accessible aux personnes en situation de handicap.

D’après un rapport du CNNum du 5 février 2020, 9,6 millions de personnes en situation de handicap en France sont concernées par cette problématique d’accessibilité.

Concernant les vidéos, la solution la plus pertinente pour les rendre accessible est de réaliser leur transcription. La transcription consiste à retranscrire sous forme d’un texte le contenu d’une vidéo.

La transcription d’une vidéo rend aussi son accès plus facile aux personnes maîtrisant mal la langue.

Chez FUN MOOC, le catalogue vidéo représente environ 3300 heures de vidéo partiellement retranscrites et que nous devons finir de retranscrire.

La bonne idée

Afin d’adresser cet irritant et qu’un grand nombre d’autres projets libres puissent en profiter, nous avons fait évoluer le remote runner du projet Peertube pour en proposer une version dédiée à la transcription des vidéos.

Initialement prévu pour traiter l’encodage des vidéos, il est possible d’étendre son fonctionnement à d’autres tâches lourdes dont le passage à l’échelle nécessite une externalisation.

Il est aussi possible d’étendre l’usage à d’autres plateformes vidéo que Peertube en développant des connecteurs pour d’autres langages et frameworks. C’est ce que France Université Numérique a fait, sur sa plateforme de VOD Marsha après avoir publié une application Django qui peut être installée sur n’importe quel projet : https://github.com/openfun/django-peertube-runner-connector.

France Université Numérique a donc déployé sur son infrastructure de production afin d’automatiser et systématiser la transcription de toutes les vidéos de son catalogue. Ce développement profitera aussi à toutes les administrations qui utilisent Peertube.

Les chiffres :

  • Une économie totale supérieure à 11M d’€
  • 35 000 vidéos traitées
  • 5 500 heures de vidéos

À propos

Automatiser la transcription de vidéos et les rendre accessibles a été porté par France Université Numérique.

Informations clés
  • Porteur : France Université Numérique
  • Chef de produit : Manuel Raynaud
  • Signataire : Olivier Haemmerlé
  • Montant global : 60 000€ pour Framasoft (dont 40 000€ pour une infrastructure GPU) et 100 000€ mobilisés par France Université Numérique sur un an. Total demandé à Alliance : 100 000€.
Stratégie de mise en marché
  • Développement conjoint du runner avec Framasoft, éditeur de PeerTube.
  • Intégration du runner dans la plateforme VOD Marsha (mise en production dans PeerTube 6.2 en juillet 2024).
  • Utilisation du catalogue vidéo de France Université Numérique pour mesurer la qualité des transcriptions via des variantes du modèle Whisper.
  • Soumission des transcriptions aux créateurs de vidéos pour évaluation de leur qualité.
  • Objectif à 6 mois : transcription complète du catalogue France Université Numérique.
  • Objectif à 1 an : mise à disposition du projet en open source pour la communauté PeerTube.