Image réalisée pour le sous-titrage vidéo qui peut illustrer l’importance aussi pour le podcast.
YouTube, deuxième moteur de recherche après Google, est donc la plateforme principale sur laquelle votre contenu audio doit se trouver, pour peu que vous désiriez augmenter votre découvrabilité ou votre référencement. De nombreux outils de transcription existent aujourd’hui. Ces outils vous permettent de transcrire votre audio en texte et d’ajouter du sous-titrage automatique, voire de la traduction de ce sous-titrage. Mais ces outils demandent un gros travail manuel, ce qui réduit leur intérêt. Authôt fait partie des outils dont la fiabilité dépasse les 95% et tend vers les 100% après relecture humaine. Société française fondée en 2012 spécialisée dans la RAP, ou reconnaissance automatique de la parole, elle est aujourd’hui pionnière dans la transcription et le sous-titrage multilingue pour vos émissions et évènements. Voici pourquoi.
La reconnaissance automatique de la parole – souvent improprement appelée reconnaissance vocale – est une technique qui permet d’analyser la voix humaine captée au moyen d’un microphone. La technologie transcrit ensuite, sous la forme d’un texte ou d’un fichier exploitable sur ordinateur. La RAP a pour but d’associer une séquence de mots à une séquence d’observations acoustiques. Elle comporte quatre modules. L’extraction de paramètres pour transformer le signal de la parole en séquences d’observation acoustique, le modèle acoustique qui permet de reconnaître une séquence de phonèmes grâce aux observations, un modèle linguistique qui reconnaît les mots probables grâce aux mots voisins et le dictionnaire phonétique qui décode le modèle acoustique et le modèle linguistique. "Cette technologie permet donc d’analyser la voix humaine dans une logique d’amélioration continue, grâce à l’intelligence artificielle et des technologies comme celles du deep learning", indique Olivier Fraysse, cofondateur d’Authôt. "En à peine une vingtaine d’années, ces systèmes sont passés d’une reconnaissance d’un mot sur deux à la totalité d’un discours."
Les atouts pour les contenus audio
Dans le monde de la radio et des podcasts, on travaille sur l’enregistrement, la captation audio et/ou vidéo, puis la diffusion de ce contenu pour qu’il soit le plus écouté, compris et partagé. Le référencement de ce contenu est un enjeu majeur et seul le texte aujourd’hui permet un bon référencement sur les moteurs de recherche ou sur YouTube. Le temps consacré au dérushage de l’audio en texte est un enjeu majeur, car il nécessite un travail manuel d’ajustement. Authôt vous permet de réduire ce temps par deux et propose également une vérification manuelle dans ses offres. Sous-titrage aux formats .srt ou .vtt, accessibilité de la transcription avec le HTML ou XML, indexation mais aussi traduction fiable des textes viennent s’ajouter aux contenus audio ou vidéo des stations de radio ou des podcasteurs simplement.
Une technologie intelligente
Le système RAP, ou ASR en anglais pour Automatic Speech Technology, ne fait pas tout. Il faut maîtriser les algorithmes et disposer de données qualitatives. "Notre équipe de recherche a le savoir-faire pour créer, modifier et améliorer un système RAP. Nous avons la capacité d'enrichir nos systèmes en lien avec le vocabulaire de nos clients grâce à des données extrêmement qualitatives qui proviennent de nos services humains de relecture", confirme Olivier Fraysse. Les plateformes Authôt en ligne de transcription et de sous-titrage offrent des éditeurs avancés qui permettent aux utilisateurs de corriger facilement et rapidement le texte, puis de réaliser la synchronisation des sous-titres, voire de la traduire en direct. La société adapte même sa plateforme de transcription, traduction et sous-titrage en direct Authôt Live pour être compatible avec les formats de diffusion en direct RTMP ou HLS pour enrichir en temps réel les flux live…
Authôt en quelques mots
C’est en classe préparatoire de l’école d’ingénieurs ISEP que les deux fondateurs d’Authôt, Olivier Fraysse et Stéphane Rabant, se sont rencontrés. La société, créée en 2012, est la première application française en ligne de transcription automatique de la parole en texte. Avec 16 collaborateurs et plus de 39 000 utilisateurs en 2020, elle lance en 2021 Authôt University puis en 2022 Authôt Studio dédié au sous-titrage, tirant profit de leur savoir-faire en termes de reconnaissance automatique de la parole multilingue. La transcription combinée à la traduction automatique multilingue par une voix artificielle est désormais possible.
7 questions à... Olivier Fraysse et Zoé Salaün
LLPR - Pouvez-vous nous expliquer comment fonctionne la technologie de RAP, ou reconnaissance automatique de la parole, et comment évolue-t-elle ?
OF et ZS - La reconnaissance automatique de la parole – souvent improprement appelée reconnaissance vocale – est une technique qui permet d’analyser la voix humaine captée au moyen d’un microphone. La technologie transcrit ensuite, sous la forme d’un texte ou d’un fichier exploitable sur ordinateur. Un système de reconnaissance automatique de la parole a pour but d’associer une séquence de mots à une séquence d’observation acoustique.
Concrètement, un système de reconnaissance automatique de la parole comporte quatre modules : Extraction de paramètres : permet de transformer le signal de parole en une séquence d’observation acoustique. Chaque phonème prononcé est différent. Un phonème <a> prononcé par un locuteur différent ou par le même locuteur sera toujours différent (la coarticulation, les émotions, la vitesse d’élocution, les fréquences fondamentales de la voix plus ou moins aiguë, le timbre de la voix, etc.). On parle alors de variabilité intra ou extra-locuteur. De plus, le micro utilisé et l’environnement sonore (bruit, réverbération) font que le même phonème prononcé diffère en fonction de ces paramètres… Le but de l’extraction de paramètres est donc d’isoler les paramètres qui sont le plus invariants possible, lorsque le même phonème est prononcé. Il analyse également les paramètres les plus distants possible lorsque des phonèmes différents sont prononcés. Ceci, afin de les reconnaître de manière précise dans le modèle acoustique. Modèle acoustique : permet de reconnaître une séquence de phonèmes grâce à une séquence d’observation acoustique (les paramètres précédemment extraits). Modèle linguistique : permet de reconnaître les mots les plus probablement prononcés grâce aux mots voisins. On peut voir ce modèle comme un exercice de texte à trous où le but est de trouver un mot dans une phrase. Dictionnaire phonétique : permet de relier le modèle acoustique et le modèle linguistique. Tous les mots possibles sont inscrits avec leurs différentes écritures phonétiques afin qu’une suite de phonèmes puisse permettre de trouver le mot probablement prononcé. Le décodage est la phase qui permet de maximiser la probabilité qu’une suite de mots (une phrase) soit prononcée grâce au signal sonore en entrée. On trouve donc la suite de mots la plus probablement prononcée d’après les modèles utilisés.
OF et ZS - La reconnaissance automatique de la parole – souvent improprement appelée reconnaissance vocale – est une technique qui permet d’analyser la voix humaine captée au moyen d’un microphone. La technologie transcrit ensuite, sous la forme d’un texte ou d’un fichier exploitable sur ordinateur. Un système de reconnaissance automatique de la parole a pour but d’associer une séquence de mots à une séquence d’observation acoustique.
Concrètement, un système de reconnaissance automatique de la parole comporte quatre modules : Extraction de paramètres : permet de transformer le signal de parole en une séquence d’observation acoustique. Chaque phonème prononcé est différent. Un phonème <a> prononcé par un locuteur différent ou par le même locuteur sera toujours différent (la coarticulation, les émotions, la vitesse d’élocution, les fréquences fondamentales de la voix plus ou moins aiguë, le timbre de la voix, etc.). On parle alors de variabilité intra ou extra-locuteur. De plus, le micro utilisé et l’environnement sonore (bruit, réverbération) font que le même phonème prononcé diffère en fonction de ces paramètres… Le but de l’extraction de paramètres est donc d’isoler les paramètres qui sont le plus invariants possible, lorsque le même phonème est prononcé. Il analyse également les paramètres les plus distants possible lorsque des phonèmes différents sont prononcés. Ceci, afin de les reconnaître de manière précise dans le modèle acoustique. Modèle acoustique : permet de reconnaître une séquence de phonèmes grâce à une séquence d’observation acoustique (les paramètres précédemment extraits). Modèle linguistique : permet de reconnaître les mots les plus probablement prononcés grâce aux mots voisins. On peut voir ce modèle comme un exercice de texte à trous où le but est de trouver un mot dans une phrase. Dictionnaire phonétique : permet de relier le modèle acoustique et le modèle linguistique. Tous les mots possibles sont inscrits avec leurs différentes écritures phonétiques afin qu’une suite de phonèmes puisse permettre de trouver le mot probablement prononcé. Le décodage est la phase qui permet de maximiser la probabilité qu’une suite de mots (une phrase) soit prononcée grâce au signal sonore en entrée. On trouve donc la suite de mots la plus probablement prononcée d’après les modèles utilisés.
LLPR - En quoi cette RAP peut-elle être un atout pour les contenus (textes, audio, vidéos…) des stations de radio et des podcasts ?
OF et ZS - Cette technologie de reconnaissance automatique de la parole a de nombreux applicatifs et apportent des avantages de productivité indéniable, mais pas que ! Dans le monde de la radio et des podcasts, on travaille sur l’enregistrement, la captation audio et/ou vidéo, puis la diffusion de ce contenu pour qu’il soit le plus écouté, compris et partagé.
La technologie de RAP va entrer en jeu à plusieurs niveaux pour apporter des solutions et des avantages concrets. D’abord, une fois l’enregistrement fait, il faut le retravailler, faire le montage et les ajustements. On va avoir besoin d’une transcription timecodée (le texte brut avec des repères temporels) pour analyser le contenu, trier ce que l’on garde ou pas et donc faire le montage final. De la même manière que pour une production audiovisuelle, cette étape de dérushage est extrêmement longue et chronophage sans l’aide de la transcription automatique de la parole en texte. Le gain de temps ici est un véritable atout. Par la suite, nous voyons d’autres avantages qu’apporte la technologie de RAP au contenu final et mis en ligne : l’accessibilité numérique, l’indexation/référencement du contenu, l’augmentation de l’audience avec le multilingue (traduction). En effet, les solutions de transcription et sous-titrage en ligne basées sur cette technologie permettent d’obtenir le texte du contenu audio/vidéo en différents formats et rapidement.
Avec des formats comme le HTML ou le XML de la transcription, le texte peut très facilement offrir un système de lecture synchronisé au mot près avec le player en ligne. De toute évidence, cela permet de rendre le contenu audio/vidéo accessible aux sourds et malentendants mais permet aussi à tout auditeur de naviguer très facilement et ludiquement dans l’enregistrement.
Avec des formats sous-titres (.srt, .vtt), le contenu est tout de suite exploitable et diffusable sur les réseaux sociaux et les chaînes. Même sans le son (dans les transports, dans un open space, sans ses AirPods…), l’auditeur regarde le contenu, il est captivé. L’attention de l’audience sur un contenu audio/vidéo sous-titré est maximale.
Que ce soit la transcription ou les sous-titres, ces deux résultats de la RAP permettent d’avoir le texte sur les contenus audio/vidéo. C’est grâce à ce texte que le contenu va être indexé ou référencé sur les moteurs de recherche. Le contenu audio ou vidéo va alors pouvoir remonter rapidement dans les résultats de recherche des auditeurs, il va y avoir ici un vrai gain en visibilité.
Enfin, les stations de radio ou les podcasts qui souhaitent élargir leur audience à l’international en proposant leurs contenus traduits vont pouvoir le faire. Pour avoir le sous-titre traduit en anglais par exemple sur leur player, il faut d’abord avoir le sous-titre original ! Le multilingue est un atout additionnel que nous proposons chez Authôt.
Tout ce travail autour du contenu audio-vidéo-texte permet de l’enrichir de façon optimale.
OF et ZS - Cette technologie de reconnaissance automatique de la parole a de nombreux applicatifs et apportent des avantages de productivité indéniable, mais pas que ! Dans le monde de la radio et des podcasts, on travaille sur l’enregistrement, la captation audio et/ou vidéo, puis la diffusion de ce contenu pour qu’il soit le plus écouté, compris et partagé.
La technologie de RAP va entrer en jeu à plusieurs niveaux pour apporter des solutions et des avantages concrets. D’abord, une fois l’enregistrement fait, il faut le retravailler, faire le montage et les ajustements. On va avoir besoin d’une transcription timecodée (le texte brut avec des repères temporels) pour analyser le contenu, trier ce que l’on garde ou pas et donc faire le montage final. De la même manière que pour une production audiovisuelle, cette étape de dérushage est extrêmement longue et chronophage sans l’aide de la transcription automatique de la parole en texte. Le gain de temps ici est un véritable atout. Par la suite, nous voyons d’autres avantages qu’apporte la technologie de RAP au contenu final et mis en ligne : l’accessibilité numérique, l’indexation/référencement du contenu, l’augmentation de l’audience avec le multilingue (traduction). En effet, les solutions de transcription et sous-titrage en ligne basées sur cette technologie permettent d’obtenir le texte du contenu audio/vidéo en différents formats et rapidement.
Avec des formats comme le HTML ou le XML de la transcription, le texte peut très facilement offrir un système de lecture synchronisé au mot près avec le player en ligne. De toute évidence, cela permet de rendre le contenu audio/vidéo accessible aux sourds et malentendants mais permet aussi à tout auditeur de naviguer très facilement et ludiquement dans l’enregistrement.
Avec des formats sous-titres (.srt, .vtt), le contenu est tout de suite exploitable et diffusable sur les réseaux sociaux et les chaînes. Même sans le son (dans les transports, dans un open space, sans ses AirPods…), l’auditeur regarde le contenu, il est captivé. L’attention de l’audience sur un contenu audio/vidéo sous-titré est maximale.
Que ce soit la transcription ou les sous-titres, ces deux résultats de la RAP permettent d’avoir le texte sur les contenus audio/vidéo. C’est grâce à ce texte que le contenu va être indexé ou référencé sur les moteurs de recherche. Le contenu audio ou vidéo va alors pouvoir remonter rapidement dans les résultats de recherche des auditeurs, il va y avoir ici un vrai gain en visibilité.
Enfin, les stations de radio ou les podcasts qui souhaitent élargir leur audience à l’international en proposant leurs contenus traduits vont pouvoir le faire. Pour avoir le sous-titre traduit en anglais par exemple sur leur player, il faut d’abord avoir le sous-titre original ! Le multilingue est un atout additionnel que nous proposons chez Authôt.
Tout ce travail autour du contenu audio-vidéo-texte permet de l’enrichir de façon optimale.
LLPR - La retranscription automatique gratuite n’est pas souvent concluante. Il reste un gros travail pour pouvoir publier le texte ou sous-titrer une vidéo. En quoi votre solution est-elle différente ?
OF et ZS - Pour obtenir un système de reconnaissance automatique de la parole (RAP ou Automatic Speech Technology – ASR – en anglais), il faut maîtriser les algorithmes et disposer de données qualitatives. Notre équipe de recherche a le savoir-faire pour créer, modifier et améliorer un système ASR. Nous avons la capacité d'enrichir nos systèmes en lien avec le vocabulaire de nos clients grâce à des données extrêmement qualitatives qui proviennent de nos services humains de relecture. Nous avons ainsi des systèmes ASR rapides, spécialisés et beaucoup plus fiables que les solutions gratuites ou peu coûteuses proposées par les gros acteurs du marché.
Une fois la transcription automatique produite, notre expertise s’est concentrée sur la création de sous-titres au plus près des normes du Web, du respect des découpes des phrases selon les langues parlées ainsi que de la bonne temporalité d’affichage à l’écran. Nous appelons cela un aligneur de sous-titres avancé. Cela fait toute la différence, car resynchroniser manuellement des sous-titres est un travail extrêmement fastidieux.
Nos plateformes en ligne de transcription et sous-titrage offrent des éditeurs avancés qui permettent aux utilisateurs de corriger facilement et rapidement le texte, puis de réaliser la synchronisation des sous-titres. C’est sur ces mêmes éditeurs que travaillent nos correcteurs et sous-titreurs professionnels pour diviser par deux leur temps de travail.
De plus, notre savoir-faire technique (API, FTP intelligent, APP personnalisable, protocoles d'intégration existants, éditeur de texte, de sous-titres) permet de créer une ligne de production dédiée chez nos clients pour fluidifier le transit des fichiers audio ou vidéo avec une livraison dans leur espace de travail. C’est ce que nous appelons des microservices.
OF et ZS - Pour obtenir un système de reconnaissance automatique de la parole (RAP ou Automatic Speech Technology – ASR – en anglais), il faut maîtriser les algorithmes et disposer de données qualitatives. Notre équipe de recherche a le savoir-faire pour créer, modifier et améliorer un système ASR. Nous avons la capacité d'enrichir nos systèmes en lien avec le vocabulaire de nos clients grâce à des données extrêmement qualitatives qui proviennent de nos services humains de relecture. Nous avons ainsi des systèmes ASR rapides, spécialisés et beaucoup plus fiables que les solutions gratuites ou peu coûteuses proposées par les gros acteurs du marché.
Une fois la transcription automatique produite, notre expertise s’est concentrée sur la création de sous-titres au plus près des normes du Web, du respect des découpes des phrases selon les langues parlées ainsi que de la bonne temporalité d’affichage à l’écran. Nous appelons cela un aligneur de sous-titres avancé. Cela fait toute la différence, car resynchroniser manuellement des sous-titres est un travail extrêmement fastidieux.
Nos plateformes en ligne de transcription et sous-titrage offrent des éditeurs avancés qui permettent aux utilisateurs de corriger facilement et rapidement le texte, puis de réaliser la synchronisation des sous-titres. C’est sur ces mêmes éditeurs que travaillent nos correcteurs et sous-titreurs professionnels pour diviser par deux leur temps de travail.
De plus, notre savoir-faire technique (API, FTP intelligent, APP personnalisable, protocoles d'intégration existants, éditeur de texte, de sous-titres) permet de créer une ligne de production dédiée chez nos clients pour fluidifier le transit des fichiers audio ou vidéo avec une livraison dans leur espace de travail. C’est ce que nous appelons des microservices.
LLPR - La traduction automatique des contenus audio transcrits dans d’autres langues est-elle fonctionnelle ?
OF et ZS - Oui, il existe des technologies très performantes comme DeepL. Leurs innovations ont reçu de nombreux prix. Cette IA est très impressionnante et basée sur des réseaux neuronaux capables de saisir les moindres nuances et subtilités des langues. La qualité de la traduction automatique est dépendante du texte source transmis. Dans le cadre d’une transcription automatique, il est important d’avoir un haut niveau de fiabilité si derrière un processus de traduction automatique est réalisé.
Nous conseillons donc fortement une relecture humaine de la transcription automatique faite par la technologie pour une meilleure qualité de traduction automatique du contenu. Chez Authôt, nous proposons un service de traduction. Celui-ci repose sur un standard de qualité qui consiste à ce que des traducteurs natifs et professionnels relisent les traductions automatiques.
OF et ZS - Oui, il existe des technologies très performantes comme DeepL. Leurs innovations ont reçu de nombreux prix. Cette IA est très impressionnante et basée sur des réseaux neuronaux capables de saisir les moindres nuances et subtilités des langues. La qualité de la traduction automatique est dépendante du texte source transmis. Dans le cadre d’une transcription automatique, il est important d’avoir un haut niveau de fiabilité si derrière un processus de traduction automatique est réalisé.
Nous conseillons donc fortement une relecture humaine de la transcription automatique faite par la technologie pour une meilleure qualité de traduction automatique du contenu. Chez Authôt, nous proposons un service de traduction. Celui-ci repose sur un standard de qualité qui consiste à ce que des traducteurs natifs et professionnels relisent les traductions automatiques.
LLPR - En quoi vos solutions peuvent-elles accompagner les contenus audio éducatifs ?
OF et ZS - Les cours sont de plus en plus enregistrés dans les amphithéâtres, dans des studios ou directement chez l’enseignant. La diffusion des cours en vidéos se démocratise avec la possibilité pour les apprenants de revoir ces vidéos avec des enrichissements tels que le chapitrage, des informations annexes cliquables, des transcriptions et des sous-titres. L’objectif est de favoriser la compréhension, l’attention et la mémorisation. En parallèle, le podcast audio revient sur le devant de la scène. Depuis des applications de podcasts, il est facile d’écouter ses sélections en faisant du sport, en étant en voiture, sur le trajet pour aller au travail ou tout simplement en étant chez soi. Alors, pourquoi ne pas ajouter sa playlist de cours dans son application de podcasts ?
Nos services de transcription aident au montage des podcasts pour faciliter le tri dans les heures de rushes. De plus, la transcription associée à l’audio permet de mieux se repérer dans un long audio, d’avoir une ressource complémentaire à l’audio pour les apprenants. Finalement, tout ce qui est fait autour des vidéos de cours peut se transposer aux contenus audio éducatifs.
OF et ZS - Les cours sont de plus en plus enregistrés dans les amphithéâtres, dans des studios ou directement chez l’enseignant. La diffusion des cours en vidéos se démocratise avec la possibilité pour les apprenants de revoir ces vidéos avec des enrichissements tels que le chapitrage, des informations annexes cliquables, des transcriptions et des sous-titres. L’objectif est de favoriser la compréhension, l’attention et la mémorisation. En parallèle, le podcast audio revient sur le devant de la scène. Depuis des applications de podcasts, il est facile d’écouter ses sélections en faisant du sport, en étant en voiture, sur le trajet pour aller au travail ou tout simplement en étant chez soi. Alors, pourquoi ne pas ajouter sa playlist de cours dans son application de podcasts ?
Nos services de transcription aident au montage des podcasts pour faciliter le tri dans les heures de rushes. De plus, la transcription associée à l’audio permet de mieux se repérer dans un long audio, d’avoir une ressource complémentaire à l’audio pour les apprenants. Finalement, tout ce qui est fait autour des vidéos de cours peut se transposer aux contenus audio éducatifs.
LLPR - Quels sont les futurs développements et avancées prévues ?
OF et ZS - Issu de quatre années de recherche et développement, nous allons mettre en ligne notre démonstrateur de prédiction a priori de la qualité d’une transcription automatique (voir ICI). Ce système permet de communiquer sur la fiabilité du résultat d’un système de transcription automatique sur un enregistrement donné avant que la machine lance son décodage. Un cas d’usage concret est de pouvoir estimer le temps de correction nécessaire pour obtenir un résultat proche de 100%. Un autre cas d’usage est d’aiguiller l’enregistrement vers un système de transcription automatique sur lequel il aura le plus de chances d’obtenir la plus haute fiabilité. En parallèle, nous continuons d'adapter notre plateforme de transcription et sous-titrage en direct Authôt Live pour être compatible avec les différents formats de diffusion (RTMP, HLS…). Cela permettra de rendre totalement accessibles les évènements et d’enrichir en temps réel les flux live.
OF et ZS - Issu de quatre années de recherche et développement, nous allons mettre en ligne notre démonstrateur de prédiction a priori de la qualité d’une transcription automatique (voir ICI). Ce système permet de communiquer sur la fiabilité du résultat d’un système de transcription automatique sur un enregistrement donné avant que la machine lance son décodage. Un cas d’usage concret est de pouvoir estimer le temps de correction nécessaire pour obtenir un résultat proche de 100%. Un autre cas d’usage est d’aiguiller l’enregistrement vers un système de transcription automatique sur lequel il aura le plus de chances d’obtenir la plus haute fiabilité. En parallèle, nous continuons d'adapter notre plateforme de transcription et sous-titrage en direct Authôt Live pour être compatible avec les différents formats de diffusion (RTMP, HLS…). Cela permettra de rendre totalement accessibles les évènements et d’enrichir en temps réel les flux live.
LLPR - Peut-on tester vos solutions pour se rendre compte ?
OF et ZS - Oui, bien sûr. Nos trois plateformes en ligne disposent de versions d’essai pour l’automatique. Nous pouvons aussi proposer des essais de nos services humains et pour cela, il faut nous contacter !
Authôt APP pour la transcription d’enregistrements audio ou vidéo : authot.app
Authôt Studio pour le sous-titrage et la traduction de vidéos : authot.studio
Authôt Live pour la transcription et traduction en direct de visioconférences, d’évènements audiovisuels : authot.live
OF et ZS - Oui, bien sûr. Nos trois plateformes en ligne disposent de versions d’essai pour l’automatique. Nous pouvons aussi proposer des essais de nos services humains et pour cela, il faut nous contacter !
Authôt APP pour la transcription d’enregistrements audio ou vidéo : authot.app
Authôt Studio pour le sous-titrage et la traduction de vidéos : authot.studio
Authôt Live pour la transcription et traduction en direct de visioconférences, d’évènements audiovisuels : authot.live