Site expérimental de Vidéodescription personnalisée avec voix de synthèse

Un projet du réseau de recherche E-Inclusion (compatible Windows et Internet Explorer 7)


Vidéodescription personnalisée

Ce qu'est la vidéodescription

Tout comme le sous-titrage ajoute de l'information visuelle pour le bénéfice des personnes sourdes et mal-entendantes, la vidéodescription vise à offrir de l'information verbale sur le contenu visuel pour les personnes aveugles et malvoyantes.

Les éléments visuels décrits sont ajoutés à la bande sonore, principalement entre les dialogues, ce qui peut limiter sérieusement la description elle-même. Le composition de la description et sa synchronisation représentent un réel défi aux producteurs de vidéodescription.

Comment est produite la vidéodescription

La production de vidéodescription requiert énormément de travail. Cette tâche peut exiger jusqu'à vingt-cinq heures de travail pour produire une heure de vidéo. Le travail est essentiellement fait manuellement. Par exemple, les producteurs doivent faire quelques écoutes préliminaires pour déterminer les principaux personnages et leur rôle, le degré d'action et le rythme du film. Ensuite, plan par plan, le producteur insère la description qu'il juge utile pour décrire la scène dans les espaces sonores disponibles. Il s'assure que les descriptions sont cohérentes et concises tout au long du film et qu'elles peuvent être dites dans le temps imparti. Si la description est trop longue, le texte est remanié. Lorsque toutes les descriptions sont faites et synchronisées, la production est utilisée pour la création de la bande sonore. Le plus souvent, la bande sonore est faite par des acteurs qui vont lire la description vidéo plus ou moins rapidement, selon la synchronisation requise.

Dans le cadre de E-Inclusion, le CRIM s'est donné comme objectif de produire un logiciel qui pourrait assister les producteurs efficacement afin de réduire le temps de production.

La particularité de la vidéodescription produite pour le réseau E-Inclusion

Actuellement, le prototype développé propose aux producteurs des détections automatiques d'éléments visuels dans les images. Par exemple, lorsqu'un visage est détecté, le producteur pourrait identifier le personnage et ainsi valider cette information comme une description pertinente. Par la suite, le nom du personnage est offert automatiquement dans toutes les scènes où il apparaît. À ce moment, le producteur pourrait choisir d'activer ou non cet élément de vidéo description qui est aussi directement synchronisé à l'emplacement le plus adéquat. Le prototype offre également la possibilité de produire une première bande sonore à l'aide de synthèse vocale dans un format Flash. Cette version Flash est un draft qui permettrait de valider la vidéodescription avant la production audio professionnelle en studio.

Voici les différentes détections automatiques actuellement implantées dans le prototype :

  • les visages,
  • les scènes récurrentes du film,
  • le texte présent dans les images et
  • les mouvements de caméra.

Une autre particularité de notre production est qu'elle permet d'insérer plus d'items de vidéodescription que le nombre correspondant au temps dont on dispose entre deux dialogues. Ceci permet une utilisation bien spéciale de la production en format Flash. En effet, dans ce format, l'utilisateur peut utiliser notre visionneuse afin de personnaliser le degré de vidéodescription.

Personnaliser la vidéodescription

Suite à des visionnements de films avec vidéodescription, nos entrevues avec les personnes aveugles et malvoyantes ont révélé qu'elles avaient des attentes très variées sur le degré de vidéodescription qui serait optimal. Certaines en désirent très peu, tandis que d'autres aimeraient en avoir plus. C'est pourquoi vous retrouvez sur ce site expérimental, une visionneuse permettant de personnaliser le degré de vidéodescription. La visionneuse offre trois groupes de fonctions.

  • Le premier groupe permet de choisir un niveau de vidéodescription. Ainsi, un faible niveau permet d'avoir la vidéodescription qui est insérée dans la bande sonore sans allonger le temps d'écoute. À l'inverse, le niveau maximum donnera tous les éléments décrits et ce, même si le nombre d'éléments ne peut pas être dit dans l'espace sonore disponible. Dans ce cas, la visionneuse arrête le déroulement du film afin de permettre à tous les éléments d'être énumérés avant de reprendre automatiquement le déroulement.
  • Le deuxième groupe offre une liste de tous les éléments de vidéodescription et permet de sélectionner les éléments que l'on désire entendre. Par exemple, l'utilisateur peut choisir d'entendre seulement l'identification des scènes.
  • Le dernier groupe récapitule des éléments de vidéodescription déjà dits. Par exemple, un utilisateur qui ne se souvient plus qui est dans la scène peut demander à entendre l'identification des personnes de cette scène.

Pour les informations détaillées sur les modes d'opération de la visionneuse, consultez notre guide d'utilisation de la visionneuse.

Sur ce site expérimental, vous pouvez visionner les versions draft (préliminaires) des films produits avec le prototype du CRIM. Nous désirons ainsi présenter aux personnes aveugles et malvoyantes des résultats de production. La vidéodescription que vous pourrez entendre est réalisé à l'aide de la synthèse vocale et ne représente pas un produit final avec une bande audio professionnelle. De plus, nous ignorons si une telle production pourrait être considérée comme une solution intéressante pour un accès plus rapide mais moins parfait. C'est pourquoi, vous serez invité après chaque visionnement à nous donner votre feedback. Vos commentaires nous seront précieux pour continuer d'améliorer notre recherche de solution. De plus, des tests d'utilisation plus détaillés seront effectués. Si vous désirez participer, laissez nous vos coordonnées.

Bon visionnement!