Comment concevoir des expériences vocales (VX) ?

“Alexa allume la lumière”. Nous y voilà ! Après des années à regarder des films de science fiction nous sommes aujourd’hui en mesure de simplement dire aux ordinateurs ce qu’ils doivent faire. Les assistants vocaux comme Amazon Echo, Google Home et Apple HomePod permettent aux utilisateurs d’exécuter diverses tâches, simplement en leur indiquant quoi faire par la voix. Cette technologie change beaucoup de chose, à tous les niveaux, mais elle reste encore jeune et comme toute jeune technologie, il y a des limites.

L’expérience vocale

Les expériences vocales (VX) sont encore à leurs balbutiements. Leurs démocratisations, notamment à travers l’introduction du kit Alexa Skills et d’Amazon Echo, ont un potentiel énorme pour accélérer le développement d’expériences vocales enrichissantes. Les assistants vocaux transforment nos interactions quotidiennes avec une machine en une conversation humaine. La facilité de prise en main des expériences vocales est très prometteuse. La voix a pour avantage d’être plus rapide, plus direct et plus universelle. Permettre aux utilisateurs de converser naturellement avec les machines semble être plus efficace que de taper chaque requête. Certains constructeurs automobile, comme Audi, l’ont compris et utilisent de plus en plus la technologie vocale, en l’occurence celle d’Alexa, pour améliorer la sécurité des conducteurs.

Cependant si l’expérience est mauvaise, l’utilisateur peut simplement rester fidèle à ses habitudes, car plus confortable, et se détourner de cette technologie. La compréhension du langage naturel et la reconnaissance vocale automatisée s’améliorent de jour en jour. Les modèles de langage humain ont une variation presque infinie, il peut donc persister des difficultés à perfectionner le processus de déchiffrage consistant à donner aux utilisateurs ce qu’ils demandent. L’apprentissage est cependant rapide et la capacité à répondre pleinement aux requêtes vont croître dans les années à venir.

Amazon Echo: case study

Notre équipe s’est spécialisé dans l’exploitation du service Alexa Voice pour développer des «skills» vocales pour Amazon Echo. Notre expérience étant, jusque maintenant, uniquement focalisé dans les interfaces visuelles et tactiles, nous avons dû adapter notre processus de conception. Celui-ci n’étant pas conçu pour les interfaces vocales il nous a fallu revenir aux fondamentaux de la conception de l’expérience utilisateur: un très bon exercice !

L’Amazon Echo dispose d’un signal visuel intégré permettant d’indiquer à l’utilisateur quand le système écoute activement. A part ce signal visuel, il n’y a pas grand-chose pour aider les utilisateurs à comprendre ce qui se passe avec leur assistant. Le challenge dans la conception VX est donc de fournir aux utilisateurs un moyen judicieux de savoir où ils se trouvent dans le parcours lorsqu’ils interagissent avec l’assistant vocal. Il était donc important pour nous de réfléchir à la conception de l’interaction entre les utilisateurs et l’assistant vocal Echo.

L’une des difficultés dans le VX design est que nous n’avons que très peu de contrôle sur les entrées de l’utilisateur (pas de saisie de texte, pas clic de la sourie ou du doigt). Avec les interfaces visuelles, les utilisateurs peuvent utiliser des repères visuels pour se guider tout au long de leur parcours. Dans le VX, le processus est très linéaire. Il est nécessaire d’avoir une structure capable de présenter des informations rapidement. Il faut donc inciter les utilisateurs à interagir d’une manière spécifique lors de la conception de la skill. L’utilisateur peut dire un million de choses différentes en réponse à l’assistant. Cela signifie donc que les skills d’Alexa doivent être préparées à faire face à une multitude de possibilités d’interaction potentielles. Par exemple au lieu de dire «oui» ou «non», les utilisateurs pourraient dire des choses comme “Absolument” ou “Pas vraiment”. Il est extrêmement difficile de prévoir une réponse donnée. Nous recommandons de prévoir un ensemble plus large de réponses possibles aux types de questions en s’aidant d’un dictionnaire du langage urbain pour étoffer pleinement les réponses potentielles. Plus l’utilisateur est capable de répondre à l’appareil, plus il sera susceptible de l’utiliser à nouveau.

Processus de conception: VX design

Avec l’interface vocale, tous les choix d’interaction doivent être brefs et peu nombreux, sinon vous risquez de surcharger l’attention des utilisateurs. Il faut limiter la quantité d’informations que l’Echo peut présenter à la fois afin de faciliter la mémorisation de ces dernières par l’utilisateur. En l’absence de touches rapides pour annuler, il faut se fier presque exclusivement aux signaux audio et à la mémoire à court terme afin de penser à ce qui pourrait potentiellement éviter aux utilisateurs de se tromper. Il est alors possible de former l’utilisateur à mémoriser certaines commandes pour le ramener à un point de départ ou à un menu d’aide. Apporter des aides appropriées qui guident l’utilisateur dans sa demande plutôt que de lui faire ressentir le besoin de redémarrer l’expérience.

Alors, comment pouvons-nous proposer quelque chose de valeur, facile à utiliser? Chez USER AGENCY nous avons établi le processus suivant:

  • Établir une stratégie initiale pour la compétence et construire une expérience utilisateur ayant un but et du sens. Nous préférons une approche Crawl> Walk> Run préconisée par Amazon, permettant une évolution naturelle pour la marque ainsi que pour l’utilisateur qui apprend l’environnement.
  • Construire un parcours utilisateur en prenant en compte tous les stades possibles où l’utilisateur peut se perdre. Nous concevons des user stories qui détaillent toutes les interactions possibles (que fait-il? Et que ne fait-il pas?)
  • Fournir à l’utilisateur de l’aide lorsqu’il navigue dans votre interface vocale en identifiant les intentions (que tente l’utilisateur?) et les énoncés associés (que dit l’utilisateur pour déclencher une intention?). Pour éviter de créer de la frustration chez l’utilisateur, une commande «Aide», à laquelle l’utilisateur peut accéder à tout moment au cours de son expérience, offre une sécurité absolue pour les rares fois où les utilisateurs se trouvent incapables de se rappeler d’une commande ou d’autres options de menu.
  • Remettre l’utilisateur dans la bonne voie lorsqu’il dévie du parcours initialement prévue. Nous écrivons des scripts pour chaque cas d’utilisation afin de pouvoir développer un ensemble complet de réponses nous aidant ainsi à identifier les défauts de notre parcours.

Surtout restez simple dans la construction de votre parcours en prévoyant une base évolutive et facile d’adaptation à l’échelle de l’utilisateur. Les interactions vocales ont un facteur «wow» significatif notamment avec Alexa car il vous est possible de programmer des pauses et des inflexions dans la voix pour des interactions plus naturelles. Si l’interaction vocale est bien pensée au stade de la conception, les risques d’échec deviendront beaucoup moins fréquent et cela génèrera une connexion avec les utilisateurs.

Poster un Commentaire

Soyez le premier à commenter !

Me notifier des
avatar