Les appareils vocaux de toutes sortes se répandent de plus en plus dans notre vie quotidienne. Ce qui a peut-être commencé comme des haut-parleurs intelligents installés sur nos bureaux ou sur nos comptoirs de cuisine est rapidement devenu une collection variée d'appareils et de technologies intégrées offrant des capacités précieuses d'assistant vocal dans un large éventail d'interfaces.

Vous pouvez maintenant trouver des appareils de divers fournisseurs qui se frayent un chemin dans un nombre croissant d'emplacements. Vous pouvez parler à votre télévision, interagir avec votre grille-pain, parler à votre voiture et peut-être même bientôt discuter avec votre lit. L'utilisation de systèmes de conversation intelligents basés sur l'IA et l'apprentissage automatique commencent à devenir omniprésents.

Cependant, comme ces systèmes de conversation sont utilisés dans des environnements de plus en plus différents et variés, les utilisateurs cherchent à exploiter les avantages de la technologie des assistants vocaux dans des domaines nouveaux et plus difficiles. Plutôt que d'être de simples appareils de musique et orientés sur les requêtes, ce qui aurait pu être leur rôle initial, ces systèmes sont invités à contrôler diverses interfaces, à fournir des réponses plus complexes et à offrir davantage de valeur à leurs utilisateurs.

Ce qui aurait pu être acceptable en termes de renseignement il y a à peine un an ou deux maintenant devient de plus en plus un obstacle. Il n'est plus acceptable que ces périphériques répondent de manière inintelligente à des requêtes, poussent les utilisateurs vers une recherche sur le Web ou qu'ils ne peuvent pas aider l'utilisateur. On demande à ces systèmes d’être plus intelligents et, en tant que tels, ils commencent à repousser les limites de ce que peuvent faire les systèmes d’intelligence artificielle back-end.

Analyse comparative des renseignements sur l'assistant vocal

En 2018, la société de conseil et de recherche en intelligence artificielle Cognilytica a commencé à mesurer l'intelligence des assistants vocaux afin de déterminer leurs connaissances et leurs capacités de raisonnement. La semaine dernière, Cognilytica a publié la dernière mise à jour de son benchmark, montrant une capacité et une intelligence croissantes des périphériques grâce à une gamme de mesures.

La référence mesure l'intelligence du système conversationnel en posant 120 questions regroupées en 12 catégories de différents niveaux de défi cognitif. Par exemple, une question demande: "Dois-je mettre un pull en laine dans le sèche-linge?" Et un autre demande une formulation compliquée, telle que "Paul a essayé d'appeler George au téléphone, mais il n'a pas réussi. Qui n'a pas réussi?"

L'objectif de cette référence n'est pas de tester les compétences de reconnaissance vocale des différents appareils. Avec un réglage et une formation appropriés, ces appareils sont capables de gérer presque toutes les voix dans plusieurs langues. L'objectif de référence est plutôt de déterminer le degré d'intelligence du système d'intelligence artificielle back-end, responsable de la compréhension de la question posée, de la formulation d'une réponse, puis de la génération de cette réponse pour l'utilisateur. L'intelligence du back-end joue un rôle crucial dans la capacité des périphériques à tirer parti des avantages de la technologie d'assistant vocal.

Alors que les capacités de reconnaissance vocale des assistants vocaux sont souvent assez simples et que la technologie utilisée a évolué au cours des dernières décennies, la réponse aux questions de conversation cognitive plus difficile utilise une technologie d’apprentissage automatique en constante évolution, intégrée à l’infrastructure en nuage gérée par les fournisseurs d’assistants vocaux. Essentiellement, la référence ne consiste pas à évaluer les périphériques eux-mêmes, mais plutôt la capacité intelligente de l'infrastructure de cloud AI qui prend en charge ces périphériques.

Différences surprenantes dans les capacités de l'assistant vocal

Dans la version 2018 du référentiel, les assistants vocaux dans leur ensemble avaient une note d'échec, le dispositif Alexa d'Amazon recueillant le plus grand nombre de réponses adéquates – seulement 25% du total demandé. Google vient en deuxième position, avec 23% de réponses adéquates. Cortana de Microsoft et Siri d’Apple sont loin derrière, avec seulement 12% et 11% des réponses considérées comme adéquates, respectivement.

Lors de la publication du rapport en 2019, les assistants vocaux ont montré des améliorations spectaculaires. Alexa, Amazon, arrive toujours en tête avec le plus grand nombre de réponses adéquates, avec 34,7% du total des questions posées. Les appareils Google et Microsoft arrivent juste derrière, à 34,0% et 31,9%, respectivement. Siri d’Apple est toujours à la traîne, avec 24,3% de réponses adéquates.

Alors que ces systèmes de conversation ont connu une amélioration substantielle depuis la première itération de la référence, dans l’ensemble, les appareils sont encore loin d’offrir les avantages promis de la technologie d’assistant vocal. Aucun système ne peut rassembler des réponses appropriées à au moins la moitié des questions posées. Cela soulève une grande question: sont-ils adaptés aux tâches dans lesquelles les utilisateurs utilisent ces appareils?

La référence de Cognilytica montre qu’il manque toujours la marque en ce qui concerne de nombreuses questions courantes et attendues que les utilisateurs pourraient poser aujourd’hui – et peut-être même davantage pour le type de questions que les utilisateurs pourraient poser demain, étant donné les endroits où ces systèmes de conversation sont utilisés.

Développer le graphe de connaissances

Outre les capacités de compréhension de la parole par le texte et du langage naturel, rendre ces systèmes conversationnels capables de répondre à des requêtes complexes nécessite la création de référentiels profonds d'informations à partir desquels ces systèmes peuvent puiser, ainsi que de graphes de connaissances reliant des concepts entre eux dans un environnement unique. manière que les machines peuvent comprendre. Bien qu'il existe une quantité presque illimitée d'informations disponibles sur le Web provenant d'une grande variété de sources pouvant être utilisées par les systèmes de conversation, il n'en est pas de même pour les graphiques de connaissances.

Les machines utilisent des graphiques de connaissance pour pouvoir raisonner sur les liens entre différents mots et concepts et pour construire des réponses significatives en rapport avec ce qui est demandé. Étant donné que les graphiques de connaissances sont si importants pour la qualité des réponses, chacun des fournisseurs de systèmes de conversation s’emploie à créer leurs propres graphiques de connaissances basés sur le cloud pour alimenter leurs systèmes.

Selon Amazon, la seule division Alexa compte plus de 10 000 travailleurs, dont beaucoup aident sans aucun doute à créer, gérer et alimenter ces graphiques de connaissance. Google, Microsoft et Apple ont des effectifs similaires et construisent furieusement leurs graphiques de connaissances pour répondre aux exigences de plus en plus complexes de leurs bases d’utilisateurs en croissance rapide.

En fait, Amazon, Apple et Microsoft ont chacun été confrontés à un contrôle sur leur utilisation des humains dans la boucle pour aider à alimenter leurs appareils. Tandis que beaucoup accusent ces entreprises de ne pas divulguer le fait que les humains écoutent certaines parties des conversations des assistants vocaux, il est en réalité nécessaire que les humains aident à créer, maintenir et corriger le graphe de connaissances au fil du temps et à le rendre plus utile.

En effet, tout en effectuant le dernier benchmark, les analystes de Cognilytica ont remarqué que les réponses d’Amazon Alexa à une des questions changeaient après avoir été interrogées à plusieurs reprises, les réponses initiales de catégorie 0 devenant plus tard parfaites pour les réponses de catégorie 3. Cela pourrait résulter de la fonctionnalité de mise à jour des réponses récemment annoncée par Amazon., qui renverrait les réponses ayant échoué à ses équipes internes pour résolution et mise à jour afin d’obtenir une réponse plus significative à l’avenir.

Même si ces assistants vocaux ne reçoivent pas actuellement une note de passage même en classe de maternelle, il est clair que les appareils continuent à devenir plus intelligents avec le temps, et les fournisseurs sont déterminés à en faire un élément intelligent de notre vie quotidienne. Avec l'amélioration continue, ces appareils pourraient bientôt offrir les avantages promis de la technologie d'assistant vocal.

Source

searchenterpriseai.techtarget.com

Leave A Reply