Les réseaux de neurones sont à l’origine des progrès les plus récents en matière d’intelligence artificielle, y compris de nombreuses capacités récentes d’Alexa. Mais les réseaux de neurones ont tendance à être volumineux et difficiles à manier, et ces dernières années, l'équipe Alexa a étudié des techniques permettant de les rendre suffisamment efficaces pour fonctionner sur des périphériques.

Cette année, à l’interspeech, nos collègues et nous-mêmes présentons deux communications décrivant des techniques permettant de réduire la complexité des réseaux traitant des données audio. L'un des réseaux reconnaît les mots prononcés individuellement. l'autre fait la détection d'événement acoustique.

Alexa Guard, une fonction que les clients peuvent activer sur les appareils Echo, est en mesure de détecter et de les avertir du bruit des avertisseurs de fumée et de monoxyde de carbone ou des bris de vitres lorsqu'ils sont loin de chez eux. Avec Guard, l'utilisation d'un détecteur sur l'appareil protège la confidentialité des clients et garantit que seuls les sons très suspects sont transmis à un détecteur plus puissant fonctionnant dans le nuage.

Les deux modèles reposent sur des réseaux de neurones convolutionnels, bien que de manière différente. Développés à l'origine pour le traitement des images, les réseaux de neurones à convolution, ou CNN, appliquent de manière répétée le même "filtre" à de petits fragments de données d'entrée. Pour la reconnaissance d'objet, par exemple, un CNN peut parcourir un fichier image en blocs de huit sur huit, en inspectant chaque bloc pour rechercher des motifs associés à des objets particuliers. De cette manière, le réseau peut détecter les objets peu importe l’emplacement de l’image.

Comme les images, les signaux audio peuvent être représentés sous forme de données bidimensionnelles. En reconnaissance vocale, par exemple, il est courant de représenter des signaux à l’aide de coefficients cepstraux à la fréquence minimale, ou MFCC. Les coefficients cepstraux d’un signal sont une séquence de nombres décrivant ses caractéristiques de fréquence; cepstral connote une transformation de spectral Propriétés. «Mel» signifie que les bandes de fréquences sont choisies pour concentrer les données dans des plages de fréquences auxquelles les humains sont particulièrement sensibles. La correspondance des coefficients cepstraux avec le temps produit un instantané en deux dimensions d'un signal acoustique.

Dans la reconnaissance d’objet, un CNN appliquera généralement un certain nombre de filtres à chaque bloc d’image, chaque filtre représentant une orientation possible différente du bord de l’objet. Notre système applique également un certain nombre de filtres différents, adaptés aux caractéristiques de mots particuliers. Dans notre cas, cependant, chaque filtre ne concerne que certains coefficients cepstraux, mais pas tous.

Nous exploitons cette différence pour augmenter l'efficacité du réseau. Notre architecture de réseau applique chaque filtre uniquement aux coefficients cepstraux pertinents, ce qui réduit le nombre total d'opérations nécessaires à l'identification d'un mot particulier. Expérimentalement, nous l'avons comparé à un CNN traditionnel et avons constaté que, lorsque nous maintenions la précision de sortie fixe, la charge de calcul (mesurée en opérations FLOPS ou virgule flottante par seconde) était réduite de 39,7% pour les tâches de classification des commandes et de 49,3%. sur les tâches de reconnaissance de numéro.

CNN_comparison.jpg "src =" https://m.media-amazon.com/images/G/01/DeveloperBlogs/AlexaBlogs/default/CNN_comparison.jpg._CB438542430_.jpg?t=true "style =" display: block; hauteur: 270px; marge gauche: auto; marge droite: auto; largeur: 450px "/></p>
<p style=Un CNN traditionnel (à gauche) et notre CNN plus efficace, qui applique des filtres (Conv1_1 à travers Conv1_3) uniquement aux coefficients cepstraux pertinents. Notez que dans les représentations du signal, le temps est l’axe des y.

Dans notre autre article, nous combinons deux techniques différentes pour améliorer l'efficacité d'un réseau de détection sonore: la distillation et la quantification. La distillation est une technique dans laquelle les sorties d'un grand réseau neuronal puissant – dans le cas présent un CNN – sont utilisées pour former un réseau plus allégé et plus efficace – dans ce cas, un réseau de mémoire peu profond à long terme, à court terme ou LSTM.

La quantification est le processus qui consiste à considérer toute la plage de valeurs qu'une variable particulière peut prendre et à la diviser en un nombre fixe d'intervalles. Toutes les valeurs dans un intervalle donné sont ensuite approximées par un nombre unique.

Le réseau de neurones typique consiste en un grand nombre de traitements simples noeudsqui reçoit des données de plusieurs autres nœuds et les transmet à plusieurs autres. Les connexions entre les nœuds sont associées poids, qui indiquent le rôle que jouent les sorties d’un nœud dans le calcul effectué par le nœud suivant. Pour former un réseau de neurones, il faut en grande partie ajuster le poids de ses connexions.

Comme stocker un réseau neuronal en mémoire revient essentiellement à stocker ses poids, la quantification de ces poids peut réduire considérablement l’empreinte mémoire du réseau.

Dans notre cas, nous quantifions non seulement les poids de notre plus petit réseau (le LSTM) mais également ses valeurs d'entrée. Un LSTM traite des séquences de données dans l’ordre, et la sortie correspondant à chaque entrée est prise en compte dans les entrées et les sorties qui la précèdent. Nous quantifions non seulement les entrées d'origine dans le LSTM, mais également chaque sortie, qui devient à son tour une entrée à l'étape de traitement suivante.

De plus, nous quantifions le LSTM pendant la formation, pas après. Plutôt que d’entraîner complètement le LSTM et de ne quantifier que ses poids pour le stockage, nous le forçons à sélectionner des poids quantifiés pendant l’entraînement. Cela signifie que le processus de formation règle le réseau sur les poids quantifiés, et non sur des valeurs continues que les quantifications se rapprochent simplement.

Lorsque nous comparons notre LSTM entraîné par distillation et quantifié à un LSTM avec le même nombre de noeuds entraînés directement sur les mêmes données, nous constatons qu’il a non seulement une empreinte mémoire beaucoup plus petite – un huitième de la taille – mais également 15 % d’amélioration de la précision, résultat de la formation à la distillation.

Chieh-Chi Kao est un scientifique appliqué, Ming Sun, spécialiste du discours et Bowen Shi, un stagiaire d'été (du Toyota Technological Institute de Chicago), tous membres du groupe Alexa Speech.

Papiers:
«Réseaux de neurones convolutionnels en sous-bandes pour la classification de termes parlés de faible empreinte»
"Compression de modèles de détection d'événements acoustiques avec distillation quantifiée"

Alexa science

Remerciements: Yixin Gao, Shiv Vitaladevuni, Viktor Rozgic, Spyros Matsoukas, Chao Wang

en relation:

Source

Leave A Reply