Tipos de Reconocimiento de Voz

Tipos de Reconocimiento de Voz

Existen dos tipos de reconocimiento de voz. Uno es conocido como dependiente del interlocutor y el otro es conocido como independiente del interlocutor. El software dependiente del interlocutor es utilizado frecuentemente para software de dictado, mientras que el software independiente del interlocutor es implementado muy a menudo en aplicaciones telefónicas.

El software dependiente del interlocutor funciona al aprenderse las características de la voz de una persona; muy similar al software de verificación de voz. Los usuarios nuevos deben entrenar al software hablándole repetidamente para que la computadora pueda analizar como habla una persona. Esto significa que en algunos casos, el usuario tendrá que leerle algunas hojas de texto a la computadora antes de que puedan usar el software de reconocimiento de voz.

El software independiente del interlocutor esta diseñado para reconocer la voz de cualquier usuario, sin entrenamiento previo. Esto señala que es la única opción real para aplicaciones como IVR — donde los negocios no le pueden preguntar a los interlocutores, configuren sus sistemas antes de usarlos. La desventaja de usar software independiente del interlocutor, es que es menos preciso que el software dependiente del interlocutor.

Los mecanismos de reconocimiento de voz que son independientes del interlocutor, generalmente solucionan este problema al limitar las gramáticas que usan. Al usar una lista (gramática) mas pequeña de palabras reconocidas, el sistema de reconocimiento de voz será mucho mas capaz de reconocer lo que dijo el interlocutor con mayor precisión.

Por estas razones, el software independiente del interlocutor es ideal para la mayoría de los sistemas IVR y para cualquier aplicación donde varias personas usan ese mismo sistema. El software dependiente del interlocutor es utilizado con mucho mas frecuencia para dictados, cuando son las únicas personas utilizando el sistema y hay necesidad de tener gramáticas grandes.

El Mecanismo de Voz LumenVox, el cual habilita todo nuestro software de voz, es independiente del interlocutor. No es software de dictado, no es lo mismo que la tecnología de verificación de voz, y no tiene la capacidad de reconocer un numero ilimitado de palabras a la vez. Esta diseñado para reconocer información especifica, principalmente por interlocutores de un teléfono IVR. Funciona muy bien con un router de llamadas, contestadora automática, y para cualquier otra aplicación donde los diseñadores tengan una idea de las palabras que los interlocutores vayan a decir.

Para construirlo, tomamos cientos de horas de audio transcrito y lo usamos para construir un modelo de lenguaje. Esto se convierte en nuestra base de datos, la cual le indica a nuestro Mecanismo de Voz como suenan los sonidos matemáticamente. Las computadoras solo reconocen matemáticas.

Debido a que el audio que usamos para construir los modelos contienen cientos de interlocutores, el Mecanismo de LumenVox está capacitado para reconocer una amplia variedad de voces. Esta función es lo que hace a nuestro Mecanismo independiente del interlocutor.

Cuando nuestro Mecanismo recibe información de una aplicación de voz, convierte este audio en una representación matemática y la compara con sus modelos internos. Esto le da una idea a nuestro Mecanismo de los sonidos que forman ese audio y compara esos sonidos con las palabras especificadas en la gramática de la aplicación.

Este no es un proceso exacto por que existen muchas variaciones sutiles en como son pronunciadas las palabras, el Mecanismo de Voz nunca puede estar completamente seguro de lo que dijo el interlocutor. Considere lo difícil que es distinguir las letras "t" y "b" cuando alguien esta deletreando una palabra.

Nuestro software de reconocimiento de voz se encargara de esta incertidumbre al usar un método basado en probabilidades. El Mecanismo de Voz brinda una calificación de confianza para cada audio que trata de reconocer. Esta calificación representa la probabilidad de que el Mecanismo de Voz reconoció lo que dijo el interlocutor con precisión.