El motor de Discurso de LumenVox es una API flexible que realiza el reconocimiento del habla sobre información de audio de cualquier fuente de audio. El motor de Discurso es independiente de los altavoces y el hardware tanto en plataformas Windows como Linux.
Les proporciona a los diseñadores de aplicaciones del habla una plataforma de desarrollo y tiempo de ejecución eficiente, permitiendo el lenguaje dinámico, la gramática, el formato de audio y las capacidades de registro de datos para personalizar cada etapa de su aplicación. La gramática se ingresa como una simple lista de palabras o pronunciaciones, o en la especificación de gramática del reconocimiento del habla (SRGS) estándar de la industria.
Sintetizadores del habla... Grabadores de audio... Reconocedores de DTMF... Reconocedores del habla... Verificadores del habla... una aplicación totalmente funcional y rica en medios necesita una gran cantidad de componentes para que trabajen en conjunto. Hasta ahora, todos estos componentes tuvieron que ser provistos por un solo proveedor, o requirieron una extensa programación personalizada para integrarlos. MRCP cambia todo esto. El protocolo de control de recursos de medios le permite administrar perfectamente los diversos recursos de medios y proporciona un lenguaje común para comunicarse con todos estos dispositivos. Con MRCP, los proveedores pueden competir en función de sus puntos fuertes, en lugar de intentar crear un paquete que incluya todo pero que sea potencialmente mediocre. Por lo tanto, usted puede escoger el mejor producto de cada proveedor, creando un paquete de aplicación del habla que esté a la medida de sus necesidades particulares. En esencia, MRCP es un protocolo diseñado específicamente para satisfacer la necesidad del cliente de controlar los recursos de procesamiento de medios como el reconocimiento del habla y los motores de TTS. Para obtener más información, visite: http://www.ietf.org
LumenVox ha implementado el boceto de trabajo de la SISR de W3C, que también es parte de la especificación de VXML 2.0. SISR les permite a los autores de gramáticas incorporar fragmentos de código JavaScript en sus gramáticas SRGS, para transformar automáticamente lo que dice un hablante en un formato comprensible para una aplicación. Con las etiquetas semánticas de LumenVox, las personas que llaman pueden decir "trece de septiembre de dos mil cuatro", y su aplicación entenderá "13-09-2004".
El W3C definió una sintaxis llamada especificación de gramática del reconocimiento del habla (SRGS), para representar las gramáticas que se utilizan en el reconocimiento del habla, de modo que los diseñadores pueden especificar las palabras y los patrones de las mismas que escuchará un reconocedor del habla. La sintaxis del formato de la gramática se representa de dos maneras, una forma BNF aumentada y una forma XML. La especificación habilita las dos representaciones para la asignación para permitir las transformaciones automáticas entre las dos formas. El motor del habla LumenVox soporta la SRGS, según lo define el W3C. Para obtener más información, visite: http://www.w3.org/TR/speech-grammar/
El lenguaje de etiquetado extensible de voz (VXML) es un lenguaje de etiquetas diseñado para codificar las aplicaciones del habla con varios de los mismos componentes arquitectónicos como HTML. Las plataformas VoiceXML se conectan a una combinación de motores de reconocimiento del habla, síntesis de conversión de texto en habla, interfaces telefónicas y un software de interpretación de VoiceXML para procesar la llamada. A fin de interconectar VXML con cualquier motor del habla, el motor debe comprender SRGS y SISR.
El motor del habla de LumenVox cumple con las expectativas de VXML, y nuestro motor del habla capacita la parte de reconocimiento del habla de diversas plataformas VXML.
El foro de VoiceXML http://www.voicexml.org/ es una organización industrial formada para crear y promover el VoiceXML. Con el respaldo y las contribuciones de sus diversos miembros, incluidos los líderes clave de la industria, el foro de VoiceXML ha obtenido con éxito la aceptación de VoiceXML en el mercado a través de una gran variedad de aplicaciones habilitadas para el reconocimiento del habla. LumenVox es un miembro orgulloso del foro. Para obtener más información, visite: http://www.voicexml.org/.
LumenVox ofrece una compatibilidad aun más eficiente con las gramáticas amplias
de reconocimiento del habla, al permitirles a los clientes cargar con anterioridad
las gramáticas en el servidor. Esto les permite a los usuarios enviar la gramática
antes de decodificar las peticiones.
Generalmente, la gramática misma acompaña cada petición de decodificación, pero en el caso de las gramáticas amplias, es más eficiente enviar la gramática al servidor antes de decodificar; lo que disminuye el tráfico de la red.
La detección de actividad de voz (VAD), también llamada detección de interrupción y/o final del habla (EOS), detecta cuando una persona comienza a hablar, termina de hablar o se detiene mientras habla.
La implementación de VAD de LumenVox proporciona un alto rendimiento a pesar de las condiciones desafiantes: siseos, chasquidos, cambios abruptos en el ruido de fondo, eco en la línea telefónica y chillido de una comunicación de radio de dos vías.
El módulo de detección de actividad de voz es altamente configurable y puede adaptarse para trabajar correctamente dentro de aplicaciones telefónicas, VoIP o en aplicaciones basadas en micrófonos.
En lugar de dar sólo el resultado más alto, puede ordenarle al motor del habla que brinde varios de los resultados más altos, las respuestas más probables, a menudo llamadas resultados NBest. Dar los resultados NBest es especialmente efectivo cuando las personas que llaman necesitan deletrear nombres, direcciones de calles o direcciones de correos electrónicos. Sin los resultados NBest, si una persona que llama deletrea un nombre que comienza con "N", pero el motor da un resultado dudable, a la persona que llama se le pediría que repita la letra, y dada la similitud entre "N" y "M", es probable que la segunda respuesta tenga un resultado similar de poca confianza. Con los resultados NBest, el sistema puede preguntarle a la persona que llama utilizando varios de los resultados probables, como "¿Quiso decir 'M', como en 'María'?" Cuando la persona que llama responde "No", el sistema pasa a la siguiente opción: "¿Tal vez quiso decir 'N', como en 'Nancy'?"
La devolución de resultados NBest mejora la experiencia de la persona que llama: en lugar de pedirle a la persona que llama que simplemente repita una respuesta que recibió un resultado de baja confianza, el sistema de reconocimiento del habla puede confirmar la intención de la persona que llama utilizando varias opciones probables.
Cuando hay ruido, éste degradará el rendimiento de cualquier sistema de reconocimiento
del habla. La reducción del ruido de calidad mejora la precisión de la detección
por activación de voz y el reconocimiento central, ambos son partes fundamentales
del sistema de reconocimiento del habla.
Para mejorar la solidez de la aplicación en entornos ruidosos, LumenVox implementó un módulo de reducción del ruido (NRM) en nuestro motor de reconocimiento del habla. El NRM se adapta automáticamente al entorno acústico y actualiza de manera dinámica su cálculo de los niveles de ruido. El algoritmo adaptable permite y actualiza dinámicamente su cálculo de los niveles de ruido. El algoritmo adaptable le permite al NRM reducir los efectos del ruido.
Las formas de onda de la parte de abajo demuestran la potencia del módulo de reducción del ruido de LumenVox. En el audio original un conductor de un camión está hablando por un teléfono celular mientras conduce. Además del ruido del motor del camión y el soplido del viento, se pone en marcha un motor de otro vehículo en el medio de la grabación.