LumenVox

Motor de Discurso

El motor de Discurso de LumenVox es una API flexible que realiza el reconocimiento del habla sobre información de audio de cualquier fuente de audio. El motor de Discurso es independiente de los altavoces y el hardware tanto en plataformas Windows como Linux.

Les proporciona a los diseñadores de aplicaciones del habla una plataforma de desarrollo y tiempo de ejecución eficiente, permitiendo el lenguaje dinámico, la gramática, el formato de audio y las capacidades de registro de datos para personalizar cada etapa de su aplicación. La gramática se ingresa como una simple lista de palabras o pronunciaciones, o en la especificación de gramática del reconocimiento del habla (SRGS) estándar de la industria.

¡Utilice la API del motor de reconocimiento del habla en 5 pasos sencillos!

  1. Abra un nuevo puerto de habla que represente su conexión con el motor del habla.
  2. Cargue una gramática: pueden cargarse varias gramáticas al mismo tiempo.
  3. Cargue la información de audio en un canal de sonido.
  4. Indíquele a nuestro motor que realice una decodificación del audio.
  5. ¡Obtenga los resultados reconocidos!

Funcionalidad del motor

  • Transmisión de audio continua
  • Compatible con el inglés, español latinoamericano y francés canadiense.
  • La API flexible se integra fácilmente en los sistemas actuales de OA&M, facturación, abastecimiento y corrección de errores.
  • La arquitectura del cliente/servidor distribuye la carga de procesamiento del habla.
  • Gramáticas definidas según el tiempo de ejecución ingresadas como texto simple, BNF, ortografía fonética pura o SRGS
  • La interrupción dinámica avanzada se adapta a cada llamada en tiempo real.
  • SDK incluye ejemplos de aplicaciones de demostración.
  • Recuperación flexible de errores mediante el uso de resultados de confianza y resultados NBest.

El Motor del Discurso toma audio cargado con gramáticas para producir texto reconocido.

LumenVox reconoce que la industria del habla necesitará trabajar en conjunto para desarrollar soluciones para los negocios, y como una medida importante, la tecnología de reconocimiento del habla LumenVox con orgullo soporta y complementa los siguientes estándares.

MRCP
(Media Resource Control Protocol)

Sintetizadores del habla... Grabadores de audio... Reconocedores de DTMF... Reconocedores del habla... Verificadores del habla... una aplicación totalmente funcional y rica en medios necesita una gran cantidad de componentes para que trabajen en conjunto. Hasta ahora, todos estos componentes tuvieron que ser provistos por un solo proveedor, o requirieron una extensa programación personalizada para integrarlos. MRCP cambia todo esto. El protocolo de control de recursos de medios le permite administrar perfectamente los diversos recursos de medios y proporciona un lenguaje común para comunicarse con todos estos dispositivos. Con MRCP, los proveedores pueden competir en función de sus puntos fuertes, en lugar de intentar crear un paquete que incluya todo pero que sea potencialmente mediocre. Por lo tanto, usted puede escoger el mejor producto de cada proveedor, creando un paquete de aplicación del habla que esté a la medida de sus necesidades particulares. En esencia, MRCP es un protocolo diseñado específicamente para satisfacer la necesidad del cliente de controlar los recursos de procesamiento de medios como el reconocimiento del habla y los motores de TTS. Para obtener más información, visite: http://www.ietf.org

SISR
(Semantic Interpretation for Speech Recognition)

LumenVox ha implementado el boceto de trabajo de la SISR de W3C, que también es parte de la especificación de VXML 2.0. SISR les permite a los autores de gramáticas incorporar fragmentos de código JavaScript en sus gramáticas SRGS, para transformar automáticamente lo que dice un hablante en un formato comprensible para una aplicación. Con las etiquetas semánticas de LumenVox, las personas que llaman pueden decir "trece de septiembre de dos mil cuatro", y su aplicación entenderá "13-09-2004".

SRGS
(Speech Recognition Grammar Specification)

El W3C definió una sintaxis llamada especificación de gramática del reconocimiento del habla (SRGS), para representar las gramáticas que se utilizan en el reconocimiento del habla, de modo que los diseñadores pueden especificar las palabras y los patrones de las mismas que escuchará un reconocedor del habla. La sintaxis del formato de la gramática se representa de dos maneras, una forma BNF aumentada y una forma XML. La especificación habilita las dos representaciones para la asignación para permitir las transformaciones automáticas entre las dos formas. El motor del habla LumenVox soporta la SRGS, según lo define el W3C. Para obtener más información, visite: http://www.w3.org/TR/speech-grammar/

VXML
(Voice Extensible Markup Language)

El lenguaje de etiquetado extensible de voz (VXML) es un lenguaje de etiquetas diseñado para codificar las aplicaciones del habla con varios de los mismos componentes arquitectónicos como HTML. Las plataformas VoiceXML se conectan a una combinación de motores de reconocimiento del habla, síntesis de conversión de texto en habla, interfaces telefónicas y un software de interpretación de VoiceXML para procesar la llamada. A fin de interconectar VXML con cualquier motor del habla, el motor debe comprender SRGS y SISR.

El motor del habla de LumenVox cumple con las expectativas de VXML, y nuestro motor del habla capacita la parte de reconocimiento del habla de diversas plataformas VXML.

Foro de VXML

El foro de VoiceXML http://www.voicexml.org/ es una organización industrial formada para crear y promover el VoiceXML. Con el respaldo y las contribuciones de sus diversos miembros, incluidos los líderes clave de la industria, el foro de VoiceXML ha obtenido con éxito la aceptación de VoiceXML en el mercado a través de una gran variedad de aplicaciones habilitadas para el reconocimiento del habla. LumenVox es un miembro orgulloso del foro. Para obtener más información, visite: http://www.voicexml.org/.


Gramática del servidor

LumenVox ofrece una compatibilidad aun más eficiente con las gramáticas amplias de reconocimiento del habla, al permitirles a los clientes cargar con anterioridad las gramáticas en el servidor. Esto les permite a los usuarios enviar la gramática antes de decodificar las peticiones.

Detección de actividad de voz

Generalmente, la gramática misma acompaña cada petición de decodificación, pero en el caso de las gramáticas amplias, es más eficiente enviar la gramática al servidor antes de decodificar; lo que disminuye el tráfico de la red.

La detección de actividad de voz (VAD), también llamada detección de interrupción y/o final del habla (EOS), detecta cuando una persona comienza a hablar, termina de hablar o se detiene mientras habla.

La implementación de VAD de LumenVox proporciona un alto rendimiento a pesar de las condiciones desafiantes: siseos, chasquidos, cambios abruptos en el ruido de fondo, eco en la línea telefónica y chillido de una comunicación de radio de dos vías.

El módulo de detección de actividad de voz es altamente configurable y puede adaptarse para trabajar correctamente dentro de aplicaciones telefónicas, VoIP o en aplicaciones basadas en micrófonos.

Resultados de NBest

En lugar de dar sólo el resultado más alto, puede ordenarle al motor del habla que brinde varios de los resultados más altos, las respuestas más probables, a menudo llamadas resultados NBest. Dar los resultados NBest es especialmente efectivo cuando las personas que llaman necesitan deletrear nombres, direcciones de calles o direcciones de correos electrónicos. Sin los resultados NBest, si una persona que llama deletrea un nombre que comienza con "N", pero el motor da un resultado dudable, a la persona que llama se le pediría que repita la letra, y dada la similitud entre "N" y "M", es probable que la segunda respuesta tenga un resultado similar de poca confianza. Con los resultados NBest, el sistema puede preguntarle a la persona que llama utilizando varios de los resultados probables, como "¿Quiso decir 'M', como en 'María'?" Cuando la persona que llama responde "No", el sistema pasa a la siguiente opción: "¿Tal vez quiso decir 'N', como en 'Nancy'?"

La devolución de resultados NBest mejora la experiencia de la persona que llama: en lugar de pedirle a la persona que llama que simplemente repita una respuesta que recibió un resultado de baja confianza, el sistema de reconocimiento del habla puede confirmar la intención de la persona que llama utilizando varias opciones probables.

Módulo de Reducción de Ruido

Cuando hay ruido, éste degradará el rendimiento de cualquier sistema de reconocimiento del habla. La reducción del ruido de calidad mejora la precisión de la detección por activación de voz y el reconocimiento central, ambos son partes fundamentales del sistema de reconocimiento del habla.

Para mejorar la solidez de la aplicación en entornos ruidosos, LumenVox implementó un módulo de reducción del ruido (NRM) en nuestro motor de reconocimiento del habla. El NRM se adapta automáticamente al entorno acústico y actualiza de manera dinámica su cálculo de los niveles de ruido. El algoritmo adaptable permite y actualiza dinámicamente su cálculo de los niveles de ruido. El algoritmo adaptable le permite al NRM reducir los efectos del ruido.

Las formas de onda de la parte de abajo demuestran la potencia del módulo de reducción del ruido de LumenVox. En el audio original un conductor de un camión está hablando por un teléfono celular mientras conduce. Además del ruido del motor del camión y el soplido del viento, se pone en marcha un motor de otro vehículo en el medio de la grabación.

Videoteca

  • Datos de prueba de partido terceros
  • Formato uniforme de Gramática (SRGS)
  • Probado en Xeon doble en 2.4Ghz

Puntos y Articulos