LumenVox

Motor de Discurso

El Mecanismo de Voz LumenVox es un reconocedor preciso basado en estándares que reconoce lenguajes múltiples y que puede reconocer la voz de cualquier tipo de datos de audio de cualquier fuente. En Linux o Windows, el Mecanismo de Voz es independiente del interlocutor y del equipo. El Mecanismo de Voz emite soluciones de voz y plataformas que son utilizadas en empresas y en ambientes SMB alrededor del mundo.

También ofrece procesadores de aplicaciones de voz con un desarrollo eficaz y una rutina adecuada, permitiendo un lenguaje dinámico, gramática, formato de audio y capacidades de registro para adaptar cada paso de la aplicación al gusto del cliente. Las  Grammars  son sometidas como una simple lista de palabras o pronunciaciones, o el estándar de la industria  Speech Recognition Grammar Specification  (SRGS).

Use el Mecanismo de Reconociemiento de Voz API en 5 pasos simples!

  1. Abra un Puerto de Voz nuevo representando su conexión al Mecanismo de Voz.
  2. Cargue una grammar? varias grammars pueden ser cargadas a la vez.
  3. Cargue los datos de audio al canal de sonido.
  4. Dígale a nuestro mecanismo que decodifique el audio.
  5. Obtenga resultados reconocidos!

Funciones del Mecanismo de Voz

Como Funciona el sistema de Reconocimiento de Voz

El mecanismo de voz usa este proceso para figurar lo que una persona dijo:

El mecanismo carga una lista de palabras para ser reconocidas. Esta lista de palabras se llama grammar.

El audio de la persona que esta hablando es capturado por el micrófono o por el teléfono. Este audio es transformado en una grafica de frecuencia, una representación matemática de sonido.

El mecanismo busca características diferentes de audio derivadas de la grafica de frecuencia y las compara con su propio modelo acústico. El mecanismo busca su espacio acústico, usando la grammar para guiar esta búsqueda.

El mecanismo después determina las palabras que concuerdan mejor con la grammar y el audio y después produce el resultado.

El Mecanismo de Voz compara el audio con las grammars cargadas para producir un texto previamente reconocido.

Licenciatura

El Mecanismo de Voz es autorizado por un canal o uso simultaneo de un recurso de reconocimiento de voz. Ambos el Sintonizador de Voz y la Plataforma de Voz están incluidos sin costo cuando compra el Mecanismo de Voz.

Ofrecemos dos versiones del Mecanismo de Voz LumenVox:

El Mecanismo de Voz Lite esta autorizado para procesar 500tas pronunciaciones por interacción.
Por favor contáctenos para discutir las limitaciones practicas de su aplicacion especifica.

LumenVox ofrece paquetes de desarrollo accesibles que incluyen entrenamiento y Soporte Técnico para ayudarlo a empezar a construir su aplicación. Por favor llame o contáctenos por Correo Electrónico para los precios.

LumenVox reconoce que la industria de reconocimiento de voz necesitara trabajar para desarrollar soluciones para negocios. Y como un paso muy importante. La tecnología de reconocimiento de voz LumenVox orgullosamente apoya y complementa los siguientes estándares.

MRCP
Media Resource Control Protocol

Sintetizadores de voz ? Grabadoras de Audio? Reconocedores de DMTF? Reconocedores de voz? Verificadores de voz? aplicaciones que funcionan perfectamente necesitan de muchos componentes para trabajar juntos. Hasta ahora, todos esos componentes tenían que ser proveídos por un solo proveedor requerían de programaciones extensas para integrarlos. MRCP cambia todo esto. El Media Resource Control Protocol le da la oportunidad de manejar fácilmente diversos recursos de medios y provee un lenguaje común para ser hablarle a todos estos dispositivos. Con MRCP, los proveedores pueden competir basados en sus fortalezas, en vez de tratar de crear un paquete que incluya todo; pero sea potencialmente mediocre. Entonces, usted tiene la capacidad de tomar el mejor producto de cada proveedor, creando el paquete de aplicaciones de voz que mejor satisfaga sus necesidades. En esencia, MRCP es un protocolo diseñado específicamente para resaltar la necesidad del cliente por el control de recursos de media como Reconocimiento de Voz y mecanismos TTS. LumenVox Apoya MRCP v1 y 2 (NLMSL). Para mas información visite: www.ietf.org

SISR
Semantic Interpretation for Speech Recognition

LumenVox ha implementado el proyecto W3C's SISR, que también es parte de la especificación VXML 2.0. SISR permite que los autores de grammars que graben del código JavaScript a su SRGS grammars para transformar automáticamente lo que dijo una persona a un formato entendible a una aplicación. Con los  Semantic Tags  de LumenVox, las personas que hablen pueden decir,  Septiembre trece dos mil cuatro,  y su aplicación entenderá  13-09-2004. 

SRGS
Speech Recognition Grammar Specification

El W3C definió un sintaxis conocido como el SRGS?Speech Recognition Grammar Specification (SRGS), para representar grammars para uso en el reconocimiento de voz para que los desarrolladores puedan especificarlas palabras y patrones de palabras que van a ser oídas por el reconocedor de voz. La syntaxis del formato grammar es presentado en dos formas, BNF y VXML. La especificación hace dos representaciones que pueden ser ubicadas para permitir transformaciones automáticas entre las dos formas. El mecanismo de Voz LumenVox soporta el SRGS, definido como W3C. Para mas información viste: www.w3.org/TR/speech-grammar/

VXML
Voice Extensible Markup Language

El Voice Extensible Markup Language (VXML) es un lenguaje  mark-up  diseñado para codificar aplicaciones de voz con muchos de los mismos componentes arquitectónicos parecidos a los de HTML. Las plataformas VoiceXML se conectan a una combinación de mecanismos de reconocimiento de voz, síntesis de texto a voz, interfaces de telefonía y a un software VoiceXML de interprete para procesar la llamada. Para interconectar el VXML con cualquier mecanismo de voz, el mecanismo debe reconocer SRGS y SISR.

El Mecanismo de Voz LumenVox cumple con todo lo que espera el VMXL y nuestro mecanismo de voz fortalece la porción de reconocimiento de voz de muchas plataformas VXML.

Foro VXML

El foro de voz VXML es una organización de la industria formada para crear y promover la voz VXML. Con el apoyo y contribución de su membresía diversa, incluyendo lideres esenciales de la industria esenciales, el foro de voz VXML ha conseguido la aceptación del Mercado por medio de una variedad de aplicaciones de voz. LumenVox es un orgulloso miembro de este foro. Para mas información visite: www.voicexml.org.

Server-Side Grammar

Las Grammars Server Side de LumenVox ofrecenun soporte mas efectivo para grammars de reconocimiento de grandes vocs, al permitir que los clientes puedan pre-cargar grammars en el servidor. Esto permite que los usuarios puedan mandar la grammar antes, para decodificar peticiones.

Voice Activation Detection

En nuestra sociedad Mobil, raramente hacemos llamadas mientras que estamos sentados en un cuarto silencioso. Sin importar si la llamada viene de un restaurante lleno o de adentro de un automóvil a alta velocidad, el desafío de la tecnología de reconocimiento de voz es separar la voz del ruido del ambiente de nuestro alrededor.

In our mobile society, we rarely make calls while sitting in a quiet room. Whether the call is coming from a crowded restaurant or inside of a speeding car, one tricky task for speech recognition software is separating speech from background noise.

  • Energy Level (volume)
  • Frequency (pitch)
  • Changes in frequency
  • Duration

Resultados NBest

En lugar de solo ensenar el resultado final, usted puede programar el Mecanismo de Voz para que demuestre varios de los resultados mas altos, probablemente respuestas, muchas veces conocidos como resultados NBest. Devolver resultados NBest es particularmente efectivo cuando individuos que hablan necesitan deletrear nombres, direcciones de calles, o correos electrónicos. Sin los resultados NBest, si una persona que habla quiere deletrear un nombre que empieza con  N,  y el mecanismo de voz regresa un resultado poco confiable, la persona que hablo tendrá que repetir la letra. Debido a la similitud entre deletrear la  N  y la  M  es muy probable que la segunda respuesta también sea poco confiable. Con los resultados NBest, el sistema puede incitar a la persona que hablo usando varios resultados, como  Se refirió a ?M' de Maria'?  Cuando la persona que hablo responde,  No,  el sistema se transfiere a la siguiente opción,  Tal vez usted se refirió a ?N' de Nancy? 

Código Muestra del Mecanismo de Voz

void RecognizeSpeech (void* SoundData, int SoundDataLength)
{
  const char* GrammarString =
  "#ABNF 1.0\n"
  "language en-US;\n"
  "mode voice;\n"
  "tag-format ;\n"
  "$yes = (yes | yeah | okay):'true';\n"
  "$no = (nope | no):'false';\n";

  LVSpeechPort Port;
  Port.OpenPort ();
  Port.LoadGrammarFromBuffer (0, GrammarString);
  Port.LoadVoiceChannel (0, SoundData,SoundDataLength, ULAW_8KHZ);

  Port.Decode (0, 0, LV_DECODE_SEMANTIC_INTERPRETATION | LV_DECODE_BLOCK );

  int NumInterpretations = Port.GetNumberOfInterpretations (0);
  for (int i = 0; i < NumInterpretations; ++i)
   cout << Port.GetInterpretationString (0,i);
  Port.ClosePort ();
}

Comparación de Mecanismo de Voz

Muchas veces nos han preguntado que tan exacto es nuestro Mecanismo de Voz. Entonces decidimos desarrollar unos modelos Acústicos nuevos, por que era importante validar las mejorías en exactitud y tener datos comparativos para enseñarle a nuestros clientes y socios.


Que es Exactitud?

A lo que generalmente se refiere la  exactitud  es reconocimiento correcto de elocuciones en los grammars, o que tan exitoso es el mecanismo de reconocimiento de voz en reconocer una frase o palabra, que es una respuesta hablada esperada.

Como Nos Comparamos?

Para nuestro estudio de Exactitud comparamos el Mecanismo de Voz LumenVox con otro Mecanismo de Voz líder en la industria,  Competidor N , usando datos de exámenes de tercer persona. Examinamos los siguiente cinco tipos diferentes de elocuciones , o  dominios,  : Si/No, Nombre y Departamento (Por ejemplo, un Directorio de Compañía), Fecha (Día, Mes y Ano), Números (como dos mil y cien) y Dígitos (una sucesion de dígitos).

Debe ser señalado que el set de examen son muestras sin procesamiento de datos telefónicos y de celulares e incluye un porcentaje razonable de datos  ruidosos .

Resultados

Nuestro Mecanismo de Voz compitió excelente, con marcas de alta exactitud en casi todas las categorías.

Que se Significa Esto?

El software de reconocimiento de voz LumenVox siempre ha sido la decisión inteligente en términos de accesibilidad y después de revisar el análisis, usted puede estar confiado de: nuestra exactitud, funcionamiento y posición en la industria de reconocimiento de voz.


*Todos los mecanismos intencionalmente no optimizados para elocuciones, aplicaciones o grammars. Además, para asegurar un examen objetivo, no hicimos ningún esfuerzo para entonar o hacer cualquier tipo de ajustes al software.

Aplicaciones Entonadas Contra Desentonadas

Las graficas de exactitud de arriba reflejan exactitud en las aplicaciones desentonadas. Las aplicaciones examinadas no tenían sus grammars ? la lista de palabras que serán reconocidas por el mecanismo de voz ? optimizadas en datos de llamadas actuales. Debido a que esas figuras de exactitud son aplicaciones desentonadas, no representan la exactitud final que los usuarios esperaban de las aplicaciones de reconocimiento de voz utilizadas.

La grafica de la derecha demuestra los resultados de exactitud del router activado para voz que utiliza LumenVox. El router contiene aproximadamente 70 nombres. Antes de ser entonado, el router solo contenía nombres propios. Después de examinar los datos de llamada con nuestro Sintonizador de Voz, LumenVox agrego pronunciaciones y apodos alternos de sus empleados a la grammar. Como puede ver, este relativamente simple acto de entonar causo que la exactitud mejorar de 85.54% a 96.21%.

La siguiente tabla representa los resultados de pruebas con la versión Windows de nuestro Mecanismo de Voz. Estos exámenes fueron hechos en una maquina con un Intel Core 2 Duo (Procesador 2.4 GHz y 2 GB de memoria). Esta grammar que fue usada tiene 500tos nombres propios. El audio tuvo 1.5 segundos de largo. Cada examen duro 280 segundos, cada uno duro 14 segundos.

Numero de Puertos
Memoria (MB)
Numero de Decodificaciones
Utilización del Procesador %
039500
1399202
4437806
843716010
1644032015
2444148025
4844396045
96447192081

Finalmente, esta disponible una solución de voz completamente integrada para todas las aplicaciones basadas en Asterisk.

Adelante: Active su Router de Llamada con voz, déle la libertad de interacciones de   teléfono de manos libres  a sus clientes o simplemente provea una interfase automatizada para servicio al cliente.

El Mecanismo de Voz es directamente e invisiblemente integrado con la plataforma Asterisk PBX y el Plan de Llamada a través de un conector puente único de Digium.

Ahora usted puede construir fácilmente IVR's activadas con voz, usando el Plan de Llamada lenguaje  scripting  o el C-API.

Distribuciones de Linux soportadas incluyen versiones recientes de: rPath (Asterisk Now/ Pound Key), Fedora Core, Red Hat Enterprise Server, Cent OS (através de nuestro Red Hat construido) y Debian.

Technical Support

LumenVox provee Soporte Técnico gratuito para ayudarlo a instalar el mecanismo de Voz LumenVox con éxito. También lo ayudaremos a configurar su copia de Asterisk, logrando que una simple aplicación de voz; funcione correctamente. Recuerde que este Soporte Técnico esta disponible solamente para los usuarios que utilicen las ultimas versiones de nuestro software, en distribuciones oficiales Linux.

Lame 877-977-0707 y pregunte por  Soporte 

Correo Electrónico support@lumenvox.com

Para asuntos técnicos mas avanzados, incluyendo la solución de los problemas de su aplicación de voz, LumenVox ofrece contratos de Soporte Técnico a $175/hora con la compra minima de dos horas.

Tarifas de Mayoreo disponibles: 5 horas por $750 o 10 horas por $1400.

El Soporte Técnico LumenVox esta disponible de Lunes a Viernes desde las 9 A.m. a las 5 P.m. hora del Pacifico. Para información general sobre nuestra póliza de Soporte Técnico, archivos de ayuda, recursos útiles, por favor haga clic aquí.

Videoteca

  • Datos de prueba de partido terceros
  • Formato uniforme de Gramática (SRGS)
  • Probado en Xeon doble en 2.4Ghz

Puntos y Articulos