
Dado que la sintonización es un requisito absoluto para cada solución de reconocimiento del habla, creamos el sintonizador del habla LumenVox: una herramienta completa de sintonización y mantenimiento.
El sintonizador está diseñado para realizar la sintonización y la transcripción, así como pruebas instantáneas de parámetros, gramática y actualización de versión de cualquier aplicación de reconocimiento del habla. Disminuye el trabajo de las revisiones de la aplicación posteriormente a la utilización y le permite realizar la sintonización interna, evitando las costosas tarifas del servicio profesional.
La sintonización utiliza instrucciones, gramáticas, flujo de llamadas e información de la persona que llama para mejorar la aplicación del habla en su totalidad. El sintonizador del habla v7.0 también proporciona las siguientes características nuevas:
El buscador de llamadas les brinda a los usuarios la capacidad de elegir y escuchar de manera rápida una interacción específica y exportar el archivo de audio, todo desde una ventana. Muestra una lista de todas las llamadas cargadas y filtradas actualmente, y muestra todas las interacciones para una llamada seleccionada.
La ventana del buscador de llamadas se divide en tres secciones distintas: la lista de llamadas, la lista de interacciones en el centro y un control de audio en la parte inferior.
Dentro de la lista de llamadas, puede desplazarse fácilmente entre las llamadas para resaltar
una interacción específica. Los campos de datos disponibles proporcionan información clave
como el tiempo de la llamada, la cantidad de interacciones dentro de una llamada, el número
de veces que el motor del habla reconoció el habla y la confianza con respecto a las veces que
el motor del habla interpretó correctamente una frase.
La lista de interacciones contiene detalles de cada interacción dentro de una llamada. Para
cada interacción, puede hacer clic en el botón Ver detalles para obtener una lista específica
de detalles como: el modelo acústico, el tiempo de decodificación, el grado de NBest y la
interpretación semántica.
El panel de control de audio les permite a los usuarios elegir entre escuchar el audio
decodificado o la declaración real de la persona que llama, con controles fáciles de
volumen. El botón "Exportar como WAV" le proporciona al usuario la capacidad
de exportar el audio de la llamada como un archivo WAV al disco duro.
El sintonizador del habla se comunica con una base de datos de código abierto y de
dominio público llamada SQLite (
www.sqlite.org). El sintonizador del habla administra la importación, búsqueda
y exportación del registro de llamadas, para que usted se pueda enfocar en la tarea
de sintonizar y no en la administración de registros. La base de datos se conserva
en un solo archivo, es fácil hacerle una copia de seguridad y transportarla y puede
ser consultada utilizando SQL-92 (consulte el sitio web de SQLite para obtener detalles
completos) desde una diversidad de herramientas exteriores.
La base de datos mantiene toda la información contenida en el registro de llamadas original. El sintonizador del habla incluye no sólo la gramática de decodificación y los resultados del software de reconocimiento del habla, sino también la plataforma de decodificación, las configuraciones de parámetros, los resultados alternativos, el audio inmediato y el audio procesado con anterioridad y posteriormente.
Además, el sintonizador almacena todas las transcripciones y evaluaciones dentro del registro de llamadas. A medida que las transcripciones son ingresadas en el sintonizador del habla, se evalúan automáticamente en función de la gramática de decodificación.
Esta transcripción y cualquier nota o información adicional son almacenadas directamente en la base de datos. Los resultados individuales ?como el índice de error por palabra, índice de error semántico y las mediciones internas y externas de la gramática? se almacenan junto con sus alineaciones, así como también con la información acerca de cómo se lograron dichos resultados. Los usuarios pueden generar una variedad de informes a partir de estos resultados, incluyendo el índice de error por gramática o diálogo, matrices de confusión, progreso de la transcripción y umbrales de confianza para las configuraciones de confirmación o rechazo.
Haga cambios a las gramáticas o a los parámetros, con la certeza de que esos cambios mejorarán, acelerarán y harán más exacta la aplicación. El sintonizador del habla utiliza información histórica para validar sus cambios, garantizando su éxito.
La mayoría de las herramientas de 'sintonización' son visualizadores de registros pasivos, que requieren que los cambios se realicen en la aplicación de reconocimiento del habla en directo y se vuelvan a evaluar con el paso del tiempo cuando hay llamadas en directo. Con el sintonizador del habla, enviamos los cambios al motor del habla, simulando el proceso de reconocimiento y evaluando los cambios instantáneamente. En lugar de una sintonización lenta, sin interacción y estática, el sintonizador del habla permite la sintonización sobre la marcha, altamente efectiva y dinámica.
El habla puede evaluarse en función de conjuntos de gramáticas, a medida que se envían al motor del habla. La gramática se puede ajustar y volver a probar y calificar nuevamente para ver si los cambios mejoraron el rendimiento. Por lo tanto, puede determinar instantáneamente si agregar una frase nueva en la gramática mejorará su exactitud del reconocimiento del habla.
El sintonizador del habla evalúa el rendimiento en función de medidas comúnmente aceptadas como WER (Índice de error por palabra). Esto ayuda a presentar una imagen exacta de los detalles como los resultados de confianza promedio, las respuestas correctas contra las incorrectas y el rendimiento dentro y fuera de la gramática.
Setting parameters optimizes the Speech Engine performance, further improving the caller's experience. Traditionally, changing Engine parameters is a difficult and time-consuming task, often requiring long delays between changing a parameter, and evaluating its effects on performance. Our Speech Tuner changes this.
The dynamic test capability of the Speech Tuner allows the user to shorten this delay. Now, Speech Engine parameters such as search optimizations, speech end-pointing, and NBest result processing can be easily adjusted, and immediately re-tested and re-scored from within the testing component.
Las buenas transcripciones pueden ser una parte importante de la sintonización adecuada de una aplicación de reconocimiento del habla. El transcriptor del sintonizador del habla está diseñado para hacer este proceso tan rápido y uniforme como sea posible.
De hecho, en la última versión del sintonizador del habla, hemos hecho el proceso de transcripción de 5 a 10 veces más rápido con estadísticas mejoradas, una nueva interfaz del panel de control y atajos.
La transcripción del habla es una forma excelente de familiarizarse con la manera en que las personas que llaman interactúan con el sistema.
El transcriptor se utiliza para escribir cada palabra en una llamada. El comprobador de gramática utiliza estas transcripciones para evaluar el grado de exactitud con el que el motor del habla interpreta lo que dicen los usuarios
El registro de la transcripción permite una visualización detallada de cada transcripción individual durante una sesión de transcripción. El número de interacción, el nombre y la descripción de la transcripción son campos que rastrea el registro.