Desde hace años, el crecimiento de los Sistemas de Reconocimiento de voz ha ido en aumento. Primero se utilizaban voces pregrabadas para aplicaciones telefónicas automáticas con opciones en menús. Opciones que se habilitaban, en los inicios, pulsando los botones del terminal y, finalmente, articulando palabras del menú de voz.

mediante órdenes de voz; independientemente del locutor, lo que permite el entrenamiento previo del sistema incrementando la precisión en el reconocimiento, puesto que el usuario puede corregir el error cuando éste se produce. Así pues, el sistema se autoalimenta y cuanto más se emplea mejora en su eficiencia.

Las fuentes de información acústica, fonética, fonológica y léxica, con los correspondientes procedimientos interpretativos, dan lugar a un módulo conocido como decodificador acústico-fonético. La señal vocal de entrada es convenientemente representada; para ello, se la somete a un proceso previo de parametrización donde se determinan las características acústicas representativas de dicha señal. En esta etapa previa es necesario asumir algún modelo físico: auditivo o articulatorio. Una vez detectadas se etiquetan las unidades acústicas generándose cadenas de fonemas que se mapean con un vocabulario conocido para pasar a una estrategia de reconocimiento en función de las restricciones impuestas alreconocedor. Esta técnica requiere de un gran conocimiento acústico de las unidades fonéticas. Tanto el conjunto de características, que se eligen por intuición, como el diseñode clasificadores, hoy por hoy, no es óptimo; por lo que nos inclinaremos por técnicas basadas en la comparación de patrones.


a. Software comercial para ordenadores personales:
Dragon Naturally Speaking de Nuance
Philips FreeSpeech
Protitle Live from NINSIGHT
Via Voice de IBM
Soluciones Loquendo
Voice Pro 11 de Linguatec
b. Sistemas telefónicos:
Nuance 8.5
Telefónica: Software vocal de Telefónica
Telisma (teliSpeech)
c. Software libre para ordenadores personales:
CVoiceControl: se graba la orden como entrenamiento.
PerlBox: sin entrenamiento, pero en inglés.
Sphinx, del Sphinx Group en Carnegie Mellon University
Open Mind Speech, antiguamente FreeSpeech
Sistemas de reconocimiento de voz que hacen uso distintas firmas de instalaciones de domótica destacando las soluciones de: Fagor, Proinssa, Personica, Indistsys y Easy Life.
Entrando en las técnicas de captura y transmisión de la voz para aplicaciones de reconocimiento de voz aplicadas al Hogar Digital se comprueba que unos valores óptimos pueden ser: *Ancho de banda señal de voz: 8.000 Hz. *Filtrado mediante paso banda con frecuencias de corte de 100Hz y 8.000Hz. *Frecuencia de muestreo: 16 KHz *Codificación: 10 bits *Bit rate mínimo que debe asegurar el BUS: 1,6 Mbit/s
muy buen articulo me gusot mcuho mi mail es bexthorx2@gmail.com saludos mcuho exito !!!
ResponderEliminar