Logo ETSIT
Escuela Técnica Superior de Ingenieros de Telecomunicación

UNIVERSIDAD POLITÉCNICA DE MADRID

Logo UPM
01.02.13 13:11 Antiguedad: 2 yrs
El Grupo de Tecnología del Habla gana la competición de reconocimiento de idioma Albayzin 2012

El objetivo de la competición era proponer un reto a grupos internacionales de investigación con el fin de poner a prueba sus algoritmos de reconocimiento de idioma, y en la cual finalmente participaron un total de 7 grupos de investigación de los siguientes países: España (3), Portugal (1), Francia (1) y China (2).

Ricardo de Córdoba y Luis Fernando D’Haro reciben su premio como vencedores de la competición ALBAYZIN 2012.

Figura con los resultados del GTH en la competición para las dos condiciones. Se debe considerar que a menor error mejor es el sistema.

Los integrantes del Grupo de Tecnología del Habla en su laboratorio de la ETSI de Telecomunicación.

Los profesores de la ETSI de Telecomunicación de la Universidad Politécnica de Madrid, Ricardo de Córdoba y Luis Fernando D’Haro, representando al Grupo de Tecnología del Habla, han sido los vencedores de la competición internacional de reconocimiento de idioma ALBAYZIN 2012 organizada por la Red Temática de Tecnologías del Habla, dentro de las actividades del congreso internacional IberSpeech 2012.

Entrando en los detalles de la competición, los organizadores propusieron como dominio de aplicación la utilización de fragmentos de audio extraídos de vídeos descargados desde un conocido portal de Internet. El objetivo era simular una aplicación real, en la que el resultado del sistema de reconocimiento de audio se utilizaría para la indexación de contenidos multimedia en Internet o traducción automática. Así mismo, se incluyeron archivos muy heterogéneos en cuanto a duración, condiciones de ruido y de canal, número de hablantes, música de fondo, etc. Finalmente, y como restricción general, los participantes sólo podían usar los ficheros de audio proporcionados por los organizadores.

En la evaluación se plantearon las siguientes dos situaciones: Plenty y Empty. Plenty era una condición en la que se proporcionaban datos de entrenamiento y desarrollo para los sistemas, y en las que se debían reconocer los siguientes idiomas: español, catalán, vasco, gallego, portugués e inglés.

Por otro lado, Empty, situación en la que sólo se proporcionaba un pequeño conjunto de datos de desarrollo.Esta condición estaba pensada para los casos en que hay que reconocer idiomas de uso reducido o para los cuales hay pocos datos. Aquí el objetivo era diseñar algoritmos robustos, para reconocer los siguientes idiomas: francés, alemán, griego e italiano.

Para ambas condiciones se planteaba también la posibilidad de reconocer que el fragmento de audio perteneciera a los idiomas propuestos (closed) ó a un idioma distinto a los inicialmente planteados (open).

Los resultados finales dieron como ganador al GTH para la condición primaria o fundamental de la evaluación que era la plenty-closed, al igual que para la condición plenty-open.

El GTH y el reconocimiento de voz

Hoy, como nunca antes en la historia, vivimos en lo que llamamos “Aldea Global”. Los recientes avances en dispositivos móviles, redes sociales o televisión por cable han acelerado la forma en la que nos comunicamos y accedemos a la información disponible en la web. Sin embargo, estos avances han generado una nueva serie de retos tecnológicos importantes entre los que podemos destacar la necesidad de disponer de sistemas de identificación automática de idiomas y de locutor, el reconocimiento de voz y la traducción automática.

Así por ejemplo, si nos encontramos con un vídeo en la red en el que las personas hablan en otro idioma y deseamos poder verlo con subtítulos en español, se hace necesario unir todas estas tecnologías de forma rápida, precisa y con un mínimo de errores para que pueda ser utilizada en un sistema real. En este sentido, es importante resaltar la importancia de todos los componentes, pero muy especialmente la del módulo de identificación de idioma, ya que un fallo suyo provocaría el fallo de todos los módulos posteriores y por ende del servicio.

Durante más de 30 años, el Grupo de Tecnología del Habla (GTH) de la Escuela Técnica Superior de Ingenieros de Telecomunicación de la Universidad Politécnica de Madrid ha trabajado en diferentes áreas del procesamiento de la voz, incluido el reconocimiento del habla, en el que ha podido contribuir con importantes avances y desarrollos tecnológicos proponiendo técnicas innovadoras que permiten reducir los problemas mencionados antes y mejorar los servicios actuales.

 

 


Archivo de noticias, actos y conferencias

Selección por fechas:
Escuela Técnica Superior de Ingenieros de Telecomunicación. Universidad Politécnica de Madrid.
Avenida Complutense nº 30, "Ciudad Universitaria". 28040 - Madrid (España). Tel: +34 91 549 57 00. Fax: +34 91 543 96 52