Desarrollan en la UNAM orejas para robots

Mejoran en el IIMAS un sistema de audición robótica que emula la forma de escuchar del ser humano.

Caleb Rascón, científico de la UNAM y elegido en 2014 por MIT Technology Review como uno de los 10 innovadores mexicanos menores de 35 años, desarrolla orejas robóticas para que algún día los robots interactúen de manera natural con nosotros.

En el Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas (IIMAS), el doctor Rascón creó un módulo de audio para simular el acto de escucha humano.

Su módulo de audio no solo está al nivel de los sistemas de audición robótica de vanguardia del mundo, sino que tiene la ventaja de haber superado una regla no escrita de la audición computacional.

“Entre más micrófonos, mejor desempeño”. Eso dice la regla. Más micrófonos permiten reducir el error en la localización de fuentes sonoras y hacen más precisa su clasificación. Filtran también mejor el ruido y otras interferencias.

Actualmente para que un robot de servicio puede localizar más de dos fuentes sonoras y entablar conversaciones, debe tener una falda de entre ocho a 10 micrófonos.

Lo que puso a la UNAM en el mapa mundial de la audición robótica y el análisis de escenas auditivas, fue que el investigador del IIMAS redujo las orejas del robot de ocho a tres micrófonos para la localización, separación e identificación de fuentes sonoras.

Con ocho micrófonos, “algorítmicamente hablando”, se tiene un balance para un buen desempeño, pero aún insuficiente para tener una localización, separación y identificación en línea.

Por la cantidad de informacion para procesar, se requieren algoritmos rápidos: “que cuando yo hable, el robot me localice, clasifique y responda rápido”. Todo eso lo más cercano a tiempo real, apunta Rascón.

Con tres o cuatro micrófonos y con menos recursos (redes neuronales más pequeña) el sistema de audición robótica hecho en la UNAM no le gana al de ocho, pero “estamos suficientemente cercanos a su desempeño”.

Rascón y colaboradores han desarrollado un software o algoritmos que permiten que su sistema (acoplado a Golem del IIMAS, a Lisa de la Universidad Koblenz-Landau en Alemania y a otros robots) con tres micrófonos puedan localizar más de cuatro fuentes sonoras.

Con el software de audio recauda información auditiva de un arreglo de micrófonos montados directamente sobre el robot. En conjunto, todo funciona como un sistema auditivo. “Literalmente estoy construyendo orejas a robots”.

Falta aún robustez

La audición robótica tiene aplicación no solo en robots de servicio, sino también es o puede ser de gran utilidad en otros escenarios auditivos. Casas inteligentes, teléfonos móviles o en el censo poblaciones y especies de animales para determinar la salud de ecosistemas, así como en el rescate de personas atrapadas en edificios colapsados por un sismo.

Todo aquello con lo que interactúa el ser humano por medio de la voz, estaría beneficiado por los aportes de la audición robótica, apunta Rascón, quien realiza análisis de escenas auditas y sus aplicaciones, como la audición robótica.

Sin embargo, los sistemas de audición robótica aún no son suficientemente robustos. Un robot de servicio con orejas para la escucha humana, todavía no tienen la capacidad para discernir entre el habla normal y un grito de emergencia.Tampoco entre un grito de dolor por una caída y otro de emoción por estar viendo el futbol en la televisión.

Hay robots que pueden reconocer una voz, pero en un escenario con más voces, ruido y otras interferencias (reverberaciones, por ejemplo), es más complicado que reconozcan quienes hablan.

Hay grupos que trabaja mucho la visión robótica, pero dotar a los robots de servicio de una capacidad de escucha lo más parecida a la humana, “elevaría su robustez” para la interacción en un ambiente domestico.

Desafortunadamente, todavía estamos lejos de que los robots repliquen la compleja capacidad de escucha humana. Hasta ahora, lo qué hay en el mercado (Google Home para casas inteligentes y Alexa Amazon para reconocimiento de voz) aunque ya muy desarrollado, a Rascón le parece aún “de juguete”.

Hay aplicaciones para casas inteligentes y componentes de reconocimiento de voz muy desarrollados, como Alexa de Amazon y Siri de Apple, que localizan una fuente sonora y luego hacen “un poquito de separación y filtrado”, pero aun falta para que la interacción sea lo mas natural a lo humano.

Trabajos actuales

Rascón y su grupo logró también “darle la vuelta” a la regla de que con tres micrófonos se pueden localizar dos fuentes sonoras y con cuatro, tres.

Su sistema funciona muy bien cuando las fuentes sonoras no se mueven. Puede detectar a más de cuatro. Pero cuando se mueven, solo localiza a dos fuentes.

Por eso uno de sus alumnos de maestría refina el algoritmo. Hizo algunas modificaciones inteligentes, y el sistema ya puede detectar con tres micrófonos, en vez de dos, más de cuatro fuentes en movimiento al mismo tempo.

“Le estamos ganando a un algoritmo que sería como el de vanguardia. Ya que con tres micrófonos tenemos mejor desempeño que ellos, con ocho en un escenario real”.

También el grupo de Rascón trabaja con un sistema de separación de fuentes. Con un arreglo de red neuronal chiquito, el 10% de lo que usan otros sistemas, aunque no llegan a su mismo nivel de desempeño de separación de fuentes sonoras, sí alcanzan el 90% de su registro computacional.

Otro miembro de su grupo trabaja en la clasificación de fuentes sonoras para poder identificar quién es el hablante. Este sistema no requiere reentrenarse, como sí los actuales identificadores de locutor, asegura Rascón.

Los sistemas de identificación, explica el investigador del IIMAS, están entrenados para reconocer, por ejemplo, a María, Carlos y Jorge. Así que si llega Susana y habla, el sistema no funciona, porque no fue entrenado para identificarla. Hay que re-entrenarlo y eso puede llevar minutos, días o hasta semanas.

Nuestro sistema “va aprendiendo a lo largo del tiempo”. Si no reconoce una fuente sonora: primero dice que no sabe y luego pregunta a la persona como se llama. Y en adelante va a poder reconocerla, propiciando una interacción humana-robot más hábil, más natural y más dinámica.

A nuestro sistema se le enseñó no a reconocer a tres o cuatro personas, sino a identificar comparando fuentes sonoras. Si escucha a Susana, compara con los otros tres y aprende que no es ninguno de ellos. “Esa forma de identificación o verificación genérica es la que estamos proponiendo”.

El sistema consiste en tres micrófonos con una interface conectada a una computadora, que hace todo el proceso de localización, separación e identificación de fuentes sonoras.

Los gran mayoría de robots traen una computadora interna con puertos de conexión, a los que se conectaría eventualmente la interfaz con los micrófonos desarrollada por Rascón.

Una telaraña caótica

¿Qué sigue? Caleb Rascón aún no está satisfecho con lo obtenido y por eso “le tira” a mejorar el desempeño en los ámbitos de localización, separación e identificación, manteniendo el uso mínimo de recursos.

Considera que “estamos sobre-simplificando la manera en que el humano escucha para que los robots escuchen”. Porque el acto de escucha humana es más que una serie de fases: primero localización, luego separación y después identificación de fuentes sonoras.

Esa modularización en fases no es como el ser humano escucha. Su proceso de audición es más complejo. Es como una telaraña con mucha información y retroalimentación. “Si uno lo viera parecería caótico”.

Y eso, lo que realmente es la escucha humana, es lo que Caleb Rascón seguirá tratando de emular para proponer nuevas técnicas y nuevos paradigmas de audición robótica.

Aclara, sin embargo, que aún hay mucho trecho entre academia e industria para brincar al mercado y poder entregar soluciones en audición robótica para beneficio social.

También podría gustarte