Microsoft Teams eliminará el ruido de fondo de las videollamadas gracias al aprendizaje automático

Las videollamadas en Teams crecieron más de un 1.000% en marzo.
Las videollamadas en Teams crecieron más de un 1.000% en marzo.
Microsoft
Las videollamadas en Teams crecieron más de un 1.000% en marzo.

Con el mundo entero teletrabajando o estudiando desde casa, las herramientas de videoconferencia se han vuelto indispensables. Varias se han popularizado mucho y una de ellas es Microsoft Teams: según la compañía, a principios de marzo el número de minutos en reuniones de la plataforma era de 560 millones al día, el día 31 de ese mes se contabilizaban en 2.700 millones.

Las videollamadas en Teams crecieron más de un 1.000% el mes pasado en general. En particular, en España, la gente usa vídeo en las reuniones un 49% de las veces. Con estos datos, obviamente, lo que queremos es que a nivel técnico la llamada vaya lo mejor posible.

En ese mismo comunicado en el que el vicepresidente corporativo de Microsoft, Jared Spataro, hablaba del crecimiento de la plataforma, prometía también que la compañía estaba trabajando para implementar un sistema de supresión de ruido en tiempo real que utiliza inteligencia artificial -IA- para reducir el ruido de fondo que distrae en las reuniones de Teams, como escribir en un teclado o un perro ladrando.

¿Cómo funciona?

Venture Beat ha hablado con el jefe de programación de Teams, Robert Aichner, para saber cómo funcionaría este sistema, que se apoya tanto en el aprendizaje automático como en la IA.

Si bien la supresión de ruido ya se aplica en este tipo de plataformas, se trata de una supresión de ruido que cubre el ruido estacionario, como el ventilador de un ordenador o el aire acondicionado, que se ejecuta en un segundo plano. “El método tradicional de supresión de ese ruido es buscar pausas en el habla, estimar la línea de base del ruido, asumir que el ruido de fondo continuo no cambia con el tiempo y filtrarlo”, explica. Se trata de un ruido ‘fácil de identificar’ ya que es constante.

En el futuro, Microsoft Teams lo que suprimirá son los ruidos no estacionarios, como un perro ladrando, una bolsa de patatas abriéndose o alguien cerrando una puerta. Identificar este tipo de sonidos requiere un entrenamiento.

Los ruidos no estacionarios normalmente se superponen con la voz y, en ese caso, no se puede distinguir qué es ruido y qué es habla. Así que, explica Aichner, hay que entrenar a una red neuronal de antemano sobre cuál es cuál.

Según el programador, el mecanismo sería parecido al que se usa para el aprendizaje en sistemas de reconocimiento de voz, pero en vez de etiquetar palabras se etiqueta ruido o ‘habla limpia’.

“Usamos miles de ‘discursos limpios’ y más de cien tipos de ruido”, comenta. Al sistema le dan el ‘discurso limpio’ como la verdad fundamental y luego lo mezclan con ruidos. Una vez mezclado, le piden que “extraiga la señal limpia” y le enseñan que “así es como debería oírse”. Así es como entrenas redes neuronales en aprendizaje supervisado.

¿Así de fácil?

Visto así, parece que se trata de algo muy sencillo de hacer. Sin embargo, representa varios retos. El primero de todos es que lo que pretende implementar Microsoft es un sistema que funciona en tiempo real. Además, hay que establecer conjuntos de datos representativos, es decir, archivos de sonido que ejemplifiquen lo que sucede en una llamada típica.

Por otro lado, está el importante asunto de la privacidad: el equipo de Aichner no puede ver los datos de ningún cliente ni, por supuesto, grabar reuniones, por lo que no puede usar ese tipo de información en el aprendizaje continuo que necesitaría la herramienta.

Otro de los desafíos es descubrir cómo construir la red neuronal, cuál debería ser la arquitectura del modelo e iterar. Aichner confia en Azure, sin embargo, incluso con todo ese cálculo, entrenar un modelo grande con un conjunto de datos grande podría llevar varios días. “No se puede enviar a la nube, esperar a que se genere la supresión de ruido y devolverlo”, dice el programador.

Para el reconocimiento de voz, aprovechar la nube puede tener sentido. Para la supresión de ruido en tiempo real, no.

Estos, entre otros, son algunos de los problemas a los que se enfrenta el sistema.

Mostrar comentarios

Códigos Descuento