Be My Eyes, Ask Envision, Timlogo, Voiceitt... así puede ayudar la inteligencia artificial a mejorar la accesibilidad

Ilustración de un robot con código de programación.

Asistentes personales como Siri o Alexa permiten encender la tele o apagar la luz con sólo pedirlo. Sin embargo, tienen problemas para entender a una persona con dificultad del habla. Lo mismo pasa con las aplicaciones que permiten escanear texto pero que no lo leen en voz alta, algo indispensable para alguien con discapacidad visual.

La inteligencia artificial puede ser un apoyo para superar estas barreras, como programas entrenados para procesar todo tipo de discursos e inflexiones de la voz o gafas inteligentes que pueden describir nuestro entorno.

Algunos usos de la inteligencia artificial de los últimos años se centran en la generación de imágenes y vídeos a partir de instrucciones de texto, los conocidos como 'prompts'. Pero hay aplicaciones que permiten hacer el proceso inverso: subir una fotografía o grabar un vídeo y que una inteligencia artificial describa los elementos que aparecen en la imagen.

Es el caso de Be My Eyes, una aplicación que desde agosto de 2023 ha incorporado esta tecnología para describir imágenes a usuarios con discapacidad visual. Hasta ahora había que esperar a contactar con un voluntario a través de esta plataforma para recibir este tipo de asistencia, pero a través de la inteligencia artificial es más sencillo.

Artificial intelligence robot touching futuristic data screen.

Inteligencia artificial, ¿enemiga o aliada de la inclusión de las personas con discapacidad?

El modelo de lenguaje GPT-4, la misma tecnología que emplea ChatGPT, permite solicitar este apoyo a una inteligencia artificial y pedir ayuda a la hora de buscar objetos caídos, leer etiquetas o guiarnos a través de un lugar. Be My Eyes está disponible en la Play Store y en la App Store.

Ask Envision es otro proyecto que utiliza la tecnología de ChatGPT para dar nuevas herramientas a las personas con problemas de visión. En lugar de una aplicación móvil, Ask Envision hace uso de las gafas Envision: unas gafas con conexión a internet basadas en la tecnología de Google Glass que permite tomar imágenes de nuestros alrededores y hacernos una descripción de los elementos que nos rodean.

Por ejemplo, es posible escanear el menú de un restaurante y que lea la carta completa o preguntarle al asistente qué opciones vegetarianas existen. Las gafas Envision están disponibles desde 1.899 euros en su versión más básica.

La inteligencia artificial tiene su hueco en el mundo del sonido y el habla. Al igual que aplicaciones como Google Translate, que permite traducir cualquier conversación en tiempo real (una herramienta útil para preguntar direcciones en otros idiomas si viajamos), Google Live Transcript (disponible en la Play Store) realiza una transcripción en tiempo real de las conversaciones alrededor y avisa de sonidos como el ladrido de un perro o el timbre de una puerta.

Una mujer joven se hace un selfie en su casa

BegIA, la aplicación móvil concebida en España que pretende, con un selfie, prevenir millones de cegueras en el mundo

Estas herramientas de traducción también se pueden usar en las lenguas de signos. Ese es el proyecto de Priyanjali Gupta, una estudiante de ingeniería en el Instituto de Tecnología Vellore, en India, que ha desarrollado una inteligencia artificial capaz de traducir en tiempo real la lengua de signos estadounidense (ALS, por sus siglas en inglés, usada en en Estados Unidos, Canadá y México) al inglés escrito.

La inteligencia artificial se puede usar como apoyo para desarrollar diferentes competencias o como un recurso terapéutico para los niños con dificultad del habla, como Timlogo. Es una plataforma online (sólo disponible en rumano) desarrollada por la compañía rumana Ascendia que ofrece juegos destinados a pacientes menores de edad y es capaz de analizar la pronunciación de los niños para detectar problemas específicos en su discurso y ofrecer ejercicios personalizados a través de esta tecnología.

Las personas con discapacidad auditiva pueden presentar problemas en el habla y que esto dificulte la comunicación oral con otras personas. Aunque existen herramientas capaces de convertir el texto escrito a voz (un proceso conocido como 'text-to-speech'), este tipo de sistemas no son del todo fluidos a la hora de mantener una conversación.

Para tratar de solucionar este problema, Google ha desarrollado Parrotron: una inteligencia artificial capaz de reconocer el discurso de una persona con dificultades para el habla y hacer que una voz sintética (aquella generada por ordenador y que es capaz de imitar nuestra forma de hablar) repita cada frase con una cadencia y prosodia consistente, aunque por el momento se encuentra en fase de investigación.

Las personas con discapacidad reclaman aplicaciones móviles de empleo, música o viajes que sean accesibles

Los problemas en el habla pueden dificultar el uso de otra tecnología como los asistentes de voz, como Siri, Alexa o el Asistente de Google, que pueden ser útiles para personas con determinados tipos de discapacidad ya que nos permiten llamar a nuestros contactos, escuchar un podcast o encender las luces de una habitación con sólo un comando de voz.

Aunque estos sistemas están entrenados con cientos de grabaciones de voz para aprender a reconocer instrucciones orales, no están preparados para comprender el discurso de alguien que tenga dificultades para hablar. Pero poco a poco van surgiendo alternativas como Voiceitt: un modelo de inteligencia artificial centrado en usuarios con dificultad del habla y que se puede implementar en asistentes de voz como Alexa o emplear para generar transcripciones en reuniones online en plataformas como Webex. Voiceitt está disponible en español a través de una suscripción mensual de 50 dólares en su plataforma web.

Hay casos en los que una persona puede haber perdido la capacidad de habla de forma permanente, como los pacientes de Esclerosis Lateral Amiotrófica (ELA). Aunque los sistemas de conversión de texto a voz pueden facilitar la comunicación a quiénes ya no conservan el habla, estas herramientas se valen de voces sintéticas que pueden resultar impersonales y artificiales.

Gracias a la inteligencia artificial y a las voces clonadas (aquellas voces que imitan el habla, el timbre y la prosodia de una persona en concreto) se pueden sistemas de conversión de texto a voz personalizados que ayudan a los pacientes a mantener su identidad y mejorar su calidad de vida. Fue el caso del padre de Álvaro Medina, periodista en Prodigioso Volcán, que en colaboración con ahoLab pudo conservar su voz después de grabar diferentes muestras de su voz con un micrófono y crear un modelo acústico de la misma, una función que ya se encuentra disponible en dispositivos Apple.