Investigadores de la UCO mejoran modelos de predicción de variables reduciendo el número de datos necesario

  • Investigadores del grupo 'KIDS' del Departamento de Informática y Análisis Numérico de la Universidad de Córdoba (UCO) han conseguido mejorar los modelos que predicen varias variables simultáneamente a partir de un mismo conjunto de variables de entrada, reduciendo el tamaño de datos necesario para que el pronóstico se realice de forma precisa.

Así lo ha indicado la institución universitaria en una nota en la que ha detallado que ejemplo de ello sería un método que predice varios parámetros relacionados con la calidad del suelo a partir de un conjunto de variables como los cultivos plantados, la labranza o el uso de pesticidas.

"Cuando manejas volúmenes grandes de datos hay dos soluciones, o añadir más potencia a las computadoras, lo cual es más costoso, o reducir la información necesaria para que el proceso se realice de forma adecuada", ha destacado Sebastián Ventura, uno de los autores de la investigación.

A la hora de construir un modelo predictivo hay dos problemas que necesitan ser abordados: el número de variables que entra en juego y el número de ejemplos que se introduce al sistema para que sea fiable. Con la filosofía de que menos es más, el estudio ha conseguido reducir el número de ejemplos, eliminando aquellos redundantes y ruidosos y que, por tanto, no aportan información valiosa para la construcción de un mejor modelo predictivo.

Según ha subrayado el principal autor de la investigación, Óscar Reyes, "hemos desarrollado una técnica que te dice con cuál subconjunto de ejemplos te tienes que quedar para que la predicción siga siendo fiable e incluso mejore". En algunas bases de datos, de las 18 que han analizado, han llegado a reducir la información hasta un 80 por ciento sin que ello afecte al rendimiento predictivo, lo que supone dejar en menos de la mitad lo datos originales.

Todo ello, ha apuntado Reyes, "significa un ahorro de energía y dinero en la construcción del modelo, ya que necesitas máquinas menos potentes". Además, también supone un ahorro de tiempo, lo cual es interesante en aplicaciones que trabajan a tiempo real, ya que "no tiene sentido que el modelo tarde en ejecutarse media hora si necesitas una predicción cada cinco minutos".

Según han resaltado los autores de la investigación, estos sistemas que predicen varias variables simultáneamente (que pueden tener relación entre sí), a partir de varias variables -conocidos como modelos de regresión multisalida- están adquiriendo una importancia notoria debido a la gran

gama de aplicaciones que "podrían ser analizadas bajo este paradigma de aprendizaje automático", como, por ejemplo, aquellas relacionadas con la sanidad, calidad del agua, la refrigeración de edificios o estudios ecológicos.

Mostrar comentarios

Códigos Descuento