
¿Cómo tomar buenas decisiones cuando faltan datos?, un equipo de investigación de cinco universidades españolas, entre ellas la de León, ha desarrollado una nueva metodología estadística que permite seleccionar variables relevantes incluso cuando la información está incompleta. El estudio ha sido publicado en Bayesian Analysis, una de las revistas más prestigiosas del área.
El trabajo, en el que ha participado la profesora de la ULE, Alicia Quirós, se titula ‘Model Uncertainty and Missing Data: An Objective Bayesian Perspective’, en él se aborda de forma rigurosa y novedosa el problema de cuantificar la incertidumbre que se tiene sobre los modelos estadísticos utilizados para representar la realidad, contemplando la posibilidad de que haya datos con valores faltantes, una situación muy común en estudios científicos y análisis de datos reales.
Frente a las estrategias habituales que implican la desestimación de datos con valores faltantes o que utilizan métodos de selección de variables que arrojan resultados con falsos positivos, los autores proponen una metodología bayesiana objetiva que integra directamente la incertidumbre sobre los datos faltantes en el proceso de inferencia. Esta aproximación mejora la robustez de los modelos, evita errores comunes en la selección de variables y permite obtener resultados más fiables, incluso cuando los conjuntos de datos contienen grandes proporciones de valores perdidos.
El artículo se encuentra actualmente entre los más leídos de la revista y ha sido seleccionado para discusión pública por expertos, una distinción reservada a los trabajos más relevantes, según el editor jefe.
Al final del artículo, los autores ilustran, a través de estudios de simulación, el funcionamiento de la propuesta para así poder compararla con algunas alternativas y muestran que su método iguala o mejora otros procedimientos existentes, especialmente cuando el porcentaje de datos faltantes es elevado o existe una fuerte correlación entre las variables consideradas.
Un método que resulta útil en todas las áreas en las que los datos estén incompletos (ya sea por errores, fallos en la recogida o pérdidas) y se requiera tomar decisiones sobre modelos estadísticos como, por ejemplo, en medicina, estudios sociales, economía o ciencias ambientales. Un tratamiento correcto de la incertidumbre, tanto del modelo como de los datos faltantes, mejora la fiabilidad de las inferencias y predicciones.
Este trabajo ha sido realizado por Gonzalo García-Donato (Universidad de Castilla-La Mancha), María Eugenia Castellanos († 2025, Universidad Rey Juan Carlos), Stefano Cabras (Universidad Carlos III de Madrid), Alicia Quirós (Universidad de León) y Anabel Forte (Universitat de València) y financiado por el Ministerio de Ciencia, Innovación y Universidades y la Agencia Española de Investigación, a través de las ayudas a proyectos de Generación de Conocimiento. Los autores dedican “con cariño y admiración” el artículo a María Eugenia Castellanos, “cuya labor científica y calidad humana dejaron una profunda huella en el equipo”.