Portal de Eventos, Congreso Colombiano y Conferencia Internacional de Calidad del Aire y Salud Pública

Tamaño de la fuente: 
Imputación de datos perdidos en series de contaminantes atmosféricos insumo para la vigilancia en salud ambiental
Sara Catalina Grisales Vargas, Dorian Ospina Galeano, Fernán Villa Garzón, Hugo Grisales Romero, Emmanuel Nieto López, Juan Gabriel Piñeros, Ruth Marina Agudelo Cadavid

Última modificación: 17/06/2019

Resumen


Durante el funcionamiento de las redes de monitoreo de calidad del aire, es común observar porcentajes significativos de datos perdidos en las series de datos de mediciones de concentración de contaminantes, los cuales pueden llegar a exceder el 10% de los registros esperados. Para explorar la asociación entre contaminantes atmosféricos y variaciones en la frecuencia de aparición de eventos en salud, es conveniente contar con series de datos de contaminantes ambientales completas, con el fin de evitar la introducción de sesgos en los resultados. Una estrategia útil para obtener series de datos completas es la aplicación de métodos de imputación de datos perdidos. En este trabajo, se compara el desempeño de dos técnicas de imputación en series de datos de material particulado: Imputación múltiple y Redes neuronales. Se utilizaron datos de dos estaciones de la Red de Monitoreo de Calidad del Aire del Valle de Aburrá, Antioquia. En general, las técnicas aplicadas presentaron un buen ajuste, donde los resultados observados al aplicar cada método en situaciones de presencia o ausencia de datos meteorológicos (o variables predictoras) fueron diferenciales. En situaciones donde no se tiene acceso a datos de variables predictoras y existen porcentajes de datos perdidos superiores al 25%, la técnica de Redes neuronales presentó mejor desempeño. La presencia de valores perdidos en las variables predictoras, utilizadas en el método de imputación múltiple, limita el desempeño del mismo al generar datos poco representativos de la varianza de la serie, en contraste con escenarios donde los porcentajes de datos perdidos en variables predictoras es mínimo.