Karen Alfonso Sagué, Isabel Barroso, Mayilée Cañizares Pérez
Objetivo: Ilustrar los procedimientos para el manejo de datos incompletos en las investigaciones sanitarias.
Métodos: Se discuten dos estrategias para el manejo de los datos incompletos: a) análisis de casos completos, y b) imputaciones, que incluye asignar la media al valor ausente, predecir el valor ausente mediante modelos de regresión e imputaciones múltiples. Para ilustrar estos procedimientos, se elabora un ejemplo en el contexto de la regresión logística con datos procedentes de la «Segunda encuesta nacional de factores de riesgo y afecciones crónicas no trasmisibles», realizada en Cuba en el año 2001.
Resultados: Al imputar por las medias y por modelos de regresión, los resultados fueron similares y se obtuvo una odds ratio (OR) sobrestimada por encima del 10%. El análisis de casos completos obtuvo los resultados más alejados de las estimaciones de las OR de referencia, con una diferencia del 2 hasta el 65% de variación. Los 3 métodos invirtieron la relación entre la edad y la hipertensión. Las imputaciones múltiples fueron el método que proveyó las estimaciones más cercanas a las de referencia, con una variación menor al 16%. Éste fue el único procedimiento que preservó la relación entre la edad y la hipertensión.
Conclusiones: La elección de los procedimientos para el manejo de datos incompletos resulta una tarea compleja, pues en determinadas situaciones un mismo procedimiento puede producir estimaciones precisas y en otras no. El análisis de los datos completos debe realizarse con cautela por la pérdida sustancial de información que se genera. Las imputaciones por medias y modelos de regresión producen estimaciones poco fiables bajo mecanismos MAR (missing at random).