Ney Michel Lituma Villamar
Objetivo. Evaluar el rendimiento e interpretabilidad de clasificadores de redes bayesianas para la detección temprana de diabetes. Métodos. Se realizó un estudio de validación de modelos de aprendizaje automático (machine learning) aplicado al campo de la salud, enfocado en la evaluación de rendimiento y explicabilidad de algoritmos sobre un conjunto de datos categóricos y preprocesado. Específicamente, fueron entrenados y aplicados: Naive Bayes, Tree Augmented Naive-Chow-Liu (TAN–Chow-Liu), Tree Augmented Naive-Hill Climbing with Super Parents (TAN–HCSP), Fast Super-Parent Search with Joint Mutual Information (FSSJ) y K-Dependence Bayesian Classifier (KDB), sobre 100 000 registros preprocesados (filtrados por su relevancia causal y discretización de variables) utilizando bnlearn y bnclassify. La partición fue 75/25 (entrenamiento/prueba) y fueron estimadas exactitud, sensibilidad, especificidad y F1; además, fueron analizadas las estructuras aprendidas frente a la evidencia clínica. Resultados. Todos los modelos alcanzaron exactitud >= 0,95 y F1 > 0,94. El FSSJ mostró el mejor desempeño (exactitud 0,97; especificidad 1,00), mientras que Naive Bayes y KDB lograron métricas similares con menor costo computacional. Las redes aprendidas reprodujeron asociaciones conocidas entre el índice de masa corporal (IMC), hipertensión, HbA1c y glucosa, e identificaron cadenas indirectas (por ejemplo, la edad influye en el IMC; este, a su vez, influye en la glucosa y finalmente en la diabetes), reforzando su plausibilidad clínica. Conclusiones. Las redes bayesianas proporcionan predicciones transparentes y de alta calidad para el riesgo de diabetes. Las arquitecturas básicas pueden igualar a variantes más complejas cuando el preprocesamiento es riguroso. Las rutas causales resaltan factores modificables (sobrepeso, presión arterial elevada) como objetivos prioritarios para intervenciones preventivas.
Objective: To evaluate the performance and interpretability of Bayesian network classifiers for the early detection of diabetes. Methods: A model validation study of machine learning applied to healthcare was conducted, focusing on performance assessment and explainability of algorithms on a categorical and preprocessed dataset. Specifically, the following classifiers were trained and applied: Naive Bayes, Tree Augmented Naive–Chow-Liu (TAN–Chow-Liu), Tree Augmented Naive–Hill Climbing with Super Parents (TAN–HCSP), Fast Super-Parent Search with Joint Mutual Information (FSSJ), and the K-Dependence Bayesian Classifier (KDB). Models were tested on 100,000 preprocessed records (filtered by causal relevance and variable discretization) using bnlearn and bnclassify. Data were partitioned 75/25 (training/testing), and accuracy, sensitivity, specificity, and F1 score were estimated. In addition, the learned structures were analyzed against clinical evidence. Results: All models achieved accuracy >= 0.95 and F1 score > 0.94. FSSJ showed the best performance (accuracy 0.97; specificity 1.00), while Naive Bayes and KDB achieved comparable metrics with lower computational cost. The learned networks reproduced known associations among body mass index (BMI), hypertension, HbA1c, and glucose, and identified indirect chains (e.g., age influencing BMI, BMI influencing glucose, and glucose influencing diabetes), reinforcing their clinical plausibility. Conclusions: Bayesian networks provide transparent, high-quality predictions for diabetes risk. Basic architectures can perform on par with more complex variants when preprocessing is rigorous. The causal pathways highlight modifiable factors (overweight, elevated blood pressure) as priority targets for preventive interventions.