Las enfermedades cardiovasculares (ECV) representan una carga significativa para la salud pública en todo el mundo.
La detección temprana y precisa de estas patologías es crucial para mejorar los resultados clínicos y reducir la morbimortalidad asociada. En este contexto, los modelos de clasificación supervisados han demostrado ser herramientas valiosas para predecir y diagnosticar enfermedades cardiovasculares.
Este proyecto tiene como objetivo optimizar un modelo de clasificación de enfermedades cardiovasculares utilizando técnicas de aprendizaje supervisado. El enfoque se centra en la clasificación de diferentes factores de riesgo que típicamente se han relacionado con el desarrollo de ECV. Para ello se estudiará una base de datos que contiene 253.680 respuestas a la encuesta del BRFSS 2015 (Encuesta de Factores de Riesgo del Sistema de Vigilancia de Factores de Riesgo Conductuales) que previamente se han depurado para un mejor uso de estos.
El desarrollo de este proyecto se basa en investigar hasta qué punto estas respuestas se pueden utilizar para predecir el riesgo de enfermedad cardiaca y si es posible desarrollar un modelo para detectar de manera precoz estas enfermedades.
Modelo de clasificación de enfermedades cardiovasculares utilizando técnicas de aprendizaje supervisado
Por Pedro Jonay Márquez González
Alumno de la 4ª edición del Máster en Big Data Sanitario. Análisis clínicos en Hospital Universitario de Gran Canaria Doctor Negrín
El estado del arte en la aplicación de la Inteligencia Artificial (IA) y Big Data en el campo de la epidemiología y la salud pública ha experimentado avances significativos, entre ellos el uso de modelos de IA para el diagnóstico de enfermedades y la aplicación Big Data que permite identificar precozmente brotes de enfermedades y predecir la propagación de infecciones. La combinación de ambos ha revolucionado la toma de decisiones en el ámbito médico.
En cuanto a los modelos de clasificación supervisados para enfermedades cardiovasculares también ha habido un desarrollo significativo en los últimos años. Nos centraremos en presentar algunos enfoques y técnicas relevantes que usaremos en nuestro estudio.
Regresión Logística:
- Método ampliamente utilizado para predecir la probabilidad de una variable binaria (como la presencia o ausencia de una enfermedad cardiovascular).
- Se basa en la función logística para modelar la relación entre variables predictoras y la variable de resultado.
- A menudo se utiliza como un punto de partida para comparar con otros modelos más complejos.
Árboles de Decisión y Bosques Aleatorios (Random Forest):
- Algoritmo de aprendizaje supervisado que se utiliza para clasificación y regresión.
- Los árboles de decisión son estructuras jerárquicas que dividen los datos en ramas según reglas de decisión.
- Los bosques aleatorios combinan múltiples árboles de decisión para mejorar la precisión y reducir el sobreajuste.
- Produce modelos predictivos, pero es costoso en términos de entrenamiento.
los modelos de clasificación supervisados han demostrado ser herramientas valiosas para predecir y diagnosticar enfermedades cardiovasculares
KNN (k-Nearest Neighbors):
- Es un algoritmo de aprendizaje supervisado utilizado en clasificación y regresión.
- Usa un conjunto de datos etiquetados y clasifica un nuevo punto de datos según la mayoría de las etiquetas de sus vecinos más cercanos.
- Es sensible a la elección del valor de k (número de vecinos).
- Se puede usar para predecir valores continuos, en lugar de asignar una clase, se promedian los valores de los k vecinos más cercanos para predecir el valor del nuevo punto.
- Puede presentar problemas en grandes conjuntos de datos debido al cálculo de las distancias.
Conclusiones
- El modelo de Random Forest con sobremuestreo SMOTE alcanzó la mayor precisión (0.98), destacándose como el mejor modelo para predecir la presencia de enfermedades cardiovasculares.
- Los modelos entrenados con técnicas de balanceo de datos (SMOTE y RUS) mostraron mejoras en la precisión y el F-score en comparación con los modelos no balanceados.
- Factores como la edad, el estado de salud general y la presencia de condiciones como la hipertensión y la diabetes son predictores importantes de enfermedades cardiovasculares.
Implicaciones prácticas:
- Los modelos desarrollados en este estudio pueden ser utilizados para identificar a individuos en riesgo de enfermedades cardiovasculares, facilitando intervenciones preventivas tempranas.
- La implementación de estas técnicas de modelado en sistemas de salud pública podría mejorar significativamente la detección y el manejo de enfermedades cardiovasculares.
Limitaciones del estudio:
- Una limitación importante es la naturaleza retrospectiva del conjunto de datos utilizado, que podría no capturar todas las variables relevantes para predecir enfermedades cardiovasculares
- La calidad y la integridad de los datos pueden haber influido en los resultados, ya que dependemos de respuestas autocontestadas en encuestas
Direcciones futuras:
- Estudios futuros podrían beneficiarse de la incorporación de conjuntos de datos longitudinales para mejorar la predicción de enfermedades cardiovasculares a lo largo del tiempo
- La integración de datos genéticos y biomarcadores en los modelos podría proporcionar una comprensión más completa de los factores de riesgo
- Investigaciones adicionales podrían explorar el uso de técnicas de aprendizaje profundo para mejorar aún más la precisión y robustez de los modelos predictivos.