Las enfermedades cardiovasculares (ECV) son actualmente la principal causa de muerte en todo el mundo y la Organización Mundial de la Salud estima que son alrededor de 17,9 millones de muertes cada año. Según el Instituto Nacional de Estadística, el 27,1% de las defunciones en la primera mitad del año 2023 se debieron a enfermedades del sistema circulatorio, constituyendo la primera causa de muerte en España, por delante de los tumores y de las enfermedades del sistema respiratorio. La acumulación de placas dentro de las arterias coronarias principales, los cambios moleculares asociados con el envejecimiento, la inflamación crónica, la hipertensión arterial y la diabetes son causas y factores de riesgo de la enfermedad cardíaca. La mayoría de las personas solo descubren que tienen la enfermedad después de experimentar síntomas como dolor torácico, un infarto agudo de miocardio (IAM) o una parada cardíaca súbita, por lo que son necesarias medidas preventivas y pruebas que puedan predecir con precisión las ECV en la población antes de que se produzcan resultados negativos como los citados anteriormente.
Comparación de modelos de Machine Learning en la predicción del riesgo de enfermedad cardíaca
Alumna de la 3ª edición del Máster en Big Data Sanitario y Médico residente en Farmacología Clínica en Hospital Universitario la Paz
Por Olga Rogozina
Alumna de la 3ª edición del Máster en Big Data Sanitario y Médico residente en Farmacología Clínica en Hospital Universitario la Paz
Los Centros para el Control y la Prevención de Enfermedades (CDC) han identificado la hipertensión arterial, la hipercolesterolemia, la diabetes, la obesidad, la falta de ejercicio físico, la dieta rica en grasas saturadas, grasas trans y colesterol, así como el consumo de alcohol o el tabaquismo como factores de riesgo clave para la enfermedad cardíaca. Otros factores que pueden predisponer a sufrir enfermedad cardíaca son la edad y el sexo del sujeto, la existencia de antecedentes familiares de enfermedades cardiovasculares, la presencia de ciertos factores genéticos, el entorno, la ocupación y la raza o etnia del paciente.
Las ECV representan una carga financiera significativa para el sistema sanitario. La detección temprana de las ECV minimiza los costes y reduce la mortalidad por ECV, y la minería de datos es una de las técnicas existentes para mejorarla. Dichas técnicas permiten extraer conocimientos ocultos e identificar relaciones entre atributos dentro de un conjunto de datos, siendo una estrategia prometedora para la clasificación de las ECV. Las técnicas de minería de datos pueden hacer el trabajo de manera eficiente a un bajo coste utilizando un algoritmo de clasificación.
El Sistema de Vigilancia de Factores de Riesgo del Comportamiento (BRFSS, por sus siglas en inglés) es una encuesta telefónica de los CDC relacionada con la salud que recopila anualmente respuestas de más de 400.000 estadounidenses sobre comportamientos relacionados con la salud, condiciones crónicas de salud y el uso de servicios preventivos. La CDC ha compilado anualmente un dataset con los datos del BRFSS, disponibles las versiones originales de dichos datasets en Kaggle de los años 2011 a 2015. Existen versiones más recientes de estos datasets en Kaggle, recopiladas por otros autores. Para nuestro estudio, se ha escogido la versión de 2020, que contiene respuestas de 319.795 individuos y 40 características (preguntas formuladas a los participantes o variables calculadas según las respuestas), con el fin de estudiar la incidencia de enfermedad cardíaca (clasificación binaria) a partir de distintos factores de riesgo.
La detección temprana de las ECV minimiza los costes y reduce la mortalidad por ECV, y la minería de datos es una de las técnicas existentes para mejorarla
Este conjunto de datos filtrado se ha creado para explorar, por un lado, en qué medida se pueden utilizar las respuestas de la encuesta del BRFSS para predecir el riesgo de enfermedad cardíaca y, por otro lado, para analizar si se puede utilizar un subconjunto de preguntas del BRFSS para la detección de salud preventiva de enfermedades como la enfermedad cardíaca.
En el siguiente estudio se pretende determinar cómo diferentes algoritmos de Machine Learning (ML) predicen el riesgo de enfermedad cardíaca en función de diferentes factores de riesgo