El estudio de microcalcificaciones en mamografías es una herramienta importante en la detección temprana del cáncer de mama. Para predecir el riesgo de desarrollar cáncer de mama a partir de este estudio, se pueden emplear técnicas de análisis de datos y aprendizaje automático. Las microcalcificaciones y la densidad mamográfica están fuertemente asociadas con el riesgo de cáncer de mama.
¿Cómo puedo predecir el riesgo de desarrollar un cáncer de mama a partir del estudio de microcalcificaciones en mamografías?
Por David Compte Colomé
Alumna de la 3ª edición del Máster en Big Data Sanitario y Analista de datos en Consorci Hospitalari de Vic (CHV)
Objetivos del proyecto: Determinar el objetivo principal, como desarrollar un modelo predictivo para estimar el riesgo de cáncer de mama a partir de las microcalcificaciones en mamografías.
Definir los criterios de éxito: Establecer métricas de rendimiento claras, como la precisión y la sensibilidad del modelo, que indiquen su capacidad para predecir con precisión el riesgo de cáncer de mama.
Crear un plan de proyecto inicial: Establecer un cronograma preliminar y asignar roles y responsabilidades dentro del equipo.
El cáncer de mama es el cáncer más común y la quinta causa principal de muertes relacionadas con el cáncer, ocupando el primer lugar en incidencia en 159 países y en mortalidad en 110 países. El cribado mamográfico de cáncer de mama reduce la mortalidad. Puede revelar características mamarias que caracterizan la enfermedad mamaria benigna y aquellas que sugieren un mayor riesgo de cáncer de mama, como la densidad mamográfica alta y una textura aberrante. Estudios han sugerido que la densidad mamográfica y las características estructurales identificadas a través de la mamografía aumentan el riesgo de cáncer de mama de manera independiente o conjunta, lo que sugiere estrategias de cribado personalizado utilizando información de cribado rutinaria. Las microcalcificaciones son depósitos de oxalato de calcio o fosfato de calcio con un diámetro de menos de 1 mm que se pueden identificar en la mamografía como pequeños puntos brillantes.
Para predecir el riesgo de desarrollar cáncer de mama a partir de este estudio, se pueden emplear técnicas de análisis de datos y aprendizaje automático
Comprensión de los datos
- Recopilar datos disponibles: Obtener conjuntos de datos de mamografías que incluyan información sobre las microcalcificaciones y el diagnóstico de cáncer de mama.
- Explorar los datos: Realizar análisis exploratorio de datos para comprender la distribución de las características, identificar posibles problemas de calidad de datos y establecer hipótesis iniciales sobre la relación entre las microcalcificaciones y el cáncer de mama
La densidad mamográfica se evaluó según el Sistema de Informes y Datos de Imágenes Mamográficas (BI-RADS) 4ª edición, principalmente a través de la evaluación visual por parte de los radiólogos. La presencia o ausencia de microcalcificaciones se obtuvo a partir de los resultados mamográficos. Un total de 3,910,815 mujeres de 40 a 74 años fueron elegibles para este estudio. La base de datos incluye información sobre demografía, utilización de servicios de salud, estadísticas vitales y resultados de cribado de salud nacional. Además, se obtuvo información sobre el cribado mamográfico a partir de datos del programa de detección de cáncer de mama, que se proporciona gratuitamente cada dos años a todas las mujeres de 40 años o más en Corea.
Preparación de los datos
- Limpiar y procesar los datos: Realizar limpieza de datos para abordar valores atípicos, datos faltantes u otros problemas de calidad de datos. También se pueden necesitar técnicas de procesamiento de imágenes para normalizar y segmentar las mamografías.
- Seleccionar características: Identificar las características relevantes de las microcalcificaciones que se utilizarán como entradas para el modelo predictivo.
Esto puede incluir la normalización de las imágenes de mamografía, la extracción de características relevantes de las microcalcificaciones y la codificación de la presencia o ausencia de cáncer de mama como una variable objetivo. Además, identificar las características más relevantes de las microcalcificaciones que pueden estar asociadas con el riesgo de cáncer de mama. Esto puede requerir técnicas de procesamiento de imágenes y análisis estadístico para identificar características distintivas. Las técnicas de limpieza y procesamiento de datos: eliminación de datos faltantes o incompletos, anonimizarían datos, codificación de variables (Por ejemplo, convertir las variables categóricas en variables dummy o numéricas), Manejo de variables categóricas (las variables categóricas, como la densidad mamográfica (BI-RADS), pueden requerir un tratamiento especial durante el análisis), corrección de errores y valores atípicos, transformaciones de variables, etc.
Modelado
- Seleccionar algoritmos: Elegir algoritmos de aprendizaje automático adecuados, como SVM, CNN o árboles de decisión, para construir el modelo predictivo.
- Implementar el modelo: Desarrollar un prototipo inicial del modelo utilizando un conjunto de datos de entrenamiento.
Si bien los algoritmos de aprendizaje automático podrían utilizarse potencialmente para analizar datos médicos y epidemiológicos, el uso de técnicas de análisis estadístico tradicionales como las mencionadas en el estudio es común y apropiado para este tipo de investigación. Estas técnicas permiten identificar asociaciones significativas entre variables, controlar los factores de confusión y evaluar el riesgo relativo ajustado, lo cual es fundamental en estudios epidemiológicos.
Es importante tener en cuenta que el desarrollo de un modelo predictivo preciso requiere un enfoque multidisciplinario que combine conocimientos en medicina, procesamiento de imágenes y aprendizaje automático.
Algunos de los algoritmos de IA más adecuados podrían ser:
Redes Neuronales Convolucionales (CNN): Dado que el estudio se basa en datos de mamografías, las CNN son una opción natural. Son altamente efectivas en la detección de patrones en imágenes médicas y podrían entrenarse para identificar y clasificar microcalcificaciones en mamografías con precisión.
Modelos de Aprendizaje Automático para Asociación de Factores de Riesgo: Estos modelos pueden ayudar a identificar relaciones complejas entre múltiples variables y mejorar la comprensión del riesgo de cáncer de mama.
Modelos de Aprendizaje Profundo para Predicción de Riesgo: Si se dispone de datos clínicos adicionales, como antecedentes familiares, edad, etc., se podrían desarrollar modelos de aprendizaje profundo para predecir el riesgo individual de cáncer de mama.
Evaluación
- Evaluar el rendimiento del modelo: Utilizar técnicas de validación cruzada u otros métodos de evaluación para medir la precisión, sensibilidad y especificidad del modelo.
- Refinar el modelo: Identificar áreas de mejora y ajustar los hiper parámetros del modelo para optimizar su rendimiento.
Análisis de regresión de riesgos proporcionales de Cox: Se utilizó para evaluar la asociación entre la presencia de microcalcificaciones y el riesgo de cáncer de mama. Este análisis permite estimar los riesgos relativos ajustados (hazard ratios) después de tener en cuenta otros factores de riesgo de cáncer de mama, como la densidad mamográfica, la edad, el índice de masa corporal (IMC), antecedentes familiares de cáncer de mama, entre otros.
Después de ajustar por densidad mamográfica, las mujeres con microcalcificaciones tenían un riesgo aumentado de 3.07 veces (intervalo de confianza del 95% [IC] 2.82-3.35) de cáncer de mama en comparación con las mujeres sin microcalcificaciones.
Pruebas de hipótesis estadísticas: para evaluar la significancia de las asociaciones encontradas. Esto implica calcular valores p (p-values) para determinar si las asociaciones observadas son estadísticamente significativas o podrían haber ocurrido por azar.
Análisis de riesgos acumulativos: para comparar la incidencia acumulativa de cáncer de mama en diferentes grupos de mujeres, como aquellas con y sin microcalcificaciones, estratificadas por densidad mamográfica y estado menopáusico.
Análisis de tendencias: para evaluar la relación entre la densidad mamográfica, la presencia de microcalcificaciones y el riesgo de cáncer de mama a lo largo del tiempo. Esto puede proporcionar información sobre cómo cambia el riesgo de cáncer de mama a medida que cambian estas variables.
Validación interna del modelo: para evaluar su desempeño y generalización a partir de los datos de la muestra. Esto podría incluir técnicas como la validación cruzada o la división de los datos en conjuntos de entrenamiento y prueba para evaluar la capacidad predictiva del modelo.
Despliegue
- Preparar para la implementación: Preparar el modelo para su integración en sistemas de producción, lo que puede incluir la optimización del código, la documentación y las pruebas de integración.
- Planificar la entrega: Establecer un plan para la entrega del modelo finalizado, incluyendo la capacitación del personal y la comunicación de los resultados.
Analizar los resultados del modelo para comprender qué características de las microcalcificaciones tienen una mayor influencia en la predicción del riesgo de cáncer de mama. Esto puede proporcionar información valiosa sobre los factores de riesgo y ayudar a guiar futuras investigaciones y decisiones clínicas.
Para cada fase, el equipo Agile puede trabajar en iteraciones cortas, realizando tareas específicas y ajustando el enfoque según sea necesario en función de los resultados obtenidos.
Es importante tener en cuenta que el desarrollo de un modelo predictivo preciso requiere un enfoque multidisciplinario que combine conocimientos en medicina, procesamiento de imágenes y aprendizaje automático. Además, se deben seguir las regulaciones y estándares éticos para garantizar la privacidad y la seguridad de los datos de los pacientes.
BIBLIOGRAFIA
Kim, S., Tran, T. X. M., Song, H., & Park, B. (2022). Microcalcifications, mammographic breast density, and risk of breast cancer: a cohort study. Breast Cancer Research, 24(1), 96. Link