Sistema de Gradación Gleason Clínicamente Aplicable para el Cáncer de Próstata Basado en Aprendizaje Profundo
El cáncer de próstata es uno de los tumores malignos más comunes del sistema genital masculino, con aproximadamente 1.1 millones de nuevos casos reportados globalmente en 2012. Un diagnóstico preciso del cáncer de próstata es crucial para un tratamiento exitoso, particularmente cuando la enfermedad aún está confinada a la glándula prostática. El sistema de gradación Gleason (GD), establecido por primera vez por Donald Gleason entre 1966 y 1974, sigue siendo uno de los predictores más poderosos de los resultados oncológicos para los hombres con cáncer de próstata. El patrón Gleason varía de 1 a 5, con puntuaciones más altas que indican una peor diferenciación, un peor pronóstico y una mayor probabilidad de metástasis. La puntuación total de Gleason (GS) se calcula combinando los patrones Gleason dominante y no dominante.
A pesar de su importancia clínica, el sistema de gradación Gleason tiene limitaciones. Las diferencias en la interpretación entre los patólogos y la evaluación subjetiva de la proporción de cada grado en la muestra pueden llevar a una mala repetibilidad del diagnóstico e incluso a un diagnóstico erróneo, particularmente para lesiones pequeñas. Para abordar estos desafíos, proponemos un sistema de gradación Gleason basado en aprendizaje profundo para asistir en el diagnóstico histopatológico del cáncer de próstata. Este sistema tiene como objetivo mejorar la objetividad, la precisión y la eficiencia en el diagnóstico del cáncer de próstata.
Metodología
Recolección y Preparación de Datos
El estudio utilizó láminas de biopsia de próstata recolectadas del Hospital de Amistad China-Japón. Se utilizaron un total de 123 láminas teñidas con hematoxilina-eosina (HE) para el entrenamiento del modelo, y 10 láminas se utilizaron para la validación. Además, se recolectaron 137 láminas teñidas con HE para la prueba del modelo. Todas las láminas fueron sometidas a un riguroso control de calidad para asegurar que el tejido estuviera completo, plano y libre de marcas de corte, grietas o burbujas. Las láminas correspondientes de inmunohistoquímica (IHC), incluyendo p63, 34bE12 y p504S, se utilizaron para asistir en el proceso de etiquetado.
Las láminas fueron digitalizadas utilizando un escáner KF-PRO-005 a un aumento de 400x. El área del tejido se dividió en parches de 320×320 píxeles con un campo de visión de 200x (0.5 mm/píxel). Se obtuvieron un total de 152,139 parches de entrenamiento, incluyendo patrones Gleason 3 (25,316 parches), 4 (31,176 parches) y 5 (25,344 parches), así como neoplasia intraepitelial prostática de alto grado (HPIN) (3,252 parches), inflamación (2,744 parches) y tejido normal (64,307 parches).
Proceso de Etiquetado
Dos patólogos licenciados con 11 y 30 años de experiencia en el diagnóstico patológico de próstata, respectivamente, revisaron todas las imágenes de láminas completas (WSIs) utilizando un sistema de etiquetado interno. Las etiquetas incluyeron patrones Gleason 3–5, HPIN, inflamación y tejido normal. Las láminas fueron asignadas primero al primer patólogo y luego revisadas por el patólogo senior. Durante el proceso de etiquetado, los patólogos utilizaron las láminas correspondientes de IHC como referencia para asegurar la precisión.
Entrenamiento del Modelo
El modelo de aprendizaje profundo utilizado en este estudio se basó en el modelo de segmentación de imágenes DeepLab v3 con ResNet-50 como columna vertebral. Los parámetros del modelo se inicializaron utilizando un modelo de detección de cáncer gástrico preentrenado y se ajustaron utilizando los datos de entrenamiento de próstata mediante transferencia de aprendizaje. El entrenamiento del modelo se realizó utilizando TensorFlow en 8 GPUs NVIDIA GTX1080Ti. El optimizador utilizado fue ADAM, con una tasa de aprendizaje de 0.0001, un tamaño de lote de 256 y 28,000 iteraciones de entrenamiento. Se aplicaron técnicas de aumento de datos orientadas a histopatología para mejorar la robustez del modelo.
La predicción a nivel de lámina se definió como el promedio de las 100 probabilidades más altas de las predicciones a nivel de píxel. El modelo fue evaluado de manera binaria, donde «maligno» se definió como patrones Gleason 3–5 y «benigno» como HPIN, inflamación y tejido normal.
Rendimiento del Modelo
El modelo de aprendizaje profundo logró una sensibilidad del 100.00%, una especificidad del 87.04% y una precisión del 94.89% en la distinción entre tejido maligno y benigno. Las predicciones del modelo fueron consistentes con el diagnóstico del patólogo senior en 100 de 137 casos. En 22 casos, las predicciones del modelo estuvieron muy cerca del diagnóstico del patólogo senior, con una diferencia de solo un punto.
El modelo demostró un rendimiento superior en varios casos, particularmente en la identificación de pequeños focos de cáncer y lesiones locales de patrón Gleason 4 dentro de un fondo de patrón Gleason 3. Además, el modelo predijo correctamente 20 muestras con un GS ≥ 8, mientras que el patólogo asistente predijo correctamente solo 13. El modelo también superó al patólogo asistente en la detección de HPIN, con una sensibilidad del 100.00% en comparación con la sensibilidad del patólogo asistente del 87.04%.
Validación y Prueba
El modelo fue validado adicionalmente utilizando muestras históricas de próstata recolectadas de mayo de 2013 a julio de 2015 en el Hospital de Amistad China-Japón. El modelo logró una sensibilidad del 100.0% y una especificidad del 91.4% para la detección de tumores malignos. Además, se utilizaron 166 láminas del Hospital General del Ejército Popular de Liberación de China para la prueba, donde el modelo logró una sensibilidad del 97.0% y una especificidad del 77.4%.
Limitaciones y Trabajo Futuro
A pesar de su rendimiento prometedor, el modelo tiene algunas limitaciones. Hubo casos de falsos positivos y gradación Gleason inexacta. Para abordar estos problemas, se requieren más muestras de entrenamiento para optimizar el modelo y mejorar continuamente su especificidad. Además, el rendimiento del modelo en la detección de casos raros o complejos necesita más investigación.
Conclusión
El sistema de gradación Gleason basado en aprendizaje profundo propuesto en este estudio ofrece una herramienta clínicamente aplicable para el diagnóstico del cáncer de próstata. El sistema puede identificar intuitivamente las lesiones y proporcionar puntuaciones Gleason objetivas, ahorrando un tiempo significativo para los patólogos. Demostró una alta precisión y consistencia en la distinción entre tejido maligno y benigno y superó a los patólogos humanos en varios casos. Sin embargo, se necesitan optimización y validación continuas para abordar las limitaciones del modelo y asegurar su aplicabilidad clínica generalizada.
doi.org/10.1097/CM9.0000000000001220