Clasificador basado en aprendizaje profundo para diagnóstico de enfermedades cutáneas

Clasificador basado en aprendizaje profundo y asistido por computadora desarrollado con imágenes dermatoscópicas muestra un rendimiento comparable al de 164 dermatólogos en el diagnóstico de enfermedades cutáneas en la población china

En China, el diagnóstico de enfermedades cutáneas suele retrasarse debido a la grave escasez de dermatólogos. La proporción de dermatólogos por paciente es de apenas 1:60.000, con la mayoría concentrada en grandes ciudades. Esta carencia es crítica en áreas rurales, donde la experiencia clínica limitada de los médicos generales genera errores diagnósticos o tratamientos tardíos. Para abordar este problema, se desarrolló un sistema de apoyo al diagnóstico basado en aprendizaje profundo, permitiendo una preselección de pacientes que optimiza el esfuerzo de los especialistas y mejora la precisión diagnóstica. Este estudio evalúa la sensibilidad y especificidad de modelos de aprendizaje profundo en el diagnóstico de tumores cutáneos y psoriasis en población china utilizando un número relativamente moderado de imágenes dermatoscópicas.

El estudio desarrolló una red neuronal convolucional (CNN) con dos conjuntos de datos de pacientes atendidos en el Departamento de Dermatología del Hospital del Colegio Médico de la Unión de Pekín entre 2016 y 2018. El Conjunto I incluyó 7.192 imágenes dermatoscópicas para un modelo multiclase que diferencia tres tumores cutáneos comunes (carcinoma basocelular [CBC], nevus melanocítico [NM] y queratosis seborreica [QS]) de otras enfermedades. El Conjunto II contenía 3.115 imágenes para un modelo binario que clasifica psoriasis versus otras enfermedades inflamatorias. El rendimiento de la CNN se comparó con 164 dermatólogos en un estudio de lectura con 130 imágenes. El estándar de referencia fue consenso experto, excepto para CBC confirmado por histopatología.

Los resultados mostraron que el modelo multiclase alcanzó una precisión de 81,49% ± 0,88%, mientras que el modelo binario logró 77,02% ± 1,81%. En el estudio comparativo, el modelo multiclase mostró sensibilidad y especificidad equivalentes a los dermatólogos. Para CBC, los dermatólogos obtuvieron sensibilidad 0,770 y especificidad 0,962 versus 0,800 y 1,000 de la CNN. En NM, los valores fueron 0,807/0,897 (dermatólogos) vs 0,800/0,840 (CNN). Para QS, 0,624/0,976 vs 0,850/0,940. En el grupo «otros», 0,939/0,875 vs 0,750/0,940. En clasificación binaria de psoriasis, la sensibilidad/especificidad fueron 0,872/0,838 (dermatólogos) vs 1,000/0,605 (CNN). Ambos grupos mostraron consistencia moderada con el estándar de referencia sin diferencias significativas en coeficientes Kappa.

El estudio resalta el potencial de estos modelos para asistir en diagnóstico dermatológico, particularmente en regiones con acceso limitado a especialistas. Las CNN desarrolladas, pese a entrenarse con conjuntos de imágenes relativamente pequeños, igualaron el desempeño de dermatólogos certificados, sugiriendo su utilidad como herramientas de preselección en atención primaria para priorizar casos complejos.

Los conjuntos de datos se obtuvieron con dermatoscopio MoleMax HD 1.0. Las imágenes fueron anotadas por expertos con más de cinco años de experiencia, excluyéndose aquellas con baja calidad, múltiples lesiones o artefactos. Los datos se dividieron en conjuntos de entrenamiento, validación y prueba (8:1:1), aplicándose validación cruzada de diez iteraciones. La arquitectura utilizada fue GoogLeNet Inception v3 preentrenada, con reentrenamiento de la capa final. La función de activación fue ReLU, con optimizador Gradient Descent (tasa de aprendizaje 0,01) y función de pérdida de entropía cruzada.

Los gráficos t-SNE mostraron agrupación coherente de imágenes similares, confirmando la capacidad del modelo para distinguir características dermatoscópicas. La matriz de confusión del modelo multiclase reveló precisión ≥80% en todas las categorías, con <12% de probabilidad de errores diagnósticos entre clases.

Estos hallazgos coinciden con estudios previos como Esteva et al. (2017), donde una CNN clasificó cáncer de piel a nivel experto usando 129.450 imágenes, y Fujisawa et al. (2018), que superó a dermatólogos con 4.867 imágenes. Este trabajo amplía dicha evidencia al incluir población china y condiciones inflamatorias como psoriasis.

Las limitaciones incluyen: 1) datos provenientes de un solo centro hospitalario, 2) exclusión de información clínica complementaria, y 3) cobertura limitada a 11 enfermedades. Futuras investigaciones deberían incorporar múltiples fuentes de datos, ampliar el espectro de enfermedades y validar los modelos en escenarios clínicos diversos.

En conclusión, este estudio demuestra que modelos basados en aprendizaje profundo pueden alcanzar un desempeño diagnóstico comparable al de dermatólogos expertos, incluso con conjuntos de entrenamiento moderados. Su implementación como herramientas de triaje en entornos de atención primaria podría mejorar significativamente la eficiencia diagnóstica en regiones con recursos limitados.

doi.org/10.1097/CM9.0000000000001023

Deja una respuesta 0

Your email address will not be published. Required fields are marked *