Story Transcript
CERTEZA DIAGNÓSTICA EN LA EVALUACIÓN DE LESIONES DE SENO POR ULTRASONIDO ESTUDIO DE CURVAS ROC
CERTEZA DIAGNÓSTICA EN LA EVALUACIÓN DE LESIONES FOCALES DE SENO POR ULTRASONIDO ANTES Y DESPUÉS DE LA UTILIZACIÓN DE UN PROGRAMA DE DIAGNÓSTICO ASISTIDO POR COMPUTADOR (CAD, COMPUTER ASSISTED DIAGNOSIS): ESTUDIO DE CURVAS RECEPTOR OPERADOR DE MÚLTIPLES OBSERVADORES - MÚLTIPLES CASOS
AUTOR: Gustavo A. Triana R. M.D. Médico Radiólogo Hospital Universitario Fundación Santa Fe de Bogotá
Tesis presentada a la Facultad de Medicina Como requisito parcial para optar al grado de Maestría en Epidemiología Clínica Pontificia Universidad Javeriana Marzo de 2011
COAUTORES Y MIEMBROS DEL COMITÉ DE GRADO
Juan Manuel Lozano M.D. MSc. Profesor titular. Departamento de Epidemiología Clínica y Bioestadística Pontificia Universidad Javeriana
Fabián Gil. Bioestadístico. Profesor asistente. Departamento de Epidemiología Clínica y Bioestadística Pontificia Universidad Javeriana
Javier A. Romero. M.D MSc. Médico Radiólogo y Epidemiólogo Clínico Hospital Universitario Fundación Santa Fe de Bogotá
Miembros del comité de trabajo externo
Felipe Uriza M.D. MSc. Médico radiólogo y Epidemiólogo Clínico Jefe Departamento de Radiología Hospital Universitario San Ignacio
CONTENIDO
Página. 1. Introducción………………………………………………………………….....................1
2. Marco Teórico…………………………………………………………………………......6
3. Pregunta y Objetivos de la investigación………………………………………………...15
4. Métodos…………………………………………………………………………………..17
5. Resultados………………………………………………………………………………...44
6. Discusión…………………………………………………………………….…………...55
7. Conclusiones……………………………………………………………………….……..70
8. Referencias………………………………………………………………………………..72
LISTA DE TABLAS. Página. 1. Categorías BI-RADS, interpretación y conducta………………………………………....7
2. Resumen de las publicaciones encontradas……………………………………………....11
3. Fases de los estudios de certeza en pruebas diagnósticas………………………………..17
4. Parámetros utilizados en el cálculo del tamaño de muestra……………………………....24
5. Tabla para el cálculo de los tamaños de muestra en estudios de certeza diagnóstica con múltiples observadores múltiples observaciones ……………………………………...……25
6. Resumen de las variables del estudio……………………………………………………..32
7. Comparación de los métodos de análisis estadístico en los estudios de múltiples observadores múltiples observaciones………...……………………………………..……...36
8.Áreas promedio bajo la curva ROC de todos los observadores sin y con B-CAD…….....45
9. Áreas promedio bajo las curvas ROC sin y con B-CAD .Comparaciones Intra observadores por grupos. …..………………………………….…………………………………..…..46
10.Áreas promedio bajo las curvas ROC sin y con B-CAD. Comparación interobservadores por grupos. ………………………………….…………....49
11 . Áreas bajo la curva ROC, individuales, de todos los observadores sin y con BCAD…………………………………………………………………………………………51
12 . Áreas bajo la curva ROC, comparaciónes interobservadores individuales, de todos los observadores sin y con B-CAD. …………………..……...……52
13. Áreas parciales e Índices de áreas parciales bajo las curvas ROC de todos los observadores. …………………………………….............................................54
LISTA DE FIGURAS.
1. Formato de salida programa OBUMRM…………………………...………………….40
2. Formato de salida programa DBM MRMC 2…………….……………………………41
3. Formato de salida programa MEDCALC. …………………………………………….42
4. Curva ROC PROMEDIO de todos los observadores…..…...…………………………44
5. Curvas ROC áreas promedio por grupos, observadores NOVATOS,
MODERADAMENTE EXPERTOS y EXPERTOS sin y con el uso del B-CAD….…...48
6. Curvas ROC de todos los observadores sin el uso del B-CAD. ……………………... 50
7. Curvas ROC de todos los observadores con el uso del B-CAD……………………….50
LISTA DE ANEXOS. Página. 1. Listado de las lesiones malignas evaluadas……………………………...……………..81
2. Listado de las lesiones benignas evaluadas………………………………………….....82
3. Formato de recolección de información sin B-CAD. ……………………...………….83
4. Formato de recolección de información con B-CAD………………………………….87
5. Interfase de trabajo del programa B-CAD y formato de reporte generado……….........87
6. Aprobación Comité de ética en Investigación Fundación Santa Fe de Bogotá……………………………………………………….……………..…………89
7. Léxico incluído en el B-IRADS……………………………………………………….91
8. Áreas promedio de todos los observadores sin y con el uso de B-CAD. Métodos de Obuchowski-Rockette, Dorfmann-Berbaum-Metz y Wilcoxon-Mann-Whitney.………….,.…112
9. Tabla resumen de cambios en la evaluación sin y con B-CAD de todos los observadores…………………………………………………...……………..100
10. Características operativas y puntos de corte de las curvas ROC………………………………………………………………………...……………...101
11. Curvas ROC individuales de los observadores sin y con CAD. ……...……………….102
12.Características operativas y puntos de corte de las curvas ROC de cada uno de los observadores. …………………………………………………………………...……………….108
RESUMEN
Objetivo: Determinar si la introducción de un programa de diagnóstico asistido por computador B-CAD mejora la certeza diagnóstica, medida como el área promedio bajo la curva ROC, comparado con el diagnóstico usual sin apoyo del computador, en la determinación de benignidad o malignidad de las lesiones focales de seno evaluadas por ultrasonido.
Diseño: Estudio de curvas ROC (Receptor operador) de múltiples observadores-múltiples casos (MRMC, multiple reader-multiple cases).
Lugar: Fundación Santa Fe, centro de atención terciaria en Bogotá, Colombia.
Población: Mujeres que asisten para evaluación de patología mamaria mediante ultrasonido, con presencia de imágenes nodulares sometidas a biopsia o nódulos que permanecieron estables en el seguimiento ecográfico por al menos 2 años y en quienes se disponía de las imágenes ultrasonográficas. El número fue de 60 nódulos, con una distribución 1 a 1 entre benignos y malignos.
Intervenciones: Evaluación de las imágenes ultrasonográficas antes y después del uso del BCAD por 2 radiólogos expertos, 2 radiólogos con moderada experiencia y 2 residentes de radiología.
Medición: Área promedio bajo la curva ROC de todos los observadores.
Resultados: El área promedio bajo la curva ROC de todos los observadores sin el uso del BCAD fue de 0,76 y con el uso del B-CAD fue de 0,70. No se encontraron diferencias clínica ni estadísticamente significativas entre las áreas sin y con el uso del B-CAD (p 0,26). La comparación dentro de los tres grupos de observadores con y sin B-CAD solo mostró cambios en los observadores novatos, con una menor área (6%) con el uso del B-CAD (p = 0,02). No se encontraron diferencias estadísticamente significativas al comparar como grupos las áreas promedio de los observadores expertos, con los moderadamente expertos y los novatos. La comparación intraobservador individual sin y con el uso del B-CAD no mostró diferencias estadísticamente o clínicamente significativas. Los promedios de las áreas parciales y de los índices de las áreas parciales con una tasa de falsos positivos del 10% de todos los observadores con y sin el uso del B-CAD no mostraron diferencias clínica ni estadísticamente significativas .
Conclusiones: El programa B-CAD no modificó el desempeño promedio de todos los observadores y disminuyó ligeramente el desempeño de los observadores novatos. Este resultado no se ha descrito con otros sistemas o programas CAD en las publicaciones encontradas. Los resultados no apoyan la utilización del sistema B-CAD para la caracterización por ultrasonido de las lesiones de seno.
Palabras clave: BIRADS; computer aided diagnosis, diagnóstico asistido por computador; Multireader ROC studies, estudios ROC de múltiples observadores; Receiver operating characteristic (ROC) curves, curvas receptor operador ROC; ROC analysis, análisis ROC; diagnostic accuracy, certeza diagnóstica; breast ultrasonography, ultrasonido de seno.
SUMMARY
Objective: To determine if the introduction of B-CAD 2.2 (computer assisted diagnosis) software improves diagnostic accuracy, measured as the average area under the ROC curve in the evaluation of benign and malignant focal lesions evaluated by ultrasound.
Study Design: Multiple Readers-Multiple Cases ROC curves study.
Place: Fundación Santa Fe de Bogotá, tertiary care hospital in Bogotá, Colombia.
Study Population: Women assisting for ultrasound evaluation of mammary pathology with breast nodules who had previous biopsy or a 2 year follow up of with lesion stability and with available ultrasound images. 30 benign and 30 malignant nodules were included. 2 expert radiologists, 2 radiologists with moderate experience and 2 radiology residents reviewed the images.
Study intervention: image review of the images with and without the use of the B-CAD software.
Measurement: average area under the ROC curve of the observers.
Results: average area under the ROC curve of all the observers without CAD was 0,76 and with B-CAD was 0.70.No statistically significant differences were found(p=0.26). Intraob-
server comparison as groups showed a 6% reduction of the area with the use of the B-CAD software in Novice observers. Average area under the ROC curve of expert observers were not statistically different compared to the areas of the radiology residents and observers with moderate experience. Intraobserver comparison did not show any clinically or statistically significant differences. Average Partial area under the ROC curves and partial area index with a false positive rate of 10%, were calculated. No statistically significant differences were found with and without the use of the B-CAD software.
Conclusions: B-CAD 2.2 software did not improve the average performance of all the observers. Diminished acuracy was found in novice observers as a group. This results has not been described or published before. Based on the results B-CAD use is not justified for the evaluation of breast lesions.
Keywords: BIRADS; computer aided diagnosis; Multireader ROC studies; Receiver operating characteristic (ROC) curves; ROC analysis; diagnostic accuracy; breast ultrasonography.
INTRODUCCIÓN.
Los estudios de imágenes para la evaluación de patología mamaria son cada vez más frecuentes en nuestro medio, recomendándose tamizaje mamográfico rutinario en mujeres mayores de 40 años (1). La eficacia del tamizaje mamográfico se ha demostrado en estudios controlados aleatorizados, en los cuales se ha conseguido una reducción en la mortalidad gracias a la detección en estadios más tempranos de carcinomas ductales in situ, de carcinomas infiltrantes de menor tamaño, que en las pacientes no sometidas a tamizaje (2,3).
La mamografía se ha considerado el estándar de oro en el tamizaje del cáncer de seno (1). La ultrasonografía se ha introducido desde hace varios años como una técnica complementaria, especialmente en pacientes con senos densos a la exploración mamográfica, mejorando la especificidad de la mamografía y reduciendo el número de falsos negativos en las pacientes en quienes se ha indicado biopsia por mamografía (3).
Existen, sin embargo, algunas limitaciones inherentes al examen ultrasonográfico, las cuales incluyen ser altamente dependiente del operador que realiza el estudio y no ser un examen fácilmente reproducible. Otra importante limitación inicial fue la falta de un método estandarizado de caracterización de lesiones y de recomendaciones sobre el tipo de lesión, lo que crea confusión entre médicos, radiólogos y pacientes.
El sistema BI-RADS (Breast imaging and reporting data system) fue desarrollado en 1993 por el Colegio Americano de Radiología (ACR) para estandarizar el lenguaje empleado en 1
los reportes de las mamografías, para aclarar las interpretaciones mamográficas y para facilitar la comunicación entre los clínicos. Este sistema incluye un listado de los términos que deben emplearse para describir los hallazgos de la mamografía. Dependiendo de los hallazgos las lesiones se clasifican en 7 categorías, del 0 al 6 (4). Este sistema BI-RADS mamográfico ha sido evaluado extensamente; se han descrito las características operativas de los diferentes hallazgos y su capacidad para discriminar entre lesiones benignas o malignas de seno, así como la variabilidad intra e interobservador, con buenos resultados en ambos casos (5,6).
Después del gran éxito alcanzado por el sistema BI-RADS mamográfico en el año 2001 se creó un léxico ecográfico, publicado en la cuarta edición del BI-RADS (4). Esta herramienta ayuda al control de calidad y a mejorar los reportes ecográficos al estandarizarlos, reduce la confusión en la interpretación diagnóstica, facilita el control posterior y mejora el tipo de recomendación (seguimiento, biopsia) de acuerdo al tipo de lesión encontrada (7).
El BI-RADS ecográfico incluye la definición de 27 características de las masas en estudio, aplicables a su forma, orientación, márgenes, límites, patrón ecográfico, características del refuerzo ecográfico y tejidos adyacentes; también incluye la definición de calcificaciones, vascularidad y una categoría de casos especiales. Estos hallazgos permiten clasificar los casos en 7 categorías similares a las utilizadas en los estudios mamográficos (4,5). Se han realizado estudios que evalúan la concordancia entre los observadores de las categorías BIRADS con resultados que muestran mejores concordancias dependiendo del grado de experiencia y entrenamiento de los observadores (8-13). 2
Aunque la opinión profesional sigue siendo la piedra angular del diagnóstico médico, se han desarrollado aplicaciones computarizadas novedosas en la interpretación de las imágenes que cada día cuentan con mayor penetración. Las más recientemente creadas son la conocida como CAD (computer aided detection - detección de lesiones asistida por computador) y una derivada de ésta, también conocida como CAD, e identificada con las mismas siglas (computer aided diagnosis - diagnóstico asistido o ayudado por computador). Los sistemas CAD ayudan a los médicos en la identificación de cánceres potenciales después de un estudio de tamizaje. Los algoritmos utilizados por estos sistemas funcionan para ayudar a localizar y caracterizar áreas potenciales en donde se encuentran los tumores, conocidas como áreas de interés (ROI región of interest). Un concepto importante es que la tecnología CAD no pretende reemplazar la interpretación profesional de los médicos, pretende dar más información de las anomalías anatómicas sospechosas.
Las aplicaciones CAD son utilizadas predominantemente en la identificación de tumores de seno, pulmón y colon. El primer sistema CAD utilizado se desarrolló para estudios mamográficos. El CAD más ampliamente utilizado en mamografía es el R2. La introducción de este sistema de diagnóstico asistido por computador ha mejorado la sensibilidad en la detección de cáncer de seno en la lectura de los estudios mamográficos, pero a expensas de aumentar el número de falsos positivos. (14,15)
Existen diversos desarrollos de programas de computación para el análisis de las imágenes de los estudios ultrasonográficos de la mama. En la actualidad hay tres programas aprobados por la FDA (Food and Drug Administration) para el diagnóstico asistido por computador: 3
CADstream, desarrollado por la firma Confirma Inc., QLAB Software, desarrollado por Phillips Ultrasound, y B-CAD, desarrollado por The Medipattern Corporation. Este último recibió su aprobación por la FDA el 26 de Mayo de 2005, para ser comercializado como una aplicación diseñada para asistir en el diagnóstico de lesiones detectadas por ultrasonido de seno. El programa produce una segmentación de las imágenes (delimita sus contornos de los tejidos adyacentes) y clasifica su forma y orientación
utilizando un patrón de
reconocimiento multivariado. Este método de análisis multivariado utiliza el léxico y las categorías del BI-RADS ecográfico desarrollado por el Colegio Americano de Radiología. Las imágenes de la lesión seleccionada deben ser importadas al programa; el formato de importación incluye imágenes DICOM (Digital Imaging and Communications in Medicine) o en formato JPEG (Joint Photographic Experts Group). La imagen o imágenes analizadas por este programa deben circunscribirse mediante un área de interés de forma circular u ovalada. El área de interés (ROI - región of interest) debe seleccionarse desde el centro de la lesión a evaluar; el programa utiliza un análisis vectorial de los contornos de la lesión para segmentar su contorno produciendo hasta 6 imágenes segmentadas en el monitor. El usuario selecciona la imagen que considera se ajusta mejor a los contornos de la lesión y el programa analiza la imagen seleccionada asignando los diferentes términos descriptivos del sistema BIRADS, así como las categorías BI-RADS que considera más adecuada para la lesión. Así pues, el proceso de asignación de la categoría BI-RADS no es completamente automático, debiendo ser seleccionado en forma específica por el usuario. El usuario puede modificar los términos descriptores si lo considera necesario. El programa también permite la realización de mediciones, anotaciones y comentarios. Los resultados del análisis se pueden usar para un reporte estructurado que se elabora en forma automática. 4
El estudio que se describe en las páginas que siguen buscó establecer si el empleo de un programa de diagnóstico asistido por computador (B-CAD TM 2.2, Medipattern Corporation, Toronto, Canadá) por radiólogos que usan el sistema BI-RADS para interpretar ecografías de mama mejora la precisión diagnóstica en la detección de malignidad en las lesiones detectadas por ultrasonido, en comparación con no usar el programa B-CAD.
5
MARCO TEÓRICO Y JUSTIFICACIÓN
La ultrasonografía de mama es, en conjunto con la mamografía, una técnica reconocida en la valoración de la patología mamaria. En la práctica actual el ultrasonido se utiliza para evaluar anomalías en la palpación, en la evaluación de los senos densos al examen mamográfico y en la evaluación de anormalidades focales en la mamografía, con caracterización de las mismas entre lesiones quísticas o sólidas. Varios estudios han mostrado que radiólogos experimentados pueden caracterizar con gran certeza las lesiones y diferenciar los nódulos entre malignos y benignos (13).
Sin embargo, la introducción de esta técnica inicialmente no fue ampliamente aceptada por las dificultades para caracterizar y clasificar los nódulos quísticos y sólidos en benignos o malignos (13). Una de las estrategias para evaluar el desempeño diagnóstico de la ecografía fue la de estandarizar la descripción de las imágenes y de los reportes de los estudios, estrategia que fue exitosa en los estudios mamográficos. La estandarización de los términos y reportes se logró con la introducción del sistema BI-RADS ultrasonográfico en el año 2001.
El BI-RADS ecográfico incluye la definición de 27 características de las masas en estudio, aplicables a su forma, orientación, márgenes, límites, patrón ecográfico, características del refuerzo ecográfico y tejidos adyacentes; también incluye la definición de calcificaciones, vascularidad y una categoría de casos especiales. Estos hallazgos permiten clasificar los pacientes en 7 categorías similares a las utilizadas en los estudios mamográficos (4). Estas 6
categorías contemplan una conducta implícita en el manejo de las lesiones encontradas que van desde el BI-RADS 1, que es conclusivo de benignidad y no amerita seguimiento ni control, hasta el BI-RADS 5, que indica una alta probabilidad de malignidad y recomienda realizar una biopsia de la lesión. La categoría 6 corresponde a los hallazgos de estudios de seguimiento en casos malignos previamente confirmados. A continuación se resumen brevemente las categorías BI-RADS y sus conductas (Tabla 1):
Tabla 1. Categorías BI-RADS Categoría
Interpretación
Conducta
BI-RADS 0
Evaluación incompleta
Estudios previos, examen adicional
BI-RADS 1
Normal
Continuar controles rutinarios
BI-RADS 2
Hallazgos benignos
Continuar controles rutinarios
BI-RADS 3
Probablemente benigno
Control en 6 meses
BI-RADS 4
Sospechoso de malignidad
Biopsia
BI-RADS 5
Maligno
Biopsia
BI-RADS 6
Lesión maligna conocida
Seguimiento, respuesta a terapia
La categoría BI-RADS 0 implica un seno que debe ser evaluado en forma complementaria mediante otra técnica debido a imágenes técnicamente limitadas o incompletas. La categoría BI-RADS 6 es un examen de seguimiento de un cáncer ya conocido. La categoría BI-RADS 4 se ha subdividido a su vez en tres categorías: 4a con un riesgo pequeño, 4b con un riesgo moderado y 4c que implica un riesgo sustancial de cáncer de seno. El riesgo esperado de
7
cáncer para la categoría 4a oscila entre 3% a 49%, y para las categorías 4b y 4c oscila entre 50% a 89%. Todos los nódulos en estas categorías tienen indicación de biopsia. La conducta definida como controles rutinarios implica continuar con los controles previstos de acuerdo a la edad de la paciente, que generalmente se realizan entre 12 a 24 meses (4).
En la práctica diaria la tasa de biopsias positivas para lesiones de seno oscila entre un 15% y 30% (3,2). Para reducir la ansiedad en las pacientes sometidas a biopsia y reducir los costos en salud es deseable reducir el número de biopsias de lesiones benignas sin perder las lesiones malignas. Los resultados de estudios mamográficos previos con utilización de CAD han mostrado que la certeza diagnóstica de los radiólogos en distinguir lesiones benignas de malignas mejora cuando se usa el CAD como una segunda opinión (14,15).
Con el objeto de localizar estudios que hubieran evaluado la utilización de sistemas CAD en exámenes ultrasonográficos de lesiones del seno se realizó una búsqueda bibliográfica en la base de datos MEDLINE, empleando las palabra “BI-RADS”, “computer assisted diagnosis ultrasound”, “computer assisted diagnosis breast”, “computer assisted diagnosis breast ultrasound”, y “computer aided diagnosis”. Además se realizó una revisión de las referencias bibliográficas de los artículos relevantes localizados en la búsqueda en la base de datos. También se realizó una búsqueda manual y electrónica de los contenidos de los congresos de la “Radiological Society of North America” en los últimos tres años. La búsqueda cubrió el período desde 1993 (año de introducción del BI-RADS) hasta el 1 de Febrero de 2011.
8
Se encontraron 18 artículos que describen el desarrollo y el uso de sistemas CAD en la evaluación de lesiones de seno mediante ultrasonido (cinco de ellos publicados desde la presentación del protocolo de esta tesis). Dos artículos evaluaron en forma simultánea las lesiones de seno mediante ultrasonido y mamografía en estaciones de trabajo con CAD (16,17). Dos publicaciones describieron sistemas CAD primitivos para evaluación de nódulos de seno mediante ultrasonido (18,19). Otro más describió un sistema CAD para valoración volumétrica de lesiones de seno por ultrasonido (20). Tres publicaciones describieron sistemas de inteligencia artificial para valoración de lesiones de seno (21,22,23), y otra el análisis de la textura ultrasonográfica de las lesiones de seno (24). Dos artículos describen sistemas CAD para algunas categorías específicas del BI-RADS, y no para todas ellas (25,26). Cuatro publicaciones evaluaron la lectura de radiólogos con y sin la ayuda del CAD (20,27,28,29). Se encontró un comunicado de prensa con la mención de un trabajo presentado en el Congreso Anual del Consorcio Nacional de Centros de Seno (18th anual Conference National Consortium of Breast Centers, Las vegas, EE.UU Marzo 1-5 de 2008) en el cual se estudiaron 100 nódulos con una mejoría en la sensibilidad del 44% en la detección de lesiones malignas de menos de un centímetro de tamaño, sin embargo no se conocen otros detalles del desarrollo de esta investigación (30). Las cinco publicaciones más recientes evalúan sistemas CAD. Tres artículos evalúan los sistemas al analizar lesiones con correlación histológica y no evalúan el desempeño de radiólogos (31,32,33). La Tabla 2 resume las publicaciones que compararon la lectura de observadores antes y después de algún sistema CAD.
9
Referencia
Tabla 2. Resumen de las publicaciones encontradas No. de lesiones Observadores Medición
Recolección
Sahiner (20)
101 lesiones: 45 benignas 56 malignas
5 radiólogos dedicados a imágenes de seno, con 3-26 años de experiencia
Área promedio bajo la curva: Sin CAD 0,83 Con CAD 0,90
Retrospectiva
Shen (27)
626 casos: 407 benignos 219 malignos
5 radiólogos
Sensibilidad 98,2% Especificidad 59,5% Mejoría del 5,9 y 8,8 con CAD
Retrospectiva
Wang (28)
168 lesiones: 85 benignas 83 malignas
8 radiólogos
Área ROC Sin CAD 0,81 0,86 Con CAD. 0,86 - 0,89 No promedios
Retrospectiva
Horsch(29)
110 lesiones: 51 malignas 59 benignas
6 radiólogos 6 mamografistas
Área ROC. 0,83 - 0,87 mamografistas 0,80 - 0,84 radiólogos
Retrospectiva
En las publicaciones previas se emplearon sistemas CAD diferentes al utilizado en este trabajo, que no tienen la aprobación de la FDA con la que cuenta el programa B-CAD de la firma Medipattern. La publicación de Sahiner utilizó un programa CAD con imágenes tridimensionales de las lesiones de seno. Se compararon las áreas ROC de 5 observadores antes y después del uso del CAD, con mejoría del área del 7% con el uso del CAD (20). La publicación de Shen involucró la delimitación manual de los contornos de las lesiones por dos radiólogos expertos, que se comparó con la delimitación de los contornos hecha por el programa, sin comparar las áreas ROC de los observadores (27). El estudio de Wang comparó las áreas
10
ROC individuales, sin utilizar las áreas promedio de los 8 radiólogos antes y después de la utilización de un sistema CAD. Este trabajo también utilizó el sistema BI-RADS. Cuatro observadores eran residentes de radiología y cuatro radiólogos con más de 8 años de experiencia. En esta publicación no se hace comparación de las áreas promedio entre los grupos. Las áreas sin CAD oscilaron entre 0,81 y 0,86 y con CAD oscilaron entre 0,86 y 0,89 (28). Por último, la publicación de Horsch evaluó un sistema CAD que consideró los contornos de la lesión identificada en ultrasonido y cuatro características de la imagen que incluyeron la forma, los márgenes, la ecogenicidad y las características acústicas posteriores. En este trabajo no se utilizó el sistema BI-RADS ni su léxico. Este trabajo evaluó doce observadores, 6 mamografistas y 6 radiólogos altamente experimentados, con incremento de las áreas de las curvas ROC del 4% en los dos grupos (29).
En las publicaciones mencionadas anteriormente se encuentran diseños similares al utilizado en este trabajo, con varios observadores comparando las curvas ROC antes y después del uso de un sistema CAD. Sin embargo, el hecho de utilizar varios observadores no hace que estos estudios se consideren necesariamente de múltiples observadores. Los trabajos mencionados no cumplen estrictamente el diseño de múltiples observadores - múltiples observaciones porque los métodos analíticos utilizados no contemplaron el cálculo de las áreas promedio de todos los observadores, ni se utilizaron los métodos estadísticos para el cálculo de las áreas que se describirán en la sección de análisis.
También se encontraron dos resúmenes de presentaciones de trabajos en el congreso de la RSNA en noviembre de 2010 en Chicago, EE.UU.: 11
CODIGO: LL-BRE329 BI-RADS Tutor®: CAD-based Advanced Electronic Teaching File for BI-RADS Training in Assessment and Breast US Reporting .Michael Galperin. Phd.
CODIGO: LL-BRS-MO3A Subcategorization of Ultrasonographic (US) BI-RADS Category 4: Positive Predictive Values and Affecting Factors. Jung Hyun Yoon. MD.
En estos trabajos se describe la utilidad de un sistema CAD para la enseñanza del sistema BI-RADS, en las características de las lesiones y en la aplicación del léxico del sistema. También se describen los valores predictivos positivos de las subcategorías BI-RADS 4ª, 4b y 4c.
Una de las aplicaciones potenciales los sistemas de diagnóstico asistido por computador CAD en el área del ultrasonido de seno es la de mejorar el desempeño diagnóstico de observadores no expertos.
La disponibilidad de radiólogos expertos dedicados casi exclusivamente a la interpretación de estudios ultrasonográficos de patología mamaria en nuestro país es muy limitada, existiendo algunos centros en ciudades como Bogotá, Medellín y Cali que tienen altos volúmenes de estas patologías. Si los programas de diagnóstico asistido por computador mejoran el desempeño diagnóstico de radiólogos no expertos hasta niveles cercanos o iguales al de los radiólogos expertos, el impacto que esto tendría en la mejoría en la interpretación de los estudios de ultrasonido en estos centros de radiología de práctica general sería muy importante, mejorando la detección de lesiones malignas y reduciendo el número de biopsias innecesa-
12
rias. Por otra parte, si el sistema B-CAD mejora la certeza diagnóstica de los observadores expertos, el impacto en los centros altamente especializados tendría igualmente, grandes implicaciones en el manejo de estos pacientes.
13
PREGUNTA Y OBJETIVOS DE LA INVESTIGACIÓN
PREGUNTA DE INVESTIGACIÓN
¿En radiólogos en nuestro medio que usan el sistema BI-RADS para interpretar ecografías de mama, el uso de un programa de diagnóstico asistido por computador (B-CAD 2.2, Medipattern Corporation, Toronto, Canadá) mejora la certeza diagnóstica (medida como el área debajo de la curva ROC) en la detección de malignidad, comparada con la evaluación sin su uso?
3.1 OBJETIVO PRIMARIO:
Determinar si la introducción de un programa de diagnóstico asistido por computador BCAD mejora la certeza diagnóstica, medida como el área promedio bajo la curva ROC, en la determinación de benignidad o malignidad de las lesiones focales de seno evaluadas por ultrasonido cuando se compara con lo observado por los mismos evaluadores sin el empleo del programa.
3.2 OBJETIVOS SECUNDARIOS
3.2.1 Determinar si existen diferencias en la certeza diagnóstica intra observadores, al realizar análisis por subgrupos de los observadores según el grado de experticia, antes y después del uso del programa B-CAD, medida como área promedio debajo de la cur-
14
va ROC en la determinación de benignidad o malignidad de las lesiones focales de seno evaluadas por ultrasonido.
3.2.2 Determinar si existen diferencias en la certeza diagnóstica entre los observadores, al realizar un análisis por subgrupos, según el grado de experticia, antes y después del uso del programa B-CAD, medida como área promedio debajo de la curva ROC en la determinación de benignidad o malignidad de las lesiones focales de seno evaluadas por ultrasonido.
3.2.3 Establecer el índice de área parcial e índice parcial promedio por encima de una especificidad del 90% con y sin el uso del B-CAD entre los diferentes observadores.
15
MÉTODOS.
4.1 TIPO DE ESTUDIO:
Estudio de curvas ROC (receptor operador) de múltiples observadores - múltiples casos (MRMC, multiple reader - multiple cases) en las que se evaluará el área bajo la curva ROC de los observadores en la evaluación de lesiones focales de seno detectadas por ultrasonido determinando o no la presencia de malignidad, antes y después de la utilización de B- CAD.
Los estudios de certeza de las pruebas diagnósticas se pueden clasificar en diferentes fases. La clasificación propuesta por Zhou, Obuchowski y Mclish (34) considera tres fases en la evaluación de la certeza de las pruebas diagnósticas (Tabla 3).
Fases de los estudios de certeza en pruebas diagnósticas Fase
Diseño típico
Plan de muestreo típico
Medida de certeza
1. Temprana o exploratoria
Retrospectivo 10-50 pacientes
Casos típicos de enfermedad contra sujetos normales (generalmente voluntarios sanos)
Estimados crudos del área bajo la curva ROC y tasa de falsos positivos
2. Intermedia o “de desafío”
Retrospectivo 10-100 pacientes
Casos del espectro de enfermedad con condiciones clínicas que semejen enfermedad
Área bajo la curva ROC, tasa de falsos positivos o falsos negativos
3. Avanzada o “clínica”
Prospectivo
Tamaño de muestra y observadores mucho más amplio
Dependiendo de la aplicación. Áreas parciales bajo las curvas ROC
16
El estudio a realizar se consideró como una fase II para efectos del diseño del protocolo. Esta consideración es muy importante para efectos del cálculo del tamaño de muestra y el muestreo de las lesiones y de los observadores (34, 35,36).
4.2 POBLACIÓN DE LAS IMÁGENES
4.2.1 POBLACIÓN DE REFERENCIA Mujeres que asisten a los servicios de imágenes diagnósticas para evaluación de patología mamaria mediante ultrasonido.
4.2.2 POBLACIÓN ELEGIBLE Mujeres que asisten a la Fundación Santa Fe de Bogotá para evaluación de patología mamaria mediante ultrasonido, con imágenes nodulares que hayan sido sometidas a biopsia o imágenes nodulares que hayan permanecido estables en el seguimiento ecográfico por al menos 2 años, y en quienes se disponga de las imágenes ultrasonográficas.
4.3 SELECCIÓN DE LAS IMÁGENES
Se incluyeron 60 alteraciones focales ecográficas, en las cuales se disponía de correlación anatomopatológica o estabilidad en la morfología y tamaño en los controles ultrasonográficos de al menos dos años como criterio de benignidad. Se hizo una distribución balanceada, 1 a 1, entre las lesiones malignas y benignas, tratando de que también existiera 17
una distribución balanceada en las diferentes categorías BI-RADS. Las categorías BI-RADS 0 y 6, por su naturaleza (evaluación incompleta y lesión maligna conocida, respectivamente), no se consideraron en el estudio debido a que se analizaron lesiones con imágenes adecuadas y completas y los observadores no conocían la histopatología de las lesiones.
Para asegurar una distribución balanceada de las lesiones malignas en sus diferentes espectros de presentación se tuvieron en cuenta las siguientes consideraciones:
1. El carcinoma ductal infiltrante constituye el 80% de todas las formas de cáncer mamario (lesiones malignas). Los casos de carcinoma ductal que se incluyeron tuvieron una distribución balanceada de acuerdo a la graduación de Scarff-BlommRichardson, escala que tiene en cuenta la formación tubular, el tamaño nuclear y la cuenta de mitosis. Esta escala valora cada ítem del 1 al 3 y es similar a la graduación de Gleason utilizada en el cáncer de próstata (37). Se incluyeron 10 casos de lesiones neoplásicas catalogadas como grado 1, 10 lesiones neoplásicas grado 2 y 10 lesiones neoplásicas grado 3. Dentro de las lesiones grado 1, se incluyeron un carcinoma intralobulillar y dos carcinomas papilares. El promedio de edad de las pacientes con lesiones malignas fue 51,4 años, con un rango de edad de 40-85 años. El ancho y el alto promedio de las lesiones malignas fue de 14,2 y 12,9 mm, con un rango de 3-25 y 7-40 mm, respectivamente. Se hizo una enumeración detallada de las lesiones malignas (Anexo 1).
18
2. Las lesiones benignas se seleccionaron tratando de que existiera una distribución que abarcara las diferentes categorías BI-RADS. El promedio de edad de las pacientes con las lesiones benignas fue de 45,2 años, con un rango de 24 -45 años. El ancho y el alto promedio de los nódulos fue de 14,3 y 8,3 mm, con rangos de 3-25 y 3-17 mm respectivamente. Se incluyeron 13 fibroadenomas, 5 cambios por adenosis y 12 lesiones que abarcaron mastopatía proliferativa o fibroquística con hiperplasia ductal, estromal, columnar, quistes simples y un quiste abscedado. Se hizo una enumeración detallada de las lesiones benignas (Anexo 2).
Las imágenes se obtuvieron en forma retrospectiva y prospectiva de las pacientes de los servicios de ultrasonido y de cirugía de seno de la Fundación Santa Fe de Bogotá, quienes fueron evaluadas mediante estudio de ecografía o biopsia de seno y en quienes rutinariamente se utilizó el sistema BI-RADS al hacer el reporte ecográfico. Todas las lesiones tuvieron verificaciónón histológica.
4.3.1 CRITERIOS DE INCLUSIÓN
Se incluyeron las imágenes que mostraron lesiones o alteraciones focales ecográficas que se encontraron fotografiadas en al menos dos planos ortogonales, en formato de imagen DICOM o JPEG, obtenidas con transductor lineal de alta resolución (al menos 10 MHz) y en las que se dispusiera de resultados de anatomía patológica (para los casos sometidos a biopsia para confirmación por patología de la presencia o ausencia de malignidad) o de
19
estabilidad en su morfología en el seguimiento ecográfico por lo menos durante 2 años (para casos no sometidos a biopsia).
4.3.2 CRITERIOS DE EXCLUSION
Imágenes de lesiones que no incluyan por completo la lesión en los planos de imagen o con diagnósticos patológicos no conclusivos.
4.4 POBLACION DE LOS OBSERVADORES
El estudio de curvas ROC de múltiples lectores se ha convertido en una frecuente herramienta de investigación en radiología. Con esta herramienta un investigador puede comparar la certeza diagnóstica de los exámenes que se basan en la interpretación subjetiva de los estudios. Esto es importante porque muchos exámenes radiológicos son interpretados subjetivamente y existen diferencias substanciales en la habilidad de los lectores para interpretarlos. Por lo tanto un diseño con uno o dos lectores no puede medir apropiadamente la certeza de estos exámenes (38).
4.4.1 POBLACIÓN DE REFERENCIA. Radiólogos colombianos que realizan e interpretan estudios de ultrasonido de mama.
4.4.2 POBLACIÓN ELEGIBLE. 20
Radiólogos y residentes de radiología de la Fundación Santa Fe de Bogotá que realizan e interpretan estudios ultrasonográficos de seno.
4.5. SELECCIÓN DE LOS OBSERVADORES
Por el tipo de estudio de múltiples observadores y por las consideraciones del tamaño de muestra (ver más adelante) se consideró necesaria la participación de 6 observadores. La distribución de los observadores pretendió ser lo más amplia posible, reflejando los distintos grados de experiencia y capacitación y así evitar el sesgo de selección de los observadores.
Por razones de logística se incluyeron únicamente observadores de la Fundación Santa Fe de Bogotá. Se incluyeron dos observadores experimentados (5 a 10 años de experiencia) en ultrasonido de seno, con dedicación de al menos un 30% de su tiempo en la realización e interpretación de estudios de ultrasonido de seno, dos radiólogos generales con formación completa en ultrasonido y que dedican aproximadamente un 10% de su tiempo a la realización de estudios de ultrasonido de seno, y dos residentes de 4to. año de radiología que finalizaron su entrenamiento ultrasonográfico.
Con el propósito de evaluar los objetivos secundarios se consideraron tres subgrupos de la siguiente forma: dos observadores con un nivel alto de experiencia (expertos), dos observadores con un nivel medio de experiencia (moderadamente expertos) y dos observadores novatos.
21
4.6 TAMAÑO DE LA MUESTRA
Según el método descrito por Obuchowski (36), se realizó un estudio de curvas ROC de múltiples observadores de datos correlacionados. La hipótesis nula es que los promedios del área bajo de las curvas son iguales y la hipótesis alterna es que los promedios del área bajo de la curva son diferentes.
Ho : µ1 = µ2
Ha : µ1 ≠ µ2
Donde µi (i=1,2) es el promedio de áreas bajo la curva para la población de observadores. Se consideró una diferencia en el área promedio de las curvas de 10% como clínicamente relevante.
Corresponde a una distribución F no central que se utiliza en el cómputo del poder y el tamaño de muestra (39). Los parámetros se describen a continuación (Tabla 4):
Ј∆² λ=
_______________________________________ 2(σb²(1-rb)+ σw²/k+ σc²[(1-r1)+(J-1)(r2-r3)]
22
Tabla 4. Parámetros utilizados en el cálculo del tamaño de muestra Parámetro
Descripción
Ј
Número de observadores
∆
µ1 - µ2, diferencia sospechada
σb²
Variabilidad inter-observadores con el mismo examen y los mismos sujetos
σw²
Variabilidad inter-observador con el mismo examen y los mismos sujetos en dos lecturas diferentes
σc²
Variabilidad dentro de la muestra de sujetos
r1
Correlación entre las certezas diagnósticas estimadas de la misma muestra de pacientes y por el mismo observador usando exámenes diferentes
r2
Correlación entre las certezas diagnósticas estimadas de la misma muestra de pacientes por observadores diferentes usando el mismo examen
r3
Correlación entre las certezas diagnósticas estimadas de la misma muestra de pacientes por observadores diferentes usando diferentes exámenes
rb
Correlación entre las certezas diagnósticas obtenidas cuando el grupo de observadores evalúa la misma muestra de sujetos usando diferentes exámenes
La Tabla 5, extraída del artículo de Obuchowsi (39), simplifica los cálculos y muestra los diferentes tamaños de muestra, dependiendo del grado de certeza alta o baja, de la prueba diagnóstica (área bajo la curva de 0,75 ó 0,90 respectivamente), de la diferencia esperada con las presunciones anotadas previamente (pequeña: 0,05, moderada: 0,10, grande: 0,15), de la relación de casos con y sin la condición y con los niveles de variación interobservador e intraobservador de 0,05. Se observa el importante efecto de disminución en el tamaño de la muestra al aumentar el número de observadores:
23
Tabla 5. Tamaño de muestra para estudios de certeza diagnóstica de múltiples observadores, múltiples observaciones (39)
Obuchowski N. Sample size calculations in studies of test accuracy. Stat Methods Med Res 1998;7:371-92.
24
La medida de certeza (accuracy) es el área debajo de la curva ROC. Después de revisar la literatura se encontró que la certeza diagnóstica supuesta de los observadores es alta, con una área de 0.90. Asumimos que una diferencia en la certeza de las dos observaciones sin y con el B-CAD de al menos 0.10 es clínicamente significativa. Con una frecuencia de pacientes con y sin la condición de 1:1, una variación interobservadores moderada (definida como una variación interobservador o interobservador del 0,05 en los valores de certeza (20)), y utilizando 6 observadores se considera un tamaño de muestra de 39 casos (asumiendo un poder del 80%, un error alfa de 0.05 y una hipótesis a dos colas) (26). Se asumió una correlaciónón entre las dos lecturas de 0.47, que corresponde al valor promedio de las correlaciones encontradas por Rockette (35); aunque un estudio con un diseño similar encontró correlaciones de 0.90 (20), para efectos de mayor poder se consideró el estimativo promedio de Rockette. La gran ventaja de este diseño, al aumentar el número de observadores, es la importante disminución en los requerimientos en el número de nódulos. Al considerar el diseño balanceado de un caso maligno por cada caso benigno, y con el fin de incluir un mayor espectro de lesiones malignas, se decidió aumentar el tamaño de muestra en un 50% y utilizar 60 observaciones, 30 de nódulos malignos y 30 de nódulos benignos, para un total de de 360 observaciones sin el uso del B-CAD y 360 observaciones con el uso del B-CAD.
4.7. PROCEDIMIENTO DE OBSERVACIÓN
Las imágenes seleccionadas se revisaron en una pantalla de lectura de alta definición. Esta pantalla permite hacer mediciones del tamaño y variar el brillo y el contraste, así como magnificar las imágenes. El orden de presentación de las imágenes se estableció de manera alea25
toria mediante una lista de números aleatorios para cada observador. No se realizó ningún entrenamiento o capacitación previa del sistema BI-RADS en estos observadores, para simular las condiciones de la práctica general durante la realización de estudios ecográficos de seno. Antes de iniciar el estudio se adelantó una reunión preliminar con los observadores para explicar el tipo de estudio, mostrar los formatos de recolección de datos (Anexos 2 y 3), aclarar las dudas e inquietudes en el diligenciamiento y corregir posibles deficiencias en su diseño. Con los observadores se realizó un entrenamiento y capacitación en el uso del programa B-CAD empleando las imágenes y casos disponibles en el programa (30 casos diferentes), que también se usaron para practicar la recolección de la información.
Se realizó un procedimiento de lectura secuencial en dos pasos con el análisis de cada imagen, primero sin la utilización del B-CAD, e inmediatamente utilizando el B-CAD. En cada lectura los observadores evaluaron las imágenes utilizando el sistema BI-RADS para describir las lesiones y para asignar a cada imagen una de las categorías finales de la clasificación. Para ello se usaron los formularios de recolección de datos (Anexos 3 y 4).La lectura secuencial inmediata mostró ser la forma más sensible para demostrar posibles diferencias cuando se realizan estudios comparando lectura asistida y no asistida por computador; además es la que menos demandas logísticas y de tiempo de lectura exige a los observadores (40). Por otra parte, este método de lectura secuencial semeja las condiciones en las que se utilizaría el programa B-CAD en forma rutinaria en la práctica diaria. Para evitar los efectos de la fatiga en los observadores se realizaron tres sesiones de interpretación de las imágenes con un intervalo de tiempo entre las mismas de aproximadamente 2 a 3 días. 26
El Anexo 5 presenta un ejemplo de la interfase del programa, de la segmentación de las imágenes y de la evaluación utilizando el léxico y las categorías BI-RADS.
La interpretación inicial del radiólogo no se modificó después de lectura con el uso del BCAD. Los observadores no conocían la prevalencia de lesiones malignas y benignas en el conjunto de las 60 imágenes evaluadas, ni los resultados del estándar de oro. Durante la conducción del estudio no se revisaron ni se discutieron los resultados de la evaluación de cada observador. Tampoco se suministró información adicional como la edad de las pacientes, sus antecedentes ni los hallazgos de estudios relacionados, como estudios mamográficos. Estas condiciones “experimentales” se consideran adecuadas para estudios de evaluación de certeza de pruebas diagnósticas en fase II.
El protocolo de esta investigación fue sometido a revisión y aprobación por parte del Comité de Ética en Investigación de la Fundación Santa Fe de Bogotá. De acuerdo con la resolución 8430 de 1993 del Ministerio de Salud, en estudios sin riesgo el Comité de Ética en Investigación no consideró necesario obtener un consentimiento informado y así lo expresó por escrito al investigador en su comunicación CCEI-646-2088 del 23 de Julio de 2008 (Anexo 6).
27
4.8 VARIABLES
4.8.1 Área bajo la curva ROC: La medida de certeza (accuracy) de la prueba diagnóstica que se manejó en este proyecto fue el área bajo la curva ROC. El área bajo la curva oscila entre 0 y 1, considerándose perfecta una prueba que tiene un área de 1 y no discriminatoria la que tiene un área de 0,5. El área debajo de la curva tiene varias interpretaciones: A. Es el valor promedio de la sensibilidad para todos los posibles valores de especificidad. B. Es el valor promedio de especificidad para todos los valores posibles de sensibilidad. C. Es la probabilidad de que un paciente con la enfermedad, seleccionado aleatoriamente, tenga un resultado de la prueba que indique mayor grado de sospecha que un paciente sin enfermedad, también seleccionado aleatoriamente. Si se supone que el área ROC de la mamografía en un estudio es de 0.82 y se seleccionan dos pacientes aleatoriamente, uno con cáncer de seno y otro sin él, la probabilidad de que el paciente con cáncer tenga un resultado sugestivo de cáncer de seno es de 0,82. Dicho de otra forma, es la probabilidad de que el resultado del examen diagnóstico ubique en una posición de mayor grado de sospecha al paciente con enfermedad que al paciente sin enfermedad (41). Es una variable continua.
4.8.2 Área promedio bajo la curva ROC: Se calcula promediando el área promedio debajo de la curva de los diferentes observadores. Es una variable continua.
28
4.8.3 Área Parcial debajo de la curva (APDC): El área parcial debajo de la curva (APDC, PAUC - partial area under the ROC curve) corresponde al área debajo de la curva ROC definida por dos valores de la tasa de falsos positivos. En el presente estudio se evaluó el área bajo la curva con una tasa de falsos positivos entre 0 y 10%. Es una variable continua. 4.8.4 Área promedio parcial bajo la curva ROC: corresponde al promedio de las áreas parciales bajo la curva de los diferentes observadores. Es una variable continua.
4.8.5 Índice de área Parcial bajo la curva: El APDC dividido por el valor máximo de falsos positivos se conoce como el índice de área parcial (Partial area index). Se interpreta como la sensibilidad promedio para la tasa de falsos positivos. Es una variable continua.
4.8.6 LÉXICO INCLUIDO EN EL BI-RADS.
El Anexo 7 presenta todos los términos incluidos en el léxico del BI-RADS y sus categorías de evaluación, tal y como aparecen en la definición establecida por el ACR. Variable nominal.
4.8.7 CATEGORÍAS BI-RADS.
Se incluyen las 7 categorías, de 0 a 6. Ver Tabla 1.
29
4.8.8
VARIABLES DE LA POBLACIÓN DE ESTUDIO
Se incluyeron los datos demográficos:
4.8.8.1 Edad de las mujeres sometidas a ultrasonido y de quienes se obtuvieron las imágenes de los nódulos a evaluar. Variable continua.
4.8.8.2 Porcentaje de nódulos malignos y benignos. Distribución histopatológica de las lesiones. Variable continua.
4.8.8.3 Número de nódulos que fueron llevados a biopsia. Variable continua.
4.8.8.4 Tamaño de los nódulos. Variable continua.
4.8.8.5 Clasificación histológica Scarf-Bloom-Richardson. Variable ordinal.
4.9 VARIABLES DE LOS EVALUADORES.
4.9.1 Años de experiencia en la utilización del sistema BI-RADS. Variable continua.
4.9.2 Nivel de experiencia: radiólogo o residente. Variable ordinal.
30
Tabla 6. Resumen de las variables del estudio Variable
Nombre
Definición
Tipo
Medición
Dependiente primaria
Área bajo la curva ROC
Es el valor promedio de la sensibilidad para todos los posibles valores de especificidad
Continua
0 a 1. Porcentual
Dependiente secundaria
Área promedio bajo la curva ROC
Área debajo de la curva ROC definida por dos valores de la tasa de falsos positivos o de sensibilidad
Continua
0 a 1. Porcentual
Dependiente secundaria
Área Parcial debajo de la curva (APDC)
Promedio de las áreas parciales bajo la curva de los diferentes observadores
Continua
Porcentual
Dependiente secundaria
Índice de área Parcial bajo la curva
El APDC dividido por el valor máximo de falsos positivos
Continua
Porcentual
Independiente Términos BIRADS
Ver texto
Nominal
Frecuencia
Dependiente
Categorías BIRADS
Ver texto
Ordinal
Frecuencia
Independiente Variables de la población.
Ver texto
Continua
Independiente Años de experiencia.
Ver texto
Continua
Años. Porcentaje de malignidad. Milímetros. Años.
Control
Ver texto
Ordinal
Frecuencia.
Clasificación patológica
31
4.10 ANÁLISIS DE LA INFORMACIÓN
La sensibilidad y la especificidad son las mediciones básicas de certeza de una prueba diagnóstica; sin embargo, sus valores dependen del punto de corte usado para definir un resultado positivo o negativo. Por consiguiente al desplazar este punto de corte la sensibilidad y la especificidad también se modifican o desplazan. Las curvas ROC son una representación gráfica de la sensibilidad de una prueba contra su tasa de falsos positivos para todos los posibles puntos de corte (41). Las curvas ROC no utilizan como definición de certeza diagnóstica (accuracy) el porcentaje de diagnósticos correctos de una prueba, definición que es afectada por la prevalencia de enfermedad y que se calcula con base en un punto de corte único. El concepto de certeza diagnóstica utilizada en las curvas ROC es multicorte y es independiente de la prevalencia, permitiendo la visualización y la comparación directa de dos o más pruebas diagnósticas en una escala común y para todos los puntos de corte posibles.
El área parcial debajo de la curva (APDC, PAUC partial área under the ROC curve) en casos de pruebas diagnósticas con altas sensibilidades (>80%) y con tasas de falsos positivos bajas (TFP < 0,10) es una medida de resumen de la certeza (accuracy) más adecuada que el área total bajo la curva. Para efectos de interpretación el APDC se divide por el valor máximo, dado por el rango de la tasa de falsos positivos (máximo - mínimo). El APDC dividido por el valor máximo de falsos positivos se conoce como el índice de área parcial IAP (PAI, Partial área index). Se interpreta como la sensibilidad promedio para la tasa de falsos positivos. El área parcial debajo de la curva APDC es especialmente útil para evaluar curvas ROC que se
32
cruzan y cuando las curvas ROC se extienden más allá del área clínicamente relevante de potencial de interpretación clínica (41).
Frecuentemente es conveniente hacer algunas presunciones acerca de la distribución de los resultados de la prueba y dibujar la curva ROC basada en esas presunciones. La curva generada se denomina Curva ROC ajustada (Fitted or smooth ROC curve). La distribución binormal es la distribución más comúnmente utilizada para la estimación de la curva ROC ajustada y considera la presencia de dos distribuciones normales: una para los resultados de los pacientes con cáncer de seno y otra para los resultados de los pacientes sin cáncer.
Los estudios de múltiples observadores y múltiples observaciones son generalmente diseñados como experimentos factoriales en los cuales los mismos pacientes reciben todos los exámenes diagnósticos y los mismos observadores interpretan los resultados de todos los exámenes diagnósticos. Típicamente involucran a una muestra de pacientes c (que incluyen pacientes con y sin la condición a estudiar), que han sido sometidos a dos exámenes diagnósticos (o en los que sus imágenes han sido exhibidas en dos modos diferentes o analizadas con dos o más algoritmos de computador diferentes, por ejemplo.). Las imágenes generadas por estas pruebas diagnósticas son interpretadas por una muestra r de lectores que se encuentran cegados a los diagnósticos finales de los pacientes y a las interpretaciones de los otros observadores. Este diseño factorial se conoce como un diseño apareado para el paciente y el lector.
33
Los diseños apareados tienen varias fuentes de variabilidad en la medición de la certeza diagnóstica; los más obvios son la variabilidad entre los pacientes y la variabilidad entre los lectores. También es importante considerar el grado de correlación que se puede encontrar entre las interpretaciones de los lectores: correlación entre los estimados de certeza entre los exámenes debido a que los mismos pacientes reciben cada examen, correlación entre los estimados entre los exámenes debido a que el mismo observador interpreta los resultados de cada examen, y correlación entre los estimados de certeza de los lectores debido a que los mismos observadores están interpretando las mismas imágenes.
Se dispone de varios métodos estadísticos para el análisis de los estudios de múltiples observadores múltiples casos (43,44). Para comparar el área debajo de las curvas ROC se dispone de 5 métodos estadísticos diferentes. Estos métodos asumen diferentes tipos de modelamientos. Una de las consideraciones más importantes en la selección del método de análisis es como los métodos asumen la variación en el desempeño de los lectores. En los estudios en los que la muestra de observadores no es generalizable a una amplia población de observadores y cuyas conclusiones solo se pueden aplicar a un grupo particular de observadores se asume un modelo de efectos fijos. En los estudios en los que los observadores representan una población amplia de observadores y en los que los estimativos del estudio se pueden generalizar a los pacientes y a los observadores de otras instituciones, el desempeño de los observadores se considera una fuente de variabilidad y se asume un modelo de efectos aleatorios. Otra de las consideraciones para elegir el método de análisis estadístico es como se analizan las diferencias en certeza diagnóstica encontradas entre los exámenes. Los diferentes métodos pertinentes se comparan brevemente a continuación (Tabla 7): 34
Tabla 7. Comparación de los métodos de análisis estadísticos en los estudios de múltiples observadores múltiples observaciones Característica
DBM
OR
MULTIWMW
BWC
HROC
Diferencias entre lectores
Fijo o aleatorio
Fijo o aleatorio
Fijo
Fijo o aleatorio
Fijo o aleatorio
Medición de certeza
Cualquiera de los índices ROC
Cualquiera de los índices ROC
Área bajo la curva
Cualquiera de los índices ROC
Cualquiera de los índices ROC
Base para comparación de las pruebas
Promedio de certezas
Promedio de certezas
Promedio de certezas
Promedio de certeza y varianza de las certezas
Promedio de certezas y varianza de las certezas
Programa disponible para el público
Si
Si
No
No
No
Nota: DBM = método de Dorfman-Berbaum-Metz; OR = método de Obuchowsky-Rockette; MULTIWMW = método de Wilcoxon-Mann-Whitney; BWC= método de Beiden-Wagner-Campbell; HROC = heirarchical ordinal regression for ROC curves, método de regresión ordinal jerárquica para curvas ROC (44).
Al comparar los diferentes métodos con tres bases de datos de tres estudios diferentes extraídos de la literatura, los métodos de Dorfman-Berbaum-Metz (DBM), Obuchowski-Rockette (OR), Beiden-Wagner-Campbell (BWC) y el método de análisis multivariado WilcoxonMann-Whitney dieron resultados idénticos para el modelo de efectos fijos. Los métodos de DBM, OR y BWC dieron las mismas inferencias al utilizar el modelo de efectos aleatorios (34,44). El método de OR o de ANOVA con corrección del test F asume que los índices de certeza tratados siguen un modelo con errores correlacionados, en el que la estructura de correlación se caracteriza por tres correlaciones: r1 es la correlación de los errores en el mismo lector usando diferentes exámenes diagnósticos, r2 es la correlación en los términos de error
35
de los diferentes lectores usando el mismo exámen diagnóstico, y r3 es la correlación en los términos del error de los diferentes lectores usando diferentes exámenes. Estas correlaciones son importantes para determinar el tamaño de muestra (34).
Siguiendo la metodología utilizada en estudios similares, se comparó el desempeño diagnóstico de cada observador con el patrón de oro calculando el área por debajo de la curva ROC. Todas las lesiones utilizadas en este estudio tuvieron evaluación histopatológica, incluyendo todas las lesiones benignas. La interpretación histopatológica fue realizada en forma independiente en el Departamento de Patología de la institución. Las categorías BIRADS 1 al 3 se consideraron como diagnósticas de benignidad y las categorías 4 en adelante como malignidad.
Para la comparación de las características operativas de los observadores antes y después de la introducción del sistema CAD se utilizó el análisis de áreas debajo de la curva ROC, este mismo análisis se usó para evaluar las diferencia encontradas entre los dos observadores.
El método de análisis estadístico escogido para determinar si la introducción de un programa de diagnóstico asistido por computador (BCAD 2.2) mejora la certeza diagnóstica, medida como el área promedio bajo la curva ROC, en la determinación de benignidad o malignidad de las lesiones focales de seno evaluadas por ultrasonido fue el de ObuchowskiRockette. Este método de análisis del área debajo de las curvas ROC es el más conservador en cuanto a la estimación del tamaño de muestra, tendiendo a su sobreestimación comparado con los métodos de DBM y BWC (34). Esto permite obtener intervalos de confianza más 36
precisos. Otra ventaja de este método es que no se requiere de estudios pilotos para el cálculo del tamaño de muestra y se dispone de un software abierto al público para su análisis. OBUMRM, disponible en http/:www.bio.ri.ccf.org/OBUMRM/OBUMRM.html (45).
Se consideró una diferencia del 10% en el área promedio de las curvas como estadísticamente significativa. En el presente trabajo se consideró muy importante poder extrapolar los resultados del estudio a una amplia población de radiólogos y a una amplia población de pacientes, por lo que se asumió un modelo de efectos aleatorios que permitiera esta extrapolación. El efecto de asumir este modelo que incluye una fuente adicional de variación al modelo de efectos fijos es la mayor amplitud que se puede encontrar en los intervalos de confianza.
Este método de análisis estadístico también se utilizó para determinar si existen diferencias en la certeza diagnóstica intraobservadores, al realizar análisis por subgrupos de los observadores, dependiendo del grado de experticia, antes y después del uso del programa de diagnóstico asistido por computador.
Para la evaluación del tercer objetivo del trabajo, determinar si existen diferencias en la certeza diagnóstica después del uso del programa de diagnóstico asistido por computador, medida como el área bajo la curva ROC, entre los observadores al realizar un análisis por subgrupos dependiendo del grado de experticia, se realizó un análisis mediante la estadística ANOVA del promedio de tres grupos.
37
Para el análisis de la información fue necesario compilar en un programa ejecutable el programa OBUMRM, escrito en lenguaje Fortran; esta compilación se realizó por parte del Ingeniero de sistemas Justin Toupin en Toronto, Canadá. Este programa requiere la introducción de los datos mediante la utilización del programa Notepad++. La introducción de los datos se realiza desde un formato desarrollado en Excel. En la salida del programa se comparan las curvas de los observadores con las diferentes modalidades de diagnóstico que se empleen (Figura 1).
Figura 1. Formato de salida programa OBUMRM
El programa no produce gráficos de las diferentes curvas ROC y la introducción de los datos es larga, tediosa y poco amigable. Este programa no permite el cálculo de las áreas parciales.
38
El programa DBM MRMC 2.1 desarrollado en conjunto en la universidad de Chicago y la Universidad de Iowa, por Dorfman-Berbaum–Metz, calcula las áreas bajo las curvas ROC. Este programa también está desarrollado para estudios multiobservador y multicaso y es otra metodología que se utiliza para estos estudios, similar a la de Obuchowski-Rockette. El programa DBM MRMC 2.2 tiene la capacidad de calcular áreas parciales. Este programa es gratuito y puede descargarse en: http://perception.radiology.uiowa.edu/ (46).
En la salida del programa se comparan las curvas de los observadores con las diferentes modalidades de diagnóstico que se empleen (Figura 2).
Figura 2. Formato de salida programa DBM MRMC 2.2
39
El programa MEDCALC Version 11.5.0 - © 1993-2011 MedCalc Software, Broekstraat 52, 9030 Mariakerke, Bélgica, http://www.medcalc.org/ (47), calcula las áreas bajos las curvas y grafica los resultados de hasta 6 observadores. En la salida del programa se comparan las curvas de los observadores con las diferentes modalidades de diagnóstico que se empleen (Figura 3).
Figura 3. Formato de salida programa MEDCALC
Comparison of ROC curves Variable 1 Variable 2 Variable 3 Variable 4 Variable 5 Variable 6 Classification variable Sample size Positive group : Negative group :
60 30 30
DIAGNOSIS = 1 DIAGNOSIS = 0
NOVATO1_SINCAD NOVATO2_SINCAD MODEXP1_SINCAD MODEXP2_SIN_CAD EXP1_SIN_CAD EXP2_SIN_CAD
a
NOVATO1_SINCAD NOVATO2_SINCAD MODEXP1_SINCAD MODEXP2_SIN_CAD EXP1_SIN_CAD EXP2_SIN_CAD DIAGNOSIS
AUC 0,805 0,750 0,793 0,762 0,663 0,782
SE a 0,0500 0,0558 0,0469 0,0589 0,0523 0,0531
95% CI b 0,682 to 0,896 0,621 to 0,853 0,669 to 0,887 0,635 to 0,863 0,529 to 0,780 0,656 to 0,878
SE a 0,0510 0,0553 0,0617
95% CI b 0,625 to 0,856 0,547 to 0,795 0,615 to 0,848
DeLong et al., 1988
NOVATO1_CON_CAD NOVATO2_CONCAD MODEXP2_CON_CAD
AUC 0,753 0,680 0,744
40
MODEXP1_CONCAD EXP1_CON_CAD EXP2_CAD
0,797 0,669 0,762
0,0530 0,0510 0,0546
0,674 to 0,890 0,536 to 0,786 0,635 to 0,863
Los datos de esta investigación se corrieron en el programa OBUMRM. Las gráficas de las diferentes curvas se realizaron con el programa MEDCALC; el cálculo de las áreas parciales se realizó mediante el programa DBM MRMC 2.2.
El análisis y discusión central se realizó con las categorías BI-RADS dada la alta variabilidad y baja concordancia para la utilización de la categoría BI-RADS ampliada encontrada en la literatura reciente (48).
41
RESULTADOS.
Este estudio utilizó 6 observadores con diferentes grados de experiencia en ultrasonido de seno y en el uso del sistema BI-RADS ultrasonográfico, incluyendo dos residentes de radiología que habían finalizado su entrenamiento en ultrasonido, dos radiólogos graduados cuya dedicación al ultrasonido de seno es parcial, y dos radiólogos que dedican al menos una tercera parte de su tiempo a esta modalidad de diagnóstico. Esta muestra de observadores abarca el espectro encontrado en la gran mayoría de departamentos de imágenes o instituciones dedicadas a la evaluación de patología mamaria en el país, en las cuales es raro encontrar radiólogos que dediquen en forma exclusiva todo su tiempo a la evaluación de la patología mamaria. Los observadores mencionados tampoco tenían un entrenamiento formal prolongado o sub-especialización en patología mamaria.
Las imágenes de las lesiones de seno evaluadas provinieron de mujeres con un amplio rango de edades y que tenían tamaños promedio. El promedio de edad de las pacientes con lesiones malignas fue 51,4 años, con un rango de edad de 40-85 años. El ancho y el alto promedio de las lesiones malignas fue de 14,2 y 12,9 mm, con un rango de 3-25 y 7-40 mm. El promedio de edad de las pacientes con las lesiones benignas fue de 45,2 años, con un rango de 24 -45 años. El ancho y el alto promedio de los nódulos fue de 14,3 y 8,3 mm, con rangos de 3-25 y 3-17 mm respectivamente. Todas las imágenes tuvieron comprobación histológica incluyendo formaciones quísticas las cuales fueron aspiradas ó sometidas a biopsia por su tamaño o sintomatología.
42
5.1.1 Resultados objetivo primario
Se realizó la comparación de las áreas promedio bajo las curvas ROC de los diferentes observadores sin y con el uso del programa B-CAD. Se ilustran las curvas encontradas y la comparación de las áreas promedio bajos las curvas (Fig. 4) y las áreas bajo las curvas (Tabla 8) utilizando el método de Obuchowski-Rockette (OR).
Fig. 4. Curva ROC PROMEDIO de todos los observadores sin y con B-CAD
100
Sensitivity
80
60 PROMEDIO SIN CAD PROMEDIO CON CAD 40
20
0 0
20
40 60 100-Specificity
80
43
100
Tabla 8. Áreas promedio de todos los observadores sin y con el uso de B-CAD.
Área promedio sin
Área promedio con
B-CAD
B-CAD
0,76
0,70
OR
Diferencia
IC95%
Nivel de significación
0,06
-0,06 a 0,18
0,26
OR=Obuchowski-Rockette;
El área promedio bajo la curva ROC de todos los observadores sin el uso del B-CAD calculada fue de 0,76 y con el uso del B-CAD fue de 0,70. No se encontraron diferencias estadísticamente significativas entre las áreas promedio bajo las curvas ROC sin y con el uso del B-CAD (p 0,26).
Los datos de este estudio se corrieron además en los programas MEDCALC y DBMMRMC 2.2 con resultados similares a los encontrados con el método de OBuchowski-Rockette .Estos resultados se resumen y comparan para el lector interesado en el anexo 8.
44
5.2 Resultados objetivos secundarios
5.2.1 Primer objetivo secundario
Comparación de las áreas intraobservadores
5.2.2 Resultados primer objetivo secundario.
Se realizó una comparación de las áreas bajo la curva ROC por grupos de observadores de acuerdo al grado de experiencia, antes y después del uso del programa B-CAD. Los resultados se resumen a continuación (Tabla 9):
Tabla 9. Áreas promedio bajo las curvas ROC sin y con B-CAD. Comparaciones
Observadores
Expertos Mod. Expertos Novatos
Área ROC sin B-CAD (IC95%) 0,72 (0,63 a 0,80) 0,78 (0,69 a 0,85) 0,78 (0,69 a 0,85)
Área ROC con B-CAD (IC95%) 0,71 (0,62 a 0,79) 0,77 (0,66 a 0,82) 0,72 (0,63 a 0,79)
Diferencia (IC95%)
P
0,008 (-0,0243 a 0,0401) 0,008 (-0,039 a 0,05) 0,06 (-0,008 a 0,11)
P = 0,63 P = 0,75 P = 0,02
Se encontró una diferencia estadísticamente significativa entre las áreas promedio bajo las curvas ROC sin y con el uso del B-CAD para los novatos, con disminución del área prome45
dio luego de la utilización del programa B-CAD. No se encontraron diferencias intraobservadores en las áreas bajo las curvas ROC sin y con el uso del B-CAD en los grupos de observadores moderadamente expertos y expertos. 5.3 Segundo objetivo secundario
Comparación de las áreas inter-observadores
5.3.1
Resultados segundo objetivo secundario
Se realizaron comparaciones inter-observadores por grupos comparando el desempeño de los observadores expertos, los observadores moderadamente expertos y los observadores novatos (Fig.5, Tabla 10).
Fig. 5. Curvas ROC áreas promedio por grupos, observadores novatos, moderadamente expertos y expertos sin y con el uso del B-CAD.
100
Sensitivity
80 NOVATOS_SINCAD NOVATOS_CON_CAD MODEXPERTOS_SINCAD MODEXPERTOS_CONCAD EXPERTOS_SIN_CAD EXPERTOS_CON_CAD
60
40
20
0 0
20
40
60
80
100
100-Specificity
46
Tabla10. Áreas promedio bajo las curvas ROC sin y con B-CAD. Comparación interobservadores por grupos.
Observadores
Área ROC
Observadores
(IC95%)
Área ROC
Diferencia
(IC95%)
(IC95%)
P
Expertos sin B-CAD
0,72 (0,63 a 0,80)
Novatos sin B-CAD
0,78 (0,69 a 0,85)
0,06 (-0,013 a 0,13)
P = 0,11
Expertos sin B-CAD
0,72 (0,63 a 0,80)
Novatos con B-CAD
0,72 (0,63 a 0,79)
0,003 (-0,07 a 0,08)
P = 0,9
Expertos con B-CAD
0,71 (0,62 a 0,79)
Novatos sin B-CAD
0,77 (0,69 a 0,85)
0,06 (-0,004 a 0,13)
P = 0.06
Expertos con B-CAD
0,71 (0,62 a 0,79)
Novatos con B-CAD
0,72 (0,63 a 0,79)
0,004 (-0,07 a 0,08)
P = 0,92
Expertos sin B-CAD
0,72 (0,63 a 0,80)
0,78 (0,69 a 0,85)
0,06 (-0,02 a 0,14)
P = 0,16
Expertos sin B-CAD
0,72 (0,63 a 0,80)
0,77 (0,66 a 0,82)
0,05 (-0,03 a 0,13)
P = 0,25
Expertos con B-CAD
0,71 (0,62 a 0,79)
0,78 (0,69 a 0,85)
0,07 (-0,017 a 0,15)
P = 0.12
Expertos con B-CAD
0,71 (0,62 a 0,79)
0,77 (0,66 a 0,82)
0,06 (-0,03 a 0,15)
P = 0,20
B-CAD
Novatos sin B-CAD
0,78 (0,69 a 0,85)
Mod. Exp. sin B-CAD
0,78 (0,69 a 0,85)
0,001 (-0,08 a 0,08)
P = 0,97
Novatos sin B-CAD
0,78 (0,69 a 0,85)
0,77 (0,66 a 0,82)
0,006 (-0,01 a 0,14)
P = 0,89
Novatos con B-CAD
0,72 (0,63 a 0,79)
0,78 (0,69 a 0,85)
0,06 (-0,02 a 0,13)
P = 0.09
Novatos con B-CAD
0,72 (0,63 a 0,79)
0,77 (0,66 a 0,82)
0,05 (-0,03 a 0,15)
P = 0,18
Mod. Exp. sin B-CAD Mod. Exp. con B-CAD Mod. Exp. sin B-CAD Mod. Exp. con
Mod. Exp. con B-CAD Mod. Exp. sin B-CAD Mod. Exp. con B-CAD
47
No se encontraron diferencias estadísticamente significativas entre las áreas bajo las curvas ROC al comparar los diferentes grupos de observadores entre sí.
En forma adicional, se realizó una comparación del desempeño de los observadores en forma individual. Esta comparación se hizo intraobservador antes y después del uso del B-CAD (Fig.6, Fig.7, Tabla 11).
Fig. 6. Curvas ROC de todos los observadores sin el uso del B-CAD
100
Sensitivity
80
NOVATO1_SINCAD NOVATO2_SINCAD MODEXP1_SINCAD MODEXP2_SIN_CAD EXP1_SIN_CAD EXP2_SIN_CAD
60
40
20
0 0
20
40 60 100-Specificity
80
48
100
Fig. 7. Curvas ROC de todos los observadores con el uso del B-CAD
100
Sensitivity
80
NOVATO1_CON_CAD NOVATO2_CONCAD MODEXP2_CON_CAD MODEXP1_CONCAD EXP1_CON_CAD EXP2_CAD
60
40
20
0 0
20
40 60 100-Specificity
80
49
100
TABLA 11 . Áreas bajo la curva ROC, individuales, de todos los observadores sin y con B-CAD.
Observadores
Área ROC sin B-CAD (IC95%) 0,66 (0,53 a 0,78)
Área ROC con B-CAD (IC95%) 0,67 (0,54 a 0,79)
Diferencia (IC95%)
P
0,01 (-0,05 a 0,07)
P = 0,83
Experto 2
0,78 (0,66 a 0,88)
0,76 (0,63 a 0,86)
0,02 (-0,01 a 0,05)
P = 0,23
Mod. Exp. 1
0,79 (0,67 a 0,89)
0,80 (0,67 a 0,89)
0,01 (-0,07 a 0,08)
P = 0,91
Mod. Exp. 2
0,76 (0,63 a 0,86)
0,74 (0,61 a 0,84)
0,02 (-0,04 a 0,08)
P =0,55
Novato 1
0,80 (0,68 a 0,90)
0,75 (0,62 a 0,86)
0,05 (-0,02 a 0,12)
P = 0,14
Experto1
Novato 2
0,75 0,68 0,07 P = 0,09 (0,62 a 0,85) (0,55 a 0,79) (-0,01 a 0,15) No se encontraron diferencias estadísticamente significativas en las áreas bajo las curvas ROC sin y con B-CAD al realizar una comparación individual intraobservador.
También se realizó una comparacion individual entre todos los observadores. Las diferentes comparaciones solo mostraron diferencias estadísticas en algunas de estas comparaciones, las cuales se resumen a continuación (Tabla 12):
50
TABLA 12 . Áreas bajo la curva ROC, comparaciónes interobservadores individuales, de todos los observadores sin y con B-CAD
Observador
Observador
Experto1 sin B-CAD
Área ROC (IC95%) 0,66 (0,53 a 0,78)
Novato1 sin B-CAD
Área ROC (IC95%) 0,80 (0,68 a 0,90)
Diferencia (IC95%) 0,14 (0,025 a 0,026)
Experto 1 sin B-CAD
P
0,66 (0,53 a 0,78)
Mod.Exp.1 sin B-CAD
0,79 (0,67 a 0,89)
0,13 (0,023 a 0,024)
P =0,02
Experto 1 sin B-CAD
0,66 (0,53 a 0,78)
Experto 2 sin B-CAD
0,78 (0,66 a 0,88)
0,12 (0,01 a 0,23)
P = 0,03
Experto 1 con B-CAD
0,67 (0,54 a 0,79)
Mod.Exp.1 con B-CAD
0,80 (0,67 a 0,89)
0,13 (0,0005 a 0,25)
P = 0,05
Novato 2 con B-CAD
0,68 (0,55 a 0,79)
Mod.Exp.1 con B-CAD
0,80 (0,67 a 0,89)
0,12 (0,006 a 0,23)
P = 0,04
P = 0,02
Se encontraron diferencias estadísticamente significativas entre las áreas bajo las curvas ROC sin utilizar B-CAD entre el experto 1 y el novato 1 con una diferencia del 14%, entre el experto 1 y el moderadamente experto 1 con una diferencia del 13%, entre el experto 1 y el experto 2 con una diferencia del 12%. En los casos anteriores el observador experto tuvo un desempeño inferior a los otros observadores.
Se encontraron diferencias estadísticamente significativas entre las áreas bajo las curvas ROC al utilizar B-CAD entre el experto 1 y el moderadamente experto 1 con una diferencia entre las áreas del 13% y entre el observador moderadamente experto 1 y el novato 2 con una diferencia entre las áreas del 12%, en estos casos también tuvo un mejor desempeño el observador moderadamente experto.
51
5.4 Tercer objetivo secundario
5.4.1 Áreas parciales y áreas parciales promedio
Establecer el área Parcial y el área parcial promedio, con una tasa de falsos positivos entre 0 y 10% sin y con el uso del B-CAD entre los diferentes observadores.
5.4.2 Resultados tercer objetivo secundario
5.4.3 Áreas parciales de los observadores
Se calculó el área parcial bajo la curva ROC con una tasa de falsos positivos entre 0 y 10%. (Especificidad del 90%).
El índice de las áreas parciales bajo las curvas ROC se calcula dividiendo estas por el valor máximo del intervalo con el que fueron calculadas de la siguiente manera:
Índice del área parcial. IAP = área parcial bajo la curva ROC / Límite superior del intervalo.
Las áreas parciales y los índices de las áreas parciales se resumen a continuación (tabla 13):
52
TABLA 13. Áreas parciales e Índices de áreas parciales bajo las curvas ROC de todos los observadores.
OBSERVADORES
NOVATO 1
Área parcial sin B-CAD 0,063
Área parcial con B-CAD 0,057
Índice de área parcial sin B-CAD 0,63
Índice de área parcial con B-CAD 0,63
NOVATO 2
0.049
0,035
0,49
0,35
MODERADAMENTE EXPERTO 1
0.027
0,005
0,27
0.05
MODERADAMENTE EXPERTO 2
0.028
0,016
0,28
0,16
EXPERTO 1
0.027
0,036
0,27
0,36
EXPERTO 2
0.054
0,049
0,54
0,49
Promedio de las Áreas.
0.041
0,033
0,41
0,33
Para el cálculo de las áreas parciales se utilizó el software DBMMRMC versión 2,2 actualizada a febrero 6 de 2011. El programa OBUMRM no permite el cálculo de las áreas parciales. Este cálculo tampoco es posible utilizando los métodos no paramétricos.
No se encontraron diferencias estadísticamente significativas en las áreas parciales promedio entre los observadores con el uso y no uso del BCAD (p = .1352).
53
El índice del área parcial bajo la curva ROC (IAP) se interpreta como el promedio de sensibilidad para la tasa de falsos positivos examinados (25). Para el ejemplo actual el IAP del observador novato 1 sin CAD es de 0,63 para una tasa de falsos positivos menores del 10, lo cual se interpreta como la sensibilidad promedio de este observador es del 63% para una tasa de falsos positivos menores del 10%.
54
DISCUSIÓN.
Existen diferentes métodos estadísticos para comparar las áreas bajo las curvas ROC. El método de Obuchowski-Rockette (OR) y el de Dorfman-Berbaum-Metz (DBM); se han comparado en la literatura, encontrando que los cálculos de las áreas bajo las curvas ROC no son diferentes entre sí y que en muchas ocasiones dan resultados idénticos, aunque en estas comparaciones también se ha encontrado que los valores de la estadística F sean idénticos pero que los valores de p pueden variar. La preferencia por utilizar un método o el otro depende de la disponibilidad del programa de cálculo y las preferencias del usuario (49). Los métodos mencionados utilizan un modelo de efectos fijos o aleatorios, en este trabajo se asumió un modelo de efectos aleatorios. El tercer método es de tipo no paramétrico y asume un modelo de efectos fijos en los lectores, utilizando la metodología desarrollada por Song, Delong y el análisis multivariado de Wilcoxon-Mann-Whitney. Este método también produce resultados similares a los otros dos métodos mencionados previamente cuando la medida de certeza es el área bajo la curva ROC pero con intervalos de confianza generalmente más estrechos que al usar los métodos que utilizan los modelos de efectos aleatorios. Esto se explica por la menor variabilidad en el modelo de efectos fijos. La selección de un modelo de efectos fijos o aleatorios para los observadores depende de si es adecuado generalizar los resultados a una población amplia de observadores o solamente a los observadores de la muestra del trabajo (44). Como se menciono previamente el método de análisis utilizado fue el de OR que utiliza un modelo de efectos aleatorios en observadores y observaciones, con resultados similares con los otros métodos mencionados previamente, estos resultados se discuten brevemente en el anexo 8. 55
No se encontraron diferencias clínica ni estadísticamente significativas en las áreas promedio de todos los observadores sin y con uso del B-CAD calculadas mediante el método OR. El área promedio bajo la curva sin el uso del B-CAD de todos los observadores fue de 0,76 y con el uso del B-CAD fue de 0,70. La introducción del programa no produjo cambios significativos en la interpretación de las imágenes y no mejoró el desempeño de los observadores.
La comparación intraobservador se realizó de dos formas diferentes: en forma individual y como grupo de observadores novatos, moderadamente expertos y expertos. La comparación individual no mostró diferencias estadística ni clínicamente significativas sin y con el uso del B-CAD. La comparación como grupos encontró una menor área del 6% con el uso del BCAD en los observadores novatos, diferencia que fue estadísticamente significativa. Sin embargo, por definición en este proyecto se consideró una diferencia entre las áreas de al menos del 10% como clínicamente significativa, por lo que la diferencia encontrada no parece ser clínicamente importante.
La comparación inter-observador se realizó de dos maneras diferentes, por grupo de observadores y en forma individual. No se encontraron diferencias estadísticamente significativas entre los grupos al comparar las áreas promedio de los observadores expertos con las de los observadores moderadamente expertos y con las de los novatos.
Al comparar el desempeño de todos los observadores individualmente sin el uso del B-CAD se encontró un desempeño inferior en un observador experto, el experto 1, el cual fue superado por un observador novato, por un observador moderadamente experto y por el otro ex56
perto de su grupo, con diferencias entre las áreas de de 14, 13 y 12%, respectivamente, diferencias clínica y estadísticamente significativas. Con el uso del B-CAD esta diferencia del 13% entre las áreas se mantuvo entre el mismo observador moderadamente experto con el experto 1, las otras diferencias no fueron estadísticamente significativas, y se encontró una diferencia entre el mismo observador moderamente experto 1 y el novato 2, con un mejor desempeño del observador moderadamente experto y una diferencia de las áreas del 12% (clínica y estadísticamente significativa).
El cálculo de las áreas parciales y los índices de las áreas parciales con una tasa de falsos positivos entre 0 y 10%, pretendió mostrar diferencias entre las curvas en esta zona crítica en la que algunas curvas pueden tender a cruzarse, y aunque al final las áreas de las curvas sean iguales en esta zona al comienzo de la curva puede identificarse la alternativas más sensible para una tasa de falsos positivos determinada. El cálculo de estas áreas no mostró diferencias clínica ni estadísticamente significativas en promedio de todos los observadores con y sin el uso del B-CAD.
Al comparar con los estudios encontrados en la literatura, Sahiner (20) utilizó un sistema CAD en tres dimensiones para evaluar las lesiones de seno mediante ultrasonido. En sus resultados encontraron una mejoría estadísticamente significativa en las áreas bajo las curvas ROC de 5 observadores de 0.83 (IC de 0.81-0.87) sin el uso del CAD a 0.90 (IC de 0.860.93). Este estudio se realizó con observadores altamente experimentados y con entrenamientos formales en imágenes de seno y dedicación exclusiva a este campo diagnóstico. Otra diferencia es que no se utilizaron las categorías BI-RADS pero una asimilación a esta debido a 57
que en el momento del desarrollo del estudio el léxico BI-RADS no se encontraba disponible.
En el estudio realizado por Horsch (29) se evaluaron 110 casos por ultrasonido sin y con un Programa CAD. Se compararon las áreas de 6 mamografistas expertos y de 6 radiólogos acreditados por la AIUM (American Ultrasound Institute of Medicine). Las áreas variaron de 0.80 a 0.87 (p=0.02) para los radiólogos y de 0.83 a 0.87 (p=0.04) para los radiólogos expertos. En este estudio también se identificó que en promedio los radiólogos modificaban más los casos benignos o malignos de seguimiento a biopsia que de biopsia a seguimiento. La misma tendencia se observó en nuestro trabajo. Horsch (29) también identificó una variabilidad en las áreas de los observadores sin el uso del CAD, con diferencias de hasta 13% en las áreas entre los mamografistas y del 8% entre los radiólogos sin el CAD y del 12% y del 4% con el CAD respectivamente, variabilidad similar a la encontrada entre los observadores en nuestro estudio.
El trabajo de Wang (28) es el más similar a esta investigación. El utilizó dos diferentes sistemas CAD con ocho observadores con diferentes grados de experiencia, evaluando 90 lesiones malignas y 90 lesiones benignas y utilizando las categorías BI-RADS. No se compararon las áreas promedio de los observadores, solamente su desempeño individual; las áreas sin CAD oscilaron entre 0.81 y 0.86 y con CAD entre 0.86 y 0.89 entre los diferentes observadores, diferencias que fueron estadísticamente significativas. Las áreas de los observadores novatos fueron comparables con la de los observadores expertos, las áreas de los expertos no mejoraron en forma estadísticamente significativa luego del uso del CAD. 58
Nuestro trabajo mostró que los observadores expertos no tienen un mejor desempeño que los observadores novatos y los observadores moderadamente expertos, por el contrario uno de los observadores novatos tuvo un mejor desempeño diagnóstico que uno de los expertos al igual que un observador con moderada experiencia, el cual también se desempeño mejor que un experto.
El B-CAD utilizado por nosotros no mejoró el desempeño como muestran todos los estudios revisados; por el contrario, en promedio los observadores novatos disminuyeron un 6% el área bajo la curva con su uso. Los sistemas CAD en ultrasonido utilizan dos estrategias para la caracterización de los nódulos, la estrategia regional y morfológica. La estrategia regional caracteriza la escala de grises y las propiedades de textura de las imágenes como su ecogenicidad y el refuerzo acústico posterior. El análisis morfológico describe los contornos y la forma de la masa. Estos análisis involucran complejos procesos matemáticos para la extracción de los contornos de la imagen y para evaluar la ecogenicidad de las lesiones, con el empleo de diferentes parámetros de ajustes de ganancia y con la variabilidad encontrada con los diferentes equipos de ultrasonido. El programa B-CAD versión 2.2 utilizado en esta investigación utiliza las dos estrategias mencionadas (33).
Existen diferentes programas CAD en desarrollo y evolución. En nuestro caso se utilizó uno de los sistemas disponibles comercialmente y aprobado por la FDA; ninguna de las investigaciones previas se realizó específicamente con este software. Los resultados publicados siempre muestran un mejor desempeño de los observadores con los sistemas CAD. Ninguna 59
publicación muestra que los resultados sean comparables con el uso o no uso de los mismos o que el desempeño de los observadores empeore con estos sistemas. Podría existir un sesgo de publicación dada la clara orientación comercial de las empresas que desarrollan estos programas; sin embargo, los resultados encontrados simplemente podrían deberse a un desempeño inferior de este sistema con respecto a los otros programas CAD disponibles., Confirmar esta hipótesis implicaría una investigación adicional comparando los programas entre sí. Una de las posibles explicaciones para el desempeño inferior de este programa podría estar relacionada con los métodos de análisis utilizados en los estudios previos. Las comparaciones de las áreas en los estudios mencionados previamente fue individual para cada observador en la mayoría de los casos y no utilizaron la metodología descrita para el análisis de estudios de múltiples observaciones múltiples observaciones que consiste en calcular el área promedio de todos los observadores.
La pregunta que surge es que tanto cambió y en qué forma lo que los observadores consideraron en la evaluación inicial, antes y después del uso del B-CAD. Esta información se encuentra resumida en el anexo número 8. Al revisar estas tablas se encuentra una clara tendencia de los diferentes observadores a considerar como malignas un considerable número de las lesiones luego del uso del B-CAD que inicialmente se habían considerado benignas. Sin embargo, no todos los observadores modificaron sus observaciones; el observador experto 2 prácticamente no modificó en nada su apreciación de las lesiones luego del uso del B-CAD. Esto también se ha identificado en las publicaciones revisadas: los programas tienen una clara tendencia a mejorar la sensibilidad en la detección de lesiones malignas a expensas de la especificidad, debido a que el costo de no realizar una biopsia de seno en una lesión malig60
na es mucho mayor que el costo de realizar una biopsia de una lesión benigna. Por tanto es esperable que los radiólogos y los sistemas CAD tengan una tendencia a incrementar la posibilidad de considerar las lesiones con el menor índice de sospecha como malignas. Estas consideraciones podrían hacer que se presentara un aumento en la sensibilidad en la detección de lesiones con una consecuente pérdida de la especificidad en los sistemas CAD. Por otra parte, en los otros trabajos tampoco se observó un gran impacto de los sistemas CAD en los observadores expertos, los cuales no modificaron en forma sustancial el área bajos las curvas ROC (28,29).
En cuanto a la evaluación de los observadores por su grado de experiencia, el oficio radiológico comprende la detección de las anormalidades y posibles lesiones en los estudios realizados y la interpretación de estas anormalidades para emitir un juicio diagnóstico. Estas habilidades en la detección y en la interpretación de las anormalidades se adquieren con el ejercicio y la práctica radiológica diaria y continuada y constituyen lo que se denomina experiencia.
En el diseño de este estudio se consideró la experiencia un elemento importante en la variabilidad que se encuentra entre los observadores, variabilidad que ha sido documentada en múltiples publicaciones (20, 27, 28,29) y que no solo se limita a la práctica radiológica. En teoría la experiencia podría mejorar la interpretación radiológica.
En la realización de los estudios de ultrasonido se requiere de las dos habilidades, detección e interpretación. El presente estudio no evalúa la detección de las lesiones de mama identifi61
cables en un estudio ultrasonográfico; estas lesiones nodulares se presentaron a los examinadores en forma estática, para que fueran interpretadas en sus características y se les asignara de acuerdo a ellas una categoría BI-RADS; solamente evaluamos el aspecto interpretativo del ejercicio radiológico. En cuál de estos dos aspectos es más notoria la experiencia es sujeto a debate; sin embargo, se debe mencionar que el ultrasonido es una modalidad diagnóstica altamente dependiente del operador y que si una lesión no se detecta durante la realización del examen es poco probable que se pueda identificar en forma retrospectiva al revisar las imágenes del estudio.
Lo anterior constituye una limitación del estudio, porque no se consideró el valor de la experiencia en la detección de las lesiones de mama, experiencia que podría verse reflejada al comparar el desempeño de observadores expertos y observadores novatos; para muchos la parte más difícil del ultrasonido es la detección de las lesiones.
Se calcularon las características operativas de cada observador considerando las lesiones como malignas con una categoría mayor a la categoría BI-RADS 3. Los resultados se resumen en el Anexo 9. Las curvas ROC de cada observador sin y con el uso del B-CAD se encuentran en el Anexo 10. La forma en que fueron construidas las diferentes curvas de cada uno de los observadores se puede revisar en el anexo número11, en el cual se pueden encontrar las sensibilidades, especificidades, valores predictivos positivos y negativos para cada nivel de las categorías BI-RADS. El propósito de este estudio no fue evaluar la sensibilidad y especificidad de cada uno de los observadores; sin embargo, en el análisis de los resultados se hace necesario dada el desempeño del observador experto 1. 62
Al analizar el desempeño del observador experto 1 se identifica una clara tendencia a considerar la mayoría de las lesiones como malignas con una alta sensibilidad y una baja especificidad con una categoría BI-RADS 3 o superior (sensibilidad de 90% y especificidad de 36,7% sin el uso del B-CAD, y de 96.7% y de 33.3% con el uso del B-CAD). Esto contrasta con el otro observador experto, que con el mismo umbral tiene una sensibilidad del 80% y una especificidad del 70% sin el B-CAD y una sensibilidad del 80% y una especificidad del 66,7% con el uso del B-CAD.
El presente estudio muestra una clara tendencia en la relación a que el ultrasonido se está utilizando como una herramienta de alta sensibilidad. En promedio se considera que existe una tasa de positividad para malignidad de entre el 15% y el 30% de las lesiones de seno sometidas a biopsia (14), y que entre el 65% y el 85 % de las biopsias son realizadas en lesiones benignas (14,22). El observador experto 1 realizaría biopsias en el 78% de los nódulos, sometiendo a biopsia 27 de los 30 nódulos malignos y 21 de los 30 nódulos benignos. En este sentido el observador que mejor se desempeñó fue el observador novato 1, con una sensibilidad del 90% y una especificidad del 70% sin el CAD, y con sensibilidad del 93,3% y una especificidad del 56,7% con el CAD. Todos los observadores tuvieron sensibilidades del 80% o más con especificidades que oscilaron entre el 33,3% y el 70%. Esta tendencia a que el ultrasonido se comporte como una herramienta sensible podría tener que ver con el desarrollo tecnológico del mismo. Sin embargo esto no explicaría por qué algunos observadores tuvieron un mejor desempeño que otros, pero podría explicar por qué un observador experto tuviera ese desempeño, es probable que este observador considere como muy grave la pre63
sencia de falsos negativos y aplique unos criterios muy rigurosos en la decisión de que nódulos biopsiar o no.
El presente estudio evaluó lesiones de diferentes tamaños, pero en promedio se trataba de lesiones pequeñas y que podrían encontrarse en la zona gris o intermedia, en las que la valoración de las características es más difícil, con pobre concordancia en el uso de las categorías BI-RADS. Este sistema de categorización se encuentra lejos de ser perfecto pero es una herramienta en evolución. El tamaño de las lesiones evaluadas pudo haber contribuido a las diferencias encontradas entre los observadores dada la poca concordancia encontrada por Abdullah (45). Sin embargo, el tamaño no afectó a todos los observadores, algunos de los cuales individualmente mostraron diferencias estadísticamente significativas con sus pares. Dentro de los estudios revisados solamente el estudio de Cheng (33) describe las características de los nódulos utilizados en la evaluación de los diferentes sistemas CAD, en este trabajo se utilizaron nódulos con dimensiones y características similares a las del presente estudio.
La evaluación de las áreas parciales y el índice de las áreas parciales no mostraron diferencias estadísticamente significativas al comparar como grupo los observadores antes y después del uso del B-CAD. Al comparar las áreas individualmente se observaron mejores desempeños con una tasa de falsos positivos del 10% en el observador novato 1, con una sensibilidad promedio de 63%, y el observador experto 2, con una sensibilidad promedio de 54%. Estos observadores fueron también los que mejores áreas totales mostraron. Ninguna de las publicaciones revisadas calculó las áreas parciales ni los índices de áreas parciales. Estas medidas se consideran útiles para evaluar curvas que se crucen tempranamente y que puedan 64
tener áreas iguales. Este objetivo se consideró exploratorio y en general la limitación principal en su cálculo es el mayor tamaño de muestra necesario para mostrar diferencias estadísticamente significativas. Esta investigación no cuenta con el tamaño de muestra suficiente para profundizar en este análisis. Su cálculo requiere el uso del programa DBM MRMC.
Como se mencionó previamente este estudio evaluó como se caracterizaron las lesiones presentadas y los años de experiencia de los observadores no influyeron en el desempeño de los observadores. Esto sugiere que estas características pueden ser aprendidas rápidamente por personas novatas, como se encontró en este estudio, y que por lo tanto el desempeño podría estar influido por el grado de familiaridad y entrenamiento con el sistema BI-RADS. El otro factor que pudo influir es la forma en que cada observador percibe las consecuencias de un diagnóstico falso negativo en pacientes con cáncer de seno, con las posibles consecuencias médico legales, lo que en general se traduce en un alto número de biopsias innecesarias persiguiendo un alta sensibilidad en el diagnóstico, comportamiento que mostraron varios de los observadores. Dentro de las limitaciones del estudio debemos decir que se incluyeron lesiones de seno en su mayoría sólidas y que fueron sometidas a biopsia. Esto último de por sí constituye un sesgo de selección relativo, por que probablemente se incluyeron lesiones con una alta dificultad diagnóstica. Sin embargo, como se mencionó previamente este estudio de una prueba diagnóstica se podría considerar de fase II, estudios en los cuales deliberadamente se incluyen casos de difícil diagnóstico que se pueden confundir entre patologías benignas y malignas. Es deseable conocer el comportamiento estos sistemas con nódulos que no se hubieran sometido
65
a biopsia e incluir un mayor número de nódulos que pudieran clasificarse como de categoría BI-RADS 2 y 3.
Otra limitante es que durante la realización del estudio no se permitió el acceso a información clínica de los pacientes ni se realizó correlación con los estudios mamográficos, como es la práctica habitual en la mayoría de los centros de imagen en donde las ecografías de seno se realizan después de haber revisado los estudios mamográficos y las decisiones diagnósticas se toman después de haber revisado toda la información disponible. Estas condiciones se consideraron pseudoexperimentales y también son una característica de los estudios de pruebas diagnósticas en fase II.
También se ha mencionado que los observadores pueden modificar sus umbrales diagnósticos al conocer que las lesiones evaluadas ya fueron resueltas y que sus juicios no van a afectar directamente el cuidado del paciente ni tendrán implicaciones médico legales (22).
Otra limitante es que por la naturaleza retrospectiva, la evaluación se limitó a revisar dos imágenes estáticas de ultrasonido, cuando en la práctica diaria la evaluación se hace en tiempo real, durante el examen, con la posibilidad de valorar en múltiples planos los contornos y bordes de las lesiones.
Por otra parte los radiólogos no conocían la prevalencia de lesiones malignas del estudio. Dada la naturaleza del estudio es probable que asumieran una prevalencia mayor que en la población general, como es natural en la mayoría de los estudios con curvas ROC. Sin em66
bargo, esta consideración no debió afectar los resultados globales de las áreas de las curvas ROC debido a que el efecto se presentaría en la misma proporción en la evaluación sin y con el sistema CAD.
67
CONCLUSIONES.
El presente estudio demostró que el programa B-CAD no mejoró el desempeño promedio de todos los observadores, y que disminuyó el desempeño de los observadores novatos como grupo. Este resultado no se ha descrito con otros sistemas o programas CAD en las publicaciones encontradas. El presente estudio se considera un estudio de desafío o fase II en la evaluación de la certeza de las pruebas diagnósticas, en que no se compararon los casos más típicos de malignidad con los casos más típicos de benignidad, sino lesiones con alta dificultad diagnóstica que fueron sometidas a biopsia en su totalidad lo que podría también explicar los resultados. También se encontró que el desempeño en la caracterización de las lesiones de seno detectadas por ultrasonido es independiente de los años de experiencia y que los resultados sobresalientes de los observadores novatos podrían estar relacionados a un entrenamiento y familiaridad con el sistema BI-RADS. Esto plantea la necesidad de un entrenamiento continuo por parte de todos los observadores, independientemente de su grado de experiencia, entrenamiento que podría disminuir el alto número de biopsias de seno que se realizan en la actualidad.
Los resultados encontrados hacen recomendable dirigir todos los esfuerzos en mejorar el entrenamiento para mejorar la caracterización de las lesiones de seno evaluadas por ultrasonido de todos los observadores, independientemente de su nivel de experiencia, enfatizando el conocimiento del sistema BI-RADS. En este estudio no se realizó un entrenamiento en este sistema previo al desarrollo del estudio, se asumieron las condiciones de la práctica rutinaria, que simulan las condiciones de la vida real, considerándose como una alternativa de 68
estudio ver el efecto que puede tener en el desempeño de los observadores un entrenamiento previo a la evaluación de las lesiones.
Este estudio permitió la construcción de una base de datos de lesiones de seno benignas y malignas evaluadas con ultrasonido con su correspondiente correlación histológica. Esta base de datos puede ser utilizada en los procesos de educación de los diferentes radiólogos que quieran entrenarse en la interpretación de estudios de ultrasonido de seno. Este entrenamiento podría ofrecerse por fuera del ámbito hospitalario de la Fundación Santa Fe de Bogotá e incluso podría ser ofrecido como un curso de interpretación de imágenes interactivo vía internet.
Uno de los aspectos positivos del programa B-CAD es la generación de reportes estructurados de las lesiones evaluadas. Este programa podría utilizarse en el entrenamiento de todos los radiólogos que realizan ultrasonido de seno, con la posibilidad de generar reportes más estructurados y completos utilizando el léxico BI-RADS. Los resultados de este estudio pueden ayudar a mejorar el diseño de este programa en un futuro. En el momento actual no se justifica su uso en la evaluación rutinaria de las lesiones de seno por ultrasonido.
69
REFERENCIAS.
1. Basset L, D’Orsi C, Jong R, Lee C, Monsees S. ACR practice Guideline for the performance
of
screening
Mamography
and
diagnostic
Mammography.
http://www.acr.org/secondarymainmenucategories/quality_safety/guidelines/breast/scree ning_diagnostic (Último acceso 16 de marzo de 2011).
2.
Brown ML, Houn F, Sickles EA, Kessler LG. Screening mammography in community practice: Positive predictive value of abnormal findings and yield of follow-up diagnostic procedures. AJR 1995;165:1373-77.
3. Kopans DB. The positive predictive value of mammography. AJR 1992;158:521-26.
4. D’Orsi C, Bassett L, Berg W, Feig S, Jackson V, Kopans D, et al. American College of Radiology BI-RADS. Fourth Edition. Reston, VA. American College of Radiology; 2003.
5. Berg WA, D’orsi CJ, Jackson VP, Bassett LW, Beam CA, Lewis RS, et al. Does training in the Breast Imaging and Reporting Data System (BI-RADS) improve biopsy recommendations or feature analysis agreement with experienced breast imagers at mammography? Radiology 2002;224:871-80.
70
6. Berg WA, Campassi C, Langenberg M, Sexton M. Breast Imaging Reporting and Data System: inter and intraobserver variability in feature analysis and final assessment. AJR 2000; 174:1769-77.
7. Constantini M, Belli P, Lombardi R, Franceschini G, Mule A, Bonomo L. Characterization of solid breast Masses. Use of the Sonographic Breast Imaging Reporting and Data System Lexicon. J Ultrasound Med 2006; 25:649-59.
8. Park CS, Lee j, Yim H, Kang BJ, Kim HS, Jung JI, et al. Observer agreement using the ACR Breast Imaging Reporting and Data System (BI-RADS) -Ultrasound, first Edition (2003). Korean J Radiol 2007;8:397-02.
9. Baker JA, Kornguth PJ, Soo MS, Walsh R, Mengoni P.Sonography of solid breast lesions: observer variability of lesion description and assessment.. AJR 1999; 172:1621-25.
10. Hong A, Rosen E, Soo M, Baker J. BI-RADS for sonography: positive and negative predictive values of sonographic features. AJR 2005;184:1260-65.
11. Lazarus E, Mainiero M, Schepps B, Koelliker S, Livingston L. BI-RADS lexicon for US and Mammography: interobserver variability and positive predictive value. Radiology 2006;239:385-91.
71
12. Lee HJ, Kim FK, Kim MJ, Youk JH, Lee JY, Kang DR, et al. Observer Variability of Breast Imaging Reporting and Data System (BI-RADS) for breast Ultrasound. Eur J Radiol 2007;65:293-98
13. Stavros T, Thickman D, Rapp C, Dennis M, Parker S, Sisney G. Solid breast nodules: use of sonography to distinguish between benign and malignant lesions. Radiology 1995;196:123-34.
14. Chan HP, Sahiner B, Helvie MA, Petrick N, Roubidoux M, Wilson T, et al. Improvement of radiologist’s characterization of mammographic masses by computer aided diagnosis: an ROC study. Radiology 1999;212:817-27.
15. Huo Z, Giger ML, Viborny CJ, Metz CE. Breast cancer: effectiveness of computer aided diagnosis-observer study with independent database of mammograms. Radiology 2002;224:560-68.
16. Horsch K, Giger M, Vyborny C, Lan L, Mendelson E, Hendrick E. Classification of Breast Lesions with Multimodality Computer aided Diagnosis: Observer study results on a Independent clinical Data Set. Radiology 2006;240:357-68.
17. Jesneck J, Lo J, Baker J. Breast Mass Lesions: Computer aided diagnosis models with Mammographic and sonographic descriptors. Radiology 2007;244:390-98.
72
18. Shen W, Chang R, Moon W, Chou YH, Huang CS. Breast Ultrasound Computer Aided Diagnosis using BI-RADS features. Acad Radiol 2007;14:928-39.
19. Drukker K, Giger ML,Viborny CJ, Mendelson EB. Computerized detection and classification of cancer on breast ultrasound. Acad Radiol 2004;11:526-35.
20. Sahiner B, Chan HP, Roubidoux M, Hadjiiski L, Helvie M, Paramagul C, et al. Malignant and Benign Breast Masses on 3D US Volumetric Images: Effect of
computer
aided diagnosis on radiologist accuracy. Radiology 2007;242:716-24.
21. Chen CM, Chou YH, Han KC, Hung GS, Tiu CM, Chiou HJ, et al. Breast Lesions on sonogramas: Computer aided Diagosis with Nearly Setting-Independent Features and Artificial Neural Network. Radiology 2003;226:504-54.
22. Chen DR, Chang RF, Huang YL. Computer-aided Diagnosis Applied to US of
Solid
Breast Nodules by Using Neural Networks. Radiology 1999;213:407-12.
23. Lo JV, Baker JA, Kornguth PJ, Iglehart JD, Floyd CE. Predicting breast cancer invasion with artificial neural networks on the basis of mammographic features. Radiology 1997;203:159-63.
73
24. Bader W, Bohmer S, van Leeuwen P, Hackmann J, Westhof G, Hatzmann W. Does Texture analysis improve breast breast ultrasound precision? Ultrasound Obstet Gynecol 2000;15:311-16.
25. Markey MK, Lo JY, Floyd CE. Differences between computer aided diagnosis of breast masses and that of calcifications. Radiology 2002;223:489-93.
26. Buchbinder S, Leichter I, Lederman R, Novak B, Bamberger P, Sklair-Levy M, et al. Computer-aided Classification of BI-RADS category 3 Breast Lesions. Radiology 2004;230:820-23.
27. Shen WC, Chang RF, Moon WK. Computer aided classification system for breast ultrasound based on Breast Imaging Reporting and Data System (BI-RADS). Ultrasound Med Biol 2007;33:1688-98.
28. Wang Y, Jiang S, Wang H, Guo YH, Liu B, Hou Y, et al.CAD algorithms for solid breast masses discrimination: evaluation of the accuracy and interobserver variability. Ultrasound Med Biol 2010;36:1273-81.
29. Horsch K, Giger ML, Vyborny CJ, Venta LA .Performance of computer-aided diagnosis in the interpretation of lesions on breast sonography. Acad Radiol 2004;11:272-80.
74
30. The Medipattern Corporation: Press release: February 12,2008.1-4.
31. Huang YL, Chen DR, Jiang YR, Kuo SJ, Wu HK, Moon WK. Computer-aided diagnosis using morphological features for classifying breast lesions on ultrasound. Ultrasound Obstet Gynecol 2008;32:565-72.
32. Tsui PH, Liao YY, Chang CC, Kuo WH, Chang KJ, Yeh CK. Classification of benign and malignant breast tumors by 2-d analysis based on contour description and scatterer characterization. IEEE Trans Med Imaging 2010;29:513-22.
33. Cheng JZ, Chou YH, Huang CS, Chang YC, Tiu CM, Chen KW, Chen CM. Computer-aided US diagnosis of breast lesions by using cell-based contour
grouping. Radiolo-
gy 2010;255:746-54.
34. Zhou X, Obuchowski N, Mclish D. Statistical Methods in Diagnostic Medicine. New York: Wiley-Interscience. 2002.
75
35. Rockette HE, Campbell WL, Britton CA, Holbert JM, King JL, Gur D. Empiric assessment of parameters that affect the design of multiobserver receiver operating characteristics studies. Acad Radiol 1999;6:723-29.
36. Obuchowski N. Sample Size For Receiver Operating Characteristics Studies. AJR 2000;175:603-8.
37. Rosen H, Hoda S. Breast Pathology: Diagnosis by needle Core Biopsy. New York. Lippincott Wiliams & Wilkins. 2006. 124-35.
38. Obuchowski N. Fundamentals of Clinical Research for Radiologists. ROC Analysis. AJR 2005;184:364-72.
39. Obuchowski N. Sample size calculations in studies of test accuracy. Stat Methods Med Res 1998;7:371-92.
40. Beiden S, Wagner R, Doi K, Nishikawa R, Freedman M, Lo SC, et al. Independent versus Sequential Reading in ROC studies of Computer-Assist Modalities: Analysis of Components of Variance. Acad Radiol 2002;9:1036-43.
41. Obuchowski N. Receiver Operating Characteristic Curves and Their Use in Radiology. Radiology 2003;229:3-8.
76
42. Venkatraman ES. A Permutation Test to Compare Receiver Operating Characteristic Curves. Biometrics 2000;56:1134-38.
43. Obuchowski N. New Methodological Tools for Multiple-Readers ROC Studies. Radiology 2007;243:10-12.
44. Obuchowsky N, Beiden S, Bermaun K, Hillis S, Ishawaran H, Song HH, et al. Multireader multicase Receiver Operating Characteristic Analysis: An Empirical Comparison of Five Methods. Acad Radiol 2004;11:980-95.
45. Obuchowsky N. http/:www.bio.ri.ccf.org/OBUMRM/OBUMRM.html (Último acceso 16 marzo de 2011).
46. Dorfman D, Bermaun K, Metz C. http://perception.radiology.uiowa.edu. (Último acceso 16 marzo de 2011).
47. Schoonjas F. http://www.medcalc.org/. (Último acceso 16 marzo de 2011).
48. Nouf A, Benoit M, El-Khoury, Kao E. BI-RADS lexicon for US: interobserver agreement for assessment of Breast Masses. Radiology 2009;252:66.
77
49. Hillis S, Obuchowsky N, Schartz K, Berbaum K. A comparison of the DorfmanBerbaum-Metz and Obuchowsky-Rockette methods for receiver operating characteristic (ROC) data. Statist Med 2005;24:1579-607.
78
Anexo 1. Listado de las lesiones malignas evaluadas. NODULOS MALIGNOS CASO INICIALES EDAD PATOLOGIA 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
L.B J.S D.F P.B D.C C.G J.D N.D K.E B.D D.M A.U S.R M.B J.J J.B J.W E.K M.N M.A M.A B.B B.B A.C C.G M.F R.H M.H C.M
30 M.H Prom.
52 47 45 60 56 43 45 51 54 48 62 40 63 48 52 50 48 43 42 59 85 45 45 52 43 50 53 65 46
Carcinoma intraductal Carcinoma intraductal Carcinoma intraductal Carcinoma intraductal Carcinoma intraductal Carcinoma intraductal Carcinoma intraductal Carcinoma intraductal Carcinoma intraductal Carcinoma intraductal Carcinoma intraductal Carcinoma intraductal Carcinoma intraductal Carcinoma Intralobulillar Carcinoma intraductal Carcinoma intraductal Carcinoma intraductal Carcinoma intraductal Carcinoma intraductal Carcinoma intraductal Carcinoma intraductal Carcinoma intraductal Carcinoma intraductal Carcinoma intraductal Carcinoma mucinoso Carcinoma intraductal Carcinoma intraductal CA papilar bajo grado CA papilar bajo grado intraquístico 49 Carcinoma intraductal 51,4
79
GRADO ANCHO ALTO mm mm 2 2 3 3 3 3 3 3 3 1 1 1 1 1 1 3 2 2 2 1 3 2 2 1 2 3 2 1 1
16 8 8 23 11 13 10 20 13 12 8 20 15 15 10 25 5 3 8 20 15 17 18 5 45 12 9 20 13
7 12 8 15 9 7 8 10 11 18 9 13 10 18 14 15 9 7 10 30 10 15 10 13 40 18 8 18 8
2
9 14,2
9 12,9
Anexo 2. Listado de las lesiones benignas evaluadas. CASO
INICIALES
EDAD
NODULOS BENIGNOS
GRADO
ANCHO mm
ALTO mm
31
M.R
36
Fibroadenoma
N.A.
18
9
32
S.A
33
Fibroadenoma
N.A.
22
12
33
C.A
38
Fibroadenoma
N.A.
14
9
34
N.A
43
Fibroadenoma
N.A.
15
7
35
C.A
39
Fibroadenoma
N.A.
8
5
36
G.A
58
Mastopatía no proliferativa sin atipia
N.A.
6
5
37
L.A
48
Esclerosis estromal sin atipia
N.A.
7
3
38
I.B
48
Contenido de quiste
N.A.
12
8
39
M.B
44
Contenido de quiste
N.A.
27
17
40
L.B
48
Ductos y acinos sin evidencia de malignidad
N.A.
7
9
41
B.B
56
Fibroadenoma
N.A.
16
5
42
M.B
25
Quiste abscedado
N.A.
18
6
43
H.C
57
Fibroadenoma
N.A.
5
10
44
V.U
24
Fibroadenoma
N.A.
16
7
45
S.S
39
Fibroadenoma
N.A.
10
10
46
L.S
48
Enfermedad fibroquística
N.A.
20
16
47
F.S
65
Hiperplasia de celulas columnares con atipia leve.
N.A.
15
4
48
M.S
28
Adenosis, mastopatía no proliferativa
N.A.
7
5
49
N.R
33
Fibroadenoma
N.A.
25
12
50
B.R
45
Quiste simple benigno
N.A.
3
3
51
L.R
65
Fibroadenoma
N.A.
8
5
52
M.R
52
Metapplasia apocrina, adenosis
N.A.
21
7
53
M.R
42
Fibroadenoa,adenosis
N.A.
12
7
54
M.R
48
Mastopatia ductal no proliferativa, adenosis.
N.A.
25
10
55
A.R
48
Mastopatía no proliferativa sin atipia.
N.A.
7
7
56
M.Q
48
Fibroadenoma
N.A.
16
8
57
N.P
54
Esclerosis estromal condicion fibroquística.
N.A.
15
17
58
A.P
44
Hiperplasia estromal seudoangiomatosa.
N.A.
23
15
59
M.P
54
Hiperplasia ductal con esclerosis estromal
N.A.
15
4
60
M.P
45
Hiperplasia estromal seudoangiomatosa con metaplasia apocrina
N.A.
17
8
14,3
8,3
Prom.
45,2
80
Anexo 3. Formato de recolección sin B-CAD. FORMATO DE RECOLECCIÓN DE INFORMACIÓN NOMBRE DEL EVALUADOR:
FECHA:
CASO NÚMERO: EVALUACIÓN SIN CAD 1. Evalúe la imagen presentada y califíquela de acuerdo a los términos BI-RADS. 2. Por favor encierre la respuesta en un círculo. 3. Asigne la categoría BIRADS. Solamente una opción.
81
3.Por favor asigne la categoría final de acuerdo a la categoria BI-RADS.Solamente se puede escoger una categoría.
ESPACIO PARA SER LLENADO EXCLUSIVAMENTE POR EL INVESTIGADOR Diagnóstico patológico:
82
Anexo 4. Formato de recolección con B-CAD. FORMATO DE RECOLECCIÓN DE INFORMACIÓN NOMBRE DEL EVALUADOR:
FECHA:
CASO NÚMERO: EVALUACIÓN CON CAD 1. Evalúe la imagen presentada y califíquela de acuerdo a los términos BI-RADS. 2. Por favor encierre la respuesta en un círculo. 3. Asigne la categoría BIRADS. Solamente una opción.
83
3.Por favor asigne la categoría final de acuerdo a la categoria BI-RADS.Solamente se puede escoger una categoría.
ESPACIO PARA SER LLENADO EXCLUSIVAMENTE POR EL INVESTIGADOR Diagnóstico patológico:
84
Anexo 5. Interfase de trabajo del programa B-CAD y formato de reporte generado.
85
86
Anexo 6. Aprobación Comité de ética en Investigación Fundación Santa Fe de Bogotá.
87
88
89
Anexo 7. Léxico incluído en el BI-RADS.
A. NÓDULOS: Un nódulo ocupa espacio y debe verse en dos proyecciones diferentes. Debe distinguirse de las estructuras anatómicas y de los lobulillos grasos.
1. MORFOLOGÍA. Solo se puede seleccionar uno. Se describe cada término.
A. OVALADA: Nódulo elíptico con forma de huevo. Puede tener 2 ondulaciones “discretamente lobulado” o macro lobulado.
B. REDONDEADA: Esférica, abalonada, circular o
globulosa. Un nódulo redondeado
tiene su diámetro anteroposterior igual al transverso.
C. IRREGULAR: Nódulo que no tiene forma ni redondeada ni ovalada. . 2. ORIENTACIÓN. La orientación se describe en relación al plano cutáneos solo se puede seleccionar uno. Se describe cada término.
A. PARALELA: El eje mayor del nódulo es paralelo a la superficie cutánea. Más ancho que alto.
90
B. NO PARALELA: El eje mayor del nódulo no es paralelo a la superficie
cutánea.
Más alto que ancho.
3. MÁRGENES. Son los contornos o bordes del nódulo. Solo se puede seleccionar uno. Se describe cada término.
A. CIRCUNSCRITOS O BIEN DEFINIDOS: Hay una transición abrupta entre la lesión y el tejido circundante, casi todos os nódulos circunscritos tiene forma redondeada u ovalada.
B. NO CIRCUNSCRITOS: Se incluyen cuatro posibilidades en caso de tener márgenes no circunscritos.
a. BORROSO: no existe una Buena delimitación entre el nódulo y el tejido adyacente. b. ANGULADO: Algunos o todas las márgenes tienen bordes puntiagudos a veces formando ángulos agudos. c. MICROLOBULADO: pequeñas ondulaciones que confieren un aspecto festoneado a las márgenes del nódulo. d. ESPICULADO: el margen esta formado o caracterizado por finas líneas que se proyectan desde el nódulo.
91
4. LÍMITES DE LA LESIÓN. Los límites de la lesión describen la zona de transición entre el nódulo y el tejido circundante.
a. INTERFASE ABRUPTA: La delimitación entre la lesión y el tejido adyacente puede ser imperceptible o podemos visualizar un halo ecogénico alrededor de grosor variable. b. HALO ECOGENICO: No existe una clara delimitación entre el nódulo y el tejido circundante pero si una zona ecogénica transicional.
5. PATRON ECOGÉNICO.
A. ANECOICO.: Sin ecos internos. B. HIPERECOICO: existe un aumento de la ecogenicidad en relación a la grasa o igual al tejido fibroglandular. C. COMPLEJO: Nódulo que contiene ambos componentes anecoico y ecogénico. D. HIPOECOICO: Se define respecto a la grasa E. ISOECOICO: tiene la misma ecogenicidad que la grasa.
6. HALLAZGOS ACÚSTICOS POSTERIORES. Representan los hallazgos acústicos posteriores y representan las características de atenuación del nódulo con respecto a su trasmisión acústica.
92
A. SIN HALLAZGOS ACUSTICOS POSTERIORES. Sin sombra o refuerzo acústico posterior.
B. REFUERZO POSTERIOR. No existe obstrucción a la trasmisión del sonido a su paso a través del nódulo. El refuerzo aparece como una columna blanca detrás del nódulo. Uno de los criterios de quiste es su refuerzo acústico posterior.
C. SOMBRA ACÚSTICA: es una atenuación posterior de la transmisión del sonido. La zona posterior al nódulo aparece más oscura, debe diferenciarse de las sombras que aparecen en los márgenes de los nódulos curveados que son secundarias a un efecto refractivo y no confundirse con la sombra acústica posterior central.
D. PATRÓN COMBINADO O MIXTO. Algunas lesiones tienen más de un patrón de sombra acústica posterior. Un fibroadenoma puede tener una densa calcificación que origina sombra acústica posterior pero tener refuerzo en las otras áreas.
7. TEJIDO CIRCUNDANTE. Valora los efectos de un nódulo sobre el tejido circundante.
A.
CAMBIOS EN LOS DUCTOS: calibre o ramificación anormal.
B.
CAMBIOS EN LOS LIGAMENTOS DE COWPER. Estrechamiento o engrosamiento de los ligamentos de Cowper.
93
C.
EDEMA: aumento de la ecogenicidad del tejido circundante, patrón reticulado, con líneas hipoecoicas agudas.
D.
DISTORSIÓN DE LA ARQUITECTURA: alteración de los planos anatómicos normales.
E.
ENGROSAMIENTO CUTÁNEO: engrosamiento focal o difuso de la piel, con espesor mayor de 2mm excepto en la zona periareolar y surcos submamarios.
F.
RETRACCIÓN O IRREGULARIDAD CUTÁNEA. La superficie cutánea es cóncava o esta mal definida y aparece como apretada.
B. CALCIFICACIONES. Se visualizan mal por ecografía pero pueden ser detectadas como focos ecogénicos sobre todo cuando están dentro de un nódulo.
A.
MACROCALCIFICACIONES: Calcificaciones groseras que miden 0.5 mm o mas y acompañadas de sombra acústica posterior.
B.
MICROCALCIFICACIONES FUERA DE UN NÓDULO: Imágenes ecogénicas puntiformes poco aparentes cuando están por fuera de un nódulo.
94
C.
MICROCALCIFICACIONES DENTRO DE UN NÓDULO: Imágenes ecogénicas dentro de un nódulo, cuando este es hipoecoico son fácilmente detectables.
C. CASOS ESPECIALES: Son aquellos con un diagnostico o hallazgo singular.
A. GRUPO DE MICROQUISTES: consiste en un grupo de pequeños focos anecoicos cada uno menor de 2-3 mm con finos septos menores de 0.5 mm que lo atraviesan sin componente solidó significativo.
B. QUISTE COMPLICADO: presencia de ecos internos homogéneos que pueden tener una apariencia en niveles debris liquido los cuales pueden moverse con los cambios de posición del paciente, el término complicado describe la apariencia ecográfica pero no indica la naturaleza del liquido pus o sangre.
C. NÓDULO EN O SOBRE LA PIEL
D. CUERPOS EXTRAÑOS: arpones localizadores, clips localizadores, silicona catéteres, cristales por accidentes.
E. GANGLIOS LINFATICOS INTRAMAMARIOS. Nódulo bien delimitado que semejan a riñones en miniatura morfología característica con una corteza hipoecoica y un hilio central ecogénico, se debe sospe95
char malignidad cuando hay engrosamiento focal o difuso de la cortical o presencia de microcalcificaciones en su interior.
F. GANGLIOS LINFÁTICOS AXILARES. Aplica la misma descripción anterior con tamaños que pueden alcanzar los 2 cms. La apariencia redondead o ausencia de hilio graso sugiere malignidad.
D. VASCULARIZACIÓN
A. AUSENTE O NO DETERMINADA B. PRESENTE EN LA LESIÓN C. PRESENTE INMEDIATAMENTE ADYACENTE A LA LESIÓN D. INCREMENTO DIFUSO DE LA VASCULARIZACIÓN EN EL TEJIDO CIRCUNDANTE.
E. CATEGORIAS BI-RADS
1) CATEGORIA 0: Estudio incompleto. Es necesario completar el estudio antes de una categorización final. En caso de que la ecografía sea el estudio inicial y sea necesario realizar una mamografía o una Resonancia Magnética del seno.
CATEGORIAS FINALES. Una vez definidas las características de un nódulo de acuerdo a los términos descriptivos previos se debe asignar una categoría a la cual pertenece 96
ese nódulo, la asignación de un nódulo dentro de una categoría específica implica a su vez una recomendación específica como control rutinario, seguimiento a corto plazo o biopsia.
2) CATEGORÍA 1:
Ecografía negativa. No existen lesiones .Recomendación:
Control rutinario. Se reserva esta categoría para las ecografías normales, sin nódulos, distorsiones de la arquitectura, engrosamientos de la piel o microcalcificaciones.
3) CATEGORÍA 2: No hay signos de malignidad. Por ejemplo quistes .Recomendación: control rutinario por edad. Los quistes simples pertenecen a esta categoría así como los ganglios intramamarios, prótesis mamarias, cambios postquirúrgicos estables o nódulos que no han variado en las ecografías efectuadas.
4) CATEGORÍA 3: Hallazgos probablemente benignos. Malignidad altamente improbable, se considera un riesgo de malignidad de menos del 2%. Recomendación: control en corto plazo (6 meses). Por ejemplo nódulo oval paralelo a la superficie de la piel con márgenes bien definidos del tipo fibroadenoma. También se incluyen los quistes complicados no palpables y cúmulos de microquistes.
5) CATEGORÍA 4: Hallazgos sospechosos. Probabilidad baja a moderada de malignidad, Recomendación: se debe considerar realizar biopsia. Probabilidad intermedia de cáncer que va desde 3 al 89%.Una opción es dividir estas lesiones en 97
baja, intermedia y alta probabilidad de malignidad y clasificarlas de acuerdo a esto en BI-RADS 4a, 4b y 4c respectivamente. Nódulos sólidos que no cumplen todos los criterios de un fibroadenoma. Nódulo complejo que corresponde a una proliferación sólida endocavitaria dentro de una lesión quística.
6) CATEGORÍA 5: Hallazgos altamente sospechosos de malignidad. Casi con seguridad es cáncer, considerando una posibilidad de cáncer del 95% o mayor de malignidad por lo que un tratamiento oncológico se debe considerar desde un principio. Recomendación: biopsia o iniciar tratamiento.
7) CATEGORÍA 6: Cáncer ya conocido. Biopsia con resultado de malignidad antes de comenzar tratamiento quirúrgico o quimioterápico neoadyudante. Ecografía previa a tratamiento quimioterápico o quirúrgico.
98
Anexo 8. Áreas promedio de todos los observadores sin y con el uso de B-CAD. Método de Obuchowski-Rockette, Dorfmann-Berbaum-Metz y Wilcoxon-Mann-Whitney
Área promedio
Área promedio
Diferencia
IC95%
Nivel de
sin
con
B-CAD
B-CAD
OR
0,76
0,70
0,06
-0,06 – 0,18
0,26
DBM
0,76
0,70
0,06
-0,06 – 0,18
0,26
MEDCALC
0,75
0,73
0,02
-0,004 - 0,05
0,09
significación
OR=Obuchowski-Rockette; DBM = método de Dorfman-Berbaum-Metz; MEDCALC= método no paramétrico de Wilcoxon-Mann-Whitney.
El área promedio bajo la curva ROC de todos los observadores sin el uso del B-CAD calculada por los tres diferentes métodos osciló entre 0.75 y 0,76 y con el uso del B-CAD osciló entre 0,70 y 0,73. No se encontraron diferencias estadísticamente significativas entre las áreas promedio bajo las curvas ROC sin y con el uso del B-CAD calculadas por cualquiera de los tres métodos (las diferencias en áreas oscilaron entre 0.02 y 0,06, los valores de p oscilaron entre 0,09 y 0,026).
Los métodos utilizados incluyeron el de Obuchowski-Rockette (OR) y el de DorfmanBerbaum-Metz (DBM); estos dos métodos se han comparado en la literatura, encontrando que los cálculos de las áreas bajo las curvas ROC no son diferentes entre sí y que en muchas ocasiones dan resultados idénticos, aunque en estas comparaciones también se ha encontrado que los valores de la estadística F sean idénticos pero que los valores de p pueden variar. La 99
preferencia por utilizar un método o el otro depende de la disponibilidad del programa de cálculo y las preferencias del usuario (49). En este trabajo no se encontraron diferencias en el cálculo de las áreas ni en los valores p entre los dos métodos. Los métodos mencionados utilizan un modelo de efectos fijos o aleatorios, en este trabajo se asumió un modelo de efectos aleatorios. El tercer método es de tipo no paramétrico y asume un modelo de efectos fijos en los lectores, utilizando la metodología desarrollada por Song, Delong y el análisis multivariado de Wilcoxon-Mann-Whitney. Este método también produce resultados similares a los otros dos métodos mencionados previamente cuando la medida de certeza es el área bajo la curva ROC pero con intervalos de confianza generalmente más estrechos que al usar los métodos que utilizan los modelos de efectos aleatorios. Esto se explica por la menor variabilidad en el modelo de efectos fijos. La selección de un modelo de efectos fijos o aleatorios para los observadores depende de si es adecuado generalizar los resultados a una población amplia de observadores o solamente a los observadores de la muestra del trabajo (44). Los resultados de este trabajo fueron similares utilizando métodos paramétricos o no paramétricos y modelos de efectos fijos o aleatorios, por lo que los resultados se pueden generalizar a una población más amplia de observadores. La introducción del programa no produjo cambios significativos en la interpretación de las imágenes y no mejoró el desempeño de los observadores.
100
Anexo 9.Tabla resumen de cambios en la evaluación sin y con CAD de todos los observadores. Este cuadro refleja la valoración de las lesiones de acuerdo a las categorías y los cambios después de la utilización del programa CAD de todos los observadores. SIN CAD NOVATO 1 Categoría 1 Categoría 2 Categoría 3 Categoría 4 Categoría 5 NOVATO 2 Categoría 1 Categoría 2 Categoría 3 Categoría 4 Categoría 5 MOD EXP 1 Categoria 1 Categoria 2 Categoria 3 Categoria 4 Categoria 5 MOD EXP 2 Categoría 1 Categoría 2 Categoría 3 Categoría 4 Categoría 5 EXPERTO 1 Categoría 1 Categoría 2 Categoría 3 Categoría 4 Categoría 5 EXPERTO 2 Categoría 1 Categoría 2 Categoría 3 Categoría 4 Categoría 5
BENIGNO 0 3 18 9 0 30 BENIGNO 0 5 15 10 0 30 BENIGNO 1 4 6 19 0 30 BENIGNO 0 5 11 10 4 30 BENIGNO 1 4 6 19 0 30 BENIGNO 0 8 13 9 0 30
CON CAD MALIGNO 0 0 3 27 0 30 MALIGNO 0 0 6 24 0 30 MALIGNO 0 0 2 15 13 30 MALIGNO 0 0 6 7 17 30 MALIGNO 0 0 3 25 2 30 MALIGNO 0 0 6 23 1 30
BENIGNO 0 3 14 13 0 30 BENIGNO 0 6 8 16 0 30 BENIGNO 1 4 4 18 3 30 BENIGNO 0 4 10 11 5 30 BENIGNO 1 3 6 19 1 30 BENIGNO 0 7 13 10 0 30
101
MALIGNO 0 0 2 28 0 30 MALIGNO 0 0 4 26 0 30 MALIGNO 0 0 2 9 19 30 MALIGNO 0 1 4 7 18 30 MALIGNO 0 0 1 26 3 30 MALIGNO 0 0 6 23 1 30
Anexo 10.Características operativas de cada observador considerando como malignas las lesiones con una categoría mayor a BI-RADS 3.
Observador NOV. 1 SIN CAD NOV. 1 CON CAD NOV. 2 SIN CAD NOV. 2 CON CAD MOD. EXP. 1 SIN CAD MOD. EXP. 1 CON CAD MOD. EXP. 2 SIN CAD MOD. EXP. CON CAD EXPERTO 1 SIN CAD EXPERTO 1 CON CAD EXPERTO 2 SIN CAD EXPERTO 2 CON CAD
Sensibilidad 90 93,3 80 86,7 93,3 93,3 80 83,3 90 96,67 80 80
102
Especificidad
LR +
LR-
70 56,7 66,7 46,67 36,7 30 53,3 46,67 36,7 33,3 70 66,7
3 2,15 2,4 1,62 1,47 1,33 1,71 1,56 1,42 1,45 2,67 2,4
0,14 0,12 0,3 0,29 0,18 0,22 0,37 0,36 0,27 0,1 0,29 0,3
VPP 75 68,3 70,6 61,9 59,6 57,1 63,2 61 58,7 59,2 72,7 70,6
VPN 87,5 89,5 76,9 77,8 84,6 81,8 72,7 73,7 78,6 90,9 77,8 76,9
Anexo 11. Curvas ROC individuales de todos observadores sin y con CAD. NOVATO1_SINCAD 100
Sensitivity: 90,0 Specificity: 70,0 Criterion : >3
Sensitivity
80
60
40
20
0 0
20
40 60 100-Specificity
80
103
100
NOVATO1_CON_CAD 100 Sensitivity: 93,3 Specificity: 56,7 Criterion : >3
Sensitivity
80
60
40
20
0 0
20
40 60 100-Specificity
80
100
NOVATO2_SINCAD 100
Sensitivity
80
Sensitivity: 80,0 Specificity: 66,7 Criterion : >3
60
40
20
0 0
20
40 60 100-Specificity
104
80
100
NOVATO2_CONCAD 100
Sensitivity: 86,7 Specificity: 46,7 Criterion : >3
Sensitivity
80
60
40
20
0 0
20
40 60 100-Specificity
80
100
80
100
MODEXP1_SINCAD 100
Sensitivity
80
60
40
Sensitivity: 43,3 Specificity: 100,0 Criterion : >4
20
0 0
20
40 60 100-Specificity
105
MODEXP1_CONCAD 100
Sensitivity
80
60
Sensitivity: 63,3 Specificity: 90,0 Criterion : >4
40
20
0 0
20
40 60 100-Specificity
80
100
80
100
MODEXP2_SIN_CAD 100
Sensitivity
80
60
40
20
0 0
20
40 60 100-Specificity
106
MODEXP2_CON_CAD 100
Sensitivity
80
60
Sensitivity: 60,0 Specificity: 83,3 Criterion : >4
40
20
0 0
20
40 60 100-Specificity
80
100
EXP1_SIN_CAD 100
Sensitivity: 90,0 Specificity: 36,7 Criterion : >3
Sensitivity
80
60
40
20
0 0
20
40 60 100-Specificity
107
80
100
EXP1_CON_CAD 100 Sensitivity: 96,7 Specificity: 33,3 Criterion : >3
Sensitivity
80
60
40
20
0 0
20
40 60 100-Specificity
80
100
EXP2_SIN_CAD 100
Sensitivity
80
Sensitivity: 80,0 Specificity: 70,0 Criterion : >3
60
40
20
0 0
20
40 60 100-Specificity
108
80
100
EXP2_CAD 100
Sensitivity
80
Sensitivity: 80,0 Specificity: 66,7 Criterion : >3
60
40
20
0 0
20
40 60 100-Specificity
109
80
100
Anexo 12.Características operativas y puntos de corte de las curvas ROC de cada uno de los observadores. Novato 1 sin B-CAD Criterio >=2 >2 >3 * >4
Sensibilidad 100,00 100,00 90,00 0,00
IC95% 88,4 - 100,0 88,4 - 100,0 73,5 - 97,9 0,0 - 11,6
Especificidad 0,00 10,00 70,00 100,00
IC95% 0,0 - 11,6 2,1 - 26,5 50,6 - 85,3 88,4 - 100,0
+LR 1,00 1,11 3,00
IC95% 88,4 - 100,0 88,4 - 100,0 77,9 - 99,2 0,0 - 11,6
Especificidad 0,00 10,00 56,67 100,00
IC95% 0,0 - 11,6 2,1 - 26,5 37,4 - 74,5 88,4 - 100,0
+LR 1,00 1,11 2,15
IC95% 88,4 - 100,0 88,4 - 100,0 61,4 - 92,3 0,0 - 11,6
Especificidad 0,00 16,67 66,67 100,00
IC95% 0,0 - 11,6 5,6 - 34,7 47,2 - 82,7 88,4 - 100,0
+LR 1,00 1,20 2,40
IC95% 88,4 - 100,0 88,4 - 100,0 69,3 - 96,2 0,0 - 11,6
Especificidad 0,00 20,00 46,67 100,00
IC95% 0,0 - 11,6 7,7 - 38,6 28,3 - 65,7 88,4 - 100,0
+LR 1,00 1,25 1,62
-LR 0,00 0,14 1,00
VPP+ 50,0 52,6 75,0
VPN100,0 87,5 50,0
Novato 1 con B-CAD Criterio >=2 >2 >3 * >4
Sensibilidad 100,00 100,00 93,33 0,00
-LR 0,00 0,12 1,00
VPP+ 50,0 52,6 68,3
VPN100,0 89,5 50,0
Novato 2 sin B-CAD Criterio >=2 >2 >3 * >4
Sensibilidad 100,00 100,00 80,00 0,00
-LR 0,00 0,30 1,00
VPP+ 50,0 54,5 70,6
VPN100,0 76,9 50,0
Novato 2 con B-CAD Criterio >=2 >2 >3 * >4
Sensibilidad 100,00 100,00 86,67 0,00
110
-LR 0,00 0,29 1,00
VPP+ 50,0 55,6 61,9
VPN100,0 77,8 50,0
Moderadamente experto 1 sin B-CAD Criterio >=1 >2 >3 >4 * >5
Sensibilidad 100,00 100,00 93,33 43,33 0,00
IC95% 88,4 - 100,0 88,4 - 100,0 77,9 - 99,2 25,5 - 62,6 0,0 - 11,6
Especificidad 0,00 16,67 36,67 100,00 100,00
IC95% 0,0 - 11,6 5,6 - 34,7 19,9 - 56,1 88,4 - 100,0 88,4 - 100,0
+LR 1,00 1,20 1,47
IC95% 88,4 - 100,0 88,4 - 100,0 77,9 - 99,2 43,9 - 80,1 0,0 - 11,6
Especificidad 0,00 16,67 30,00 90,00 100,00
IC95% 0,0 - 11,6 5,6 - 34,7 14,7 - 49,4 73,5 - 97,9 88,4 - 100,0
+LR 1,00 1,20 1,33 6,33
IC95% 88,4 - 100,0 88,4 - 100,0 61,4 - 92,3 37,4 - 74,5 0,0 - 11,6
Especificidad 0,00 16,67 53,33 86,67 100,00
IC95% 0,0 - 11,6 5,6 - 34,7 34,3 - 71,7 69,3 - 96,2 88,4 - 100,0
+LR 1,00 1,20 1,71 4,25
IC95% 88,4 - 100,0 82,8 - 99,9 65,3 - 94,4 40,6 - 77,3 0,0 - 11,6
Especificidad 0,00 13,33 46,67 83,33 100,00
IC95% 0,0 - 11,6 3,8 - 30,7 28,3 - 65,7 65,3 - 94,4 88,4 - 100,0
+LR 1,00 1,12 1,56 3,60
-LR 0,00 0,18 0,57 1,00
VPP+ 50,0 54,5 59,6 100,0
VPN100,0 84,6 63,8 50,0
Moderadamente experto 1 con B-CAD Criterio >=1 >2 >3 >4 * >5
Sensibilidad 100,00 100,00 93,33 63,33 0,00
-LR 0,00 0,22 0,41 1,00
VPP+ 50,0 54,5 57,1 86,4
VPN100,0 81,8 71,1 50,0
Moderadamente experto 2 sin B-CAD Criterio >=2 >2 >3 >4 * >5
Sensibilidad 100,00 100,00 80,00 56,67 0,00
-LR 0,00 0,37 0,50 1,00
VPP+ 50,0 54,5 63,2 81,0
VPN100,0 72,7 66,7 50,0
Moderadamente experto 2 con B-CAD Criterio >=2 >2 >3 >4 * >5
Sensibilidad 100,00 96,67 83,33 60,00 0,00
111
-LR 0,25 0,36 0,48 1,00
VPP+ 50,0 52,7 61,0 78,3
VPN80,0 73,7 67,6 50,0
Experto 1 sin B-CAD Criterio >=1 >2 >3 * >4 >5
Sensibilidad 100,00 100,00 90,00 6,67 0,00
IC95%I 88,4 - 100,0 88,4 - 100,0 73,5 - 97,9 0,8 - 22,1 0,0 - 11,6
Especificidad 0,00 16,67 36,67 100,00 100,00
IC95% 0,0 - 11,6 5,6 - 34,7 19,9 - 56,1 88,4 - 100,0 88,4 - 100,0
+LR 1,00 1,20 1,42
-LR 0,00 0,27 0,93 1,00
VPP+ 50,0 54,5 58,7 100,0
VPN100,0 78,6 51,7 50,0
Experto 1 con B-CAD Criterio >=1 >2 >3 * >4 >5
Sensibilidad 100,00 100,00 96,67 10,00 0,00
IC95% 88,4 - 100,0 88,4 - 100,0 82,8 - 99,9 2,1 - 26,5 0,0 - 11,6
Especificidad 0,00 13,33 33,33 96,67 100,00
IC95% 0,0 - 11,6 3,8 - 30,7 17,3 - 52,8 82,8 - 99,9 88,4 - 100,0
+LR 1,00 1,15 1,45 3,00
-LR 0,00 0,100 0,93 1,00
VPP+ 50,0 53,6 59,2 75,0
VPN100,0 90,9 51,8 50,0
Experto 2 sin B-CAD Criterio >=2 >2 >3 * >4 >5
Sensibilidad 100,00 100,00 80,00 3,33 0,00
IC95% 88,4 - 100,0 88,4 - 100,0 61,4 - 92,3 0,08 - 17,2 0,0 - 11,6
Especificidad 0,00 26,67 70,00 100,00 100,00
IC95% 0,0 - 11,6 12,3 - 45,9 50,6 - 85,3 88,4 - 100,0 88,4 - 100,0
+LR 1,00 1,36 2,67
IC95%I 88,4 - 100,0 88,4 - 100,0 61,4 - 92,3 0,08 - 17,2 0,0 - 11,6
Especificidad 0,00 23,33 66,67 100,00 100,00
IC95% 0,0 - 11,6 9,9 - 42,3 47,2 - 82,7 88,4 - 100,0 88,4 - 100,0
+LR 1,00 1,30 2,40
-LR 0,00 0,29 0,97 1,00
VPP+ 50,0 57,7 72,7 100,0
VPN100,0 77,8 50,8 50,0
Experto 2 con B-CAD Criterio >=2 >2 >3 * >4 >5
Sensibilidad 100,00 100,00 80,00 3,33 0,00
112
-LR 0,00 0,30 0,97 1,00
VPP+ 50,0 56,6 70,6 100,0
VPN100,0 76,9 50,8 50,0
113