Centro de Estudios de Electrónica y. Tecnologías de la Información TRABAJO DE DIPLOMA

Centro de Estudios de Electrónica y Tecnologías de la Información TRABAJO DE DIPLOMA Clasificación de Células Cancerosas mediante el uso de Árboles

Author: Patricia Coronel Cordero

1 downloads 107 Views 3MB Size

Report

DOWNLOAD PDF

Recommend Stories

DIPLOMA DE ESTUDIOS AVANZADOS

PROGRAMA DE DOCTORADO DIPLOMA DE ESTUDIOS AVANZADOS

Centro de trabajo CENTRO DE TRABAJO CENTRO DE TRABAJO

CENTRO DE TRABAJO Centro de trabajo CENTRO DE TRABAJO El Centro de trabajo Rousseau posibilita una amplia variedad de configuraciones gracias a sus

Centro de Estudios Cervantinos

CENTRO DE ESTUDIOS MIRASIERRA

CENTRO DE ESTUDIOS MIRASIERRA C/ Moralzarzal 15-A 28034 Madrid [email protected] www.selectividad.net/cem 91 740 56 55 91 738 06 55 CRISIS DEL A

Centro de Estudios Adlerianos

Centro de Estudios Preuniversitarios

Centro de Estudios Africanos

Centro de Estudios Preuniversitarios

Centro de Estudios Preuniversitarios INFORMACIÓN ACADÉMICA: PLAN DE ESTUDIOS / LABORATORIOS / ASESORÍAS / CONSEJERÍA / MATERIAL DIDÁCTICO / ATENCIÓN

Centro de Estudios de Postgrado

Story Transcript

Centro de Estudios de Electrónica y Tecnologías de la Información

TRABAJO DE DIPLOMA

Clasificación de Células Cancerosas mediante el uso de Árboles de Decisión Autor: José Antonio Rodríguez Vega Tutor: Maykel Orozco Monteagudo

Santa Clara 2011 "Año 53 de la Revolución"

Universidad Central “Marta Abreu” de Las Villas Facultad de Ingeniería Eléctrica Centro de Estudios de Electrónica y Tecnologías de la Información

TRABAJO DE DIPLOMA Clasificación de Células Cancerosas mediante el uso de árboles de decisión Autor: José Antonio Rodríguez Vega [email protected]

Tutor: Maykel Orozco Monteagudo, MSc. Profesor Auxiliar. Centro de Estudios de Electrónica y Tecnologías de la Información, Facultad de Ingeniería Eléctrica, [email protected]

Santa Clara 2011 "Año 53 de la revolución"

Hago constar que el presente trabajo de diploma fue realizado en la Universidad Central “Marta Abreu” de Las Villas como parte de la culminación de estudios de la especialidad de Ingeniería Biomédica, autorizando a que el mismo sea utilizado por la Institución, para los fines que estime conveniente, tanto de forma parcial como total y que además no podrá ser presentado en eventos, ni publicados sin autorización de la Universidad.

Los abajo firmantes certificamos que el presente trabajo ha sido realizado según acuerdo de la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo de esta envergadura referido a la temática señalada.

PENSAMIENTO

La verdadera ignorancia no es la ausencia de conocimientos, sino el hecho de negarse a adquirirlos. Karl Popper

DEDICATORIA

A mi familia por haberme guiado y apoyado en todos estos años.

AGRADECIMIENTOS

 A mis padres y mi hermano por todo el apoyo que me han dado a lo largo de todos estos años de estudio.  A mi familia por estar siempre presente.  A mi tutor por la ayuda y dedicación.  A mis amigos por los gratos momentos compartidos.  A mi novia por apoyarme.  A todas las personas que de una forma u otra contribuyeron a la confección de este trabajo.

TAREA TÉCNICA Aprender los fundamentos de: o Estadística Descriptiva. o Pruebas de Hipótesis. o Análisis de Varianza. Realizar un estudio sobre las siguientes técnicas de construcción de árboles de decisión: o CHAID. o CHAID Exhaustivo. o CART. Realizar una revisión bibliográfica relacionada con la clasificación de células cancerosas. Aprender a usar el software Statistica 8.0. Procesar usando el software Statistica 8.0 la información contenida en la base de casos de cáncer de mama basados en valoraciones subjetivas de la Universidad de Wisconsin. Construir árboles de decisión basados en las técnicas CHAID, CHAID Exhaustivo y CART para la clasificación de células cancerosas. Probar distintos parámetros en aras de obtener los mejores resultados. Comparar los resultados obtenidos con los reportados en la literatura.

RESUMEN El presente trabajo trata sobre la clasificación automática de células cancerosas de cáncer de mama mediante el uso de técnicas de árboles de decisión. Para la descripción de las células mamarias se utilizó la base de casos de cáncer de mama basados en valoraciones subjetivas de la Universidad de Wisconsin. Las técnicas de construcción de árboles de decisión utilizadas en este trabajo fueron CHAID (Detector Automático de Interacciones basado en Chi-Cuadrado, Chisquared Automatic Interaction Detector), CHAID Exhaustivo y CART (Árboles de Clasificación y Regresión, Classification and Regression Tress).

Para construir los árboles de decisión se

utilizó la implementación de que está incorporada al paquete Statistica 8.0 de StatSoft Inc. Los resultados obtenidos igualan los resultados obtenidos utilizando otras técnicas de aprendizaje automatizado e inteligencia artificial.

ÍNDICE

ÍNDICE ........................................................................................................................................... 1 INTRODUCCIÓN .......................................................................................................................... 3 CAPÍTULO 1. BASES MATEMÁTICAS DE LAS TÉCNICAS BASADAS EN ÁRBOLES DE DECISIÓN ...................................................................................................................................... 6 1.1. Variables Aleatorias y Niveles de Medición ...................................................................... 6 1.1.1. Variables Aleatorias ..................................................................................................... 6 1.1.2. Niveles de Medición .................................................................................................... 7 1.2. Distribuciones Muestrales................................................................................................... 8 1.3. Tablas de Contingencia ..................................................................................................... 12 1.4. Análisis de Varianza Unifactorial ..................................................................................... 13 CAPITULO 2. APLICACIÓN DE LOS ÁRBOLES DE DECISIÓN EN LA DETECCIÓN DE CÁNCER DE MAMA .................................................................................................................. 16 2.1. Árboles de decisión ........................................................................................................... 16 2.1.1. La técnica CHAID ..................................................................................................... 17 2.1.2. CHAID Exhaustivo .................................................................................................... 20 2.1.3. La técnica CART ....................................................................................................... 21 2.1.4.

Cálculo de los p-valores. ......................................................................................... 23

2.2. El cáncer de mama ............................................................................................................. 24 2.2.1. Incidencia de la enfermedad. ..................................................................................... 25 2.2.2. Pruebas de imagen: la biopsia de aguja fina. .............................................................. 26 2.3. Base de casos del cáncer de mama..................................................................................... 27

1

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… 2.3.1. Análisis descriptivo de la base de casos ..................................................................... 29 CAPITULO 3. RESULTADOS Y DISCUSIÓN.......................................................................... 31 3.1 Evaluación de los clasificadores. ....................................................................................... 31 3.2 Construcción del árbol de decisión usando la técnica CHAID. .......................................... 32 3.2 Construcción del árbol de decisión usando la técnica CHAID Exhaustivo. ....................... 33 3.3 Construcción del árbol de decisión usando la técnica CART. ............................................ 33 3.5 Discusión............................................................................................................................. 34 CONCLUSIONES ........................................................................................................................ 43 RECOMENDACIONES ............................................................................................................... 44 BIBLIOGRAFÍA .......................................................................................................................... 45 ANEXO 1. LA FUNCIÓN GAMMA.......................................................................................... 48 ANEXO 2. LOS ÁRBOLES DE DECISIÓN ............................................................................... 49 ANEXO 3. IMPLEMENTACIÓN EN LENGUAJE C DEL ÁRBOL OBTENIDO USANDO LA TÉCNICA CHAID ................................................................................................................. 50 ANEXO 4. IMPLEMENTACIÓN EN LENGUAJE C DEL ÁRBOL OBTENIDO USANDO LA TÉCNICA CHAID EXHAUSTIVO ...................................................................................... 51 ANEXO 5. IMPLEMENTACIÓN EN LENGUAJE C DEL ÁRBOL OBTENIDO USANDO LA TÉCNICA CART ................................................................................................................... 52

2

INTRODUCCIÓN

El uso de árboles de decisión tuvo su origen en las ciencias sociales con los trabajos de Sonquist y Morgan [1] y Morgan y Messenger [2]. Un árbol de decisión es un método matemático que permite, de una forma gráfica y analítica, representar todos los sucesos que pueden surgir a partir de una decisión asumida en cierto momento [3, 4].

Su principal característica, de la cual

proviene su nombre, es que ayudan a tomar la decisión “más acertada”, desde un punto de vista probabilístico, ante una gran variedad de posibles decisiones. Además de esto, permite desplegar visualmente un problema y organizar el trabajo de cálculos que deben realizarse.

Sus

prerrequisitos no son exigentes ya que permiten trabajar con todo tipo de variables de decisión: binarias, nominales, ordinales y de intervalo o razón. El aprendizaje de árboles de decisión es un método simple, que ha sido ampliamente utilizado y con gran éxito en numerosas tareas de aprendizaje. Dentro de las técnicas basadas en árboles de decisión las más usadas encontramos, entre otros: CHAID, CHAID Exhaustivo y CART [5, 6]. Estos métodos muchas veces los encontramos en la frontera entre la medicina y las ciencias de la computación en una disciplina surgida recientemente: la informática médica [7, 8]. Dentro de la medicina, estos métodos facilitan el trabajo a la hora de obtener una rápida y fiable respuesta a numerosas enfermedades, entre ellas el cáncer de mama, dada que es una enfermedad curable, siempre y cuando su detección y diagnóstico sean oportunos. Los cánceres o carcinomas de mama suponen más del 90% de los tumores malignos de las mamas, pero al menos nueve de cada diez tumores o bultos de las mamas no son malignos [9, 10]. El cáncer puede afectar a personas de todas las edades, incluso a fetos, pero el riesgo de sufrir los carcinomas más comunes se incrementa con la edad. El cáncer causa cerca del 13% de todas las muertes. De acuerdo con la Sociedad Americana del Cáncer, 7,6 millones de personas murieron de cáncer en el mundo durante 2007. Del total de los carcinomas de mama, menos del uno por ciento ocurren en varones. El Día Internacio nal del Cáncer de Mama se celebra el 19 de octubre, tiene como objetivo sensibilizar a la población general acerca de la importancia que esta enfermedad tiene en el mundo industrializado [9, 10]. 3

CLASIFICACIÓN DE CÉLULAS CANCEROSAS…

La clasificación automática de células cancerosas de mama es un tema abordado en la literatura científica. Dentro de los métodos utilizados se encuentran las redes neuronales artificiales [11, 12], los métodos multisuperficie [13-15], el aprendizaje basado en instancias [16], los sistemas basados en lógica borrosa y en reglas [17]. Independientemente de estos resultados, los árboles de decisión ofrecen una alternativa simple y eficiente de abordar este problema. Por otro lado, los árboles de decisión han sido usados con éxito en otras aplicaciones dentro de la informática médica [18-22]. A partir de lo antes expuesto, el problema científico a resolver será la construcción de árboles de decisión para usar en problemas de clasificación de células cancerosas de mama. La hipótesis de investigación queda como sigue: Con el uso de las técnicas CHAID, CHAID Exhaustivo y CART es posible la obtención de clasificadores con buenos rendimientos resolver el problema de la clasificación de células cancerosas de mama. La hipótesis de investigación quedará validada si se comprueba que: Mediante la construcción de árboles de decisión basados en las técnicas CHAID, CHAID Exhaustivo y CART se obtienen clasificadores que igualan o sobrepasan las prestaciones de otros clasificadores para las base de casos para valoraciones subjetivas de cáncer de mama del Hospital de la Universidad de Wisconsin. Estas prestaciones serían la superación del 90 % de clasificación para las bases de casos de observaciones subjetivas. Objetivo Principal La presente investigación tiene como objetivo principal: Construir clasificadores basados en árboles de decisión para la clasificación de células cancerosas de mama. Objetivos Específicos Realizar un estudio sobre las técnicas CHAID y CART. Construir árboles de decisión basados en la técnica CHAID para clasificar células cancerosas de cáncer de mama. 4

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… Construir árboles de decisión basados en la técnica CHAID Exhaustivo para clasificar células cancerosas de cáncer de mama. Construir árboles de decisión basados en las técnicas CART para clasificar células cancerosas de cáncer de mama. Comparar los resultados obtenidos con los resultados reportados en la literatura. Tarea Técnica Aprender los fundamentos de: o Estadística Descriptiva. o Pruebas de Hipótesis. o Análisis de Varianza. Realizar un estudio sobre las siguientes técnicas de construcción de árboles de decisión: o CHAID. o CHAID Exhaustivo. o CART. Realizar una revisión bibliográfica relacionada con la clasificación de células cancerosas. Aprender a usar el software Statistica 8.0. Procesar usando el software Statistica 8.0 la información contenida en la base de casos de cáncer de mama basados en valoraciones subjetivas de la Universidad de Wisconsin. Construir árboles de decisión basados en las técnicas CHAID, CHAID Exhaustivo y CART para la clasificación de células cancerosas. Probar distintos parámetros en aras de obtener los mejores resultados. Comparar los resultados obtenidos con los reportados en la literatura.

5

CAPÍTULO 1. BASES MATEMÁTICAS DE LAS TÉCNICAS BASADAS EN ÁRBOLES DE DECISIÓN

En el presente capítulo expone la fundamentación estadística de la técnica CHAID y CART. Para ello se explicarán las principales distribuciones y pruebas estadísticas que las sustentan.

1.1. Variables Aleatorias y Niveles de Medición 1.1.1. Variables Aleatorias Definición 1. Llamaremos variable aleatoria, y la representaremos por X, a una cantidad que se puede determinar cuantitativamente y que tiene un carácter aleatorio, en el sentido de que en distintas observaciones de la misma categoría puede tomar valores diferentes, no determinísticamente determinados. La caracterización de una variable aleatoria supone, por tanto, la determinación del conjunto de valores que puede tomar efectivamente la variable y además la probabilidad con que ellos pueden ser tomados. Las variables aleatorias se pueden clasificar como discretas y continuas [23, 24]. Para ver una definición formal del concepto de variable aleatoria consultar [23]. Definición 2. Se dice que una variable aleatoria es discreta si el conjunto de sus valores posibles es finito o a lo sumo infinito pero numerable. Para caracterizar a una variable aleatoria discreta se usa una función conocida como función de probabilidad. Definición 3. La función de probabilidad P de una variable aleatoria discreta X en un valor x se define como la probabilidad de que la variable aleatoria X tome el valor x. O sea,

La función de probabilidad tiene las siguientes propiedades [24]: 1. 2.

. , donde

representa el conjunto de todos los posibles valores que puede

tomar la variable X. 6

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… Definición 4.

Se dice que una variable aleatoria es continua si el conjunto de sus valores

posibles es no numerable. La función de distribución es utilizada para representar distribuciones tanto discretas como continuas [24]. Definición 5. La función de distribución F de una variable aleatoria discreta o continua X en un valor x se define como la probabilidad de que la variable aleatoria X tome el valor menor o igual que x. O sea,

La función de distribución tiene las siguientes propiedades [24]: 1. Es no decreciente. 2. Si existe el límite en

entonces

.

3. Si existe el límite en

entonces

.

4.

.

5.

.

A las variables aleatorias continuas es común representarlas con una función conocida como función de densidad que no es más que el equivalente continuo de la función de probabilidad en las variables aleatorias discretas. Definición 6. La función de densidad f de una variable aleatoria continua X se define como la derivada de la función de distribución. O sea,

Algunas propiedades de la función de densidad son [24]: 1. 2.

para todos los valores de su dominio. es continua en casi todos los valores de su dominio.

3. 4. 1.1.2. Niveles de Medición

7

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… Definición 7. Una variable aleatoria discreta tiene un nivel de medición ordinal si sus valores posibles han sido establecidos de manera que expresan cierto orden en las categorías del fenómeno aleatorio que caracterizan, aunque la magnitud absoluta de estos valores no tenga un significado específico. Definición 8. Se dice que la variable aleatoria discreta tiene un nivel de medición nominal si sus valores posibles han sido establecidos de manera que ellas no reflejan un orden en las categorías del fenómeno aleatorio que caracterizan. En variable aleatoria continuas también se pueden distinguir dos niveles de medición: continuo por intervalo o radial. Definición 9. Se dice que una variable aleatoria continua tiene un nivel de medición radial si sus valores posibles pueden relacionarse en función de su distancia a un cero absoluto. Definición 10. Se dice que una variable aleatoria continua tiene un nivel de medición por intervalo si sus valores posibles pueden relacionarse por la distancia entre ellos pero no por su distancia a un cero absoluto. Existen muchas pruebas estadísticas donde no es posible trabajar con variables aleatorias continuas. Es necesario entonces llevar la información contenida en esta variable a una discreta ordinal aunque haya pérdida de información. A este proceso de conve rtir una variable aleatoria continua a una discreta independientemente de que haya pérdida de información se le llama discretización [24].

1.2. Distribuciones Muestrales A continuación se definirán las distribuciones muestrales más usadas dentro de la estadística matemática. Una explicación más detallada de sus características se puede encontrar en [24]. Definición 1 (Distribución Normal o Gaussiana): Una magnitud aleatoria X tiene distribución normal o gaussiana con parámetros (

) si se rige por una función de densidad de la forma:

(1.1)

8

CLASIFICACIÓN DE CÉLULAS CANCEROSAS…

F I G U R A 1.1 D I S T R I B U C I Ó N

N O R MA L

F I G U R A 1.2 D I S T R I B U C I Ó N C H I - C U A DR A DO .

El caso particular de la distribución normal con normal estándar.

9

y

se conoce como distribución

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… Definición 2 (Distribución Chi-cuadrado o Ji-cuadrado): Una magnitud aleatoria X tiene con α grados de libertad, si:

distribución

(1.2) La función

se conoce como función gamma. Una explicación detallada de esta función se

puede encontrar en el Anexo 1. Teorema 1: Sean

variables aleatorias independientes que tienen distribución

normal estándar. La magnitud aleatoria

tiene distribución

con n grados de

libertad. Para consultar la demostración del teorema anterior consulte [25]. Definición 3 (Distribución de t de Student): Una magnitud aleatoria de Student con

grados de libertad

tiene distribución t de

si:

(1.3)

F I G U R A 1.3 D I S T R I B U C I Ó N

10

T DE

S T U DE N T

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… Teorema 2: Si

y

estándar, mientras que

son variables aleatorias independientes y tiene distribución

distribución de t de Student con

con

tiene distribución normal

grados de libertad, entonces

tiene

grados de libertad.

Para consultar la demostración del teorema anterior consulte [25]. Definición 4 (Distribución f de Fis her): Una variable aleatoria S tiene distribución F de Fisher con (

) grados de libertad, si su función de densidad es de la forma:

(1.4)

F I G U R A 1.4 D I S T R I B U C I Ó N F

Teorema 3: Si

y

tiene distribución

son unas variables aleatorias independientes, con la particularidad de que con

grados de libertad, mientras que

grados de libertad, entonces la variable aleatoria y

con

tiene distribución F de Fisher con

grados de libertad.

Para consultar la demostración del teorema anterior consulte [25].

11

tiene distribución

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… 1.3. Tablas de Contingencia Las tablas de contingencia se utilizan principalmente para probar independencia entre variables aleatorias discretas ya sean nominales u ordinales. En este caso las hipótesis quedarían como sigue:

H 0 : Las variables son independientes.

(1.5)

H1 : Existe dependencia entre las variables.

Suponiendo que las variables que se analizan son X e Y con n y m categorías respectivamente entonces de la muestra puede obtenerse una tabla como la que se muestra a continuación.

y1

y2

...

yn

x1

O11

O12

...

O1n

SF1

x2

O21

O22

...

O2n

SF2

...

...

...

...

...

xm

Om1

Om 2

...

Omn

SFm

SC1

SC2

SCn

T

donde: Oij: cantidad de elementos en la muestra donde la variable X toma el valor i y la variable Y toma el valor j. Además: n

SFi

Oij , i 1..m

(1.6)

Oij , j 1..n

(1.7)

j 1 m

SC j i 1

m

n

T

Oij

(1.8)

i 1 j 1

A partir de estos valores se puede calcular el valor esperado para las observaciones de las categorías i e j de las variables X e Y bajo la premisa de que estas son independientes.

12

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… Eij

SFi SC j

(1.9)

T

Luego podemos decir que el estadígrafo:

(1.10) tiene distribución Chi-cuadrado con

grados de libertad bajo la premisa de que

H0 es cierta [24, 25]. En el caso de que

, o sea, la distribución Chi-cuadrado de la variable

de la

ecuación (1.3.6) tiene un grado de libertad, entonces este valor se encuentra sesgado (con tendencia a ser mayor) y el estadígrafo se debe calcular por medio de la corrección de Yates [24, 25] que se define como:

(1.11)

1.4. Análisis de Varianza Unifactorial El modelo de clasificación simple donde se comparan

tratamientos con

observaciones por

cada uno de los tratamientos está dado por: (1.12)

donde

y

.

Los valores numéricos de la característica

que se miden, se pueden representar sigue:

Los requisitos para la aplicación del análisis de varianza bajo la suposición de un modelo de efectos fijos del tipo de clasificación simple son: i)

los errores

tienen una distribución normal media 0 y varianza

ii)

los errores

no están correlacionados, o sea, son independientes.

13

.

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… Tratamiento 1

Tratamiento 2

...

Tratamiento

... ... ...

...

...

...

...

Luego, la hipótesis a probar son:

(1.13)

donde

es el efecto que se atribuye al tratamiento .

En la siguiente tabla se brinda un análisis de varianza que corresponde al modelo de clasificación simple, donde

es la cantidad de tratamientos y

la cantidad de observaciones por cada uno de

ellos. Fuentes de

Grados de

Suma de

variación

libertad

cuadrados

Cuadrados medios

Razón

Tratamientos

Residuo Total

donde:

(1.14)

14

CLASIFICACIÓN DE CÉLULAS CANCEROSAS…

(1.15)

(1.16)

(1.17)

(1.18)

representa la suma de todas las observaciones y

la suma total de las observaciones

correspondientes al -ésimo tratamiento. Si se cumplen las suposiciones enunciadas se puede decir que siendo H0 cierta el estadígrafo F tiene distribución F de Fisher con rechaza con nivel de significación

y

grados de libertad. Luego la hipótesis nula se

si se cumple que

15

[25, 26].

CAPITULO 2. APLICACIÓN DE LOS ÁRBOLES DE DECISIÓN EN LA DETECCIÓN DE CÁNCER DE MAMA

2.1. Árboles de decisión El uso de árboles de decisión tuvo su origen en las ciencias sociales con los trabajos de Sonquist y Morgan [1] y Morgan y Messenger [2]. Un árbol de decisión es una forma gráfica y analítica de representar todos los eventos (sucesos) que pueden surgir a partir de una decisión asumida en cierto momento. Nos ayudan a tomar la decisión “más acertada”, desde un punto de vista probabilístico, ante un abanico de posibles decisiones y permite desplegar visualmente un problema y organizar el trabajo de cálculos que deben realizarse [1-3]. El uso del término “árbol” viene dado por la forma en que estos son graficados, aunque los árboles son mostrados creciendo hacia la parte inferior de la página. La raíz es el nodo superior, en cada nodo se hace una partición hasta llegar a un nodo terminal u hoja. Cada nodo noterminal contiene una pregunta en la cual se basa la división del nodo. Cada nodo terminal contiene el valor de la variable de respuesta (árboles para regresión) o el nombre de la clase a la cual pertenece (árboles para clasificación). Para ver de forma detallada la terminología de los árboles de decisión consultar el Anexo 2. De forma general, esto se traduce en los siguientes pasos [3, 27]: Paso 1. El nodo raíz es dividido en subgrupos (dos o más) determinados por la partición de una variable predictora elegida, generando nodos hijos. Paso 2. Los nodos hijos son divididos usando la partición de una nueva variable. El proceso recursivo se repite para los nuevos nodos hijos sucesivamente hasta que se cumpla alguna condición de parada. Paso 3. Algunos de los nodos resultantes son terminales, mientras que otros nodos continúan dividiéndose hasta llegar a un nodo terminal.

16

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… En cada árbol se cumple la propiedad de tener un camino único entre el nodo raíz y cada uno de los demás nodos del árbol. Las principales ventajas de los árboles de decisión son las siguientes: Se obtiene conocimiento estructurado en forma de reglas de clasificación o de los valores de una variable de intervalo. Esto facilita interpretar en un lenguaje llano la caracterización de las clases o los valores de una variable. Al ser un procedimiento de análisis no paramétrico (independiente de la distribución de las variables) no se requiere validar premisas distribucionales de probabilidad. Permite trabajar con todo tipo de variables predictoras: binarias, nominales, ordinales y de intervalo o razón. Permite valores desconocidos para las variables predictoras en los individuos, tanto en la fase de construcción del árbol como en la de predicción. Dentro de las técnicas de construcción de árboles de decisión, tres de las más usadas son CHAID, CHAID Exhaustivo y CART [5, 6, 27, 28]. 2.1.1. La técnica CHAID En un estudio real existen frecuentemente múltiples variables (predictivas o independientes) que pueden tener asociación con una variable dependiente. La presentación de muchas tablas de contingencia, no siempre refleja las asociaciones esenciales, y usualmente se convierte en un listado inútil de tablas que desinforman en lugar de orientar, aun cuando se utilice la V de Cramer [29, 30] para ordenar la fortaleza de las asociaciones. Un estudio multivariado trata de enfocar el efecto posible de todas las variables conjuntamente incluyendo sus posibles correlaciones; pero puede ser particularmente interesante, si considera además las posibilidades de la interacción entre las variables predictivas sobre la variable dependiente. Cuando el número de variables crece, el conjunto de las posibles interacciones crece en exceso, resulta prácticamente imposible analizarlas y por ello adquiere especial interés una técnica de detección automática de interacciones fundamentales. CHAID significa Detector Automático de Interacciones basados en Chi-Cuadrado (Chi-squared Automatic Interaction Detector).

17

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… El algoritmo CHAID fue introducido originalmente por Kass en [31]. El análisis de CHAID surge realmente como una técnica de segmentación. Es particularmente útil en todos aquellos problemas en que se quiera subdividir una población a partir de una variable dependiente y posibles variables predictivas. Puede ser usado para los problemas de regresión y para la construcción de árboles de clasificación [5]. Se trata de forma automática la construcción de muchas tablas cruzadas, y la elaboración de significación estadística de las proporciones. Las relaciones más significativas se utilizan para controlar la estructura de un diagrama de árbol. CHAID combina categorías de una variable predictiva que no difieren significativamente. De esta forma se resuelve, por ejemplo, el problema de cómo categorizar la edad para obtener una tabla de contingencia significativa con la variable dependiente. Lo mismo es capaz de hacer con variables incluso nominales, e incluso con variables que tienen un valor perdido, asociando éste a la categoría de la variable respecto a la cual los casos son más parecidos en su comportamiento. Este procedimiento de combinación conjuntamente con el algoritmo de ruptura o división, asegura en un mismo segmento a aquellos casos que son homogéneos respecto al criterio de segmentación. Pasos del algoritmo El algoritmo CHAID acepta solamente a variables predictoras categóricas nominales u ordinales [5]. Cuando las variables son continuas, estas se transforman en variables ordinales. El algoritmo CHAID consta de tres etapas: mezcla, división y parada. Mezcla (Merging) Para cada variable predictora X, se combinan las categorías no significativas. Cada categoría final de X dará lugar a un nodo hijo si X se utiliza para dividir el nodo padre. En esta etapa también se calcula el p-valor ajustado que debe ser utilizado en la etapa de división. Paso 1. Si X tiene 1 categoría solamente, pare y fije el p-valor ajustado a 1. Paso 2. Si X tiene 2 categorías, ir al Paso 6. Paso 3. Encuentre el par de categorías permisibles de X (un par permisible de categorías para una variable predictora ordinal son dos categorías adyacentes, y para una variable predictora nominal dos categorías cualesquiera) que sea el menos significativamente diferente. El par más parecido

18

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… es el par cuya prueba estadística da el mayor p-valor con respecto a la variable dependiente Y. El cálculo del p-valor se calcula como se explica en la sección 2.1.4. Paso 4. Para los pares que tienen el p-valor más grande, chequee si su p-valor es mayor un parámetro p-valor-mezcla definido por el usuario. En caso afirmativo, este par se combina en una sola categoría compuesta y queda formado un nuevo sistema de categorías de X. En caso negativo, ir al Paso 6. Paso 5. Vaya al Paso 2. Paso 6. El p-valor ajustado es calculado para las categorías combinadas aplicando los ajustes de Bonferroni que se explican en la sección 2.1.4. División (Splitting) La mejor división para cada variable predictora se determina en la etapa de mezcla. El paso que división selecciona que variable predictora se utilizará para dividir los nodos. La selección se realiza comparando el p-valor ajustado asociado a cada variable predictora. El p-valor ajustado se obtiene en la etapa de mezcla. Paso 1. Seleccione la variable predictora que tiene el menor p-valor ajustado. Paso 2. Si es este p-valor ajustado es menor o igual un p-valor-división definido por el usuario, divida el nodo usando esta variable predictora. En caso contrario el nodo no se divide y éste se considera como nodo terminal. Parada (Stopping) En la etapa de parada se comprueba si el crecimiento del árbol de decisión se detiene según las reglas de parada siguientes. Regla de Parada 1. Si un nodo llega a ser puro; es decir, todos los casos en un nodo tienen valores idénticos de la variable dependiente, el nodo no se dividirá. Regla de Parada 2. Si todos los casos en un nodo tienen valores idénticos para cada la variable predictora, el nodo no se dividirá. Regla de Parada 3. Si la profundidad del árbol alcanza un valor límite de la profundidad del árbol (especificado por el usuario), el nodo no se dividirá.

19

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… Regla de Parada 4. Si el tamaño de un nodo es menor que un valor mínimo definido por el usuario, el nodo no se dividirá. Regla de Parada 5. Si la división de un nodo da lugar a un nodo hijo cuyo tamaño sea menor que un valor mínimo definido por el usuario para tamaño de un nodo hijo, esto es, el nodo hijo tiene demasiados pocos casos (comparado con este mínimo) se combinará con el nodo hijo más parecido, de acuerdo al p-valor. Hay que tener en cuenta que si el número resultante de nodos hijo es 1, el nodo no se dividirá. 2.1.2. CHAID Exhaustivo El método CHAID Exhaustivo fue originalmente propuesto en [32]. La división y parada en el algoritmo CHAID Exhaustivo (CHAIDe) se realizan de la misma forma que en la técnica CHAID. La mezcla utiliza un procedimiento de búsqueda exhaustiva para combinar cualquier par similar hasta alcanzar un solo par. Al igual que la técnica CHAID, CHAIDe sólo acepta variables predictivas categóricas nominales u ordinales. Las variables continuas se categorizan de la misma forma que en CHAID. Mezcla (Merging) Paso 1. Si X tiene 1 categoría solamente, pare y fije el p-valor ajustado a 1. Paso 2. Sea índice = 0. Calcular el p-valor basado en el conjunto de las categorías de X en este momento. Asignar p (índice) = p-valor. Paso 3. Encuentre el par de categorías permisibles de X (un par permisible de categorías para una variable predictora ordinal son dos categorías adyacentes, y para una variable predictora nominal dos categorías cualesquiera) que sea el menos significativamente diferente. El par más parecido es el par cuya prueba estadística da el mayor p-valor con respecto a la variable dependiente Y. El cálculo del p-valor se explica en la sección 2.1.4. Paso 4. Mezclar el par que da el mayor p-valor en una categoría compuesta. Paso 5. Actualizar el índice = índice + 1.

Calcular el p-valor basado en el conjunto de

categorías de X en este momento. Asignar p (índice) = p-valor. Paso 6. Repetir los pasos del 3-5 hasta que sólo queden dos categorías. Luego, entre todos los índices, encontrar el conjunto de categorías tales que p (índice) sea menor. 20

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… Paso 7. El p-valor ajustado es calculado para las categorías combinadas aplicando los ajustes de Bonferroni que se explican en la sección 2.1.4.

A diferencia de algoritmo CHAID, no es

necesario especificar el valor del parámetro p-valor-mezcla. Sólo el parámetro p-valor-división se necesita en la etapa de división. 2.1.3. La técnica CART La técnica CART (Classification and Regression Tress) fue introducida originalmente por Breiman et al. [33]. En este caso, el criterio para dividir es la impureza del nodo. Un árbol de decisión CART es un árbol de decisión binario que se construye mediante el fraccionamiento de un nodo en dos nodos secundarios en varias ocasiones, comenzando con el nodo raíz que contiene la muestra de aprendizaje. CART divide los datos en dos subconjuntos, de modo que los casos comprendidos dentro de cada uno de los subconjuntos sean más homogéneos que el subconjunto anterior. Se trata de un proceso recursivo, que se repite hasta alcanzar el criterio de homogeneidad o hasta que se cumpla un criterio de parada. La misma variable predictora puede ser utilizada varias veces en distintos niveles del árbol. Entre las ventajas del algoritmo CART encontramos las siguientes [27, 34]: CART no asume ninguna condición con respecto a la distribución de ninguna de las variables, ya sea de las variables predictoras o de la variable dependiente. Las variables pueden ser de diferentes tipos: continuas o discretas. Los valores extremos pueden ser aislados en un nodo y no tienen ningún efecto en la división. CART puede detectar y revelar interacciones en un conjunto de datos. CART es invariante con relación a la transformación de las variables independientes. Es decir, las transformaciones no afectan el árbol producido. CART produce resultados usando sólo las variables más importantes. No obstante, este método presenta algunos inconvenientes [27, 34]. Entre sus principales desventajas se tienen: Al ser un algoritmo binario, tiende a generar árboles de muchos niveles. Por ello, el árbol resultante puede que no presente los resultados de manera eficiente, sobre todo si la misma variable ha sido utilizada para la división de varios niveles consecutivos. 21

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… CART no está basado en un modelo probabilístico. No existen intervalos de confianza asociados con las predicciones derivadas usando el algo ritmo CART para clasificar a un conjunto de datos. CART funciona eligiendo en cada nodo una división, de modo que cada nodo hijo sea más "puro" que su nodo padre. La pureza se refiere a los valores de la variable dependiente. En un nodo completamente puro, todos los casos tienen el mismo valor para la variable dependiente. Para buscar las divisiones en los modelos CART se utilizan cuatro medidas de impureza distintas, las cuales dependen del tipo de variable dependiente [34, 35]: Criterio de Gini. Binario. Binario ordenado. Desviación mínimo-cuadrática. Para las variables categóricas se puede elegir Gini, binario o binario.

Para los criterios

continuos, se utiliza el método de desviación mínimo cuadrática (LSD) en la búsqueda de la división. De todos ellos, el más usado (y el usado en este trabajo) es el criterio de Gini [36]. Para tener una idea más detallada de estos criterios se puede consultar [35]. El índice de Gini en el nodo t,

se define como: (2.1)

donde i y j son categorías de la variable dependiente. La función del criterio Gini,

,

para la división s en el nodo t se define como: (2.2)

donde

es la proporción de casos de t enviados al nodo hijo de la izquierda, y

es la

proporción enviada al nodo hijo de la derecha. Se elige la división s que maximice el valor de . Este valor, ponderado por la proporción de todos los casos del nodo t, se conoce como “mejora”. 22

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… El algoritmo CART tiene los siguientes pasos: Paso 1. Comenzando por el nodo raíz t = 1, buscar la división

, de entre todos los candidatos

posibles S, que dé lugar a la mayor reducción de la impureza: (2.3)

Luego dividir el nodo 1 (t = 1) en dos nodos, t = 2 y t = 3, utilizando la división

.

Paso 2. Repetir el proceso de búsqueda de divisiones para uno de los nodos t = 2 y t = 3, y así sucesivamente para todos los nodos hijo que vayan surgiendo. Paso 3. Continuar con el proceso de desarrollo del árbo l hasta alcanzar al menos una de los criterios de parada. Un nodo no se dividirá si se cumple alguna de las siguientes condiciones: Regla de Parada 1. Todos los casos de un nodo tienen valores idénticos en todos las variables predictoras. Regla de Parada 2. El nodo se vuelve puro; esto es, todos sus casos tienen el mismo valor en la variable dependiente. Regla de Parada 3. La profundidad del árbol ha alcanzado el valor máximo preestablecido. Regla de Parada 4. El número de casos que constituyen el nodo es menor que el tamaño mínimo preestablecido para un nodo padre. Regla de Parada 5. La división del nodo tiene como resultado un nodo hijo cuyo número de casos es menor que el tamaño mínimo preestablecido para un nodo hijo. 2.1.4. Cálculo de los p-valores. El cálculo de los p-valores se realiza atendiendo al tipo de variable que se está mezclando. Para el caso de que la variable dependiente sea discreta el p-valor se calcula como el nivel de significación de la prueba Chi-cuadrado para la tabla de contingencia entre las categorías de variable dependiente y las categorías que se analizan de la variable que se está mezclando (Sección 1.3). Cuando la variable dependiente es continua entonces el p-valor que se usa es el nivel de significación del análisis de varianza unifactorial, tomando como grupos las categorías que se analizan de la variable que se está mezclando (Sección 1.4). 23

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… El ajuste de Bonferroni se realiza multiplicando el p-valor calculado por el llamado multiplicador de Bonferroni [37]. Multiplicador de Bonferroni para la técnica CHAID Supongamos que una variable predictora tenga originalmente I categorías y que el número de categorías se reduce a r después de una serie de mezclas sucesivas.

El multiplicador de

Bonferroni se calcula como:

1

si

I 1 r 1 B( I , r )

r 1

1 k 1

I 2 r 2

r k

k

r

si

X es Ordinal

si

X es Nominal

si

X es Ordinal con valores perdidos

I

k! r k ! r

I

I 2 r 1

(2.4)

Multiplicador de Bonferroni para la técnica CHAID Exhaustivo Para el caso de la técnica de CHAID Exhaustivo el multiplicador de Bonferroni se calcula como:

B( I )

I ( I 1) si 2 I ( I 2 1) si 2

X es ordinal (2.5)

X es nominal

2.2. El cáncer de mama El cáncer de mama consiste en un crecimiento anormal y desordenado de las células de éste tejido [38]. La mama está formada por una serie de glándulas mamarias, que producen leche tras el parto, y a las que se les denomina lóbulos y lobulillos. Los lóbulos se encuentran conectados entre sí por unos tubos, conductos mamarios, que son los que conducen la leche al pezón, durante la lactancia, para alimentar al bebé. Las glándulas (o lóbulos) y los conductos mamarios están inmersos en el tejido adiposo y en el tejido conjuntivo, que, junto con el tejido linfático, forman el seno. A modo de muro de contención, actúa el músculo pectoral que se encuentra entre las costillas y la mama. La piel recubre y protege toda la estructura mamaria [38]. 24

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… El cáncer de mama es el tipo de cáncer más frecuente en la mujer y, si se logra diagnosticar a tiempo, existen muchas posibilidades de curación [38]. 2.2.1. Incidencia de la enfermedad. Aunque existen mujeres con mayor riesgo de padecer cáncer de mama, sobre todo si existen casos en su familia [38], lo cierto es que la mayoría de los casos de cáncer de mama ocurren en mujeres que no tenían factores de riesgo, por lo que, en la p ráctica, todas las mujeres deben revisar periódicamente sus mamas, independientemente de que tengan o no factores de riesgo [38]. Existe una predisposición familiar que se trasmite a través de los genes (en los cromosomas), siendo el 5% al 10% de todos los casos del cáncer de trasmisión hereditaria. Otro factor que predispone al cáncer de mama es el uso de los anticonceptivos hormonales [38]. Pese a la incidencia tan alta de este cáncer, los datos de supervivencia son muy esperanzadores: más del 80% de las mujeres con cáncer de mama sobreviven más de 5 años. La supervivencia ha mejorado notablemente en la última década y se espera que esta tendencia continúe. A ello han contribuido los programas de screening, que permiten un diagnóstico más precoz de la enfermedad y una mayor eficacia de los tratamientos [38]. Existen determinadas situaciones que condicionan una mayor propensión a padecer cáncer de mama, son los factores de riesgo, que en el caso del cáncer de mama son los siguientes [38]: Edad avanzada. Menstruación precoz (antes de los 12 años). Comienzo tardío de la menopausia (después de los 55 años). Antecedentes familiares de cáncer de mama. Terapia de sustitución hormonal. No tener hijos o tenerlos muy tarde. Tejido mamario denso en una mamografía. Radioterapia previa en el tórax o mama. Consumo de alcohol. Alteraciones genéticas hereditarias. Los síntomas más frecuentes por los que la mujer acude al médico son [38]: 25

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… Aparición de un bulto o nódulo en la mama. Dolor en la mama a la palpación. Cambios de tamaño de alguna de las mamas. Irregularidades en el contorno. Menos movilidad de una de las mamas al levantar los brazos. Alteración en la piel de la mama como: aparición de úlceras, cambios de color y aparición de lo que se denomina piel de naranja (por su aspecto similar a la piel de dicha fruta). Cambios en el pezón, como puede ser la retracción del mismo (hundimiento). 2.2.2. Pruebas de imagen: la biopsia de aguja fina.

(a) F I G U R A 2.1 IMA G E N

T O MA DA ME DI A N T E

(b) BAF

DE C É L U L A S DE MA MA .

( A ) M A L I G N O . (B) B E N I G N O

La biopsia con aguja fina (BAF) [39-43] usa una aguja delgada y hueca para retirar una pequeña muestra de tejido de un órgano o tumor (Figura 2.2). Una vez extraída la muestra, se examina para detectar: Células anormales Enfermedades de cáncer o infección. Un tipo frecuente de BAF es una aspiración con aguja fina (AAF). Se extraen lí quidos y células a través de una jeringa adherida a la aguja. El procedimiento para realizar una BAF y una AAF es básicamente el mismo y en ocasiones se realizan juntas. Según el sitio de la biopsia, se realiza un 26

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… ultrasonido o una tomografía computarizada. El médico las utiliza como ayuda para guiar la aguja hacia la ubicación exacta de la biopsia. Las biopsias pueden obtenerse de órganos o de tumores en varias partes del cuerpo, como por ejemplo: Mama Riñón Hígado Pulmón Próstata Tiroides Ovarios Nódulos Linfáticos Este procedimiento se utiliza para evaluar el tejido de los órganos o de tumores. También es utilizado para investigar la eficacia de ciertos tratamientos. Su principal ventaja es que es un proceder que minimiza el dolor y que es capaz, en un breve período de tiempo y con gran exactitud, de dar un diagnóstico de enfermedades tan graves como el cáncer. Una vez que se ha confirmado el diagnóstico de cáncer de mama y se han realizado las pruebas necesarias para conocer en qué fase está la enfermedad, se debe determinar cuál es el tratamiento más adecuado.

2.3. Base de casos del cáncer de mama A pesar que el problema de clasificación automática de células cancerosas, ha sido abordado en la literatura [13-16, 44, 45] los resultados alcanzados aún dejan margen para mejoras. La base de casos de problemas reales usada para validar las potencialidades de las técnicas usadas es Base de Casos del Cáncer de Mamas (a partir de valoraciones subjetivas) del Hospital de la Universidad de Wisconsin, EE.UU. (Wisconsin Breast Cancer Database,WBCD) [13-15].

27

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… Esta base de casos fue obtenida en la Universidad de Wisconsin en la década de 1990 por los Drs. William H. Woldberg y Olvi L. Mangasarian. En ellas se han plasmado el estudio de varios años de estos especialistas en el Hospital de la Universidad de Wisconsin, Madison, EE.UU.

No.

Atributo

Dominio

R1

Espesor

0 –10

R2

Uniformidad del tamaño de la célula

0 –10

R3

Uniformidad de la forma de la célula

0 –10

R4

Adhesión marginal

0 –10

R5

Tamaño individual de la célula

0 –10

R6

Núcleos

0 –10

R7

Cromatina blanda

0 –10

R8

Núcleos Pequeños normales

0 –10

R9

Mitosis

0 –10

T A B L A 2.1 D E S C R I PC I Ó N

DE L O S R A S G O S DE L O S C A S O S DE L A

WBC D

En la construcción de esta base de casos se usó la BAF. A cada caso se le evaluaron las siguientes características citológicas (Tabla 2.1): medida en que los agregados de células epiteliales fueron monocapa o multicapas (espesor del grupo), cohesión de las células periféricas de los agregados de células epiteliales (adherencia marginal), diámetro de la población de las células epiteliales más grandes en relación con eritrocitos, la proporción de un solo núcleo epitelial desprovisto del citoplasma que lo rodea (núcleos desnudos), suavidad de la cromatina nuclear, nucléolos normales, mitosis poco frecuente, uniformidad del tamaño de la célula epitelial y 28

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… uniformidad de la forma de la célula. Todos los aspirados malignos fueron confirmados histológicamente mientras que en las BAF diagnosticadas como masas benignas se realizó la biopsia solo a petición del paciente. El resto de las citologías benignas fueron confirmadas mediante un nuevo examen clínico 3 y 12 meses después de la aspiración. A las masas que produjeron BAF insatisfactorias o sospechosas se le practicaron biopsias quirúrgicas [14].

F I G U R A 2.2. B I O PS I A

DE A G U J A FI N A .

2.3.1. Análisis descriptivo de la base de casos Esta base de casos contiene un total de 683 casos, los cuales contienen información completa. (Tabla 2.2). Benigno

Maligno

Total

Cantidad

444

239

683

Porciento

65

35

100

T A B L A 2.2 D E S C R I PC I Ó N

DE L O S C A S O S E N L A

WBC D

En la misma las observaciones están descritas por 9 atributos correspondientes a observaciones subjetivas de los tumores (Tabla 2.1), y uno correspondiente a su clasificación: benigno o 29

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… maligno. Las observaciones subjetivas se basan en descripcione s de las células obtenidas mediante la observación microscópica. Media

Desviación Estándar

benigno

maligno

benigno

maligno

R1

2.9640

7.1883

0.9592

2.4379

R2

1.3063

6.5774

0.8557

2.7242

R3

1.4144

6.5607

0.9570

2.5691

R4

1.3468

5.5858

0.9171

3.1966

R5

2.1081

5.3264

0.8771

2.4431

R6

1.3468

7.6276

1.1778

3.1167

R7

2.0833

5.9749

1.0623

2.2824

R8

1.2613

5.8577

0.9546

3.3489

R9

1.0653

2.6025

0.5097

2.5645

T A B L A 2.3 AN ÁL I S I S

DE S C R I PT I VO DE L O S R A S G O S DE L A

30

WBC D

CAPITULO 3. RESULTADOS Y DISCUSIÓN

En este capítulo se exponen los resultados obtenidos en la aplicación de las técnicas basadas en árboles de decisión expuestas en el capítulo anterior a la base de casos de cá ncer de mama basados en valoraciones subjetivas de la Universidad de Wisconsin [13-15]. En los tres casos, para la construcción de los árboles de decisión se usó el software Statistica 8.0 de StatSoft Inc. En todos los casos se usaron las siguientes especificaciones: Profundidad máxima del árbol: 5. Tamaño mínimo de los nodos: 15. Tamaño mínimo de un nodo antes de dividir: 35.

3.1 Evaluación de los clasificadores. Para comparar los resultados de los diferentes métodos basados en árboles de decisión se usaron un grupo de medidas de calidad (Tabla 3.1) [46, 47]: TP (Verdaderos Positivos, True Positives): Casos Malignos clasificados como Malignos. TN (Verdaderos Negativos, True Negatives): Casos Benignos clasificados como Benignos. FP (Falsos Positivos, False Positives): Casos Malignos clasificados como Benignos. FN (Falsos Negativos, False Negatives): Casos Benignos clasificados como Malignos. Clasificado

Clasificado

Benigno

Maligno

Célula Benigna

TN

FP

Célula Maligna

FN

TP

T A B L A 3.1. AN ÁL I S I S

DE L O S R E S U L T A DO S .

A partir de estos valores se calculan las siguientes medidas [46]: Sensibilidad (Precision). 31

CLASIFICACIÓN DE CÉLULAS CANCEROSAS…

(3.1)

Especificidad.

(3.2)

Predictividad Positiva (Recall).

(3.3)

Tasa de Clasificación (Accuracy).

(3.4)

Medida-F (F-Measure)

(3.5)

En nuestro trabajo tomamos

.

3.2 Construcción del árbol de decisión usando la técnica CHAID. A partir de la aplicación de la técnica CHAID a la base de casos se obtuvo el árbol de decisión de la figura 3.1. Este árbol de decisión está constituido por 5 nodos no terminales y 8 nodos terminales. El nodo raíz o nodo padre (ID = 1) contiene el total de casos de la base de casos (los 683 elementos). En este nodo hay un predominio de células benignas. La primera división se realiza atendiendo al rasgo R9. Los nodos resultantes son los siguientes: Nodo 2 (ID = 2) está constituido por 586 elementos, predominan la células benignas y se forma a partir de los valores de R9 iguales a 1, 5, 7, y 8. Nodo 3 (ID = 3) tiene un total de 35 elementos, predominan las células malignas y se forma a partir del valor de R9 igual a 2. Es un nodo terminal. 32

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… Nodo 4 (ID = 4) consta de 62 elementos, predominan las células malignas y se forma a partir de los valores de R9 iguales a 3, 4, 6 y 10. Es un nodo terminal. El nodo 2 es un nodo no terminal y a partir del rasgo R8 se divide en otros dos nodos, hasta que se cumpla uno de los criterios para considerar un nodo como terminal. Los nodos terminales que presenta el árbol de decisión son: Nodo 3 (ID = 3), Nodo 4 (ID = 4), Nodo 7 (ID = 7), Nodo 8 (ID = 8), Nodo 10 (ID = 10), Nodo 11 (ID = 11), Nodo 12 (ID = 12) y Nodo 13 (ID = 13. Los resultados de la clasificación se muestran en la tabla 3.2 y figura 3.2.

3.2 Construcción del árbol de decisión usando la técnica CHAID Exhaustivo. A partir de la aplicación de la técnica CHAID Exhaustivo a la base de casos se obtuvo el árbol de decisión de la figura 3.3. Este árbol de decisión está formado por 3 nodos no terminales y 5 nodos terminales. El nodo raíz (ID = 1) contiene el total de elementos de la base de casos. La primera división se realiza de acuerdo a los valores del rasgo R2. Los nodos resultantes son: Nodo 2 (ID = 2) que es un nodo terminal, Nodo 4 (ID = 4) que es un nodo terminal y el Nodo 3 (ID = 3). Los nodos terminales del árbol son: Nodo 2 (ID = 2), Nodo 2 (ID = 4), Nodo 2 (ID = 6), Nodo 2 (ID = 7) y Nodo 2 (ID = 8). Los nodos no terminales son: Nodo 1 (ID = 1), Nodo 3 (ID = 3) y Nodo 5 (ID = 5). Los resultados de la clasificación para esta técnica se muestran en la tabla 3.3 y figura 3.4.

3.3 Construcción del árbol de decisión usando la técnica CART. A partir de la aplicación de la técnica CART a la base de casos se obtuvo el árbol de decisión de la figura 3.5. Este árbol de decisión está constituido por 3 nodos no terminales y 4 nodos terminales. El nodo raíz o nodo padre es el (ID = 1) que contiene el total de casos de la base de casos. El nodo raíz se divide a partir del rasgo R2. Los nodos resultantes son: Nodo 2 (ID = 2) y Nodo 3 (ID = 3) que es un nodo terminal. Los nodos terminales que presenta el árbol son: Nodo 3 (ID = 3), Nodo 5 (ID = 5), Nodo 6 (ID = 6) y Nodo 7 (ID = 7). Los nodos no terminales son: Nodo 1 (ID = 1), Nodo 2 (ID = 2) y Nodo 4 (ID = 4). 33

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… Los resultados de la clasificación se muestran en la tabla 3.4 y figura 3.6.

3.5 Discusión Los resultados comparativos de los métodos estudiados se muestran en la tabla 3.5. En sentido general, los peores resultados se obtuvieron usando el método CHAID. Los métodos CHAID Exhaustivo y CART dieron resultados similares para los casos de entrenamiento. Sin embargo, el método CHAID Exhaustivo dio una Sensibilidad superior que el método CART. Esto quiere decir que aquel método es superior desde el punto de vista de reducir los "Falsos Negativos" (FN). Los FN en este problema es el caso de diagnosticar como benigno un caso maligno, que resulta el error más costoso. Por otro lado, los resultados obtenidos usando árboles de decisión igualan a los reportados en la literatura. Estos métodos son: M1: donde se usaron métodos multi-superficie [13-15]. M2: donde se usó aprendizaje basado en instancias [16, 48]. M3: donde se usó un algoritmo genético con codificación jerárquica [45, 49]. La tabla 3.6 presenta la capacidad de generalización de los métodos estudiados. Para ello se usó una validación cruzada con 10 grupos [3, 4]. La base de casos se divide en 10 partes iguales y se eligen para entrenamiento 9 de ellas dejando una para prueba. Este procedimiento se repite 10 veces. De esta forma cada caso es clasificado por un clasificador que no lo usó para el entrenamiento. El mejor resultado se obtuvo para el método CART.

34

CLASIFICACIÓN DE CÉLULAS CANCEROSAS…

F I G U R A 3.1 ÁR B O L

DE DE C I S I Ó N U S A N DO L A T É C N I C A

35

C HAID

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… Clasificado

Clasificado

Benigno

Maligno

Célula Benigna

425

31

Célula Maligna

19

208

T A B L A 3.2 T A B L A

DE C O N FU S I Ó N PA R A L A T É C N I C A

F I G U R A 3.2 T A B L A

C HAID .

DE C O N FU S I Ó N PA R A L A T É C N I C A

36

C HAID

CLASIFICACIÓN DE CÉLULAS CANCEROSAS…

F I G U R A 3.3 ÁR B O L

DE DE C I S I Ó N U S A N DO L A T É C N I C A

37

C HAID EXH A U S T I VO .

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… Clasificado

Clasificado

Benigno

Maligno

Célula Benigna

430

20

Célula Maligna

14

219

T A B L A 3.3 T A B L A

DE C O N FU S I Ó N PA R A L A T É C N I C A

C HAID EXH A U S T I VO .

F I G U R A 3.4 T A B L A DE C O N FU S I Ó N PA R A L A T É C N ICA C HAID EXH A U S T I VO .

38

CLASIFICACIÓN DE CÉLULAS CANCEROSAS…

F I G U R A 3.5 Á R B O L

DE DE C I S I Ó N U S A N DO L A T É C N I C A

39

C ART.

CLASIFICACIÓN DE CÉLULAS CANCEROSAS…

Clasificado

Clasificado

Benigno

Maligno

Célula Benigna

424

17

Célula Maligna

20

222

T A B L A 3.4 T A B L A

DE C O N FU S I Ó N PA R A L A T É C N I C A

F I G U R A 3.6 T A B L A

C HAID EXH A U S T I VO .

DE C O N FU S I Ó N PA R A L A T É C N I C A

40

C ART.

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… Tasa de Clasificación

Sensibilidad

Predictividad Positiva

Medida F

CHAID

0.9267

0.9162

0.8702

0.8911

CHAID EX

0.9502

0.9399

0.9163

0.9279

CART

0.9458

0.9173

0.9288

0.9230

M1

0.9590

M2

0.9370

M3

0.9550

T A B L A 3.5. RE S U L T A DO S DE L A C L A S I FI CA CI Ó N PA R A L O S DI S T I NT O S MÉ T O DO S DE

C O N S T R U C CIÓ N DE ÁR B O L E S DE

DE C I S I Ó N .

0.97 0.959

0.96

0.955

0.9502 0.95

0.9458

0.94

0.93

0.937

0.9267

0.92

0.91 CHAID

CHAID EX

CART

M1

M2

M3

F I G U R A 3.7 R E S U L T A DO S DE L A C L A S I FI C AC IÓ N PA R A L O S DI S T I N T O S MÉ T O DO S DE C O N S T R U C CI Ó N DE ÁR B O L E S DE DE C I S I Ó N .

41

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… Tasa de Clasificación

T AB LA 3.6. RE S U LT A DO S

CHAID

0.9121

CHAID EX

0.9312

CART

0.9439

DE L A C L AS I FI CA CI ÓN PAR A L O S DI S TI N T O S MÉ T O DO S DE C ON S TR UC CI ÓN DE ÁRB O L E S DE

DE C I S I Ó N U S A N DO VA L I DA CI ÓN C R UZA DA C O N

10 G R UPO S .

42

CONCLUSIONES

1. Se realizó una revisión bibliográfica del estado del arte de las técnicas basadas en árboles de decisión aplicados a problemas de clasificación. 2. Se construyeron clasificadores basados en árboles de decisión para la clasificación de células cancerosas de cáncer de mama basados en las técnicas: CHAID. CHAID Exhaustivo. CART 3. Se compararon los resultados obtenidos con los reportados en la literatura especializada. Los clasificadores construidos tuvieron prestaciones similares a los reportados en la literatura.

43

RECOMENDACIONES

Para dar continuidad a este trabajo se conciben las siguientes recomendaciones : 1. Probar la clasificación de células cancerosas usando otros algoritmos de construcción de árboles de decisión, por ejemplo, C4.5, ID3, MARS, etc. 2. Implementar un sistema que calcule los rasgos y realice la clasificación automática. 3. Implementar usando programación lógica los conocimientos de los árboles de decisión desarrollados usando un sistema basado en reglas.

44

BIBLIOGRAFÍA

1.

Sonquist, J.A. and J.N. Morgan, Problems in the analysis of survey data and a proposal. Journal of American Statistical Association, 1963. 58: p. 415-435.

2.

Morgan, J.N. and R.C. Messenger, THAID: a sequential search program for the analysis of nominal scale dependent variables. Survey Research Center, Institute for Social Research, University of Michigan, 1973.

3.

Witten, I.H. and E. Frank, Data Mining: Practical machine learning tools and techniques. 2005: Morgan Kaufmann Pub.

4.

Bishop, C.M. and SpringerLink, Pattern recognition and machine learning. Vol. 4. 2006: Springer New York.

5.

Wilkinson, L. Tree structured data analysis: AID, CHAID and CART. 1992: Citeseer.

6.

Arentze, T.A., et al., Using Decision Tree Induction Systems for Modeling Space Time Behavior. Geographical analysis, 2000. 32(4): p. 330-350.

7.

Berkow, R., M.H. Beers, and A.J. Fletcher, The Merck manual of medical information. 2008: Merck.

8.

Blumenthal, D., Stimulating the adoption of health information technology. The New England journal of medicine, 2009. 360(15): p. 1477.

9.

National Cancer Institute. www.cancer.gov.

10.

Cotran, R., V. Kumar, and T. Collins, Pathologic Basis of Disease. 6th ed. 1999.

11.

Orozco-Monteagudo, M., A. Taboada-Crispí, and A. Del Toro-Almenares, Training of multilayer perceptron neural networks by using cellular genetic algorithms. Progress in Pattern Recognition, Image Analysis and Applications, 2006: p. 389-398.

12.

Setiono, R., Extracting rules from pruned neural networks for breast cancer diagnosis. Artificial intelligence in medicine, 1996. 8(1): p. 37-51.

13.

Mangasarian, O.L., R. Setiono, and W.H. Wolberg, Pattern recognition via linear programming: Theory and application to medical diagnosis. Large-scale numerical optimization, 1990: p. 22–30.

14.

Mangasarian, O.L., W.N. Street, and W.H. Wolberg, Breast cancer diagnosis and prognosis via linear programming. Operations Research, 1995. 43(4): p. 570-577.

15.

Wolberg, W.H. and O.L. Mangasarian, Multisurface method of pattern separation for medical diagnosis applied to breast cytology. Proceedings of the National Academy of Sciences, 1990. 87(23): p. 9193.

16.

Zhang, J., Selecting typical instances in instance-based learning. 1992.

45

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… 17.

Pena-Reyes, C.A. and M. Sipper, A fuzzy-genetic approach to breast cancer diagnosis. Artificial intelligence in medicine, 1999. 17(2): p. 131-155.

18.

Hosseini, S.M., et al., Using Classification Tree for prediction of Diabetic Retinopathy on type II diabetes. Journal of Isfahan Medical School, 2010. 28(104): p. 17-27.

19.

Biddiss, E.A. and T.T. Chau, Multivariate prediction of upper limb prosthesis acceptance or rejection. Disability & Rehabilitation: Assistive Technology, 2008. 3(4): p. 181-192.

20.

Hammann, F., et al., Classification of Cytochrome P450 Activities Using Machine Learning Methods. Molecular Pharmaceutics, 2009. 6(6): p. 1920-1926.

21.

Hammann, F., et al., Development of decision tree models for substrates, inhibitors, and inducers of p-glycoprotein. Current drug metabolism, 2009. 10(4): p. 339-346.

22.

Hammann, F., et al., Prediction of adverse drug reactions using decision tree modeling. Clinical Pharmacology & Therapeutics, 2010. 88(1): p. 52-59.

23.

Montgomery, D.C., G.C. Runger, and N.F. Hubele, Engineering statistics. 2009: Wiley.

24.

Walpole, R.E., et al., Probability and statistics for engineers. México, DF: Prentice Hall, 1999.

25.

Johnson, R.A., Miller and Freund's probability and statistics for engineers. 1994: Prentice Hall.

26.

Scheffe, H., The analysis of variance. 1999: Wiley-Interscience.

27.

Lemus, I.S. and C.S. Zamora, Árboles de Clasificación y Regresión: Modelos Cart. Ciencia y Trabajo, 2008. 10(10): p. 161-166.

28.

Hill, T. and P. Lewicki, Statistics: Methods and applications: A comprehensive reference for science, industry, and data mining. 2006: StatSoft, Inc.

29.

Cramer, H., Mathematical methods of statistics. 1946. Princeton University, 1945.

30.

Sheskin, D., Handbook of parametric and nonparametric statistical procedures. 2004: CRC Pr I Llc.

31.

Kass, G.V., An exploratory technique for investigating large quantities of categorical data. Journal of the Royal Statistical Society. Series C (Applied Statistics), 1980. 29(2): p. 119-127.

32.

Biggs, D., B. De Ville, and E. Suen, A method of choosing multiway partitions for classification and decision trees. Journal of Applied Statistics, 1991. 18(1): p. 49-62.

33.

Breiman, L., et al., CART: Classification and regression trees. Wadsworth: Belmont, CA, 1983.

34.

GestiÓN, P.Y., Patrones de Morosidad para un Producto Crediticio usando la Técnica de Árbol de Clasificación CART. Ind. data, 2005. 8(1).

35.

Lewis, R.J. An introduction to classification and regression tree (CART) analysis. 2000: Citeseer.

36.

Ceriani, L. and P. Verme, The origins of the Gini index: extracts from Variabilità e Mutabilità (1912) by Corrado Gini. Journal of Economic Inequality, 2011: p. 1-23. 46

CLASIFICACIÓN DE CÉLULAS CANCEROSAS… 37.

Abdi, H., Holm’s sequential Bonferroni procedure. Encyclopedia of research design. Thousand Oaks,, CA: Sage Publications, 2010: p. 573–577.

38.

Buzaid, A.C. and P.M. Hoff, Manual prático de oncologia clínica do Hospital Sírio Libanês. 2007: Dendrix Edição e Design.

39.

Brennan, M.E., et al., Magnetic resonance imaging screening of the contralateral breast in women with newly diagnosed breast cancer: systematic review and meta-analysis of incremental cancer detection and impact on surgical management. Journal of Clinical Oncology, 2009. 27(33): p. 5640.

40.

Mackinnon, W.B., et al., Fine-needle biopsy specimens of benign breast lesions distinguished from invasive cancer ex vivo with proton MR spectroscopy. Radiology, 1997. 204(3): p. 661.

41.

Rao, R., et al., Axillary staging by percutaneous biopsy: sensitivity of fine-needle aspiration versus core needle biopsy. Annals of surgical oncology, 2009. 16(5): p. 11701175.

42.

Ciatto, S., et al., Accuracy of fine needle aspiration cytology (FNAC) of axillary lymph nodes as a triage test in breast cancer staging. Breast cancer research and treatment, 2007. 103(1): p. 85-91.

43.

Houssami, N., J. Cuzick, and J.M. Dixon, The prevention, detection, and management of breast cancer. Medical journal of Australia, 2006. 184(5): p. 230.

44.

Bennett, K.P. and O.L. Mangasarian, Robust linear programming discrimination of two linearly inseparable sets. Optimization methods and software, 1992. 1(1): p. 23-34.

45.

Man, K.F., K.S. Tang, and S. Kwong, Genetic algorithms: Concepts and designs. Vol. 1. 1999: Springer Verlag.

46.

Joshi, M.V., On evaluating performance of classifiers for rare classes. 2002.

47.

Jiang, Y., B. Cukic, and Y. Ma, Techniques for evaluating fault prediction models. Empirical Software Engineering, 2008. 13(5): p. 561-595.

48.

Cheng, W., J. Hühn, and E. Hüllermeier. Decision tree and instance-based learning for label ranking. 2009: ACM.

49.

Sivanandam, S.N. and S.N. Deepa, Introduction to genetic algorithms. 2007: Springer Verlag.

47

ANEXO 1. LA FUNCIÓN GAMMA

F I G U R A A1.1 F U N C I Ó N G A MMA .

Definición: La función gamma (Γ) está dada por la integral impropia siguiente:

(A1.1)

Teorema 1: (A1.2)

Teorema 2:

(A1.3)

Para ver las demostraciones de los teoremas anteriores consultar [25].

48

ANEXO 2. LOS ÁRBOLES DE DECISIÓN

Nodo Raíz

Nodo 0

x1 < v11 Nodo 1

Variable de decisión: x1.

Variable de decisión para nodo 1: x2. Variable de decisión para nodo 2: x3

x2 < v21 Nodo 4

v11 < x1 < v12 Nodo 2

x2 > v22 Nodo 5

F I G U R A A2.1 Á R B O L

x3 < v31 Nodo 6

x11 > v12 Nodo 3

x3 > v32 Nodo 7

DE DE C I S I Ó N .

Un árbol de decisión (Figura A2.1) está constituido por: Nodo padre o Nodo raíz (Nodo 0): Este nodo es dividido en subgrupos (dos o más) determinados por la partición de una variable predictora elegida, generando nodos hijos. Nodo hijo: Los nodos hijos son divididos usando la partición de una nueva variable. El proceso recursivo se repite para los nuevos nodos hijos sucesivamente. Nodo no terminal: Son los nodos que continúan dividiéndose hasta llegar a un nodo terminal. Nodo no terminal: Es aquel nodo que cumple alguna de las condiciones de parada. Variable de decisión: Variable que determina la partición de un nodo en varios nodos hijos.

49

ANEXO 3. IMPLEMENTACIÓN EN LENGUAJE C DEL ÁRBOL OBTENIDO USANDO LA TÉCNICA CHAID

50

ANEXO 4. IMPLEMENTACIÓN EN LENGUAJE C DEL ÁRBOL OBTENIDO USANDO LA TÉCNICA CHAID EXHAUSTIVO

51

ANEXO 5. IMPLEMENTACIÓN EN LENGUAJE C DEL ÁRBOL OBTENIDO USANDO LA TÉCNICA CART

52