UNIVERSIDAD TECNOLÓGICA DE LA MIXTECA CLASIFICACIÓN DE LEUCOCITOS MEDIANTE REDES BAYESIANAS

´ UNIVERSIDAD TECNOLOGICA DE LA MIXTECA ´ DE LEUCOCITOS MEDIANTE REDES “CLASIFICACION BAYESIANAS” TESIS PARA OBTENER EL T´ITULO DE ´ INGENIERO EN CO

Author: Clara Sevilla Castillo

2 downloads 70 Views 2MB Size

Report

DOWNLOAD PDF

Recommend Stories

Ejercicios de redes bayesianas

Redes bayesianas temporales para reconocimiento de escenarios

UNIVERSIDAD TECNOLOGICA DE LA MIXTECA

UNIVERSIDAD TECNOLOGICA DE LA MIXTECA REGLAMENTO DE ESTIMULOS A LA CARRERA ACADEMICA (RATIFICADO EN SU VERSION ACTUAL POR EL H. CONSEJO ACADEMICO EL D

BayesChess: Programa de Ajedrez Adaptativo Basado en Redes Bayesianas *

UNIVERSIDAD TECNOLOGICA DE LA MIXTECA TITULADOS POR DEFENSA DE TESIS

MODELO DE CONTRATO REDES DE FORMACIÓN MEDIANTE LA INVESTIGACIÓN

CONTRATO Nº_______ 12/99/1406 00 11 MODELO DE CONTRATO REDES DE FORMACIÓN MEDIANTE LA INVESTIGACIÓN CONTRATO Nº_______ La [Comunidad Europea] [Co

Recuento de leucocitos

Por la Mixteca de Pedro Meyer

RESUMEN. Palabras claves: Valores de referencia, leucocitos, recuento de leucocitos, neutrófilos, linfocitos, monocitos, eosinófilos, basófilos

UNIVERSIDAD DE CUENCA RESUMEN El presente trabajo tuvo como objetivo determinar los valores de recuento y fórmula leucocitaria en personas de 23 a

PREDICCIÓN DE LA POTENCIALIDAD DE LOS BOSQUES ESCLERÓFILOS ESPAÑOLES MEDIANTE REDES NEURONALES ARTIFICIALES

Graellsia, 59(2-3): 345-358 (2003) PREDICCIÓN DE LA POTENCIALIDAD DE LOS BOSQUES ESCLERÓFILOS ESPAÑOLES MEDIANTE REDES NEURONALES ARTIFICIALES M. Be

Story Transcript

´ UNIVERSIDAD TECNOLOGICA DE LA MIXTECA

´ DE LEUCOCITOS MEDIANTE REDES “CLASIFICACION BAYESIANAS”

TESIS PARA OBTENER EL T´ITULO DE ´ INGENIERO EN COMPUTACION

PRESENTA: ´nez D´ıaz Lucio Jime

DIRECTORES DE TESIS: ´ nica Rodr´ıguez Lo ´ pez, M.C. Vero ´ l Cruz Barbosa. M.C. Rau

´ OAX. NOVIEMBRE DE 2007 HUAJUAPAN DE LEON,

A mis padres, a mi familia toda y a mis amigos.

Contenido 1. Introducci´ on 1.1. Planteamiento del problema . . . . . . . . . . . . . . . . . . . 1.2. Justificaci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Procesamiento digital de im´ agenes 2.1. Representaci´ on de im´ agenes digitales . . . . . . . . . . . . . 2.1.1. Representaci´ on del color . . . . . . . . . . . . . . . . 2.2. Pre-procesamiento . . . . . . . . . . . . . . . . . . . . . . . 2.2.1. Histograma de intensidades . . . . . . . . . . . . . . 2.2.2. Transformaciones b´asicas de morfolog´ıa matem´atica 2.3. Extracci´ on de caracter´ısticas . . . . . . . . . . . . . . . . . 2.3.1. Descriptores de regi´on – geom´etricos . . . . . . . . . 2.3.2. Descriptores de regi´on – momentos . . . . . . . . . . 2.3.3. Descriptores de textura . . . . . . . . . . . . . . . .

. . . . . . . . .

1 2 4 5 7 7 8 9 10 12 15 15 17 19

3. Razonamiento Probabilista 21 3.1. Redes bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.1.1. Definici´ on de red bayesiana . . . . . . . . . . . . . . . 22 3.1.2. Sem´ antica de las redes de creencia . . . . . . . . . . . 24 3.1.3. Redes bayesianas h´ıbridas . . . . . . . . . . . . . . . . 25 3.1.4. Inferencia en poli´arboles . . . . . . . . . . . . . . . . . 28 3.2. Aprendizaje de redes bayesianas . . . . . . . . . . . . . . . . 31 3.2.1. Un m´etodo para la construcci´on de redes bayesianas . 31 3.2.2. Aprendizaje de las tablas de probabilidad condicional con datos completos . . . . . . . . . . . . . . . . . . . 32 4. Dise˜ no e implementaci´ on del clasificador 35 4.1. Estructura de la red bayesiana . . . . . . . . . . . . . . . . . 35 i

CONTENIDO

ii

4.1.1. Caracter´ısticas celulares a observar desde el punto de vista del experto . . . . . . . . . . . . . . . . . . . . . 4.1.2. Reconocimiento de c´elulas mediante t´ecnicas de procesamiento digital de im´agenes . . . . . . . . . . . . . 4.1.3. Definici´on de la estructura de la red bayesiana . . . . 4.2. Definici´ on de las probabilidades condicionales . . . . . . . . . 4.2.1. C´ alculo del tama˜ no muestral y muestreo . . . . . . . . 4.2.2. Definici´on del tipo de cada nodo (discreto - continuo) 4.2.3. Definici´on de las probabilidades condicionales para los nodos continuos . . . . . . . . . . . . . . . . . . . . . . 4.2.4. Definici´on de las probabilidades condicionales de los nodos discretos con padres continuos . . . . . . . . . . 4.2.5. Definici´on de las probabilidades condicionales de los nodos discretos con padres discretos . . . . . . . . . . 4.3. Implementaci´on del clasificador . . . . . . . . . . . . . . . . . 4.3.1. Plataforma de desarrollo . . . . . . . . . . . . . . . . . 4.3.2. Especificaci´on de par´ametros de entrada y salida . . . 4.3.3. Estructura del software . . . . . . . . . . . . . . . . .

35 36 38 47 47 51 52 54 58 64 64 65 66

5. Pruebas y resultados 69 5.1. Revisi´ on del proceso de entrenamiento . . . . . . . . . . . . . 69 5.2. Etapa de pruebas y c´alculo del error . . . . . . . . . . . . . . 70 5.3. Principales razones del error obtenido . . . . . . . . . . . . . 74 6. Conclusiones y perspectivas 77 6.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 6.2. Perspectivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 A. Definiciones de probabilidad A.1. Conceptos fundamentales . . . . . . . . A.1.1. Distribuciones discretas . . . . . A.1.2. Distribuciones continuas . . . . . A.1.3. Funci´ on de distribuci´on . . . . . A.1.4. Distribuciones multivariantes . . A.1.5. Independencia condicional . . . . A.2. Teorema de Bayes . . . . . . . . . . . . A.3. Distribuciones de probabilidad continuas A.3.1. Distribuci´on normal . . . . . . . A.3.2. Distribuci´on log-normal . . . . . A.3.3. Distribuci´on gamma . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

81 81 82 83 83 85 89 90 91 91 92 92

CONTENIDO

iii

A.3.4. Distribuci´ on exponencial . . . . . . . . . . . . . . . . . B. Manual de usuario del software B.1. Proceso de Instalaci´ on . . . . . . . B.1.1. Dependencias del software . B.1.2. Instalaci´ on y ejecuci´on . . . B.2. Utilizaci´ on del software . . . . . . B.2.1. Interfaz principal . . . . . . B.2.2. Clasificaci´ on de una imagen B.2.3. Ayuda del sistema . . . . . Glosario

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

93 95 95 95 96 96 97 97 100 103

Cap´ıtulo 1

Introducci´ on Un campo de estudio muy interesante en el ´area de Inteligencia Artificial y Reconocimiento de Patrones es el Aprendizaje M´aquina –Machine Learning, en ingl´es–. Generalmente, la parte interesante y atractiva de dicha disciplina se convierte importante cuando se atacan o resuelven problemas reales de nuestro entorno o sociedad. Nuestra aplicaci´on objeto de estudio se refiere al an´ alisis sangu´ıneo, en particular al an´alisis de leucocitos –v´ease Glosario para definiciones correspondientes al ´area de hematolog´ıa–. La clasificaci´ on manual de leucocitos es una tarea engorrosa que sigue existiendo en los laboratorios de an´ alisis cl´ınicos. A´ un cuando hay en el mercado aparatos electr´ onicos capaces de llevar a cabo el recuento y clasificaci´on de este tipo de c´elulas, se limitan a clasificar c´elulas normales y, a lo m´as, indican la presencia de c´elulas anormales, inmaduras o desconocidas. Se han desarrollado, en a˜ nos recientes, proyectos de investigaci´on orientados a la aplicaci´on de t´ecnicas de tratamiento digital de im´agenes y reconocimiento de patrones para llevar a cabo la tarea antes mencionada. En el presente trabajo de tesis se desarrolla un clasificador de leucocitos que encuentra su fundamento principal en la teor´ıa de redes bayesianas y sistemas expertos, as´ı como en el procesamiento digital de im´ agenes. En este primer cap´ıtulo, de forma breve, es expuesto el problema de clasificaci´ on manual de leucocitos as´ı como las desventajas que presentan los actuales m´etodos autom´ aticos que realizan esta tarea. Con esto se pretende justificar la aplicaci´ on de las redes bayesianas como una alternativa en la resoluci´ on del problema. En el cap´ıtulo segundo se expone la teor´ıa de tratamiento de im´ agenes digitales necesaria para el desarrollo de este trabajo. El cap´ıtulo tercero expone la teor´ıa b´asica de redes bayesianas, la cual es el fundamento principal del dise˜ no del clasificador. El cap´ıtulo cuarto ha

2

Cap´ıtulo 1. Introducci´on

sido dedicado al desarrollo de este trabajo, presentandose en ´el, la metodolog´ıa espec´ıfica utilizada en el dise˜ no e implementaci´on del clasificador de leucocitos. El cap´ıtulo quinto presenta un resumen de las pruebas aplicadas al sistema, as´ı como sus resultados y evaluaci´on general de funcionamiento. En el cap´ıtulo u ´ltimo se exponen brevemente las conclusiones generales y perspectivas del trabajo realizado.

1.1.

Planteamiento del problema

En los laboratorios de an´alisis cl´ınicos de hoy d´ıa se llevan a cabo numerosos tipos de estudios, entre los cuales, uno de los m´as frecuentemente solicitados, en el ´ area de hematolog´ıa, es el de la biometr´ıa hem´ atica –BH–, tambi´en conocido como citometr´ıa hem´ atica –CH–. La BH se compone de dos tipos de datos: datos de la serie roja y datos de la serie blanca. Los datos de la serie roja se relacionan con valores y par´ametros mensurables de los eritrocitos –gl´ obulos rojos–. Los datos de la serie blanca comprenden el n´ umero total de leucocitos –gl´obulos blancos–, la cuenta diferencial –que es el conteo poblacional relativo, expresado en porcentajes, de las variedades de gl´ obulos blancos presentes en una muestra de sangre– y alteraciones de los mismos [RA01]. Es en los dos u ´ltimos puntos donde se lleva a cabo, con mayor frecuencia, la clasificaci´on manual de leucocitos. La clasificaci´ on manual de leucocitos comprende por lo menos dos etapas, a partir de que se cuenta con la muestra de sangre objeto de estudio. La primera es la preparaci´on y tinci´on del frotis, la cual se lleva a cabo de 7 a 20 minutos [LRM+ 97], por lo general, dependiendo del tipo del m´etodo de tinci´ on y colorante utilizados. La segunda etapa comprende la observaci´on de la muestra al microscopio, actividad que se realiza de 5 a 15 minutos en promedio, dependiendo de la experiencia pr´actica del laboratorista∗ . Como puede observarse, uno de los grandes inconvenientes que presenta este tipo de metodolog´ıa es el elevado consumo de tiempo de un especialista para analizar una sola muestra de sangre. Existen en el mercado aparatos electr´onicos capaces de llevar a cabo la cuenta diferencial de los leucocitos. El principio de funcionamiento de tales aparatos se fundamenta, en la mayor´ıa de los casos, en el Principio Coul∗

Dato confirmado por la Laboratorista Clase A: Mar´ıa Margarita S´ anchez Ch´ avez, encargada del a ´rea de hematolog´ıa, en el laboratorio de an´ alisis cl´ınicos del Hospital del ISSSTE, Oaxaca.

1.1. Planteamiento del problema

3

ter† [Cou98] y en la citometr´ıa de flujo‡ [GV01]. El gran n´ umero de c´elulas que son capaces de procesar es su principal ventaja, ya que con esto reducen su error estad´ıstico. En ambos casos, tales aparatos se limitan a clasificar c´elulas normales y, a lo m´ as, a indicar la aparici´on de c´elulas anormales o desconocidas en la muestra sangu´ınea. Presentan tambi´en el inconveniente de clasificar como linfocitos a la mayor parte de c´elulas plasm´aticas, arrojando resultados err´ oneos en la cuenta diferencial cuando se presentan ciertas patolog´ıas que incrementan el n´ umero de tales c´elulas. Aunado a esto, se debe se˜ nalar que el precio de tales aparatos es elevado as´ı como lo son los reactivos necesarios para su funcionamiento y mantenimiento. Por u ´ltimo, es preciso a˜ nadir que a´ un cuando se lleve a cabo la clasificaci´on con este tipo de aparatos es necesario hacer la clasificaci´on manual de los leucocitos antes de dar por sentados los resultados del estudio. En a˜ nos recientes se han desarrollado diferentes proyectos de investigaci´on cuya finalidad es llevar a cabo la clasificaci´on de los leucocitos de forma exacta y confiable, tales esfuerzos se centran en el an´alisis digital de im´agenes y el reconocimiento de patrones [SZR04, SA02, PRG+ 01]. El proceso de clasificaci´ on, en la generalidad de estos proyectos, comprende las siguientes etapas: 1. Obtenci´ on de la imagen. 2. Segmentaci´ on. 3. Extracci´ on de caracter´ısticas. 4. Clasificaci´ on. Cada una de estas etapas puede verse como un proceso en s´ı mismo y por lo que respecta a la etapa de clasificaci´on, en la totalidad de los proyectos que se han revisado hasta el momento, es implementada con clasificadores simples que utilizan t´ecnicas como template matching –emparejamiento de plantillas– [SA02], funciones de decisi´on [PRG+ 01] o a trav´es del clasificador naive Bayes [SZR04]. La utilizaci´on de tales clasificadores reduce en gran †

De acuerdo con este principio, una peque˜ na apertura entre electrodos es la zona de lectura a trav´es de la cual pasan part´ıculas suspendidas. En la zona de lectura cada part´ıcula desplaza su propio volumen de electrolito. El volumen desplazado es medido como un pulso de voltaje; siendo la intensidad de cada pulso proporcional al volumen de la part´ıcula. ‡ T´ecnica de an´ alisis celular multiparam´etrico cuyo fundamento se basa en hacer pasar una suspensi´ on de part´ıculas –generalmente c´elulas– alineadas y de una en una por delante de un haz de l´ aser focalizado.

4

Cap´ıtulo 1. Introducci´on

medida la flexibilidad en el manejo de la informaci´on y por consiguiente la precisi´ on y confiabilidad de los resultados, ya que se centran en criterios cuantitativos y restan relevancia a los aspectos cualitativos –por ejemplo correlaciones– que existen entre los datos que se procesan.

1.2.

Justificaci´ on

Desde este punto, puede observarse que las desventajas principales de los m´etodos actuales de clasificaci´on de leucocitos son: El elevado consumo de tiempo del especialista que lleva a cabo el estudio. El alto costo del equipo electr´onico que realiza la clasificaci´on autom´ atica as´ı como los reactivos necesarios para su funcionamiento y mantenimiento. El limitado tipo de c´elulas que son capaces de clasificar los aparatos electr´ onicos as´ı como el error recurrente que presentan con algunas de ellas. El error inherente a las t´ecnicas de procesamiento digital de im´agenes y clasificaci´ on de patrones aplicadas en cada etapa del reconocimiento de las c´elulas. La falta de aplicaci´on de t´ecnicas, teor´ıas y tecnolog´ıa en el campo de las ciencias computacionales. Es por tanto deseable que un sistema clasificador realice su trabajo en poco tiempo, que el equipo sea accesible –tanto f´ısica como econ´omicamente–, que no presente limitaciones en cuanto a los tipos de c´elulas que es capaz de clasificar y que sea flexible en el manejo de los datos o informaci´on, de tal manera que sea posible corregir los errores recurrentes que presente. En cuanto a los errores inherentes al desarrollo de nuevas tecnolog´ıas, t´ecnicas y teor´ıas, es poco lo que se puede corregir a corto plazo, ya que estos errores se presentan en el campo del desarrollo cient´ıfico y se van corrigiendo mientras ´este avanza. El desempe˜ no y bajo costo de los actuales equipos de c´omputo al igual que el hardware necesario para la captura de im´agenes digitales –cualquiera que sea la fuente, por ejemplo: un microscopio– hacen a este tipo de tecnolog´ıa una plataforma deseable para el desarrollo de un clasificador que cuente con las caracter´ısticas antes se˜ naladas.

1.3. Objetivos

5

Las actuales t´ecnicas y teor´ıas en el tratamiento digital de im´agenes, clasificaci´ on de patrones y sistemas expertos dejan entrever un campo f´ertil para su aplicaci´ on a problemas espec´ıficos como el que se ha planteado. En vista de las razones anteriores y concentrando nuestra atenci´on en las etapas de extracci´ on de caracter´ısticas y clasificaci´on, se ha determinado en este proyecto de tesis, la exploraci´on y aplicaci´on de la teor´ıa de redes bayesinas como una opci´ on que permite el manejo flexible de datos e informaci´on, al mismo tiempo que descansa sobre bases rigurosamente matem´aticas y es factible su realizaci´ on con la tecnolog´ıa de c´omputo actual y hardware necesario para la captura de im´ agenes digitales.

1.3.

Objetivos

A continuaci´ on se presentan los objetivos a desarrollar en el presente proyecto de tesis. Objetivo general. Dise˜ no e implementaci´on de un clasificador de leucocitos fundamentado en la teor´ıa de redes bayesianas; tal clasificador debe ser capaz de reconocer los 5 tipos b´asicos de leucocitos –neutr´ofilos, linfocitos, monocitos, eosin´ofilos y bas´ofilos– en estado normal y maduro. Objetivos espec´ıficos. • Extracci´ on de caracter´ısticas morfol´ogicas de las im´agenes de las c´elulas bajo estudio, mediante t´ecnicas de procesamiento digital de im´ agenes. • Dise˜ no, implementaci´ on y aprendizaje de la red bayesiana que funcionar´ a como clasificador de im´agenes de c´elulas.

Cap´ıtulo 2

Procesamiento digital de im´ agenes Uno de los primeros pasos hacia la clasificaci´on de leucocitos es, en primer t´ermino, recolectar la informaci´ on distintiva y representativa contenida en las im´ agenes de los mismos. Para este prop´osito se hace uso de t´ecnicas de procesamiento digital de im´ agenes, cuya finalidad es la de preparar la imagen de modo tal que se eliminen de ella caracter´ısticas indeseadas –ruido, por ejemplo– que interfieren en la extracci´on de los datos relevantes que contiene. Al proceso de preparaci´ on de la imagen o eliminaci´on del ruido contenido en ella se le conoce como pre-procesamiento y a la extracci´on de los datos relevantes se le conoce como extracci´ on de caracter´ısticas. En el presente cap´ıtulo se presenta brevemente el modelo conceptual de representaci´ on de las im´ agenes digitales en general, y de las im´agenes en color como caso particular. Se contin´ ua entonces con la descripci´on de la teor´ıa y t´ecnicas de pre-procesamiento de la imagen y extracci´on de caracter´ısticas, utilizadas todas ellas, en el desarrollo de este trabajo.

2.1.

Representaci´ on de im´ agenes digitales

Las im´ agenes digitales, en general, pueden ser entendidas como una fun2 ci´on f : Z → Z. Cada uno de los pares ordenados del dominio de la funci´on f son interpretados como las coordenadas de alg´ un punto en un plano, al cual, es asignado un u ´nico valor que representa el color∗ observado en ese ∗

Se entiende por color, en este contexto, la sensaci´ on producida por ondas electromagn´eticas, cuyas longitudes de onda se encuentran en el rango visible, al entrar en contacto con los o ´rganos visuales humanos.

8

Cap´ıtulo 2. Procesamiento digital de im´agenes

punto. Por otro lado, las im´agenes dentro de un sistema de c´omputo pueden comprenderse como un arreglo bidimensional o matriz de p´ıxeles. El valor de cada p´ıxel corresponde al color del punto correspondiente en la escena observada. De esta forma, una imagen digitalizada y dentro de un sistema de c´ omputo, puede ser descrita como una matriz N × M m-bits, donde N y M representan las dimensiones de la matriz y m controla el n´ umero de valores de color. Si utilizamos m bits tenemos 2m diferentes valores de color que van desde 0 a 2m − 1 [NA02].

2.1.1.

Representaci´ on del color

Para poder representar de una forma consistente las im´agenes es necesario auxiliarse de alg´ un medio, por el cual se especifique de forma u ´nica cada color que la compone. Los espacios de color llevan a cabo esta tarea. Un espacio de color es un m´etodo por el que podemos especificar, crear y visualizar color. Un color es especificado utilizando coordenadas o atributos. Estas coordenadas no nos dicen cu´al es el color, sino que nos se˜ nalan cu´al es su posici´ on dentro de un espacio de color espec´ıfico [Wik02]. Existen diversos espacios de color de uso com´ un en diferentes industrias. Los sistemas de c´ omputo, utilizan por lo general tres componentes o atributos para describir un color: rojo, verde y azul –espacio de color RGB–. La imprenta utiliza normalmente las componentes: cian, magenta y amarillo –espacio de color CMY–[Bou95]. Otros espacios de color utilizados son: HSI – Tono, saturaci´on e intensidad –hue, saturation, intensity; en ingl´es–. HSV – Tono, saturaci´on y valor –hue, saturation, value; en ingl´es–. YIQ – Iluminaci´on, fase y cuadratura –luminance, in-phase, quadrature; en ingl´es–. CIELAB – La Comisi´on Internacional sobre iluminaci´on –Commission Internationale de l’Eclairage–, propuso un modelo como est´andar. Este modelo dimensiona la totalidad del espectro visible. Considera el espacio en forma uniforme y despliega tres ejes espaciales: L –luz, blanco-negro–, A –rojo-verde–, B –amarillo-azul–.

2.2. Pre-procesamiento

9

Espacio de color RGB RGB es conocido como un espacio de color aditivo ya que, todos los colores dentro de este espacio son entendidos como la suma de las componentes rojo(R), verde(G) y azul(B), que son las que lo definen. Estos tres colores fueron elegidos porque corresponden aproximadamente a los tres tipos de conos sensitivos al color en el ojo humano –65 % sensibles al rojo, 33 % sensibles al verde y 2 % sensibles al azul– [Wik02]. Este modelo es frecuentemente visualizado a trav´es de un cubo unitario. Cada componente de color es asignada a uno de los tres ejes ortogonales de coordenadas del espacio tridimensional y cada una de ellas var´ıa desde la no contribuci´ on hasta la presencia de un color completamente saturado, Figura 2.1 [Bou95]. B

Cian

Blanco Magenta

Azul (0,0,1)

s

de ala

ise gr

c Es

G Amarillo

Verde (0,1,0) Rojo (1,0,0)

Negro (0,0,0)

R

Figura 2.1: Cubo RGB. Las im´ agenes pueden ser vistas, en este modelo, como tres im´agenes independientes –una por cada canal de color– que cuando son emitidas por alg´ un medio dise˜ nado para tal efecto –un monitor, por ejemplo–, sus componentes, en forma de luz, son mezcladas y observadas por el ojo humano como una u ´nica imagen en colores.

2.2.

Pre-procesamiento

Antes de buscar y analizar las cualidades que permiten la clasificaci´on de un objeto o cosa en una imagen, es necesario acondicionarla, de forma

10

Cap´ıtulo 2. Procesamiento digital de im´agenes

tal, que las caracter´ısticas que nos interesan sean m´as f´acilmente identificables, al mismo tiempo que se eliminan aqu´ellas que no aportan informaci´on relevante.

2.2.1.

Histograma de intensidades

Muestra la forma en que las diferentes intensidades –saturaciones– de un color son utilizadas en una imagen. El histograma grafica el n´ umero de p´ıxeles con una intensidad de color en particular, contra el valor de intensidad de color. Para im´ agenes en color de 24-bits y en el espacio de color RGB –8 bits por canal–, el an´ alisis de histograma puede llevarse a cabo para cada componente de color, partiendo del negro –valor 0– hasta finalizar con el rojo intenso en el caso de la componente R –valor 255–, verde intenso para la componente G y azul intenso para la componente B.

Frecuencia

La Figura 2.2 muestra una imagen en color RGB de 24 bits con sus correspondientes histogramas.

0

50

100

150

Intensidad

Figura 2.2: Histogramas RGB de un leucocito.

200

250

2.2. Pre-procesamiento

11

Normalizaci´ on de histograma Es una t´ecnica popular para extender y trasladar el rango de intensidades de una imagen. El histograma original es extendido para que ocupe todos los valores posibles de intensidad de color. En el caso de las im´agenes en color RGB de 24-bits y de dimensiones M × M , se toma el valor m´as bajo y el m´ as alto de las tres componentes y ese rango es ampliado para que ocupe los 256 niveles de cada componente. Si el histograma original de una imagen O comienza con un valor Omin y se extiende hasta el nivel de intensidad de color Omax , podemos escalar el histograma de tal forma que los p´ıxeles en la nueva imagen N tengan un nivel m´ınimo Nmin y uno m´aximo Nmax simplemente escalando los niveles de intensidad de entrada [NA02]. La siguiente ecuaci´ on define este proceso. Nx,y =

Nmax − Nmin × (Ox,y − Omin ) + Nmin Omax − Omin

∀x, y ∈ [1, M ]

(2.1)

Frecuencia

La Figura 2.3 muestra la imagen normalizada de la Figura 2.2 as´ı como los histogramas ampliados que le corresponden.

0

50

100

150

200

250

Intensidad

Figura 2.3: Histogramas RGB de la imagen de un neutr´ofilo una vez aplicada la normalizaci´ on.

12

2.2.2.

Cap´ıtulo 2. Procesamiento digital de im´agenes

Transformaciones b´ asicas de morfolog´ıa matem´ atica

En sus or´ıgenes la morfolog´ıa matem´atica fu´e desarrollada como una teor´ıa de conjuntos; correspondi´endose con im´agenes binarias. A˜ nos m´as tarde fu´e exitosamente generalizada a im´agenes en escala de grises. Las transformaciones b´asicas de conjuntos utilizadas en la morfolog´ıa matem´ atica –dilataci´ on y erosi´on– se definen en t´erminos de la interacci´on de la imagen bajo estudio y un elemento estructural. El elemento estructural es escogido para emparejar o igualar las estructuras geom´etricas en las cuales estamos interesados. Las definiciones y propiedades siguientes han sido extra´ıdas de [dB92]. Conjuntos y operadores de conjuntos La teor´ıa de la morfolog´ıa matem´atica se fundamenta en unas pocas operaciones elementales sobre conjuntos, las cuales son definidas enseguida. Un conjunto X es una colecci´on de vectores de posici´on en el espacio observado –normalmente el espacio bidimensional continuo o discreto–. Definimos un p´ıxel x ∈ Rn –o x ∈ Zn – como un vector de posici´on. Por lo tanto, para una imagen binaria un p´ıxel tiene solamente una propiedad, la cual indica si el mismo es parte del conjunto que define al objeto bajo estudio o es parte del conjunto que define el fondo –background – de la imagen. Definici´ on 1 (Traslaci´on de conjunto). La traslaci´ on de un conjunto X sobre un vector de desplazamiento t se denota por Xt y se define como: Xt = {x | x − t ∈ X} Definici´ on 2 (Complemento de conjunto). El complemento de un conjunto X se denota por X c y se define como: / X} X c = {x | x ∈ Definici´ on 3 (Uni´ on de conjuntos). La uni´ on de dos conjuntos X y Y se denota por X ∪ Y y se define como: X ∪ Y = {x | x ∈ X o x ∈ Y } Definici´ on 4 (Intersecci´on de conjuntos). La intersecci´ on de dos conjuntos X y Y se denota por X ∩ Y y se define como: X ∩ Y = {x | x ∈ X y x ∈ Y }

2.2. Pre-procesamiento

13

Definici´ on 5 (Transposici´ on de conjunto –reflejo–). La transposici´ on de un ˜ conjunto X se denota por X y se define como: ˜ = {x | −x ∈ X} X Las anteriores definiciones de operaciones sobre conjuntos son igualmente v´alidas para Rn y Zn . La siguiente operaci´on sobre un conjunto no es f´acilmente formalizada para im´ agenes discretas. Se recomienda ver [dB92] para una explicaci´ on m´ as detallada acerca de este tema. Definici´ on 6 (Escalado de conjunto). Sea X un conjunto en Rn y sea α ∈ R entonces el conjunto escalado αX se define como: αX = {αx | x ∈ X} Transformaciones dual, dilataci´ on y erosi´ on En la morfolog´ıa matem´ atica las tranformaciones de conjuntos vienen en pares. Lo que significa que definiendo una transformaci´on de un conjunto, impl´ıcitamente definimos tambi´en su transformaci´ on dual. Sea ψ una transformaci´ on de conjunto tal que un conjunto X es transformado en otro conjunto ψ(X). Definici´ on 7 (Transformaci´ on dual). Sea X un conjunto y sea ψ una transformaci´ on de conjunto; entonces su tranformaci´ on dual ψ∗ se define como: ψ∗ (X) = [ψ(X c )]c Una transformaci´ on dual-misma es una transformaci´on ψ tal que ψ = ψ∗ . Definici´ on 8 (Adici´ on de conjunto de Minkowski). La adici´ on de conjunto de Minkowski de dos conjuntos X y S se define como: [ X ⊕S = Xx x∈S

Definici´ on 9 (Sustracci´ on de conjunto de Minkowski). La sustracci´ on de conjunto de Minkowski de dos conjuntos X y S se define como: \ X S = Xx x∈S

14

Cap´ıtulo 2. Procesamiento digital de im´agenes

Propiedad 1 (Dualidad de la adici´on y sustracci´on de Minkowski). La adici´ on de Minkowski y la sustracci´ on de Minkowski son transformaciones duales. Definici´ on 10 (Dilataci´on). La dilataci´ on de un conjunto X por un conjunto S se define como: X S = X ⊕ S˜ Definici´ on 11 (Erosi´on). La erosi´ on de un conjunto X por un conjunto S se define como: X S = X S˜ En la pr´ actica del procesamiento de im´agenes con morfolog´ıa matem´atica es m´ as frecuente utilizar la dilataci´on y erosi´on como transformaciones b´ asicas de conjunto en lugar de la suma y sustracci´on de Minkowski ya que las primeras son geom´etricamente m´as f´aciles de interpretar. En la dilataci´ on X S o erosi´on X S el conjunto X frecuentemente se corresponde con la imagen bajo estudio. El conjunto S es conocido como el elemento estructural. La dilataci´ on, en t´erminos geom´etricos, puede ser entendida como sigue. El elemento estructural S es deslizado sobre la imagen original X. Cada elemento de Sx con el vector de posici´on x coincidiendo con alg´ un elemento de X, es elemento del conjunto dilatado. La erosi´ on tiene una interpretaci´on de igual simplicidad. Se desliza el elemento estructural S sobre la imagen original X. Cada posici´on x en la cual el elemento estructural Sx coincida completamente con el conjunto X, es un elemento del conjunto erosionado. Propiedad 2 (Propiedad Hit). La dilataci´ on X S puede escribirse como: X S = {x | X ∩ Sx 6= ∅} Propiedad 3 (Propiedad de inclusi´on). La erosi´ on X S puede escribirse como: X S = {x | Sx ⊂ X} Propiedad 4. La dilataci´ on y la erosi´ on de un conjunto X con un elemento estructural que contiene solamente un punto t, da como resultado la traslaci´ on del conjunto original: X {t} = X {t} = X−t

2.3. Extracci´ on de caracter´ısticas

2.3.

15

Extracci´ on de caracter´ısticas

Enseguida se describen y definen brevemente las herramientas te´oricas utilizadas en este trabajo, con las que se fundamenta la b´ usqueda y an´alisis de cualidades presentes en las im´agenes; cualidades que nos permiten diferenciar e identificar grupos de p´ıxeles que representan objetos en la imagen bajo estudio. Las definiciones siguientes han sido extra´ıdas de [NA02].

2.3.1.

Descriptores de regi´ on – geom´ etricos

Considerando las propiedades geom´etricas de una regi´on en una imagen, ´esta puede ser descrita a trav´es de mediciones escalares, como lo son el ´area, per´ımetro, compactibilidad y dispersi´on. ´ Area Es la propiedad m´ as simple de una regi´on en un plano y se define como: w w A(S) = I(x, y) dy dx (2.2) x

y

donde I(x, y) = 1 si el p´ıxel se encuentra dentro de los l´ımites de la forma observada –x, y ∈ S–, 0 en otro caso. Dada la naturaleza de las im´agenes digitales, la integral anterior debe ser aproximada por sumatorias, as´ı: XX A(S) = I(x, y) ∆A (2.3) x

y

donde ∆A es el ´ area de un p´ıxel. Por lo tanto, si ∆A = 1 el ´area es medida en p´ıxeles. Esta propiedad var´ıa cuando la imagen es escalada, sin embargo, permanece sin cambio ante la rotaci´on. Debido a la discretizaci´on de las im´agenes digitales, peque˜ nos errores o cambios en el valor de esta propiedad pueden aparecer cuando la imagen es rotada. Per´ımetro El per´ımetro es una propiedad m´as de la regi´on. Para definirlo formalmente tenemos que si x(t) y y(t) denotan las coordenadas param´etricas de una curva que encierra una regi´ on S, entonces el per´ımetro de la regi´on se define como: w p P (S) = x2 (t) + y 2 (t) dt (2.4) t

16

Cap´ıtulo 2. Procesamiento digital de im´agenes

Esta ecuaci´ on define la suma de todos los arcos infinitesimales que componen a la curva. Es necesario, para el caso pr´actico, definir la ecuaci´on en t´erminos de sumatorias que den tratamiento al caso discreto. Si x(t) y y(t) est´an definidas por conjuntos de p´ıxeles en la imagen, entonces la Ecuaci´on 2.4 puede ser aproximada por: Xp P (S) = (xi − xi−1 )2 + (yi − yi−1 )2 (2.5) i

donde xi y yi representan las coordenadas del i-´esimo p´ıxel que forma parte de la curva. Dada la organizaci´on de los p´ıxeles en una imagen –forman una malla de cuadros–, los t´erminos de la sumatoria pueden solamente tomar dos valores. Cuando los p´ıxeles (xi , yi ) y (xi−1 , yi−1 ) presentan una conectividad de tipo √ 4, el t´ermino de la sumatoria es igual a la unidad; y tiene un valor de 2 en caso de las conexiones diagonales presentes en la conectividad 8. La Figura 2.4 ilustra los casos mencionados.

Conectividad 4

Conectividad 8

Figura 2.4: Malla de cuadros de conectividad 4 y 8.

Compactibilidad Con base en las mediciones del ´area y el per´ımetro es posible calcular otras propiedades de la regi´on. La compactibilidad es una de ellas y se define como: 4πA(s) C(S) = 2 (2.6) P (s) Esta ecuaci´ on puede ser reescrita como: C(S) =

A(s) P 2 (s)/4π

(2.7)

En esta forma de la ecuaci´on es posible observar claramente su significado. Si la regi´ on bajo estudio cuenta con un ´area A y un per´ımetro P , la

2.3. Extracci´ on de caracter´ısticas

17

compactibilidad mide la raz´ on de A entre el ´area del c´ırculo definido por un per´ımetro de longitud P . En otras palabras, la compactibilidad mide la eficiencia con que un contorno encierra un ´area. Es claro entonces que si la regi´on observada describe exactamente un c´ırculo, el valor de la compactibilidad ser´ a la unidad, el cual es el valor m´aximo de la misma, entonces, para cualquier otra forma adoptada por la regi´on, el valor de compactibilidad ser´a menor que uno. Dispersi´ on La dispersi´ on o irregularidad es la raz´on de la cuerda de mayor longitud de la regi´ on entre el ´ area de la misma y puede ser definida como: I(S) =

πmax [(xi − x)2 + (yi − y)2 ] A(S)

(2.8)

donde (x, y) representan las coordenadas del centro de masa –Ecuaci´on 2.12– de la regi´ on. El numerador define el ´area del c´ırculo m´ınimo con centro ubicado en el centro de masa de la regi´on y que encierra completamente a la misma. As´ı, la dispersi´ on describe la densidad de la regi´on. Otra forma de definir la dispersi´ on es la siguiente: p max (xi − x)2 + (yi − y)2 p IR(S) = (2.9) min (xi − x)2 + (yi − y)2 La expresi´ on define la raz´ on del radio del c´ırculo con centro ubicado en centro de masa de la regi´ on y que encierra completamente a la misma, entre el radio del c´ırculo m´ aximo con el mismo centro que puede ser inscrito en la regi´on.

2.3.2.

Descriptores de regi´ on – momentos

Este tipo de descriptores se concentran en la organizaci´on que los p´ıxeles de la regi´ on observada presentan. Pueden verse como una descripci´on global de la regi´ on bajo estudio. Momentos cartesianos bidimensionales Van de ´ ordenes menores –iniciando en 0– a ´ordenes mayores. El momento de orden p y q, mpq de una funci´on I(x, y) se define como: w∞ w∞ mpq = xp y q I(x, y) dx dy (2.10) −∞

−∞

18

Cap´ıtulo 2. Procesamiento digital de im´agenes Y la aproximaci´ on que da tratamiento al caso discreto se define como: mpq =

XX x

xp y q I(x, y)∆A

(2.11)

y

Estos momentos tienen la propiedad de que si la funci´on I satisface ciertas condiciones [NA02], se garantiza que los momentos de todos los ´ordenes existen. Adem´ as, el conjunto de los momentos de una funci´on la determinan de forma u ´nica. El momento de orden p = 0 y q = 0, m00 , determina la masa total de la funci´ on. Esta ecuaci´ on es igual a la Ecuaci´on 2.3 cuando la funci´on I toma valores de cero y uno. Para im´ agenes binarias, el centro de masa (x, y) de la regi´on bajo estudio puede ser calculado como: x=

m10 m00

y=

m01 m00

(2.12)

Con este estimado de las coordenadas centrales de la regi´on, el cual puede traducirse como un punto de referencia para la forma observada misma, es posible calcular los momentos centralizados, µpq , los cuales tienen la propiedad de ser invariantes a la traslaci´on y que se definen como: µpq =

XX x

(x − x)p (y − y)q I(x, y) ∆A

(2.13)

y

Hay que notar que el momento centralizado de orden p = 0 y q = 0, µ00 , sigue definiendo el ´ area para im´agenes binarias. Los dos momentos de primer orden µ10 y µ01 son iguales a cero. Los momentos de orden dos y ´ordenes mayores, presentan propiedades descriptivas de la forma observada. Momentos centrales normalizados Los momentos centrales normalizados, η, poseen la propiedad, adem´as de ser invariantes a la traslaci´on, de ser invariantes al cambio de escala y son definidos como [NA02]: µpq ηpq = γ (2.14) µ00 donde: γ=

p+q 2

∀p + q ≥ 2

(2.15)

2.3. Extracci´ on de caracter´ısticas

19

A partir de las dos ecuaciones anteriores, es posible definir siete momentos que adicionan la propiedad de ser invariantes a la rotaci´on, tambi´en conocidos como momentos invariantes de Hu, y se definen como: M 1 = η20 + η02 M 2 = (η20 − η02 )2 + 4η211 M 3 = (η30 − 3η12 )2 + (3η21 − η03 )2 M 4 = (η30 + η12 )2 + (η21 + η03 )2 M 5 = (η30 − 3η12 )(η30 + η12 ) + ((η30 + η12 )2 − 3(η21 − η03 )2 ) + (3η21 − η03 )(η21 + η03 )(3(η30 + η12 )2 − (η21 + η03 )2 )

(2.16)

M 6 = (η20 − η02 )((η30 + η12 )2 − (η21 + η03 )2 ) + 4η11 (η30 + η12 )(η21 + η03 ) M 7 = (3η21 − η03 )(η30 + η12 )((η30 + η12 )2 − 3(η21 + η03 )2 ) + (3η12 − η30 )(η21 + η03 )(3(η12 + η30 )2 − (η21 + η03 )2 ) El orden de cada t´ermino de las expresiones anteriores es igual a la suma de sus respectivas variables p y q. El orden de cada momento invariante lo determina el t´ermino de mayor orden. De esta forma, los dos primeros momentos son de orden dos, y los cinco restantes son de orden tres. El momento M 7 se considera invariante a la inclinaci´on y fu´e introducido para distinguir im´ agenes reflejadas.

2.3.3.

Descriptores de textura

A´ un cuando la textura est´ a ligada directamente a la percepci´on e interpretaci´ on humana y no ha sido definida claramente en t´erminos matem´aticos, es evidente, de acuerdo con las m´ ultiples definiciones ling¨ u´ısticas que existen de la misma, que se refiere a cierta organizaci´on que guardan los componentes superficiales de un objeto y que excitan nuestros sentidos en una forma particular. En im´ agenes digitales podr´ıa entenderse como la disposici´on y orden que guardan los p´ıxeles de una parte de una regi´on, y que se repite en forma de patr´on a trav´es de toda la superficie de ´esta u ´ltima. Las siguientes definiciones de descriptores de textura, tienen como fundamento principal a la transformada de Fourier, la cual permite lograr invariabilidad a la rotaci´ on. Las expresiones siguientes se definen en t´erminos de la Transformada R´ apida de Fourier –FFT, por sus siglas en ingl´es–.

20

Cap´ıtulo 2. Procesamiento digital de im´agenes Denotamos como FP al resultado de aplicar la FFT a una imagen. FP = FFT(P)

donde FPu,v y Px,y son los datos de la trasformada y el p´ıxel, respectivamente. El resultado de la transformada se normaliza, para lograr que las magnitudes sean invariantes a cambios lineales en la iluminaci´on en la imagen, de acuerdo con la siguiente expresi´on: NFPu,v = r

|FPu,v | P |FPu,v |2

u6=0 ∧ v6=0

Con base en este resultado se plantean ahora las expresiones que permiten obtener mediciones escalares de las cualidades de la textura. Energ´ıa

e=

N X N X

(NFPu,v )2

(2.17)

NFPu,v log(NFPu,v )

(2.18)

u=1 v=1

Entrop´ıa

h=

N X N X u=1 v=1

Inercia

i=

N X N X (u − v)2 NFPu,v u=1 v=1

(2.19)

Cap´ıtulo 3

Razonamiento Probabilista Una vez que se ha completado la extracci´on de caracter´ısticas de la imagen, es necesario evaluar esa informaci´on mediante alguna t´ecnica o m´etodo que nos permita sacar conclusiones acerca de la naturaleza de la imagen bajo estudio, es decir, es necesario procesar la informaci´on para lograr el reconocimiento y clasificaci´ on de los objetos que en la imagen se observan. Dentro del ´area de la Inteligencia Artificial –IA– se encuentran las disciplinas: Reconocimiento de Patrones y Aprendizaje M´aquina, las cuales proporcionan estos m´etodos o herramientas te´ oricas que permiten llevar a cabo la clasificaci´on. La informaci´ on obtenida de las im´agenes de los leucocitos no determina perfectamente la clase a que pertenece cada uno de los objetos contenidos en las mismas, es decir, el dominio de la informaci´on es incierto, ya que no es posible asegurar que el valor de cada uno de los datos obtenidos es exclusivo de alguna clase de objeto. Es por esto que el presente cap´ıtulo se concentra en presentar un sistema de razonamiento incierto que, en teor´ıa, permita llevar a cabo nuestro objetivo. Entre las diversas teor´ıas y m´etodos que se encargan de solucionar problemas cuyo dominio es incierto encontramos el razonamiento predefinido, algunos m´etodos basados en reglas, la teor´ıa de Dempster-Shafer, los conjuntos difusos y la l´ ogica difusa [SJN00]. El tratar de solucionar nuestro problema a trav´es de cada una de las teor´ıas y m´etodos mencionados y llevar a cabo un estudio comparativo de los resultados ser´ıa una labor muy ardua e igualmente interesante que, sin embargo, ir´ıa mucho m´as lejos del alcance de este trabajo. Por esta raz´ on, se ha utilizado el razonamiento probabilista como m´etodo para dar tratamiento a nuestro problema de clasificaci´on, ya que, como se menciona en [SJN00] con respecto de las primeras teor´ıas mencionadas,

22

Cap´ıtulo 3. Razonamiento Probabilista “En todos los sistemas funcionales de verdad hay serios problemas relacionados con el razonamiento mezclado o intercausal.”

se menciona adem´ as, “La informaci´ on sobre la independencia condicional es una forma vital y s´ olida de estructurar informaci´on sobre un dominio incierto.” M´ as adelante se observar´a que el razonamiento probabilista y en particular las redes bayesianas –RB–, tambi´en conocidas como redes de creencia, ofrecen una manera natural de representar la informaci´on sobre la independencia condicional. Es importante se˜ nalar que el razonamiento eficiente mediante probabilidades es tan reciente que las redes de creencia son el u ´nico m´etodo, del cual existen s´ olo ligeras variantes.

3.1.

Redes bayesianas

En una red bayesiana, cada nodo del grafo que la representa, se corresponde con una variable aleatoria, as´ı, en adelante no se har´a distinci´on entre estos dos conceptos y ambos ser´an representados por letras may´ usculas. Para definiciones b´asicas de probabilidad y distribuciones de probabilidad v´ease el Ap´endice A.

3.1.1.

Definici´ on de red bayesiana

Primeramente definiremos la separaci´on direccional, tambi´en conocida como separaci´ on-d, la cual es un concepto fundamental de las redes bayesianas. Definici´ on 12 (Separaci´on direccional [DV05]). Dado un grafo dirigido ac´ıclico conexo y una distribuci´ on de probabilidad sobre sus variables, se dice que hay separaci´ on direccional si, dado un nodo X, el conjunto de sus padres, pa(X), separa condicionalmente este nodo de todo otro subconjunto Y¯ en que no haya descendientes de X. Es decir, P (x|pa(x), y¯) = P (x|pa(x))

(3.1)

La separaci´ on direccional nos indica que si queremos calcular la probabilidad a posteriori de alguna variable X y conocemos los valores de pa(X),

3.1. Redes bayesianas

23

ning´ un otro nodo, que no sea descendiente de X, nos aporta mayor informaci´on de la que ya conocemos. Una vez expuesta la separaci´ on direccional procedemos a definir formalmente lo que es una red bayesiana. Definici´ on 13 (Red bayesiana [DV05]). Es un grafo dirigido ac´ıclico conexo m´ as una distribuci´ on de probabilidad sobre sus variables, que cumple con la propiedad de separaci´ on direccional. Es posible observar tres propiedades que la separaci´on-d atribuye a las redes bayesianas [DV05]: 1. Dos nodos cualesquiera X e Y que no tengan ning´ un antepasado com´ un son independientes a priori. 2. Si X es padre de Y e Y es padre de Z y no existe otro camino de X a Z, entonces estos dos nodos quedan condicionalmente separados por Y: P (z|x, y) = P (z|y) 3. Si Y y Z son hijos de X y no tienen otro antepasado com´ un, entonces X separa a Y y Z, haci´endolos condicionalmente independientes. Otra forma de visualizar estas propiedades que puede ayudarnos a comprenderlas mejor se encuentra en [Nil01] y es la siguiente: Independencia condicional mediante nodos bloqueadores Dos nodos Xi y Xj son independientes condicionalmente dado un conjunto de nodos ε si por cada camino no dirigido entre Xi y Xj hay alg´ un nodo Xb , que cumple alguna de las siguientes tres propiedades –ver Figura 3.1–: 1. Xb pertenece a ε, y ambos arcos salen de Xb . 2. Xb pertenece a ε, y un arco va hacia Xb y el otro sale de ´el. 3. Ni Xb ni ning´ un descendiente suyo pertenece a ε, y ambos arcos van hacia Xb . Si alguna de las condiciones anteriores se cumple, se dice que Xb bloquea el camino dado ε. Si todos los caminos entre Xi y Xj est´an bloqueados, decimos que ε d-separa–separa direccionalmente – Xi de Xj y se concluye que Xi y Xj son independientes condicionalmente dado ε.

24

Cap´ıtulo 3. Razonamiento Probabilista Nodos de la evidencia Xi Xb2

Xb1 Xb3

Xj

Figura 3.1: Casos de independencia condicional mediante nodos bloqueadores. Partiendo de la Ecuaci´on A.6 y en vista de la separaci´on direccional, es posible expresar la distribuci´on de probabilidad conjunta de una red bayesiana mediante el producto de las distribuciones condicionadas de cada nodo dados sus padres. El siguiente teorema formaliza matem´aticamente este hecho. Teorema 1 (Factorizaci´on de la probabilidad [DV05]). Dada una red bayesiana, su distribuci´ on de probabilidad puede expresarse como: Y P (x1 , . . . , xn ) = P (xi |pa(xi )) (3.2) i

La importancia de este teorema radica en que nos permite describir una red bayesiana mediante la probabilidad condicionada de cada nodo, en vez de la distribuci´ on de probabilidad conjunta, la cual, requerir´ıa un n´ umero exponencial de par´ ametros en el n´ umero de nodos –tal es el caso del m´etodo probabilista cl´ asico– y plantear´ıa el problema de verificar la propiedad de separaci´ on direccional. Si se compara la expresi´on 3.2 con la Ecuaci´on A.6, veremos en general: P (Xi |Xi−1 , . . . , X1 ) = P (Xi |P a(Xi ))

3.1.2.

(3.3)

Sem´ antica de las redes de creencia

La estructura de una red de creencia aporta por s´ı misma mucha informaci´ on cualitativa. Si entre un par de variables existe un enlace, nos damos cuenta de inmediato, a´ un sin conocer sus probabilidades condicionales, que existe correlaci´ on entre ellas. Tal relaci´on entre variables se conoce como

3.1. Redes bayesianas

25

influencia causal directa: el valor que tome X influye sobre la probabilidad de Y y viceversa. Si entre un par de variables existe alg´ un camino en el que participan variables intermedias hablaremos de influencia causal indirecta. Desde la misma perspectiva, la ausencia de arcos entre variables tambi´en aporta informaci´ on. Las relaciones de dependencia e independencia condicionales y a priori y los casos en los que las variables se vuelven dependientes e independientes son observables tambi´en desde la estructura de la red. Esto es, cuando dos variables no tienen ning´ un antepasado com´ un se sabe que son independientes a priori; sin embargo, si comparten alg´ un descendiente, el hecho de conocer el valor que toma tal descendiente, hace que surjan correlaciones entre ellas. Ahora bien, cuando dos variables tienen un solo antepasado com´ un, sabemos que existe correlaci´ on entre ellas, sin embargo, esa correlaci´on desaparece al momento de conocer el valor que toma tal antepasado. Estas dos formas en que se relacionan las variables –a trav´es de alg´ un descendiente o alg´ un antepasado com´ un– en las cuales surge o desaparece la correlaci´on, nos permiten ver claramente la asimetr´ıa que existe entre variables padres e hijos, causas y efectos, de la cual proviene el nombre de la separaci´ on direccional. Por u ´ltimo, hay que observar que la topolog´ıa de una red puede verse como una base de conocimientos abstracta, la cual representa la estructura general de los procesos causales del dominio y que es v´alida en una gran diversidad de escenarios.

3.1.3.

Redes bayesianas h´ıbridas

Cuando una red bayesiana involucra variables tanto discretas como continuas se conoce como h´ıbrida. En tales redes, se observan dos casos de inter´es particular al momento de especificar las probabilidades condicionadas de las variables [SJN04]: 1. Cuando una variable aleatoria continua tiene padres discretos y/o continuos. 2. Cuando una variable aleatoria discreta tiene padres continuos. Considerando el primer caso, cuando una variable aleatoria continua tiene un padre discreto, las probabilidades condicionales que ´este genera sobre el hijo continuo se manejan mediante enumeraci´on expl´ıcita. Supongamos dos variables aleatorias, una discreta, X, y una continua, Y , si X es padre de Y , por cada posible valor xi ser´a necesario especificar una funci´on de

26

Cap´ıtulo 3. Razonamiento Probabilista

densidad de probabilidad (f.d.p.) que determine el comportamiento condicionado de la variable continua Y , es decir, P (Y |x1 ) = f1 .. . P (Y |xn ) = fn El requerimiento de que cada fi tiene que ser una f.d.p. surge porque es necesario cumplir con la Ecuaci´on A.2. Siguiendo el primer caso, cuando una variable aleatoria continua tiene un padre continuo, los par´ametros de la f.d.p. del hijo se especifican como funci´ on del valor continuo del padre. Supongamos dos variables aleatorias continuas X e Y . Si X es padre de Y , es necesario definir una sola f.d.p. de probabilidad condicional para Y ; los par´ametros que determinan tal f.d.p. depender´ an del valor de X. Si fy es la f.d.p. que define la probabilidad condicional P (Y |x) y θ es el conjunto de par´ametros que la determinan, entonces, P (Y |x) = fy (θ(x)) Como ejemplo podemos tomar la funci´on Gaussiana lineal. En este caso, el nodo hijo presenta una f.d.p. Gaussiana cuya media µ var´ıa linealmente con el valor del nodo padre y su desviaci´on est´andar se fija a un valor determinado. 1 y−(ax+b) 2 1 P (Y |x) = N (ax + b, σ 2 )(y) = √ e− 2 ( σ ) σ 2π

En este ejemplo es necesario aportar los par´ametros a, b y σ. En caso de que una variable aleatoria continua tenga un padre discreto y uno continuo, las probabilidades condicionales de tal variable ser´an, para el padre discreto, definidas de forma expl´ıcita, y las del padre continuo mediante la especificaci´on de los par´ametros del hijo como funci´on del valor del padre. Supongamos tres variables aleatorias, una discreta, X, y dos continuas, Y y Z, si X e Y son padres de Z, entonces las probabilidades condicionadas de Z se especificar´ıan como sigue: P (Z|x1 , y) = f1 (θ1 (y)) .. .

(3.4)

n

P (Z|x , y) = fn (θn (y)) donde θi representa el conjunto de par´ametros que determinan a la f.d.p. fi .

3.1. Redes bayesianas

27

Consideremos ahora el caso en que una variable discreta tiene un padre continuo. Una forma de abordar el problema es asignar funciones que definan la probabilidad para cada uno de los posibles valores de la variable discreta dependiendo cada funci´ on del valor que adquiera la variable padre. Si X es una variable aleatoria continua, Y es una discreta y X es padre de Y , ser´ıa necesario asignar funciones tales que: P (y 1 |xi ) = f1 (xi ) .. . P (y n |xi ) = fn (xi ) donde,

n X

fj (xi ) = 1

∀xi

j=1

El siguiente ejemplo ha sido tomado de [SJN04]. Suponga una variable continua Costo y una variable discreta Compras –ver Figura 3.2–. Parece razonable asumir que el cliente comprar´ a si el Costo es bajo y no comprar´a si el Costo es alto y que la probabilidad de la compra var´ıa suavemente en algunas regiones intermedias. En otras palabras, la distribuci´on condicionada es como una funci´on umbral suave. Costo

Compras

Figura 3.2: Variables Costo y Compras as´ı como la relaci´on entre ellas. Un modo de construir umbrales suaves es utilizar la integral de la distribuci´ on normal est´andar: wx Φ(x) = N (0, 1)(x) dx −∞

Entonces la probabilidad de Compras dado el Costo debe ser: P (Compras|Costo = c) = Φ((−c + µ)/σ)

28

Cap´ıtulo 3. Razonamiento Probabilista lo que significa que el umbral del Costo se produce alrededor de µ, el ancho de la regi´on de umbral es proporcional a σ, y la probabilidad de la compra decrece cuando el Costo crece.

N´ otese que en el ejemplo presentado se ha definido la probabilidad para un s´ olo posible valor de Compras. Suponiendo que tal variable sea booleana, es f´ acil observar que, P (Compras|Costo = c) = 1 − Φ((−c + µ)/σ) Cuando se tienen m´ ultiples padres continuos para un nodo hijo discreto, el caso anterior puede generalizarse tomando una combinaci´on lineal de los valores de los padres [SJN04].

3.1.4.

Inferencia en poli´ arboles

El siguiente algoritmo de propagaci´on de la evidencia en poli´arboles∗ tiene como base el paso de mensajes π y λ [DV05]. Definiciones b´ asicas En un poli´ arbol, la influencia de cada hallazgo se propaga hasta un nodo X bien a trav´es de los padres o a trav´es de los hijos, por lo que para cada nodo X se puede hacer una partici´on de la evidencia en subconjuntos tales que: − e = e+ X ∪ eX − e+ X ∩ eX = ∅ − donde e+ X representa la evidencia “por encima de X” y eX “por debajo de X”. La eliminaci´ on de un enlace XY –en caso de poli´arboles– divide a la red –y por tanto a la evidencia– en dos partes, una que queda “por encima” − del enlace y otra que queda “por debajo”. Las llamaremos e+ XY y eXY , respectivamente. Adem´as, se cumple que: − e = e+ XY ∪ eXY − e+ XY ∩ eXY = ∅ ∗ Un poli´ arbol es un tipo de grafo para el cual se cumple que entre cualesquiera de sus nodos existe exactamente un camino.

3.1. Redes bayesianas

29

Con base en la partici´ on de la evidencia, se pueden establecer las siguientes definiciones: π(x) ≡ P (x, e+ X) λ(x)g ≡ P (e− X |x) πX (ui ) ≡ P (ui , e+ Ui X ) λYj (x) ≡ P (e− XYj |x) El sentido de estas definiciones es el siguiente: π(x) indica qu´e valor de X es m´as probable seg´ un la evidencia relacionada con las causas de X –seg´ un la evidencia “por encima” de X–. λ indica qu´e valor de X explica mejor los hallazgos correspondientes a los efectos de X –la evidencia “por debajo” de X–. πX (u) indica qu´e valor de U es m´as probable seg´ un la evidencia “por encima” del enlace U X. λYj (x) indica qu´e valor de X explica mejor la evidencia “por debajo” del enlace XY . Computaci´ on de los mensajes El objetivo perseguido es el c´alculo de la probabilidad a posteriori de cada nodo. Con vista en este objetivo se plantea: − P ∗ (x) = P (x|e) = αP (x, e+ X , eX ) + − = αP (x, e+ X )P (eX |x, eX )

donde se ha definido: α ≡ [P (e)]−1 + Ahora bien, por la separaci´ on direccional se sabe que P (e− X | x, eX ) = − P (eX | x), de modo que, aplicando las definiciones anteriores se tiene:

P ∗ (x) = απ(x)λ(x) Es necesario calcular los tres factores de esta expresi´on. Se comienza con π(x). Seg´ un su definici´ on: X π(x) = P (x, e+ P (x|¯ u)P (¯ u, e+ X) = X) u ¯

30

Cap´ıtulo 3. Razonamiento Probabilista

Como las causas de X no tienen ning´ un antepasado com´ un, por estar en un poli´ arbol, todas ellas y las ramas correspondientes son independientes mientras no se considere la evidencia relativa a X o a sus descendientes: + + P (¯ u, e+ X ) = P (u1 , eU1 X , . . . , un , eUn X ) n n Y Y = P (ui , e+ ) = πX (ui ) Ui X i=1

(3.5)

i=1

Por tanto, π(x) =

X

P (x|¯ u)

u ¯

n Y

πX (ui )

i=1

Calculando ahora πX (ui ) o, lo que es lo mismo, πYj (x), puesto que en una RB todos los nodos son equivalentes. La evidencia que est´a por encima del enlace XYj , e+ XYj , puede descomponerse en varios subconjuntos: La que est´ a por encima de X y la que est´a por debajo de cada enlace XYk . Se sabe, − en los subconjuntos e− adem´ as, que X separa e+ XYk X de eXYk , y separa tambi´ entre s´ı. Con estas consideraciones se obtiene: − + k6=j ) πYj (x) = P (x, e+ XYj ) = P (x, eX , eXYk Y P (e− = P (x, e+ XYk |x) X) k6=j

= π(x)

Y

λYk (x)

k6=j

Para calcular esta expresi´on, es necesario hallar λYk (x) –o λYj (x), pues el resultado ser´ a v´ alido para todos los efectos de X–. Representando mediante V¯ el conjunto de causas de Yj distintas de X. Para simplificar la notaci´on, − + − + escribiremos e+ = e+ V1 Y ∪ . . . ∪ eVp Y , con lo que queda eXYj = eY ∪ eV¯ Y . V¯ Y j

Recordando que Yj separa e− a por encima de Yj del resto de la red que est´ + Yj , e igualmente los padres de Yj separan Yj de eV¯ Y . Aplicando repetidaj mente la proposici´ on A.9 , resulta: λYj (x) = P (e− XYj |x) XX + = P (e− ¯|x) Yj , yj , eV¯ Y , v j

yj

=

v¯

XX

P (e− v , x)P (e+ , v¯|x) Yj |yj )P (yj |¯ V¯ Y j

yj

v¯

3.2. Aprendizaje de redes bayesianas

31

Ya que las causas de Yj son independientes a priori, se utiliza la ecuaci´on 3.5 para llegar a: P (¯ v , e+ |x) V¯ Yj

=

P (¯ v , e+ ) V¯ Yj

=

p Y

P (vl , e+ V l Yj )

l=1

=

p Y

πYj (vl )

l=1

y, en consecuencia, " λYj (x) =

X

λ(yj )

yj

X

P (yj |x, v¯)

v¯

p Y

# πYj (vl )

l=1

Finalmente, hay que calcular λ(x), de la siguiente forma: − λ(x) = P (e− XY1 , . . . , eXYm |x) m m Y Y |x) = λYj (x) = P (e− XYj j=1

j=1

Para completar el algoritmo falta hallar la constante α. Para lo cual se debe considerar que: X X P ∗ (x) = α π(x)λ(x) = 1 x

x

con lo que se puede obtener α como: " #−1 X α= π(x)λ(x) x

Observar que por cada enlace X → Y circulan dos mensajes, πY (x) de X a Y , y λY (x), de Y a X. Ambos mensajes son vectores correspondientes a la variable X, mientras que la variable Y s´olo aparece como sub´ındice en los dos.

3.2. 3.2.1.

Aprendizaje de redes bayesianas Un m´ etodo para la construcci´ on de redes bayesianas

La Ecuaci´ on 3.2 hace posible que se puedan identificar los nodos de la RB de acuerdo con un orden congruente con el orden parcial impl´ıcito en la estructura gr´ afica. Con base en esto decimos que la red de creencia ser´a la representaci´ on correcta del dominio, s´olo si cada uno de los nodos tiene

32

Cap´ıtulo 3. Razonamiento Probabilista

independencia condicional respecto de sus predecesores en la secuencia de nodos. Por lo tanto, si se desea construir una red de creencia cuya estructura sea adecuada para el dominio, debemos escoger los padres de cada nodo de manera que se satisfaga esta propiedad. Observemos ahora que los padres del nodo Xi deben contener todos los nodos que est´an en X1 , . . . , Xi−1 los cuales tienen influencia directa sobre Xi . El procedimiento general para la construcci´on de una red en incrementos, es el siguiente [SJN00]: ¯ que sirva para describir el dominio. 1. Escoja el conjunto de variables X 2. Defina la manera como se van a ordenar las variables. 3. Siempre que haya variables: a) Por cada variable Xi que escoja, a˜ nada a la red un nodo. b) Asigne P adres(Xi ) a un conjunto m´ınimo de nodos que est´e presente en la red, para de esta manera satisfacer la propiedad de independencia condicional 3.3. c) Elabore la tabla de probabilidad correspondiente a Xi . Ya que en este proceso de construcci´on cada nodo se conecta u ´nicamente con nodos anteriores, el m´etodo garantiza la obtenci´on de una red ac´ıclica. Una caracter´ıstica importante de las redes de creencia es que en ellas no hay valores de probabilidad redundantes, a excepci´on, tal vez, de una entrada en las hileras de cada una de las tablas de probabilidad condicional. Es decir, es imposible que el ingeniero del conocimiento o el experto del dominio lleguen a crear una red de creencia que viole los axiomas de la probabilidad.

3.2.2.

Aprendizaje de las tablas de probabilidad condicional con datos completos

Cuando se dice que se cuenta con datos completos para el aprendizaje de una red, quiere decir que cada miembro del conjunto entrenamiento Ξ dispone de un valor para cada variable representada en la red. Cuando disponemos de un amplio n´ umero de muestras de entrenamiento, s´ olo debemos calcular el estad´ıstico muestral de cada nodo y de sus padres. Si queremos obtener la tabla de probabilidad condicional (TPC) de alg´ un nodo Vi dados sus padres, comenzaremos por plantear tantas tablas para este nodo como valores vi –menos uno– diferentes existan. En el caso de que Vi sea una variable boolena, que es el caso que asumimos, s´olo hay una

3.2. Aprendizaje de redes bayesianas

33

TPC para cada nodo. Si Vi tiene ki nodos padre, entonces deben existir 2ki entradas (filas) en la tabla, debido a que cada padre puede tener uno de dos valores posibles. Se denotan las variables asociadas a los padres de Vi con el vector P¯i . El estad´ıstico muestral ˆ p (Vi = vi |P¯i = p¯i ) se obtiene a partir del n´ umero de casos de Ξ que tienen Vi = vi y P¯i = p¯i , dividido entre el n´ umero de casos que tiene P¯i = p¯. Para aprender las TPCs, simplemente se utilizan estos estad´ısticos muestrales de los datos reales para todos los nodos de la red. Si el c´ alculo de los estad´ısticos muestrales tienen como base muestras de tama˜ no muy peque˜ no, puede generarse una estimaci´on imprecisa de las probabilidades subyacentes. En la mayor´ıa de los casos, el crecimiento exponencial del n´ umero de par´ ametros de una TPC puede reducir la capacidad del conjunto de entrenamiento para generar buenas estimaciones. El problema puede ser mitigado si muchos par´ametros tienen el mismo valor o uno muy cercano.

Cap´ıtulo 4

Dise˜ no e implementaci´ on del clasificador En el presente cap´ıtulo se expone el proceso de dise˜ no te´orico del clasificador de leucocitos, el cual se fundamenta en la teor´ıa de procesamiento de im´agenes y redes bayesianas ya presentada. Al final se presentan brevemente las caracter´ısticas de su implementaci´on. Al ser el clasificador implementado como una red bayesiana, el proceso de construcci´ on de cada uno de sus componentes debe apegarse a la definici´on de tal tipo de red. Es por esto que primeramente se define la estructura del grafo, el cual contiene informaci´on acerca de las variables utilizadas y la relaci´on que existe entre las mismas. Enseguida se presenta la definici´on de las tablas de probabilidad condicional, las cuales completan la red bayesiana que lleva a cabo la clasificaci´ on de los leucocitos.

4.1. 4.1.1.

Estructura de la red bayesiana Caracter´ısticas celulares a observar desde el punto de vista del experto

La observaci´ on directa de leucocitos a trav´es de un microscopio es, hasta estos d´ıas, la t´ecnica m´ as utilizada para lograr el reconocimiento y clasificaci´on de dichas c´elulas. Esta t´ecnica no s´olo supone un nivel de conocimiento en el ´area de hematolog´ıa por parte de quien la aplica, sino tambi´en entrenamiento y experiencia para lograr resultados de clasificaci´on confiables. El entrenamiento y experiencia son absolutamente necesarios para que el especialista realice la clasificaci´ on, ya que ´esta se fundamenta en su habilidad

36

Cap´ıtulo 4. Dise˜ no e implementaci´on del clasificador

para distinguir caracter´ısticas celulares espec´ıficas. En [HF97] se describe a los segmentados –leucocitos neutr´ofilos– como sigue: . . . agrupa varios leucocitos maduros cuyos n´ ucleos muestran segmentaciones con finas uniones entre ellas. Generalmente se pueden observar tres a cuatro segmentos . . . [en el n´ ucleo se observa] mayor condensaci´on de la cromatina (patr´on en leopardo). Citoplasma gris-marr´on o rosa-marr´on . . . granulaci´on fina pardo-violeta (= neutr´ofila). Mancha clara evidente en la zona de una hendidura nuclear m´as marcada (centr´osfera). La observaci´ on de las caracter´ısticas celulares mencionadas depende de la apreciaci´ on particular del experto. As´ı, cada especialista puede dar mayor valor a alguna de ellas o agregar algunas otras al momento de llevar a cabo la clasificaci´ on. De acuerdo con el especialista consultado∗ , las caracter´ısticas celulares a observar para llevar a cabo la clasificaci´on son, en general, las siguientes: Color. Forma. Tama˜ no. Granulaci´ on. Textura. Presencia de vacuolas –observables s´olo en citoplasma–. Presencia de nucl´eolos –observables s´olo en n´ ucleo–. Cada una de estas caracter´ısticas se observa en el n´ ucleo y citoplasma celular.

4.1.2.

Reconocimiento de c´ elulas mediante t´ ecnicas de procesamiento digital de im´ agenes

Para que el sistema de c´omputo realice el reconocimiento de los objetos presentes en una imagen digital, es necesario primeramente segmentarla en ∗ T.L.C. Andr´es Gamboa Espinosa, quien labora actualmente en el a ´rea de hematolog´ıa del Instituto Nacional de Cancerolog´ıa, M´exico, D.F.

4.1. Estructura de la red bayesiana

37

grupos de p´ıxeles que guarden alguna relaci´on con los objetos que se quieren identificar. En el caso de los leucocitos, la imagen fuente –fotograf´ıa de la c´elula– se ha segmentado† en tres grupos principales: n´ ucleo, citoplasma y fondo de la imagen. Considerando que el especialista observa en forma general las caracter´ısticas mencionadas del n´ ucleo y citoplasma, cada uno de estos u ´ltimos como una unidad en s´ı misma, para despu´es determinar el tipo de c´elula, se considera que la segmentaci´ on de la imagen celular en estas dos unidades estructurales aporta la informaci´on m´ınima necesaria para llevar a cabo la clasificaci´ on. Una vez que se cuenta con la imagen segmentada se procede a extraer las caracter´ısticas de la imagen que puedan aportar informaci´on que se relacione con las observadas del especialista. Las mediciones definidas en la Secci´on 2.3, y que se han llevado a cabo sobre las regiones de la imagen correspondientes al n´ ucleo y citoplasma son las siguientes: ´ 1. Area. 2. Per´ımetro. 3. Compactibilidad. 4. Dispersi´ on. 5. Momentos centrales normalizados (momentos de Hu). 6. Energ´ıa. 7. Entrop´ıa. 8. Inercia. Enseguida se presentan las caracter´ısticas que observa el especialista y las mediciones que capturan esa informaci´on. Color: La informaci´ on acerca del color y sus variaciones presentes en el n´ ucleo y citoplasma celulares se adquiere mediante los momentos centrales normalizados, la energ´ıa, la entrop´ıa y la inercia. Estas mediciones son llevadas a cabo en el espacio de color RGB. Cada medici´on se lleva a cabo tres veces para cada objeto de inter´es, una para cada componente de color. †

V´ease Secci´ on 4.3.2 para informaci´ on relativa al proceso de segmentaci´ on.

38

Cap´ıtulo 4. Dise˜ no e implementaci´on del clasificador

Forma: La informaci´on acerca de la forma se captura a trav´es de la medici´ on de la compactibilidad, la dispersi´on, el ´area y el per´ımetro del objeto bajo estudio. Los momentos centrales normalizados, al ser calculados sobre ´ areas de objetos definidos, tambi´en aportan informaci´on importante relacionada con la forma, esto debido a que los momentos son considerados como una descripci´on general de la forma del objeto, adem´ as de que tienen la propiedad de unicidad y de que el conjunto de estos descriptores define de forma u ´nica a una funci´on –a una regi´on–. Inicialmente, la informaci´on de la forma se pretendi´o adquirir mediante los descriptores de fourier de la regi´on, sin embargo, la calidad de las im´ agenes utilizadas y los resultados del proceso de segmentaci´on, no permitieron obtener mediciones de estos descriptores que pudieran ser u ´tiles en el proceso de diferenciaci´on de los distintos tipos de c´elulas. Tama˜ no: A excepci´ on de la compactibilidad y la dispersi´on, las t´ecnicas de extracci´ on de caracter´ısticas utilizadas en este trabajo no son invariantes a la escala, as´ı, como cada una de las mediciones fu´e realizada sobre fotograf´ıas celulares tomadas al mismo aumento –100X–, la informaci´ on relacionada con el tama˜ no de las c´elulas se ha adquirido de forma impl´ıcita en todas las mediciones, excepto las ya mencionadas. Granulaci´ on: Esta caracter´ıstica, que es muy importante para la diferenciaci´ on de los leucocitos, es tomada en cuenta como parte de la textura del n´ ucleo y citoplasma. Esto se debe a que la medici´on de la granulaci´ on como un objeto independiente dentro de la imagen requerir´ıa un proceso de segmentaci´on m´as avanzado que el que se ha utilizado, as´ı como fotograf´ıas de mejor calidad e im´agenes de mayor resoluci´on que aquellas con que se ha contado en este trabajo. Textura: La energ´ıa, inercia y entrop´ıa aportan en conjunto, la informaci´on de textura de las regiones estudiadas. Los momentos centrales normalizados aportan tambi´en informaci´on acerca de la textura, aunque en menor proporci´ on. Presencia de vacuolas y nucl´ eolos: La obtenci´on de informaci´on de estas caracter´ısticas se encuentra en el mismo caso que la granulaci´ on.

4.1.3.

Definici´ on de la estructura de la red bayesiana

Con la finalidad de hacer el clasificador f´acilmente escalable, se ha planteado como esquema general el dividir su estructura en cinco redes de creen-

4.1. Estructura de la red bayesiana

39

cia, cada una encargada de calcular la probabilidad de que dadas las caracter´ısticas obtenidas de la imagen, ´esta pertenezca a un tipo de c´elula espec´ıfico, el cual est´ a asociado directamente con cada una de las redes. De esta manera, existen de forma global cinco redes de creencia: red de neutr´ofilos, red de linfocitos, red de monocitos, red de eosin´ofilos y red de bas´ofilos. Al final se comparan los resultados obtenidos por cada una de las redes y se elige el que presenta la probabilidad m´as alta –siguiendo la t´ecnica “winner takes all”–, esto es, se considera que la probabilidad m´as alta arrojada por las redes ha de estar asociada con el tipo de c´elula que aparece en la imagen bajo estudio. La Figura 4.1 muestra este esquema general. Clasificador de leucocitos Probabilidad del tipo de célula dadas las características Red de neutrófilos

Red de linfocitos

Características

Red de monocitos

Selección de la probabilidad mayor

Tipo de célula asociado a la probabilidad mayor

Red de eosinófilos

Red de basófilos

Figura 4.1: Esquema general del clasificador. Enseguida, se han dividido cada una de las redes mencionadas en dos sub-redes. La primera –subred de nivel 0–, se encarga de determinar la probabilidad de que, dados los valores de las caracter´ısticas, la imagen pertenezca a un tipo de c´elula espec´ıfico. La segunda –subred de nivel 1–, se encarga de calcular la probabilidad de que, dados los resultados de las primeras subredes –de nivel 0–, la imagen pertenezca al mismo tipo de c´elula, y de reducir

40

Cap´ıtulo 4. Dise˜ no e implementaci´on del clasificador

el error de la subred de nivel 0. La Figura 4.2 muestra la estructura particular de la red de neutr´ofilos. Recordemos que existen cinco redes similares a ´esta, cada una especializada en un tipo de c´elula en particular. Red de neutrófilos Evidencia

Subred de nivel 0 Resultados de las otras subredes de nivel 0

Subred de nivel 1

Resultado

Figura 4.2: Esquema de la red de clasificaci´on encargada espec´ıficamente de las probabilidades de los neutr´ofilos. Al definir la estructura de las subredes de nivel 0 se ha considerado que, siendo el objetivo central de ´estas el asignar una probabilidad a un tipo de c´elula espec´ıfico, debe existir en primer t´ermino un nodo tipoDeCelula ‡ , al cual se ha de asignar dicha probabilidad. Teniendo como base este nodo y siguiendo el procedimiento de construcci´on de la red presentado en el Cap´ıtulo 3 notemos que si contamos con suficiente informaci´on acerca del n´ ucleo y citoplasma, cada uno observado independiente del otro, al analizar conjuntamente esta informaci´on podemos determinar el tipo de c´elula al que pertenecen. De esta forma, definimos dos nuevos nodos: n´ ucleo y citoplasma, los cuales se relacionan con tipoDeCelula como lo muestra la Figura 4.3. Conociendo los valores de los descriptores de la imagen podemos determinar si el n´ ucleo o el citoplasma celulares de la misma, est´an asociados a alg´ un tipo de c´elula en particular. Siguiendo esta observaci´on, agrupamos las caracter´ısticas: inercia, energ´ıa y entrop´ıa en un s´olo conjunto de descriptores denominado Textura; ´area, per´ımetro, compactibilidad y dispersi´on en un conjunto denominado Regi´ on; momentos de Hu 1, 2, 3, 4, en un conjunto llamado Momentos de Hu, y definimos las siguientes relaciones entre nodos: Textura → n´ ucleo, Regi´ on → n´ ucleo, Momentos de Hu → n´ ucleo, Textu‡

Este nombre se refiere a que debe existir un nodo llamado ya sea Neutr´ ofilo, Linfocito, Monocito, Eosin´ ofilo o Bas´ ofilo, dependiendo de la red con que se trabaje, red de neutr´ ofilos, de linfocitos, etc.

4.1. Estructura de la red bayesiana

núcleo

41

citoplasma

tipoDeCelula

Figura 4.3: Nodos n´ ucleo y citoplasma agregados a la red m´as las relaciones que se generan. ra → citoplasma, Regi´ on → citoplasma y Momentos de Hu → citoplasma. El agrupar las caracter´ısticas ha sido necesario para reducir el n´ umero de entradas de las tablas de probabilidad de los nodos n´ ucleo y citoplasma. Como ejemplo, la Figura 4.4 muestra las relaciones y nodos que se definen con el nodo citoplasma, de acuerdo con este criterio. Los mismos nodos de caracter´ısticas y relaciones se definen para el nodo n´ ucleo.

Momentos de Hu

Textura

Región

Citoplasma

Figura 4.4: Nodos de carater´ısticas y forma en que se relacionan con el nodo citoplasma. Los descriptores, como ya se mencion´o, se componen de varias mediciones que se llevan a cabo sobre la imagen. Por ejemplo, las mediciones de la textura la componen la energ´ıa, la inercia y la entrop´ıa, as´ı que podemos decir que a la textura la determinan tres mediciones distintas, cada una de las cuales puede asociarse con un nuevo nodo de la red, en este caso energ´ıa → textura, inercia → textura y entrop´ıa → textura. Siguiendo este razonamiento, se definen 22 nuevos nodos en la red, 11 asociados al n´ ucleo

42

Cap´ıtulo 4. Dise˜ no e implementaci´on del clasificador

celular y los restantes asociados al citoplasma. En particular, cuatro nodos determinan al descriptor de regi´on, cuatro al descriptor de Hu –momentos centrales normalizados– y tres a la textura. La Figura 4.5 muestra tanto los nuevos nodos como las relaciones que se han agregado a la red.

Área

Perímetro

Compactibilidad

Energía

Región

Momento de Hu 1

Momento de Hu 2

Irregularidad

Momento de Hu 3

Momento de Hu 4

Inercia

Entropía

Textura

Momentos de Hu

Figura 4.5: Nodos que se corresponden con las caracter´ısticas espec´ıficas medidas y su forma de relacionarse. Algunas de las mediciones de las caracter´ısticas se han llevado a cabo en el espacio de color RGB, y de esta forma, cada una consta de tres valores. Siguiendo con este proceso de construcci´on de la red, podemos definir las siguientes relaciones: valorDeCaracter´ısticaEnR → caracter´ıstica, valorDeCaracter´ısticaEnG → caracter´ıstica y valorDeCaracter´ısticaEnB → caracter´ıstica. La Figura 4.6 muestra los nuevos nodos que surgen al adoptar este criterio. Ya que los valores de las caracter´ısticas son extra´ıdos directamente de la imagen de inter´es, no es necesario agregar m´as nodos, y de esta forma queda definida la red de nivel 0. La Figura 4.7, muestra la estructura de la red de neutr´ ofilos. Se recuerda que es necesario construir cinco de estas redes, una para cada tipo de c´elula que se quiere clasificar. Definamos ahora, de manera general, la forma en que ha de considerarse

4.1. Estructura de la red bayesiana

Valor en R

Valor en G

43

Valor en B

Inercia

Figura 4.6: Nodos de valor R, G y B para el nodo inercia, ya sea de n´ ucleo o citoplasma. Observar que existen nodos similares para la energ´ıa, entrop´ıa y los primeros cuatro momentos de Hu (Mi , i = 1, 2, 3, 4).

el nivel de error de las redes de nivel 0. Si A es alguno de los tipos de c´elula a clasificar, entonces, el nivel de error de las redes de nivel 0 es la raz´on del n´ umero de veces en que ´estas asignan una probabilidad mayor a alg´ un tipo de c´elula diferente de A, cuando la imagen que se intenta clasificar pertenece a A, entre el n´ umero total de experimentos de clasificaci´on realizados. Por ejemplo, en el caso particular de la red que clasifica a los neutr´ofilos, el error asociado a tal red se calcular´ıa como la raz´on del n´ umero de veces que las redes de nivel 0 asignan una probabilidad mayor alg´ un tipo de c´elula diferente de neutr´ ofilo, cuando la imagen que se est´a clasificando pertenece a un neutr´ ofilo, entre el n´ umero de veces total que se intent´o clasificar la im´agen de un neutr´ ofilo. Continuamos ahora con la definici´on de la red de nivel 1. Como la funci´on de esta red se centra en utilizar y comparar los resultados de las redes anteriores para lograr reducir su error al mismo tiempo que las conjunta –ya que las redes de nivel 0 arrojan resultados independientes–, el modelo debe considerar tales requerimientos, adem´as de permitir la incorporaci´on de la probabilidad a priori de cada tipo de c´elula, dato que hasta este momento no se ha considerado. Si A, B, C, D y E son los tipos de c´elulas a clasificar, podemos definir ahora la probabilidad que calcular´a la red de nivel 1 como: probabilidad de que la imagen pertenezca a un determinado tipo A dados los resultados de las redes de nivel 0 que clasifican a los tipos B, C, D y E. Con base en esto podemos definir cinco nodos correspondientes a cada tipo de c´elula y relacionarlos como se muestra en la Figura 4.8. Si centramos nuestra atenci´ on en la red encargada de clasificar el tipo

Valor en R

Momento de Hu 1

Valor en G

Valor en B

Valor en R

Momento de Hu 2

Valor en G

Momentos de Hu

Valor en R

Valor en B

Momento de Hu 3

Valor en G

Valor en B

Energía

Valor en R

Valor en B

Valor en B

Valor en G

Momento de Hu 4

Valor en G

Valor en R

Valor en R

Citoplasma

Textura

Inercia

Valor en G

Valor en R

Valor en B

Entropía

Valor en R

Valor en B

Valor en B

Área

Valor en G

Valor en G

Valor en R

Perímetro

Valor en G

Región

Valor en B

Valor en R

Compactibilidad

Valor en G

Valor en R

Valor en B

Dispersión

Valor en G

Neutrófilo

Valor en B

Nodos asociados al núcleo

44 Cap´ıtulo 4. Dise˜ no e implementaci´on del clasificador

Figura 4.7: Estructura de la red de nivel 0 de los neutr´ofilos. Los nodos asociados al n´ ucleo presentan una estructura id´entica a los nodos asociados al citoplasma.

4.1. Estructura de la red bayesiana

B

45

C

D

E

A

Figura 4.8: Modelo inicial de la red de nivel 1. de c´elulas A. La red de nivel 1 encargada de clasificar a este tipo de c´elulas recibir´ a como evidencia los resultados de las redes de nivel 0 que determinan las probabilidades de los tipos B, C, D y E. Para reducir el error de la red de nivel 0 encargada de clasificar el tipo de c´elulas A podemos agregar a la red de nivel 1, nodos “sensores” relacionados con cada uno de los nodos de tipo diferente de A como se muestra en la Figura 4.9. Estos nodos deben tener informaci´ on acerca del nivel de error presente en las redes de nivel 0 y su funci´ on es la de determinar la probabilidad de que el resultado que entregan las redes de nivel 0 es correcto dado el nivel de error de las mismas. C

D S_D

S_C

E

B S_B

A

S_E

Figura 4.9: Modelo de la red de nivel 1 despu´es de agregar los nodos sensores. El modelo de la red de nivel 1 considera que los nodos sensores reciben se˜ nales booleanas, las cuales indican el resultado de las redes de nivel 0. Las se˜ nales que leen los sensores pueden interpretarse como sigue: La red encargada de clasificar al tipo de c´elula X indica que la imagen s´ı pertenece al tipo de c´elula X, y trat´ andose del caso contrario: La red encargada de

46

Cap´ıtulo 4. Dise˜ no e implementaci´on del clasificador

clasificar al tipo de c´elula X indica que la imagen no pertenece al tipo de c´elula X. Como los resultados obtenidos de las redes de nivel 0 son valores probabil´ısticos, es necesario interpretar esos valores de tal forma que tengan un sentido booleano. Consideremos s´olo la probabilidad de que, dadas las caracter´ısticas, la imagen s´ı pertenece a un determinado tipo de c´elula, y supongamos que los resultados de las redes de nivel 0 son los que muestra el Cuadro 4.1. tipo A B C D E

probabilidad 0.50 0.74 0.13 0.39 0.81

Cuadro 4.1: Resultados supuestos de las redes de nivel 0 Ordenemos los resultados del Cuadro 4.1 de mayor a menor y de izquierda a derecha como se muestra enseguida: E 0.81

B 0.74

A 0.50

D 0.39

C 0.13

Si nos ubicamos en la casilla de alguno de los tipos de c´elula que se muestran, podemos decir que, con respecto de ´el, los tipos de c´elula que est´an a su izquierda s´ı pertenecen al tipo de c´elula que la red de estos u ´ltimos intenta clasificar, ya que la probabilidad que presentan es mayor a la del tipo de c´elula en el cual nos hemos ubicado. Supongamos por ejemplo que nos ubicamos en la casilla que corresponde al tipo de c´elula A. Desde esta perspectiva los resultados sugieren que la red de nivel 0 encargada de clasificar al tipo de c´elula E est´ a entregando el resultado: la imagen s´ı corresponde al tipo de c´elula E. Sucede lo mismo si observamos el resultado de la red encargada de clasificar al tipo de c´elula B. Desde la misma perspectiva –ubic´andonos en la casilla de A– el resultado que entrega la red de nivel 0 que clasifica el tipo de c´elula C puede interpretarse como: la imagen no corresponde al tipo de c´elula C. Es en esta forma que podemos interpretar los valores probabil´ısticos reales entregados por las redes de nivel 0 para entenderlos como valores booleanos. Estos valores son la evidencia que alimenta a la red de nivel 1. La evidencia se introduce a trav´es de los nodos sensores. Observemos tambi´en que existen nodos sin padres, correspondientes a cada tipo de

4.2. Definici´ on de las probabilidades condicionales

47

c´elula, es a trav´es de ellos que puede introducirse la informaci´on acerca de la probabilidad a priori de las c´elulas a clasificar. La estructura final de la red se compone de cinco redes bayesianas, cada una de ellas se enfoca a un tipo espec´ıfico de c´elula y se encarga de determinar la probabilidad de que dadas las caracter´ısticas y dados los resultados de clasificaci´ on de las redes de nivel 0 que se enfocan a los otros tipos de c´elula, la imagen bajo estudio pertenece a un tipo espec´ıfico de c´elula. Una vez que las cinco redes bayesianas han calculado la probabilidad a posteriori en el nodo tipoDeC´elula de la red de nivel 1, se comparan los valores probabil´ısticos calculados en las cinco redes y el mayor es considerado como el resultado final del clasificador.

4.2.

Definici´ on de las probabilidades condicionales

Al comenzar a definir los valores de probabilidades presentes en nuestro clasificador se hace necesario definir un conjunto muestra de im´agenes que sea representativo de la poblaci´ on general y sobre el cual han de calcularse esos valores, as´ı como un m´etodo de muestreo que vaya de acuerdo con las caracter´ısticas de nuestra poblaci´on.

4.2.1.

C´ alculo del tama˜ no muestral y muestreo

Para calcular el tama˜ no muestral se ha empleado la desigualdad de Chevyshev [MR03]. El proceso se explica a continuaci´on. Se define un conjunto muestra piloto, el cual ayudar´a a estimar los par´ ametros necesarios para el c´alculo final del tama˜ no muestral. Ya que ´esta es una estimaci´ on general, se considera que todos los tipos de c´elula deben estar igualmente representados. En el caso particular de este trabajo, el conjunto de im´agenes m´as peque˜ no, que representa a un tipo particular de c´elula, cuenta con 8 elementos, y por esta raz´on, se ha optado por tomar cinco im´agenes de cada tipo, para as´ı contar con al menos 3 im´ agenes del conjunto m´as peque˜ no para la etapa de pruebas. De acuerdo con este criterio, nuestra muestra piloto se compone de 25 im´ agenes. Se extraen las caracter´ısticas deseadas de todas las im´agenes de la muestra piloto –cada caracter´ıstica define un conjunto de 25 datos–. En cada uno de los conjuntos de datos obtenidos se calculan la media (¯ x) y varianza (S 2 ) muestrales.

48

Cap´ıtulo 4. Dise˜ no e implementaci´on del clasificador A partir de los datos anteriores se calcula el coeficiente de variaci´ on 2 de cada S . Este paso es necesario para poder comparar directamente los valores de S 2 como se muestra en los dos puntos siguientes. El c´ alculo del tama˜ no muestral a partir de la desigualdad de Chevyshev exige conocer s´olo un valor de σ 2 –varianza poblacional–, as´ı que comparamos los valores S 2 y elegimos el mayor de ellos para realizar el c´ alculo. El objetivo de haber elegido el mayor valor de S 2 es el de asegurar que el tama˜ no muestral ser´a v´alido para todos los conjuntos de datos con que trabajamos. El valor m´aximo S 2 obtenido fu´e: S 2 = 1662 y corresponde al grupo de datos definido por la caracter´ıstica momento central normalizado –momento de Hu– calculado sobre el canal rojo – R– del n´ ucleo de las c´elulas. Definimos ahora el nivel de error α que estamos dispuestos a aceptar, as´ı como su nivel de confiabilidad. Este error que estamos dispuestos a aceptar se expresa, en este trabajo, como un porcentaje de µ. Al expresar este porcentaje como una probabilidad podemos interpretarlo como: la probabilidad de que el promedio de los momentos de Hu del canal R del n´ ucleo se encuentre dentro de un X % de µ es igual a Y. Un valor α deseable ser´ıa de 0.05, con una confiabilidad de 95 %. Con estos datos la expresi´on anterior quedar´ıa como: la probabilidad de que el promedio de los momentos de Hu del canal rojo del n´ ucleo se encuentre dentro de un 5 % de µ es igual a 0.95. Sin embargo, debido al valor tan alto que presenta S 2 y al conjunto reducido de im´agenes con que se cuenta, se hace necesario ampliar el margen de error que estamos dispuestos a aceptar. La siguiente expresi´on resume los datos utilizados para el c´alculo del tama˜ no muestral: Calcular el n´ umero de mediciones a realizar para que sea al menos de 0.75 la probabilidad de que el promedio de las mediciones de los momentos de Hu del canal rojo del n´ ucleo se encuentre dentro de un 32 % de µ. El c´ alculo final del tama˜ no de muestra aplicando la desigualdad de Chevyshev queda como: r 1662 1 P (|¯ x − µ| ≥ c · ) ≤ 2 para c > 0 n c

4.2. Definici´ on de las probabilidades condicionales Si c =

√

49

4, P (|¯ x − µ| ≥

P (|¯ x − µ| <

√

√

r

1662 1 )≤ n 4

r

1662 3 )≤ n 4

4·

4·

De esta forma, la probabilidad de que x ¯ se encuentre dentro de µ es al menos de 3/4 = 0.75.

√ q 1662 4· n

Introducimos ahora 32 % de error que estamos dispuestos a aceptar, r √ 1662 4· = 32 n Y el resultado final al despejar n queda como: n=

4 · 1662 ≈ 107.64 ∼ 108 322

De esta forma conclu´ımos que es suficiente contar con, por lo menos, 108 im´agenes para llevar a cabo un estudio de clasificaci´on que en el peor de los casos tendr´ a una probabilidad de 0.75 de que el promedio de las mediciones de las caracter´ısticas extra´ıdas se encontrar´a dentro de un 32 % de µ. Ahora, para definir los conjuntos muestra y entrenamiento se ha utilizado un muestreo por estratos, esto debido a que los diferentes tipos de c´elulas no se reparten homog´eneamente en la poblaci´on total. La proporci´ on normal de los leucocitos –que nos interesa clasificar– en un adulto normal seg´ un [RA01] se muestra en el Cuadro 4.2. C´elula Neutr´ ofilos segmentados (N) Eosin´ ofilos (E) Bas´ ofilos (B) Monocitos (M) Linfocitos (L)

Porcentaje ( %) 40 - 74 0-7 0-3 1 - 13 12 - 46

Cuadro 4.2: Porcentajes normales de leucocitos [RA01]. Sin embargo, estas cifras no son absolutas y en diferentes fuentes pueden encontrarse distintos valores, as´ı, en [HF97] los porcentajes normales de leucocitos son los que se muestran en el Cuadro 4.3.

50

Cap´ıtulo 4. Dise˜ no e implementaci´on del clasificador C´elula N E B M L

Porcentaje ( %) 50 - 70 0-4 0-1 2-8 25 - 45

Cuadro 4.3: Porcentajes normales de leucocitos [HF97]. Se ha optado por tomar el promedio de los valores anteriores para calcular las proporciones de los diferentes tipos de leucocitos, y con estos llevar a cabo el muestreo por estratos. Siendo 108 el n´ umero m´ınimo de im´agenes que deben componer la muestra que ha de utilizarse para la etapa de entrenamiento, los valores calculados son los siguientes: C´elula N E B M L

Porcentaje promedio( %) 58 03 01 06 32

No. de imgs. 62.64 ∼ 63 3.24 ∼ 3 1.08 ∼ 1 6.48 ∼ 6 34.56 ∼ 35

Se cuenta con un total de 230 im´agenes. Considerando los conjuntos de entrenamiento y pruebas como el 80 % y 20 %, respectivamente, del total de im´ agenes de cada tipo de c´elula, se tiene§ : C´elula N E B M L

No. imgs. con que se cuenta 80 13 8 49 86

No. imgs. de entrenamiento 64 9 6 36 64

No. imgs. de pruebas 16 4 2 13 22

De acuerdo a estos datos, el conjunto de entrenamiento, con un total de 179 im´ agenes, cumple con los requisitos necesarios para hacer v´alidos los resultados del clasificador de acuerdo con los par´ametros de error calculados con anterioridad. Cabe mencionar que la mayor parte de los subjuntos de § Para la clasificaci´ on manual de las fotograf´ıas celulares se cont´ o con la ayuda experta de la Q.B.P. Rita Vel´ azquez Ju´ arez.

4.2. Definici´ on de las probabilidades condicionales

51

im´agenes que componen al conjunto entrenamiento, tienen un tama˜ no superior al m´ınimo calculado. Este hecho supone que el error obtenido en la pr´atica sea significativamente menor que el aqu´ı calculado. A´ un cuando el planteamiento anterior es correcto, probabil´ısticamente los conjuntos de entrenamiento y pruebas correspondientes a los eosin´ ofilos y bas´ ofilos son extremadamente reducidos para considerarlos como una muestra aceptable para generalizar sus resultados. Sin embargo, tomando en cuenta que la poblaci´ on de estos dos tipos de leucocitos es igualmente reducida, el error derivado de su incorrecta clasificaci´on es m´ınimo. De mayor importancia puede considerarse el error derivado de la influencia que ejercen los datos –imprecisos– de estos dos tipos de c´elulas, sobre los resultados obtenidos al clasificar los tipos de c´elulas restantes. En este punto debemos observar que en este trabajo se pretente experimentar la eficacia que ofrecen las redes de creencia para lograr la clasificaci´on de este tipo de im´agenes celulares. Desde esta perspectiva puede justificarse la utilizaci´on de algunos datos imprecisos sobre un sistema correctamente dise˜ nado.

4.2.2.

Definici´ on del tipo de cada nodo (discreto - continuo)

En la estructura de la red puede observarse que los nodos ra´ız de las redes de nivel 0 se corresponden con las caracter´ısticas que se han extra´ıdo de las im´ agenes. El valor num´erico de cada una de las caracter´ısticas extra´ıdas es, por su naturaleza, continuo. A´ un cuando la informaci´on que un ordenador procesa es discreta, los valores continuos de la informaci´on pueden ser aproximados. As´ı, trataremos como continuos los valores num´ericos reales de las caracter´ısticas extra´ıdas y ser´an aproximados en el ordenador mediante n´ umeros de punto flotante. El primer criterio tomado en cuenta para decidir si el valor de un nodo debe ser tratado como discreto o como continuo es la naturaleza de la informaci´ on que aporta. Como ya se ha mencionado, los nodos que se corresponden con las caracter´ısticas medidas en las im´agenes son continuos. Observando que estos u ´ltimos nodos mencionados son tambi´en nodos evidencia, se refuerza la necesidad de tratarlos como nodos continuos con la finalidad de minimizar la p´erdida de informaci´on entre los procesos de extracci´on de caracter´ısticas y de clasificaci´on. Considerando ahora que la red de nivel 0 se encarga de determinar la probabilidad de que dados los valores de las caracter´ısticas extra´ıdas la imagen pertenece a un determinado tipo de leucocito, puede decirse que cada nodo debe aportar informaci´ on referente s´olo a si la evidencia define o no al tipo de leucocito que se est´ a clasificando, y con esto se obtienen solamente

52

Cap´ıtulo 4. Dise˜ no e implementaci´on del clasificador

dos posibles valores para los nodos que han de ser tratados como discretos. As´ı, en la red bayesiana final, a excepci´on de los nodos ra´ız de la red de nivel 0, todos los nodos son tratados como discretos dicot´omicos.

4.2.3.

Definici´ on de las probabilidades condicionales para los nodos continuos

Ya que, de acuerdo con la estructura de la red, todos los nodos que han de ser tratados como continuos son nodos ra´ız, cada uno de ellos cuenta con una distribuci´ on de probabilidad que se corresponde con una f.d.p. El proceso mediante el cual se determina la f.d.p. correspondiente a cada nodo es el siguiente: Se cuenta con un conjunto entrenamiento de im´agenes sobre el que se llevan a cabo las mediciones de las caracter´ısticas deseadas. Al haber llevado a cabo un muestreo por estratos, se cuenta con un conjunto entrenamiento dividido en cinco subconjuntos, uno por cada tipo de c´elula. Como se ha mencionado al inicio de esta secci´on, el subconjunto entrenamiento de neutr´ofilos consta de 64 im´agenes, el de eosin´ ofilos de 9, el de bas´ofilos de 6, el de monocitos de 36 y el de linfocitos de 64. Se obtienen los conjuntos de datos correspondientes a cada una de las mediciones aplicadas a las im´agenes de entrenamiento. En este caso, por cada caracter´ıstica medida, se obtienen 5 conjuntos de valores, cada uno de tantos elementos como im´agenes de entrenamiento existen para el tipo de c´elula en particular. En adelante, se tomar´a como ejemplo la determinaci´on de la f.d.p. asociada al nodo que representa a la caracter´ıstica: inercia en el canal de color rojo del citoplasma de la red de neutr´ofilos. Al llevar a cabo la medici´on de esta caracter´ıstica sobre el conjunto entrenamiento se obtiene un conjunto de 64 valores num´ericos. Se aplica el contraste de Kolmogorov-Smirnovk a cada conjunto de datos para determinar el ajuste de los mismos con alguna funci´on de distribuci´ on de probabilidad continua espec´ıfica sugerida. Para sugerir una distribuci´on de probabilidad que pueda ajustar con los datos, es necesario hacer un histograma de frecuencias de estos k

En [DeG88] puede encontrarse una explicaci´ on detallada de este contraste.

4.2. Definici´ on de las probabilidades condicionales

53

u ´ltimos y buscar visualmente similitudes entre el histograma y alguna distribuci´ on de probabilidad conocida. En el presente trabajo, se utilizaron cuatro distribuciones de probabilidad para llevar a cabo el contraste: normal, log-normal, gamma y exponencial¶ . Todos los conjuntos de datos ajustaron aceptablemente con al menos una de ellas considerando un error α = 0.05 en el ajuste del contrastre. La Figura 4.10 muestra el histograma del conjunto de valores correspondientes a la medici´ on de la inercia en el canal rojo del citoplasma de los neutr´ ofilos, as´ı como la gr´afica de densidad de la funci´on normal, log-normal y gamma∗∗ . Los par´ametros de las funciones fueron calculados directamente del conjunto de datos antes mencionado.

Datos Distribuciones Lognormal

Densidad

Gamma Normal

Valor observado

Figura 4.10: Comparaci´ on del histograma de los valores de la inercia en el canal R del citoplasma de neutr´ofilos con las gr´aficas de densidad de las funciones normal, log-normal y gamma. La distribuci´ on de probabilidad que mejor ajuste a cada uno de los ¶

El Ap´endice A presenta las definiciones de estas distribuciones de probabilidad. La gr´ afica de densidad de la distribuci´ on exponencial no se incluye debido a que visualmente podemos descartar su posible ajuste a los datos. ∗∗

54

Cap´ıtulo 4. Dise˜ no e implementaci´on del clasificador conjuntos de datos se considera como la f.d.p. del nodo correspondiente. En nuestro ejemplo, de acuerdo con el contraste de Kolmogorov-Smirnov la distribuci´ on que mejor se ha ajustado a los datos ha sido la lognormal y por tal motivo, ´esta se considera como la f.d.p. correspondiente al nodo que representa a la inercia en el canal de color rojo del citoplasma en la red de neutr´ofilos.

Por u ´ltimo, se hace ´enfasis en que este proceso es aplicable gracias a que los nodos continuos de la red no tienen padres.

4.2.4.

Definici´ on de las probabilidades condicionales de los nodos discretos con padres continuos

De acuerdo con la teor´ıa presentada en el Cap´ıtulo 3, es necesario definir funciones que asignen valores de probabilidad a los nodos discretos –hijos de padres continuos– dependiendo del valor que tome o que se considere que ha adquirido el nodo padre. Observemos la asignaci´on de la probabilidad condicional del nodo discreto momento central normalizado 1 del citopl´ asma –Hu1 – como ejemplo, el cual, de acuerdo con la estructura de red presentada, es hijo de los nodos continuos: momento central normalizado 1 en el canal rojo del citoplasma –Hu1R –, momento central normalizado 1 en el canal verde del citoplasma –Hu1G – y momento central normalizado 1 en el canal azul del citoplasma –Hu1B –. Todos los nodos, hemos de acordar que pertenezcan a la red encargada de calcular las probabilidaddes de los neutr´ofilos. Considerando por el momento que solamente el nodo Hu1R fuese padre del nodo Hu1 , las entradas de la tabla de probabilidad de ´este u ´ltimo han de ser funciones que dependan del valor que se considere ha adquirido el nodo padre. Observando la f.d.p. asignada al nodo Hu1R y suponiendo que ´esta representa una generalizaci´on de un experimento llevado a cabo un n´ umero infinito de veces, podemos sugerir que el punto donde tal funci´on alcanza su m´ aximo, representa el valor exacto que se obtendr´ıa al medir el momento central nomalizado del canal rojo del citoplasma de un neutr´ofilo ideal perfecto. De acuerdo con esto, entre m´as se acerquen los valores medidos de las im´ agenes a este punto en el cual se sit´ ua el m´aximo de la f.d.p., mayor ser´ a la probabilidad de que la imagen, y en particular esta caracter´ıstica medida, sea la de un neutr´ofilo. De esta forma, de acuerdo al tipo de funci´on asociada al padre del nodo Hu1 y tomando en cuenta que este u ´ltimo tiene

4.2. Definici´ on de las probabilidades condicionales

55

asociada una variable aleatoria dicot´omica –vHu1, cuando el valor adquirido es cercano al m´ aximo y fHu1 en caso contrario–, las funciones que definen las entradas de la tabla de probabilidad condicional de tal nodo pueden ser definidas como: Cuando los datos siguen una distribuci´on normal: Si x < µ, vHu1 = 2 f Hu1

wx

N (µ, σ)dx wx = 1−2 N (µ, σ)dx −∞

−∞

Si x > µ,

f Hu1

w −x

N (µ, σ)dx w −x N (µ, σ)dx = 1−2

vHu1 = 2

−∞

−∞

En otro caso, vHu1 = 1 f Hu1 = 0 Cuando los datos siguen una distribuci´on log-normal y convenimos que la funci´ on f (x, µl , σl ) es igual a la f.d.p. log-normal: 2

Si 0 < x < eµl −σl ,†† vHu1 =

rx

rx 0

f (x, µl , σl ) dx 2

f (eµl −σl , µl , σl ) dx rx f (x, µl , σl ) dx = 1 − r x 0 µ −σ2 l l , µl , σl ) dx 0 f (e 0

f Hu1 2

Si x > eµl −σl , f (x, µl , σl ) dx r ∞ x µ −σ2 l l , µl , σl ) dx x f (e r∞ f (x, µl , σl ) dx = 1 − r ∞ x µ −σ2 l l , µl , σl ) dx x f (e

vHu1 = f Hu1 ††

r∞

M´ aximo de la funci´ on log-normal.

(4.1)

56

Cap´ıtulo 4. Dise˜ no e implementaci´on del clasificador 2

Si x = eµl −σl , vHu1 = 1 f Hu1 = 0 En otro caso, vHu1 = 0 f Hu1 = 1 Cuando los datos siguen una distribuci´on gamma y convenimos que la funci´ on f (x, λ, r) es igual a la f.d.p. gamma con r ≥ 1 y λ > 0: Si 0 < x <

r−1 ‡‡ λ ,

f (x, λ, r) dx r x0 r−1 0 f ( λ , λ, r) dx rx f (x, λ, r) dx = 1 − r x0 r−1 0 f ( λ , λ, r) dx

vHu1 = f Hu1

Si x >

r−1 λ ,

f Hu1

r∞

f (x, λ, r) dx r−1 x f ( λ , λ, r) dx r∞ f (x, λ, r) dx = 1 − r ∞x r−1 x f ( λ , λ, r) dx

vHu1 =

Si x =

rx

r ∞x

r−1 λ ,

vHu1 = 1 f Hu1 = 0 En otro caso, vHu1 = 0 f Hu1 = 1 ‡‡

M´ aximo de la f.d.p. gamma.

4.2. Definici´ on de las probabilidades condicionales

57

Cuando los datos siguen una distribuci´on gamma y convenimos que la funci´ on f (x, λ, r) es igual a la f.d.p. gamma con 0 < r < 1 y λ > 0, Si x > 0, vHu1 = f Hu1

w∞

f (x, λ, r) dx w∞ = 1− f (x, λ, r) dx x

x

En otro caso, vHu1 = 0 f Hu1 = 1 Cuando los datos siguen una distribuci´on exponencial y convenimos que f (x, λ) es igual a la f.d.p. exponencial, Si x > 0,

f Hu1

w∞

f (x, λ) dx w∞ f (x, λ) dx = 1−

vHu1 =

x

x

En otro caso, vHu1 = 0 f Hu1 = 1 La divisi´ on que aparece en la ecuaci´on 4.1 cuyo numerador es el resultado que arroja la integral de la funci´on f (x, µl , σl ) en el punto x, entre el resultado arrojado por la integral de la misma funci´on en el punto en que alcanza su m´ aximo, se lleva a cabo con la finalidad de ajustar el resultado total a 1 y as´ı cumplir con A.1. Lo mismo sucede con las otras ecuaciones que presentan configuraciones de numerador y denominador similares a los mencionados. Es as´ı como quedan definidas las entradas de la tabla de probabilidad de Hu1 en caso de que solamente Hu1R sea su padre. En nuestro caso, Hu1 tiene tres padres continuos, as´ı que la funci´on que determina cada una de las entradas de su tabla de probabilidad se calcula como una combinaci´ on lineal de las funciones que determinan esas entradas calculadas por separado. De esta forma, si f1 (x1 ), f2 (x2 ) y f3 (x3 ) son las

58

Cap´ıtulo 4. Dise˜ no e implementaci´on del clasificador

funciones que determinan las entradas de la tabla de probabilidad de Hu1 cuando se consideran Hu1R , Hu1G y Hu1B por separado, respectivamente, la funci´ on que determina las entradas de las tablas de probabilidad cuando se consideran los tres nodos padres, puede definirse como: f (x1 , x2 , x3 ) =

1 [w1 f1 (x1 ) + w2 f2 (x2 ) + w3 f3 (x3 )] w1 + w2 + w3

donde w1 , w2 y w3 son pesos asignados a cada una de las f.d.p. de los nodos continuos. Estos pesos tienen como finalidad otorgar mayor probabilidad a las f.d.p. asociadas con los nodos continuos para los cuales, el ajuste de los datos con su funci´on distribuci´on correspondiente fu´e mejor, es decir, para los cuales el error obtenido en el contraste de Kolmogorov-Smirnov fu´e m´ınimo.

4.2.5.

Definici´ on de las probabilidades condicionales de los nodos discretos con padres discretos

A diferencia de los nodos recientemente descritos, ´estos se encuentran en la red de nivel 0 y de nivel 1 y en cada una de ellas los valores de sus tablas de probabilidad son asignados o calculados de forma distinta. Para hacer la definici´ on de las tablas de probabilidad de los nodos discretos con padres discretos de la red de nivel 0, se ha seguido el proceso que a continuaci´on se describe: Las entradas de las tablas de estos nodos se ajustan a 0.5 –recordar que ´estos son dicot´omicos–, dejando completamente el proceso de clasificaci´ on en la funcionalidad de los nodos continuos y en los nodos que tienen alg´ un padre continuo. Se observa el peso w que tiene cada uno de los ancestros de estos nodos, y la probabilidad de su tabla se ajusta aument´andola o disminuyendola en proporci´ on directa al valor de dichos pesos. Se construyen gr´aficas de caja para observar la separaci´on de los conjuntos de datos correspondientes a alguna caracter´ıstica en particular de los distintos tipos de c´elulas. Las tablas de probabilidad son ajustadas nuevamente dando mayor probabilidad a los nodos que cuentan con alg´ un ancestro cuyo conjunto de datos se separa m´as claramente en los diagramas de caja cuando es comparado con los conjuntos obtenidos al medir la misma caracter´ıstica sobre los otros tipo de c´elulas.

4.2. Definici´ on de las probabilidades condicionales

59

Como ejemplo, veamos a la caracter´ıstica momento central normalizado 1, en el canal de color verde del citoplasma. La Figura 4.11 corresponde a las gr´aficas de caja en las cuales se comparan los conjuntos de valores obtenidos para los distintos tipos de c´elulas. Basófilos Eosinófilos Monocitos Linfocitos Neutrófilos

0.005

0.010

0.015

Figura 4.11: Gr´ aficas de caja correspondientes a la medici´on del momento de Hu 1 del canal verde del citoplasma. Como puede observase en la Figura 4.11 el conjunto de datos perteneciente a los neutr´ ofilos se separa claramente de los conjuntos de datos de los otros tipos de c´elula y por tanto representa a una caracter´ıstica, que en la mayor parte de los casos, diferencia acentuadamente a los neutr´ofilos de las otras c´elulas. Por tal motivo ser´ıa natural aumentar el peso de esta caracter´ıstica y tambi´en la probabilidad de los nodos que tienen por ancestro al que se asocia con la misma. De acuerdo con este ejemplo los cambios han de aplicarse s´ olo a la red de nivel 0 de los neutr´ofilos. Cambios similares se aplican a las dem´ as redes simpre que existan caracter´ısticas que diferencien claramente a alg´ un tipo de c´elula particular. Es as´ı como, para la red de nivel 0, son ajustadas las probabilidades de los nodos que tienen padres discretos. Continuemos ahora con la definici´on de las tablas de probabilidad de la red de nivel 1. La Figura 4.12 muestra las redes de nivel 1 correspondientes a los neutr´ ofilos y linfocitos. Observemos primeramente que las variables aleatorias de estas redes, son todas discretas y dicot´ omicas de acuerdo con lo expuesto anteriormente. Comencemos ahora la definici´ on de las probabilidades a priori, que corresponden a los nodos ra´ız. Estas probabilidades se obtienen directamente de los datos estad´ısticos de la poblaci´on de cada tipo de leucocito que se ha de clasificar.

60

Cap´ıtulo 4. Dise˜ no e implementaci´on del clasificador

Eos

Mono

Mono S_eos

S_mono

Linfo

S_linfo

S_eos

Neutro

Baso

Neutrófilo

S_baso

Eos

S_mono

S_neutro

Red de nivel 1 de neutrófilos

Baso

Linfocito

S_baso

Red de nivel 1 de linfocitos

Figura 4.12: Redes de nivel 1 de neutr´ofilos y linfocitos.

Las tablas de probabilidad de los nodos ra´ız de igual nombre en las distintas redes de nivel 1, tienen exactamente los mismos valores. Las tablas de probabilidad para cada nodo ra´ız se muestran en el Cuadro 4.4. Neutro P (Neutro) 0.58 P (Neutro) 0.42

Linfo P (Linfo) 0.32 P (Linfo) 0.68

Eos P (Eos) 0.03 P (Eos) 0.97

Mono P (Mono) 0.06 P (Linfo) 0.94

Baso P (Baso) 0.01 P (Baso) 0.99

Cuadro 4.4: Tablas de probabilidad de cada nodo ra´ız presente en las redes de nivel 1. Definamos ahora las probabilidades condicionales de los nodos “sensores”, es decir, de los nodos evidencia de esta red. La funci´on principal de estos nodos es la de recibir los resultados de la red de nivel 0, evaluar la probabilidad de la informaci´on recibida tomando en cuenta el nivel de error de la red de nivel 0 y por u ´ltimo comunicar esa informaci´on a los dem´as nodos de la red para llevar a cabo la clasificaci´on. Concentr´emonos en la red de nivel 1 que asigna la probabilidad de los neutr´ofilos, en particular en el nodo sensor encargado de recibir la evidencia acerca de los linfocitos. Las entradas de la tabla de probabilidad de tal nodo pueden verse como:

4.2. Definici´ on de las probabilidades condicionales

61

Sensor-linfocito P (S linfo | Linfocito) P (S linfo | Linfocito) P (S linfo | Linfocito) P (S linfo | Linfocito) En este contexto, S linfo se refiere a uno de los dos posibles valores de la variable asociada al nodo del mismo nombre de la red de nivel 1. Linfocito se refiere al valor arrojado por la red de nivel 0 de los linfocitos, es decir, es una de las evidencias recogidas por la red de nivel 1. El valor de P (S linfo | Linfocito) nos indica la probabilidad de que se afirme que la imagen bajo estudio pertenece a un linfocito cuando no lo es. Desde la perspectiva de la red de neutr´ofilos esta probabilidad puede entenderse como: Probabilidad de que las redes de nivel 0 hayan asignado un valor probabil´ıstico mayor a un linfocito que a un neutr´ofilo cuando la imagen bajo estudio pertenece a un neutr´ofilo. De esta forma, el valor num´erico a asignar a esta entrada de la tabla puede calcularse dividiendo el n´ umero de veces que ocurre lo antes citado entre el n´ umero total de im´ agenes de entrenamiento, esto es, si contamos con 64 im´agenes de neutr´ ofilos en el conjunto de entrenamiento y calculamos su clasificaci´ on mediante las redes de nivel 0, dividiremos el n´ umero de veces en que se le haya asignado una probabilidad mayor a un linfocito que a un neutr´ofilo, entre 64 y ese ser´ a el valor para P (S linfo | Linfocito). Calculado el valor de esta probabilidad, el c´alculo de P (S linfo | Linfocito) es sencillo, ya que ambas probabilidades se complementan. Determinemos ahora P (S linfo | Linfocito). Desde la perspectiva de la red de neutr´ ofilos, esta probabilidad puede interpretarse como: Probabilidad de que las redes de nivel 0 hayan asignado una probabilidad mayor a un neutr´ofilo que a un linfocito cuando la imagen bajo estudio pertenece a un linfocito. y similarmente al caso anterior, si contamos con 64 im´agenes de linfocitos en el conjunto de entrenamiento, dividiremos el n´ umero de veces que las redes de nivel 0 hayan otorgado una mayor probabilidad a un neutr´ofilo que a un linfocito, entre 64 y ´ese ser´a el valor de tal probabilidad. P (S linfo | Linfocito) se calcula como 1 − P ( S linfo | Linfocito), al igual que en el anterior caso.

62

Cap´ıtulo 4. Dise˜ no e implementaci´on del clasificador

El proceso presentado puede generalizarse para calcular todas las tablas de probabilidad de los nodos sensores de las cinco redes de nivel 1. Por u ´ltimo, se definir´a la tabla de probabilidad del nodo asociado directamente con el tipo de c´elula para la cual la red de nivel 1 ha de calcular su probabilidad. Enfoquemos nuestra atenci´on en la red de neutr´ofilos. Como puede verse en la estructura de la red de nivel 1, las probabilidades condicionales que hay que definir para el nodo Neutr´ ofilo son como se muestran en el Cuadro 4.5. ´ NEUTROFILO P(Neutr´ofilo | Linfo, Mono, Eos, Baso) P(Neutr´ofilo | Linfo, Mono, Eos, Baso) P(Neutr´ofilo | Linfo, Mono, Eos, Baso) P(Neutr´ofilo | Linfo, Mono, Eos, Baso) .. . P(Neutr´ofilo | Linfo, Mono, Eos, Baso) Cuadro 4.5: Tabla de probabilidad condicional del nodo Neutr´ ofilo de la red de nivel 1 de los neutr´ofilos. Para dar un valor num´erico a tales probabilidades hay que tomar en cuenta que hasta el momento, y en esta red, s´olo hemos utilizado informaci´ on relacionada con las probabilidades a priori de los distintos tipos de c´elulas y el nivel de error de las redes de nivel 0 junto con sus resultados, utilizando estos u ´ltimos como valores discretos de dos estados. Sin embargo, la informaci´ on referente a la probabilidad que cada una de las redes de nivel 0 asigna a cada tipo de c´elula es de suma importancia, ya que en tales valores va sintetizado todo el proceso de clasificaci´on de las mismas. Despu´es de esta observaci´ on fijemos nuestra atenci´on en la probabilidad: P(Neutr´ ofilo(N) | Linfo(L), Mono(M), Eos(E), Baso(B)) la cual puede interpretarse como: probabilidad de que la c´elula sea un neutr´ ofilo cuando las redes de nivel cero, desde la perspectiva de los neutr´ ofilos§§ , indican que la imagen se trata tanto de un linfocito, un monocito, un eosin´ ofilo y un bas´ ofilo, es decir, cuando las redes de nivel 0 han asignado el valor m´ as bajo de probabilidad al tipo de c´elula: neutr´ofilo. Para determinar este valor probabil´ıstico comencemos considerando a los cinco tipos de c´elula que queremos clasificar como los u ´nicos posibles, es §§

Ver secci´ on 4.2.1, para informaci´ on acerca de esta perspectiva.

4.2. Definici´ on de las probabilidades condicionales

63

decir, P (N) + P (L) + P (M) + P (E) + P (B) = 1 Con esta consideraci´ on y tomando en cuenta la informaci´on que entregan las redes de nivel 0, podemos calcular nuestra probabilidad de inter´es como: P (N|L, M, E, B) = 1 −

pL + pM + pE + pB pN + pL + pM + pE + pB

donde: pN es el resultado que entrega la red de nivel 0 de los neutr´ofilos en el nodo asociado a la variable Neutr´ofilo en la ocurrencia Neutr´ofilo = neutr´ ofilo.kk pL es el resultado que entrega la red de nivel 0 de los linfocitos en el nodo asociado a la variable Linfocito en la ocurrencia Linfocito = linfocito. pM es el resultado que entrega la red de nivel 0 de los monocitos en el nodo asociado a la variable Monocito en la ocurrencia Monocito = monocito. pE es el resultado que entrega la red de nivel 0 de los eosin´ofilos en el nodo asociado a la variable Eosin´ofilo en la ocurrencia Eosin´ofilo = eosin´ ofilo. pB es el resultado que entrega la red de nivel 0 de los bas´ofilos en el nodo asociado a la variable Bas´ ofilo en la ocurrencia Bas´ofilo = bas´ofilo. Del mismo modo, si la probababilidad a calcular fuese: P(Neutr´ ofilo | Linfo, Mono, Eos, Baso) el c´alculo ser´ıa: P (N|L, M, E, B) = 1 −

pE + pB pN + pL + pM + pE + pB

Observar que s´ olo es necesario determinar de esta forma ocho entradas de la tabla de probabilidad, ya que las otras ocho son sus complementarias. Es as´ı como cada una de las tablas asociadas a los nodos Neutr´ ofilo, Linfocito, Monocito, Eosin´ ofilo y Bas´ ofilo de las redes de nivel 1, son calculadas tomando en cuenta los valores num´ericos reales que han arrojado las redes de nivel 0. De acuerdo con este plantemiento, los valores de cada una de las entradas de estas tablas son din´ amicos, se calculan cada vez que se lleva a cabo la clasificaci´ on de una imagen. kk

Observar que esta variable tiene dos posibles valores: neutr´ ofilo y neutr´ ofilo.

64

Cap´ıtulo 4. Dise˜ no e implementaci´on del clasificador

De esta forma concluimos con el dise˜ no del clasificador, ya que ha quedado definida tanto la estructura de la red, como un procedimiento para determinar las tablas de probabilidad de cada uno de los nodos. El paso siguiente es la implementaci´on de este modelo de clasificador.

4.3. 4.3.1.

Implementaci´ on del clasificador Plataforma de desarrollo

El lenguaje de programaci´on utilizado para implementar el clasificador ha sido C++. Se eligi´o este lenguaje debido al equilibrio que ofrece entre velocidad de ejecuci´on –caracter´ıstica sumamente importante para el procesamiento de im´ agenes– y facilidad de implementaci´on en el modelado orientado a objetos. El sistema operativo elegido como plataforma ha sido Linux. Se ha elegido este sistema operativo debido a la facilidad que ofrece en la obtenci´on del software necesario para el desarrollo, adem´as de que al utilizar software libre, no es necesario ning´ un tipo de desembolso econ´omico dedicado a licencias o permisos para la utilizaci´on del mismo, y al utilizar paquetes de distribuci´ on est´ andar tampoco es necesario utilizar una distribuci´on espec´ıfica de este sistema operativo. As´ı el sistema puede ejecutarse en cualquier distribuci´ on de este S.O. e incluso compilarse, despu´es de modificaciones m´ınimas, con cualquier compilador est´andar de C++ para cualquier otro S.O. Ubuntu 6.01 –Dapper Drake– es la distribuci´on de Linux que se utiliz´ o para el desarollo. La f´acil gesti´on de paquetes que ofrece a trav´es de aptitude es la u ´nica caracter´ıstica especial que se tom´o en cuenta para su elecci´ on. Las im´ agenes de las c´elulas utilizadas en este trabajo utilizan el formato BMP Win32 de 24 bits no comprimidas, y tienen una resoluci´on de conteo de ´ p´ıxeles de 256x256. Estas fueron capturadas con una tarjeta Frame Grabber marca IMAGINGSOURCE modelo DFG/LC1, y la resoluci´on de captura fu´e de 640x480 p´ıxeles. La se˜ nal digital de las im´agenes se obtuvo mediante la c´ amara iCAM marca LABOMED modelo 1500, la cual cuenta con un sensor CMOS a color de 1.3 Mega p´ıxeles y entrega una imagen con resoluci´on de 1200x960 p´ıxeles, y que fu´e acoplada directamente a un microscopio de transmisi´ on de luz, contando ´este u ´ltimo con un objetivo de 100X. Debe aclararse que originalmente, las im´agenes fueron capturadas con una resoluci´ on de conteo de p´ıxeles de 640x480, correspondiendo la imagen obtenida a todo el campo visual del microscopio. Para agilizar el procesamiento de las im´ agenes se opt´o por recortar s´olo el ´area de inter´es de cada

4.3. Implementaci´ on del clasificador

65

imagen, es decir, el ´ area que encierra la imagen completa de cada leucocito. Las im´ agenes recortadas presentan una resoluci´on de conteo de pixeles de 256x256. El proceso de selecci´ on de ´area y recorte de la misma se realiz´o de forma manual, sin embargo, existen t´ecnicas que pueden automatizar este proceso [PRG+ 01]. El sistema se desarroll´ o en un ordenador con procesador PIII que trabaja a una frecuencia de 1GHz y memoria RAM de 256MB. El espacio en disco duro aproximado necesario es de 30 MB. La memoria RAM m´ınima recomendada es de 128MB. No se utiliz´ o ning´ un otro tipo de hardware especializado.

4.3.2.

Especificaci´ on de par´ ametros de entrada y salida

La entrada del sistema est´ a compuesta por dos im´agenes de 256x256 p´ıxeles, una corresponde a la fotograf´ıa de la c´elula, la otra a la m´ascara de segmentaci´ on de la misma. La m´ ascara de segmentaci´on es necesaria debido a que el clasificador no lleva a cabo el proceso de segmentaci´on, para realizar este proceso se utiliz´ o software externo a este proyecto, el cual implementa el algoritmo descrito en [Kat94, BKYZ96, KZB92] y que corresponde al de segmentaci´ on supervisada utilizando campos aleatorios de Markov. Tanto el software como los art´ıculos relacionados son de libre acceso [Kat]. La Figura 4.13 muestra la imagen de un neutr´ofilo junto con su m´ascara de segmentaci´ on.

Neutrófilo segmentado.

Máscara de segmentación

Figura 4.13: Fotograf´ıa de neutr´ofilo con su correspondiente m´ascara de segmentaci´ on. La m´ ascara de segmentaci´ on se divide en tres regiones, cada una con valores espec´ıficos de nivel de gris, que son:

66

Cap´ıtulo 4. Dise˜ no e implementaci´on del clasificador n´ ucleo citoplasma fondo

170 85 0

La salida del sistema la conforman los nombres de los cinco tipos de c´elula que se est´ an clasificando con un valor de probabilidad asociado a cada uno. El tipo de c´elula que tenga asociado el valor de probabilidad mayor se considera como al que pertenece la imagen bajo estudio.

4.3.3.

Estructura del software

El diagrama de la Figura 4.14 corresponde al modelo de clases utilizado en la implementaci´ on del clasificador. Por claridad s´olo se muestran los nombres de las clases implementadas y las relaciones que existen entre ellas. Los nombres de las clases se definieron utilizando palabras en ingl´es buscando con ello hacerlos compactos y significativos. El software lleva a cabo las siguientes operaciones al ejecutar el proceso de clasificaci´ on: 1. Carga de la fotograf´ıa celular y de la m´ascara de segmentaci´on en la memoria. La clase LeukoImgProcessor –Leuko Image Processor– se encarga de accesar directamente a los archivo de im´agenes, as´ı como de llevar a cabo las operaciones de pre-procesamiento. 2. Normalizaci´ on del histograma de frecuencias de la fotograf´ıa celular –mediante la clase LeukoImgProcessor–. 3. Acondicionamiento de las regiones mediante operaciones de morfolog´ıa matem´ atica –dilataciones y erosiones, mediante LeukoImgProcessor–. 4. Eliminaci´ on de regiones inconexas presentes en la m´ascara de segmentaci´ on –eliminaci´on de islas, mediante LeukoImgProcessor–. 5. Extracci´ on de las caracter´ısticas de la imagen –medici´on de los momentos de Hu 1, 2, 3 y 4, medici´on de los descriptores de regi´on y de los descriptores de textura, mediante la clase LeukoImgProcesor–. 6. Clasificaci´ on mediante las redes de creencia de nivel 0. El proceso de clasificaci´on est´a soportado por todas las clases diferentes de LeukoImgProcessor que se muestran en la Figura 4.14. Estas clases se organizan como se describe a continuaci´on.

4.3. Implementaci´ on del clasificador

LeukociteBayesNetwork

67

LeukociteBayesNetworkStage2

* 1 DPolitreeProp

*

LeukoImgProcessor

ProbDist

NodeManager

NodeMessage 1 Graph

1

GraphLink GraphNode

*

NoDirectecGraph SimpleGraphNode DirectedGraph 1 1

DirectedGraphNode BayesGraph BayesGraphNode

ConditionalProbabilityTable

1

1

ProbTableEntry DiscreteBayesNode

NumericalProbEntry

NormalProbFunction

ContinuousBayesNode

FunctionProbEntry

ExpProbFunction

. . .

SoftThresholdProbFunction

Figura 4.14: Diagrama UML de las clases que implementan el sistema.

68

Cap´ıtulo 4. Dise˜ no e implementaci´on del clasificador Clases que implementan la funcionalidad general de un grafo: Graph, DirectedGraph, NoDirectedGraph, GraphLink, GraphNode, SimpleGraphNode, DirectedGraphNode. Clases que implemetan la estructura propia de una red bayesiana, las cuales se pueden agruparse como: Clases que implementan el grafo: BayesGraph, BayesGraphNode, DiscreteBayesNode, ContinuousBayesNode. Clases que implementan la tabla de probabilidad asociada a cada nodo: ConditionalProbabilityTable, ProbTableEntry¶¶ , NumericalProbEntry, FunctionProbEntry, NormalProbFunction, ExpProbFunction, SoftThresholdProbFunction∗ ∗ ∗ . Clases para la implementaci´on del algoritmo que lleva a cabo la inferencia en poli´arboles: DPolitreeProp –Distributed Politree Propagation– , ProbDist –Probability Distribution–, NodeManager, NodeMessage. Hay que se˜ nalar que el algoritmo implementado corresponde al de inferencia en poli´arboles distribu´ıdo [DV05]. La clase LeukociteBayesNetwork organiza el trabajo de todas las clases ya mencionadas para llevar a cabo la implementaci´on de las redes de nivel 0. 7. Clasificaci´ on mediante las redes de creencia de nivel 1. La clase LeukociteBayesNetworkStage2 organiza la implementaci´on de las redes de nivel 1.

¶¶

En esta denominaci´ on Prob significa: Probability. Sucede lo mismo para los dem´ as nombres de clases. ∗∗∗ Existen tambi´en clases que implementan la f.d.p. gamma, log-normal y el complemento de la funci´ on SoftThreshold.

Cap´ıtulo 5

Pruebas y resultados El presente cap´ıtulo tiene como objetivo mostrar el desempe˜ no del clasificador mediante el contraste del nivel del error calculado te´oricamente y el error obtenido al llevar a cabo la etapa de pruebas del mismo. Con la finalidad de lograr este objetivo, se describir´a el proceso de entrenamiento, se˜ nalando en este punto, el error esperado de acuerdo con los datos estad´ısticos utilizados; enseguida se describir´a el proceso de pruebas y se indicar´an los resultados obtenidos; como punto final se calcular´a el error del sistema y se contrastar´ a con el error calculado en la etapa de entrenamiento. Como punto adicional se comparar´ an los resultados obtenidos en este trabajo con los obtenidos con trabajos similares que utilizan otras t´ecnicas de clasificaci´on.

5.1.

Revisi´ on del proceso de entrenamiento

El proceso de entrenamiento puede describirse, en general, como la extracci´on de los valores estad´ısticos y probabil´ısticos relacionados con las caracter´ısticas de inter´es presentes en las im´agenes que componen, exclusivamente, al conjunto de entrenamiento. Esta informaci´on es almacenada en la red bayesiana a trav´es de las tablas de probabilidad de sus nodos. Una vez calculados los valores de las tablas de probabilidad, el proceso de clasificaci´ on llevado a cabo por la red, no modifica los datos est´aticos de la misma. De acuerdo al muestreo realizado –muestreo por estratos, ver Secci´on 4.2.1– el n´ umero de im´ agenes que compone el conjunto de entrenamiento es de 179, de los cuales 64 son de neutr´ofilos, 64 de linfocitos, 36 de monocitos, 9 de eosin´ ofilos y 6 de bas´ ofilos.

70

Cap´ıtulo 5. Pruebas y resultados

La estructura de la red se defini´o de acuerdo a los procedimientos expuestos en la Secci´ on 4.1.3, y no se utiliz´o informaci´on que haya sido extra´ıda directamenta de las im´agenes para tal fin. Como ejemplo de informaci´on extra´ıda indirectamente de las im´agenes podemos mencionar la calidad de las mismas, factor que influy´o para definir el conjunto de caracter´ısticas que fueron extra´ıdas –ver Secci´on 4.1.2–, hecho que se ve reflejado en la estructura de la red. Para la definici´ on de las tablas de probabilidad de los nodos continuos y nodos discretos con padres continuos presentes en la red, se utiliz´o informaci´ on estad´ıstica y probabil´ıstica extra´ıda directamente de las im´agenes que componen el conjunto de entrenamiento, esto de acuerdo con los procedimientos expuestos en las Secciones 4.2.3 y 4.2.4. Para la definici´ on de las tablas de probabilidad de los nodos discretos se utiliz´ o informaci´ on estad´ıstica y probabil´ıstica, extra´ıda indirectamente del conjunto de entrenamiento –a trav´es de la observaci´on y valoraci´on de diagramas de caja, por ejemplo– tal como se describe en la Secci´on 4.2.5. El error te´ orico esperado en la red, de acuerdo con lo se˜ nalado en la Secci´ on 4.2.1, es calculado con base en el tama˜ no del conjunto de entrenamiento utilizado. Los datos precisos se resumen como: Se tiene un 75 % de probabilidad, de que en el peor de los casos, el error de clasificaci´ on sea de 32 %. En consecuencia, y calculando la raz´on 32 75 , decimos que el error general esperado es: EGE ≈ 42.66 %

5.2.

Etapa de pruebas y c´ alculo del error

Se llev´ o a cabo el experimento que comprende la clasificaci´on de todas y cada una de las im´ agenes que componen el conjunto de entrenamiento y el conjunto de prueba. El experimento se realiz´o sin repetici´on, es decir, cada imagen fue sometida al proceso de clasificaci´on una sola vez. Ya que ninguna de las im´ agenes presentes en este u ´ltimo conjunto fu´e utilizada en la etapa de entrenamiento, se considera que los resultados obtenidos a partir de ´el, son una muestra clara e imparcial del desempe˜ no del clasificador. Los resultados obtenidos al llevar a cabo el experimento sobre el conjunto de entrenamiento se muestran en el Cuadro 5.1. Los resultados obtenidos al llevar a cabo el experimento sobre el conjunto de prueba se muestran en el Cuadro 5.2.

5.2. Etapa de pruebas y c´ alculo del error C´elula Neutr´ ofilo Linfocito Monocito Eosin´ ofilo Bas´ ofilo

No. imgs. de entrenamiento 64 64 36 9 6

No. imgs. mal clasificadas 6 8 9 2 1

71 % de error por tipo ≈ 9.4 12.5 25 ≈ 22.22 ≈ 16.6

Cuadro 5.1: Resultados obtenidos a partir del conjunto de entrenamiento. C´elula Neutr´ ofilo Linfocito Monocito Eosin´ ofilo Bas´ ofilo

No. imgs. de prueba 16 22 13 4 2

No. imgs. mal clasificadas 2 6 4 2 1

% de error por tipo 12.5 ≈ 27.3 ≈ 30.7 50 50

Cuadro 5.2: Resultados obtenidos a partir del conjunto de prueba. Notar que el % de error por tipo que se presenta en los Cuadros 5.1 y 5.2, corresponde solamente al tama˜ no relativo que representa el conjunto de im´agenes mal clasificadas con respecto del total de im´agenes del mismo tipo de c´elulas. Para llevar a cabo el c´alculo del error general del sistema se debe tomar en cuenta que el muestreo realizado corresponde a un muestreo por estratos y por tal motivo se debe tomar en cuenta la proporci´on que las im´ agenes de cada tipo de c´elula representa dentro de la poblaci´on total. Este error lo calculamos como: EE =

IM × PE × 100 IE

(5.1)

donde: EE representa porcentaje de error por estrato, es decir, el error debido a la poblaci´ on de un s´ olo tipo de c´elula. IM es el n´ umero de im´ agenes mal clasificadas de un tipo espec´ıfico de c´elula. IE es el n´ umero de im´ agenes del conjunto que se eval´ ua –entrenamiento o prueba– del mismo tipo de c´elula que IM .

72

Cap´ıtulo 5. Pruebas y resultados

PE es el porcentaje que representa, dentro de la poblaci´on total, el tipo de c´elula observado en IM . Como podemos observar IM /IE × 100 corresponde precisamente al valor que en los Cuadros 5.1 y 5.2, se presenta como % de error por tipo, as´ı que s´ olo nos queda multiplicar ese valor por PE para obtener el error general por tipo –como se describi´o en la Secci´on 4.2.1, PE tiene un valor de 0.58 para los neutr´ ofilos, 0.32 para los linfocitos, 0.06 para los monocitos, 0.03 para los eosin´ ofilos y 0.01 para los bas´ofilos–. Calculando el error sobre los resultados obtenidos a partir del conjunto de entrenamiento tenemos: C´elula Neutr´ ofilo Linfocito Monocito Eosin´ ofilo Bas´ ofilo

100(IM /IE ) · PE 9.4 · 0.58 12.5 · 0.32 25 · 0.06 22.22 · 0.03 16.6 · 0.01

EE – Error gral. por tipo ( %) 5.45 4 1.5 0.66 0.16

As´ı, el error general del sistema es la sumatoria de los errores por estrato, el cual, para el conjunto de entrenamiento corresponde a: EGT = 11.77 %

(5.2)

Se calcula ahora el error obtenido a partir del conjunto de im´agenes de prueba: C´elula Neutr´ ofilo Linfocito Monocito Eosin´ ofilo Bas´ ofilo

100(IM /IE ) · PE 12.5 · 0.58 27.3 · 0.32 30.7 · 0.06 50 · 0.03 50 · 0.01

EE – Error gral. por tipo ( %) 7.25 8.7 1.84 1.5 0.5

El error general calculado a partir de los resultados del conjunto de prueba es: EGP = 19.79 %

(5.3)

El Cuadro 5.3 muestra los resultados finales obtenidos al realizar los experimentos de clasificaci´on.

5.2. Etapa de pruebas y c´ alculo del error Error esperado Error en entrenamiento Error en pruebas

73 EGE ≈ 42.66 % EGT = 11.71 % EGP = 19.79 %

Cuadro 5.3: Resultados finales de evaluaci´on del clasificador. El resultado obtenido a trav´es del conjunto de entrenamiento es, claramente el mejor, sin embargo, por obvias razones, es considerado como parcial favorable al clasificador. El error obtenido al clasificar el conjunto de pruebas se considera, como se mencion´o al inicio de esta secci´on, como una muestra clara e imparcial del desempe˜ no del mismo. Por u ´ltimo, ha de se˜ nalarse que los resultados obtenidos est´an completamente dentro del rango de error esperado, ya que, aunque el error obtenido en pruebas es menor que el esperado, el valor tan alto de este u ´ltimo fu´e calculado para el peor de los casos, resultando de aqu´ı que el sistema es consistente y predecible de acuerdo al modelo planteado. Comparemos ahora los resultados obtenidos en este proyecto de tesis, con los obtenidos por dos esfuerzos similares enfocados a la clasificaci´on de leucocitos y que utilizan otros modelos de clasificaci´on. Los resultados publicados en [SZR04], comunican porcentajes de error que van desde el 10.9 % hasta un 25.91 % utilizando un clasificador naive Bayes. A´ un cuando los resultados obtenidos en el proyecto aqu´ı desarrollado se encuentran dentro del mismo rango de error, debe se˜ nalarse que el tama˜ no de la poblaci´ on total del im´agenes de c´elulas con que se cont´o es de menos de la tercera parte que el utilizado en [SZR04], hecho que tiende a incrementar notablemente el porcentaje de error esperado, ya que este error es calculado, fundamentalmente, con base en el tama˜ no muestral; en el presente proyecto se cont´ o con una muestra de 236 im´agenes de c´elulas en total; en el caso de [SZR04], el n´ umero de im´agenes fu´e de 938. Es preciso se˜ nalar tambi´en que en el proyecto presentado en [SZR04], todos los tipos de c´elulas est´ an representados por tama˜ nos de muestras que pueden considerarse suficientes para la generalizaci´on de sus datos –siendo de 44 im´agenes el conjunto de menor tama˜ no–. En el presente proyecto existen dos tipos de c´elulas representados por conjuntos extremadamente peque˜ nos: eosin´ofilos, con 13 im´ agenes, y bas´ ofilos, con 8 im´agenes, hecho que tiende a incrementar el error. En el caso de [PRG+ 01], se publica que se clasificaron con ´exito, inicialmente, 295 im´ agenes de 325, utilizando un clasificador de Bayes, con base en funciones de decisi´ on. De acuerdo con estos resultados, el error es de

74

Cap´ıtulo 5. Pruebas y resultados

9 % aproximadamente. Se hace menci´on que, en un ensayo realizado fuera de l´ınea se obtuvo un error menor del 5 %. El conjunto de entrenamiento utilizado se reporta con un tama˜ no de 419 im´agenes, y tambi´en se reporta que s´ olo se clasificaron 4 tipos diferentes de c´elulas debido a la falta de im´ agenes representativas de los bas´ofilos –tipo celular que fu´e descartado de la clasificaci´ on–. En este proyecto no se aclara si el conjunto im´agenes de prueba fu´e distinto del de entrenamiento. Se utilizaron dos caracter´ısticas distintas para llevar a cabo la clasificaci´on, hecho que reduce la posibilidad de generalizar el modelo para clasificar m´as tipos de c´elulas. Como dato general, se hace menci´on de que ninguno de los anteriores proyectos, con los cuales se ha comparado el trabajo realizado en este documento, presentan alg´ un m´etodo para estimar el error esperado, sino que se limitan a experimentar y presentar resultados. Esta caracter´ıstica se considera una ventaja del m´etodo aqu´ı presentado.

5.3.

Principales razones del error obtenido Baja calidad de los frotis de sangre utilizados, lo cual repercute en la falta de detalle –definici´on de l´ıneas y textura– de la imagen, tambi´en en el rango de colores significativos, ya que ´este se reduce, dando como resultado que la imagen aparezca muy oscura, muy clara o en rangos intermedios de color, sin utilizar toda la gama posible de colores. Dada la calidad del frotis se introduce, tambi´en, ruido debido a manchas de colorante o a zonas faltantes de tinci´on. Se debe se˜ nalar que este factor + es muy importante, tanto que en [LRM 97] se comenta: Se reconoce un buen laboratorio a la calidad de los frotis de sangre que prepara. Baja calidad de la segmentaci´on. La segmentaci´on es un paso muy importante al momento de llevar a cabo la clasificaci´on –la cual se apoya igualmente en la calidad de la imagen–, pero dicho t´opico est´a fuera del alcance del presente proyecto. Es por esto que la segmentaci´on llevada a cabo en este trabajo∗ fu´e una segmentaci´on supervisada, la cual, permiti´ o reducir errores derivados de la distribuci´on irregular del color en las im´ agenes. Los resultados de la segmentaci´on, sin embargo, no fueron los ´ optimos. N´ umero reducido de im´agenes para llevar a cabo el aprendizaje. A´ un cuando los resultados presentados son v´alidos para tres tipos de c´elulas –neutr´ ofilos, linfocitos y monocitos–, los otros dos tipos involucrados

∗

V´ease Secci´ on 4.3.2 para informaci´ on relativa al proceso de segmentaci´ on.

5.3. Principales razones del error obtenido

75

–eosin´ ofilos y bas´ ofilos– est´an representados por una poblaci´on extremadamente reducida, hecho que impide generalizar con seguridad sus resultados. Esta falta de solidez pr´actica –ya que se puede corregirse incrementando el tama˜ no de los conjuntos de im´agenes de estos tipos de c´elulas– se traduce en errores directamente relacionados con la clasificaci´ on de eosin´ ofilos y bas´ofilos. A´ un m´as, al tomarse en cuenta estos dos tipos de c´elula para llevar a cabo la clasificaci´on general, existe ruido inducido por los mismos y que afecta el resultado en la clasificaci´ on de los otros tres tipos de c´elula.

Cap´ıtulo 6

Conclusiones y perspectivas 6.1.

Conclusiones

A lo largo del desarrollo de este proyecto de tesis se ha podido constatar que el procesamiento digital de im´agenes es una poderosa herramienta que, de entre muchas tareas que podemos realizar, nos ayuda a filtrar, acentuar y extraer caracter´ısticas en alguna imagen. Al analizar estas caracter´ısticas podemos lograr alg´ un objetivo espec´ıfico, como la descripci´on y representaci´on de una imagen de c´elula. En este trabajo, el objetivo general planteado ha sido la clasificaci´ on de leucocitos. Se ha comprobado tambi´en que, de forma clara y sencilla, las redes de creencia, nos permiten sintetizar una gran cantidad de informaci´on, al mismo tiempo que nos ofrecen la posibilidad de estructurarla de un modo conveniente al contexto del problema que tenemos inter´es en abordar. Nos permiten utilizar, tambi´en, modelos flexibles de acceso a informaci´on categorizada de acuerdo con alguna situaci´ on particular, es decir, mediante la estructura del grafo y la utilizaci´ on de evidencias, permiten utilizar informaci´on contextual para filtrar y ordenar los datos que nos interesan, de acuerdo a un modelo dise˜ nado para obtener informaci´ on significativa orientada a la resoluci´on de un problema particular, como el planteado en este proyecto de tesis. Con la aplicaci´ on de estas dos herramientas a la clasificaci´on de leucocitos, se ha observado que es posible construir sistemas que se adaptan de forma natural al modelo de clasificaci´on utilizado directamente por el ser humano, al mismo tiempo que se obtienen resultados congruentes con los que el mismo modelo plantea como esperados. En otras palabras, la estructura y funcionamiento del sistema es muy similar al proceso llevado a cabo por el experto humano al desarrollar esta tarea, al mismo tiempo que el

78

Cap´ıtulo 6. Conclusiones y perspectivas

sistema permanece predecible de acuerdo al modelo matem´atico en el cual ´ se fundamenta. Esta u ´ltima es una caracter´ıstica muy importante dentro del campo de la investigaci´on cient´ıfica. Se ha observado tambi´en que es posible adaptar este tipo de redes de tal forma que permitan obtener resultados satisfactorios incluso cuando los datos con que se cuenta para su aprendizaje est´en lejos de ser los ideales. Ha de resaltarse que, si bien el error obtenido en la implementaci´on del modelo propuesto en este trabajo, ha sido alto –19.79 %–, el resultado es consistente con los valores que el mismo modelo plantea como esperados. Con esta observaci´ on, es posible afirmar que los resultados son factibles de mejora de acuerdo con los procedimientos y m´etodos aqu´ı propuestos. Es as´ı como puede fundamentarse que el trabajo con procesamiento digital de im´ agenes y redes de creencia, es predecible, en la medida en que encuentra su base en la teor´ıa de probabilidad y estad´ıstica. Por u ´ltimo y con base en este trabajo puede verse un futuro prometedor para la resoluci´ on del problema inicialmente planteado utilizando el an´ alisis digital de im´ agenes conjuntamente con las redes bayesianas ya que, a´ un cuando el objetivo propuesto se ha alcanzado, esto no significa que el problema se haya resuelto en su totalidad, simplemente se han explorado satisfactorimente estos campos de investigaci´on como una alternativa de soluci´ on, adem´ as, hemos de tomar en cuenta que, si bien ha habido avances en estos dos campos, la investigaci´on dentro del campo de Inteligencia Artificial se encuentra a´ un en una edad muy temprana.

6.2.

Perspectivas

A´ un hay mucho trabajo por realizar para que el sistema propuesto en este trabajo de tesis llegue a adquirir una funcionalidad aceptable en un ambiente real de trabajo –para que sea funcional en un laboratorio de an´alisis cl´ınicos, por ejemplo–. Enseguida se se˜ nalan algunos puntos que requieren atenci´on inmediata; atendidos estos, se esperar´ıa una notable mejora en el desempe˜ no del clasificador. Es imperativo corregir los problemas se˜ nalados en al apartado 5.3. Mejorar el pre-procesamiento de la imagen. Puede tomarse en cuenta para tal fin, el color y las formas esperadas de las c´elulas –informaci´on contextual–, de tal forma que contemos con una imagen bien definida para un proceso de segmentaci´on y de clasificaci´on espec´ıficos de c´elulas blancas.

6.2. Perspectivas

79

Mejorar el modelo de la red bayesiana. El modelo de red bayesiana presentado en este trabajo corresponde a un poli´arbol, el cual representa el modelo m´ as sencillo de este tipo de redes. Es posible mejorar tal modelo tomando en cuenta relaciones de dependencia condicional presentes entre distintos tipos de c´elulas. Por ejemplo: se observa en el presente trabajo que cuando la imagen de una c´elula corresponde a la de un neutr´ ofilo, la probabilidad calculada en la primera fase de clasificaci´ on de que la imagen sea la de un linfocito es siempre la m´as baja. As´ı, apoyandonos en esta observaci´on estad´ıstica, podr´ıamos a˜ nadir a la red una condici´ on que implique el aumentar la probabilidad de que una c´elula sea clasificada como neutr´ofilo cuando la probabilidad asignada al tipo de c´elula linfocito es la m´as baja comparada con la probabilidad asignada a los otros tipos de c´elulas. La observaci´on anterior puede aplicar a todas las dem´as c´elulas y a diferentes arreglos de valores de probabilidades asignados. Utilizar distribuciones de probabilidad continuas que se ajusten mejor a la distribuci´ on que presentan los conjuntos de datos de las caracter´ısticas tomadas en cuenta en la clasificaci´on. Lo anterior se traduce como reducir la distancia Dn definida en el contraste de KolmogorovSmirnov∗ . En este trabajo se utilizan s´olo 4 tipos de distribuciones: normal, gamma, exponencial y lognormal† . Ajustar a´ un m´ as los valores de las tablas de probabilidad presentes en la red de tal forma que se ajusten mejor a los datos de entrenamiento. Extraer y utilizar m´ as caracter´ısticas de las im´agenes que aporten informaci´ on importante para la clasificaci´on. Siguiendo el modelo propuesto, extender su funcionamiento para clasificar c´elulas blancas anormales o en estados de maduraci´on. Implementar e integrar al clasificador un proceso de segmentaci´on autom´ atica, as´ı como un proceso de selecci´on y recorte de regiones de inter´es, como el mencionado en [PRG+ 01].

∗ †

Ver [DeG88] para una explicaci´ on detallada de este contraste. Ver Ap´endice A.3

Ap´ endice A

Definiciones de probabilidad A.1.

Conceptos fundamentales

Se define en principio lo que es una variable aleatoria, la cual se considera un concepto de suma importancia en la probabilidad y constituye la base de este tema. Definici´ on 14 (Variable aleatoria [DV05]). Es aquella que toma valores que, a priori, no concemos con certeza. A priori, en este contexto, significa antes de conocer el resultado de un acontecimiento, de un experimento o de una elecci´ on al azar. Otra definici´ on de variable aleatoria es la siguiente: Definici´ on 15 (Variable aleatoria [DeG88]). Consid´erese un experimento cuyo espacio muestral es el conjunto S. Una funci´ on con valores reales que est´ a definida sobre el espacio S recibe el nombre de variable aleatoria. En otras palabras, en un experimento concreto, una variable aleatoria X, ser´ıa una funci´ on que asigna un n´ umero real X(s) a cada resultado posible s ∈ S. Para poder construir un modelo matem´atico del problema probabil´ıstico al cual nos enfrentamos, es necesario seleccionar un conjunto de variables aleatorias para las cuales los valores de cada una de ellas sean exclusivos y exhaustivos en su dominio. En adelante se utilizar´ a la convenci´on de representar las variables aleatorias con letras may´ usculas acompa˜ nadas, de ser necesario, de sub´ındices para diferenciarlas, por ejemplo: X, Y1 , Y2 y Z. Los valores de las variables aleatorias se representar´ an mediante letras min´ usculas acompa˜ nadas, de ser

82

Ap´endice A. Definiciones de probabilidad

necesario, de sub´ındices y super´ındices para lograr su diferenciaci´on. Como ejemplo supongase que la variable X tiene un conjunto de tres valores posibles: x1 , x2 y x3 ; supongase que la variable Y1 es booleana y, por tanto, puede tomar s´ olo los siguientes valores: y1t e y1f ∗ . Los conjuntos de variables ¯ De forma an´aloaleatorias como: X1 , . . . , Xn , se representar´an mediante X. ¯ ga, cuando cada una de las variables Xi del conjunto X tome alg´ un valor concreto, la n-tupla x ¯ = (x1 , . . . , xn ) representar´a este hecho. Las proposiciones y teoremas siguientes se presentan sin demostraci´on, el lector interesado puede encontrar tal informaci´on en los libros de probabilidad y redes bayesianas que se mencionan en la bibliograf´ıa [DeG88, DV05, SJN00, SJN04]. Definici´ on 16 (Distribuci´on de una variable aleatoria). Sea A cualquier subconjunto de la recta real y sea P (X ∈ A) la probabilidad de que el valor de X pertenezca al subconjunto A. Entonces P (X ∈ A) es igual a la probabilidad de que el resultado s del experimento sea tal que X(s) ∈ A. Esto es, P (X ∈ A) = P (s : X(s) ∈ A)

A.1.1.

Distribuciones discretas

Definici´ on 17 (Distribuci´on discreta). Se dice que una variable aleatoria X tiene una distribuci´on discreta si X s´ olo puede tomar un n´ umero finito k de valores distintos x1 , . . . , xk o, a lo sumo, una sucesi´ on infinita de valores distintos x1 , x2 , . . . Definici´ on 18 (Funci´on de probabilidad). Si una variable aleatoria X tiene una distribuci´ on discreta, la funci´on de probabilidad (f.p.) de X se define como la funci´ on f tal que para cualquier n´ umero real x, f (x) = P (X = x) Para cualquier punto x que no es uno de los valores posibles de X, f (x) = 0. Adem´ as, si la sucesi´on x1 , x2 , . . . incluye todos los valores posibles de X, entonces: ∞ X f (xi ) = 1 (A.1) i=1 ∗ Los super´ındices utilizados para este par de expresiones se corresponden con las palabras en ingl´es: t - true, y f - false, respectivamente.

A.1. Conceptos fundamentales

83

Si X tiene una distribuci´ on discreta, se puede determinar la probabilidad de cualquier subconjunto A de la recta real a partir de la relaci´on: X P (X ∈ A) = f (xi ) xi ∈A

A.1.2.

Distribuciones continuas

Definici´ on 19 (Funci´ on de densidad de probabilidad). Se dice que una variable aleatoria X tiene una distribuci´ on continua si existe una funci´ on no negativa f , definida sobre la recta real, tal que para cualquier intervalo A, w P (X ∈ A) = f (x)dx A

La funci´ on f se denomina funci´ on de densidad de probabilidad (f.d.p.) de X. Toda f.d.p. debe satisfacer los siguientes dos requisitos: 1. f (x) ≥ 0 2.

w∞

−∞

f (x) dx = 1

(A.2)

Propiedad 5. Si una variable X tiene una distribuci´ on continua, entonces P (X = x) = 0 para todo valor individual x. La f.d.p. de una variable aleatoria no es u ´nica ya que, dada la propiedad anterior, los valores de cualquier f.d.p. de una variable aleatoria X se pueden modificar arbitrariamente en una sucesi´on infinita de puntos sin afectar las probabilidades que involucran a X, es decir, sin afectar la distribuci´on de probabilidad de X.

A.1.3.

Funci´ on de distribuci´ on

Definici´ on 20 (Funci´ on de distribuci´on). La funci´on de distribuci´on (f.d.) F de una variable aleatoria X es una funci´ on definida para cada n´ umero real x como sigue: F (x) = P (X ≤ x)

para

−∞ 0, la f.d.p. condicional g de Y¯ cuando Z¯ = z¯ se define como sigue: g(¯ y |¯ z) =

f (¯ y , z¯) fm (¯ z)

para y¯ ∈ Rk

(A.3)

Si los conjuntos Y¯ y Z¯ tienen una distribuci´on conjunta discreta cuya f.d. es f y si la f.p. marginal de Z¯ es fm , entonces, la f.p. condicional g(¯ y |¯ z) de Y¯ para cualquier valor concreto Z¯ = z¯ tambi´en se puede especificar por la ecuaci´ on A.3. Una distribuci´ on de probabilidad condicional nos indica qu´e tan probable es un evento cuando ya ha sucedido parte del mismo. Si suponemos un

88

Ap´endice A. Definiciones de probabilidad

experimento imaginario que se lleva a cabo un n´ umero infinito de veces y ¯ Y¯ y Z, ¯ podemos que involucra a los conjuntos de variables ya definidos X, ver que fm (¯ z ) es la relaci´on del n´ umero de veces que se obtiene exactamente el resultado z¯ y el n´ umero total de veces que se intenta obtener un resultado ¯ Entonces, la probabilidad de que suceda y¯ cuando z¯ ya ha para (Y¯ , Z). sucedido, es el n´ umero de veces en que suceden y¯ y z¯ en relaci´on, solamente, al n´ umero de veces que sucede z¯. Desde esta perspectiva, una distribuci´on de probabilidad condicional es la versi´on ajustada o normalizada de una distribuci´ on de probabilidad conjunta. ¯ un conjunto de n variables aleatorias con distribuProposici´ on 2. Sea X ci´ on conjunta continua y sean Y¯ y Z¯ subconjuntos que conforman una par¯ con k igual al n´ tici´ on de X, umero de elementos de Y¯ . Sea fm la f.d.p. con¯ Si z¯ es un punto en el espacio Rn−k tal que fm (¯ junta marginal de Z. z) > 0 se cumple que: w∞ w∞ g(¯ y |¯ z ) dy1 · · · dyk = 1 (A.4) ··· ∀¯ z, −∞

−∞

¯ tiene una distribuci´on conjunta discreta y fm representa Si el conjunto X ¯ entonces la Ecuaci´on A.4 se convierte en: la f.p. conjunta marginal de Z, X ∀¯ z, g(¯ y |¯ z) = 1 y¯

El teorema de la probabilidad total nos permite calcular la distribuci´on marginal de un conjunto de variables a partir de distribuciones condicionadas. La siguiente enunciaci´on de dicho teorema corresponde al caso en que las variables involucradas tienen una distribuci´on conjunta continua. ¯ Teorema 6 (Teorema de la probabilidad total – caso continuo). Sea X un conjunto de n variables aleatorias con distribuci´ on conjunta continua y ¯ con k igual al sean Y¯ y Z¯ subconjuntos que conforman una partici´ on de X, ¯ n´ umero de elementos de Y . Si f1 y f2 son las f.d.p. conjuntas marginales k-dimensional y (n − k)-dimensional de Y¯ y Z¯ respectivamente, se cumple que: w∞ w∞ f1 (¯ y) = ··· g(¯ y |¯ z ) · f2 (¯ z ) dz1 · · · dzn−k para y¯ ∈ Rk (A.5) −∞

−∞

¯ tiene una distribuci´on conjunta discreta y f1 y f2 repreSi el conjunto X sentan las f.p. conjuntas marginales de Y¯ y Z¯ respectivamente, la Ecuaci´on A.5 queda expresada como: X f1 (¯ y) = g(¯ y |¯ z ) · f2 (¯ z) z¯|f2 (¯ z >0)

A.1. Conceptos fundamentales

89

La condici´ on f2 (¯ z ) > 0 no es indispensable ya que, simplemente evita el trabajo de llevar a cabo operaciones que no modifican el resultado final; evita el trabajo de multiplicar por 0 y sumar 0 repetidamente. La siguiente proposici´ on se deduce, en el caso de trabajar con una distribuci´ on conjunta continua, de la definici´on de f.d.p. condicional y de la aplicaci´ on del teorema de la probabilidad total. Proposici´ on 3 (Factorizaci´ on de la f.d.p. conjunta). Dado un conjunto ¯ de variables X con una distribuci´ on conjunta continua f y una partici´ on ¯1, . . . , X ¯ k } de X, ¯ si gi representa la f.d.p. condicional del conjunto X ¯i, {X entonces se cumple que: f (¯ x) =

k Y

gi (¯ xi |¯ xi+1 , . . . , x ¯k )

(A.6)

i=1

¯ tiene una distribuci´on conjunta discreta, f representa Si el conjunto X ¯ y gi es la f.p. condicional del conjunto Xi , la ecuaci´on la f.p. conjunta de X A.6 es igualmente v´ alida.

A.1.5.

Independencia condicional

Se dice que n variables X1 , . . . , Xn son independientes si, para n conjuntos cualesquiera A1 , A2 , . . . , An de n´ umeros reales, P (X1 ∈ A1 , X2 ∈ A2 , . . . , Xn ∈ An ) = P (X1 ∈ A1 )P (X2 ∈ A2 ) . . . P (Xn ∈ An ) Si se define F como la f.d. conjunta de X1 , . . . , Xn y Fi como la f.d. marginal univariante de Xi para i = 1, . . . , n, entonces resulta de la definici´on de independencia que las variables X1 , . . . , Xn son independientes si, y s´olo si, para todos los puntos (x1 , x2 , . . . , xn ) ∈ Rn , F (x1 , x2 , . . . , xn ) = F1 (x1 )F2 (x2 ) · · · Fn (xn ) Adem´ as, si las variables X1 , . . . , Xn tienen una distribuci´on conjunta continua cuya f.d.p. conjunta es f , y si fi es la f.d.p. marginal univariante de Xi para i = 1, . . . , n, entonces X1 , . . . , Xn son independientes si, y s´olo si, para todos los puntos (x1 , x2 , . . . , xn ) ∈ Rn se satisface la siguiente relaci´on: f (x1 , x2 , . . . , xn ) = f1 (x1 )f2 (x2 ) · · · f2 (xn )

(A.7)

Si X1 , . . . , Xn tienen una ditribuci´on discreta conjunta con f.p. f y f.p. marginal fi de Xi –con i = 1, . . . , n–, estas variables son independientes si se satisface la ecuaci´ on A.7.

90

Ap´endice A. Definiciones de probabilidad

Variables aleatorias condicionalmente independientes ¯ = {W1 , . . . , Wn } Sup´ ongase que se hace una partici´on del conjunto W ¯ ¯ ¯ en tres subconjuntos X, Y y Z. Sup´ongase adem´as que la f.d.p. conjunta de ¯ Y¯ , Z) ¯ es f . Sea fm la f.d.p. conjunta marginal de Z, ¯ y sean denotadas por (X, gi las f.d.p. condicionales calculadas a partir de f . Se dice que los conjuntos ¯ e Y¯ son condicionalmente independientes dado el conjunto de variables X ¯ Z si ∀¯ x, y¯, z¯,

fm (¯ z) > 0

=⇒

g1 (¯ x, y¯|¯ z ) = g2 (¯ x|¯ z ) · g3 (¯ y |¯ z)

(A.8)

Si A.8 se cumple, se dice entonces que el conjunto de variables Z¯ separa ¯ e Y¯ . a los conjuntos X

A.2.

Teorema de Bayes

En esta secci´ on, por claridad, se tratar´an todas las variables aleatorias como discretas y sus funciones de probabilidad ser´an generalizadas mediante la expresi´ on de su probabilidad, es decir, para indicar f (x), donde f es la f.p. de X, se escribir´ a P (X = x) o P (x), donde P (X) se corresponde con f . Teorema 7 (Teorema de Bayes generalizado). Dadas dos n-tuplas x ¯ e y¯ de ¯ ¯ dos conjuntos de variables X e Y , respectivamente, tales que P (¯ x) > 0 y P (¯ y ) > 0, se cumple que P (¯ x|¯ y) =

P (¯ x) · P (¯ y |¯ x) P 0 P (¯ x ) · P (¯ y |¯ x0 ) x ¯0 |P (¯ x0 >0)

¯ Y¯ y Z, ¯ si P (¯ Proposici´ on 4. Dados tres subconjuntos X, y , z¯) > 0, se cumple que P (¯ x, y¯|¯ z ) = P (¯ x|¯ y , z¯) · P (¯ y |¯ z) (A.9) Proposici´ on 5 (Teorema de Bayes con condicionamiento). Dadas tres tu¯ Y¯ y Z, ¯ respectivamente, tales plas x ¯, y¯ y z¯ de tres conjuntos de variables X, que P (¯ x, z¯) > 0 y P (¯ y , z¯) > 0, se cumple que P (¯ x|¯ y , z¯) =

P (¯ x|¯ z ) · P (¯ y |¯ x, z¯) P 0 P (¯ y |¯ x , z¯) · P (¯ x0 |¯ z) x ¯0 |P (¯ x0 |¯ z )>0

A.3. Distribuciones de probabilidad continuas

91

Una forma u ´til de escribir el teorma de Bayes es en su forma normali¯ ¯ zada. Si X e Y cumplen con las condiciones expuestas en la enunciaci´on del teorema de Bayes generalizado, entonces: P (¯ x|¯ y ) = α · P (¯ x) · P (¯ y |¯ x) donde:

#−1

" α≡

X

0

0

P (¯ x ) · P (¯ y |¯ x)

= [P (¯ y )]−1

x ¯0

En la pr´ actica, al aplicar el teorema de Bayes, es necesario utilizar las definiciones siguientes: Hallazgo. Es la determinaci´ on del valor de una variable, H = h, a partir de un dato –una observaci´ on, una medida, etc.–. Evidencia. Es el conjunto de todos los hallazgos disponibles en un determinado momento o situaci´ on: e = {H1 = h1 , . . . , Hn = hn } Probabilidad a priori. Es la probabilidad de una variable o subconjunto de variables cuando no hay ning´ un hallazgo. ¯ coincide, por tanto, con la probabilidad La probabilidad a priori de X marginal P (¯ x). Probabilidad a posteriori. Es la probabilidad de una variable o subconjunto de variables dada la evidencia e. Se representa mediante P ∗ : P ∗ (¯ x) ≡ P (¯ x| e)

A.3.

Distribuciones de probabilidad continuas

Enseguida se presentan las definiciones de las distribuciones de probabilidad normal, log-normal, gamma y exponencial.

A.3.1.

Distribuci´ on normal

Definici´ on 28. Una variable aletoria X con funci´ on de densidad de probabilidad 1 x−µ 2 1 f (x) = √ e− 2 ( σ ) σ 2π tiene una distribuci´ on normal con par´ ametros µ, donde −∞ < µ < ∞, y σ > 0.

92

Ap´endice A. Definiciones de probabilidad Adem´ as, E(X) = µ

V (X) = σ 2

y

El valor de E(X) = µ determina el centro de la funci´on de densidad de probabilidad y el valor de V (X) = σ 2 determina la anchura. La notaci´ on N (µ, σ 2 ) denota una distribuci´on normal con media µ y varianza σ 2 .

A.3.2.

Distribuci´ on log-normal

La distribuci´ on log-normal se obtiene cuando los logaritmos de una variable se describen mediante una distribuci´on normal. Definici´ on 29. La variable aleatoria X tiene una distribuci´on log-normal si ln X tiene una distribuci´ on normal. Su funci´ on de densidad de probabilidad est´ a dada por: f (x) =

σl x

1 √

2π

e

− 12

“

lnx−µl σ

”2

,

para

0 0 Γ(r) tiene una distribuci´ on gamma con par´ ametros λ > 0 y r > 0. Si r es un entero, entonces X tiene una distribuci´ on de Erlang. Definici´ on 32. Si X es una variable aleatoria gamma con par´ ametros λ y r, entonces la media y la varianza de X son: µ = E(x) =

r λ

y

σ 2 = V (X) =

r λ2

A.3. Distribuciones de probabilidad continuas

A.3.4.

93

Distribuci´ on exponencial

Definici´ on 33. Una variable aleatoria X que es igual a la distancia entre conteos sucesivos de un proceso de Poisson con media λ > 0 tiene una distribuci´on exponencial con par´ ametro λ. La funci´ on de densidad de probabilidad de X es: f (x) = λ e−λ x para 0 ≤ x < ∞ La distribuci´ on exponencial debe su nombre a la funci´on exponencial de la funci´ on de densidad de probabilidad. Definici´ on 34. Si la variable aleatoria X tiene una distribuci´ on exponencial con par´ ametro λ, entonces: E(X) =

1 λ

y

V (X) =

1 λ2

Ap´ endice B

Manual de usuario del software El software desarrollado en este proyecto, se ha compilado y probado sobre los sistemas operativos Linux y Windows. Los detalles de instalaci´on, ejecuci´ on y utilizaci´ on se decriben en las secciones siguientes.

B.1.

Proceso de Instalaci´ on

El software del clasificador se distribuye en archivos binarios ejecutables sobre sistemas Linux y Windows. Se distribuye tambi´en el c´odigo fuente del software, el cual puede ser compilado sin modificaci´on tanto para sistemas Linux como Windows. En este apartado se describir´a s´olo el proceso de instalaci´on y ejecuci´on del software que se distribuye ya compilado. Las instrucciones de compilaci´on del c´ odigo puede encontrarse en el archivo README que acompa˜ na al c´odigo fuente. Se sugiere leer el archivo README que acompa˜ na al software, cualquiera que sea la forma de distribuci´on que se ha de utilizar.

B.1.1.

Dependencias del software

La versi´ on compilada del software depende de dos paquetes espec´ıficos para su ejecuci´ on. Estos paquetes proporcionan la plataforma de interfaz gr´afica del sistema. Los paquetes son los siguientes: GTK+ En Linux es necesario contar con estas librer´ıas correctamente instaladas. Las instrucciones de instalaci´on y los archivos necesarios pueden encontrarse en: http://www.gtk.org/download/.

96

Ap´endice B. Manual de usuario del software Para Windows, se debe instalar el Runtime Environment de GTK+. De: http://gladewin32.sourceforge.net/modules/news/, puede descargarse un instalador de este ambiente.

GTKMM Para Linux, lo m´as conveniente es visitar la p´agina de gtkmm: http://www.gtkmm.org/download.shtml, donde se encuentra ampliamente explicado el proceso de instalaci´on de estas librer´ıas. Para Windows, puede descargarse el instalador del Runtime Environment de: http://ftp.gnome.org/pub/gnome/binaries/win32/gtkmm/. Una vez instaladas estas librer´ıas, ya puede ejecutarse el software. Hay que mencionar que el clasificador de leucocitos utiliza tambi´en las librer´ıas de FFTW –http://www.fftw.org/ –, para llevar a cabo el c´alculo de la transformada r´ apida de Fourier. Se utilizan tambi´en, librer´ıas desarrolladas y distribuidas por el equipo de R Project –http://www.r-project.org/ –. Estas u ´ltimas librer´ıas se utilizan para el c´alculo de las funciones de densidad de probabilidad de las distribuciones: normal, log-normal, exponencial y gamma. Versiones ya compiladas de estas librer´ıas acompa˜ nan al software del clasificador, as´ı que no es necesario descargarlas ni instalarlas por separado.

B.1.2.

Instalaci´ on y ejecuci´ on

El sistema, en su versi´on ya compilada, se distribuye en un archivo comprimido en formato rar –leukoClassifier--bin-win-0.03.rar, compilado para windows y leukoClassifier-bin-lin-0.03.rar, compilado para linux–, s´ olo hay que descomprimirlo respetando la jerarqu´ıa de directorios que presenta. Dentro del directorio principal, denominado LeukoClassifier, se encuentra un archivo ejecutable llamado classifier, es ´este el archivo que inicia la ejecuci´ on del clasificador.

B.2.

Utilizaci´ on del software

Como requerimiento especial de esta implementaci´on, la m´ascara de segmentaci´ on debe llevar el mismo nombre que la imagen a analizar m´as el posfijo “ msk sg” como se indica a continuaci´on: Nombre del archivo de imagen: nombreImagen.bmp Nombre del archivo de m´ ascara de segmentaci´ on: nombreImagen msk sg.bmp

B.2. Utilizaci´ on del software

B.2.1.

97

Interfaz principal

La ventana principal del programa la conforman tres componentes –Ver Figura B.1– : Cuadros de imagen

Menú principal

Botón de inicio de clasificación

Figura B.1: Ventana principal del programa. ´ El men´ u principal. Este muestra dos submen´ us: Archivo y Ayuda. El submen´ u Archivo contiene las opciones: Abrir imagen y Salir. El submen´ u Ayuda presenta las opciones de Descripci´ on y Acerca de. Los cuadros de im´ agenes. Son espacios en los cuales se muestran la fotograf´ıa de la c´elula que ha de clasificarse y su m´ascara de segmentaci´ on. El bot´ on de inicio de clasificaci´on. Inicialmente desactivado, en cuanto se carga la fotograf´ıa de la c´elula a clasificar, se activa para poder dar comienzo al proceso de clasificaci´on.

B.2.2.

Clasificaci´ on de una imagen

En el men´ u principal seleccionamos Abrir imagen y aparecer´a el cuadro de di´alogo que se muestra en la Figura B.2

98

Ap´endice B. Manual de usuario del software

Figura B.2: Cuadro de di´alogo de abrir archivo.

Buscamos y abrimos el archivo de la fotograf´ıa celular que queremos clasificar –leuco 03.bmp, por ejemplo–. Enseguida, la fotograf´ıa de la c´elula a clasificar ser´ a desplegada en el cuadro de imagen izquierdo. La m´ascara de segmentaci´ on ser´ a desplegada en el cuadro de imagen derecho. El bot´on de inicio de clasificaci´ on se activar´a como indicaci´on de que puede en este momento iniciarse el proceso de clasificaci´on. La Figura B.3 muestra el estado de la aplicaci´ on en este punto. Presionamos el bot´on: Clasificar Leucocito para comenzar la clasificaci´on de la fotograf´ıa celular. Enseguida, una ventana que muestra el estado del proceso aparecer´ a. En ella se informa del proceso que actualmente se lleva a cabo. Se muestra tambi´en una barra de estado que indica el porcentaje del proceso completo de clasificaci´on que se ha realizado. La Figura B.4 ilustra este punto del proceso de clasificaci´on. Cuando el proceso de clasificaci´on termina, aparece una ventana en la que se muestran los resultados de clasificaci´on. En ella se muestran los nombres de los cinco tipos de c´elulas a clasificar y a la derecha de cada uno se muestra su valor de probabilidad asociado. El tipo de c´elula con mayor valor de probabilidad se muestra en color verde indicando que es ´este el asociado a la fotograf´ıa clasificada. En la Figura B.5 puede observarse esta ventana de resultados.

B.2. Utilizaci´ on del software

99

Fotografía de la célula

Máscara de segmentación

Botón de inicio de clasificación activado

Figura B.3: Aplicaci´ on inmediatamente despu´es de abrir una fotograf´ıa celular para su clasificaci´ on. Barra de estado del proceso

Indicaciones del proceso en curso

Figura B.4: Aplicaci´ on en ejecuci´on del proceso de clasificaci´on.

100

Ap´endice B. Manual de usuario del software

Figura B.5: Ventana de resultados de clasificaci´on.

B.2.3.

Ayuda del sistema

La aplicaci´ on cuenta con una breve ayuda integrada. Para acceder a ella seleccionamos: Ayuda en el men´ u principal y enseguida: Descripci´ on del sistema. Aparecer´ a una ventana que presenta los t´opicos: ¿Qu´e hace el programa? ¿C´ omo funciona? ¿C´ omo se utiliza? ¿C´ omo interpretar los resultados? Restricciones generales del programa La Figura B.6 muestra la ventana de ayuda del sistema. Para visualizar la informaci´on de alguno de los temas listados, hacemos click sobre el t´ıtulo que nos interesa y la informaci´on relacionada ser´a mostrada en la misma ventana. Para regresar al listado de t´opicos, recorremos el tema actual hasta encontrar la leyenda volver al ´ındice, la cual se muestra en color azul. Hacemos click directamente sobre ella y enseguida se mostrar´a el ´ındice de los temas de ayuda.

B.2. Utilizaci´ on del software

Figura B.6: Interfaz de ayuda de la aplicaci´on.

101

Glosario Bas´ ofilo

Biometr´ıa hem´ atica

Centr´ osfera Citometr´ıa hem´ atica Citoplasma celular

C´ elula

C´ elula anormal

Es uno de los polimorfonucleares, al igual que los neutr´ofilos y los eosin´ofilos. Los gr´anulos de los bas´ofilos son gruesos pero escasos. Se originan en la m´edula ´osea y son los menos numerosos. Tienen una activa participaci´on en la respuesta inmunitaria, a trav´es de la liberaci´on de histamina, serotonina en bajas concentraciones, y otras sustancias qu´ımicas. Es el estudio de laboratorio destinado a informar sobre n´ umero y caracter´ısticas de las c´elulas de la sangre. Material amorfo que rodea a los centriolos que conforman el centrosoma celular. Ver Biometr´ıa hem´ atica. Parte del protoplasma que en una c´elula eucariota se encuentra entre el n´ ucleo celular y la membrana plasm´atica. Unidad fundamental de los organismos vivos, generalmente de tama˜ no microsc´opico, capaz de reproducci´on independiente y formada por un citoplasma y un n´ ucleo rodeados por una membrana. C´elula que no presenta alguno o varios de los rasgos caracter´ısticos de su tipo o que presenta caracter´ısticas at´ıpicas.

103

104

C´ elula eucariota

C´ elula inmadura

C´ elula normal

C´ elula plasm´ atica

Eosin´ ofilo

Eritrocito

Frotis sangu´ıneo

Glosario

C´elula que tiene su material hereditario fundamental –su informaci´on gen´etica– encerrado dentro de una doble membrana, la envoltura nuclear, que delimita un n´ ucleo celular. C´elula en estado desarrollo que a´ un no se ha diferenciado completamente y que, por tanto, no ha adquirido los rasgos caracter´ısticos de su tipo. C´elula que no presenta ning´ un tipo de enfermedad y en la cual se observan rasgos caracter´ısticos de su tipo. C´elula que deriva de los linfocitos, normalmente ausente de la sangre circulante pero presente en gran cantidad en el sistema linf´atico, que posee la propiedad de sintetizar las inmunoglobinas –es decir los anticuerpos–. Leucocito granulocito peque˜ no derivado de la m´edula ´osea, tiene una vida media en la circulaci´on de 6 a 12 horas antes de migrar a los tejidos en donde permanece por varios d´ıas. Su n´ ucleo bilobulado es caracter´ıstico y sus gr´anulos citopl´asmicos son distintivos. Los eosin´ofilos pueden regular la respuesta al´ergica y las reacciones de hipersensibilidad. C´elula sangu´ınea esferoidal que contiene la hemoglobina, que aporta el color rojo caracter´ıstico a la sangre y act´ ua transportando el ox´ıgeno por el organismo; hemat´ıe. Extendido suave y delgado de sangre sobre un porta-objeto. Este extendido, una vez coloreado, permite verificar visualmente y en forma global, sobre la l´ınea sangu´ınea, los hemat´ıes, leucocitos y plaquetas.

Glosario

105

Gr´ anulo

Ves´ıcula de secreci´on presente en el citoplasma leucocitario, que almacena en su interior enzimas lisosomales, y que al microscopio se observa como un punto bien definido.

Leucocito

C´elula blanca o incolora de la sangre y la linfa, que puede trasladarse a diversos lugares del cuerpo con funciones defensivas. C´elula sangu´ınea mononucleada que tiene un papel fundamental en la respuesta inmunol´ ogica y que se encuentra normalmente en la sangre y en los ´organos linfo´ıdes –bazo, timo y ganglios linf´aticos–. Existen dos tipos morfol´ogicamente id´enticos: los linfocitos T –timodependientes– que intervienen fundamentalmente en la inmunidad celular y los linfocitos B que se encargan de la elaboraci´on de anticuerpos.

Linfocito

Monocito

Leucocito de los denominados agranulocitos, es el leucocito m´as grande de todos con un tama˜ no de 15 a 20 micras. Presenta un n´ ucleo arri˜ nonado –forma de ri˜ n´on–, que se ti˜ ne de color violeta-azulado con una proporci´on 2:1 con respecto al resto de la c´elula. Su principal funci´on es la de fagocitar o comerse a diferentes microorganismos o restos celulares.

106

Neutr´ ofilo

Nucl´ eolo

N´ ucleo celular

Glosario

Denominado tambi´en micr´ofago. Es un gl´obulo blanco del tipo de los granulocitos, mide de 12 a 18 micras, es el tipo de leucocito m´as abundante en la sangre. Se caracteriza por presentar un n´ ucleo con cromatina compacta segmentada en 2 a 5 l´obulos conectados por delgados puentes. Su citoplasma contiene abundantes gr´anulos finos color p´ urpura que contienen abundantes enzimas destructoras, as´ı como una sustancia antibacteriana llamada fagocitina, necesarias para la lucha contra los g´ermenes extra˜ nos. Org´anulo del n´ ucleo que tiene como principal funci´on la s´ıntesis de los ARN robos´omicos. Se encuentra en todos los n´ ucleos de las c´elulas eucariotas, con excepci´on de algunos espermatozoides y los n´ ucleos de segmentaci´on de los anfibios. Son densos, no est´an rodeados por membrana y aparecen y desaparecen durante la divisi´on celular. El n´ ucleo celular es la estructura m´as caracter´ıstica de las c´elulas eucariotas. Se rodea de una cubierta propia, llamada envoltura nuclear y contiene el material hereditario, que es la base del repertorio de instrucciones propias de desarrollo y el funcionamiento de cada organismo, y cuya composici´on tiene como base el ´acido desoxirribonucleico.

Protoplasma

El protoplasma es citoplasma m´as el n´ ucleo. Mientras que la c´elula es membrana m´as el protoplasma.

Tinci´ on del frotis

Aplicaci´on de colorante al frotis mediante alguna t´ecnica, con la finalidad de resaltar caracter´ısticas particulares en los objetos que se han de observar.

Glosario

Vacuola

107

Cavidad rodeada por una membrana que se encuentra en el citoplasma de las c´elulas.

Bibliograf´ıa [BKYZ96] Berthod, Marc, Zoltan Kato, Shan Yu y Josiane Zeribia: Bayesian image classification using Markov random fields. Image and vision computing, (14), 1996. [Bou95]

Bourke, Paul: RGB Colour Space, mayo 1995. http://local. wasp.uwa.edu.au/~pbourke/texture_colour/, visitado el 1303-2007, [Documento electr´onico].

[Cou98]

Coulter, Beckman: The Coulter Principle (Electrical Sensing Zone Method), 1998. http://www.beckmancoulter.com/ products/applications/partChar/CoulterPrinciple_dcr. asp, visitado el 22-03-2007, [Documento electr´onico].

[dB92]

Boomgaard, R. Van den: Mathematical morphology: extension towards computer vision. Tesis de Doctorado, Amsterdam University, 1992.

[DeG88]

DeGroot, Morris H: Probabilidad y estad´ıstica. Addison-Wesley Iberoamericana, Argentina, segunda edici´on, 1988, ISBN 0-20164405-3.

[DV05]

Diez Vegas, Francisco J.: Introducci´ on al razonamiento aproximado. Depto. de Inteligencia Artificial (UNED), Espa˜ na, 2005.

[GV01]

Garc´ıa Vela, Jos´e A.: Citometr´ıa de flujo hematol´ ogica, 2001. http://www.citometriadeflujo.com/HTML/fundamentos\ %20frame.htm, visitado el 11-06-2007, [Documento electr´onico].

[HF97]

Heckner, Fritz y Mathias Freund: Atlas de Hematolog´ıa. Marban, novena edici´ on, 1997, ISBN 84-7101-246-4.

[Kat]

Kato, Zoltan: Zoltan Kato Home Page. http://www. inf.u-szeged.hu/~kato/, visitado el 14-06-2007, [Documento ´ Electr´ onico]; Ultima modificaci´on:30-03-2007. 109

110

BIBLIOGRAF´IA

[Kat94]

Kato, Zoltan: Mod´elisations markoviennes multir´esolutions en vision par ordinateur. Application ` a la segmentation d’imagenes SPOT. Tesis de Doctorado, L’Universit´e de Nice Sophia Antipolis, France, Diciembre 1994.

[KZB92]

Kato, Zoltan, Josiane Zerubia y Mark Berthod: Satellite Image Classification Using a Modified Metropolis Dynamics. En Proceedings of International Conference on Acoustics, Speech and Signal Processing, volumen 3, p´aginas 573–576, San Francisco, California, USA, marzo 1992. IEEE.

[LRM+ 97] Linch, Matthew J., Stanley S. Raphael, Leslie D. Mellor, Peter D. Spare y Martin J. H. Inwood: M´etodos de Laboratorio. Interamericana, M´exico, D.F., segunda edici´on, 1997, ISBN 96825-0091-5. Reimpresi´on. [MR03]

Montgomery, Duglas C. y George C. Runger: Probabilidad y estad´ıstica aplicadas a la ingenier´ıa. Limusa, M´exico, 2003.

[NA02]

Nixon, Mark y Alberto Aguado: Feature Extraction & Image Processing. Newnes, primera edici´on, 2002.

[Nil01]

Nilsson, Nils J.: Inteligencia artificial: Una nueva s´ıntesis. McGraw-Hill, 2001.

[PRG+ 01] Pagani, A., G. Ramonet, J. P. Graffigna, D. Gomez y A. Naranjo: Clasificador de leucocitos mediante procesamiento digital de im´ agenes. 4to. Simposio Argentino de Inform´atica Y Salud Sadio, 2001. [RA01]

Ruiz Arg¨ uelles, Guillermo J.: Fundamentos de Hematolog´ıa. Panamericana, segunda edici´on, mayo 2001, ISBN 968-7157-925,84-7903-591-9.

[SA02]

Serra, Jean y Jes´ us Angulo: Aplicaci´ on de las morfolog´ıa matem´ atica a la telemedicina y a la biotecnolog´ıa: caracterizaci´ on morfol´ ogica de c´elulas de la sangre y an´ alisis de cDNA microarrays. En D´ıaz de Le´on Santiago, J. L. y C. Ya˜ nez Marquez (editores): Proc. del CIARP 2002 (VII Congreso Iberoamericano en reconocimiento de patrones), p´aginas 35–50, Ciudad de M´exico, M´exico, noviembre 2002.

BIBLIOGRAF´IA

111

[SJN00]

Stuart J., Rusell y Peter Norving: Inteligencia Artificial: Un enfoque moderno. Prentice Hall Interamericana/Pearson Education, M´exico, 2000.

[SJN04]

Stuart J., Rusell y Peter Norving: Inteligencia Artificial: Un enfoque moderno. Pearson Prentice Hall, Espa˜ na, 2004.

[SZR04]

Sabino, D., M. Zago y E. Rizzatti: Toward leukocyte recognition using morphometry, texture and color. En Proc. IEEE Intl. Symp. Biomedical Imaging, p´agina 121, 2004.

[Wik02]

Wikipedia: Teor´ıa del color, noviembre 2002. http://es. wikipedia.org/wiki/Teor%C3%ADa_del_color, visitado el 13´ 03-2007, [Documento electr´onico; Ultima modificaci´on: 6-032007].