Algoritmos de Aprendizaje Continuo Mediante Selección de Prototipos para Clasificadores Basados en Distancias

Departament de Llenguatges I Sistemas Informátics Universitat Jaume I Algoritmos de Aprendizaje Continuo Mediante Selección de Prototipos para Clasif

Author: Daniel Castilla Bustamante

0 downloads 64 Views 1010KB Size

Report

DOWNLOAD PDF

Recommend Stories

Clasificadores Supervisados basados en Patrones Emergentes para Bases de Datos con Clases Desbalanceadas

Aprendizaje continuo toda la vida

Aprendizaje continuo toda la vida CONTENIDO: Aprende toda la vida 10 formas de aprender toda la vida 1. Busca algo nuevo que aprender 2. Busca el foco

Estructuras de datos geométricas para algoritmos de refinamiento basados en el esqueleto

Rev. Int. M´ et. Num. C´ alc. Dis. Ing. Vol. 19, 1, 89-109 (2003) Revista Internacional de M´ etodos Num´ ericos para C´ alculo y Dise˜ no en Ingenie

CLASIFICADORES PARA SELLOS

CLASIFICADORES PARA SELLOS 1 INTRODUCCIÓN Filober fue fundada en Barcelona en 1982, dedicada a la fabricación de material filatélico y numismático

MANUAL DE CLASIFICADORES PRESUPUESTARIOS

Luz para medir distancias

ALGORITMOS EN LA ENSEÑANZA Y EL APRENDIZAJE DE LAS MATEMÁTICAS

ALGORITMOS EN LA ENSEÑANZA Y EL APRENDIZAJE DE LAS MATEMÁTICAS Antonio Pérez Jiménez Escuela Universitaria en el Departamento de Ciencias de la Comput

TECNICO EN PROTOTIPOS

Algoritmos Métodos basados en grafos. Carlos Aguirre Maeso Escuela Politécnica Superior Universidad Autónoma de Madrid

Algoritmos Métodos basados en grafos Carlos Aguirre Maeso [email protected] Escuela Politécnica Superior Universidad Autónoma de Madrid Introdu

Procesos de aprendizaje mediante las TIC

Story Transcript

Departament de Llenguatges I Sistemas Informátics Universitat Jaume I

Algoritmos de Aprendizaje Continuo Mediante Selección de Prototipos para Clasificadores Basados en Distancias

Tesis Doctoral

Presentada por: Fernando Daniel Vázquez Mesa

Dirigida por: Dr. J. Salvador Sánchez Garreta Dr. Filiberto Pla Bañon Castellón, Febrero de 2008

El mundo del hombre contemporaneo se funda sobre los resultados de la ciencia: el dato reemplaza al mito, la teoría a la fantasía, la predicción a la profecía. Mario Bunge.

Resumen Los algoritmos de clasificación supervisada operan usualmente sobre la información suministrada por un conjunto de muestras, un conjunto de patrones, ejemplos o prototipos de entrenamiento que se consideran representantes todos de clases relevantes y los mismos poseen una etiqueta de clase correcta. Los algoritmos no supervisados a diferencia de los anteriores, no disponen del conjunto de entrenamiento y, valiéndose de algoritmos de agrupamiento, construyen el conjunto de entrenamiento. Sin embargo, en el mundo real los cambios son constantes; y la forma tradicional en que trabaja un clasificador no considera la modificación paulatina del conocimiento que éste posee, es decir, el clasificador es entrenado para reconocer un tipo de objetos de interés, después es probada su precisión y, finalmente, es puesto en producción, hasta que se tiene la necesidad de volver a entrenar al clasificador debido a que se ha perdido la buena precisión de éste. Para tratar de resolver esta dificultad, en la década de los años 90 en diversos trabajos [Bensaid, 1996], [Castelli, 1995], [Nigam, 2000], surgen los algoritmos parcialmente supervisados, los cuales representan un cierto compromiso entre los algoritmos supervisados y los no supervisados, siendo capaces de emplear tanto objetos etiquetados como no etiquetados en la fase de clasificación de nuevos objetos. Una propuesta de estos algoritmos son los algoritmos denominados de Aprendizaje Continuo, los que se pueden definir como el conjunto de métodos y técnicas que permiten a un sistema de Reconocimiento de Patrones la incorporación de nuevos conocimientos a lo largo de su funcionamiento, es decir, beneficiarse de la experiencia adquirida durante la clasificación de nuevas muestras. Entre algunas de las principales ventajas de utilizar un sistema de aprendizaje continuo podemos mencionar las siguientes: el clasificador es más robusto porque los errores u omisiones en el conjunto de entrenamiento inicial pueden ser corregidos durante la fase de clasificación (o funcionamiento real del sistema), el sistema puede ser capaz de adaptarse a entornos cambiantes. Dentro de este contexto, la presente tesis presenta una nueva regla de clasificación basada en distancia, que tiene en cuenta la probabilidad de pertenencia a la clase de cada uno de los vecinos más cercanos a la muestra x, utilizando esta regla de clasificación y, el esquema de edición de Wilson, presentamos un algoritmo de edición estocástico e implementamos una opción de rechazo con esta característica. La principal ventaja de estos algoritmos es que los porcentajes de reducción de la talla del conjunto de entrenamiento son superiores a los esquemas de edición tradicionales. También en este trabajo con el objetivo de reducir la talla del conjunto de entrenamiento, valiéndonos de una función de densidad local hemos desarrollamos técnicas de condensado estocástico, que nos servirán para controlar la talla del conjunto de entrenamiento, estos algoritmos han sido comparado con diferentes técnicas de

Resumen

reducción de la talla del conjunto de entrenamiento, obteniendo resultados satisfactorios. Finalmente, la mayor contribución de esta tesis, esta dirigida al diseño y la evaluación de un algoritmo de aprendizaje continuo, que no solamente pueda aprender con objetos etiquetados, sino también beneficiarse de la experiencia obtenida cuando clasifica nuevos objetos no etiquetados. Una meta básica de nuestro algoritmo es hacer el procedimiento de aprendizaje continuo tan automático como sea posible incorporando nuevos ejemplos en el conjunto de entrenamiento después que han sido etiquetados por el propio sistema. En la fase de clasificación, hemos utilizado la regla estocástica antes mencionada, como clasificador central dentro de este algoritmo. Sin embargo, este procedimiento pudiera deteriorar la ejecución de nuestro sistema por la inclusión en el conjunto de entrenamiento de objetos mal clasificados. Con el objetivo de minimizar estos errores empleamos diferentes algoritmos de edición estocásticos para filtrar y descartar aquellos patrones mal clasificados y, por último para controlar la talla del conjunto de entrenamiento, son empleado los esquemas de condensado que utilizan una función de densidad local para extraer aquellas muestras que pertenezcan a zonas de alta densidad de objetos en el conjunto de entrenamiento.

vi

Abstract Supervised classification algorithms usually operate on the information provided by a set of samples, a set of patterns, examples or training prototypes that are all considered representatives of relevant classes and have a correct class label. Unsupervised algorithms, unlike the previous ones, do not have a training set, and using clustering algorithms, build the training set. But, in the real world, changes are constant, and the traditional way in which a classifier works does not consider the gradual modification of the knowledge that it possesses, i.e., classifier is trained to recognize a kind of objects of interest, then it is tested for accuracy and finally, it is put into production, until there is the need to re-train the classifier because its performance has degraded. To address this difficulty, in the decade of the 90s, there appear several works on supervised learning [Bensaid,1996], [Castellí, 1995], [Nigam, 2000], which represent a true trade-off between the supervised and unsupervised algorithms, being able to use both labelled and unlabelled objects in the phase of classification of new objects. Within this scenario, a proposal refers to the Ongoing Learning, which can be defined as a set of methods and techniques that allow the incorporation of new knowledge in the system, i.e., to benefit from the experience stored during the classification of new samples. Among the main advantages of using an ongoing learning system, we can mention the following: the classifier is more robust because errors or omissions in the initial training set can be corrected during the phase of classification, and also the system may be able to adapt to changing environments. Within this context, this Ph.D. Thesis presents a new distance-based classification rule, which takes into account the probability of belonging to the class of each one of the nearest neighbours of the sample x. By using this classification rule and the Wilson’s editing scheme, we present a new stochastic editing algorithm and implement a reject option with this feature. The main advantage of these algorithms is that the percentage of training set size reduction is superior to that of traditional editing schemes. Also in this work, with the aim of reducing the training set size, using a local density function we develop stochastic condensing techniques, which will help us to control the size of the training set. These algorithms have been compared with different reduction techniques, obtaining successful results. Finally, the main contribution of this Ph.D. Thesis is adressed to the design and evaluation of an ongoing learning algorithm, which not only can learn from labelled patterns, but also benefit from the experience obtained when classifying new unlabelled objects. A basic goal of our algorithm is to make the ongoing learning process as automatic as possible incorporating new examples in the training set after they have been labelled by the system itself. In the classification phase, we have used the stochastic rule above mentioned as the central classifier within this algorithm. However, this procedure could deteriorate the

Abstract

performance of our system due to the inclusion in the training set of misclassified objects. In order to minimize these errors, we employ different stochastic editing algorithms to filter and discard those misclassified patterns and finally, to control the size of the new training set, we use condensing schemes based on a local density function to extract those samples that belong to regions of high density of objects in the training set.

viii

Agradecimientos Esta memoria de Tesis Doctoral no puede considerarse más que el resultado de un arduo trabajo que empezó hace ahora cuatro años, cuando un grupo de profesores de la Universidad Jaumel I fueron a la ciudad de Santiago de Cuba y comenzaron a impartir los cursos de Doctorado. Desde aquellos primeros días y hasta alcanzar este primer objetivo, se han necesitado muchas horas de lectura y estudio, de análisis, de diseño e implementación, de experimentación y, finalmente, de redacción. En este momento es cuando realmente te das cuenta que son muchas las personas que, en mayor o menor medida, han contribuido a la culminación de esta tesis. Unas proporcionándote valiosas sugerencias, ideas y críticas, otras ofreciéndote su generoso apoyo moral. De este modo, en primer lugar, desearía expresar mi más sincero agradecimiento a los directores de esta tesis, José Salvador Sánchez Garreta y Filiberto Pla, que en primer lugar sin conocerme accedieron a que trabajara con ellos en su línea de investigación. Luego me han brindado una magnifica atención tanto en el plano científico como personal, y por haberme ayudado también a introducirme en este fascinante mundo de la investigación. Tampoco debo olvidarme de una larga lista de personas que, sin ser conscientes de ello, han conseguido despertar en mí el interés por el Reconocimiento de Formas a partir de sus excelentes artículos o de sus brillantes ponencias. Muchos han sido referenciados en las páginas de cada capítulo. A todos ellos se les debe mucho por sus contribuciones a este campo que evoluciona tan vertiginosamente. De igual manera, sería injusto por mi parte si no recordara aquí a los demás compañeros del Departamento de Lenguajes y Sistemas Informático de esta Universidad porque, en cierto modo, también ellos han participado en mi formación, no sólo como investigador, sino también como persona. En particular, debería mencionar a Pablo Boronat, Ricardo Quirós, German Fabregat, José Sotoca, por todas las atenciones que han tenido conmigo en las distintas estancias realizadas aquí en el departamento. Quiero también escribir aquí unas palabras de cariñosa gratitud para mi familia y, de forma muy especial, para mis padres, aunque uno de ellos no esté fisicamente conmigo, ya que con su esfuerzo y trabajo han puesto todo su empeño para que yo hoy tenga aquí el enorme privilegio de presentar esta tesis. Finalmente, destacar el reconocimiento más importante para la persona más importante de mi vida, mi esposa Damaris Pascual, a ella dedico por completo este trabajo, debido a que constantemente me brindó todo su apoyo para que consiguiera este objetivo. A mis dos hijos Fernando y Dayami, todo mi amor y agradecimiento por tolerarme pacientemente en los momentos en que hemos estado solos en la casa y los que he faltado de la casa por estar aquí en la UJI. Mi esposa querida y mis hijos fueron en realidad, mi inspiración, mi estímulo, mi impulso, mi pasión y a ellos tres está dedicado por completo este trabajo.

Prólogo Un aspecto importante de la actividad humana lo constituye el continuo interés por el diseño y desarrollo de herramientas y máquinas (entendidas en su sentido más amplio) con la finalidad de disminuir el esfuerzo físico y/o realizar procesos más rápidos y mejores. Una orientación de ello, la primera, históricamente se refleja en el desarrollo de ingenios capaces de posibilitar, reducir o eliminar el esfuerzo en tareas de naturaleza física. La otra orientación, cualitativamente diferente, es la que se refiere a las máquinas capaces de procesar información. Los niveles de desarrollo de las sociedades, fundamentalmente en la segunda mitad del siglo pasado, han conllevado a una explosión en el crecimiento de la cantidad de información generada. Debido a esto, diversos sectores económicos comenzaron a mostrar un interés cada vez mayor hacia la manipulación automatizada de la información, surgiendo de esta manera una rama de la ciencia que es la Informática, entendida como la disciplina del tratamiento y la representación automatizada de la información. Por la naturaleza de su contenido, el presente trabajo se enmarca dentro de lo que, en general, se denomina Reconocimiento de Formas o Patrones y más concretamente, se centra en el estudio, análisis y desarrollo de un conjunto de métodos no paraméticos de clasificación y aprendizaje supervisado y semi-supervisado. A pesar de ello, podemos decir que dada la gran diversidad de disciplinas que, de algún modo, intervienen en todos estos procedimientos, también cabría la posibilidad de considerar esta tesis como un trabajo perteneciente a la disciplina de Inteligencia Artificial. En particular, esta memoria de Tesis Doctoral incide directamente sobre un conjunto de técnicas de clasificación y aprendizaje basadas en criterios de vecindad sobre espacios métricos. En este sentido, la regla del Vecino más Próximo constituye el ejemplo más representativo dentro de esta categoría de procedimientos, debido a su excelente comportamiento teórico en el caso asintótico, y también a la sencillez de implementación y aplicación, lo que la convierte en un instrumento de gran popularidad dentro de un contexto genérico de Reconocimiento de Formas. Sin embargo, debemos señalar también que estos esquemas presentan una serie de inconvenientes, derivados básicamente de la pérdida de efectividad a medida que la cantidad y la calidad de la información que utilizan disminuyen, así como de la complejidad temporal que su aplicación puede suponer. Debido a este inconveniente, algunos investigadores llegan incluso a presentarla como una regla de clasificación inferior a otras aproximaciones no paramétricas basadas en desarrollos más complejos. A lo largo del presente trabajo, introduciremos un conjunto de métodos alternativos a los esquemas clásicos basados en criterios de vecindad, con el objetivo fundamental de aprovechar no solo la métrica definida en la vecindad seleccionada, sino además tener en cuenta la probabilidad de pertenencia a la clase de los vecinos más próximos a la

Prólogo

muestra que se desea clasificar. En otras palabras, a lo largo de esta memoria de Tesis abordaremos un enfoque estocástico de clasificación, que será aplicado a los esquemas de selección de prototipos y también abordaremos un esquema de aprendizaje continuo utilizando técnicas estocásticas. Con las alternativas aquí propuestas tratamos de superar las deficiencias que acabamos de apuntar, así como las limitaciones inherentes a la definición de aquellas reglas de clasificación y del conjunto de procedimientos que las utilizan, debido básicamente a la degradación de la información disponible y a su elevado coste computacional. Es importante señalar también que, además de representar una labor de búsqueda y recopilación sobre las diferentes reglas de clasificación basadas en criterios de vecindad y de un considerable número de esquemas de edición y condensado, esta tesis pretende fijar un punto de partida para el establecimiento de una serie de conceptos, reglas y procedimientos con el fin de alcanzar los objetivos básicos previamente enunciados. Por último, cabe añadir que los diferentes esquemas presentados en cada uno de los apartados serán empíricamente comparados con las principales técnicas convencionales, en aras de evaluar y valorar las ventajas e inconvenientes del comportamiento exhibido por cada uno de ellos. La presente memoria de Tesis Doctoral se presenta estructurada en tres módulos principales. El primero de ellos estará destinado, íntegramente, a la introducción de los fundamentos teóricos, necesarios para disponer de una visión global sobre el problema que vamos a tratar. En la segunda parte, se encuentran las aportaciones de este trabajo, tanto en lo referente a la definición de los nuevos conceptos, métodos y algoritmos, así como la experimentación y los resultados obtenidos por cada uno de los métodos que aquí hemos desarrollado. Por último, la tercera parte de la memoria recogerá las principales conclusiones que se pueden extraer de los resultados mostrados, así como las posibles extensiones a considerar en trabajos futuros.

xii

Índice General Parte I. Introducción y Fundamentos Teóricos Capítulo 1. Introducción 1. Contexto.......................................................................................................................3 2. Motivación y Objetivos Generales ..............................................................................7 3. Organización de la Memoria de la Tesis .....................................................................8

Capítulo 2. Técnicas de Clasificación basadas en Criterios de Vecindad 1. Introducción...............................................................................................................11 2. Formulación General de un Problema de Clasificación ............................................12 2.1. Distancias o métricas..........................................................................................13 3. Fundamentos Estadísticos .........................................................................................16 4. Clasificador Naive Baye............................................................................................18 5. Clasificadores no Parametricos .................................................................................19 5.1. Clasificador de Distancia Mínima......................................................................19 5.2. Regla del Vecino más Cercano ..........................................................................20 5.3. Regla de los k vecinos más cercanos..................................................................21 5.4. Regla k-NN con Rechazo ...................................................................................24 6. Clasificadores Basados en el Concepto de Vecindad Envolvente.............................25 6.1. Vecindad de Centride más Próximo...................................................................27 6.2. Regla de Clasificación k-NCN ...........................................................................29 6.3. Clasificación por Grafos de Proximidad ............................................................30

Capítulo 3. Técnicas de Filtrado de las Muestras de Aprendizaje 1. Introducción...............................................................................................................33 2. Algoritmos de Edición...............................................................................................34 2.1. Taxonomías de los Algoritmos de Edición ........................................................35 3. Algoritmo de Edición de Wilson ...............................................................................37 3.1. Edición Repetitiva ..............................................................................................38 3.2. Edición con Rechazo ..........................................................................................39

Índice General

3.3. Edición con Reetiquetado...................................................................................39 4. Edición por Partición .................................................................................................40 4.1. Algoritmo Multiedición......................................................................................41 4.2. Edición por Validación Cruzada ........................................................................42 4.3. Multiedición por Validación Cruzada ................................................................43 5. Edición por Vecindad de Centroide más Próximo ....................................................43 6. Edición Basada en Grafos de Proximidad .................................................................45 7. Algoritmos de Edición Basados en Instancias...........................................................47 8. Algoritmo DROP (Decremental Reduction Optimization Procedure)......................48 9. Algoritmo ICF (Iterative Case Filtering)..................................................................50 10. Algoritmo de Edición Generalizada ..........................................................................51 11. Algoritmo BSE (Backward Sequential Edition .........................................................52 12. Esquemas que Utilizan el Algoritmo BS...................................................................53

Capítulo 4. Técnicas de Reducción del Conjunto de Entrenamiento 1. Introducción...............................................................................................................55 2. Algoritmo Condensado de Hart.................................................................................56 2.1. Algoritmo de Condensado Reducido .................................................................57 3. Algoritmo Condensado de Tomek.............................................................................58 4. Condensado de Chen .................................................................................................59 5. Condensado Adaptativo. Método por Cuantificación Vectorial ( LVQ) ..................61 6. Algoritmo Subconjunto Selectivo .............................................................................64 7. Algoritmo Subconjunto Selectivo Modificado..........................................................67

Capítulo 5. Aprendizaje Parcialmente Supervisado 1. 2. 3. 4. 5.

Introducción...............................................................................................................69 Modelos Generativos.................................................................................................70 Auto-Entrenamiento. (Self-training, bootstrapping) .................................................71 Co-Entrenamiento......................................................................................................71 Máquinas de Vector Soporte Semi-Supervisadas......................................................73 5.1. Regularización de la Información ......................................................................74 6. Métodos basados en Grafos.......................................................................................74 6.1. Regularización por Grafo ...................................................................................75 7. Teoría del Aprendizaje Computacional.....................................................................75 8. Algoritmo Parcialmente Supervisado Utilizando Técnicas de Selección de Prototipos...................................................................................................................76 Conclusiones. Introducción y Fundamentos Teóricos.....................................................78

xiv

Índice General

Parte II. Aportaciones y Análisis Comparativo Capítulo 6. Reglas de Clasificación Estocásticas 1. 2. 3. 4. 5. 6. 7.

Introducción...............................................................................................................83 Ventanas de Parzen....................................................................................................84 Regla de los k Vecinos más Cercanos .......................................................................89 Regla de Clasificación Estocástica ............................................................................90 Regla de Clasificación Estocástica con Rechazo ......................................................94 Regla k-NCN Estimando las Probabilidades de Clases.............................................95 Resultados Experimentales Utilizando Reglas de Clasificación Estocásticas...........96 7.1. Reglas de Clasificación con Rechazo.................................................................99 8. Conclusiones............................................................................................................103

Capítulo 7. Algoritmos de Edición Estocásticos 1. Introducción.............................................................................................................105 2. Algoritmo de Edición de Wilson Estocástico (Wilson-prob)..................................105 2.1. Algoritmo de Edición Estimando probabilidades de Clases y Umbral ............107 3. Edición Estocástica Utilizando la Regla δk- NCN ......................................................109 4. Edición Repetitiva Utilizando Probabilidades de Clases ........................................111 5. Resultados Experimentales con Reglas de Edición Estocásticas ............................112 5.1. Esquema Estocástico de Wilson y Wilsoncn ...................................................112 5.2. Resultados Correspondientes a la Edición Estocástica Repetitiva...................121 5.3. Esquema de Wilson y Wilsoncn con Reetiquetado..........................................123 5.4. Esquemas de Edición por Particiones ..............................................................125 6. Conclusiones............................................................................................................126

Capítulo 8. Técnicas de Condensado Basadas en Densidad Local 1. Introducción.............................................................................................................129 2. Algoritmos de Condensado Estimando Densidades Locales ..................................130 3. Resultados Experimentales con los Algoritmos de Condensado Basados en Densidad ..................................................................................................................135 3.1. Algoritmos de Condensado Dens(R) y Dens(K) ..............................................135 3.2. Técnicas de Reducción de la Talla del Conjunto de Entrenamiento................139 4. Conclusiones............................................................................................................146

xv

Índice General

Capítulo 9. Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado 1. Introducción.............................................................................................................149 2. Algoritmo de Aprendizaje Continuo Utilizando Probabilidades de Clase ..............150 3. Técnicas de Condensado Utilizando Funciones de Densidad Aplicadas al Aprendizaje Continuo..............................................................................................154 4. Resultados Experimentales de los Algoritmos de Aprendizaje Continuo...............156 4.1. Resultados Experimentales Incorporando Técnicas de Condensado Basado en Densidades Locales ..........................................................................................159 4.2. Comparación de Algoritmos Referente al Control de la Talla del Conjunto de Entrenamiento ..................................................................................................163 4.3. Control de la Talla del Conjunto de Entrenamiento en Cada Iteración Utilizando Dens(K2)- Variante 2 .......................................................................................165 4.4. Comparación entre Ap-Dens(K2)-V1 y Ap-Dens(K2)-V2 ..............................168 5. Conclusiones............................................................................................................171

Parte III. Conclusiones y Líneas Futuras Capítulo 10. Conclusiones Finales 1. Principales Aportaciones .........................................................................................177 2. Posibles Extensiones ...............................................................................................178

Anexos A. Descripción de las Bases de Datos Utilizadas en los Experimentos ........................181

Bibliografía Referencias Bibliográficas.............................................................................................187

xvi

Índice de Tabla

Tablas del Capítulo 6 Tabla 1. Un breve sumario de las bases de datos utilizadas en los experimentos ...........97 Tabla 2. Porcentaje de clasificación, desviación típica diferencias de porcentajes y ranking comparando los clasificadores k-NN y k-NN-prob ............................................98 Tabla 3. Porcentaje de clasificación, desviación típica porcentajes de muestras rechazadas usando clasificadores con opciones de rechazo ..........................................100 Tabla 4. Porcentaje de clasificación, desviación típica diferencias de porcentajes, ranking y opciones de rechazo, utilizando los clasificadores k-NCN y k-NCN-prob ...101

Tablas del Capítulo 7 Tabla 5. Porcentaje de clasificación y reducción del conjunto de entrenamiento usando diferentes algoritmos de edición....................................................................................113 Tabla 6. Test de Friedman correspondiente a porcentaje de clasificación ....................115 Tabla 7. Test de Friedman correspondiente a reducción de la talla del conjunto de entrenamiento ................................................................................................................115 Tabla 8. Porcentajes de clasificación y reducción del conjunto de entrenamiento, usando diferentes algoritmos de edición....................................................................................118 Tabla 9.Porcentajes de clasificación y reducción del conjunto de entrenamiento, usando diferentes algoritmos de edición con regla de edición k-NCN, k-NCN-prob, k-NCNprob-umb-var y k-NCN-prob-umb ................................................................................119 Tabla 10. Test de Friedman correspondiente a porcentajes de clasificación.................120 Tabla 11. Test de Friedman correspondiente a reducción de la talla del conjunto de entrenamiento ................................................................................................................121 Tabla 12. Resultado del esquema repetitivo de Wilson ................................................122 Tabla 13. Resultado del esquema repetitivo de Wilsoncn.............................................123 Tabla 14. Resultado de los algoritmos de edición con reetiquetado (Wilson) ..............124 Tabla 15. Resultado de los algoritmos de edición con reetiquetado (Wilsoncn) ..........124 Tabla 16. Resultado de la comparación entre esquemas por partición y sus esquemas estocásticos ....................................................................................................................125

Tablas del Capítulo 8 Tabla 17. Porcentaje de clasificación con algoritmo condensado Dens(R)...................135

Índice de Tabla

Tabla 18. Porcentaje de clasificación con algoritmos de condensado basados en densidad .........................................................................................................................136 Tabla 19. Coeficiente de reducción utilizando algoritmos de condensado basados en densidad .........................................................................................................................137 Tabla 20. Porcentaje de clasificación utilizando técnicas de reducción........................139 Tabla 21. Porcentaje de clasificación utilizando técnicas de reducción........................140 Tabla 22. Porcentaje de clasificación utilizando técnicas de reducción........................140 Tabla 23. Porcentaje de reducción utilizando técnicas de condensado .........................141 Tabla 24. Porcentaje de reducción utilizando técnicas de condensado .........................141 Tabla 25. Porcentaje de reducción utilizando técnicas de condensado .........................141

Tablas del Capítulo 9 Tabla 26. División de las bases de datos utilizadas para realizar los experimentos......156 Tabla 27. Diferentes algoritmos de aprendizaje continuo .............................................157

xviii

Índice de Figuras

Figuras del Capítulo 1 Figura 1. Elementos de un sistema de Reconocimiento de Patrones.................................4 Figura 2. Diseño de un sistema de Reconocimiento de Patrones ......................................5

Figuras del Capítulo 2 Figura 3. Desempeño de la regla k-NN ...........................................................................23 Figura 4. Comparación entre diferentes clasificadores ...................................................23 Figura 5. Ejemplo del concepto NCN .............................................................................29

Figuras del Capítulo 3 Figura 6. Clasificación k-NN usando el conjunto completo y editado............................35 Figura 7. Estrategia de edición incremental ....................................................................36 Figura 8. Estrategia de edición decremental....................................................................36

Figuras del Capítulo 4 Figura 9. Metodología de esquema LVQ ........................................................................64

Figuras del Capítulo 5 Figura 10. Esquema general de aprendizaje continuo .....................................................77

Figuras del Capítulo 7 Figura 11. Comparación de algoritmos de edición en las bases de datos Balance, Cancer y Diabetes ......................................................................................................................116

Ïndice de Figura

Figura 12. Comparación de algoritmos de edición en las bases de datos German y Satimage ........................................................................................................................117 Figura 13.Gráficas correspondientes a resultados de la Tabla 8 ...................................118 Figura 14. Gráficas correspondientes a resultados de la Tabla 8 ..................................119

Figuras del Capítulo 8 Figura 15. Gráficas comparación de algoritmos basados en densidad para las bases de datos Australian, Balance, Cancer y Diabetes...............................................................137 Figura 16. Gráficas comparación de algoritmos basados en densidad para las bases de datos Heart y Liver ........................................................................................................138 Figura 17. Comparación de algoritmos basados en densidad para las bases de datos Phoneme, Satimage, Texture e Iris................................................................................138 Figura 18. Comparación de algoritmos basados en densidad para las bases de datos LedCreator y Wine...............................................................................................................139 Figura 19. Comparación entre diferentes técnicas para reducir la talla del conjunto de entrenamiento ................................................................................................................142 Figura 20. Comparación entre diferentes técnicas para reducir la talla del conjunto de entrenamiento ................................................................................................................143 Figura 21. Comparación entre diferentes técnicas para reducir la talla del conjunto de entrenamiento ................................................................................................................143 Figura 22. Comparación entre diferentes técnicas para reducir la talla del conjunto de entrenamiento ................................................................................................................144 Figura 23. Comparación entre diferentes técnicas para reducir la talla del conjunto de entrenamiento ................................................................................................................145 Figura 24. Gráficas donde se muestran los resultados de la Tabla de rangos correspondiente a porcentajes de clasificación y coeficiente de reducción...................146

Figuras del Capítulo 9 Figura 25. Esquema de aprendizaje continuo utilizando probabilidades de clases .......152 Figura 26. Algoritmos de clasificación y edición utilizados .........................................153 Figura 27. Esquema de aprendizaje continuo utilizando condensado por densidades ..155 Figura 28. Resultado de los algoritmos con las bases datos Cancer y Heart.................157 Figura 29. Resultados de los algoritmos con las bases Diabetes, German, Phoneme, Satimage y Australian....................................................................................................158 Figura 30. Resultado del aprendizaje continuo utilizando algoritmo de condensado Dens(K)..........................................................................................................................161 Figura 31. Resultado del aprendizaje continuo utilizando algoritmo de condensado Dens(K)..........................................................................................................................162 Figura 32. Resultado de comparar Ap-Dens(K), Ap-Dens(K2), Ap-Edición..................163 Figura 33. Resultado de comparar Ap-Dens(K), Ap-Dens(K2), Ap-Edición..................164 Figura 34. Resultado de comparar Ap-Dens(K), Ap-Dens(K2), Ap-Edición..................165 Figura 35. Resultado de comparar Ap-Dens(K), Ap-Dens(K2), Ap-Edición..................165

xx

Índice de Figura

Figura 36. Resultado del aprendizaje continuo (variante 2) utilizando condensado Dens(K2)........................................................................................................................166 Figura 37. Resultado del aprendizaje continuo (variante 2) utilizando condensado Dens(K2)........................................................................................................................167 Figura 38. Resultado del aprendizaje continuo (variante 2) utilizando condensado Dens(K2)........................................................................................................................168 Figura 39. Resultados de comparar los algoritmos de aprendizaje continuo ApDens(K2)-V1 y Ap-Dens(K2)-V2 ..................................................................................169 Figura 40. Resultados de comparar los algoritmos de aprendizaje continuo ApDens(K2)-V1 y Ap-Dens(K2)-V2 ..................................................................................169 Figura 41. Resultados de comparar los algoritmos de aprendizaje continuo ApDens(K2)-V1 y Ap-Dens(K2)-V2 ..................................................................................170 Figura 42 Resultados de comparar los algoritmos de aprendizaje continuo Ap-Dens(K2)V1 y Ap-Dens(K2)-V2 ...................................................................................................170

xxi

Notación Conjunto de prototipos .....................................................................................................X Prototipo i-ésimo del conjunto X ..................................................................................... xi Talla del conjunto de prototipos ....................................................................................... N Cantidad de bases de datos ...............................................................................................N Conjunto de las clases de un problema.............................................................................Ω Número de clases............................................................................................................. M Clase i .............................................................................................................................. wi Etiqueta de clase asociada al prototipo i-ésimo................................................................ θi Espacio de Representación ............................................................................................... E Función distancia...............................................................................................................d Regla de decisión o clasificación ......................................................................................δ Regla del vecino más próximo ......................................................................................NN Cantidad de algoritmos......................................................................................................k Suma de ranking positivos.............................................................................................. R+ Suma de ranking negativo ............................................................................................... REstimador Wilcoxon Signed Ranks Test ...........................................................................z Estimador de Fredman.....................................................................................................FF Valor o talla de la vecindad ...............................................................................................k k-Vecindad más próxima de la muestra x................................................................... Vk(x) Regla de los k-vecinos más cercanos..........................................................................k-NN Regla de los (k,l)-vecinos más próximos............................................................... (k,l)-NN Regla de los (k,li)-vecinos más próximos ............................................................. (k,li)-NN Regla de los (k,m)-vecinos más próximos ........................................................... (k,m)-NN Regla de los (k,m,k´)-vecinos más próximos ....................................................(k,m,k´)-NN Grafos formados por el conjunto de nodos V y el conjunto de arcos.................. AG(V,A) Grafo de Gabriel ............................................................................................................GG Grafo de vecindad relativa.......................................................................................... RNG Hiperesfera de influencia entre p y q.............................................................................Γp,q Hiperluna de influencia entre p y q ...............................................................................Λp,q Vecindad envolvente de Gabriel de la muestra x ................................................... VEG(x) Vecindad envolvente relativa de la muestra x ........................................................ VER(x) Regla de clasificación estocástica...............................................................................δk-prob Opción de rechazo estocástica.............................................................................. δk-prob-umb Variante de opción de rechazo estocástica .......................................................δk-prob-umb-var Regla de clasificación NCN estocástica .............................................................. δk-NCN-prob Opción de rechazo NCN estocástica ..............................................................δk-NCN-prob-umb Variante de opción de rechazo estocástica ................................................ δk-NCN-prob-umb-var

Parte I

Introducción y Fundamentos Teóricos

Capítulo 1 Introducción 1. Contexto Siguiendo la definición de Watanabe [Wat, 1985], un patrón es una entidad a la que se le puede dar un nombre y que está representada por un conjunto de propiedades medibles (mesurables) y las relaciones entre ellas (vector de características). Por ejemplo, un patrón puede ser una señal sonora y su vector de características, el conjunto de coeficientes espectrales extraídos de ella (espectrograma). Otro ejemplo podría ser una imagen de una cara humana de las cuales se extrae el vector de características formado por un conjunto de valores numéricos calculados a partir de la misma. El reconocimiento automático, descripción, clasificación y agrupamiento de patrones son actividades importantes en una gran variedad de disciplinas científicas, como biología, psicología, medicina, geología, visión por computador, inteligencia artificial, teledetección, entre otras. En el Reconocimiento de Patrones, a pesar de ser una zona del conocimiento relativamente joven, apenas unos 45 años, su carácter interdisciplinario hace que este problema tenga una alta complejidad. A lo largo de este tiempo, muchas ciencias han participado en el desarrollo exitoso de herramientas con el fin de solucionar disímiles problemas prácticos y teóricos dentro del Reconocimiento de Patrones. Pudiéramos definir entonces al Reconocimiento de Patrones [J.R. Shulcloper, 2002] como la zona del conocimiento (de carácter interdisciplinario) que se ocupa del desarrollo de teorías, métodos, técnicas y dispositivos computacionales para la realización de procesos ingenieriles, computacionales y/o matemáticos, relacionados con objetos físicos y/o abstractos, que tienen el propósito de extraer la información que le permita establecer propiedades y/o vínculos de o entre conjuntos de dichos objetos sobre la base de los cuales se realiza una tarea de identificación o clasificación. El hecho de que existan muchas disciplinas que utilizan el Reconocimiento de Patrones, hace que no sea nada fácil encontrar un paradigma aplicable a todas ellas. El más utilizado, por su generalidad, es el paradigma de la clasificación. Según éste, un sistema de reconocimiento de patrones consta de tres etapas [Duda. H, 1973]: en la primera, se obtiene una representación del objeto como resultado de un conjunto de mediciones; en la segunda, denominada extracción de características, se realiza un proceso interpretativo cuyo resultado se considera como una nueva representación del objeto en la que se extrae información relevante sobre el mismo; la tercera etapa es la clasificación propiamente dicha o proceso de identificación. En cualquier problema de reconocimiento es además importante una fase de adquisición de conocimiento,

Capítulo1

denominada aprendizaje o entrenamiento. En esta fase se parte de muestras controladas (de clasificación conocida) para establecer los modelos requeridos para el diseño del clasificador y/o los parámetros de estos modelos.

Figura 1. Elementos de un sistema de Reconocimiento de Patrones.

Dentro del Reconocimiento de Patrones podemos señalar tres grandes grupos. El primero se refiere al Reconocimiento Sintáctico, en el que se buscan las relaciones estructurales que guardan los objetos en estudio, es decir, busca la cantidad de información que una muestra x1 tiene sobre otra muestra x2, y el metalenguaje con el que este último pudo ser capaz de descubrirlo. Para ello, hace uso de descriptores sintácticos con la ayuda de la teoría de los lenguajes formales [Fuyama, 1982]. Entre las aplicaciones, dentro de este paradigma, podemos mencionar el análisis de secuencias de proteínas, así como también biosecuencias de ADN para evaluar la eficacia de alfabetos reducidos de aminoácidos, correspondientes estas investigaciones al campo de la biología molecular. La segunda vertiente que existe dentro del Reconocimiento de Patrones es el Reconocimiento Lógico Combinatorio. Este enfoque se basa en la idea de que la modelación del problema debe ser lo más cercana posible a la realidad del mismo, sin hacer suposiciones que carezcan de fundamento. Uno de los aspectos esenciales de este tipo de enfoque es que las características utilizadas para describir a los objetos de estudio deben ser tratadas cuidadosamente. Debemos señalar que para realizar el reconocimiento, se auxilian de formalismos matemáticos, que le permiten derivar nuevos conocimientos a partir de conocimientos existentes. El último grupo en el cual se divide el Reconocimiento de Patrones es el Reconocimiento Estadístico de Formas, el cual es una disciplina científica donde un

4

Introducción

patrón se representa por un vector numérico de dimensión n. De esta forma, un patrón es un punto en un espacio n-dimensional (de características). Un algoritmo de Reconocimiento Estadístico de Formas (REF) funciona de dos maneras diferentes: entrenamiento y reconocimiento. En el modo de entrenamiento, se diseña el extractor de características para representar los patrones de entrada y se entrena al clasificador con un conjunto de datos de entrenamiento previamente definidos de forma que el número de patrones mal identificados se minimice. En el modo de reconocimiento, el clasificador ya entrenado toma como entrada el vector de características de un patrón desconocido y lo asigna a una de las clases o categorías según el conocimiento adquirido previamente en el modo de entrenamiento. Las diferentes estrategias que aparecen al diseñar un sistema de REF se muestran en el siguiente esquema.

Figura2. Diseño de un sistema de Reconocimiento Estadístico de Patrones.

Entre los clasificadores estadísticos también suele haber dos grandes grupos. Por una parte, clasificadores paramétricos son aplicados cuando es conocida la distribución de probabilidades de las clases, siendo el clasificador de Bayes su máximo representante. El otro grupo está integrado por los métodos de clasificación no paramétricos, los cuales son aplicados en problemas donde no se conoce la distribución de probabilidades de clases. Un especial interés dentro de este conjunto de clasificadores se le atribuye a los que utilizan criterios de vecindad, debido a que poseen propiedades interesantes con respecto a otros métodos no paramétricos. La más inmediata hace referencia a su

5

Capítulo1

simplicidad conceptual, la clasificación de un nuevo punto en el espacio de representación se puede estimar en función de la distribución local de los patrones en el conjunto de entrenamiento que se encuentran en un entorno suficientemente pequeño de aquel punto. La regla del vecino más cercano (Nearest Neighbour, NN) es uno de los algoritmos no paramétricos más extensamente estudiado en toda la literatura, la cual consiste en, dado un conjunto de prototipos previamente etiquetados (conjunto de entrenamiento) esta regla asigna un objeto a la clase del vecino más cercano en el conjunto de prototipos, en correspondencia a una medida de similaridad en el espacio de características. Otro algoritmo también extensamente estudiado es la regla de los kvecinos más cercanos (k-NN), la cual se puede resumir en que la clase asignada al objeto será la clase más votada entre los k vecinos más próximos del conjunto de entrenamiento. Otro aspecto a destacar en los algoritmos dedicados al Reconocimiento de Patrones es que para clasificar a los objetos, en dependencia de las diferentes maneras en que utilizan la información suministrada, suelen dividirse en dos grandes grupos: algoritmos supervisados y algoritmos no supervisados. Los algoritmos de clasificación supervisada operan usualmente sobre la información suministrada por un conjunto de muestras, un conjunto de patrones, ejemplos o prototipos de entrenamiento que son asumidos como representantes todos de clases relevantes y los mismos poseen una etiqueta de clase correcta. Los algoritmos no supervisados a diferencia de los anteriores, no van a disponer del conjunto de entrenamiento y, valiéndose de algoritmos de agrupamiento (cluster), construyen el conjunto de entrenamiento (TS). Sin embargo, en el mundo real los cambios son constantes; y la forma tradicional en que trabaja un clasificador no considera la modificación paulatina del conocimiento que éste posee, es decir, el clasificador es entrenado para reconocer un tipo de objetos de interés (clases), después es probada su precisión y, finalmente, es puesto en producción, hasta que se tiene la necesidad de volver a entrenar al clasificador debido a que se ha perdido la buena precisión de éste. Para tratar de resolver esta dificultad, en la década de los años 90 en diversos trabajos [Bensaid, 1996], [Castelli, 1995], [Nigam, 2000], surgen los algoritmos parcialmente supervisados, los cuales representan un cierto compromiso entre los algoritmos supervisados y los no supervisados, siendo capaces de emplear tanto objetos etiquetados como no etiquetados en la fase de clasificación de nuevos objetos. Una propuesta de estos algoritmos son los algoritmos denominados de Aprendizaje Continuo, los que se pueden definir como el conjunto de métodos y técnicas que permiten a un sistema de Reconocimiento de Patrones la incorporación de nuevos conocimientos a lo largo de su funcionamiento, es decir, beneficiarse de la experiencia adquirida durante la clasificación de nuevas muestras. Entre algunas de las principales ventajas de utilizar un sistema de aprendizaje continuo podemos mencionar las siguientes:

6

Introducción

• •

El clasificador es más robusto porque los errores u omisiones en el conjunto de entrenamiento inicial pueden ser corregidos durante la fase de clasificación (o funcionamiento real del sistema). El sistema puede ser capaz de adaptarse a entornos cambiantes o dinámicos.

Básicamente, los métodos o las técnicas que se requieren en un proceso de Aprendizaje Continuo pueden enmarcarse dentro de las cuatro categorías siguientes: 1. Clasificadores con opción de rechazo, para la detección de nuevas clases. 2. Algoritmos de edición o filtrado, para la eliminación de los prototipos de entrenamiento erróneamente etiquetados. 3. Algoritmos de condensado o reducción de la talla del conjunto de entrenamiento, para la eliminación de prototipos superfluos o innecesarios para la posterior clasificación de nuevas muestras. 4. Algoritmos de agrupamiento o clustering, para la definición de las regiones pertenecientes a las clases nuevas. La presente Tesis Doctoral se enmarca dentro del Reconocimiento de Formas o Patrones (Pattern Recognition), todo el trabajo de investigación que ha precedido a esta tesis se ha llevado a cabo dentro del Grupo de Visión por Computador de la Universidad Jaume I de Castellón, formado en Diciembre de 1993 y actualmente dirigido por el Dr. Filiberto Pla.

2. Motivación y Objetivos Generales El objetivo de esta Tesis Doctoral, es el diseño de un sistema de aprendizaje continuo en el marco de las técnicas de clasificación y aprendizaje basadas en criterios de vecindad. Para satisfacer este objetivo, fue necesario hacer referencia, concretamente, a las técnicas de clasificación y aprendizaje basadas en criterios de vecindad (regla de los k vecinos más cercanos). Estos métodos han significado, a lo largo de su historia, el punto de referencia para el desarrollo de cualquier otro sistema de clasificación. La gran aceptación de este conjunto de reglas se debe, no solo a su sencillez de implementación y aplicación, sino también a su excelente comportamiento teórico en el caso asintótico. No obstante, debemos señalar que estas aproximaciones no paramétricas pueden llegar a sufrir un considerable deterioro en su efectividad a medida que la cantidad de información disminuye. Como consecuencia de la existencia de todos estos inconvenientes pero, al mismo tiempo, también sin olvidarnos de los muchos aspectos positivos de estas técnicas, se marcó como finalidad prioritaria de esta Tesis Doctoral, el diseño y la implementación de un sistema de Aprendizaje Continuo, capaz de corregir el etiquetado erróneo de prototipos, y controlar el tamaño del conjunto de entrenamiento. Para ello, sería necesario analizar diferentes algoritmos de clasificación, de edición, de condensado existentes en la literatura de Reconocimiento de Patrones, así como proponer nuevas técnicas y estrategias para cada uno de estos grupos.

7

Capítulo1

Más concretamente, los objetivos perseguidos con la presente Tesis Doctoral son los siguientes: 1. Definir una nueva regla de clasificación estocástica donde no solo se tuviera en cuenta la distancia del objeto a sus vecinos más cercanos, sino además la probabilidad de pertenencia a la clase de cada uno de los vecinos. 2. Utilizar este nuevo esquema de clasificación para diseño, implementación y validación de algoritmos estocásticos de Edición y Condensado. 3. Incorporación de opciones de edición y filtrado estocásticos de la muestra de entrenamiento en el sistema de Aprendizaje Continuo. 4. Control del tamaño del conjunto de entrenamiento resultante mediante la aplicación de técnicas de condensado estocástico. Por último, aunque en sí mismo no llegara a constituir un objetivo esencial, podemos añadir que esta tesis contiene también un apartado de revisión y recopilación sobre los diferentes métodos de clasificación y aprendizaje por criterios de vecindad, así como también una amplia base de datos con los resultados de los diferentes experimentos que aquí se han llevado a cabo.

3. Organización de la Memoria de Tesis A partir de los objetivos establecidos en la sección anterior, hemos estructurado la presente memoria de tesis en dos partes principales, cada una de las cuales se encuentra organizada en una serie de capítulos. Así, una primera parte se dedica a la presentación de los fundamentos teóricos sobre los que se basará la totalidad de la tesis. La segunda parte se refiere a las aportaciones efectivas de este trabajo, en consonancia con los objetivos previamente marcados. En la tercera parte, podemos encontrar las conclusiones globales y las posibles líneas de investigación futuras. Por último, la bibliografía utilizada a lo largo de la tesis y los anexos se presenta al final de esta memoria. En el Capítulo 2, se hace una introducción general sobre los conceptos básicos utilizados en el campo del Reconocimiento de Formas, haciendo hincapié fundamentalmente en los diferentes clasificadores no paramétricos basados en criterios de vecindad que serán utilizados a los largo de todo el trabajo. Los Capítulos 3 y 4 contienen la revisión bibliográfica de diversos esquemas de filtrado de las muestras de entrenamiento, así como también de reducción de la talla del conjunto de entrenamiento para la regla del vecino más próximo presente en la literatura, señalándose las ventajas y deficiencias de cada uno de ellos. El Capítulo 5 está dedicado al estado del arte sobre los algoritmos de aprendizaje parcialmente supervisados, destacando aquí las diversas tendencias que existen en la actualidad sobre el problema de cómo utilizar los objetos no etiquetados en la fase de clasificación.

8

Introducción

En el Capítulo 6, se expone la regla de clasificación estocástica presentada en este trabajo, así como también las correspondientes opciones de rechazo de esta regla de clasificación. Este capítulo contiene, además, los experimentos que permiten evaluar la efectividad de esta nueva regla de clasificación sobre un conjunto de bases de datos reales y sintéticas tomadas del repositorio UCI. En los Capítulos 7 y 8, se realiza una presentación de los procedimientos de edición y condensado estocásticos obtenidos a partir de la probabilidad de pertenencia a la clase de cada uno de los vecinos más próximos a la muestra. Del mismo modo, se valida su comportamiento mediante un exhaustivo análisis empírico sobre las diferentes bases de datos sintéticas y reales utilizadas a lo largo del trabajo. En el Capítulo 9, se hace una propuesta de un algoritmo de Aprendizaje Continuo, donde de una manera armónica, se pretende integrar las diferentes técnicas estocásticas propuestas a lo largo de todo el trabajo. En este esquema, se utilizan de manera automática los objetos no etiquetados con el fin de ir mejorando continuamente el conjunto de entrenamiento y, a su vez, controlar la talla del mismo de manera que el costo computacional del algoritmo no crezca considerablemente. Finalmente, el Capítulo 10 recoge las conclusiones generales referente a la totalidad de la tesis y pone de manifiesto sus principales aportaciones en el campo del Reconocimiento de Formas. Para acabar, se examinan las diversas posibilidades de extensión sobre el trabajo ya realizado, y se apuntan las direcciones que podrían tomar las futuras líneas de investigación.

9

Capítulo 2 Técnicas de Clasificación Basadas en Criterios de Vecindad 1. Introducción Entre los diferentes clasificadores estadísticos no paramétricos, cabe destacar las aproximaciones basadas en criterios de vecindad. Bajo esta óptica, los esquemas de clasificación únicamente exigirán la definición de una cierta medida de disimilitud entre los distintos elementos del espacio de representación, es decir, que éste sea métrico (o, pseudo-métrico). La principal ventaja que presenta la clasificación basada en criterios de vecindad respecto a otros métodos no paramétricos, es su simplicidad conceptual, que podría resumirse del siguiente modo: la clasificación de un nuevo punto del espacio de representación se puede estimar en función de la clasificación conocida de los puntos dentro de un entorno suficientemente pequeño de aquel punto. Es importante señalar que la métrica del espacio de representación a la que nos referíamos en el párrafo anterior es necesaria, precisamente para definir aquel entorno del punto a clasificar. En general, cualquier problema de clasificación abordado con un enfoque basado en criterios de vecindad se podrá caracterizar del siguiente modo: 1. Se dispone de un conjunto de N prototipos (o muestras preclasificadas) en un espacio de representación E, llamado conjunto de entrenamiento o diseño, y que escribiremos como {X, Θ}= {(x1, θ1), (x2, θ2), …, (xN, θN)} donde θi hace referencia a la clase verdadera de la muestra xi entre las M posibles clases del problema. 2. Tenemos que clasificar una nueva muestra, x, estadísticamente independiente del conjunto {X, Θ}. 3. No hay ninguna información adicional acerca de la distribución de los parámetros estadísticos asociados al conjunto de entrenamiento. 4. Existe alguna métrica entre las distintas muestras disponibles definidas en el espacio de representación E. Siguiendo estas premisas, obviamente deberemos asumir la absoluta corrección de la técnica empleada para asignar una etiqueta de clase a cada uno de los prototipos del conjunto de entrenamiento, puesto que de este aspecto dependerá fundamentalmente la efectividad de cualquiera de los clasificadores que posteriormente se estudiarán. No

Capítulo 2

obstante, en la práctica, esta suposición no siempre será totalmente cierta de manera que, en la mayoría de los casos, se requerirá de la aplicación de algún proceso previo a la clasificación que, de algún modo, elimine del conjunto de entrenamiento todos los prototipos erróneamente etiquetados. A partir de aquí, en este capítulo, haremos una breve exposición de las métricas más utilizadas en toda la literatura dedicada a este tema. Posteriormente, se centrará en el análisis de los aspectos teóricos más relevantes para la mayor parte de los métodos de clasificación no paramétricos basados en criterios de vecindad.

2. Formulación General de un Problema de Clasificación Sea E el espacio de representación de un determinado problema de clasificación, en el cual se tienen M clases, Ω = {ω1, ω2, …, ωΜ}, de manera que formen una partición de E. Disponemos además de N prototipos (o muestras pre-clasificadas) pertenecientes al espacio, que tomaremos como conjunto de entrenamiento (TS), el cual representaremos por: TS = {X, Ω} = {(x1, ω1), (x2, ω2), …, (xΝ, ωΝ)} El problema consistirá en dado una nueva muestra x de E, estadísticamente independiente del conjunto {X, Ω}, la cual puede estar contenida en cualquiera de las M clases, determinar a qué clase del espacio pertenece. Este procedimiento es conocido como Regla de Clasificación o Clasificador y se representa como: δ: E Æ Ω, δ(x) = ωi i =1, …, M Existen distintas alternativas para expresar un determinado clasificador δ. Una de las representaciones será en términos de un conjunto de funciones discriminantes, Di(x), i = 1, …, M, es decir, una por cada clase en el espacio E [Duda, 1973]. En este caso, el clasificador se puede expresar de la siguiente manera: δ(x) = ωi ⇔ Di(x) > Dj(x) ∀ j ≠ i i, j = 1, …, M Por tanto, el clasificador asigna una muestra a la clase o partición del espacio de representación E cuya función discriminante asociada Di(x), sea mayor. Debemos de señalar que existen determinadas zonas del espacio en las que distintas funciones discriminantes pueden tomar el mismo valor, es decir, particiones del espacio que podrían pertenecer con la misma probabilidad a más de una clase. Estas zonas o regiones indefinidas se denominan fronteras de decisión, correspondiendo a los casos donde se cumple la siguiente igualdad: Di(x) = Dj(x) j ≠ i i, j = 1, …, M Si asumimos que a cada punto x∈E le corresponde una verdadera clase, entonces una regla de clasificación δ puede fallar o acertar la verdadera categoría de un determinado

12

Técnicas de Clasificación Basadas en Criterios de Vecindad

número de puntos en el espacio E. La teoría de la decisión pretende la definición de reglas de clasificación que acierten la verdadera clase del mayor número posible de puntos, en otras palabras, reglas de clasificación que muestren un comportamiento tan efectivo como sea posible. Por otra parte, el coste computacional asociado a una determinada regla de clasificación constituye también, un aspecto de gran relevancia, desde el punto de vista de su aplicación. Cualquier clasificador deberá cumplir que sea computacionalmente abordable, tanto en términos temporales como espaciales. Los clasificadores basados en criterios de vecindad basan su efectividad en la distribución de los prototipos del conjunto de entrenamiento en el espacio y en cuan alejados estén estos de la muestra x. Es por ello que es preciso definir alguna métrica d entre los objetos de E, mediante la cual podamos asignarle a la muestra x, una clase determinada.

2.1. Distancias o Métricas La geometría del espacio tridimensional en el que estamos sumergidos nos resulta muy natural. Conceptos tales como distancia, longitud, ángulo, perpendicularidad son de uso cotidiano. En matemáticas, frecuentemente podemos agrupar ciertos objetos en espacios abstractos y definir entre ellos relaciones semejantes a las existentes entre los puntos del espacio ordinario. El paralelismo que se establece así entre los espacios abstractos y el espacio Euclídeo nos permite visualizar y lograr un entendimiento más profundo de estos objetos. En algunas aplicaciones, la formulación más simple que puede considerarse es el de asumir que el espacio sobre el cual trabajamos tiene estructura de espacio métrico. Un espacio métrico es un conjunto de puntos en el que está definida la noción de distancia entre puntos. Podemos usar la función distancia o métrica para definir conceptos fundamentales del análisis matemático, tales como límite de una función, convergencia, continuidad, diferenciabilidad y compacidad entre otros. A su vez, es un concepto fundamental dentro del Reconocimiento de Patrones. Existen varias formas de determinar cuándo dos objetos del espacio son “parecidos” y cuándo no. Entre ellas, están las funciones de similaridad, las de disimilaridad, las métricas. En el Reconocimiento de Patrones, la distancia entre dos objetos cualesquiera del espacio es una medida de cuan similares son de acuerdo a sus características. Por tanto, ésta debe ser escogida de forma tal que mientras más parecidos sean los objetos menor debe ser la distancia entre ellos y, por el contrario, los objetos muy lejanos deben ser poco similares. Definición: Un espacio métrico es un par (E, d) donde E es un conjunto (E ≠ ∅), d es una función d: ExE → ℜ+, llamada distancia o métrica, si la misma satisface los siguientes axiomas:

13

Capítulo 2

a) d(x, y) ≥ 0 ∀ x, y∈E, y d(x, y) = 0 si y solo si x = y b) d(x, y) = d(y, x) ∀ x, y ∈ E (simetría) c) d(x ,z) ≤ d(x, y) + d(y, z) ∀ x, y, z∈E (desigualdad triangular) La métrica más frecuentemente utilizada en toda la literatura es la métrica Euclídea, la cual se define mediante la siguiente expresión: d (Oi, Oj) =

∑ (x (O ) − x (O )) n

k =1

2

k

i

k

j

donde Oi y Oj son los objetos para los cuales se desea calcular la distancia, n es el número de características de los objetos del espacio y xk(Oi), xk(Oj) es el valor del atributo k en los objetos Oi y Oj. Existen otras métricas reportadas en la literatura y utilizadas en diversos problemas entre las que podemos mencionar las siguientes. Métrica discreta. Dado un conjunto E ≠ ∅, definimos la métrica discreta d(.,.) sobre el conjunto E de la siguiente manera: ⎧1 si x ≠ y d ( x, y ) = ⎨ ⎩0 si x = y Si tomamos el conjunto E = ℜn, sobre este espacio podemos definir varias métricas que a continuación mencionamos: Minkowsky: ⎛ n d (Oi , O j ) = ⎜ ∑ x k (Oi ) − x k (O j ) ⎜ k =1 ⎝

p

⎞ ⎟ ⎟ ⎠

Manhattan: n

d (Oi , O j ) = ∑ x k (Oi ) − x k (O j ) k =1

Chebychev: d (Oi , O j ) = max x k (Oi ) − x k (O j ) 1≤ k ≤ n

14

1/ p

Técnicas de Clasificación Basadas en Criterios de Vecindad

Camberra: n

xk (Oi ) − xk (O j )

k =1

xk (Oi + xk (O j )

d (Oi , O j ) = ∑ Función de Correlación: n

d (Oi , O j ) =

∑ (x k =1

k

(Oi ) − μ k )( xk (O j ) − μ k )

n

n

k =1

k =1

∑ ( xk (Oi ) − μ k ) 2 ∑ ( xk (O j ) − μ k ) 2

donde μk es el valor promedio para el atributo k en el conjunto de entrenamiento. Distancia de Mahalanobis La distancia de Mahalanobis (1936) es una medida, cuya utilidad radica en que es una forma de determinar la similitud entre dos variables aleatorias multidimensionales. Se diferencia de la distancia Euclídea, en que tiene en cuenta la correlación entre las variables aleatorias. Formalmente, la distancia de Mahalanobis entre dos variables aleatorias con la misma distribución de probabilidad, se define por medio de la siguiente expresión: 1

d (Oi , O j ) = [det V ] n (Oi − O j ) T V −1 (Oi − O j )

donde V es la matriz de covarianzas de A1, …, An, Aj es el vector de valores para el atributo j en el conjunto de entrenamiento. Función VDM (Value Difference Metric) En la literatura, se han propuesto diversas funciones para calcular la distancia entre atributos no numéricos. Por ejemplo, una de estas funciones es la función VDM (Value Difference Metric) propuesta en [Wilson. D, Martinez. T, 2000], con la cual la similitud entre dos valores xi(O1), xi(O2) del atributo i con respecto a los objetos O1, O2 viene dada por la siguiente expresión: ⎛ N i, xi (O1) , c N i, xi ( O2 ), c ⎞ ⎟ − vdmi ( xi (O1 ), xi (O2 ) = ∑ ⎜ ⎜ N i , xi (O2 ) ⎟⎠ c =1 ⎝ N i, x i ( O1 ) M

2

donde N i , xi ( O1 ) es el número de veces (en el conjunto de entrenamiento) que el atributo i tiene el valor xi(O1), N i , xi (O1 ),c es el número de veces que el atributo i tiene el valor xi(O1) en la clase c, y M es el número total de clases.

15

Capítulo 2

Función HVDM (Heterogeneus Value Difference Metric) Es común que los clasificadores tengan que enfrentarse a problemas en los que los atributos de los objetos son heterogéneos, es decir, están descritos por ambos tipos de valores (numéricos y no numéricos). En este tipo de problemas, es necesario emplear una función heterogénea de distancia, por ejemplo HVDM (Heterogeneous Value Difference Metric) [Wilson. D, Martinez. T, 2000], mediante la cual es posible calcular distancia entre objetos cuyos atributos son heterogéneos. La función HVDM se define de la siguiente forma: HVDM (O1 , O2 ) =

n

∑d i =1

2 i

( xi (O1 ), xi (O2 ))

donde la función d i ( xi (O1 ), xi (O2 )) es la distancia entre los objetos O1 y O2 para el atributo i y la misma se define mediante la siguiente expresión: ⎧ ⎪ si xi (O1 ) ó xi (O 2 ) son atributos ausentes ⎪1 ⎪ di ( xi (O1 ), xi (O2 )) = ⎨vdmi ( xi (O1 ), xi (O2 ) ) si i no numérico ⎪ x (O ) − x (O ) i 2 ⎪ i 1 si i es numérico ⎪⎩ 4σ i

donde vdmi ( xi (O1 ), xi (O2 )) es la función descrita anteriormente y, σi es la desviación estándar correspondiente al atributo i (en el conjunto de entrenamiento). Existen otras funciones que permiten calcular la distancia entre objetos descritos tanto por atributos cuantitativos como cualitativos, las cuales aparecen en los trabajos de [Stanfill, 1986], [Wilson. D, Martinez. T, 2000] y [Olvera, 2005].

3. Fundamentos Estadísticos La teoría de la probabilidad y los métodos bayesianos son unas de las técnicas que más se ha utilizado en problemas de inteligencia artificial y, por tanto, de aprendizaje automático. Como se indica en [Mitchell, 1997], son dos las razones por las que los métodos bayesianos son relevantes al aprendizaje automático: 1. Son un método práctico para realizar inferencias a partir de los datos, induciendo modelos probabilísticos que después serán usados para razonar (formular hipótesis) sobre nuevos valores observados. Además, permiten calcular de forma explícita la probabilidad asociada a cada una de las hipótesis posibles, lo que constituye una gran ventaja sobre otras técnicas. 2. Facilitan un marco de trabajo útil para la comprensión y análisis de numerosas técnicas de aprendizaje que no trabajan explícitamente con probabilidades.

16

Técnicas de Clasificación Basadas en Criterios de Vecindad

En teoría de la probabilidad, el teorema de Bayes es la regla básica para realizar inferencias. Así, el teorema de Bayes nos permite actualizar la creencia que tenemos en un suceso o conjunto de sucesos a la luz de nuevos datos u observaciones. Es decir, nos permite pasar de la probabilidad a priori P(suceso) a la probabilidad a posteriori P(suceso\observaciones). La probabilidad a priori puede verse como la probabilidad inicial, la que fijamos sin saber nada más. La probabilidad a posteriori es la que obtendríamos tras conocer cierta información, por tanto, puede verse como un refinamiento de nuestro conocimiento. Teniendo en cuenta estos conceptos, el teorema de Bayes viene representado por la siguiente expresión:

P (h | O) =

P(O | h).P(h) P(O)

donde, como podemos ver, lo que aparece son la probabilidad a priori de la hipótesis (h) y de las observaciones (O) y las probabilidades condicionadas P(h|O) y P(O|h). A esta última se le conoce como la verosimilitud de que la hipótesis h haya producido el conjunto de observaciones O. Centrándonos en el problema de la clasificación, con una variable clase (C) y un conjunto de variables predictoras o atributos {A1, A2, ..., An}, el teorema de Bayes tendrá la siguiente forma:

P (C | A1 , A2 , ..., An ) =

P( A1 , A2 , ..., An | C).P(C) P( A1 , A2 , ..., An )

Evidentemente, si C tiene k posibles valores {c1, c2, …, ck}, lo que nos interesa es identificar el más probable y devolverlo como resultado de la clasificación. En el marco bayesiano, la hipótesis más plausible no es otra que aquella que tiene máxima probabilidad a posteriori dados los atributos, y es conocida como la hipótesis máxima a posteriori o hipótesis MAP (maximum a posteriori). Así, la clase o valor a devolver será: c MAP = arg max p(c | A1 , ..., An ) = arg max c∈Ωc

c∈Ωc

p( A1 , ..., An | c). p(c) p( A1 , ..., An )

c MAP = arg max p( A1 , ..., An | c). p(c) c∈Ωc

donde Ωc representa el conjunto de valores que puede tomar la variable C. Es preciso señalar que en el último paso se ha eliminado la división debido a que el divisor sería el mismo para todas las categorías. Por tanto, el teorema de Bayes nos facilita un método sencillo y con una semántica clara para resolver esta tarea. Sin embargo, este método tiene un inconveniente, y es su altísima complejidad computacional, debido a que necesitamos trabajar con

17

Capítulo 2

distribuciones de probabilidad que involucran muchas variables, haciéndolas en la mayoría de los casos inmanejables.

4. Clasificador Naive Bayes El fundamento principal del clasificador Naive Bayes [Duda and Hart, 1973] es la suposición de que todos los atributos son independientes conocido el valor de la variable clase. A pesar de que asumir esta suposición en el clasificador Naive Bayes (NB) es sin duda bastante fuerte y poco realista en la mayoría de los casos, se trata de uno de los clasificadores más utilizados. La hipótesis de independencia asumida por el clasificador NB da lugar a un modelo gráfico probabilístico en el que existe un único nodo raíz (la clase), y en el que todos los atributos son nodos hojas que tienen como único padre a la variable clase. Debido a la hipótesis de independencia usada en el clasificador NB, la expresión para obtener la hipótesis queda como sigue: c MAP = arg max p( A1 , ..., An | c) p(c) = arg max p(c) ∏ p ( Ai | c) c∈Ωc

c∈Ωc

i=1

Es decir, la tabla de probabilidades P(A1, …, An|c) ha sido factorizada como el producto de n tablas que sólo involucran dos variables. Por tanto, los parámetros que tenemos que estimar son P(Ai|c) para cada atributo y la probabilidad a priori de la variable clase P(c). Veamos cómo hacerlo dependiendo de que el atributo Ai sea discreto o continuo. Atributos discretos: En este caso la estimación de la probabilidad condicional se basa en las frecuencias de aparición que obtendremos en la base de datos. Así, si denotamos por n(xi, Pa(xi)) al número de registros de la base de datos en que la variable Xi toma el valor xi y los padres de xi (Pa(Xi)) toman la configuración denotada por Pa(xi)), entonces la forma más simple de estimar P(xi|Pa(xi)) es mediante la expresión:

P( xi | Pa( xi )) =

n( xi , Pa( xi )) n( Pa( xi ))

Es decir, el número de casos favorables dividido por el número de casos totales. Esta técnica se conoce como estimación por máxima verosimilitud y tiene como desventaja que necesita una muestra de gran tamaño y que sobreajusta a los datos. Atributos continuos: En este caso, el clasificador NB supone que el atributo en cuestión sigue una distribución normal; por tanto, lo único que tenemos que calcular (a partir de la base de datos) es la medida μ y la desviación típica σ condicionadas a cada valor de la variable clase.

18

Técnicas de Clasificación Basadas en Criterios de Vecindad

P ( A i | c) =

1 ( X − μ) 2 exp(− ) 2σ 2 2π σ

Evidentemente, esta estimación tiene el inconveniente de que los datos no siempre siguen una distribución normal.

5. Clasificadores no Paramétricos Entre los clasificadores estadísticos no paramétricos que vamos a presentar en este epígrafe, cabe destacar las aproximaciones basadas en criterios de vecindad, sobre las cuales se centra básicamente el presente trabajo. Siguiendo este enfoque, los esquemas de clasificación que expondremos en este capítulo únicamente exigirán la definición de una cierta medida de similitud entre los distintos elementos del espacio de representación, en general el espacio de representación con el cual trabajamos tiene estructura de espacio métrico. La principal ventaja que tiene la clasificación basada en criterio de vecindad respecto a otros métodos no paramétricos, es precisamente su simplicidad conceptual, es decir, la clasificación de un nuevo punto del espacio de representación se puede estimar en función de la clasificación conocida de los puntos dentro de un entorno lo suficientemente pequeño de aquel punto. Debemos destacar que la estructura métrica del espacio de representación que señalamos en el párrafo anterior es necesaria, precisamente, para poder definir el entorno del punto a clasificar.

5.1. Clasificador de Distancia Mínima Para poder aplicar esta regla de clasificación, lo primero será determinar de forma adecuada un prototipo que represente a cada una de las M clases del problema. En esta regla, este aspecto es el proceso más importante, puesto que el método empleado para definir los representantes por clases va a influir directamente en los resultados de la clasificación. Entre las técnicas más empleadas para determinar un prototipo representativo para cada clase tenemos las siguientes: 1. Determinar el prototipo más centrado dentro de la clase. 2. Encontrar el prototipo medio de la clase. 3. Seleccionar aleatoriamente un prototipo de la clase. Una vez determinado el conjunto de prototipos representantes para cada una de las clases {Z1, Z2, …, ZM}, la regla de clasificación por distancia mínima δDM puede escribirse de la siguiente manera:

19

Capítulo 2

δ DM ( x) = ωi ⇔ d ( x, Zi ) < d ( x, Z j )

∀ j ≠ i,

i, j = {1, 2, ..., M }

donde la expresión d(·,·) representa la métrica seleccionada en el espacio de representación E. En este caso, el clasificador asignará la muestra x a la clase del representante Zi más cercano a él, (es decir, cuya distancia sea mínima). Este es un clasificador sencillo e intuitivamente claro. Una de sus ventajas más evidentes reside en el hecho de que el número de funciones discriminantes lineales será siempre fijo e igual al número de clases, además de la simplicidad inherente en el caso de estas funciones. Sin embargo, la estrategia de representar cada clase por un único prototipo condicionará, en gran medida, la efectividad de esta regla. Es preciso señalar, que el criterio de distancia mínima no resultará apropiado para aquellos casos en que alguna de las clases se encuentre definida mediante una distribución de probabilidad de tipo multimodal o no determinista (es decir, siempre que exista más de un agrupamiento o clustering para una determinada clase). Cabe destacar también que al clasificador de distancia mínima le corresponden fronteras de decisión lineales a intervalos, lo cual significa que las fronteras de decisión entre dos clases separan el espacio de representación en dos zonas distintas, cada una de ellas incluyendo una de las dos clases (en realidad, su prototipo representativo). Además, el lugar geométrico de la recta correspondiente a la frontera de decisión entre dos clases corresponde a la mediatriz del segmento que une los representantes de ambas clases.

5.2. Regla del Vecino más Cercano Uno de los clasificadores no paramétricos más difundido en toda la literatura científica es la regla del vecino más cercano (Nearest Neighbour, NN), la idea fundamental sobre la que se apoya esta regla es que muestras de una misma clase se encontrarán probablemente próximas en el espacio de representación. Resulta evidente, pues, que esta regla constituye una simple generalización del clasificador de distancia mínima visto en la sección anterior. Dados, el conjunto {X, Θ} = {( x1 , θ1 ), ( x2 , θ2 ), ..., ( xN , θ N )}, que consta de N prototipos, y una nueva muestra x, de la que se desconoce su etiqueta de clase. Sea ( x ' , θ ' )∈{X, Θ}, el prototipo más próximo a la muestra x (obviamente θ ' ∈ Ω ), entonces la regla NN se podrá escribir valiéndonos de la siguiente expresión: δ NN (x) = θ '

⇔

d ( x, x ' ) = min d ( x, xi ) i = 1, 2 , ..., N

donde d(·,·) representa la métrica seleccionada para el espacio de representación. En este caso, el clasificador asignará la muestra x a la clase del prototipo de {X, Θ} más cercano a él según la métrica d(·,·) definida para el espacio de representación.

20

Técnicas de Clasificación Basadas en Criterios de Vecindad

La principal ventaja de este clasificador respecto al de distancia mínima radica en que, para clasificar una muestra nueva, se tienen en cuenta todos los prototipos del conjunto de entrenamiento en lugar de considerar solamente un único representante por clase. Lógicamente, la clasificación será mucho menos crítica que cuando solo se tenía una sola muestra como representante de la clase. Ahora la efectividad del clasificador vendrá condicionada por la disponibilidad de un conjunto de prototipos correctamente etiquetados lo suficientemente grande. Sin embargo, esta condición hace que su aplicación se vea limitada en aplicaciones reales por el coste computacional, en cuanto a tiempo y espacio, al tener gran cantidad de prototipos en memoria y tener que recorrerlos todos para determinar cuál es el más cercano a una determinada muestra a clasificar. No obstante, la existencia de una amplia variedad de algoritmos eficientes para la búsqueda del vecino más próximo, los cuales pueden verse en el trabajo de [Moreno. F, 2004], así como de diversos procedimientos para reducir de forma controlada la talla del conjunto de entrenamiento, dan una solución a este inconveniente práctico. Cabe destacar que el análisis asintótico de la regla NN presentado por [Sánchez. J.S, 1998], permite afirmar que, al menos, la mitad de la información sobre la pertenencia de un objeto a una cierta clase, se encuentra en su vecino más próximo, resultado que no depende de la métrica utilizada para la determinación del vecino más próximo.

5.3. Regla de los k Vecinos más Cercanos Con la aplicación de la regla NN, al intervenir solamente el primer vecino más próximo a una muestra, es lógico pensar que no se está aprovechando de forma eficiente toda la información que se podría extraer del conjunto de entrenamiento. Con el objetivo de suplir esta aparente dificultad surge una extensión o mejora de la regla de clasificación NN, la cual consistirá en la modificación de la técnica empleada para decidir la clase a la que pertenece una determinada muestra, utilizando no sólo su vecino más próximo, sino también un cierto número de prototipos (k) que se encuentren en un entorno lo suficientemente próximo a dicha muestra. Así, si disponemos de un conjunto de prototipos Pj = {Pj,i / i = 1, 2, …, Nj} por cada clase, basaremos la clasificación de la muestra x en sus k prototipos más próximos. Teniendo en cuenta la idea planteada anteriormente, a partir de un cierto conjunto de entrenamiento {X, Θ} = {( x1 , θ1 ), ( x2 , θ2 ), …, ( xN , θ N )} podemos de manera muy simple, definir la vecindad Vk(x) de una muestra x∈E como aquel conjunto de prototipos que satisface las siguientes condiciones:

21

Capítulo 2

⎧Vk ( x) ⊆ P ⎪ ⎨ Vk ( x) = k ⎪∀ p∈V ( x), q ∈P −V ( x) ⇒ d ( p, x) ≤ d (q, x) k k ⎩ M

donde P =

U

Pi

i =1

Si ahora definimos una nueva distancia entre un punto y un conjunto de prototipos como: dk (x, Pi ) = k - ⏐Vk(x) ∩ Pi ⏐ podremos definir la regla de clasificación de los k-Vecinos más Cercanos (k-NN) como δ k - NN ( x) = wi ⇔ d ( x, Pi ) =

min

j = 1, 2 , ..., M

d k ( x, Pj )

Podemos señalar que el significado de la expresión anterior no es más, que la clase asignada a la muestra x será la clase más votada entre los k vecinos más próximos del conjunto de entrenamiento. Generalmente, en problemas prácticos donde se aplica esta regla de clasificación, se acostumbra a tomar un número k impar de vecinos para evitar posibles empates. No obstante, los posibles casos de empates entre las distintas clases se resuelven decidiendo aleatoriamente la clasificación de la muestra entre las clases empatadas; otra manera de resolver este problema es asignando a la muestra la clase del primer vecino o calculando la media de las distancias de los vecinos de cada clase. Debemos señalar también que las fronteras de decisión continúan siendo funciones lineales a tramo puesto que, en cualquier caso, siempre corresponden a combinaciones de funciones lineales. En la Figura 3, ilustramos de forma gráfica el funcionamiento de esta regla de clasificación. En ella, tenemos representadas 25 muestras pertenecientes a dos clases distintas: la clase 2 está formada por 16 círculos y la clase 1 formada por 9 cuadrados. En este ejemplo, hemos seleccionado cinco vecinos, es decir, (k = 5). De los 5 vecinos más cercanos a la muestra x, representada en el gráfico por una cruz, dos de ellos pertenecen a la clase 1 y tres de ellos a la clase 2. Por tanto, la regla 5-NN asignará la muestra x a la clase 2. Es importante señalar que si hubiésemos utilizado como regla de clasificación la regla NN, la muestra x sería asignada a la clase 1, ya que el vecino más cercano de la muestra x pertenece a la clase 1.

22

Técnicas de Clasificación Basadas en Criterios de Vecindad

Figura 3. Desempeño de la regla k-NN.

A continuación, valiéndonos de la Figura 4, donde aparecen representados los clasificadores de distancia mínima, vecino más cercano y los k vecinos más cercanos, haremos algunos comentarios importantes a tener en cuenta.

Figura4. Comparación entre diferentes clasificadores.

En este gráfico, aparecen representadas 3 clases señaladas por las letras A, B y C. En la primera gráfica, se muestra el clasificador k-NN considerando 7 vecinos, observamos como la muestra y es clasificada en la clase C por tener entre sus 7 vecinos más cercanos, tres vecinos que pertenecen a la clase C, es decir, la votación de esta clase supera a la votación de las dos restantes. En la segunda gráfica, se muestra el comportamiento del clasificador NN, asignándose en este caso la muestra y a la clase A, ya que en esta clase se encuentra el vecino más cercano. La última gráfica muestra el clasificador por distancia mínima, donde la muestra y es asignada a la clase B. Como se puede apreciar, la muestra y es clasificada por los diferentes clasificadores a clases distintas, por lo cual es preciso señalar la importancia que tiene una adecuada

23

Capítulo 2

modelación del problema y la selección rigurosa del clasificador a emplear para darle una solución correcta al problema sobre el cual se está trabajando.

5.4. Regla k-NN con Rechazo El objetivo central de esta regla de clasificación consiste en la posibilidad de no clasificar aquellas muestras para las cuales no se obtenga una cierta seguridad de que la clasificación obtenida para la muestra sea la correcta. Con la estrategia que se propone, la decisión de clasificar se producirá sólo cuando alguna de las posibles clases reciba un número de votos por encima de un determinado umbral previamente establecido, es decir, si el resultado de la votación no da lugar a una cierta mayoría (conocida como mayoría cualificada) en algunas de las clases, la muestra será rechazada. Otro de los objetivos que se persigue con esta estrategia es aumentar la efectividad de la regla de clasificación k-NN, descartando para ello la clasificación de ciertas muestras que se encuentren próximas a las fronteras de decisión, es decir, donde existe un mayor riesgo de error. Una primera propuesta para alcanzar el objetivo anteriormente expresado consiste en definir un entero positivo l, tal que [k/2] < l < k, como valor umbral para la mayoría en la votación entre los k vecinos más cercanos. Se define la regla de los (k, l)- Vecinos más Cercanos ((k, l)- NN) [Hellman, 1970] como:

⎧ωi si Vk (x) ∩ Pi ≥ l , i = 1, . .., M δ(k,l)− NN (x) = ⎨ ⎩ω0 si no (clasificación rechazada) donde la etiqueta w0 se utiliza, generalmente, para identificar la opción de rechazo (es decir, la nueva clase asociada a las muestras rechazadas). Por lo tanto, nuestro problema pasa a tener ahora M +1 clases diferentes. A partir de esta primera aproximación para la regla k-NN con Rechazo, es posible establecer una mayor generalización de esta regla definiendo un umbral o tipo de mayoría distinto para cada una de las M distintas clases, li, dando lugar entonces a la regla de los (k-li)-Vecinos más Cercanos ((k-li)-NN). ⎧ωi si Vk (x) ∩ Pi ≥ l i , i = 1,..., M δ ( k,li ) − NN ( x) = ⎨ ⎩ω0 si no (clasificación rechazada) En este caso, la decisión de la clasificación se tomaría únicamente cuando la mayoría obtenida se encontrase por encima del umbral establecido específicamente para la clase que haya resultado más votada. La segunda propuesta alternativa a la regla k-NN con Rechazo, basada en una idea relativamente distinta de las descritas anteriormente, consiste en fijar un tipo de mayoría absoluta para el número de votos. En este caso, se rechazará la clasificación de la

24

Técnicas de Clasificación Basadas en Criterios de Vecindad

muestra si ninguna de las clases votadas supera al resto en un determinado número de votos, denominado umbral absoluto. Sea m ≥ 1 (en el caso m = 1 corresponde a la regla k-NN sin rechazo), entero positivo, un umbral para la mayoría absoluta en el número de votos entre los k vecinos más cercanos, entonces se puede definir la regla (k, m)-Vecinos más Cercanos [Luk, 1986] mediante la siguiente expresión: ⎧ ⎪ω i si (wi − w j ) ≥ m ∀i, j = 1, ..., M, δ(k,m)− NN (x) = ⎨ ⎪ω si no (clasificación rechazada) ⎩ 0

M

∑w p =1

p

≤k

donde wi, wj se refiere al número de votos alcanzado para las clases ωi , ω j entre los k vecinos. Es preciso señalar que la utilización de este tipo de mayoría absoluta proporciona a la regla k-NN un mayor grado de seguridad o certeza sobre la estimación de la clase de las muestras correspondientes al conjunto de prueba. Sin embargo, podemos señalar también que esta regla de decisión requerirá la utilización de un valor bastante elevado para el número de vecinos (k) ya que de lo contrario, se alcanzaría el umbral absoluto sólo en muy pocos casos y, por tanto, un considerable número de muestras resultarían rechazadas durante el proceso de clasificación. Debido a lo anteriormente expuesto, [Luk, 1986] en su artículo propone una posible solución para reducir aquel importante número de muestras rechazadas. Su estrategia consistió en definir una cierta cooperación o decisión compartida entre las reglas (k, m)NN y k-NN para las muestras que pudiesen ser inicialmente rechazadas. De este modo, la correspondiente regla (k,m,k’)-NN, se podría expresar mediante la siguiente expresión: ⎧ si (wi − w j ) ≥ m ∀i, j = 1, ..., M, ⎪ω i δ(k,m)− NN (x) = ⎨ ⎪δ en otro caso ⎩ k − NN (x)

M

∑w p =1

p

≤k

6. Clasificadores Basados en el Concepto de Vecindad Envolvente Se ha comentado en los epígrafes anteriormente expuestos que la regla k-NN presenta un excelente comportamiento asintótico en cuanto al error de clasificación. Sin embargo, cuando el número de prototipos disponibles en el conjunto de entrenamiento no puede considerarse como suficientemente grande, los resultados de dicho clasificador tienden, en general, a sufrir un importante deterioro en el proceso de clasificación. Consecuentemente, para determinados problemas reales (es decir, con un número finito de muestras e incluso, en muchas ocasiones, un número relativamente

25

Capítulo 2

pequeño), la aplicación de esta regla podría entenderse como una solución poco apropiada, debido a los pobres resultados que pudieran obtener, es decir, a su baja tasa de aciertos en el correspondiente proceso de clasificación. Este problema también está presente cuando el número de muestras de que se dispone puede considerarse pequeño comparado con la dimensionalidad intrínseca del espacio de representación, lo cual corresponde a una situación bastante habitual. Esta pérdida en la efectividad asociada a la regla k-NN y, en general, a la mayor parte de los clasificadores basados en criterios de vecindad puede fundamentarse en el hecho de que, bajo las condiciones prácticas que se han descrito en el párrafo anterior, la información obtenida a partir de estos esquemas puede llegar a resultar insuficiente o inadecuada para estimar de forma correcta la clase de las nuevas muestras. En este sentido, puesto que las estimaciones de estos clasificadores se basan exclusivamente en aspectos de proximidad, considerada ésta como la mínima distancia Euclídea de una muestra a un determinado número (k) de prototipos, se estará ignorando de esta manera cualquier otro tipo de información que pudiera contener ciertas propiedades relativas a la distribución geométrica o espacial de las muestras. De hecho, en diversos artículos entre los que podemos mencionar a [Short, 1981] y [Fukunaga, 1984], trataron la posibilidad de reducir el error de clasificación asociado a la regla de decisión k-NN en el caso finito mediante la selección de una métrica adecuada. En el primer artículo, se propone una distancia de carácter local entre cada punto y la muestra en cuestión y, por tanto, las estimaciones para cada muestra dependerán de la región del espacio de representación donde se apliquen. En el segundo artículo, se propone una distancia globalmente óptima de tipo cuadrática, que depende de los vecinos más cercanos de todos los prototipos del conjunto de entrenamiento. Como hemos señalado anteriormente, el concepto de vecindad es esencial para todos los clasificadores no paramétricos que se apoyan en el mismo. En este sentido, una apropiada definición de vecindad debería satisfacer dos condiciones o criterios suplementarios: 1. Criterio de distancia: Los vecinos deben estar tan cercanos a la nueva muestra como sea posible. 2. Criterio de simetría: Los vecinos deben estar tan homogéneamente distribuidos alrededor de la muestra como sea posible. La regla k-NN sólo tiene en cuenta la primera de estas propiedades, por lo cual la muestra podría no estar suficientemente rodeada por sus correspondientes vecinos, si los prototipos del conjunto de entrenamiento no se encontraran distribuidos de manera homogénea en el espacio de representación. En esta dirección existen diferentes trabajos reportados en la literatura entre los que podemos citar: 1. [O’Callaghan, 1975], en su artículo, propone el uso dos parámetros α y β, el primero corresponde a una distancia fijada a priori y el segundo corresponde a la dirección.

26

Técnicas de Clasificación Basadas en Criterios de Vecindad

2. [Toriwaki, 1988] propone un método alternativo que permite buscar los vecinos simétricos de un punto utilizando los diagramas de Voronoi, siendo su principal inconveniente el alto costo computacional asociado al cálculo del diagrama de Voronoi. 3. [Chaudhuri, 1996] propone una nueva definición de vecindad, en la cual utiliza los criterios de distancia y simetría. Se trata de un método sencillo, sin la necesidad de definir parámetros externos. En este artículo, este nuevo concepto de vecindad se utiliza como herramienta para la detección de los bordes dentro de un conjunto de puntos. 4. [Sanchez, 1998] aplica este tipo de vecindad sobre problemas generales de clasificación, definiendo para ello un nuevo clasificador no paramétrico de características similares a la regla k-NN.

6.1. Vecindad de Centroide más Próximo La vecindad de centroide más próximo a un punto puede ser determinada siguiendo un método sencillo, [Chaudhuri, 1996], en el que el primer vecino de un punto p se corresponde con su vecino más próximo, mientras que los sucesivos vecinos se tomarán de manera que minimicen la distancia entre p y el centroide de todos los vecinos seleccionados hasta el momento. Así, si calculamos el k-ésimo vecino a partir de los k-1 vecinos previamente elegidos por el principio de centroide más próximo, conseguiremos cumplir con los criterios de distancia y simetría. En realidad, la condición de distancia se satisface por el hecho de tomar el vecino más próximo como el punto de partida para el cálculo de los posteriores k-1 vecinos. Algoritmo para la búsqueda de los k vecinos de centroide más próximo (k-NCN) Entrada: k Æ Número de vecinos a determinar X Æ Conjunto de prototipos p Æ Muestra a la cual se le calculará su vecindad NCN Salida: T Æ Conjunto de los k-vecinos NCN Método: 1- S Å X, T Å φ , j Å 0 2- Buscar en S el vecino más cercano x1 al punto p 3- T Å T ∪ {x1}, S Å S - {x1} 4- Para cada punto xi ∈S Calcular el centroide ci de los puntos en T ∪ {xi} 5- Seleccionar el punto xi tal que la distancia entre ci y p sea mínima. En caso de que exista más de un xi que cumpla esta condición seleccionar el más alejado al vecino tomado en la iteración anterior. T Å T ∪ {xi}, S Å S - {xi}; j Å j + 1 6- Si j < k, ir al Paso 4 7- Devolver T

27

Capítulo 2

Cabe destacar que, como consecuencia del criterio de centroide que se está utilizando, todos los vecinos k-NCN seleccionados se situaran alrededor del punto p, es decir, de alguna forma se consigue que dicho punto quede rodeado por sus k vecinos. Valiéndonos del algoritmo de cálculo de los k-NCN, podríamos señalar algunas características, en cierto modo positivas, para este concepto: 1. El primer vecino de centroide más próximo coincide siempre con el vecino más cercano. 2. El criterio de distancia prevalece sobre el de simetría, debido a la secuencialidad del algoritmo. 3. El método es incremental. 4. La vecindad de Centroide más Cercano (NCN) es mayor que la vecindad convencional, pero resulta mucho más homogénea (es decir, los vecinos se encuentran más repartidos alrededor de la muestra en cuestión). El ejemplo que mostraremos en la Figura 4 nos permitirá comparar el cálculo de los vecinos k-NCN para un cierto punto p con respecto a la búsqueda de sus k-vecinos más cercanos. En el ejemplo, se puede apreciar que el primer vecino de centroide más cercano de p, representado por el número 1, coincide con su vecino más cercano. El segundo vecino de centroide más cercano, que denotamos como 2, ya no se corresponde con el segundo vecino más cercano, que en este caso, sería el punto marcado como b. El algoritmo, en realidad, intenta tomar un punto en la dirección opuesta (y de igual distancia) a la del primer vecino con respecto al punto p, con el fin de minimizar la distancia del centroide a dicho punto. De igual manera, los siguientes vecinos de centroide más cercano del punto p serían 3 y 4, mientras que c y d harían referencia a los sucesivos vecinos más cercanos. En la figura, el círculo de líneas discontinuas representa la vecindad inducida por los 4 vecinos más cercanos, mientras que el círculo descrito por la línea de trazo contínuo representa la vecindad inducida por los 4 vecinos de centroide más cercano. En cuanto al coste computacional asociado a la búsqueda de los vecinos k-NCN para una cierta muestra sobre un conjunto de N puntos, se puede decir que el cálculo de un vecino requiriere como máximo el cómputo de N centroides y N distancias, así como la realización de N comparaciones para encontrar la mínima de estas distancias. Por tanto, los vecinos correspondientes a un punto podrán calcularse con un coste temporal de O(kN).

28

Técnicas de Clasificación Basadas en Criterios de Vecindad

Figura 5. Ejemplo del concepto NCN.

Para finalizar, podríamos añadir que, en vez de utilizar el criterio de centroide más próximo, resultaría igualmente posible obtener este mismo tipo de vecindad envolvente a partir de la mediana más próxima [Chaudhuri, 1996]. En este caso, la mediana de un conjunto de N puntos X, se puede definir como el punto cuyas coordenadas corresponden a las medianas de las respectivas coordenadas de los puntos en X. Del mismo modo, podría generalizarse la definición de la mediana tomando el punto más centrado en X.

6.2. Regla de Clasificación k-NCN En este epígrafe, mostramos una regla de clasificación no paramétrica basada en la definición de NCN y cuya finalidad se centra, fundamentalmente, en la estimación de la clase de una nueva muestra, teniendo en cuenta no sólo los aspectos de proximidad (criterio de distancia), sino también los relacionados con la distribución homogénea de los prototipos (criterio de simetría). Utilizando el esquema para calcular los k-vecinos de centroide más próximos (kNCN) visto anteriormente, [Sánchez, 1997a] propone un nuevo esquema de clasificación, el cual recibe el nombre de regla de los k-Vecinos de Centroide más Próximo (k-NCN). Supongamos que contamos con un conjunto formado por N prototipos pertenecientes a M clases distintas, {X, Ω} = {(x1, θ1), (x2, θ2), …, (xN, θN)}, y sea (x’, θ’) el vecino más próximo de una muestra x∈E. Definamos Ck como el conjunto de los centroides de grupos de k prototipos formados por x’ y cualesquiera k-1 prototipos restantes de X. Entonces, se podrá definir la vecindad envolvente por medio del concepto NCN, la cual

29

Capítulo 2

denotaremos VEk(x), como el conjunto de prototipos que satisfacen las siguientes propiedades: 1. VE1(x) = {(x’, θ’)} 2. VEk(x) = VEk-1(x) ∪ (xi, θi) / d(x, c(xi, VEk-1(x))) ≤ d(x, c(xj, VEk-1(x))) ∀ xi, x j ∈ X − {VE k −1(x)}, i ≠ j

donde c(xi, VEk-1(x))∈Ck, denota al centroide entre los k-1 vecinos pertenecientes a VEk-1(x) y el prototipo xi. Si ahora definimos una nueva distancia entre un punto x y el conjunto de los prototipos de la clase i, Pi = {Pij / j = 1, …, Ni}, como: d k ( x, Pi ) = k − VEk ( x) ∩ Pi

entonces, la regla de clasificación k-NCN quedaría representada como: δ k − NCN ( x) = ωi ⇔ d k ( x, Pi ) = min d k ( x, Pi ) i = 1, ..., M

El significado de la expresión anterior consistirá en que la clase asignada a la muestra x corresponderá a la clase más votada entre los k prototipos de centroide más próximo. En problemas prácticos, al igual que ocurría con la regla de clasificación kNN, deberíamos considerar un número impar de vecinos con el fin de evitar posibles empates. En este caso, una vía de solución de esta dificultad sería decidiendo aleatoriamente la clasificación de la muestra entre las clases más votadas. Otra solución consiste en asignarlo a la clase del primer vecino, o calculando la media de las distancias correspondientes a los vecinos de cada clase. Al igual que como se hizo en la regla k-NN, las diferentes opciones de rechazo vistas anteriormente pueden ser implementadas utilizando como clasificador la regla k-NCN, persiguiendo los mismos objetivos, es decir, rechazar aquellas muestras para la cual no se tenga una certeza de pertenecer a una determinada clase. En otras palabras, si ninguna de las M clases alcanza una mayoría prefijada de los votos, entonces esta muestra será rechazada. También podríamos alcanzar una mayor generalización definiendo un umbral distinto para cada una de las clases. Además la alternativa propuesta en [Luk, 1986], que consiste en fijar una mayoría absoluta en el número de votos necesarios para clasificar una muestra como perteneciente a una determinada clase, también podría aplicarse al caso de la regla k-NCN.

6.3. Clasificación por Grafos de Proximidad En esta sección, vamos a presentar dos nuevas reglas de clasificación no paramétricas basadas en la vecindad envolvente. En este caso, la correspondiente relación de

30

Técnicas de Clasificación Basadas en Criterios de Vecindad

vecindad envolvente vendrá determinada por la información que podamos extraer a partir de algunos grafos de proximidad, específicamente los grafos de Gabriel (GG) y grafos de Vecindad Relativa (RNG). El concepto de vecindad de grafo podría definirse tanto para los GG’s como los RNG’s, diciendo que dos puntos serán vecinos de grafos si entre ellos se puede definir una cierta zona de influencia vacía, es decir, si existe una cierta región que no contenga ningún otro punto en su interior. En el caso del GG, la representación geométrica de esta zona de influencia entre dos vecinos de grafos (denominados, en este caso, vecinos de Gabriel) p y q corresponderá a una hiperesfera diametral Γp, q de centro en el punto medio entre ambos vecinos y de diámetro igual a la distancia entre ellos. Γp, q = B (

p + q d(p,q) ) , 2 2

De forma análoga, para el caso del RNG, la representación geométrica de la vecindad relativa entre dos puntos, p y q, se fundamenta en la definición de una hiperluna, Λp, q formada por la intersección entre dos hiperesferas, cuyos centros se sitúan sobre ambos vecinos y cuyos radios corresponden a la distancia entre ellos. Λp, q= B (p, d(p, q)) ∩ B (q, d(p, q)) Tanto la vecindad de Gabriel como la vecindad relativa para una determinada muestra se definen como la unión de todos sus vecinos. Resulta evidente que éstos presentan también una cierta relación de vecindad que satisface los axiomas de distancia y simetría impuestos en el concepto general de vecindad envolvente. En este caso, los sucesivos vecinos se distribuirán alrededor de la muestra como consecuencia de la particular definición utilizada para cada una de esas estructuras de proximidad, es decir, obtenemos directamente una distribución, más o menos simétrica, alrededor de las muestras a partir de la propia restricción de las zonas de influencia asociadas a ambos grafos. Dentro de este contexto, otro importante aspecto a tener en cuenta es que podemos describir también una cierta región envolvente del mismo modo que lo hacíamos para los vecinos de centroide más próximo. Así, para el caso del GG, la región envolvente de Gabriel para un punto p se podría definir como la unión de las correspondientes hiperesferas de influencia entre dicho punto y la totalidad de sus vecinos. Análogamente, en el caso del RNG, la región envolvente relativa para un cierto punto p se podría definir como la unión de las sucesivas hiperlunas de influencia entre p y sus vecinos relativos. Por tanto, siguiendo el esquema que presentamos cuando fue expuesta la regla de clasificación k-NCN, es posible utilizar la vecindad de Gabriel con el fin de obtener un clasificador envolvente [Sánchez, 1997a]. Sea G(V, A) el GG asociado a X, donde V=X es el conjunto de vértices y A el conjunto de arcos. Entonces, se podrá definir la vecindad envolvente de Gabriel para una muestra x∈E mediante la siguiente expresión:

31

Capítulo 2

VEG = {y∈V: (x, y) ∈ A} donde VEG de una muestra x estará formada por los prototipos que se encuentren dentro de la región envolvente de Gabriel correspondiente a dicha muestra x. Ahora, si consideramos m =⎥ VGE(x)⎥ y definimos Pj = {Pj,i / i = 1, …, Nj} como el conjunto de prototipos de la clase j, y se define una nueva distancia entre un punto x y un conjunto de prototipos Pi como: d(x, Pi) = m -⎥ VEG(x) ∩ Pi ⎥ podremos entonces representar la correspondiente regla de clasificación de los vecinos de Gabriel (Gabriel Neighbours, GN) como: δGN(x) = wi ⇔ d(x, Pi) = min d(x, Pi) i =1, ..., M

Trasladando las expresiones que acabamos de representar para el GG al caso de la vecindad relativa, se puede obtener una nueva regla de clasificación envolvente análoga al clasificador GN [Sánchez, 1997]. Sea G(V, A) el RNG asociado a X, donde V=X es el conjunto de vértices y A el conjunto de arcos en el grafo. De este modo, la vecindad envolvente relativa de una determinada muestra x, VER(x) se puede definir como el conjunto dado por medio de la siguiente expresión: VER(x) = {y∈V / (x, y) ∈ A} donde VER de una muestra x estará integrada por los prototipos contenidos en su región envolvente relativa. Sea r =⎥ VGE(x)⎥, si se define una nueva distancia entre un punto x y un conjunto de prototipos Pi, como: d(x, Pi) = r -⎥ VER(x) ∩ Pi ⎥ podremos entonces representar la correspondiente regla de clasificación de los vecinos relativos (Relative Neighbours, RN) como: δRN(x) = wi ⇔ d(x, Pi) = min d(x, Pi) i =1, ..., M

32

Capítulo 3 Técnicas de Filtrado de las Muestras de Aprendizaje 1. Introducción Actualmente, en muchas aplicaciones reales (biometría, categorización de textos, búsqueda en bases de datos multimedia, reconocimiento de imágenes multiespectrales, etc.), el tamaño de los conjuntos o bases de datos resulta tan extremadamente grande que muchos sistemas sufren dificultades relacionadas con el tiempo de ejecución y los requerimientos de almacenamiento. Bajo estas condiciones, procesar la información disponible puede llegar a convertirse en una tarea compleja y problemática. Este inconveniente se convierte especialmente dramático en el caso de utilizar algún algoritmo de aprendizaje basado en distancias, tal como en el caso de la regla del vecino más cercano. Entre las muchas propuestas para tratar este problema, cabe destacar las diversas técnicas que persiguen reducir la información. Tradicionalmente, en función de que apliquemos una reducción vertical u horizontal, estos métodos pueden dividirse en dos categorías: selección de características y selección de prototipos, centrándonos particularmente en este último aspecto a lo largo de la presentación de este capítulo. Bajo el nombre genérico de selección de prototipos para la regla k-NN se encuentran agrupados todo un conjunto de procesos previos a la aplicación de los esquemas de clasificación, cuya finalidad general será la selección de un subconjunto representativo del conjunto de entrenamiento inicial para la posterior aplicación de la regla NN, utilizando sólo los prototipos seleccionados. Básicamente, se trata de aumentar la eficiencia del clasificador y, al mismo tiempo, reducir suficientemente la talla del conjunto de prototipos con el fin de aliviar en cierta medida la importante carga computacional asociada a este tipo de clasificadores. De forma generalizada, suele considerarse una clasificación de las técnicas de selección de prototipos en función del objetivo perseguido con su aplicación [Devijver, 1982], dividiéndose las mismas en dos grandes: edición o filtrado y condensado. Los algoritmos de edición intentan eliminar del conjunto de entrenamiento aquellos prototipos erróneamente etiquetados y, al mismo tiempo, limpiar los posibles solapamientos entre regiones de clase distintas, es decir, su objetivo principal es lograr agrupamientos compactos y homogéneos; en el caso del vecino más cercano, la regla de

Capítulo 3

clasificación resultante se conoce como regla NN editada [Devijver, 1982]. El segundo grupo de procedimientos pertenecientes a la selección de prototipos está integrado por los algoritmos de condensado, los cuales persiguen como objetivo central, seleccionar un subconjunto de prototipos que proporcione un comportamiento para la regla NN similar al obtenido utilizando la totalidad del conjunto de entrenamiento. De este modo, la regla de clasificación resultante se denomina regla NN condensada [Devijver, 1982]. Este capítulo se centrará en las técnicas de selección de prototipos sobre entornos de aprendizaje no paramétrico, haciendo énfasis en los algoritmos de edición. Para ello, comenzaremos dando una visión general del problema para, posteriormente, pasar a presentar las diferentes soluciones a partir de una sencilla clasificación de los métodos más habitualmente utilizados. Esta categorización de las técnicas de selección de prototipos nos permitirá distinguir entre métodos de simple selección y métodos de generación o abstracción de prototipos. A continuación, se hará un recorrido por algunos de los más conocidos algoritmos pertenecientes a cada categoría, así como otros esquemas menos populares que han aparecido recientemente.

2. Algoritmos de Edición Al iniciar el proceso de entrenamiento de un clasificador, debemos de disponer de un conjunto de entrenamiento donde la totalidad de los prototipos se encuentren correctamente etiquetados pero, en muchas aplicaciones prácticas, este conjunto de entrenamiento puede incluir un cierto número de prototipos erróneos o incorrectamente etiquetados que, obviamente, darán lugar a unas tasas de error muy superiores a las esperadas. Las técnicas de edición tienden, precisamente, a obtener un conjunto de prototipos distribuidos en grupos compactos o clusters, y al mismo tiempo, a eliminar los prototipos que se encuentran en alguna región de una clase distinta a la suya (estos prototipos en la literatura científica reciben el nombre de outliers). Podemos señalar también, que la aplicación de los algoritmos de edición es importante no sólo como herramienta para disminuir el error de la clasificación asociado a las distintas reglas NN, sino también para llevar acabo cualquier proceso posterior que pudiese beneficiarse de un conjunto de entrenamiento con unas fronteras de decisión sencillas. La idea común a todos los esquemas de edición consistirá en descartar prototipos que se encuentren en la región correspondiente a alguna clase distinta a la suya, prototipos cuya probabilidad de pertenencia a su clase se vea superada por la probabilidad de pertenencia a alguna otra clase diferente de la suya. En la Figura 6, mostramos un esquema funcional de la clasificación por la regla kNN tomando como conjunto de referencia a un conjunto editado (S) y al conjunto de entrenamiento (TS). Denotamos mediante S el conjunto de prototipos editado, construido a partir del TS mediante algún método de edición. Mediante R nos referimos al conjunto de referencia (donde se realiza la búsqueda del vecino más cercano). El conjunto X que aparece representado en la figura no es más que el conjunto de prueba con el cual se validan los porcentajes de clasificación.

34

Técnicas de Filtrado de las Muestras de Aprendizaje

Figura 6. Clasificación k-NN usando el conjunto completo y editado.

En este capítulo, nos percataremos que la diferencia fundamental entre los diferentes esquemas de edición hace referencia al método de estimación de la probabilidad de pertenecer a una cierta clase una determinada muestra. A continuación, se hace una exposición detallada de los procedimientos de edición más interesantes propuestos en la literatura consultada.

2.1. Taxonomías de los Algoritmos de Edición En el trabajo de [Wilson, D.R y Martínez, T.R, 2000], se presenta una clasificación de los métodos de edición, siguiendo tres distintas estrategias o direcciones: incremental, decremental o por lotes. Estrategia incremental. En este tipo de estrategia (Figura 7), se parte de un conjunto vacío S y en cada paso se añade a S el objeto que satisface el criterio de selección de objetos empleado. En esta estrategia, el orden en que se presentan los objetos en el conjunto es importante, ya que la probabilidad de que los primeros objetos sean incluidos en S es mayor que la de los últimos. Es decir, cuando los últimos objetos se presentan, pueden ya estar representados por algunos de los primeros. En este sentido, puede verse dañada la precisión en la clasificación si los últimos objetos representan una mayor generalización que los primeros. Es por esta razón que, en la estrategia incremental, los objetos se presentan en un orden aleatorio, ya que por definición, un método incremental debe ser capaz de seleccionar objetos sin necesidad de que éstos se presenten primero.

Una ventaja de este tipo de estrategia es que resulta ser más rápida y consumir menos recursos de almacenamiento durante el proceso de entrenamiento del clasificador en comparación a las estrategias no incrementales. La principal desventaja de la estrategia

35

Capítulo 3

incremental es, como se ha mencionado anteriormente, que es sensible al orden en que se presentan los objetos y, además, las primeras decisiones están basadas en muy poca información y, por tanto, estas decisiones son propensas a errar en la clasificación. Por esta razón, algunos métodos incrementales realizan una fase denominada de grupo inicial, que consiste en partir de un determinado número de objetos en el conjunto S y después aplicar la estrategia propuesta.

Figura 7. Estrategia de edición incremental.

Estrategia decremental. Esta estrategia (Figura 8), comienza considerando S=TS y, en cada paso, se determina el objeto a eliminar de S de acuerdo al criterio de selección del objeto. También en esta estrategia es importante el orden en que los objetos se presentan pero, a diferencia de las técnicas incrementales, todos los objetos parcialmente almacenados están disponibles en todo momento para examinar cuál de ellos resulta conveniente eliminar.

Figura 8. Estrategia de edición decremental.

La principal ventaja de esta estrategia es que se obtiene una mayor reducción del conjunto de entrenamiento y normalmente, se logra una mayor precisión en la clasificación con respecto a la obtenida con la muestra original. Una desventaja que presenta esta estrategia es que resulta ser computacionalmente más costosa con respecto al enfoque incremental, ya que, por ejemplo, para encontrar similitud entre un objeto y el subconjunto S, la estrategia decremental lleva a acabo n comparaciones (donde n=|S|), mientras que la estrategia incremental realiza menos cálculos (cero inicialmente y, posteriormente, sólo una fracción de |TS|).

36

Técnicas de Filtrado de las Muestras de Aprendizaje

Estrategia por lotes. Esta es otra de las maneras en que puede llevarse a cabo el proceso de edición, la cual consiste en identificar y marcar aquellos objetos que no satisfacen el criterio de selección, los cuales no serán considerados en el subconjunto S y, finalmente, se eliminan tales objetos, es decir, no se elimina sólo un objeto sino grupos de estos. Al igual que la estrategia decremental, esta técnica resulta ser costosa desde el punto de vista computacional.

También, en base al efecto que causa la eliminación de los objetos, [Brighton. H, Mellish. C, 2002] suelen dividir los métodos de edición en tres esquemas: 1. Incremento de la competencia. 2. Preservación de la competencia. 3. Esquema híbrido. El primer esquema está enfocado a descartar aquellos objetos cuya eliminación da lugar a un incremento de la precisión en los resultados de clasificación. Normalmente esta técnica elimina objetos considerados como ruido. La segunda propuesta elimina objetos superfluos, es decir, aquellos objetos cuya eliminación no provoca un decremento en la precisión de los resultados de clasificación. Por último, el esquema híbrido se deriva de los dos esquemas anteriores y se encarga de abordar ambos problemas simultáneamente.

3. Algoritmo de Edición de Wilson El algoritmo de Edición de Wilson [Wilson, 1972] es el primer método de edición propuesto en la literatura científica con el objetivo de “limpiar” o “filtrar” el conjunto de entrenamiento para las reglas NN mediante la eliminación de prototipos erróneamente etiquetados. El fundamento teórico propuesto por Wilson en su algoritmo es el siguiente: si un prototipo resulta mal clasificado a partir de la regla k-NN, será eliminado del conjunto de entrenamiento. Es importante señalar que mediante este proceso se utilizarán todos los prototipos del conjunto de entrenamiento con excepción del que se está considerando en cada momento para determinar los k vecinos más próximos, es decir, el método de estimación del error empleado en este algoritmo corresponderá al método leaving-one-out. Sea {X, Θ} = {(x1, θ1), (x2, θ2), …, (xN, θN)} un conjunto de entrenamiento con N prototipos y M posibles clases y, sea k el número de vecinos más próximos a determinar para cada prototipo. Entonces, podemos escribir el algoritmo de edición de Wilson del siguiente modo: Algoritmo Edición de Wilson (X, k) Entrada: X → Conjunto de entrenamiento a editar k → Cantidad de vecinos Salida: S → Conjunto editado

37

Capítulo 3

Método: 1- S ← X 2- Para cada prototipo xi∈X 2.1- Buscar los k-NN más próximos de xi en X - {xi} 2.2- Si δk-NN (xi) ≠ θi entonces S ←S - {xi} 3- Devolver S Como puede apreciarse, este esquema de edición resulta sumamente sencillo de implementar y es fácilmente comprensible. Además, el comportamiento expuesto para la regla k-NN puede claramente extenderse para el caso de la edición de Wilson, puesto que la corrección de los prototipos se estima a partir de dicha regla de clasificación. Por otra parte, el coste computacional para este procedimiento de edición es de O(N2), lo cual hace que para ciertos problemas prácticos donde se cuente con conjuntos de entrenamiento relativamente grandes su aplicación se puede ver limitada.

3.1. Edición Repetitiva Apoyándose en el esquema de edición de Wilson, [Tomek, 1976a] presenta un esquema iterativo con el objetivo de obtener conjuntos aún más compactos y homogéneos a los encontrados por el algoritmo de Wilson. Algoritmo Edición Repetitiva (X, k) Entrada: X → Conjunto de entrenamiento a editar k → Cantidad de vecinos Salida: S → Conjunto editado Método: 1- S ← ∅ 2- Mientras |X| ≠ |S| 2.1- S ← X 2.2- Aplicar la Edición de Wilson sobre el conjunto X 3- Devolver S Desde el punto de vista teórico, la aplicación repetida del algoritmo de Wilson debe mejorar los resultados obtenidos con el algoritmo original pero, en la práctica, el algoritmo no mejora de manera significativa la efectividad de la clasificación dado que elimina muy pocos prototipos después de la primera iteración, por lo que finaliza al cabo de muy pocas iteraciones.

38

Técnicas de Filtrado de las Muestras de Aprendizaje

3.2. Edición con Rechazo Basándonos en unos criterios muy similares a los considerados en el algoritmo anterior, se puede obtener un esquema alternativo en el que la regla k-NN con rechazo vista en el capítulo anterior, se utilizará, no sólo en el proceso de edición, sino también en la clasificación de nuevas muestras [Tomek, 1976b]. Mediante este procedimiento, un conjunto de entrenamiento con M posibles clases se convertirá en un conjunto editado con M+1 clases distintas (incluyendo la clase correspondiente a los prototipos rechazados o clase “0”) y, por consiguiente, el posterior proceso de clasificación deberá realizarse teniendo en cuenta que se trata de un nuevo problema, ahora de M+1 clases. Algoritmo Edición con Rechazo (X, k, l) Entrada: X → Conjunto de entrenamiento a editar k → Cantidad de vecinos l → Umbral para la regla k-NN con Rechazo Salida: S → Conjunto editado Método: 1- S ← X 2- Para cada prototipo xi ∈X 2.1- Buscar los k-NN vecinos de xi en X - {xi} 2.2- Si δ (k, l)-NN (xi) ≠ θi ≠ θ0, hacer S ← S - {xi} 2.3- Si δ (k, l)-NN (xi) ≠ θi = θ0 asignar a xi la clase de los prototipos rechazados 3- Devolver S El objetivo que se persigue con este algoritmo es descartar las muestras “dudosas”, es decir, las que se encuentran próximas a las fronteras de decisión.

3.3. Edición con Reetiquetado El procedimiento de este algoritmo se basa en reetiquetar determinados prototipos en función de la zona del espacio de representación en la que se encuentran [Koplowitz, 1981] utilizando para ello la regla k-NN con Rechazo. No obstante, la idea de asignar prototipos a una clase distinta a la suya no parece, en general, apropiada y, por tanto, para ciertos problemas, este procedimiento no podrá aplicarse de forma correcta. Algoritmo Edición con Reetiquetado Entrada: X → Conjunto de entrenamiento a editar k → Cantidad de vecinos

39

Capítulo 3

l → Umbral para la regla k-NN con Rechazo Salida: S → Conjunto editado Método: 1- S ← X 2- Para cada prototipo xi ∈X 2.1- Buscar los k-NN vecinos de xi en X - {xi} 2.2- Si δ (k, l)-NN (xi) ≠ θi ≠ θ0 asignar a xi la clase más votada por sus k vecinos más próximos. 2.3- Si δ (k, l)-NN (xi) ≠ θi = θ0 hacer S ← S - {xi} 3- Devolver S Debemos señalar que tanto en el algoritmo de edición con rechazo propuesto por [Tomek, 1976b] como en la edición con reetiquetado [Koplowitz, 1981], se ha empleado como regla de edición la regla δ(k,l)-NN, pero en estos algoritmos también se pueden emplear las diferentes variantes relativas a la opción de rechazo que expusimos en el capítulo anterior de la presente memoria.

4. Edición por Partición En el caso del algoritmo de Wilson, resulta incorrecto considerar que la estimación realizada sobre cada uno de los prototipos del conjunto de entrenamiento sea estadísticamente independiente, por lo tanto, no será posible llevar a cabo el análisis del comportamiento asintótico para la correspondiente regla NN editada [Penrod, 1977]. Con el fin de resolver esta dificultad, [Devijver, 1980] propone un nuevo algoritmo de edición basado en el esquema de Wilson, pero cambiando el método de estimación de la pertenencia de un prototipo a su clase. En este nuevo esquema de edición, el método de estimación consistirá en realizar una partición del conjunto de entrenamiento en m bloques disjuntos de prototipos y, después de enumerarlos, hacer una estimación para cada bloque j, utilizando el bloque ((j+1) módulo m) para diseñar el clasificador. A partir de este procedimiento, será posible considerar que las funciones de diseño y evaluación preserven aquella independencia estadística (siempre que m>2) de la que carecían precisamente las propuestas anteriores. Teniendo en cuentas las modificaciones señaladas en el párrafo anterior sobre el esquema de Wilson, el algoritmo de edición basado en particiones se puede resumir de la siguiente manera. Algoritmo Edición por Particiones (Holdout) Entrada: X → Conjunto de entrenamiento a editar k → Cantidad de vecinos

40

Técnicas de Filtrado de las Muestras de Aprendizaje

m → Número de particiones Método: 1- Hacer una partición aleatoria de X en m bloques T1, …,Tm 2- Para cada bloque Tj (j = 1, …, m) 2.1- Para cada xi en Tj 2.1.1- Buscar los k-NN vecinos de xi en T((j+1) mod m) 2.1.2- Si δk-NN (xi) ≠ θi, hacer T ←T - {xi} Se ha demostrado en [Devijver, 1982] que este esquema de edición por partición presenta un comportamiento asintótico óptimo. El coste computacional del método, considerando que el número de distancias a calcular está en función del número de bloques m, será O(N2/m). Podemos comentar además, que dado que la partición del conjunto a editar se hace de manera aleatoria, puede darse el caso de que algunos de los conjuntos de prototipos obtenidos mediante esta partición aleatoria no sean lo suficientemente representativos del conjunto inicial, por lo cual debemos sugerir que las particiones que se hagan tengan presente la distribución de los prototipos en el conjunto de entrenamiento inicial.

4.1. Algoritmo Multiedición Al igual que se propuso una versión iterativa para la edición de Wilson, también el esquema basado en particiones permite la posibilidad de iterar el proceso de edición un determinado número de veces [Devijver, 1980], dando lugar al algoritmo Multiedit, el cual consiste en repetir la edición por partición pero utilizando la regla NN (k=1) para la selección de los prototipos. Algoritmo Multiedit Entrada: X → Conjunto de entrenamiento a editar f → Número de iteraciones consecutivas sin que se produzcan eliminaciones m → Número de particiones Método: 1- t = 0 2- Repetir hasta que en las últimas t iteraciones (t > f) no se produzca ninguna eliminación de prototipos del conjunto X. 2.1- Asignar a S el resultado de aplicar la Edición por Partición sobre X utilizando la regla NN. 2.2- Si no se ha producido ninguna nueva eliminación en el paso 2.1 (|X| = |S|) hacer t = t + 1 e ir al Paso 2

41

Capítulo 3

2.3- Asignar a X el contenido de S y hacer t = 0 Es preciso señalar que la gran ventaja de la versión iterativa es que, para conjuntos de entrenamiento finitos aunque suficientemente grandes, su comportamiento resulta ser significativamente mejor debido al hecho de no presentar aquella dependencia del parámetro k que sí mostraba el algoritmo anteriormente mostrado. Podemos señalar también que en problemas prácticos este algoritmo presenta las siguientes limitantes. • •

El comportamiento para las alternativas de edición basadas en particiones empeora a medida que disminuye la talla del correspondiente conjunto de entrenamiento. Esta degradación de la efectividad será tanto más importante a medida que el número de bloques por partición sea mayor. En la práctica, para el caso de conjuntos de entrenamiento relativamente pequeños, el algoritmo de edición de Wilson funciona considerablemente mejor que el algoritmo Multiedit.

4.2. Edición por Validación Cruzada La principal desventaja para la edición de Wilson residía en la falta de independencia estadística (debido al método de estimación del error empleado, leaving-one-out). Por otro lado, el comportamiento incorrecto de los modelos basados en particiones aplicados sobre conjuntos pequeños se debía, fundamentalmente, a los errores en la estimación. Con el objetivo de eliminar las dificultades antes mencionadas, [Ferri, 1992b] propone un nuevo algoritmo de edición el que consiste en utilizar un método de estimación del error que, teniendo en cuenta la independencia estadística, aproveche también todos los prototipos de que se dispone en el conjunto de entrenamiento. Por ello, se propone utilizar el estimador por Validación Cruzada, dentro de un esquema de partición. Algoritmo Edición por Validación Cruzada Entrada: X → Conjunto de entrenamiento a editar k → Cantidad de vecinos m → Número de particiones Método: 1- Hacer una partición aleatoria de X en m bloques T1, …, Tm 2- Para cada bloque Tj (j = 1, …, m) 2.1- Para cada xi en Tj 2.1.1- Buscar los k-NN vecinos de xi en Tj

42

Técnicas de Filtrado de las Muestras de Aprendizaje

2.1.2- Si δk-NN (xi) ≠ θi, hacer X ←X - {xi}

4.3. Multiedición por Validación Cruzada Siguiendo el mismo principio del esquema de edición por Partición simple y del algoritmo Multiedit, en el trabajo de [Ferri, 1992b] se propone un esquema repetitivo de la aproximación basada en estimación por Validación Cruzada presentada en el epígrafe anterior. Algoritmo Multiedit por Validación Cruzada Entrada: X → Conjunto de entrenamiento a editar f → Número de iteraciones sin que se produzcan eliminaciones m → Número de particiones Método: 1- t = 0 2- Repetir hasta que en las últimas t iteraciones (t > f) no se produzca ninguna eliminación de prototipos del conjunto X 2.1- Asignar a S el resultado de aplicar el Algoritmo de Edición por Validación Cruzada sobre X utilizando la regla NN 2.2- Si no se ha producido ninguna eliminación en el paso anterior (|T| = |S|), hacer t = t + 1 e ir al Paso 2 2.3- Asignar a X el contenido de S y hacer t = 0

5. Edición por Vecindad de Centroide más Próximo Dentro de los esquemas de edición que hemos descrito a lo largo de este capítulo, el esquema de Wilson además de ser la primera propuesta como método para editar la regla NN, constituye también una de las técnicas más sencillas y más eficaces para conseguir una relativa mejora en el comportamiento asociado a la regla de clasificación NN. Como ya se ha dicho anteriormente, este procedimiento consiste en eliminar del conjunto de entrenamiento aquellos prototipos que resultan incorrectamente clasificados a partir de la regla k-NN, utilizando leaving-one-out como método de estimación del error. A pesar de los buenos resultados que generalmente podremos obtener con la aplicación de la edición de Wilson, este método hereda algunos de los importantes inconvenientes ya apuntados para el clasificador k-NN en el caso finito. El anormal comportamiento del esquema de Wilson y, en general, de la mayoría de los

43

Capítulo 3

procedimientos de edición basados en la regla k-NN para determinados problemas, podría entenderse, en parte, como una consecuencia de la finitud de las muestras que dan lugar a vecindades relativamente grandes. En principio, todos los algoritmos de edición son capaces de localizar correctamente los prototipos que, sin pertenecer al conjunto de los puntos frontera, se encuentran en alguna clase distinta a la suya. Sin embargo, cuando esos mismos esquemas deben de enfrentarse con los prototipos de la frontera, pueden llegar a tener grandes dificultades para detectar a los verdaderos outliers y no descartar prototipos correctamente etiquetados. Esto es debido a que la regla de decisión que estos algoritmos emplean considera una definición de vecindad exclusivamente en términos de distancia, olvidándose por completo del criterio de simetría. Por lo antes expuesto, [Sánchez, 1997b] propone el algoritmo de edición k-NCN, el cual consistirá básicamente en aplicar las reglas de clasificación envolvente, presentadas en el capítulo anterior y utilizar leaving-one out como método de estimación del error. De manera general, puesto que el algoritmo de Wilson consigue buenos resultados de edición y, por otra parte, los esquemas envolventes de clasificación superan en mayor o menor medida a la regla k-NN, entonces lo que se pretende es lograr un esquema de edición que se beneficie de las principales ventajas de ambos, es decir, considerar la edición de prototipos para la regla NN en términos tanto de proximidad como de distribución espacial, obteniendo de este modo una información más precisa que nos pueda permitir ajustar las decisiones sobre los puntos fronteras. Sea {X, Θ} = {(x1, θ1), (x2, θ2), …, (xN, θN)} un conjunto de entrenamiento con N prototipos y M posibles clases distintas. Sea k el número de vecinos de centroide más próximo a determinar para cada prototipo. Entonces, el algoritmo de edición propuesto por [Sánchez, 1997b], el cual recibe el nombre de Wilsoncn (k-NCN), podrá escribirse del siguiente modo: Algoritmo Wilsoncn (k-NCN) Entrada: X → Conjunto de entrenamiento a editar k → Cantidad de vecinos Salida: S → Conjunto editado Método: 1- Inicialización S ← X 2- Para cada prototipo xi∈X 2.1- Buscar los k vecinos de centroide más próximo de xi en X - {xi} 2.2- Si δk-NCN (xi) ≠ θi, entonces S = S - {xi} Como puede observarse, este algoritmo de edición resultará tan simple y sencillo de implementar como lo era el procedimiento de Wilson, puesto que la única variación que se ha introducido corresponde al método de clasificación, en este caso, la regla k-NCN

44

Técnicas de Filtrado de las Muestras de Aprendizaje

aplicada en el último paso del algoritmo. Es importante también señalar que el coste computacional asociado a este esquema de edición, donde se tienen que calcular los k vecinos de centroide más próximo para una determinada muestra con un coste O(kN) y puesto que ahora deberemos de repetir este proceso para cada uno de los N prototipos del conjunto de entrenamiento, resultará ser O(kN2), es decir, similar al coste de la edición de Wilson. Es preciso hacer algunos comentarios sobre el algoritmo k-NCN, ya que sobre el mismo se pueden definir diversas extensiones similares a las que presentamos para el algoritmo de edición de Wilson. En concreto, se podrían implementar las siguientes variantes: 1. La versión repetitiva del esquema de edición por NCN, es decir, aquella que consiste en editar el conjunto de entrenamiento utilizando la regla k-NCN hasta que no se produzcan más eliminaciones de prototipos. 2. Reetiquetar determinados prototipos en función de la zona del espacio de representación que ocupe, aplicando en este caso la regla k-NCN con Rechazo en vez del esquema k-NCN. Cabe señalar que esta aproximación tendrá exactamente los mismos inconvenientes que la propuesta de reetiquetado por la regla k-NN con Rechazo [Koplowitz, 1981], es decir, la idea de asignar ciertos prototipos a una clase distinta a la suya no resultará, en general, la más apropiada. 3. Utilizar la regla k-NCN con rechazo no sólo para editar el conjunto de prototipos, sino también en la clasificación. A partir de esta aproximación, un conjunto de entrenamiento con M clases pasará a tener M+1 clases distintas de igual manera que en [Tomek, 1976b]. 4. Utilizar el esquema de edición por Partición y, considerar como regla de edición la regla k-NCN, es decir, el método de estimación consistirá en realizar una partición aleatoria del conjunto de entrenamiento en m bloques disjuntos de prototipos y, después de enumerarlos, hacer una estimación para cada bloque j, utilizando el bloque ((j+1) módulo m) para diseñar el clasificador.

6. Edición Basada en Grafos de Proximidad En el capítulo anterior, conjuntamente con la regla de decisión k-NCN, se presentaba también la aplicación de otros dos métodos de clasificación envolventes definidos a partir de una cierta relación de vecindad derivada de determinados tipos de grafos de proximidad, el GG y el RNG [Sánchez, 1997a]. A continuación, expondremos un esquema de edición basado en el concepto de vecindad de grafo. Estos algoritmos tomarán como base el método de edición de Wilson, el método leaving-one-out será utilizado como método de estimación del error y sólo será modificado el procedimiento para decidir qué prototipos deben ser eliminados del conjunto de entrenamiento.

45

Capítulo 3

Un primer algoritmo de edición por grafos de proximidad consistirá en calcular los vecinos de grafos para cada uno de los prototipos y, a continuación, eliminar del conjunto de entrenamiento aquellos prototipos cuya vecindad no pertenezca mayoritariamente a su misma clase. Esta propuesta de edición utilizará las reglas de clasificación GN y RG para estimar los prototipos erróneamente etiquetados. Sea {X, Θ} = {(x1, θ1), (x2, θ2), …, (xN, θN)} un conjunto de entrenamiento con N prototipos y M posibles clases distintas. Entonces el correspondiente algoritmo de edición por vecindad de grafo de 1er orden [Sánchez, 1997c] podrá escribirse del siguiente modo: Algoritmo I Edición por Vecindad de Grafo Entrada: X → Conjunto de entrenamiento a editar Salida: S → Conjunto editado Método: 1- Inicialización: S ← X 2- Para cada prototipo xi∈X 2.1- Buscar los vecinos de grafo de xi en X 2.2- Si δGN (xi) ≠ θi (ó δRN(xi) ≠ θi ), hacer S ← S - {xi} Este esquema general dará lugar a dos posibles procedimientos de edición en función del tipo de grafo de proximidad que utilicemos y, por tanto, de la regla de clasificación que apliquemos en el último paso del algoritmo. Las diferencias entre estas dos propuestas y los métodos de Wilson y Wilsoncn, básicamente se refieren a dos aspectos: 1. En los algoritmos de grafos de proximidad, no se establece ningún parámetro k, puesto que el número de vecinos de grafo varía para cada prototipo del conjunto de entrenamiento y no constituye una propiedad que deba fijar el usuario. 2. El coste computacional a estos esquemas de edición viene determinado, fundamentalmente, por la elevada carga computacional que requiere en gran medida la construcción de las estructuras geométricas. A partir de la idea general de utilizar determinados grafos de proximidad para editar un conjunto de entrenamiento, es posible definir diversas extensiones con el objetivo de aprovechar de manera eficiente la información local de los objetos en las vecindades de grafo. Una modificación de los algoritmos anteriormente descritos consistirá en tener en cuenta no sólo los vecinos de grafos de cada prototipo, sino también los vecinos correspondientes a los vecinos de su misma clase. El objetivo de esta alternativa es disponer de más información para ajustar las decisiones y, de este modo, asegurar la detección de ouliers fundamentalmente en las proximidades a las fronteras entre clases. Al mismo tiempo, al tener en cuenta no sólo los vecinos de grafo sino también los vecinos de su misma clase, esto permite descubrir la posible existencia de pequeños núcleos de prototipos erróneamente etiquetados dentro del agrupamiento general de alguna clase.

46

Técnicas de Filtrado de las Muestras de Aprendizaje

Por consiguiente, teniendo en cuenta la idea anteriormente expuesta, podemos describir otro algoritmo de edición presentado por [Sánchez, 1997c] el cual incluye las modificaciones al procedimiento anterior. Algoritmo II Edición por Vecindad de Grafo Entrada: X → Conjunto de entrenamiento a editar Salida: S → Conjunto editado Método: 1- Inicialización: S ← X 2- Para cada prototipo xi∈X 2.1- Buscar los vecinos de grafo de xi en X 2.2- Si δGN (xi) ≠ θi (ó δRN (xi) ≠ θi) 2.2.1- Buscar los vecinos de grafos correspondientes a los vecinos de su misma clase (θi) 2.2.2- Si δGN (xi) ≠ θi (ó δRN (xi) ≠ θi) con los vecinos de los pasos 2.1 y 2.2.1, hacer S ← S - {xi} Siguiendo en esta misma línea, por ejemplo, una pequeña variación con respecto a la propuesta que acabamos de ver podría consistir en tomar la vecindad de segundo orden para todos los prototipos, independientemente del resultado obtenido en la votación inicial con los vecinos de primer nivel. En cuanto al coste computacional de este nuevo esquema, se puede decir que, básicamente será el mismo que para la edición por vecindad de grafo de 1er orden puesto que, como ya hemos apuntado, la principal carga computacional asociada a este tipo de procedimiento viene determinada por la construcción de la correspondiente estructura de grafo.

7. Algoritmos de Edición Basados en Instancias Una serie de métodos de edición incremental basados en instancias (ejemplos) denominados IB2, IB3, IB4 e IB5 son propuestos en [Aha, D.W, Albert, D. 1991] y [Aha, D.W, 1992]. Estos métodos emplean como base el algoritmo IB1, el cuál no es un método de edición, ya que es una técnica para determinar si la clasificación de un nuevo objeto O es correcta o incorrecta. La manera en que se determina la clasificación es encontrando en el conjunto de entrenamiento al objeto más parecido a O y, si sus correspondientes clases difieren, entonces se dice que la clasificación de O es incorrecta. A continuación presentamos el algoritmo IB1 propuesto en el artículo anteriormente citado:

47

Capítulo 3

Algoritmo IB1 Entrada: X → Conjunto de entrenamiento a editar Salida: S → Conjunto editado Método: Inicialización S ← ∅ Para cada objeto O de X hacer 1- Para cada objeto y en S hacer Sim[y] = Calcular similaridad entre [O, y] 2- ymax = El objeto y de S con mayor similaridad con O 3- Si la clase(O) = clase(ymax) entonces la clasificación es correcta y 3.1- S ← S∪{O} 3.2- De lo contrario clasificación incorrecta 4- Devolver S El algoritmo IB2 es idéntico al algoritmo IB1, excepto que IB2 almacena los objetos clasificados erróneamente, pues es un método de edición cuya regla a seguir es encontrar en la muestra original un subconjunto que contenga aquellos objetos que fueron clasificados incorrectamente durante el proceso. El algoritmo IB2 resulta ser sensible al ruido, pues en base a la regla que sigue, almacena objetos ruidosos, ya que, por su naturaleza, este tipo de objetos suele clasificarse de manera incorrecta. Es importante señalar, que este algoritmo tiene mucha similitud con el algoritmo de Hart que expondremos en el próximo capítulo. El algoritmo IB3 analiza los resultados de clasificación antes de eliminar un objeto ruidoso, mantiene un registro de cómo se clasifica con los objetos que se van almacenando y elimina aquellos con los cuales, estadísticamente, se ven afectados los resultados de la clasificación. Los algoritmos IB4 e IB5 son extensiones de IB3, ya que, para cada clase, determinan un conjunto de pesos que serán asignados a los atributos de los objetos para fines de cálculo de similitudes.

8. Algoritmos DROP (Decremental Reduction Optimization Procedure) En el trabajo de [Wilson, D.R. y Martínez, T.R, 2000], se proponen los métodos decrementales DROP (Decremental Reduction Optimization Procedure). Estos métodos basan su regla de selección en términos del concepto de socio y de asociado.

Definición: Sea X ≠ ∅, el socio de un objeto P que pertenece al conjunto X, es aquél objeto que tiene a P como uno de sus k vecinos más cercanos. Definición: Aquellos ejemplos que tienen a P como uno sus k vecinos más cercanos son llamados asociados de P y se denotan mediante la expresión P. A1,…,a , donde a es el número de asociados de P.

48

Técnicas de Filtrado de las Muestras de Aprendizaje

El algoritmo DROP1 elimina un objeto P de S si sus socios en S se clasifican correctamente sin P, es decir, bajo este criterio, la ausencia de P no afecta los resultados de la clasificación. El algoritmo DROP2 propuesto en este artículo verifica el efecto que causa la eliminación del objeto en los objetos de la muestra original, es decir, DROP2 elimina al objeto P de S si los socios que P tiene en TS se clasifican correctamente sin P. Los algoritmos DROP3 y DROP4 aplican un filtrado de ruido (similar al algoritmo de Wilson) antes de comenzar el proceso de edición. La diferencia entre ambos es el criterio empleado en la etapa de filtrado, ya que DROP4 antes de eliminar el objeto ruidoso, verifica el impacto de clasificación provocado al no considerar tal objeto para determinar si será o no eliminado. Finalmente, el método DROP5 modifica al algoritmo DROP2 de tal manera que comienza por eliminar objetos que se encuentran cerca de los enemigos más cercanos (objetos cercanos con distinta clase). El algoritmo Drop1 puede ser formalmente descrito de la manera siguiente: Algoritmo DROP1 Entrada: X → Conjunto de entrenamiento a editar Salida: S → Conjunto editado Método: 1- Sea S = X 2- Para cada objeto P in S 2.1- Encontrar los k+1 vecinos más cercanos de P en S 2.2- Adicionar P a cada una de las listas de sus vecinos asociados 3- Para cada objeto P en S 3.1- Sea with = número de asociados de P clasificados correctamente con P como un vecino 3.2- Sea without = número de asociados de P clasificados correctamente sin P 3.3- Si without ≥ with 3.3.1- Eliminar a P de S 3.3.2- Para cada asociado A de P 3.3.2.1- Eliminar a P de la lista de vecinos más cercanos de A 3.3.2.2- Encontrar un nuevo vecino más cercano para A 3.3.2.3- Adicionar A a la nueva lista de vecinos asociados 3.3.3- Para cada vecino W de P 3.3.3.1- Eliminar a P de la lista de asociados de W 3.4- Fin del ciclo 4- Retornar subconjunto S Este algoritmo comienza construyendo, para cada ejemplo, tanto una lista de vecinos más cercanos como una lista de asociados. Entonces, cada ejemplo en S se elimina si su eliminación no afecta el resultado de la clasificación del resto de los ejemplos en S.

49

Capítulo 3

Cuando un ejemplo P se elimina, todos sus asociados deben eliminar a P de su lista de vecinos más cercanos y entonces deben encontrar un nuevo vecino más cercano tal que sigan teniendo k+1 vecinos en su lista. Cuando ellos encuentran un nuevo vecino W, ellos también se adicionan a la lista de asociados de W así que siempre, cada ejemplo tiene que actualizar su lista de vecinos y de asociados. Este algoritmo elimina ejemplos ruidosos porque un ejemplo ruidoso P usualmente tiene socios principalmente de clase diferente a la suya y tales socios deben ser, probablemente, bien clasificados sin P. El algoritmo DROP1 también elimina ejemplos en el centro de los grupos porque no hay socios cerca de sus enemigos y, por tanto, continúan siendo bien clasificados sin P. Cerca de la frontera, la eliminación de algunos ejemplos puede causar que otros sean mal clasificados porque la mayoría de sus vecinos pueden ser enemigos. Por tanto, este algoritmo tiende a almacenar puntos borde no ruidosos. En caso límite, existe una colección de ejemplos borde tales que la mayoría de los k vecinos más cercanos de cada uno de estos ejemplos está en la clase correcta.

9. Algoritmo ICF (Iterative Case Filtering) En el trabajo [Brighton, H. y Mellish, C, 2002], se propone el método de Edición ICF (Iterative Case Filtering), cuya regla de selección por lotes se basa en la definición de los conjuntos: alcance y cobertura del objeto P, los cuales, de manera análoga, se refieren al vecindario y conjunto de socios, respectivamente. La regla de selección propuesta en este algoritmo es la siguiente: eliminar aquellos objetos tales que el tamaño de alcance es mayor que el de cobertura, lo cual quiere decir que un objeto P será eliminado cuando mediante otros objetos se generaliza la información que pudiera proporcionar este objeto. Como etapa inicial, el algoritmo ICF filtra la muestra empleando el algoritmo de edición de Wilson. El algoritmo ICF puede ser formalmente descrito de la manera siguiente: Algoritmo ICF (Iterative Case Filtering) Entrada: X → Conjunto de entrenamiento a editar Salida: S → Conjunto editado Método: // Ejecutar el algoritmo de Edición de Wilson 1- Para todo P∈X hacer 1.1- Si P es clasificado incorrectamente por sus k-vecinos más cercanos entonces 1.2- Marcar a P para eliminarlo 2- Para todo P∈X hacer

50

Técnicas de Filtrado de las Muestras de Aprendizaje

2.1- Si P fue marcado para ser eliminado, entonces X=X - {P} 3- Repetir 4- Para todo P∈X hacer 4.1- Calcular alcance (P) 4.2- Calcular cobertura (P) 5- Progress = False 6- Para todo P∈X hacer 6.1- Si ⎥ alcance (P)⎥ > ⎥ cobertura (P)⎥ entonces 6.1.1- Marcar a P para eliminarlo 6.1.2- Progress = True 7- Para todo P∈X hacer 7.1- Si P fue marcado para ser eliminado hacer X = X - {P} 8- Hasta que no haya más eliminaciones en el conjunto X 9- Devolver X

10. Algoritmo de Edición Generalizada Otro de los algoritmos de edición que aparece con frecuencia citado en la bibliografía es la técnica de “Edición Generalizada”, el cual fue propuesto por [Koplowitz, J. y Brown, T.A, 1978]. Este algoritmo no sólo elimina algunos patrones, sino también corrige la etiqueta de otros. Una breve representación del algoritmo de edición generalizada se puede ver a continuación: Algoritmo: Edición Generalizada Entrada: X → Conjunto de entrenamiento a editar Parámetros k y k´, tal que (k + 1)/2 ≤ k´ ≤ k Salida: S → Conjunto editado Método: 1- Para cada xi∈X, buscar sus k-NN en X - {xi} 1.1- Si al menos k´ de esos k-NN pertenecen a la misma clase, asignarle a xi esa etiqueta 1.2- En caso contrario, eliminar xi del conjunto X

51

Capítulo 3

11. Algoritmo BSE (Backward Sequential Edition) En un conjunto de entrenamiento X, suele ocurrir que algunos de los objetos de X no aportan información relevante para la clasificación, por lo que es necesario identificar y descartar tales objetos, es decir, realizar una edición o selección de objetos, lo cual es un problema de búsqueda que consiste en encontrar el subconjunto de objetos óptimo para el entrenamiento del clasificador. Debido a que el espacio de subconjuntos de un total de d objetos es de tamaño 2d, los algoritmos para la selección de objetos suelen evitar emplear las técnicas exhaustivas, es decir, aquellas con las cuales se analizan las 2d posibilidades, lo que representa un alto costo computacional, ya que éste resulta ser exponencial (O(2d)). Una de las técnicas no exhaustivas es la búsqueda secuencial, cuyo orden de complejidad es polinomial (O(d2)). El método de edición que presentan [Olvera, J.A, Martinez, J.F, 2005] consiste en adaptar la idea de la búsqueda secuencial hacia atrás (BSS) propuesta por [Devijver, P. A. y Kittler, J, 1982], para la selección de objetos. A este método de edición adaptado le denominaron Backward Sequential Edition (BSE). El método propuesto BSE es una técnica decremental no exhaustiva para la selección de objetos, el cual en cada paso descarta o elimina el objeto que menos información aporta en la calidad del subconjunto parcial. Para evaluar los subconjuntos parciales a lo largo del proceso se emplea un clasificador. La función Classfier(P) devuelve como resultado el porcentaje de clasificación correcta con dicho clasificador empleando a P como conjunto de entrenamiento. Algoritmo BSE (Backward Sequencial Edition) Entrada: X → Conjunto de entrenamiento a editar Salida: S → Conjunto editado Método 1- Sea S=X 2- BestEval = Classfier (S) 3- Repetir 3.1- WorstP = Ninguno 3.2- Para cada objeto P en S 3.2.1- S´= S - {P} 3.2.2- Si Classfier (S´) ≥ BestEval entonces WorstP = P BestEval = Classfier (S´) 3.2.3- Si WorstP ≠ Ninguno entonces 3.2.3- S = S - {WorstP} 4- Hasta que WorstP = = Ninguno ó S = = ∅

52

Técnicas de Filtrado de las Muestras de Aprendizaje

5- Devolver S

12. Esquemas que Utilizan el Algoritmo BSE Utilizando el algoritmo BSE anteriormente descrito, [Olvera, J.A, Martinez, J.F, 2005] proponen dos algoritmos de edición para reducir el tiempo de ejecución de BSE, sin una reducción significativa en el porcentaje de clasificación. Los esquemas que estos autores propusieron están basados en dos etapas: 1. Un preproceso con el objetivo de detectar y descartar objetos ruidosos que son innecesarios para la clasificación, de esta manera, el tamaño del conjunto de entrenamiento original es reducido. 2. Se edita la muestra resultante para incrementar el porcentaje de clasificación. En el paso de preprocesamiento, el esquema propuesto usa un método para filtrar el ruido (eliminar objetos ruidosos) o un método de edición para eliminar los objetos superfluos. En el paso de edición, es utilizado el algoritmo BSE, pues este algoritmo reduce el número de objetos significativamente incrementando el porcentaje de clasificación. El primer esquema que muestran [Olvera, J.A, Martinez, J.F, 2005] en su trabajo consiste en aplicar los algoritmos Wilson y BSE, es decir, aplicar el algoritmo de edición de Wilson como filtro de ruido y, después, editar el subconjunto con el algoritmo BSE. Este esquema supone que hay objetos ruidosos en el conjunto de entrenamiento, los cuales pueden ser eliminados en el paso de preprocesamiento. Si no hay objetos ruidosos, el esquema se convierte en el método BSE. El segundo esquema propuesto es utilizar los algoritmos DROP y BSE. Está basado en editar una muestra editada debido a que después de editar una muestra es posible que algunos objetos en el conjunto editado no contribuyan al porcentaje en el proceso de clasificación, debido a que otros objetos en el conjunto editado pueden generalizar su descripción. En otras palabras, este esquema consiste en editar una muestra editada para incrementar el porcentaje de clasificación. El esquema usa los algoritmos DROP3DROP5 en el paso de preprocesamiento y, posteriormente utiliza el algoritmo BSE para editar la muestra editada. Es importante señalar que [Olvera, J.A, Martinez, J.F, 2005] utilizaron en los experimentos la función Heterogeneous Value Difference Metric (HVDM), [Wilson, D.R., Martínez T.R, 2000] para calcular la distancia entre dos objetos, la cual permite trabajar con datos mezclados, pudiéndose definir la misma de la siguiente manera:

53

Capítulo 3

HVDM (x, y)=

n

∑d a =1

2 a

( xa , ya )

donde da(x,y) es la distancia para el rasgo a y la misma se puede definir de la siguiente forma:

⎧ ⎪ si x ó y desconocidos ⎪1 ⎪ d a ( x, y ) = ⎨vdma ( x, y ) si a es nominal ⎪x- y ⎪ si a es un número ⎪⎩ 4σ a donde σa es la desviación standard de los valores para el rasgo a y vdma(x, y) se define mediante la expresión: ⎞ ⎛N N vdma ( x, y ) = ∑ ⎜ a , x , c − a , y , c ⎟ ⎜ N a , y ⎟⎠ c =1 ⎝ N a , x M

2

donde Na,x es el número de veces que el rasgo a toma el valor x en el conjunto de entrenamiento, Na,x,c es el número de veces que el rasgo a toma el valor x en la clase c, y M es el número de clases.

54

Capítulo 4 Técnicas de Reducción del Conjunto de Entrenamiento 1. Introducción Uno de los aspectos singularmente negativos asociados a las distintas reglas NN radica en la necesidad de disponer de un elevado número de prototipos con el fin de obtener unos resultados similares a los proporcionados a partir del análisis asintótico. Sin embargo, este hecho determinará obviamente que el correspondiente proceso de búsqueda de los k vecinos más próximos sea computacionalmente demasiado costoso, lo cual podría significar la imposibilidad de utilizar estos esquemas de clasificación para ciertos problemas reales. Con el objetivo de poder aplicar las distintas reglas basadas en criterios de vecindad expuestas en el primer capítulo de este trabajo, además de los diversos algoritmos eficientes que se describen en la literatura, una alternativa evidente para acelerar el cálculo del vecino más próximo consiste en disminuir el número de prototipos en el conjunto de entrenamiento, pero sin originar un incremento del correspondiente error de clasificación. De forma general, el objetivo para cualquier procedimiento de condensado consistirá en descartar del conjunto de entrenamiento todos aquellos prototipos que no influyan explícitamente en la obtención de un resultado de clasificación igual o muy similar al obtenido utilizando la totalidad del conjunto de prototipos. La principal diferencia entre los distintos esquemas de condensado se centra en el método empleado para estimar correctamente qué prototipos son necesarios y cuáles no lo son. La familia de técnicas de condensado se divide a su vez en esquemas de selección y de reemplazo, dependiendo de la forma en la cual obtienen los prototipos del conjunto condensado. Los algoritmos que pertenecen al primer grupo seleccionan puntos del conjunto original, dando lugar a un conjunto reducido que es subconjunto, generalmente propio de éste. En el caso de las técnicas con estrategia de reemplazo, los prototipos miembros del conjunto condensado son “construidos” a partir de los puntos del conjunto original mediante el uso de una función de transformación, por lo tanto estos prototipos creados no coinciden necesariamente con los puntos originales.

Capítulo 4

A lo largo de este capítulo, se expondrán los algoritmos de condensado más representativos que se han difundido en la literatura científica dedicada a esta temática, exponiendo sus ventajas así como las deficiencias que los mismos presentan.

2. Algoritmo Condensado de Hart El algoritmo de Hart [Hart, 1968] es considerado en la literatura como la primera propuesta formal de condensado para la regla NN. Un elemento teórico importante presente en este algoritmo es el concepto de consistencia respecto al conjunto de entrenamiento. Definición: Sea X ≠ ∅ un conjunto y consideremos S⊆X, decimos que el subconjunto S es consistente respecto al conjunto X si, al utilizar al subconjunto S como conjunto de aprendizaje, se puede clasificar correctamente a todo el conjunto X.

A partir de esta definición de consistencia, si consideramos al conjunto X como conjunto de entrenamiento, un conjunto condensado deberá cumplir las propiedades de ser reducido y consistente. El algoritmo de Hart es un método incremental el cual consiste en encontrar de entre los elementos del TS un subconjunto S tal que cada objeto del TS sea más cercano o parecido a los objetos de S de la misma clase que a los que tienen distinta clase. Este subconjunto S es utilizado para clasificar correctamente todos los objetos en el TS. Además, se asume que el conjunto TS es consistente, es decir, que dentro de éste no existen dos objetos cuyos atributos sean idénticos y correspondan a clases distintas. Este método comienza seleccionando de manera aleatoria un objeto correspondiente a cada una de las distintas clases y estos objetos se añaden a S, el cual inicialmente es un conjunto vacío. Posteriormente, cada objeto en el TS es clasificado empleando únicamente los objetos de S; cuando un objeto es clasificado erróneamente, entonces éste se añade a S para garantizar que será clasificado correctamente. El proceso se repite hasta que no existan objetos en el TS que sean clasificados de manera errónea. Algoritmo Condensado de Hart (CNN) Entrada: X → Conjunto de entrenamiento Salida: S → Conjunto Condensado Método: 1- Inicialización: R ← X 2- Sea S conjunto formado inicialmente por un prototipo por clase 3- Repetir 3.1- Para cada prototipo xi∈R hacer 3.1.1- Si xi es mal clasificado utilizando la regla NN y los objetos del conjunto S entonces hacer R = R - {xi} S = S∪{xi}

56

Técnicas de Reducción del Conjunto de Entrenamiento

4- Hasta que no haya cambios en R ó R = ∅ 5- Devolver S Como se puede observar, el esquema de condensado de Hart elimina del conjunto de entrenamiento aquellos prototipos que no resultan necesarios para la correcta clasificación del resto de puntos mediante la regla NN. La justificación de este método se basa en la idea de que si un punto es incorrectamente clasificado, se deberá probablemente al hecho de encontrarse próximo a la frontera de decisión y, por tanto, no debería ser descartado del conjunto de entrenamiento. Este algoritmo es muy sencillo de implementar y rápido (su coste computacional es lineal con la talla de X en cada iteración); en la práctica, se obtiene un conjunto consistente después de muy pocas iteraciones. Por otra parte, cabe destacar que la talla del conjunto condensado resulta, en la mayoría de los casos, considerablemente pequeña comparada con el tamaño del conjunto original, siempre y cuando éste haya sido previamente editado con el fin de evitar los posibles solapamientos entre regiones de clases distintas. Es necesario comentar algunos aspectos negativos respecto a este método de condensado: 1. Cabe mencionar el hecho de que no será posible afirmar que el conjunto resultante de la aplicación del algoritmo corresponda realmente al conjunto consistente de menor talla posible; de hecho, en función del orden de los prototipos en el conjunto inicial, se podrán obtener distintos conjuntos condensados (todos ellos serán consistentes y, sin embargo, la talla de cada uno de los conjuntos resultantes podrá ser diferente). 2. Esta técnica es sensible al ruido, ya que objetos ruidosos suelen ser clasificados erróneamente por sus vecinos y, de esta manera, los objetos ruidosos se anexan al conjunto condensado S. 3. No se logra una reducción considerable de la muestra, ya que los objetos ruidosos son innecesarios pero aún siguen presentes en el conjunto condensado. 4. El efecto negativo que el subconjunto resultante causa en los resultados de clasificación, debido a que los objetos ruidosos no aportan información relevante al clasificador.

2.1. Algoritmo de Condensado Reducido En el trabajo de [Gates, 1972], se realiza una extensión decremental del algoritmo de condensado de Hart. En este trabajo, se propone un procedimiento de condensado alternativo con el fin de eliminar de un conjunto consistente, obtenido a partir del anterior algoritmo de Hart, aquellos prototipos que no resulten necesarios para mantener la propiedad de consistencia.

57

Capítulo 4

Algoritmo Condensado Reducido (RNN) Entrada: X → Conjunto de entrenamiento Salida: S → Conjunto Condensado Método: 1- Inicialización S ← ∅, T ← X 2- Condensado de Hart sobre el conjunto T 3- Para cada prototipo si∈S (conjunto resultante del paso anterior) 3.1- Eliminar si del conjunto S 3.2- Para cada prototipo xi∈X 3.2.1- Buscar el vecino más próximo de xi en S 3.2.2- Si δNN (xi) ≠ θi reasignar si al conjunto S e ir al Paso3 4- Devolver S Con esta propuesta podemos afirmar que, en la mayoría de los casos, se obtendrá un conjunto condensado de menor talla que con el algoritmo de Hart, aunque las diferencias suelen ser muy poco significativas. Sin embargo, en este caso tampoco será posible asegurar que dicho conjunto condensado vaya a corresponder al conjunto consistente minimal. Por otra parte, en cuanto al comportamiento en el proceso de clasificación, esta propuesta generalmente no mejorará el resultado obtenido con el condensado de Hart.

3. Algoritmo Condensado de Tomek En [Tomek, 1976c], se argumenta que el método de condensado de Hart (CNN), así como el condensado reducido propuesto por [Gates, 1972] (RNN), todavía mantienen demasiados puntos que no se encuentran próximos a las fronteras de decisión, debido al orden aleatorio en la selección de los prototipos. La consecuencia de esto sería la obtención de conjuntos erróneos, en el sentido de que se incluirían ciertos prototipos que inicialmente no se encontraban próximos a las fronteras de decisión y, sin embargo se eliminaban otros que no lo estaban. Con el propósito de resolver la dificultad expuesta anteriormente, [Tomek, 1976c] presenta una modificación sobre el algoritmo original de condensado de Hart, la cual consiste en definir una apropiada estrategia de selección, en vez de utilizar una estrategia aleatoria. Para ello, se propone seleccionar un subconjunto C⊆X, correspondiente a los denominados puntos fronteras o prototipos más próximos a la frontera de decisión. Para este fin, se establece la siguiente propiedad: un prototipo formará parte del conjunto C si es vecino más próximo de algún elemento de clase distinta en el conjunto inicial.

58

Técnicas de Reducción del Conjunto de Entrenamiento

Algoritmo Condensado de Tomek (X) Entrada: X → Conjunto de entrenamiento Salida: S → Conjunto Condensado Método: 1- Inicialización: S ← ∅; C ← ∅ 2- Mientras se eliminen prototipos de X o X ≠∅ 2.1- Para cada prototipo xi∈X hacer 2.1.1- Buscar el vecino más próximo de xi en S 2.1.2- Si δNN (xi) ≠ θi 2.1.2.1- Si xi∈C, eliminar xi de C y X, y pasarlo a S. Ir al Paso 2.1 2.1.2.2- Buscar el vecino más próximo z de xi en S ∪ C 2.1.2.3- Si δNN (xi) ≠ θi eliminar z de C y X, y pasarlo a S. Ir al Paso 2.1 2.1.2.4- Buscar el vecino más próximo z de xi entre los prototipos de X de clase distinta de xi. 2.1.2.5- Asignar z a C 2.1.2.6- Buscar el vecino más próximo v de z entre los prototipos de su misma clase que esté más cerca de xi que de z 2.1.2.7- Eliminar v de X y asignarlo a S Este método presenta una serie de aspectos negativos que limitarán su capacidad de aplicación a problemas reales, entre los que podemos señalar: 1. El coste computacional asociado a este algoritmo de condensado es O(N3). 2. El conjunto de puntos frontera resultante, C, no es consistente con respecto al conjunto de entrenamiento X; en el artículo de [Toussaint, 1994], mediante un sencillo contraejemplo, se demuestra la afirmación anterior.

4. Algoritmo Condensado de Chen Los métodos de condensado anteriormente mencionados tienen en común el hecho de no poder establecer de antemano el número de prototipos a seleccionar, es decir, en ningún caso permitirán controlar el tamaño del subconjunto resultante de la aplicación del algoritmo de condensado, lo cual podría resultar interesante para determinados problemas donde lo fundamental será tanto los requerimientos computacionales como la efectividad del clasificador. Con este fin, [Chen, 1996] propone un sencillo esquema de condensado que aporta la posibilidad de controlar la talla del conjunto resultante.

59

Capítulo 4

Básicamente, la estrategia del algoritmo consistirá en dividir el conjunto inicial en sucesivos subconjuntos de prototipos utilizando para ello la definición de diámetro de un conjunto: Definición: Sea A ≠ ∅ un conjunto, llamamos diámetro del conjunto A al valor calculado de la siguiente manera. ϒ(A) = {supremo d(xi, xj) , ∀ xi, xj∈A i ≠ j }.

Posteriormente, cada uno de los subconjuntos resultantes se remplazará por su centro de gravedad y se le asignará la etiqueta de clase correspondiente a la de la mayoría de sus prototipos. Este proceso iterativo deberá repetirse hasta alcanzar el número de muestras previamente establecido. Sea nd ≤ N el tamaño del subconjunto reducido que deberemos obtener a partir de un conjunto de entrenamiento inicial formado por N prototipos, entonces podrá escribirse el correspondiente esquema de condensado con control sobre la talla del conjunto resultante de la siguiente forma: Algoritmo Condensado de Chen (X, nd) Entrada: X → Conjunto de entrenamiento Salida: S → Conjunto Condensado Método: 1- Inicialización: nc ←1; i ←1; C(i) ← X ; D ← X 2- Buscar los dos prototipos más alejados, p1 y p2 en el conjunto D 3- Mientras nc < nd 3.1- Dividir el conjunto D en D1 y D2 según el criterio: D1 = {x∈D / d(x, p1) ≤ d (x, p2)} D2 = {x∈ D / d(x, p2) < d (x, p1)} 3.2- nc ← nc + 1; C(i) ← D1; C(nc ) ← D2 3.3- Separar los subconjuntos de prototipos pertenecientes a más de una clase y aquellos pertenecientes a una única clase I1 = {i / C(i) contiene puntos de clases distintas} I2 = {i / i ≤ nc}- I1 3.4- Si I1 ≠ ∅ entonces I = I1 de lo contrario I = I2 3.5- Para cada C(i) , i∈I hacer 3.5.1- Buscar los dos prototipos más alejados q1(i ) y q2(i ) 3.6- Buscar el subconjunto C(j) con mayor diámetro, hacer d(q1(j ), q2( j)) = max [d(q1(i), q2(i)], i∈I 3.7- D ← C(j); p1 ← q1(j); p2 ← q2(j) 4- Para cada C(i), i = 1, 2, …, nd 4.1- Buscar los centros de gravedad G(i) 5- Para cada G(i)

60

Técnicas de Reducción del Conjunto de Entrenamiento

5.1- Asignar G(i) a la clase más representada en el correspondiente subconjunto C(i) Las principales ventajas que aporta este procedimiento respecto al resto de los algoritmos de condensado se pueden resumir de la siguiente manera: 1. Debido a que es posible establecer la talla del conjunto resultante, se podrá también controlar, en cierta medida, la efectividad asociada al clasificador a partir de la eliminación de un mayor o menor número de prototipos. 2. Mediante la aplicación de este modelo, se pretende encontrar un adecuado equilibrio entre las correspondientes necesidades computacionales y la efectividad requerida en el proceso de clasificación para cada problema especifico.

5. Condensado Adaptativo. Método por Cuantificación Vectorial (LVQ) La aplicación de los esquemas de condensado sobre un conjunto de entrenamiento sólo tendrá sentido cuando previamente se hayan eliminado los posibles solapamientos entre regiones de distintas clases mediante algún procedimiento de edición, es decir, cuando las fronteras inducidas por la regla NN constituyan realmente una correcta aproximación de las fronteras de decisión asociadas al clasificador de Bayes. Por consiguiente, parece evidente la necesidad de aplicar conjuntamente los esquemas de edición y condensado con el fin de obtener correctamente un conjunto reducido de prototipos. Para obtener el mismo objetivo que aquella aplicación combinada de los métodos de edición y condensado, existe un grupo de técnicas para la selección de prototipos basada en los denominados mapas de características auto-organizativos, (SOM ó Self Organizing Maps) [Kohonen, 1990a], que consistirán básicamente en la definición de una localización de prototipos en el espacio de representación que aproxime de manera óptima las distribuciones de probabilidad de cada clase. Estos procedimientos alternativos, en general conocidos como métodos de condensado adaptativo se basarán en la generación de nuevos prototipos [Marin, 1991], mediante la modificación o el ajuste de la localización de un número limitado de prototipos [Kohonen, 1990a], [Yau, 1991], [Laaksonen, 1996] a partir de un determinado conjunto de entrenamiento. Concretamente, presentaremos en este epígrafe los métodos LVQ (Learning Vector Quantization) o aprendizaje por cuantificación vectorial, propuestos por [Kohonen, 1990a], los cuales constituyen una de las aproximaciones más ampliamente utilizadas en la práctica, debido fundamentalmente a su simplicidad conceptual y a un excelente comportamiento sobre la mayoría de los problemas reales. También veremos en esta sección una variante, el algoritmo DSM (Decision Surface Mapping) o construcción de superficies de decisión, propuesto por [Geva , Sitte, 1991].

61

Capítulo 4

La diferencia fundamental de estos métodos con los métodos de edición y condensado que conocemos es que el conjunto resultante no tiene porqué ser un subconjunto del conjunto inicial. Además, usan un número fijo (predeterminado) de prototipos para aproximar las funciones de densidad de probabilidad (LVQ) o para aproximar las fronteras de decisión (DSM). Las características más relevantes de estos métodos son la sencillez de las heurísticas empleadas y la rapidez de cálculo. El inconveniente surge a la hora de establecer los valores adecuados de los parámetros. El aprendizaje por cuantificación vectorial (LVQ) consistirá en comparar cada prototipo con su vecino más próximo para, posteriormente, aplicar un factor de recompensa o castigo (denominado, factor de corrección, 0< α min ⎜ , ⎜ d (m (t ), x(t )) d (m (t ), x(t )) ⎟ 1 + w j i ⎠ ⎝ donde w es el “ancho” relativo de la ventana. La corrección LVQ2.1 se aplica de la siguiente manera: mi(t+1) ← mi(t) + α(t)[x(t) - mi(t)] mj(t+1) ← mj(t) - α(t)[x(t) - mj(t)]

Factor de recompensa a mi(t) Factor de castigo a mj(t)

La segunda variante del método LVQ (denominada LVQ3), en realidad, puede entenderse como un cierto modelo híbrido de los dos esquemas anteriormente descritos, LVQ1 y LVQ2.1, puesto que consistirá en aplicar un determinado factor de corrección sobre los prototipos incluso cuando el vector de entrada x(t) resulte correctamente clasificado. La estrategia de corrección es la siguiente: dado un prototipo de aprendizaje x(t), sean mi(t) y mj(t) los dos prototipos más cercanos a x(t). 1. Si uno de ellos es de la misma clase que x(t) y el otro no y x(t) está en la ventana, entonces se aplica LVQ2.1. 2. Si los dos son de la misma clase que x(t), se premia a ambos. mi(t+1) ← mi(t) + εα(t)[x(t) - mi(t)] mj(t+1) ← mj(t) + εα(t)[x(t) - mj(t)] donde ε toma valores entre 0.1 y 0.5. La tercera modificación sobre el método LVQ inicial (denominada LVQ1 con velocidad de aprendizaje óptima u OLVQ1) consistirá en definir un factor de corrección o velocidad de aprendizaje 0 p(cj /x) 1 ≤ j ≤ M i ≠ j x∈Ci Este criterio constituye la regla de decisión de Bayes de error mínimo, en la cual se basan la mayoría de los métodos de clasificación pertenecientes al reconocimiento estadístico de formas. Sin embargo, la probabilidad a posteriori de que un objeto pertenezca a una clase determinada no es un dato del que se suela disponer en la mayoría de los casos. Según el uso que se haga del conocimiento de la naturaleza de las funciones a estimar, se puede distinguir entre métodos de clasificación paramétricos y métodos no paramétricos. En los métodos de clasificación paramétricos se supone el conocimiento de la estructura estadística de las clases y se modelan mediante funciones de densidad conocidas; en el caso no paramétrico, no se conoce a priori la forma funcional de las funciones de densidad y se trata de estimar ésta, pues la única información disponible es la suministrada por un conjunto de prototipos. Para este último grupo, se ha propuesto una gran variedad de funciones discriminantes que dan lugar a diferentes tipos de clasificadores.

Capítulo 6

El objetivo final de todo proceso de clasificación es etiquetar un patrón x; una de las maneras en que se puede hacer esto es diseñando buenas reglas de clasificación asumiendo correctamente distribuciones de probabilidad para cada clase. Estos métodos paramétricos han sido ampliamente estudiados, los cuales solucionan el problema al suponer distribuciones conocidas y que se ajusten a la naturaleza de los problemas particulares. Lamentablemente tenemos que decir, en general, que es difícil sustentar los supuestos paramétricos, motivo por cual, el estudio de métodos de clasificación no paramétricos recibe gran atención. El problema se convierte entonces en realizar estimaciones eficientes de las funciones de densidad para cada clase, a partir de un conjunto de prototipos. Existen varios métodos no paramétricos que se pueden emplear en distribuciones arbitrarias y sin suposiciones acerca de la forma funcional de la función de densidad p(x/wj). Uno de ellos es el Método de Ventanas de Parzen, el cual consiste en estimar la función de densidad de un conjunto de patrones o muestras; si estos estimados son satisfactorios, entonces podemos sustituirlos en la función de densidad verdadera cuando diseñamos el clasificador. Otro procedimiento para estimar directamente las probabilidades a posteriori p(wj/x) está cercanamente relacionado con el diseño no paramétrico de procedimientos tales como la regla de los k vecinos más cercanos, la cual se desvía de la búsqueda de la función de densidad y va directamente a la construcción de las funciones de decisión. Finalmente, existen métodos no paramétricos que transforman el espacio de rasgos con la esperanza de aplicar los métodos paramétricos en el espacio transformado. Estos métodos de análisis discriminante incluyen el discriminante lineal de Fisher, el cual constituye un eslabón importante entre las técnicas paramétricas y las técnicas adaptativas. Debemos comentar que todas las reglas de clasificación expuestas en el segundo capítulo de esta memoria de Tesis Doctoral no tienen en cuenta la distribución de probabilidades de pertenencia a la clase de cada uno de los vecinos, es decir, estas reglas de clasificación sólo tienen en cuenta la distancia del objeto a clasificar a sus vecinos más cercanos, siguiendo un determinado criterio de vecindad, pero en ningún caso se estima en esa vecindad la probabilidad de pertenencia a la clase de cada uno de estos vecinos. En este capítulo, definiremos una nueva regla de clasificación estocástica que tenga en cuenta el criterio de vecindad seleccionado y, además, la probabilidad de pertenencia a la clase de cada uno de los vecinos más cercanos a la muestra que se desea clasificar. También definiremos una opción de rechazo de manera similar a como se hizo en el Capítulo 2 de esta memoria.

2. Ventanas de Parzen Las técnicas fundamentales para determinar una función de densidad parten del hecho de que la probabilidad P de que cierto punto x pertenezca a una región R viene dada por:

84

Reglas de Clasificación Estocásticas

P = P( x ∈ R) =

∫ p( x′)dx′

(2.1)

R

Luego, P es una versión promediada o suavizada de la función de densidad p(x) y nosotros podemos estimar este valor suavizado de p estimando la probabilidad P. Supongamos que disponemos de n observaciones x1, x2, …, xn independientes e idénticamente distribuidas (i.i.d.), seleccionadas de acuerdo a la ley de probabilidad p(x). La variable aleatoria X igual al número de muestras que pertenecen a R tiene una distribución binomial, por lo que la probabilidad de que k de las n muestras caigan en la región R vendrá dada por la expresión: ⎛n⎞ Pk = P( X = k ) = ⎜⎜ ⎟⎟ P k (1 − P) n − k ⎝k ⎠ y el valor esperado para k será: k = E{X } = nP ⇒ P =

k n

(2.2)

Luego, la probabilidad de que haya k muestras en un volumen dado, donde P es la probabilidad promedio es una función de k y, a medida que n crece, ese valor se n acerca más al verdadero valor de P. Además, esta distribución binomial alcanza el máximo alrededor de la media, por lo que se considera que el valor k es un buen n estimador de la probabilidad P y de la función de densidad suavizada. Esta estimación es más exacta cuando n es grande. Si ahora se asume que p(x) es continua y R es tan pequeña que p(x) no varía apreciablemente en su interior entonces: P = ∫ p ( x′)dx′ ≅ p ( x) ∫ dx′ = p ( x) VR R

(2.3)

R

donde x es un punto dentro de R y VR es el volumen encerrado en la región R (en 1D longitud, en 2D área, 3D volumen, etc). Combinando las expresiones 2.2 y 2.3 descritas anteriormente obtenemos: p ( x) V R =

k n

por tanto, podemos considerar que:

85

Capítulo 6

p( x) ≈

k nVR

La expresión anterior nos sirve para estimar la función de densidad de probabilidad. Si nosotros deseamos más que un valor aproximado, el verdadero valor de p(x) debemos hacer tender VR a cero. Sin embargo, si fijamos el número de muestras y hacemos tender VR a cero, la región se hará muy pequeña y encerrará, por tanto, muy pocas muestras, por lo que p(x) ≈ 0 ó si, por ejemplo, una o más muestras coinciden con x, el estimado tenderá a infinito, lo cual es igualmente ineficaz. Desde un punto de vista práctico, el número de muestras es siempre limitado, luego el volumen no puede ser demasiado pequeño. Para resolver las limitaciones anteriormente mencionadas, se puede emplear el siguiente método para determinar la densidad en x: supongamos que formamos una sucesión de regiones R1, R2, …. que contienen a x, la primera con una muestra, la segunda con dos y así sucesivamente; sea Vn el volumen de Rn, kn el número de muestras que caen en Rn y pn(x) el n-ésimo estimado de p(x), es decir: pn (x) =

kn n Vn

(2.4)

para que pn(x) converja a p(x) deben satisfacerse tres condiciones: •

Vn → 0 cuando n → ∞

•

kn → ∞ cuando n → ∞ kn → 0 cuando n → ∞ n

•

La primera condición nos asegura que el valor P/V convergerá a p(x) bajo la suposición de que la región se encoge uniformemente y p es continua en x, la segunda condición, que solo tiene sentido si p(x) ≠ 0, nos asegura que la razón frecuencia converge en probabilidad a la probabilidad P. La tercera condición es claramente necesaria para que pn(x) converja. O sea, el número de muestras debe ser elevado, la región R pequeña y la cantidad de muestras que caigan en la región R que sea suficientemente grande. Hay dos maneras de obtener sucesiones de regiones que satisfagan estas condiciones. La primera de ellas es encoger una región inicial, especificando el volumen como una función de n, por ejemplo, Vn=1/ n , donde se debe demostrar entonces que las variables aleatorias kn y kn/n se comportan según lo expuesto anteriormente y, que por tanto, pn(x) tiende a p(x). Éste es el método de Ventanas de Parzen. La segunda manera de obtener sucesiones de regiones consiste en especificar kn como una función de n, como por ejemplo, kn= n ; aquí, el volumen crece hasta que encierra kn muestras vecinas de x. Éste es el método de estimación de los kn vecinos más cercanos. Ambos métodos efectivamente convergen, aunque es difícil hacer suposiciones relacionadas con su comportamiento para una cantidad finita de muestras.

86

Reglas de Clasificación Estocásticas

El enfoque de Ventanas de Parzen para estimar densidades asume que la región Rn es un hiper-cubo d-dimensional; si hn es la longitud de una arista de Rn, entonces su volumen es igual a hnd , por lo cual, podemos entonces obtener una expresión analítica para el valor kn, el cual corresponderá al número de muestras que caen en Rn, definiendo la siguiente función ventana: ⎧⎪1 si u j ≤ 1

j = 1, ...., d 2 ⎪⎩0 en otro caso

ϕ (u ) = ⎨

⎛ x - xi ⎞ ⎟⎟ es igual O sea, ϕ(u) define un hiper-cubo unidad con centro en el origen y, ϕ⎜⎜ ⎝ hn ⎠ a la unidad si xi cae dentro del hiper-cubo de volumen Vn con centro en x y es cero en cualquier otro caso. El número de muestras en ese hiper-cubo es por tanto: n ⎛ x − xi k n = ∑ ϕ ⎜⎜ i =1 ⎝ hn

⎞ ⎟⎟ ⎠

(2.5)

y cuando se sustituye 2.5 en 2.4 se obtiene el siguiente estimado: p n ( x) =

1 n 1 ⎛ x − xi ∑ ϕ⎜ n i =1 Vn ⎜⎝ hn

⎞ ⎟⎟ ⎠

que sugiere un enfoque más general para estimar funciones de densidad. Por otro lado, más que limitarnos a definir sólo funciones ventana hiper-cubos, podemos emplear otras funciones ventana de una clase más general. Para que el estimado sea realmente una función de densidad, es decir, que sea una función no negativa y su integral igual a 1, se debe de cumplir que: 1. ϕ ( z ) ≥ 0 2.

∫ ϕ ( z ) dz =1 R

Luego, si mantenemos la relación Vn= hnd , entonces pn(x) también satisface las dos condiciones de función de densidad. Examinemos ahora el efecto que tiene hn (llamado parámetro de suavizado, ancho de banda o ancho de la ventana) sobre pn(x). Si definimos la función δ n (x) mediante la siguiente expresión:

87

Capítulo 6

δ n ( x) =

1 ⎛ x ϕ⎜ Vn ⎜⎝ hn

⎞ ⎟⎟ ⎠

podemos escribir pn(x) mediante el promedio pn (x) =

1 n ∑ δ( x − xi ) n i =1

Si hn es muy grande, pn(x) es la superposición de n funciones que cambian lentamente y es un estimado muy suave de p(x). Por otro lado, si hn es muy pequeño, el valor máximo de δ( x − xi ) es grande y se alcanza cerca de xi. En este caso, pn(x) es la superposición de n pulsos afilados con centro en las muestras y se obtiene un estimado de la densidad verdadera ruidoso y errático. En la práctica, tenemos que buscar algún compromiso aceptable ya que el número de muestras de entrenamiento es siempre limitado y no podemos afectar el número de muestras de entrenamiento disponibles. En este caso, se puede seleccionar h1 y después se hace hn = h1 , pero la selección de h1 n puede ser problemático. Para garantizar la convergencia de los estimados por Ventanas de Parzen, se establecen condiciones sobre la función de densidad desconocida, la función ventana ϕ(x) y el ancho de la ventana hn, entre ellas. En otras palabras, para garantizar la convergencia de los estimados por Ventanas de Parzen, la función de densidad debe ser continua, la función ventana debe ser acotada, es decir, una función de densidad, y sus valores deben ser despreciables en el infinito, es decir, Vn → 0 y nVn → ∞ cuando n→∞. Con un número ilimitado de muestras de entrenamiento es posible hacer que Vn se aproxime a cero y que pn(x) converja. Por convergencia se entiende, en este caso, a la convergencia en media cuadrática, es decir: •

•

lim E[ pn (x)] = p(x)

n →∞

lim Var[ pn (x)] = 0

n→∞

Eso significa que se desea obtener estimados correctos sobre el promedio y la varianza dentro de esos estimados debe ser despreciable cuando el número de muestras tiende a infinito, el valor esperado se toma con respecto a la sucesión de muestras de entrenamiento. En resumen, en el método de ventanas de Parzen para clasificar un patrón nuevo x se selecciona la clase con más datos (ponderados) en la ventana centrada en xi, con la estimación de la función de densidad. Es un método computacionalmente costoso, pues requiere el almacenamiento de todas las muestras y la evaluación de n funciones kernel.

88

Reglas de Clasificación Estocásticas

3. Regla de los k Vecinos más Cercanos Una solución al problema de la mejor función ventana es hacer el volumen una función de las muestras de entrenamiento, más que una función que depende del número de muestras. Por ejemplo, para estimar p de n muestras de entrenamiento o prototipos, se puede construir una celda con centro en x que crezca hasta que encierre dentro kn prototipos, donde kn es alguna función de n; estas muestras son los kn vecinos más cercanos a x. Si la densidad es alta cerca de x, la celda será relativamente pequeña, lo cual lleva a una buena resolución, mientras que si la densidad es baja, la celda crecerá lentamente pero se detendrá cuando se llegue a una zona de alta densidad. Como puede verse, kn juega un papel fundamental al igual que hn en el método de Ventanas de Parzen. Sea n el número de muestras, M el número de clases y V(x) el volumen alrededor de x que contiene k muestras, como hemos visto antes, p(x) ≈

para que converja hay que asegurar que lim n→∞

k nV(x)

k =0. n

Supongamos que encontramos entre los k vecinos de x (en V(x)) ki muestras de clase wi y que el número total de muestras de la clase wi es ni. Entonces, podemos estimar la densidad condicional de la clase wi por: pˆ (x/wi ) =

ki niV(x)

y la probabilidad a priori valiéndonos de la expresión pˆ (wi ) =

ni n

Usando estos estimados, la regla de clasificación asigna la muestra x a la clase wi si pˆ (wi /x) > pˆ (w j /x) para todo j = 1,…, M. Aplicando el teorema de Bayes, lo anterior significa que la regla de clasificación asigna x a la clase wi si ki ≥ k j para todo j =1, …, M. O sea, la regla de decisión asigna x a la clase más votada entre sus k vecinos más cercanos. Para k = 1, esta es la regla del vecino más cercano. En resumen, en la regla k-NN se busca la ventana que contenga k vecinos alrededor de x y se clasifica a x en la clase con más vecinos en esa ventana. Por tanto, la regla de clasificación determina directamente la clase a la que pertenece x, o sea, nunca

89

Capítulo 6

construye una función de densidad. Es un método que requiere almacenar todas las muestras de aprendizaje y definir una función distancia, la cual depende de cada problema en concreto.

4. Regla de Clasificación Estocástica En esta sección, presentaremos una nueva regla de clasificación que emplea un enfoque difuso y estocástico, mezclado con la regla de clasificación de los k vecinos más cercanos. El objetivo de dicha regla es su empleo en problemas de aprendizaje parcialmente supervisado, específicamente en problemas de aprendizaje contínuo, por lo que es necesario de una regla de clasificación que tenga en cuenta la naturaleza cambiante de los procesos de aprendizaje semi-supervisados en los que tendremos datos etiquetados y datos sin etiquetar. Por tanto, además de la votación de los vecinos más cercanos o de la posibilidad de obtener la función de densidad de probabilidad de las clases, sería interesante tener la probabilidad de pertenencia de los vecinos a cada clase, pues los objetos sin etiquetar se irán etiquetando y, luego, serán empleados para etiquetar otros nuevos, o sea, la idea es hacer una clasificación dependiente del grado de pertenencia de los vecinos más cercanos de cada muestra a etiquetar. La idea de este enfoque que mostraremos es usar las etiquetas de los vecinos más cercanos de la muestra a clasificar, pero unas etiquetas difusas, es decir, de acuerdo a un grado de pertenencia a dicha clase, cada vecino aportará al proceso de etiquetar el nuevo objeto, por lo que podemos considerar una superposición de las probabilidades de pertenencia de los vecinos a la clase en cuestión, o sea, nos planteamos la idea de que a la hora de calcular el grado de pertenencia del nuevo objeto x, se haga en la forma siguiente: k

pi (x) = ∑ pi (x j ) j =1

donde i =1, …, M; xj, j =1, …, k son los k vecinos más cercanos de x y M el número de clases. A su vez, si ponderamos cada uno de los sumandos con el inverso de las distancias de x a sus vecinos más cercanos, no sólo tenemos en cuenta cuántos vecinos se están considerando y sus probabilidades de pertenencia a la clase, sino también cuán cerca están dichos vecinos de la muestra x, pues si los k vecinos están muy cerca de x, es lógico que pertenezcan a la misma clase y con una probabilidad alta, o sea, que si los vecinos tienen una alta probabilidad de pertenecer a la clase i y además x y sus vecinos están muy cercanos, el inverso de la distancia dará valores altos y, por tanto, la probabilidad de pertenencia de x a esa clase será alta. Entonces, la fórmula que a continuación explicaremos tendrá la forma:

90

Reglas de Clasificación Estocásticas

k

pi (x) = ∑ α j pi (x j ) j =1

donde αj =

1 siendo ε > 0 ε + d(x, x j )

pues si tomamos el inverso de la distancia solamente, en la práctica puede suceder que se anule el denominador. El objetivo de esa fórmula es obtener la probabilidad de pertenencia a la clase i (i =1, …, M) del objeto a clasificar x, como la suma de las probabilidades de pertenencia a la clase i, de cada uno de los vecinos, ponderada por el inverso de la distancia, donde cada una de las pi(xj) podemos considerarlas como las probabilidades a posteriori p(wi/xj), o sea, si tenemos las probabilidades a posteriori de los vecinos, podemos intentar calcular o estimar las probabilidades a posteriori del objeto x. Ya hemos visto antes que, para etiquetar objetos empleando ejemplos, necesitamos las probabilidades a posteriori. En el caso del método de Ventanas de Parzen, primero hace falta estimar las funciones de densidad de probabilidad de cada clase y luego, con el empleo de la fórmula de Bayes, se obtienen las probabilidades a posteriori. En el otro caso, para la regla de los k vecinos más cercanos, no es necesario estimar esta función de densidad, este paso no se considera y la regla de clasificación se obtiene sólo en dependencia de una estrategia de votación. La estrategia que nosotros proponemos, presentada en [Vázquez, 2005], también evita el paso de determinar las funciones de densidad de las clases, ya que se obtienen funciones que se pueden considerar como las probabilidades a posteriori directamente, pero como puede verse, en la fórmula anterior es necesario normalizar para obtener una función que podamos considerar como una probabilidad a posteriori. Para satisfacer este objetivo, lo primero que hacemos es, dada una muestra x, definimos la función no negativa: k

Pi (x) = ∑ pij j =1

1 (ε + d(x, x j ))

donde pij = pi (x j ) denota la probabilidad a posteriori de que el j-ésimo vecino más cercano xj pertenezca a la clase i, ε es un valor mayor que cero. Posteriormente, valiéndonos de la expresión:

91

Capítulo 6

pi (x) = Pi (x)

M

∑ P (x) r =1

r

donde hemos normalizado la función Pi(x), podemos obtener la probabilidad de que la muestra x pertenezca a la clase i. Veamos las propiedades de esa función, para cada x fijo, pi ( x) = p ( wi / x) se puede considerar como una distribución condicional de la variable aleatoria W con valores w1, w2, …, wM, pues, para x fijo, cumple las siguientes condiciones: 1.

M

M

i =1

i =1

∑ pi (x) = ∑

Pi (x) M

∑ Pr (x) r =1

=

1 M

∑ Pr (x)

M

∑ P (r) = 1 i =1

i

r =1

Lo que equivale a que la probabilidad del suceso cierto es uno. 2. Se cumple que 0 ≤ pi (x) ≤ 1 Esta propiedad nos asegura que la probabilidad de ocurrencia de cualquiera de los sucesos pertenece al intervalo cerrado [0,1] . k 1 pi (x j ) + ph (x j ) ∑ Pi (x) Ph (x) j =1 ε + d(x, x j ) + M = 3. pi (x) + ph (x) = M M ∑ Pr (x) ∑ Pr (x) ∑ Pr (x)

[

r =1

r =1

]

r =1

Con lo anterior, demostramos que la función p(x) definida anteriormente satisface la propiedad de aditividad. Estas tres propiedades demuestran que la función p(x) es una probabilidad definida sobre el espacio de sucesos S = {w1, w2, …, wM}. Una vez que tenemos modelado el problema de la función mediante la cual vamos asignar a la muestra x una etiqueta difusa, pasamos a exponer la regla de clasificación. Para nosotros, la muestra x puede pertenecer a cada una de las clases, pero con un grado de verosimilitud. Primeramente, en el proceso de clasificación puro, o sea, si queremos etiquetar al objeto x, consideramos, como es usual, que x pertenece a la clase de mayor probabilidad. Entonces, la regla de clasificación estocástica puede ser definida mediante la siguiente expresión: δk - prob (x) = wi si

pi (x) = arg max( p j (x)) j

El significado de la expresión anterior no es más que la muestra x será asignada a aquella clase que mayor probabilidad tenga, donde no sólo se ha tenido en cuenta el aporte de las probabilidades de pertenencia a cada una de las clases de estos vecinos,

92

Reglas de Clasificación Estocásticas

sino también las distancias de los vecinos más cercanos a la muestra x, de modo que los vecinos más cercanos serán determinantes en el proceso de clasificación. Como el objetivo será emplear luego esta regla en el proceso de aprendizaje, es importante guardar las probabilidades de pertenencia de x a cada clase, pues será lo más importante para clasificar a los nuevos objetos que van llegando, no las etiquetas en sí, que es lo que queríamos obtener con esta nueva regla, pues es necesario señalar que los valores de las probabilidades a posteriori pueden ir cambiando en un proceso iterativo para medir la influencia de los vecinos sobre x, además de la distancia entre ellos. Como otra cuestión interesante, se puede observar que si consideramos un enfoque de clasificación dura, podemos partir del hecho de que las probabilidades a posteriori para cada uno de los objetos de la base de datos son: ⎧1 si y ∈ Ci pi ( y ) = ⎨ ⎩0 si y ∉ Ci

por tanto, si construimos para cada objeto en la base de datos un vector de probabilidades a posteriori ( p1(y), p2 (y), ..., pM (y) ) , será un vector binario igual a 1 en la coordenada correspondiente a la clase a la que y pertenece y será cero para el resto de las coordenadas. Luego, a la hora de clasificar un objeto nuevo, según la regla antes descrita, si por ejemplo tomamos solo un vecino, la probabilidad de pertenencia de x a cada una de las clases será: pi (x) =

Pi (x) M

∑ P(x) i =1

i

donde 1 ⎧ si xi ∈ Ci ⎪ Pi (x) = ⎨ ε + d(x, xi ) ⎪0 en otro caso ⎩ Como estamos hablando de la clasificación dura, x1 pertenece a sólo una de las clases, por tanto Pi(x) será diferente de cero sólo para una de las clases. Luego, la sumatoria del denominador será igual a Pi(x) para la i correspondiente a la clase de x1, y por tanto: ⎧1 si x1 ∈ Ci pi (x) = ⎨ ⎩0 en otro caso

Esto significa que para el caso duro y un solo vecino más cercano esta regla coincide íntegramente con la regla del vecino más cercano.

93

Capítulo 6

Debemos señalar también que, en problemas prácticos, es conveniente tomar siempre un número impar de vecinos para evitar posibles empates. No obstante, de producirse empates en el proceso de clasificación, se seguirán las mismas estrategias ya mencionadas en el Capítulo 2 de esta memoria de tesis.

5. Regla de Clasificación Estocástica con Rechazo De igual modo que ocurría con la regla de decisión de Bayes, así como también con las regla k-NN y k-NCN, cabe la posibilidad de no clasificar aquellas muestras para las cuales no se obtenga una cierta garantía de que la clasificación obtenida sea la correcta. En la técnica anteriormente explicada, la decisión de clasificación se producirá cuando la probabilidad de pertenencia del objeto a alguna de las posibles clases reciba el mayor valor, pero, si el valor de la probabilidad máxima no es lo suficientemente alto, es lógico dudar de etiquetar el objeto en esa clase, por lo que, la muestra debe ser rechazada. La opción de rechazo estocástica considerada en este epígrafe consiste en introducir un umbral 0 0 ⎪ 1≤ j ≤ M δ k − prob − umb − var ( x) = ⎨ ⎪⎩w0 en otro caso

6. Regla k-NCN Estimando las Probabilidades de Clases Como ya hemos comentado anteriormente, el concepto de NCN ha venido aplicándose como herramienta para la resolución de una serie de problemas dentro del campo de la representación de puntos [Chaudhuri, 1996], mostrando una cierta superioridad con respecto a los resultados obtenidos mediante la utilización de un concepto de vecindad convencional, es decir, a partir de los vecinos más próximos. En esta sección, se introduce una nueva regla de clasificación no paramétrica basada en esta definición de NCN y cuya finalidad se centra, fundamentalmente, en la estimación de la clase de una nueva muestra, teniendo en cuenta no sólo los aspectos de proximidad (criterio de distancia), sino también los relacionados con la distribución homogénea de los prototipos (criterio de simetría) y, además, en la estimación de la probabilidad de pertenencia a la clase de los vecinos más cercanos a la muestra a clasificar. El nuevo esquema de clasificación que proponemos aquí se basa también en la idea general de estimar la clase de una muestra a partir de la votación de un determinado número de vecinos, teniendo en cuenta la probabilidad de pertenencia a la clase de cada uno de estos vecinos, pero utilizando una métrica alternativa que permita analizar la distribución de los prototipos alrededor de aquella muestra. De una manera similar a la descrita en el epígrafe 4, donde explicamos la regla de clasificación k-NN-prob, podemos definir ahora la regla de clasificación δk-NCN-prob(x), en la cual, para determinar la probabilidad de pertenencia del objeto x a la clase i utilizaríamos las mismas expresiones antes descritas: pi (x) = Pi (x)

M

∑ P (x) j =1

j

donde los Pj(x) se calculan según la fórmula: k

Pi (x) = ∑ pij j =1

1 (ε + d(x, x j ))

En la cual, xj representa el j-ésimo vecino de centroide más cercano al objeto x y p ij representa la probabilidad de que el j-ésimo vecino pertenezca a la clase i. Una vez determinada la probabilidad de clases pi de la muestra se define de forma análoga la regla de clasificación mediante la expresión:

95

Capítulo 6

δk-NCN-prob (x) = wi si

pi (x) = arg max( p j (x)) j

Análogamente al caso anterior, se puede introducir una opción de rechazo en la regla de clasificación estocástica anterior, introduciendo un umbral 0 0 ⎧ wi j δk − NCN−prob−umb− var (x) = ⎨ w en otro caso ⎩ 0

7. Resultados Experimentales Utilizando Reglas de Clasificación Estocásticas En el estudio comparativo que vamos a presentar en este epígrafe, un aspecto de esencial relevancia se centra en el formato de los experimentos que se realizaron. Así, por ejemplo, el método que se emplee para la estimación del error de clasificación determinará el significado de los resultados en su justa medida, es decir, permitirá conocer el grado de independencia entre las tareas de diseño y clasificación. En consecuencia, parece evidente la importancia real de establecer a priori un formato y unos criterios adecuados para la realización de los experimentos, lo cual, por otra parte, permitirá disponer de un conjunto de referencia para comparar los resultados. De este modo, en esta sección, mostraremos los resultados obtenidos por los diferentes algoritmos de clasificación estocásticos presentados en las secciones anteriormente explicadas. Para satisfacer esté objetivo utilizamos 14 bases de datos reales y sintéticas tomadas del repositorio UCI Machine Learning Database Repository [Merz, 1996]. Las principales características de estas bases de datos en cuanto a cantidad de objetos, número de clases y cantidad de rasgos se muestran en el Apendice A que aparece en la presente memoria de Tesis Doctoral. La tabla que a continuación se presenta hace un resumen de todas estas características.

96

Reglas de Clasificación Estocásticas

Nombre

No. No. No. clases rasgos objetos Australian 2 42 690 Balance 3 4 625 Cancer 2 9 683 German 2 24 1002 Glass 6 9 214 Heart 2 13 270 Ionosphere 2 34 352 Liver 2 6 345 Phoneme 2 5 5404 Satimage 6 36 6453 Texture 11 40 5500 Vehicle 4 18 846 Vowel 11 10 528 Wine 3 13 178 Tabla 1. Un breve sumario de las bases de datos experimentales.

En los experimentos realizados utilizamos como método de estimación del error el método de validación cruzada, considerando 5 particiones aleatorias de cada una de las bases de datos, tomando en las mismas el 80% de los objetos para formar los diferentes conjuntos de entrenamiento TS y el 20% de los objetos para formar los conjuntos de prueba. Posteriormente, cada conjunto de entrenamiento fue clasificado con las diferentes reglas de clasificación propuestas en este capítulo, así como utilizando el clasificador 1-NN. En todos los experimentos, hemos considerado ε=1 en las reglas de clasificación estocásticas. En la Tabla 2, aparecen los resultados experimentales (porcentajes de clasificación, desviación típica, diferencia de los porcentajes y el ranking), usando los algoritmos de clasificación k-NN, k-NN-prob, sobre las 14 bases de datos, los resultados fueron obtenidos sobre las 5 particiones consideradas y consideramos en todos los casos el mejor valor del parámetro k (debemos señalar que los valores asignados al parámetro k fueron 3, 5, 7, 9, 11) para cada una de las bases de datos consideradas en nuestros experimentos. La tercera y cuarta columna de esta tabla hacen referencia a las reglas de clasificación k-NN y k-NN-prob destacamos en negrita el mejor método de clasificación en término de porcentajes de clasificación para cada una de las bases de datos que hemos considerado. La quinta columna muestra la diferencia entre los porcentajes de la regla k-NN y k-NN-prob. Por último, la sexta columna muestra el ranking de estos porcentajes. Es importante señalar que en sólo tres bases de datos, Australian, Heart y Phoneme, la regla de clasificación k-NN supera a nuestra propuesta en un porcentaje de clasificación igual a 1.24% como promedio. No obstante, en once bases de datos, el algoritmo k-NN-prob es superior a la regla k-NN. Sin embargo, en las bases de datos Balance, Glass, Liver, Vehicle, Wine y Vowel, el porcentaje de clasificación de nuestra propuesta obtiene una mejora de 3.35%. En el resto de las bases de datos, también se puede apreciar que el porcentaje de clasificación utilizando la regla k-NN-prob es superior al que es obtenido cuando se utiliza la regla de clasificación k-NN.

97

Capítulo 6

Base

k-NN

k-NN-prob

Diferencia

Ranking

Australian

% clasificación 66.95 -3.18 11 70.13 desviación 2.88 3.42 Balance % clasificación 84.66 +1.75 10 86.41 desviación 3.90 2.73 Cancer % clasificación 96.77 +0.16 3 96.93 desviación 2.16 2.07 German % clasificación 71.51 +0.19 4 71.70 desviación 3.10 2.56 Glass % clasificación 62.99 +5.89 13 68.88 desviación 7.39 10.34 Heart % clasificación 67.94 -0.51 7 68.45 desviación 5.52 5.04 Ionosphere % clasificación 82.31 +0.28 5 82.59 desviación 3.97 4.09 Liver % clasificación 68.41 0.59 8 69.00 desviación 5.58 3.44 Phoneme % clasificación 74.10 -0.04 1 74.14 desviación 7.71 8.40 Satimage % clasificación 83.01 +0.49 6 83.50 desviación 13.20 13.03 Texture % clasificación 98.74 +0.07 2 98.81 desviación 0.37 0.42 Vehicle % clasificación 62.27 +3.66 12 65.93 desviación 2.54 2.77 Wine % clasificación 67.47 +6.16 14 73.63 desviación 4.07 5.50 Vowel % clasificación 93.23 +0.77 9 94 desviación 3.83 3.45 Tabla 2. Porcentaje de clasificación, desviación típica, diferencias de porcentajes y ranking.

Una forma de validar los resultados que hemos presentado es aplicarle a los mismos un test estadístico. Para ello, incluiremos los resultados obtenidos valiéndonos de Wilcoxon Signed-Ranks Test (Wilcoxon, 1945), el cual es un método no paramétrico para comparar dos clasificadores. En el mismo, vamos a considerar como hipótesis nula H0, que los algoritmos k-NN y k-NN-prob son equivalentes. Para aplicar este test necesitamos utilizar las siguientes expresiones analíticas: R+ =

1

∑ ranking(d ) + 2 ∑ ranking(d ) = 86

di >0

R− =

i

di =0

i

1

∑ ranking(d ) + 2 ∑ ranking(d ) = 19

di 0

R− =

i

di =0

i

1

∑ ranking(d ) + 2 ∑ ranking(d ) = 40

di µi. Si ninguna de las clases cumple con la condición anterior, la muestra x es rechazada.

108

Algoritmos de Edición Estocásticos

Utilizando la regla de clasificación δk-prob-umb-var y, siguiendo un esquema de edición de Wilson, proponemos un algoritmo de edición en el cual es preciso definir un umbral para cada una de las clases del problema. Claramente, puede resultar difícil determinar los valores óptimos para los mismos. Es preciso tener en cuenta a la hora de seleccionar los umbrales que a las clases menos representadas en el TS se les debe exigir un menor umbral comparado con las clases más representadas. Con el objetivo de que la selección de estos valores de umbral para cada clase sea calculada de manera automática, una opción puede ser tomar como umbral μi el cociente entre el número de prototipos del conjunto TS pertenecientes a la clase i sobre el cardinal del conjunto TS. Esta variante libera al diseñador de la responsabilidad de determinar los valores de μi, mientras que establece para cada clase un valor umbral acorde con su representación en el TS. El coste computacional para este procedimiento de edición es de O(N2), idéntico al del algoritmo de edición de Wilson. El algoritmo Wilson-prob-umb-var puede ser descrito de la siguiente manera: Algoritmo Wilson-prob-umb-var Entrada: X → Conjunto de entrenamiento a editar k → Cantidad de vecinos μ → Vector de umbrales de probabilidad por clases Salida: S → Conjunto editado Método: 1- S ← ∅ 2- Para cada prototipo xi∈X 2.1- Buscar los k-NN de xi en X - {xi} 2.2- Si δk- prob-umb-var (xi, μ) = θi entonces S = S ∪ {xi} 3- Devolver S

3. Edición Estocástica Utilizando la Regla δk-NCN-prob A pesar de los buenos resultados que generalmente pueden ser obtenidos con la aplicación de la edición de Wilson, este método hereda algunos de los importantes inconvenientes ya señalados para el clasificador k-NN, el anormal comportamiento del esquema de Wilson y, en general, de la mayoría de los procedimientos de edición basados en la regla k-NN para determinados problemas. Podría entenderse, en parte, como una consecuencia de la finitud de las muestras que dan lugar a vecindades relativamente grandes, situación que de alguna manera pudiera resolverse con la utilización de métricas envolventes. El algoritmo de edición que aquí vamos a proponer consistirá, básicamente, en aplicar las reglas de clasificación envolventes que presentamos en el Capítulo 2 y

109

Capítulo 7

utilizar el método de estimación leaving-one-out. En síntesis, puesto que el método de Wilson consigue generalmente buenos resultados de edición y, por otra parte, los esquemas envolventes de clasificación superan, en mayor o menor medida, a la regla kNN, lo que se pretende es obtener un nuevo procedimiento de edición que se beneficie de las ventajas antes señaladas y, además, tenga en cuenta las probabilidades de pertenencia a las clases de cada uno de los vecinos en la vecindad envolvente a la cual estos pertenecen. De una manera similar a la descrita en el epígrafe anterior, podría definirse la regla de clasificación δk-NCN-prob (x), en la cual debemos determinar primero las probabilidades pi(x) de pertenencia del objeto x a la clase i (i = 1, …, M), pero en lugar de calcular los k vecinos más cercanos, buscamos los k vecinos de centroide más cercano. Ahora, definimos de forma análoga la regla mediante la expresión: δk-NCN-prob (x) = wi si

pi (x) = max( p j (x)) j

Basados en las mismas ideas utilizadas en el epígrafe anterior, podemos definir diferentes opciones de rechazo, δk-NCN-prob-umb y δk-NCN-prob-umb-var mediante las expresiones siguientes: ⎧⎪θi si pi = máx ( p j ( x )) ∧ pi > μ j δ k − NCN − prob − umb ( x ) = ⎨ ⎪⎩θ0 en otro caso ⎧⎪θi si αi = pi − μ i , i = 1, ... , M ; αi = máx (α j ) ∧ αi > 0 j δ k − NCN−prob−umb−var (x) = ⎨ ⎪⎩θ0 en otro caso

Utilizando como regla de edición la regla k-NCN pero teniendo en cuenta además la probabilidad de pertenencia a la clase de cada uno de los vecinos de centroide más cercano, podemos mencionar una variante del algoritmo Wilsoncn que describimos a continuación: Algoritmo Edición de Wilsoncn-prob Entrada: X → Conjunto de entrenamiento a editar k → Cantidad de vecinos Salida: S → Conjunto editado Método: 1- S ← ∅ 2- Para cada prototipo xi∈X 2.1- Buscar los k-NCN de xi en X - {xi} 2.2- Si δk-NCN-prob (xi) = θi entonces S = S ∪ {xi}

110

Algoritmos de Edición Estocásticos

3- Devolver

De forma similar, podemos escribir los algoritmos de edición que emplean como regla de edición las opciones de rechazo δk-NCN-prob-umb y δk-NCN-prob-umb-var mencionadas anteriormente. Como se puede apreciar en este epígrafe, estos esquemas de edición resultan también esquemas muy sencillos de implementar como lo era el procedimiento de Wilson, puesto que las únicas variaciones introducidas corresponden al método de clasificación (en este caso, las reglas δk-NCN-prob , δk-NCN-prob-umb , δk-NCN-prob-umb-var) que son aplicadas en el último paso de cada uno de los algoritmos, así como la estimación de las probabilidades en cada uno de los casos. Por otra parte, en cuanto al costo computacional asociado a este esquema, podemos señalar que el cálculo de los k vecinos de centroide más próximo para una determinada muestra representaba un coste O(kN), puesto que ahora deberemos repetir este proceso para cada uno de los N prototipos del conjunto de entrenamiento, resultará ser O(kN2), y este valor es igual al coste computacional del método de edición de Wilson.

4. Edición Repetitiva Utilizando Probabilidades de Clases Puestos que los algoritmos de edición, en sentido general, proporcionan un conjunto de prototipos organizados en grupos más o menos compactos y homogéneos, cabría esperar que la repetición de este procedimiento fuese capaz de potenciar aún más dicho efecto. De hecho, este argumento fue esgrimido por [Tomek, 1976a], al proponer el siguiente algoritmo de edición. Algoritmo de Edición Repetitivo Entrada: X → Conjunto de entrenamiento a editar k → Cantidad de vecinos Salida: S → Conjunto editado Método: 1- S ← ∅ 2- Mientras ⎜X⎜≠⎜S⎜ 2.1- Pasar el contenido actual de X a S: S ← X 2.2- Aplicar Edición de Wilson sobre el conjunto X 3- Devolver S

111

Capítulo 7

Esta es la idea fundamental de los algoritmos presentados en [Vázquez, 2006], es decir, aplicar de forma repetitiva todos los algoritmos de edición cuya regla de edición tenga en cuenta a los vecinos más cercanos, o los vecinos de centroide más cercanos y, además, estime la probabilidad de pertenencia a la clase de estos vecinos. De manera general, estos algoritmos se pudieran escribir de la siguiente manera: Algoritmo de Edición Repetitivo Entrada: X → Conjunto de entrenamiento a editar k → Cantidad de vecinos Salida: S → Conjunto editado Método: 1- S ← ∅ 2- Mientras ⎜X⎜≠ ⎜S⎜ 2.1- Pasar el contenido actual de X a S: S ← X 2.2- Aplicar algoritmo de edición estimando las probabilidades de clase sobre el conjunto X 3- Devolver S En el trabajo citado anteriormente, fueron implementadas las variantes repetitivas de los algoritmos: Wilson-prob, Wilson-prob-umb, Wilsoncn-prob.

5. Resultados Experimentales con Reglas de Edición Estocásticas

5.1. Esquema Estocástico de Wilson y Wilsoncn En esta sección, mostramos los resultados experimentales obtenidos utilizando los algoritmos de edición descritos en los epígrafes anteriores. Para ello, se han utilizado 14 bases de datos reales y sintéticas tomadas del repositorio UCI Machine Learning Database Repository, las principales características de estas bases de datos aparecen detalladas en el Apéndice A. En los experimentos realizados, utilizamos como método de estimación del error el método de validación cruzada, considerando 5 particiones aleatorias de cada una de las bases de datos, tomando en las mismas el 80% de los objetos para formar los diferentes conjuntos de entrenamiento (TS) y el 20% de los objetos para formar los conjuntos de prueba. Posteriormente, cada conjunto de entrenamiento fue editado utilizando diferentes algoritmos, entre los que podemos mencionar: el algoritmo de Wilson, Holdout, algoritmo Multiedit, Wilson-prob y Wilson-prob-umb. El paso siguiente fue utilizar el clasificador 1-NN y los conjuntos de prueba anteriormente obtenidos para

112

Algoritmos de Edición Estocásticos

calcular los porcentajes de clasificación, la desviación típica y la reducción del conjunto de entrenamiento en cada una de las bases de datos. Hemos incluido también el test estadístico de Friedman, el cual es un método no paramétrico que nos servirá para validar los resultados obtenidos. En la Tabla 5, se muestran los resultados experimentales (porcentaje de clasificación, y reducción de la talla del conjunto de entrenamiento) utilizando diferentes algoritmos de edición: algoritmo de edición de Wilson, Holdout, Multiedit, Wilson-prob y Wilson-prob-umb considerando diferentes valores del umbral. En la misma, hemos señalado en negrita el algoritmo de edición que mejor porcentaje de clasificación ha obtenido para cada base de datos, en cursiva enfatizamos también el algoritmo que ha alcanzado el mejor porcentaje de reducción de la talla del conjunto de entrenamiento para cada base de datos. Los resultados correspondientes al clasificador NN también han sido incluidos en esta tabla para establecer una línea base de comparación entre los diferentes algoritmos. NN

Wils.

Hold.

Mult.

W-prob

Wilson-prob-umb 0.6 0.7 0.8 Cancer %cla 95.60 96.19 96.63 96.63 96.34 96.48 96.63 96.78 %red 3.44 4.28 7.43 3.36 4.09 5.49 7.68 Liver %cla 65.79 70.40 59.49 68.67 68.97 69.55 68.95 70.70 %red 32.89 37.10 75.79 27.89 45.94 61.37 67.82 Glass %cla 71.40 67.62 66.03 58.63 66.16 63.97 62.29 62.31 %red 28.50 46.14 61.21 36.68 20.32 50.58 58.17 Heart %cla 58.16 67.00 66.64 66.26 65.17 65.12 64.78 67.34 %red 34.44 38.70 69.25 28.51 40.09 53.61 65.09 Vehicle %cla 64.41 60.26 63.22 52.81 62.16 61.32 61.08 59.67 %red 36.08 39.83 66.66 20.41 43.17 46.01 58.86 Wine %cla 73.04 70.90 72.42 69.69 69.74 69.20 69.20 75.24 %red 34.97 30.75 45.50 14.60 33.28 35.67 41.43 Ionosphere %cla 83.46 82.02 82.31 69.58 81.74 81.74 80.89 80.64 %red 16.66 14.52 34.11 18.01 18.01 24.21 25.21 Texture %cla 98.96 98.63 98.56 94.62 98.74 98.49 98.29 98.32 %red 1.34 3.69 15.31 1.01 1.50 3.17 3.06 Balance %cla 79.20 85.11 85.62 86.41 84.96 86.73 88.50 89.13 %red 14.80 14.52 37.04 10.76 24.40 32.08 38.40 Australian %cla 65.67 69.27 68.99 69.56 69.70 68.39 68.54 70.72 %red 31.88 36.88 59.52 25.90 37.02 50.76 57.53 German %cla 64.81 70.40 70.00 70.70 71.10 70.50 70.50 72.00 %red 30.50 32.27 54.72 26.90 39.62 52.72 60.00 Phoneme %cla 70.26 73.53 74.29 73.42 73.44 74.02 73.99 75.35 %red 10.56 16.07 37.43 11.98 17.26 24.36 29.15 Satimage %cla 83.62 83.29 83.32 82.35 83.09 83.18 83.24 83.50 %red 9.43 10.19 24.51 9.25 15.61 19.22 23.90 Diabetes %cla 67.32 73.70 73.69 71.09 74.35 74.60 74.48 74.74 %red 26.36 44.40 55.76 21.09 37.33 45.47 54.91 Tabla 5. Porcentajes de clasificación y reducción del conjunto de entrenamiento, usando diferentes algoritmos de edición.

El primer resultado que queremos comentar es que los algoritmos de edición estocásticos propuestos en esta memoria alcanzan porcentajes de clasificación similares o superiores a los que se obtienen con los algoritmos clásicos de edición. Otro aspecto a tener en cuenta es que el clasificador NN ha obtenido los mejores resultados en cinco bases de datos de las 14 que consideramos en los experimentos presentados, pero la

113

Capítulo 7

diferencia entre los valores obtenidos por el clasificador NN y los diferentes algoritmos de edición no son estadísticamente significativos. Observando estos resultados, parece bastante difícil de inferir cualquier conclusión debido a las diferencias tan pequeñas obtenidas entre los distintos algoritmos de edición en relación con los porcentajes de clasificación. Por la razón antes mencionada, en la Tabla 6 presentamos los resultados correspondientes al Test de Friedman (Friedman, 1940). Este es un método no paramétrico para medir si diferentes algoritmos obtienen resultados equivalentes. El test de Fredman calcula para cada algoritmo su rango sobre cada una de las bases de datos de la siguiente forma: el algoritmo que obtenga el mejor porcentaje de clasificación tendrá rango 1 y así sucesivamente; de haber dos algoritmos con iguales porcentajes de clasificación sobre una misma base de datos, por ejemplo, si los algoritmos que ocuparían los rangos 4 y 5 tienen iguales porcentajes de clasificación, entones sacamos un promedio entre sus rangos y el rango que le asignamos a cada algoritmo en este caso sería de 4.5. Luego de haber confeccionado la tabla de rangos (Tabla 6), pasamos a calcular: Rj =

1 N j ∑ ri N i =1

En la expresión anterior, ri j representa el rango del j-ésimo algoritmo (1 < j < k, siendo k > 2 el número de algoritmos que se están comparando), sobre la base de datos i-ésima (1 < i < N) donde N es el número de bases de datos. Luego, R j es el promedio de los rangos correspondiente al j-ésimo algoritmo. El test de Friedman considera como hipótesis nula H0 que todos los algoritmos son equivalentes y que sus rangos Rj son todos iguales. Posteriormente, utilizando los estimadores de Friedman, descritos mediante las expresiones: χ 2F =

12 N ⎡ k 2 k (k + 1) 2 ⎤ ⎢∑ R j − ⎥ k (k + 1) ⎣ j=1 4 ⎦

FF =

( N − 1)χ 2F N(k − 1) − χ 2F

donde FF se distribuye siguiendo una distribución de Fisher con k-1 y (k-1)(N-1) grados de libertad. La tabla de valores críticos de la distribución de Fisher puede encontrarse en cualquier libro de Estadística. Ahora bien, si calculamos el valor critico de una distribución de Fisher, para un nivel de confianza α=0.05, con 8 algoritmos, 14 bases de datos, y con grados de libertad (k-1) = 7 y (k-1)*(N-1) = 7*13 = 91, el valor critico de F(7,91) es 2.11. Calculando entonces los estimadores de Friedman con los datos que se muestran en la Tabla 6, tenemos que χ 2F = 8.52 y FF = 1.23. Evidentemente, nos percatamos que FF = 1.23 < 2.11 = F(7,91), por lo cual, no es posible rechazar la hipótesis nula, es decir, los

114

Algoritmos de Edición Estocásticos

algoritmos que hemos comparado son equivalentes. En otras palabras, tienen el mismo comportamiento en cuanto a porcentaje de clasificación en el proceso de edición. NN

Wilson-prob-umb 0.6 0.7 0.8 Cancer rango 5 8 3 3 7 6 3 1 Liver rango 7 1 2 8 6 4 3 5 Glass rango 1 2 4 8 3 5 7 6 Heart rango 8 2 1 3 4 5 6 7 Vehicle rango 1 6 2 8 3 4 5 7 Wine rango 4 1 3 6 5 7.5 7.5 2 Ionosphere rango 1 3 2 8 4.5 4.5 6 7 Texture rango 1 3 5 4 2 6 8 7 Balance rango 8 6 5 4 7 3 2 1 Australian rango 8 4 1 5 3 2 7 6 German rango 8 6 1 7 3 2 4.5 4.5 Phoneme rango 8 5 2 1 7 6 3 4 Satimage rango 1 5 4 3 8 7 6 2 Diabetes rango 8 5 6 7 4 2 3 1 4.78 4.28 2.78 5.14 4.82 4.39 5.07 4.71 Promedio Rj Tabla 6. Test de Friedman correspondiente a porcentajes de clasificación. Wils.

Wils.

Hold.

Hold.

Mult.

Mult.

W-prob

W-prob

Wilson-prob-umb 0.6 0.7 0.8 Cancer rango 6 4 2 7 5 3 1 Liver rango 6 5 1 7 4 3 2 Glass rango 6 4 1 5 7 3 2 Heart rango 6 5 1 7 4 3 2 Vehicle rango 6 5 1 7 4 3 2 Wine rango 4 6 1 7 5 3 2 Ionosphere rango 6 7 1 4.5 4.5 3 2 Texture rango 5 2 1 7 5 3 4 Balance rango 5 6 2 7 4 3 1 Australian rango 6 5 1 7 4 3 2 German rango 6 5 2 7 4 3 1 Phoneme rango 7 5 1 6 4 3 2 Satimage rango 6 5 1 7 4 3 2 Diabetes rango 6 4 2 7 5 3 1 Promedio 5.78 4.85 1.28 6.60 4.53 3 1.85 Rj Tabla 7. Test de Friedman correspondiente a reducción de la talla del conjunto de entrenamiento.

Sin embargo, examinemos otro factor de especial interés en la Tabla 5, el cual se refiere a la reducción del tamaño del conjunto de entrenamiento. Después de haber sido editado este conjunto, se puede observar que los algoritmos de edición Multiedit y los Wilson-prob-umb propuestos logran los porcentajes de reducción más altos en todos los casos, resultado este que provoca una disminución de la carga computacional en la fase de clasificación. Para corroborar la afirmación anterior, utilicemos nuevamente el test de Friedman, donde volveremos a tomar como hipótesis nula H0 que todos los algoritmos son equivalentes y con rangos idénticos.

115

Capítulo 7

Utilizando ahora los datos que se muestran en la Tabla 7, podemos calcular el valor critico de la distribución de Fisher para un nivel de confianza α=0.05, con 7 algoritmos, 14 bases de datos y grados de libertad (k-1) = 6 y (k-1)*(N-1) = 6*13 = 78. El valor critico de F(6,78) es 2.21. Calculando entonces los estimadores de Friedman, con los datos que se muestran en la Tabla 7, tenemos que χ 2F = 69.15 y FF = 60.53. En este caso podemos ver que FF = 60.53 > 2.21= F(6,78), por lo cual es posible rechazar la hipótesis nula, es decir, los algoritmos que hemos comparado no son equivalentes. En otras palabras, el porcentaje de reducción de los algoritmos estocásticos que utilizan la opción de rechazo estocástica, así como el algoritmo Multiedit tienen los mejores porcentajes de reducción de la talla del conjunto de entrenamiento. Un aspecto que también podemos destacar es que el coste computacional del algoritmo Multiedit es superior al coste que tienen los algoritmos estocásticos con rechazo. A continuación, mostramos algunas gráficas, donde se pueden apreciar los porcentajes de clasificación y reducción de la talla del conjunto de entrenamiento.

R educció n%

Balance 50

NN

40

Wilson Holdout

30

MultiE m=3

20

MultE m=4 MultE m=5

10

Wil-prob

0

Wil-prob-u u=0.6

70

75

80

85

90

95

Wil-prob-u u=0.7 Wil-prob-u u=0.8

Clasificación Correcta%

Diabetes

9 8 7 6 5 4 3 2 1 0

NN Wilson Holdout MultiE m=3 MultiE m=4 MultiE m=5 Wil-prob Wil-prob-u u=0.6

95

96

97

Clasificación Correcta%

98

Wil-prob-u u=0.7 Wil-prob-u u=0.8

R ed u cción (% )

Reducción%

Cancer 80 70 60 50 40 30 20 10 0

NN Wilson Holdout MultE m=3 MultE m=4 MultE m=5 Wil-prob Wil-prob-u u=0.6 64

66

68

70

72

74

Clasificación Correcta (%)

76

Wil-prob-u u=0.7 Wil-prob-u u=0.8

Figura 11. Bases de datos Balance, Cancer y Diabetes.

En las gráficas mostradas, el porcentaje de reducción del algoritmo Wilson-probumb con μ = 0.8 es superado sólo por Multiedit para m = 4 y 5. Sin embargo, el porcentaje de clasificación correcta para nuestro algoritmo es superior al de todos los algoritmos. Sabemos además que el coste computacional del algoritmo Multiedit es superior al coste computacional de los algoritmos estocásticos propuesto, por lo que se obtienen buenos resultados teniendo en cuenta tanto los porcentajes de clasificación como la reducción de la talla del conjunto.

116

Algoritmos de Edición Estocásticos

En la tercera gráfica, de la Figura 11 mostramos los resultados que obtuvimos para la base de datos Diabetes, donde Multiedit para m = 3 y m = 4 es el único que supera el porcentaje de reducción de nuestro algoritmo e igualmente nuestro algoritmo para μ = 0,8 es el que más alto porcentaje de clasificación correcta alcanza. En el caso de la base de datos Satimage, los porcentajes de clasificación de los algoritmos son muy similares. En cuanto al porcentaje de reducción, los que mejores resultados brindan son Multiedit en los casos de m = 5 y m = 4, así como también el algoritmo Wil-prob-umb tomando el umbral μ = 0,8. En la base German, se puede observar que el porcentaje de reducción, cuando tomamos el umbral μ = 0.8, fue superior al del resto de los algoritmos y, el porcentaje de clasificación correcta también obtiene un buen resultado pues sólo es superado por el algoritmo Multiedit y Wil-probumb tomando el umbral valor μ = 0,6 observándose también que la diferencia entre ellos en cuanto a porcentajes de clasificación no es significativa. Satimage

German

NN

30

NN

60

Wilson

25

Wilson

50

Holdout

20

Holdout

MultiE m=3

40

MultiE m=4

30

MultiE m=5 Wil-prob

20

Wil-prob-u u=0.6

10

Wil-prob-u u=0.7 Wil-prob-u u=0.8

0 64

66

68

70

Clasificación Correcta%

72

R ed u cción (% )

Reducción%

70

MultiE m=3

15

MultiE m=4

10

MultiE m=5

5

Wil-prob

0

Wil-prob-u u=0.6 70

75

80

85

Clasificación Correcta(%)

90

Wil-prob-u u=0.7 Wil-prob-u u=0.8

Figura12. Base de datos German y Satimage.

En la Tabla 8, mostramos los resultados obtenidos al emplear el algoritmo de edición Wilson-prob-umb-var, donde se puede apreciar que los resultados obtenidos con este algoritmo son muy similares a los obtenidos con los algoritmos descritos en la Tabla 5. Es importante señalar que la inclusión de la probabilidad de clases en los algoritmos no implica un aumento de la complejidad algorítmica de los mismos. Sin embargo, examinemos otro factor de especial interés en la Tabla 8, el cual se referiere a la reducción del tamaño del conjunto de entrenamiento despúes de haber sido editado este conjunto. Se puede observar que los algoritmos de edición Multiedit, Wilson-prob-umb-var y los Wilson-prob-umb propuestos logran los porcentajes de reducción más altos en todos los casos, resultado este que provoca una disminución de la carga computacional en la fase de clasificación. A continuación, mostramos algunos gráficos donde se puede apreciar los resultados de la tabla anterior específicamente correspondiente a porcentajes de clasificación.

117

Capítulo 7

NN

Wils.

Hold

Mult.

W-prop

W-probWilson-prob-umb umb-var 0.6 0.7 0.8 Cancer %cla 95.60 96.19 96.63 96.63 96.34 96.62 96.48 96.63 96.78 %red 3.44 4.28 7.43 3.36 2.48 4.09 5.49 7.68 Liver %cla 65.79 70.70 70.40 68.67 68.67 66.64 68.97 69.55 68.95 %red 32.89 37.10 27.89 27.89 36.95 45.94 61.37 67.82 Glass %cla 71.40 67.62 66.03 58.63 66.16 62.07 63.97 62.29 62.31 %red 28.50 46.14 61.21 36.68 35.40 20.32 50.58 58.17 Heart %cla 58.16 67.00 67.34 66.64 66.26 67.34 65.17 65.12 64.78 %red 34.44 38.70 69.25 28.51 36.57 40.09 53.61 65.09 Vehicle %cla 64.41 60.26 63.22 52.81 62.16 59.78 61.32 61.08 59.67 %red 36.08 39.83 66.66 20.41 34.46 43.17 46.01 58.86 Wine %cla 73.04 70.90 75.24 72.42 69.69 67.53 69.74 69.20 69.20 %red 34.97 30.75 45.50 14.60 25.41 33.28 35.67 41.43 Ionosp %cla 83.46 82.02 82.31 69.58 81.74 81.53 81.74 80.89 80.64 %red 16.66 14.52 34.11 18.01 11.70 18.01 24.21 25.21 Texture %cla 98.96 98.63 98.56 94.62 98.74 98.54 98.49 98.29 98.32 %red 1.34 3.69 15.31 1.01 1.45 1.50 3.17 3.06 Balance %cla 79.20 85.11 85.62 86.41 84.96 82.08 86.73 88.50 89.13 %red 14.80 14.52 37.04 10.76 21.67 24.40 32.08 38.40 Australian %cla 65.67 69.27 70.72 68.99 69.56 69.58 69.70 68.39 68.54 %red 31.88 36.88 59.52 25.90 24.40 37.02 50.76 57.53 German %cla 64.81 70.40 72.00 70.00 70.70 70.60 71.10 70.50 70.50 %red 30.50 32.27 54.72 26.90 27.30 39.62 52.72 60.00 Phoneme %cla 70.26 73.53 74.29 75.35 73.42 72.29 73.44 74.02 73.99 %red 10.56 16.07 37.43 11.98 12.17 17.26 24.36 29.15 Satimage %cla 83.62 83.29 83.32 82.35 83.09 83.02 83.18 83.24 83.50 %red 9.43 10.19 24.51 9.25 8.44 15.61 19.22 23.90 Diabetes %cla 67.32 73.70 73.69 71.09 74.35 69.92 74.60 74.48 74.74 %red 26.36 44.40 55.76 21.09 32.19 37.33 45.47 54.91 Tabla 8. Porcentajes de clasificación y reducción del conjunto de entrenamiento, usando diferentes algoritmos de edición.

Balance

Cancer 90

100

NN

Wilson

98

Holdout Multiedit

96

Wilson-prob Wil-prob-umb-var

94

Wil-prob-u u=0.6 Wil-prob-u=0.7 Wil-prob-u u=0.8

92

Porcentaje de Clasificación

Porcentaje de Clasificación

NN

88

Wilson

86

Holdout Multiedit

84

Wilson-prob

82

Wil-prob-umb-var

80

Wil-prob-u u=0.6 Wil-prob-u u=0.7

78

Wil-prob-u u=0.8

76 90 1

Algoritmos

74

1

Algoritmos

Figura 13. Gráficos correspondientes a resultados de la Tabla 8.

118

Algoritmos de Edición Estocásticos

Satimage

Diabetes NN Wilson

84

Holdout Multiedit

83

Wilson-prob Wil-prob-umb-var

82

Wil-prob-u u=0.6

81

Wil-prob-u u=0.7 Wil-prob-u u=0.8

80

P orcen taje d e C lasificación

P orcen taje de C lasificación

85

76

NN

74

Wilson

Multiedit

70

Wilson-prob

68

Wil-prob-umb-var

66

Wil-prob-u u=0.6 Wil-prob-u u=0.7

64 62

1

Holdout

72

Algoritmos

Wil-prob-u=0.8 1

Algoritmos

Figura 14. Gráficos correspondientes a resultados de la Tabla 8.

Haciendo un análisis similar al realizado con los algoritmos de edición estocásticos relacionados con la regla k-NN, presentamos en la Tabla 9, una comparación entre el algoritmo Wilsoncn y los algoritmos estocásticos que tienen como regla de edición el criterio de Vecindad de Centroide más Próximo. Wilsoncn

Wilsoncn prob

Wilsoncn umb-var

Wilsoncn-prob-umb

0.6 0.7 0.8 %cla 95.60 95.75 95.75 96.19 96.34 96.63 %red 3.11 3.07 3.07 4.43 6.18 8.34 Liver %cla 68.97 66.33 69.27 70.76 69.26 71.03 %red 32.32 34.92 37.09 45.36 56.66 70.00 Glass %cla 65.82 62.49 63.32 63.73 60.45 66.84 %red 32.48 29.09 32.95 44.62 53.97 62.03 Heart %cla 67.72 66.97 68.10 67.37 65.93 68.47 %red 33.97 35.46 36.75 46.47 56.48 67.77 Vehicle %cla 59.90 59.78 59.32 58.94 57.76 59.91 %red 29.69 31.79 31.70 43.53 51.95 61.31 Wine %cla 68.06 69.20 68.07 67.53 68.03 69.80 %red 26.81 25.01 23.74 31.74 37.07 44.79 Ionosphere %cla 82.73 82.39 82.39 82.22 83.76 83.76 %red 6.58 8.03 6.15 11.70 13.93 23.50 Texture %cla 98.74 98.58 98.11 98.07 98.83 98.83 %red 0.71 0.60 0.60 1.77 6.71 7.86 Balance %cla 82.73 83.84 81.13 84.32 88.01 88.34 %red 14.87 13.87 21.19 20.11 32.15 34.12 Vowel %cla 62.62 62.62 62.51 60.27 58.84 63.93 %red 7.39 3.55 3.55 12.75 20.32 38.15 Iris %cla 94.58 94.58 94.58 94.58 95.00 95.00 %red 3.52 3.52 3.52 4.70 8.82 9.80 Phoneme %cla 73.16 73.10 71.40 73.38 73.16 73.49 %red 9.90 9.92 12.56 13.18 20.97 26.50 Satimage %cla 83.42 83.38 83.33 83.33 82.94 83.69 %red 7.42 6.89 6.97 11.01 15.34 20.83 Diabetes %cla 72.91 71.48 70.57 72.13 73.18 74.74 %red 26.53 28.38 31.51 36.84 45.96 55.07 Tabla 9. Porcentajes de clasificación y reducción del conjunto de entrenamiento, usando diferentes algoritmos de edición. Cancer

119

Capítulo 7

De los resultados mostrados en la Tabla 9, podemos concluir que el Wilsoncn es de manera general el algoritmo que obtiene mejores porcentajes de clasificación. Esto se debe a que la regla de clasificación δk-NCN es un clasificador que presenta muy buenos resultados, como hemos comentado anteriormente. El algoritmo Wilsoncn y su versión estocástica presentan resultados similares en cuanto a porcentajes de clasificación, ya que la mayor diferencia entre ellos es de apenas un 2.06%. Por ello, también le aplicaremos a estos algoritmos el test de Friedman, siendo como en los casos anteriores la hipótesis nula H0 que los algoritmos son equivalentes y que tienen iguales rangos. Con los datos de la Tabla 10, calculamos el valor critico de la distribución de Fisher, para un nivel de confianza α=0.05, con 6 algoritmos, 14 bases de datos y con grados de libertad (k-1) = 5 y (k-1)(N-1) = 5*13 = 65. El valor critico de F(5,65) es 2.24. Calculando entonces los estimadores de Friedman, tenemos que χ 2F = 6.36 y FF= 1.29. Evidentemente, nos percatamos también que FF= 1.29 < 2.24= F(5,65), por lo cual no es posible rechazar la hipótesis nula, es decir, los algoritmos que hemos comparado son equivalentes: tienen el mismo comportamiento en cuanto a porcentaje de clasificación en el proceso de edición. Wilsoncn

Wilsoncn prob

Wilsoncn umb-var

Wilsoncn-prob-umb

0.6 0.7 Cancer rango 6 4.5 4.5 3 2 Liver rango 1 5 6 3 2 Glass rango 1 2 5 4 3 Heart rango 3 5 2 4 1 Vehicle rango 1 2 3 4 5 Wine rango 1 4 2 3 6 Ionosphere rango 1.5 3 1.5 4.5 4.5 Texture rango 3 1.5 1.5 4 5 Balance rango 5 4 6 3 2 Vowel rango 1 2.5 2.5 4 5 Iris rango 4.5 4.5 4.5 1.5 1.5 Phoneme rango 3.5 5 6 2 3.5 Satimage rango 1 2 3 4.5 4.5 Diabetes rango 3 5 6 4 2 2.53 3.57 3.82 3.25 3.57 Promedio Rj Tabla 10. Test de Friedman correspondiente a porcentajes de clasificación.

0.8 1 4 6 6 6 5 6 6 1 6 4.5 1 6 1 4.25

Otro aspecto importante a tener en cuenta es que, al introducir umbrales en los algoritmos estocásticos, éstos superan al algoritmo de Wilsoncn en la reducción de la talla del conjunto de entrenamiento. Es fácil notar que el algoritmo Wilsoncn-prob-umb utilizando como valor del umbral μ = 0.8 es el que más reduce la talla del conjunto de entrenamiento. Aplicando nuevamente, el test de Friedman, utilizando ahora los datos que se muestran en la Tabla 11, podemos calcular el valor critico de la distribución de Fisher para un nivel de confianza α=0.05, con 6 algoritmos, 14 bases de datos y grados de libertad (k-1) = 5 y (k-1)(N-1) = 5*13 = 65. Calculando entonces los estimadores de Friedman, tenemos que χ 2F = 60.88 y FF = 86.78. Luego, FF = 86.78 > 2.24= F(6,78),

120

Algoritmos de Edición Estocásticos

por lo que, es posible rechazar la hipótesis nula, es decir, los algoritmos que hemos comparado no son equivalentes: el porcentaje de reducción de los algoritmos estocásticos que utilizan la opción de rechazo estocástica tienen los mejores porcentajes de reducción de la talla del conjunto de entrenamiento. Wilsoncn

Wilsoncn prob

Wilsoncn umb-var

Wilsoncn-prob-umb

0.6 0.7 0.8 Cancer rango 4 5.5 5.5 3 2 1 Liver rango 6 5 4 3 2 1 Glass rango 5 6 4 3 2 1 Heart rango 6 5 4 2 1 3 Vehicle rango 6 4 5 3 2 1 Wine rango 4 5 6 3 2 1 Ionosphere rango 5 4 6 3 2 1 Texture rango 4 5.5 5.5 3 2 1 Balance rango 5 6 3 4 2 1 Vowel rango 4 5.5 5.5 3 2 1 Iris rango 5 5 5 3 2 1 Phoneme rango 5.5 5.5 4 3 2 1 Satimage rango 4 6 5 3 2 1 Diabetes rango 6 5 4 3 2 1 4.96 5.21 4.75 3.07 2 1 Promedio Rj Tabla 11. Test de Friedman correspondiente a reducción de la talla del conjunto de entrenamiento.

5.2. Resultados Correspondientes a la Edición Estocástica Repetitiva En el caso de los esquemas repetitivos para los algoritmos Wilson-prob y Wilsoncnprob se implementaron dos variantes, una en la que las probabilidades de pertenencia de los objetos a las clases son modificadas en cada iteración y la otra en que los prototipos conservan sus probabilidades iniciales durante todo el proceso de edición. En la Tabla 12, hemos incluido los resultados relativos al esquema repetitivo de edición de Wilson, así como también los correspondientes a los algoritmos estocásticos. Como se puede observar, en los algoritmos Wilson-rep, Wilson-prob-rep y la variante que mantiene las probabilidades de pertenencia de los objetos a las clases presentan resultados muy similares en cuanto a porcentajes de clasificación. En la tabla, hemos querido comparar precisamente los esquemas repetitivos de la edición de Wilson, destacando en negrita aquellos algoritmos que han logrado mejores resultados (no hemos tenido en cuenta los porcentajes de la regla NN), pues el objetivo que perseguimos con la tabla anterior es mostrar los esquemas repetitivos. Como ha venido sucediendo en todos los experimentos que hemos expuestos hasta ahora, se puede apreciar también que los esquemas repetitivos estocásticos obtienen los mejores resultados en cuanto a reducción de la talla del conjunto de entrenamiento. Otro aspecto que pudiéramos señalar en esta Tabla 12 es que si comparamos al algoritmo Wilson-prob-rep con el algoritmo Wilson-prob-rep manteniendo las probabilidades de pertenencia a las clases, podemos ver que en nueve de las 12 bases de

121

Capítulo 7

datos se obtuvieron mejores resultados al modificar estas probabilidades de pertenencia a las clases de los objetos.

NN Cancer Liver Glass Heart Vehicle Wine Ionosp Texture Balance Phoneme Satimage Diabetes

%cla %red %cla %red %cla %red %cla %red %cla %red %cla %red %cla %red %cla %red %cla %red %cla %red %cla %red %cla %red

95.60

Wilson.

Wilsonrep

W-prob

W-prob-rep

96.19 96.34 96.48 96.19 3.44 3.36 4.24 3.80 65.79 68.67 68.66 70.70 69.83 32.89 27.89 45.00 40.21 71.40 67.62 66.16 70.30 60.88 28.50 36.68 41.72 40.99 58.16 67.00 66.26 65.92 67.00 34.44 28.51 43.79 40.55 64.41 60.26 55.88 62.16 58.24 36.08 20.41 50.73 45.56 73.04 69.69 68.61 70.90 67.47 34.97 14.60 33.98 34.11 83.46 81.74 81.15 82.02 80.51 16.66 18.01 33.04 17.18 98.96 98.63 98.74 98.74 98.38 1.34 1.01 2.65 1.78 79.20 84.96 84.80 85.11 83.21 14.80 10.76 14.84 16.19 70.26 73.53 73.42 73.70 73.53 10.56 11.98 15.99 12.72 83.62 83.09 82.91 83.29 82.8 9.43 9.25 12.86 10.70 67.32 73.70 74.35 75.39 75.26 26.36 21.09 36.78 33.20 Tabla 12. Resultados del esquema repetitivo de Wilson.

W-probrep-mant prob-inic 96.19 3.84 66.93 39.85 62.63 39.01 68.43 40.19 58.36 42.23 68.63 27.52 80.51 17.18 98.32 1.74 83.83 14.99 73.53 12.73 82.84 10.43 73.70 31.86

Es fácil notar en la Tabla 13 que si utilizamos como regla de edición la Vecindad de Centroide más Próximo, los algoritmos de Wilsoncn y Wilsoncn-rep obtienen resultados muy similares en cuanto a porcentajes de clasificación los porcentajes de clasificación que obtienen los esquemas estocásticos no superan a los alcanzados por los otros métodos, pero si nos fijamos en el porcentaje de reducción de la talla del conjunto de entrenamiento, en todos los casos el algoritmo Wilsoncn-prob-rep obtiene los mejores porcentajes en la reducción del tamaño del conjunto de entrenamiento, resultado que avala el hecho de que estos métodos alcanzan valores de clasificación similares a los métodos tradicionales, pero obtienen reducciones considerables en la talla del conjunto de entrenamiento.

122

Algoritmos de Edición Estocásticos

Wilsoncn

Cancer Liver Glass Heart Vehicle Wine Ionosphere Texture Balance Phoneme Satimage Diabetes

Wilsoncnrep

Wilsoncnprob

Wilsoncnprob-rep

%cla 95.60 95.89 96.04 96.33 %red 3.11 3.33 3.07 4.02 %cla 69.58 68.97 67.51 71.03 %red 32.32 38.76 34.92 46.00 %cla 63.30 65.82 60.43 66.84 %red 32.48 41.70 29.09 44.97 %cla 67.70 66.97 66.57 67.72 %red 33.97 42.87 35.46 43.70 %cla 59.91 59.90 56.37 61.09 %red 29.69 41.99 31.79 49.97 %cla 69.80 68.06 70.31 71.31 %red 26.81 33.14 25.01 30.61 %cla 82.90 82.73 74.01 83.76 %red 6.58 8.54 8.03 27.94 %cla 98.74 98.69 96.13 98.83 %red 0.71 0.87 0.60 39.62 %cla 82.73 83.84 84.96 84.96 %red 14.87 15.83 13.87 14.31 %cla 73.16 73.81 73.10 74.12 %red 9.90 13.15 9.92 27.15 %cla 83.69 83.28 83.42 80.61 %red 7.42 10.08 6.89 17.55 %cla 72.91 74.87 71.48 75.26 %red 26.53 32.58 28.38 37.98 Tabla 13. Resultados del esquema repetitivo de Wilsoncn.

Wilsoncnprob-rep Mant. prob. Iniciales 96.04 3.36 68.09 39.05 65.10 36.68 66.55 40.37 60.50 39.18 68.63 27.53 81.88 12.82 98.69 0.79 84.48 14.39 73.75 12.86 83.81 8.70 72.26 32.32

5.3. Esquemas de Wilson y Wilsoncn con Reetiquetado Los algoritmos de edición que utilizan el método de Reetiquetado son otra variante de la idea clásica de edición teniendo en cuenta el esquema de Wilson. En la Tabla 13, se muestran los resultados obtenidos al aplicar los algoritmos de edición con reetiquetado y sus variantes, teniendo en cuenta la probabilidad de pertenencia a la clase de los objetos. Como podemos apreciar en la Tabla 14, en la edición con reetiquetado utilizando las probabilidades de pertenencia a cada una de las clases se obtienen resultados superiores a la edición con reetiquetado clásica, pues en ocho de las 12 bases de datos la clasificación fue superior, apreciando de esta manera que con el esquema de reetiquedado estocástico se obtienen buenos porcentajes de clasificación. Además, en las bases de datos donde no se alcanzó un resultado superior, los valores obtenidos fueron muy parecidos a los alcanzados por el método de reetiquetado utilizando el algoritmo de Wilson. También los porcentajes de reducción de la talla del conjunto de entrenamiento en los esquemas estocásticos alcanzan mejores resultados en todas las bases de datos.

123

Capítulo 7

Wilson Wilson-Reetiquetado-prob Reetiquetado 0.6 0.7 0.8 Cancer %cla 96.04 96.04 96.19 96.48 %red 0.00 1.86 3.22 5.89 Liver %cla 66.40 68.12 64.62 68.39 %red 0.00 20.86 43.48 57.89 Glass %cla 65.00 63.97 63.66 65.54 %red 5.94 26.77 42.06 51.97 Heart %cla 64.76 68.50 67.74 69.59 %red 0.00 15.09 36.01 54.07 Vehicle %cla 59.18 57.66 56.95 59.31 %red 9.24 28.22 46.19 56.65 Wine %cla 63.61 63.59 65.88 68.06 %red 1.26 13.90 24.14 38.62 Ionosphere %cla 79.65 79.65 79.65 79.82 %red 0.00 4.53 8.54 15.04 Texture %cla 98.00 98.29 98.14 98.31 %red 0.24 1.01 2.56 3.25 Balance %cla 78.25 65.29 79.20 83.04 %red 3.24 8.23 27.72 29.76 Phoneme %cla 72.55 73.20 73.27 73.47 %red 0.00 6.10 14.82 19.87 Satimage %cla 81.25 82.32 82.51 82.52 %red 0.82 5.92 11.21 15.42 Diabetes %cla 70.31 70.44 71.09 71.87 %red 0.00 16.30 33.30 46.42 Tabla 14. Resultados de los algoritmos de edición con reetiquetado (Wilson). WilsoncnReetiquetado

Wilsoncn-Reetiquetado-prob

0.6 0.7 0.8 %cla 95.75 95.60 95.75 96.33 %red 0.00 2.05 4.53 7.17 Liver %cla 65.50 66.40 63.78 66.41 %red 0.00 19.05 39.05 58.11 Glass %cla 63.17 63.15 59.92 65.42 %red 13.32 29.42 46.48 58.99 Heart %cla 66.21 69.62 67.44 71.14 %red 0.00 18.15 36.10 54.34 Vehicle %cla 61.19 60.60 59.31 63.43 %red 12.76 26.39 41.87 56.26 Wine %cla 65.29 64.74 65.83 68.03 %red 2.95 14.46 25.00 37.91 Ionosphere %cla 81.70 81.19 81.70 81.88 %red 0.00 6.23 10.08 20.94 Texture %cla 98.49 98.09 98.07 98.56 %red 0.89 1.56 6.68 7.85 Balance %cla 79.83 69.75 85.94 87.38 %red 5.08 12.83 31.87 33.99 Phoneme %cla 72.88 73.01 73.27 73.59 %red 0.00 6.90 17.09 24.16 Satimage %cla 82.93 83.19 82.76 83.28 %red 2.61 7.07 13.04 19.53 Diabetes %cla 70.70 71.61 73.30 73.31 %red 0.00 15.26 30.50 44.62 Tabla 15. Resultados de los algoritmos de edición con reetiquetado (Wilsoncn). Cancer

124

Algoritmos de Edición Estocásticos

Se puede realizar un análisis parecido al anterior (Tabla 15) considerando como regla de edición la regla k-NCN y utilizando esquemas de reetiquetado en ambos sentidos, obteniéndose resultados similares a los comentados en el párrafo anterior.

5.4. Esquemas de Edición por Particiones Estocásticos Utilizando el esquema estocástico presentado a lo largo de todos los experimentos que hemos paulatinamente mostrado, para concluir haremos uso de los algoritmos de edición que utilizan como método de estimación realizar una partición del conjunto de entrenamiento en m bloques disjuntos de prototipos y, después de numerarlos hacer una estimación para cada bloque j utilizando el bloque ((j+1)módulo m). En la Tabla 16 presentamos el algoritmo Holdout y sus variantes estocásticas, tanto utilizando como regla de edición k-NN que k-NCN. Holdout

Holdout-prob

Holdout Holdout k-NCN k-NCN-prob Cancer %cla 95.90 96.34 96.34 96.34 %red 3.91 3.99 3.22 3.77 Liver %cla 67.56 65.81 66.67 68.14 %red 37.61 38.26 36.16 38.41 Glass %cla 64.22 64.13 66.85 65.94 %red 41.24 38.44 38.65 35.86 Heart %cla 62.96 65.52 67.03 67.38 %red 36.66 38.15 37.50 37.59 Vehicle %cla 59.91 59.90 63.33 63.34 %red 40.75 39.63 35.19 35.16 Wine %cla 69.06 66.88 66.93 73.03 %red 29.65 27.52 26.97 28.09 Ionosphere %cla 81.02 81.70 82.22 82.56 %red 20.51 20.17 10.68 11.11 Texture %cla 98.40 98.54 98.49 98.65 %red 3.16 3.10 1.92 1.64 Balance %cla 81.29 83.06 82.09 83.53 %red 15.63 14.35 12.72 12.99 Phoneme %cla 72.97 73.23 73.62 73.73 %red 14.37 14.23 13.44 13.20 Satimage %cla 83.30 83.32 83.77 83.86 %red 10.56 9.75 9.12 8.61 Diabetes %cla 72.65 72.26 72.52 73.17 %red 28.87 29.26 27.63 28.71 Tabla 16. Resultados de la comparación entre esquemas por partición y sus correspondientes esquemas estocásticos.

Como puede observarse, los algoritmos de edición estocástica presentan de forma general resultados similares al algoritmo Holdout, aunque presentan un mejor porcentaje de clasificación los algoritmos Holdout-k-NCN y Holdout-k-NCN-prob. También se puede ver que la reducción de la talla del conjunto de entrenamiento del algoritmo Holdout supera, en general a los esquemas estocásticos aquí presentados.

125

Capítulo 7

6. Conclusiones En este Capítulo 7, hemos presentado un conjunto de alternativas para la selección de prototipos, haciendo hincapié fundamentalmente en las técnicas de edición a partir de estimar las probabilidades de pertenencia a la clase de los objetos, valiéndonos en sentido general de las reglas de clasificación estocásticas definidas en el Capítulo 6 de esta memoria. Estas nuevas aproximaciones tratan de superar los principales inconvenientes asociados a los métodos convencionales de edición que se producen en determinadas situaciones prácticas como, por ejemplo, disponer de un insuficiente número de prototipos en el conjunto de entrenamiento frente a una elevada dimensionalidad del espacio de representación. Los resultados experimentales que hemos mostrado en este capítulo pueden dividirse en dos grupos: aquellos métodos de edición que utilizan la regla k-NN y los métodos que utilizan esquemas basados en el concepto NCN. En los primeros experimentos se hace un análisis entre algoritmos clásicos de edición y los algoritmos que en su regla de edición estiman la probabilidad de pertenecía a una determinada clase para aceptar o eliminar la muestra del conjunto de entrenamiento. No obstante, se ha podido observar que las diferencias en cuanto a porcentaje de clasificación, sobre las diferentes bases de datos utilizadas en los experimentos, no son significativas. Este hecho lo hemos podido corroborar mediante la utilización del test estadístico de Friedman, el cual nos permitió observar que referente a porcentajes de clasificación estos algoritmos se pueden considerar similares. Sin embargo, en estos mismos experimentos, había un detalle que sí nos llamaba la atención, el cual se refiere a la reducción de la talla del conjunto de entrenamiento: los algoritmos con esquemas estocásticos de edición presentaban porcentajes de reducción de la talla del conjunto de entrenamiento superior a los métodos clásicos con los cuales nos comparamos. Para corroborar este hecho, aplicamos nuevamente el test Estadístico de Friedman, el cual verificó que, en cuanto a porcentaje de reducción de la talla del conjunto de entrenamiento, estos algoritmos no son similares, obteniendo nuestras propuestas los mejores resultados. Debemos también señalar que el algoritmo Multiedit obtiene muy buenos resultados en cuanto a reducción, pero su coste computacional es superior al de los algoritmos que hemos propuesto en este capítulo. Los algoritmos de edición que utilizan esquemas basados en el concepto NCN, así como también las propuestas estocásticas aquí presentadas tienen un comportamiento muy similar, es decir, en cuanto a porcentajes de clasificación las diferencias son muy pequeñas, pero los porcentajes de reducción de la talla del conjunto de entrenamiento son superiores con nuestras propuestas. Estos resultados serán posteriormente utilizados en esquemas de aprendizaje semisupervisado. Como se ha podido apreciar en los experimentos presentados, los esquemas estocásticos permitirán obtener buenos porcentajes de clasificación, ya que estos esquemas de edición dan lugar a conjuntos compactos y homogéneamente distribuidos y además, el porcentaje de reducción de la talla del conjunto de entrenamiento es superior al de los esquemas tradicionales, aspecto este de gran

126

Algoritmos de Edición Estocásticos

importancia pues disminuye la carga computacional asociada tanta a la regla k-NN como a la regla de vecindad envolvente k-NCN.

127

Capítulo 8 Técnicas de Condensado Basadas en Densidad Local 1. Introducción La aplicación de las reglas de clasificación por vecindad tiene como limitaciones ciertas restricciones de convergencia y el coste computacional asociado a su aplicación. Es necesario comentar que las reglas 1-NN y k-NN son equiparables en cuanto al coste computacional: en el caso de k>1, se crea una estructura auxiliar que mantenga ordenados los k vecinos más cercanos hasta ese momento y, como es conocido, dado el valor del parámetro k, será necesario explorar todo el conjunto de referencia. Esto significa que el coste de la búsqueda depende linealmente del número de prototipos presentes en la base de datos. Adicionalmente, debemos considerar el espacio de almacenamiento requerido: puesto que debemos consultar todos los prototipos, el requerimiento de espacio es O(Nd), donde N es el número de prototipos y d la dimensión. Si, además, consideramos que los mejores resultados se obtienen cuando el conjunto de entrenamiento es grande, la aplicación práctica de las reglas k-NN será muy costosa e inaplicable si el conjunto de entrenamiento es muy grande y de alta dimensionalidad. De aquí, se deduce que los dos factores que determinan el coste computacional de las reglas k-NN son la dimensión y el tamaño del conjunto de entrenamiento, por lo que es necesario desarrollar técnicas para suavizar las limitaciones antes mencionadas. En cuanto al problema relacionado con la dimensión del espacio, existe todo un conjunto de técnicas de reducción de la dimensionalidad, conocidas bajo el nombre de Selección de Características. Referente al problema de la reducción de la talla del conjunto de entrenamiento, se emplean los algoritmos de Condensado, los cuales tratan de obtener un conjunto reducido que tenga las mismas propiedades que el conjunto original, para aplicar luego la regla 1-NN con vista a clasificar nuevos patrones. Aunque las técnicas de edición dan como resultado una cierta reducción del conjunto de entrenamiento, su objetivo fundamental es aumentar la tasa de aciertos de la regla 1-NN mediante la eliminación de muestras erróneamente etiquetadas y atípicas. En consecuencia, la reducción que proporcionan estos algoritmos pueden ser muy poca significativa. Por el contrario, las técnicas de condensado persiguen, fundamentalmente, una reducción importante de la talla del conjunto de entrenamiento.

Capítulo 8

El objetivo de cualquier procedimiento de condensado consistirá en descartar del TS aquellos prototipos que no influyan explícitamente en la obtención de un resultado de clasificación igual o muy similar al obtenido utilizando la totalidad del conjunto de prototipos. Entre los métodos expuestos en el Capítulo 4 de esta memoria de Tesis, algunos necesitan una adecuada representación de los patrones en un espacio vectorial y dependen directamente del orden en el que se encuentran los patrones en el TS, o requieren de una medida de distancia entre los patrones. Sin embargo, existen otros que sólo hacen uso de las medidas de distancias, sin importar el orden de los datos en el TS. El algoritmo de [Hart, 1968] es uno de los algoritmos de condensado más estudiados y aplicados a diversos problemas prácticos. En él, se busca un subconjunto de patrones a partir de los patrones del TS, de tal forma que este subconjunto sea consistente (CS) con el TS original, es decir, todos los patrones del TS original serán clasificados correctamente por los objetos que formen el subconjunto consistente CS cuando se aplique la regla NN. Siguiendo la idea propuesta por Hart, hemos desarrollado dos algoritmos de condensado, los cuales siguen la estrategia de buscar un subconjunto reducido de objetos a partir de los patrones del TS, capaces de clasificar correctamente a la mayoría de los objetos de la población en estudio. Para satisfacer este objetivo, se emplea un criterio de densidad de modo tal que estos objetos pertenezcan a zonas de alta densidad y, por tanto, deberían ser buenos representantes de las clases a las cuales ellos pertenecen. La idea principal de estos algoritmos es definir una función de densidad local para determinar los objetos pertenecientes a la zona de mayor densidad y, luego de etiquetar todos los objetos, seleccionar de cada grupo obtenido los puntos de mayor densidad.

2. Algoritmos de Condensado Estimando Densidades Locales Idealmente, antes de diseñar un sistema de Reconocimiento de Patrones, debemos estudiar el proceso de formación de estos patrones. En teoría, si entendemos las diferencias entre patrones de distintas clases, podremos representar cada una de las clases mediante un conjunto reducido de medidas que podrían ser usadas para el proceso de clasificación. En general, si disponemos en el conjunto de entrenamiento de muchas clases, este estudio no es factible. A lo sumo, podremos arriesgar hipótesis sobre cuál es la información más relevante a ser incluida en la representación de los patrones. De esta manera, la opción que nos queda es aplicar técnicas de selección de prototipos, para seleccionar subconjuntos de patrones con características discriminantes, mediante los cuales sea posible posteriormente llevar a cabo un proceso de clasificación. Como hemos venido trabajando a lo largo de esta memoria de Tesis Doctoral, en esta sección también trabajaremos con diferentes criterios de vecindad, así como también

130

Técnicas de Condensado Basadas en Densidad Local

necesitaremos el concepto de densidad local de un objeto, los cuales expondremos explícitamente a continuación. Definición: Llamamos vecindad de radio R del punto x∈X al conjunto de objetos:

VR(x) = {y∈X / d(x, y) ≤ R} Definición: Dado R>0 y la vecindad VR(x) de radio R, para cada x∈X llamamos densidad local en el punto x al valor que se obtiene de evaluar la siguiente función:

p(x) =

∑

x i ∈VR (x)

exp (−

d 2(x, xi ) ) R2

donde d es una función de distancia definida sobre X. El algoritmo que a continuación vamos a explicar, el cual hemos llamado Dens(R), tendrá en cuenta la densidad de las muestras en cada una de las clases, así como también el radio de la vecindad que estemos utilizando. Consideremos que los objetos con los cuales vamos a trabajar pertenecen a un espacio Euclídeo, se dispone de un conjunto de N prototipos (o muestras pre-clasificadas) en un espacio de representación E, habitualmente llamado conjunto de entrenamiento o diseño y, que escribiremos como {X, Θ} = {(x1, θ1), (x2, θ2), …, (xn, θn)}, donde θi hace referencia a la clase verdadera de la muestra xi entre las M posibles clases del problema. El proceso se inicia sin tener en cuenta las etiquetas de los objetos en el conjunto de entrenamiento TS, es decir, comenzamos suponiendo que cada objeto del TS pertenece a un grupo unitario. Por tanto, inicialmente habrá tantos conjuntos unitarios como objetos en el TS. Luego, a cada objeto se le asigna una etiqueta diferente que denotaremos por L1, …, LN (donde N es el cardinal del conjunto de entrenamiento), es decir, habrá tantas etiquetas como objetos en el TS. El siguiente paso de este algoritmo consiste en determinar para cada objeto x∈TS: 1- Su vecindad de radio R. 2- El valor de la función de densidad p(x) en el punto x. 3- El objeto px de mayor densidad dentro de la vecindad VR(x). Posteriormente, para cada x si px es diferente de x movemos a x y, a todos los de su grupo para el grupo de px, o sea, si la etiqueta de x es Li y la de px es Lj cambiamos a todos los puntos de etiqueta Li y le asignamos etiqueta Lj, quedando finalmente las etiquetas: Li1 , Li2 ,..., Li s naturalmente, inicialmente como los grupos son unitarios solo se mueve un punto si éste pertenece a un grupo unitario pero a medida que los grupos van creciendo, se van cambiando todos los objetos de un grupo hacia el grupo del objeto tal que pertenezca a una de las vecindades de esos puntos y que su densidad sea mayor.

131

Capítulo 8

Al final de ese proceso, tendremos por tanto s grupos (s < N). Tomamos entonces, de cada uno de los grupos formados, el objeto de mayor densidad y, finalmente, el conjunto condensado estará formado por s objetos etiquetados con su etiqueta original, es decir, la etiqueta que tenían originalmente estos objetos en el conjunto de entrenamiento, quedando formado el conjunto condensado por los siguientes objetos {(x1, θ1), (x2, θ2), …, (xs, θs}. El algoritmo de condensado Dens(R) puede ser resumido de la siguiente manera: Condensado Dens(R) Entrada: X → Conjunto de entrenamiento Radio: R → Radio de la vecindad Salida: S → Conjunto Condensado Método. 1- Inicio: Asignar a cada objeto x un grupo unitario 2- Para cada x∈X. 2.1- Calcular la vecindad de x, VR(x) 2.2- Calcular la función de densidad local p(x) 3- Para cada x∈X 3.1- Hallar en VR(x) el objeto y tal que se cumpla que p(y) = max p(xi ) x i ∈VR ( x )

3.2- Mover a todos los objetos del grupo de x para el grupo del objeto y si y ≠ x 4- Hallar en cada grupo formado en el paso anterior el punto de mayor densidad 5- Formar el conjunto condensado con esos puntos etiquetados según etiquetas originales en el TS La idea intuitiva de este algoritmo es que los objetos seleccionados de esta manera, como son los de mayor densidad, pertenecen a zonas de alta densidad en el conjunto de entrenamiento por lo que pueden ser empleados para clasificar otros objetos utilizando diversos criterios de vecindad. Sin embargo, en este algoritmo, es necesario utilizar un parámetro que es el radio de la vecindad. Como el cálculo del radio óptimo para solucionar un problema práctico resulta bastante complejo, para suplir este inconveniente buscamos una función para determinar la densidad local en cada punto.

132

Técnicas de Condensado Basadas en Densidad Local

Teniendo en cuenta la puntualización anterior y el hecho de querer emplear una función relacionada con la función de probabilidad que hemos utilizado en los algoritmos de clasificación y de edición estocásticos propuestos en esta memoria, presentamos el algoritmo Dens(K), en el cual sustituimos la vecindad de los puntos x∈X, de modo tal que en lugar de hallar la vecindad VR(x) de radio R descrita anteriormente, hallemos la vecindad de sus k vecinos más cercanos y, en lugar de la función de densidad, hallemos para cada x el valor de la función. k

p(x) =∑ pij i =1

⎧⎪1 si xi ∈C j ⎫⎪ 1 donde pij = ⎨ ⎬ , donde Cj es la etiqueta del objeto x ε + d(x, xi ) ⎪⎩0 si xi ∉C j ⎪⎭

en el conjunto de entrenamiento, es decir, p(x) =

∑

xi ∈ C j

1 ε + d(x, xi )

El algoritmo de condensado Dens(K) puede ser resumido de la siguiente manera: Condensado Dens(K) Entrada: X → Conjunto de entrenamiento k→ Número de vecinos Salida

S → Conjunto Condensado

Método. 1- Inicio: Asignar a cada objeto x un grupo unitario 2- Para cada x∈X hacer 2.1- Hallar sus k vecinos más cercanos 2.2- Calcular el valor de p(x) en la expresión p(x) =

∑

xi ∈ C j

1 ε + d(x, xi )

3- Para cada x∈X hacer 3.1- Hallar entre sus k vecinos el xj tal que p(xj) = máx p(xi ) i = 1, ..., k

3.2- Si se cumple que p(xj) > p(x) entonces mover a todos los objetos de la misma clase que el objeto x para la clase del objeto xj 4- Hallar en cada grupo del paso anterior el punto donde la función p(x) alcance el mayor valor 5- Formar el conjunto condensado con los puntos de la base de datos con las etiquetas originales

133

Capítulo 8

Además, en el caso de pocos vecinos, puede suceder que los grupos obtenidos sean muy pequeños y, por tanto, la reducción de la talla sería baja. Por otra parte, puede suceder que en el conjunto condensado no haya representantes de todas las clases. Para evitar esto, ejecutaremos el algoritmo anterior dentro de cada clase, de modo que para cada clase se puedan seleccionar puntos de alta densidad y también, para mover un objeto hacia la clase de uno de sus vecinos, pondremos la condición de que la densidad del vecino sea mayor o igual que la densidad del objeto. El algoritmo de condensado Dens(K2) puede ser resumido de la siguiente manera: Condensado Dens(K2) Entrada: X → Conjunto de entrenamiento k: → Número de vecinos S → Conjunto Condensado

Salida Método.

1- Inicio: Asignar a cada objeto x un grupo unitario 2- Para cada clase Cj hacer 2.1- Para cada x∈Cj hacer 2.1.1- Hallar sus k vecinos más cercanos en Cj 2.1.2- Calcular el valor de p(x) en la expresión p( x) =

∑

xi ∈ C j

1 ε + d ( x, xi )

2.2- Para cada x∈Cj hacer 2.2.1- Hallar entre sus k vecinos el xj tal que p(xj) = máx p( xi ) i = 1, ..., k

2.2.2- Si se cumple que p(xj) ≥ p(x) entonces mover a todos los objetos de la misma clase que x para la clase de xj 2.3- Hallar en cada grupo obtenido en el paso anterior el punto donde la función p(x) alcance el mayor valor 3- Formar el conjunto condensado con todos los puntos obtenidos para cada una de las clases originales con su etiqueta original

134

Técnicas de Condensado Basadas en Densidad Local

3. Resultados Experimentales con los Algoritmos de Condensado Basados en Densidad En esta sección, mostraremos los resultados de los diferentes algoritmos de condensado presentados anteriormente. Para ello utilizamos 14 bases de datos reales y sintéticas tomadas del repositorio UCI Machine Learning Database Repository. Tal como ya hemos indicado anteriormente, las principales características de estas bases de datos en cuanto a cantidad de objetos, número de clases y cantidad de rasgos se muestran detalladas en el Apéndice A

3.1 Algoritmos de Condensado Dens(R) y Dens(K) En los experimentos aquí realizados, utilizamos como método de estimación del error el método de validación cruzada, considerando 10 particiones aleatorias de cada una de las bases de datos, tomando en las mismas el 90% de los objetos para formar los diferentes conjuntos de entrenamiento TS y el 10% de los objetos para formar los conjuntos de prueba. Posteriormente, cada conjunto de entrenamiento fue condensado con los algoritmos propuestos y con el algoritmo de condensado de Hart, con un algoritmo en el que se selecciona de manera aleatoriamente el 2% de las muestras de entrenamiento y con la regla de clasificación NN. La tabla siguiente muestra el porcentaje de clasificación correcta, el radio seleccionado (de manera heurística) para el cual hemos obtenido el mejor resultado y el coeficiente de reducción de la talla del conjunto de entrenamiento del algoritmo Dens(R) sobre las 14 bases de datos; estos resultados son los promedios de los porcentajes de las 10 particiones. Australian Balance Cancer Diabetes Heart 3 1 7 10 10 66.22 76.31 96.63 70.69 64.81 93.18 95.16 98.91 90.62 90.45 Liver Phoneme Satimage Texture Iris Radio 15 0.1 25 0.2 0.6 Porcentaje 59.69 84.08 83.82 95.56 90.66 Coef-Red 94.68 84.49 97.00 89.67 93.55 Led-Creator Wine Vehicle Vowel Radio 0.1 42 19 9 Porcentaje 60.32 71.00 60.05 85.32 Coef-Red 92.34 95.44 86.52 87.56 Tabla 17 Porcentajes de clasificación con algoritmo de condensado Dens(R). Radio Porcentaje Coef-Red

Como se aprecia, en la Tabla 18 proporcionamos los resultados obtenidos con el algoritmo de Hart, el condensado Aleatorio, los condensado Dens(R) y Dens(K) y la regla de clasificación NN. En la primera columna, aparece el resultado correspondiente al algoritmo de condensado de Hart, en la segunda columna hemos considerado el algoritmo de condensado aleatorio (este experimento se repite 100 veces) y luego

135

Capítulo 8

sacamos el promedio de los porcentajes de clasificación correcta de cada una de estas 100 evaluaciones. En la tercera y cuarta columna, se muestran los resultados de los algoritmos de condensado Dens(R) y Dens(K) que aquí presentamos. Es preciso señalar que en los experimentos con el algoritmo Dens(K), al parámetro k le asignamos valores 3, 5, 7, 9, 11. Para seleccionar los resultados que a continuación mostramos, tomamos el valor de k para el cual el conjunto condensado clasificó mejor al conjunto de entrenamiento, luego clasificamos al conjunto de prueba con ese valor de k y esos son los resultados que aquí se observan. En la quinta columna, tomamos el conjunto de entrenamiento y clasificamos el conjunto de prueba con la regla NN y el porcentaje que se muestra, igual que en los anteriores casos, es el promedio de los porcentajes de cada una de las particiones. Destacamos en negrita el algoritmo que mejores porcentajes obtiene sobre cada base de datos. Como se puede apreciar el condensado Dens(K) casi siempre tiene los mejores porcentajes de clasificación correcta, excepto en el caso de las base de datos Satimage y Wine para las que el condensado Dens(R) tiene el mayor porcentaje de clasificación. Porcentajes Hart Random Dens(R) Dens(K) NN Australian 62.04 66.22 66.50 64.35 75.22 Balance 74.88 66.43 76.31 82.23 84.02 Cancer 92.67 94.89 96.63 95.07 96.98 Diabetes 65.76 67.58 70.69 73.56 74.57 Heart 68.15 57.05 64.81 62.22 65.01 Liver 56.8 55.07 59.69 65.48 65.57 Phoneme 83.16 69.03 84.08 85.75 88.95 Satimage 81.54 78.75 81.82 81.62 82.21 Texture 94.91 88.65 95.56 95.96 96.76 Iris 90 89.54 90.66 94 99.89 Led-Creator 64.9 62.29 60.32 62.70 73.4 Wine 69.21 69.32 69.34 69.43 71.00 Vehicle 68.2 67.89 60.05 59.65 68.76 Vowel 84.35 81.28 85.32 84.98 86.21 Tabla 18 Porcentajes de clasificación con algoritmos de condensado basados en densidad.

En la Tabla 19, mostramos el valor del coeficiente de reducción para cada uno de los algoritmos empleados. Es importante señalar que el condensado aleatorio siempre reduce un 98% de los objetos, pues solamente se selecciona el 2% de la muestra en cada conjunto, por lo cual en esta tabla ese indicador no es relevante. Hemos denotado en cursiva el algoritmo que ha obtenido el mejor coeficiente de reducción en cada base de datos. De las 14 bases de datos, en ocho de ella Dens(R) presenta el mejor coeficiente de reducción, mientras que en las restantes bases Dens(K) obtiene los mejores resultados. Por lo antes visto, podemos decir que, en cuanto a reducción de la talla del conjunto de entrenamiento, ambos algoritmos son muy similares ya que las diferencias podemos decir que no son estadísticamente significativas.

136

Técnicas de Condensado Basadas en Densidad Local

Coef. red Hart Random Dens(R) Dens(K) Australian 71.76 98.00 98.13 86.00 Balance 75.22 98.00 95.16 98.4 Cancer 91.85 98.00 98.91 94.49 Diabetes 63.11 98.00 90.62 96.58 Heart 71.32 98.00 90.45 89.90 Liver 59.13 98.00 94.68 89.79 Phoneme 79.72 98.00 84.49 86.52 Satimage 96.35 98.00 97.00 91.92 Texture 86.68 98.00 89.67 87.24 Iris 87.26 98.00 93.55 87.4 Led-Creator 64.21 98.00 92.34 98.89 Wine 94.27 98.00 95.45 96.48 Vehicle 62.18 98.00 86.02 86.07 Vowel 85.26 98.00 87.56 86.36 Tabla 19. Coeficiente de reducción con algoritmos de condensado basados en densidad.

Con el objetivo de que se puedan evaluar más fácilmente los resultados, mostramos gráficos en los que aparece el porcentaje de clasificación correcta y el porcentaje de reducción de la talla del conjunto de entrenamiento para cada base de datos, para comparar los algoritmos en cuanto a estos dos parámetros. Balance

Australian

100

100 80

Porcentaje de clasificación Coeficiente de reducción

60 40

80

Porcentaje de clasificación Coeficiente de reducción

60 40 20

20 1

2

3

4

1

5

2

3

4

5

Algoritmos

Algoritmos

Cancer

Diabetes

100

100

80

Porcentaje de clasificación

60

Coeficiente de reducción

40

80

Porcentaje de clasificación

60

Coeficiente de reducción

40 20

20 1

2

3 Algoritmos

4

5

1

2

3

4

5

Algoritmos

Figura 15. Comparación de algoritmos basados en densidad para las bases de datos Australian, Balance, Cancer, y Diabetes.

137

Capítulo 8

Liver

Heart

100

100 80

Porcentaje de clasificación

60

Coeficiente de reducción

40

80

Porcentaje de clasificación Coeficiente de reducción

60 40 20

20 1

2

3

4

1

5

2

3

4

5

Algoritmos

Algoritmos

Figura 16. Comparación de algoritmos basados en densidad para las bases de datos Heart y Liver.

Además, los números en el eje X corresponden a cada uno de los algoritmos en el mismo orden en que aparecen en las tablas anteriores. Phoneme

Satimage

100

100

80

Porcentaje de clasificación

60

Coeficiente de reducción

40

80

Porcentaje de clasificación Coeficiente de reducción

60 40 20

20 1

2

3

4

1

5

2

3

4

5

Algoritmos

Algoritmos

Texture

Iris

120

100

100 80

Porcentaje de clasificación

60

Coeficiente de reducción

40 20

80

Pocentaje de clasificación

60

Coeficiente de reducción

40 20

1

2

3 Algoritmos

4

5

1

2

3

4

5

Algoritmos

Figura 17. Comparación de algoritmos basados en densidad para las bases de datos Phoneme, Satimage, Texture,e Iris.

138

Técnicas de Condensado Basadas en Densidad Local

Led-Creator

Wine

100

100

80

Porcentaje de clasificación Coeficiente de reducción

60 40 20

80

Porcentaje de clasificación Coeficiente de reducción

60 40 20

1

2

3 Algoritmos

4

5

1

2

3

4

5

Algoritmos

Figura 18. Comparación de algoritmos basados en densidad para las bases de datos Led-Creator y Wine.

3.2 Técnicas de Reducción de la Talla del Conjunto de Entrenamiento Con el objetivo de reducir la talla del conjunto de entrenamiento con vista a disminuir la carga computacional asociada a las diferentes reglas de clasificación, en el trabajo de [Wilson y Martinez, 2000] se proporciona toda una colección de algoritmos propuestos en diversos trabajos. Aquí en este epígrafe, vamos a evaluar el tercer algoritmo de condensado propuesto en el presente capítulo, Dens(K2), con algunos de los esquemas utilizados en dicho artículo. En los experimentos realizados, utilizamos como método de estimación del error el método de validación cruzada, considerando 10 particiones aleatorias de cada una de las bases de datos que aparecen en las Tablas 20, 21 y 22.

Australian Balance Cancer Diabetes Heart Liver Phoneme Vehicle Iris Vowel Led-Creator Wine

Dens(K2) 69.83 88.95 97.22 72.91 65.18 63.51 86.02 60.42 96.67 89.56 73.66 72.63

k-NN CNN SNN 84.35 75.22 77.1 82.23 74.88 69.44 97.07 92.67 94 73.56 65.76 67.97 82.22 68.15 76.3 65.57 56.8 57.71 88.95 83.16 82.59 71.76 68.2 67.74 94 90 83 96.57 86.72 78.56 73.4 64.9 71.8 94.93 92.65 96.05 Tabla 20. Porcentajes de clasificación.

IB2 75.36 74.25 92.38 65.76 68.15 56.8 83.12 68.2 90 87.48 64.6 92.65

IB3 77.54 75.05 97.07 69.4 81.85 57.93 80.51 67.26 91.33 88.43 70.9 93.76

139

Capítulo 8

Australian Balance Cancer Diabetes Heart Liver Phoneme Vehicle Iris Vowel Led-Creator Wine

DEL 79.86 83.84 95.47 72 81.85 58.2 83.92 69.87 92.67 92.99 71.5 95.49

Drop1 Drop2 Drop3 79.13 81.59 82.9 83.68 84.96 87.68 96.05 96.04 96.48 70.96 73.18 75.14 78.52 80 82.22 59.66 66.68 60.56 83.01 87.14 86.29 64.79 69.74 67.15 89.33 94.67 94.67 88.98 91.64 89.56 69.1 72.2 71.4 91.05 93.79 94.93 Tabla 21. Porcentajes de clasificación.

Drop4 82.17 87.52 96.63 72.79 82.22 62.03 87.1 68.09 94.67 90.89 71.7 94.93

Drop5 83.33 89.12 96.34 73.05 82.22 67.22 86.71 70.11 94 92.98 72.6 96.08

Australian Balance Cancer Diabetes Heart Liver Phoneme vehicle Iris Vowel Led-Creator Wine

ENN 82.75 88.64 96.78 75.39 82.22 61.12 87.14 71.17 95.33 92.4 72.1 94.93

RENN All-k-NN Elgrow 82.75 82.9 64.49 88.64 89.12 70.4 96.64 96.93 94.15 75.91 74.88 67.84 82.59 82.59 56.3 58.77 60.24 56.74 86.73 87.27 76.92 69.87 70.45 57.1 95.33 95.33 88.67 91.27 93.55 50.2 72 71.8 70.4 94.93 94.93 81.47 Tabla 22. Porcentajes de clasificación.

Explore 80.14 85.59 97.22 74.23 81.48 57.31 77.52 59.11 95.33 60.07 72.5 81.47

ELH 77.97 78.41 95.31 67.06 77.04 59.69 82.11 66.91 92 89.39 72 81.47

En las Tablas 20-22, se puede apreciar que las bases de datos Iris, Led-Creator y Cancer tienen el mayor porcentaje de clasificación correcta con el algoritmo Dens(K2) y la base de datos Liver no tiene el mayor porcentaje para nuestro algoritmo pero, sólo es superado por el algoritmo de clasificación k-NN y por los algoritmos de edición Drop2 y Drop5. Para las bases Phoneme y Vowel, nuestro algoritmo está entre los primeros 9 lugares, pero igualmente los algoritmos que superan sus porcentajes son k-NN y All-kNN, Drop2-Drop5, ENN (Wilson) y RENN (Wilson Repetitivo). Solo Australian y Vehicle son superadas por el algoritmo de Hart. Además, tomamos los conjuntos de entrenamiento con que realizamos los experimentos y los empleamos para clasificar los conjuntos de prueba y todos los conjuntos condensados obtenidos por nuestro algoritmo tienen un porcentaje de clasificación correcta mayor que si empleamos las bases de datos completas (sin condensar o sin editar), excepto para la base de datos Vowel, lo que prueba que el conjunto condensado Dens(K2) obtiene buenos resultados y se puede emplear para etiquetar nuevos objetos en lugar de la base de datos completa. Por medio, de las Tablas 23-25, mostramos los resultados relativos al porcentaje de reducción de la talla del conjunto de entrenamiento.

140

Técnicas de Condensado Basadas en Densidad Local

Australian Balance Cancer Diabetes Heart Liver Phoneme Vehicle Iris Vowel led-Creator Wine

Dens(K2) 86 98.4 94.49 96.58 89.96 89.79 86 86.07 87.4 81.19 83.94 84.14

k-NN CNN SNN 0 71.76 67.05 0 75.22 65.88 0 91.85 91.48 0 63.11 57.05 0 71.32 66.34 0 59.13 47.41 0 79.72 79.95 0 62.18 56.71 0 87.26 85.93 0 69.95 80.03 0 64.21 7.22 0 85.7 85.77 Tabla 23. Porcentajes de reducción.

IB2 71.61 74.99 91.85 63.11 71.32 59.13 79.95 62.18 87.26 70.29 64.29 85.7

IB3 89.57 79.23 96.4 89.73 88.15 89.34 94.59 71.21 77.93 63.11 77.13 84.08

Australian Balance Cancer Diabetes Heart Liver Phoneme Vehicle Iris Vowel Led-Creator Wine

DEL 89.26 82.86 98.06 87.67 92.96 61.32 93.75 66.99 90.37 63.93 86.01 91.51

Drop1 Drop2 Drop3 82.77 75.17 82.75 86.76 76.5 82.31 97.41 93.52 96.73 79.88 71.74 83.19 88.11 77.32 85.76 72.72 62.19 74.84 86.01 79.46 84.75 76.31 68.14 76.73 88.3 82.44 85.41 56.86 53.22 55.18 87.76 85.76 88.13 91.45 84.77 84.08 Tabla 24. Porcentajes de reducción.

Drop4 78.79 82.08 96.03 78.08 84.2 67.76 82.82 72.06 85.26 54.29 86.47 84.08

Drop5 79.87 89.39 96 78.24 84.86 68.95 84.25 73.79 87.93 57.39 87.4 90.01

Australian Balance Cancer Diabetes Heart Liver Phoneme Vehicle Iris Vowel Led-Creator Wine

ENN 15.78 13.83 3.14 23.63 16.79 31.85 10.2 26.23 5.26 3.43 26.12 4.43

RENN All-k-NN Elgrow 17.28 22.96 99.68 13.9 24.2 99.54 3.51 5.35 99.67 25.48 35.39 99.71 18.07 26.75 99.35 36.87 47.66 99.45 11.27 13.37 99.3 30.47 35.21 98.2 5.33 6.22 97.7 4.06 3.3 95.31 27.14 27.93 98.47 4.43 5.24 98.07 Tabla 25. Porcentajes de reducción.

Explore 99.68 99.54 99.67 99.71 99.18 99.56 99.3 97.91 97.78 92.93 98.16 98.44

ELH 82.66 67.4 97.98 79.38 84.9 53.01 87.56 61.33 89.41 63.57 85.28 92.2

En las Tablas 23-25 puede observarse que, para la base de datos Led-Creator nuestro algoritmo alcanzó el mayor porcentaje de reducción, mientras que para las bases de datos Balance, Diabetes, Liver, Vehicle y Vowel tenemos el tercer mejor porcentaje, sólo superado por los algoritmos Elgrow y Explore. Sin embargo, estos dos algoritmos tienen porcentajes de clasificación correcta bastante bajos comparados con el resto de

141

Capítulo 8

los algoritmos. Para las bases de datos Heart y Australian, Dens(K2) ocupa el cuarto y quinto mejor porcentaje de reducción, respectivamente. Para las bases de datos Phoneme e Iris, están en séptimo lugar y Cancer, en el décimo. En todos los casos, la reducción es de más del 80% de los objetos de la base de datos, por lo que consideramos que como algoritmo de reducción de talla del conjunto de entrenamiento obtiene buenos resultados. A continuación, presentamos los resultados que aparecen en las tablas en varias gráficas para que se pueda apreciar mejor los algoritmos que hemos comparado en este experimento. En la base Australian, observamos que nuestro algoritmo está entre los que más porcentaje de reducción obtiene en Balance, logramos tener un buen porcentaje de clasificación correcta, aunque respecto a la reducción no alcanzamos los primeros lugares. En Diabetes, hay un comportamiento favorable en ambos sentidos, tanto en porcentaje de clasificación como en porcentaje de reducción. Australian

IB3

80

DEL Drop1

70

Drop2 Drop3

60

Drop4

50

Drop5 ENN

40

RENN

30

All-k-NN Elgrow

20

Explore ELH

Balance 100 90 80 70 60 50 40 30 20 1

Cond-Estocástico k-NN CNN SNN IB2 IB3 DEL Drop1 Drop2 Drop3 Drop4 Drop5 ENN RENN All-k-NN Elgrow Explore ELH

CNN IB2 IB3

90

Coeficiente de reducción

90

Cond-Estocástico SNN

100

SNN IB2

1

P o rcen ta je d e cla sifica ció n

Australian

k-NN CNN

DEL

80

Drop1 70

Drop2

60

Drop3 Drop4

50

Drop5 40

ENN

30

RENN All-k-NN

20

Elgrow 10

Explore

1

Balance 100 C o e fi c i e n te d e re d u c c ió n

Porcentaje de clasificación

100

Cond-Estocástico

ELH

Cond-Estocástico CNN SNN IB2 IB3

90

DEL Drop1

80 70

Drop2 Drop3

60

Drop4 Drop5

50 40

ENN RENN

30

All-k-NN Elgrow

20 10 1

Explore ELH

Figura19. Comparación entre diferentes técnicas para reducir la talla del conjunto de entrenamiento.

142

Técnicas de Condensado Basadas en Densidad Local

Diabetes

Cond-Estocástico

Diabetes

k-NN

80

IB2

70

DEL

IB3

Drop1

60

Drop2 Drop3

50

Drop4 Drop5

40

ENN RENN

30

SNN

100

SNN

IB2

90

C oeficiente de reducción

Porcentaje de clasificación

CNN

CNN

90

All-k-NN

IB3 DEL

80

Drop1

70

Drop2 Drop3

60

Drop4 Drop5

50

ENN

40

RENN All-k-NN

30

Elgrow

Elgrow

20

20

Explore

1

Cond-Estocástico

Explore

1

ELH

ELH

Figura 20. Comparación entre diferentes técnicas para reducir la talla del conjunto de entrenamiento.

En la base Heart, tenemos un resultado discreto en cuanto a clasificación pero bastante bueno respecto a reducción, en Liver, ocupa una tercera posición en cuanto a la reducción de la talla y sólo es superado en el porcentaje de clasificación correcta por tres de los algoritmos en Vehicle, ocupamos el tercer lugar en porcentaje de reducción, sólo superados por los algoritmos Elgrow y Explore.

Heart

Cond-Estocástico

Heart

k-NN

CNN

CNN

90

SNN

100

SNN

IB3 DEL

70

Drop1 Drop2

60

Drop3 Drop4

50

Drop5 ENN

40

RENN

IB3 DEL

80

Coeficiente reducción

Porcentaje de clasificación

IB2

90

IB2

80

Drop1

70

Drop2 Drop3

60

Drop4

50

Drop5 ENN

40

RENN

30

All-k-NN

All-kNN

30

Elgrow Explore 20 1

ELH

Cond-Estocástico

Elgrow

20

Explore

10 1

ELH

Figura 21. Comparación entre diferentes técnicas para reducir la talla del conjunto de entrenamiento.

143

Capítulo 8

Liver

Cond Estocástico

Liver

70

CNN

100

SNN

SNN

IB2 90

IB2

IB3

DEL Drop1 Drop2 Drop3 Drop4 Drop5

50

ENN

Coeficiente de reducción

Porcentaje de clasificación

IB3

60

RENN

DEL

80

Drop1 70

Drop2 Drop3

60

Drop4 Drop5

50

ENN 40

RENN All-k-NN

All-k-NN

30

Elgrow

Elgrow Explore

40 1

Vehicle

Explore

20

ELH

1

ELH

Cond-Estocástico

Vehicle

Cond Estocástico CNN

k-NN CNN

80

SNN

100

SNN

IB2

90

IB3 DEL

60

Drop1 Drop2 Drop3

50

Drop4 Drop5

40

ENN RENN

30

All-k-NN

Coeficiente de Reducción

Porcentaje de clasificación

IB2 70

IB3 DEL

80

Drop1

70

Drop2 Drop3

60

Drop4 Drop5

50

ENN

40

RENN All-k-NN

30

Elgrow

Elgrow Explore

20 1

Cond-Estocástico CNN

k-NN

ELH

Explore

20 1

ELH

Figura 22. Comparación entre diferentes técnicas para reducir la talla del conjunto de entrenamiento.

En la base Phoneme, el porcentaje de clasificación no se diferencia mucho de los algoritmos que mejores resultados alcanzan, ocurriendo algo similar con la reducción de la talla del conjunto de entrenamiento. En Iris, tenemos el mejor porcentaje de clasificación y, en la reducción, las diferencias no son significativas. En la base LedCreator, tenemos también el mejor porcentaje de clasificación y ocupamos los primeros lugares en porcentajes de reducción de la talla del conjunto de entrenamiento.

144

Técnicas de Condensado Basadas en Densidad Local

Phoneme

Cond-Estocástico

Phoneme

k-NN CNN

90

IB2

90

IB3

80

DEL

70

Drop1

DEL Drop1

70

Drop2 Drop3

60

Drop4

50

Drop5 ENN

40

RENN All-k-NN

30

Drop3

50

Drop4

40

Drop5

30

ENN RENN

20

All-k-NN Elgrow Explore ELH

1

ELH

Iris

Drop2

60

0

Explore

1

IB2

10

Elgrow

20

SNN

100

IB3

80

Conde-Estocástico

Iris

k-NN

SNN

100

SNN

90

IB2

IB2 IB3

80

DEL Drop1

70

Drop2 Drop3

60

Drop4 50

Drop5 ENN

40

RENN

IB3 80

C oeficiente de R educción

Porcentaje de clasificación

90

DEL 70

Drop1

60

Drop2 Drop3

50

Drop4

40

Drop5

30

ENN REN

20 All-k-NN

All-k-NN

30

20

1

Led-Creator

Elgrow

10

Explore

0

ELH

Elgrow Explore

1

Cond-Estocástico

Led-Creator

k-NN

DEL

70

Drop1 Drop2

60

Drop3 Drop4

50

Drop5 ENN

40

RENN All-k-NN

30

Elgrow Explore

20 1

ELH

C oeficien te d e red u cción

Porcentaje de clasificación

IB2

90

IB2 IB3

Cond-Estocástico

SNN

100

SNN 80

ELH

CNN

CNN

90

Cond Estocástico CNN

CNN

100

CNN

SNN

C o eficien te d e red u cció n

P orcentaje de clasificación

100

Cond Estocástico

IB3

80

DEL Drop1

70

Drop2

60

Drop3

50

Drop4 Drop5

40

ENN

30

RENN All-k-NN

20

Elgrow

10

Explore

1

ELH

Figura 23. Comparación entre diferentes técnicas para reducir la talla del conjunto de entrenamiento.

Pese a las tablas mostradas y las figuras presentadas, hemos también hecho un gráfico de rango entre todos estos algoritmos, como un elemento más para comparar estás técnicas de reducción de la talla del conjunto de entrenamiento.

145

Capítulo 8

Tabla de Rango Porcentaje de Clasificación

Tabla de Rango Coeficiente de Reducción

18

18 Cond Estocástico

Cond Estocástico k-NN

16

k-NN

16

CNN

CNN SNN

14

SNN

14

IB2

IB2 IB3

12

IB3

12

DEL

Drop1

10

Drop2 Drop3

8

Drop4

Algoritmos

Algoritmos

DEL

Drop1

10

Drop2 Drop3

8

Drop4

Drop5 6

ENN

Drop5

6

ENN

RENN 4

All-k-NN

RENN

4

All-k-NN

Elgrow 2

Explore

Elgrow 2

Explore

ELH

ELH 0

0 1

1

Figura 24. Comparación entre diferentes técnicas para reducir la talla del conjunto de entrenamiento.

Como se puede apreciar, el algoritmo Dens(K2), el cual hemos comprado con todos los algoritmos que aparecen en el artículo de [Wilson y Martinez, 2000], ocupo la octava posición entre los 18 algoritmos usados. Aunque no está en las primeras posiciones, debemos señalar que aquí aparecen algoritmos netamente de edición, como el de Wilson, y otros de clasificación, como la regla k-NN, por lo cual consideramos que esté algoritmo de condensado que utiliza una función de densidad para seleccionar aquellos objetos de zonas que tienen un alta densidad de objetos tiene un valor tanto teórico como práctico en problemas donde se estime la función de densidad de clases.

4. Conclusiones Con el objetivo de reducir la carga computacional de muchos clasificadores no paramétricos, se desarrollan técnicas para reducir y controlar la talla de estos conjuntos. En este capítulo, hemos presentado tres algoritmos de condensado que utilizan una función de densidad para seleccionar las muestras que se encuentren en zonas precisamente donde la densidad sea considerable. En el primer algoritmo propuesto, denominado Dens(R), es necesario definir el radio de la vecindad para poder seleccionar las muestras de esa región. Como comentamos, la selección del radio es un factor negativo de este algoritmo, por lo cual se debe de trabajar en la búsqueda de un método que de manera automática encuentre el valor del radio sin la necesidad de buscarlo de forma empírica. Posteriormente, son explicados los algoritmos Dens(K) y Dens(K2), en los cuales se define una función de densidad con el objetivo de suplir la deficiencia del algoritmo anterior. Una serie de experimentos relacionados con los algoritmos Dens(R) y Dens(K) son presentados en los primeros experimentos que se muestran en este capítulo. Posteriormente, apoyándonos en el artículo de [Wilson y Martinez, 2000], se hace una extensa experimentación con 18 algoritmos, con el objetivo de reducir la talla del

146

Técnicas de Condensado Basadas en Densidad Local

conjunto de entrenamiento. En estos experimentos, el resultado se valida mediante una tabla de rango, quedando Dens(K2) en el octavo lugar entre todos los algoritmos que en el artículo se consideran. Resumiendo, estas técnicas de reducción de la talla del conjunto de entrenamiento empleando funciones de densidad, nos servirán en el Capítulo 9 para controlar la talla del conjunto de entrenamiento en un problema de aprendizaje continuo.

147

Capítulo 9 Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado 1. Introducción El termino "Inteligencia Artificial" (IA) fue acuñado formalmente en 1956 durante la conferencia de Darthmounth, hasta entonces, ya se había estado trabajando en ello durante cinco años, en los cuales se habían propuesto muchas definiciones distintas que en ningún caso habían logrado ser aceptadas totalmente por la comunidad investigadora. Según John McCarthy, la inteligencia es la "capacidad que tiene el ser humano de adaptarse eficazmente al cambio de circunstancias mediante el uso de información sobre esos cambios". El desarrollo de las computadoras a principios de los años 50 permitió el abordaje sin especulación de estas facultades mentales mediante una auténtica disciplina teórica-experimental. Es a partir de esto que se encontró que la IA constituye algo mucho más complejo de lo que se pudo llegar a imaginar en principio, ya que las ideas modernas que constituyen esta disciplina se caracterizan por su gran riqueza, sutileza e interés; en la actualidad, la IA abarca una enorme cantidad de subcampos que van desde áreas de propósito general hasta tareas muy específicas. Una de las definiciones que se han dado para describir la IA la sitúa dentro de una disciplina que tiene que ver con la ciencia de la computación, que corresponde al esfuerzo por parte de gran cantidad de científicos que durante los últimos treinta años han realizado con el fin de dotar a las computadoras de inteligencia. A partir de esta definición, encontramos que una técnica de IA es aquella que se utiliza con el fin de lograr que un determinado programa se comporte de forma inteligente, sin pretender tener en cuenta la "forma de razonamiento" empleada para lograr ese comportamiento. A partir de lo anteriormente descrito Farid Fleifel Tapia define la IA como. “La rama de la ciencia de la computación que estudia la resolución de problemas no algorítmicos mediante el uso de cualquier técnica de computación disponible, sin tener en cuenta la forma de razonamiento subyacente en los métodos que se apliquen para lograr esa resolución”. Sin embargo, es preciso señalar que existen dos enfoques dentro de la IA; el primero de ellos esta concebido como el intento por desarrollar una tecnología capaz de proveer

Capítulo 9

al ordenador capacidades de razonamiento similares a los de la inteligencia humana. Este primer enfoque se centra en la utilidad y no en el método, los temas claves de este enfoque son la representación y gestión del conocimiento. El segundo enfoque considera a la IA en su concepción como investigación relativa a los mecanismos de la inteligencia humana que se emplean en la simulación de validación de teorías. Esta se orienta a la creación de un sistema artificial capaz de realizar procesos cognitivos humanos haciendo importante no tanto la utilidad sino el método; los aspectos fundamentales de este enfoque se refieren al aprendizaje y la adaptabilidad. Precisamente, otra de las aportaciones de este trabajo se pudiera considerar que pertenece a este segundo enfoque señalado anteriormente, debido a que presentaremos la implementación de un sistema de aprendizaje semi-supervisado o parcialmente supervisado. Este sistema trata de aprender no únicamente a partir de los objetos etiquetados en el conjunto de entrenamiento, sino también beneficiándose de la experiencia obtenida cuando clasifica nuevos objetos no etiquetados. Una meta básica de nuestro sistema es hacer el procedimiento de aprendizaje semi-supervisado tan automático como sea posible, incorporando nuevos ejemplos en el conjunto de entrenamiento después de haber sido etiquetados por el propio sistema. Sin embargo, este procedimiento pudiera deteriorar la ejecución del sistema por la inclusión de objetos potencialmente mal clasificados en el conjunto de entrenamiento. Con el objetivo de minimizar estos errores, emplearemos diferentes técnicas de selección de prototipos pero teniendo en cuenta la distribución de probabilidades de los vecinos en un entorno de la muestra a clasificar.

2. Algoritmo de Aprendizaje Continuo Utilizando Probabilidades de Clase En el Capítulo 5, comentamos que los sistemas de clasificación supervisados dependen de una muestra de entrenamiento que sea lo suficientemente representativa del problema que se pretende resolver. Este conjunto de entrenamiento debe ser preparado con anterioridad por un experto humano, quien elige un conjunto de objetos representativos y los atributos que logren distinguirlos. Este proceso es complicado y costoso, por lo cual, en todos los casos no es siempre posible lograr este conjunto de entrenamiento. En un esquema de clasificación supervisado tradicional, si el entorno donde el clasificador ha sido entrenado sufre algunas variaciones o si llegan a surgir nuevas clases no consideradas en el TS, se requerirá que el clasificador sea nuevamente entrenado; esto, hará necesario recurrir nuevamente al experto humano para que reconstruya el TS, situación que en muchos casos resulta sumamente problemática por la dificultad y el costo que ello implica. Lo que sí resulta mucho más fácil en la práctica es obtener muestras no etiquetadas, por lo que se hace necesario diseñar métodos de aprendizajes que permitan utilizar tanto muestras etiquetadas como no etiquetadas. Dentro del Aprendizaje Parcialmente Supervisado se encuentran los algoritmos de Aprendizaje Continuos, cuya idea básica es incorporar los nuevos objetos ya

150

Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

clasificados por el algoritmo al conjunto de entrenamiento con el fin de mejorar la precisión del clasificador, así como también la adaptabilidad al entorno debido a la incorporación paulatina de muestras en el conjunto de entrenamiento. Utilizando el clasificador NN, fueron presentadas en el Capítulo 5, algunas líneas de investigación que se siguen sobre el tema de adaptación del clasificador. En el trabajo de [Dasarathy B.V, 1994] se propone un sistema con capacidad de adaptarse en ambientes parcialmente supervisados, empleando la regla NN como clasificador central y técnicas para evitar el crecimiento indiscriminado del TS, o bien para evitar que el TS se degrade. Utilizando también NN como clasificador central [Juáres M, Barandela R, 2001] proponen una metodología general de un algoritmo de Aprendizaje Continuo, principalmente por las ventajas que ofrece su uso (sencillez y conocimiento del porcentaje de error), donde de manera general utilizan varias técnicas de selección de prototipos, conformando un sistema con la capacidad de Aprendizaje Continuo. Pero ya habíamos apuntado que, en esta metodología, no se tenían en cuenta a los vecinos que rodean la muestra, ni tampoco las probabilidades de pertenencia a la clase de cada uno de los vecinos. Teniendo en cuenta los comentarios sobre el esquema propuesto por [Juáres. M, Barandela.R, 2001], con el objetivo de poder aprovechar la información que brindan los objetos que se encuentran en una vecindad de la muestra a clasificar, proponemos una metodología similar a la propuesta anteriormente explicada en el Capítulo 5, pero en la misma hemos utilizado diferentes criterios de vecindad y diferentes reglas de clasificación para aprovechar la distribución de los vecinos, así como las probabilidades de pertenencia a la clase de cada uno de estos vecinos. En esta metodología, serán utilizadas las reglas de clasificación estocásticas que presentamos en el Capítulo 6 y los esquemas estocásticos de edición y condensado explicados en los Capítulos 7 y 8 de la presente memoria de Tesis Doctoral. El esquema de Aprendizaje Continuo que proponemos utilizando la probabilidad de pertenencia a las clases de los objetos, se puede resumir de la siguiente forma: 1. Cargar el Conjunto de Entrenamiento TS en memoria. 2. Editar de manera estocástica el TS para eliminar posibles outliers. Además, como resultado de la edición, se produce una reducción del conjunto de entrenamiento, lo que disminuye la carga computacional del clasificador. Este conjunto editado lo denominaremos Conocimiento Base (CB). De forma opcional, el algoritmo de edición puede modificar o no las probabilidades de pertenencia de los objetos a las clases. 3. Clasificar los objetos de manera individual (o en lotes de muestras) utilizando como conjunto de entrenamiento el CB, teniendo en cuenta la distribución de las probabilidades de clases. En este paso, asignaremos a los prototipos clasificados las probabilidades de pertenencia a las clases calculadas por la regla de clasificación estocástica. 4. Editar de manera estocástica y usando opciones de rechazo el conjunto de muestras clasificadas en el paso anterior para eliminar aquellos prototipos erróneamente etiquetados en la fase de clasificación. En este paso, es opcional

151

Capítulo 9

modificar o mantener las probabilidades de pertenencia a las clases de las muestras clasificadas. 5. Añadir las muestras no eliminadas en el paso anterior al (CB). Este nuevo conocimiento recibirá el nombre de conocimiento actual (CA). 6. Someter el CA a un proceso de filtrado con la finalidad de detectar aquellos patrones que hayan sido incorporados producto de una mala decisión en el paso 4. En esta etapa, se pueden eliminar o reasignar aquellos patrones que fueron etiquetados en una clase la cual no le correspondía. Es opcional, en este punto, que el algoritmo de edición utilizado modifique o no las probabilidades de pertenencia de los objetos a las clases. 7. Asignar CA=CB. Si existen muestras (o lotes) de muestras sin clasificar ir al paso 3 sino terminar el proceso. Mediante el esquema de la Figura 25 ilustramos la metodología que proponemos de manera general, la cual proporciona diferentes alternativas que pueden generar varias variantes de un mismo algoritmo, en función del problema sobre el que se vaya a aplicar. En este esquema, las muestras pasan por dos filtros para evitar que el clasificador pierda precisión por causa de la incorporación de muestras mal etiquetas durante el proceso de clasificación.

Figura25. Esquema de aprendizaje continuo utilizando probabilidades de clases.

La adaptación del clasificador a las nuevas condiciones en este esquema está dada por la posibilidad de adicionar nuevas muestras al conocimiento; lo que hace que no todas las muestras sean clasificadas con un mismo conocimiento, sino que éste es actualizado en cada iteración del algoritmo. El hecho de poder modificar las probabilidades de pertenencia de los objetos a las distintas clases del problema permite al clasificador irse adaptando a las condiciones del medio en que tiene que desempeñarse a medida que le permite corregir posibles errores que pudieran haberse cometido a la hora de estimar dichas probabilidades.

152

Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

En la Figura 26, hemos representado las diferentes reglas de clasificación empleadas, así como también los algoritmos de edición utilizados con el objetivo de filtrar las muestras que serán incorporadas en cada iteración del algoritmo al conocimiento base.

Figura 26. Algoritmos de clasificación y edición utilizados en la metodología propuesta.

En el esquema propuesto, no utilizamos el algoritmo Wilson-prob-umb para editar el conjunto de entrenamiento inicial debido a que normalmente, en el comienzo del proceso, el número de prototipos es reducido y, al fijar un umbral demasiado alto, muy pocas muestras lograrían superar este umbral. Esto provocaría que el conocimiento base fuera muy reducido, lo que afectaría sustancialmente a la efectividad del clasificador. En el algoritmo anteriormente descrito, se sugiere que los nuevos prototipos sean presentados poco a poco en forma de lotes. En una aplicación real, no siempre se dispone de lotes de objetos, sino que los mismos van llegando poco a poco. Una posible solución a este problema pudiera consistir en almacenar las muestras clasificadas hasta tener la cantidad necesaria para formar un lote y, entonces, aplicar el esquema anterior. Es recomendable que los lotes de objetos no sean demasiado pequeños, pues se incorporarían muy pocos elementos al conocimiento base y la edición de forma continuada del conocimiento sería similar a un esquema de edición iterativo que, como puede verse en el Capítulo 7 presentan en determinados casos una precisión significativamente inferior. Utilizar el algoritmo Wilson-prob-umb-var para realizar la edición de los prototipos tiene el inconveniente de que, si bien determinar un valor umbral para las muestras es una tarea complicada, establecer uno diferente para cada una de las clases y que se ajusten a las condiciones reales del problema es una tarea mucho más compleja aún. Además, dado que el conocimiento base se va actualizando en cada iteración, es muy probable que los valores establecidos al comienzo del esquema no se ajusten a las condiciones reales de las muestras en el conocimiento en un determinado momento del

153

Capítulo 9

proceso. Tengamos presente que la idea de este método es poder exigir un umbral menos riguroso para las clases menos representadas en el espacio. Pudiera pensarse en establecer un conjunto de umbrales diferentes cada vez que es necesario editar, pero esto es sencillamente inaceptable debido a que estimar los umbrales es una tarea demasiado costosa y rompería con la automaticidad del proceso, lo cual es uno de los objetivos del presente trabajo. Por ello, la solución aquí propuesta es estimar en cada paso el umbral para la clase i mediante la expresión: µi = número de prototipos de la clase i / número total de prototipos i = 1, …, M De esta forma, en cada momento se le exige a cada clase un umbral en correspondencia al número de muestras presentes en el espacio para esa clase.

3. Técnicas de Condensado Utilizando Funciones de Densidad Aplicadas al Aprendizaje Continuo Los esquemas de aprendizaje continuo que hemos presentado en este trabajo tienen el inconveniente que el conocimiento actual crece rápidamente debido a la incorporación constante de objetos que van siendo clasificados por los diferentes clasificadores, por lo cual es necesario introducir algún mecanismo de condensado que reduzca la talla del conocimiento actual sin que esto afecte a la fase de clasificación. Los algoritmos de condensado que empleamos para dar respuesta a este objetivo utilizan un criterio de densidad de modo tal que los objetos seleccionados en el conjunto condensado pertenezcan a zonas de alta densidad y, por tanto, deben ser buenos representantes de las clases a las cuales ellos pertenecen. Por tanto, en el esquema visto anteriormente, se añade un nuevo paso, el cual consiste en aplicar un algoritmo de condensado. Este valiéndose de una función de densidad local, selecciona aquellos objetos que pertenecen a zonas de alta densidad, quedando ahora modificada la propuesta anterior de la siguiente forma: 1. Cargar el Conjunto de Entrenamiento TS en memoria. Predefinir la talla del conjunto de entrenamiento, teniendo en cuenta el problema que se pretende resolver. 2. Editar de manera estocástica el TS para eliminar posibles outlier. Además, como resultado de la edición, hay una reducción del TS, lo que disminuye la carga computacional del clasificador. Este conjunto editado lo denominaremos Conocimiento Base (CB). De forma opcional, el algoritmo de edición puede modificar o no las probabilidades de pertenencia de los objetos a las clases. 3. Clasificar los objetos de manera individual (o en lotes de muestras) utilizando como conjunto de entrenamiento el CB teniendo en cuenta la distribución de probabilidad de clases. En este paso asignaremos a los prototipos clasificados las probabilidades de pertenencia a las clases calculadas por la regla de clasificación estocástica empleada. 4. Editar de manera estocástica y usando opciones de rechazo el conjunto de muestras clasificadas en el paso anterior para eliminar aquellos prototipos

154

Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

5. 6.

7. 8.

erróneamente etiquetados en la fase de clasificación. En este paso es opcional modificar o mantener las probabilidades de pertenencia a las clases de las muestras clasificadas. Añadir las muestras no eliminadas en el paso anterior al conocimiento base CB. Este nuevo conocimiento recibirá el nombre de conocimiento actual (CA). Someter el CA a un proceso de filtrado con la finalidad de detectar aquellos patrones que hayan sido incorporados producto de una mala decisión en el paso 4. En esta etapa, se pueden eliminar o reasignar aquellos patrones que fueron etiquetados en una clase la cual no le correspondía. Es opcional en este punto que el algoritmo de edición utilizado modifique o no las probabilidades de pertenencia de los objetos a las clases. Si el CA excede de la talla previamente establecida, aplicar un algoritmo de condensado por densidades de objetos. Asignar CA=CB. Si existen muestras (o lotes de muestras) sin clasificar, ir al paso 3 sino terminar el proceso.

A continuación, a modo de esquema expondremos la idea de esta metodología, en la cual se considera la posibilidad de utilizar un algoritmo de condensado por densidades.

Figura 27. Esquema de aprendizaje continuo utilizando condensado por densidades.

En este esquema, es importante señalar que el algoritmo de condensado se emplea para controlar la talla del conjunto de entrenamiento debido a que, en el esquema anterior, como se van incorporando continuamente muestras al conjunto de entrenamiento, éste crece considerablemente y con ello también la carga computacional del algoritmo. Para disminuir la talla del conjunto de entrenamiento, hemos empleado el algoritmo de condensado Dens(K2), explicado en el Capítulo 8. Debemos de comentar que, en el proceso descrito anteriormente, no es necesario que en cada iteración del mismo se tenga que condensar el conjunto de entrenamiento. Así, en nuestra propuesta, hemos considerado que el conjunto de entrenamiento mantenga una talla adecuada y, al

155

Capítulo 9

excederse este valor, es cuando pasamos a la fase de condensado, logrando de esta manera que el conjunto de entrenamiento siempre tendrá una talla adecuada.

4. Resultados Experimentales de los Algoritmos de Aprendizaje Continuo En nuestros experimentos, utilizamos diferentes bases de datos tomadas del Machine Learning Database Repository (http://www.ics.uci.edu/∼mlearn). Para simular el proceso de aprendizaje continuo, cada una de estas bases de datos fue dividida de forma aleatoria en lotes de objetos, de forma tal que cada uno de ellos mantuviera la distribución de probabilidades a priori de cada base de datos. Uno de estos lotes de la partición fue tomado como conjunto de entrenamiento y otro como conjunto de prueba para medir la efectividad del clasificador, el resto se utilizo para simular el flujo de muestras no etiquetadas que son presentadas al clasificador. En la Tabla 26 se presenta la división realizada para cada una de las bases de datos utilizadas. Base de Datos

Conjunto de Entrenamiento Número de Muestras

Conjunto de Prueba Número de Muestras

Lotes de muestras sin etiquetar Número Número de de Lotes Muestras por Lotes Heart 30 30 7 30 Cancer 68 71 8 68 Diabetes 71 76 9 71 Phoneme 135 139 28 135 Satimage 161 194 28 161 Australian 69 69 8 69 German 71 79 12 71 Tabla 26. División de las bases de datos utilizadas para realizar los experimentos.

Para probar la eficiencia de los algoritmos que describiremos a continuación se utilizó la regla NN, tomando como conjunto de entrenamiento el CB en cada iteración del algoritmo. Las gráficas que presentaremos muestran el porcentaje de clasificación correcta en cada una de las iteraciones para cada una de las bases de datos utilizadas. El conjunto de entrenamiento en el algoritmo lo denotamos por tra, el conjunto de prueba es denotado por tst y los diferentes lotes de muestras para clasificar son denotados por tra-i, con i = 1, …, número de lotes. Todos los experimentos se realizaron siguiendo el esquema: 1- Dividir de forma aleatoria la base de datos en diferentes lotes y seleccionar de forma aleatoria uno de esos lotes como conjunto de entrenamiento (tra) y otro como conjunto de prueba (tst) el resto serán los lotes de objetos denotados por tra-i que se clasificarán e incorporarán paulatinamente en el proceso de aprendizaje continuo. 2- Cargar el conjunto tra en memoria. 3- Editar el conjunto tra, obteniendo el CB.

156

Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

4- Mediante el clasificador NN, calcular el porcentaje de aciertos utilizando el CB como conjunto de entrenamiento y el tst como conjunto de prueba (Iteración 0). 5- Para i = 1 hasta número de lotes 5.1. Asignar a tmp el resultado de clasificar el conjunto tra-i utilizando el CB 5.2. Editar el conjunto tmp 5.3. Adicionar los elementos de tmp al CB 5.4. Editar el CB 5.5. Mediante NN, calcular el porcentaje de aciertos utilizando el CB como conjunto de entrenamiento y el tst como conjunto de prueba Se realizó una amplia gama de experimentos probando diferentes combinaciones con los algoritmos que mencionamos a continuación. Algoritmos Algoritmo de Edición Regla de Clasificación Algoritmo I Wilsoncn k-NN Algoritmo II Wilsoncn k-NCN Algoritmo III Wilson-prob k-NN-prob-umb Algoritmo IV Wilsoncn-prob k-NCN-prob-umb Tabla 27. Diferentes algoritmos de aprendizaje continuo.

Heart

100 98

Algoritmo I Algoritmo II

96

Algoritmo III Algoritmo IV

94 92 90 1 2 3 4 5 6 7 8 9 Iteraciones

P o r cen t a j e d e c la sif ica c ió n

P o r c e n ta je d e c la sific a c ió n

Cancer 68 66 64 62 60 58 56 54 52 50

Algoritmo I Algoritmo II Algoritmo III Algoritmo IV

1

2

3

4

5

6

7

8

Iteraciones

Figura 28. Resultados de los algoritmos con las bases Cancer y Heart.

En las gráficas de la Figura 28 hemos representado el comportamiento de los diferentes algoritmos en las bases de datos Cancer y Heart, mostrando en las mismas los porcentajes de clasificación, así como el número de iteraciones del algoritmo sobre cada una de las bases de datos. En la base Heart, podemos observar que los cuatro algoritmos anteriormente descritos presentan un comportamiento muy similar, convergiendo todos a valores muy similares. En la base Cancer, los mejores resultados se obtienen con los Algoritmo IV y II, debido a que sus porcentajes en toda la fase de aprendizaje tienen un comportamiento creciente y, además, si observamos el porcentaje en la ultima fase del proceso, podemos observar que es superior al porcentaje del conocimiento inicial. Por otra parte, los algoritmos I y III no proporcionan unos resultados suficientemente buenos en el proceso de aprendizaje.

157

Capítulo 9

German P o r c e n ta je d e c la sific a c ió n

P o r c e n ta je d e c la sific a c ió n

Diabetes 74 72

Algoritmo I

70

Algoritmo II

68

Algoritmo III Algoritmo IV

66 64

74 72

Algoritmo I Algoritmo II Algoritmo III

70

Algoritmo IV

68 66

1 2 3 4 5 6 7 8 9 10

1 2 3 4 5 6 7 8 9 10 11 12 13

Iteraciones

Iteraciones

Satimage P o r c e n ta je d e c la sific a c c ió n

P o r c e n ta je d e c la s ific a c ió n

Phoneme 88 86

Algoritmo I Algoritmo II Algoritmo III Algoritmo IV

84 82 80 78 1 3 5 7 9 11 13 15 17 19 21 23 25 27

82 80 78 76 74 72 70 68 66

Algoritmo I Algoritmo II Algoritmo III Algoritmo IV

1 3 5 7 9 11 13 15 17 19 21 23 25 27 Iteraciones

Iteraciones

P orcen taje d e clasificación

Australian 70 68

Algoritmo I

66

Algoritmo II

64

Algoritmo III Algoritmo IV

62 60 1

2

3

4

5

6

7

8

9

Iteraciones

Figura 29. Resultados de los algoritmos con las bases Diabetes, German, Phoneme, Satimage y Australian.

La Figura 29 muestra el comportamiento de los diferentes algoritmos para los problemas Diabetes, German, Phoneme, Satimage y Australian. En la base de datos Diabetes, todos los algoritmos tienen un comportamiento similar, destacándose el algoritmo IV que al finalizar el proceso alcanza el mejor porcentaje de clasificación. En German, los mejores resultados corresponden a los algoritmos II y IV. En Phoneme, los algoritmos II, III y IV obtienen resultados muy similares, los porcentajes de clasificación tienden a estabilizarse en valores muy cercanos y siempre superiores al

158

Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

porcentaje del conocimiento inicial. El algoritmo I, aunque su porcentaje de clasificación es inferior a los obtenidos por los demás, su comportamiento es parecido y logra tener una estabilización del porcentaje después de la iteración 17. Para la base de datos Satimage se puede observar un comportamiento similar al anterior, donde los porcentajes de clasificación se estabilizan después de la iteración 21 del algoritmo. En la base de datos Australian, los cuatro algoritmos obtienen buenos resultados, es decir, los porcentajes de clasificación obtenidos por los mismos tienen un comportamiento creciente y, siempre al final del proceso de aprendizaje continuo, el porcentaje de clasificación supera al porcentaje del conocimiento con el cual se inicia el proceso. A modo de conclusión, podemos decir que las diferentes técnicas de edición empleadas proporcionan buenos resultados, debido a que, en este algoritmo, partimos de muy pocos objetos en el conjunto de entrenamiento y, en cada iteración, se va nutriendo de objetos que han sido clasificados por el propio sistema, comprobando además la certeza de que esta clasificación haya sido la más adecuada.

4.1 Resultados Experimentales Incorporando Técnicas de Condensado Basado en Densidades Locales Hasta ahora, todos los esquemas de aprendizaje continuo que hemos presentado van incorporando muestras al conjunto de entrenamiento clasificadas por los diferentes clasificadores pero, como sabemos, el incremento de las muestras pudiera afectar en cierta medida a la carga computacional del proceso, con el fin de dar una posible solución a este inconveniente, en los gráficos que a continuación ilustraremos, hemos tenido en cuenta el control de los elementos del conocimiento actual, es decir, controlamos el tamaño del conjunto de entrenamiento valiéndonos del algoritmo Dens(K) explicado en el capítulo anterior, el cual utiliza una función de densidad como una medida para ubicar aquellos objetos que se encuentran en zonas de alta densidad. En este esquema, sólo hemos llevado a cabo los experimentos con una propuesta de algoritmo de aprendizaje continuo, donde hemos seleccionado como algoritmo de edición de las muestras de entrenamiento el algoritmo Wilson-prob, como regla de clasificación k-NN-prob y como algoritmo de condensado Dens(K). En los resultados que presentamos a continuación, hemos añadido un nuevo elemento el cual hemos denominamos Curva de Aprendizaje. Como explicamos anteriormente, cada una de las bases de datos, en los experimentos, se divide en varios lotes de objetos, uno de ellos se selecciona como conjunto de entrenamiento y otro como conjunto de prueba. La curva de aprendizaje se obtiene de la siguiente manera. 1- Dividir de forma aleatoria la base de datos en diferentes lotes y seleccionar de forma aleatoria uno de esos lotes como conjunto de entrenamiento (tra) y otro como conjunto de pruebas (tst). Al resto de los lotes los llamaremos tra-i (los objetos en cada uno de estos lotes tienen su etiqueta de clase). 2- Cargar el conjunto tra en memoria. 3- Editar el conjunto tra (tra-editado) y hacer CB = tra-editado.

159

Capítulo 9

4- Mediante NN, calcular el porcentaje de aciertos utilizando el CB como conjunto de entrenamiento y el tst como conjunto de prueba. 5- Para i = 1 hasta número de lotes 5.1- Editar los elementos del lote tra-i. 5.2- Adicionar los elementos del lote tra-i-editado al CB. 5.3- Mediante NN, calcular el porcentaje de aciertos utilizando el CB como conjunto de entrenamiento y como conjunto de prueba a tst. Como se puede observar, comenzamos igual que en los esquemas de aprendizaje continuo antes explicados, editando el CB y después vamos añadiendo los bloques editados con sus respectivas etiquetas de clase, es decir, con la etiqueta de clase que cada objeto tiene asignado en la base de datos y calculando el porcentaje de clasificación empleando los elementos del conjunto tst como conjunto de prueba. Para obtener los resultados que ahora presentamos, repetimos los experimentos 10 veces, o sea, repetimos tanto el algoritmo de aprendizaje continuo como la curva de aprendizaje 10 veces en cada base de datos y, calculamos el promedio de los porcentajes de cada una de las etapas antes señaladas. Las bases de datos se dividieron en lotes de acuerdo a la cantidad de objetos de cada una, por lo que para realizar los experimentos disponemos de una cantidad de conjuntos tra en función de la cantidad de objetos de cada base de datos. En cada uno de los gráficos, los números que se indican en el eje horizontal corresponden a los conjuntos tra, tra1, tra2, etc…; en los gráficos, hemos utilizado la notación iteraciones, la cual corresponde al número de particiones en cada base de datos, ya que el algoritmo se repite en cada conjunto tra-i. En el eje vertical, se observa el porcentaje de clasificación correcta despúes de haber realizado el proceso en la etapa correspondiente. Para las bases de datos de la Figura 30, se observa una tendencia al crecimiento de la curva del proceso de aprendizaje continuo propuesto, lo que significa que a pesar de haber partido de un conjunto de entrenamiento pequeño, en las etapas siguientes hay un crecimiento del porcentaje de clasificación correcta, es decir, que los objetos que no estaban etiquetados y que han sido etiquetados según este proceso han elevado la calidad del conjunto de entrenamiento inicial además, el condensado no ha deteriorado la calidad del mismo. Puede observarse también que casi siempre la curva de aprendizaje continuo obtenida con nuestro algoritmo está por encima de la curva de aprendizaje sólo en Liver la segunda etapa tiene un valor mayor en el porcentaje para la curva de aprendizaje, es decir, que los conjuntos de entrenamiento obtenidos como resultado del proceso de aprendizaje continuo tienen una calidad superior a los conjuntos de entrenamiento obtenidos según el esquema de la curva de aprendizaje.

160

Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

Cancer

70

Po rcenta je de cla sifica ció n

Po rcenta je de cla sifica ció n

Australian

68 66

Aprendizaje Continuo

64

Curva de Aprendizaje

62 60 1

2

3

4

5

100

Aprendizaje Continuo

98

Curva de Aprendizaje

96

94 1

6

2

3

4

74 72

Aprendizaje Continuo

70 68

Curva de Aprendizaje

66 64 62 60 2

3

4

6

Heart P o r c e n ta je d e c la s ific a c ió n

P o r c e nta je de c la sific a c ió n

Diabetes

1

5

Iteraciones

Iteraciones

5

6

70 68 66

Aprendizaje Continuo

64

Curva de Aprendizaje

62 60 1

7

2

3

4

5

Iteraciones

Iteraciones

Po rcenta je de c la sifica ció n

Liver 66 64 62

Aprendizaje Continuo

60

Curva de Aprendizaje

58 56 1

2

3

4

5

Iteraciones

Figura 30. Resultado del aprendizaje continuo utilizando algoritmo de condensado Dens(K).

Además, en el caso de las bases de datos pequeñas, efectuamos el condensado en dos etapas: primero en la tercera iteración y luego al final del proceso, es decir, en el último lote, con el objetivo de probar la efectividad del algoritmo de condensado en el proceso de aprendizaje continuo.

161

Capítulo 9

Satimage

93 91 89

P orcentaje de clasificació n

P o rcentaje d e clasificació n

Phoneme

Aprendizaje Continuo

87 85 83 81

Curva de Aprendizaje

79 77 75 1

3

5

7

9

92 90

Aprendizaje Continuo

88 86

Curva de Aprendizaje

84 82 80 1

11 13 15 17 19

3

5

7

9

11 13 15 17 19

Iteraciones

Iteraciones

Porcentaje de clasificación

Texture 100 98 96

Aprendizaje Continuo

94

Curva de Aprendizaje

92 90 88 86 1

3

5

7

9

11

13

15

Iteraciones

Figura 31. Resultado del aprendizaje continuo utilizando algoritmo de condensado Dens(K).

En el caso de la base de datos Phoneme (Figura 31), la tendencia de la curva es también a incrementar el valor del porcentaje de clasificación correcta, pero muy discretamente y, en muchos casos, permanece casi constante a lo largo del proceso. Para esta base de datos, la curva de aprendizaje continuo está por debajo de la curva de aprendizaje. Las bases de datos Satimage y Texture tienen un comportamiento diferente al resto: por tramos, la tendencia es al crecimiento, es decir, inicialmente hay una mejoría en cuanto a los porcentajes de clasificación correcta, después, experimenta un pequeño descenso y, finalmente comienza de nuevo a crecer, repitiéndose varias veces este mismo comportamiento. También es este caso, la curva de aprendizaje continuo está por debajo de la curva de aprendizaje. Para las bases de datos Phoneme, Satimage y Texture, por tener mayor cantidad de objetos, dividimos en una cantidad mayor de lotes según se puede ver en los números del eje horizontal de los gráficos correspondientes y el condensado se efectuó cada cinco iteraciones del algoritmo. A modo de resumen, de esta serie de experimentos que hemos mostrado en esta sección, podemos decir que el esquema de aprendizaje continuo, en el cual hemos considerado como regla de clasificación k-NN-prob, como método de filtrado de las muestras el algoritmo Wilson-prob y como método de control de la talla del conjunto de

162

Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

entrenamiento el condensado Dens(K), presenta buenos resultados de manera general. En las bases de datos Satimage, Texture y Phoneme, el proceso de aprendizaje resulta muy lento, aunque siempre el porcentaje inicial con el cual comienza el proceso es superado a medida que se incorporan nuevas muestras al conjunto de entrenamiento.

4.2 Comparación de Algoritmos Referente al Control de la Talla del Conjunto de Entrenamiento En el Capítulo 8, expusimos otro algoritmo de condensado, Dens(K2), cuyo porcentaje de reducción es superior al que presenta Dens(K), por lo cual también realizamos experimentos utilizando Dens(K2). Este grupo de experimentos estará formado por los cuatro algoritmos que a continuación describimos. 1. Algoritmo Ap-Dens(K): clasificaremos las muestras con k-NN-prob, como algoritmo de filtrado Wilson-prob y como algoritmo de condensado Dens(K). 2. Algoritmo Ap-Dens(K2): clasificaremos las muestras con k-NN-prob, como algoritmo de filtrado Wilson-prob y como algoritmo de condensado Dens(K2). 3. Algoritmo Ap-Edición: clasificaremos las muestras con k-NN-prob, como algoritmo de filtrado Wilson-prob y, en cada iteración, incluimos las muestras editadas al conjunto de entrenamiento. 4. El algoritmo mediante el cual calculamos la curva de aprendizaje comentada en el epígrafe anterior. En el caso de la base de datos Liver (Figura 32) como ya mencionamos, hubo un cambio al emplear el condensado Dens(K2) pues, en los dos últimos niveles del aprendizaje, hubo un descenso del porcentaje, quedando igual que el de la curva de aprendizaje y por debajo del aprendizaje sin condensar (Ap-Edición).

P orcentaje de clasificación

Liver 66

Ap-Dens(K)

64 62

Ap-Dens(K2)

60

Ap-Edición

58 56 1

2

3

4

5

Curva de Aprendizaje

Iteraciones

Figura 32. Resultado de comparar Ap-Dens(K), Ap-Dens(K2) y Ap-Edición.

Se puede apreciar en las gráficas de la Figura 33 que, en los resultados obtenidos para las bases Australian, Cancer, Diabetes y Heart, ambos procesos de aprendizaje continuo son muy similares, con muy pocas diferencias en cuanto al porcentaje de

163

Capítulo 9

clasificación correcta, siempre crece la curva de aprendizaje continuo y se mantiene por encima de la curva de aprendizaje. Además, al incluir la curva de aprendizaje sin condensar, es decir, el algoritmo Ap-Edición, se puede ver que esta curva casi siempre coincide o queda por debajo de la curva de aprendizaje donde hemos empleado un algoritmo de condensando, lo cual garantiza que la reducción que se obtiene de los datos producto del condensado no perjudica el proceso de aprendizaje continuo, ya que el porcentaje de clasificación se mantiene constante o es superior. En la Figura 34 se muestra la base de datos Phoneme, donde el resultado que se obtuvo fue muy similar, incluso para el aprendizaje sin condensar. En esta base de datos, los procesos Ap-Dens(K), Ap-Dens(K2) son muy similares, las curvas correspondientes a cada esquema quedan por debajo de la curva de aprendizaje, aunque el porcentaje final de los procesos de aprendizaje continuo es superior al valor inicial. Por último, analizando la Figura 35, en la cual tenemos los resultados para Satimage y Texture, observamos que los algoritmos de aprendizaje continuo tienen un comportamiento similar, siendo muy escasas las diferencia entre ellos. En cualquier caso para Texture, el esquema Ap-Edición es el que logra tener los mejores resultados de forma generalizada. Cancer

70

Ap-Dens(K) 68

Ap-Dens(K2)

66

Ap-Edición

64

Curva de Aprendizaje

62 60 1

2

3

4

5

P o r c e n ta je d e c la sific a c ió n

P o r c e n ta je d e c la s ific a c ió n

Australian 100

Ap-Dens(K)

99 98

Ap-Dens(K2)

97

Ap-Edición

96 Curva de Aprendizaje

95 94 1

6

2

3

4

Heart

74 72

Ap-Dens(K)

70 68

Ap-Dens(K2)

66

Ap-Edición

64 62 60 3

4

5

Iteraciones

6

7

Curva de Aprendizaje

P o r c e n ta je d e c la sific a c ió n

P o r ce n ta je d e c la sifica ció n

Diabetes

2

6

Iteraciones

Iteraciones

1

5

74 72

Ap-Dens(K)

70 68

Ap-Dens(K2)

66

Ap-Edición

64 62 60 1

2

3

4

5

Curva de Aprendizaje

Iteraciones

Figura 33. Resultado de comparar Ap-Dens(K), Ap-Dens(K2) y Ap-Edición.

164

Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

P orcentaje de clasificación

Phoneme 93 91

Ap-Dens(K)

89 87

Ap-Dens(K2)

85 83

Ap-Edición

81 79 77

Curva de Aprendizaje

75 1

3

5

7

9

11 13 15 17 19

Iteraciones

Figura 34. Resultado de comparar Ap-Dens(K), Ap-Dens(K2) y Ap-Edición. Texture

92 90

Ap-Dens(K)

88

Ap-Dens(K2)

86 84

Ap-Edición

82 80 1

3

5

7

9 11 13 15 17 19

Iteraciones

Curva de Aprendizaje

P o rcen ta je d e cla sifica ció n

P orcen taje d e clasificación

Satimage 100 98

Ap-Dens(K)

96 94

Ap-Dens(K2)

92

Ap-Edición

90 88 86 1

3

5

7

9

11 13 15

Curva de Aprendizaje

Iteraciones

Figura 35. Resultado de comparar Ap-Dens(K), Ap-Dens(K2) y Ap-Edición.

A modo de resumen, hemos querido saber cómo influye controlar la talla del conjunto de entrenamiento, es decir, luego de incorporar al conocimiento todas las muestras que han sido clasificadas y posteriormente filtradas, es lógico que este conocimiento aumente a mediada que el proceso se va ejecutando varias veces. Para tener un control de la talla del conocimiento, hemos aplicado un algoritmo de condensado con el objetivo de reducir el coste computacional asociado a la regla de clasificación. Con los experimentos, comprobamos que disminuir la talla del conjunto de entrenamiento usando una función de densidad nos permite quedarnos en el conjunto de entrenamiento con muestras que representan de manera adecuada la distribución de las clases representadas en el conjunto de entrenamiento.

4.3 Control de la Talla del Conjunto de Entrenamiento en Cada Iteración Utilizando Dens(K2)-Variante 2 En esta sección, mostramos otros experimentos empleando el algoritmo de condensado Dens(K2) en el aprendizaje continuo y modificando algunos de los pasos con el objetivo de que el conocimiento base inicial no se alterara. Bajo la suposición de que tenemos un

165

Capítulo 9

conocimiento inicial bastante bueno, el objetivo será enriquecerlo si es posible con algunos objetos más. El algoritmo siguiente resume los pasos en el nuevo algoritmo de aprendizaje continuo. 1- Dividir de forma aleatoria la base de datos en diferentes lotes y seleccionar de forma aleatoria uno de esos lotes como conjunto de entrenamiento (tra), y otro como conjunto de prueba (tst). A el resto de los lotes los llamaremos tra-i (los objetos en cada uno de estos lotes tienen su etiqueta de clase). 2- Cargar el conjunto tra en memoria. 3- Editar el conjunto tra, (tra-editado) y hacer CB = tra-editado. 4- Mediante NN, calcular el porcentaje de aciertos utilizando el CB como conjunto de entrenamiento y el tst como conjunto de prueba. 5- Para i =1 hasta número de lotes 5.1- Clasificar el lote tra-i, editarlo y condensarlo. 5.2- Unir el conjunto condensado al CB. 5.3- Mediante NN, calcular el porcentaje de aciertos utilizando el CB como conjunto de entrenamiento y el tst como conjunto de prueba. Según expresa el algoritmo, ahora para cada conjunto tra-i, realizamos tres operaciones simultaneamente: clasificar, editar y condensar. El resultado de este último paso es incorporado al conocimiento base, de modo que el CB va creciendo muy discretamente. Los gráficos que mostramos a continuación son los resultados de los experimentos realizados empleando este algoritmo de aprendizaje. Heart

70 68 66

Aprendizaje Continuo

64

Curva de Aprendizaje

62 60 1

2

3

4

Iteraciones

5

6

P o r c e n ta je d e c la sific a c ió n

P o r c e n ta je d e c la s ific a c ió n

Australian 70 68 66

Aprendizaje Continuo

64

Curva de Aprendizaje

62 60 1

2

3

4

5

Iteraciones

Figura 36. Resultado del aprendizaje continuo (variante 2) utilizando condensado Dens(K2).

La Figura 36 muestra el comportamiento creciente del porcentaje de clasificación correcta en el proceso de aprendizaje continuo para las bases de datos Australian y Heart. En este nuevo algoritmo e igual que en el algoritmo anterior, la curva de aprendizaje continuo está por encima de la curva de aprendizaje. Las bases de datos Cancer y Diabetes Figura 37, muestran el mismo comportamiento: los porcentajes de los diferentes conjuntos de entrenamiento obtenidos

166

Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

con el proceso de aprendizaje se mantienen por encima del porcentaje inicial. Para la base de datos Liver se observa un comportamiento irregular durante el proceso de aprendizaje, aunque termina con un porcentaje muy cercano al inicial, en los pasos intermedios hay un descenso del porcentaje de clasificación. La base de datos Phoneme (Figura 38) tiene un buen comportamiento en el proceso de aprendizaje pues, como se puede observar, la curva va creciendo a medida que se agregan puntos al conjunto de entrenamiento debido al proceso de aprendizaje: aunque a pequeños niveles, pero se aprecia una mejoría de los porcentajes de clasificación correcta. Las bases de datos Satimage y Texture (Figuras 38) con este nuevo algoritmo tienen mejores resultados. Como se puede ver, las gráficas son crecientes, a diferencia de los dos procesos anteriores en los que para estas bases de datos no había una tendencia clara hacia el crecimiento sino a intervalos y con descensos en la etapa de condensado. Ahora, al efectuar el condensado inmediatamente después de la edición, sólo se agregan algunas muestras al conjunto de aprendizaje y no se modifica el conocimiento inicial, obteniéndose mejores resultados con esta propuesta.

P o r c e n ta je d e c la s ific a c ió n

Cancer

Diabetes P o r c e n ta je d e c la s ific a c ió n

100

Aprendizaje Continuo

98

Curva de Aprendizaje

96

94 1

2

3

4

5

6

74 72 70

Aprendizaje Continuo

68

Curva de Aprendizaje

66 64 62 60 1

Iteraciones

2

3

4

5

6

7

Iteraciones

P orcen taje d e clasificación

Liver 66 64

Aprendizaje Continuo

62 60

Curva de Aprendizaje

58 56 54 1

2

3

4

5

Iteraciones

Figura 37. Resultado del aprendizaje continuo (variante 2) utilizando condensado Dens(K2).

167

Capítulo 9

Satimage

93 91 89 87 85 83 81 79 77 75

P o r c e n ta je d e c la s ific a c ió n

P o r ce n ta je d e c la sific a c ió n

Phoneme

Aprendizaje Continuo Curva de Aprendizaje

1

3

5

7

92 90

Aprendizaje Continuo Curva de Aprendizaje

88 86 84 82 80

9 11 13 15 17 19

1

Iteraciones

3

5

7

9 11 13 15 17 19 Iteraciones

P orcentaje de clasificación

Texture 100 98 96

Aprendizaje Continuo Curva de Aprendizaje

94 92 90 88 86 1

3

5

7

9

11

13

15

Iteraciones

Figura38. Resultado del aprendizaje continuo (variante 2) utilizando condensado Dens(K2).

A modo de resumen de estos experimentos, podemos decir que con esta propuesta perseguimos dos objetivos: primero, no modificamos constantemente el conocimiento inicial debido a que las muestras de ese conocimiento permanecerán a lo largo del proceso en el conjunto de entrenamiento y segundo, añadimos al conocimiento sólo aquellas muestras que han pasado por los dos filtros (edición y condensado). Esto nos permitirá en cada paso adicionar al conocimiento muy pocas muestras, manteniendo de este modo la distribución inicial del proceso. Con este esquema, hemos tenido un mejor resultado en las bases de datos de mayor tamaño que en los procesos anteriores.

4.4 Comparación entre Ap-Dens(K2)-V1 y Ap-Dens(K2)-V2 En este epigrafe, para que se vean bien las diferencias entre los dos algoritmos de aprendizaje continuo empleando el algoritmo Dens(K2) mostramos una serie de experimentos con los algoritmos siguientes: 1. Ap-Dens(K2)-V1: clasificamos utilizando la regla k-NN-prob, editamos con Wilson-prob, incluimos estas muestras al conocimiento inicial y, después de varias iteraciones, aplicamos el algoritmo de condensado Dens(K2).

168

Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

2. Ap-Dens(K2)-V2: clasificamos utilizando la regla k-NN-prob, editamos con Wilson-prob, condensamos las muestras editadas con el algoritmo Dens(K2) y, posteriormente son añadidas al conocimiento con el cual serán clasificadas las muestras en el siguiente paso. Para la base de datos Australian (Figura 39), se obtienen resultados similares, en el sentido de que la curva de aprendizaje continuo con ambos algoritmos es creciente. Aunque con el segundo algoritmo los porcentajes son menores, ambos métodos sirven para mejorar la calidad del conjunto de entrenamiento inicial. Con la base de datos Cancer, hubo un cambio en el comportamiento con la segunda variante: no siempre fue creciendo la curva. De todas formas, en todas las etapas, el conjunto de entrenamiento tiene mayor calidad que el conjunto de entrenamiento inicial. Cancer

70 68

Ap-Dens(K2)-V1

66

Ap-Dens(K2)-V2

64

Curva de Aprendizaje

62 60 1

2

3

4

5

P o r ce nta je de c la sific a c ió n

Po rcenta je de cla sifica ció n

Australian 100

Ap-Dens(K2)-V1 98

Ap-Dens(K2)-V2 96

Curva de Aprendizaje

94 1

6

2

3

4

5

6

Iteraciones

Iteraciones

Figura 39. Resultados de comparar los algoritmos Ap-Dens(K2)-V1 y Ap-Dens(K2)-V2. Heart

74 72 Ap-Dens(K2)-V1

70 68

Ap-Dens(K2)-V2

66 Curva de Aprendizaje

64 62 60 1

2

3

4

5

Iteraciones

6

7

C l a s i fi c a c i ó n c o r r e c ta (% )

P o r c e n ta je d e c la sific a c ió n

Diabetes 70 68

Ap-Dens(K2)-V1

66

Ap-Dens(K2)-V2

64 Curva de Aprendizaje

62 60 1

2

3

4

5

Iteraciones

Figura 40. Resultados de comparar los algoritmos Ap-Dens(K2)-V1 y Ap-Dens(K2)-V2.

Para la base de datos Diabetes (Figura 40), aún cuando los conjuntos resultantes son mejores que el conjunto de entrenamiento inicial, el comportamiento, en general, es creciente con la variante segunda, pero a niveles inferiores que para la primera variante. Para la base de datos Heart, también la curva de aprendizaje continuo crece con ambos métodos de aprendizaje, pero los porcentajes de clasificación correcta de la variante primera son superiores que los de la segunda variante.

169

Capítulo 9

La segunda variante de algoritmo de aprendizaje continuo no es buena para la base de datos Liver (Figura 41) pues, inicialmente, experimenta un decrecimiento de la curva, luego crece y, aunque al final el porcentaje es cercano al inicial, no es conveniente emplear este método con esta base de datos pues el conjunto de entrenamiento inicial no mejora con el aprendizaje continuo. Se ve claramente que es mejor emplear la primera variante de aprendizaje continuo para esta base de datos. Phoneme

66 64

Ap-Dens(K2)-V1

62 Ap-Dens(K2)-V2

60 58

Curva de Aprendizaje

56 54 1

2

3

4

P o rc e n ta j e d e c la s i fic a c ió n

P o r c e n ta je d e c la sific a c ió n

Liver 93 91 89 87 85 83 81 79 77 75

5

Ap-Dens(K2)-V1 Ap-Dens(K2)-V2 Curva de Aprendizaje 1 3 5 7 9 11 13 15 17 19

Iteraciones

Iteraciones

Figura 41. Resultados de comparar los algoritmos Ap-Dens(K2)-V1 y Ap-Dens(K2)-V2.

En la Figura 41, se puede apreciar el comportamiento para la base de datos Phoneme. Con ambas variantes, el crecimiento es pequeño pero se produce una mejora en el conjunto de entrenamiento partiendo sólo de un conjunto pequeño de muestras. Por otra parte podemos observar que la variante segunda tiene mejores prestaciones. Texture

92 90

Ap-Dens(K2)-V1

88

Ap-Dens(K2)-V2

86 84

Curva de Aprendizaje

82 80 1 3 5 7 9 11 13 15 17 19

Iteraciones

P o r c e n ta je d e c la sific a c ió n

P o r c e n t a j e d e c la s if ic a c ió n

Satimage 100 98

Ap-Dens(K2)-V1

96

Ap-Dens(K2)-V2

94 92

Curva de Aprendizaje

90 88 86 1

3

5

7

9 11 13 15

Iteraciones

Figura 42. Resultados de comparar los algoritmos Ap-Dens(K2)-V1 y Ap-Dens(K2)-V2.

La Figura 42 muestra que, para las bases de datos Satimage y Texture, es mejor emplear la segunda variante, pues no se produce un deterioro de la calidad del conjunto de aprendizaje. Como se ve bien en los gráficos, para el primer método (cuando se modifica el conjunto inicial), en los primeros pasos hay un crecimiento del porcentaje de clasificación correcta pero, posteriormente desciende y, aunque siempre trata de recuperarse nuevamente por tramos, la tendencia es a decrecer. Sin embargo, al probar

170

Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

la segunda variante, se ve que la tendencia es a crecer, por lo que este método en esta base de datos proporciona mejores resultados. Resumiendo estos últimos experimentos, podemos decir que, de manera general, el segundo procedimiento logra obtener mejores resultados sobre las bases de datos con mayor número de muestras, aunque ambos algoritmos logran aumentar el porcentaje de clasificación a lo largo de todo el proceso partiendo de muy poca información y valiéndose de la probabilidad de pertenencia a las clases de los objetos en el proceso de clasificación y filtrado de las muestras, así como también de esquemas de condensado donde hemos tenido en cuenta una función de densidad para seleccionar aquellos prototipos que se encuentren en zonas de alta densidad.

5. Conclusiones En este capítulo, hemos tratado una serie de algoritmos de aprendizaje continuo en un ambiente parcialmente supervisado, en los cuales hemos usado un número reducido de objetos etiquetados y, un número mayor de objetos sin etiqueta para, con la información suministrada por estos objetos, adaptar al clasificador al nuevo entorno sobre el que va a trabajar. Este sistema incluye un conjunto de herramientas para filtrar el nuevo conocimiento adquirido a lo largo de todo el proceso, debido a que se corre el riego de incorporar patrones mal etiquetados en el conjunto de entrenamiento y, consecuentemente, degradar la eficiencia del mismo. En la evaluación empírica de los sistemas de aprendizaje, hemos usado diferentes reglas de clasificación y diferentes algoritmos de edición. En los primeros experimentos, sólo hemos tenido en cuenta algoritmos de edición y también hemos considerado las probabilidades de pertenencia a las clases de los vecinos más cercanos a la muestra. Estos algoritmos tienen el inconveniente de que, con la incorporación paulatina de muestras al conjunto de entrenamiento, la carga computacional asociada a los clasificadores será cada vez mayor y, por lo tanto se verá afectado el tiempo de ejecución del proceso. Como una vía para solucionar este inconveniente, hemos realizado una gama de experimentos que involucran algoritmos de condensado para controlar la talla del conjunto de entrenamiento; estos algoritmos de condensado utilizan una función de densidad que les permite buscar aquellos patrones que se encuentren en zonas con alta densidad. Utilizando técnicas de condensado, hemos considerado dos propuestas. La primera de ellas controla los objetos del conjunto de entrenamiento, es decir, permite tener una cantidad aproximada de objetos en el conjunto de entrenamiento. La segunda alternativa edita y condensa simultáneamente los objetos que se van clasificando y sólo incorpora al conocimiento aquellos objetos que han pasado satisfactoriamente estos dos filtros de manera que el conocimiento va creciendo pero muy lentamente en el tiempo. Podemos decir que el efecto de controlar la talla del conjunto de entrenamiento no produjo, en ningún momento, una reducción de los porcentajes de clasificación a lo largo del proceso de aprendizaje continuo, también incluimos en los experimentos algunas

171

Capítulo 9

gráficas donde comparamos procesos con edición solamente y procesos donde involucramos tanto técnicas de edición como de condensado. Como conclusiones del capítulo, podemos decir que se ha desarrollado un algoritmo de Aprendizaje Continuo que utiliza un número reducido de objetos clasificados y va adaptando el conocimiento con la incorporación de objetos etiquetados por el propio sistema.

172

Parte III

Conclusiones y Líneas Futura

Capítulo 10 Conclusiones Finales 1. Principales Aportaciones El objetivo fundamental de esta Tesis Doctoral se ha centrado, por una parte, en el estudio y análisis de un conjunto de técnicas clásicas en el campo de la clasificación y el aprendizaje supervisado dentro del Reconocimiento Estadístico de Formas. Por otra parte, este trabajo se ha dirigido también hacia un paradigma relativamente nuevo que se conoce como aprendizaje semi-supervisado (o parcialmente supervisado). A lo largo de los primeros capítulos de esta memoria, se ha llevado a cabo una importante recopilación bibliográfica y revisión teórica sobre todos los aspectos básicos que acabamos de mencionar. La primera aportación de este trabajo se centra en definir una regla de clasificación estocástica que, siguiendo el mismo esquema que la regla de los k vecinos más cercanos, tiene en cuenta, no sólo la cercanía de los vecinos a la muestra sino también la probabilidad de pertenencia a la clase de cada uno de los vecinos que intervienen en el proceso de clasificación de la muestra. Además, se ha propuesto una regla de clasificación con opción de rechazo, validándose la misma con las diferentes propuestas señaladas en el trabajo. En segundo lugar, valiéndonos de la regla de clasificación estocástica anteriormente mencionada, se han diseñado e implementado diferentes algoritmos de edición que han sido validados con respecto a otros algoritmos ampliamente estudiados en la literatura y descritos en este trabajo, siendo su principal aportación la reducción de la talla del conjunto de entrenamiento sin afectar a el porcentaje de clasificación. En tercer lugar, siguiendo esta misma estrategia estocástica, también se han diseñado algoritmos de condensado que se apoyan en una medida de densidad local, logrando con los mismos buenos resultados tanto en la reducción de la talla del conjunto de entrenamiento como en porcentajes de clasificación, comparándolos con otros algoritmos que aparecen en la literatura. La ultima aportación de esta Tesis Doctoral, constituye una propuesta de algoritmo para realizar Aprendizaje Continuo. En ella se integran de forma homogénea todas las técnicas estocásticas anteriormente expuestas, es decir, se ha diseñado un algoritmo de aprendizaje semi-supervisado que, partiendo de muy pocas muestras etiquetadas, es capaz de ir adaptando el conocimiento a medida que incorpora objetos clasificados por el mismo algoritmo después de pasar estos objetos por determinados filtros para

Capítulo 10

descartar aquellos objetos que su probabilidad de pertenencia a la clase sea muy baja, o no supere un umbral previamente definido. También en este algoritmo, valiéndonos de esquemas estocásticos de condensado, controlamos el tamaño de las muestras con el objetivo de que el costo del algoritmo se mantenga en un margen previamente establecido. Finalmente, cabe destacar el hecho de que todas las aproximaciones propuestas en los diferentes capítulos han sido evaluadas sobre bases de datos sintéticas y reales, comparando sus resultados con los obtenidos a partir de los principales procedimientos clásicos. Por medio de este análisis experimental, hemos tenido la posibilidad de comprobar que, en la mayoría de los casos, los esquemas introducidos en este trabajo presentan un mejor comportamiento que aquellos algoritmos de clasificación y aprendizaje que aquí hemos denominado como tradicionales. A continuación, haremos un rápido recorrido por los capítulos que han significado algún tipo de aportación en los campos previamente mencionados, comentando en cada caso los principales resultados obtenidos a partir del correspondiente análisis empírico.

Aportaciones a los Métodos de Clasificación no Paramétricos En el Capítulo 6, se estudiaron diferentes clasificadores no paramétricos, teniendo en cuenta algunas de sus características más significativas. Se define una nueva regla de clasificación que emplea un enfoque difuso y estocástico, mezclado con la regla de clasificación de los k vecinos más cercanos. La idea de este enfoque es usar las etiquetas de los vecinos más cercanos de la muestra a clasificar, pero unas etiquetas difusas, es decir, de acuerdo a un grado de pertenencia a dicha clase, cada vecino aportará al proceso de etiquetar el nuevo objeto, por lo que podemos considerar una suma o superposición de las probabilidadades de pertenencia de los vecinos a la clase en cuestión. El objetivo de esta regla de clasificación es obtener la probabilidad de pertenencia a la clase i (i = 1, …, M) del objeto a clasificar x, como la suma de las probabilidades de pertenencia a la clase i de cada uno de los vecinos, ponderada por el inverso de la distancia, donde cada una de las pi ( x j ) podemos considerarlas como las probabilidades a posteriori p( wi / x j ) . Es decir, si tenemos las probabilidades a posteriori de los vecinos, podemos intentar calcular o estimar las probabilidades a posteriori del objeto x. La estrategia que nosotros proponemos también evita el paso de determinar las funciones de densidad de las clases, ya que se obtienen funciones que se pueden considerar como las probabilidades a posteriori directamente. También se ha considerado una opción de rechazo estocástica, la cual consiste en introducir un umbral 0