ActasdelVCongresoIberoamericanodeInteligenciaArticial,IBERAMIA'96,Cholula,Puebla,Mexico,1996. Generalizacionyatencionselectivaparalaformacionde

Actas del V Congreso Iberoamericano de Inteligencia Arti cial, IBERAMIA'96, Cholula, Puebla, Mexico, 1996. Generalizacion y atencion selectiva para

Author: José Manuel García Díaz

2 downloads 90 Views 227KB Size

Report

DOWNLOAD PDF

Recommend Stories

No stories

Story Transcript

Actas del V Congreso Iberoamericano de Inteligencia Arti cial, IBERAMIA'96, Cholula, Puebla, Mexico, 1996.

Generalizacion y atencion selectiva para la formacion de conceptos Luis Talavera Ulises Cortes

Universitat Politecnica de Catalunya Departament de Llenguatges i Sistemes Informatics (IA) Pau Gargallo 5, 08028 Barcelona, (Catalunya) Espa~na [email protected] [email protected] Tel.: +34 3 4017016, Fax: +34 3 4017014

Resumen

Uno de los objetivos principales de los sistemas aprendizaje inductivo ha sido obtener conceptos con descripciones comprensibles a partir del uso de formalismos logicos. Sin embargo, mas recientemente, el enfasis se ha dirigido a aumentar la e ciencia de los sistemas para realizar ciertas tareas (reconocimiento, inferencia), produciendose una evolucion hacia representaciones y criterios estadsticos en detrimento de las descripciones que se obtienen. En este trabajo se estudia una aproximacion que intenta reconciliar ambos objetivos, aplicando una interpretacion cualitativa de los mecanismos aplicados a representaciones no basadas en la logica. Para ilustrar esta propuesta, se expone el sistema Isaac, que utiliza la nocion de atencion selectiva para realizar una generalizacion de conceptos, atribuyendo un caracter cualitativo al calculo de la relevancia de los atributos.

Keywords: Aprendizaje inductivo, Atencion Selectiva, Categorizacion, Formacion de Conceptos, Generalizacion de Conceptos, Sesgos.

1 Introduccion La capacidad de obtener conocimiento inducido partir de observaciones individuales es un tema central en el aprendizaje automatico (Machine Learning), y mas concretamente en el area del aprendizaje inductivo [1]. Dentro de este paradigma, es posible distinguir dos tendencias diferenciadas segun el grado de asesoramiento que requieren por parte de un tutor externo. En el aprendizaje supervisado se asume que las observaciones vienen preclasi cadas y la tarea a realizar consiste en inferir conceptos que describan adecuadamente cada clase. En cambio, en el aprendizaje no supervisado, dado que no existe un tutor, el objetivo reside en descubrir las agrupaciones que subyacen en un determinado conjunto de observaciones as como un concepto para cada grupo. Aunque el origen de las agrupaciones que manejan estas aproximaciones sea distinto, como se ve, ambas deben afrontar un problema comun, el de la caracterizacion. Desde esta premisa, es logico que las aproximaciones iniciales al aprendizaje no supervisado [2] fueran muy similares en espritu a las que se realizaban en la modalidad supervisada [3]. As, es posible comprobar como, en ambas, la representacion utilizada era el calculo de predicados o alguna derivacion del mismo y el objetivo resida en optimizar un criterio de calidad de las descripciones, establecido preferentemente en base a su comprensibilidad. Aunque la logica proporciona un buen poder expresivo, sobre todo orientado a proporcionar descripciones comprensibles, este tipo de representacion ha recibido crticas no solo desde el area de la Inteligencia Arti cial [4], sino tambien desde una disciplina afn como es la Psicologa Cognitiva [5, 6]. El problema reside en que las descripciones logicas son demasiado restrictivas ya que establecen lmites demasiado precisos de pertenencia a los conceptos. Este defecto, hace que este tipo de representacion no pueda cubrir adecuadamente algunas situaciones, reduciendo su e ciencia a la hora de utilizarlas en ciertas tareas. Como alternativa, ha surgido lo que se ha denominado conceptos probabilsticos, que consisten en una lista de los valores de los atributos con la frecuencia de aparicion de dichos valores en el concepto [7]. La evolucion hacia este tipo de descripciones ha ido ntimamente ligada a una evolucion paralela en cuanto a los objetivos del proceso inductivo, los cuales se han planteado en relacion a la actuacion (performance) que debe llevar a cabo el sistema que realiza el proceso (p.e. prediccion). De este modo, se ha incrementado el uso de tecnicas de caracter estadstico que evaluan la calidad de los conceptos (vease COBWEB [7], aproximaciones basadas en la teora bayesiana [8, 9] o WITT [4]). Este nuevo enfoque ha originado sistemas muy e cientes en las tareas para las que fueron dise~nados, pero a costa de una cierta perdida de interes en las descripciones que obtienen (vease [10] como excepcion). Bajo esta perspectiva, el problema que se plantea reside en conjugar la obtencion de descripciones adecuadas desde un punto de vista cognitivo con un adecuado rendimiento en la utilizacion de dichas descripciones. Una posible solucion consiste en emplear multiples representaciones de los conceptos, una dedicada a optimizar las tareas a realizar y otra orientada a obtener descripciones comprensibles [11]. Otra alternativa es la construccion de sistemas de generacion de reglas que transformen descripciones de tipo probabilstico en descripciones logicas [12]. Como se puede apreciar, ambas aproximaciones tienen en comun el establecer una diferenciacion estricta entre las descripciones que se utilizan para cada n. En este trabajo se estudia una tercera va consistente en la utilizacion de representaciones probabilsticas en el aprendizaje combinadas con sesgos equivalentes a los que se usan con los formalismos logicos, reexpresados adecuadamente. Con ello se persigue dotar de una mayor comprensibilidad a las

descripciones no logicas sin perder su e ciencia cuando ello sea posible, o al menos, acercar un poco mas ambos objetivos. Para ilustrar esta idea, se presenta el sistema Isaac, el cual utiliza criterios de caracter estadstico para medir la calidad de las descripciones que maneja, pero hace una interpretacion cualitativa de estos criterios. En particular, Isaac utiliza el concepto de atencion selectiva para la generalizacion de conceptos, atribuyendo un caracter cualitativo al hecho de la relevancia de atributos.

2

Isaac:

Un modelo de aprendizaje no supervisado

trabaja en dominios donde las instancias vienen representadas mediante listas de pares hatributo; valori. Para representar cada concepto utiliza un prototipo que contiene las frecuencias de aparicion de cada valor posible para cada atributo. Esta representacion es obviamente de caracter probabilstico, pero, como se vera mas adelante, puede evolucionar de una forma mas exible de lo que es habitual. Para determinar el nivel de abstraccion de los conceptos que se forman, Isaac utiliza un parametro denominado nivel de generalidad (NG) que toma valores en el intervalo [0,1], obteniendose conceptos mas generales para valores mayores. Dado que este parametro in uye directamente en las descripciones de los conceptos que se forman, es perfectamente posible que las descripciones (y la particion) correspondientes a un cierto nivel sean mas comprensibles, mientras que las obtenidas en otro sean mas e cientes en una tarea concreta. Por lo tanto, se asume que diferentes niveles de generalidad optimizaran diferentes objetivos de clasi cacion. El proceso de aprendizaje de Isaac consta de tres fases como se muestra en la gura 1 que son las siguientes 1: Isaac

Preproceso. En esta fase se utiliza un algoritmo de agrupacion incremental para formar

un conjunto inicial de categoras de una forma relativamente e ciente. El algoritmo utiliza una metrica que determina la similitud segun el numero de atributos comunes y un umbral de similitud para decidir la generalidad de las categoras. Este paso es necesario para obtener una hipotesis previa del dominio donde aplicar la segunda fase.

Re exion. A partir de la particion originada en la fase anterior, se establece una or-

denacion de los atributos en base a su relevancia en el dominio, interpretada como su capacidad de discriminacion. Para ello se utiliza la heurstica que se expone en [14] para determinar la relevancia de los atributos.

Re namiento. Esta fase realiza un proceso de generalizacion de la particion tentativa de

la primera fase. Para ello, aplica la nocion de atencion selectiva tomando como base el nivel de generalidad a alcanzar y el conocimiento proporcionado por la fase re exiva.

Como se puede comprobar, el proceso de re namiento es el que modela la estrategia principal del sistema, por lo que en las secciones siguientes se expondran los detalles que con guran esta fase. Este planteamiento es una version de un modelo mas general de aprendizaje que justi ca la utilidad de procesos re exivos y de re namiento [13]. 1

Reflexión

Preproceso

Refinamiento ENTORNO

Figure 1: Proceso de aprendizaje en Isaac

3 Una medida de generalidad Puesto que Isaac debe ser capaz de obtener particiones con niveles de generalidad diversos, es necesario establecer un cierto criterio que indique cuando una particion posee la generalidad deseada. Como punto de referencia, se pueden considerar los estudios realizados en Psicologa para detectar un nivel cognitivamente e ciente denominado nivel basico en las jerarquas de conceptos [15]. Ciertas aproximaciones iniciales proponan una medida denominada cue validity y que se de ne como la probabilidad condicionada de que un objeto pertenezca a una categora dada la posesion de una propiedad (p(c j a)). Sin embargo, se argumento que esta medida no poda discriminar entre diferentes niveles de abstraccion debido a que tenda a incrementarse de forma monotona para niveles mas generales [16]. La medida inversa, denominada category validity y de nida como la probabilidad de que un objeto posea una propiedad condicionada a la pertenencia a una categora (p(a j c)), sufre un efecto contrario y tiende a incrementarse para particiones mas espec cas, por lo que tampoco es de utilidad. En [17] se apunta que la cue validity y la category validity se pueden considerar como los equivalentes continuos de las condiciones de su ciencia y necesidad utilizadas en los formalismos logicos. Sin embargo, estas medidas constituyen una relajacion de dichas condiciones, indicando diferentes grados de las mismas segun se acerquen a valores extremos. Siguiendo esta interpretacion, se pueden de nir dos medidas que se denominaran su ciencia continua (SC) y necesidad continua (NC) para una particion P = fC1; : : :; CK g como

SC (P ) =

Pk Pi Pj P (Ck j Ai = Vij )2

(1) K Pk Pi Pj P (Ai = Vij j Ck )2 NC (P ) = (2) K donde i indexa los diferentes atributos y j los valores que pueden tomar, siendo K el numero de categoras de la particion2. La ecuacion 1 permite evaluar el grado medio de su ciencia de los atributos que contienen las descripciones (prototipos) de los conceptos de P , mientras que la ecuacion 2 evalua el grado medio de necesidad de dichos atributos. Dado que las medidas propuestas son una generalizacion de la cue validity y la category validity, se puede asumir que tendran un comportamiento similar a traves de una hipotetica organizacion jerarquica del dominio, es decir, un crecimiento inverso en la jerarqua. De esta El uso de los cuadrados es necesario para evitar que la expresion uno. 2

P P(A = V j

j

j C) sea siempre igual a

manera, es posible detectar diferentes niveles de generalidad estableciendo una ponderacion de cada medida dependiente del parametro NG. Con esta idea se de ne la Generalidad de una particion P para un nivel de generalidad NG como

Gen(P; NG) = (1 ? NG) SC (P ) ? NG NC (P ) (3) La medida de Generalidad tomara valores negativos cuando la particion se encuentre por debajo del nivel de abstraccion que se busca obtener, se aproximara a cero cuando alcance dicho nivel y tomara valores positivos cuando la particion sea mas general que el nivel buscado. Hay que destacar que la caracterizacion realizada para los diferentes niveles de abstraccion posibles se interpreta de una forma no numerica. Las particiones mas espec cas contendran conceptos con muchas propiedades necesarias, pero pocas propiedades su cientes, es decir, conceptos mas faciles de caracterizar pero mas difcil de discriminar. Por el contrario, las particiones mas generales estaran formadas por conceptos con mas propiedades su cientes pero menos propiedades necesarias, siendo mas faciles de reconocer pero de caracterizacion mas compleja. Aunque las condiciones que se manejan son analogas a las de representaciones logicas, su formulacion en forma continua le permite al sistema trabajar con dominios con diferentes grado de estructura sin una exigencia estricta de formar conceptos que posean propiedades necesarias y su cientes. De esta manera, Isaac es capaz de encontrar este tipo de conceptos si existen en el dominio, pero tambien puede descubrir otras estructuras interesantes.

4 Generalizacion de conceptos y atencion selectiva En el aprendizaje no supervisado, el problema de la generalizacion aparece cuando el sistema debe incorporar una nueva instancia a un concepto o cuando debe fusionar dos conceptos. En este caso, debe decidir como va a generalizar las agrupaciones que posee (que va a fusionar) para poder seguidamente generalizar la descripcion de esta nueva agrupacion. Por lo tanto, es posible hablar de una generalizacion extensional, que consistira unicamente en unir instancias separadas en una unica agrupacion, y de una generalizacion intensional que es el problema analogo al del aprendizaje supervisado, es decir, generalizar las descripciones iniciales para obtener la correspondiente al concepto creado. En los sistemas que utilizan representaciones probabilsticas, las generalizacion de las descripciones se realiza simplemente actualizando la representacion del nuevo concepto para que incluya todas las instancias. Dado que en este proceso no se pone enfasis en las descripciones, se puede decir que la mayora de sistemas realizan una generalizacion mas bien de tipo extensional. El problema de la atencion selectiva o seleccion de atributos ha sido abordado con anterioridad como un metodo para mejorar la e cacia de sistemas de clasi cacion [18] o como un requisito adecuado para modelar sistemas cercanos al comportamiento humano [19]. Sin embargo, nunca se ha planteado como un mecanismo que permite modi car las descripciones de los conceptos que se manejan durante un proceso de aprendizaje. Para ilustrar esta perspectiva, se puede considerar un prototipo como una especie de descripcion continua. Esta descripcion viene dada por una conjuncion de terminos (cada uno referido a un atributo) donde cada termino puede contener disyunciones (referidas a los distintos valores de cada atributo), como se muestra en la gura 1. La diferencia con las descripciones logicas estriba en que cada referencia tiene una frecuencia asociada y por lo tanto relaja las restricciones de aquellas. Con

COLOR (ROJO 0.5) (AZUL 0.5) (VERDE 0.0) BRILLO (SI 0.8) (NO 0.2) FORMA (CUADRADA 1.0) (REDONDA 0.0) (color = rojo[0:5] _ color = azul[0:5]) ^ (brillo = si[0:8] _ brillo = no[0:2]) ^ forma = cuadrada

Table 1: Prototipo visto como una descripcion continua esta vision de los prototipos, se puede decir que la atencion selectiva constituye un mecanismo de generalizacion equivalente a la eliminacion de conjunciones, utilizado habitualmente en el aprendizaje mediante representaciones logicas [1]. Isaac dispone de un buen punto de partida para realizar una seleccion de atributos ya que dispone de una ordenacion de los mismos proporcionada por la fase de re exion, aunque es preciso establecer ademas un criterio para ello. La eliminacion de atributos no se realizara, como en otras aproximaciones, en base a criterios de rendimiento (aumentar la capacidad de prediccion, mejorar la e ciencia, etc.) sino que se hara en funcion del grado de generalidad que se quiera obtener, siendo, por lo tanto, dependiente del parametro NG. Si se van eliminando atributos (conjunciones) para conseguir cada vez descripciones mas generales, es de esperar que para niveles superiores de la jerarqua el conjunto de atributos usado en las descripciones sea menor que en los niveles inferiores. Por lo tanto, el criterio de eliminacion de atributos debe ser tal que, para valores elevados de NG tienda a eliminar mas que para valores reducidos. A partir de estas hipotesis, se de ne el conjunto de atributos utiles para alcanzar un cierto nivel de generalidad NG como U = fa 2 A j Rel(a) m NGg donde A es el conjunto inicial de atributos, Rel(a) es la relevancia del atributo a y m es la maxima relevancia observada para un atributo del dominio. Esta caracterizacion garantiza que el conjunto U de atributos utiles tendera a reducirse cuanto mayor sea el nivel de generalidad buscado y a ser mas amplio en niveles mas espec cos. Hay que recalcar que esto es unicamente una tendencia, dado que es posible que se den casos donde el numero de atributos considerados no se reduzca al ascender en la jerarqua, debido a la distribucion de los valores de las relevancias calculadas. Es decir, solo se eliminan aquellos atributos que son signi cativamente irrelevantes para un nivel dado sin establecer un numero jo de ellos, sino dependiendo de cada contexto.

5 El algoritmo de generalizacion La cuestion que se plantea en el proceso de generalizacion que Isaac debe llevar a cabo es establecer una estrategia para decidir que categoras fusionar hasta alcanzar un nivel de generalidad dado. Para evitar un tratamiento de coste cuadratico respecto del numero de conceptos iniciales, Isaac sigue una heurstica que consiste en considerar que el mejor candidato a fusionar es aquel concepto cuya Generalidad sea menor3. De esta manera, el coste de evaluar las fusiones pasa a ser lineal. Aunque la medida de Generalidad se ha de nido para particiones, es tambien posible aplicarla a conceptos individuales facilmente. 3

Sea P una particion del dominio U una lista de atributos utiles obtenida a partir de P NG un nivel de generalidad a alcanzar FUNCION Isaac (P,A,NG) SI Gen(P,NG)>=0 ENTONCES RETORNA P SINO En el contexto determinado por U, Sea C la categoria de menor Generalidad Obtener P' de fusionar C con el concepto mas similar de P-{C} Sea U' una nueva lista de atributos utiles obtenida a partir de P' Isaac(P',U',NG)

Table 2: El algoritmo Isaac Para escoger el otro concepto a fusionar se ha optado por una estrategia conservadora, que consiste en buscar el concepto mas similar (que comparte mas propiedades) al de menor Generalidad. Esta estrategia garantiza que los conceptos que se obtengan seran razonablemente compactos y, por tanto, conservaran el mayor grado posible de necesidad en sus descripciones. El proposito que se persigue es realizar generalizaciones aumentando el grado de su ciencia de las descripciones con una reduccion mnima de necesidad en las mismas. De esta forma, se tendera a encontrar descripciones necesarias y su centes en el caso de que la estructura del dominio lo permita, sin perjuicio de poder relajar estas condiciones en otros casos. La nocion de atencion selectiva se incorpora en el algoritmo a traves de una ligera modi cacion de las medidas de necesidad y su ciencia continuas, de forma que unicamente se calculan para el conjunto de atributos utiles proporcionados por el proceso de re exion. As, el comportamiento de estas medidas es menos sintactico y depende de un cierto contexto que viene dado por el conjunto U y que se re na en cada paso del algoritmo, el cual se muestra en la tabla 2. La version mostrada del algoritmo realiza una exploracion relativamente exhaustiva de los atributos utiles mediante una interaccion constante con el proceso de re exion. Es posible estudiar variantes que relajen esta exhaustividad, asumiendo, por ejemplo, que las primeras relevancias calculadas son aceptables para utilizarlas durante todo el proceso, evitando recalcularlas en cada paso. Como resultado, el algoritmo producira una particion de un cierto nivel de generalidad, descrita mediante prototipos generalizados, un ejemplo de los cuales se muestra en la tabla 3. Estos prototipos no tienen porque contener todos los atributos del dominio, sino solamente aquellos que se consideran utiles de acuerdo con esta particion, proporcionando, en alguno de los niveles, descripciones razonablemente comprensibles, sin perjuicio de que en el mismo u otros niveles sean e cientes en determinadas tareas. Adicionalmente, se proporciona como resultado la ultima ordenacion hallada para los atributos.

Categor a 1 EL-SALVADOR-AID ((Y 0.9626) (N 0.0094)) AID-TO-NICARAGUAN-CONTRAS ((Y 0.1262) (N 0.8178)) Categor a 2 EL-SALVADOR-AID ((Y 0.0271) (N 0.9321)) AID-TO-NICARAGUAN-CONTRAS ((Y 0.9729) (N 0.0136))

Table 3: Ejemplo de prototipos generalizados: las descripciones solo contienen 2 de los 16 atributos del dominio

6 Resultados preliminares Para realizar una evaluacion del metodo, se han seleccionado los conjuntos de datos small soybean y voting records del UCI Repository of Machine Learning Databases [20]. Esta eleccion se debe a que estos dominios son bien conocidos y ampliamente utilizados en la literatura, lo cual resulta adecuado para realizar una evaluacion preliminar que determine la plausibilidad del metodo que se ha expuesto. Los experimentos consistieron en realizar 10 ejecuciones sobre cada conjunto, con un orden aleatorio en la presentacion de instancias, lo cual tiene cierta in uencia en el resultado nal dado el caracter incremental de la fase de preproceso. En la tabla 4 se muestran los resultados, especi cando el numero de clases inicial (obtenidas del preproceso) y nal, el valor de NG usado, los atributos inicialmente especi cados para cada conjunto y los nalmente incluidos en las descripciones. El conjunto small soybean consta de cuatro categoras, aunque dos de ellas son su cientemente similares para considerarlas una sola, tal y como aparece en la literatura [7]. En la tabla 4 se puede observar como Isaac es capaz de obtener las dos posibles particiones (con una distribucion perfecta de las instancias) reduciendo de forma importante los atributos que incluye en las descripciones. Este dominio posee una gran estructura interna, por lo que no es difcil de clasi car, residiendo el merito en la simplicidad de las descripciones que proporciona Isaac comparado con otros sistemas que usan representaciones de tipo probabilstico. El conjunto voting records consta de dos categoras correspondientes a las tendencias liberal y conservadora. Aunque teoricamente esta division debera corresponderse con los dos grandes partidos, democrata y republicano, en la practica es posible encontrar congresistas de ambas tendencias en las dos formaciones. Por esta razon no es de esperar que los algoritmos no supervisados realicen una division perfecta de los miembros de los dos partidos, sino que mas bien encuentren descripciones de lo que consideran el grupo liberal y el conservador. De hecho, Isaac encontro de forma regular dos clases en este dominio, moviendose entre un 84% y un 90% de acierto al realizar la division en partidos. Pero lo mas interesante reside en las descripciones nales que Isaac genero de las agrupaciones, en las cuales nunca se utilizaron mas de 7 atributos. En realidad, en la mayora de las ocasiones, los atributos utilizados fueron 2 o 3. El resultado que proporcionan las pruebas para este dominio, es que resulta posible catalogar a los congresistas de liberales o conservadores segun sus ideas en poltica exterior, dado que los atributos mas relevantes de las descripciones fueron EL-SALVADOR-AID y AID-TO-NICARAGUAN-CONTRAS, como muestra el ejemplo de la tabla 3. Si bien este resultado no se ajusta exactamente a la caracterizacion de algunos metodos supervisados, esto no debe considerarse como un incoveniente, sino como una muestra de la capacidad de los metodos no

conjunto clases iniciales NG clases nales ats. iniciales ats. nales small soybean 11-13 0.35 4 35 13 0.45 3 9 voting records 29-39 0.50 2 16 2-7

Table 4: Resultados preliminares de Isaac para los dominios small soybean y voting records supervisados para descubrir hipotesis plausibles y, en el caso de Isaac, de facil interpretacion4.

7 Conclusiones En este trabajo se plantea una aproximacion para la utilizacion de metodos numericos bajo un signo cualitativo, combinando de este modo las ventajas de estos metodos con los de naturaleza puramente simbolica. En este contexto, el sistema Isaac se muestra como una estrategia adecuada para descubrir hipotesis plausibles y comprensibles sin supervision externa. Para ello, Isaac incorpora preferencias como la necesidad, la su ciencia y la simplicidad de las descripciones sin utilizar formalismos logicos, permitiendo relajaciones sobre dichas preferencias que le proporcionan mayor exibilidad que otros sistemas. El parametro NG proporciona la posibilidad de encontrar diferentes niveles de abstraccion de forma exible y adaptando la estrategia al objetivo buscado, ya que todos los pasos de generalizacion estan directamente in uenciados por dicho parametro. La aplicacion iterativa del algoritmo de generalizacion para obtener jerarquas de conceptos, debe proporcionar niveles intermedios mas utiles que los producidos por otros metodos que construyen toda la jerarqua incrementalmente y orientada a maximizar el poder de inferencia. Un aspecto adicional a considerar es que, a diferencia de otros sistemas (p.e. Cluster/2 [2]), las preferencias en las descripciones no constituyen parametros independientes del sistema. En Isaac estas preferencias aparecen interrelacionadas entre ellas y ademas dependientes del nivel de abstraccion de las descripciones, jandolas todas a partir de la experiencia que obtiene y un parametro unico. El marco modular que proporciona Isaac permite aislar los problemas de seleccion de atributos y generalizacion, de forma que los metodos a emplear se pueden estudiar separadamente. Esto se puede comprobar claramente si se considera el proceso de re namiento como un doble proceso de exploracion en un espacio de agrupaciones y otro de descripciones, entrelazado con una tercera exploracion en un espacio de sesgos (ordenaciones de atributos) realizada en la fase de re exion. Esta idea va acorde con recientes caracterizaciones del aprendizaje como una busqueda dentro de multiples niveles de hipotesis y sesgos [21] y sugiere diversas areas de estudio que se pueden desarrollar de forma independiente, integrandose posteriormente en el marco de Isaac.

References 1. R. S. Michalski, \A theory and methodology of inductive learning", in R. S. Michalski, Pruebas adicionales utilizando Isaac como un metodo supervisado con categoras prede nidas, parecen indicar que los atributos seleccionados coinciden con los de metodos supervisados. 4

J. G. Carbonell, and T. M. Mitchell, editors, Machine Learning: An Arti cial intelligence approach, pp. 83{134. Morgan Kaumann, Los Altos, CA, 1983. 2. R. S. Michalski and R. E. Stepp, \Learning from observation: Conceptual clustering", in R. S. Michalski, J. G. Carbonell, and T. M. Mitchell, editors, Machine Learning: An Arti cial intelligence approach, pp. 331{363. Morgan Kaumann, Los Altos, CA, 1983. 3. R. S. Michalski and T. G. Dietterich, \A comparative review of selected methods for learning from examples", in R. S. Michalski, J. G. Carbonell, and T. M. Mitchell, editors, Machine Learning: An Arti cial intelligence approach, pp. 41{81. Morgan Kaumann, Los Altos, CA, 1983. 4. S. J. Hanson and M. Bauer, \Conceptual clustering, categorization and polymorphy", Machine Learning, vol. , pp. 343{372, 1989. 5. E. E. Smith and D. L. Medin, Categories and concepts, Harvard University Press, Cambridge,MA, 1981. 6. D. L. Medin and E. E. Smith, \Concepts and concept formation", Annual Review of Psychology, vol. , pp. 113{138, 1984. 7. D. H. Fisher, \Knowledge acquisition via incremental conceptual clustering", Machine Learning, vol. , pp. 139{172, 1987. 8. J. R. Anderson and M. Matessa, \Explorations of an incremental, bayesian algorithm for categorization", Machine Learning, vol. , pp. 275{308, 1992. 9. P. Cheeseman, J. Kelly, M. Self, J. Stutz, W. Taylor, and D. Freeman, \AutoClass: A bayesian classi cation system", in Proceedings of the Fifth International Workshop on Machine Learning, pp. 54{64. Morgan Kaumann, San Mateo, CA, 1988. 10. S. J. Hanson, \Conceptual clustering and categorization: Bridging the gap between induction and causal models", in R. S. Michalski and Y. Kodrato, editors, Machine Learning: An Arti cial Ingelligence Appproach (Volume III), chapter 9, pp. 235{268. Morgan Kaumann, San Mateo, CA, 1990. 11. T. Van de Merckt and C. Decaestecker, \Multiple-knowledge representations in concept learning", in Machine Learning: ECML-95, Lecture notes in arti cial intelligence, pp. 200{217. Springer-Verlag, 1995. 12. D. Ria~no, \Automatic knowledge generation from data in classi cation domains", Tesis de Licenciatura, Facultat d'Informatica de Barcelona, UPC, 1994. 13. L. Talavera, \Re exion y re namiento del conocimiento en la formacion de conceptos", Tesis de Licenciatura, Facultat d'Informatica de Barcelona, UPC, 1996, (en preparacion). 14. R. Lopez de Mantaras, \A distance based attribute selection measure for decision tree induction", Machine Learning, vol. , pp. 81{92, 1991. 15. C. B. Mervis and E. Rosch, \Categorization of natural objects", Annual Review of Psychology, vol. , pp. 89{115, 1981.

16. G. L. Murphy, \Cue validity and levels of categorization", Psychological Bulletin, vol. , pp. 174{177, 1982. 17. D. L. Medin, W. D. Wattenmaker, and R. S. Michalski, \Constraints and preferences in inductive learning: An experimental study of human and machine performance", Cognitive Science, vol. , pp. 299{339, 1987. 18. S. Salzberg, \Improving classi cation methods via feature selection", Technical Report 92-12, Department of Computer Science, Johns Hopkins University, 1992. 19. J. H. Gennari, P. Langley, and D. Fisher, \Models of incremental concept formation", Arti cial Intelligence, vol. , pp. 11{61, 1989. 20. P. M. Murphy and D. W. Aha, UCI Repository of Machine Learning Databases, [http://www.ics.uci.edu/~mlearn/MLRepository.html] Irvine, CA: University of California, Department of Information and Computer Science, 1994. 21. D. F. Gordon and M. Desjardins, \Evaluation and selection of biases in machine learning", Machine Learning, vol. 20, pp. 5{22, 1995.