3.3. Técnicas de Minería de Datos

3.3. Técnicas de Minería de Datos 3.3.1. El Problema de la Extracción Automática de Conocimiento. 3.3.2. Evaluación de Hipótesis 3.3.3. Técnicas no su

Author: Gonzalo Miguélez Lozano

2 downloads 38 Views 2MB Size

Report

DOWNLOAD PDF

Recommend Stories

Tel.: (33) Fax: (33)

REGLAMENTO DE SEGURIDAD MINERA

REGLAMENTO DE SEGURIDAD MINERA. Decreto Ejecutivo No. 3934. RO/ 999 de 30 de Julio de 1996. CAPITULO I. DEL AMBITO DE APLICACION Y OBJETO Art. 1.- Di

INSTITUTO DE SEGURIDAD MINERA

PRINCIPIOS DE SEGURIDAD MINERA

GAMA-MEDMIN Principios de Seguridad Minera PROYECTO GAMA Gestión Ambiental en la Minería Artesanal FUNDACION MEDMIN Fundación Medio Ambiente, Miner

Accidentabilidad Minera

(+52 (33) (33)

(+52 (33) 3613 5420 2+52 (33) 3658 0551 *[email protected] 8www.koala.com.mx 2 POLIURETANO HI TECH. Poliuretano de grado industrial inyectado so

:33

LISTA DE PRECIOS Los precios son exclusivamente a titulo orientativo - IVA incluido www.mas-informatica.com.ar ARTICULO 15/04/2016 19:33 RUBRO SUBR

Story Transcript

3.3. Técnicas de Minería de Datos 3.3.1. El Problema de la Extracción Automática de Conocimiento. 3.3.2. Evaluación de Hipótesis 3.3.3. Técnicas no supervisadas y descriptivas. 3.3.4. Técnicas supervisadas y predictivas.

3.3. Técnicas de Minería de Datos

1

El Problema de la Extracción Automática de Conocimiento

El Problema de la Extracción Automática de Conocimiento La minería de datos no es más que un caso especial de aprendizaje computacional inductivo.

¿Cómo se validan/descartan las hipótesis para conformar el conocimiento adquirido?

¿Qué es aprendizaje? • (visión genérica, Mitchell 1997) es mejorar el comportamiento a partir de la experiencia. Aprendizaje = Inteligencia. • (visión más estática) es la identificación de patrones, de regularidades, existentes en la evidencia. • (visión externa) es la predicción de observaciones futuras con plausibilidad. • (visión teórico-informacional, Solomonoff 1966) es eliminación de redundancia = compresión de información.

Aprendizaje Inductivo: razonamiento hipotético de casos particulares a casos generales.

2

3

Taxonomía de Técnicas de DM Cualquier Cualquierproblema problemade deaprendizaje aprendizajeinductivo inductivose sepuede puedepresentar presentar (más oomenos de cualquiera de (más menosdirectamente) directamente) deestas estascuatro cuatroformas. formas. Clasificación de las técnicasdedecualquiera aprendizaje: • Interpolación: una función continua sobre varias dimensiones • Predicción secuencial: las observaciones están ordenadas secuencialmente. Se predice el siguiente valor de la secuencia. Caso particular de interpol. con 2 dim., una discreta y regular. • Aprendizaje supervisado: cada observación incluye un valor de la clase a la que corresponde. Se aprende un clasificador. Caso particular de interpolación: la clase (imag. función) es discreta. • Aprendizaje no supervisado: el conjunto de observaciones no tienen clases asociadas. El objetivo es detectar regularidades en los datos de cualquier tipo: agrupaciones, contornos, asociaciones, valores anómalos. • Abducción o Aprendizaje Analítico: El contexto B es muy importante. El objetivo es explicar la evidencia respecto a B.5

• Principio (‘escándalo’) de la Inducción: las hipótesis pueden ser refutadas, pero nunca confirmadas. • Y para las que todavía no han sido refutadas, ¿cuál elegimos? • Necesidad de criterios de selección: simplicidad, refuerzo, ... • Existencia de métodos de validación: estadísticos, crossvalidation, informacionales, ... • ¿Cuánto afecta a la plausibilidad el número de ejemplos? • ¿Cómo afecta la presencia de ruido?

4

Taxonomía de Técnicas de DM Ejemplos: • Interpolación:

?

f(2.2)=?

• Predicción secuencial: 1, 2, 3, 5, 7, 11, 13, 17, 19, ... ? • Aprendizaje supervisado: 1 3 -> 4. 3 5 -> 8. 4 2 -> ? 7 2 -> 9. • Segmentación (Aprendizaje no supervisado):

¿Cuántos grupos hay? ¿Qué grupos formo? • Análisis Exploratorio: Correlaciones, Asociaciones y Dependencia 6

1

Taxonomía de Técnicas de DM

Taxonomía de Técnicas de DM PREDICTIVO: Aprendizaje supervisado.

PREDICTIVO: Interpolación y Predicción Secuencial. • Generalmente las mismas técnicas: • Datos continuos (reales): • Regresión Lineal: • Regresión lineal global (clásica). • Regresión lineal ponderada localmente. • Regresión No Lineal: logarítmica, pick & mix, ... • Datos discretos: • No hay técnicas específicas: se suelen utilizar técnicas de algoritmos genéticos o algoritmos de enumeración refinados.

Dependiendo de si se estima una función o una correspondencia: • clasificación: se estima una función (las clases son disjuntas). • categorización: se estima una correspondencia (las clases pueden solapar). Dependiendo del número y tipo de clases: • clase discreta: se conoce como “clasificación”. Ejemplo: determinar el grupo sanguíneo a partir de los grupos sanguíneos de los padres. • si sólo tiene dos valores (V y F) se conoce como “concept learning”. Ejemplo: Determinar si un compuesto químico es cancerígeno.

• clase continua o discreta ordenada: se conoce como “estimación” (o también “regresión”). 7

Ejemplo: estimar el número de hijos de una familia a partir de otros 8 ejemplos de familias.

Técnicas de Aprendizaje Automático

Taxonomía de Técnicas de DM PREDICTIVO: Aprendizaje supervisado (Clasificación).

DESCRIPTIVO: Análisis Exploratorio

• Técnicas:

• Técnicas:

• • • • • • • • • • •

k-NN (Nearest Neighbor). k-means (competitive learning). Perceptron Learning. Multilayer ANN methods (e.g. backpropagation). Radial Basis Functions. Decision Tree Learning (e.g. ID3, C4.5, CART). Bayes Classifiers. Center Splitting Methods. Rules (CN2) Pseudo-relational: Supercharging, Pick-and-Mix. Relational: ILP, IFLP, SCIL.

SimilarityBased

Fence and Fill

• • • • •

Estudios correlacionales Asociaciones. Dependencias. Detección datos anómalos. Análisis de dispersión.

9

Taxonomía de Técnicas de DM

10

Similitud/Distancia

DESCRIPTIVO: Segmentación (Aprendizaje no supervisado) • Técnicas de clustering: • k-means (competitive learning). • redes neuronales de Kohonen • EM (Estimated Means) (Dempster et al. 1977). • Cobweb (Fisher 1987). • AUTOCLASS • ...

Un concepto importante en el aprendizaje supervisado (clasificación) y no supervisado (segmentación) es el concepto de similitud: • La razón de este uso es que, intuitivametne, datos similares tendrán clases/grupos similares. ¿Cómo se mide la similitud? • DISTANCIA inversa a SIMILITUD. • Los métodos de similitud (o de distancia) se basan en almacenar los ejemplos vistos, y calcular la similitud/distancia del nuevo caso con el resto de ejemplos.

11

12

2

3.2. Evaluación de Hipótesis

Similitud/Distancia

3.3. Técnicas de Minería de Datos • Muchísimas formas de calcular la distancia: • Distancia Euclídea:

n

∑ (x − y )

2

i =1

• Distancia de Manhattan:

i

Valores Continuos (conveniente normalizar entre 0-1 antes)

n

∑x −y i =1

• Distancia de Chebychev:

i

i

i

maxi =1..n xi − yi

• Distancia del coseno: cada ejemplo es un vector y la distancia es el coseno del ángulo que forman

Valores Continuos. No es necesario normalizar

• Distancias por Diferencia: ejemplo: if x=y then D=0 else D=1 • Distancia de Edición: • Distancias Específicas: para los ejemplos complejos de CBR.

3.3.1. El Problema de la Extracción Automática de Conocimiento. 3.3.2. Evaluación de Hipótesis 3.3.3. Técnicas no supervisadas y descriptivas. 3.3.4. Técnicas supervisadas y predictivas.

Valores Discretos 13

14

Evaluación de Hipótesis

Evaluación de Hipótesis

Medidas de Error para evaluar Hipótesis

El problema del aprendizaje NO está especificado completamente.

D : dominio S : sample ( muestra )

• TRUE ERROR: • Si sólo nos basamos en la evidencia, una solución al problema sería cualquier hipótesis que cubre la evidencia.

caso discreto x∈ D

• Si el lenguaje es expresivo, pueden existir infinitas hipótesis. • Objetivo: Elegir la hipótesis h que MINIMIZA EL ERROR de la hipótesis h respecto la función objetivo f, ¿Qué error?

15

Evaluación de Hipótesis

S→ D

1 ∑ ( f ( x) − h( x)) 2 n x∈S

• SAMPLE ERROR : caso discreto

errortrain (h) =

1 ∑ ∂( f ( x) ≠ h( x)) n x∈trainSet

caso continuo (p.ej.error cuadrático medio)

errortrain (h) =

1 ∑ ( f ( x) − h( x))2 n x∈trainSet

donde (δ(true)=1, δ(false)=0) y n= |trainSet|

16

• Problema: f (la función objetivo) no se conoce!!! • Podemos calcular el SAMPLE ERROR pero no el TRUE ERROR.

• Definición de over-fitting: Una hipótesis h ∈ H sobreespecializa o superajusta si existe una hipótesis alternativa h’ ∈ H tal que: Sample or train error

y error D(h) > error D(h' )

error D(h) = lim

Evaluación de Hipótesis

• Problemas típicos: • under-fitting (sobregeneralización o subajuste) • over-fitting (sobreespecialización o superajuste).

errortrain ( h) < errortrain (h' )

caso continuo (p.ej.error cuadrático medio)

error D(h) = Pr [ f ( x) ≠ h( x)]

True error

17

• Si nos fijamos sólo en toda la muestra y minimizamos el SAMPLE ERROR, aparecerán dos problemas: • si la evidencia es sólo positiva: under-fitting o sobregeneralización. • Si la evidencia tiene más de una clase: over-fitting o sobreespecialización. 18

3

Evaluación de Hipótesis

Evaluación de Hipótesis

Evaluación por técnicas bayesianas.

¿Qué hipótesis elegimos? • APROXIMACIONES: • Asumir distribuciones a priori. • Criterio de simplicidad, de descripción o transmisión mínimas. • Separar: Training Set y Test Set. • Cross-validation. • Basadas en refuerzo.

• La mejor hipótesis es la más probable. • Basadas en el teorema de Bayes. Despejan P(h|D). • La distribución de hipótesis a priori P(h) y la probabilidad de unas observaciones respecto a cada hipótesis P(D|h) deben ser conocidas. • Son sólo técnicas evaluadoras aunque si el conjunto de hipótesis H es reducido se pueden utilizar en algoritmos de aprendizaje. • Permiten acomodar hipótesis probabilísticas tales como “este paciente de neumonía tiene un 93% de posibilidades de recuperarse”. • Muchas veces no se conoce P(h) o incluso P(D|h). Se hacen suposiciones: distribución uniforme, normal o universal.

En frío En caliente En frío En caliente

Otras preguntas importantes: ¿Cómo sabemos lo bien que se comportará en el futuro? 19

20

Evaluación de Hipótesis

Evaluación de Hipótesis Teorema de Bayes, MAP y Maximum Likelihood: • P(h|D): probabilidad de una hipótesis dado un cjto. de datos. • P(h): probabilidad a priori de las hipótesis. • P(D|h): probabilidad de D dada la hipótesis. • P(D): probabilidad a priori de los datos (sin otra información).

Evaluación bayesiana: Si el cjto. de hipótesis H es pequeño y conocido: • Se puede asumir la distribución uniforme:

P ( h) =

• Teorema de Bayes: (prob. a posteriori a partir de a priori)

P ( D | h) P ( h) P(h | D) = P( D) • Criterio MAP (Maximum a Posteriori) (h es indep. de P(D)):

El Naive Bayes Classifier es un caso particular de esto.

hMAP

P ( D | h) P ( h) = arg max P(h | D) = arg max = arg max P( D | h) P( h) P ( D) h∈H h∈H h∈H

• Maximum Likelihood (asumiendo P(h) uniforme): hML = arg max P ( D | h)

1 |H|

Si H es infinito: • La distribución uniforme no está bien definida (P=0). • Aunque el maximum likelihood se puede seguir utilizando.

21

22

h∈H

Evaluación de Hipótesis

Evaluación de Hipótesis

El principio MDL (Minimum Description Length): • Asumimos P(h) como la distribución universal (Occam’s Razor):

P ( h) = 2 − K ( h )

El principio MDL: • A partir de MAP tenemos:

hMAP = arg max P( D | h) P(h) = arg max log[P( D | h) P( h)] = k ∈H

k∈H

donde K(·) es la complejidad descripcional (Kolmogorov) de H.

= arg max log P( D | h) + log P(h) = arg max log 2 − K ( D|h ) + log 2 − K ( h ) =

FORMALIZACIÓN DE LA NAVAJA DE OCCAM: “Las hipótesis con mínima descripción más pequeña son más probables”.

= arg max( − K ( D | h) − K (h))

k∈H

k∈H

k∈H

• Resulta en:

hMDL = arg min( K ( h) + K ( D | h))

• Asumimos P(D|h) de la misma manera:

k∈H

PRINCIPIO MDL: La hipótesis más probable es la que minimiza la suma de su descripción y la descripción de los datos respecto a ella.

P ( D | h ) = 2 − K ( D| h ) 23

24

4

Evaluación de Hipótesis

Evaluación de Hipótesis

PARTICIÓN DE LA MUESTRA • Evaluar una hipótesis sobre los mismos datos que han servido para generarla da siempre resultados muy optimistas. Solución: PARTIR EN: Training Set y Test Set. • Si los datos disponibles son grandes (o ilimitados) : • Training Set: cjto. con el que el algoritmo aprende una o más hipótesis. • Test Set: cjto. con el que se selecciona la mejor de las anteriores y se estima su validez. • Para problemas con clase discreta, se calcula la “accuracy”, que se mide como el porcentaje de aciertos sobre el test set. • Para problemas con clase continua, se utiliza la media del error cuadrático u otras medidas sobre el test set. 25

Evaluación de Hipótesis

PARTICIÓN DE LA MUESTRA (Cross-validation). Si los datos disponibles son pequeños, partir los datos en dos cjtos restringe el número de ejemplos disponibles para el algoritmo --> peores resultados. SOLUCIONES: • 2-fold cross-validation: se parte en 2 cjtos. S1 y S2 de igual tamaño. Se entrena el algoritmo con S1 y se evalúan las hipótesis H1 con S2. Se entrena luego el algoritmo con S2 y se evalúan las hipótesis H2 con S1. Se selecciona la hipótesis con la mejor precisión o el menor error. • K-fold cross-validation: los n datos se parten k veces (k 0) están asociados (80%, 4 casos). Obeso y casado están asociados (80%, 4 casos) Dependencias: (Hijos > 0) à Casado (100%, 2 casos). Casado à Obeso (100%, 3 casos)

Tc > 95% Ts > 20 (absoluto) o 50% (relativo) Nótese que la búsqueda de asociaciones con estas condiciones no es un problema inductivo, ya que se trata de un problema completamente determinado, sin criterios de evaluación y relativamente simple.

Complejidad de los algoritmos de asociaciones y dependencias: • Temporal: bajo ciertas condiciones de dispersión y para atributos discretos se pueden encontrar en casi tiempo lineal (Agrawal et al. 1996). 39

Métodos Descriptivos

40

Métodos Descriptivos Algoritmos de búsqueda de asociaciones. FASE A: Método genérico de búsqueda de “LARGE ITEMSETS” Dado un support mínimo smin:

Algoritmos de búsqueda de asociaciones y dependencias. La mayoría se basa en descomponer el problema en dos fases: • FASE A: BÚSQUEDA DE “LARGE ITEMSETS”. Se buscan conjuntos de atributos con ‘support’ >= al support deseado, llamados ‘large itemsets’ (conjuntos de atributos grandes). De momento no se busca separarlos en parte izquierda y parte derecha. • FASE B: ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS). Se hacen particiones binarias y disjuntas de los itemsets y se calcula la confianza de cada uno. Se retienen aquellas reglas que tienen confianza >= a la confianza deseada.

Propiedad: cualquier subconjunto de un conjunto grande es también grande.

Condiciones que se suelen imponer:

41

1. i=1 (tamaño de los conjuntos) 2. Generar un conjunto unitario para cada atributo en Si. 3. Comprobar el support de todos los conjuntos en Si. Eliminar aquellos cuyo support < smin. 4. Combinar los conjuntos en Si para crear conjuntos de tamaño i+1 en Si+1. 5. Si Si no es vacío entonces i:= i+1. Ir a 3. 6. Si no, retornar S2 ∪ S3 ∪ ... ∪ Si

Hay refinamientos que permiten una mejor paralelización (dividen en subproblemas con menos tuplas y luego comprueban para todo el problema). El más famoso es el algoritmo “APRIORI” (Agrawal & Srikant 1994). 42

7

Métodos Descriptivos

Métodos Descriptivos

Algoritmos de búsqueda de asociaciones. Ejemplo: Fila 1 2 3 4 5 FASE A: support = 2 1 x x x tabla: 2 x x x confidence = 0.75 3 x x x x 4

x

Otros tipos de asociaciones:

x

S1= { {1}, {2}, {3}, {4}, {5} } S’1:support = { {1}:2, {2}:3, {3}:3, {5}:3 } S2= { {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5} } S’2:support = { {1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2 } S3= { {1,2,3}, {1,2,5}, {1,3,5}, {2,3,5} } S’3:support = { {2,3,5}:2 }

Sfinal = S’2 ∪ S’3 = { {1,3}, {2,3}, {2,5}, {3,5}, {2,3,5} }

FASE B: Se evalúa la confianza: {1}→{3} : 1 {2}→{3} : 0.67 {2}→{5} : 1 {3}→{5} : 0.67 {2,3}→{5} : 1

{3}→{1} : 0.67 {3}→{2} : 0.67 {5}→{2} : 1 {5}→{3} : 0.67 {2,5}→{3} : 0.67

{3,5}→{2} : 1

43

• Asociaciones entre jerarquías. Si existen jerarquías entre los ítems (p.ej. las familias de productos de un comercio o de un supermercado) a veces sólo es interesante buscar asociaciones inter-jerarquía y no intra-jerarquía. Esto puede reducir mucho el espacio de búsqueda. • Asociaciones negativas. A veces nos interesa conocer asociaciones negativas, p.ej. “80% de los clientes que compran pizzas congeladas no compran lentejas”. El problema es mucho más difícil en general, porque, cuando hay muchos ítems, existen muchas más combinaciones que no se dan que las que se dan. • Asociaciones con valores no binarios y/o continuos: se deben binarizar. P.ej. Si se tiene un atributo a con k posibles valores v1, ..., vk (k > 2) se sustituye por k atributos con la condición (a=vi). Con los atributos continuos se discretizan en rangos (0-5, 6-10, 11-15, ...) y luego se hace el mismo procedimiento. • Asociaciones relacionales (Dehaspe and de Raedt 1997b). 44

Métodos Descriptivos

Métodos Descriptivos

Patrones Secuenciales: Se trata de establecer asociaciones del estilo: “si compra X en T comprará Y en T+P”

Patrones Secuenciales: Ejemplo (cont.):

Ejemplo:

45

46

Métodos Descriptivos

Métodos Descriptivos

Patrones Secuenciales:

Patrones Secuenciales:

Ejemplo (cont.):

Métodos Representativos (Agrawal Srikant 1995, 1996) • AprioriAll • AprioriSome • DynamicSome

Problema: los usuarios quieren especificar restricciones sobre el tiempo máximo y mínimo entre eventos secuenciales. Mary

Extensiones: • Minería de patrones secuenciales con restricciones. 47

P.ej. Sólo permitir las secuencias si los elementos adyacentes (p.ej. 48 compras) suceden en un intervalo menor a dos meses.

8

Métodos Descriptivos

Métodos Descriptivos

Dependencias Funcionales: A^B^C→D Significa: para los mismos valores de A, B y C tenemos un solo valor de D. Es decir D es función de A, B y C. Si representamos la parte izquierda como un conjunto de condiciones, podemos establecer una relación de orden entre las dependencias funcionales. Esto genera un semi-retículo. A^B^C La búsqueda se realiza en este retículo. (Mannila & Räihä 1994) coste exponencial FDEP (Flach & Savnik 1999) incluye: a) simple top-down algorithm, b) bottom-up algorithm, and c) bi-directional algorithm.

A^B

B^C

A

B

Diferencias asociaciones/dependencias, dependencias funcionales y clasificación:

A^C C

1. Asociaciones y Dependencias: A=a ^ B=b ^ C=c --> D=d ^ E=e 2. Asociaciones Negativas. A=a ^ B=b ^ C=c --> Dd ^ Ee A ^ B ^ C --> D 3. Dependencias Funcionales: Si existe una tupla tal que A=X ^ B=Y ^ C=Z ^ D=W entonces para cualquier otra tupla que A=X ^ B=Y ^ C=Z entonces D=W. O dicho de otra manera... ( SELECT MAX(COUNT(DISTINCT D)) FROM R GROUP BY A, B, C; ) = 1; 4. Clasificación: establecen (clarifican) una dependencia funcional. (puede ser un conjunto de dependencias de valor (1))

49

Métodos Descriptivos Aprendizaje No Supervisado

50

Métodos Descriptivos Aprendizaje No Supervisado Clustering (Segmentación). Métodos jerárquicos:

Clustering (Segmentación): Se trata de buscar agrupamientos naturales en un conjunto de datos tal que tengan semejanzas.

Un método sencillo consiste en ir separando individuos según su distancia (en concreto medidas derivadas de enlazado, linkage) e ir aumentando el límite de distancia para hacer grupos. Esto nos da diferentes agrupaciones a distintos niveles, de una manera jerárquica:

Métodos de Agrupamiento: • •

Jerárquicos: los datos se agrupan de manera arborescente (p.ej. el reino animal). No jerárquicos: generar particiones a un nivel. • (a) Paramétricos: se asumen que las densidades condicionales de los grupos tienen cierta forma paramétrica conocida (p.e. Gaussiana), y se reduce a estimar los parámetros. • (b) No paramétricos: no asumen nada sobre el modo en el que se agrupan los objetos.

Se denomina Dendograma o Hierarchical Tree Plot:

51

Métodos Descriptivos Aprendizaje No Supervisado

52

Métodos Descriptivos Aprendizaje No Supervisado

Clustering (Segmentación). Métodos jerárquicos:

Clustering (Segmentación). Métodos paramétricos:

Minimal Spanning Tree Clustering Algorithm

El algoritmo EM (Expectation Maximization, Maximum Likelihood Estimate) (Dempster et al. 1977).

Algoritmo (dado un número de clusters deseado C). Inicialmente considera cada ejemplo como un clúster. • Agrupa el par de clusters más cercanos para formar un nuevo cluster. • Repite el proceso anterior hasta que el número de clusters = C. Gráficas: Enrique Vidal

53

54

9

Métodos Descriptivos Aprendizaje No Supervisado

Métodos Descriptivos Aprendizaje No Supervisado Clustering (Segmentación). Métodos No Paramétricos

Clustering (Segmentación). Métodos No Paramétricos

Métodos: • k-NN • k-means clustering, • online k-means clustering, • centroides • SOM (Self-Organizing Maps) o Redes Kohonen.

1-NN (Nearest Neighbour): Dado una serie de ejemplos en un espacio, se conecta cada punto con su punto más cercano:

Otros específicos: • El algoritmo Cobweb (Fisher 1987). • El algoritmo AUTOCLASS (Cheeseman & Stutz 1996)

La conectividad entre puntos genera los grupos.

G1 G4 G2 G3

55

Métodos Descriptivos Aprendizaje No Supervisado

A veces hace grupos pequeños. Existen variantes: k-NN o como el spanning tree que para de agrupar cuando llega a un número de grupos.

56

Métodos Descriptivos Aprendizaje No Supervisado Clustering (Segmentación). Métodos No Paramétricos

Clustering (Segmentación). Métodos No Paramétricos k-means clustering: • Se utiliza para encontrar los k puntos más densos en un conjunto arbitrario de puntos. • Algoritmo: 1. Dividir aleatoriamente los ejemplos en k conjuntos y calcular la media (el punto medio) de cada conjunto. 2. Reasignar cada ejemplo al conjunto con el punto medio más cercano. 3. Calcular los puntos medios de los k conjuntos. 4. Repetir los pasos 2 y 3 hasta que los conjuntos no varíen.

k-means clustering: • El valor de k se suele determinar heurísticamente. • Problemas: • Si se sabe que hay n clases, hacer k=n puede resultar en que, algunas veces, algún grupo use dos centros y dos grupos separados tengan que compartir centro. • Si k se elige muy grande, la generalización es pobre y las agrupaciones futuras serán malas. • Determinar el k ideal es difícil.

57

Métodos Descriptivos Aprendizaje No Supervisado

58

Métodos Descriptivos Aprendizaje No Supervisado Clustering (Segmentación). Métodos No Paramétricos

Clustering (Segmentación). Métodos No Paramétricos

El valor de k se suele determinar heurísticamente. • Problemas: • Si k se elige muy pequeño, hay grupos que se quedan sin centro.

On-line k-means clustering (competitive learning): • Refinamiento incremental del anterior. • Algoritmo: 1. Inicializar aleatoriamente k puntos, llamados centros. 2. Elegir el siguiente ejemplo y ver cuál es el centro más cercano. Mover el centro hacia el ejemplo. (p.ej. Distancia/2) 3. Repetir el paso 2 para cada ejemplo. 4. Repetir los pasos 2 y 3 hasta que los ejemplos capturados por cada centro no varíen. 59

• Si k se elige muy grande, hay centros que se quedan huérfanos. Aunque esto es preferible a... • Incluso con k exacto, puede haber algún centro que quede huérfano. Variación muy popular: LVQ (linear-vector quantization) (Kohonen 1984).

60

10

Métodos Descriptivos Aprendizaje No Supervisado

Métodos Descriptivos Aprendizaje No Supervisado

Clustering (Segmentación). Métodos No Paramétricos

Clustering (Segmentación). Métodos No Paramétricos SOM (Self-Organizing Maps) o Redes Kohonen

SOM (Self-Organizing Maps) o Redes Kohonen

Durante el entrenamiento cada uno de los nodos de este grid compite con los demás para ganar cada uno de los ejemplos. Finalmente los nodos fuertes (representados con colores más oscuros) ganan más ejemplos que los nodos débiles. Al final del aprendizaje la red se estabiliza y sólo unas pocas combinaciones de pares (X,Y) obtienen registros. Estos son los grupos formados.

También conocidos como LVQ (linear-vector quantization) o redes de memoria asociativa (Kohonen 1984).

La matriz de neuronas de la última capa forma un grid bidimensional.

También puede verse como una red que reduce la dimensionalidad a 2. Por eso es común realizar una representación bidimensional con el resultado de la red para buscar grupos visualmente.

61

62

Otros Métodos Descriptivos

3.4. Métodos Predictivos 3.3. Técnicas de Minería de Datos

Análisis Estadísticos: • • • •

Estudio de la distribución de los datos. Estimación de Densidad Detección datos anómalos. Análisis de dispersión (p.ej. las funciones de separabilidad pueden considerarse como técnicas muy simples no supervisadas).

3.3.1. El Problema de la Extracción Automática de Conocimiento. 3.3.2. Evaluación de Hipótesis 3.3.3. Técnicas no supervisadas y descriptivas. 3.3.4. Técnicas supervisadas y predictivas.

Muchas veces, estos análisis se pueden utilizar previamente para determinar el método más apropiado para un aprendizaje supervisado También se utilizan mucho para la limpieza y preparación de datos para el uso de métodos supervisados. 63

Métodos Predictivos. Interpolación y Predicción Secuencial

64

Métodos Predictivos. Interpolación y Predicción Secuencial

Regresión Lineal Global.

Regresión Lineal Global por Gradient Descent.

Se buscan los coeficientes de una función lineal Una manera usual es utilizando “gradient descent”. Se intenta minimizar la suma de cuadrados: 1 E = ∑ x∈D ( f ( x ) − fˆ ( x)) 2 2

fˆ ( x) = w0 + w1 x1 +... + wn xn Una manera fácil (si es lineal simple, sólo dos dimensiones x e y):

w1 =

n(∑ xy )(∑ x )(∑ y )

(

)

(∑ y )(∑ x ) − (∑ x )(∑ xy ) n(∑ x ) − (∑ x ) 2

w0 =

n ∑ x − (∑ x ) 2

2

Derivando,

2

2

obteniendo y = w0 + w1x

∆w j = r ·∑ x∈D ( f ( x) − fˆ ( x)) x j

Error típico de una regresión lineal simple:

[

]

(n∑ xy ) − (∑ x)(∑ y ) 2   1  2 2 Etipico =   n ∑ y − (∑ y ) − 2  n ∑ x 2 − (∑ x )  n( n − 2)  

(

)

(

)

Iterativamente se van ajustando los coeficientes y reduciendo el error. 65

66

11

Métodos Predictivos. Interpolación y Predicción Secuencial

Métodos Predictivos. Interpolación y Predicción Secuencial Regresión Lineal Ponderada Localmente.

Regresión No Lineal. Estimación Logarítmica (se sustituye la función a obtener por y=ln(f)): y = w0 + w1 x1 +... + wm xm Se hace regresión lineal para calcular los coeficientes y a la hora de predecir se calcula la f = ey.

La función lineal se aproxima para cada punto xq a interpolar:

fˆ ( x) = w0 + w1 x1 +... + wm xm ?

Regresión Logística. (variación que se usa para clasificación entre 0 y 1 usando la f= ln(p/(1-p))) Pick and Mix - Supercharging Se añaden dimensiones, combinando las dadas. P.ej. si tenemos cuatro dimensiones: x1, x2, x3 (además de y) podemos definir x4 = x1·x2 , x5= x32, x6 = x1x y obtener una función lineal de x1, x2, x3, x4, x5, 67x6 2

?

x∈{ los k puntos más cercanos}

A mayor k más global, a menor k más local (pero ojo con el overfitting)

Métodos Predictivos. Interpolación y Predicción Secuencial

68

Métodos Predictivos. Aprendizaje Supervisado

Regresión Adaptativa: Son casos particulares de regresión local, en el que se supone un orden y se utiliza preferentemente para predecir futuros valores de una serie: Muy utilizada en compresión de sonido y de vídeo, en redes, etc. (se predicen las siguientes tramas)

k-NN (Nearest Neighbour): 1. Se miran los k casos más cercanos. 2. Si todos son de la misma clase, el nuevo caso se clasifica en esa clase. 3. Si no, se calcula la distancia media por clase o se asigna a la clase con más elementos. Clasifica círculo

?

Algoritmos mucho más sofisticados (cadenas de Markov, VQ) • Algoritmo MARS (Multiple Adaptive Regression Splines) (Friedman 1991). 69

1-nearest neighbor

?

Clasifica cuadrado

7-nearest neighbor

PARTICIÓN DEL 1-nearest neighbor (Poliédrica o de Voronoi)

• El valor de k se suele determinar heurísticamente.

70

Aprendizaje Supervisado

Aprendizaje Supervisado k-NN (Nearest Neighbour). Mejora (ponderar más los más cercanos):

Atracción(c j , xq ) = {xi : xi ∈ c j } ·krnli donde: krnli =

?

Se intenta minimizar la suma de cuadrados de los k más cercanos 1 E= ∑ ( f ( x) − fˆ ( x)) 2 K (d ( xq , x)) 2 x∈{los k puntos más cercanos} donde d(·,·) es una distancia y K es una función que disminuye con la distancia (una función Kernel), p.ej. 1/d2 Gradient Descent: ∆w j = r · ∑ ( f ( x) − fˆ ( x))·K (d ( xq , x))·x j

1 d ( xq , xi ) 2

Se calcula la fuerza de atracción de cada clase cj para el nuevo punto xq. Y se elige la clase que más atrae. (Si el punto xq coincide con un punto xi, la clase es la de xi)

(On-line) k-means clustering: • Aunque lo vimos como una técnica no supervisada, también se puede utilizar para aprendizaje supervisado, si se utiliza convenientemente.

(Si el punto xq coincide con más de un punto xi, se procede de la forma anterior)

Para valores continuos (sirve para interpolar): Si la clase es un valor real, el k-NN es fácilmente adaptable: k

fˆ ( xq ) =

∑ krnli f ( xi )

• Elegir un k mayor que el número de clases pero no mucho mayor.

i =1

k

∑ krnl i =1

i

donde los xi son los k vecinos más próximos y f(·) es la función 71 que da el valor real de cada uno.

72

12

Aprendizaje Supervisado

Aprendizaje Supervisado Gradient Descent (formul. para una sola salida):

Perceptron Learning.

Salidas W1,1

Entradas

y1

W1,2

y3

y2

W2,1 W2,2

W1,3

x1

x2

W2,3

W3,1 W3,2 x3

W3,3

Entradas

W4,1 W4,2 x4

y ' j = ∑ wi , j ·xi

Se añade un threshold escalón: output j = sgn( y ' j )

1 si x > 0 sgn( x) =   − 1 si no 

i =1

PARTICIÓN LINEAL POSIBLE

PARTICIÓN LINEAL IMPOSIBLE

·etj , k )

5. t:= t+1, ir a 2. r es un valor generalmente pequeño (0.05) y se determina heurísticamente. A mayor r converge más rápido pero puede perderse en valles locales. 75

Multilayer Perceptron (redes neuronales artificiales, ANN). • El perceptron de una capa no es capaz de aprender las funciones más sencillas. • Se añaden capas internas, se introducen diferentes funciones de activación e incluso recientemente se introducen bucles y retardos.

Hidden Layer

h1,1

y3

y2

h1,3

h1,2

k

− y 'k )

− y 'k ) 2 =

1 ∂ ∑ 2( yk − y 'k ) ∂w ( yk − y'k ) = 2 k:1.. p i

rr ∂ ( yk − w· xk ) = ∑ ( yk − y 'k )( − xi ,k ) ∂wi k :1.. p

∆wi =

∑(y

k :1.. p

k

− y 'k )xi , k =

∑x

i ,k

·ek

k :1.. p

74

Perceptron Learning:

• El algoritmo Perceptron (versión incremental o aproximación estocástica al gradient descent): 1. Se asignan aleatoriamente los wi,j entre 0 y 1 (o se pone .5) 2. t= 1 (se toma el primer ejemplo). 3. Para el ejemplo (x,y)t se calcula el vector error (et=yt-y’t) 4. Se recalculan los pesos siguiendo Least-Mean Squares (LMS), también llamada regla delta, Adaline o Widrow-Hoff:

En general, esta versión es más eficiente que la anterior y evita algunos 76 mínimos locales.

Multilayer Perceptron (redes neuronales artificiales, ANN). • En el caso más sencillo, con la función de activación sgn, el número de unidades internas k define exactamente el número de boundaries que la función global puede calcular por cada salida. PARTICIÓN POLIGONAL POSIBLE CON 4 UNIDADES INTERNAS

h1,5

h1,4

5. t:= t+1, ir a 2 hasta que no queden ejemplos o el error medio se ha reducido a un valor deseado.

Aprendizaje Supervisado

Aprendizaje Supervisado

y1

∑(y

k

wit,+j1 = wit, j + r ( xit ·e tj )

k :1.. p

Salidas

=

∑(y

k :1.. p

Aprendizaje Supervisado

Perceptron Learning (Gradient Descent). • El algoritmo Gradient Descent ajusta así: 1. Se asigna a los wi,j un valor pequeño aleatorio entre 0 y 1. 2. Hasta que la condición de terminación se cumple, hacer: 3. Para todos los p ejemplos (xk,yk)t se calcula la matriz de error (etk=ytk-y’tk) 4. Se recalculan los pesos siguiendo Least-Mean Squares (LMS), con un learning rate (r): t i,k

1 ∂ ∂E ∂ 1 = ∑ ( yk − y 'k ) 2 = 2 ∂w ∂wi ∂wi 2 k :1.. p i

• Queda:

Aprendizaje Supervisado

∑ r(x

x3

• Si queremos disminuir el error poco a poco. El gradiente es la derivada por cada componente del vector.

k :1.. p

73

wit,+j1 = wit, j +

W3 x2

r 1 1 E ( w) = ∑ (ek ) 2 = ∑ ( yk − y 'k ) 2 2 k:1.. p 2 k:1.. p

• Computan una función lineal para cada yj es: n

y W2

• El error de Least Mean Squares de los p ejemplos se define como:

W5,2 W5,3 W5,1 x5

W4,3

Salida W1 x1

• El valor de k se suele determinar heurísticamente. • Pero, ¿cómo entrenar este tipo de red?

Entradas

x1

x2

x3

x4

77

78

13

Aprendizaje Supervisado

Aprendizaje Supervisado

Algoritmo Backpropagation (Rumelhart et al. 1986) • Inicializar todos los pesos a valores pequeños aleatorios (entre -.05 y .05) • Hasta que se cumpla la condición de terminación hacer: • Para cada ejemplo (x,y): • Se calculan las salidas de todas las unidades ou • Se calcula el error en cada salida k: d k = ok (1 − ok )( y k − ok ) • Para cada unidad oculta h se calcula su error: dh = oh (1 − oh ) ∑ ( wk , h × dk )

Multilayer Perceptron (redes neuronales artificiales, ANN). • Para poder extender el gradient descent necesitamos una función de activación continua: • La más usual es la función sigmoidal: 1 s ( x) = 1 + e−x • Esto permite particiones no lineales: PARTICIÓN NO LINEAL MÚLTIPLE POSIBLE CON 4 UNIDADES INTERNAS

k∈outputs

• Se actualizan los pesos:

79

Se necesitan muchos ejemplos: al menos 10 ejemplos por cada peso y output a aprender. P.ej, una red con 50 entradas y 10 nodos internos, necesita 10.220 ejemplos por lo menos. 80

Aprendizaje Supervisado

Aprendizaje Supervisado

Variaciones: • Si hay más de una capa oculta:

dh = oh (1 − oh )

∑ (w

× dk )

k ,h k ∈outputs _ of _ next _ layer

• Si la red es no recursiva, pero no está organizada en capas (se trata de cualquier árbol acíclico), también se puede:

dh = oh (1 − oh )

∑ (w

k ,h k∈downstream ( h )

× dk )

• Existe una variante que va añadiendo capas según se necesitan, denominado cascade-correlation (Fahlman and Lebiere 1990), resolviendo el problema de determinar el número de unidades ocultas.

Radial-Basis Function (Clustering Method + LMS). • PRIMER PASO: Algoritmo Clustering: 1. Dividir aleatoriamente los ejemplos en k conjuntos y calcular la media (el punto medio) de cada conjunto. 2. Reasignar cada ejemplo al cjto. con punto medio más cercano. 3. Calcular los puntos medios de los k conjuntos. 4. Repetir los pasos 2 y 3 hasta que los conjuntos no varíen. • SEGUNDO PASO: Recodificar los ejemplos como distancias a los centros y normalizar (cada ejemplo pasa a ser un vector de k eltos). • TERCER PASO: Con un perceptron de k elementos de entrada y una salida, aplicar el algoritmo visto antes. PARTICIÓN CON 4 centros.

Árboles de Decisión (ID3 (Quinlan), C4.5 (Quinlan), CART).

Árboles de Decisión.

•

•

Algoritmo Divide y Vencerás: 1. Se crea un nodo raíz con S:= todos los ejemplos. 2. Si todos los elementos de S son de la misma clase, el subárbol se cierra. Solución encontrada. 3. Se elige una condición de partición siguiendo un criterio de partición (split criterion). 4. El problema (y S) queda subdivido en dos subárboles (los que cumplen la condición y los que no) y se vuelve a 2 para cada uno de los dos subárboles. X>0.25

1

No

Sí Y>0.25

X>0.25

X>0.66

CUADRICULAR.

Sí

No

PARTICIÓN

X>0.66

X>0.75 No

Sí

No

Sí Y>0.6

X>0.75 No 1

Y>0.25

Y>0.6

82

Aprendizaje Supervisado

Aprendizaje Supervisado

0

Se convierte en una partición lineal (hiperplano) en un espacio de 4 dimensiones con los ejemplos siendo las distancias a los centros.

HIPERESFÉRICA

81

0

w j ,i = w j ,i + r ×d j × x j ,i

Sí

83

Ejemplo C4.5 con datos discretos:

Example 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sky Sunny Sunny Overcast Rain Rain Rain Overcast Sunny Sunny Rain Sunny Overcast Overcast Rain

Temperature Hot Hot Hot Mild Cool Cool Cool Mild Cool Mild Mild Mild Hot Mild

Humidity High High High High Normal Normal Normal High Normal Normal Normal High Normal High

Wind Weak Strong Weak Weak Weak Strong Strong Weak Weak Weak Strong Strong Weak Strong

PlayTennis No No Yes Yes Yes No Yes No Yes Yes Yes Yes Yes No 84

14

Aprendizaje Supervisado

Aprendizaje Supervisado

Árboles de Decisión. •

Árboles de Decisión (ID3, C4.5, CART).

Ejemplo C4.5 con datos discretos:

•

El criterio GANANCIA DE INFORMACIÓN (C4.5) ha dado muy buenos resultados. Suele derivar en una preferencia en árboles pequeños (navaja de Occam).

•

VENTAJAS: • Muy fácil de entender y de visualizar el resultado. • Son robustos al ruido. Existen algoritmos de post-pruning para podar hojas poco significativas (que sólo cubren uno o muy pocos ejemplos).

•

DESVENTAJAS: • Suele ser muy voraz (no hace backtracking: mínimos locales). • Si el criterio de partición no está bien elegido, las particiones suelen ser muy ad-hoc y generalizan poco.

Outlook? Sunny Humidity?

Wind?

YES

High

Normal

NO

•

Rain

Overcast

Strong

YES

Weak

NO

YES

Representación Lógica: (Outlook=Sunny AND Humidity=Normal) OR (Outlook=Overcast) OR (Outlook=Rain AND Wind=Weak)

P.ej., la instancia (Outlook = sunny, Temperature = cool, Humidity = high, Wind = strong) 85 es NO.

86

Aprendizaje Supervisado

Aprendizaje Supervisado Naive Bayes Classifiers. arg max P (ci | ( x1 , x2 ,..., xm )) =

Bayes

ci ∈C

arg max ci ∈C

P (( x1 , x2 ,..., xm ) | ci )· P (ci ) = P ( x1 , x2 ,..., xm )

= arg max P (( x1 , x2 ,..., xm ) | ci )·P (ci ) •

ci ∈C

Naive Bayes Classifiers. • • •

Asumiendo independencia entre los atributos, tenemos:

VNB = arg max P(ci )∏ P( x j | ci ) ci ∈C

Si estos xj son continuos podemos discretizar en intervalos y calcular P(ci | tk