ANÁLISIS DISCRIMINANTE (AD)

discrim_predictivo.doc 30/11/2015 vgg 1 ANÁLISIS DISCRIMINANTE (AD) Regresión con respuesta categórica Y ¿ Cómo depende Y de las variables X1, X
Author:  Elena Lagos Blanco

0 downloads 44 Views 682KB Size

Recommend Stories


DISCRIMINANTE O HESSIANO
DISCRIMINANTE O HESSIANO Para encontrar máximos, mínimos y puntos de silla en funciones de varias variables. El presente documento expone de manera de

Story Transcript

discrim_predictivo.doc

30/11/2015

vgg

1

ANÁLISIS DISCRIMINANTE (AD) Regresión con respuesta categórica Y

¿ Cómo depende

Y de las variables X1, X2, ... Xp ? cualitativa cuantitativas

1 Planteamiento Predictivo del AD: Cómo predecir Y a partir de los valores observados X1, X2, ... Xp ? 2 Planteamiento Descriptivo del AD: Y determina k grupos, a caracterizar en términos de X1, X2, ... Xp Qué variables cambian más a través de los grupos? Qué características tiene cada grupo?

1

INTRODUCCIÓN

Ejemplo1: Caracterización de especies. Mediante la longitud y anchura de pétalos y sépalos –vables cuantitativas X1, X2, X3 y X4-. ¿Cómo distinguir (discriminar) tres especies de Iris (Setosa, Versicolor y Virginica) -vble Y-? Ejemplo2: Diagnóstico automático. Por los resultados de diferentes pruebas diagnósticas -vables cuantitativas X1…Xp¿Cómo reconocer una enfermedad distinguiéndola de otras similares -vble Y- ? Ejemplo3: Reconocimiento de formas o textos. A partir de diferentes medidas - vables cuantitativas X1…Xp- de una imagen capturada ¿Cómo identificar una pieza (reconocimiento de formas) o una letra (rec. de textos) -vble Y-? ¿Cómo identifica google a una persona (reconocimiento de imagen) en una fotografía? Ejemplo 4: Valoración de riesgos . Una entidad financiera desea valorar el riesgo de una posible operación crediticia personal catalogándola como muy segura, segura, normal, algo insegura o muy insegura -vble Y-. Para ello dispone de información sobre el cliente, relativa a otras operaciones realizadas con la entidad, declaraciones de renta y patrimonio, etc -vables X1…XpEjemplo 5: Control de fraude fiscal . La Agencia Tributaria va a revisar declaciones de renta sospechosas de fraude. Para seleccionarlas utiliza las declaraciones de los últimos años - vables X1…Xp- y los resultados de las inspecciones realizadas en ejercicios anteriores – correcta, fraude leve, fraude grave, fraude muy grave-.

discrim_predictivo.doc

30/11/2015

vgg

2

1.1 Análisis Discriminante / Plantemiento Predictivo Objetivo: Asignar grupo a nuevos individuos.  

Observamos las variables Xi o en varios individuos de cada grupo (observaciones de calibración) o y en otros individuos sin catalogar (observaciones a asignar). Un nuevo individuo del cual sólo conocemos los valores Xi debe asignarse a un grupo. o desconocemos a qué grupo pertenece o tomamos una decisión basándonos en la información que proporcionan las denominadas “observaciones de calibración o aprendizaje” (individuos para los que conocemos tanto los valores Xi como el grupo al que pertenecen).

1.2 Análisis Discriminante / Plantemiento Descriptivo Objetivo: Caracterizar los grupos ¿En qué difieren? 

Variables originales: detectamos las variables Xi de más poder discriminante, aquellas que mejor diferencian los grupos.



Variables artificiales (Análisis Discriminante Factorial): Buscamos aquellas combinaciones lineales de las Xi que mejor recogen las diferencias entre grupos. Las interpretamos y las utilizamos para representar gráficamente los grupos, detectando características más complejas que los diferencian.

1.3 Datos en AD:

1.4 Análisis Discriminante y Clasificación En AD los grupos están definidos y se conocen para las observaciones de calibración; se estudian sus características y se asigna grupo a nuevos individuos. En Clasificación Automática, por el contrario, los posibles grupos no se conocen y es la propia estructura de los datos quien los determina.

discrim_predictivo.doc

2

30/11/2015

vgg

3

Un primer paso: MANOVA previo al AD ¿La longitud y anchura media de los pétalos cambian de una variedad a otra? ¿Los valores medios de las pruebas analíticas difieren según la enfermedad? ¿Las medias de las características que observo sobre cada imagen captada, varían al cambiar de objeto?

Observadas p variables conjuntamente para individuos dentro de cada grupo, podemos analizar mediante un MANOVA si las media p-dimensional (de las variables X1, X2, ... Xp) es cambiante através de los k grupos, o por el contrario, no se aprecia efecto “grupo”. MANOVA de 1 factor Y (grupo), con variables explicativas X1, X2, ... Xp (cuantitativas) Cada nivel del factor Y define un grupo. H0: NO EFECTO. La media p-dim  se mantienen a través de los k grupos: 1= 2= … = k Nota recordatoria: El Manova requiere normalidad y homocedasticidad. Obviamente, tiene sentido realizar un Análisis Discriminante que estudie las diferencias entre grupos sólo cuando se rechaza H0 Cuando el MANOVA rechaza la igualdad de medias a través de los grupos, el ADD caracteriza las diferencias entre grupos (Planteamiento Descriptivo) ADP predice el grupo de individuos sin catalogar (Planteamiento Predictivo)

3 ADP ANÁLISIS DISCRIMINANTE / planteamiento PREDICTIVO Indice de la Sección 3 3.1 DOS poblaciones Np(i, i) 's iguales:→ Función Lineal Discriminante de Fisher  i y  conocidas



 i desconocidas;  conocida   i y  desconocidas

enfoque poblacional 

asumimos 

enfoque muestral enfoque muestral

3.2 DOS poblaciones Np (i,  i) 's diferentes: ≠→ Función Discriminante Cuadrática  i y i conocidas

≠

 i ó i desconocidas

SIN asumir 





enfoque poblacional enfoque muestral



3.3 k poblaciones Np (i,  i)

3.1 DOS poblaciones Np (i, i)

's iguales

→ Función Lineal Discriminante de Fisher p=1

p=2

Enfoque Poblacional (densidades conocidas)

discrim_predictivo.doc

30/11/2015

vgg

i y  conocidas (caso   Población 1: 1 x ~ Np (1, )



4

- enfoque poblacional -

Población 2: 2 x ~ Np (2, )



diferencia entre las dos medias p-dim = 1-2 distancia de Mahalanobis entre ellas t-1 1-2)t-11-2) Nuevo elemento, de población desconocida: x 0  0 x0 ~ Np (0, ) Problema: ¿ 0 ≡1 ó 0 ≡2 ? Idea: Discriminar mediante una combinación lineal L(x) ≡at x Optimo: ¿qué dirección a separa mejor los grupos? x / at x > k x / at x < k

Búsqueda de la dirección a óptima a efectos de discriminación: Para cada a, at x0 es una c.l. de sus componentes:

at x0 ~ N1(at 0, at a)

Busco la dirección a que mejor discrimina entre los dos grupos, es decir, que maximiza la separación (homogeneizada) entre las medias transformadas: at 1 , at 2 f.objetivo:  a2 

(a t μ1 - a t μ 2 ) 2 (a t δ ) 2 (a t Σ1/2 Σ -1/2δ ) 2 (1) a t Σa . δΣ -1δ  t   = δ Σ -1δ=  2 t t t a Σa a Σa a Σa a Σa

(1)

resulta de aplicar la desigualdad de Cauchy Schwarz a los dos vectores u  Σ1/2a y v  Σ -1/2δ la igualdad (1) sólo se alcanza cuando los vectores u y v son colineales, es decir, Σ1/2a = λ Σ -1/2δ , de donde obtenemos la solución a, única salvo factor escala () Solución:

a = -1 -1(1-2)

(ó a , puesto que  a2 = Δ 2λa ≠0 )

Valor máximo de  a2 : t-1 = 2 , dist2 de Mahalanobis entre 1 y 2. Datos proyectados, at x, sobre esta dirección a óptima:

Para esta a,

at x = (1-2)t-1 x ≡ L(x)

La función L recibe el nombre de “Función Lineal Discriminante de Fisher” (que se utiliza para construir diferentes reglas de clasificación)

discrim_predictivo.doc

30/11/2015

vgg

5

Regla de clasificación

A partir de L(x0) (valor que toma la función lineal discriminante L para la nueva observación x0), decido a qué población se asigna la nueva observación x0:  x 0  1 si a t x 0 > k para ello utilizo una Regla de clasificación :  t  x 0   2 si a x 0 < k

Errores al aplicar una regla de clasificación [1]: Error tipo 1: 1 →2 k - δ t Σ -1μ1 Probabilidades: e1=  ( ) 

[1]

Error tipo 2: 2 →1 - k + δ t Σ -1μ 2 e2=  ( ) 

Qué k elijo? La k que dé alguna propiedad deseable; por ejemplo e1= e2:

1) Igual probabilidad de clasificación errónea: k0= ½  t-1 (1+2) = ½ (1 t-1 1 - 2 t-1 2)

1 e1= e2 =  ( ) 2 punto medio

t

Regla de discriminación lineal de Fisher: x01 si a x0 > k0 , es decir

x01 si (1-2)t-1 x0 -

1 (1 t-1 1 - 2 t-1 2) > 0 2

1

1

2

2

equivalentemente, x01 si 1t-1 x0 - 1 t-1 1 > 2t-1 x0 - 2 t-1 2

Otros criterios 2) Mínima Distancia: Regla MD:

asigno a la población de cuya media diste menos. x01

si (x0, 1) < (x0, 2): t

(x0 - 1) -1 (x0 - 1) < (x0 - 2) t-1 (x0 - 2) Es fácil ver que coincide con la regla de discriminación lineal. 3) Razón de verosimilitud: asigno a la población con función de densidad mayor Regla RV:

en este caso también coincide con la regla de discriminación lineal

4) Bayes. Modifico la regla incorporando información a priori y costes. Probabilidades a priori: q1 q2

Costes de clasificación errónea: c1 c2

Regla de Bayes: coincide con la de Fisher para k= k0 + d con d= c2 q2 / c1 q1 1 1 -1 -1 Nota: esta regla produce e1≠ e2 e1=  (    d Δ ) e2 =  (    d Δ ) 2 2

[2]

discrim_predictivo.doc

30/11/2015

vgg

6

i desconocidas;  conocida (caso  - enfoque muestral -





Enfoque Muestral (densidades con parámetros desconocidos)



n1 individuos en la población 1; media muestral x1 media muestral x 2 n2 individuos en la población 2; Sustituyo en [2] las i, ahora desconocidas por sus estimaciones por x i y tengo una nueva versión de la regla de discriminación lineal de Fisher: Observo

x01 si ( x1 - x 2 )t-1 x0 -

1 ( x1 t-1 x1 - x 2 t-1 x 2 ) > 0 2

[3]

Nota: Sigue coincidiendo con la regla DM, pero con la RV sólo si n1= n2.

Aproximaciones asintóticas (Okamoto) para e1 y e2 (valores teóricos) 1 1 e1   ( ) + a1/ n1 + a2/ n2 e2   ( ) + a1/ n2+ a2/ n1 2 2 2 2 Δ +12(p-1) Δ - 4 (p-1) siendo a1= Φ (Δ) , a2= Φ (Δ) 16Δ 16Δ Estimación de errores: e1 y e2 se pueden estimar por dos procedimientos a) sustituyendo , desconocido, por Δˆ en las aproximaciones de Okamoto: ˆ (x - x ) t Σ -1 (x - x ) Δ= 1 2 1 2 b) jacknife: Se toma una observación de 1 y se le aplica la regla de discriminación lineal como si desconociéramos a qué grupo pertenece. Calculo la media muestral omitiendo esta observación xi y se utiliza esta media muestral x1(i) en [3] para asignar grupo a la observación omitida. Vemos si la asignación es correcta. Se aplica la regla una tras otra a todas las observaciones de cada grupo. Utilizamos la proporción de asignaciones erróneas para estimar e1 y e2: m m eˆ1 = 1 eˆ 2 = 2 donde mi representa el nº de individuos de i mal asignados. n1 n2

discrim_predictivo.doc

30/11/2015

vgg

i y  desconocidas (caso  

7

-enfoque Muestral-

Estimador pooled de  a partir de las desviaciones a la media muestral de cada grupo: n2 1 n1 t Sp= [ (x i - x1 )(x i - x1 ) + (x n1 + i - x 2 )(x n1 + i - x 2 ) t ] , con f= n1+n2 -2 f i=1 i=1

Esta versión [4] de la regla de discriminación lineal de Fisher utiliza Sp en lugar de que ahora se desconoce:

x01 si ( x1 - x 2 )t Sp-1 x0 -

1 ( x1 t Sp-1 x1 - x 2 t Sp-1 x 2 ) > 0 2

[4]

Nota: coincide con la regla DM, pero con la RV sólo si n1= n2 : 1 1 x01 si dS2-1 (x 0 , x1 ) < dS2-1 (x 0 , x 2 ) (regla RV) 1 p 1 p 1+ 1+ n1 n2

Aproximaciones asintóticas (Okamoto) para e1 y e2 1 1 e1   ( ) + a1/ n1 + a2/ n2 + a3/ f e2   ( ) + a1/ n2+ a2/ n1 + a3/ f 2 2 Δ (p-1) siendo a1 y a2 las expresiones de 3.1.2 y a3= Φ (Δ) 4 Estimación de errores: e1 y e2 se estiman por los mismos procedimientos que en 3.1.2: a) sustituyendo en las aproximaciones de Okamoto  , desconocido, por Δˆ f-p-1 Δˆ 2 = (x1 - x 2 ) t S-1p (x1 - x 2 ) f b) jacknife: Como en 3.1.2 pero utilizando Sp en lugar de desconocida). Nota: a) es mejor que b) bajo normalidad, pero b) es mejor que a) cuando utilizo esta regla de discriminación lineal sobre datos que NO son normales.

discrim_predictivo.doc

30/11/2015

3.2 DOS poblaciones Np (i, i)

vgg

8

's diferentes ≠

→ Función Discriminante Cuadrática

 i y i conocidas (≠ )

- enfoque poblacional -

Criterio de Mínima Distancia (MD): asigno a la población de cuya media diste menos. Regla MD:

x01

si

(x0, 1) < (x0, 2):

(x0 - 1) t1-1 (x0 - 1) < (x0 - 2) t2-1 (x0 - 2)

x / (x, 1) < (x, 2)

x / (x, 1) < (x, 2)

 i ó i desconocidas (SIN asumir  

- enfoque muestral –

Cuando se desconocen los parámetros, los sustituimos por estimadores: Regla MD

x01 si Δˆ (x0, 1) < Δˆ (x0, 2):   (x0 - x1 ) t S1-1 (x0 - x1 ) < (x0 - x 2 ) t S-12 (x0 - x 2 )

Las probabilidades de clasificación errónea, e1 y e2, se estiman por jacknife.

discrim_predictivo.doc

30/11/2015

vgg

9

3.3 k poblaciones Np (i,  i) 3.3.1 Asumiendo 1k

(desconocida)

- enfoque muestral –

xi :

vector media muestral basado en ni observaciones de la población i.

Sp

matriz de covarianzas muestral “pooled” con f=



k i=1

ni - k

g.de l.

x0 ~ Np (0, )

Nuevo elemento:

Regla MD de Mínima Distancia (también RV): x0i si

dS2-1 (x 0 , x i )  d S2-1 (x 0 , x j ) p

p

Regla de Discriminación lineal: x0i si

j

(es lineal en xo)

x it S-1p x 0 -

1 t -1 1 x i Sp x i  sup x tj S-1p x 0 - x tj S-1p x j 2 2 j 1...k

[5]

Carecemos de expresiones para las probabilidades de clasificación errónea; se estiman por métodos jacknife.

3.3.2 Sin asumir 1k  (desconocidas)

- enfoque muestral –

Asignamos de forma similar que en 3.3.1, pero utilizando en la regla [5] cada Si en lugar del estimador común pooled Sp: x0i si

x it Si-1x 0 -

1 t -1 1 x i Si x i  sup x tj S-1j x 0 - x tj S-1j x j 2 2 j 1...k

[6]

3.3.3 Población y muestra

Densidades conocidas muestras

Muestras de densidades desconocidas

Si conocemos las distribuciones teóricas, podemos utilizar las correspondientes versiones poblacionales, con las covarianzas teóricas  i en lugar de las estimadas Si.

discrim_predictivo.doc

30/11/2015

vgg

10

3.4 Métodos no paramétricos Existen métodos alternativos para situaciones en que las variables discriminantes no son Np dentro de cada grupo. Los más conocidos son los métodos de vecinos próximos y los basados en estimación no paramétrica de la densidad.

3.4.1 Vecinos próximos El criterio se basa en medir proximidad a base de acumular las distancias del individuo con grupo desconocido a los t individuos más próximos de cada grupo y asignarlo finalmente al grupo más cercano. Para asignar un individuo xi a un grupo, el método de t vecinos localiza dentro de cada grupo los t individuos más próximos al aspirante xi. Son los llamados “vecinos más próximos”. La suma de estas t distancias se utiliza como indicador de la separación entre el aspirante y el grupo. El individuo se asigna al grupo más próximo. SAS/Discrim permite computar distancias de Mahalanobis con la matriz de covarianzas específica de cada grupo o bien con la pooled Sp.

3.4.2 Estimación de densidades Como primer paso, aplicamos métodos no paramétricos de estimación de la densidad y a partir de las observaciones de calibración obtenemos un estimador dentro de cada grupo. Después construyo reglas de asignación similares a las del apartado 3, sólo que en lugar de utilizar densidades normales multivariantes, empleamos estas estimaciones obtenidas por métodos no paramétricos. Así, obtengo nuevas reglas de discriminación por el método de máxima verosimilitud o por el de Bayes cuando incorporamos información a priori sobre la probabilidad de pertenencia a cada grupo: Grupo probs a priori densidades

1 2 … k p(1) p(2) … p(k) f(x/1) f(x/2) … f(x/k)

probs a posteriori

p(1/x) p(2/x) … p(k/x)

(conocidas o estimadas) p(i) f(x/i) con p(i/x)= k  p(j) f(x/j) j=1

SAS/Discrim ofrece el método Núcleo con núcleo uniforme, normal, epanechnikov… y parámetro de suavizado común para todos los grupos o específico para cada grupo.

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.