Tema 1: Introducción al Análisis de datos Categóricos

Tema 1: Introducci´ on al An´ alisis de datos Categ´ oricos Introducci´ on Los datos categ´oricos aparecen cuando una variable se mide en una escala q

Author: Irene de la Cruz Plaza

1 downloads 90 Views 246KB Size

Report

DOWNLOAD PDF

Recommend Stories

Tema: TRATAMIENTO DE DATOS

Tema 1- Conceptos de Java para Estructuras de Datos

TEMA 1. Tipos Abstractos de Datos. CONSIDERACIONES GENERALES

Tema 2 Datos multivariantes

TEMA 10 DATOS ESTRUCTURADOS

TEMA 10 DATOS ESTRUCTURADOS 10.1. Matrices 10.2. Strings 10.3. Estructuras 10.4. Enumerados 10.5. Punteros 10.1. Matrices Una matriz es una col

Tema. datos, es) (ocw.unia

Te ema a2 Introducción a sisttema as inform máticos p para la ex xtraccción n, tra atam mientto y vvisua aliza ación n de da atos,, TAL LLER DE D PERI

Práctica 1 de Minería de Datos Introducción al Clementine

Práctica 1 de Minería de Datos Introducción al Clementine Curso de Almacenes de Datos y Minería de Datos Departamento de Sistemas Informáticos y Com

BASES DE DATOS TEMA 2 MODELOS DE DATOS

BASES DE DATOS TEMA 2 MODELOS DE DATOS Un modelo de datos es una serie de conceptos que puede utilizarse para describir un conjunto de datos y las ope

BASES DE DATOS. TEMA 5. El modelo de datos relacional

Story Transcript

Tema 1: Introducci´ on al An´ alisis de datos Categ´ oricos Introducci´ on Los datos categ´oricos aparecen cuando una variable se mide en una escala que s´olo clasifica a los encuestados en un n´ umero limitado de grupos. Por ejemplo, una encuesta donde se recoge informaci´on sobre variables como sexo, estado civil y afiliaci´on pol´ıtica. Adem´as de distinguir una variable como categ´orica (cualitativa) o continua (cuantitativa), las variables tambi´en se pueden clasificar como independientes o dependientes. El t´ermino independiente se refiere a una variable que se puede manipular experimentalmente (e.g. el tipo de tratamiento que se le asigna a cada persona), pero tambi´en se aplica a menudo a una variable que se utiliza para predecir otra variable (e.g. nivel socio-econ´omico). El t´ermino dependiente se refiere en general a una variable cuyo inter´es primordial es el resultado o la respuesta. Por ejemplo, se pueden considerar como variables dependientes, el resultado de un tratamiento (basado en el tipo de tratamiento) o el nivel educativo previsto a partir de una situaci´on socio-econ´omica,. Otro ejemplo: supongamos que se desea determinar si los colegios concertados difieren de manera sustancial de los colegios privados y p´ ublicos en base a ciertos datos demogr´aficos. Por ejemplo, la ubicaci´on: urbano, suburbano o rural, tipo: p´ ublica o privada, situaci´on predominante socio-econ´omica de los estudiantes: bajo, medio o alto, etc. Para este tipo de an´alisis es necesario usar t´ecnicas de an´alisis de datos categ´oricos, porque todas las variables involucradas son categ´oricas. Otro ejemplo: supongamos que un investigador quiere predecir si un estudiante se graduar´a en secundaria en base a cierta informaci´on como el n´ umero de d´ıas de asistencia, promedio de las calificaciones y los ingresos familiares. En este caso, se necesita un enfoque de an´alisis categ´orico donde la graduaci´on (s´ı o no) sirve como variable dependiente en funci´on de otras variables explicativas.

1

Escalas de medida La escala de medida de una variable de respuesta categ´orica es fundamental para la elecci´on del an´alisis estad´ıstico apropiado. Las variables de respuesta categ´orica pueden ser Dicot´omicas Ordinales Nominales De recuento Respuestas dicot´omicas son aquellas que tienen dos posibles resultados que a menudo son s´ı y no. ¿Se desarrollar´a la enfermedad? ¿El votante votar´a por el candidato A o por el B? ¿Aprobar´a el examen? Con frecuencia, las respuestas de los datos categ´oricos representan m´as de dos resultados posibles y con frecuencia en estos resultados es posible considerar alg´ un orden inherente. Estas variables tienen una escala de respuesta ordinal de medici´on. ¿El nuevo plan de estudios gusta a los estudiantes? ¿La muestra de agua es de dureza baja, media o alta? En el primer caso, el orden de los niveles de respuesta es clara, pero no hay ninguna pista en cuanto a las distancias relativas entre los niveles. En el segundo caso, hay una distancia posible entre los niveles: medio podr´ıa tener el doble de la dureza de baja y alta podr´ıa tener tres veces la dureza de baja. Si existen m´as de dos categor´ıas posibles de resultados y no hay un orden inherente entre las categor´ıas, entonces se tiene una escala de medida nominal. ¿A cu´al de los cuatro candidatos votaste en las elecciones municipales de la ciudad? ¿Prefieres la playa, la monta˜ na o la ciudad para ir de vacaciones? No existe una escala subyacente en esos resultados y no hay una forma aparente de ordenarlos. Las variables categ´oricas a veces contienen recuentos. En lugar de considerar las categor´ıas que presenta cada observaci´on, (s´ı, no) (bajo, medio, alto), los resultados que se estudian son los n´ umeros mismos. El tama˜ no de la camada, ¿fue de 1, 2, 3, 4 o´ 5 animales? La casa tiene ¿1, 2, 3 ´o 4 equipos de aire acondicionado? En la metodolog´ıa cl´asica habitual se analiza la media de los recuentos, pero los supuestos que se tienen que cumplir en un modelo lineal est´andar con datos continuos, no se cumplen a menudo con datos discretos. En general, los recuentos no se distribuyen seg´ un una distribuci´on normal y la varianza no suele ser homog´enea.

2

Distribuciones de Probabilidad Distribuci´ on binomial Habitualmente, los datos proceden de n ensayos independientes e id´enticos con dos posibles resultados para cada uno: ´exito y fracaso, con igual probabilidad de ´exito para cada prueba. Ensayos independientes significa que los resultados son variables aleatorias independientes. En particular, el resultado de una prueba no afecta al resultado de otra. Se denominan ensayos de Bernoulli. Se denota como π a la probabilidad de ´exito para un ensayo dado e Y denota el n´ umero de ´exitos de las n pruebas: P (y) =

n! π y (1 − π)n−y y! (n − y)!

para 0, 1, 2, . . . , n. La distribuci´on binomial para n ensayos con par´ametro π tiene como media y desviaci´on est´andar: E(Y ) = µ = nπ σ=

p nπ(1 − π)

Las gr´aficas de las funciones de probabilidad y distribuci´on son, respectivamente,

# Script de R # F u n c i o n de p r o b a b i l i d a d de una b i n o m i a l

X11 () plot (0:8 , dbinom (0:8 ,8 ,0 .3 ) , type = " h " , xlab = " x " , ylab = " P ( X = x ) " , xlim = c ( -1 ,9) ) title ( " Funcion de probabilidad de X∼Bin (8 , 0 .3 ) " ) # F u n c i o n de d i s t r i b u c i o n de una b i n o m i a l

X11 () plot (0:8 , pbinom (0:8 ,8 ,0 .3 ) , type = " n " , xlab = " x " , ylab = " F ( x ) " , xlim = c ( -1 ,9) , ylim = c (0 ,1) ) segments ( -1 ,0 ,0 ,0) segments (0:8 , pbinom (0:8 ,8 , .3 ) , 1:9 , pbinom (0:8 ,8 , .3 ) ) lines (0:7 , pbinom (0:7 ,8 , .3 ) , type = " p " , pch =16) segments ( -1 ,1 ,9 ,1 , lty =2) title ( " Funcion de distribucion de X∼Bin (8 , 0 .3 ) " )

3

4

Para generar 1000 observaciones de una distribuci´on binomial Bin (n = 5, p = 0,5):

# Uso la l i b r e r i a PASWR

library ( PASWR ) bino.gen (1000 , 5 , 0 .5 )

Distribuci´ on Multinomial Algunos ensayos tienen m´as de dos resultados posibles. Por ejemplo, el resultado de un un accidente de autom´ovil se puede clasificar en varias posibles categor´ıas: 1. sin lesiones, 2. lesiones que no requieren hospitalizaci´on, 3. lesiones que requieren hospitalizaci´on, 4. muerte. 5

Cuando los ensayos son independientes respecto a cada categor´ıa, la distribuci´on de los recuentos en cada categor´ıa sigue una distribuci´on multinomial. Sea c el n´ umero de posibles categor´ıas. Dados n sucesos, se puede definir la variable aleatoria Xi (para i = 1, . . . , c) que indica el n´ umero de veces que aparece el resultado i. Se denota la probabilidad de obtener cada resultado i como {π1 , π2 , . . . , πc } donde P i πi = 1. Para n observaciones independientes, la probabilidad de que n1 observaciones caigan en la categor´ıa 1, n2 caigan en la categor´ıa 2, ..., nc caigan en la categor´ıa c, (donde P i ni = n) es igual a n! P (n1 , n1 , . . . , nc ) = π1n1 π2n2 · · · πcnc . n1 !n2 ! · · · nc ! La distribuci´on binomial es, en realidad, un caso particular de la distribuci´on multinomial cuando c = 2. Ejemplos: Se puede generar una muestra de una multinomial M ult(10, (0,1, 0,2, 0,7)), o bien calcular la probabilidad conjunta del vector (3, 7, 2) o del vector (1, 2, 9).

# Distribucion multinomial con R

rmultinom (10 , size =12 , prob = c (0 .1 , 0 .2 , 0 .7 ) ) dmultinom ( c (3 , 7 , 2) , prob = c (0 .1 , 0 .2 , 0 .7 ) ) dmultinom ( c (1 , 2 , 9) , prob = c (0 .1 , 0 .2 , 0 .7 ) )

La esperanza y varianza de observar el suceso i en n ensayos es E (Xi ) = npi

V ar (Xi ) = npi (1 − pi ) La covarianza entre los sucesos i y j observados en n ensayos es Cov (Xi , Xj ) = −npi pj

(i 6= j)

Inferencia para la distribuci´ on binomial El m´etodo habitual en Inferencia Estad´ıstica, desde el punto de vista cl´asico, es la estimaci´on por m´axima verosimilitud. El estimador de m´axima verosimilitud de un par´ametro es el valor del par´ametro, para el que la probabilidad de obtener los datos observados es mayor. Por ejemplo, si en n = 10 ensayos se obtienen 0 ´exitos, la funci´on 6

de verosimilitud en este caso l(π) = (1 − π)10 alcanza el m´aximo para π ˆ = 0. Es decir el resultado de 0 ´exitos en 10 ensayos es m´as probable que ocurra cuando π = 0 que para cualquier otro valor. As´ı, en general, si una variable aleatoria X se observa con x ´exitos en n ensayos, el estimador de m´axima verosimilitud (EMV ) de la probabilidad de ´exito p es simplemente pˆ = x/n, la proporci´on observada de ´exitos entre n ensayos. La varianza es V ar(b p) =

p(1 − p) n

y un intervalo de confiaza al 100×(1 − α) aproximado para p es r pb(1 − pb) pb ± z αs n que se denomina, en algunos textos, intervalo de Wald. Una mejor alternativa es el llamado intervalo de Wilson, (o q-interval ) que se calcula como un subproducto del Teorema Central del L´ımite.

n pb n + z 2α

!

s

1 + 2

z 2α

!

s

n + z 2α s

v     u u 2 4 2 zα u pb(1 − pb)  n z α  1   s s + ±u    2  t 2 n 4 n + z 2α n + z 2α s

s

Esta aproximaci´on funciona mejor que el intervalo de Wald para valores peque˜ nos de n. Estimaci´ on num´ erica de la funci´ on de verosimilitud En R se puede calcular de manera num´erica los estimadores de m´axima verosimilitud. Por ejemplo:

# F u n c i o n de v e r o s i m i l i t u d de una b i n o m i a l # Se define la f u n c i o n de v e r o s i m i l i t u d para una m u e s t r a de # una b i n o m i a l con N =10 Y =7 exitos

lklhd | Z |

0 .0048 0 .1225 0 .4513 0 .9025

Test exacto Pr de un lado >= P Dos colas = 2 * Una cola

0 .4572 0 .9144

Tama∼no de la muestra = 8023

14

75 .06 100 .00

Ejemplo El departamento de instrucci´on p´ ublica de Wisconsin usa cuatro categor´ıas para medir las habilidades matem´aticas: advanced, proficient, basic y minimal. Se considera una muestra de 71709 estudiantes de grado 10o en 2006 y se supone que las proporciones se mantienen en los mismos niveles que en a˜ nos anteriores. Los datos est´an en la siguiente tabla: Nivel matem´ atico Advanced Proficient Basic Minimal

Proporci´ on esperada 15 % 40 % 30 % 15 %

Frecuencia esperada 10756.35 28683.60 21512.70 10756.35

Con R bastar´ıa escribir:

chisq.test ( x = c (18644 ,32269 ,10039 ,10757) , p = c (0 .15 ,0 .40 ,0 .30 ,0 .15 ) )

Con SAS se usar´ıa el siguiente programa:

OPTIONS ls =70; DATA prueba2 ; INPUT prof $ count ; DATALINES ; advanced 18644 proficient 32269 basic 10039 minimal 10757 ; PROC freq order = data ; weight count ; tables prof / testp =(0.15 0.40 0.30 0.15) ; RUN ;

15

Frecuencia observada 18644 32269 10039 10757

Procedimiento FREQ Test Frecuencia Porcentaje Porcentaje acumulada

prof Frecuencia Porcentaje acumulado ______________________________________________________________________ advanced proficie basic minimal

18644 32269 10039 10757

26 .00 45 .00 14 .00 15 .00

15 .00 40 .00 30 .00 15 .00

Test chi - cuadrado para proporciones especificadas _______________________________ Chi - cuadrado DF Pr > ChiSq

12351 .6415 3 < .0001

Tama∼no de la muestra = 71709

16

18644 50913 60952 71709

26 .00 71 .00 85 .00 100 .00