Universidad Técnica Federico Santa María
Universidad Técnica Federico Santa María
Clasificación/ Tipos de Datos
Departamento de Informática ILI-280
Cualitativo (Categorías)
Capítulo 2: ANALISIS EXPLORATORIO de DATOS
º Nominal Æ Viña = 1 ; Santiago = 2 ; Temuco = 3 44 º Ordinal
Æ Pobre = 1; Aceptable = 2; Bueno = 3; Excelente = 4
Estadística Computacional 1º Semestre 2003
Cuantitativo (Números) º Intervalar Æ temperatura, viscosidad, distancia, duración
Profesor :Héctor Allende Página : www.inf.utfsm.cl/~hallende e-mail :
[email protected]
º Razón
Æ peso/altura
NOTA: NOTA: ElEltipo tipode deEstadísticas Estadísticasque quese sepueden puedenobtener obteneroo calcular calculardepende dependedel deltipo tipode dedato datoque quese setrate. trate.
Por Porejemplo ejemplopromedio, promedio,mediana medianayyvariancia varianciano no tienen tienensentido sentidocon condatos datoscategóricos categóricos(si (sicon con proporciones) 2 proporciones) Profesor:H. Allende
Escalas de Medida
Variables Categóricas: (Escala Nominal) Moda ( Medida del centro ) Tasa de Variación ( Medida de Dispersión )
Clasificación : Nominal, Ordinal, Intervalos y Razón Variables :
Variables Cualitativas: (Escala Ordinal) Moda, Mediana Tasa de Variación, Índice de Dispersión
Discretas y Continuas Categóricas, Cuantitativas
Variables Cuantitativas: (Escala Intervalar)
Organización : Frecuencia absoluta Frecuencia relativa
Moda, Mediana, Media, Media Truncada Tasa de Variación, Índice de Dispersión, Varianza Rango, Rango Intercuartílico (IQR), MEDA
A partir de nivel ordinal : Frecuencia absoluta acumulada Frecuencia relativa acumulada Profesor:H. Allende
3
Medidas de homogeneidad Señal de Ruido
η = - log S 2 2
X
CV =
Profesor:H. Allende
Escala Nominal
Escala Ordinal
Usa números como una manera de separar los elementos de la población en diferentes clases o categorías. El número asignado a la observación sólo sirve como un nombre para distinguir la categoría a la cual pertenece la observación.
Dónde existe un orden implícito entre las mediciones. El valor numérico es usado sólo como una manera de areglar los elementos de acuerdo al orden establecido.
S X 4
La variable admite grados de calidad:existe una relación de orden total entre las clases.
• La variable induce una partición sobre la población la información puede clasificarse en clases o categorías. • Cada clase debe estar perfectamente definida y diferenciada de las demás. • La recopilación se reduce a contar el número de individuos en la muestra que pertenece a cada clases:
No es posible cuantificar la diferencia entre los individuos pertenecientes a las distintas clases. Ejemplo calificaciones de A (muy bueno), B (bueno), C (satisfactorio), D (admisible), E (deficiente)
Ejemplos alumnos por cursos: primero (1), segundo (2),...., sexto (6) año; sexo: masculino (M), femenino (F); Colegio: Mackay (1); Santiago College (2), St George (3), etc. Profesor:H. Allende
Profesor: Rodrigo Salas
5
Profesor:H. Allende
6
1
Universidad Técnica Federico Santa María
Escala Intervalar
Escala Intervalar
Considera no sólo la información pertinente al orden, sino además, el tamaño relativo de los intervalos a que pertenece cada uno de los individuos. En este nivel es posible cuantidicar la diferencia de todos los individuos pertenecientes a los intervalos, clases o categorías distintas.
Tabligramas. Tablas de Frecuencia. Histogramas: valores discretos y continuos.
Está involucrado en concepto de distancia, y la distancia entre dos medias puede ser expresada en función de esta unidad.
ºUsar 5 a 20 clases (intervalos o grupos). º(considerar anchos de clases, límites y marca de clase). º(polígono de frecuencias – dibujar en marca de clase).
Ejemplos: temperatura al interior de un silo, interes sólo clasificar en intervalos de cinco grados {(0, 5°), (5, 10°), .....,(30, 35°)}. Puntaje promedio PAA, interesa clasificar en tramos de 25 puntos. Profesor:H. Allende
Frecuencia Acumulada - Ojiva. º(graficar en límite superior). 7
8
Profesor:H. Allende
Organización/Presentación
Escala de Razón Su usa cuando no sólo el orden y tamaño del intervalo son importantes; .
Frecuencia Relativa.
La única razón entre la escala de razón y la intervalar es que en la primera se puede definir un cero absoluto y en la segunda no
Se llama frecuencia relativa de la clase ci a la proporción de individuos que pertenecen a la clase sobre el total de individuos o tamaño de la muestra. Se de nota por fi. Se puede verificar que n fi = ---i n
k
nótese que ....
Σ
ni = 1
i=1
k
Profesor:H. Allende
9
Organización/Presentación
Reglas: º Cada observación debe estar en una, y en una sola, categoría. º Todas las observaciones deben ser consideradas.
Frecuencia Absoluta. Se llama frecuencia absoluta de la clase ci al número total de individuos u observaciones que pertenecena dicha clase y se denota por nki. Como las clases c1, c2, ..... ck una partición de la muestra, esi =fácil verificar que 1
Tablas Æ Proveen el mayor detalle. Gráficos de Barras Æ Utilizar Pareto.
k
Σ
n i=1 i
Å número total de observaciones o tamaño de la muestra
Profesor:H. Allende
Profesor: Rodrigo Salas
10
Representación de Datos Cualitativos
Para estudiar las características de una variable se ordenan los valores observados de la muestra en k clases denominadas c1, c2, .. ck.
n =
i=1
Profesor:H. Allende
Gráficos Circulares o de Torta Æ. 11
Profesor:H. Allende
12
2
Universidad Técnica Federico Santa María
Tablas
Escala Nominal 120
Descripción
1
107
2
60
3
51
4
25
5
10
6
8
Diagramas de Pareto
107
# Observ. 100
80 Frecuencia
Clase
60
60
51
40
25 20
10
8
5
6
0 1
5 4%
6 3%
3
4
14
Profesor:H.Clase Allende
Escala Nominal 4 10%
2
13
Profesor:H. Allende
Escala Ordinal 9
Diagramas Circulares
Diagramas en Bloques
8 7
1 40%
6 5
3 20%
4 3 2 1
2 23%
0 Profesor:H. Allende
Pobre
15
Escalas de Medida
10 11 12 13 14 15 16
40 Datos 8 7 3 8 1 2 0
7 2 6 2 3 3 1
9 8 6 8 0 0
1 0 5 0 8 2
3 4 7 3 8
3 2 4 1 2 8 5 7 3
TABLIGRAMA
Profesor:H. Allende
Profesor: Rodrigo Salas
Aceptable Bueno Profesor:H. Allende
Muy Bueno
16
Tabla de Frecuencia
Presentación :-Tablas de frecuencias -Gráficos: Diagramas de Bloques, -Circulares, Barras -Diagrama acumulativo Ejemplo:
Regular
17
N° Clases ≈ 1 + 3.3 log n ≈ 7 Rango = máx { xi } - mín { xi } = 162 - 107 = 55 Amplitud = ( R + 1 ) / K = ( 55 + 1 ) / 7 = 8 Límites
Marca
106.5 - 114.5 114.5 - 122.5 122.5 - 130.5 130.5 - 138.5 138.5 - 146.5 146.5 - 154.5 154.5 - 162.5
110.5 118.5 126.5 134.5 142.5 150.5 158.5
Frecuencias
ABS - REL - REL. AC.
5 3 5 8 7 6 6
Profesor:H. Allende
Construir: Histograma Diagrama acumulativo 18
3
Universidad Técnica Federico Santa María
Histograma
Polígono de Frecuencias
9
9
8
8
7
7
6
6
5
5
4
4
3
3
2
2
1
1
0
0 107
116
125 134 143 Profesor:H. Allende
152
161
99 19
107
125 134 143 Profesor:H. Allende
152
161
170 20
Datos no agrupados
Frecuencia Acumulada - Ojiva 40 39 38 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
116
X1, X2, .........., X2n+1 Mo = Moda = dato con mayor frecuencia Me = Mediana = X(n+1)
X = Media =
1 2n + 1
2 n +1
∑X i =1
X α = Media truncada = 99
107
Profesor:H. Allende 143 125 134
116
152
161
21 170
∑ (X i − X )
2
i
IQR = 1/2 (Q3 - Q1)
Profesor: Rodrigo Salas
∑X
i =α +1
(i )
22
Medidas de Simetría:
Q1 + Q 3 − 2Q 2 Q 3 − Q1 m3 1 γ1 = 3 Mr = S 2n + 1 I.S. =
∑ ( Xi − X ) r i
Medidas de Forma:
MEDA = Mediana Xi - Me i Profesor:H. Allende
2 n +1−α
Datos no agrupados
V = Tasa de Variación = 1 - fM D = Índice de Dispersión = (rangQ3-rangQ1)/(K-1)
1 2n + 1
1 ( 2n + 1 − 2α )
Profesor:H. Allende
Datos no agrupados
S2 = Varianza =
i
γ2 = 23
m4 −3 S4 Profesor:H. Allende
24
4
Universidad Técnica Federico Santa María
Datos Agrupados
Datos Agrupados
k Clases k
X =∑ fi * X i
Me = L + a e
i =1
k
S2 =
∑ f i ( Xi − X )
L Ne-1 ne ae n
2
i =1
MD =
∑ f i Xi − X i =1
: Límite inferior Clase modal : Amplitud Clase Modal : nM-n1 g2 : nM-n2 : Frecuencia absoluta Clase Modal : Frecuencia absoluta Clase anterior a Clase Modal : Frecuencia absoluta Clase posterior a Clase Modal
con
i = 1,...,n
1. Lineales
yi = axi + b
yi = ln xi = h( xi ) 1
y = h(x) + 2 h”(x) SX2 Sy2≈ Sx2 [ h’ (x)]2 1
i.e. 27
y = ln x - 2 ( Sx2 / x2 ) Sy2 ≈ ( Sx2 / x2 ) = CV 2
Profesor:H. Allende
28
Relaciones Linealizables 1. 2.
3. Box-Cox Transformaciones (1964)
λ≠ 0
x > -m
λ =0
m>0
y = K xβ y=K±(β/x)
ln y = a0 + a1 ln x y = a0 ± a1 x-1
3. 4. 5.
y = K eβx ln y = a0 + a1 x y = K e-β/x ln y = a0 + a1 x-1 yt = K + β cos t y = a0 + a1 xt siendo xt = cos t
6.
y(λ) = yλ - 1 = a0 + a1 x
m ln ( x + m )
Sea yi = h ( xi )
2. No lineales
Transformaciones
( x + m )λ - 1
26
y = ax + b Sy = a Sx
n ∗i − NQi − 1 4 Qi = L + aQi nQi
h (x) = Xλ =
)
Transformaciones
g1 Mo = L + aM g1 + g2
Profesor:H. Allende
− 1
Profesor:H. Allende
Datos Agrupados
L aM g1 nM n1 n2
n − Ne 2 ne
: Límite inferior Clase mediana (C Med) : Frecuencia Acumulada hasta ante C Med : Frecuencia Absoluta C Med : Amplitud C Med : Tamaño de la muestra
25
Profesor:H. Allende
(
yλ-1 dy = a1 dx
w = dy dx
ln w = ln a1 + ( 1 - λ ) ln y Profesor:H. Allende
Profesor: Rodrigo Salas
29
Profesor:H. Allende
30
5
Universidad Técnica Federico Santa María
Análisis de una muestra estratificada E1 n1 V 1
E2
X1
n2 V 2
∑n
nih = Cantidad de individuos de la submuestra del estrato “h” que pertenece a Ci.
=n
fih =
n ph = h n
Vm
Xm
h
h =1
Em
nm
X2
m
Análisis de una muestra estratificada
nih nh
k
∑f i =1
ih
m
fi = ∑ phfih h =1
31
m
h =1
m
h =1
h =1
Ejemplos Se tiene 3 criaderos de aves. En el criadero (1) se ponen 50 pollos recién nacidos; en el (2) 200 pollos y en el (3) 100 pollos. Al cabo de un cierto tiempo se pesan los 350 pollos, encontrándose que algunos están muertos y los vivos pesan entre 1,00 [kg]. y 2,50 [kg]. Para los efectos del registro los pollos muertos se supondrán de peso cero, y el cero actuará como centro del supuesto intervalo. Los otros intervalos serán [1,00 ; 1,50] [1,50 ; 2,00] [2,00 ; 2,50].
X = ∑ ph X n m
VT = ∑ phVh + ∑ ph ( X h − X ) 2
33
Profesor:H. Allende
Xi
fi1
fi1X1
Xi-X1 (
0 1,25 1,75 2,25
0,1 0,2 0,6 0,1
0 0,250 1,050 0,225
-1,525 -0,275 0,225 0,725
)2
2,325 0,0756 0,0501 0,525
fi1(
0,2325 0,0151 0,0304 0,0525
fi2
fi2X1
Xi-X2 ( )2
fi2( )2
0,05 0,10 0,75 0,1
0 0,125 1,312 0,225
-1,662 -0,412 0,088 0,588
0,138 0,017 0,007 0,034
Profesor: Rodrigo Salas
)2
X1=1,525 V1=0,331
Estratos Ph
P2=4/7
Profesor:H. Allende
Vint er , Vint ra Note que existen 3 estratos y 4 clases
Estrato (3) P1=1/7
2,76 0,17 0, 01 0,34
X h , Vh , X , VT
(1) (2) (3) X2=1,662 V2=0,196
35
34
Profesor:H. Allende
Ejercicio
Estrato (2)
Calcular
Centros Frecuencias Absolutas (1) (2) (3) 5 10 10 0 10 20 30 1,25 30 150 50 1,75 5 20 10 2,25
VT = Vint ra + Vint er
Estrato (1)
32
Profesor:H. Allende
Análisis de una muestra estratificada Entonces:
= nh
i =1
i =1
Profesor:H. Allende
ih
Vh = ∑ fih ( X i − X h ) 2
X h = ∑ fih X i
Supongamos que la variable admite una clasificación en k-clases, representadas por X1, X2,.....Xk.
i =1
k
k
m- estratos
k
∑n
=1
1/7 4/7 2/7
P3=2/7
fi3
fi3X1
Xi-X3 ( )2
fi3( )2
0,10 0,30 0,50 0,20
0 0,375 0,875 0,225
-1,475 -0,225 0,275 0,775
0,217 0,015 0,040 0,060
Media Varianza PhXh Xh Vh 1,525 1,662 1,475
0,331 0,196 0,332
0,218 0,949 0,422 1,589
2,17 0,05 0, 08 0,60
PhVh
Xh-X
0,047 0,112 0,095 0,254
-0,064 0,033 -0,114
Profesor:H. Allende
X3=1,475 V3=0,0332
(X-Xh)2 Ph( )2 0,004 0,001 0,013
0,00057 0,00057 0,00557 0,0067 36
6
Universidad Técnica Federico Santa María
Resultados
Estadística Bivariada
Se ha obtenido, entonces:
Notación:
• Media Total X = 1,589
fij := frecuencia conjunta = fr(xi,yj)
•Varianza promedio dentro de los estratos Vintra= 0,254
fi =
•Varianza entre estratos Vinter= 0,0067
f j=
•Varianza Total VT= 0,2607
fi/j =
i
∑f
= frecuencia marginal =
∑f
= frecuencia marginal =
j
i
ij
ij
i
fij f• j
r
i
r
j
/ yj) =
i
j
fr ( xi , y j ) fr ( y j ) 38
Profesor:H. Allende
Estadística Bivariada Independencia Estadística
Análogamente, se tiene:
como
fr ( xi , y j ) r ( y j / xi ) = fr ( xi )
fij = fj/i × fi• ⇒
fij = f• j × fi•
= frecuencia condicional = f
Independencia Estadística
fr ( y j / xi ) = fr ( y j )
fi/j = fi•
Asociación de Variables
ó
fr ( xi / y y ) = fr ( xi )
ó
fj/i = f• j
Datos agrupados :
Coeficiente de Correlación = r = Cov (x,y) Sx Sy 39
Profesor:H. Allende
40
Profesor:H. Allende
Tabla de Contingencia
Tabla de Contingencia Y
1 ∑ ( xi − x)( yi − y) n cov(x,y) = ∑ fi ( xi − x )( yi − y )
Datos no agrupados cov(x,y) =
X e Y son variables estadísticamente independientes ssi:
B1
B2
.....
Bj
.....
Bs
Total
A1
n11
n12
.....
n1j
.....
n1s
n1z
A2
n21
n22
.....
n2j
.....
n2s
n2z
Ai
ni1
ni2
.....
nij
.....
nis
niz
Ar
nr1
nr2
.....
nrj
.....
nrs
nrz
Total
nz1
nz2
.....
nzj
.....
nzs
nz z
X
r
j
∑ f (x , y ) = f ( y )
= frecuencia condicional = fr ( xi
Notación:
fij fi•
i
i
Estadística Bivariada
fj/i =
r
j
37
Profesor:H. Allende
∑ f (x , y ) = f (x )
Para i = 1,....,r se tiene: s
ni• = ∑ nij j =1
(Suma de los valores de la fila i-ésima de la tabla de contingencia de frecuencias)
r
n• j = ∑ nij i =1
Profesor:H. Allende
Profesor: Rodrigo Salas
41
Además de:
fi• =
ni • n••
f• j =
n• j n••
Profesor:H. Allende
fi/j =
n fij = ij f• j n• j 42
7
Universidad Técnica Federico Santa María
Tabla de Contingencia
Modelo Estadístico (Lineal)
Fallas Anuales Temperatura Averías
2 3 4 5
120
140
160
20 12 4 -
15 7 10 5
10 5 2 10
y = β 0 + β1x + ε
Marginal
x , y son variables independiente y dependiente respectivamente. Además ε una variable estadística que representa el error. Los parámetros β0 y β1 pueden ser estimados a partir de los datos {(xi , yi)}i=1,...,n mediante método de mínimos cuadrados.
Marginal Obtener : Distribuciones marginales Distribuciones condicionales (4 averías), Media y Varianza condicional
Entonces 43
Profesor:H. Allende
n
ei = yi − yˆ i = yi − βˆ 0 − βˆ1 xi
Sea ;
n
Curvas de Regresión
min ∑ ei = min ∑ ( yi − β 0 − β1 xi ) 2 β 0 β1
2
β 0 β1
i =1
i =1
n
SC E = ∑ ei
2
t
0
1
2
3
4
5
6
V(t)
30 20
60 40 20
46
32 26
10 14 12
4 8
17
V(t)
25
40
46
29
12
6
17
i =1
βˆ1 =
SC xy SC x
n
SC x = ∑ ( xi − x )
βˆ 0 = y − βˆ1 x
Sea xt = sen t
n
SC xy = ∑ ( xi − x )( yi − y )
2
i =1
i =1
n
VNE = ∑ ei
a ,b
i =1
y(t) = a + b xt + εt
45
a ,b
t
Profesor:H. Allende
46
cov( x , y ) = 20 bˆ = 2 Sx
∑(y
2
S y = 1276
Luego
yt = V(t)
min Q (a, b) = min ∑ ( yt − a − bxt ) 2
2
Profesor:H. Allende
aˆ = y − bˆ x = 25,3
44
Profesor:H. Allende
t
− yˆ t ) 2 = 22,45
% de Ajuste del Modelo =
1−
∑ eˆ Sy
t 2
2
= 0,98 ∗100% = 98%
Profesor:H. Allende
Profesor: Rodrigo Salas
47
8