Story Transcript
TEMA 1. ESTADÍSTICA DESCRIPTIVA 1.1 Introducción: conceptos básicos 1.2 Tablas estadísticas y representaciones gráficas 1.3 Características de variables estadísticas unidimensionales 1.3.1 Características de posición 1.3.2 Características de dispersión 1.3.3 Características de forma 1.4 Concepto de v.e. bidimensional 1.5 Distribuciones marginales y condicionadas 1.6 Covarianza 1.7 Dependencia e independencia estadística 1.8 Regresión y correlación. Introducción 1.9 Rectas de regresión 1.10 Coeficiente de determinación y coeficiente de correlación lineal 1.11 Otros tipos de ajuste 1
1.1. Introducción : conceptos básicos ¾ ESTADÍSTICA: “Estudio de los métodos de recogida
y descripción de datos, así como del análisis de esta información”
Etapas de un estudio estadístico 1 2 3 4
Recogida de datos Ordenación, tabulación y gráficos* Descripción de características* Análisis formal
* Estadística descriptiva: parte de la estadística que se ocupa de las etapas 2 y 3
Individuo, Población, Muestra ¾ Población: “Conjunto de elementos a los que se les
estudia una característica” ¾ Individuo: “Cada uno de los elementos de la población” ¾ Muestra: “Subconjunto representativo de la población” 2
Variables estadísticas. Modalidades
¾ Variable estadística (v.e.): ”Característica propia
del individuo objeto del estudio estadístico”
Ejemplos: - Estatura - Peso - Color del pelo - Nivel de colesterol - Nº de hijos de una familia
¾ Modalidad: “Cada una de las posibilidades o
estados diferentes de una variable estadística” ¾ Exhaustivas e incompatibles
Ejemplo: color del pelo: - castaño - rubio - negro
3
Tipos de variables estadísticas ¾ Cualitativas: Las características no son cuantificables
Ejemplos: Profesión Color del pelo ¾ Cuantitativas: Características cuantificables o numéricas 9 Discretas: Numéricas numerables
Ejemplos: Nº de hijos Nº de viviendas 9 Continuas: Numéricas no numerables
Ejemplos: Talla Peso Nivel de colesterol 4
1.2. Tablas estadísticas y representaciones
gráficas ¾ Variables discretas 9 Frecuencias ♦ ♦ ♦ ♦
Absolutas, ni (nº individuos modalidad i) Absolutas acumuladas, Ni = n1 + n2 + ... + ni Relativas, fi (proporcion indiv. modalidad i) Re lativas acumuladas, F i = f1 + f 2 + ... + fi
xi ni x1 ... xi ... xk
Ni
fi
Fi
n1 N1 f1 F1 ... ... ... ... ni Ni fi Fi ... ... ... ... nk Nk fk Fk n 1
Absolutas, ni Absolutas acumuladas, Ni
Relativas f i = ni / n Relativas acumuladas Fi = Ni / n 5
¾ Variables continuas: Intervalos
Intervalo Ii
xi
ni
Ni
fi
Fi
eo- e1 ... ei-1- ei ... ek-1- ek
x1 ... xi ... xk
n1 ... ni ... nk n
N1 ... Ni ... Nk
f1 ... fi ... fk 1
F1 ... Fi ... Fk
¾ Marca de clase xi (punto medio de cada intervalo)
¾ Amplitud ai (distancia entre los extremos) [ ... ) ¾ Extremos
6
Gráficos estadísticos
¾ V. e. Cualitativas: Gráfico rectangular Color Plumaje
Nº de Aves (ni)
Negro
10
Gris
14
Blanco
20
Rojo
6
Violeta
4
20
10
Negro
Gris
Blanco
Rojo
Violeta 7
¾ V. e. Cualitativas: Gráfico de sectores
Color Plumaje
Nº de Aves (ni)
Negro
10
Gris
14
Blanco
20
Rojo
6
Violeta
4
Grados de cada sector = 360º fi
violeta rojo
negro
gris blanco
8
¾ V. e. Discretas: Gráfico de barras
Nº de crías Nº animales: n i
fi
Fi
2
20
0.20
0.20
3
30
0.30
0.50
4
25
0.25
0.75
5
15
0.15
0.90
6
10
0.10
1
n = 100 35 30 25 20 15 10 5 0 2
3
4
5
6
9
¾ V. e. Discretas: Curva acumulativa
de distribución Nº de crías Nº animales: n i
fi
Fi
2
20
0.20
0.20
3
30
0.30
0.50
4
25
0.25
0.75
5
15
0.15
0.90
6
10
0.10
1
n = 100
1 0.90
• • •
0.75 •
0.50
•
0.20
2
3
4
5
6 10
¾ V. e. Continuas: Histograma
hi
Estatura
ni
140-160 160-170 170-180 180-190 190-200
30 22 20 18 10 100
hi = ni / a i 1.5 2.2 2 1.8 1
¾ “El área de cada rectángulo es proporcional a la frecuencia”
2.2 2 1.8 1.5
1
140
160 170 180 190 200 11
¾ V. e. Continuas: Curva
acumulativa de distribución Talla 140-160 160-170 170-180 180-190 190-200
ni 30 22 20 18 10 100
fi
Fi
0.30
0.30
0.22
0.52
0.20
0.72
0.18
0.90
0.10
1
1 0.90 0.72 0.52 0.30
140
160
170
180
190
200 12
1.3. Características de variables
estadísticas unidimensionales ^ 1.3.1
Características de Posición
Media aritmética k
∑ ni xi
k
x = ∑ fi xi = i =1 i =1
Estatura
n
Nº Personas M. Clase
ni
xi
nixi
140-150
20
145
2900
150-160
100
155
15500
160-180
80
170
13600
180-200
10
190
1900
n = 210
33900
k
∑ ni xi
Media : x = i =1
n
=
33900 210
= 161.42 13
Moda Valor de la variable más frecuente 9 Puede haber más de una moda : Plurimodal ¾ Variables discretas
Datos en serie 2, 2, 3, 3, 3, 3, 5, 6, 7 Mo = 3
Datos en tabla
W Ejemplo
xi 1
ni 34
2
36
3
45
4
22
5
17
Mo = 3
14
¾ Variables continuas
Mo = ei −1 +
W Ejemplo
Mo = 160 +
h i − h i −1
(h i − h i−1 ) + (hi − h i+1 )
ai
xi
ni
hi =ni / ai
140-160 160-170 170-180 180-190 190-200
30 22 20 18 10 100
1.5 2.2 2 1.8 1
( 2.2 − 1.5) × 10 = 167.777 ( 2.2 − 1.5) + ( 2.2 − 2 )
¾ Observaciones:
1. Puede utilizarse la frecuencia relativa 2. Si las amplitudes son iguales se puede proceder directamente con las frecuencias 15
Mediana Valor de la variable que ocupa el lugar central en una serie de datos ordenados. El 50% de los elementos de la población tienen un valor de la variable menor de la mediana. El 50% de los elementos de la población tienen un valor de la variable mayor. ¾ Variables discretas
Datos en serie
W Ejemplos Nº impar de observaciones:
:
2, 2, 2, 3, 5, 6, 7, 7, 8
Me = 5
Nº par de observaciones: 4, 6, 6, 6, 7, 8, 8, 9
:
Me = 6 – 7
Indeterminado entre 6 y 7 16
¾ Variables discretas
Datos en tabla W Ejemplo
xi
ni
Ni
fi
Fi
0
4
4
0.142
0.142
1
6
10
0.214
0.357
2
10
20
0.357
0.714
3
5
25
0.178
0.892
4
3
28
0.107
1
28
n/2 =14 Fi= 1/2
Me = 2
1
¾ Observación: Si n/2 coincide con un Ni
la mediana está indeterminada entre xi y xi+1
17
¾ Variables continuas
n 1 − Ni −1 − Fi −1 Me = ei −1 + 2 ai = ei −1 + 2 ai ni fi W Ejemplo
Tallas
ni
Ni
fi
Fi
140-150
15
15 0.15 0.15
150-160
30
45 0.30 0.45
160-170
25
70 0.25 0.70
170-180
20
90 0.20 0.90
180-200
10 100 0.10
n/2 = 50 Fi = 1/2
1
100 Me = 160 +
0.5 − 0.45 × 10 = 160 + 2 = 162 0.25
¾ Observación: Si n/2 coincide con un Ni
la mediana es el extremo superior del intervalo que le corresponde 18
Percentiles Definición: Pk, k:1,2,...,99, “percentil k”, valor de la variable que deja por debajo, el k% de los valores de la variable Q1 = P25 → Cuartil 1º Q2 = P50 → Cuartil 2º = Me Q3 = P75 → Cuartil 3º
Cuantiles, aún más general
D1 = P10 → Decil 1º D2 = P20 → Decil 2º ….
D9 = P90 → Decil 9º
Cálculo para v.e. discretas: Igual que la mediana, cambiando n/2 por nk/100
Cálculo para v.e. continuas: nk k − Ni−1 − Fi−1 Pk = ei −1 + 100 ai = ei−1 + 100 ai ni fi 19
W Ejemplos percentiles v.e. discreta
xi
ni
Ni
2
20
20
3
30
50
4
44
94
5
20
114
6
10
124
nk/100 = 124x40/100 = 49.6
nk/100 = 124x95/100 = 117.8
124 Percentil 40, P40 = 3
Percentil 95, P95 = 6
nk/100 = 124x25/100 = 31
Percentil 25, P25 = 3 = Q1
nk/100 = 124x50/100 = 62
Percentil 50, P50 = 4 = Me = Q2
nk/100 = 124x75/100 = 93
Percentil 75, P75 = 4 = Q3
20
W Ejemplos percentiles v.e. continua
Tallas
ni
Ni
fi
Fi
140-150
15
15 0.15 0.15
150-160
30
45 0.30 0.45
160-170
25
70 0.25 0.70
170-180
20
90 0.20 0.90
180-200
10 100 0.10
P40 P75
1
100
nk k − Ni −1 − Fi −1 Pk = ei −1 + 100 ai = ei −1 + 100 ai ni fi 40 − 15 0.4 − 0.15 P40 = 150 + ×10 = 150 + ×10 = 158.33 30 0.30
P75 = 170 +
75 − 70 0.75 − 0.70 ×10 = 170 + ×10 = 172.5 = Q3 20 0.20
21
^ 1.3.2.
Características de Dispersión
9 “Miden la Homogeneidad de las observaciones”
Rango o recorrido
¾ Valor máximo menos valor mínimo de la variable
Recorrido intercuartílico
¾ Q3 – Q1
22
Varianza
k
(
∑ ni x i − x
σ 2 = i =1
n
)
k
2
2 n x ∑ ii
= i =1
n
−x
2
Desviación típica
σ = σ2
Coeficiente de variación
σ C. V . = x
23
W Ejemplo
xi
ni
nixi
nixi2
4 6 8 10 12
20 40 44 36 22 162
80 240 352 360 264 1296
320 1440 2816 3600 3168 11344
k
∑ ni x i 2
σ 2 = Var [ X ] = i =1
n
2 11344 1296 −x = − = 6.02 162 162 2
σ = σ 2 = 6.02 = 2.4535
24
Momentos no centrales (Respecto al origen)
k
r n x ∑i i k m r = ∑ fi x i r = i =1 n i =1 k
∑ ni xi
k
r = 1 → m1 = ∑ fi xi = i =1 i =1
n
=x
k
2 n x ∑ ii
k
r = 2 → m 2 = ∑ fi xi 2 = i =1 i =1
n
k
σ
2
2 n x ∑ii
= i =1
n
2
( )
− x = m 2 − m1
2
25
Momentos centrales (Respecto a la media)
k
∑ ni ( x i − x )
µ r = i =1
r
n
k
∑ ni ( x i − x )
r = 1 → µ1 = i =1
n
k
∑ ni ( x i − x )
r = 2 → µ 2 = i =1
n
=0
2
=σ2
26
^ 1.3.3
Características de forma
Coeficiente de Sesgo (Asimetría)
γ1 =
µ3 σ3
y
Si γ 1 = 0 ⇒ Distribución simétrica
y
Si γ 1 > 0 ⇒ Distribución sesgada a la derecha
y
Si γ 1 < 0 ⇒ Distribución sesgada a la izquierda
27
Coeficiente de Curtosis (Aplastamiento)
γ2 =
µ4 σ
4
−3
Distribución igual de aplastada que la distribución Normal
y Si
γ2 =0 ⇒
y Si
Distribución menos aplastada γ2 >0 ⇒ que la distribución Normal
y Si
γ 2 < 0 ⇒ Distribución más aplastada que la distribución Normal
28
1.4 Concepto de variable estadística
bidimensional
W Ejemplo . X: “Peso”, Y: “Estatura” X\Y
140-160 160-180
180-200 >200 Marginal X
40-60
10
6
2
0
18
60-80
8
12
6
2
28
80-100
1
8
10
6
25
Marginal Y
19
26
18
8
71
9 Frecuencias Marginales Frecuencias Marginales de X Frecuencias Marginales de Y 9 Frecuencias Condicionadas Frecuencias Condicionadas de X Frecuencias Condicionadas de Y
29
1.5 Distribuciones marginales y
condicionadas ¾ Distribución marginal de X
W Distribución de la variable X: “Peso”
X \Y
140-160 160-180
180-200 >200 Marginal X 2 0 18
40-60
10
6
60-80
8
12
6
2
28
80-100
1
8
10
6
25
Marginal Y
19
26
18
8
71
30
¾ Distribución marginal de X W Distribución de la variable X: “Peso”
X
Frecuencias Marginales
40-60
18
60-80
28
80-100
25 71
9 Media Marginal de X 9 Mediana Marginal de X 9 Moda Marginal de X 9 Varianza Marginal de X
31
¾ Distribución marginal de Y
W Distribución de la variable Y: “Estatura”
X\Y
140-160 160-180
180-200 >200 Marginal X
40-60
10
6
2
0
18
60-80
8
12
6
2
28
80-100
1
8
10
6
25
Marginal Y
19
26
18
8
71
32
¾ Distribución marginal de Y W Distribución de la variable Y: “Estatura” Y
Frecuencias Marginales
140-160
19
160-180
26
180-200
18
>200
8 71
9 Media Marginal de Y 9 Mediana Marginal de Y 9 Moda Marginal de Y 9 Varianza Marginal de Y
33
¾ Distribuciones de X
condicionadas a valores de Y
W Ejemplo . Distribución de X condicionada a 160 < Y < 180
X\Y
140-160 160-180
180-200 >200 Marginal X 2 0 18
40-60
10
6
60-80
8
12
6
2
28
80-100
1
8
10
6
25
Marginal Y
19
26
18
8
71
34
W Ejemplo . Distribución de X condicionada a 160 < Y < 180
X
Frecuencias condicionadas
40-60
6
60-80
12
80-100
8 26
9 Medias condicionadas de X
9 Varianzas condicionadas de X
35
¾ Distribuciones de Y
condicionadas a valores de X
W Ejemplo . Distribución de Y condicionada a 60 < X < 80
X\Y
140-160 160-180
180-200 >200 Marginal X
40-60
10
6
2
0
18
60-80
8
12
6
2
28
80-100
1
8
10
6
25
Marginal Y
19
26
18
8
71
36
W Ejemplo . Distribución de Y condicionada a 60 < X < 80
Y
Frecuencias condicionadas
140-160
8
160-180
12
180-200
6
>200
2 28
9 Medias condicionadas de Y
9 Varianzas condicionadas de Y
37
1.6 Covarianza
Cov [ X , Y ] = σ x y =
∑∑ n ij ( xi − x )( y j − y ) i
j
n
=
∑∑ nij xi y j =
i
j
n
−x y
38
1.7 Dependencia e
independencia estadística
¾ Independencia estadística No hay relación entre las variables
Si n ij =
n i.n. j n
∀ i, j
¾ Dependencia estadística Hay relación entre las variables El grado de relación se mide mediante un coeficiente de asociación
39
W Ejemplo. Variables X e Y independientes
X\Y
Y1
Y2
Y3
Y4
ni ^
X1
n11
n12
n13
n14
n1 ^
=2
=6
=4
=8
= 20
n21
n22
n23
n24
n2 ^
=3
=9
=6
= 12
= 30
n31
n32
n33
n34
n3 ^
=1
=3
=2
=4
= 10
n ^1
n ^2
n ^3
n ^4
n
=6
= 18
= 12
= 24
= 60
X2
X3
n ^j
Independencia estadística
Si nij = n 23 =
n 2. n.3
n 31 =
n 3. n.1
n n
=
30 × 12 =6 60
=
10 × 6 =1 60
ni. n. j n
∀ i, j
40
W Ejemplo. Variables X e Y no independientes X\Y
Y1
Y2
Y3
Y4
ni ^
X1
n11
n12
n13
n14
n1 ^
=3
=6
=4
=8
= 21
n21
n22
n23
n24
n2 ^
=3
= 10
=6
= 12
= 31
n31
n32
n33
n34
n3 ^
=1
=3
=2
=4
= 10
n ^1
n ^2
n ^3
n ^4
n
=7
= 19
= 12
= 24
= 62
X2
X3
n ^j
Independencia estadística
Si nij = n 23 =
n 2. n.3
n 31 ≠
n 3. n.1
n n
=
31 × 12 =6 62
ni. n. j n
∀ i, j
10 × 7 = = 1.129 ≠ 1 62 41
W Ejemplo. Dependencia Funcional .- Dadas las siguientes distribuciones bidimensionales: 1. ¿Son independientes las variables X e Y? 2. ¿Dependen funcionalmente las variables X e Y? a.
b.
c.
d.
X\Y
10
15
20
1 2 3
0 1 0
3 0 0
0 0 5
4
0
1
0
X\Y
10
15
20
25
1 2 3
0 0 2
3 0 0
0 1 0
4 0 0
X\Y
10
15
20
1 2 3
0 3 0
5 0 0
0 0 2
X\Y
10
15
20
1 2 3
3 1 0
2 0 1
0 2 1
42
1. ¿Son independientes las variables X e Y? a. X\Y
10
15
20
Marginal X
1
0
3
0
3
2
1
0
0
1
3
0
0
5
5
4
0
1
0
1
Marginal Y
1
4
5
10
n12 ≠
n 1. n.2 n
3× 4 = = 1.2 ≠ 3 10
Las variables X e Y no son independientes b.
X\Y
10
15
20
25
Marginal X
1
0
3
0
4
7
2
0
0
1
0
1
3
2
0
0
0
2
Marginal Y
2
3
1
4
10
n 23 ≠
n 2. n.3 n
=
1×1 = 0.1 ≠ 1 10
Las variables X e Y no son independientes
43
1. ¿Son independientes las variables X e Y? c.
X\Y
10
15
20
Marginal X
1
0
5
0
5
2
3
0
0
3
3
0
0
2
2
Marginal Y
3
5
2
10
n11 ≠
n 1. n.1 n
5×3 = = 1.5 ≠ 0 10
Las variables X e Y no son independientes d.
X\Y
10
15
20
Marginal X
1
3
2
0
5
2
1
0
2
3
3
0
1
1
2
Marginal Y
4
3
3
10
n 21 ≠
n 2. n.1 n
=
3× 4 = 1.2 ≠ 1 10
Las variables X e Y no son independientes 44
2. ¿Dependen funcionalmente las variables X e Y? a. X\Y
10
15
20
1
0
3
0
2
1
0
0
3
0
0
5
4
0
1
0
Y Depende funcionalmente de X X No Depende funcionalmente de Y
b.
X\Y
10
15
20
25
1
0
3
0
4
2
0
0
1
0
3
2
0
0
0
Y No Depende funcionalmente de X X Depende funcionalmente de Y
45
2. ¿Dependen funcionalmente las variables X e Y? c.
X\Y
10
15
20
1
0
5
0
2
3
0
0
3
0
0
2
X Depende funcionalmente de Y Y Depende funcionalmente de X
d.
X\Y
10
15
20
1
3
2
0
2
1
0
2
3
0
1
1
X No Depende funcionalmente de Y Y No Depende funcionalmente de X
46
1.8 Regresión y correlación.
Introducción
Regresión
¾ Búsqueda de una función que relacione ambas variables y sirva para predecir una variable a partir de la otra
y = f(x)
Correlación ¾ Estudio del nivel de relación entre las variables
9 Nube de puntos (diagrama de dispersión): gráfico de las observaciones (datos bidimensionales)
9 Línea o función de regresión: tipo de función que mejor se ajuste a la nube de puntos: _ Lineal ; Cuadrática; Exponencial… 47
1.9 Rectas de regresión Recta de mínimos cuadrados de Y / X
Y
y = a + bx
*
* *
yj *
*
*
(xi, yj* )
*
(xi, yj )
eij
yj *
*
X
xi Residuos = eij = y j − ( a + bxi )
min ∑∑ eij = min ∑∑ 2
i
j
i
= min ∑∑ i
(
j
y j − ( a + bxi )
(
)
2 * yj − yj =
)
2
j
Ecuaciones normales 48
Recta de mínimos cuadrados de Y / X
y = f ( x) = a + b x
Cov [ X , Y ] σ xy b= = = 2 Var [ X ] σx
∑ ni x i yi − x y n ∑ ni x i 2 n
−x
2
a = y − bx
(
y− y =b x−x
)
b = coeficiente de regresión de Y / X “Variación de Y si X aumenta en una unidad”
49
Recta de mínimos cuadrados de X / Y
x = f ( y) = c + d y
Cov [ X , Y ] σ xy d= = = 2 Var [Y ] σy
∑ ni x i yi − x y n ∑ ni y i 2 n
−y
2
c = x−d y
(
x−x=d y− y
)
d = coeficiente de regresión de X / Y “Variación de X si Y aumenta en una unidad”
50
1.10 Coeficiente de determinación y
coeficiente de correlación lineal Coeficiente de determinación ¾ “Proporción de la varianza explicada por la regresión”
r2 =
2 σ xy
;
σ x2 σ y2
0 ≤ r2 ≤ 1
Coeficiente de correlación lineal de Pearson
r=
σ xy σ xσ y
;
−1 ≤ r ≤ 1
r = 0 ⇔ Independencia r > 0 ⇔ Dependencia directa r < 0 ⇔ Dependencia inversa r = ± 1 ⇔ Dependencia funcional lineal 51
W Ejemplo. X= “Estatura”, Y= “Peso”
xi
yi
x i yi
x2i
y 2i
160
52
8320
25600
2704
172
64
11008
29584
4096
174
65
11310
30276
4225
176
72
12672
30976
5184
180
78
14040
32400
6084
Σ=862 Σ= 331 Σ= 57350 Σ= 148836 Σ= 22293
x=
σ xy
862 = 172.4 ; 5
y=
331 = 66.2 5
n i x i yi 57350 ∑ = − xy = − 172.4
σx
5
n
×
66.2 = 57.12
2 n x 2 148836 ∑ i i 2 = −x = − 172.42 = 45.44
5
n
2
σy =
2 n y ∑ i i
n
2
−y =
22293 − 66.22 = 76.16 5
52
y = a + bx b=
Cov [ X , Y ] Var [ X ]
=
σ xy σ x2
=
57.12 = 1.257 45.44
a = y − bx = 66.2 − 1.257 × 172.4 = −150.5068 y = a + b x = −150.5068 + 1.257 x Para x = 170
⇒
y = a + bx = −150.5068 + 1.257 × 170 = 63.1832 r=
σ xy σx σy
=
57.12 45.44
= 0.9708
76.16
53
1.11 Otros tipos de ajuste
¾ Parabólico
y = ax 2 + bx + c
¾ Exponencial
y = a bx
¾ Potencial
y = a xb
¾ Hiperbólico
y=
a x
54