Story Transcript
1
Medidas de Tendencia Central La Media La media (o promedio) de una muestra x1, x2,…, xn de tamaño n de una variable o característica x, se define como la suma de todos los valores observados en la 1 n muestra, dividida por el número total de observaciones n, es decir, X = å X i . Por n i =1
ejemplo si los datos son x1 = 1, x2 =2, x3=3, entonces la media es 1/3(1+2+3)=2. La Mediana Dado un conjunto de n observaciones x1, x2,…, xn, de la variable o característica x, se define la mediana de este conjunto de valores, como aquel valor que no es superado ni supera a más de la mitad de las n observaciones, arregladas en orden de magnitud creciente o decreciente.
2
Cálculo de la Mediana: Ordenar los datos en orden de magnitud creciente X (1) , X ( 2) ,..., X ( n ) , entonces la
mediana esta definida mediante la siguiente fórmula: si n es impar ì X ( n +1) / 2 ïï Me = í ï X ( n / 2) + X ( n / 2+1) si n es par ïî 2 En el ejemplo previo, la mediana Me=2. Nota: En general, la mediana no se ve afectada por valores muy grandes o por
valores muy pequeños en los datos en comparación a la media. Por ejemplo, si x3= 40, la media es 1/3(1+2+40)=14.33, sin embargo la mediana es Me=2.
3
La Moda
La moda de una muestra x1, x2,…, xn, es aquel valor de la variable que se presenta con mayor frecuencia; es decir es el valor que más se repite, y se denota por Mo. Los Percentiles
Los percentiles son valores que dividen a la muestra ordenada en forma ascendente (o descendente) en 100 partes iguales, y se denotan por Pi , i = 1,2,...,99. Cálculo de los Percentiles:
1. Se ordena los datos en forma ascendente (o descendente) X (1) , X ( 2) ,..., X ( n ) (ó X ( n ) , X ( n −1) ,..., X (1) ).
4
2. Se determina el percentil de acuerdo a lo siguiente: * Si
i (n + 1) es un entero, entonces Pi = X æ i (n +1) ö ç ÷ 100 100 è
* Si
ø
i (n + 1) es fraccionario, hacemos una interpolación lineal entre los dos 100
valores correspondientes a las dos observaciones entre las cuales se encuentra la fracción. Observación:
Para el caso en que i = 25,50,75, se denominan cuartiles, y cuando i = 10,20,...,90 , se denominan deciles.
5
Medidas de Dispersión
La Varianza
La varianza de una muestra x1, x2,…, xn de una variable o característica x, se define como la media del cuadrado de las desviaciones de las observaciones con respecto al promedio de esos datos. La varianza muestral entonces queda definida como:
(
)
1 æ n 2 ö÷ 2 ç S = å X −X ÷ n − 1çi = 1 i è ø
Por ejemplo la varianza de x1=1,x2=2,xn=3, es 1/2[(1-2)2+(2-2)2+(3-2)2]=1.
6
Un posible inconveniente para la interpretación de la varianza es que, por el efecto del cuadrado en la definición, no está expresada en las mismas unidades que los datos, sino en su cuadrado (por ejemplo, si los datos se toman en metros, la varianza se expresará en metros cuadrados). Como una manera de eliminar este inconveniente, se define la desviación estándar. Desviación Estándar
La desviación estándar se define por la raíz cuadrada positiva de la varianza. S=
(
)
1 æç n 2 ö÷ å X −X ÷ n − 1çi = 1 i è ø
La desviación estándar de x1=1,x2=2,xn=3, es σ=
1 æ 2 2 2 ç (1− 2) + (2 − 2) + (3 − 2) ö÷ = 1 = 1 . ø 3 −1 è
7
Rango
El rango se calcula como la diferencia entre el máximo valor y el mínimo valor presentes en el conjunto de datos: R = X máx − X mín . Rango Intercuartil
El rango intercuartil es la longitud del intervalo donde está contenido el 50% central de los datos: RI = Q3 − Q1 o RI = P75 − P25 .
8
Medidas de Tendencia Central (datos tabulados) La Media
Si los datos han sido clasificados en m clases en una tabla de frecuencias con marca de clase y i ( y i = punto medio de cada clase ) y frecuencia absoluta ni , i = 1,2,..., m , la media aritmética de estos datos está definida por: 1 m X = å yn ni =1 i i
La Mediana
Hay que distinguir si la variable es discreta o continua.
9
• Variable Discreta: El procedimiento para calcular la mediana es:
1. Se construye la tabla de distribución de frecuencias absolutas acumuladas “menor que”. 2. Se determina la menor frecuencia absoluta acumulada N j que supera a n / 2 . Es decir n < Nj 2 En esta situación puede ocurrir que N j −1 ≤
n ≥ N j −1 . O sea que se puede tener 2
n ≤ Nj 2
10
i. Cuando
ii. Cuando
n > N j −1 , entonces la mediana es: Me = y j . 2 n = N j −1 , en esta situación se acostumbra a tomar como valor de 2
la mediana Me =
y j −1 + y j 2
.
• Variable Continua: el procedimiento consiste en:
1. Construir la distribución de frecuencias absolutas acumuladas “menor que”. 2. Determinar la menor de las frecuencias absolutas acumuladas N j tal que Nj >
n 2
11
En esta situación puede ocurrir que N j −1 ≤ i. Si ocurre que
n ≥ N j −1 . Es decir, se puede tener 2 n < Nj 2
n = N j −1 , la mediana está dada por: Me = y 'j −1 2
donde y 'j −1 = el límite inferior de la clase mediana. ii. Si ocurre que
n > N j −1 , la mediana está dada por: 2
é n ù − N j − 1 ê ú Me = y 'j −1 + c j ê 2 ú − N N j −1 ú ê j ë û
cj
=
Nj
= Frecuencia absoluta acumulada de la clase mediana
amplitud de la clase mediana
12
Los Percentiles
La fórmula para el cálculo de los percentiles es la siguiente: é in ù − N j −1 ú ê100 ' Pi = y j −1 + c j ê ú − N N j −1 ú ê j û ë
donde y 'j −1 = límite inferior de la clase que contiene a Pi . cj
= amplitud de la clase que contiene a Pi .
N j = frecuencia absoluta acumulada de la clase que contiene a Pi .
13
La Moda
Hay que distinguir si la variable es discreta o continua. • Variable Discreta: En este caso la moda se determina fijándose en el valor de la
variable que más se repite. • Variable Continua: La fórmula para encontrar la moda es la siguiente: Mo =
y 'j −1
ù é n j − n j −1 + cj ê ú êë (n j − n j −1 ) + (n j − n j +1 ) úû
donde: y 'j −1 = límite inferior de la clase modal. nj
= frecuencia absoluta de la clase modal.
cj
= amplitud de la clase modal.
14
Medidas de Dispersión (datos tabulados) La Varianza
La varianza para datos tabulados está dada por la siguiente fórmula :
(
)
ö 1 æ m 2 2 ç S = å ni Yi − Y ÷÷ ç n −1 i = 1 è ø
donde: ni = frecuencias absolutas, Desviación Estándar
Está dada por S = S 2 .
Yi = marcas de clase,
Y = promedio.
15
Diagramas de Caja El diagrama de caja (Boxplot) es una representación gráfica de los datos que permite analizar conjuntamente una serie de medidas numéricas, tales como el mínimo, el máximo, la mediana y los cuartiles. En este gráfico es posible observar características de los datos como simetría y posibles observaciones atípicas. Los pasos a seguir para la construcción del diagrama de caja son los siguientes: 1. Ordenar los datos y obtener X mín , X máx , Q1 , Q2 , Q3 . 2. Dibujar un rectángulo cuyos extremos sean Q1 y Q3 , e indicar Q2 mediante una línea.
16
3. Calcular los “límites admisibles” superior e inferior: LI = Q1 − f * (Q3 − Q1 ) LS = Q1 + f * (Q3 − Q1 ) Se consideran posibles valores atípicos a los situados fuera del intervalo ( LI , LS ) . El factor f puede variar entre diferentes textos o software estadísticos. Algunos de los valores más usados de f son f = 0.75 y f = 1.5 . 4. Dibujar una línea que vaya desde cada extremo del rectángulo al valor más alejado no atípico. 5. Indicar todos los datos que están fuera del intervalo admisible marcándolos como atípicos.
17
Ejemplo Considere el siguiente conjunto de datos (puntajes de escala de depresión). 2 10 14 16 16 19 19
5 11 14 16 17 19 20
6 11 14 16 17 19 20
8 11 14 16 17 19
8 13 14 16 18 19
9 13 15 16 18 19
9 14 15 16 18 19
A partir de estos datos construyamos un diagrama de caja.
18
Construcción del Diagrama de Caja.
1. Primero calcularemos la mediana, puesto que el número de observaciones es 45 (n impar) la mediana es aquel valor que ocupa la ubicación (45+1)/2, en los datos ordenados en forma ascendente, es decir, la observación 23. Entonces, Me=16. 2. Del conjunto de datos se encontrará que Q1 = 13 y Q3 = 18 . 3. Tomando f = 1.5 tenemos que LI = 5.5 y LS = 25.5 . 4. Existen dos observaciones que están fuera del intervalo admisible.
El gráfico se muestra a continuación.
19
Diagrama de Caja depscore 20
15
10
5
0
'Box plot of Koopmans depression scores'