Story Transcript
La desviación estándar y otras medidas de dispersión
CAPÍTULO 4 DISPERSION O VARIACION La dispersión o variación de los datos es el grado en que los datos numéricos tienden a esparcirse alrededor de un valor promedio. Existen diversas medidas de dispersión o variación, siendo las más comunes el rango, la desviación media, el rango semiintercuartilar, el rango percentilar 10-90 y la desviación estándar.
EL R A N G O El rango de un conjunto de números es la diferencia entre el número mayor y el menor del conjunto. EJEMPLO
1
El rango del conjunto 2, 3, 3, 5, 5, 5, 8, 10, 12 es 12 - 2 = 10. Algunas veces el rango se obtiene simplemente señalando el número más pequeño y el más grande; en el conjunto anterior, por ejemplo, el rango podría indicarse como de 2 a 12 o 2-12.
LA DESVIACION MEDIA La desviación media o desviación promedio de un conjunto de N números X X abrevia D M y se define como: u
Desviación media (DM) =
El* N
N
2
A se
\X - X\
donde Xes la media aritmética délos números y \X- XI es el valor absoluto de U desvaen de X respecto de X. (El valor absoluto de un número es el número sin el signo asociado > wt indica con dos líneas verticales colocadas a los lados del número: así í = -. — 3 - • t» = 6 y 1-0.841 = 0.84.)
90
CAPITULO
4
EJEMPLO
M
2
La desviación
estándar
y otras
medidas
de
dispersión
Calcule la desviación media del conjunto 2, 3, 6, 8, 11. .. .. 2 + 3 + 6 + 8 + 11 Media antmetica (X) = =6 M
D
M
= | 2 - 6 | + | 3 - 6 | + |6-6| + |8-6| + |11-6|
=
k
| - 4| + | - 3| + |0| + |2| + |5|
=
4+ 3+ 0+ 2+ 5
=
^
Si X X ,..., X ocurren con frecuencias/,,/ ,..., f , respectivamente, la desviación media puede expresarse u
2
K
2
U
DM
K
Hf\x-x\ N
(2)
\X-X\
N
donde A' = X %\ f¡ = Z/- Esta forma es útil para datos agrupados, donde las X¡ representan las marcas de clase y las f son las frecuencias de clase correspondientes. En ocasiones la desviación media se define en términos de desviaciones absolutas con respecto a la mediana u otro promedio, en lugar de hacerlo en relación con la media. Una propiedad interesante de la suma Zjl, \Xj - a\ radica en que es mínima cuando a es la mediana (es decir, la desviación media con referencia a la mediana es mínima). Obsérvese que sena más adecuado utilizar el término desviación media absoluta que desviación media. }
EL R A N G O SEMIINTERCUARTILAR El rango semiintercuartilar o desviación cuartilar de un conjunto de datos se denota por Q y se define como Q =
Q3-Q1
(3)
donde Q¡ y Q son el primer y tercer cuartiles de los datos (véanse los problemas 4.6 y 4.7). Algunas veces se usa el rango intercuartilar Q —Q , aunque el rango semiintercuartilar es más común como medida de dispersión. 3
}
x
EL RANGO PERCENTILAR 10-90 El rango percentilar 10-90 de un conjunto de datos se define como Rango percentilar 10-90 = P - P¡
(4)-
0
90
donde P y P^ son los percentiles 10o. y 90o. de los datos (véase el problema 4.8). También puede utilizarse el rango semipercentilar 10-90, 5(^,0 - P ), pero esto no es frecuente. í0
10
LA DESVIACION ESTANDAR La desviación estándar de un conjunto N de números X¡, X define como:
2
s =
N
N
N
A^se denota por 5 y se
x?
(5)
donde x representa las desviaciones de cada uno de los números X¡, respecto de la X. Por lo tanto, 5 es la media cuadrática de las desviaciones en relación con la media o, como se le llama en forma común, desviación de la media cuadrática (véase pág. 63).
Métodos
cortos
para
calcular
la desviación
estándar
•
91
Si X X ,..., X ocurren con frecuencias/,,/ ,..., f , respectivamente, la desviación estándar suele expresarse u
2
K
2
K
donde N = X%\ f¡ = X/- De esta forma, es útil para datos agrupados. Algunas veces la desviación estándar de los datos de una muestra se define con (.'• reemplazando N en los denominadores de las expresiones de las ecuaciones (5) y (6). ya que el valor resultante representa un mejor estimado de la desviación estándar de la población original. Para los valores grandes de N (de modo preciso N > 30), prácticamente no existe diferencia entre las dos definiciones. Además, cuando se necesita el mejor estimado, siempre podemos obtenerlo multiplicando la desviación estándar, calculada de acuerdo con la primera definición, por VAV(Af - 1). Por lo tanto, se usarán las formas (5) y (6).
LA VARIANZA La varianza de un conjunto de datos se define como el cuadrado de la desviación estándar; por lo tanto, se representa como s en las ecuaciones (5) y (6). Cuando es necesario distinguir la desviación estándar de una población de la desviación estándar de una muestra obtenida de dicha población, con frecuencia se utiliza el símbolo i para esta última y a (sigma griega minúscula) para la primera. Por lo tanto, representan la varianza de una muestra y la varianza de una población, respectivamente. 2
MÉTODOS CORTOS PARA CALCULAR LA DESVIACIÓN ESTÁNDAR Las ecuaciones (5) y (6~) pueden expresarse, respectivamente, en las formas equivalentes:
2
donde X denota la media de los cuadrados de los distintos valores de X. mientras que X denota el cuadrado de la media de los distintos valores de X (véanse los problemas 4.12 al 4.14). Si dj = Xj-A son las desviaciones de X con respecto a una constante arbitraria A, los resultados de (7) y (8) se convierten, respectivamente, en ;
(Véanse los problemas 4.15 y 4.17.)
l -
;
-.I
-
•
. r rer-
z: z- erandar
y otras medidas
de
dispersión
Cuando los datos se encuentran agrupados en una distribución de frecuencias, cuyos intervalos de clase son del mismo tamaño c, se tiene d¡ - cu¡ oX¡ = A + cu¡ y el resultado (70 se convierte en
2
s =c
£ /«
(Z fu
N
N
un
Esta fórmula ofrece un método muy breve para calcular la desviación estándar y debe utilizarse siempre para datos agrupados cuando el tamaño de los intervalos de clase sea igual. Es denominado método de codificación y es exactamente análogo al utilizado en el capítulo 3 para calcular la media aritmética de datos agrupados. (Véanse los problemas 4.16 al 4.19.)
PROPIEDADES DE LA DESVIACION ESTANDAR 1.
La desviación estándar puede definirse como
s =•
Ñ
donde a es un promedio cercano a la media aritmética. De todas las desviaciones estándar, la mínima es aquella en que a = X, debido a la propiedad 2 del capítulo 3. Esta propiedad proporciona una razón importante para definir la desviación estándar como se hizo antes. Para probar esta propiedad, véase el problema 4.27. En distribuciones normales (véase el capítulo 7), resulta que (como se muestra en la figura 4-1): a)
68.27% de los casos están incluidos entre X-s y X + s (es decir, una desviación estándar a cada lado de la media). b) 95.45% de los casos están incluidos entre X- 2s y X + 2s (es decir, dos desviaciones estándar a cada lado de la media). c) 99.73% de los casos están incluidos entre X-3s y X + 3s (es decir, tres desviaciones estándar a cada lado de la media).
En distribuciones moderadamente asimétricas, los porcentajes anteriores pueden ser aproximados (véase el problema 4.24).
X-3s
3.
X + 3s
7
Suponga que dos conjuntos con A , y números (o dos distribuciones de frecuencias con frecuencias totales N¡ y N ) tienen varianzas dadas por s] y sf, respectivamente, y la misma media X. Entonces la varianza combinada de ambos conjuntos (o dos distribuciones de frecuencias) estará dada por 2
2
NjS + N s\ V , +N 2
(12)
2
Obsérvese que se trata de una media aritmética ponderada de las varianzas. El resultado puede generalizarse a tres o más conjuntos.
Dispersión
9
absoluta
y relativa:
coeficiente
de variación
•
93
COMPROBACIÓN DE CHARLIER i«- por
La comprobación de Charlier en los cálculos de la media y de la desviación medio del método de codificación, hace uso de las identidades £ / ( « + 1 ) = £/« + £ / £
/ ( " + l ) = E f(u 2
2
+ 2u+\)
= E > + JV
2
2
= £ fu + 2 £ / " + £ / = £ fu +
2¿Z fu + N
(Véase el problema 4.20.)
CORRECCIÓN DE SHEPPARD PARA LA VARIANZA El cálculo de la desviación estándar tiene cierto grado de error como resultado de la agrupación de los datos en clases (error de agrupación). Para corregirlo, se utiliza la fórmula 2
c Varianza corregida = varianza de datos agrupados - —
(73)
2
donde c es el tamaño del intervalo de clase. La corrección c /12 (que se resta) es llamada corrección de Sheppard. Se usa para distribuciones de variables continuas, donde las "colas" van gradualmente hacia cero en ambas direcciones. Los estadísticos difieren respecto de cuándo y dónde debe aplicarse la corrección de Sheppard. Ciertamente no antes de examinar de manera cuidadosa la situación, ya que con frecuencia se tiende a sobrecorregir, reemplazando un error por otro. En este libro no se utilizará la corrección de Sheppard, a menos que se indique lo contrario.
RELACIONES EMPÍRICAS ENTRE MEDIDAS DE DISPERSIÓN Para distribuciones moderadamente sesgadas, se tienen las fórmulas empíricas Desviación media = ^(desviación estándar) Rango semiintercuartilar = § (desviación estándar) Ambas son consecuencia del hecho de que la desviación media y el rango semiintercuartilar para la desviación estándar son iguales a 0.7979 y 0.6745 veces la desviación estándar, respectivamente.
DISPERSION ABSOLUTA Y RELATIVA: COEFICIENTE DE VARIACIÓN La variación real o dispersión, determinada a partir de la desviación estándar u otra medida de dispersión, se denomina dispersión absoluta. Sin embargo, una variación (o dispersión) de 10 pulgadas (pulg), al medir una distancia de 1 000 pies, tiene un efecto muy diferente si la misma variación de 10 pulg se presenta en una distancia de 20 pies. Una medida de < efecto es sustituida por la dispersión relativa, que se define como dispersión absoluta Tpromedio Si la dispersión absoluta es la desviación estándar s tonces la dispersión relativa se denomina coeficiente de variación o < sión; la misma se denota por V y está dada por Dispersión relativa =
_c jes-' aaon estándar
y
otras
medidas
de
dispersión
Coeficiente de variación (V) =-=-
(75)
que por lo general se expresa en forma de porcentaje. También existen otras posibilidades (véase el problema 4.30). Obsérvese que el coeficiente de variación es independiente de las unidades usadas. Por este motivo es útil para comparar distribuciones con unidades diferentes. Una desventaja del coeficiente de variación es que no sirve cuando la media es cercana a cero.
VARIABLE ESTANDARIZADA: MEDIDAS ESTÁNDAR La variable que mide la desviación respecto de la media, en unidades de la desviación estándar, se denomina variable estandarizada; es una cantidad adimensional (es decir, es independiente de las unidades utilizadas) y está dada por X-X z=— (16) Si las desviaciones en relación con la media se dan en unidades de la desviación estándar, se dice que están expresadas en unidades estándar o medidas estándar. Son muy útiles para comparar distribuciones (véase el problema 4.31).