Story Transcript
1
Curso de Estadística Unidad de Medidas Descriptivas
Lección 4: Medidas de Dispersión para Datos Crudos
Creado por: Dra. Noemí L. Ruiz Limardo, EdD © 2010 Derechos de Autor
2
Objetivos 1. Reconocer el significado del concepto de dispersión aplicado a un grupo de datos crudos. 2. Definir las Medidas de Dispersión: amplitud, varianza, desviación estándar y coeficiente de variación. 3. Identificar las características de cada una de las medidas de dispersión. 4. Calcular las medidas de dispersión para datos crudos. 5. Realizar análisis estadístico aplicando las medidas de dispersión para datos crudos.
3
Introducción Las Medidas de Dispersión son medidas estadísticas que indican cuánto varía o cuánto se dispersa o desvía un grupo de datos. Se le conocen también como Medidas de Variación o Medidas de Desviación. Sirven para cuantificar la variabilidad de un conjunto de datos ya que miden el grado de dispersión, desviación, o variación, que tienen las puntuaciones del grupo, entre sí, o en relación al centro de una distribución. En esta lección se estudiarán exclusivamente las medidas de dispersión para muestras. Es muy difícil obtener estos parámetros para poblaciones enteras. Antes de describir las medidas de dispersión, se explicará el concepto de dispersión con el ejemplo a continuación. Ejemplo – 1 Considere las siguientes tres muestras de tamaño n = 5: Muestras Muestra A Muestra B Muestra C
Valor 1 5 15 5
Valor 2 15 16 5
Valor 3 25 16 5
Valor 4 25 17 5
Valor 5 58 19 5
Observe que los valores en la MUESTRA C son iguales, por lo tanto no existe variabilidad entre ellos. Al calcular cualquier medida que cuantifique la variabilidad de esta muestra, el resultado sería igual a cero. Si se comparan los valores de la MUESTRA A con los de la MUESTRA B se puede observar que en la Muestra A los valores están más lejanos unos de otros. Por lo tanto, si se fuese a calcular cualquier medida que cuantifique la variabilidad en cada una de estas muestras, el resultado sería mayor para la muestra A que para la Muestra B. En general, mientras mayor es la variabilidad entre los datos, mayor será la medida de dispersión. Las medidas de dispersión ayudan a determinar cuán homogéneo es un grupo de datos. Las puntuaciones que están relativamente juntas tienen una medida de variación más pequeña. Las puntuaciones que están más dispersas tienen una medida de variación más grande. Menos dispersión significa que el grupo de datos es más homogéneo. Más dispersión implica mayor heterogeneidad. Cuando uno realiza un estudio estadístico con una muestra, uno desea seleccionar un valor que resulte típico y pueda representar al grupo, como se estudió en las medidas de tendencia central. De igual manera uno aspira a
4 obtener una muestra que tenga la menor variación posible porque indicaría que el grupo es homogéneo. Si el grupo es homogéneo se fortalece la selección del valor típico del grupo en cuanto a poder representar mejor la muestra. Así que la información que brinda las medidas de dispersión, conjuntamente con las medidas de tendencia central, ayuda a conocer mejor una muestra y tomar mejores decisiones. A continuación se describirán las medidas de dispersión que más comúnmente se utilizan en el análisis de estadística descriptiva, que son: rango, varianza, desviación estándar y coeficiente de variación.
A. AMPLITUD, RANGO O RECORRIDO La Amplitud, Rango o Recorrido, es la medida que indica cuánto se dispersa un grupo de datos, desde el valor menor hasta el valor mayor. En una lección anterior se presentó este concepto el cual se denominó como Amplitud. El mismo se define como la diferencia entre el valor máximo y el mínimo. Amplitud = (Dato Mayor) – (Dato Menor) . La amplitud es la medida de dispersión más fácil y rápida de obtener. Sin embargo, ofrece la desventaja de que sólo toma en consideración dos elementos de la muestra, el mayor y el menor. El resto de los elementos no se consideran. Por consiguiente, la misma no es muy confiable para describir la variabilidad de la muestra. Ejemplo – 2 Una fábrica de pinturas desea probar dos marcas de pintura de exterior para conocer cuántos meses tarda en desvanecerse después de pintar una pared. Utilizará esta información para poder mercadear las pinturas indicando su durabilidad. Como le era muy oneroso el consumir muchos galones de pintura, la fábrica decide utilizar solo seis galones de cada marca. Los resultados se muestran en la tabla a continuación. Determine la amplitud de cada marca y mencione cuál es la marca más consistente.
5 Tabla 1 – Durabilidad de dos marcas de pintura Marca A (Meses de durabilidad) 10 60 50 30 40 20
Marca B (Meses de durabilidad) 35 45 30 35 40 25
La amplitud de la Marca A es: 60 – 10 = 50 La amplitud de la Marca B es: 45 – 25 = 20 La Marca B es más consistente que la Marca A pues la Marca A tiene una amplitud mayor.
B. VARIANZA La Varianza describe cuán lejos está cada dato respecto a la media aritmética de todos los datos. Esta medida promedia la desviación de los valores respecto a la media aritmética de la muestra. La ventaja que ofrece la varianza sobre la amplitud es que considera todos los elementos en la muestra mientras que la amplitud solo considera dos, el valor mayor y el menor. La varianza es una medida que representa una unidad cuadrada. Por ser una unidad cuadrada, la varianza no se interpreta, pues no tendría sentido la interpretación de un valor elevado al cuadrado. Por ejemplo, si los datos representan salario en dólares, no tendría sentido interpretar la varianza porque significaría dólares al cuadrado La varianza de una muestra cuando los datos son crudos se obtiene a través de la siguiente fórmula: n
xi s2
x
i 1
n 1
2
6
s2 -Representa la varianza de una muestra
x - Representa la media aritmética n - Es la cantidad total de datos que haya en el conjunto xi -Representa cada valor o dato de la muestra ( x1 es el dato 1,
x2 es el dato 2, hasta xn que es el último dato)
-Este es el símbolo de sumatoria y significa que se suma la serie de valores que están definidos por el símbolo. En este caso, como i comienza en 1 ( i 1 ) y termina en n , se suman las diferencias correspondientes, desde el valor
xn
x
x1
x
2
hasta el valor
2
.
Los pasos al aplicar la fórmula son los siguientes: 1. Determinar la media aritmética de la muestra ( x ). 2. Calcular las desviaciones de cada dato con respecto a la media: xi x . 3. Elevar al cuadrado cada una de las diferencias obtenidas en el paso anterior para eliminar los signos negativos. ( xi x ) 2 . 4. Se suman los cuadrados obtenidos en el paso anterior. 5. Se divide el total obtenido en el paso anterior por el total de datos menos uno.
Este proceso se ilustra en el próximo ejemplo a continuación.
Ejemplo – 3 Considere los siguientes datos crudos que corresponden a la MUESTRA B en el Ejemplo -1: 15 16
16
17
19
7
Primero se calcula la media aritmética: 5
xi x
i 1
n
15 16 16 17 19 5
83 16.6 5
Para realizar los pasos 2 y 3 es recomendable organizar los datos según la siguiente tabla: Tabla 1: Proceso para Obtener la Varianza DATO (xi)
xi
15 16 16 17 19 TOTAL
( xi x ) 2 (-1.6)2 = 2.56 (-0.6)2 = 0.36 (-0.6)2 = 0.36 (0.4)2 = 0.16 (2.4)2 = 5.76 9.20
x
15-16.6 = -1.6 16-16.6 = -0.6 16-16.6 = -0.6 17-16.6 = 0.4 19-16.6 = 2.4
Ahora se tienen las cantidades que se necesitan para sustituir en la fórmula: n
xi s2
x
i 1
n 1
2
9.2 4
2.3
La varianza de esta muestra es igual a 2.3. Recuerde que esta medida no se interpreta.
C. DESVIACION ESTÁNDAR La Desviación Estándar es un valor que representa los promedios de todas las diferencias individuales de las observaciones con respecto a la media aritmética. La misma se obtiene calculando la raíz cuadrada de la varianza. La desviación estándar, como es la raíz cuadrada de la varianza, es una medida que representa una unidad lineal, por lo tanto se interpreta. Su interpretación refleja, en promedio, cuánto se desvían todos los datos en relación a la media aritmética de la muestra.
8
Al igual que todas las medidas de dispersión, se entiende que mientras menor sea este valor más homogéneo es el conjunto de datos. La desviación estándar de una muestra se obtiene mediante la siguiente fórmula.
s2
s
O sea, sacando la raíz cuadrada de la varianza: n
xi s
x
2
i 1
n 1
Para obtener la desviación Estándar de la muestra se debe primero obtener su varianza y luego sacar su raíz cuadrada. Ejemplo – 4 Considere el mismo conjunto de datos en el ejemplo anterior para obtener la desviación estándar. En el ejemplo anterior se obtuvo una varianza s2 = 2.3. Por lo tanto la desviación estándar de la muestra es:
s
2.3 1.51
Este grupo se desvía de su media aritmética un promedio de 1.51 unidades. Ejemplo – 5 Considere los datos del Ejemplo 2 de la Marca B de pintura: 35, 45, 30, 35, 40 y 25. Determine la varianza y la desviación estándar. Interprete el resultado. 1. Primero, se determina la media de este grupo:
9
5
xi x
i 1
n
35 45 30 35 40 25 6
210 6
35
2. Luego, se determinan las diferencias de cada valor respecto a la media y los cuadrados de estas diferencias. Para esto se construye la siguiente tabla: DATOS (Meses de durabilidad) 35 45 30 35 40 25 TOTAL
xi
x
xi
0 10 -5 0 5 -10
x
2
0 100 25 0 25 100 250
3. Se determina la varianza sustituyendo en la fórmula: n
xi s2
x
i 1
n 1
2
250 5
50
4. Se determina la desviación estándar sacando la raíz cuadrada de la varianza:
s
50
7.07
Esta marca de pintura dura un promedio de 35 meses con una desviación de 7.07 meses. En promedio se puede esperar que la pintura dure 35 meses aunque con una variación de 7 meses, o sea, puede variar 7 unidades sobre la media (+7) y 7 unidades bajo la media (-7). Esto significa que podría durar desde 28 meses (35 - 7) hasta 42 meses (35 + 7).
10 D. COEFICIENTE DE VARIACIÓN Hay momentos en que se desea comparar dos muestras diferentes. Si las muestras tienen la misma unidad de medida, se pueden comparar sus varianzas y sus desviaciones estándar. Por ejemplo, suponga que un concesionario de venta de autos recibe automóviles en trade-in por la venta de un auto nuevo. El dueño del negocio (dealer) desea comparar las desviaciones estándar del millaje que traen los vehículos que recibe. Para un año específico, encuentra que la desviación estándar para los automóviles Buick era de 422 millas mientras que para el Cadillac era de 350 millas. El dealer podría concluir que el Buick tenía una variación mayor que el Cadillac. Pero, suponga que el gerente desea comparar dos variables diferentes, como por ejemplo, total de ventas realizadas por los vendedores de auto en un periodo de seis meses y la comisión que se les pagó durante ese mismo periodo de tiempo. En este caso, no podría comparar las varianzas ni las desviaciones estándar. Para poder hacer esta comparación se necesita el Coeficiente de Variación. El coeficiente de variación representa una medida relativa que permite comparar grupos distintos. El coeficiente de variación representa un por ciento. Es una medida que relaciona la desviación estándar de una muestra con su media aritmética. El coeficiente de variación dice cuál es el por ciento de variación de un grupo respecto a su media aritmética. El coeficiente de variación es un valor que no depende de la unidad de medición y siempre se encuentra entre cero y uno (0 ≤ cv ≤ 1). Mientras más cerca el coeficiente de variación se encuentre de cero, menos variación tendrá la muestra. Para calcular el coeficiente de variación se divide la desviación estándar de una muestra por su media aritmética, o sea, la fórmula es:
CV cv s x
s x
Coeficiente de Variación Desviación estándar de la muestra Media Aritmética de la muestra
A continuación se ilustran ejemplos donde se aplica el coeficiente de variación.
11 Ejemplo – 6 Considere los datos del Ejemplo 3 donde se calculó la media y la desviación estándar. Se obtuvo que la media y la desviación estándar es: x = 16.6 s = 1.51
Determine el coeficiente de variación. El coeficiente de variación es igual a:
cv
s x
1.51 16.6
0.0909
Se puede decir que esta muestra tiene aproximadamente un 9% de variación. Este grupo refleja poca variación. Ejemplo – 7 La media del número de ventas de autos en un dealer de carros durante un término de seis meses fue 87 y su desviación estándar fue 5. La media del total de comisiones pagadas a los vendedores de auto en ese negocio durante el mismo término fue $5,225.00 y la desviación estándar fue $773.00. Compare las variaciones de estas dos variables.
CVventas =
CVcomisiones =
s x
s x
5 87
773 5225
0.057
0.148
Como el coeficiente de variación de las comisiones fue mayor, significa que las comisiones son más variables que las ventas.
12
EJERCICIOS EJERCICIO-1 Considere los siguientes datos que corresponden a la MUESTRA A en el Ejemplo-1. 5 15 25 25 58 1. Calcule la amplitud, varianza, desviación estándar y el coeficiente de variación. 2. Compare sus resultados con los obtenidos en los ejemplos anteriores para la MUESTRA B, e indique cual de las dos muestras presenta mayor variabilidad. EJERCICIO-2 El maestro de estadística quería saber cuántas horas le dedicaron los estudiantes a estudiar para el examen final en su grupo de 15 estudiantes. Los resultados reflejaron lo siguiente: 8, 6, 3, 0, 0, 5, 9, 2, 1, 3, 7, 10, 0, 3, 6 Para poder analizar estos resultados, el maestro utilizó el programa de Excel. A continuación se muestran tres imágenes de las pantallas de Excel. Mirando estas pantallas, determina cuál es la media, varianza y desviación estándar de este grupo. Interpreta los resultados.
13 Pantalla 1:
14 Pantalla 2
15 Pantalla 3
EJERCICIO-3 La puntuación media en el examen final de inglés fue 85 y la desviación estándar fue 5. La puntuación media en el examen final de historia fue 110 y su desviación estándar fue 8. ¿Cuál de los exámenes reflejó mayor variación?
16
RESPUESTAS A EJERCICIOS
EJERCICIO – 1
Rango = 53 Varianza = 396.8 Desviación Estándar = 19.92 Coeficiente de Variación = 0.7781 Se observa que esta muestra presenta una mayor variabilidad que la MUESTRA B en el Ejemplo 1. Todas las medidas de variación resultaron ser significativamente mayores. EJERCICIO – 2 Media = 4.2 Varianza = 11.31 Desviación estándar = 3.36 El grupo estudió un promedio de 4.2 horas. Las puntuaciones de esta muestra se desvían de la media, en promedio, un total de 3.36 horas.
EJERCICIO – 3 El examen de historia tuvo la variación mayor. El coeficiente de variación del examen de historia fue 7.27%, mientras que el del examen de inglés fue 5.88%.