ANGEL FRANCISCO ARVELO LUJAN Angel Francisco Arvelo Luján es un Profesor Universitario Venezolano en el área de Probabilidad y Estadística, con más de 40 años de experiencia en las más reconocidas universidades del área metropolitana de Caracas. Universidad Católica “Andrés Bello” : Profesor Titular Jubilado 1970 a 2003 Universidad Central de Venezuela: Profesor por Concurso de Oposición desde 1993 al presente Universidad Simón Bolívar: Profesor desde 2005 al presente Universidad Metropolitana: Profesor desde 1973 a 1987 Universidad Nacional Abierta: Revisor de contenidos, desde 1979 hasta 2004 Sus datos personales son : Lugar y Fecha de Nacimiento: Caracas, 16-02-1947 Correo electrónico:
[email protected] Teléfono: 58 416 6357636 Estudios realizados: Ingeniero Industrial. UCAB Caracas 1968 Máster en Estadística Matemática CIENES , Universidad de Chile 1972 Cursos de Especialización en Estadística No Paramétrica Universidad de Michigan 1982 Doctorado en Gestión Tecnológica: Universidad Politécnica de Madrid 2006 al Presente El Profesor Arvelo fue Director de la Escuela de Ingeniería Industrial de la Universidad Católica “Andrés Bello” (1974-1979) , Coordinador de los Laboratorios de esa misma Universidad especializados en ensayos de Calidad, Auditor de Calidad, y autor del libro “Capacidad de Procesos Industriales” UCAB 1998. En numerosas oportunidades, el Profesor Arvelo ha dictado cursos empresariales en el área de “Estadística General” y “Control Estadístico de Procesos”. Para consultar otras publicaciones, ir la página web. www.arvelo.com.ve
2
Medidas de Deformación Angel Francisco Arvelo L.
MEDIDAS DE DEFORMACION Y DE APUNTAMIENTO. El término “Momento” se aplica en Física, para indicar el producto entre una fuerza y su distancia a un punto, llamada “brazo” ,y así existen “Momentos Estáticos”, “Momentos de Inercia”, etc., según se multiplique la fuerza por la distancia, por el cuadrado de la distancia, etc. En Estadística existen muchas fórmulas y expresiones matemáticas, en donde es necesario incluir el desvío o distancia de un dato a un cierto punto llamado “origen de trabajo”, y cuya escritura puede simplificarse con la introducción del concepto de “Momento de los Datos”. Cuando se tiene un conjunto de datos sin agrupar { x1, x2 ,x3 , ......, xn} , se define como Momento de orden “r” respecto de un valor “A”, a la media aritmética de las potencias de grado “r” , de sus desvíos respecto a ese valor “A” , es decir :
1 Momentos:
I n
( xi m r ,A
A)r
i 1
n El valor “A” con respecto al cual se está calculando este momento de orden “r” , puede ser cualquiera , y recibe el nombre de “origen de trabajo”. Desde el punto de vista descriptivo, los momentos respecto de un origen de trabajo cualquiera no pueden ser interpretados como una característica especial de los datos, a excepción de algunos de ellos que serán analizados a lo largo de este capítulo. La principal utilidad práctica que tienen los diferentes momentos, es simplificar la escritura de ciertas fórmulas y expresiones matemáticas. Ejemplo 8.1: Dados los datos 2, 5, 8 y 13, calcular el momento de orden 2 respecto del valor 10. Solución: Se calculan los desvíos respecto del origen de trabajo, en este caso A=10, que resultan ser: 2-10 = -8 , 5-10 = -5 , 8-10 = -2 y 13 – 10 = 3 . El momento de orden 2 respecto del valor 10, es entonces por definición, la media ( 8) 2 ( 5) 2 ( 2) 2 (3) 2 de los cuadrados de estos desvíos: m 2,10 = 25,50. 4 Para calcular el momento de orden 3, se promedian las potencias cúbicas de los desvíos y así sucesivamente.
El resultado obtenido no tiene en general una interpretación estadística, salvo en ciertos casos particulares que se analizaran luego, y por lo tanto debe ser visto simplemente como el resultado de un cálculo definido por una fórmula matemática. Aunque el origen de trabajo “A” puede ser cualquiera, los más utilizados son la media X y el cero, en cuyo caso se tienen los siguientes momentos:
3
Medidas de Deformación Angel Francisco Arvelo L. i n
( xi
Momento de orden “r” respecto de la media X = m r =
A= X
i n
xi
Momento de orden “r” respecto del origen = X r =
A=0
La nomenclatura X
r
X)r
i 1
n
r
i 1
n
significa media de las potencias de orden “r”, diferente de
( X) , que significa potencia “r” de X , es decir: X r ( X)r . Algunas de las expresiones ya conocidas en los capítulos anteriores, pueden ser escritas en función de los momentos, y así por ejemplo tenemos que: X = Primer momento respecto del origen. r
i n
2
=
( xi
X) 2
I 1
= m2 = Segundo Momento respecto de la media
n
i n
o también :
2
xi2
=
2
X = X2 - X
I 1
n
2
m2 = X 2 - X
2
lo que equivale a decir que la varianza poblacional es igual al momento de segundo orden respecto del origen, menos el cuadrado del primer momento respecto del origen. Como consecuencia de las propiedades de la media, se tiene que para cualquier conjunto de datos, su primer momento respecto de la media siempre es nulo. i n
( xi
X)
i 1
=0 n Entre los momentos respecto de la media y los momentos respecto del origen, existen ciertas relaciones, y es posible obtener uno a partir de los otros. Así por ejemplo, se verifica:
m1
m3 = X 3
3 X 2 X 2 ( X )3
m4 = X 4 4 X 3 X 6 X 2 ( X ) 2 3 ( X ) 4 Para demostrar estas identidades, basta partir de la definición: i n
i n
( xi
m3 =
i 1
n
X) 3
(xi
=
3
3 xi2 X + 3 xi X 2 - X 3 )
i 1
n
=
X 3 3 X 2 X 3 X (X) 2 - ( X ) 3 = X 3 3 X 2 X 2 ( X ) 3 La demostración de la segunda identidad está hecha en general en el Ejercicio 3 Las consideraciones anteriores deben ser vistas como una simple manipulación matemática de las fórmulas y propiedades ya conocidas, que introducen un nuevo
4
Medidas de Deformación Angel Francisco Arvelo L.
lenguaje en las expresiones estadísticas, y no como un hecho que le concede a los diferentes momentos un significado especial. Para el caso de datos agrupados, los momentos se calculan a través del procedimiento ya conocido de reemplazar cada dato por la marca de clase del intervalo donde cae, y se obtiene: i k
(L*i mr,A
A)r fi = Momento de orden “r” respecto de un valor “A”.
i 1 i k
fi i 1 i k
(L*i mr
X)r fi = Momento de orden “r” respecto de la media.
i 1 i k
fi i 1 i k
(L*i )r fi Xr
= Momento de orden “r” respecto del origen.
i 1 i k
fi i 1
Tal como se ha explicado en capítulos anteriores, al agrupar los datos se introduce un error en el cálculo de sus diferentes medidas descriptivas, pues el supuesto de cada dato es igual a la marca de clase del intervalo donde cae, es una simple aproximación. El cálculo de los diferentes momentos para datos agrupados no escapa de este error, y por ello han sido desarrolladas una serie de fórmulas, que pretenden corregir parcialmente el cálculo de los momentos, hecho mediante las fórmulas convencionales con la marca de clase. Estas fórmulas se conocen bajo el nombre de “Correcciones de Sheppard”, se utilizan para corregir los momentos respecto de la media, y se fundamentan en el supuesto de que el error de agrupamiento para cada dato es aleatorio, y c c ; + distribuido uniformemente en el intervalo , pues el verdadero valor del 2 2 c dato cae en el intervalo L*i . 2 Las correcciones de Sheppard no serán tomadas en consideración aqui, y se dejan como tema de investigación para el lector.
LM N
IJ K
Ejemplo 2 : Si los primeros cuatro momentos de un conjunto de datos respecto del número 3 , son –2,10,-25 y 50 .Determinar los correspondiente momentos respecto de . a) la media, b) el número 5 c) el cero. Solución : Si el primer momento respecto del número 3 es –2 , esto significa que :
5
Medidas de Deformación Angel Francisco Arvelo L. i n
i n
( xi
m´1,3 =
3)
i n
xi
i 1
3n
i n
xi
i 1
xi
i 1
i 1
= -2 =-2 =1 X= 3 = -2 n n n n El primer momento respecto de cero es X =1 , respecto de la media es siempre i n
i n
( xi
5)
xi
i 1
cero, y respecto del número 5: m´1,5 =
i 1
= n n Para hallar los segundos momentos, se tiene: m´2,3 = 10 i n
i n
3) 2
( xi
m´2,3 =
i 1
6 xi
xi
9n
i 1
= 10
n
i n
x i2
x i2
i 1
por tanto:
6
i 1
=
n
i n
i n
xi2
9)
i 1
= 10
n
i n
( xi2
- 5 = 1-5 = - 4.
X2 =
-6 X +9 = 10
n
= 10 – 9 + 6 X = 7 pues X =1
i 1
n
Conocido X 2 , se pueden determinar los demás momentos de segundo orden i n
m2 =
2
i n
( xi
X)
2
i 1
=
x i2
=
n
i n
n
i n
( xi
m´2,5 =
2
- X 2 = X 2 - X 2 = 7-1 = 6
i 1
5) 2
i 1
i n
( xi2
10 xi
x i2
25)
i 1
=
=
n n Con los terceros momentos: i n
-10 X +25 = 7-10+25 = 22
n
i n
( xi
m´3,3 =
i 1
3) 3
i n
( xi3
i 1
27 xi
=
n i n
i n
i 1
n
n
-9
i 1
n
+27 X - 27
x i2
-9
i 1
n
+27 X -27 = -25
i n
x i3
Por lo tanto : X 3 =
i 1
x i2
i n
x i3
Como m´3,3 = - 25
i n
x i3
27)
i 1
=
n
9 xi2
x i2
-27 X + 2 = 9 (7) – 27 (1) + 2 = 38 n n Los restantes momentos de tercer orden son: i n
=9
i 1
i n
( xi
m3 =
i 1
i 1
n
X) 3
( xi3
=
3 xi2 X 3 xi X 2
i 1
Simplificando: m3 = X
n 3
3X
2
X
X3 )
= X3
3 X2 X
3 X X2 - X3 3
2 X 3 = 38 - 3 (7) (1) + 2 (1) = 19
6
Medidas de Deformación Angel Francisco Arvelo L. i n
i n
( xi
5)
3
( xi3
15 xi2
75 xi
125)
= = X 3 15 X 2 + 75 X 125 n n por lo tanto : m´3,5 = 38 – 15 (7) + 75 (1) –125 = -117 Procediendo de manera análoga para los cuartos momentos, y a partir de m´3,5 =
i 1
i 1
m´4,3 = 50 se obtiene: X 4 = 155 , m4 = 42 y m´3,5 = 560 . Ejemplo 3 Demostrar la siguiente identidad entre momentos: 2 4 m4 = m´4,A – 4 m´1,A m´3,A + 6 (m´1,A ) m´2,A –3 (m´1,A) i n
I n
( xi
Solución: Por definición
m4 =
X) 4
( xi
i 1
y m r ,A
A)r
i 1
n n Se suma y se resta “A” dentro de la expresión de m4 se obtiene: i n
I n
( xi
m4 =
A
A
X) 4
i 1
( xi
X)
4
i 1
=
n
A) ( A n
Al desarrollar el binomio ( xi
A) ( A
4
X ) se obtiene:
i n
( xi
A) 4
4( xi
A) 3 ( A
X ) 6( xi
A) 2 ( A
X) 2
4( xi
A )( A
X) 3
(A
X) 4
i 1
y al dividir entre “n” se obtiene el lado derecho de la identidad , teniendo en i n
( xi
cuenta que: m´1,A =
i 1
n
A)
= X -A.
………………………………. Momentos adimensionales: Los diferentes momentos de orden “r” de un conjunto de datos vienen expresados en unidades a la potencia “r” de los datos, y así por ejemplo, el cuarto momento respecto del origen de unos datos expresados 4 en centímetros, viene en cm . En algunas oportunidades se deben comparar estos momentos con los de otro conjunto de datos, y cuando estos vienen en diferentes unidades, tal comparación no es posible de realizar. Para poder hacer estas comparaciones, se utilizan los momentos adimensionales, que se definen como el correspondiente momento de orden “r”, dividido entre la potencia “r” de alguna medida de dispersión de las mismas unidades de los datos, que generalmente es la desviación típica. Así por ejemplo, se define como momento adimensional de orden “r” respecto de m r la media a: ar= r El uso y utilidad práctica de los momentos será analizada a lo largo de este capítulo.
7
Medidas de Deformación Angel Francisco Arvelo L.
2. Datos Simétricos : Un conjunto de datos { x1, x2 ,x3 , ......, xn} se dice que es simétrico respecto de un valor “A” , cuando se verifican dos condiciones: 1ª Condición: El número de datos menores que “A” es igual al número de datos mayores que ese mismo valor “A”. 2ª Condición : Entre los datos menores que “A” y los mayores que “A” existe una correspondencia biunívoca (uno a uno), de manera que para cada dato menor que “A” existe otro mayor que “A” con igual desvío absoluto con relación a “A”, es decir a la misma distancia. Ejemplos de datos simétricos son los conjuntos { 3 , 7 , 9 , 11 ,13 , 17 } respecto del valor 10, y { 4, 11, 14, 15 , 16 , 19 , 26 } con relación a 15. El valor “A” recibe el nombre de “eje de simetría”, y no necesariamente debe pertenecer al conjunto de datos, como por ejemplo en el primero de los conjuntos anteriores, donde el valor 10 no pertenece al conjunto. Cuando una distribución de frecuencias es simétrica, el histograma queda dividido en dos mitades iguales por el eje de simetría, como por ejemplo: Intervalo 20 a 25 25 a 30 30 a 35 35 a 40 40 a 45 45 a 50 frecuencia 15 50 80 80 50 15 la cual es simétrica respecto del valor 35, tal como puede apreciarse en el histograma.
Propiedades de los datos simétricos Propiedad N°1 : Cuando un conjunto de datos es simétrico respecto de un valor “A” , entonces la media coincide con el eje de simetría, es decir : X = A . Para demostrarlo, sea xp < A , y xq> A , su simétrico. Sean dp y dq sus correspondientes desvíos absolutos con relación al eje de simetría “A”. Se tiene entonces: xp= A – dp , y xq= A + dq . Pero, por definición de simetría: dp = dq . xp + xq= 2A
8
Medidas de Deformación Angel Francisco Arvelo L.
Como además el número de datos a la izquierda de “A” es igual al número de i n
datos a su derecha, se concluye entonces que:
xi = n A
X =A
i 1
Propiedad N° 2 : Cuando un conjunto de datos es simétrico respecto de un valor “A” , entonces la mediana también coincide con el eje de simetría, y por lo tanto : Med = A . Para demostrarlo basta aplicar el principio de reducción al absurdo, pues si se supone que el conjunto es simétrico con relación al valor “A” y que Med A, se obtiene como conclusión que existe simetría pero que el número de datos menores que “A” es diferente del número de datos mayores que “A”, lo que obviamente contradice la definición de simetría. Corolario: Como consecuencia de estas dos primeras propiedades, se deduce entonces que en distribuciones simétricas: X = Med, es decir: X = Med Simetría Es importante destacar que esta implicación no es válida en sentido recíproco, es decir que si se verifica X = Med , no necesariamente es simétrica, tal como ocurre en el siguiente conjunto de datos: {3, 8,9,11,13,16}, en donde se verifica X = Med, pero no existe simetría. Propiedad N° 3 : Cuando una distribución es unimodal y simétrica, entonces la moda coincide con eje de simetría. La demostración de esta propiedad es también por reducción al absurdo, pues si se supone que es simétrica y que la moda es única pero que no coincide con el eje de simetría ,se concluiría de que la moda no tiene simétrico por ser única, lo que obviamente contradice la definición de simetría. La única manara como la distribución puede ser simétrica con una sola moda, es que el simétrico de la moda sea ella misma, lo que solamente puede ocurrir cuando la moda coincide con el eje de simetría. De estas tres propiedades, se concluye que en distribuciones simétricas unimodales, moda mediana y media coinciden con el eje de simetría, tal como
ocurre en la curva normal. Propiedad N° 4 : En distribuciones simétricas todos los momentos de orden impar respecto de la media X son nulos. En efecto, el momento de orden “r” respecto de la media X viene dado por:
9
Medidas de Deformación Angel Francisco Arvelo L. i n
( xi
mr=
X)r
i 1
n Cuando existe simetría X coincide con el eje de simetría, y por lo tanto la diferencia xi X representa el desvío de cada dato con relación a dicho eje. Cuando xi X , este desvío es negativo, y cuando xi X es positivo, pero en ambos casos, igual en valor absoluto al de su simétrico. Si la potencia “r” es impar el signo del desvío se mantiene, y por lo tanto al sumar sobre todos los datos el resultado es cero, pues cada potencia del desvío se anula con la de su simétrico, que es igual en valor absoluto pero de signo contrario. En resumen: Simetría m r = 0 cuando “r” es impar Lamentablemente, esta propiedad no es recíproca, y existen casos donde m r = 0 con “r” impar, y sin embargo, no existe simetría. Tal es el caso por ejemplo, del primer momento respecto de X , el cual siempre es nulo exista o no simetría, y por ejemplo el de los siguientes datos: {0,0,0,0,6,6,6,6,6,10}, en donde no existe simetría y sin embargo al calcular el tercer momento respecto de X , se obtiene: (0 4) 3 4 + ( 6 - 4) 3 5 + (10 - 4) 3 X = 4 , m3 = =0 10 Conclusiones De las cuatro propiedades anteriores, se pueden obtener las siguientes conclusiones: 1°) Si existe simetría se verifica: X = Med , y además todos los momentos de orden impar respecto de X nulos. El hecho de que se verifique alguna de estas propiedades no garantiza la simetría. La única manera de verificar la simetría es aplicar la definición, y analizar si entre los datos menores que X y los mayores que X existe una correspondencia uno a uno, de manera para cada dato menor que X exista otro mayor que X igualmente desviado en forma absoluta con relación a X . 2°) Si alguna de estas propiedades no se verifica, se llega a la conclusión de que los datos no son simétricos, es decir. X Med No existe simetría. m r 0 para algún “r” impar No existe simetría.
Ejemplo 4 Se tienen cuatro datos simétricos respecto del valor 8. Si el rango de los datos es 14, y la varianza 37, determine los cuatro datos. Solución: X =8 por simetría, y su distancia a los datos extremos es la mitad del rango, es decir 7. Por tanto, los datos extremos son : x1 = 8 -7 = 1 y x4 = 8+7 = 15. Falta determinar los dos datos centrales x2 y x3, pero como son simétricos respecto del valor 8, sus desvíos absolutos son iguales. Por simetría: x2 = 8 – d , x3 = 8 +d, y como la varianza es 37 se obtiene: 2 (1 8) 2 ( x 2 8) 2 ( x 3 8) 2 (15 8) 2 49 d2 d2 49 = = = 37 4 4
10
Medidas de Deformación Angel Francisco Arvelo L. 2
2
Por lo tanto: 98 + 2d = 148 d = 25 d= 5 . En consecuencia: x2 = 8 – 5 = 3 ,y x3 = 8 +5 = 13. Los cuatro datos buscados son entonces { 1 , 3 , 13 , 15 }
3 Medidas de deformación : Cuando un conjunto de datos no es simétrico, se dice que es “deforme o sesgado”, y el objetivo de estas medidas es analizar su grado de deformidad. Un problema que van a confrontar estas medidas es que el grado de deformidad de un conjunto de datos es un concepto algo subjetivo, y por ello difícil de medir de manera precisa. En las medidas de dispersión ocurre que cuando los datos son todos iguales, todas ellas se anulan, y viceversa cuando cualquiera de las medidas de dispersión se anula, la conclusión es que todos los datos son iguales. Con las medidas de deformación no va a ocurrir esta circunstancia, y por lo tanto cuando exista simetría se anulan, pero el hecho de que se anule alguna de ellas no garantiza la simetría. Las principales medidas de deformación son: 1°) Coeficientes de sesgo o de asimetría: Estas medidas propuestas por Carl Pearson son exclusivas para distribuciones unimodales, y se fundamentan en la coincidencia entre moda, mediana y media cuando la distribución es simétrica. También reciben el nombre de “Coeficientes de asimetría de Pearson”. X Moda 1er coeficiente de sesgo de Pearson ó Sesgo1 = S.K1= 2° coeficiente de sesgo de Pearson = S.K2=
3 (X Med)
Aunque estos dos coeficientes son números reales sin unidades, cuyo valor numérico es prácticamente igual como consecuencia de la relación empírica X - Moda 3 ( X - Med), su interpretación es diferente. El primer coeficiente representa la distancia relativa entre la media y la moda expresada en términos de la desviación típica; y así por ejemplo, si su valor es 0,5, esto significa que la media se encuentra a la derecha de la moda, a 0,5 desviaciones típicas de ella. El signo del primer coeficiente indica si la media está a la derecha o a la izquierda de la moda, según sea positivo o negativo respectivamente. Cuando es positivo, se dice que la curva de frecuencias está sesgada hacia la derecha es decir, que la cola a la derecha de la moda es más larga que la cola a su izquierda; mientras que cuando el signo es negativo, se dice que está sesgada hacia la izquierda, lo que se interpreta como la cola a la izquierda de la moda más larga que a su derecha.
1
La abreviatura S.K viene del inglés “Skewness” que se traduce como “Sesgo”.
11
Medidas de Deformación Angel Francisco Arvelo L.
El segundo coeficiente de sesgo, expresa la posición de la media con relación a la mediana, de manera que cuando resulta positivo indica que la media es mayor que la mediana, y que por lo tanto más del 50% de los datos son menores que la media; mientras que cuando resulta negativo, señala que la media es menor que la mediana, y que más del 50% de los datos son mayores que la media, tal como puede apreciarse en la siguiente figura:
Sesgo > 0
Menos del 50 % de datos mayores que X .
Sesgo < 0
Mas del 50 % de datos mayores que X
2°) El coeficiente momento de sesgo. Debido a que todos los momentos impares respecto de la media se anulan en una distribución simétrica, otra medida importante de deformación propuesta por Fisher, es el tercer momento m3 adimensional respecto de la media dado por: a3 = 3 . El primer momento respecto de la media siempre se anula aunque no exista simetría, y por ello no sirve para medir deformación. De allí que se tome el tercero, que es el siguiente impar, para definir a este coeficiente. 3 Se divide entre para obtener una cifra relativa sin unidades, que permita comparar grados de deformidad entre conjuntos de datos de distintas unidades. Cuando a3 >0, los desvíos a la derecha de X predominan sobre los desvíos a su izquierda, mientras que cuando a3 < 0 es justamente lo contrario. Cuando a3= 0 , puede ser que exista simetría, pero no puede garantizarse. b1 = a 3 , que es Algunos textos utilizan la nomenclatura: b1 a23 , y otros g1 una medida del grado de deformación, sin indicar en cual dirección.
12
Medidas de Deformación Angel Francisco Arvelo L.
3°) El Coeficiente de sesgo cuartílico: En una distribución simétrica, el primero y el tercer cuartil son simétricos respecto del segundo o mediana, y por lo tanto debe verificarse: Q3 – Q2 = Q2 – Q1. De allí que A. L. Bowley haya propuesto como medida de deformación al siguiente (Q 3 Q 2 ) (Q 2 Q 1 ) Q 3 2 Q 2 Q1 coeficiente adimensional: gQ = = . (Q 3 Q 2 ) (Q 2 Q 1 ) Q 3 Q1 Su valor esta siempre comprendido entre –1 y +1. Cuando resulta positivo, se interpreta que la distancia del segundo cuartil al tercero es mayor que del segundo al primero, y cuando resulta negativo que es menor. Según Bowley, cuando la asimetría es leve este coeficiente debe estar entre –0,10 y + 0,10 , mientras que valores absolutos de 0,30 ó más, reflejan una fuerte asimetría. Los casos extremos +1 ó -1 revelan una asimetría tan fuerte que el primero o el tercer cuartil coincide con la mediana respectivamente. 4°) El coeficiente de sesgo percentílico 10-90: En forma análoga al anterior, puede decirse que en una distribución simétrica, la distancia desde la mediana o percentil 50 hasta el percentil 90, debe ser igual a la distancia hasta el percentil 10, y por lo tanto para distribuciones simétricas: P90 – P50 = P50 – P10. (P90 P50 ) (P50 P10 ) P 2 P50 P10 gP= = 90 (P90 P50 ) (P50 P10 ) P90 P10 Al igual que el anterior, es un coeficiente adimensional, cuyo valor oscila entre –1 y +1, y que debe anularse para distribuciones simétricas. Ejemplo 5 Los siguientes datos corresponden al área de un conjunto de apartamentos expresada en metros cuadrados. Area Frecuencia
40 a 60
Area Frecuencia
< 60
< 80
< 100
< 120
< 140
< 160
< 180
< 200
38
192
398
500
572
593
599
600
60 a 80
80 a 100
100 a 120
120 a 140
140 a 160
160 a 180
180 a 200
38 154 206 102 72 21 6 1 Calcular los coeficientes de sesgo, el coeficiente momento de sesgo, y los coeficientes cuartílico y percentílico de sesgo. Solución : Se comienza calculando la media, la mediana , la moda, percentiles y cuartiles, para lo que se necesita la tabla acumulada de frecuencias:
10 100
P10 = 60 + Q1 = 60 +
1 4
600 - 38
154 600 - 38 154 1 2
20 = 62,86 ;
20 = 74,55 ;
600 - 192
P90 = 120 + Q3 = 100 +
20 = 90,49 ; 206 206 - 154 Moda = 80 + 20 = 86,58 (206 - 154) + (206 - 102) Q2 = Med = 80 +
90 100 3 4
600 - 500 72 600 - 398 102
20 = 131,11
20 = 110,20
Medidas de Deformación Angel Francisco Arvelo L.
13
A continuación , se calculan los momentos. 2 3 Area fi ( L*i ) fi L*i ( L*i ) fi ( L*i ) fi 40 - 60 38 50 1.900 95.000 4.750.000 60 - 80 154 70 10.780 754.600 52.822.000 80 - 100 206 90 18.540 1.668.600 150.174.000 100 - 120 102 110 11.220 1.234.200 135.762.000 120 - 140 72 130 9.360 1.216.800 158.184.000 140 - 160 21 150 3.150 472.500 70.875.000 160 - 180 6 170 1.020 173.400 29.478.000 180 - 200 1 190 190 36.100 6.859.000 Sumatoria 600 56.160 5.651.200 608.904.000 2 2 56.160 5.651200 . X= = 93,60 ; = - (93,60 ) = 657,71 = 25,65 600 600 Para calcular el tercer momento respecto de X , resulta más cómodo aplicar la identidad ya demostrada, según la cual : m3 = X 3 3 X 2 X 2 ( X ) 3 3 608.904.000 5.651200 . m3 = -3 ( 93,60 ) + 2 (93,60) = 10.130,11 600 600 Una vez hechos estos cálculos, se procede a determinar las diferentes medidas de deformación. 93,60 86,58 1° coeficiente de Pearson = S.K1 = = 0,27 25,65 3 (93,60 90,49) 2° coeficiente de Pearson = S.K2 = = 0,36 25,65 10.130,11 Coeficiente momento de sesgo = a3 = = 0,60 (25,65) 3 110,20 - 2 ( 90,49 ) + 74,55 Coeficiente cuartílico de sesgo = gQ = = 0,13 110,20 74,55 131,11- 2 ( 90,49 ) + 62,86 Coeficiente percentílico de sesgo = gP = = 0,19 131,11 62,86 Todas las medidas de asimetría resultan positivas, por lo que evidentemente se trata de una distribución sesgada hacia la derecha, en donde más de la mitad de los datos son menores que la media. Comentarios con relación a las medidas de deformación : Es importante hacer las siguientes advertencias con relación a las diferentes medidas de deformación propuestas anteriormente: a) Como cada una de ellas mide la deformidad desde puntos de vista diferentes, estas medidas no son comparables. Por lo general, cuando la distribución es marcadamente asimétrica en cualquiera de los dos sentidos, los signos de las diferentes medidas de deformación
Medidas de Deformación Angel Francisco Arvelo L.
14
coinciden, pero cuando es el grado de deformidad es leve, ocurre en muchos casos que algunas de las medidas resultan positivas y otras negativas. b) Por lo explicado en la sección 2, no debe olvidarse que la implicación: Simetría Medida de deformación = 0 es en un solo sentido, y que su reciproco no es cierto. Por lo tanto, no es válido concluir que si una medida de deformación resulta dar cero, entonces la distribución es simétrica. La única conclusión válida, es que si la medida de deformación no se anula, entonces la distribución no es simétrica. Para demostrar la simetría hay que verificar que se cumple la definición, dada en la sección 2. Toda esta confusión que se presenta alrededor de las medidas de deformación es producto, de que si bien es cierto que la noción de simetría es clara y definida, no lo es tanto la de grado o intensidad de la asimetría, ya que algunos casos podemos referirnos al grado de asimetría respecto de la media, en otros con respecto a la mediana, etc.
4 Gráficos de Caja: En el Capítulo anteriores, se estudió el “Gráfico de tallo y hoja” desarrollado por el estadístico John Tukey en su trabajo “ Exploratory Data Analysis”. El “Gráfico de caja” denominado por algunos autores “Box and whiskers Plot”, es decir gráfico de caja y bigotes, es también una nueva técnica del “Análisis Exploratorio de datos”, y constituye una novedosa manera de representar los datos, en donde se puede ver, entre otras cosas si existe o no simetría. Para construirlo es necesario calcular los siguientes valores: La mediana. El “cuarto” inferior y el “cuarto” superior. El límite inferior y el límite superior. El término “cuarto” viene de una traducción del inglés “hinge” (bisagra) o también “fourths”, y corresponde aproximadamente a “cuartil”; de manera que el “cuarto” inferior es aproximadamente “el primer cuartil” y el “cuarto” superior el tercer cuartil. Algunos autores también los llaman “goznes”. Estos “cuartos” se designan por Hi el inferior, y por Hs el superior, y la forma de calcularlos exactamente, se dejará como tema de investigación para el lector. Siempre que no existan valores atípicos o fuera de escala, el límite inferior es el menor valor de los datos y se designa por Li; mientras que el límite superior es el mayor valor de los datos, y se designa por Ls. Una vez calculados estos valores, se procede a construir el gráfico, tal como se explica en el siguiente ejemplo: Ejemplo 6 : Representar en un diagrama de caja, las calificaciones obtenidas por un grupo de estudiantes en un examen de ingreso a la Universidad, en una escala sobre100 puntos. 34 56 78 45 86 67 76 80 52 71 68 55 54 66 71 77 59 70 64 62 54 73 93 55 68 77 80 61 44 57 62 79 82 66 56 43 60 73 71 64 49 60 51 66 70 74 63 55 60 78 76 64 69 47 51 53 76 67 60 56
15
Medidas de Deformación Angel Francisco Arvelo L.
50 59 54 78 56 67 54
54 62 71 56 60 54 39
76 67 64 65 72 73 56
57 59 58 79 65 81 53
65 61 57 56 76 70 73
61 73 82 75 89 68 76
69 77 78 66 73 53 77
88 40 44 60 80 72 80
74 63 63 37 63 94 64
47 74 49 80 65 56 88
76 71 56 62 74 87 61
80 68 70 90 32 72 70
70 59 84 77 87 64 47
62 66 54 68 67 46 65
56 75 65 53 55 70 76
55 90 68 73 78 55 75
58 57 53 71 46 53 59
70 66 47 60 76 54 62
46 64 51 45 55 67 79
52 59 66 71 51 72 54
Solución: Al calcular la mediana, los “cuartos” y los límites, se obtiene: Med= 65 , Hi= 56 , Hs = 73 , Li = 32 , Ls= 94
Los datos comprendidos entre el cuarto inferior y el superior quedan empaquetados dentro de la caja, la que a su vez queda dividida en dos partes por la línea gruesa interior que representa a la mediana. El ancho de la caja no tiene ninguna interpretación, y su altura es aproximadamente el rango intercuartil, o longitud del intervalo 50% central. Los brazos o colas de la caja representan la distancia entre el menor de los datos y el cuarto inferior, y entre el cuarto superior y el mayor de los datos. El eje horizontal no tiene significado alguno, y solo se usa se usa para señalar categorías en caso de que existan más de una. En este ejemplo hay una sola categoría, pero es posible que existan dos o más, como sería por ejemplo el caso en que los alumnos que presentaron este examen de admisión sean clasificados por sexo, o por zona de procedencia, etc., y se quiera hacer una comparación entre las calificaciones obtenidas por estos grupos. En estos casos, el gráfico se llama “Gráfico de Cajas Múltiples”, y será analizado más adelante, en un próximo capitulo.
16
Medidas de Deformación Angel Francisco Arvelo L.
Cuando existe simetría en los datos, la mediana divide a la caja en dos partes iguales, y la longitud de los dos brazos o colas del diagrama son iguales. Cuando en el conjunto de datos existen valores atípicos o fuera de escala, sobre los cuales podría pensarse que existe algún error de medición o de transcripción, el gráfico de caja suele representarlo aparte, y lo designa como “outside” (lejano) o “far outside” (muy lejano), según se encuentre fuera de la ”cerca interna” o de la “cerca externa” respectivamente. La forma como se calculan estas “cercas”, se deja como tema de investigación para el lector. En el caso de existir valores atípicos, los brazos de la caja van desde el “cuarto” hasta el último valor dentro de la cerca interna, el cual se denomina “valor adyacente”, y estos valores atípicos aparecen señalados con símbolos especiales, para alertar que se trata de valores lejanos, o muy lejanos.
5 Medidas de Apuntamiento: Cuando se tiene un conjunto de datos, resulta muy importante verificar si su comportamiento sigue una “Distribución Normal” , pues sobre esta hipótesis de normalidad se apoya la validez de muchos procedimientos, utilizados principalmente en “Inferencia Estadística” . A lo largo de este capítulo y también de los precedentes, hemos visto diversas propiedades descriptivas de la curva normal, tales como la simetría, el porcentaje de datos comprendido en los intervalos μ , μ 2 , etc. 2 2 Otra propiedad de la curva normal es: m4= 3 m2 , i n
(Xi m4 = Cuarto momento respecto de la media =
X) 4
i 1
n i n
(X i
m2 =
2
= Segundo momento respecto de la media o Varianza =
X) 2
i 1
n
Basado en esta propiedad, surgió la idea de tomar al cuarto momento m adimensional respecto de la media, definido por : a 4 = 42 como una medida de m2 la normalidad para los datos, pues en ese caso debería verificarse a 4 = 3 . A este coeficiente a4 se le dio el nombre de “coeficiente momento de curtosis” , se aplica exclusivamente a distribuciones unimodales, y lo que hace es comparar la frecuencia de los valores centrales en la distribución considerada, con la frecuencia que debería tener una distribución normal con igual media e igual varianza en la misma zona, de manera que si a 4 > 3 , esto podría interpretarse como una mayor concentración de los datos en su zona central, por lo tanto la curva de frecuencias resultante es más puntiaguda que la curva normal; mientras que cuando a4 < 3 ocurre justamente lo contrario, existe una menor concentración 2
Ver la demostración N° 4 del Anexo.
Medidas de Deformación Angel Francisco Arvelo L.
17
en la zona central, y la curva de frecuencias es mas aplastada que la curva normal. El término “curtosis” es derivado de la arquitectura griega, y se utilizaba para comparar la esbeltez de una columna con otra que servía de patrón o de referencia que era llamada “cúrtica”; de manera que si la columna en cuestión era más esbelta que aquella, se llamaba “ leptocúrtica”, y si no era , se llamaba “planticúrtica”. De la misma manera, en Estadística, la curva normal es una referencia para las demás curvas de frecuencia, y cuando ésta resulta igual de puntiaguda que la normal se denomina ”mesocúrtica”, más puntiaguda que la normal se le llama “leptocúrtica”, y cuando resulta mas achatada “planticúrtica”, tal como puede apreciarse en la siguiente figura:
Para no tener que recordar el valor 3 como referencia para la curva normal , algunos autores sugieren el uso del coeficiente de curtosis definido como: g2 = a4 - 3 de manera que g2 > 0 para curvas leptocúrticas , g2 < 0 para planticúrticas , y g2 = 0 para mesocúrticas. Otra medida de apuntamiento, es el coeficiente percentílico de curtosis dado por: 1 (Q 3 Q 1 ) 2 = P90 P10 La siguiente gráfica interpreta esta medida:
Cuando la distribución tiene la mayoría de sus observaciones concentradas en el centro, la curva de frecuencias es muy puntiaguda, el rango intercuartílico Q 3 –Q1
18
Medidas de Deformación Angel Francisco Arvelo L.
y el percentílico P90 – P10
tienden a ser casi iguales , la relación
Q 3 Q1 P90 P10
aproximadamente igual a 1, y por lo tanto” ” ligeramente menor que 0,5. Por el contrario, cuando la curva es aplastada, el rango percentílico P 90 – P10 es considerablemente mayor que el rango cuartílico Q3 –Q1 , y por tanto la relación Q 3 Q1 es cercana a cero. P90 P10 Puede demostrarse3 mediante el uso de las tablas normales que se estudiaran posteriormente, que para la curva normal = 0,2630, que es aproximadamente la media entre los valores extremos 0 y 0,5 , y de allí que: Para curvas leptocúrticas: > 0,2630 Para curvas mesocúrticas: = 0,2630 Para curvas planticúrticas: < 0,2630 1 En la fórmula de “ “ se toma 2 (Q 3 Q 1 ) también llamado “rango semi-intercuartil” y no directamente el rango intercuartil Q3 –Q1 , pues no necesariamente la distribución es simétrica, y esta es una manera de promediar las distancias Q3 –Q2 y Q2 –Q1 . Ejemplo 7 : Calcularle el coeficiente momento de curtosis y el coeficiente percentilico de curtosis , a los datos del Ejercicio 5 . Solución: Como se trata de datos agrupados, el cuarto momento respecto de la i k
(L*i media debe ser calculado a través de la expresión:
m4
X ) 4 fi
i 1
, que a
i k
fi i 1
su vez resulta más sencillo de calcular en función de sus momentos respecto al origen, según lo explicado en la sección 8.1 m4 = X 4 4 X 3 X 6 X 2 ( X ) 2 3 ( X ) 4 En los cálculos hechos en el ejemplo 8.5, se encontró: 608.904.000 5.651200 . X3 = = 1.014.840 ; X 2 = = 9.418,67 ; X = 93,60 600 600 i k
(L*i ) 4 fi Sólo falta hallar:
X4 =
i 1
, para lo cual hay que añadir a la tabla una
i k
fi i 1
4
nueva columna con los valores de ( L*i ) fi :
3
Ver Demostración N°4 del Anexo.
19
Medidas de Deformación Angel Francisco Arvelo L.
Area
fi
40 - 60 60 - 80 80 - 100 100 - 120 120 - 140 140 - 160 160 - 180 180 - 200 Sumatoria
38 154 206 102 72 21 6 1 600
L*i 50 70 90 110 130 150 170 190
4
( L*i ) fi 237.500.000 3.697.540.000 13.515.660.000 14.933.820.000 20.563.920.000 10.631.250.000 5.011.260.000 1.303.210.000 69.894.160.000
69.894.160.000 = 116.490.266, 7 600 2 Sustituyendo se obtiene : m4 = 1.370.457,00 , y dado que = 657,71 , se 1.370.457,00 obtiene que: a4 = = 3,17 , lo que significa que la curva de (657,71) 2 frecuencia correspondiente a estos datos es ligeramente más puntiaguda que una curva normal de igual media e igual varianza, debido a que presenta una mayor concentración de datos en su zona central, en comparación con la curva normal, tal como puede apreciarse en el histograma correspondiente:
De donde : X 4 =
400
Frecuencia
300
200
100
0 50,0
75,0
100,0
125,0
150,0
175,0
200,0
Area de los Apartamentos
En este gráfico puede apreciarse que la distribución a pesar de tener igual media e igual varianza que una normal, presenta mayor frecuencia que aquella, tanto en la zona central como en las zonas extremas, y una menor frecuencia en las zonas intermedias. Las zonas extremas tienen mayor influencia en el cálculo de a4 , pues sus desvíos aparecen elevados a la cuarta potencia, y de allí a4 > 3 .
20
Medidas de Deformación Angel Francisco Arvelo L.
En cuanto al coeficiente percentílico de curtosis, según los cálculos del ejemplo 8.5 , se tiene: P10 = = 62,86 ; P90 = = 131,11 ; Q1 = 74,55 ; Q3 = = 110,20 1 (110,20 74,55) 2 = = 0,2612 < 0,263 13111 , 62,86 En este ejemplo, se confirman los comentarios hechos con relación a la subjetividad de estas medidas, pues por un lado la curva resulta ligeramente leptocúrtica, y por el otro ligeramente planticúrtica . La contradicción se debe a que se está midiendo el grado de apuntamiento desde dos puntos de vista diferentes. En casos como este, en donde existen dudas acerca de la normalidad de los datos, hay que recurrir a las llamadas pruebas de bondad del ajuste, que se estudian en Inferencia Estadística.
EJERCICIOS RESUELTOS Ejemplo 8 La siguiente distribución de frecuencias, representa la duración de las llamadas telefónicas hechas desde una oficina Minutos 0a2 2a4 4a6 6a8 8 a 10 10 a 12 12 a 14 Frecuencia 48 77 37 22 10 4 2 Determine los coeficientes de asimetría y de apuntamiento. Comente los resultados. Solución: Es conveniente organizar los cálculos en la siguiente tabla: Clase
fi
0a2 2a4 4a6 6a8 8 a 10 10 a 12 12 a 14 Sumatoria
48 77 37 22 10 4 2 200
L*i 1 3 5 7 9 11 13
( L*i ) fi 48 231 185 154 90 44 26 778
2
( L*i ) fi 48 693 925 1078 810 484 338 4376
3
( L*i ) fi 48 2079 4625 7546 7290 5324 4394 31306
Los diferentes momentos respecto al origen son: 778 4376 X2 = = 3.89 ; = 21.88 ; X = 200 200 31306 263528 X3 X4 = 156.53 ; =1317.64 200 200 Los momentos respecto de la media resultan: 2
2
2
= m2 = X 2 - X = 21.88 – ( 3.89) = 6.75
m3 = X 3 m4 = X 4
3
3 X 2 X 2 ( X ) 3 = 156.53 – 3 (21.88) ( 3.89) + 2 (3.89) = 18.92 4 X 3 X 6 X 2 ( X )2
3 ( X ) 4 = 181.63
4
( L*i ) fi 48 6237 23125 52822 65610 58564 57122 263528
21
Medidas de Deformación Angel Francisco Arvelo L.
y por lo tanto: a3 =
18.92
= 1.08 ; a4 =
18163 .
= 3.99 (6.75) 2 ( 6.75 ) Por el resultado a3 =1.08 , se puede concluir que se trata de una distribución fuertemente sesgada hacia la derecha, tal como puede verse en su correspondiente polígono de frecuencias: 3
Poligono de Frecuencias 80
Frecuencia
60
40
20
0 0
2
4
6
8
10
12
14
16
Duracion de las llamadas
En cuanto a los demás coeficientes, se tiene: Moda = 2+
77 48 2 = 2.84 (77 48) (77 37)
200 48 Mediana = 2 + 2 2 = 3.35 77
200 3 48 200 125 4 Q1= 2 + . 2 = 2.05 Q3= 4 + 4 2 = 5.35 37 77 10 90 200 162 200 100 100 P10= . 2 = 0.83 P90= 6+ . 2 = 7.64 22 48 3.89 2.84 X Moda S.K1= = = 0.40 > 0 Sesgada hacia la derecha S 6.75 3 (3.89 3.35) 3 ( X Med) S.K2= = = 0.62 > 0 S 6.75 Por tanto, mas del 50 % de las llamadas duran menos de X = 3.89 Q 3 2 Q 2 Q1 5.35 2 (3.35) 2.05 gQ = = = 0,21 > 0 Q 3 Q1 5.35 2.05 P 2 P50 P10 7.64 2(3.35) 0.83 gP= 90 = = 0.26 > 0 P90 P10 7.64 0.83
Medidas de Deformación Angel Francisco Arvelo L.
22
En ambos casos, los coeficientes de Bowley resultan positivos, lo que revela una asimetría hacia la derecha. El coeficiente percentílico de curtosis resulta: 1 1 (Q 3 Q 1 ) (5.35 2.05) 2 2 = = = 0,2423 P90 P10 7.64 0.83 No es posible llegar a una conclusión definitiva acerca de la esbeltez de la curva de frecuencia, pues a4 > 3 y < 0,263 . Ejemplo 9: De un conjunto de datos se sabe que la mediana es 12 , el segundo coeficiente de asimetría de Pearson es 1,5 , y la desviación típica 2. a)¿ Puede ser simétrica esta distribución? . b)¿ Cual es su media ? . c) ¿A qué conclusión se puede llegar, acerca del porcentaje de datos que son mayores que la media ? . Solución : a) Cuando en una distribución existe simetría, todas las medidas de deformación deben anularse, y dado que en este caso una de ellas como lo es S.K2 0, se concluye que esta distribución no puede ser simétrica. 3 ( X Med) b) Para hallar X , basta con despejarla de la expresión: S.K 2= , de S S (S.K 2 ) 2 (1,5) donde se obtiene : X = Med + = 12 + = 13 3 3 c) La distribución es sesgada hacia la derecha pues X > Med , y por lo tanto menos del 50% de los datos son mayores que X . Ejemplo 10 Analice si en los datos {1 , 1 , 2 , 2, 2 , 3, 3 ,3, 4, 4} existe o no simetría . Solución : Se cumple X = Med = 2,50 ; sin embargo, esto no garantiza la simetría. Hay que aplicar la definición, a ver si se cumplen las dos condiciones de simetría: La primera condición se cumple, pues existen cinco datos menores que 2,5, y también cinco mayores que 2,5. Para cada dato menor que 2,5 existe otro mayor que 2,5 , con el mismo desvío absoluto, y por tanto se cumple la segunda condición. En conclusión, el conjunto es simétrico con respecto al valor 2,5. Ejemplo 11: De una distribución simétrica de frecuencias para 200 datos, en cinco intervalos de clase con igual amplitud, se tiene la siguiente información: Rango = 50 Mediana = 75 Frecuencia del tercer intervalo doble de frecuencia del segundo, y ésta a su vez doble del primero. a) Construya la tabla de frecuencias. b) ¿Qué porcentaje de los datos cae en el intervalo X ± ? c) Si se eliminaran los datos inferiores al percentil 15, y los superiores al percentil 92 , ¿ cual sería la media de los datos resultantes ? .
23
Medidas de Deformación Angel Francisco Arvelo L.
Solución: Por simetría se tiene f2 = f4 , y f5 = f1 , y según las condiciones del problema : f3 = 2 f2 , y f2 = 2f1 . Además f1 + f2 + f3 + f4 + f5 = 200 f1 +2 f1 +2(2 f1)+ 2f1 + f1 = 200 10 f1 = 200 f1 = 20 f2 = 40 y f3 = 80 . No se conocen los límites de clase, ni la amplitud. Sea : L= Límite Real inferior de la primera clase, y c = Amplitud La distribución de frecuencias es entonces: L a L +c L+ c a L + 2c L+2c a L + 3c L+3c a L + 4c L+4c a L + 5c Clase Frecuencia 20 40 80 40 20 Acumulada 20 60 140 180 200 Rango = L + 5c – L = 5c = 50 c = 10 1 200 60 Med = L +2c + 2 c = L + 2,5 c = 75 L = 75 – 2,5 (10) = 50 80 La distribución de frecuencias es por consiguiente: 50 a 60 60 a 70 70 a 80 80 a 90 90 a 100 Clase Frecuencia 20 40 80 40 20 Por simetría X = 75, y al hacer los demás cálculos, se obtiene: = 10,95 , P15 = 62,50 y P92 = 92,00 Para hallar el porcentaje de datos comprendido en el intervalo X ± S , que corresponde a 75,00 ± 10,95 = [ 64,05 ; 85,95] , se determina el porcentaje de datos por debajo de cada límite, encontrándose: 100 85,95 80 140 10 = 81,90 % p2 = % por debajo de 85,95 = 200 40
FG H 100 F = % por debajo de 64,05 = G 20 200 H
IJ K
IJ K
64,05 60 10 = 18,10 % 40 En el intervalo [ 64,05 ; 85,95] se encuentran 81,90% - 18,10% = 63,80 % . Si se eliminan os datos inferiores a P15 = 62,50 y los superiores a P92 = 92,00 , los intervalos de 60 a 70 y de 90 a 100 resultan truncados, y hay que hallar la frecuencia proporcional que les corresponde. 70 62,50 40 = 30 Al intervalo 62,50 a 70 le corresponde una frecuencia de : 10 92 90 20 = 4 Y a 90 a 92 una frecuencia de : 10 La distribución recortada resultante es : Clase 62,50 a 70 70 a 80 80 a 90 90 a 92 Frecuencia 30 80 40 4 62,50 70 92 90 30 75(80) 85(40) 4 2 2 cuya media es: X 15 92 = 76,31 . 30 80 40 4
p1
Ejemplo 12: Se tienen dos distribuciones de frecuencia, de las cuales se tiene la siguiente información:
24
Medidas de Deformación Angel Francisco Arvelo L.
Segundo momento respecto de la media: 9 y 16 Tercer momento respecto de la media: -8.1 y - 12.8. ¿Cuál de las dos presenta una mayor asimetría? . Solución : A partir del segundo y tercer momento respecto de la media, se puede m3 m calcular el coeficiente momento de sesgo, pues : a3 = 33 = . (m 2 ) 3 Para la primera distribución se tiene : a3 = Para la segunda distribución se tiene : a3 =
8,1 (9) 3
= -0,30 .
12,8
= -0,20 . (16) 3 Ambas distribuciones son sesgadas hacia la izquierda, pero la primera presenta un mayor grado de deformidad, pues el valor absoluto de su coeficiente momento de sesgo es mayor. Ejemplo 13: Hallar el coeficiente cuartílico de sesgo para los siguientes datos sin agrupar: 1 , 3 , 5 , 5 , 11 , 12 , 12 , 15 . Interprete el resultado. Solución: Los datos se encuentran ya ordenados de menor a mayor , y como son 12 12 3 5 5 11 ocho, Q1 = = 4 ; Q2 =Med = = 8 y Q3 = = 12 2 2 2 Q 3 2 Q 2 Q1 12 2 (8) 4 gQ = = = 0 Q 3 Q1 12 4 Por el resultado, se podría pensar que existe simetría, pero al aplicar la definición, encontramos que en realidad no lo es , pues no cumple la segunda condición. Ejemplo 14: Hallar el sesgo o 1er coeficiente de sesgo de Pearson para los siguientes datos sin agrupar: { 2 , 5 , 9 , 9 , 9 , 20 } . Interprete el resultado. Solución: Para estos datos: X = 9 , Moda = 9 , S = 5.57 9 9 X Moda Sesgo = S.K1= = =0 5.57 Sin embargo, no existe simetría al no verificarse ninguna de las dos condiciones.
Preguntas de Revisión 1°) ¿Puede una distribución bimodal ser simétrica? . Si su respuesta es positiva de un ejemplo, y si es negativa justifíquela. 2°) ¿Es posible que alguno de los momentos de orden par, respecto de cualquier origen de trabajo sea negativo? 3°) Si todos los datos son iguales, ¿qué ocurre con las diferentes medidas de deformación y apuntamiento?.
Medidas de Deformación Angel Francisco Arvelo L.
25
4°) ¿Por qué se toma al tercer momento adimensional respecto de la media, como medida de asimetría? 5°) Analice si al multiplicar un conjunto de datos por una constante, se alteran los coeficientes momento de sesgo, y de curtosis. ¿Se alteran esos mismos coeficientes, si los datos se someten a una transformación lineal? . 6°) ¿En qué caso, los coeficientes de asimetría de Bowley no pueden ser calculados, y por lo tanto no existen? . En caso de existir, ¿entre qué valores pueden variar?. 7°) ¿Puede garantizarse la simetría, cuando una de las medidas de deformación se anula?. Justifique su respuesta. 8°) ¿Cual es la diferencia entre escribir X r y ( X)r ?. 9°) ¿Para qué se utilizan los momentos de orden impar respecto de la media? . 10°) ¿En qué casos los coeficientes de asimetría de Pearson no existen?. 11°) Obtenga una expresión para el tercer momento respecto de un origen de trabajo “A”, m 3,A ( X A ) 3 , en función de los tres primeros momentos respecto del origen, y en función de los tres primeros momentos respecto de la media. 12°) ¿ A qué conclusión puede llegarse si en una distribución, los momentos respecto de la media son iguales a los momentos respecto del origen? . 13°) ¿Qué puede decirse de una distribución cuyo cuarto momento respecto de la media sea nulo? . 14°) Si en una distribución, más del 50% de los datos son menores que su media, ¿qué tipo de deformación presenta? . 15°) En una distribución que sólo presente dos valores, ¿qué condición debe cumplirse para que sea simétrica?. ¿Cuál es el eje de simetría?. 16°) Si se tienen dos distribuciones con segundo coeficiente de sesgo S.K 2, ambos negativos, pero diferentes. ¿ En cual de las dos existe un menor porcentaje de datos inferiores que la media?. 17°) ¿ En qué caso el coeficiente percentílico de curtosis no existe? . En caso de existir, ¿ entre qué valores puede variar?.
Medidas de Deformación Angel Francisco Arvelo L.
26
18°) Suponga que en la siguiente distribución, que solo presenta dos valores: Xi x1 x2 se encuentra S.K2 = 0 . fi f1 f2 ¿ Se puede concluir que es simétrica? . 19°) Suponga que en una distribución, una de las medidas de deformación se anula y otra no. ¿Existe duda acerca de su simetría?.
Temas complementarios para investigar 1°) Investigue la forma exacta de construir un “Gráfico de Caja”. ¿Qué significa el término “Profundidad de un dato”? . ¿Qué son los valores letra?. ¿ Como se hallan “los cuartos” , las “cercas internas y externas”, etc.?. 2°) Investigue acerca de las correcciones de Sheppard, su fundamento, y las fórmulas para corregir el cálculo de los momentos en el caso de datos agrupados. 3°) Investigue acerca de los métodos abreviados para calcular los diferentes momentos de una distribución, en especial cuando se trata de datos agrupados. Investigue el fundamento teórico de estos métodos, y aplíquelos en el cálculo de a3 y a4 , en los ejercicios 8.5 , 8.7 y 8.8 . Problemas Propuestos I. Nivel Elemental 15) Dado el conjunto de datos {2,3,7,8,10} . Halle sus cuatro primeros momentos respecto de: a) el origen . b) la media . c) el número 4 . Analice si existe simetría. Solución: a) 6, 45.2 , 378 y 3318.8 b) 0 , 9.2 , -3.6 y 122 . c) 2 , 13.2 , 59.6 y 330 8.16) Encuentre la media de un conjunto de datos, sabiendo que el primer momento respecto del número 4 es 12. Solución: X = 16 16) La siguiente distribución, representa el número de inasistencias durante un año, para los empleados de una empresa: Intervalo 0a4 5a9 10 a 14 15 a 19 20 a 24 25 a 29 frecuencia 5 10 8 1 0 1 Calcule los coeficientes momento de asimetría y de curtosis. Solución: a3 = 1.3 a4 = 5.6 17) La siguiente distribución, representa el número de aparatos de T.V en una encuesta entre viviendas. Use métodos abreviados. Aparatos 1 2 3 4 5 6 frecuencia 2241 3272 264 47 6 3 Calcule los coeficientes momento de asimetría y de curtosis. Solución: a3 = 0.8 a4 = 5.4
27
Medidas de Deformación Angel Francisco Arvelo L.
18) La siguiente tabla de frecuencias se refiere a la longitud en milímetros de una cierta pieza mecánica: Longitud
9.3 a 9.7
9.8 a 10.2 10.3 a 10.7 10.8 a 11.2 11.3 a 11.7 11.8 a 12.2 12.3 a 12.7 12.8 a 13.2
Frecuencia
2 5 12 17 14 6 3 1 Calcule todas las medidas de deformación y de apuntamiento. Interprete los resultados. Solución: a3 = 0.9190 S.K1 = 0.040 S.K2 = 0.074 gq= –0.02 gp= –0.13 a4 = 2.94 = 0,313 19) Para una distribución se tiene que su media es 20 , y su coeficiente de variación del 30% . Halle su segundo momento respecto del origen y respecto del número 3 , es decir ( X 3) 2 .
Solución : 436 y 325
20) Para la distribución del ejercicio anterior, halle la moda y la mediana, si sabe que los coeficientes de sesgo de Pearson, tienen un valor de 0,10 y 0,15 respectivamente. Solución. Moda = 19.40 . Mediana = 19.70 21) De una distribución con media 15 y moda 18, se sabe que sus coeficientes de sesgo de Pearson tienen un valor de –1 y de – 0,80 . Encuentre la mediana. Solución: Mediana = 15,80 22) Analice si en los datos {6, 10, 12, 14, 15, 16, 17, 21, 24} existe simetría. 23) Dados los siguientes datos sin agrupar: 15 , 20, 7, 10, 30, 14, 19, 9, 27, 5, 14, 38, 12, 21, 20, 29, 14, 25, 24 ,7 Calcule los coeficientes de sesgo de Bowley, y de Pearson. Interprételos. Solución: gq = 0,11 gp = 0,11 S.K1= 0.46 S.K2= 0.35 24) En la siguiente tabla de frecuencias para datos sin agrupar, calcule los diferentes coeficientes de asimetría: Valor 3 5 0 4 2 1 Frecuencia 18 20 2 24 10 6 Solución : S.K1= -0.42 , S.K2= - 1.25 gq = -0.33 gp = - 0.43 ; a3 = - 0,68 25) a) Sabiendo que la media y el coeficiente momento de sesgo son ambos iguales a cero, complete la siguiente tabla de frecuencia para datos sin agrupar: Xi 1 -4 5 fi ? ? 1 b) ¿ Es realmente simétrica la distribución ? . Justifique Solución: a) f(1) = 3 ; f(-4) = 2 b) No 26) Calcule el coeficiente momento de sesgo para la siguiente distribución: Xi -3 2 6 Analice si existe simetría. fi 2 3 1 ¿Existe contradicción entre los dos resultados anteriores?. Solución: a3 = 0 . No es simétrica.
Medidas de Deformación Angel Francisco Arvelo L.
28
27) En una distribución, el intervalo que contiene al 50% central tiene amplitud 48, y el intervalo que contiene al 80% central tiene amplitud 64. Calcule el coeficiente percentílico de curtosis. Solución: 0.375 28) En una distribución, la mediana es 40, el intervalo 50% central tiene amplitud 25, y el coeficiente cuartílico de sesgo es – 0.20 . Halle el primer y tercer cuartil. Solución: Q1 = 25 Q3 = 50 II. Nivel Intermedio 29) Suponga que en un conjunto formado por 5 datos, se sabe que es simétrica, que su media aritmética es 10 , que su rango es 14 y que su varianza es 29,60 . Determine los 5 datos que lo integran . Solución: 3 , 5 , 10 , 15 y 17 . 30) De una distribución de frecuencias simétrica, que considera cinco clases de igual amplitud, se tiene la siguiente información: Número total de datos = 400 Media = 300 Rango intercuartil = Q3 - Q1 = 80 La frecuencia del tercer intervalo es el doble de la del primero . La frecuencia del cuarto intervalo es 80 . a) Construya la tabla de frecuencias . b) Calcule el porcentaje de datos que caen en el intervalo [ 234 ; 358] Solución: a) c= 40. Límite inferior = 200 . fi= 60,80,120,80,60 b) 71,50% 31) Se tiene una distribución simétrica de frecuencias con cinco intervalos, de la cual se sabe que : X = 150 , n= 200 , f3 = 100 , f2 = f1 + 10 , D7 = 158 . a) Construya la tabla de frecuencias . b) Calcule el porcentaje de observaciones que caen en el intervalo: X ± . Solución: a) c= 40. Límite inferior = 100 . fi= 20,30,100,30,20 b) 66,46 % 32) Si los dos primeros momentos de un conjunto de datos respecto al número 5 son : -4 y 22 respectivamente. Determine los dos primeros momentos de ese conjunto de datos , respecto de : a) la media , b) el numero 3 . c) el origen .d) Calcule también la varianza . Solución : a) 0 y 6 , b) -2 y 10 . c) 1 y 7 . d) S2 = 6 . 33) ¿Cuál debe ser el cuarto momento respecto de la media , de una distribución simétrica con desviación típica 15 , para que sea: a) leptocúrtica , b) mesocúrtica , c) planticúrtica . Solución : a) mayor que 151875 . b) igual a 151875 . c) menor que 151875
Medidas de Deformación Angel Francisco Arvelo L.
29
34) Se tiene la siguiente distribución simétrica, que considera 150 valores puntuales de la variable "X": Valores de "X" ? 4 8 ? 15 Frecuencia 15 ? 70 ? ? a) Complete la tabla de frecuencias . b) Calcule la desviación típica de la distribución . c) Encuentre los percentiles 40 y 90 de la distribución. d) Calcule el 5º momento respecto de la media . Solución: b) S = 3,89 c) P40 = 8 P90 = 13,50 d) m5 = 0 35) De una distribución de frecuencias simétrica, que considera 7 intervalos de igual amplitud para agrupar 400 datos, se tiene la siguiente información: Intervalo 80% central = [170 ; 230 ] Frecuencia de la clase modal = 184 La frecuencia de la sexta clase es siete veces la de la primera clase. La frecuencia de la tercera clase es 68 . a) Construya la tabla de frecuencias . b) Encuentre el porcentaje de observaciones en el intervalo X ± S . Solución: a) c= 20. Límite inferior = 130 . fi= 5,35,68,184,68,35,5 b) 67,23 % 36) Una distribución simétrica de frecuencias para 240 datos, empieza en 100, termina en 350, considera cinco intervalos de igual amplitud, su tercer cuartil es 270 , y además la frecuencia del tercer intervalo es igual a la suma de las frecuencias del primero y del segundo. a) Construya la tabla de frecuencias. b) Calcule el porcentaje de datos que se encuentran en el intervalo [215 ; 316]. Solución: a) c= 50.. fi=30,50,80,50,30 b) 48,17 % 37) En una distribución de frecuencias simétrica, para 300 datos agrupados en cinco intervalos de igual amplitud, se tiene : f3 = f1 + f 4 ; P40 = 166 ; P90 = 220 ; h5 = 10 % . a) Construya la tabla de frecuencias . b) Calcule el porcentaje de datos que caen en el intervalo X D.M . c) Calcule la media de la cuarta parte superior. Solución: a) c= 30. Empieza en 100. fi=30,70,100,70,30 b) 50.44% c)220,21 38) Encuentre el primero y segundo momento respecto al valor “6” , para una distribución de frecuencias que tenga media 8 y varianza 2. Solución: 2 y 6 39) En una distribución, la mediana es 31,20 , el intervalo 80% central tiene amplitud 82, el coeficiente cuartílico de sesgo 0,60 , y el coeficiente percentílico de curtosis 0,25 . Determine el primer y tercer cuartil. Solución: Q1 = 23 Q3 = 64 40) De un conjunto con 30 datos cuantitativos, se sabe que la suma es 150, la suma de sus cuadrados 860, y la suma de sus cubos 5400. ¿ Puede afirmarse que la media y la mediana son iguales ?.
30
Medidas de Deformación Angel Francisco Arvelo L.
Solución: Es posible pues m3 = 0 , pero no necesariamente se puede llegar a esa conclusión. III. Nivel Avanzado 41) Demuestre que a4
1 . ¿En qué caso a4 = 1? .
42) Demuestre que: –3< S.K2 < +3 43) Encuentre el tercero y cuarto momento respecto de la media, para “n” datos que se encuentran en progresión aritmética: a, a +r , a +2r , ....., a + (n -1)r . i n n (n 1) (2n 1) (3n 2 3n 1) i4 ¿Existe simetría? . Sugerencia : 30 i 1 Solución: m3 = 0 , m4 =
(n 2
1) (3n 2 240
7) r 4
. Si existe simetría
44) En un conjunto de “n” datos , “m” de ellos son iguales a 1 , y los restantes “n – m” son iguales a 0 . Encuentre los cuatro primeros momentos respecto de la media. Solución: m2 =
m (n - m) n2
; m3 =
m (n - m) (n - 2m)
45) Si en una distribución se verifica:
n3 X3
3X
X4
3
4
2
; m4 =
m (n - m) (3m 2 + n 2 - 3mn) n4
+ X3
+ 6X2
2
X4
Determine los coeficientes momento de sesgo, y de curtosis. Solución: a3 = 0 , a4 = 3 .