Story Transcript
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Organización de la información
Prof: Willer David Chanduví Puicón
Presentación de datos Realizado el experimento o finalizada la investigación, el investigador ha recopilado un conjunto de datos u observaciones los cuales requieren ser ordenados. La Estadística nos proporciona los métodos apropiados para tal fin. Así tenemos:
1. Tablas o cuadros estadísticos. Es la presentación de datos ordenados en filas y columnas. Partes principales de una tabla
Número de la tabla: Es el código con el que se identifica la tabla que generalmente
es un número decimal. Ejemplo: Tabla Nº 3.7 la parte entera, 3, indica el capítulo o parte de la obra en donde se encuentra ubicada la tabla y la parte decimal 7, indica que es la séptima tabla de ese capítulo.
El título de la tabla: La tabla se explicará por si misma por tanto se debe dar
suficiente información en el título, es decir, el título debe ser conciso y completo puesto que es una descripción del contenido. Para que un título sea completo, éste debe responder a cuatro preguntas claves: ¿Qué? Qué se estudia, es decir, cuál es la población que se está estudiando?; ¿Cómo?, es decir, ¿cómo se clasifican los datos en la tabla, o sea, de acuerdo a qué características?; ¿Dónde?, es decir, a qué institución o lugar geográfico pertenecen los datos?; ¿Cuándo?, es decir, el período de tiempo o fecha en la que se realizó la investigación.
Fila de los encabezamientos o de los subtítulos. En esta fila se escriben los
nombres de las variables y sus categorías o niveles. Cuando la variable es cuantitativa se anota sus unidades de medida.
Columna matriz: es la primera columna del margen izquierdo. En esta columna se
anota las categorías o niveles de la variable que está considerada en la fila de los encabezamientos.
1
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón Cuerpo de la tabla: son las casillas o celdas en donde se consignan los datos.
Fuente: Cuando los datos corresponden a investigaciones realizadas con objetivos
diferentes, es conveniente mencionar la fuente no solo como un reconocimiento al autor sino también para orientar al lector y pueda consultar la fuente primaria.
2. Distribuciones de frecuencias ¿Qué es una distribución de frecuencias? Es la organización de los datos obtenidos en grupos o clases llamados intervalos de clase, los cuales son mutuamente excluyentes y colectivamente exhaustivos ¿Cuál es el objetivo al organizar los datos en una distribución de frecuencias? Detectar la tendencia de la variable de estudio y hacer un análisis preliminar. Se dice también que una distribución de frecuencias es una primera forma de resumir la información. 3. Representaciones gráficas La mayoría son figuras geométricas que se utilizan para visualizar el comportamiento o la tendencia de la variable (s) de estudio. Tipos de gráficos según la naturaleza de la variable de estudio:
Para variables cuantitativas: Histogramas y polígonos.
Para variables cualitativas: Gráficos de barras y gráficos circulares
2
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel DISTRIBUCIÓN DE FRECUENCIAS
Prof: Willer David Chanduví Puicón
Decíamos que una distribución de frecuencias es la organización de los datos en intervalos de clase, mutuamente excluyentes y colectivamente exhaustivos. Ejemplo. La tabla Nº 2.6 Para variables nominales y ordinales, una distribución de frecuencias consiste en un conjunto de categorías o clases con cantidades numéricas correspondientes a cada categoría que toman el nombre de frecuencias. Ejemplo, la tabla Nº 2.4 Para presentar las observaciones correspondientes a una variable discreta o continua en forma de una distribución de frecuencias debemos proceder de la siguiente manera:
a)
Determinar el rango o recorrido, éste se define como la distancia entre el dato máximo y el dato mínimo. Se denota por R.
b)
Determinar el número el número de intervalos a considerar. En principio, ni pocos ni demasiados intervalos. Si hay demasiados intervalos el resumen no tiene grandes ventajas respecto de los datos a procesar. Si se consideran pocos, se sintetiza demasiado de manera que se pierde gran cantidad de información. Una regla que se usa para determinar el número de intervalos a considerar, se conoce con el nombre de regla de Sturges, que consiste en calcular k
k = 1 + 3.322log N
siendo N el número de observaciones y k el número de intervalos. Se recomienda que el número de intervalos no debe ser menor de 5 ni mayor de 20. c)
Se determina la amplitud del intervalo, para ello se divide el rango o recorrido entre k, y de esa manera obtenemos la longitud de cada intervalo.
d)
Se calculan los límites inferior y superior de cada intervalo de clase.
3
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel
Prof: Willer David Chanduví Puicón
Frecuencia Absoluta Simple Es el número de veces que se repiten los valores dentro de los diferentes intervalos en que se ha dividido la información. Frecuencia Absoluta Acumulada Se obtiene sumando y acumulando los valores absolutos clase por clase en orden ascendente. Frecuencia Relativa Simple Es el valor que resulta de dividir cada una de las frecuencias absolutas simples entre el total de frecuencias o datos. Así se tiene:
Frecuencia Relativa Acumulada Se obtiene sumando y acumulando los valores relativos clase por clase en orden ascendente.
Ejemplo: Un investigador social desea determinar en la comunidad “X”, el número de horas semanales que dedican los niños menores de 6 años de edad, a ver televisión. Una muestra de 25 años, arrojó los siguientes resultados (en número de horas semanales).
10 16 23 15 18
19 19 22 21 25
25 27 17 23 23
19 27 12 26 24
26 25 20 14 21
a) Ordenar la información en una tabla de distribución de frecuencias. b) Interpretar algunos valores de las frecuencias halladas.
4
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Representaciones Gráficas
Prof: Willer David Chanduví Puicón
Existen diversidad de gráficos estadísticos; éstos se eligen de acuerdo al tipo de variable y al propósito para el cual se construye. Los gráficos más importantes y de mayor uso son: A. Cuando los datos son medidos a nivel Nominal u Ordinal 1. Gráfico de Barras 2. Gráfico Circular
B. Cuando los datos son medidos a nivel de Intervalo o razón 1. Histograma Es un gráfico que se utiliza para representar la distribución de frecuencias absolutas o relativas simples. Consiste en un grupo de rectángulos adyacentes que tienen sus bases en el eje de las abscisas (donde se representan los intervalos de clase de la variable) y altura igual a las frecuencias de cada clase.
2. Polígono de frecuencias También es un gráfico que se utiliza para representar la distribución de frecuencias absolutas o relativas simples. Consiste en un gráfico que se obtiene uniendo los puntos hallados, mediante el par de valores de marca de clase y frecuencia correspondiente. Para
5
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón fines del gráfico se hace necesario incrementar un intervalo de clase en cada extremo, con frecuencias cero. 3. Ojivas Son gráficos que se utilizan para representar las frecuencias acumuladas absolutas o relativas, y consiste en un gráfico lineal que nos permite observar la cantidad de elementos que quedan por encima o por debajo de determinados valores.
Ejercicios: 1. Los siguientes datos corresponden al índice de rendimiento en una prueba de aptitud. 1.51 1.23 1.65 1.61 2.29
1.53 1.56 1.69 1.65 1.56
1.47 1.09 2.01 1.6 1.67
1.58 1.63 1.73 2.18 1.81
1.46 1.60 1.22 1.54 1.67
1.69 1.89 1.46 1.33 1.38
1.66 1.37 1.51 1.65 1.68
1.61 2.29 1.47 1.50 1.83
a) Elaborar una tabla completa de distribución de frecuencias. b) Interpretar algunos valores de las frecuencias halladas.
6
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón 2. Los siguientes datos corresponden al número de viajes que realizan por día, 80 personas encuestadas, para ir y regresar de su centro de trabajo:
3 5 6 5 3 4
6 4 2 6 5 2
5 3 5 4 4 3
7 4 7 5 2 4
4 3 6 2 6 2
4 5 3 5 3 3
3 6 2 3 3 6
6 6 5 6 3 5
7 4 4 2 6 4
4 4 4 2 5 5
5 5 6 3 7 5
4 7 5 3 4 5
4 4 6 5 5 4
a) Ordenar los datos agrupándolos en un cuadro de distribución de frecuencias. b) ¿Cuántas personas viajan 4 veces por día? c) ¿Qué porcentaje de personas viajan 3 veces por día? d) ¿Cuántas personas viajan 5 veces por día? e) ¿Cuántas personas viajan a lo más veces por día? 3. Los siguientes datos corresponden a las lecturas de la presión sanguínea sistólica que se hicieron a 58 adultos que se presentaron para un examen físico 104 126 116 105 114 124 124
112 126 114 120 122 111 122
128 115 129 146 116 121 134
139 118 117 121 108 111 131
118 117 106 120 122 114
132 116 124 102 112 123
132 113 115 138 112 107
112 122 118 106 123 120
106 123 123 113 116 120
a) Construir un cuadro de distribución de frecuencias b) Analizar algunos valores de las frecuencias hallada.
4. Se muestra a continuación la estatura en centímetros de un grupo de niños y niñas normales, de 0 a 12 años, residentes en las regiones de 4900 m. sobre el nivel del mar. 45 51 55 60 62
48 38 36 45 48
115 52 98 120 125
112 132 134 105 108
95 96 87 78 69
98 89 63 54 49
145 112 109 53 57
115 51 91 61 71
96 63 109 46 63
90 104 103 56 139
7
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel a) Construir una tabla de frecuencias
Prof: Willer David Chanduví Puicón
b) Analizar los datos agrupados. Resumen de la Información Las distribuciones de frecuencias y las tablas estadísticas son una primera forma de resumir la información para hacer un análisis preliminar, pero no es suficiente. Se trata ahora de sustituir a toda la serie de datos o distribución de frecuencias por unos pocos índices. Para elegir a esos índices o parámetros debemos considerar tres aspectos básicos, y ellos son: la localización o ubicación, dispersión o variación, y la forma, de la distribución
Localización o ubicación de la distribución. Se trata de la ubicación de la masa de datos en el eje real. Los indicadores o índices de la localización se conocen con el nombre de medidas de tendencia central, y son: media aritmética, mediana, moda o modo, media geométrica y la media armónica. En la Figura Nº 1 Se observan dos poblaciones ubicadas en diferentes puntos del eje real
Población I
Población II
µ1
µ2
X
Fig. Nº 1
8
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel
Prof: Willer David Chanduví Puicón
Dispersión o variación. Se refiere a la variabilidad de los datos que constituyen la distribución. Los índices de la dispersión se conocen con el nombre de medidas de dispersión, y estos son: la varianza, desviación estándar, coeficiente de variación, recorrido intercuartílico y el recorrido o rango o amplitud total. En la Fig. Nº 2 se observan poblaciones con diferente dispersión y también diferente ubicación Población I
Población II
σ1
σ2
µ1
µ2
X
Fig. Nº 2
Forma de la distribución. La distribución puede ser simétrica, asimétrica o sesgada, esta última puede ser de sesgo positivo o de sesgo negativo. El índice de la forma de la distribución es el coeficiente de asimetría. En la Figura Nº3 se observan tres distribuciones con diferente forma
Población I
Distribución con
Población II
Distribución simétrica
asimetría negativa
Población III
Distribución con asimetría positiva
Fig. Nº 3
9
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel
Prof: Willer David Chanduví Puicón
Vamos a describir a cada uno de estos índices. 3.1 MEDIDAS DE TENDENCIA CENTRAL
A este conjunto de medidas de resumen se les conoce como medidas de tendencia central, porque tienden a ubicarse en el centro de la distribución. Estas medidas son: la media aritmética, mediana, moda, media geométrica y también podemos considerar a las medidas de posición conocidos con el nombre de percentiles
Media aritmética
Es la medida de tendencia central más conocida y de mayor uso, comúnmente la llaman promedio aritmético o simplemente promedio, pero todas las tendencia central son promedios. Se define como la suma de todas las observaciones dividida entre el número de observaciones, es decir,
x
X
i
n
Ejemplo 1 Se han obtenido la cantidad de fósforo (en mg / g de hoja) en hojas secas:
Xi: 8.15, 8.26, 8.40, 8.58 y 8.60
La media aritmética es:
X =
X n
i
41.91 8.398 mg / g 5 10
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel
Prof: Willer David Chanduví Puicón
Ejemplo 2 Se dispone del tiempo de vida (en meses) de dos especies de pájaros en cautiverio: Especie A Xi (meses) : 34 36 37 39 40 41 42 43 59 Especie B Xi (meses) : 35 36 39 41 39 43 45 44 46 45
Se observa que la especie A tiene menor esperanza de vida en cautiverio. No olvide que la media aritmética tiene la misma unidad de medida como la tienen las observaciones individuales.
Observaciones
a)
La media aritmética se emplea en datos cuantitativos o numéricos; en cambio no debe usarse en datos ordinales debido a la naturaleza arbitraria de la escala.
b)
La media es sensible a valores extremos o discordantes y la presencia de ellos en un conjunto de datos hacen que la media pierda su condición de ser representativa del conjunto
c)
Es la medida de tendencia central que mejor describe a un conjunto de datos cuando la distribución es simétrica.
d)
Se expresa en las mismas unidades de medida en que están dados los datos originales
11
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel
Prof: Willer David Chanduví Puicón
La Mediana La mediana de un conjunto de datos es la observación central, es decir, la mitad de las observaciones son menores o iguales que la mediana y la otra mitad son mayor o iguales. Cálculo de la mediana
a)
Se ordenan los datos de menor a mayor (o viceversa)
b)
Encontrar el valor que está ocupando el centro. Casos:
1º)
En un número impar de observaciones la mediana es el valor que ocupa el centro. En el ejemplo 2, especie A, la mediana es Md = 40 meses.
2º)
En un número par de observaciones se define como mediana a la media aritmética de los dos valores centrales, por ejemplo en la especie B de aves en cautiverio la mediana es la semisuma de la quinta y sexta observación, es decir, M d =
40 41 2
= 40.5 meses. Observaciones
a) La mediana no es sensible a los valores extremos, es decir, éstos no tienen efectos importantes sobre la mediana ( no la modifican). b) La mediana puede usarse con valores ordinales debido a que para su cálculo no se usa los valores reales de las observaciones si no se ubica el valor central. c) Se recomienda como representativa del conjunto de datos cuando existen valores extremos (distribución asimétrica o sesgada). d) Al igual que la media aritmética, se expresa en las mismas unidades de medida en que están dados los datos originales.
12
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel
Prof: Willer David Chanduví Puicón
La Moda
La moda o modo de un conjunto de observaciones se define como la observación que ocurre con mayor frecuencia. Tal vez es mejor definir a la moda como una medición de mayor concentración. En algunas distribuciones de frecuencia puede haber más de uno de esos puntos de mayor concentración (moda), sin embargo esos puntos pueden no tener la misma frecuencia. Así por ejemplo, una muestra consiste de los siguientes datos en mm.
4, 4, 5, 7,7, 8, 8, 9, 9, 9, 9, 10, 11, 12, 12, 12, 12, 12, 13, 13, 14. En este conjunto de datos observamos dos modas locales 9 y 12. La Media Geométrica
Es otra medida de tendencia central, no se usa tan a menudo como las anteriores. En general se usa cuando los datos están medidos en una escala logarítmica. Se emplea en microbiología para calcular títulos desilusión promedio y para promediar cantidades en forma de progresiones y tasas de crecimiento. La media geométrica cuyo símbolo que utilizaremos es X g se define como la raíz enésima del producto de las observaciones positivas. En símbolos: Sean Xi > 0 ; X1, X2, ….., Xn n observaciones positivas, entonces la media geométrica es:
Xg =
n
( x1 )( x2 ).......( xn )
13
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel
Prof: Willer David Chanduví Puicón
¿Qué medida de tendencia central usar?
Obtenida la información, (las observaciones) la pregunta es qué medida de tendencia central es mejor para usar con los datos obtenidos. La respuesta está condicionada a dos factores: la escala de medición (numérica u ordinal) y la forma de la distribución de las observaciones (simétrica o asimétrica). Esta información ayuda a elegir la medida de tendencia central apropiada.
Si existen valores discrepantes o discordantes en una distribución se dice que la distribución es asimétrica o sesgada, así tenemos: si los valores discordantes son pequeños la asimetría es o la izquierda o negativa. Si sólo existen unos cuantos valores muy grandes comparados con el resto de los datos, la asimetría es a la derecha o positiva. Una regla para deducir la asimetría de la distribución es comparando la media y la median, como sigue: a) Si la media y la mediana son iguales, la distribución es simétrica. b) Si la media es mayor que la mediana, la distribución está sesgada o asimétrica a la derecha. c) Si la media es menor que la mediana, entonces la distribución está sesgada o asimétrica a la izquierda. Las siguientes recomendaciones para elegir la medida de tendencia central más adecuada: i) La media se usa para datos numéricos y distribuciones simétricas (no sesgadas). ii) La mediana se usa en datos ordinales o si la distribución es sesgada. iii) El modo se usa cuando se desea resaltar el dato más frecuente. iv) La media geométrica se usa en observaciones medidas en una escala logarítmica.
14
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel
Prof: Willer David Chanduví Puicón
MEDIDAS DE DISPERSIÓN O VARIABILIDAD
Las medidas de dispersión permiten estimar la representatividad de un promedio (media o mediana), en ese sentido es necesario cuantificar la dispersión o variabilidad de los datos alrededor del promedio correspondiente. Las principales medidas que calculan la dispersión son: la varianza, la desviación estándar y el coeficiente de variación. Todas ellas miden desviaciones respecto a la media, pero en tanto que, las dos primeras proporcionan desviaciones absolutas, la última proporciona desviaciones en términos relativos a la media.
Varianza
La varianza muestral (s2) se define como:
s2 =
( xi X ) 2 n 1
donde xi son los valores de la variable X, X es la media aritmética muestral y n es el tamaño de la muestra. Como vemos, la varianza viene a ser la media aritmética de las distancias de cada uno de los datos con respecto a la media X ; pero elevados al cuadrado, en ese sentido, la magnitud de s 2 medirá la mayor o menor dispersión de los valores de la variable respecto a la media aritmética; es decir, mostrará el grado de representatividad de dicho promedio, de tal forma que a mayor valor de s2 la dispersión será mayor y la media aritmética no será representativa (lo contrario sucederá cuando s2 sea pequeña).
15
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel
Prof: Willer David Chanduví Puicón
Ejemplo: En el ejemplo 2, la varianza del tiempo de vida de la especie A es s A2 = 186.2760 meses2 y de la especie B es s B2 = 12.96 meses2. Con estos resultados deducimos que hay menor dispersión en los datos del tiempo de vida correspondiente a la especie B comparada con la especie A, y por lo tanto su media aritmética (tiempo medio de vida) será mejor representativa. Además, en la especie A existe un valor atípico que es el dato 79 meses, es por eso que la varianza aumenta.
Desviación Estándar o Típica (s)
Un inconveniente de la varianza radica en que sus unidades de medida corresponde al de la variable pero, elevadas al cuadrado, lo cual puede dificultar su interpretación. Por esta razón se define una medida de dispersión la cuál si está expresada en las mismas unidades de medida que la variable que se está analizando. Esta medida de dispersión se conoce con el nombre de desviación estándar, es decir:
s s 2
(x
i
X )2
n 1
En el ejemplo del tiempo de vida en cautiverio de las dos especies, las correspondientes desviaciones estándar son:
SA = 13.65 meses
y
SB = 3.60 meses.
16
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel
Prof: Willer David Chanduví Puicón
No obstante la ventaja de interpretación que la desviación estándar supone respecto a la varianza, sin embargo, es imposible efectuar comparaciones entre distribuciones de frecuencia cuando las dimensiones de las variables no coinciden debido precisamente a que las distribuciones no poseen idénticas unidades de medida. Este inconveniente da lugar a nuevas medidas de dispersión o variabilidad relativa (adimensionales), entre ellas, el coeficiente de variación.
Coeficiente de Variación (C.V.) Se define como la relación por cociente entre la desviación estándar y la media aritmética, expresado en porcentaje, es decir:
C.V .
s 100% x
Como, tanto s como x están expresadas en las mismas unidades de medida, el C.V. resulta un indicador adimensional. Además expresa qué tanto por ciento es la desviación estándar de la media aritmética. Ejemplo 1
En un grupo de personas, el peso promedio fue de 145 libras con una desviación estándar de 7 libras; la estatura promedio fue 67 pulgadas con desviación estándar de 5 pulgadas. La pregunta es: ¿en cuál característica el grupo es más variable (heterogéneo)?. En este caso no podemos comparar paso y estatura (características expresadas en diferentes unidades de medida). Para dar respuesta a la pregunta calculamos el coeficiente de variación:
Peso
C.V. =
7 4.8% 145
Estatura
C.V. =
5 7.5% 67
17
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel
Prof: Willer David Chanduví Puicón
Por tanto decimos que en estatura el grupo es más heterogéneo. Ejemplo 2
Consideremos las siguientes muestras de los pesos de hombres de 25 años y de niños de 11 años
Muestra
Peso (Kg) Media Desviación Aritmética Estándar
Hombres Mujeres
66 36
4.5 4.5
Si observamos las desviaciones estándar, aparentemente los dos grupos tienen la misma dispersión o variabilidad en peso, sin embargo:
C.VHombres =
C.VNiños =
4.5 (100) 6.82% 66 4.5 (100) 12.5% 36
Los pesos de los niños son relativamente más variables (heterogéneos) que los pesos de los adultos. Cuartiles La mediana de una distribución divide los datos en dos partes iguales.
18
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel
Prof: Willer David Chanduví Puicón
También es posible dividir los datos en más de dos partes. Cuando se divide un conjunto ordenado de datos en cuatro partes iguales, los puntos de división se conocen como cuartiles y los representamos por Q1, Q2 y Q3
Recorrido Intercuartílico
Cuando la distribución es asimétrica se utiliza como indicador de la dispersión de los datos el recorrido intercuartílico que se define como la diferencia entre el tercer y primer cuartil, en símbolos:
RIQ Q3 Q1
Recorrido, Rango o Amplitud Total
Es la medida de dispersión que muy poco se usa porque no usa toda la información proporcionada por la muestra para calcular su valor, por lo tanto puede inducir a error. Se define como la diferencia entre el máximo y el mínimo valor de la distribución de datos.
R X max X min Forma de la distribución Una vez iniciado el análisis estadístico de sinterización de la información, para lo cual hemos estudiado las medidas de posición y dispersión de la distribución de una variable, necesitamos conocer más sobre el comportamiento de la misma. No podemos basar nuestras conclusiones únicamente en expresiones que vengan dadas en términos de medidas de posición y dispersión. Si bien intentamos globalizar el comportamiento del colectivo que sea objeto de nuestro estudio, 19
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Prof: Willer David Chanduví Puicón para lo cual las medidas de posición son nuestro mejor instrumento, no debemos proceder a una intrepretación que implique un comportamiento de todos los elementos del colectivo uniformemente constante e igual a la medida de posición en cuestión con un error dado por la correspondiente medida de dispersión. Este error o disparidad se hace más ostensible al analizar la representación gráfica de la distribución. Pues bien, las medidas de forma de una distribución se basan en su representación grafica, sin llegar a realizar la misma. Las medidas de forma se clasifican en medidas de asimetría y medidas de curtosis o apuntamiento. Las medidas de asimetría tienen como finalidad el elaborar un indicador que permita establecer el grado de simetría (o asimetría) que presenta una distribución, sin necesidad de llevar a cabo su representación grafica. Supongamos que hemos representado gráficamente una distribución de frecuencias. Si trazamos una perpendicular al eje de abscisas por x y tomamos esta perpendicular como eje de simetría, diremos que una distribución es simétrica si existe el mismo numero de valores a ambos lados de dicho eje, equidistantes de x dos a dos y tales que cada par de valores equidistantes a x tengan la misma frecuencia. En caso contrario, las distribuciones serán asimétricas. Las medidas de curtosis estudian la distribución de frecuencias en la zona central de la misma. La mayor o menor concentración de frecuencias alrededor de la media y en la zona central de la distribución dará lugar a una distribución más o menos apuntada. Por esta razón a las medidas de curtosis se les llama también de apuntamiento o concentración central. Las medidas de curtosis se aplican a distribuciones campaniformes, es decir, unimodales simétricas o con ligera asimetría Para estudiar la curtosis de una distribución es necesario definir previamente una distribución tipo, que vamos a tomar como modelo de referencia. Esta distribución es la Normal, que corresponde a fenómenos muy corrientes en la naturaleza, y cuya representación grafica es una campana de Gauss. Tomando la normal como referencia, diremos que una distribución puede ser mas apuntada que la normal (es decir, leptocurtica) o menos apuntada (es decir, platicúrtica). A la distribución normal, desde el punto de vista de la curtosis, se le llama mesocúrtica. Con la curtosis se estudia la deformación, en sentido vertical, respecto a la normal, de una distribución.
20
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel
Prof: Willer David Chanduví Puicón
A continuación se definen las medidas de asimetría más comunes, entre las que destacan las siguientes: Coeficiente de asimetría de Fisher: Ahora se intenta buscar una medida que recoja la simetría o asimetría de una distribución. Si la distribución es simétrica, el eje de simetría de su representación grafica será una recta paralela al eje de ordenadas, que pasa por el punto cuya abscisa es la media aritmética. Por ello, cuando la distribución es asimétrica, referiremos los valores de la distribución a este promedio. Si una distribución es simétrica. existe el mismo numero de valores a la derecha que a la izquierda de x , y por tanto el mismo número de desviaciones con signo positivo que con signo negativo, siendo la suma de desviaciones positivas igual a la suma de las negativas. Podemos partir. pues, de las desviaciones (xi- x ) elevadas a una potencia impar para no perder los signos de las desviaciones. Lo más sencillo sería tomar como medida de asimetría el promedio de estas desviaciones, elevadas a la potencia impar más simple (que es tres), es decir, tomaríamos como medida de asimetría el momento de orden tres centrado en la media. Pero, de hacer esto, esta medida vendría expresada en las mismas unidades que las de la variable. pero elevadas al cubo, por lo que no es invariante ante un cambio de escala. Para conseguir un indicador adimensional, debemos dividir la expresión anterior por una cantidad que venga en sus mismas unidades de medida. Esta cantidad es el cubo de la desviación típica, obteniéndose así el coeficiente de asimetría de R. A. Fisher, cuya expresión es:
g1
m3
3
1 N 1 N
k
(x i 1
j
x ) 3 ni
( x j x ) ni i 1 k
3/ 2
2
Si g 1 =0 la distribución es simétrica, si g 1 >0 la distribución es asimétrica positiva (a derecha), y si g 1<
0 la distribución es asimétrica negativa (a izquierda). La distribución es asimétrica a derecha o
positiva cuando la suma de las desviaciones positivas de sus valores respecto de la media es mayor que la suma de las desviaciones con signo negativo (la grafica de la distribución tiene mas densidad a la derecha de la media). En caso contrario, la distribución es asimétrica a la izquierda o negativa.
21
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel Coeficiente de asimetría de Fisher estandarizado: Para
Prof: Willer David Chanduví Puicón N >150 el coeficiente de asimetría es
asintóticamente normal de media cero y varianza 6/N. Este hecho nos lleva a considerar el coeficiente de asimetría estandarizado cuya expresión es:
gs
g1 6 N
Este coeficiente es asintóticamente normal (0,1). Coeficiente de asimetría de Pearson: Karl Pearson propuso para distribuciones campaniformes, unimodales y moderadamente asimétricas el coeficiente definido como
Ap = ( x - Mo) / , donde
Mo es la moda. Como en una distribución campaniforme simétrica. x = Mo = Me, si la distribución es asimétrica positiva o a derechas . x se desplaza a la derecha de la moda, y por tanto,
x - Mo > 0. En el caso de distribución asimétrica negativa la media se sitúa por debajo de Mo, por lo que el valor x - Mo < 0. La desviación típica que aparece en el denominador no modifica el signo de la diferencia
x - Mo y sirve para eliminar las unidades de medida de dicha diferencia.
Así tendremos que si Ap = 0 la distribución es simétrica, si Ap > 0 la distribución es asimétrica positiva y si Ap < 0 la distribución es asimétrica negativa. También Pearson comprobó empíricamente para
este tipo de distribuciones que se cumple 3(x - Me) .r - Mo (la mediana
siempre se situa entre la media y la moda en las distribuciones moderadamente asimétricas). Por esta razón,algunos autores utilizan como coeficiente de asimetría de Pearson el valor: Ap 3( x - Me) Coeficiente de asimetría de Bowley: Está basado en la posición de los cuartiles y la mediana, y viene dado por la expresión Ab = (C3 + C 1 - 2Me) / (C3 + C1). Se cumple que si Ab = 0 la distribución es simétrica, si
Ab > 0 la distribuci6n es asimétrica positiva y si Ab < 0 la
distribución es asimétrica negativa. Cl y C3 son el primer y tercer cuartil respectivamente. El coeficiente absoluto de asimetría: Está basado también en la posición de los cuartiles y la mediana, y viene dado por la expresión: A = [(C3 -C2) - (C2 -C 1)] / S = (C3 + C 1 - 2C2) / S = C3 + C 1 - 2Me /S Si A=0 la distribución es simétrica, si A >0 la distribución es asimétrica positiva y si A 0, platicúrtica (apuntamiento menor que el de la normal) si g2 < 0.
El coeficiente de curtosis estandarizado:
Para N > 150 el coeficiente de curtosis es
asintóticamente normal de media cero y varianza 24/N. Este hecho nos lleva a considerar el coeficiente de curtosis estandarizado cuya expresión es:
g ks
g2 6 N
Este coeficiente es asintóticamente normal (0,1).
23
CONCEPTOS BÁSICOS DE ESTADÍSTICA Curso: Estadística con aplicaciones de Excel
Prof: Willer David Chanduví Puicón
Valores extremos Son valores que se alejan del conjunto de datos. Regla para identificar valores o datos extremos Vamos a definir una observación
como extrema si: ó
24