Story Transcript
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Tema 1:
Descripción de Datos Unidimensional 1.
Introducción al razonamiento estadístico 1
El capítulo
Razonamiento Estadístico
del texto Estadística Aplicada Básica de
D. S. Moore es el resultado de una gran experiencia en la docencia de la Estadística Aplicada. Pone de maniesto el objetivo fundamental que persigue la estadística, sus puntos fuertes, pero también advierte de sus limitaciones y de las consecuencias de un uso inadecuado de sus procedimientos o una lectura equivocada de sus resultados. Presentamos aquí un resumen del mismo con algún ejemplo o alguna consideración extra, proveniente de nuestra propia experiencia.
La Estadística trata sobre datos y los datos son números en un cierto contexto. El número 1.75 por sí solo no aporta ninguna información, pero si dicho número se reere al contenido en gramos de grasa por 100 ml. de leche, dicho número en dicho contexto nos proporciona una información sobre el que podemos emitir un juicio. Además, podrán observarse datos no numéricos que nos permitirán delimitar con más precisión el contexto y establecer juicios comparativos. Por ejemplo, podemos tener una colección de datos referidos al contenido de grasa en un conjunto de muestras de leche y dicha colección puede clasicarse en distintos tipos de leche, por ejemplo: desnatada, semi desnatada y normal. La Estadística utiliza datos para profundizar en un tema y sacar conclusiones mediante cálculos y grácos.
Los datos aportan luz
sobre el fenómeno que se desea estudiar y las conclu-
siones obtenidas a partir de los mismos pueden modicar o ser discrepantes con la percepción o las creencias que la sociedad posee sobre ciertos temas de la vida cotidiana. Por ejemplo, muchas personas sienten temor de viajar en avión, sin embargo salimos a la carretera sin apenas percepción del riesgo que ello supone. Es decir, a pesar de la baja siniestralidad de los vuelos los pasajeros sienten que su seguridad depende de factores ajenos a ellos mismos (la pericia del piloto, el correcto funcionamiento de la aeronave o buenas condiciones meteorológicas) y este hecho provoca una percepción falsa respecto al riesgo que conlleva un viaje por carretera en comparación con un viaje por avión. Un antídoto ante falsas percepciones de la realidad es la recogida de datos objetivos y un adecuado análisis de los mismos.
Datos contra anécdotas Las organizaciones ecologistas denuncian el uso de productos transgénicos en nuestra alimentación por los efectos que ellos pueden tener en nuestra salud y muestran su apoyo decidido por el uso de productos derivados de la agricultura orgánica frente a la convencional. Es claro que dichas tendencias se basan en gran parte en un modus vivendi que busca ante todo el respeto por el medio ambiente y adecuado aprovechamiento de nuestros recursos naturales. En general, se trata de una losofía en la que muchos podemos coincidir, pero aparte de ello, ¾existen evidencias de que un alimento transgénico sea perjudicial para
1 resumen
Tema 1
del capítulo de introducción del texto
Estadística Aplicada Básica
Curso 2011-12
de D. S. Moore
Página: 1
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
la salud, o que los productos de la agricultura intensiva tengan propiedades signicativamente distintas a los orgánicos?. En cualquier caso, la respuesta a estas preguntas deben de provenir de análisis de datos estadísticos obtenidos a partir de ensayos rigurosos y avalados por la comunidad cientíca.
Es crucial conocer cómo se obtuvieron los datos
Un programa televisivo
solicita a los televidentes que envíen mensajes SMS diciendo si apoya o no la política del gobierno ante la crisis. Los resultados de ese tipo de encuestas hay que entenderlos con sumo cuidado pues casi nunca reeja la opinión de la sociedad en su conjunto. En primer lugar porque los contenidos de cualquier programa televisivo van dirigidos a ciertos sectores de la sociedad y no a otros y segundo porque además las personas que respondieron estaban especialmente motivadas. Es crucial que en cualquier estudio a partir de datos se garantice la representatividad de estos en el conjunto de toda la población, si no, los resultados hay que interpretarlos en términos de las condiciones en las que fueron obtenidos.
La variación está siempre presente en el conjunto de datos en estudio. Una misma característica observada o medida en idénticas condiciones proporciona valores distintos: el precio de los bienes de consumo, el índice de la bolsa, el contenido en grasa en 100 gramos de patatas fritas, el tiempo que se emplea en hacer cierto recorrido, la duración de un electrodoméstico,....Esa variación se debe en parte a ciertos factores controlables y en parte al azar. La estadística pretende explicar dichas variaciones mediante un lenguaje que permite introducir un determinado grado de incertidumbre en nuestras conclusiones. Lo anterior signica que cuando se pretende analizar un determinado fenómeno en una determinada población a partir de un conjunto de datos representativos nunca se podrán establecer verdades absolutas, sino únicamente conclusiones que son avaladas con cierto nivel de conanza.
¾Para qué la Estadística?. Resumiendo: Por
Estadística entendemos una batería de recursos cientícos por los cuales podemos
recolectar, organizar, resumir, presentar y analizar datos que provienen de un conjunto de observaciones con el objetivo de comunicar información sobre cierto fenómeno y ayudar a la toma de decisiones.
2.
Primeros conceptos En este primer tema vamos a introducir los conceptos básicos y vamos a tratar con
muestras de datos univariantes con el objetivo general de extraer de las mismas toda la información relevante pero de manera sintética y organizada.
Tema 1
Curso 2011-12
Página: 2
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Llamaremos
Población,
Universidad de Murcia
universo o colectivo a un conjunto homogéneo de individuos
sobre los que se estudia una o varias características que son observables o medibles. Puede ser un conjunto nito o innito y cada uno de sus elementos se denominan
individuo,
que además van a ser portadores de información para el estudio que se quiere realizar. Una
muestra
es un subconjunto representativo de la población en el sentido de que
reeja o hereda las características de ésta. El número de elementos de la muestra se denomina
tamaño muestral
toda la población se denomina
Una
y lo representaremos por n. Si la muestra coincide con
censo.
variable es una característica de la población que puede ser observable o medible y
que varía en el conjunto de los individuos. El valor (numérico o no) que la variable toma en un individuo lo denominaremos
dato. Usaremos las últimas letras del abecedario y
en mayúsculas para representar a las variables mientras que usaremos las minúsculas para representar a los datos.
Tipos de variables Cualitativas:
Son variables observables pero no medibles pues toman valores que se
corresponden con cualidades no cuanticables de los individuos. Las distintas man-
modalidades. Esta variables tamnominales o atributos y a las modalidades también se categorías o clases. En particular las variables Dicotómicas
ifestaciones o situaciones posibles se les llama bién se suelen llamar le suelen llamar
pueden observar sólo 2 modalidades o categorías.
Ordinales:
Son variables observables no medibles aunque sus modalidades pueden or-
denarse.
Cuantitativas:
Son variables medibles cuyas modalidades son valores numéricos. Dos
tipos de variables cuantitativas:
Discretas:
Si las posibles modalidades son el resultado de un recuento, es decir,
número de veces que aparece cierta característica en los individuos. No son posibles ningún valor intermedio entre dos enteros consecutivos
n y n + 1 que
se hayan observado.
Continuas:
Si las modalidades son resultados de una medida y los valores posibles
de dicha medida se expresan en relación a cierta unidad. Son posibles todos los valores intermedios entre dos cualesquiera que se hayan observado.
Ejemplo 2.1
Contar con un adecuado diseño del servicio al cliente es premisa funda-
mental para trabajar por una adecuada competitividad empresarial. Por ello se quiere llevar a cabo la evaluación de un servicio de ventas on-line, básicamente en los aspectos de demanda y grado en que se cumplen los objetivos del servicio. Cada usuario podría facilitarnos información respecto a las siguientes características: Si ha utilizado el servicio en el último mes. (Dicotómica con sólo dos modalidades: SI y NO). El sexo. (Dicotómica con sólo dos modalidades: hombre y mujer) Tema 1
Curso 2011-12
Página: 3
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Categoría profesional. (Cualitativa con modalidades como obrero, cuadro intermedio, directivo, .....) Tipo de artículos en los que está interesado. (Cualitativa con valores posibles como viajes, informática, libros, vinos u otros) Nivel de estudios. (Cualitativa ordinal con modalidades posibles como estudios primarios, medios y superiores) Nivel de satisfacción del servicio. (Cualitativa ordinal con modalidades o rangos posibles como bajo, regular, bueno y muy bueno) Número de veces que realizó compras on-line en los últimos seis meses. (Cuantitativa discreta con valores posibles 0, 1, 2, 3, ......) Número de veces que se conectó al servicio sin realizar compras en los últimos seis meses. (Cuantitativa discreta con valores posibles 0, 1, 2, 3, ......) Edad en años. (Cuantitativa continua con valores dentro del intervalo
(0, +∞).
Tiempo, en meses, desde que realizó la primera compra (Cuantitativa continua con valores dentro del intervalo
(0, +∞).
Dinero, en euros, gastado en compras on-line en el servicio en los últimos seis meses (Cuantitativa continua con valores dentro del intervalo
3.
(0, +∞).
Procedimientos de descripción de datos univariantes
Una vez seleccionados los individuos que van a componer la muestra y observadas todas las variables de interés en cada uno de ellos, solemos disponer la información obtenida en un tipo de matriz que se denomina
variables
matriz de datos o matriz de individuos por
en donde las las representan a los individuos de la muestra y las columna
representan a las variables. Si una la contiene toda la información de determinado individuo, una columna contiene todos los valores observados de una determinada variable en el conjunto de la muestra. Esas matrices van a constituir nuestros cheros de datos que tendrá formato informático para poder ser tratado con software estadístico. Denotaremos dicha matriz con la letra muestra y
Xj
k
X que tiene orden n × k
el número de variables observadas. El elemento
en el individuo número
i. (i = 1, ....., n
y
donde
xij
n
es el tamaño de la
es el valor que la variable
j = 1, ...., k ).
Un ejemplo de matriz de datos se presenta en la siguiente imagen. Dicha matriz contiene información de 150 porciones de 100 gramos de distintos alimentos (en la imagen las primeras 30 las). En cada una de dichas porciones, que aquí son los individuos de la muestra, se observan las siguientes características: el nivel calórico con modalidades bajo, medio y alto (NIVEL), las calorías que contiene (CALORIAS), el grupo al que pertenecen (GRUPO) con modalidades Frutas, Vegetales, Cereales y Azúcares, el estado en que se presenta (ESTADO) con modalidades Cocido, Crudo y Enlatado, la cantidad de gramos de carbohidratos (CARBOH), el índice glucémico (INDICE-G) que
Tema 1
Curso 2011-12
Página: 4
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
es un indicador de la velocidad de asimilación del azúcar y el número de micronutrientes que contiene (MICRO). Las variables GRUPO y ESTADO son variables cualitativas, la variable NIVEL es ordinal, la variable CALORIAS es cuantitativa discreta al igual que la variable MICRO y por último, las variables CARBOH e INDICE-G son cuantitativas continuas. Además, la primera columna de dicha matriz se reserva para identicar a cada uno de los individuos de la muestra. Por defecto dicho indicador suele ser un número, pero podría ser cualquier etiqueta identicativa. Considerando la columna de identicación de los individuos, la matriz del ejemplo tiene orden 150x7 (150 las y 7 columnas) si bien son visibles en la imagen sólo las primeras 30 las.
La matriz anterior contiene toda la información disponible sobre el fenómeno que se quiere investigar y el objetivo ahora es ordenar y sintetizar dicha información para
Tema 1
Curso 2011-12
Página: 5
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
que ésta resulte más operativa y podamos extrae un resumen del comportamiento de
Estadística Descriptiva Univariantes que usan los datos de una sola variable. Clasicamos estas
las características en estudio. En este tema hablaremos de las técnicas de
técnicas en función de los resultados que producen y el tipo de datos que usa en:
1. Tabulación:
o disposición de los todos los valores distintos observados en la mues-
tra, que llamaremos
clases, en una tabla con sus correspondientes frecuencias o
cómputo del número de veces que dicha clase aparece en el conjunto de la muestra. La tabla puede ser para:
Variables Cualitativas :
clases se disponen en la primera columna y se agregan la columna de frecuencias absolutas (fa) (número de veces que cada modalidad (clase) aparece en la muestra) y las frecuencias relativas (fr) (proporción que la frecuencia absoluta representa Las modalidades distintas observadas o
en el conjunto de la muestra).
Variables Ordinales y Cuantitativas Discretas:
Además de la información
anterior, las clases aparecen ordenadas en la tabla de menor a mayor y se
frecuencias acumuladas, tanto absolutas (Fa) como relativas (Fr) que ofrece la frecuencia de cada clase acumulada a las frecuencias
agregan las
de las clases inferiores.
Variables Cuantitativas Continuas:
Si la muestra contiene un gran número de
modalidades la tabla anterior puede ser poco operativa. En estas situaciones se construyen
clases de intervalo
que agrupa los valores observados entre
los valores especicados en dicha clase. Las frecuencias anteriores (fa, fr, Fa y Fr) están ahora referidas a dichas clases de intervalo.
2. Grácos:
Los grácos permiten visualizar las características básicas de la distribu-
ción de frecuencias representadas en la tabla anterior. Según el tipo de variable, los más básicos son los siguientes:
Diagrama de sectores
para representar una tabla de una variable cualitativa
mediante un gráco circular de forma que hay tantos sectores circulares como clases y con áreas proporcionales a la frecuencias que representan.
Diagrama de barras
para representar una tabla de una variable ordinal o cuan-
titativa discreta mediante un gráco con un eje horizontal en donde se representan las clases y una barra vertical sobre cada clase cuya altura es proporcional a la frecuencia que representa.
Diagrama de Tallo y Hojas
que ofrece la ordenación y el recuento de todos los
valores observados de una variable numérica, cuando el tamaño de la muestra no es demasiado grande. Para construir este gráco se selecciona uno o más dígitos comunes a un conjunto de datos para los valores de tallo y los dígitos sobrantes van a constituir hojas del mismo tallo.
Histograma
que agrupa los valores observados de una variable cuantitativa con-
tinua en clases de intervalo representados en un eje horizontal y levantando sobre cada uno un rectángulo cuya área representa a la frecuencia de dicha clase. Las clases deben ser las mismas que las construidas en la correspondiente tabla de frecuencias.
Tema 1
Curso 2011-12
Página: 6
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
3. Cálculo de estadísticos:
Universidad de Murcia
Medidas descriptivas para cuanticar las características
de la distribución de frecuencias que visualizamos en tablas y grácos. Dichas características son principalmente de:
Centralización:
ofrecen valores centrales o representantes del conjunto de la
muestra.
Localización:
ofrecen valores localizados de la muestra cuando ésta se presenta
con todos sus datos ordenados de menor a mayor.
Dispersión:
ofrecen medidas de dispersión o variabilidad de los datos respecto a
valores centrales. Son también una medida del grado de representatividad de los valores centrales.
Forma:
ofrecen medidas sobre la forma de la distribución de frecuencias, básica-
mente respecto a al grado de simetría con relación a valores centrales.
Diagrama de caja y patillas (Boxplot ):
Resume las medidas descriptivas an-
teriores en un gráco que se describirá.
4.
Medidas descriptivas
4.1. Medidas de centralización y localización Moda Un primer criterio para seleccionar un valor que represente a toda la muestra es elegir aquel dato que tenga mayor frecuencia absoluta. Este dato se denomina se representa, usualmente, por
Mo .
moda, y
Obsérvese que la denición es aplicable a cualquier
tipo de variables salvo para variables continuas. En variables continuas con datos agrupados en clases de intervalo es más adecuado hablar del intervalo modal (el que tiene mayor frecuencia) en vez de la moda.
Media aritmética La medida de centralización más familiar es la se denota por si
x.
x1 , x2 , . . . , xn
media aritmética, que usualmente
Está denida como el promedio de los valores de la muestra; es decir,
son los
n
valores de la muestra, su media aritmética es:
x 1 + x2 + · · · + xn x= = n
Pn
i=1
xi
n
.
Obsérvese que la media aritmética, al igual que la mayoría de las medidas descriptivas, sólo tiene sentido con datos cuantitativos. La unidad de medida de
x es la
misma que la
de la variable.
Mediana Si los valores de una variable estadística son susceptibles de una ordenación (es decir, si la variable no es cualitativa nominal), puede tomarse como
y localización Tema 1
medida de centralización
de la distribución de frecuencias un valor tal que, una vez ordenados
Curso 2011-12
Página: 7
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
todos ellos de menor a mayor, haya tantos valores por debajo de él como por encima del mismo. A este valor central se le llama
mediana. Por tanto, la mediana es un valor
que deja por debajo el 50 % de los datos de la muestra ordenada, es decir, divide a la muestra en 2 intervalos de igual número de observaciones. Usualmente se denota por
Me .
Su unidad de medida es la misma que la de la variable.
•
Si
n
es impar:
•
Si
n
es par:
Me
Me
es el valor central de la muestra ordenada. es el punto medio de los dos valores centrales de la muestra
ordenada.
Ejemplo 4.1
Supongamos una muestra de la variable
1. El tamaño de la muestra es impar, por ejemplo
Número de hermanos.
n = 21,
la mediana es exactamente
el valor del dato 11 supuestos ordenados de menor a mayor.
xi
ni
Ni
0
4
4
1
7
11
2
5
16
3
3
19
4
2
21
La mediana es el valor
Me = 1
2. El tamaño de la muestra es par, por ejemplo
n = 20,
la mediana es el promedio
de los dos datos centrales supuestos ordenados de menor a mayor, es decir, de los datos que ocupan los lugares 10 y 11. Puede ocurrir que ambos datos caigan en la misma clase, como en el siguiente ejemplo:
xi
ni
Ni
0
4
4
1
7
11
2
5
15
3
3
19
4
1
20
La mediana es el valor
Me =
1+1 =1 2
3. O que caigan en distintas clases, como en el siguiente ejemplo:
xi
ni
Ni
0
4
4
1
6
10
2
5
15
3
4
19
4
1
20
Percentiles El percentil
al
La mediana es el valor
r%
Me =
1+2 = 1.5 2
de una variable estadística es un valor que deja por debajo el
r % de los datos de la muestra ordenada de menor a mayor. Usualmente se denota por Pr . Son medidas de localización entre las que destacan los cuartiles. Su unidad de medida es la misma que la de la variable. CASOS PARTICULARES:
Tema 1
Curso 2011-12
Página: 8
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
•
Cuartiles:
1er cuartil 2o cuartil 3er cuartil •
Universidad de Murcia
= = =
Q1 = P25 Q2 = P50 = Me Q3 = P75
Deciles:
1er decil 2o decil . . .
9o
decil
= = . . . =
D1 = P10 D2 = P20 . . .
D9 = P90
En particular, los cuartiles son aquellos valores que dividen la muestra en 4 intervalos con igual número de observaciones.
Ejemplo 4.2
Usemos las mismas distribuciones de frecuencias del ejemplo anterior
para calcular los cuartiles, es decir, 1. El tamaño de la muestra es
xi
ni
Ni
0
4
4
1
7
11
2
5
16
3
3
19
4
2
21
Q1 =
ni
Ni
0
4
4
1
7
11
2
5
15
3
3
19
4
1
20
Q1 =
y
Q3 = P75 .
n = 21.
1+1 = 1, Me = 1 2
2. El tamaño de la muestra es
xi
Q1 = P25
y
Q3 =
n = 20,
1+1 1+1 = 1, Me = =1 2 2
3. Otro caso en el que el tamaño de la muestra es
xi
ni
Ni
0
4
4
1
6
10
2
5
15
3
4
19
4
1
20
Q1 =
2+3 = 2.5 2
y
Q3 =
2+2 =2 2
n = 20,
1+1 1+2 = 1, Me = = 1.5 2 2
y
Q3 =
2+3 = 2.5 2
4.2. Medidas de dispersión Al estudiar cada carácter de cualquier población o muestra, se ponen enseguida de maniesto las diferencias o discrepancias en los resultados individuales de las observaciones. La variabilidad en los resultados es inherente a cada fenómeno aleatorio, originando en el conjunto de los datos observados cierto grado de heterogeneidad, según que las
Tema 1
Curso 2011-12
Página: 9
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
discrepancias u oscilaciones entre ellos sea pequeña o grande. Este grado de variabilidad de los datos estadísticos es la dispersión. Cuando se pretende asignar un número para cada grado de variabilidad de las observaciones, surgen diferentes medidas de dispersión, dependiendo de si se elige como medida la diferencia entre determinados valores de la variable, o la que existe entre todos ellos y una medida de centralización, generalmente la media aritmética o la mediana, o de modo que la medida no venga inuenciada por las propias unidades de medida de los valores cuya dispersión se desea estimar. A las medidas de dispersión expresadas en la misma unidad de medida que los datos las denominaremos medidas de dispersión ab-
soluta, y a las expresadas independientemente de dichas unidades, medidas de dispersión relativa. Cuando se mide la dispersión de los valores de una variable respecto a una de sus medidas de centralización, se está midiendo el grado de representatividad que dicha medida de centralización tiene del conjunto de los datos a los cuales pretende resumir.
Recorrido Una medida de dispersión global es el
recorrido de la muestra (también denominado
rango o amplitud total), que se denota por R y se dene como la diferencia entre la observación mayor,
xmax ,
y la observación menor,
xmin ,
es decir:
R = xmax − xmin . R
De la fórmula anterior se deduce que
se expresa en la misma unidad que la de la
variable y mide el grado de variabilidad de los datos de la muestra: cuanto más grande sea el resultado del recorrido, más dispersos están los datos.
Recorrido intercuartílico Cuando los valores próximos al máximo y al mínimo de los datos están excesivamente alejados del resto, la consideración de un recorrido más corto, prescindiendo de un determinado porcentaje de los datos más alejados, puede dar una idea más real de la dispersión que si se emplea el recorrido. Esta idea conduce a la noción de
intercuartílico,
que se denota por
RI
recorrido
y se dene como la diferencia entre el tercer
cuartil y el primer cuartil; es decir:
RI = Q3 − Q1 = P75 − P25 . De la fórmula anterior se deduce que la unidad de medida de
RI
es la misma que la
de la variable. Cuanto más pequeño sea el resultado del recorrido intercuartílico, menos dispersión respecto de la mediana hay; es decir, los datos están menos alejados de la mediana y, por tanto, la mediana es más representativa. Pero, ¾cuándo podríamos decir que el
Q1 , y el Q3 , hay exactamente la mitad de los datos, podríamos comparar la mitad
valor del recorrido intercuartílico es pequeño? . . . Como entre el primer cuartil, tercer cuartil,
del recorrido total con el recorrido intercuartílico, y podríamos decir que la mediana es representativa si
Tema 1
RI
es menor o igual que
R/2.
Curso 2011-12
Página: 10
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Ejemplo 4.3 recorrido es
Universidad de Murcia
Siguiendo con los ejemplos anteriores, se observa que en los 3 casos el
R = 4 − 0 = 4,
mientras que el recorrido intercuartílico es:
1. El tamaño de la muestra es
xi
ni
Ni
0
4
4
1
7
11
2
5
16
3
3
19
4
2
21
RI = 2.5 − 1 = 1.5
2. El tamaño de la muestra es
xi
ni
Ni
0
4
4
1
7
11
2
5
15
3
3
19
4
1
20
n = 21.
n = 20,
RI = 2 − 1 = 1
3. Otro caso en el que el tamaño de la muestra es
xi
ni
Ni
0
4
4
1
6
10
2
5
15
3
4
19
4
1
20
En los tres casos
n = 20,
RI = 2.5 − 1 = 1.5
RI < R/2 = 2
por lo que la mediana es representativa en los tres
casos. En el segundo caso la mediana es algo más representativa que en el primer y tercer caso.
Varianza y desviación típica Varianza Es la media aritmética
de los cuadrados de las desviaciones de los datos 2 2 respecto a la media, y se suele representar por sx , o simplemente por s si no hay lugar a confusión. Por tanto, si los datos de la muestra son
x1 , x2 , . . . , xn ,
la
varianza es, por denición:
s2x
Pn =
i=1 (xi
− x)2
n
.
De la expresión anterior se deduce que el resultado de la varianza es siempre un número no negativo y se expresa mediante el cuadrado de la unidad de la variable X, lo que en la mayoría de los casos puede carecer de sentido.
Desviación típica
Es la raíz cuadrada positiva de la varianza y viene expresada en la
misma unidad que la de la variable. observaciones, y que se dene como la raíz cuadrada positiva de la varianza. Se representa por
Tema 1
Curso 2011-12
sx ,
o simplemente por
s.
Página: 11
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Cuanto más pequeño sea el resultado de la desviación típica, menos dispersión respecto de la media hay; es decir, los datos están menos alejados de la media y, por tanto, la media es más representativa.
Relación entre media aritmética y desviación típica tadística con media
x
y desviación típica
s
y
k
. Si
es una variable es-
es cualquier número mayor o igual
a 1, entonces la proporción de datos comprendidos entre
x−k∗s
1 1 − 2. k
mayor o igual que
Ejemplo 4.4
X
y
x+k∗s
es
Supongamos que sabemos que los varones de 20 años del territorio na-
cional tienen en media 168 cm de estatura y la desviación típica es de 4 cm, si tomamos
k = 2,
la propiedad anterior dice que al menos el 75 % de dicho colectivo tiene estaturas
comprendidas entre 160 cm y 176 cm.
Coeciente de Variación El coeciente de variación media de Pearson relativa que se suele denotar
CV
es una medida de dispersión
y que se dene por
CV =
sx · 100 % . |x|
De la fórmula anterior se deduce que el coeciente de variación media de Pearson no tiene unidad de medida. Si se compara el resultado del coeciente de variación en dos o más muestras distintas, entonces la media es más representativa en la muestra en la que el valor de dicha medida de dispersión relativa es menor.
Ejemplo 4.5
Supongamos que la variable
X
mide el contenido de proteínas, en gramos,
en muestras de 100 gramos de helado. Supongamos que la variable
Y
mide el contenido
calórico de las mismas muestras de 100 gramos de helado. Supongamos que en el conjunto
x = 3 gramos con sx = 0.25 gramos, mientras que en la muestra de datos de la variable Y se obtiene x = 250 Kcal con sy = 15
de datos observados de la variable
X
se obtiene
Kcal.
CVx =
sx 0.5 · 100 % = · 100 % = 16 % . |x| 3
CVy =
15 sy · 100 % = · 100 % = 6 % . |y| 250
Es decir, la dispersión relativa es menor en la muestra de la variable la variable
Y
que en la de
X.
4.3. Medidas de forma La primera información acerca de las peculiaridades de forma de una distribución nos la proporciona la observación del polígono de frecuencias o, mejor aún, del diagrama de barras o del histograma, según se trate de una variable discreta o continua. Si la
Tema 1
Curso 2011-12
Página: 12
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
distribución es unimodal y la moda está en un valor extremo del recorrido, siendo la frecuencia a partir de dicho valor cada vez menor al avanzar hacia la derecha o hacia la izquierda, la distribución se dice que es de tipo
L
o de tipo
J,
según que la moda
quede, respectivamente, a la izquierda o a la derecha en la representación gráca. Si la distribución es de tipo
Ltambién
se denomina asimétrica a la derecha o si es de tipo
J
se dice asimétrica a la izquierda. Las distribuciones más frecuentes son aquellas unimodales que tienen pocos valores próximos a los extremos y muchos intermedios, o bien aquellas que tienen muchos valores en torno a la moda y progresivamente menos hacia uno u otro extremo del recorrido de la variable, dando lugar, en cualquier caso, a representaciones grácas de aspecto
campaniforme con un mayor o menor apuntamiento vertical.
Coeciente de asimetría Una distribución es simétrica
si tienen igual frecuencia los valores que están a
igual distancia de la media. Cuando la distribución es simétrica, la media deja por delante el mismo número de observaciones que detrás de ella. Por tanto, en este caso la media coincide con la mediana. Además, los cuartiles primero y tercero equidistan de la mediana, o lo que es equivalente, la mediana coincide con el punto medio de los cuartiles primero y tercero. Diremos que la distribución presenta una
asimetría positiva
o
por la derecha
si los valores bajos de la variable son los más frecuentes, por lo que la correspondiente representación gráca presenta una cola alargada hacia la derecha. Análogamente, se dice que una distribución presenta una
asimetría negativa o por
la izquierda si los valores más frecuentes son los mayores de la variable, por lo que la correspondiente representación gráca presenta una cola alargada a la izquierda. El
coeciente de asimetría de Pearson se calcula mediante la expresión As =
3(x − Me ) s
Siendo este coeciente positivo, negativo o nulo según que la distribución sea asimétrica por la derecha, asimétrica por la izquierda o simétrica, respectivamente. En la imagen 4.3 se representan tres tipos distintos de distribuciones de frecuencia respecto a su simetría.
Ejemplo 4.6 y
M ey = 270
Tema 1
Supongamos que en el ejemplo anterior la mediana es
M ex = 2.8
gramos
Kcal.
Curso 2011-12
Página: 13
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
En estos caso, el coeciente de asimetría valen:
Asx = Asy =
3(3 − 2.8) 3(x − M ex ) = = 2.4 sx 0.25
3(y − M ey ) 3(250 − 270) = = −4 sy 15
Es decir, en el caso de la variable
X
la muestra presenta una asimetría positiva,
mientras que es negativa en el caso de la variable
Y . Además, la muestra de esta segunda
variable es más asimétrica que la muestra de la primera. Lo anterior signica, que en el caso de la variable
X,
los valores más frecuentes son los que tienen menos de 3 gramos
de proteínas, mientras que en el caso de la variable
Y,
los valores más frecuentes son
los que tienen más de 250 Kcal.
4.4. Tipicación de una variable estadística Si
X
es una variable estadística con media
tipicadade X
x y desviación típica s se dene la variable
a la variable
Z=
X −x s
que posee las siguientes propiedades: 1. La variable
Z
tiene media cero y desviación típica 1
2. Es adimensional, es decir, no tiene unidad. 3. Por lo anterior puede ser usada para comparar datos de dos variables distintas
Ejemplo 4.7
Supongamos que el país A tiene una renta media per cápita de 30000
euros con una desviación típica de 10000 euros. El país B tiene una renta media per cápita de 35000 euros con una desviación típica de 12000 euros.
El ciudadano
x
del país A tiene una renta anual de 33000 euros y el ciudadano
y
del
país B tiene una renta anual de 36000 euros. Para comparar ambos datos los tipicamos. El dato tipicado del ciudadano
x
es
33000 − 30000 = 0.3 10000 mientras que el dato tipicado del ciudadano
y
es
36000 − 35000 = 0.08 12000 Es decir, respecto al nivel de vida de su país, el ciudadano poder adquisitivo que el ciudadano
Tema 1
y
del país
x
del país A tiene mayor
B.
Curso 2011-12
Página: 14
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
4.5. Resumen de Estadísticos La siguiente tabla resume los estadísticos que se usan más frecuentemente para cada tipo de variable.
Estadístico Moda
Mediana Media
aritméti-
Característica
Utilidad
Variable
Centralización
Informa del valor más fre-
Cualitativa, ordinal y
cuente
cuantitativa discreta
Centralización y
Valor
central
de
muestra,
Ordinales y cuantita-
localización
supuesta ordenada
tivas
Centralización
Promedio de los datos
Cuantitativas
Localización
Valor de la muestra que deja
Cuantitativas
ca Cuartil 25 (75)
por debajo el 25 % (75 %) de ella Percentil p
Localización
Valor de la muestra que deja
Cuantitativas
por debajo el p % de ella Intervalo
Inter-
Dispersión
Varian-
Dispersión
Intervalo
cuartílico (Cuasi)
formado
por
los
Cuantitativas
desvia-
Cuantitativas
cuartiles Promedio
za
de
las
ciones respecto a la media al cuadrado
(Cuasi)
Dispersión
Raíz cuadrada de la (Cuasi)
Desviación
Cuantitativas
Varianza
típica Coeciente
de
Dispersión
Medida de dispersión por-
variación Asimetría
Cuantitativas
centual Forma
Nivel de asimetría de la dis-
Cuantitativas
tribución de frecuencias
4.6. Diagrama de caja y patillas (Boxplot) Este gráco ofrece un resumen de las medidas descriptivas anteriores, pues nos aporta una visualización de las características de centralización, localización, dispersión y forma de la distribución de frecuencias, además de permitir detectar datos atípicos de la muestra. Contiene los siguientes elementos: Un rectángulo o caja que se extiende desde el primer cuartil al tercer cuartil y dentro de ella marcada la mediana. La longitud de la caja se corresponde con el llamado
rango intercuartílico.
Dos patillas, una a cada lado de la caja, que se extienden desde los cuartiles a las observaciones más extremas, siempre y cuando éstas no se alejen del extremo de la caja más del rango intercuartílico multiplicado por 1.5. Las observaciones que disten del cuartil más próximo más del rango intercuartílico multiplicado por 1.5 se consideran atípicas y serán reejadas en el gráco como puntos aislados fuera de las patillas.
Tema 1
Curso 2011-12
Página: 15
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
5.
Universidad de Murcia
Ejemplos prácticos
5.1. Caso de un atributo Describimos la variable ESTADO que indica cómo está presentado el alimento. La siguiente tabla incluye las frecuencias absolutas y relativas de las modalidades de la variable ESTADO mientras que el diagrama de sectores representa las frecuencias de dicha tabla. ESTADO
Clases
fa
fr
Cocido
119
0.79
Crudo
6
0.04
Enlatado
25
0.17
Suma
150
1
Cocido
Enlatado
Crudo
Por otro lado podemos decir que la presentación Cocido representa la
moda
en
casi el 80 % de los alimentos en estudio.
5.2. Caso de una variable ordinal Describimos la variable NIVEL (nivel calórico del alimento) con niveles 1: Bajo, 2: Medio, 3: Alto y 4: Muy alto. La variable es cualitativa ordinal puesto que sus categorías o niveles pueden ser ordenados. En este caso el diagrama más adecuado es el diagrama de barras y éstas representan las frecuencias de las categorías que se ordenan en el eje
Fr
1
38
0.253
38
0.253
2
55
0.366
93
0.619
3
53
0.353
146
0.973
4
4
0.026
150
a
consideran los errores de redondeo
0
a Se
1
30
Fa
20
fr
10
fa
Frequency
Clases
40
50
horizontal.
Bajo
Medio
Alto
Muy alto
NIVEL
La moda es la categoría 2. La mediana se halla en la misma clase pues las observaciones 75 y 76 se corresponden ambas con la clase 2.
Tema 1
Curso 2011-12
Página: 16
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
También se podría haber representado el diagrama de barras de las frecuencias acumuladas.
5.3. Caso de una variable cuantitativa discreta 5.3.1. Pocas modalidades
1
1
0.006
1
0.006
2
4
0.026
5
0.032
3
13
0.086
18
0.118
4
24
0.160
42
0.278
5
40
0.266
82
0.544
6
45
0.300
127
0.844
7
15
0.100
142
0.944
8
5
0.033
147
0.977
9
2
0.013
149
0.990
10
1
0.006
150
a Se
1
a
30
Fr
20
Fa
Frequency
fr
10
fa
0
Clases
40
Describimos la variable MICRO.
1 consideran los errores de redondeo
2
3
4
5
6
7
8
9
10
MICRO
Medidas descriptivas: Moda: 6 micronutrientes C25 =
4 micronutrientes
Mediana: 5 micronutrientes C75 =
6 micronutrientes
Mínimo: 1 micronutriente Máximo: 10 micronutrientes Rango: Intervalo ente 1 y 10 micronutrientes. 5.3.2. Muchas modalidades En estos casos, a pesar de ser la variable discreta, son más adecuados los procedimientos de variables continuas, agrupando las modalidades en clases de intervalo. Si no, la longitud de la tabla resultaría poco operativa. Describimos la variable CALORIAS
Tema 1
Curso 2011-12
Página: 17
M. Iniesta
7
0.046
7
0.046
40
0.266
47
0.313
150-200
55
0.366
102
0.680
200-250
31
0.206
133
0.886
250-300
12
0.080
145
0.966
300-350
4
0.026
149
0.993
350-400
1
0.006
150
a Se
1
a
consideran los errores de redondeo
40
50-100 100-150
30
Fr
frequency
Fa
20
fr
10
fa
0
Clases
Universidad de Murcia
50
Grado en Ciencia y Tecnología de los Alimentos
50
100
150
200
250
300
350
400
Alimentos$CALORIAS
Medidas descriptivas y Boxplot Media: 182.52 ●
350
135.5
150
Mínimo: 60
250
212.25
200
CALORIAS
C75 =
300
Mediana: 180
●
100
Máximo: 370 Desviación Típica: 58.68
50
C25 =
Coeciente de Variación: 32.15 % En el diagrama se observa ligera asimetría a la derecha (cola de la derecha más alargada que la izquierda) y 2 valores atípicos.
5.4. Caso de una variable cuantitativa continua Describimos la variable NIVEL-G. Para una variable cuantitativa continua son adecuados los procedimientos utilizados en el ejemplo anterior, sin embargo, en muchas ocasiones, cuando deseamos hacer una descripción somera de una variable recurrimos exclusivamente a los grácos de los que desprendemos las características más elocuentes del comportamiento de dicha variable.
● ● ● ●
50 40 20
30
INDICE_G
60
70
●
Tema 1
Curso 2011-12
Página: 18
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
El diagrama de tallo y hojas es, a groso modo, una tabla de frecuencias, pues agrupa las observaciones que tienen uno o más dígitos comunes en un mismo tallo, indicando las frecuencias acumuladas en orden ascendente y descendente hasta el tallo donde se halla la mediana, cuya frecuencia se representa entre paréntesis. Pero también es un gráco pues la longitud de los tallos dan idea de la frecuencia de la clase. A la vista de este gráco podemos decir: La menor observación es 18 y la mayor es 76, aunque ésta última es atípica pues se encuentra fuera del árbol. Se podría construir la tabla con todas las frecuencias de las clases de intervalo con amplitud 10. Por ejemplo hay 22 observaciones en el intervalo [20-30) y 45 observaciones en el intervalo [30,40). La mediana se encuentra en el tallo 3. Exactamente podemos encontrarla contando desde la observación 24 que es INDICE-G=30 hasta la observación 75 que es la observación INDICE-G=36 y ésta es la mediana. Por otro lado, el diagrama de caja y patillas representa la mediana que vale 36, los cuartiles inferior y superior que valen 32 y 44 respectivamente y las observaciones extremas, por lo tanto también representa el rango intercuartílico (RI=[32, 44]) y el rango de la variable (Rango=[18, 76]). Respecto a la forma observamos que los valores superiores a la mediana están más dispersos que los valores inferiores a la mediana, por lo tanto la distribución de frecuencias es asimétrica a la derecha. Dicha asimetría se paliaría en parte si elimináramos las observaciones atípicas.
6.
Bibliografía
1. Tema 1 del texto Estadística para Ciencias Agropecuarias. Autor: Di Riezo, J. A. 2. Tema 1 del texto Estadística para ingenieros y cientícos. Autor: William Navidi. Editorial McGraw-Hill
Tema 1
Curso 2011-12
Página: 19