1. Introducción al razonamiento estadístico

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Universidad de Murcia

Tema 1:

Descripción de Datos Unidimensional 1.

Introducción al razonamiento estadístico 1

El capítulo

Razonamiento Estadístico

del texto Estadística Aplicada Básica de

D. S. Moore es el resultado de una gran experiencia en la docencia de la Estadística Aplicada. Pone de maniesto el objetivo fundamental que persigue la estadística, sus puntos fuertes, pero también advierte de sus limitaciones y de las consecuencias de un uso inadecuado de sus procedimientos o una lectura equivocada de sus resultados. Presentamos aquí un resumen del mismo con algún ejemplo o alguna consideración extra, proveniente de nuestra propia experiencia.

La Estadística trata sobre datos y los datos son números en un cierto contexto. El número 1.75 por sí solo no aporta ninguna información, pero si dicho número se reere al contenido en gramos de grasa por 100 ml. de leche, dicho número en dicho contexto nos proporciona una información sobre el que podemos emitir un juicio. Además, podrán observarse datos no numéricos que nos permitirán delimitar con más precisión el contexto y establecer juicios comparativos. Por ejemplo, podemos tener una colección de datos referidos al contenido de grasa en un conjunto de muestras de leche y dicha colección puede clasicarse en distintos tipos de leche, por ejemplo: desnatada, semi desnatada y normal. La Estadística utiliza datos para profundizar en un tema y sacar conclusiones mediante cálculos y grácos.

Los datos aportan luz

sobre el fenómeno que se desea estudiar y las conclu-

siones obtenidas a partir de los mismos pueden modicar o ser discrepantes con la percepción o las creencias que la sociedad posee sobre ciertos temas de la vida cotidiana. Por ejemplo, muchas personas sienten temor de viajar en avión, sin embargo salimos a la carretera sin apenas percepción del riesgo que ello supone. Es decir, a pesar de la baja siniestralidad de los vuelos los pasajeros sienten que su seguridad depende de factores ajenos a ellos mismos (la pericia del piloto, el correcto funcionamiento de la aeronave o buenas condiciones meteorológicas) y este hecho provoca una percepción falsa respecto al riesgo que conlleva un viaje por carretera en comparación con un viaje por avión. Un antídoto ante falsas percepciones de la realidad es la recogida de datos objetivos y un adecuado análisis de los mismos.

Datos contra anécdotas Las organizaciones ecologistas denuncian el uso de productos transgénicos en nuestra alimentación por los efectos que ellos pueden tener en nuestra salud y muestran su apoyo decidido por el uso de productos derivados de la agricultura orgánica frente a la convencional. Es claro que dichas tendencias se basan en gran parte en un modus vivendi que busca ante todo el respeto por el medio ambiente y adecuado aprovechamiento de nuestros recursos naturales. En general, se trata de una losofía en la que muchos podemos coincidir, pero aparte de ello, ¾existen evidencias de que un alimento transgénico sea perjudicial para

1 resumen

Tema 1

del capítulo de introducción del texto

Estadística Aplicada Básica

Curso 2011-12

de D. S. Moore

Página: 1

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Universidad de Murcia

la salud, o que los productos de la agricultura intensiva tengan propiedades signicativamente distintas a los orgánicos?. En cualquier caso, la respuesta a estas preguntas deben de provenir de análisis de datos estadísticos obtenidos a partir de ensayos rigurosos y avalados por la comunidad cientíca.

Es crucial conocer cómo se obtuvieron los datos

Un programa televisivo

solicita a los televidentes que envíen mensajes SMS diciendo si apoya o no la política del gobierno ante la crisis. Los resultados de ese tipo de encuestas hay que entenderlos con sumo cuidado pues casi nunca reeja la opinión de la sociedad en su conjunto. En primer lugar porque los contenidos de cualquier programa televisivo van dirigidos a ciertos sectores de la sociedad y no a otros y segundo porque además las personas que respondieron estaban especialmente motivadas. Es crucial que en cualquier estudio a partir de datos se garantice la representatividad de estos en el conjunto de toda la población, si no, los resultados hay que interpretarlos en términos de las condiciones en las que fueron obtenidos.

La variación está siempre presente en el conjunto de datos en estudio. Una misma característica observada o medida en idénticas condiciones proporciona valores distintos: el precio de los bienes de consumo, el índice de la bolsa, el contenido en grasa en 100 gramos de patatas fritas, el tiempo que se emplea en hacer cierto recorrido, la duración de un electrodoméstico,....Esa variación se debe en parte a ciertos factores controlables y en parte al azar. La estadística pretende explicar dichas variaciones mediante un lenguaje que permite introducir un determinado grado de incertidumbre en nuestras conclusiones. Lo anterior signica que cuando se pretende analizar un determinado fenómeno en una determinada población a partir de un conjunto de datos representativos nunca se podrán establecer verdades absolutas, sino únicamente conclusiones que son avaladas con cierto nivel de conanza.

¾Para qué la Estadística?. Resumiendo: Por

Estadística entendemos una batería de recursos cientícos por los cuales podemos

recolectar, organizar, resumir, presentar y analizar datos que provienen de un conjunto de observaciones con el objetivo de comunicar información sobre cierto fenómeno y ayudar a la toma de decisiones.

2.

Primeros conceptos En este primer tema vamos a introducir los conceptos básicos y vamos a tratar con

muestras de datos univariantes con el objetivo general de extraer de las mismas toda la información relevante pero de manera sintética y organizada.

Tema 1

Curso 2011-12

Página: 2

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Llamaremos

Población,

Universidad de Murcia

universo o colectivo a un conjunto homogéneo de individuos

sobre los que se estudia una o varias características que son observables o medibles. Puede ser un conjunto nito o innito y cada uno de sus elementos se denominan

individuo,

que además van a ser portadores de información para el estudio que se quiere realizar. Una

muestra

es un subconjunto representativo de la población en el sentido de que

reeja o hereda las características de ésta. El número de elementos de la muestra se denomina

tamaño muestral

toda la población se denomina

Una

y lo representaremos por n. Si la muestra coincide con

censo.

variable es una característica de la población que puede ser observable o medible y

que varía en el conjunto de los individuos. El valor (numérico o no) que la variable toma en un individuo lo denominaremos

dato. Usaremos las últimas letras del abecedario y

en mayúsculas para representar a las variables mientras que usaremos las minúsculas para representar a los datos.

Tipos de variables Cualitativas:

Son variables observables pero no medibles pues toman valores que se

corresponden con cualidades no cuanticables de los individuos. Las distintas man-

modalidades. Esta variables tamnominales o atributos y a las modalidades también se categorías o clases. En particular las variables Dicotómicas

ifestaciones o situaciones posibles se les llama bién se suelen llamar le suelen llamar

pueden observar sólo 2 modalidades o categorías.

Ordinales:

Son variables observables no medibles aunque sus modalidades pueden or-

denarse.

Cuantitativas:

Son variables medibles cuyas modalidades son valores numéricos. Dos

tipos de variables cuantitativas:

Discretas:

Si las posibles modalidades son el resultado de un recuento, es decir,

número de veces que aparece cierta característica en los individuos. No son posibles ningún valor intermedio entre dos enteros consecutivos

n y n + 1 que

se hayan observado.

Continuas:

Si las modalidades son resultados de una medida y los valores posibles

de dicha medida se expresan en relación a cierta unidad. Son posibles todos los valores intermedios entre dos cualesquiera que se hayan observado.

Ejemplo 2.1

Contar con un adecuado diseño del servicio al cliente es premisa funda-

mental para trabajar por una adecuada competitividad empresarial. Por ello se quiere llevar a cabo la evaluación de un servicio de ventas on-line, básicamente en los aspectos de demanda y grado en que se cumplen los objetivos del servicio. Cada usuario podría facilitarnos información respecto a las siguientes características: Si ha utilizado el servicio en el último mes. (Dicotómica con sólo dos modalidades: SI y NO). El sexo. (Dicotómica con sólo dos modalidades: hombre y mujer) Tema 1

Curso 2011-12

Página: 3

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Universidad de Murcia

Categoría profesional. (Cualitativa con modalidades como obrero, cuadro intermedio, directivo, .....) Tipo de artículos en los que está interesado. (Cualitativa con valores posibles como viajes, informática, libros, vinos u otros) Nivel de estudios. (Cualitativa ordinal con modalidades posibles como estudios primarios, medios y superiores) Nivel de satisfacción del servicio. (Cualitativa ordinal con modalidades o rangos posibles como bajo, regular, bueno y muy bueno) Número de veces que realizó compras on-line en los últimos seis meses. (Cuantitativa discreta con valores posibles 0, 1, 2, 3, ......) Número de veces que se conectó al servicio sin realizar compras en los últimos seis meses. (Cuantitativa discreta con valores posibles 0, 1, 2, 3, ......) Edad en años. (Cuantitativa continua con valores dentro del intervalo

(0, +∞).

Tiempo, en meses, desde que realizó la primera compra (Cuantitativa continua con valores dentro del intervalo

(0, +∞).

Dinero, en euros, gastado en compras on-line en el servicio en los últimos seis meses (Cuantitativa continua con valores dentro del intervalo

3.

(0, +∞).

Procedimientos de descripción de datos univariantes

Una vez seleccionados los individuos que van a componer la muestra y observadas todas las variables de interés en cada uno de ellos, solemos disponer la información obtenida en un tipo de matriz que se denomina

variables

matriz de datos o matriz de individuos por

en donde las las representan a los individuos de la muestra y las columna

representan a las variables. Si una la contiene toda la información de determinado individuo, una columna contiene todos los valores observados de una determinada variable en el conjunto de la muestra. Esas matrices van a constituir nuestros cheros de datos que tendrá formato informático para poder ser tratado con software estadístico. Denotaremos dicha matriz con la letra muestra y

Xj

k

X que tiene orden n × k

el número de variables observadas. El elemento

en el individuo número

i. (i = 1, ....., n

y

donde

xij

n

es el tamaño de la

es el valor que la variable

j = 1, ...., k ).

Un ejemplo de matriz de datos se presenta en la siguiente imagen. Dicha matriz contiene información de 150 porciones de 100 gramos de distintos alimentos (en la imagen las primeras 30 las). En cada una de dichas porciones, que aquí son los individuos de la muestra, se observan las siguientes características: el nivel calórico con modalidades bajo, medio y alto (NIVEL), las calorías que contiene (CALORIAS), el grupo al que pertenecen (GRUPO) con modalidades Frutas, Vegetales, Cereales y Azúcares, el estado en que se presenta (ESTADO) con modalidades Cocido, Crudo y Enlatado, la cantidad de gramos de carbohidratos (CARBOH), el índice glucémico (INDICE-G) que

Tema 1

Curso 2011-12

Página: 4

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Universidad de Murcia

es un indicador de la velocidad de asimilación del azúcar y el número de micronutrientes que contiene (MICRO). Las variables GRUPO y ESTADO son variables cualitativas, la variable NIVEL es ordinal, la variable CALORIAS es cuantitativa discreta al igual que la variable MICRO y por último, las variables CARBOH e INDICE-G son cuantitativas continuas. Además, la primera columna de dicha matriz se reserva para identicar a cada uno de los individuos de la muestra. Por defecto dicho indicador suele ser un número, pero podría ser cualquier etiqueta identicativa. Considerando la columna de identicación de los individuos, la matriz del ejemplo tiene orden 150x7 (150 las y 7 columnas) si bien son visibles en la imagen sólo las primeras 30 las.

La matriz anterior contiene toda la información disponible sobre el fenómeno que se quiere investigar y el objetivo ahora es ordenar y sintetizar dicha información para

Tema 1

Curso 2011-12

Página: 5

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Universidad de Murcia

que ésta resulte más operativa y podamos extrae un resumen del comportamiento de

Estadística Descriptiva Univariantes que usan los datos de una sola variable. Clasicamos estas

las características en estudio. En este tema hablaremos de las técnicas de

técnicas en función de los resultados que producen y el tipo de datos que usa en:

1. Tabulación:

o disposición de los todos los valores distintos observados en la mues-

tra, que llamaremos

clases, en una tabla con sus correspondientes frecuencias o

cómputo del número de veces que dicha clase aparece en el conjunto de la muestra. La tabla puede ser para:

Variables Cualitativas :

clases se disponen en la primera columna y se agregan la columna de frecuencias absolutas (fa) (número de veces que cada modalidad (clase) aparece en la muestra) y las frecuencias relativas (fr) (proporción que la frecuencia absoluta representa Las modalidades distintas observadas o

en el conjunto de la muestra).

Variables Ordinales y Cuantitativas Discretas:

Además de la información

anterior, las clases aparecen ordenadas en la tabla de menor a mayor y se

frecuencias acumuladas, tanto absolutas (Fa) como relativas (Fr) que ofrece la frecuencia de cada clase acumulada a las frecuencias

agregan las

de las clases inferiores.

Variables Cuantitativas Continuas:

Si la muestra contiene un gran número de

modalidades la tabla anterior puede ser poco operativa. En estas situaciones se construyen

clases de intervalo

que agrupa los valores observados entre

los valores especicados en dicha clase. Las frecuencias anteriores (fa, fr, Fa y Fr) están ahora referidas a dichas clases de intervalo.

2. Grácos:

Los grácos permiten visualizar las características básicas de la distribu-

ción de frecuencias representadas en la tabla anterior. Según el tipo de variable, los más básicos son los siguientes:

Diagrama de sectores

para representar una tabla de una variable cualitativa

mediante un gráco circular de forma que hay tantos sectores circulares como clases y con áreas proporcionales a la frecuencias que representan.

Diagrama de barras

para representar una tabla de una variable ordinal o cuan-

titativa discreta mediante un gráco con un eje horizontal en donde se representan las clases y una barra vertical sobre cada clase cuya altura es proporcional a la frecuencia que representa.

Diagrama de Tallo y Hojas

que ofrece la ordenación y el recuento de todos los

valores observados de una variable numérica, cuando el tamaño de la muestra no es demasiado grande. Para construir este gráco se selecciona uno o más dígitos comunes a un conjunto de datos para los valores de tallo y los dígitos sobrantes van a constituir hojas del mismo tallo.

Histograma

que agrupa los valores observados de una variable cuantitativa con-

tinua en clases de intervalo representados en un eje horizontal y levantando sobre cada uno un rectángulo cuya área representa a la frecuencia de dicha clase. Las clases deben ser las mismas que las construidas en la correspondiente tabla de frecuencias.

Tema 1

Curso 2011-12

Página: 6

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

3. Cálculo de estadísticos:

Universidad de Murcia

Medidas descriptivas para cuanticar las características

de la distribución de frecuencias que visualizamos en tablas y grácos. Dichas características son principalmente de:

Centralización:

ofrecen valores centrales o representantes del conjunto de la

muestra.

Localización:

ofrecen valores localizados de la muestra cuando ésta se presenta

con todos sus datos ordenados de menor a mayor.

Dispersión:

ofrecen medidas de dispersión o variabilidad de los datos respecto a

valores centrales. Son también una medida del grado de representatividad de los valores centrales.

Forma:

ofrecen medidas sobre la forma de la distribución de frecuencias, básica-

mente respecto a al grado de simetría con relación a valores centrales.

Diagrama de caja y patillas (Boxplot ):

Resume las medidas descriptivas an-

teriores en un gráco que se describirá.

4.

Medidas descriptivas

4.1. Medidas de centralización y localización Moda Un primer criterio para seleccionar un valor que represente a toda la muestra es elegir aquel dato que tenga mayor frecuencia absoluta. Este dato se denomina se representa, usualmente, por

Mo .

moda, y

Obsérvese que la denición es aplicable a cualquier

tipo de variables salvo para variables continuas. En variables continuas con datos agrupados en clases de intervalo es más adecuado hablar del intervalo modal (el que tiene mayor frecuencia) en vez de la moda.

Media aritmética La medida de centralización más familiar es la se denota por si

x.

x1 , x2 , . . . , xn

media aritmética, que usualmente

Está denida como el promedio de los valores de la muestra; es decir,

son los

n

valores de la muestra, su media aritmética es:

x 1 + x2 + · · · + xn x= = n

Pn

i=1

xi

n

.

Obsérvese que la media aritmética, al igual que la mayoría de las medidas descriptivas, sólo tiene sentido con datos cuantitativos. La unidad de medida de

x es la

misma que la

de la variable.

Mediana Si los valores de una variable estadística son susceptibles de una ordenación (es decir, si la variable no es cualitativa nominal), puede tomarse como

y localización Tema 1

medida de centralización

de la distribución de frecuencias un valor tal que, una vez ordenados

Curso 2011-12

Página: 7

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Universidad de Murcia

todos ellos de menor a mayor, haya tantos valores por debajo de él como por encima del mismo. A este valor central se le llama

mediana. Por tanto, la mediana es un valor

que deja por debajo el 50 % de los datos de la muestra ordenada, es decir, divide a la muestra en 2 intervalos de igual número de observaciones. Usualmente se denota por

Me .

Su unidad de medida es la misma que la de la variable.

•

Si

n

es impar:

•

Si

n

es par:

Me

Me

es el valor central de la muestra ordenada. es el punto medio de los dos valores centrales de la muestra

ordenada.

Ejemplo 4.1

Supongamos una muestra de la variable

1. El tamaño de la muestra es impar, por ejemplo

Número de hermanos.

n = 21,

la mediana es exactamente

el valor del dato 11 supuestos ordenados de menor a mayor.

xi

ni

Ni

0

4

4

1

7

11

2

5

16

3

3

19

4

2

21

La mediana es el valor

Me = 1

2. El tamaño de la muestra es par, por ejemplo

n = 20,

la mediana es el promedio

de los dos datos centrales supuestos ordenados de menor a mayor, es decir, de los datos que ocupan los lugares 10 y 11. Puede ocurrir que ambos datos caigan en la misma clase, como en el siguiente ejemplo:

xi

ni

Ni

0

4

4

1

7

11

2

5

15

3

3

19

4

1

20

La mediana es el valor

Me =

1+1 =1 2

3. O que caigan en distintas clases, como en el siguiente ejemplo:

xi

ni

Ni

0

4

4

1

6

10

2

5

15

3

4

19

4

1

20

Percentiles El percentil

al

La mediana es el valor

r%

Me =

1+2 = 1.5 2

de una variable estadística es un valor que deja por debajo el

r % de los datos de la muestra ordenada de menor a mayor. Usualmente se denota por Pr . Son medidas de localización entre las que destacan los cuartiles. Su unidad de medida es la misma que la de la variable. CASOS PARTICULARES:

Tema 1

Curso 2011-12

Página: 8

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

•

Cuartiles:

1er cuartil 2o cuartil 3er cuartil •

Universidad de Murcia

= = =

Q1 = P25 Q2 = P50 = Me Q3 = P75

Deciles:

1er decil 2o decil . . .

9o

decil

= = . . . =

D1 = P10 D2 = P20 . . .

D9 = P90

En particular, los cuartiles son aquellos valores que dividen la muestra en 4 intervalos con igual número de observaciones.

Ejemplo 4.2

Usemos las mismas distribuciones de frecuencias del ejemplo anterior

para calcular los cuartiles, es decir, 1. El tamaño de la muestra es

xi

ni

Ni

0

4

4

1

7

11

2

5

16

3

3

19

4

2

21

Q1 =

ni

Ni

0

4

4

1

7

11

2

5

15

3

3

19

4

1

20

Q1 =

y

Q3 = P75 .

n = 21.

1+1 = 1, Me = 1 2

2. El tamaño de la muestra es

xi

Q1 = P25

y

Q3 =

n = 20,

1+1 1+1 = 1, Me = =1 2 2

3. Otro caso en el que el tamaño de la muestra es

xi

ni

Ni

0

4

4

1

6

10

2

5

15

3

4

19

4

1

20

Q1 =

2+3 = 2.5 2

y

Q3 =

2+2 =2 2

n = 20,

1+1 1+2 = 1, Me = = 1.5 2 2

y

Q3 =

2+3 = 2.5 2

4.2. Medidas de dispersión Al estudiar cada carácter de cualquier población o muestra, se ponen enseguida de maniesto las diferencias o discrepancias en los resultados individuales de las observaciones. La variabilidad en los resultados es inherente a cada fenómeno aleatorio, originando en el conjunto de los datos observados cierto grado de heterogeneidad, según que las

Tema 1

Curso 2011-12

Página: 9

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Universidad de Murcia

discrepancias u oscilaciones entre ellos sea pequeña o grande. Este grado de variabilidad de los datos estadísticos es la dispersión. Cuando se pretende asignar un número para cada grado de variabilidad de las observaciones, surgen diferentes medidas de dispersión, dependiendo de si se elige como medida la diferencia entre determinados valores de la variable, o la que existe entre todos ellos y una medida de centralización, generalmente la media aritmética o la mediana, o de modo que la medida no venga inuenciada por las propias unidades de medida de los valores cuya dispersión se desea estimar. A las medidas de dispersión expresadas en la misma unidad de medida que los datos las denominaremos medidas de dispersión ab-

soluta, y a las expresadas independientemente de dichas unidades, medidas de dispersión relativa. Cuando se mide la dispersión de los valores de una variable respecto a una de sus medidas de centralización, se está midiendo el grado de representatividad que dicha medida de centralización tiene del conjunto de los datos a los cuales pretende resumir.

Recorrido Una medida de dispersión global es el

recorrido de la muestra (también denominado

rango o amplitud total), que se denota por R y se dene como la diferencia entre la observación mayor,

xmax ,

y la observación menor,

xmin ,

es decir:

R = xmax − xmin . R

De la fórmula anterior se deduce que

se expresa en la misma unidad que la de la

variable y mide el grado de variabilidad de los datos de la muestra: cuanto más grande sea el resultado del recorrido, más dispersos están los datos.

Recorrido intercuartílico Cuando los valores próximos al máximo y al mínimo de los datos están excesivamente alejados del resto, la consideración de un recorrido más corto, prescindiendo de un determinado porcentaje de los datos más alejados, puede dar una idea más real de la dispersión que si se emplea el recorrido. Esta idea conduce a la noción de

intercuartílico,

que se denota por

RI

recorrido

y se dene como la diferencia entre el tercer

cuartil y el primer cuartil; es decir:

RI = Q3 − Q1 = P75 − P25 . De la fórmula anterior se deduce que la unidad de medida de

RI

es la misma que la

de la variable. Cuanto más pequeño sea el resultado del recorrido intercuartílico, menos dispersión respecto de la mediana hay; es decir, los datos están menos alejados de la mediana y, por tanto, la mediana es más representativa. Pero, ¾cuándo podríamos decir que el

Q1 , y el Q3 , hay exactamente la mitad de los datos, podríamos comparar la mitad

valor del recorrido intercuartílico es pequeño? . . . Como entre el primer cuartil, tercer cuartil,

del recorrido total con el recorrido intercuartílico, y podríamos decir que la mediana es representativa si

Tema 1

RI

es menor o igual que

R/2.

Curso 2011-12

Página: 10

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Ejemplo 4.3 recorrido es

Universidad de Murcia

Siguiendo con los ejemplos anteriores, se observa que en los 3 casos el

R = 4 − 0 = 4,

mientras que el recorrido intercuartílico es:

1. El tamaño de la muestra es

xi

ni

Ni

0

4

4

1

7

11

2

5

16

3

3

19

4

2

21

RI = 2.5 − 1 = 1.5

2. El tamaño de la muestra es

xi

ni

Ni

0

4

4

1

7

11

2

5

15

3

3

19

4

1

20

n = 21.

n = 20,

RI = 2 − 1 = 1

3. Otro caso en el que el tamaño de la muestra es

xi

ni

Ni

0

4

4

1

6

10

2

5

15

3

4

19

4

1

20

En los tres casos

n = 20,

RI = 2.5 − 1 = 1.5

RI < R/2 = 2

por lo que la mediana es representativa en los tres

casos. En el segundo caso la mediana es algo más representativa que en el primer y tercer caso.

Varianza y desviación típica Varianza Es la media aritmética

de los cuadrados de las desviaciones de los datos 2 2 respecto a la media, y se suele representar por sx , o simplemente por s si no hay lugar a confusión. Por tanto, si los datos de la muestra son

x1 , x2 , . . . , xn ,

la

varianza es, por denición:

s2x

Pn =

i=1 (xi

− x)2

n

.

De la expresión anterior se deduce que el resultado de la varianza es siempre un número no negativo y se expresa mediante el cuadrado de la unidad de la variable X, lo que en la mayoría de los casos puede carecer de sentido.

Desviación típica

Es la raíz cuadrada positiva de la varianza y viene expresada en la

misma unidad que la de la variable. observaciones, y que se dene como la raíz cuadrada positiva de la varianza. Se representa por

Tema 1

Curso 2011-12

sx ,

o simplemente por

s.

Página: 11

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Universidad de Murcia

Cuanto más pequeño sea el resultado de la desviación típica, menos dispersión respecto de la media hay; es decir, los datos están menos alejados de la media y, por tanto, la media es más representativa.

Relación entre media aritmética y desviación típica tadística con media

x

y desviación típica

s

y

k

. Si

es una variable es-

es cualquier número mayor o igual

a 1, entonces la proporción de datos comprendidos entre

x−k∗s

1 1 − 2. k

mayor o igual que

Ejemplo 4.4

X

y

x+k∗s

es

Supongamos que sabemos que los varones de 20 años del territorio na-

cional tienen en media 168 cm de estatura y la desviación típica es de 4 cm, si tomamos

k = 2,

la propiedad anterior dice que al menos el 75 % de dicho colectivo tiene estaturas

comprendidas entre 160 cm y 176 cm.

Coeciente de Variación El coeciente de variación media de Pearson relativa que se suele denotar

CV

es una medida de dispersión

y que se dene por

CV =

sx · 100 % . |x|

De la fórmula anterior se deduce que el coeciente de variación media de Pearson no tiene unidad de medida. Si se compara el resultado del coeciente de variación en dos o más muestras distintas, entonces la media es más representativa en la muestra en la que el valor de dicha medida de dispersión relativa es menor.

Ejemplo 4.5

Supongamos que la variable

X

mide el contenido de proteínas, en gramos,

en muestras de 100 gramos de helado. Supongamos que la variable

Y

mide el contenido

calórico de las mismas muestras de 100 gramos de helado. Supongamos que en el conjunto

x = 3 gramos con sx = 0.25 gramos, mientras que en la muestra de datos de la variable Y se obtiene x = 250 Kcal con sy = 15

de datos observados de la variable

X

se obtiene

Kcal.

CVx =

sx 0.5 · 100 % = · 100 % = 16 % . |x| 3

CVy =

15 sy · 100 % = · 100 % = 6 % . |y| 250

Es decir, la dispersión relativa es menor en la muestra de la variable la variable

Y

que en la de

X.

4.3. Medidas de forma La primera información acerca de las peculiaridades de forma de una distribución nos la proporciona la observación del polígono de frecuencias o, mejor aún, del diagrama de barras o del histograma, según se trate de una variable discreta o continua. Si la

Tema 1

Curso 2011-12

Página: 12

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Universidad de Murcia

distribución es unimodal y la moda está en un valor extremo del recorrido, siendo la frecuencia a partir de dicho valor cada vez menor al avanzar hacia la derecha o hacia la izquierda, la distribución se dice que es de tipo

L

o de tipo

J,

según que la moda

quede, respectivamente, a la izquierda o a la derecha en la representación gráca. Si la distribución es de tipo

Ltambién

se denomina asimétrica a la derecha o si es de tipo

J

se dice asimétrica a la izquierda. Las distribuciones más frecuentes son aquellas unimodales que tienen pocos valores próximos a los extremos y muchos intermedios, o bien aquellas que tienen muchos valores en torno a la moda y progresivamente menos hacia uno u otro extremo del recorrido de la variable, dando lugar, en cualquier caso, a representaciones grácas de aspecto

campaniforme con un mayor o menor apuntamiento vertical.

Coeciente de asimetría Una distribución es simétrica

si tienen igual frecuencia los valores que están a

igual distancia de la media. Cuando la distribución es simétrica, la media deja por delante el mismo número de observaciones que detrás de ella. Por tanto, en este caso la media coincide con la mediana. Además, los cuartiles primero y tercero equidistan de la mediana, o lo que es equivalente, la mediana coincide con el punto medio de los cuartiles primero y tercero. Diremos que la distribución presenta una

asimetría positiva

o

por la derecha

si los valores bajos de la variable son los más frecuentes, por lo que la correspondiente representación gráca presenta una cola alargada hacia la derecha. Análogamente, se dice que una distribución presenta una

asimetría negativa o por

la izquierda si los valores más frecuentes son los mayores de la variable, por lo que la correspondiente representación gráca presenta una cola alargada a la izquierda. El

coeciente de asimetría de Pearson se calcula mediante la expresión As =

3(x − Me ) s

Siendo este coeciente positivo, negativo o nulo según que la distribución sea asimétrica por la derecha, asimétrica por la izquierda o simétrica, respectivamente. En la imagen 4.3 se representan tres tipos distintos de distribuciones de frecuencia respecto a su simetría.

Ejemplo 4.6 y

M ey = 270

Tema 1

Supongamos que en el ejemplo anterior la mediana es

M ex = 2.8

gramos

Kcal.

Curso 2011-12

Página: 13

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Universidad de Murcia

En estos caso, el coeciente de asimetría valen:

Asx = Asy =

3(3 − 2.8) 3(x − M ex ) = = 2.4 sx 0.25

3(y − M ey ) 3(250 − 270) = = −4 sy 15

Es decir, en el caso de la variable

X

la muestra presenta una asimetría positiva,

mientras que es negativa en el caso de la variable

Y . Además, la muestra de esta segunda

variable es más asimétrica que la muestra de la primera. Lo anterior signica, que en el caso de la variable

X,

los valores más frecuentes son los que tienen menos de 3 gramos

de proteínas, mientras que en el caso de la variable

Y,

los valores más frecuentes son

los que tienen más de 250 Kcal.

4.4. Tipicación de una variable estadística Si

X

es una variable estadística con media

tipicadade X

x y desviación típica s se dene la variable

a la variable

Z=

X −x s

que posee las siguientes propiedades: 1. La variable

Z

tiene media cero y desviación típica 1

2. Es adimensional, es decir, no tiene unidad. 3. Por lo anterior puede ser usada para comparar datos de dos variables distintas

Ejemplo 4.7

Supongamos que el país A tiene una renta media per cápita de 30000

euros con una desviación típica de 10000 euros. El país B tiene una renta media per cápita de 35000 euros con una desviación típica de 12000 euros.

El ciudadano

x

del país A tiene una renta anual de 33000 euros y el ciudadano

y

del

país B tiene una renta anual de 36000 euros. Para comparar ambos datos los tipicamos. El dato tipicado del ciudadano

x

es

33000 − 30000 = 0.3 10000 mientras que el dato tipicado del ciudadano

y

es

36000 − 35000 = 0.08 12000 Es decir, respecto al nivel de vida de su país, el ciudadano poder adquisitivo que el ciudadano

Tema 1

y

del país

x

del país A tiene mayor

B.

Curso 2011-12

Página: 14

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Universidad de Murcia

4.5. Resumen de Estadísticos La siguiente tabla resume los estadísticos que se usan más frecuentemente para cada tipo de variable.

Estadístico Moda

Mediana Media

aritméti-

Característica

Utilidad

Variable

Centralización

Informa del valor más fre-

Cualitativa, ordinal y

cuente

cuantitativa discreta

Centralización y

Valor

central

de

muestra,

Ordinales y cuantita-

localización

supuesta ordenada

tivas

Centralización

Promedio de los datos

Cuantitativas

Localización

Valor de la muestra que deja

Cuantitativas

ca Cuartil 25 (75)

por debajo el 25 % (75 %) de ella Percentil p

Localización

Valor de la muestra que deja

Cuantitativas

por debajo el p % de ella Intervalo

Inter-

Dispersión

Varian-

Dispersión

Intervalo

cuartílico (Cuasi)

formado

por

los

Cuantitativas

desvia-

Cuantitativas

cuartiles Promedio

za

de

las

ciones respecto a la media al cuadrado

(Cuasi)

Dispersión

Raíz cuadrada de la (Cuasi)

Desviación

Cuantitativas

Varianza

típica Coeciente

de

Dispersión

Medida de dispersión por-

variación Asimetría

Cuantitativas

centual Forma

Nivel de asimetría de la dis-

Cuantitativas

tribución de frecuencias

4.6. Diagrama de caja y patillas (Boxplot) Este gráco ofrece un resumen de las medidas descriptivas anteriores, pues nos aporta una visualización de las características de centralización, localización, dispersión y forma de la distribución de frecuencias, además de permitir detectar datos atípicos de la muestra. Contiene los siguientes elementos: Un rectángulo o caja que se extiende desde el primer cuartil al tercer cuartil y dentro de ella marcada la mediana. La longitud de la caja se corresponde con el llamado

rango intercuartílico.

Dos patillas, una a cada lado de la caja, que se extienden desde los cuartiles a las observaciones más extremas, siempre y cuando éstas no se alejen del extremo de la caja más del rango intercuartílico multiplicado por 1.5. Las observaciones que disten del cuartil más próximo más del rango intercuartílico multiplicado por 1.5 se consideran atípicas y serán reejadas en el gráco como puntos aislados fuera de las patillas.

Tema 1

Curso 2011-12

Página: 15

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

5.

Universidad de Murcia

Ejemplos prácticos

5.1. Caso de un atributo Describimos la variable ESTADO que indica cómo está presentado el alimento. La siguiente tabla incluye las frecuencias absolutas y relativas de las modalidades de la variable ESTADO mientras que el diagrama de sectores representa las frecuencias de dicha tabla. ESTADO

Clases

fa

fr

Cocido

119

0.79

Crudo

6

0.04

Enlatado

25

0.17

Suma

150

1

Cocido

Enlatado

Crudo

Por otro lado podemos decir que la presentación Cocido representa la

moda

en

casi el 80 % de los alimentos en estudio.

5.2. Caso de una variable ordinal Describimos la variable NIVEL (nivel calórico del alimento) con niveles 1: Bajo, 2: Medio, 3: Alto y 4: Muy alto. La variable es cualitativa ordinal puesto que sus categorías o niveles pueden ser ordenados. En este caso el diagrama más adecuado es el diagrama de barras y éstas representan las frecuencias de las categorías que se ordenan en el eje

Fr

1

38

0.253

38

0.253

2

55

0.366

93

0.619

3

53

0.353

146

0.973

4

4

0.026

150

a

consideran los errores de redondeo

0

a Se

1

30

Fa

20

fr

10

fa

Frequency

Clases

40

50

horizontal.

Bajo

Medio

Alto

Muy alto

NIVEL

La moda es la categoría 2. La mediana se halla en la misma clase pues las observaciones 75 y 76 se corresponden ambas con la clase 2.

Tema 1

Curso 2011-12

Página: 16

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Universidad de Murcia

También se podría haber representado el diagrama de barras de las frecuencias acumuladas.

5.3. Caso de una variable cuantitativa discreta 5.3.1. Pocas modalidades

1

1

0.006

1

0.006

2

4

0.026

5

0.032

3

13

0.086

18

0.118

4

24

0.160

42

0.278

5

40

0.266

82

0.544

6

45

0.300

127

0.844

7

15

0.100

142

0.944

8

5

0.033

147

0.977

9

2

0.013

149

0.990

10

1

0.006

150

a Se

1

a

30

Fr

20

Fa

Frequency

fr

10

fa

0

Clases

40

Describimos la variable MICRO.

1 consideran los errores de redondeo

2

3

4

5

6

7

8

9

10

MICRO

Medidas descriptivas: Moda: 6 micronutrientes C25 =

4 micronutrientes

Mediana: 5 micronutrientes C75 =

6 micronutrientes

Mínimo: 1 micronutriente Máximo: 10 micronutrientes Rango: Intervalo ente 1 y 10 micronutrientes. 5.3.2. Muchas modalidades En estos casos, a pesar de ser la variable discreta, son más adecuados los procedimientos de variables continuas, agrupando las modalidades en clases de intervalo. Si no, la longitud de la tabla resultaría poco operativa. Describimos la variable CALORIAS

Tema 1

Curso 2011-12

Página: 17

M. Iniesta

7

0.046

7

0.046

40

0.266

47

0.313

150-200

55

0.366

102

0.680

200-250

31

0.206

133

0.886

250-300

12

0.080

145

0.966

300-350

4

0.026

149

0.993

350-400

1

0.006

150

a Se

1

a

consideran los errores de redondeo

40

50-100 100-150

30

Fr

frequency

Fa

20

fr

10

fa

0

Clases

Universidad de Murcia

50

Grado en Ciencia y Tecnología de los Alimentos

50

100

150

200

250

300

350

400

Alimentos$CALORIAS

Medidas descriptivas y Boxplot Media: 182.52 ●

350

135.5

150

Mínimo: 60

250

212.25

200

CALORIAS

C75 =

300

Mediana: 180

●

100

Máximo: 370 Desviación Típica: 58.68

50

C25 =

Coeciente de Variación: 32.15 % En el diagrama se observa ligera asimetría a la derecha (cola de la derecha más alargada que la izquierda) y 2 valores atípicos.

5.4. Caso de una variable cuantitativa continua Describimos la variable NIVEL-G. Para una variable cuantitativa continua son adecuados los procedimientos utilizados en el ejemplo anterior, sin embargo, en muchas ocasiones, cuando deseamos hacer una descripción somera de una variable recurrimos exclusivamente a los grácos de los que desprendemos las características más elocuentes del comportamiento de dicha variable.

● ● ● ●

50 40 20

30

INDICE_G

60

70

●

Tema 1

Curso 2011-12

Página: 18

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Universidad de Murcia

El diagrama de tallo y hojas es, a groso modo, una tabla de frecuencias, pues agrupa las observaciones que tienen uno o más dígitos comunes en un mismo tallo, indicando las frecuencias acumuladas en orden ascendente y descendente hasta el tallo donde se halla la mediana, cuya frecuencia se representa entre paréntesis. Pero también es un gráco pues la longitud de los tallos dan idea de la frecuencia de la clase. A la vista de este gráco podemos decir: La menor observación es 18 y la mayor es 76, aunque ésta última es atípica pues se encuentra fuera del árbol. Se podría construir la tabla con todas las frecuencias de las clases de intervalo con amplitud 10. Por ejemplo hay 22 observaciones en el intervalo [20-30) y 45 observaciones en el intervalo [30,40). La mediana se encuentra en el tallo 3. Exactamente podemos encontrarla contando desde la observación 24 que es INDICE-G=30 hasta la observación 75 que es la observación INDICE-G=36 y ésta es la mediana. Por otro lado, el diagrama de caja y patillas representa la mediana que vale 36, los cuartiles inferior y superior que valen 32 y 44 respectivamente y las observaciones extremas, por lo tanto también representa el rango intercuartílico (RI=[32, 44]) y el rango de la variable (Rango=[18, 76]). Respecto a la forma observamos que los valores superiores a la mediana están más dispersos que los valores inferiores a la mediana, por lo tanto la distribución de frecuencias es asimétrica a la derecha. Dicha asimetría se paliaría en parte si elimináramos las observaciones atípicas.

6.

Bibliografía

1. Tema 1 del texto Estadística para Ciencias Agropecuarias. Autor: Di Riezo, J. A. 2. Tema 1 del texto Estadística para ingenieros y cientícos. Autor: William Navidi. Editorial McGraw-Hill

Tema 1

Curso 2011-12

Página: 19

1. Introducción al razonamiento estadístico

Recommend Stories

Story Transcript

Get in touch

Social