Story Transcript
1
Estadística descriptiva Versión: 23 de septiembre de 2013
La estadística recoge, ordena y analiza datos para estudiar las características o el comportamiento de un colectivo. Muchos fenómenos de la naturaleza no son deterministas (es decir no dan lugar a un resultado cierto o seguro). Por ejemplo, la duración de la vida de un organismo, la herencia de los genes, el número de personas infectadas durante un brote epidérmico o el color preferido de los alumnos de una clase. La Estadística es la rama de las matemáticas que se ocupa de los métodos y procedimientos para recoger, clasificar, representar y resumir datos (Estadística descriptiva), así como de obtener consecuencias científicas a partir de estos datos (Inferencia Estadística). Para comprender mejor la diferencia de estos dos grandes apartados de la Estadística, consideramos un ejemplo de un internista que desea comprobar la eficacia de una droga hipotensora. Para ello sólo dispondrá de un número limitado de pacientes a los que administrar la droga, y, sin embargo, deseará obtener conclusiones válidas para todos los pacientes hipertensos del mismo medio. Del estudio que se realiza en el número limitado de pacientes (muestra) se encarga la Estadística Descriptiva que presentamos en los Temas 1 y 2. Obtener conclusiones para todos los pacientes (población) a partir de un número limitado de ellos se realiza mediante la Inferencia Estadística, que será considerada en los el Temas 3, 4, 5 y 6. El objetivo de este Tema es presentar herramientas básicas de la Estadística Descriptiva.
1.1
Conceptos fundamentales
CONCEPTOS FUNDAMENTALES Individuo o elemento: cada una de las personas u objetos que se desea estudiar. Población: conjunto de individuos o elementos observados al realizar un experimento que cumplen ciertas propiedades comunes.
Por ejemplo, animales, árboles, chinchetas, altura de una planta, tiempo de vida, etc. En el ejemplo anterior, son todos los pacientes hipertensos del mismo medio.
Muestra: una parte de la población.
En el ejemplo anterior, es el conjunto de pacientes hipertensos a los que se les aplica la droga. Generalmente es difícil obtener medidas de toda la población (medir la estatura de todos los españoles) o imposible (estudiando el caudal de un río tendríamos que medir los caudales de todos los años pasados y futuros). Se mide una parte de la población (una muestra) y se trata de inferir estos resultados sobre toda la población ahorrando tiempo y dinero.
Tamaño de la muestra: el número de los elementos de la muestra.
Variable estadística es una propiedad característica de la población que estamos interesados en estudiar.
Hay dos tipos de variables cualitativas y cuantitativas. 1
1. Estadística descriptiva
2
Variable cualitativa: mide características que no toman valores numéricos. Por ejemplo, la profesión del padre, color del pelo, nombre de una persona, asignatura preferida, etc. Se agrupan por modalidades, por ejemplo, la variable sexo presenta dos modalidades: femenino y masculino. Variable cuantitativa: se puede medir y expresar mediante cantidades numéricas. A su vez se clasifican en: Cuantitativa discreta: sólo admite valores aislados. Se habla de elementos o datos. Por ejemplo, el número de hijas de una familia, el número de obreros en una fábrica, talla del pantalón, etc. Cuantitativa continua: puede admitir cualquier valor dentro de un intervalo. Se clasifican en intervalos o clases. Por ejemplo el peso (2.3 kg, 2.4 kg, 2.5 kg,. . . ), la altura de un objeto (1.64 m, 1.65 m, 1.66 m,. . . ), temperaturas registradas en un observatorio o la presión sanguínea de enfermos, es decir permiten que siempre exista un valor entre dos variables.
1.2
Tablas estadísticas
Una vez obtenidos los datos de la muestra o población, éstos se suelen ordenar y clasificar en la llamadas tablas estadísticas. Vamos a ilustrar con el siguiente ejemplo la necesidad de crear este tipo de tablas.
Ejemplo 1.1
Una tabla no estadística
Supongamos que tenemos una muestra de 500 alumnos varones de una Universidad, en los que se desea estudiar el grupo sanguíneo (variable cualitativa), el número de hermanos excluido él mismo (variable cuantitativa discreta) y el peso (variable cuantitativa continua). Los datos de la muestra están recogidos en la Tabla 1.1. Es evidente que, a partir de la Tabla 5.1 no se puede deducir fácilmente la información global sobre el colectivo estudiado: ¿cuál es el grupo sanguíneo más frecuente?, ¿cómo de frecuente es?, etc.
Tabla 1.1 Grupo sanguíneo, número de hermanos y peso de 500 alumnos varones de una Universidad (Ejemplo de tabla no estadística)
Alumno no
Grupo sanguíneo
Número de hermanos
Peso (Kg.)
1
A
0
70.502
2
B
3
67.231
...
...
...
...
500
AB
2
71.676
La manera de construir la tablas estadísticas varía según sea el carácter de la variable a estudiar: cualitativa, cuantitativa discreta o cuantitativa continua. A continuación veamos ejemplos de cada caso.
Matemática Aplicada y Estadística
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
1.2.1
3
Variable cualitativa
Ejemplo 1.2
Tabla para analizar una variable cualitativa
Usando los datos del Ejemplo 1.1 y de la Tabla 1.1 podemos construir una tabla estadística, conocida como tabla de frecuencias (se define más adelante con carácter general). La Tabla 1.2 muestra la distribución de frecuencias del grupo sanguíneo (variable cualitativa). Se observa que las frecuencias relativas se introducen para hacer comparables dos o más tablas de datos del mismo tipo basados en tamaños de muestra diferentes. Por ejemplo, si en otra Universidad se encuentra la frecuencia absoluta n03 = 40 de entre el número total de estudiantes N 0 = 937, no es posible determinar a partir de n3 = 25 y n03 = 40 en cuál de los dos muestras es más frecuente el grupo sanguíneo AB, pues las frecuencias absolutas están basadas en diferentes valores de N . Sin embargo, las frecuencias relativas (f3 = 0.05 y f30 = 40/937 = 0.043) sí permiten efectuar tal comparación y concluir que el grupo sanguíneo AB es un poco más frecuente en el primer caso.
Tabla 1.2 Distribución del grupo sanguíneo en 500 alumnos varones de una Universidad (variable cualitativa)
ni Frecuencia relativa fi = N
Porcentaje (Pi = 100fi )
Grupo sanguíneo
Frecuencia absoluta (ni )
A
150
150 500
= 0.30
30 %
B
75
75 500
= 0.15
15 %
AB
25
25 500
= 0.05
5%
0
250
250 500
= 0.50
50 %
Total
500
1
100 %
Con carácter general una tabla para analizar una variable cualitativa es la que muestra la Tabla 1.3. Tabla 1.3 Distribución de frecuencias: variable cualitativa
Clase
Fr. absoluta (ni )
Fr. relativa (fi )
%
Fr. abs. acumulada (Ni )
Fr. relativa acumulada (Fi )
C1
n1
f1
100f1
N1
F1
C2
n2
f2
100f2
N2
F2
.. .
.. .
.. .
.. .
.. .
.. .
CK
nK
fK
100fK
NK = N
FK = 1
Total
N
1
100 %
...
...
En la a la Tabla 1.3 se han añadido las distribuciones de frecuencias absolutas acumuladas, Ni , y frecuencias relativas acumuladas, Fi (véase el Ejemplo 1.3). La información que proporcionan la distribución de frecuencias Matemática Aplicada y Estadística
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
4
relativas puede obtenerse a partir de la distribución de frecuencias relativas acumuladas y recíprocamente. Debemos observar que las frecuencias acumuladas sólo tienen sentido cuando es posible establecer una relación de orden entre los valores de la variable.
Ejemplo 1.3 Dentro de los procesos industriales de gran importancia para el Ingeniero Químico, están los procesos de tratamiento de aguas. Un laboratorio determinó la dureza del agua de 10 muestras obteniendo los resultados: Muestra 1 2 3 4 5 6 7 8 9 10
Dureza Agua blanda Agua blanda Agua dura Agua muy dura Agua muy dura Agua extremadamente dura Agua blanda Agua blanda Agua dura Agua muy dura
La tabla de distribución de frecuencias para la variable C =«Dureza del agua» se muestra en la siguiente tabla: Dureza del agua (Ci ) Agua blanda Agua dura Agua muy dura Agua extremadamente dura Total
1.2.2
ni 4 2 3 1 10
fi 0.4 0.2 0.3 0.1 1
Ni 4 6 9 10 ---
Fi 0. 4 0.6 0.9 1 ---
Variable cuantitativa discreta
Criterios similares sirven para el caso cuantitativo discreto como muestra el ejemplo siguiente.
Ejemplo 1.4
Tabla para analizar una variable cuantitativa discreta
En la Tabla 1.4 se representan distribuciones de frecuencias para analizar el número de hermanos (variable cuantitativa discreta). Se observa que las clases son ahora valores numéricos, pues los datos lo son. Las clases se han ordenado de menor a mayor para mayor claridad de la tabla. Por otra parte, en la Tabla 1.4 se observa que las últimas variables tienen frecuencias muy bajas, lo que se suele hacen en estos casos es agrupar en la última clase las clases originales 7, 8, . . . (por tener frecuencias muy bajas) para no hacer la tabla muy extensa sin necesidad. El resultado puede observarse en la Tabla 1.5.
Matemática Aplicada y Estadística
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
5
Tabla 1.4 Distribución de frecuencias del número de hermanos (excluido él mismo) de una muestra de 500 alumnos varones de una Universidad (variable cuantitativa discreta)
no hermanos
Fr. absoluta (ni )
0
72
1
155
2
97
3
81
4
30
5
27
6
20
7
10
8
4
9
Fr. relativa (fi =
ni ) N
% (Pi = 100fi )
Fr. absoluta acumulada (Ni )
= 0.144
14.4 %
72
= 0.31
31 %
227
97 500
= 0.194
19.4 %
324
81 500
= 0.162
16.2 %
405
= 0.06
6%
435
= 0.054
5.4 %
462
20 500
= 0.04
4%
482
10 500
= 0.02
2%
492
4 500
= 0.008
0.8 %
496
2
2 500
= 0.004
0.4 %
498
10
1
1 500
= 0.002
0.2 %
499
11
1
1 500
= 0.002
0.2 %
500
Total
500
100 %
---
72 500 155 500
30 500 27 500
1
Tabla 1.5 Distribución de frecuencias del número de hermanos (excluido él mismo) de una muestra de 500 alumnos varones de una Universidad (variable cuantitativa discreta) con las últimas frecuencias agrupadas, por tener valores muy bajos
no hermanos
Fr. absoluta (ni )
0
72
1
155
2
97
3
81
4
30
5
27
6
20
≥7
18
Total
500
Matemática Aplicada y Estadística
Fr. relativa (fi =
ni ) N
Porcentaje ( %)
Fr. absoluta acumulada (Ni )
= 0.144
14.4 %
72
= 0.31
31 %
227
97 500
= 0.194
19.4 %
324
81 500
= 0.162
16.2 %
405
= 0.06
6%
435
= 0.054
5.4 %
462
= 0.04
4%
482
= 0.036
3.6 %
500
100 %
---
72 500 155 500
30 500 27 500 20 500 18 500
1
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
6
Con carácter general una tabla para analizar una variable cuantitativa discreta es la que muestra la Tabla 1.6. Tabla 1.6 Distribución de frecuencias: variable cuantitativa discreta
Valor
Fr. absoluta
(xi )
(ni )
Fr. relativa (fi =
ni ) N
Porcentaje ( %) (pi )
Abs. acumulada i X Ni = nj
Rel. acumulada i X Fi = fj
j=1
j=1
% acumulado i X Pi = pj j=1
x1
n1
f1
100f1
N1 = n 1
F1 = f 1
P1 = p1
x2
n2
f2
100f2
N2 = n 1 + n 2
F2 = f1 + f2
P2 = p1 + p2
...
...
...
...
...
...
...
xK
nK
fK
100fK
NK = N
FK = 1
PK = 100 %
Total
N
1
100 %
---
---
---
1.2.3
Variable cuantitativa continua
Ejemplo 1.5
Tabla para analizar una variable cuantitativa continua
En el caso cuantitativo continuo, aún valiendo los criterios anteriores, se presenta la dificultad de de la formación de las clases. Al considerar el peso de los 500 alumnos (con una precisión en gramos), es prácticamente imposible que dos individuos tengan el mismo peso, con lo que la tabla de valores contaría con miles de valores con con frecuencias 0 y 1. Por ejemplo, entre 60 y 61 Kg hay 1000 valores posibles (tanto como gramos). Para evitar esto, los datos deben agruparse en clases llamadas intervalos de clases: [L0 , L1 ), [L1 , L2 ), . . . , [LK−1 , LK ), siendo Li−1 y Li límite inferior del intervalo de clase y límite superior respectivamente. La diferencia entre ambos, se llama amplitud de la clase: a = Li − Li−1 .
(1.1)
Por ejemplo, si se decide agrupar a los alumnos de 5 en 5 Kg, la presentación de los datos será como en la Tabla 1.7. Se observa que Los intervalos primero (x < 45) y el último (x ≥ 90) no constan de los límites ni tienen igual longitud que los demás. Esto se hace para simplificar la presentación de los datos, igual que se hizo en el último intervalo de la Tabla 1.5. Se dice que son unos intervalos de «cajón de sastre». Para facilitar la interpretación de los datos, los cálculos y las representaciones gráficas es conveniente que todos los intervalos de clase tengan la misma longitud. Las clases no deben solaparse ni presentar huecos entre ellas (para evitar que un individuo pueda pertenecer a dos clases diferentes o que no haya clase en que clasificarlo). En general, el número de clases a tomar es a decidir por el experimentador. Como norma general el número de intervalos ha de estar entre 5 (menos es prácticamente no dar √ información) y 20 (más, es oscurecer la información global). Una regla muy utilizada es hacer K = N . Para ciertos fines, que se verán después, conviene definir un valor que actuará como representante de cada clase, valor llamado marca de clase: ci =
Li−1 + Li . 2
(1.2)
Para las clases extremas a las que les faltan uno de los límites, se les asigna una longitud ficticia. Así, la primera marca es c1 = (40 + 45)/2 = 42.5
Matemática Aplicada y Estadística
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
7
Tabla 1.7 Distribución del peso (x) en Kg de una muestra de 500 alumnos varones de una Universidad (variable cuantitativa continua)
Intervalo de clase
ni
fi
%
Fr. absoluta acumulada (Ni )
Marca de clase (ci )
x < 45
1
0.002
0.2 %
1
42.5
45 ≤ x < 50
3
0.006
0.6 %
4
47.5
50 ≤ x < 55
12
0.024
2.4 %
16
52.5
55 ≤ x < 60
75
0.150
15 %
91
57.5
60 ≤ x < 65
103
0.206
20.6 %
194
62.5
65 ≤ x < 70
155
0.310
31.0 %
349
67.5
70 ≤ x < 75
101
0.202
20.2 %
450
72.5
75 ≤ x < 80
29
0.058
5.8 %
479
77.5
80 ≤ x < 85
11
0.022
2.2 %
490
82.5
85 ≤ x < 90
8
0.016
1.6 %
498
87.5
x ≥ 90
2
0.004
0.4 %
500
92.5
Total
500
1
100 %
---
---
En general una tabla para analizar una variable cuantitativa continua es la que muestra la Tabla 1.8, que también podría contener las frecuencias acumuladas. Tabla 1.8 Distribución de frecuencias: variable cuantitativa continua
Intervalo de clase
Frecuencia absoluta (ni )
Frecuencia relativa (fi )
%
Marca de clase
[L0 , L1 )
n1
f1
100f1
c1
[L1 , L2 )
n2
f2
100f2
c2
.. .
.. .
.. .
.. .
.. .
[LK−1 , LK )
nK
fK
100fK
cK
Total
N
1
100 %
---
A continuación formalizamos las definiciones de frecuencias usadas en los ejemplos que nos han permitido clasificar y describir los datos.
Matemática Aplicada y Estadística
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
8
DISTRIBUCIÓN DE FRECUENCIAS N
Es el número total de datos (tamaño de la muestra).
C y C1 , C2 , . . . CK
Es la variable a analizar y las K clases de esta variable.
Frecuencia absoluta (ni ): K X Se verifica que ni = N
Es el número de elementos que pertenecen a la clase i de una variable. Como hay varias (tantas como clases), se le adjudica un subíndice i que alude al número de la clase que se trate. Por ejemplo, n3 = 25 significa que el número de individuos, de entre N , que pertenecen a la tercera clase es de 25. Por otra parte, la suma total de todas las frecuencias absolutas debe dar el total de la muestra estudiada, N .
i=1
Frecuencia relativa (fi ): fi = Se verifica que
K X
ni N
fi = 1
i=1
Es el cociente entre la frecuencia absoluta, ni , de la clase i y el número total de datos, N . Se introducen con el objetivo de hacer comparables dos o más tablas de datos del mismo tipo basadas en tamaños de muestra distintos. La suma de las frecuencias relativas es igual a 1.
Porcentaje relativo (pi ): pi = 100fi
Es frecuencia relativa a 100 individuos de la clase i, es decir es un tanto por ciento ( %). Se observa que la frecuencia relativa es un tanto por uno.
Frecuencia absoluta acumulada (Ni ): i X Ni = nj
Es la suma de las frecuencias absolutas de todas las clases inferiores a la que estamos calculando. Así, N1 = n1 , N2 = n1 + n2 , N3 = n1 + n2 + n3 , . . . y NK = n1 + n2 + · · · + nK = N , es decir la última frecuencia absoluta acumulada deberá ser igual a N .
j=1
Frecuencia relativa acumulada (Fi ): i i X X ni Ni = = fj Fi = N N j=1 j=1
Es el cociente entre la frecuencia absoluta acumulada y el número total de individuos.
Porcentaje relativo acumulado (Pi ): i X Pi = pj
Es la suma de los porcentajes relativos de todas las clases inferiores a la que estamos calculando. Así, P1 = p1 , P2 = p1 + p2 , P3 = p1 + p2 + p3 , . . . y PK = p1 + p2 + · · · + pK = 100, es decir el último porcentaje relativo acumulado deberá ser igual a 100.
j=1
1.3
Representaciones gráficas
Los gráficos facilitan la lectura e interpretación de los datos. Los gráficos pueden ser de varios tipos, pero todos están basados en el principio general de que la figura construida para cada clase deber tener un área proporcional a la frecuencia de esta clase: al lector lo que «le entra» por los ojos es el área de la figura. Los tipos de gráficos que se deben elegir dependen en general de la naturaleza de la variable estudiada.
1.3.1
Variable cualitativa
Diagrama de barras o rectángulos Este tipo de diagramas se construye sobre un sistema de ejes cartesianos, situando en uno de los ejes las distintas clases y en el otro los valores de las frecuencias, absolutas o relativas. Sobre cada clase se levantan barras o rectángulos de la misma base y altura igual a la frecuencia. Según se sitúen las clases sobre el eje de abscisas o de ordenadas, se tendría diagrama de rectángulos verticales u horizontales. Matemática Aplicada y Estadística
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
9
Figura 1.1 Diagrama de barras (rectángulos verticales) de las frecuencias absolutas de la Tabla 1.2
Figura 1.2 Diagrama de barras (rectángulos horizontales) de las frecuencias absolutas de la Tabla 1.2
300 0
250 200
AB
150 B
100 50
A
0 A
B
AB
0
0
50
100
150
200
250
300
Diagrama de sectores El gráfico consiste en dibujar una circunferencia de radio arbitrario y dividir su círculo en sectores. A cada clase se le asigna un sector de área (y, por consiguiente, ángulo que lo genera) proporcional a la frecuencia de la clase. Como en los 360◦ de la circunferencia han de estar incluidos los N individuos de la muestra, a una clase de frecuencia absoluta ni se le asigna un sector del ángulo αi definido por: ni × 360◦ = fi × 360◦ N siendo fi la correspondiente frecuencia relativa. αi =
Ejemplo 1.6
Diagrama de sectores para una variable cualitativa
En la Figura 1.3, construida en basa a la Tabla 1.9, a la clase «tumores» le corresponde un ángulo α = 0.1966 × 360◦ = 70◦ 460 33.600
Tabla 1.9 Mortalidad por grupos de causas (España 1979)
Causa Aparato circulatorio Tumores Aparato respiratorio Externa Aparato digestivo Mal definida Resto Total
Ejemplo 1.7
Figura 1.3 Diagrama de sectores para la Tabla 1.9
Porcentaje ( %) 46.07 19.66 8.59 5.53 5.46 4.18 10.51 100
Aparato circulatorio Tumores Aparato respiratorio Externa Aparato diges5vo Mal definida Resto
Diagrama de barras y de sectores para una variable cualitativa
La Tabla 1.10 contiene datos de la distribución de 150 personas de 25 y 45 años de edad, según su estado civil. Y las Figuras 1.4 y 1.5 muestran el diagrama de barras y se sectores, respectivamente.
Matemática Aplicada y Estadística
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
10
Tabla 1.10 Distribución de frecuencias de 150 personas de 25 a 45 años, según su estado civil
Estado Fr. absoluta
Soltero 20
Casado 78
Viudo 15
Figura 1.4 Diagrama de barras para la Tabla 1.10
Divorciado 26
No declarado 11
Total 150
Figura 1.5 Diagrama de sectores para la Tabla 1.10
90 80 70 60
Soltero
50
Casado
40
Viudo
30
Divorciado
20
No declarado
10 0 Soltero
Casado
Viudo
Divorciado
No declarado
Pictograma En este tipo de gráfico cada variable se representa por una figura no geométrica, por ejemplo un automóvil, un edificio, una herramienta de trabajo,etc. Las figuras habrán de tener un área proporcional a la frecuencia de las clases y esto puede lograrse por dos caminos. En los pictogramas de repetición se asigna un valor a una figura base, y esta se repite tantas veces como convenga a la frecuencias de las clase. En los pictogramas de ampliación, a cada clase se le asigna una única figura-motivo con un área proporcional a la frecuencia de aquella. En este último caso, si dos clases tienen frecuencias una doble de la otra, la figura-motivo debe tener un área doble de la otra. Tabla 1.11 Producción de vinos en Andalucía durante un año
Provincia Huelva Sevilla Cádiz Málaga Granada Almería Jaén Total
Porcentaje ( %)a 21.97 4.39 32.96 27.47 7.69 3.29 2.19 100
Figura 1.6 Pictograma para la Tabla 1.11 35 30 25 20 15 10 5 0 Huelva
a Los
Sevilla
Cádiz
Málaga
Granada
Almería
Jaén
datos son inventados
Matemática Aplicada y Estadística
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
1.3.2
11
Variable cuantitativa discreta
Diagrama de barras o rectángulos Cuando la variable es discreta y toma pocos valores, el gráfico adecuado es el diagrama de barras o rectángulos. Se construye de la misma forma que para las variables cualitativas pero ahora sobre el eje de abscisas se sitúan los valores de la variable. Es decir, una vez colocados los valores de la variable en el eje de abscisas, se levantan sobre ellos unos segmentos (barras) de altura igual a la frecuencia correspondiente. Según se tome la frecuencia absoluta o relativa, la suma de las longitudes de todas las barras será N o 1. La Figura 1.7 representa el diagrama de barras para la Tabla 1.5. Nótese que las clases extremas, que no tienen igual longitud que las demás, conviene dibujarlas con igual anchura. Tal sucede con la barra «≥ 7» de la Figura 1.7. Polígono de frecuencias simples Se trazan unos ejes cartesianos: a cada clase se le asigna un punto en el plano, con una abscisa que es el valor del dato, y una ordenada que es su frecuencia. La serie de puntos así obtenida se conecta mediante segmentos rectos, obteniendo una poligonal. De nuevo, los polígonos pueden ser de frecuencias absolutas o de frecuencias relativas. El polígono de frecuencias es especialmente útil para ver cómo evolucionan las frecuencias conforme aumenta el valor de datos. Por ello no es aplicable a los datos cualitativos no ordinales (el grupo sanguíneo A no tiene por qué ir por delante de B, etc). Figura 1.7 Diagrama de barras de frecuencias absolutas de la Tabla 1.5
Figura 1.8 Polígono de frecuencias absolutas para las frecuencias absolutas de la Tabla 1.5
180
180
160
160
140
140
120
120
100
100
80
80
60
60
40
40
20
20
0
0 0
1
2
3
4
5
6
>=7
0
1
2
3
4
5
6
>=7
Diagrama de frecuencias acumuladas Cuando la variable estadística es discreta se puede representar el diagrama de frecuencias acumuladas o escalonado. Pueden ser las frecuencias acumuladas absolutas, relativas o porcentajes acumulados. En la Figura 1.9 se representan las frecuencias absolutas acumuladas de correspondientes a la Tabla 1.5. Figura 1.9 Diagrama de frecuencias absolutas acumuladas de la Tabla 1.5
Figura 1.10 Polígono de frecuencias absolutas acumuladas de la Tabla 1.5
600
600
500
500
400
400
300
300
200
200
100
100
0
0 0
1
2
3
4
5
Matemática Aplicada y Estadística
6
>=7
0
1
2
3
4
5
6
7
8
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
12
Polígono de frecuencias acumuladas El gráfico formado por los puntos cuyas abscisas son los valores de la variable y sus ordenadas la frecuencia acumulada, unidos por segmentos, es el polígono de frecuencias acumuladas. La Figura 1.10 muestra el polígono de frecuencias absolutas acumuladas correspondientes a la Tabla 1.5.
1.3.3
Variable cuantitativa continua
Histograma Cuando la variable estadística es cuantitativa continua, se utiliza el histograma, cuya representación está fundamentada en la proporcionalidad de las áreas de rectángulos a las frecuencias de cada clase. El histograma es una extensión del diagrama de barras que dibuja los rectángulos unidos entre sí, indicando de este modo que existe continuidad en los valores de las variables. Un histograma es, por tanto, un gráfico de variable continua dividida en intervalos de los que se eleva un rectángulo con área proporcional a su frecuencia. Obsérvese que lo que es proporcional es el área, no la altura, lo que permite intervalos de diferente amplitud. Una vez más resulta irrelevante trabajar con frecuencias absolutas o relativas. Si se trata de intervalos de la misma amplitud, la altura de cada uno de los rectángulos se toma igual a la frecuencia correspondiente. Si se trata de intervalos de amplitudes diferentes, como en el la Tabla 1.12 del Ejemplo 1.8, la altura de cada rectángulo hi conocida como densidad de frecuencia del intervalo [Li−1 , Li ), es igual a la frecuencia absoluta ni dividida por la amplitud del intervalo correspondiente, ai , es decir hi =
Figura 1.11 Histograma de frecuencias absolutas de la Tabla 1.12 17
13
ni ai
donde ai viene dada por (1.1). 8
En la Figura 1.12 se representa histograma de frecuencias absolutas de la Tabla 1.12.
5 4
El área del rectángulo correspondiente a la clase i-ésima es: 0 0
si = hi ai =
3
5
7
9
10
ni ai = ni ai
y la suma de las áreas de todos los rectángulos es:
S=
K X
ni = N
i=1
Es claro que si se toman frecuencias relativas, la suma de las áreas es igual a 1.
Matemática Aplicada y Estadística
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
13
Por otra parte se observa que, las clases extremas, como las de la Tabla 1.7, conviene dibujarlas con igual anchura. En la Figura 1.12 se representa histograma de frecuencias absolutas de la Tabla 1.7.
Figura 1.12 Histograma de frecuencias absolutas de la Tabla 1.7 180 160 140 120 100 80 60 40 20 0 40-‐45 45-‐50 50-‐55 55-‐60 60-‐65 65-‐70 70-‐75 75-‐80 80-‐85 85-‐90 90-‐95
Polígono de frecuencias simples A partir de un histograma pueden construirse otros tipos de gráficos. Por ejemplo, los gráficos de línea consisten en unir los puntos medios de todos los intervalos contiguos mediante una recta, construyendo así un polígono de frecuencias, como muestra la Figura 1.13 del Ejemplo 1.8.
Ejemplo 1.8
Una variable cuantitativa continua con intervalos de amplitudes diferentes
La Tabla 1.12 contiene datos de la distribución de notas de 98 alumnos. Se observa que los intervalos de clase tienen longitudes diferentes.
Tabla 1.12 Distribución de frecuencias de notas de 98 alumnos en una clase
Notas
ni
fi
%
hi
marca
[0, 3)
24
0.24
24 %
8
1.5
[3, 5)
34
0.35
35 %
17
4
[5, 7)
26
0.27
27 %
13
6
[7, 9)
10
0.10
10 %
5
8
[9, 10)
4
0.04
4%
4
9.5
Total
98
1
100 %
---
---
Figura 1.13 Polígono de frecuencias absotutas enmarcado en el histograma para la Tabla 1.12
17
13
8
5 4
0 0
3
5
7
9
10
Polígono de frecuencias acumuladas El polígono de frecuencias acumuladas se utiliza para representar distribuciones de frecuencias (relativas o absolutas) acumuladas. En el eje OX se representan los extremos de las clases. Se asigna la ordenada cero al extremo inferior del primer intervalo, es decir L0 = 0 y a cada extremo derecho de las clases se le asigna como ordenada la frecuencia acumulada (absoluta, relativa o porcentual). La poligonal que une dichos puntos es el polígono de frecuencias acumuladas (véase el Ejemplo 1.9). El hecho de tomar ahora la poligonal de los extremos a la derecha de los rectángulos es que, suponiendo uniformemente distribuido el número de individuos en cada clase, dicha poligonal debería reflejar al final de cada intervalo el total de individuos en él contenido.
Matemática Aplicada y Estadística
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
14
Ejemplo 1.9 En la figura de la derecha se muestran el histograma y el polígono de frecuencias absolutas acumuladas para los datos de la tabla siguiente:
102 93
Fr. absoluta (ni )
Fr. acumulada Ni
[20,40)
12
12
[40, 60)
49
61
[60, 80)
32
93
[80, 100)
9
102
102
---
Peso (Kg.)
61
Total
12 20
1.4
40
60
80
100
Medidas estadísticas
Agrupar los datos en tablas de frecuencias es un primer paso en el análisis estadístico de los mismos. Además, es conveniente resumir dichos datos en un solo número, que describa de una manera sencilla su comportamiento y sus características. Se trata de calcular las llamadas medidas estadísticas que pretenden «resumir» la información de la muestra para poder tener así un mejor conocimiento de la población. Las medidas estadísticas suelen dividirse en medidas de posición o de tendencia central y medidas de dispersión. Parece claro que el cálculo de estas medidas requiere la posibilidad de efectuar operaciones con los valores que toma la variable. Por este motivo, en lo que resta del tema tratamos sólo con variables cuantitativas.
1.4.1
Medidas de posición o de tendencia central
Consideraremos aquí las más utilizadas: la media aritmética y la mediana. Hay otras medidas de tendencia central, por ejemplo la moda, la media geométrica, la media cuadrática, la media armónica etc. que se utilizan en algunos procesos de carácter más específico y se escapan del objetivo de este tema. Media aritmética
Media aritmética: caso discreto Sea X una variable estadística cuantitativa que toma valores x1 , x2 , . . . , xK con frecuencias absolutas n1 , n2 , . . . , nK y N el tamaño de la muestra. Se define la media aritmética x como el valor: x=
K x1 n1 + x2 n2 + · · · + xK nK 1 X = xi ni N N i=1
(1.3)
Ejemplo 1.10 La media aritmética de la variable «nota» distribuida en intervalos de clase de la Tabla 1.12 es: x=
1.5 × 24 + 4 × 34 + 6 × 26 + 8 × 10 + 9.5 × 4 = 4.55 98
Matemática Aplicada y Estadística
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
15
Siempre que se hace un cálculo, surge la pregunta ¿cuántas cifras decimales deben darse en la respuesta final? No existen normas estrictas para ello. Utilizaremos la convención de que, al calcular medias, el resultado se expresará con hasta una o dos cifras decimales más que los datos. Para calcular las frecuencias relativas usaremos al menos 4 cifras decimales, ya que con menos cifras se generarían errores considerables en los porcentajes. La última cifra decimal se hallará mejor por redondeo que por truncamiento.
Advertencia: Al hacer una serie de cálculos no hay que redondear los resultados hasta que se finalicen todos los cálculos, de lo contrario, se acumularían los errores de redondeo.
Ejemplo 1.11 La siguiente tabla de frecuencias muestra las calificaciones de 20 alumnos de Matemáticas: Nota (xi ) 2 4 5 6 8 10 Total
Fr. absoluta (ni ) 3 6 5 3 1 2 20
Fr. absoluta acumulada Ni 3 9 14 17 18 20 ---
La nota media es x=
2 × 3 + 4 × 6 + 5 × 5 + 6 × 3 + 8 × 1 + 10 × 2 101 = = 5.05 20 20
La media: caso continuo Cuando la variable X es cuantitativa continua y está distribuida en intervalos de clase, la media aritmética se calcula considerando las marcas de clase ci y las frecuencias absolutas ni , i = 1, 2 . . . , K de cada clase: x=
K c1 n1 + c2 n2 + · · · + cK nK 1 X ci ni = N N i=1
(1.4)
Mediana
La mediana de los datos ordenados de menor a mayor es el valor (perteneciente o no a la muestra) que deja a su izquierda el mismo número de valores que a su derecha (50 % a su izquierda y 50 % a su derecha), es decir divide la muestra en dos partes iguales.
Matemática Aplicada y Estadística
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
16
Cálculo de la mediana: pocos datos Sean X = (x1 , x2 , . . . , xN ), N datos a analizar. Si N es impar, la mediana es el valor que ocupa la posición (N + 1)/2: Me = x N +1 2
Si N es par, la mediana es la media aritmética de los dos valores centrales: xN/2 + xN/2+1 2
Me =
Ejemplo 1.12 Sea X = (3, 6, 7, 8, 9) una variable ordenada que toma un número impar de valores: N = 5 (impar). La mediana Me = 7 es el valor que ocupa la posición central (deja 3 datos antes y 3 datos después de ella): Me = x 5+1 = x3 = 7. 2
Ejemplo 1.13 Sea X = (3, 5, 7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 39, 40, 56) una variable ordenada que toma un número impar de valores: N = 15 (impar). La mediana Me es el valor que ocupa la posición central es Me = 23, ya que Me = x 15+1 = x8 = 23. 2
Luego la mediana Me = 23 deja 7 datos antes y 7 datos después de ella.
Ejemplo 1.14 Sea X = (3, 6, 7, 8, 9, 10) una variable ordenada que toma un número par de valores: N = 6 (par). La mediana Me la media aritmética que los dos valores centrales: Me =
x N + x N +1 2
2
=
x 62 + x 26 +1
=
2 2 que deja 2 valores por debajo y 2 valores por encima de ella.
x3 + x4 7+8 = = 7.5 2 2
Ejemplo 1.15 Sea X = (3, 5, 7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 40, 56) una variable ordenada que toma un número par de valores: N = 14 (par). La mediana Me es el valor que ocupa la posición central es Me = 23, ya que x N + x N +1
x 14 + x 14 2 2 +1
x7 + x8 21 + 23 44 = = = 22 2 2 2 2 2 Luego la mediana Me = 22 deja 7 datos antes y 7 datos después de ella. Me =
2
Matemática Aplicada y Estadística
2
=
=
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
17
Cuando los datos están agrupados en forma de tabla de frecuencias, el cálculo de la mediana se facilita con la anotación de las frecuencias acumuladas. Se pueden usar frecuencias absolutas, relativas o porcentajes acumulados. Aquí, vamos usar los porcentajes acumulados, ya que el mismo procedimiento nos va a servir para el cálculo de los percentiles (véase la Sección 1.4.2).
Cálculo de la mediana: caso discreto 1. Construir la tabla de porcentajes acumulados Pi . 2. Ubicar el porcentaje 50 % tal que Pi−1 ≤ 50 % < Pi . Si Pi−1 < 50 %, es decir no coincide con Pi−1 , entonces Me = x i Si Pi−1 = 50 %, entonces Me = donde: xi = valor de X correspondiente a Pi ;
xi−1 + xi 2
xi−1 = valor de la variable X correspondiente a Pi−1 .
Ejemplo 1.16 Vamos a calcular la media de los datos de tabla de distribución de calificaciones del Ejemplo 1.11. Construimos la tabla de porcentajes acumulados. Nota (xi ) 2 4 5 6 8 10 Total
Fr. absoluta (ni ) 3 6 5 3 1 2 20
Tenemos que
Fr. relativa 0.15 0.30 0.25 0.15 0.05 0.10 1
% 15 30 25 15 5 10 100
% acumulado 15 45 70 85 90 100 ---
100
P2 = 45 % < 50 % < P3 = 70 %,
90 85
de donde 70
Me = x3 = 5. Esto significa que la mitad de la clase ha obtenido un 5 o menos, y la otra mitad un 5 o más.
50 45
15
2
Matemática Aplicada y Estadística
4
5
6
8
10
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
18
Ejemplo 1.17 Vamos a calcular la mediana de los datos de la siguiente tabla de distribución de frecuencias de calificaciones en una clase: Nota (xi ) Fr. absoluta (ni ) Fr. relativa % % acumulado
1 2 0.0526 5.26 5.26
2 2 0.0526 5.26 10.53
3 4 0.1053 10.53 21.05
4 5 0.1316 13.16 34.21
5 6 0.1579 15.79 50
6 9 0.2368 23.68 73.68
7 4 0.1053 10.53 84.21
8 4 0.1053 10.53 94.74
9 2 0.0526 5.26 100
Tenemos que 100 94.74
50 % = P5 = 50 % < P6 = 73.68 %, 84.21
es decir 50 % = P5 , de donde la mediana es
73.68
x5 + x6 5+6 = = 5.5, 2 2 lo que significa que la mitad de la clase ha obtenido un 5.5 o menos y la otra mitad un 5.5 o más. Me =
50
34.21 21.05 10.53 5.26 1
2
3
4
5 M 6 e
7
8
9
Cálculo de la mediana: caso continuo 1. Construir la tabla de porcentajes acumulados Pi . 2. Ubicar el 50 % tal que P
i
Pi−1 ≤ 50 % < Pi
50%
3. Si Li−1 y Li son los límites inferior y superior del intervalo correspondientes a Pi−1 y Pi respectivamente, entonces la mediana Me es la abscisa del punto situado en la recta que interpola los valores (Li−1 , Pi−1 ) y (Li , Pi ), cuya ordenada es igual 50 %.
Pi−1 L
i−1
Me
L
i
Se recuerda que la recta que interpola los valores (Li−1 , Pi−1 ) y (Li , Pi ) viene dada por: y = Pi−1 +
Pi − Pi−1 (x − Li−1 ). Li − Li−1
(1.5)
Luego, Me = x para y = 50, despejando la x de la ecuación (1.5), obtenemos: Me = Li−1 +
Matemática Aplicada y Estadística
50 − Pi−1 (Li − Li−1 ). Pi − Pi−1
(1.6)
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
19
Ejemplo 1.18 Vamos a calcular la mediana de los datos de la siguiente tabla de distribución de frecuencias de peso (en Kg.) de 102 personas en una clase: Peso (Kg.) [20, 40) = [L0 , L1 ) [40, 60) = [L1 , L2 ) [60, 80) = [L2 , L3 ) [80, 100) = [L3 , L4 ) Total
Fr. absoluta (ni ) 12 49 32 9 102
Fr. relativa (fi ) 0.1176 0.4803 0.3137 0.088 1
% 11.76 % 48.03 % 31.37 % 8.8 % 100 %
% Acumulados 11.76 % 59.80 % 91.18 % 100 % ---
100
Tenemos 50 ∈ [11.76, 59.80] = [P1 , P2 ] y L1 = 40, L2 = 60.
91.18
Por tanto, aplicando la fórmula (1.6) deducimos 59.8 50
Me = 40 +
50 − 11.76 (60 − 40) ≈ 55.92. 59.80 − 11.76 11.76
20
1.4.2
40
Me 60
80
100
Percentiles
Existen medidas basadas en el orden de las observaciones. Hemos visto que la mediana es el valor que hace que el 50 % de los datos sean anteriores a ella y el otro 50 % posteriores. Cuando la muestra ordenada se divide en 100 partes iguales se obtienes los percentiles, denotados por p1 , p2 , . . . p99 . El percentil p50 coincide con la mediana.
Percentil i es aquel valor pi que deja a su izquierda el i % y el resto por encima de los valores de la muestra ordenada de menor a mayor. Por ejemplo, el percentil 57 es el que hace que el 57 % de los datos son anteriores a él y el 43 % son posteriores. Los percentiles son muy utilizados para describir los casos «raros» de las poblaciones. Así, afirmar que el precentil 10 del peso de los niños varones recién nacidos es 2700 gramos significa que sólo un 10 % de ellos tienen un peso inferior a 2700 gramos.
Cálculo de percentiles Para calcular el percentil p` , se procede de modo análogo al cálculo e la mediana. Basta sustituir el 50 % por p` . Observemos que, en el caso de las distribuciones de variables continuas, el prercentil p` se calcula usando la fórmula: p` = Li−1 +
Matemática Aplicada y Estadística
p` − Pi−1 (Li − Li−1 ) Pi − Pi−1
(1.7)
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
Ejemplo 1.19
20
Datos agrupados en una tabla de frecuencias: caso continuo
Para los datos del Ejemplo 1.18 vamos a calcular el percentil 70, p70 , es decir el valor del peso por debajo del cual se encuentra el 70 % de los alumnos. Tenemos que 70 ∈ [P2 , P3 ] = [59.80, 91.18] y L2 = 60, L3 = 80. Por tanto, aplicando la fórmula (1.7), obtenemos p70 = 60 +
70 − 59.80 (80 − 60) ≈ 53.50 91.18 − 59.80
El percentil 70 es 53.5 significa que el 70 % de los alumnos tienen peso por debajo de 53.5 kilos y los demás por encima.
Ejemplo 1.20 Para los datos del Ejemplo 1.18 vamos a responder a las siguientes preguntas: a) ¿Qué porcentaje de alumnos tienen un peso menor que 60? b) Suponiendo que los datos se distribuyen de modo homogéneo en cada intervalo, determinar el porcentaje de alumnos que tienen un peso menor que 65. Solución: a): De la tabla del Ejemplo 1.18, se deduce fácilmente que el porcentaje de alumnos que tienen peso menor que 60 es 59.8 % b): Se trata de determinar el porcentaje de alumnos cuyo peso es menor que 65. Se observa que 65 ∈ [60, 80). Tenemos L2 = 60 y L3 = 80 y P2 = 59.80 y P3 = 91.18 los porcentajes acumulados correspondientes. El porcentaje buscado es la ordenada, y, de la recta que interpola los valores (L2 , P2 ) y (L3 , P3 ) correspondiente a la abscisa x = 65.
100 91.18
59.8
P3
Usando la fórmula (1.5), se tiene trivialmente que y = P2 +
P3 − Pi−2 (x − L2 ), L3 − L2
de donde
11.76
P2 L2
20
y = 59.80 +
40
L3 60
80
91.18 − 59.80 (65 − 60) ≈ 67.64 80 − 60
Luego el 67.64 % de alumnos tiene un peso menor que 65, es decir el valor 65 es el precentil 67.64.
Matemática Aplicada y Estadística
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
1.4.3
21
Medidas de dispersión: varianza y desviación típica
La media representa el centro de la distribución, pero ¿hasta qué punto representa a cada individuo? Sería ingenuo creer que todas las observaciones se sitúan en de la media. Las medidas de dispersión expresan el grado de desviación de los datos respecto de las medidas de tendencia central, es decir la situación relativa de los datos, proximidad o alejamiento entre ellos.
Ejemplo 1.21 Las calificaciones obtenidas en los tres exámenes parciales de una asignatura por un alumno han sido 5, 6 y 7 y por otro alumno 9, 7 y 2, la distribución de puntuaciones presenta en ambos casos, una media aritmética igual a 6. En primer caso, las calificaciones son valores de gran proximidad y en el segundo esta separación es notablemente mayor.
Desviación de una variable X = (x1 , x2 , . . . , xK ) respecto de una característica de tendencia central C (por ejemplo, la media aritmética, mediana, etc. ) es la cantidad D C = xi − C
o también
DC = |xi − C|
Según sea la característica de tendencia central C, se tienen distintos índices de dispersión (desviación de la media, desviación de la mediana, . . . ).
Ejemplo 1.22 Se ha preguntado a los 5 últimos pacientes que han entrado en la consulta, por el número de parejas que han tenido en los últimos 48 meses. Sus respuestas están recogidas en la tabla que sigue: Paciente
Número de parejas (xi )
Desviación de la media (xi − x)
|xi − x2 |
1
1
+3 = 4 - 1
9
2
3
+1 = 4 - 3
1
3
4
0=4-4
0
4
5
-1 = 4 - 5
1
5
7
-3 = 4 - 7
9
Total
20
0
20
La media es x = 20/5 = 4. El promedio de las desviaciones de las medias al cuadrado es s2 = 20/5 = 4, cálculo conocido por el nombre de la varianza. Para eliminar el cuadrado se hace la raíz cuadrada, de donde se obtiene la desviación típica es de 2 parejas. Este valor representa, pues, la distancia o desvío (de la media) típico en todas las observaciones. Por esta razón recibe el nombre de desviación típica.
La varianza se denota s2 (a veces, en algunas calculadoras se denota también como σn2 ), se define como la media aritmética de los cuadrados de las desviaciones a la media s2 =
K 1 X (xi − x)2 ni N i=1
Es claro que si la varianza es nula, todos los valores de la variable coinciden con la media (dispersión es nula): Matemática Aplicada y Estadística
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
2
s =0
⇔
22
K 1 X (xi − x)2 ni = 0 N i=1
⇔
xi − x = 0
⇔
xi = x ∀ i = 1, . . . , K.
Por otro lado, cuanto más alejadas estén las observaciones de la media, mayor será la varianza. PROPIEDAD DE LA VARIANZA
K K 1 X 1 X 2 s2 = (xi − x)2 ni = x ni − x2 N i=1 N i=1 i
La varianza es la diferencia entre la media de los cuadrados y el cuadrado de la media (Teorema de König). Se puede simplificar el cálculo de la varianza usando la esta propiedad.
La varianza es fácil de tratar matemáticamente, por lo que es la medida de dispersión más utilizada en la inferencia estadística. Su principal inconveniente es que viene expresada en unidades que son el cuadrado de las unidades de las observaciones originales (cm2 si x se mide en cm). La desviación típica es la raíz cuadrada positiva de la varianza v u K u1 X √ 2 s=+ s =t (xi − x)2 ni N i=1
PROPIEDAD DE LA DESVIACIÓN TÍPICA
v v u u K K u1 X u1 X 2 t t s= (xi − x) ni = x2 ni − x2 N i=1 N i=1 i
Se obtiene usando el Teorema de König. Esta propiedad puede permitir simplificar el cálculo de la desviación típica.
Ejemplo 1.23 Consideramos los datos de la tabla del Ejemplo 1.11 que tienen la media aritmética x = 5.05. Nota (xi ) 2 4 5 6 8 10 Total
Fr. absoluta (ni ) 3 6 5 3 1 2 20
(xi − x ¯ )2 9.3025 1.1025 0.0025 0.9025 8.7025 24.5025
(xi − x ¯ )2 ni 27.9075 6.6150 0.0125 2.7075 8.7025 49.0050 94.95
x2i 4 16 25 36 64 100
x2i ni 12 96 125 108 64 200 605
Usando la definición tenemos la varianza y la desviación típica s2 =
6 √ 1 X 94.95 (xi − x)2 ni = = 4.7475 y s = + s2 = 2.1788. N i=1 20
Por otro lado, usando el Teorema de de König, los cálculos se simplifican: s2 =
Matemática Aplicada y Estadística
6 605 1 X 2 x ni − x2 = − (5.05)2 = 4.7475 N i=1 i 20
Dpto. EDAN - Univ. de Sevilla
1. Estadística descriptiva
23
Coeficiente de variación de Pearson Cuando se quiere comparar el grado de dispersión de dos distribuciones que no vienen dadas por la misma unidad, se introduce un número independiente de las unidades de mediada de las variables. El coeficiente de variación de Pearson es: CV =
s , x
si x 6= 0.
Este coeficiente es un número abstracto, ya que es cociente de dos cantidades de una misma magnitud, y representa la desviación típica medida en unidades de la media aritmética. Se acostumbra expresar este coeficiente en tantos por ciento, caso en el que su valor está dado por V =
s × 100 x
Se observa que cuanto menor sea CV mayor es la precisión del método. Cuanto mayor sea el coeficiente de variación menor será la representatividad de la medida. Ejemplo 1.24 Los alumnos de un grupo de primer curso han sido calificados en matemáticas de 0 a 50 y en Física de 0 a 10: Matemáticas Calificaciones No de alumnos 15 3 25 5 35 8 40 14 45 16 47 5 49 3 Total 54
Física Calificaciones No 2 3 5 6 7 9 10 Total
alumnos 12 9 12 5 4 4 8 54
¿ Cuál de las dos distribuciones es más homogénea con respecto a la nota media. ? La media de calificaciones en Matemáticas es de 39.11 y la desviación típica es de 8.65, luego el coeficiente de variación de Pearson es: CV1 =
8.65 = 0.221 39.11
y expresado en porcentajes es: V1 = 0.221 × 100 = 21.1 %. La calificación media de Física es 5.27 y la desviación típica es 2.80, luego el coeficiente de variación de Pearson es: CV2 =
2.80 = 0.531 5.27
y expresado en porcentajes es: V2 = 0.531 × 100 = 53.1 %. Tenemos V1 < V2 , por tanto hay mayor homogeneidad en las calificaciones de Matemáticas.
Matemática Aplicada y Estadística
Dpto. EDAN - Univ. de Sevilla
Bibliografía
[1] E. Cobo, P. Muñoz, J.A. González, Bioestadística para no estadísticos, Madrid, Elsevier España, 2007. [2] A. Martín Andrés, J.D. Luna del Castillo, Bioestadística para las Ciencias de la Salud, Ediciones NormaCapitel, Madrid, 2004.
24
Índice de Tema 1
1. Estadística descriptiva 1.1. Conceptos fundamentales . . . . . . . . . . . . . . . . . . 1.2. Tablas estadísticas . . . . . . . . . . . . . . . . . . . . . . 1.2.1. Variable cualitativa . . . . . . . . . . . . . . . . . . 1.2.2. Variable cuantitativa discreta . . . . . . . . . . . . 1.2.3. Variable cuantitativa continua . . . . . . . . . . . . 1.3. Representaciones gráficas . . . . . . . . . . . . . . . . . . 1.3.1. Variable cualitativa . . . . . . . . . . . . . . . . . . 1.3.2. Variable cuantitativa discreta . . . . . . . . . . . . 1.3.3. Variable cuantitativa continua . . . . . . . . . . . . 1.4. Medidas estadísticas . . . . . . . . . . . . . . . . . . . . . 1.4.1. Medidas de posición o de tendencia central . . . . 1.4.2. Percentiles . . . . . . . . . . . . . . . . . . . . . . 1.4.3. Medidas de dispersión: varianza y desviación típica Bibliografía
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
1 1 2 3 4 6 8 8 11 12 14 14 19 21 23
25