Story Transcript
Documento elaborado por: Francisco Javier Rodríguez Cortés Matemático Facultad de Ciencias Exactas - Universidad de Antioquia
INTRODUCCIÓN La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y de ser necesario, formular predicciones. La estadística podemos clasificarla en estadística descriptiva y estadística inferencial. La estadística descriptiva se dedica al ordenamiento y al tratamiento de la información para su presentación por medio de tablas y representaciones gráficas, así como a la obtención de algunos parámetros útiles para explicar
y resumir la información. La estadística inferencial se apoya en el cálculo de
probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones y otras generalizaciones sobre un conjunto mayor de datos. En este módulo se pretende aplicar la estadística descriptiva a los factores que intervienen en los procesos de formación, en áreas específicas como las académicas, las tecnológicas, las infraestructurales, de bienestar estudiantil y de proyección social. Las variables estarán relacionadas con los alumnos, las instalaciones, los equipos, el medio o lugar de trabajo, los métodos de enseñanza, entre otras. Este módulo comenzará con el estudio de los diferentes tipos de datos y sus escalas de medición, y continuará con las distintas medidas y representaciones gráficas que ayudan a describir, resumir e interpretar la información.
1. DEFINICIONES Y CONCEPTOS BÁSICOS Individuos o elementos: personas u objetos que contienen cierta información que se desea estudiar. Población: conjunto de individuos o elementos que cumplen ciertas propiedades comunes. Muestra: subconjunto representativo de una población. Muestreo: métodos para la recolección de una muestra. Variable: característica que toma diferentes valores en diferentes personas, lugares o cosas. Datos: conjunto de valores de una variable para cada uno de los elementos de la muestra. Parámetro: medición numérica que describe algunas características de una población. Estadístico: medición numérica que describe algunas características de la muestra. ¿Qué incluye un problema estadístico? 1. Definición clara del objetivo del experimento y de la población pertinente. 2. Diseño del experimento o procedimiento del muestreo. 3. Recolección y análisis de los datos. 4. El procedimiento para hacer inferencias acerca de la población, basado en la información muestral. 5. La provisión de una medida de bondad (confiabilidad) para la inferencia.
2. CLASIFICACIÓN DE LAS VARIABLES Las variables se clasifican según la escala de medición como: 2.1 Variables cualitativas Son las variables que expresan distintas cualidades, características o modalidad. Cada modalidad que se presenta se denomina atributo o categoría y la medición consiste en una clasificación de dichos atributos. Las variables cualitativas pueden ser ordinales y nominales. 2.1.1 Variable cualitativa ordinal: la variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo, leve, moderado, grave. 2.1.2 Variable cualitativa nominal: en esta variable los valores no pueden ser sometidos a un criterio de orden como por ejemplo los colores o el lugar de residencia.
2
2.2 Variables cuantitativas Son las variables que se expresan mediante cantidades numéricas. Las variables cuantitativas además pueden ser (según los valores que pueda tomar la variable): 2.2.1 Variable discreta: es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir. Ejemplo: El número de hijos (1, 2, 3, 4, 5). 2.2.2 Variable continua: es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores. Ejemplo: el peso (2,3 kg, 2,4 kg, 2,5 kg, ...) o la altura (1,64 m, 1,65 m, 1,66 m,...), que solamente está limitado por la precisión del aparato medidor, en teoría permiten que siempre exista un valor entre dos cualesquiera. Las variables cuantitativas se clasifican además como de intervalo ó de razón, así: 2.2.3 Variables de intervalo: los datos medidos en una escala ordinal para los cuales pueden calcularse las distancias entre valores, se llaman datos de intervalo. La distancia entre dos valores es importante y los datos de intervalo son cuantitativos por necesidad; una escala de intervalo no siempre tiene un punto cero, uno que indique la ausencia de lo que se quiere medir. Ejemplo: la temperatura (10°C, 8°C, 35°C, …). 2.2.4 Variables de razón: los datos medidos en una escala de intervalo con un punto cero que significa ninguno, se llaman datos de razón. Ejemplo: el peso (23 kg, 24 kg, 30 kg, ...) 3. MUESTREO Cuando se desea conocer o hacer inferencias acerca de alguna característica de una población, surgen preguntas acerca de cómo seleccionar la información y qué tan grande debe ser el tamaño de la muestra para que las conclusiones extraídas de ella sean representativas de la población. Si la población es pequeña, es razonable observarla toda y esto se llama censo. Pero examinar una población entera no es siempre viable; en la mayoría de los casos hay escasez de tiempo y de recursos (humanos o financieros) o el censo es impracticable, por tal motivo, se selecciona solo una
3
parte de la población (muestra) cuyo tamaño es escogido de acuerdo a la precisión deseada o a las estimaciones e inferencias que se deseen realizar. El muestreo puede hacerse con o sin reposición; en una muestra sin reposición, comúnmente empleada en los trabajos estadísticos, las unidades se seleccionan apenas una vez; en el muestreo con reposición se seleccionan las unidades por lo menos una vez.
Ejemplo de muestreo sin reposición: en una encuesta electoral, poco antes de una elección de voto de las personas entrevistadas, éstas deben ser escuchadas apenas una sola vez, pues, en una elección, el voto es individual.
Ejemplo de muestreo con reposición: cuando se desea saber cuánto tiempo gasta una persona haciendo cola en un banco, ésta puede ser observada una o más veces, cada vez que vuelve al banco.
3.1 Algunos métodos de muestreo 3.1.1 Muestreo aleatorio simple: es la forma más común de obtener una muestra es la selección al azar, es decir, cada uno de los individuos de una población tiene la misma posibilidad de ser elegido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande. Ejemplo: supongamos que nos interesa elegir una muestra aleatoria de 5 estudiantes en un grupo de estadística de 20 alumnos. Un procedimiento simple para elegir una muestra aleatoria sería escribir cada uno de los 20 nombres en pedazos separados de papel, colocarlos en un recipiente, revolverlos y después extraer cinco papeles al mismo tiempo. 3.1.2 Muestreo aleatorio sistemático: es una técnica de muestreo que requiere de una selección aleatoria inicial de observaciones seguida de otra selección de observaciones obtenida usando algún sistema o regla. Ejemplo: para obtener una muestra de suscriptores telefónicos en una ciudad grande, puede obtenerse primero una muestra aleatoria de los números de las páginas del directorio telefónico; al elegir el vigésimo nombre de cada página obtendríamos un muestreo sistemático, también podemos
4
escoger un nombre de la primera página del directorio y después seleccionar cada nombre del lugar número cien a partir del ya seleccionado. Por ejemplo, podríamos seleccionar un número al azar entre los primeros 100; supongamos que el elegido es el 40, entonces seleccionamos los nombres del directorio que corresponden a los números 40, 140, 240, 340 y así sucesivamente. 3.1.3 Muestreo aleatorio estratificado: una muestra es estratificada cuando los elementos de la muestra son proporcionales a su presencia en la población. La presencia de un elemento en un estrato excluye su presencia en otro. Para este tipo de muestreo, se divide a la población en varios grupos o estratos con el fin de dar representatividad a los distintos factores que integran el universo de estudio. Para la selección de los elementos o unidades representantes, se utiliza el método de muestreo aleatorio. En síntesis, requiere separar a la población según grupos llamados estratos, y elegir después una muestra aleatoria simple en cada estrato. La información de las muestras aleatorias simples de cada estrato constituiría entonces una muestra global. Ejemplo: supongamos que nos interesa obtener una muestra de las opiniones de los profesores de una gran universidad. Puede ser difícil obtener una muestra con todos los profesores, así que supongamos que elegimos una muestra aleatoria de cada facultad, o departamento académico; los estratos vendrían a ser los facultades, o departamentos académicos. 3.1.4 Muestreo aleatorio por área o conglomerado: requiere elegir de la población una muestra aleatoria simple de unidades heterogéneas entre sí llamadas conglomerados. Cada elemento de la población pertenece exactamente a un conglomerado, y los elementos dentro de cada conglomerado son usualmente heterogéneos o disímiles. Ejemplo: supongamos que una compañía de servicio de televisión por cable está pensando en abrir una sucursal en una ciudad grande; la compañía planea realizar un estudio para determinar el porcentaje de familias que utilizarían sus servicios, como no es práctico preguntar en cada casa, la empresa decide seleccionar una parte de la ciudad al azar, la cual forma un conglomerado. En el muestreo por conglomerados, éstos se forman para representar, tan fielmente como sea posible, a toda la población; entonces se usa una muestra aleatoria simple de conglomerados para
5
estudiarla. Los estudios de instituciones sociales como iglesias, hospitales, escuelas y prisiones se realizan, generalmente, con base en el muestreo por conglomerados.
4. ESTADÍSTICA DESCRIPTIVA 4.1 Análisis de datos cualitativos La siguiente es la información del nivel académico de 120 empleados de una empresa.
Empleado
Nivel Académico
Empleado
Nivel Académico
Empleado
Nivel Académico
Empleado
Nivel Académico
1
Profesional
31
Profesional
61
Técnico
91
Tecnólogo
2
Técnico
32
Bachiller
62
Tecnólogo
92
Bachiller
3
Técnico
33
Técnico
63
Tecnólogo
93
Bachiller
4
Tecnólogo
34
Bachiller
64
Técnico
94
Tecnólogo
5
Profesional
35
Posgrado
65
Técnico
95
Posgrado
6
Tecnólogo
36
Técnico
66
Bachiller
96
Bachiller
7
Profesional
37
Bachiller
67
Técnico
97
Técnico
8
Tecnólogo
38
Profesional
68
Profesional
98
Técnico
9
Profesional
39
Bachiller
69
Posgrado
99
Bachiller
10
Posgrado
40
Técnico
70
Técnico
100
Profesional
11
Técnico
41
Bachiller
71
Tecnólogo
101
Profesional
12
Bachiller
42
Tecnólogo
72
Bachiller
102
Tecnólogo
13
Tecnólogo
43
Profesional
73
Tecnólogo
103
Bachiller
14
Bachiller
44
Técnico
74
Técnico
104
Técnico
15
Profesional
45
Bachiller
75
Profesional
105
Técnico
16
Técnico
46
Bachiller
76
Tecnólogo
106
Bachiller
17
Bachiller
47
Tecnólogo
77
Bachiller
107
Posgrado
18
Bachiller
48
Profesional
78
Tecnólogo
108
Tecnólogo
19
Profesional
49
Tecnólogo
79
Bachiller
109
Tecnólogo
20
Tecnólogo
50
Tecnólogo
80
Profesional
110
Técnico
21
Bachiller
51
Técnico
81
Bachiller
111
Técnico
22
Técnico
52
Bachiller
82
Tecnólogo
112
Técnico
23
Técnico
53
Bachiller
83
Tecnólogo
113
Bachiller
6
Empleado
Nivel
Empleado
Académico
Nivel
Empleado
Académico
Nivel Académico
Empleado
Nivel Académico
24
Profesional
54
Bachiller
84
Bachiller
114
Tecnólogo
25
Bachiller
55
Bachiller
85
Profesional
115
Tecnólogo
26
Bachiller
56
Técnico
86
Bachiller
116
Bachiller
27
Bachiller
57
Bachiller
87
Tecnólogo
117
Profesional
28
Profesional
58
Posgrado
88
Técnico
118
Técnico
29
Bachiller
59
Tecnólogo
89
Tecnólogo
119
Bachiller
30
Bachiller
60
Bachiller
90
Profesional
120
Bachiller
4.1.1 Representación tabular
Frecuencia
Frecuencia
Frecuencia
Clase
Frecuencia
Bachiller
40
0,33
40
0,33
Técnico
27
0,23
67
0,56
Tecnólogo
27
0,23
94
0,78
Profesional
20
0,17
114
0,95
6
0,05
120
1,00
Posgrado
Relativa
Acumulada relativa acumulada
En un conjunto de datos, se define moda como el valor de mayor frecuencia. En nuestro ejemplo, Bachiller es la clase modal. 4.1.2 Diagrama de barras
7
4.1.3 Diagrama de sectores
Diagrama de sectores por frecuencias absolutas
8
Diagrama de sectores por frecuencias relativas
4.1.4 Tablas de contingencia La empresa del ejemplo anterior consta de tres plantas y sus empleados están distribuidos de la siguiente forma:
Bachiller
Técnico
Tecnólogo
Profesional
Posgrado
Planta A
5
7
6
10
4
Planta B
18
11
9
6
1
Planta C
17
9
12
4
1
4.1.5 Diagrama de barras
9
4.2 Análisis de datos cuantitativos 4.2.1 Estadísticos descriptivos A. Medidas de tendencia central
•
Media Aritmética: es la más importante de todas las medidas numéricas para describir datos. Se conoce también como promedio.
10
Ejemplo: la media aritmética de los datos: 2, 3, 5, 0, 11, 2, 4, 7, 2.
•
Mediana: es el valor que divide los datos en dos partes iguales cuando estos se presentan en orden de magnitud creciente o decreciente. Ejemplo: organizando los datos anteriores: 0, 2, 2, 2, 3, 4, 5, 7, 11. Vemos que el dato que está en el centro es 3, por tanto, la mediana es 3.
•
Moda: valor que ocurre con mayor frecuencia (puede no existir la moda o haber varios valores modales). Ejemplo: del ejemplo anterior, el dato que más se repite es 2, por tanto, la moda de este conjunto de datos es 2.
B. Medidas de colocación •
Percentiles: el n-ésimo percentil, denotado con
, es el valor para el cual al menos
de la distribución de los datos cae en o por debajo de él y al menos cae en o por arriba de dicho percentil. Ejemplo: para los datos del ejemplo anterior, el percentil 30 es
•
Cuartiles: los cuartiles son números que dividen en cuatro partes a un conjunto ordenado de medidas, extendiéndose desde la mínima hasta la máxima medida, por lo que cada parte cuenta con aproximadamente 25% de las medidas. Hay tres puntos cuartiles, denotados con
,
Ejemplo: para nuestros datos,
,
,
,
.
C. Estadísticos de dispersión
11
Triola Mario F. (2004). Estadística. Edición: 9. Pearson Educación. pp. 74.
La dispersión o variación de los datos mide cuán esparcidos se encuentran éstos o qué tan heterogéneos son. Hay varias medidas de dispersión, siendo las más comunes las siguientes:
•
Rango: es la diferencia entre el valor máximo y el valor mínimo del conjunto de datos.
Ejemplo: para nuestros datos,
•
Varianza: medida de variación de los valores con respecto a la media.
Ejemplo: para nuestros datos, la varianza es:
•
Desviación estándar: medida de variación igual a la raíz cuadrada de la varianza.
12
Ejemplo: para nuestros datos, la desviación estándar es:
•
Rango semiintercuartil: también conocido como desviación cuartil, denotado por
,
se define como:
Ejemplo: para nuestros datos,
•
,
, por tanto,
Coeficiente de variación: proporciona una medida de variabilidad que es independiente de la unidad de medida; por ello, puede usarse para comparar la variabilidad de dos grupos de datos expresados en dos distintas unidades de medida. En otras palabras, el coeficiente de variación expresa la desviación estándar como un porcentaje de la media y se define como:
Ejemplo: para nuestros datos, el coeficiente de variación es:
4.2.2 Tabulación de datos cuantitativos A continuación se presentan las notas correspondientes a los cursos de matemáticas y español, de un grupo de 50 estudiantes.
#
Español
Matemáticas
#
Español
Matemáticas
1
3,0
3,0
26
3,5
2,4
2
2,7
2,8
27
2,4
3,8
3
4,2
3,6
28
3,5
2,7
13
•
#
Español
Matemáticas
#
Español
Matemáticas
4
3,5
2,4
29
4,2
4,0
5
3,2
3,3
30
4,9
2,5
6
4,8
3,2
31
1,6
2,8
7
4,8
2,3
32
4,4
2,5
8
3,2
3,6
33
3,5
3,5
9
3,7
3,1
34
2,0
2,5
10
3,5
3,0
35
4,7
2,9
11
4,9
2,6
36
3,6
3,5
12
3,0
3,6
37
5,0
2,4
13
3,0
4,1
38
4,4
1,9
14
4,4
3,0
39
3,8
2,3
15
2,4
2,9
40
3,9
2,7
16
4,0
3,2
41
4,7
2,8
17
1,4
3,0
42
4,1
3,1
18
3,1
3,4
43
3,3
3,3
19
2,7
3,6
44
4,0
3,5
20
4,0
4,6
45
5,0
3,7
21
4,6
3,1
46
3,4
3,1
22
4,9
2,9
47
4,2
1,4
23
4,0
2,7
48
3,4
2,8
24
1,9
2,1
49
3,4
2,8
25
3,9
2,4
50
4,6
2,3
Tabla de frecuencias Al resumir grandes cantidades de datos, es útil distribuir los datos en clases o categorías y determinar el número de individuos que pertenecen a cada clase, este número es llamado frecuencia de clase. Una disposición tabular de los datos por clases junto con las correspondientes frecuencias de clase, se llama distribución de frecuencias. Los datos así organizados en clases como en la anterior distribución de frecuencias se llaman datos agrupados. Existen algunas reglas generales para formar distribuciones de frecuencia:
14
a. Si k es el número de clases y n el tamaño de la muestra, entonces se recomienda que: ó
. (Excel utiliza
)
b. Si R es el rango de los datos y k es el número de clases, entonces como tamaño o
extensión de un intervalo de clase se toma el valor
, de tal manera que
c. Las fronteras de clase son cerradas por el lado izquierdo. Para nuestro ejemplo, la tabla de frecuencias correspondiente a matemáticas es: Clase
Frecuencia
1,41
1,86
1
1,86
2,31
1
2,31
2,76
3
2,76
3,21
12
3,21
3,66
17
3,66
4,11
11
4,11
4,56
4
4,56 mayor
1
4.2.3 Gráficos
•
Histograma Un histograma es una representación gráfica en forma de barras para una variable específica que permite describir el comportamiento de un conjunto de datos en cuanto a su tendencia central, forma y dispersión. Este gráfico es tan ilustrativo que de un vistazo se puede tener una idea objetiva sobre la calidad de un producto, el desempeño de un proceso o el impacto de una acción de mejora. El área de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos. La correcta utilización del histograma facilitará la toma decisiones no solo con base en la media, sino también con base en la dispersión y formas especiales de comportamiento de los datos.
15
•
Boxplot El boxplot proporciona información sobre el centro, la dispersión y la simetría de un conjunto de observaciones. En él se pueden ubicar valores como los cuartiles, la media, la mediana y los valores máximo y mínimo de los datos. Además se pueden identificar puntos extremos, los cuales aparecen antes del primer cuartil o después del tercer cuartil indicando que en la distribución de datos existen valores muy altos o muy bajos que no están incluidos en el rango intercuartílico. El boxplot también se conoce con el nombre de gráfico de caja y bigotes.
16