Story Transcript
Estadística (Q) FCEN-UBA
Dra. Diana M. Kelmansky
1
Estadística para Químicos 1.1 ¿Por qué Estadística? La necesitan: • Los profesionales de la salud, para entender los resultados de las investigaciones médicas. • Los economistas, porque cálculos eficientes les permitirán llegar al fondo de la cuestión que analizan. • Los investigadores para analizar los resultados de sus experimentos. • Los docentes cuando se enfrentan al problema de evaluar el rendimiento de los alumnos. • Los sociólogos para diseñar y procesar sus encuestas. • Los responsables de la calidad en un proceso productivo, al detectar las piezas defectuosas y controlar los factores que influyen en la producción de las mismas. • La industria farmacéutica para desarrollar nuevos medicamentos y establecer las dosis terapéuticas. • Los ciudadanos, para sacar sus propias conclusiones sobre los resultados de las encuestas políticas, los índices de precios y desocupación, y los resultados estadísticos que habitualmente se presentan en los medios de masivos de comunicación (diarios, revistas, radio, televisión). • Los estudiantes de química para responder a las preguntas planteadas en química analítica.
1.2 ¿Qué veremos en este curso? Construiremos herramientas que permitan responder preguntas del tipo: ¿Cómo y cuando se puede establecer que la cera natural de abeja está contaminada con cera sintética? Diagrama tallo-hoja ¿Ha ocurrido algo anormal en el proceso de producción de ....? Histograma Densidad de probabilidad Distribución Normal Intervalos de confianza ¿Una niña de 12 años tiene una altura normal? ¿Cuáles son las alturas normales para esa edad? Percentiles P-valor Población. Muestra. Muestra aleatoria simple. Muestra aleatoria estratificada. ¿Esta moneda está cargada? ¿Qué es una moneda equilibrada? Probabilidad. Distribución Binomial. Intervalos de Confianza. Test de Hipótesis. P-valor
Estadística (Q) FCEN-UBA
Dra. Diana M. Kelmansky
¿ El método de absorción atómica de vapor frío para determinar mercurio introduce errores sistemáticos? Media muestral. Varianza muestral. Distribución de muestreo. Distribución Normal. Distribución t Intervalos de Confianza. Test de Hipótesis. P-valor ¿Cómo se relacionan el peso y la altura de una mujer adulta? ¿Cómo se relacionan la presión de transición de Bismuto I-II con la temperatura? Diagramas de dispersión Ajuste de una recta en un diagrama de dispersión, a ojo. Cuadrados Mínimos. Interpretación Correlación ¿Cómo decidimos si las concentraciones medias de un analito obtenido utilizando métodos diferentes difieren? ANOVA Tests e intervalos de confianza simultáneos.
y ..........
muchas preguntas más.
2
Estadística (Q) FCEN-UBA
Dra. Diana M. Kelmansky
3
1.3 Introducción 1.3.1 Vocabulario Utilizaremos la palabra estadístico/a con cuatro significados diferentes que, según el contexto, será fácil distinguir: 1. La estadística como disciplina de estudio. Siempre estará en singular. 2. La estadística o las estadísticas como resultados que presentan organismos de estadística oficiales como la Dirección de Estadísticas e Información de Salud -DEIS- del Ministerio de Salud y Ambiente de la Nación, (http://www.deis.gov.ar/CapacitacionFetal/sistema.htm) 3. Un estadístico como un procedimiento para obtener un número a partir de un conjunto de datos. 4. Un estadístico o una estadística como una persona que tiene a la estadística como profesión. Como disciplina, podemos decir informalmente que la estadística es el estudio de la variabilidad. Sus técnicas permiten describirla y plantear hipótesis con el objetivo de comprenderla. ¿Qué entendemos como variabilidad? Si • todos opináramos igual respecto a la elección de un determinado candidato • todos tuviésemos el mismo peso y altura • todos reaccionáramos de idéntica forma ante un medicamento • los productos resultantes de un proceso industrial fuesen idénticos • al repetir un experimento se obtuviera siempre el mismo resultado no serían necesarios los análisis estadísticos. Podremos distinguir dos tipos de variabilidad 1) Variabilidad debido a diferencias entre individuos respeto de alguna característica. 2) Variabilidad debida a errores de medición. El punto de partida de un estudio generalmente es una población y una o varias variables que se desea analizar en la población.
Una población es la totalidad de objetos o individuos de interés en una investigación. Todos los niños sanos con edad entre 0 y 5 años. Una variable es una característica que varía de individuo en individuo. edad, peso, altura, género, concentración de colesterol en sangre, club de fútbol preferido etc.
Estadística (Q) FCEN-UBA
Dra. Diana M. Kelmansky
4
Los datos son los valores de la variable en estudio. Los datos disponibles se obtienen a partir de una muestra de la población de interés, como los valores observados de la o las variables de interés.
Una muestra es un subconjunto de la población.
1.3.2 Errores en el Proceso de Medición. - Errores aleatorios -------> precisión - Errores sistemáticos (sesgo) ------> exactitud
Un investigador sintetiza un reactivo creyendo que es completamente nuevo. Lo estudia utilizando un método espectrométrico y obtiene un valor promedio de 104 (en unidades adecuadas). En los libros de referencia encuentra que todos los compuestos estudiados con el "mismo" método tienen un valor inferior a 100. ? Descubrió el investigador un nuevo compuesto? La respuesta depende del grado de confianza que se pueda asignar al valor promedio 104. Si los valores obtenidos (valores muestrales) fueron 98,100, 102, 104, 107, 108 y 109
Diagrama de punto
x el 100 es un valor tan razonable como el 104; se deberían realizar más mediciones. Si en cambio fueron 103.3 103.5 103.9 104.1 104.3 104.5 104.7
Estadística (Q) FCEN-UBA
Dra. Diana M. Kelmansky
5
x pensamos que el químico puede haber descubierto un nuevo compuesto ... o que ha cometido alguna equivocación que lo conduce a medir de más.
¿Qué significan precisión y exactitud? Los gráficos de puntos siguientes ilustran los conceptos de precisión y exactitud. El valor verdadero (desconocido) es 101, los puntos representan los datos obtenidos. Los datos representados en (a) son precisos e inexactos, en (b) imprecisos e inexactos, en (c) precisos y exactos y en (d) imprecisos y exactos.
En el resto del curso utilizaremos conceptos equivalentes a los de precisión y exactitud. Nos referiremos a la variabilidad de los errores aleatorios (menor variabilidad corresponderá a mayor precisión) y sesgo o errores sistemáticos (menor sesgo mayor exactitud).
Estadística (Q) FCEN-UBA
Dra. Diana M. Kelmansky
6
Los ERRORES ALEATORIOS NUNCA SE PUEDEN ELIMINAR. Se pueden MINIMIZAR. Además realizando medidas repetidas INDEPENDIENTES se pueden EVALUAR por procedimientos estadísticos.
Los ERRORES SISTEMÁTICOS no se pueden evaluar realizando medidas repetidas. Debe emplearse una forma de comparación alternativa. Por ejemplo se pueden utilizar dos (o más) métodos físicos o químicos no relacionados para efectuar un análisis y si conducen en forma consistente a resultados que sólo muestran diferencias que pueden atribuirse al azar es razonable suponer que no hay errores sistemáticos significativos. 1.3.3 Muestreo En ocasiones es posible estudiar toda la población de interés; esto se denomina Censo. Pero muchas veces no es posible: •
No es posible analizar la totalidad de un tanque lleno de leche (contenido de grasa)
•
No es posible analizar toda el agua de un río (contaminante)
•
Muchas técnicas de análisis son destructivas y por lo tanto no pueden aplicarse a la totalidad de un objeto.
EJEMPLO. Como parte del control de calidad de se desea obtener el peso promedio de las pastillas de un gran lote. Elegimos10 y pesamos cada una de ellas. Población: todas las pastillas del lote Variable: peso de una pastilla cualquiera del lote Valores poblacionales de la variable peso: peso de cada una de las pastillas del lote. Datos: el peso de cada una de las 10 las pastillas ¿Cómo elegimos las 10 pastillas del lote? Mediante un procedimiento de MUESTREO ALEATORIO. Decimos que nuestros datos son una muestra aleatoria.
Estadística (Q) FCEN-UBA
Dra. Diana M. Kelmansky
7
MUESTREO ALEATORIO: procedimiento de selección por el cual todos los miembros de la población tienen la misma posibilidad de ser elegidos. Más simple: muestreo SISTEMÁTICO o pseudo aleatorio. Se elige la unidad k-ésima a partir de un comienzo aleatorio entre los primeros k. Por ejemplo en una producción de tubos de pasta dentífrica se elige un tubo cada hora y se lo analiza para verificar que cumple con las especificaciones. En el caso de las pastillas: se selecciona una de cada cien de una línea de producción. Inconveniente: por ejemplo un cambio o variación periódica en el peso de las pastillas coincidente con el período de selección de la muestra (k).
MUESTREO A GRANEL: falta de unidades identificables para el muestreo.
EJEMPLO. Pureza del cloruro sódico contenido en un barril. Se tomaron cinco “porciones” , A, B, C, D, E, de diferentes partes del barril elegidas al azar. Se realizaron cuatro análisis repetidos sobre cada porción para evaluar la concentración de cloruro sódico. Hay dos fuentes de variación posibles: •
Error aleatorio en la medición de la pureza
•
Variaciones reales de la pureza del cloruro sódico en diferentes puntos.
Estadística (Q) FCEN-UBA
Dra. Diana M. Kelmansky
8
1.3.3. Tipos de datos. Los datos son los valores de la variable en estudio. Éstos pueden ser cuantitativos ó categóricos.
Ejemplo. Consideremos el voltaje de salida de cierto tipo de generadores: 5.10
5.25
5.80
4.92
6.10
5.71
5.94.
los datos son una medida, son cuantitativos y debemos expresarlos en unidades de voltaje (V voltio) Supongamos que las normas especifican que el voltaje de salida puede diferir de 5.5 en a lo sumo 0.5 y consideramos las categorías: • cumple con las normas • no con las normas tendremos datos categóricos. Si además, se asigna 1 cuando el generador cumple con los requerimientos y 0 si no cumple, obtendremos los siguientes datos
1
1
1
0
0
1
0
La población en estudio es .......................... La variable es ................................................
Distinguir el tipo de datos es importante porque el análisis estadístico difiere según de qué tipo de datos se trate: • datos cualitativos o categóricos (por ej. color, sabor, textura) pueden definirse categorías y calcular la cantidad (ó la proporción ó el porcentaje) de individuos que pertenecen a cada categoría y pueden ordenarse. • datos cuantitativos, (por ej. peso, volumen, densidad) tiene sentido calcular su promedio.
Estadística (Q) FCEN-UBA
Dra. Diana M. Kelmansky
9
1.3.4. Distribución La naturaleza y la magnitud de la variación pueden ser tan importantes como el resultado promedio. El patrón de variación de una variable es llamado distribución. La distribución registra los valores numéricos de la variable y cuán frecuentemente ocurre cada valor. distribución muestral distribución poblacional de una variable Veremos varios tipos de gráficos que permitirán visualizar la distribución de un conjunto de datos.
2. Estadística Descriptiva Las herramientas presentadas no son un fin en sí mismas, es importante interpretarlas en términos del problema que interesa resolver.
Las técnicas de la estadística descriptiva pueden aplicarse tanto a datos muestrales como a datos poblacionales.
2.1 Métodos descriptivos visuales 2.1.1 Diagramas de tallo-hoja.(Tukey, 1977) Ejemplo. White, Riethof y Kushnir (1960) realizaron un estudio con el objetivo de detectar la presencia de ceras sintéticas adicionadas a las ceras naturales de abeja. El agregado de cera microcristalina eleva el punto de fusión de la cera de abeja: • el agregado de 5% aumenta el punto de fusión en .85 0C • el agregado de 10% aumenta el punto de fusión en 2.22 0C Si todos los tipos de cera de abeja tuviesen el mismo punto de fusión, su determinación sería un procedimiento razonable para detectar diluciones. Sin embargo, el punto de fusión y otras propiedades químicas de la cera de abeja varían de una colmena a otra.
Estadística (Q) FCEN-UBA
Dra. Diana M. Kelmansky 10
Puntos de fusión de distintas ceras naturales 63.78 63.45 63.58 63.08 63.40 63.34 63.50 63.83 63.63 63.27 63.36 63.86 63.34 63.92 63.88 63.51 63.84 64.27 63.50 63.56 63.92 63.56 63.43 64.21 64.24 63.50 63.30 63.86 63.93 63.43 63.68 63.13 63.41 63.60 63.13 63.31 63.66 63.60
64.42 63.30 63.36 63.39 64.12 64.40 63.69
63.27 63.83 63.36 63.78 63.92 63.61 63.05
63.10 63.50 63.51 63.92 63.53 63.03 62.85
Mejor si los ordenamos 62.85 63.27 63.36 63.5 63.58 63.78 63.92 64.27
63.03 63.3 63.39 63.5 63.6 63.78 63.92 64.4
63.05 63.3 63.4 63.5 63.6 63.83 63.92 64.42
63.08 63.31 63.41 63.51 63.61 63.83 63.92
63.1 63.34 63.43 63.51 63.63 63.84 63.93
63.13 63.34 63.43 63.53 63.66 63.86 64.12
MINIMUM MEDIAN MAXIMUM
62.850 63.530 64.420
Diagrama tallo-hoja STEM AND LEAF PLOT OF CERA LEAF DIGIT UNIT = 0.01 628 5 REPRESENTS 62.85
1 1 4 7 9 18 23 (10) 26 19 17 11 6 6
STEM 628 629 630 631 632 633 634 635 636 637 638 639 640 641
LEAVES 5 358 033 77 001446669 01335 0000113668 0013689 88 334668 22223 2
63.13 63.36 63.45 63.56 63.68 63.86 64.21
63.27 63.36 63.5 63.56 63.69 63.88 64.24
Estadística (Q) FCEN-UBA 5 2 2
642 643 644
Dra. Diana M. Kelmansky 11
147 02
59 CASES INCLUDED
0 MISSING CASES
Las columnas más importantes del diagrama son el TALLO (STEM) y las HOJAS (LEAVES). El 62.85 es el menor de los datos y está representado por el 628 de la columna Tallo y el 5 que corresponde al valor de la Hoja La primera columna tiene la profundidad, salvo en la fila que contiene a la observación central (mediana). Allí aparece, entre paréntesis, la cantidad de hojas. ¿Qué es la profundidad? La mediana es el valor que deja la misma cantidad de datos a cada lado. La profundidad de la mediana es (59+1)/2 =30. Obtenemos así el valor 63.53 para la mediana. El 95% (56/59) de los puntos de fusión de la cera natural de abeja se encuentra entre 62.9 y 64.3 (una diferencia de 1.4 0C). Por lo tanto el agregado de 5% de cera microcristalina (aumento de 0.85 0 C) puede ser muy difícil de detectar especialmente si fue realizado en ceras con bajo punto de fusión, pero el agregado de 10% sería detectable (aumento de 2.22 0C).
¿Como se obtiene un diagrama tallo-hoja con el Statistix?
En un diagrama tallo-hoja podemos ver: • • • • • • •
Cuán aproximadamente simétricos son los datos. Cuán dispersos están los valores. La aparición de valores inesperadamente más frecuentes. Si algunos valores están alejados del resto. Si hay concentraciones de valores. Si hay grupos separados. La distribución de los datos dentro de cada intervalo como patrones dentro de los datos.
Estadística (Q) FCEN-UBA
Dra. Diana M. Kelmansky 12
Otro ejemplo. Gasto en $ que realizaron 50 clientes sucesivos en un almacén 2.3 6.65 6.9 8.2 9.5 20.9 20.9 21.15 23.9 10.2 11.35 11.6 12.6 12.9 27.1 28.7 29.15 30.5 13 13.5 14.5 14.9 14.8 32.8 33.4 33.8 34.8 15.1 15.35 16.6 17.15 18.2 36.5 39.2 40.8 43.9 18.3 18.7 19.5 19.5 20.5 52.4 61.5 63.8 64.3
26.1 31.9 36.2 45.5 69.5
Para construir el diagrama tallo-hoja eliminamos los centavos. LEAF DIGIT UNIT = 1 0 2 REPRESENTS 2. Tallo Hoja 1 0 2 5 0 6689 15 1 0112233444 24 1 556788899 (5) 2 00013 21 2 6789 17 3 012334 11 3 669 8 4 03 6 4 5 5 5 2 4 5 4 6 134 1 6 9
0 2 representa al 2
Si giramos el diagrama de manera que los valores mayores queden del lado derecho, vemos que la distribución del gasto está fuertemente sesgada a la derecha. El centro de la distribución es 20, contando 25 lugares desde el valor menor. Pero el 10% de los consumidores gastan más de 50$. Si se pudiera estudiar a los gastadores mayores en más detalle podrían tomarse medidas para atraerlos. Una virtud de los diagramas tallo-hoja es que permiten examinar los valores de las observaciones. Esto es muy inconveniente para conjuntos de datos muy grandes. 2.2.2 Histogramas. Los histogramas muestran la cantidad ó proporción de observaciones que pertenecen a cada intervalo.
Estadística (Q) FCEN-UBA
Dra. Diana M. Kelmansky 13
La elección de la cantidad de clases, en un histograma o en un diagrama tallo-hoja puede ser un problema cuando se realizan a mano. Entre 5 y 20 suelen ser adecuadas, pero los programas estadísticos los eligen en forma automática.
Ejemplo Una prueba de vocabulario para alumnos de 7mo. grado tiene asignado puntaje de 2.0 a 12.9 (correspondiente al vocabulario de un niño de del comienzo del 2do. grado hasta 12.9). Los puntajes de los primeros 947 alumnos evaluados en 1985 en Capital Federal son: 5.4
6.8
2.1
7.6
6.6
7.8
8.1
5.6
6.0
Para construir un histograma de la distribución de los puntajes, se divide el rango de los datos en clases de igual longitud y se cuenta la cantidad de observaciones que se encuentran en cada clase: 1. Clases de igual longitud. 2.0 ≤ puntaje < 3.0 3.0 ≤ puntaje < 4.0 ... 12.0 ≤ puntaje < 13.0 2. Cantidad de observaciones que pertenecen a cada clase. esas cantidades de observaciones se llaman frecuencias. Tabla de frecuencias para el puntaje Clase Frecuencia # Estudiantes 2.0 - 2.9 9 3.0 - 3.9 28 4.0 - 4.9 59 5.0 - 5.9 165 6.0 - 6.9 244 7.0 - 7.9 206 8.0 - 8.9 146 9.0 - 9.9 60 10.0 - 10.9 24 11.0 - 11.9 5 12.0 - 12.9 1 Total 947
Porcentaje 0.95 2.96 6.23 17.42 25.77 21.75 15.42 6.34 2.53 0.53 0.11 100.01
Porcentaje Acumulado 0.95 3.91 10.14 27.56 53.33 75.08 90.50 96.84 99.37 99.90 100.01
Observación: los porcentajes no suman 100 por errores de redondeo 3. Dibujo del histograma. En el eje horizontal se grafica la escala del puntaje y se lo divide de acuerdo con las clases definidas. Sobre cada intervalo de clase se dibuja un rectángulo cuya altura corresponde a la frecuencia de dicha clase. El eje vertical indica la frecuencia.
Estadística (Q) FCEN-UBA
Dra. Diana M. Kelmansky 14
Histograma de puntajes de vocabulario en alumnos de 7o. grado
Un histograma de frecuencias relativas tiene el mismo aspecto que un histograma de frecuencias, simplemente se cambia la escala del eje vertical (0% al 100%) para leer los porcentajes. Los histogramas de frecuencias relativas son preferibles para comparar dos distribuciones con distinta cantidad de observaciones. Importante: Áreas. Nuestros ojos responden al área de las barras de manera que una figura precisa requiere que el área del rectángulo sobre cada clase sea exactamente proporcional a la frecuencia de dicha clase. Cuando las clases tienen igual longitud, solamente tenemos que graficar las alturas de las barras proporcionales a las frecuencias. Cuando se estudian datos que se publican como tablas de frecuencias con clases desiguales deben variarse las alturas de las barras de manera que las áreas (longitud de la base x altura) sean proporcionales a las frecuencias: frecuencia = longitud de la base x altura ⇒
altura = frecuencia / longitud de la base
2.1.3 Diagrama de Pareto, para datos categóricos.
Estadística (Q) FCEN-UBA
Dra. Diana M. Kelmansky 15
Si las clases en que se dividen los datos no tienen un orden natural, ni el ancho de las barras ni el orden tiene en general demasiada importancia. Sin embargo en el diagrama de Pareto las clases están ordenadas de acuerdo con su frecuencia. El siguiente diagrama muestra un diagrama de Pareto para la frecuencia distintos tipos de defectos en un cierto tipo maquinaria inspeccionada
Gráficos de frecuencias relativas acumuladas Frecuencias relativas acumuladas de los datos del puntaje
Estadística (Q) FCEN-UBA
Dra. Diana M. Kelmansky 16
Un diagrama de Pareto habitualmente incluye al gráfico de frecuencias acumuladas
. El 75% de las fallas se deben a rayaduras o grietas. Si se corrigieran esos dos problemas se mejoraría en gran medida la calidad.
Estadística (Q) FCEN-UBA
Dra. Diana M. Kelmansky 17
RESUMEN • • • • • • • • •
•
Medición: es un proceso de representación de una característica mediante números. Variable: característica que varía cuando las mediciones se realizan sobre diferentes objetos o individuos. Población: totalidad de objetos de interés en un estudio. Muestra: subconjunto de la población. Datos: valores observados o medidos de una variable. La distribución de una variable es su patrón de variación, descripto por los valores de la variable y sus frecuencias ó por sus frecuencias relativas acumuladas. La distribución se representa gráficamente mediante un diagrama de tallo-hoja, que separa cada observación en tallo y hoja. También mediante un histograma que está basado en la frecuencia o frecuencia relativa de intervalos de clases o mediante un gráfico de frecuencias acumuladas. Al examinar una distribución, primero se debe localizar su centro. Luego, observar su forma global y las desviaciones claras de esa forma. La distribución, en un diagrama tallo hoja o un histograma, puede ser aproximadamente simétrica (a cada lado del centro se tiene una imagen en espejo de la otra) o asimétrica (una cola se extiende más lejos que la otra). La cantidad de picos es otro aspecto importante de la forma global. Las desviaciones de la forma global incluyen vacíos y valores extremos.