Story Transcript
GUIA DEL TALLER DE PREPARACION DE PROBABILIDAD Y ESTADISTICA I (2015A)
PROFESOR: FRANCISCO HERNANDEZ LUGO PRIMERA PARTE ESTADISTICA
RECOPILACION DE LA INFORMACION Para el análisis de un fenómeno cualquiera en cierta Población es muy importante que los datos en que se sustenta sean relevantes y completos, por lo tanto deben de partir de diseño adecuado del experimento, o bien de un diseño adecuado del experimento, o bien, de una hipótesis correctamente planteada, posteriormente, se debe realizar un muestreo. 𝐶𝐸𝑁𝑆𝑂 𝐹𝑜𝑟𝑚𝑎𝑠 𝑑𝑒 𝑅𝑒𝑐𝑜𝑝𝑖𝑙𝑎𝑟 𝑙𝑎 𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑐𝑖ó𝑛 𝐸𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑎 { 𝑀𝑈𝐸𝑆𝑇𝑅𝐸𝑂 𝐸𝑋𝑃𝐸𝑅𝐼𝑀𝐸𝑁𝑇𝑂 En general se pretende que la muestra seleccionada sea representativa de la población. Esto quiere decir que la muestra refleje de la manera más precisa posible las características de la población de donde proviene, de lo contrario las conclusiones obtenidas no serán confiables y los resultados no tendrán validez.
𝐴𝐿𝐸𝐴𝑇𝑂𝑅𝐼𝑂𝑆 𝑇𝐼𝑃𝑂𝑆 𝐷𝐸 𝑀𝑈𝐸𝑆𝑇𝑅𝐸𝑂 {𝑁𝑂 𝐴𝐿𝐸𝐴𝑇𝑂𝑅𝐼𝑂𝑆
PASOS PREVIOS PARA LA TOMA DE UNA MUESTRA Es muy importante que antes de proceder a seleccionar una muestra se realice toda una etapa de planeación que involucre entre otras cosas, la definición de Variable que interesa medir y los instrumentos adecuados de medición. EN RESUMEN : Aspectos como ¿ A quién le pregunto?, ¿Cómo pregunto?, ¿a cuántos les pregunto?, deben estar perfectamente definidos antes de la selección de la muestra. MUESTREO ALEATORIO: SIMPLE, ESTRATIFICADO, SISTEMÁTICO, POR CONGLOMERADOS. MUESTREO NO ALEATORIO: DE VOLUNTARIOS Y POR CONVENIENCIA. EJEMPLO N° 1 De un recorte de una nota periodística Identificar los ocho términos básicos de la Estadística.
MEDIDAS DE POSICIÓN También llamadas de centralización o de tendencia central. Sirven para estudiar las características de los valores centrales de la distribución atendiendo a distintos criterios. Veamos su significado con un ejemplo: Supongamos que queremos describir de una forma breve y precisa los resultados obtenidos por un conjunto de alumnos en un cierto examen; diríamos: a) La nota media de la clase es de 6,5. b) La mitad de los alumnos han obtenido una nota inferior a 5. c) La nota que más veces se repite es el 4,5. En la expresión a) se utiliza como medida la media aritmética o simplemente la media. En la b) se emplea como medida la mediana, que es el valor promedio que deja por debajo de ella la mitad de las notas y por encima de ella la otra mitad. Y en la c) se usa el valor de la nota que más veces se ha repetido en ese examen, este valor es la moda. MEDIA ARITMÉTICA
Normalmente se suele distinguir entre media aritmética simple y media aritmética ponderada. Media aritmética simple: Es la suma de todos los elementos de la serie dividida por el número de ellos. Se calcula como: k
x
x i 1
i
n
Siendo: x : la media k
x i 1
i
: suma de elementos
n : número de elementos (incluyendo a los de igual valor) k : número de elementos con distinto valor. Ejemplos: 1. Hallar la media aritmética de los siguientes valores: 5, 7, 8, 10, 15.
x = 5 + 7 + 8 + 10 + 15 = 45 n=5
x =9 2. Si las notas de un alumno en las distintas asignaturas de un curso durante una evaluación fueron: 7; 5; 6.5; 3.7; 5, 6.2. Hallar la nota media de la evaluación. (Resp. 5,5666...) 3. La media de 6 elementos se sabe que es 10. Sabiendo que cinco de ellos son: 8, 12, 13, 5 y 9, hallar el elemento que falta. (Resp. 13)
Media aritmética ponderada: Por lo general, en Estadística, los datos se nos presentan agrupados mediante una distribución de frecuencias que hace que no todos los elementos de la serie tengan el mismo peso específico, y eso influye a la hora de calcular la media, por eso se llama media ponderada. Se define como la suma de los productos de cada elemento de la serie por su frecuencia respectiva, dividida por el número de elementos de la serie. k
x
x
i
ni
i 1
n
donde ni es la frecuencia o número de veces que se repite un valor. También ni puede ser la ponderación de cada valor xi. Ejemplos: 1. Durante el mes de octubre de 1981 los salarios recibidos por un obrero fueron: Salario en pesos 200 220 300
Frecuencia en días 5 15 4
Hallar el salario medio durante ese mes.
x
(200) (5 ) ( 220)(15) (300)( 4) 229.166 24
2. Un alumno obtiene en tres exámenes parciales las siguientes notas: 7, 5 y 3; en el examen final consigue un 6. Suponiendo que esta nota final tenga doble valor que las parciales, ¿cuál será su nota media? (Resp. 5,4) 3. Si la renta anual media de los trabajadores del campo es de 1.000 pesos y la renta anual media de los trabajadores de la construcción en esa población es de 1.200 pesos, ¿sería la renta anual media para ambos grupos de 1.100 pesos? Explica. Sin embargo, lo normal es Estadística es que los datos vengan agrupados en clases o intervalos, o que nosotros mismos hagamos esa agrupación cuando el número de elementos sea muy extenso, ya que en ese caso el cálculo de la media por los procedimientos vistos para datos sin agrupar sería muy laborioso. Antes de estudiar los métodos más usuales para el cálculo de la media con datos agrupados, vamos a ver algunas propiedades de la media aritmética que nos ayudarán a comprender mejor el contenido de esos métodos.
Propiedades de la media aritmética: Las propiedades más importantes son 1. La suma algebraica de las desviaciones de un conjunto de números respecto de su media aritmética es cero. 2. La suma de los cuadrados de las desviaciones de un conjunto de números con respecto a cualquier otro número es mínima cuando ese otro número es precisamente la media aritmética. 3. Si suponemos, antes de calcularla, que la media de un conjunto de números es cualquier número A, resulta que la verdadera media aritmética es: x A
d n
Donde A: media supuesta d : suma de las desviaciones respecto de A. n : número de elementos. 4. Si A1 números tienen una media m1, A2 números una media m2, ...., An números una media mn, entonces la media de todos ellos es: x
A1 m1 A2 m 2 An m n A1 A2 An
o sea, es la media aritmética ponderada de todas las medias. Ejemplo: En una cierta empresa de 80 empleados, 60 de ellos ganan 500 pesos al mes y los 20 restantes ganan 700 pesos al mes, cada uno de ellos. Se pide: a) Determinar el sueldo medio b) ¿Sería igual la respuesta si los primeros 60 empleados ganaran un sueldo medio de 500 pesos y los otros 20 un sueldo medio de 700 pesos? c) Comentar si ese sueldo medio es o no representativo. Cálculo de la media aritmética a partir de datos agrupados en clases. Hay dos métodos principalmente para calcular la media de una distribución con datos agrupados: método directo (o largo) y método abreviado (o corto).
Método directo Consiste en aplicar la fórmula ya vista para el cálculo de la media ponderada, con la única salvedad de que se toman como valores representativos de la variable los puntos medios de cada intervalo, que se denotan con xm. O sea:
x
x
m
fi
n
Ejemplo: Hallemos la media aritmética por el método directo de la siguiente serie: 25 33 27 20 14 21 33 29 25 17 31 18 16 29 33 22 23 17 21 26 13 20 27 37 26 19 25 24 25 20 25 29 33 17 22 25 31 27 21 14 24 27 23 15 21 24 18 25 23 24 (Resp: 23,76)
Método abreviado Consiste en elegir un intervalo en el que se supone que estará la media (aunque no sea así), y llamamos A al valor de la media supuesta, que coincidirá con el centro del intervalo elegido. Entonces aplicamos la fórmula.
x A
d n
i
n
Siendo d las desviaciones de las marcas de clase con respecto a la media supuesta A, y ni la frecuencia de cada intervalo. Ejemplo: Realizar el mismo anterior para poder comparar mejor los procedimientos. Este método abreviado es más rápido que el método directo, pues las operaciones que hay que realizar son más sencillas.
Método clave Se diferencia fundamentalmente del método abreviado en que en lugar de calcular las desviaciones d de cada marca de clase a la media supuesta, simplemente se escriben al lado de cada marca unos números enteros “d”, que expresan el número de clases, más uno, que hay desde la marca considerada a la marca que coincide con la media supuesta. A estos números se les asigna signo menos si están por debajo de la media considerada y signo más si están por encima. La fórmula que se utiliza es la siguiente:
x A
n d I i
n
Donde I es un número igual a la amplitud o longitud de las clases o intervalos. Como ejemplo considerar el mismo de los dos casos anteriores.
MEDIANA Una vez dispuestos todos los valores que toma la variable en una serie creciente o decreciente, el valor central de esa serie, si existe, es la mediana. Así pues, la mediana deja el mismo número de valores a su izquierda como a su derecha. Cuando no existe un valor central se puede definir como la media aritmética de los valores medios. Para su cálculo distinguiremos tres casos: a) Mediana de una serie con datos no agrupados. b) Mediana de una serie con datos agrupados por frecuencias y agrupados en intervalos. c) Mediana de una serie con datos agrupados sólo por frecuencias, pero sin agrupar en intervalos.
Cálculo de la mediana con datos no agrupados Para calcular la mediana con datos no agrupados se ordenan los elementos en orden creciente o decreciente, y la mediana es el valor que ocupa el lugar
n 1 2
Ejemplos: Determinar la mediana de la serie 5, 6, 9, 11, 15, 19, 23, 26, 27. Luego de la serie 5, 7, 10, 15, 20, 21, 24, 27. En los dos ejemplos anteriores ocurría que la frecuencia de cada elemento era 1. Pero no siempre sucede así. Sea ahora la serie: 3, 4, 4, 4, 6, 8 donde el elemento 4 tiene una frecuencia 3. Consideremos el intervalo que comprende cada elemento desde 0,5 unidades a loa izquierda hasta 0,5 unidades a la derecha. En nuestra serie, los tres elementos 4 se distribuyen entre 3,5 y 4,5. Los representamos en el eje real de la siguiente forma:
Vemos que el valor 4,16 deja a su izquierda tres elementos (3, 4 y 4) y a su derecha otros 3 (4, 6 y 8), luego la mediana es 4,16. De la misma forma determina la mediana de 5, 6, 8, 8, 8, 8, 10, 12, 13. (Resp. 8,125)
Cálculo de la mediana con datos agrupados Cuando los datos conviene agruparlos por intervalos, debido al elevado número de ellos, la mediana se calcula de la siguiente forma: 1. 2. 3. 4.
Se calcula n/2. A la vista de las frecuencias acumuladas, se halla el intervalo que contiene a la mediana. Se calcula la frecuencia del intervalo que contiene a la mediana. Se halla uno cualquiera de los límites exactos (el superior o el inferior) del intervalo que contiene a la mediana. Sabiendo que límites exactos de un intervalo a – b, se refiere a los números a-0,5 y b+0,5. 5. Se halla la frecuencia de los valores que quedan “por debajo” del intervalo que contiene a la mediana, o la frecuencia de los valores que quedan “por encima”, y según hayamos decido hacer, calculamos la mediana por alguna de estas dos fórmulas, respectivamente:
x Li
( Ls Li)(0.5 Fa) Fm
Siendo:
x: Mediana Li: Límite inferior del intervalo de la mediana. Ls: Límite superior del intervalo de la mediana Fa: frecuencia relativa acumulada de la clase anterior a la clase media. Fm: Frecuencia relativa de la clase de la media. Ejemplo 1: Intervalos
[118 – 126] [127 – 135] [136 – 144] [145 – 153] [154 – 162] [163 – 171] [172 – 180]
Frecuencias Frecuencias Frecuencia Frecuencia (fi) Acumulada Relativa Relativa (Fa) (fr) Acumulada (Fra) 3 3 0.075 0.075 5 8 0.125 0.2 9 17 0.225 0.425 12 29 0.3 .725 5 34 0.125 0.85 4 38 0.1 0.95 2 40 0.05 1.00 40
Con los tres primeros intervalos o clases, abarcamos 17 elementos y con las cuatro primeras abarcamos 29, luego está claro que la mediana se encuentra en la cuarta clase, pues n/2 = 20. Entonces:
Li = 145 (límite inferior de la clase mediana) Ls = 153 (límite superior de la clase mediana) I = 9 (amplitud de cada intervalo) FM = 0.3 (frecuencia relativa de la clase mediana) Fa = 0.425 (frecuencia relativa acumulada en el intervalo inmediatamente anterior al de la mediana) n = 40 (número total de elementos de la serie) Luego
x 145
(153 145)(0.5 0.425) 147 0.3
Ejercicio: Determinar la mediana de la siguiente serie de valores, agrupando los datos por intervalos y por frecuencia con amplitud 4 y como primera clase la 10 – 14. Ten presente para este caso que los límites se hacen coincidir con los extremos. (Resp. M = 23)
Cálculo de la mediana con datos agrupados sólo por frecuencias Se puede decir que es un caso particular del método anterior. El procedimiento es el siguiente: Una vez calculado el número alrededor del cual se encuentra la mediana, se considera este número como centro de un intervalo de amplitud 1; a continuación se aplica la fórmula anterior para el cálculo con datos agrupados en intervalos. Ejemplo: x 1 2 3 4 5 6 7 8 9 10
f 5 7 6 12 20 15 11 6 5 2
fa 5 12 18 30 50 65 76 82 87 89
n = 89/2 = 44,5 Por tanto, la mediana es un valor próximo a 5. M 4,5
1 (44,5 30) 5,225 20
MODA La moda de una serie de números es el valor que se presenta con mayor frecuencia; es decir, el que se repite un mayor número de veces. Es por tanto, el valor común. Por ejemplo, en la serie: 2, 4, 4, 5, 5, 5, 7, 8, la moda es 5. En una distribución puede ocurrir que haya dos o más modas, entonces se habla de distribución bimodal, trimodal, etc. Incluso puede no existir la moda, como en la serie 2, 3, 4, 5, 7, 10.
Cálculo de la moda con datos agrupados En el caso de una distribución de frecuencias con datos agrupados, si hiciéramos una gráfica o curva de frecuencias, la moda sería el valor (o valores) de la variable correspondiente al máximo (o máximos) de la curva. La moda se puede calcular aplicando la siguiente fórmula: Mo l (
1 ) I 1 2
Donde: l: límite inferior de la clase que contiene a la moda. (Clase Modal) 1: Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase contigua inferior. 2: Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase contigua superior. I: Amplitud del intervalo de la clase. Ejemplo: Determinemos la moda de la siguiente distribución de frecuencias:
Clase 10 – 20 20 – 30 30 – 40 40 – 50 50 – 60 60 – 70 70 – 80 80 – 90
Frecuencia 11 14 21 30 18 15 7 3 119
Mo 40
9 10 44.28 9 12
Una manera más simple para determinar la Moda de datos agrupados como en el caso anterior es partir de que la moda está ubicada en la clase que contiene mayor frecuencia absoluta por lo tanto Mo = 45 Ejercicio: Hallar las tres medidas de tendencia central, media, mediana y moda, de la siguiente tabla: Escriba aquí la ecuación. Interva 10 – 20 20 – 30 30 – 40 40 – 50 50 – 60 60 – 70 70 – 80 80 – 90
fi 11 14 21 30 18 15 7 3
Fa
fr
Fra
Resp: 44,91; 44,5; 44,28 respectivamente.
Consideraciones finales En general, la media aritmética es la medida más utilizada ya que se puede calcular con exactitud y se basa en el total de las observaciones. Se emplea preferentemente en distribuciones simétricas y es el valor que presenta menores fluctuaciones al hacer variar la composición de la muestra. Finalmente, la media aritmética es especialmente útil cuando se precisa después calcular otros valores estadísticos, como desviaciones, coeficientes de correlación, etc. La mediana es preferida cuando la distribución de los datos es asimétrica, y cuando los valores extremos están tan alejados que distorsionarían el significado de la media. También se calcula la mediana en aquellas distribuciones en las que existen valores sin determinar, por ejemplo, aquellas cuya primera clase es del tipo “menos que x”, y la última clase: “más de y”. En definitiva, lo más importante de esta medida es que no se ve afectada por los valores extremos. Tiene, sin embargo, como inconveniente que se presta menos a operaciones algebraicas que la media aritmética. La moda es una medida que no suele interesar especialmente, a no ser que haya tal concentración de datos en la distribución que un valor destaque claramente sobre todos los demás. Puede servir también para cuando queramos estimar de una forma rápida, y no muy precisa, una medida de tendencia central. La moda, al igual que la mediana, es un valor que no se ve afectado por los valores extremos de la distribución y también es poco susceptible de efectuar con él operaciones algebraicas. Fuente: Estadística; Fernando García y Fernando Garzo, Editorial McGraw-Hill; Madrid
EJERCICIOS: 1.
Las alturas de los jugadores de un equipo de baloncesto vienen dadas por la tabla:
Altura
[170, 175)
[175, 180)
[180, 185)
[185, 190)
[190, 195)
[195, 2.00)
Nº de jugadores
1
3
4
8
5
2
Calcular: 1. La media. 2. La mediana. 3. La desviación típica. 2. El histograma de la distribución correspondiente al peso de 100 alumnos de Bachillerato es el siguiente:
1. 2. 3. 4. 5.
Formar la tabla de la distribución. Si Andrés pesa 72 kg, ¿cuántos alumnos hay menos pesados que él? Calcular la moda. Hallar la mediana. ¿A partir de que valores se encuentran el 25% de los alumnos más pesados?
MEDIDAS DE TENDENCIA CENTRAL Una empresaria entrevista a un candidato para el puesto de operario en su fábrica. Le ofrece $15.000 semanales, pero le advierte que sólo será por un período de prueba ya que luego su sueldo será mayor. “Aquí pagamos bien. El salario medio es de $60.000 semanales” dice el empresaria. Luego de 4 días de trabajo, el operario vuelve donde su jefa y le dice: “Usted me ha engañado. He preguntado a todos los operarios y ninguno gana más de $20.000 semanales. ¿Por qué me dijo que el salario era de $60.000?” La jefa le responde: “Yo no lo he engañado. Tome la nómina semanal y calcule: Yo gano $480.000; el segundo jefe: $200.000; los seis empleados $50.000 cada uno; los cinco capataces $40.000 y los diez operarios $20.000 cada uno. La nómina semanal suma $1.380.000 y como hay 23 personas recibiendo el salario 1.380.000 : 23 = 60.000 el promedio de los salarios es de $60.000. ¿O me equivoco?. José, el operario, le responde “Está bien! Pero aun así me ha engañado.” La jefa le responde: “Pude ir diciéndole los salarios por orden; y el salario medio sería $40.000. Pero eso no es la media sino la mediana.” “ ¿Y qué significan entonces los $20.000?” pregunta José. La jefa responde: “Eso representa la moda. Es el salario ganado por el mayor número de personas... pero yo hable de media, no de moda.” 2. Si en la serie datos: 2-7-4-8-2-14-29, se cambia el 29 por 40, ¿cuál de las medidas (media, moda y mediana) se ve afectada?
PROMEDIO, MODA, MEDIANA Estos números se ubican en la parte central de una distribución de datos y se llaman medidas de tendencia central y son promedio, la moda y la mediana. A) El Promedio o media aritmética de “n” datos numéricos es el cociente entre la suma total de estos, dividida por “n”
Si las notas son iguales, ¿Qué sucede con el promedio?. Si tuviésemos 5 notas en total y una de ellas es muy baja respecto a las otras cuatro, ¿Cómo influye esta nota en el promedio?. Si las notas fuesen 10 en total, ¿la nota baja influiría de la misma forma? Durante una semana de vacaciones la asistencia de jóvenes a una discoteca ha sido la siguiente: Día Lunes Martes Miércoles Jueves Viernes Sábado Domingo
Jóvenes 57 72 65 89 348 461 49
¿Cuál es el promedio diario de asistencia?¿Está muy distorsionada esta información?¿Por qué? ¿El administrador podría confiar en el promedio para abastecer de refrescos a la discoteca diariamente? ¿ y semanalmente?
Al calcular el promedio de una muestra con gran número de datos, podemos ahorrar tiempo si tenemos los datos ordenados y calculadas las frecuencias correspondientes. 3.- los siguientes datos corresponden a los kilómetros participantes en una competencia nacional, durante el KILÓMETROS RECORRIDOS
recorridos por los ciclistas entrenamiento:
750 700 800 660
700 880 700 800
660 480 660 820
660 660 800 750
660 880 660 570
700 780 480 480
750 750 700 700
570 480 570 750
700 480 570 700
800 800 750 800
700 660 480 880
880 750 750 660
800 800 740 820
a) Organizar la información en la siguiente tabla de frecuencias y calcular la media y la mediana. Nº de Km.
fi
880 820 800 780 750 700 660 570 480 b) La Moda de una muestra de datos es aquel que presenta la mayor frecuencia. 4.- En la tabla siguiente aparecen la acciones más transadas durante la octubre de 1996, según información del diario “El Mercurio”. Determinar
Acciones más transadas ENDESA CTC – A ENERSIS CHILECTRA CHILGENER IANSA EMEC VAPORES SOQUIMICH – B SANTANDER
Precio al cierre ($) 257.00 2445.00 246.00 2220.00 2420.00 102.75 52.50 330.00 2425.00 26.50
tercera semana del mes de la mediana de los precios.
Variación (%) -0,68 0,20 -0,90 -0,89 -0,62 -0,24 -1,87 0,00 0,41 -0,93
Ordenamos los precios en orden creciente. Como son 10 valores, buscaremos los dos datos centrales: 26.50 – 52.50 – 102.75 – 246.00 – 257.00 – 330.00 – 2220.00 – 2420.00 – 2425.00 – 2445.00 Los dos precios centrales son 257.00 y 330.00 entonces la mediana es la media aritmética o promedio de ambos valores.
Md
257.00 330.00 293.50 La mediana de la muestra es 293.50. Este es el precio que se encuentra al 2
centro de la ordenación de los precios de las acciones consideradas. Sería interesante que averiguar qué tipo de empresas son las que aparecen en la muestra.
Ejercicios: 1. Un equipo de básquetbol ha obtenido los siguientes puntajes en un campeonato: 68 – 72 – 56 – 76 – 84 – 50 – 85 – 72 – 66 – 69 – 59 ¿Cuál es la media aritmética de sus puntos? ¿Cuál es la mediana? 2. Si en la serie datos: 2-7-4-8-2-14-29, se cambia el 29 por 40, ¿cuál de las medidas (media, moda y mediana) se ve afectada?
Medidas de posición central Las medidas de posición nos facilitan información sobre la serie de datos que estamos analizando. Estas medidas permiten conocer diversas características de esta serie de datos. Las medidas de posición son de dos tipos: a) Medidas de posición central: informan sobre los valores medios de la serie de datos. b) Medidas de posición no centrales: informan de cómo se distribuye el resto de los valores de la serie. a) Medidas de posición central Las principales medidas de posición central son las siguientes: 1.- Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media, siendo las más utilizadas: a) Media aritmética: se calcula multiplicando cada valor por el número de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra: (X1 * n1) + (X2 * n2) + (X3 * n3) + .....+ (Xn-1 * nn-1) + (Xn * nn) Xm = -------------------------------------------------------------------------------------n b) Media geométrica: se eleva cada valor al número de veces que se ha repetido. Se multiplican todo estos resultados y al producto final se le calcula la raíz "n" (siendo "n" el total de datos de la muestra). 𝑛
𝑛
𝑥̅𝑔 = √∏ 𝑥𝑖 𝑖=1
Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la media geométrica. La media geométrica se suele utilizar en series de datos como tipos de interés anuales, inflación, etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores. En todo caso, la media aritmética es la medida de posición central más utilizada. Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna información. Sin embargo, presenta el problema de que su valor (tanto en el caso de la media aritmética como geométrica) se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en gran medida el valor de la media, perdiendo ésta representatividad. 2.- Mediana: es el valor de la serie de datos que se sitúa justamente en el centro de la muestra (un 50% de valores son inferiores y otro 50% son superiores).
No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en su cálculo toda la información de la serie de datos (no pondera cada valor por el número de veces que se ha repetido). 3.- Moda: es el valor que más se repite en la muestra. Ejemplo: vamos a utilizar la tabla de distribución de frecuencias con los datos de la estatura de los alumnos que tenemos en la tabla siguiente. Variable (Valor) x
x 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30
Frecuencias absolutas Simple Acumulada x x 1 1 4 5 4 9 2 11 1 12 2 14 3 17 3 20 4 24 3 27 3 30
Frecuencias relativas Simple Acumulada x 3,3% 3,3% 13,3% 16,6% 13,3% 30,0% 6,6% 36,6% 3,3% 40,0% 6,6% 46,6% 10,0% 56,6% 10,0% 66,6% 13,3% 80,0% 10,0% 90,0% 10,0% 100,0%
Vamos a calcular los valores de las distintas posiciones centrales: 1.- Media aritmética: (1,20*1) + (1,21*4) + (1,22 * 4) + (1,23 * 2) + ......... + (1,29 * 3) + (1,30 * 3) Xm = ------------------------------------------------------------------------------------------------30 Luego: Xm = 1,253 Por lo tanto, la estatura media de este grupo de alumnos es de 1,253 cm. 2.- Media geométrica: ((1,20^ 1) * (1,21^4) * (1,22^ 4) * .....* (1,29^3)* (1,30^3)) ^ X= (1/30) Luego: Xm = 1,253 En este ejemplo la media aritmética y la media geométrica coinciden, pero no tiene siempre por qué ser así. 3.- Mediana: La mediana de esta muestra es 1,26 cm, ya que por debajo está el 50% de los valores y por arriba el otro 50%. Esto se puede ver al analizar la columna de frecuencias relativas acumuladas. En este ejemplo, como el valor 1,26 se repite en 3 ocasiones, la media se situaría exactamente entre el primer y el segundo valor de este grupo, ya que entre estos dos valores se encuentra la división entre el 50% inferior y el 50% superior. 4.- Moda: Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta seria cuenta con 3 modas. Medidas de posición no central
Medidas de posición no centrales Las medidas de posición no centrales permiten conocer otros puntos característicos de la distribución que no son los valores centrales. Entre otros indicadores, se suelen utilizar una serie de valores que dividen la muestra en tramos iguales: Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados. Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados. Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados. Ejemplo: Vamos a calcular los cuartiles de la serie de datos referidos a la estatura de un grupo de alumnos (lección 2ª). Los deciles y centiles se calculan de igual manera, aunque haría falta distribuciones con mayor número de datos. Variable (Valor) x
x 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30
Frecuencias absolutas Simple Acumulada x x 1 1 4 5 4 9 2 11 1 12 2 14 3 17 3 20 4 24 3 27 3 30
Frecuencias relativas Simple Acumulada x 3,3% 3,3% 13,3% 16,6% 13,3% 30,0% 6,6% 36,6% 3,3% 40,0% 6,6% 46,6% 10,0% 56,6% 10,0% 66,6% 13,3% 80,0% 10,0% 90,0% 10,0% 100,0%
1º cuartil: es el valor 1,22 cm, ya que por debajo suya se sitúa el 25% de la frecuencia (tal como se puede ver en la columna de la frecuencia relativa acumulada). 2º cuartil: es el valor 1,26 cm, ya que entre este valor y el 1º cuartil se sitúa otro 25% de la frecuencia. 3º cuartil: es el valor 1,28 cm, ya que entre este valor y el 2º cuartil se sitúa otro 25% de la frecuencia. Además, por encima suya queda el restante 25% de la frecuencia. Atención: cuando un cuartil recae en un valor que se ha repetido más de una vez (como ocurre en el ejemplo en los tres cuartiles) la medida de posición no central sería realmente una de las repeticiones.
CUARTILES DE DATOS AGRUPADOS Posición del cuartil
Valor del cuartil
𝑄𝑖 = 1 +
𝑖(𝑛−1)
𝑑(𝑄𝑖 ) = 𝐿𝑖 +
4 𝑖(𝑛⁄4)− 𝐹𝑎−1 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒
(𝑐)
Posición del Percentil
Valor del percentil
𝑃𝑖 = 1 +
𝑖(𝑛−1) 100
𝑑(𝑃𝑖 ) = 𝐿𝑖 +
𝑖(𝑛⁄100)−𝐹𝑎−1 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒
(𝑐)
Li = Límite inferior que contiene el cuantil deseado Fa-1 = Frecuencia acumulada de la clase anterior a la que contiene el cuantil deseado Frecuencia de clase = frecuencia de la clase que contiene el cuantil deseado C = Amplitud del intervalo
Ejemplo N° 2 de la siguiente Tabla de distribución de frecuencias determina: Q 3, P37 y P68 N° de clase
Intervalos
Frecuencia absoluta (fi)
1 2 3 4 5 6 7
(8 – 14 ] (14 – 20 ] (20 – 26 ] (26 – 32 ] (32 – 38 ] (38 – 44 ] (44 – 50 ]
26 49 43 17 12 2 1
Frecuencia absoluta acumulada (Fa) 26 75 118 135 147 149 150
𝑄3 = 1 +
𝑑(𝑄3 ) = 20 +
Frecuencia relativa (fr) 0.1733 0.3266 0.2866 0.1133 0.08 0.0133 0.0066
Frecuencia relativa acumulada (Fra) 0.1733 0.5 0.7866 0.9 0.98 0.9933 1.0000
3(150 − 1) = 112.75 4
3(150⁄4) − 75 (6) = 25.23 43
Medidas de dispersión Estudia la distribución de los valores de la serie, analizando si estos se encuentran más o menos concentrados, o más o menos dispersos. Existen diversas medidas de dispersión, entre las más utilizadas podemos destacar las siguientes: 1.- Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor más elevado y el valor más bajo. 2.- Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el número de veces que se ha repetido cada valor. El sumatorio obtenido se divide por el tamaño de la muestra.
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos están. 3.- Desviación típica: Se calcula como raíz cuadrada de la varianza. 4.- Coeficiente de variación de Pearson: se calcula como cociente entre la desviación típica y la media. Ejemplo: vamos a utilizar la serie de datos de la estatura de los alumnos de una clase (lección 2ª) y vamos a calcular sus medidas de dispersión.
Variable (Valor) x
x 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30
Frecuencias absolutas Simple Acumulada x x 1 1 4 5 4 9 2 11 1 12 2 14 3 17 3 20 4 24 3 27 3 30
Frecuencias relativas Simple Acumulada x 3,3% 3,3% 13,3% 16,6% 13,3% 30,0% 6,6% 36,6% 3,3% 40,0% 6,6% 46,6% 10,0% 56,6% 10,0% 66,6% 13,3% 80,0% 10,0% 90,0% 10,0% 100,0%
1.- Rango: Diferencia entre el mayor valor de la muestra (1,30) y el menor valor (1,20). Luego el rango de esta muestra es 10 cm. 2.- Varianza: recordemos que la media de esta muestra es 1,253. Luego, aplicamos la fórmula:
Por lo tanto, la varianza es 0,0010 3.- Desviación típica: es la raíz cuadrada de la varianza. Luego: 4.- Coeficiente de variación de Pearson: se calcula como cociente entre la desviación típica y la media de la muestra. Cv = 0,0320 / 1,253 Luego, Cv = 0,0255 El interés del coeficiente de variación es que al ser un porcentaje permite comparar el nivel de dispersión de dos muestras. Esto no ocurre con la desviación típica, ya que viene expresada en las mismas unidas que los datos de la serie.
Por ejemplo, para comparar el nivel de dispersión de una serie de datos de la altura de los alumnos de una clase y otra serie con el peso de dichos alumnos, no se puede utilizar las desviaciones típicas (una viene vienes expresada en cm y la otra en kg). En cambio, sus coeficientes de variación son ambos porcentajes, por lo que sí se pueden comparar.
SEGUNDA PARTE (RECTA DE REGRESION Y COEFICIENTE DE CORRELACION) ACTIVIDAD DE APRENDIZAJE N° 3 En esta actividad se relaciona la problemática del campo y nos permitirá desarrollar nuestra capacidad reflexiva y crítica, considerando elementos estadísticos en la toma de decisiones con respecto a la problemática del campo. 1.- Resuelve el siguiente Problema: A continuación se presentan los datos del decremento de precios de los champiñones frescos, en comparación con otros alimentos de alto consumo en México. Expresado en USD/kg AÑO 2000 2001 2002 2003 2004 2005 2006 2007
CHAMPIÑONES 4.05 4.1 4.11 3.57 3.41 3.55 3.57 3.51
ARROZ 0.83 0.72 0.7 0.59 0.85 0.84 0.64 0.82
JITOMATE 1.16 1.03 1.25 0.71 0.74 0.74 0.65 0.53
2.- Calcula la varianza y la desviación estándar de cada uno de los conceptos de este conjunto de datos. 3.- Realicen gráficas de barras para comparar el decremento de precios de los tres alimentos. 4.- ¿Cómo explicas el significado de las medidas de variación utilizadas en esta actividad? SOLUCIÓN: (CHAMPIÑONES FRESCOS)
(xi - 𝑥̅ ) AÑO 2000 2001
PRECIO 4.05 4.1
fi 1 1
Fa 1 2
xifi 4.05 4.1
0.3163 0.3663
(𝑥𝑖 − 𝑥̅ )2 0.10004569 0.13417569
2002 2003 2004 2005 2006 2007
4.11 3.57 3.41 3.55 3.57 3.51
1 1 1 1 1 1
3 4 5 6 7 8
4.11 3.57 3.41 3.55 3.57 3.51 29.87
0.3763 -0.1637 -0.3237 -0.1837 -0.1637 -0.2237
0.14160169 0.02679769 0.10478169 0.03374569 0.02679769 0.05004169 0.61798752
∑ 𝑥𝑖𝑓𝑖 29.87 𝑋̅= = =3.7337 𝐹𝑎
8
𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 = 𝑆 2 =
1 𝑛−1
∑(𝑥𝑖 − 𝑥̅ )2 =
1 7
(0.61798752) = 0.088283931
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 = 𝞼 = √0.088283931 = 0.297126119 𝑆𝑒𝑠𝑔𝑜 = 𝐴𝑠𝑖𝑚𝑒𝑡𝑟í𝑎 =
𝑥̅ −𝑀𝑜 𝞼
=
3.7337 −3.57 0.297126119
=
0.1637 0.297126119
= 0.5509
El valor del sesgo significa que como es mayor que 0.1 tiene una asimetría notoria con cola hacia la derecha (por el signo positivo) tal y como podemos observar en la siguiente gráfica. fi = Precios en Dolares/kg de los Champiñones 4.5
4.05
4.1
4.11
4
3.57
3.5
3.41
3.55
3.57
3.51
2004
2005
2006
2007
3 2.5 2 1.5 1 0.5 0 2000
2001
2002
2003
Los "MOMENTOS" son operadores que unifican el cálculo de las medidas de Posición, Dispersión y Forma, permitiendo diferenciar así una distribución de otra. Con los mismos datos del ejemplo anterior podemos determinar los Momentos con respecto al origen: a2 y a3 así como los Momentos con respecto a la media m1, m2 y m3
𝑎𝑟
𝑚𝑟 =
∑𝑘 𝑥𝑖𝑟 𝑓𝑖 = 𝑖=1 𝑛
1 𝑛
∑𝑘𝑖=1(𝑥𝑖 − 𝑥̅ )𝑟 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )fi
AÑO 2000 2001 2002 2003 2004 2005 2006 2007
PRECIO (xi) 4.05 4.1 4.11 3.57 3.41 3.55 3.57 3.51
𝑚1= 1 ( 0.0004 )= 8
𝑚3 =
1 8
fi 1 1 1 1 1 1 1 1
0.00005
Fa 1 2 3 4 5 6 7 8
xifi 4.05 4.1 4.11 3.57 3.41 3.55 3.57 3.51 29.87
𝑚2=
1 8
0.3163 0.3663 0.3763 -0.1637 -0.3237 -0.1837 -0.1637 -0.2237 0.0004
(𝑥 − 𝑥̅ )2 fi
(𝑥 − 𝑥̅ )3 𝑓𝑖
0.10004569 0.13417569 0.14160169 0.02679769 0.10478169 0.03374569 0.02679769 0.05004169 0.61798752
0.03164445 0.04914856 0.05328472 -0.00438678 -0.03391783 -0.00619908 -0.00438678 -0.01119433 0.07399292
( 0.617987 ) = 0.077248
( 0.073992)= 0.009249
RECTA DE REGRESIÓN Para calcular el "Coeficiente de Correlación" es necesario conocer el concepto de "Covarianza". Estos índices miden el grado de asociación entre dos variables.
𝑛
COVARIANZA = 𝐶𝑉𝑋𝑌
1 = [∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)] 𝑛−1 𝑖=1
COEFICIENTE DE CORRELACION = 𝐶𝑟 =
𝐶𝑉𝑥𝑦 𝑆𝑥𝑆𝑦
𝑅𝐸𝐶𝑇𝐴 𝐷𝐸 𝑅𝐸𝐺𝑅𝐸𝑆𝐼𝑂𝑁 𝐷𝐸 𝑦 𝑆𝑂𝐵𝑅𝐸 𝑥
𝑦 − 𝑦̅ =
𝑆𝑥𝑦 𝑆 2𝑥
(x-𝑥̅ )
𝑆 2 𝑥𝑦 𝐶𝑂𝐸𝐹𝐼𝐶𝐼𝐸𝑁𝑇𝐸 𝐷𝐸 𝐷𝐸𝑇𝐸𝑅𝑀𝐼𝑁𝐴𝐶𝐼𝑂𝑁 = 𝑟 = 2 2 𝑆 𝑥𝑆 𝑦 2
N° de Obser. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
𝑥̅ =
259 15
(𝑥𝑖 − 𝑥̅ ) xi 12 14 18 10 25 19 17 22 18 19 23 21 17 13 11 259
= 17.26
𝐶𝑉𝑥𝑦 =
1 15−1
yi 7 8 9 6 10 10 8 9 7 6 9 9 7 5 5 115
𝑦̅ =
115 15
-5.26 -3.26 0.74 -7.26 7.74 1.74 -0.26 4.74 0.74 1.74 5.74 3.74 -0.26 -4.26 -6.26 0.1
(𝑦𝑖 − 𝑦̅ ) (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) -0.66 0.34 1.34 -1.66 2.34 2.34 0.34 1.34 -0.66 -1.66 1.34 1.34 -0.66 -2.66 -2.66 0.1
3.4716 -1.1084 0.9916 12.0516 18.1116 4.0716 -0.0884 6.3516 -0.4884 -2.8884 7.6916 5.0116 0.1716 11.3316 16.6516 81.334
( 𝑥𝑖 − 𝑥̅ )2 (𝑦𝑖 − 𝑦̅ )2 27.6676 10.6276 0.5476 52.7076 59.9076 3.0276 0.0676 22.4676 0.5476 3.0276 32.9476 13.9876 0.0676 18.1476 39.1876 284.934
= 7.66
(81.334) = 5.8095
𝐶𝑟=
5.8095 √(20.3495)(2.8089)
5.8095
= 7.5599=0.7684
0.4356 0.1156 1.7956 2.7556 5.4756 5.4756 0.1156 1.7956 0.4356 2.7556 1.7956 1.7956 0.4356 7.0756 7.0756 39.334
𝑛
𝑆𝑥 2
1 1 = ∑(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖 = ( 284.894 ) = 20.3495 𝑛−1 15 − 1 𝑖=1
𝑛
𝑆𝑦 2
1 1 (39.325) = 2.8089 = ∑(𝑦𝑖 − 𝑦̅)2 𝑓𝑖 = 𝑛−1 15 − 1 𝑖=1
y = 𝑦̅ +
𝑆𝑥𝑦 𝑆𝑥
2
(𝑥 − 𝑥̅ ) = 7.66 +
5.8095 20.3495
(𝑥 − 17.26) = 7.66 + 0.285486 (𝑥 − 17.26)
= 7.66 + 0.285486𝑥 − 4.927490 = 0.285486𝑥 + 2.73251 Recta de Regresión y Coeficiente de Determinación 12 10
10 9
8
8 7
6
6
10 9 9 9
8 7 7 6
5
5
4 y = 0.2854x + 2.738 R² = 0.5902
2 0 0
5
10
15
20
25
30
"ERROR ESTANDAR DE ESTIMACIÓN" Para el caso de las Ecuaciones de las Rectas de Regresión, resulta importante cómo medir el grado de confiabilidad de la ecuación de estimación desarrollada. Para medir la Confiabilidad referida en el párrafo anterior, se utiliza el cálculo del error estándar. El " error estándar de estimación" ( Se ) mide la variabilidad o dispersión de los valores observados alrededor de la recta de regresión.
∑ 𝑦𝑖 2 − 𝑏 ∑ 𝑦𝑖 − 𝑎 ∑ 𝑥𝑖 𝑦𝑖 𝑆𝑒 = √ 𝑛−2 Donde: yi = valores de la variable dependiente xi = valores de la variable dependiente
𝑎 = 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 =
𝑆𝑥𝑦 𝑆𝑥 2
𝑏 = 𝑙𝑎 𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑐𝑡𝑎 = 𝑦̅ −
𝑆𝑥𝑦 𝑆𝑥 2
𝑥̅
𝑛 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑝𝑢𝑛𝑡𝑜𝑠
N° de obser. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
𝑎=
5.8095 20.3495
Ejercicios (xi) 12 14 18 10 25 19 17 22 18 19 23 21 17 13 11
Aciertos (yi) 7 8 9 6 10 10 8 9 7 6 9 9 7 5 5 115
= 0.285486
y2 49 64 81 36 100 100 64 81 49 36 81 81 49 25 25 921
𝑏 = 7.66 −
xiyi 84 112 162 60 250 190 136 198 126 114 207 189 119 65 55 2067
5.8095 20.3495
(17.26) = 7.66 - 4.927490 = 2.732509
𝑆
921−(2.7326)(115)−(0.2854)(2067) √16.8292 𝑒= √ = =1.137784 13 15 −2
"Interpreta el resultado". El valor mínimo es 0, cuando todos los puntos caen a lo largo de la ecuación de la recta. No hay un límite superior, por lo que puede ser difícil juzgarlo por ti mismo. COMPARA con otros modelos. El modelo con el menor error estándar de estimación es la mejor opción para la muestra. Compara con la media de la muestra de y. Entre mayor sea la diferencia, mejor encajará.
COMPARANDO MEDIA ARITMÉTICA Y DESVIACIÓN ESTÁNDAR 1. Para estimar el número de peces que hay en un lago, se realizó lo siguiente: se capturó una muestra al azar de peces, se les marcó y fueron devueltos al agua. un breve tiempo después, se capturó una nueva muestra, se registró la proporción de peces marcados versus el total de peces de la muestra. Si las muestras fueron efectivamente aleatorias, entonces se espera que la frecuencia relativa de peces marcados en la segunda muestra sea aproximadamente la misma que la de peces marcados en la población. Supón que en el primer proceso se capturan y marcan 120 peces. Posteriormente se capturan 100 peces de los cuales 22 están marcados. Estima el número de peces del lago. (En el sitio www.ideamas.uchile.cl se incluye un programa de simulación para el estudio de distribuciones de muestras de un mismo tamaño en la que intervienen dos atributos en una proporción conocida.) 2. Ocho amigos conversan sobre el número de hermanos que tiene cada uno. Llegan a la información que se resume en la tabla siguiente:
N° de hermanos 1 2 3 4 Total
frecuencia 2 2 2 2 8
Calcula el promedio de hermanos del grupo. Para experimentar en relación con las muestras, forma todos los dúos de amigos y para cada dúo calcula el promedio de hermanos. Hacer el gráfico de la distribución del promedio de hermanos de todas las muestras, calcula la desviación estándar de esta distribución y compárala con el promedio y la distribución estándar del número de hermanos del grupo de amigos. Forma todos los tríos de amigos y procede a hacer los mismos cálculos. Compara con los resultados obtenidos en relación con los promedios calculados.
Constata la relación s = / n en que s es la desviación estándar de la distribución de todas las muestras, es la de la población y n es el número de elementos de la muestra 3. Se dispone de una bolsa con 100 fichas numeradas: Nº en la ficha Cantidad
1 10
2 10
3 10
4 10
5 10
6 10
7 10
8 10
9 10
10 10
Se pide: Obtener muestras al azar de tamaño 10 y calcular para cada una de ellas la media de los valores de las fichas como también su desviación estándar. Obtener muestras al azar de tamaño 20 y calcular para cada una de ellas la media de los valores de las fichas como también su desviación estándar. Obtener muestras al azar de tamaño 30 y calcular para cada una de ellas la media de los valores de las fichas como también su desviación estándar. Comparar los valores de las medias y desviaciones estándar obtenidos en los experimentos anteriores. Realizar inferencias sobre el valor de la media poblacional a partir de algunas de las muestras anteriores.
PROBLEMAS PROPUESTOS PARA SU SOLUCION 1. Indica que variables son cualitativas y cuales cuantitativas: 1 Comida Favorita. 2 Profesión que te gusta. 3 Número de goles marcados por tu equipo favorito en la última temporada. 4 Número de alumnos de tu Instituto. 5 El color de los ojos de tus compañeros de clase. 6 Coeficiente intelectual de tus compañeros de clase.
2. De las siguientes variables indica cuáles son discretas y cuales continúas. 1 Número de acciones vendidas cada día en la Bolsa. 2Temperaturas registradas cada hora en un observatorio. 3 Período de duración de un automóvil. 4 El diámetro de las ruedas de varios coches. 5 Número de hijos de 50 familias.
6 Censo anual de los españoles. 3. Clasificar las siguientes variables en cualitativas y cuantitativas discretas o continuas. 1 La nacionalidad de una persona. 2 Número de litros de agua contenidos en un depósito. 3 Número de libros en un estante de librería. 4 Suma de puntos tenidos en el lanzamiento de un par de dados. 5 La profesión de una persona. 6 El área de las distintas baldosas de un edificio. 4. Las puntuaciones obtenidas por un grupo en una prueba han sido: 15, 20, 15, 18, 22, 13, 13, 16, 15, 19, 18, 15, 16, 20, 16, 15, 18, 16, 14, 13. Construir frecuencias.
la
tabla
de
distribución de
frecuencia s
y
dibuja
el
polígono
de
5. El número de estrellas de los hoteles de una ciudad viene dado por la siguiente serie: 3, 3, 4, 3, 4, 3, 1, 3, 4, 3, 3, 3, 2, 1, 3, 3, 3, 2, 3, 2, 2, 3, 3, 3, 2, 2, 2, 2, 2, 3, 2, 1, 1, 1, 2, 2, 4, 1. Construir la tabla de distribución de frecuencias y dibuja el diagrama de barras.
6. Las calificaciones de 50 alumnos en Matemáticas han sido las siguientes: 5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5, 6, 7. Construir la tabla de distribución de frecuencias barras.
y dibuja el diagrama de
7. Los pesos de los 65 empleados de una fábrica vienen dados por la siguiente tabla:
Peso
[50, 60)
[60, 70)
[70, 80)
[80,90)
[90, 100)
[100, 110)
[110, 120)
fi
8
10
16
14
10
5
2
1 Construir la tabla de frecuencias. 2 Representar el histograma y el polígono de frecuencias . 3 Determina Q1, Q3 y P42 4 Determina la Media, la Mediana y la Moda.
8. Los 40 alumnos de una clase han obtenido las siguientes puntuaciones, sobre 50, en un examen de Física.
3, 15, 24, 28, 33, 35, 38, 42, 23, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.
1 Construir la tabla de frecuencias. 2 Dibujar el histograma y el polígono de frecuencias. 3.- Determina los momentos a 1,a3, m3 y m5 4.- Determina los coeficientes de determinación y de correlación. 5.- Determina la recta de Regresión y el Error estándar de estimación.
9. Sea una distribución estadística que viene dada por la siguiente tabla: xi
61
64
67
70
73
fi
5
18
42
27
8
Calcular:
1 La moda, mediana y media. 2 El rango, desviación media, varianza y desviación típica .
10.Calcular la media, la mediana y la moda de la siguiente serie de números: 5, 3, 6, 5, 4, 5, 2, 8, 6, 5, 4, 8, 3, 4, 5, 4, 8, 2, 5, 4. 11 Hallar la varianza y la desviación típica de la siguiente serie de datos: 12, 6, 7, 3, 15, 10, 18, 5.
12 Hallar la media, mediana y moda de la siguiente serie de números: 3, 5, 2, 6, 5, 9, 5, 2, 8, 6.
13. Hallar la desviación media, la varianza y la desviación típica de la series de números siguientes: 2, 3, 6, 8, 11. 12, 6, 7, 3, 15, 10, 18, 5.
14 Se ha aplicado un test a los empleados de una fábrica, obteniéndose la siguiente tabla:
fi [38, 44)
7
[44, 50)
8
[50, 56)
15
[56, 62)
25
[62, 68)
18
[68, 74)
9
[74, 80)
6
Dibujar el histograma y el polígono de frecuencias acumuladas .
15. Dadas las series estadísticas: 3, 5, 2, 7, 6, 4, 9. 3, 5, 2, 7, 6, 4, 9, 1. Calcular: La moda, la mediana y la media. La desviación media, la varianza y la desviación típica. Los cuartiles 1º y 3º. Los deciles 2º y 7º. Los percentiles 32 y 85.
16. Una distribución estadística viene dada por la siguiente tabla: [10, 15)
[15, 20)
[20, 25)
[25, 30)
[30, 35)
3
5
7
4
2
fi
Hallar: La moda, mediana y media. El rango, desviación media y varianza. Los cuartiles 1º y 3º. Los deciles 3º y 6º. Los percentiles 30 y 70.
17. Dada la distribución estadística:
fi
[0, 5)
[5, 10)
[10, 15)
[15, 20)
[20, 25)
[25, ∞)
3
5
7
8
2
6
Calcular: La mediana y moda. Cuartil 2º y 3º. Media La Recta de Regresión y el Coeficiente de Determinación
18. Los siguientes datos representan los años de práctica profesional de ingreso anual en (Miles de Dólares) para un conjunto de Interventores Públicos: AÑOS DE PRACTICA INGRESOS 5 4 15 4 24 4 16 9 19 6 3 2 6 3 12 3 27 7 13 5 Realizar lo siguiente: a) Representa el diagrama de dispersión para este conjunto de datos. b) La Recta de Regresión y el Coeficiente de Determinación
19. Un estadístico de una determinada línea aérea desea determinar la ecuación que relaciona la distancia de destino con la carga de mercancía para un tamaño estándar de embalaje. Se obtuvieron los siguientes datos para una muestra aleatoria de diez facturaciones de carga:
DISTANCIA 22.4 36.8 14.4 27.2 16.0 35.2 8.0 19.2 9.6 25.6
CARGA 6.8 10.5 4.0 7.9 8.1 9.5 3.1 7.2 4.5 9.3
20. Se han obtenido los siguientes datos en una determinada ciudad donde se relaciona el tamaño familiar (x) con la utilización de un determinado producto de limpieza (y), según las unidades utilizadas: TAMAÑO FAMILIAR 5 8 7 3 2 4 5 5 6 7
UNIDADES UTILIZADAS 4 5 5 6 7 2 3 2 4 5
Determina lo siguiente:
a.- Determina los coeficientes de determinación y de correlación. b.- Determina la recta de Regresión y el Error estándar de estimación. c.- Interpreta los resultados.
El propósito de esta guía es elaborar un ensayo y resolver los problemas que están propuestos. ¿Qué es un ensayo? ALGUNAS CARACTERISTICAS SON:
Ofrece claridad. Ofrece un estilo de redacción interesante. Consiste principalmente en que expongas tus ideas sobre el tema. Utiliza un tono formal.
Recuerda que para comenzar a redactar el ensayo necesitas hacer lo siguiente: • • •
Redactando diversas preguntas. Localiza información que te permita contestar las preguntas. Escribe tus propias ideas.
• •
Identifica la idea principal. Escribe de forma que se apoye tu idea principal.