UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO ESCUELA NACIONAL COLEGIO DE CIENCIAS Y HUMANIDADES PLANTEL SUR ACADEMIA DE MATEMÁTICAS

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO ESCUELA NACIONAL COLEGIO DE CIENCIAS Y HUMANIDADES PLANTEL SUR ACADEMIA DE MATEMÁTICAS GUÍA PARA PREPARAR EL

11 downloads 41 Views 317KB Size

Recommend Stories


UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO ESCUELA NACIONAL COLEGIO DE CIENCIAS Y HUMANIDADES PLANTEL SUR ACADEMIA DE MATEMÁTICAS
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO ESCUELA NACIONAL COLEGIO DE CIENCIAS Y HUMANIDADES PLANTEL SUR ACADEMIA DE MATEMÁTICAS GUÍA PARA PREPARAR EL

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO COLEGIO DE CIENCIAS Y HUMANIDADES PLANTEL SUR ÁREA DE CIENCIAS EXPERIMENTALES
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO COLEGIO DE CIENCIAS Y HUMANIDADES PLANTEL SUR ÁREA DE CIENCIAS EXPERIMENTALES GUÍA Y MATERIAL DE AUTO - ESTUD

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO COLEGIO DE CIENCIAS Y HUMANIDADES PLANTEL SUR CLAVE 1204
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO COLEGIO DE CIENCIAS Y HUMANIDADES PLANTEL SUR GUÍA PARA EL EXAMEN EXTRAORDINARIO DE HISTORIA UNIVERSAL MODERN

Universidad Nacional Autónoma de México. Colegio de Ciencias y Humanidades. Plantel Sur. Academia del Área. Histórico- Social
Universidad Nacional Autónoma de México Colegio de Ciencias y Humanidades Plantel Sur Academia del Área Histórico- Social GUÍA DE ESTUDIO PARA PREPAR

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO COLEGIO DE CIENCIAS Y HUMANIDADES PLANTEL ORIENTE ÁREA DE CIENCIAS EXPERIMENTALES
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO COLEGIO DE CIENCIAS Y HUMANIDADES PLANTEL ORIENTE ÁREA DE CIENCIAS EXPERIMENTALES GUÍA DE ESTUDIO PARA EXAMEN

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO COLEGIO DE CIENCIAS Y HUMANIDADES PLANTEL ORIENTE ÁREA DE CIENCIAS EXPERIMENTALES
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO COLEGIO DE CIENCIAS Y HUMANIDADES PLANTEL ORIENTE ÁREA DE CIENCIAS EXPERIMENTALES GUÍA DE ESTUDIO PARA EXAMEN

UNIVERSIDAD NACIONAL AUTÓNOMA DE MEXICO COLEGIO DE CIENCIAS Y HUMANIDADES PLANTEL SUR. GUÍA DE ESTUDIO MATEMÁTICAS III (Álgebra y Geometría)
UNIVERSIDAD NACIONAL AUTÓNOMA DE MEXICO COLEGIO DE CIENCIAS Y HUMANIDADES PLANTEL SUR GUÍA DE ESTUDIO MATEMÁTICAS III (Álgebra y Geometría) y = 2x +

Universidad Nacional Autónoma de México Colegio de Ciencias y Humanidades
Universidad Nacional Autónoma de México Colegio de Ciencias y Humanidades Área de Ciencias Experimentales Programas de Estudio de Biología I a IV Í

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO COLEGIO DE CIENCIAS Y HUMANIDADES PLANTEL AZCAPOTZALCO
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO COLEGIO DE CIENCIAS Y HUMANIDADES PLANTEL AZCAPOTZALCO TALLER DE LECTURA, REDACCIÓN E INICIACIÓN A LA INVESTIG

Universidad Nacional Autónoma de México Colegio de Ciencias y Humanidades
Universidad Nacional Autónoma de México Colegio de Ciencias y Humanidades Área Histórico-Social Programas de Estudio de Economía I y II ÍNDICE PRES

Story Transcript

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO ESCUELA NACIONAL COLEGIO DE CIENCIAS Y HUMANIDADES PLANTEL SUR ACADEMIA DE MATEMÁTICAS

GUÍA PARA PREPARAR EL EXAMEN EXTRAORDINARIO DE ESTADISTICA Y PROBABILIDAD I

ELABORARON PROFR. HELIOS BECERRIL MONTES MTRO. JUAN DE DIOS HERNANDEZ GARZA MTRA. MARIA DEL ROSARIO JIMENEZ HERNANDEZ PROFRA. ALICIA LARA ALVAREZ

NOVIEMBRE DE 2005

REVISION MTRA. MA. DEL ROSARIO JIMENEZ HERNANDEZ MTRO. JUAN DE DIOS HERNANDEZ GARZA MARZO DE 2010

CONSIDERACIONES IMPORTANTES Los exámenes extraordinarios son oportunidades que debes aprovechar para aprobar las asignaturas que, por diversas razones, reprobaste en el curso normal, pero, presentarse a un examen sin la preparación suficiente significa un fracaso seguro, es una pérdida de tiempo y un acto irresponsable que puedes evitar. Para aumentar tu probabilidad de éxito en el examen mediante la utilización de la guía, es necesario que: • • •

Sigas al pie de la letra las instrucciones de la guía. Procura dedicar al estudio de esta guía tiempo diario suficiente y con un tiempo mínimo de dos meses antes del examen. Contesta toda la guía y verifica tus respuestas, cuando no hayas contestado correctamente revisa lo que hiciste y si así no obtienes la respuesta correcta acude a asesorías con algún profesor.

Programa de Estadística y Probabilidad I La Estadística y la Probabilidad se han vuelto requisito indispensable en la vida cotidiana para interpretar una gran variedad de información en diversos campos de estudio. En su entorno una persona encuentra reportes financieros, económicos, médicos y otros que se pueden entender y evaluar con una comprensión básica de estas disciplinas. El estudio de ambas asignaturas representa una secuencia de conocimientos que se enriquecen conforme se avanza en su estudio. Su objetivo es el de brindarte conceptos y procedimientos básicos que te permitan continuar tu formación matemática, además de adquirir conocimientos de carácter introductorio y propedéutico del estudio de los métodos probabilísticos y estadísticos, así como de sus aplicaciones en diversos campos del conocimiento. Con ello se pretende reforzar el empleo de estrategias, tu capacidad de solución de problemas, desarrollo de habilidades y de diversas formas de razonamiento. Al terminar de contestar esta guía de estudio habrás logrado: • Comprender la naturaleza de los fenómenos aleatorios que se presentan en tu entorno, para continuar el desarrollo de tu pensamiento matemático. • Comprender que la Probabilidad y la Estadística constituyen disciplinas que incluyen conceptos, técnicas y métodos que permiten aproximarse al estudio de los fenómenos aleatorios a partir del tratamiento de la información. • Realizar predicciones e inferencias sustentadas en modelos matemáticos, cuyo alcance trasciende hacia otras áreas del conocimiento. • La apropiación de una visión de la Estadística y de su aplicación para describir el comportamiento de un conjunto de datos en una y dos variables. • Adquirir los elementos, métodos y técnicas para estudiar los fenómenos de naturaleza aleatoria con el fin de comprender sus características, obtener información sobre su comportamiento y evaluar sus resultados. 2

LOS CONTENIDOS DEL CURSO Y DE LA GUÍA SON:

UNIDAD

CONTENIDO Introducción

1

Estadística Descriptiva

2

Datos Bivariados

3

Probabilidad INDICE Página

INTRODUCCION Visión inicial y utilidad de la Estadística. Errores en el uso de la Estadística. Conceptos básicos.

4 4 5

UNIDAD 1. ESTADISTICA DESCRIPTIVA Variables y su clasificación Escalas de medición. Recopilación de datos. Tablas de distribución de frecuencias. Descripción gráfica de los datos Descripción numérica de los datos Medidas de Tendencia Central. Medidas de Dispersión. Medidas de Posición. Regla Empírica.

7 8 10 10 12 16 16 26 32 36

UNIDAD 2. DATOS BIVARIADOS Diagrama de Dispersión Correlación entre dos variable numéricas Modelo de Regresión Lineal Simple

37 38 38

UNIDAD 3. PROBABILIDAD. Fenómenos determinísticos y aleatorios Definiciones de Probabilidad Conceptos básicos Probabilidad de eventos simples Probabilidad de eventos compuestos

42 43 43 45 46

RESPUESTAS A LOS EJERCICIOS BIBLIOGRAFIA RECOMENDADA

52 56

3

INTRODUCCION Propósito. Al finalizar esta introducción debes haberte apropiado de una visión inicial de la Estadística y de la Probabilidad a partir de los conceptos básicos y el planteamiento de ejemplos para apreciar los alcances de esta asignatura. Visión inicial Se presenta una visión inicial de la Estadística y de la Probabilidad, que permite apreciar los alcances de la materia. La Estadística es una ciencia que utiliza técnicas y conceptos para elaborar principios y métodos para construir modelos teóricos que permitan describir, analizar e interpretar los procesos estudiados y en consecuencia tomar decisiones frente a la incertidumbre. Actualmente la Estadística se emplea en toda clase de estudios científicos como un procedimiento en la toma de decisiones, como por ejemplo: En medicina: ¿Cómo prueba un médico la eficiencia de un nuevo fármaco? En la industria. ¿Cómo se determina la calidad de producción de un artículo específico? En sociología: ¿De qué modo pronosticar el tamaño de la población mundial para el año 2025? ¿Cómo inferir el tipo de alimentación que nutrirá a la humanidad para ese mismo año? En agricultura: ¿Qué tipos y en qué dosis los fertilizantes insecticidas aumentan las cosechas? En medicina social: ¿Aumenta realmente el tabaquismo las probabilidades del surgimiento del cáncer pulmonar? Para su estudio, la Estadística se divide en: - Estadística Descriptiva que tiene como objetivo organizar la información disponible para describir el comportamiento de un suceso. - Estadística Inferencial que tiene como objetivo interpretar la información para sacar conclusiones acerca de un conjunto grande de personas u objetos, por medio de la información obtenida de sólo una pequeña parte o muestra del conjunto total.

Errores en el uso de la estadística. -

-

Se piensa que los resultados resumidos en la estadística descriptiva son “la pura verdad” y, por ende, hay que apegarse a ellos y que cualquier interpretación de los mismos deforma los hechos. Se sostiene que las interpretaciones permitidas por los resultados de la estadística descriptiva son múltiples y todas igualmente objetivas, pues se basan en los hechos detectados. 4

Estas percepciones son erróneas. La Estadística Descriptiva sí admite y exige una serie de interpretaciones intuitivas de la información; sin embargo, ninguna de dichas interpretaciones posee el rigor teórico y metodológico de la Estadística Inferencial.

Algunos ejemplos son: En la determinación de la media de los salarios en una empresa, si se consideran los altos salarios de los directivos, el promedio salarial estará muy por encima del resultado que se obtendría si se hubiesen excluido las percepciones del cuerpo directivo. Al medir las tasas de empleo, desempleo y subempleo, ¿con qué criterios definir a un empleado, a un desempleado o a un subempleado? Un posible criterio es “que esté haciendo algo (obrero, ejecutivo, estilista, etc.) para ganarse la vida”. Otro es “que tenga X tiempo mínimo trabajando”, o, “que tenga o no un ingreso o sueldo regular”, etc. Otro error muy frecuente es tomar una muestra de una población de manera espontánea, sin un método de muestreo o utilizando criterios personales del investigador (como las muestras no aleatorias). Por ejemplo, al estudiar a los estudiantes de la UNAM se puede elegir como muestra al conjunto de los compañeros del mismo salón, por ser los más accesibles al investigador y se obtendrían conclusiones –sin base- sobre todo el estudiantado.

Conceptos básicos Fenómeno. Es cualquier suceso y se establece que es aleatorio cuando no se puede predecir su resultado y determinístico en caso de que se pueda predecir. Población Una población es la colección de todos los individuos son características comunes. Muestra Una muestra es cualquier subconjunto de la colección de individuos que constituye la población. Estadísticamente una muestra es pequeña cuando tiene menos de 30 datos y grande cuando tiene 30 o más datos. Variable Es cualquier característica de interés que tienen todos los individuos de la muestra o de la población.

5

Algunos ejemplos de variables son: --A un grupo de investigadores de un hospital le interesa conocer en qué proporciones o porcentajes se distribuye el tipo de sangre de las personas que habitan en una ciudad. El tipo de sangre es la variable y también lo puede ser la estatura y peso de los recién nacidos en el hospital. --La trabajadora social del Hospital “Gustavo Baz Prada”, del Estado de México, lleva a cabo un estudio socioeconómico de los pacientes. En cada familiar del paciente entrevistada reporta entre otras el nivel socioeconómico que puede ser alto (A), medio alto (MA), medio (M), medio bajo (MB), o bajo (B). Investiga el número de hijos por familia, que puede ser desde cero hasta cualquier número entero positivo que corresponda a la magnitud observada. El nivel académico de los integrantes de la familia. El tipo de vivienda donde se pregunta si es propia o paga renta, el tipo de piso si es de tierra de cemento u otro; el número de cuartos con que cuenta y cuantos se utilizan para dormir. Todas estas características son variables. Estas características de interés no presentan un solo valor determinado y predecible con exactitud en cada medición observada. Se concluye que una característica de interés que tienen en común todos los elementos de un conjunto de individuos de tal manera que al medirla se obtienen valores diferentes e impredecibles se le llama variable. Relaciona cada concepto con su respectiva definición, escribiendo en el paréntesis la letra correspondiente. ( ) Rama de la Estadística que proporciona las reglas para obtener conclusiones de las características de una población a partir de las de una muestra. ( ) Es un conjunto de individuos con características comunes.

A) Población B) Muestra C) Fenómeno determinístico

( ) Rama de la Estadística que se ocupa de la organización de la información para describir un suceso.

D) Fenómeno aleatorio

(

E) Muestra grande

) Muestra que contiene 30 o más datos

( ) Es un fenómeno al cual no se le puede predecir su estado final.

F) Estadística Descriptiva G) Estadística Inferencial

(

) Es cualquier subconjunto de la población.

(

) Muestra con menos de 30 datos.

H) Muestra pequeña

6

UNIDAD 1.

ESTADISTICA DESCRIPTIVA

Propósito. Al finalizar esta unidad debes haber comprendido y aplicado técnicas para recopilar, organizar y representar a un conjunto de datos proveniente del planteamiento, discusión y resolución de problemas para interpretar y analizar el comportamiento de una variable en dicho conjunto. VARIABLES Las variables constituyen los atributos o características de interés en una muestra o en una población. Como estas características no se mantienen constantes de muestra a muestra o de población a población, se les llama variables estadísticas o simplemente variables. Las variables pueden ser numéricas (cuantitativas), o categóricas (cualitativas). Clasificación de las variables. Las variables se clasifican de acuerdo con el tipo de los valores que pueden asumir cuando se mide la característica de interés. Para los ejemplos de variables anteriores, se mencionan algunos valores: • • • • •

Tipo de sangre posee los niveles: A, B, AB, u O. La estatura puede ser desde 47 hasta 55 cm. El peso desde 1.5 kg hasta 6.1 kg. En el nivel socioeconómico consiste de cinco niveles: A, MA, M, MB o B. El número de hijos pueden ser: 0, 1, 2, 3, 4, … El nivel académico. Si es en primaria, que grado cursa 1º, 2º, 3º, 4º, 5º, 6º. Secundaria el grado es 1º, 2º, 3º.

Se observa que los valores que asume cada variable son distintos, algunos números y otros cierta cualidad. Variable categórica, nominal o cualitativa, Es aquella cuyos posibles valores son únicamente categorías o nombres. Variable escalar, numérica o cuantitativa. Es la variable cuyos valores posibles son números que describen cantidad. Variable discreta. Proviene de un proceso de conteo y se caracteriza por la propiedad de que para dos posibles valores de ella solamente hay un número finito de posibles valores intermedios, es decir, sus valores son numerables. Variable continua. Proviene de un proceso de medición y tiene la propiedad de que entre dos valores de ella, cualquier valor intermedio es también un valor posible, es decir, sus valores no son numerables. Variable aleatoria, Es aquella cuyo valor no se puede predecir. 7

Variable determinista, Es aquella cuyo valor se puede predecir. A continuación se enuncian ejemplos donde se da la característica, valores que puede asumir y se define la variable. Ejemplos: a) Tipo de sangre que tendrá un alumno del CCH. Los valores posibles son: A, B, AB, u O Es una variable cualitativa, aleatoria, nominal. b) Peso de los niños que nacerán en un día determinado en el Hospital Escandón Algunos valores posibles son: 3.200 kg, 3.450 kg, 4 kg. Es una variable cuantitativa, aleatoria, continua.

Ejercicios: Clasifica cada una de las siguientes variables y determina sus posibles valores o algunos de ellos. 1. Grado que cursan los alumnos en una escuela primaria. 2. Número de hijos que tendrá un matrimonio. 3. Número de puntos de la cara superior al lanzar un dado legal una vez. 4. Peso atómico de los elementos químicos. 5. Calificación obtenida por un estudiante al final del curso de Matemáticas I 6. Género de los alumnos que cursarán el sexto semestre este ciclo escolar. 7. Número de teléfono de los alumnos de 16 años que cursan el 5to. Semestre. 8. Fecha de los próximos 10 eclipses solares visibles en México. 9. Número de alumnos a admitir en el bachillerato de la UNAM para el próximo año lectivo. 10. Edad de los alumnos de 3ro. de una secundaria del municipio de Naucalpan. Escalas de medición. Cuando las variables son numéricas, se utilizan, en su medición, las escalas de intervalo y de razón. En la escala de intervalo se puede cambiar el origen y la unidad de medida, por ejemplo en el tiempo (en minutos) que hacen los alumnos de su casa al plantel, el origen puede ser de 15 minutos y la unidad de medida puede cambiar a “unidades de 10 minutos”. Si el objetivo es conocer el número de hermanos, se usa la escala de razón (no se puede cambiar la unidad de medida ni el origen). Los valores de una variable continua se suelen agrupar en intervalos llamados intervalos de clase. El punto medio entre los extremos de cada intervalo se llama marca de clase, punto medio de clase o punto medio del intervalo. Siempre que se agrupe una variable por intervalos se produce una pérdida de la información, pues lo que se tiene en cuenta es la pertenencia o no de cada dato al intervalo y no su valor exacto. La escala nominal se usa cuando se tienen variables categóricas (nominales) como por ejemplo el tipo de música preferido o preferencia por algún refresco. 8

La escala ordinal se usa en situaciones donde los valores de la variable, comúnmente categórica (ordinal), se pueden jerarquizar u ordenar, asignando valores como por ejemplo Excelente, Bueno, Regular o Pésimo, pero no se pueden realizar operaciones aritméticas entre estos valores. Las variables son la herramienta fundamental de la Estadística porque dependiendo del tipo de variable es el análisis que se realiza con cada una de ellas. Por ejemplo los datos de una variable numérica se pueden analizar calculando las medidas de tendencia central (media aritmética, mediana y moda) y las medidas de dispersión (varianza y desviación estándar). Si la variable es categórica ordinal solo se le puede analizar calculando la mediana y la moda; pero si la variable es nominal el único valor que se le puede calcular es la moda.

A continuación se presenta una tabla con las escalas de medición y sus características para las diferentes variables:

Escala de medición

Operaciones básicas

Nominal

Determinación de igualdad o pertenencia a una categoría

Ordinal

Dterminación del grado de intensidad

Cambios permitidos Ejemplos de variables cambios en los nombres de las caregorías

Valores

Sexo

M, F

Religión

C, P, A

Cambios que Calificación mantengan las relaciones de orden

NA, S, B, MB

Intervalo

Determinación de igualdad Se puede cambiar la Temperatura de intervalos o diferencias unidad de medida y el origen

Números enteros y fraccionarios

Razón

Determinación de igualdad Se puede cambiar la Porcentajes de razones o proporciones unidad de medida pero no el origen

Numero enteros y fraccionarios

Absoluta

Determinación del número No se puede cambiar Número de de elementos o conteo de la unidad de medida hijos unidades ni el origen

Enteros

9

RECOPILACION DE DATOS Ejercicio: Completa la siguiente tabla preguntado a 20 de tus compañeros la información necesaria: No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

No de Cuenta

Estatura

No. de hermanos

Peso

Años cumplidos

TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS Cuando se está tratando con una gran cantidad de datos es conveniente agruparlos en intervalos, para lo cual es necesario considerarlos ordenados dentro de ese intervalo de acuerdo a su frecuencia que corresponde al número de veces que los datos considerados se repiten. - Los intervalos o clases deben ser del mismo tamaño o amplitud. - Los intervalos deben construirse de manera que no haya datos que pertenezcan a dos intervalos diferentes, es decir, los intervalos deben ser ajenos y no traslaparse. - Los límites de clase que corresponden, el inferior al menor valor de la variable en cada intervalo y el superior al mayor valor de la variable en el intervalo. - Límites reales de clase que se localizan en medio del límite superior de un intervalo y del límite inferior del siguiente. Además es necesario determinar algunos valores que servirán para analizar y representar al conjunto de datos agrupados en intervalos, tales como:

10

- Marca de clase o punto medio del intervalo.. Es el valor representativo de cada intervalo y corresponde al valor de la variable situado exactamente en el centro de cada uno de ellos. - Frecuencia relativa. Es la medida proporcional de las frecuencia para cada intervalo y que se obtiene dividiendo cada valor de frecuencia entre la suma total de ellas. - Frecuencia acumulada. Es para cualquier intervalo el resultado de sumar su frecuencia con las frecuencias de los intervalos que le preceden. - Frecuencia relativa acumulada. Es la frecuencia relativa de cada intervalo sumada con la frecuencia relativa de los intervalos que le preceden. - Tamaño o amplitud de intervalo. Es el tamaño que corresponde a cada intervalo y que se obtiene como la diferencia del límite real superior menos el límite real inferior de cada intervalo.

Ejemplo. Se tiene que el siguiente conjunto de datos corresponde a la edad (en años) de los habitantes de una colonia de la delegación de Tlalpan, que asisten a la escuela (a partir de la primaria).

Edad (años) Intervalo 7 a 10 11 a 14 15 a 18 19 a 22 23 a 26 27 a 30 31 a 34

Número de habitantes fi 5 11 23 31 16 10 4

Marca de clase xi 8.5 12.5 16.5 20.5 24.5 28.5 32.5

Límites reales de clase LRS LRI 6.5 10.5 10.5 14.5 14.5 18.5 18.5 22.5 22.5 26.5 26.5 30.5 30.5 34.5

Frecuencia relativa fr 0.05 0.11 0.23 0.31 0.16 0.1 0.04

Frecuencia acumulada fa 5 16 39 70 86 96 100

Ejercicio. Los siguientes datos muestran el número de vuelos internacionales recibidos en el aeropuerto de la ciudad de México durante los últimos meses de enero y febrero, construye una tabla de frecuencias con intervalos de tamaño 9 considerando el dato menor como el límite inferior del primer.

71 63 70 49 55

47 37 62 50 57

66 68 61 39 72

67 50 65 41 53

73 59 62 57 42

38 60 45 49 70

63 45 62 73 56

67 48 56 47 58

29 52 63 38 39

54 49 39 61 60

62 48 36 48 53

70 56 43 31 36

11

Intervalo

Frecuencia

Marca de clase

Límites reales Frecuencia Frecuencia de clase relativa acumulada

DESCRIPCION GRAFICA DE LOS DATOS Las gráficas (o gráficos) son muy utilizados en la prensa, en la televisión y en los libros para presentar los datos de una forma más vistosa. Además, también se consigue que, de un solo vistazo, podamos darnos cuenta de los detalles fundamentales. En ocasiones, cuando se nos habla de una persona o lugar, que no conocemos, preferimos que nos muestren una fotografía además de las características que nos puedan platicar. Así pues, resulta conveniente, además de tabular un conjunto de datos, proveer una imagen gráfica que sea explicativa por si sola. Cuando los datos son cualitativos resultan adecuadas las gráficas de barras o circulares. Si los datos son cuantitativos, pueden ser adecuadas el polígono de frecuencias o los histogramas de frecuencias. Un histograma de frecuencias es la gráfica más común para representar datos cuantitativos. Esta gráfica muestra como es la distribución en cuanto a la forma de los datos (simétrica, asimétrica, bimodal, concentraciones o huecos en los datos, etc.). Cuando el histograma se basa en datos provenientes de una muestra, la gráfica solamente describe el comportamiento de los datos en la muestra, pero podría sugerirnos que la población tiene una forma similar, sin embargo no se puede afirmar que la población tenga la misma forma (no se pueden hacer inferencias). Por lo tanto, el histograma es una técnica solamente descriptiva. Características de los gráficos. Las principales características que debe reunir un gráfico, son: a) Debe ajustarse a la realidad de los datos que representa. b) Ha de ser claro y fácil de leer y entender. c) Debe de llevar el título y todas las indicaciones necesarias para una correcta interpretación. Los gráficos pueden ser simples, si representan directamente las frecuencias absolutas o las frecuencias relativas. Los gráficos son acumulativos si representan los valores de las frecuencias acumuladas.

12

Existen diferentes maneras de representar gráficamente a un conjunto de datos, las cuales presentan en forma visual el patrón de comportamiento de la variable de interés, dentro de éstas, están las gráficas de barras y circulares o de pastel las cuales sirven para representar a menudo datos cualitativos o de atributo. a) Gráfico de barras. Es la representación cuyas características convencionales son: • • • • •

De manera general, la variable independiente se acostumbra localizar sobre el eje horizontal, aunque también se puede localizar en el vertical. Las barras son rectángulos cuyo ancho se elige arbitrariamente, pero debe ser el mismo para todas las barras. Los rectángulos deben construirse separados y la separación debe ser la misma. Las bases de los rectángulos deben estar centrados sobre los valores de la variable, aunque también, éstos pueden escribirse dentro del rectángulo. Para considerarse completa la gráfica debe tener Título, Nombre de las variables que se representan, la escala utilizada y las unidades de las variables.

Ejercicio. Construye la gráfica de barras para los siguientes datos que corresponden al número de pacientes atendidos de diferentes enfermedades, en una clínica del ISSSTE durante el mes de febrero pasado. Enfermedad Tos Gripa Fractura Diabetes Males cardiacos Alta presión Dolores estomacales

No. de pacientes 34 112 19 64 43 31 74

b) Gráfico circular. Es la representación cuyas características convencionales son: • De manera general, se determina la proporción de cada valor de la variable independiente. • Se hace la equivalencia de la proporción de la variable independiente a una medida angular. • Se traza en el círculo un radio cualquiera y a partir de él se van midiendo las respectivas aberturas angulares. • Para considerarse completa la gráfica debe tener Título, sobre cada sector circular el valor de la variable independiente y en ocasiones su correspondiente valor de variable dependiente con sus unidades.

Ejercicio. Construye la gráfica circular para los siguientes datos que corresponden al número de pacientes atendidos de diferentes enfermedades, en una clínica del ISSSTE durante el mes de febrero pasado. 13

Enfermedad

No. de pacientes

Tos Gripa Fractura Diabetes Males cardiacos Alta presión Dolores estomacales

34 112 19 64 43 31 74

Para una distribución de frecuencias se tienen diferentes representaciones gráficas, tales como: •

Histograma de frecuencias. Es la representación gráfica de un conjunto agrupado de datos que consiste en un gráfico de barras o rectágulos cuya altura corresponde a la frecuencia de cada intervalo localizada sobre el eje vertical y cuya anchura correspondiente a un intervalo de los valores de la variable representadas por los límites reales de clase. Para considerarlo completo es necesario que tenga un título que identifica a la variable de interés.

Ejercicio. Construye el histograma de frecuencias de los datos que corresponden a las edades los habitantes de Tlalpan.

Edad (años) Intervalo 7 a 10 11 a 14 15 a 18 19 a 22 23 a 26 27 a 30 31 a 34

Número de habitantes fi 5 11 23 31 16 10 4

Marca de clase xi 8.5 12.5 16.5 20.5 24.5 28.5 32.5

Polígono de frecuencias. Es la representación gráfica de un conjunto agrupado de datos que consiste en una gráfica de lineas trazado sobre un sistema de ejes y cuyos vértices tienen como coordenadas los valores de la variable representados por las marcas de clase como abscisas y las frecuencias correspondientes como ordenadas y para que sea un polígono se debe cerrar sobre el eje horizontal en dos puntos que corresponden a las marcas de clase de dos intervalos, uno anterior y el otro posterior a primero y al último intervalo, cuya frecuencia es cero. Para considerarlo completo es necesario que tenga un título que identifica a la variable de interés. 14

Ejercicio. Construye el polígono de frecuencias de los datos que corresponden a las edades los habitantes de Tlalpan. Edad (años) Intervalo 7 a 10 11 a 14 15 a 18 19 a 22 23 a 26 27 a 30 31 a 34

Número de habitantes fi 5 11 23 31 16 10 4

Marca de clase xi 8.5 12.5 16.5 20.5 24.5 28.5 32.5

Ojiva. Es la representación gráfica de un conjunto de datos agrupados que consiste en un gráfico de líneas donde los vértices tienen como abscisa los valores de la variable representados por los límites reales superiores y como ordenada la frecuencia relativa o frecuencia relativa acumulada (ojiva porcentual). La ojiva puede ser creciente o “menos que” o decreciente o “o más”, pero generalmente a menos que se indique lo contrario, cuando se solicita construir una ojiva, será la “menor que” solo de la cual nos ocuparemos en esta guía y que se inicia con una frecuencia acumulada igual a cero que corresponde al límite real inferior del primer intervalo y consecuentemente al límite real superior de un intervalo precedente con frecuencia 0.

Ejercicio. Construye la ojiva de los datos que corresponden a las edades los habitantes de Tlalpan. Edad (años) Intervalo 7 a 10 11 a 14 15 a 18 19 a 22 23 a 26 27 a 30 31 a 34

Número de habitantes fi 5 11 23 31 16 10 4

Límites reales de clase LRS 6.5 10.5 14.5 18.5 22.5 26.5 30.5 34.5

Frecuencia acumulada fa 0 5 16 39 70 86 96 100

15

DESCRIPCION NUMÉRICA DE LOS DATOS Las medidas numéricas descriptivas, resumen la información de un conjunto de datos. En una población, los parámetros más importantes son los que ubican el centro de la distribución y los que describen la dispersión de los datos. A estos se les llama respectivamente, Medidas de Tendencia Central y Medidas de Dispersión o Variabilidad, por tal motivo resulta necesario, en primera instancia, calcular estos tipos de medidas a los datos de la muestra y, en segundo lugar, cuando se pretende hacer inferencias sobre los parámetros de la población, estas medidas muestrales serán los estimadores para tal efecto.

MEDIDAS DE CENTRALIZACIÓN O DE TENDENCIA CENTRAL Las medidas de centralización o de tendencia central más comunes son: la media aritmética (o simplemente media), la mediana y la moda. Estas medidas sirven para localizar el centro de una distribución de datos, es decir, ubican el valor alrededor del cual se encuentra un conjunto de datos. Aunque tienen un mismo propósito, estas medidas, de manera general, tendrán un valor diferente (sólo en algunos casos muy particulares, se da que la media, la mediana, y la moda sean iguales, o que dos de ellas coincidan). Si los datos que se tienen fueran de una población, la medidas de centralización se calculan de la misma manera que en la muestra, solamente es necesario tener presente si se habla de un parámetro o de un estimador, según sea el caso.

Propiedades de las medidas de centralización A continuación se proporcionan las propiedades más importantes:. Propiedades numéricas. 1. La media de un conjunto de datos es siempre un valor perteneciente al rango de la variable. En cualquier caso (por rara que sea la distribución de los datos, simétrica o asimétrica, por ejemplo), tanto la media como la mediana y la moda, se encuentran entre los valores máximo y mínimo de los valores observados. 2. La media puede no coincidir con ninguno de los valores de los datos. Es decir, puede ser un número que no tenga sentido en el contexto propuesto, por ejemplo, si el número de hermanos para 5 personas es 1, 4, 3, 0 y 5, el promedio es 2.6 hermanos. 3. En el cálculo de la media intervienen todos los valores de la variable. 4. La media se ve afectada por cualquier cambio extremo en los valores de los datos. Si en el ejemplo anterior existiera una persona con 13 hermanos (en vez de 5), este valor extremo modifica la media de 2.6 a 4.2 hermanos.

16

Propiedades algebraicas . 1. La media conserva el cambio de origen y escala: si el promedio de calificación de un alumno, es por ejemplo, 8.75 en la escala de 1 a 10, en la escala de 1 a 100, el promedio es 87.5 2. La media de la suma de dos o más variables es la suma de las medias (en el caso de la mediana y la moda, esta propiedad no se cumple). 3. La media no está definida para datos ordinales o nominales (la media no tiene sentido si la variable es categórica o cualitativa). 4. La media, la mediana y la moda, consideradas como operación, no tienen ningún elemento neutro, ni la propiedad asociativa.

Propiedades estadísticas. 1. La media es un valor representativo de un conjunto de datos. La media es menos resistente (se ve afectada por cualquier cambio en los datos) que la mediana y la moda. 2. La media coincide con el centro de gravedad del conjunto de datos. 3. La suma de las desviaciones de un conjunto de datos con respecto a la media es cero. 4. En distribuciones simétricas, la media, la mediana y la moda coinciden. 5. Es respecto a la media cuando la suma de los cuadrados de las desviaciones es mínima. La forma de la distribución de los datos es una característica importante para elegir una medida de tendencia central adecuada. Si la distribución de los valores de la variable es aproximadamente simétrica, la media, la mediana son casi iguales. Por ejemplo si se define la variable X: número de personas atendidas durante 30 días en una oficina: No. de personas No. de días

10

15

20

25

30

5

7

8

6

4

17

8 N 7 O . 6 5 D E 4

Series 1

3 D I 2 A 1 S 0 10

15

20

25

30

NO. DE PERSONAS

La media y la mediana son casi iguales y cualquiera de ellas describe adecuadamente a los datos. Cuando la distribución de valores de la variable es asimétrica, la mediana es frecuentemente la medida de centralización más adecuada. A la mediana no le afecta tanto la frecuencia de ocurrencia de un sólo valor como a la moda, tampoco es afectada por los valores extremos como la media. Si en el ejemplo anterior, la distribución de las personas por día fuera: 3, 5, 6, 7, 9 la frecuencia más alta (9) asociada al valor (30) modifica a la media, sin embargo la mediana no cambia. Por esta razón la mediana sería la medida más adecuada. 9 N 8 O 7 . 6 D 5 E 4

Series 1

D 3 I 2 A 1 S 0 10

15

20

25

30

NO. DE PERSONAS

La media es el único promedio que utiliza todos los datos. Esto es una desventaja si existen valores que son muy distintos de la mayoría de ellos. En tales casos resulta conveniente calcular la mediana. En situaciones apremiantes la moda puede dar una idea aproximada del valor central de una serie de datos.

18

Actividades de exploración 1. Se han seleccionado 5 bolsas de pasta alimenticia, de una determinada marca, en un supermercado. Todas ellas llevan impreso en la etiqueta “Peso neto: 250 gramos”, después de pesarlas con precisión, se obtienen los siguientes resultados (en gramos): 243, 252, 260, 230 y 249. a) ¿Cuánto pesan en total las 5 bolsas? b) Si se tuviera que repartir de manera equitativa, este peso entre 5 personas, ¿cuánto les corresponde a cada una? c) ¿Qué peso podemos esperar que tenga una bolsa cualquiera de pasta alimenticia de esta marca? Medidas de centralización para datos no agrupados: Se dice que los datos no agrupados son aquellos que por ser generalmente pocos no es necesario agruparlos en intervalos de clase y que se analizan utilizando los valores brutos, es decir los valores que se obtienen directamente de la recolección. Para que tengas un mejor entendimiento del cálculo de las medidas de centralización para datos no agrupados, utilizaremos el siguiente: Ejemplo: Se sabe que la estatura de 10 alumnos de quinto semestre del CCH son respectivamente 1.53m, 1.64m, 1.76m, 1.52m, 1.70m, 1.58m, 1.78m, 1.58m, 1.57m y 1.69m La media aritmética es simplemente el promedio y se obtiene como la suma de todos los datos entre el número total de ellos, es decir, mediante: n

x=

∑x i =1

i

n

Así, para el ejemplo: x=

1.53 + 1.64 + 1.76 + 1.52 + 1.70 + 1.58 + 1.78 + 1.58 + 1.57 + 1.69 16.35 = = 1.635 m 10 10

La mediana es el valor central del conjunto ordenado de datos, se obtiene ordenando los datos generalmente en forma ascendente o puede ser en forma descendente, luego: a) Si el número de datos es impar la mediana es el valor de la variable que se encuentra en  n +1  el    2 

avo

lugar del conjunto ordenado de datos.

b) Si el número de datos es par la mediana es el promedio de los valores de la variable que n se encuentran en el   2

avo

n  y  + 1 2 

avo

lugares del conjunto ordenado de datos.

19

Así, para el ejemplo: 1) Primero se ordenan los datos, quedando: 1.52, 1.53, 1.57, 1.58, 1.58, 1.64, 1.69, 1.70,1.76 y 1.78 2) Como el número de datos es par (10 datos), la mediana es el promedio de los valores  10  que se encuentran en el    2

avo

avo

 10  = 5to y  + 1 = 6to lugares, es decir.  2  1.58 + 1.64 Me = = 1.61 m 2 La moda es el valor o valores de la variable que más veces se repiten, por lo que podemos considerar: a) puede existir una moda (unimodal) b) puede existir más de una moda (polimodal) c) puede no existir moda Así, para el ejemplo de las estaturas de los 10 alumnos: Existe un valor que se repite dos veces, este valor es el que corresponde a la moda, o sea: Mo = 1.58 m

Medidas de centralización para datos agrupados: Se dice que los datos agrupados son aquellos que se agrupan en intervalos de clase y que se analizan considerando a la marca de clase como el valor que corresponde a todos los datos del intervalo, es decir, el análisis ya no se realiza con los datos brutos. Para que tengas un mejor entendimiento del cálculo de las medidas de centralización para datos agrupados, utilizaremos el siguiente: Ejemplo. Se tiene que el siguiente conjunto de datos corresponde a la edad (en años) de los habitantes de una colonia de la delegación de Tlalpan, que asisten a la escuela (a partir de la primaria). Edad Número de (años) habitantes fi 7 a 10 5 11 a 14 11 15 a 18 23 19 a 22 31 23 a 26 16 27 a 30 10 31 a 34 ___4___ n = ∑ fi = 100

20

Inicialmente, se obtienen las columnas correspondientes a las marcas de clase ( xi ), límites reales de clase ( LRI y LRS ), frecuencias acumuladas ( fa ) y las necesarias ( f i xi ) para el cálculo de la media aritmética. xi 8.5 12.5 16.5 20.5 24.5 28.5 32.5

LRI 6.5 10.5 14.5 18.5 22.5 26.5 30.5

LRS 10.5 14.5 18.5 22.5 26.5 30.5 34.5

f i xi fa 5 42.5 16 137.5 39 379.5 70 635.5 86 392.0 96 285.0 100 _130.0_ ∑ fi xi = 2002

n

La media aritmética se obtiene con x =

∑fx i =1

i 1

n Donde: f i es la frecuencia i-ésima.

xi es la marca de clase i-ésima. n es el número total de datos. 2002 Se tiene que: x = = 20.02 años 100

n − fa La mediana se obtiene con Me = LI + 2 ×c fi Donde: LI es el límite real inferior de la clase mediana. n es el número total de datos. fa es la frecuencia acumulada anterior a la de la clase mediana. fi es la frecuencia absoluta de la clase mediana. c es el tamaño o amplitud de la clase mediana ( c = LRS − LRI ) n La clase mediana es el intervalo de clase donde se encuentra el   2

avo

dato, siendo en este

avo

 100  avo caso el intervalo de clase donde está el   = 50 dato, es decir, el cuarto intervalo,  2  donde c = 22.5 − 18.5 = 4 años , así la mediana es: 100 − 39 2 Me = 18.5 + × 4 = 18.5 + 1.4193 = 19.9193 años 31

La moda se obtiene con Mo = LI +

∆1 ×c ∆1 + ∆ 2 21

Donde: LI es el límite real inferior de la clase modal. ∆1 es la diferencia de frecuencias de la clase modal y la anterior. ∆ 2 es la diferencia de frecuencias de la clase modal y la siguiente. c es el tamaño o amplitud de la clase modal. c = LRS − LRI La clase modal es el (los) intervalo(s) de clase de mayor frecuencia, siendo en este caso el cuarto intervalo, de donde se obtiene que ∆1 = 31 − 23 = 8 y ∆ 2 = 31 − 16 = 15 y como c = 22.5 − 18.5 = 4 años , así la moda es: 8 Mo = 18.5 + × 4 = 18.5 + 1.3913 = 19.8913 años 8 + 15 Si los datos que se tienen fueran de una población, la medidas de centralización se calculan de la misma manera que en la muestra, solamente es necesario tener presente si se habla de un parámetro o de un estimador, según sea el caso.

Ejercicios 1. Calcula la media, la mediana y la moda de los números 1, 2, 3, 4 y 18. 2. Elimina el dato mayor 18 y calcula la media, la mediana y la moda de los números 1, 2, 3 y 4. 3. Compara las medidas obtenidas en los ejercicios anteriores, ¿qué observas? 4. ¿Qué le ocurre a la media de los números 1,2,3,y 4, si se agregan los números 20 y 24 y se calcula el promedio de estos seis números? 5. Si se tienen n datos x1, x2,,,,,xn muy cercanos entre si, y se calcula su media,¿qué ocurre cuando se agrega un dato (o datos) xn+1, xn+2 que están muy alejados de los anteriores y se calcula nuevamente la media? 6. En una familia se calcula el peso promedio de los niños que asisten a la escuela primaria y se obtiene x = 30 kg. Si se incluye el peso de los padres, ¿qué ocurre si se calcula nuevamente el promedio? 7. Si tenemos los números 3, 6, 9, 12 y 15, cuya media es 9, su mediana es también 9 y no tiene moda. Si añadimos como sexto valor el cero, ¿cuáles son la media, la mediana y la moda de estos 6 números? 8. Se desea encontrar un valor representativo de las edades (en años) de 5 personas: 15, 15, 16, 17, 18, ¿cuál de los dos procedimientos siguientes es el correcto? a)

(15 + 15) + 16 + 17 + 18 4

b)

15 + 15 + 16 + 17 + 18 5

22

9. En una fábrica trabajan 15 obreros, 8 especializados y 7 no especializados; el salario medio mensual de los especialistas es de $4000 y el salario promedio por mes de los no especialistas es de $3500. Para encontrar la media mensual de los salarios de los 15 obreros, se proponen a continuación dos procedimientos, ¿cuál es el correcto? a)

8 × 4000 + 7 × 3500 8+7

b)

4000 + 3500 2

10. En la siguiente tabla calcula el valor de x de manera que x = 5 Valores de X

1

x

5

7

Frecuencia (f)

2

5

3

4

11. Una tienda de autoservicio vendió el mes pasado 4 marcas de T.V, como se muestra en la siguiente tabla Marca del T.V.

Sony

Toshiba

LG

Panasonic

Televisores vendidos

7

10

5

3

a) Observa que la variable no es numérica ¿cómo se le llama a este tipo de variables? b) Si el gerente decide eliminar tres marcas , ¿con cuál se quedaría?

12. Los datos siguientes corresponden a la altura (en cms) de 40 plantas de una especie común . Altura (cm)

Número de plantas

[10,16)

7

[16,22)

8

[22,28)

12

[28,34 )

7

[34,40]

6

a) ¿En cuál intervalo se encuentra el valor más frecuente? b) ¿Cuál es el valor que se encuentra a la mitad de la distribución de las alturas de las plantas? 13. En una maestría solamente pueden ingresar aspirantes que obtengan calificaciones superiores a la mediana en el examen de conocimientos. Este año se presentaron 12 23

aspirantes que obtuvieron los siguientes puntajes: 7.5, 9.5, 7.5, 9.7, 7.8, 9.2, 8, 9.2, 8.1, 9, 8.2, 8.8, ¿cuáles son los puntajes de los aspirantes aceptados? 14. Las calificaciones obtenidas por un estudiante en 7 asignaturas son: S, S, MB, B, S, B, MB. a) ¿Cuál es el valor de la moda? b) ¿ Cuál es el valor de la mediana? c) ¿ Cuál de las dos calificaciones anteriores es más representativa? 15. Un sindicato y una empresa sostienen un debate respecto a los salarios de los trabajadores. El sindicato reporta que los obreros reciben en promedio $ 4000 por mes. El gerente dice que el pago promedio es de $ 8364 mensuales. Un inspector de impuestos afirma que es de $ 7000 por mes. ¿Quién tiene la razón? Salarios mensuales Número de empleados $ 3000 a $ 5000

5

$ 6000 a $ 8000

1

$ 9000 a $ 11000

0

$ 12000 a $ 14000

5

a) Calcula el salario medio ( x ). b) Calcula el salario mediano ( Me). c) Calcula el salario modal (Mo). d) ¿Cómo interpretas cada una de las medidas anteriores? 16. Para los siguientes datos que corresponden al gasto en pasajes por semana de una muestra de alumnos de la escuela, calcula las medidas de centralización. Gasto (Pesos) 2.50 a 4.00 4.50 a 6.00 6.50 a 8.00 8.50 a 10.00 10.50 a 12.00 12.50 a 14.00 14.50 a 16.00

Número de alumnos 7 10 24 25 8 4 2

17. Para los siguientes datos que corresponden a la estatura en centímetros de un grupo 24

de alumnos de secundaria de la delegación Coyoacán, calcula las medidas de centralización. Estatura (centímetros) 142 - 144 144 - 146 146 - 148 148 - 150 150 - 152 152 - 154 154 - 156 156 - 158

Número de alumnos 5 9 14 25 28 17 12 10

18. Un comerciante mezcla 12 kgs. de cacahuates que valen $ 20.00 el kg, con 8 kgs. de nueces que valen $ 80.00 el kg. ¿A qué precio debe dar el kg. de la mezcla, para ganar $5.00 por kg? 19. Hay 10 personas en un ascensor, 4 mujeres, 4 hombres y 2 niños. El peso medio de las mujeres es de 60 kgs, el peso medio de los hombres es de 80 kgs. y el peso medio de los niños es de 35 kgs, ¿cuál es el peso medio de las 10 personas en el ascensor? 20. Cada estudiante de un grupo de 20 estudiantes pesa 86 kgs. en promedio. Se sabe que 9 personas del grupo pesan en promedio 75 kgs. cada una. Del grupo de los 11 estudiantes restantes, ¿cuánto pesa en promedio cada uno? 21. De los 200 alumnos que presentaron un examen de 12 reactivos, el 10% responde correctamente a 3 reactivos, el 50% a 7 reactivos, el 30% responde correctamente a 10 reactivos y el resto al total de reactivos del examen. Organiza los datos en una tabla de distribución de frecuencias y calcula el número promedio de reactivos resueltos correctamente. 22. La tabla siguiente corresponde a una muestra de los diámetros (en centímetros) del tallo de 28 plantas de una especie común: Diámetro(cm) 1 2 3 4 5 6 7 No. de plantas 1 4 6 8 5 3 1 ¿Es correcto el siguiente procedimiento para calcular la media del diámetro de los tallos? 1 + 2 + 3 + 4 + 5 + 6 + 7 28 x= = = 1 cm. 1 + 4 + 6 + 8 + 5 + +3 + 1 28 Si el procedimiento no es correcto, ¿cuál es el valor correcto de la media?

25

MEDIDAS DE DISPERSIÓN O VARIABILIDAD El análisis descriptivo de los datos no puede restringirse exclusivamente al cálculo de las medidas de tendencia central porque, por ejemplo, dos distribuciones de frecuencias con igual media o con igual mediana pueden tener diferentes gráficas, es decir, si solamente se consideran las medidas de tendencia central, se pueden obtener conclusiones erróneas al no tomar en cuenta la dispersión de los datos. Por ejemplo Roberto y Esperanza forman una pareja con una estatura media de 1.70 m y Ana y Luis también son pareja con una estatura promedio de 1.70 m. Si solamente conocemos esta medida de centralización, nos inclinaríamos a pensar que los 4 tienen una estatura muy parecida. Sin embargo si aparte del promedio nos dicen que la desviación media de Roberto y Esperanza es de 0.01 m y que la desviación media de Ana y Luis es de 0.25 m, entonces llegaríamos a la conclusión de que Ana y Luis forman una pareja muy “dispareja”. Las medidas de dispersión indican, en promedio, cuánto se alejan los datos de la media aritmética. Si los datos se alejan poco de la media entonces su dispersión es menor que si alejan mucho de la media. Las medidas de dispersión más comúnmente utilizadas son el rango, la varianza y la desviación estándar o típica y el coeficiente de variación que mide la dispersión relativa. La varianza muestral se define como la suma de los cuadrados de las diferencias de los datos con respecto a la media, dividida entre el total de datos menos uno. Esta medida tiene el inconveniente de que transforma las unidades de medición en cuadrados, por lo que no se puede comparar con la media aritmética. Por esta razón se define la desviación estándar como la raíz cuadrada de la varianza. El coeficiente de variación se utiliza cuando se desea comparar dos distribuciones de frecuencia que tienen diferente unidad de medida, se calcula dividiendo la desviación estándar entre la media. El rango es la mas simple de las medidas de dispersión y se define como la diferencia entre la medida mayor y la menor, pero no informa cuántos valores abarcan los datos. El rango es muy utilizado en procesos industriales. En mucho, su utilidad en este campo se debe a lo sencillo y rápido que es calcularlo. El rango provee información útil cuando la muestra es pequeña, pero cuando la muestra es grande, no resulta una medida adecuada. La desviación estándar es la medida de dipersión más utilizada para medir la variabilidad en una muestra (o si fuera el caso en una población). Para calcularla, primero se obtiene la varianza y después se extrae su raíz cuadrada. Medidas de dispersión para datos agrupados Para que tengas un mejor entendimiento del cálculo de las medidas de dispersión para datos agrupados, utilizaremos el siguiente:

26

Ejemplo 1. Determinar las medidas de dispersión para el siguiente conjunto de datos que corresponden a la edad (en años) de la población de habitantes, que asisten a la escuela, de una colonia de la delegación de Tlalpan. Edad (años) 7 11 15 19 23 27 31

a a a a a a a

10 14 18 22 26 30 34

Número de habitantes fi 5 11 23 31 16 10 ___4___ n = ∑ fi = 100

xi 8.5 12.5 16.5 20.5 24.5 28.5 32.5

A partir de estos cálculos, se tiene que:

µ=

f i xi 42.5 137.5 379.5 635.5 392.0 285.0 _130.0 ∑ fi xi = 2002

2002 = 20.02 100

Considerando al conjunto de datos como una población, se calcula la varianza con: n

σ2 =

∑ f (x − µ) i =1

i

2

i

Donde: N . f i es la frecuencia i-ésima, xi es la marca de clase i-ésima y n es el número total de datos (en este caso debe considerarse n=N=100) . xi − µ –11.52 – 7.52 – 3.52 0.48 4.48 8.48 12.48

( xi − µ ) 2 132.7104 56.5504 12.3904 0.2304 20.0704 71.9104 155.7504



f i ( xi − µ ) 2 663.552 622.0544 284.9792 7.1424 321.1264 719.104 __623.0016__ fi ( xi − µ )2 = 3240.96

Con estos datos se tiene que: 3240.96 = 32.4096 100 Por lo tanto, la desviación típica o estándar, es: σ = 32.4096 = 5.692943 años También se puede calcular la varianza y consecuentemente la desviación típica o estándar, mediante:

σ2 =

27

n

σ = 2

∑fx i =1

i i

n

2

 n  ∑ f i xi −  i =1  n  

Realizando los cálculos, se tiene: xi f i xi 8.5 42.5 12.5 137.5 16.5 379.5 20.5 635.5 24.5 392.0 28.5 285.0 32.5 _130.0___ ∑ fi xi = 2002 2002 De esto se obtiene que: µ = = 20.02 100

2

   = x2 − µ 2   

xi 2 72.25 156.25 272.25 420.25 600.25 812.25 1056.25

y



f i xi 2 361.25 1718.75 6261.75 13027.75 9604 8122.5 _4225___ fi xi 2 = 43321

x2 =

43321 = 433.21 100

σ 2 = x2 − µ 2 = 433.21 − 20.022 = 433.21 − 400.8004 = 32.4096 La desviación típica o estándar, es: σ = 32.4096 = 5.692943 años Como podrás observar, el valor de la desviación típica o estándar es el mismo, no importando el camino que sigas para hacerlo. Ejemplo 2. Los datos siguientes representan el contenido de azúcar (en g/100 ml) y el contenido de cafeína (mg/100 ml) de 8 refrescos de cola. En la cuarta y quinta columna de la tabla se ilustra el procedimiento para calcular la desviación estándar para el contenido de azúcar (Profeco, 2003). Marca

Azúcar Cafeína (g/100 ml) (mg/100 ml) Big Cola 10.9 12 CM 10.3 6 Coca Cola 10.6 15 Great Value 10.2 5 Hola Cola 10.4 13 Pepsi Cola 11.1 14 Pepsi Limón 11 16 Royal Cola 11 12

xi − x

( x − x)

10.9-10.6875 10.3-10.6875 10.6-10.6875 10.2-10.6875 10.4-10.6875 11.1-10. 6875 11-10.6875 11-10.6875

0.04515625 0.15015625 0.00765625 0.23765625 0.08265625 0.17015625 0.09765625 0.09765625 0.88875

2

i

Como el conjunto de datos corresponde a una muestra de datos no agrupados, la varianza se calcula con:

28

n

s2 =

∑ ( x − x) i =1

2

i

n −1

Con estos datos, se tiene: 0.88875 La varianza es s 2 = = 0.12696 8 −1 Por lo tanto, la desviación típica o estándar, es:

s = 0.12696 = 0.3563 g /100 ml

Si la muestra es de datos agrupados, la varianza se calcula con: n

s = 2

∑ f ( x − x) i

i =1

2

i

n −1 Donde: f i es la frecuencia i-ésima y xi es la marca de clase i-ésima. También se puede calcular la varianza para datos agrupados de una muestra y consecuentemente la desviación típica o estándar, mediante:

n

∑ i =1

s = 2

 n  ∑ f i xi 2 f i xi −  i =1  n   n −1

     

2

Una reflexión sobre las Medidas de Dispersión. Es muy importante reflexionar que aún cuando la desviación estándar es la medida de dispersión más comunmente utilizada para comparar distribuciones de frecuencias (o para comparar varios conjuntos de datos), en algunas situaciones no siempre responde a la pregunta ¿en cuál distribución de frecuencias existe mayor dispersión?.

El rango proporciona información útil cuando la muestra es pequeña, pero si la muestra es grande, no resulta una medida de provecho. Ejercicios. 1. Los datos siguientes proporcionan las temperaturas promedio diarias (en grados centígrados) registradas durante 8 días del último mes de enero en Otawa y en Washington Otawa -1 2 1 1 -2 3 0 -4 Washington 1 1 -2 -1 -3 0 -1 5 ¿En cuál ciudad se presenta mayor variación en la temperatura? 2. Propón un conjunto 6 de datos de manera que la varianza (y/o la desviación estándar sea cero) 29

3. La tabla siguiente da los rendimientos, medidos en toneladas por hectárea, de dos variedades de maíz, en 10 años consecutivos Año 1 2 3 4 5 6 7 8 9 10 Maíz A 4.8 0.5 6 3.5 3.8 5 6 1.2 2.8 5.2 Maíz B 3.5 3.8 3.7 2.8 2.5 4.2 4 3.5 4.1 3.2 a)¿Qué variedad de maíz es mejor? b)¿Cuál variedad es más consistente? 4. La media y la desviación estándar de las calificaciones en un examen final correspondientes a los grupos A y B, se muestran en la siguiente tabla Grupo Media D. Estándar A 7.7 6.2 B 6.9 11.7 a) ¿Cuál de los grupos tuvo mejor rendimiento? b) ¿Cuál de los grupos tuvo un rendimiento más homogéneo? c) Sin considerar ninguna otra información, ¿en cuál de los dos grupos se obtuvieron los puntajes individuales más bajos y más altos? 5. Una compañía desea comprar una máquina de corte controlada por computadora. El ingeniero de la compañía prueba dos máquinas de diferentes fabricantes. Los diámetros (en centímetros) de las barras cortadas por las máquinas fueron los siguientes: Fabricante 1: 2.001, 2, 2.004, 1.998, 1.997 Fabricante 2: 2.002, 2.008, 1.995, 1.99, 2.005 ¿A cuál fabricante le conviene comprar? 6. Para los siguientes datos que corresponden a una muestra de las puntuaciones de 10 aspirantes en el examen de admisión de la UNAM del año pasado 76, 68, 85, 91, 80, 72, 84, 88, 77 y 82. Calcula su desviación estándar.

7. Para los siguientes datos que corresponden al gasto en pasajes por semana de una población de alumnos de una escuela de computación. Calcula la varianza y la desviación típica.

30

Gasto (Pesos) 2.50 4.50 6.50 8.50 10.50 12.50 14.50

a 4.00 a 6.00 a 8.00 a 10.00 a 12.00 a 14.00 a 16.00

Número de alumnos 7 10 24 25 8 4 2

Coeficiente de variación Mide la dispersión relativa y pemite comparar dos conjuntos de datos cuyas medidas descriptivas pueden estar expresados en diferentes unidades de medida. Es equivalente a la razón, es decir, es la comparación por cociente entre la desviación estándar y la media aritmética. Al ser un coeficiente no tiene unidades y si se desea se puede expresar en porcentaje: s s CV = ó CV = ×100 x x Ejemplo si deseamos comparar el contenido de azúcar con la cafeína, en los refrescos del ejemplo de la tabla de Datos Profeco, 2003, necesitamos calcular el CV para cada variable. El coeficiente de variación para el contenido de azúcar en los refrescos es

CV =

0.3563g / 100ml = 0.0333 , o de manera equivalente CV = 3.33% 10.6875 g / 100ml

El coeficiente de variación para el contenido de cafeína en los refrescos es CV =

4.0333mg / 100ml = 0.3469 , o sea CV = 34.69% 11.625mg / 100ml

A partir de la comparación de los valores anteriores, se concluye que existe menos dispersión o variabilidad en el contenido de azúcar de los refrescos como se puede observar comparando los coeficientes de variación y donde se observa que el contenido de cafeína es aproximadamente 10 veces mayor que el de azúcar. Ejercicios. 1. Si se tiene que en una muestra de las temperaturas medias durante 5 días del último verano en la ciudad de México fueron de 16°,14°,19°,22° y 24° y en una muestra durante 5 días del invierno pasado fueron de 10°,11°,9°,8° y 12° , determina en cual de las dos estaciones hubo mayor variabilidad.

31

2. Si se tienen dos muestras de estudiantes con pesos promedio de 68 kg y de 85 kg respectivamente y con la misma desviación estándar, entonces se puede afirmar que: a) La muestra con estatura promedio de 68 kg tiene menor variabilidad

(

)

b) La muestra con estatura promedio de 85 kg tiene menor variabilidad

(

)

c) Las dos muestras tienen la misma variabilidad

(

)

3. En un estudio se encontró que el gasto promedio anual para atención médica de dos muestras de familias de clase media fue el mismo con una desviación típica de $700.00 para la primera muestra y de $450.00 para la segunda muestra, entonces, se puede afirmar que: a) La muestra con desviación típica de $450.00 tiene mayor variabilidad

(

)

b) La muestra con desviación típica de $700.00 tiene mayor variabilidad

(

)

c) Las dos muestras tienen la misma variabilidad

(

)

MEDIDAS DE POSICION En ocasiones es necesario conocer proporciones de una población que cumple ciertos valores de la variable de interés lo cual no es posible describir fácilmente si solo se tienen las medidas de centralización y dispersión, por lo que es necesario determinar algunas medidas descriptivas mediante las cuales se pueda hacer esa descripción, estas medidas son llamadas de posición las cuales permiten determinar los valores de la variable que divide al conjunto de datos en partes iguales, tales medidas se llaman genéricamente cuantiles y de acuerdo al número de partes en que dividen a la población, así tenemos: Mediana. Valor de la variable que divide en dos partes al conjunto de datos, que si bien es una medida de centralización también es de posición y su valor corresponde al central de una distribución de datos y describe que a su izquierda se encuentra el 50% de la distribución y a su derecha el otro 50%. Cuartiles. Valores de la variable que dividen a la distribución en cuatro partes iguales y que describen que alrededor de cada uno de ellos se encuentra el 50% de la distribución, así el cuartil primero describe que a su izquierda se encuentra el 25% de la población con los valores más bajos de la variable y a su derecha otro 25% de los datos, el cuartil segundo que es equivalente a la mediana, describe que alrededor de el se encuentra el 50% de los datos con los valores centrales de la variable 25% a su izquierda y 25% a su derecha y el cuartil tercero describe que a su izquierda se encuentra el 25% de los valores centrales de la distribución y a su derecha el 25% de los datos con los valores mayores de la variable. Deciles. Son los valores de la variable que dividen al conjunto ordenado de datos en diez partes iguales y que describe que alrededor de cada uno de ellos se tiene el 20% de la distribución, de acuerdo a su posición relativa dentro de ella, así por ejemplo el decil noveno describe que alrededor de él se encuentra el 20% de los valores de la variable más grandes, 32

el 10% a su izquierda y el otro 10% a su derecha y el decil 5 que es equivalente a la mediana describe que alrededor de él se encuentra el 20% de los datos con los valores centrales de la distribución, el 10% a su izquierda y el otro 10% a su derecha. Porcentiles o Centiles. Son los valores de la variable que dividen al conjunto ordenado de datos en cien partes iguales y que describe que alrededor de cada uno de ellos se tiene el 2% de la distribución, de acuerdo a su posición relativa dentro de ella, así por ejemplo el percentil primero describe que alrededor de él se encuentra el 2% de los datos con los valores de la variable más pequeños, el 1% a su izquierda y el otro 1% a su derecha y el percentil 50 que es equivalente a la mediana describe que alrededor de él se encuentra el 2% de los datos con los valores centrales de la distribución, el 1% a su izquierda y el otro 1% a su derecha Para efectuar el cálculo de las medidas de posición para datos agrupados se utiliza el mismo procedimiento de interpolación que para calcular la mediana, así, tenemos:

Ejemplo. Para determinar las medidas de posición para el siguiente conjunto de datos que corresponden a la edad (en años) de los habitantes de una colonia de la delegación de Tlalpan, que asisten a la escuela. Edad (años) 7 11 15 19 23 27 31

a a a a a a a

10 14 18 22 26 30 34

Número de habitantes fi 5 11 23 31 16 10 ___4___ n = ∑ fi = 100

Inicialmente, se obtienen las columnas correspondientes a las marcas de clase( xi ), límites reales de clase( LRI y LRS ), frecuencias cálculo de la media aritmética. xi LRI 8.5 6.5 12.5 10.5 16.5 14.5 20.5 18.5 24.5 22.5 28.5 26.5 32.5 30.5

acumuladas( fa ) y las necesarias ( f i xi ) para el

LRS 10.5 14.5 18.5 22.5 26.5 30.5 34.5

fa 5 16 39 70 86 96 100

33

n − fa La mediana se obtuvo con Me = LI + 2 ×c fi Donde: LI es el límite real inferior de la clase mediana. n es el número total de datos. fa es la frecuencia acumulada anterior a la de la clase mediana. f i es la frecuencia absoluta de la clase mediana. c es el tamaño o amplitud de la clase mediana ( c = LRS − LRI ) n recordando que a clase mediana es el intervalo de clase donde se encuentra el   2

avo

dato,

avo

 100  avo siendo en este caso el intervalo de clase donde está el   = 50 dato, es decir, el 2   cuarto intervalo, donde c = 22.5 − 18.5 = 4 años , así la mediana es: 100 − 39 Me = 18.5 + 2 × 4 = 18.5 + 1.4193 = 19.9193 años 31 n × N − fa ×c Cuartiles. El cuartil N-ésimo se obtiene con: QN = LI + 4 fi Donde: LI es el límite real inferior de la clase donde está el N-esimo cuartil. n es el número total de datos. fa es la frecuencia acumulada anterior a la de la clase mediana. fi es la frecuencia absoluta de la clase dode está el N-esimo cuartil. c es el tamaño o amplitud de la clase mediana ( c = LRS − LRI )

así, si se calcula el cuartil 1 la clase donde está, es el intervalo de clase donde se encuentra avo

 100  el  × 1 = 25avo dato, es decir, el tercer intervalo, donde c = 18.5 − 14.5 = 4 años , así el 4   primer cuartil es: 100 ×1 − 16 4 Q1 = 14.5 + × 4 = 14.5 + 1.5652 = 16.0652 años 23

Valor de la variable que describe que el 25% de los habitantes de esa colonia que asisten a la escuela son menores de 16.0652 años. Ejercicio: Comprueba que el Q3 = 23.75 años e interpreta su significado, recuerda que el cuartil 2 es la mediana. n × N − fa Deciles. El decil N-ésimo se obtiene con: DN = LI + 10 ×c fi 34

Donde: LI n fa fi c

es el límite real inferior de la clase donde está el N-esimo decil. es el número total de datos. es la frecuencia acumulada anterior a la de la clase mediana. es la frecuencia absoluta de la clase donde está el N-esimo decil. es el tamaño o amplitud de la clase mediana ( c = LRS − LRI )

así, si se calcula el decil 8 la clase donde está, es el intervalo de clase donde se encuentra avo

 100  el  × 8  = 80avo dato, es decir, el quinto intervalo, donde c = 26.5 − 22.5 = 4 años , así el 10   octavo decil es: 100 × 8 − 70 D8 = 22.5 + 10 × 4 = 22.5 + 2.5 = 25 años 16 Valor de la variable que describe que el 80% de los habitantes de esa colonia que asisten a la escuela son menores de 25 años o que el 20% son mayores de 25 años.

Ejercicio: Comprueba que el D3 = 16.9347 años e interpreta su significado, recuerda que el decil 5 es la mediana. n × N − fa Percentiles. El percentil N-ésimo se obtiene con: PN = LI + 100 ×c fi Donde: LI es el límite real inferior de la clase donde está el N-esimo percentil. n es el número total de datos. fa es la frecuencia acumulada anterior a la de la clase mediana. fi es la frecuencia absoluta de la clase dode está el N-esimo percentil. c es el tamaño o amplitud de la clase mediana ( c = LRS − LRI ) así, si se calcula el percentil 53, la clase donde está es el intervalo de clase donde se  n  encuentra el  × 53   100 

avo

dato, siendo en este caso el intervalo de clase donde está el

avo

 100  × 53  = 53avo dato, es decir, el cuarto intervalo, donde c = 18.5 − 14.5 = 4 años , así el   100  percentil 53 es: 100 × 53 − 39 P53 = 18.5 + 100 × 4 = 18.5 + 1.8064 = 20.3064 años 31 Valor de la variable que describe que el 53% de los habitantes de esa colonia que asisten a la escuela son menores de 20.3064 años.

35

Ejercicio Comprueba que el P10 = 12.3181 años e interpreta su significado y recuerda que el percentil 50 es la mediana.

REGLA EMPIRICA En un gran número de estudios estadísticos, el uso conjunto de la media y la desviación estándar, permite conocer la distribución porcentual de una muestra, aún cuando no se conozcan los datos muestrales en su totalidad. Esta situación se verifica de manera general en distribuciones de datos con una sola moda y simétricas como es la distribución normal para la cual se cumple que: En el intervalo ( x − s, x + s ) se encuentra el 68% de los datos. En el intervalo ( x − 2s, x + 2s ) se encuentra el 95% de los datos. En el intervalo ( x − 3s, x + 3s ) se encuentra el 99% de los datos. Aunque esta última regla es aplicable especificamente a la distribución normal, con frecuencia se aplica como guía para cualquier distribución. Por ejemplo si se aplica un prueba estandarizada a 500 alumnos y se obtiene una media de 6 y una desviación estándar de 1.5, si la distribución es unimodal y bastante simétrica, entonces en el intervalo (6-1.5,6+1.5)=(4.5,7.5) se tiene al 68% de los alumnos, es decir, 340 de los alumnos obtuvieron calificación entre 4.5 y 7.5

36

UNIDAD 2. DATOS BIVARIADOS Propósito. Al finalizar esta unidad debes haber comprendido la forma en que se establece una relación entre dos variables, a partir de tablas, diagramas, regresiones y correlaciones y así describir la naturaleza e intensidad lineal de esa relación. Se ha tratado con variables numéricas y se ha estudiado una característica de interés, como puede ser el número de materias que han acreditado, la edad de los alumnos del CCH, etc. Ahora se consideran más características de interés como puede ser: el tiempo que tarda un alumno en llegar a el CCH y lo que gasta en transporte, o la distancia promedio que recorre para llegar al plantel. Otro sería el peso, la estatura y el periodo de embarazo (días promedio), de un bebé al nacer. Se quiere saber si existe, o no, relación lineal entre dos o más variables. Si existe, se debe saber que tipo de relación es. El método empleado es el método de la regresión lineal. El objetivo estadístico (teórico) del método de regresión lineal es el de evaluar si dicho modelo se ajusta o no al proceso estudiado. Diagrama de dispersión Se desea analizar comportamiento de las variables: estatura (X) y peso (Y) de alumnos entre 15 y 18 años. Se debe evaluar si el modelo de regresión lineal puede ajustarse o no. La población estadística se compone según el principio “a mayor estatura, mayor peso”. Se elabora una grafica donde aparecen los valores muestrales obtenidos con muestras aleatorias (x1, y1), (x2, y2), …, (xn, yn). Esta grafica se le nombra diagrama de dispersión.

Peso

Diagrama de dispersión

Estatura

37

Si los valores muestrales dan una configuración de puntos como el del diagrama de dispersión, el modelo se llama de regresión lineal simple. Cabe aclarar que la dispersión de puntos no solamente es lineal, hay dispersiones cuadráticas y el modelo sería de regresión cuadrática, además se pueden utilizar modelos de regresión exponencial, logarítmica, etc. También hay la posibilidad de que entre las variables X y Y no exista relación alguna. Una vez evaluada la pertinencia del modelo, se procede a describir y explicar el comportamiento del proceso mediante la construcción del modelo respectivo. Este paso permite efectuar otros aspectos como la de predecir y pronosticar su comportamiento. Correlación entre dos variables numéricas El objetivo estadístico es el de ver si existe o no una relación de carácter lineal entre dos variables aleatorias, si existe, entonces medir el grado de intensidad de la linealidad, esto se logra al calcular el coeficiente de correlación lineal de Pearson, denotado por r

r=

n∑ XY − ∑ X ∑ Y  n X 2 − ( X ) 2   n Y 2 − ( Y )2  ∑   ∑ ∑   ∑

El coeficiente (r) toma valores en el intervalo -1 ≤ r ≤ 1. -Por tanto, r puede ser -1, -0.98, -0.85,…; esto significa que la relación entre X y Y es inversamente proporcional, (a menor X mayor Y) -Si r se acerca a 0, la relación entre las variables es casi nula, esto quiere decir que no hay relación entre ellas. -Si r se acerca a 1 significa que la relación entre X y Y es proporcional, (a mayor X mayor Y). Modelo de Regresión Lineal Simple Al tener una tendencia lineal entre las variables X y Y el modelo matemático a proponerse es de una recta. Para determinar la ecuación de la recta de la forma

Y = mx + b Se necesita calcular los valores de m y b que corresponden a la pendiente y a la ordenada al origen respectivamente. Para determinar la recta de mejor ajuste se recurre al método de mínimos cuadrados: “Se encontrará m y b de tal forma que la suma de los cuadrados de los residuos sea mínima” La estimación de los coeficientes de la recta de regresión m y b, se calculan con: a)

∑ Y = bn + m∑ X

∑ XY = b∑ X + m∑ X

2

las cuales se conocen como ecuaciones normales y al resolverse como simultáneas, determinan los valores de la pendiente m y la ordenada al origen b 38

o con:

m=

b)

n∑ XY − ∑ X ∑ Y n∑ X 2 − ( ∑ X )

b=

y

2

∑ Y − m∑ X n

Ejemplo Los siguientes datos corresponden a los resultados de un estudio acerca de la cantidad de azúcar refinada (Y) mediante un cierto proceso a varias temperaturas diferentes (X). Los datos se codificaron y se registraron en la tabla siguiente: X Temperatura 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0

Y Azúcar transformada 8.1 7.8 8.5 9.8 9.5 8.9 8.6 10.2 9.3 9.2 10.5

Para calcular el coeficiente de correlación, tenemos: X 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 16.5

Y 8.1 7.8 8.5 9.8 9.5 8.9 8.6 10.2 9.3 9.2 10.5 100.40

X2 1.0 1.21 1.44 1.69 1.96 2.25 2.56 2.89 3.24 3.61 4.00 25.85

X*Y 8.10 8.58 10.20 12.74 13.30 13.35 13.76 17.34 16.74 17.48 21.0 152.59

Y2 65.61 60.84 72.25 96.04 90.25 79.21 73.96 104.04 86.49 84.64 110.25 923.58

Se registran 11 parejas ordenadas (X,Y), por tanto n = 11. Coeficiente de correlación r

r=

n∑ XY − ∑ X ∑ Y

=

11× 152.59 − 16.5 × 100.4

(11× 25.85 − 16.52 )(11× 923.58 − 100.42 )  n X 2 − ( X )  n Y 2 − ( Y )  ∑ ∑ ∑ ∑     Este valor de r = 0.71 se interpreta como una correlación positiva moderada. 2

2

= 0.71

39

La recta de regresión lineal, que es de la forma Y = mx + b, su pendiente y ordenada al origen, se determinan como: m=

n∑ XY − ∑ X ∑ Y n∑ X − ( ∑ X ) 2

2

∑ Y − m∑ X

=

11×152.59 − 16.5 ×100.4 = 1.73 11× 25.85 − 16.52

100.4 − 1.73 × 16.5 = 6.53 n 11 Por lo que la recta de regresión lineal, que es la recta que mejor se ajusta a los datos, es: b=

=

Y = 1.73X + 6.53 La ecuación de la recta de regresión nos permite estimar la cantidad de azúcar producida para una determinada temperatura así para una temperatura de 1.75, se tiene que al sustituir X = 1.75 se obtiene para Y = 9.56 es la cantidad promedio de azúcar refinada obtenida a esa temperatura. Ejercicios. 1. Para la siguiente tabla que muestra la estatura de un bebé al nacer Y (cm) que depende del período de embarazo de su mamá X (días promedio). X 277.1 279.3 281.4 283.2 284.8

Y 48 49 50 51 52

X2

XY

Y2

a) Construye el diagrama de dispersión b) Completa la tabla c) Calcula el coeficiente de correlación de Pearson. d) Encuentra la ecuación de la recta de regresión. e) Traza sobre el diagrama de dispersión, la recta de regresión f) Determina la estatura estimada de un bebé al nacer si el tiempo promedio de embarazo fue de 280 días. g) Determina el tiempo estimado de embarazo de un bebé que midió al nacer 50.4 cm. 2. La siguiente tabla representa la densidad de un mineral (X) y su contenido de hierro (Y) X 2.8 3.0 3.2 3.2 3.4

Y 27 30 30 34 36

XY

X2

Y2

40

a) Completa la tabla. b) Construye el diagrama de dispersión. c) Calcula el coeficiente de correlación r, d) Determina la ecuación de regresión lineal. e) Traza sobre el diagrama de dispersión, la recta de regresión. f) Si la densidad del material es 2.9, determina el valor estimado del contenido de hierro. g) Si el contenido de hierro es de 31, determina la densidad estimada del material.

41

UNIDAD 3. PROBABILIDAD Propósito. Al finalizar esta unidad sabrás los que son los fenómenos aleatorios, al resolver problemas utilizando los enfoques, subjetivo, frecuentista y clásico, y comprenderás los conceptos fundamentales que te permiten asociar a la probabilidad y a sus reglas directamente con la Inferencia Estadística. EL azar y la realidad La presencia de fenómenos imprevisibles en sus resultados o manifestaciones en la realidad que nos rodea es bastante patente. La casualidad y el azar gobiernan muchos acontecimientos de nuestras vidas. Nuestro trabajo, la familia, cuando conducimos un coche e incluso los rincones más ocultos de la ciencia están influídos por lo impredecible. Por ello, el hombre ha tratado de controlar el mundo del azar para no depender de un simple golpe de suerte (aunque no siempre ha obtenido buenos resultados). Fenómenos deterministas y fenómenos aleatorios. Decimos que un fenómeno es determinista si es posible determinar, con la exactitud deseada, lo que va ha ocurrir como resultado del fenómeno (al repetir el fenómeno bajo las mismas circunstancias, produce el mismo resultado). Un fenómeno aleatorio se caracteriza por la propiedad de que su realización bajo un conjunto dado de circunstancias no siempre produce el mismo resultado, sino que puede tener diferentes resultados, y no tenemos forma de determinar cual de ellos ocurrirá. Por ejemplo en el experimento de lanzar una moneda, se puede apreciar los dos tipos de fenómenos: determinista (tenemos la certeza de que la moneda caerá al suelo) y aleatorio (no podemos predecir qué lado de la moneda quedará hacia arriba). Fuentes de fenómenos aleatorios En la Biología Muchas de las características heredadas en el nacimiento no se pueden prever de antemano, sino que dependen del azar: el género, el color del pelo, el peso al nacer. La transmisión de los caracteres genéticos obedece a las leyes del cálculo de probabilidades. En la Medicina La posibilidad de contagio o no en una epidemia, la duración de un cierto síntoma, la posibilidad de un diagnóstico correcto cuando hay varias posibles enfermedades que presentan síntomas parecidos, son ejemplos de situaciones donde el azar está presente. En el mundo físico La duración, intensidad y extensión de las lluvias, tormentas o granizos; la intensidad y dirección del viento. las temperaturas máximas o mínimas, etc.

42

En el mundo social En la sociedad en que vivimos, la familia, la escuela, el trabajo, están llenos de situaciones en las que predomina la incertidumbre. El número de hijos en la familia, la edad de los padres al contraer matrimonio, el tipo de trabajo, la terminación de los estudios escolares, son ejemplos de fenómenos aleatorios en la vida social. Las definiciones de probabilidad. Laplace (1812) definió la probabilidad como la tasa de casos favorables sobre el número total de casos igualmente posibles, pero también lo hizo Leibniz en 1678. Para Laplace, la teoría del azar, “consiste en reducir todos los acontecimientos del mismo tipo a un cierto número de casos igualmente posibles, es decir, aquellos para los que estamos igualmente indecisos acerca de su existencia”. William Emerson (1776) distingue la “probabilidad matemática” (o teórica) y “probabilidad frecuentista”, dando una buena descripción de esta última: Aunque es imposible determinar con certeza cómo ocurrirá un acontecimiento, puede determinarse matemáticamente, sin embargo, qué verosimilitud o grado de probabilidad hay de que ocurra o deje de ocurrir, excepto que se haga un número infinito de repeticiones y entonces una con la otra llevarán siempre a la misma cosa que se obtiene con el cálculo. Una teoría mucho más aplicable y muy sostenida, que evita alguna de estas dificultades, es la “frecuencia relativa” o “interpretación estadística”. Puede atribuírse en gran medida, a este punto de vista el adelanto registrado en la aplicación de la probabilidad, no sólo a la física y a la astronomía, sino también a la biología, a las ciencias sociales y a los negocios. La interpretación estadística está estrechamente relacionada con el punto de vista expresado por Aristóteles: que lo probable es aquello que ocurre diariamente. Conceptos básicos en Probabilidad Con el propósito de continuar con el estudio de la Probabilidad de manera sistemática, usaremos las siguientes definiciones: La probabilidad es un término utilizado para describir un experimento con un resultado aleatorio, lo que se conoce como experimento aleatorio. En la práctica, un experimento es el proceso por medio del cual la medición de una observación es registrada. El primer componente de un modelo de probabilidad, es el conjunto de todos los posibles resultados del experimento llamado espacio muestral ( Ω ). Por ejemplo, si consideramos que lanzar una moneda es un experimento aleatorio, los posibles resultados son águila o sol. Simbólicamente, el espacio muestral de lanzar una moneda es Ω = {águila, sol}. Por otro lado, si se lanza un dado cuyas caras están numeradas del 1 al 6, la posibilidad de que el número mostrado sea un 7 es un evento que no puede ocurrir y a éste evento se le llama evento imposible, se denota por ∅ y su probabilidad de ocurrencia es cero.

43

Si lanzamos una moneda, tenemos la seguridad de que obtendremos uno de los resultados posibles contenidos en Ω , cada uno de éstos resultados se conocen como eventos simples, éstos eventos comúnmente se denotan por Ei. Una característica evidente de los eventos simples, es que en un experimento aleatorio ocurre uno y solo un evento simple. En resumen el cálculo de probabilidades tiene las siguientes verdades básicas o axiomas. 1. Si E es un evento cualquiera, entonces 0 ≤ P(E ) ≤ 1

2. Si Ω o S, es el evento seguro, entonces P(Ω) = 1 o P(S ) =1 3. Si E1, E2,……Ek son eventos mutuamente excluyentes, entonces P(E1 o E2 o …. Ek)=P(E1)+P(E2)+…+P(Ek) También es importante que sepas el uso correcto de algunos términos en español que se usan cotidianamente en el cálculo de probabilidades. Conectivo ”y” Este conectivo y significa que estamos interesados en la ocurrencia simultánea o conjunta de dos resultados en una situación aleatoria. Ejemplo 1. Supóngase que se arrojan simultáneamente un dado y una moneda y se quiere 1 y calcular la probabilidad de obtener un 3 y un águila. La probabilidad de obtener un 3 es 6 1 la probabilidad de que salga águila en un volado es ; entonces la probabilidad de obtener 2 1 1 un 3 y un águila al lanzar simultáneamente un dado y una moneda es , es decir, y 6 2 1 1 1 1 1 1 × = . Esta situación se simboliza como: P (3 y A) = P (3 I A) = P (3) ⋅ P ( A) = × = 6 2 12 6 2 12 El razonamiento anterior se puede aplicar siempre y cuando la probabilidad de ocurrencia de cualquiera de los dos eventos no afecte la probabilidad de ocurrencia del otro, es decir, cuando ambos eventos no estén relacionados. Ejemplo 2. Calcular la probabilidad de obtener tres cincos en el lanzamiento de 3 dados. Como los eventos no están relacionados (son independientes), entonces 1 1 1 1 P (5 y 5 y 5) = P (5 I 5 I 5) = P (5) ⋅ P (5) ⋅ P (5) = × × = 6 6 6 216 La respuesta de estos ejemplos se hizo relacionando el conectivo y con la intersección de conjuntos y con la operación aritmética multiplicación Conectivo ”o” Supóngase que se desea calcular la probabilidad de obtener un número par en el lanzamiento de un dado, es decir, calcular la probabilidad de obtener 2 o 4 o 6, la respuesta se obtiene relacionando el conectivo o con la unión de conjuntos y con la operación aritmética adición, así: 44

1 1 1 3 1 + + = = = 0.5 6 6 6 6 2 La condición para poder sumar probabilidades en esta forma es que los eventos sean mutuamente excluyentes, es decir, que no puedan ocurrir conjuntamente. P(2o 4o6) = P(2U 4U 6) =

Este procedimiento puede conducir a errores si los eventos no son mutuamente excluyentes. Ejemplo: Sean los eventos: A: Un tirador acierta en el blanco B: Otro tirador acierta en el mismo blanco. Si se sabe que: P(A)=0.8 y P(B)=0.7,determinar la probabilidad de que los dos tiradores apuntando al mismo blanco, acierten uno u otro. Si quisiéramos utilizar el procedimiento anterior en esta situación, nos encontraríamos con que P ( Ao B ) = P ( A U B ) = P ( A) + P ( B ) = 0.8 + 0.7 = 1.5 resultado evidentemente absurdo, porque como ya lo hemos señalado, la probabilidad de un evento no puede ser mayor a 1. El error proviene del hecho de no considerar que ambos eventos no son mutuamente excluyentes, porque es muy posible que ambos tiradores hagan blanco simultáneamente. La forma correcta de calcularla es P ( Ao B ) = P ( A U B ) = P ( A) + P ( B ) − P ( A I B ) ,es decir, se debe restar de 1.5, la probabilidad de que ambos tiradores hagan blanco simultáneamente. Eventos simples y su probabilidad Ejemplo 1. Consideremos una encuesta a 34 estudiantes, clasificados de acuerdo con las variables género y resultado de un examen final en Estadística. Masculino Femenino Total (M) (F) Aprobado (A) 2 10 12 No aprobado (NA) 9 13 22 Total 11 23 34 En esta tabla se puede observar que el espacio muestral se forma con las combinaciones de los valores de ambas variables: (A y M), ((A y F), (NA y M) y (NA y F). En esta situación los eventos simples con sus probabilidades son: Seleccionar una mujer (F) 23 P( F ) = = 0.6764 34 Seleccionar un hombre (H) 11 P( H ) = = 0.3236 34 Seleccionar una persona que aprobó el examen (A) 12 P ( A) = = 0.3529 34 45

Seleccionar una persona que no aprobó el examen (NA). 22 P( NA) = = 0.6471 34 Cálculo de probabilidades de eventos compuestos Los eventos compuestos se forman combinando varios eventos simples. A continuación calcularemos probabilidades para eventos compuestos. Consideremos la encuesta a 34 estudiantes, clasificados de acuerdo con las variables género y resultado de un examen final en Estadística. Masculino Femenino Total (M) (F) Aprobado (A) 2 10 12 No aprobado (NA) 9 13 22 Total 11 23 34 Podemos obtener directamente las probabilidades de los eventos compuestos:

2 = 0.0588 34 10 P( A y F ) = P ( A I F ) = = 0.2941 34 9 P( NA y M ) = P( NA I M ) = = 0.2647 34 13 P( NA y F ) = P( NA I F ) = = 0.3823 34 P( A y M ) = P ( A I M ) =

La probabilidad de ocurrencia de dos eventos cuando ya se tiene cierta información de uno de ellos. Otra situación de interés consiste en determinar la probabilidad de un evento si ha ocurrido el otro. Por ejemplo, si seleccionamos un estudiante de la muestra de 34, ¿cuál es la probabilidad de que haya aprobado (A), si se sabe que es mujer (F)? La información se sabe que es mujer condiciona la probabilidad de ocurrencia del evento aprobar, es decir, de las 23 alumnas en la muestra solamente nos interesan aquellas que aprobaron (10); de esta 10 manera, la probabilidad de ocurrencia (llamada probabilidad condicional), es = 0.4347 23 12 Observe que si se calcula solamente P(A), se obtiene = 0.3529 , pero la influencia del 34 evento F modifica su probabilidad a 0.4347 De manera semejante, podemos calcular la probabilidad de seleccionar una mujer si se sabe (dado que) aprobó. Aquí únicamente nos interesa una parte de la muestra (12 estudiantes 46

que aprobaron), y de estos solamente seleccionamos a las mujeres, por lo tanto, la 10 probabilidad deseada es = 0.8333 12 Existen también algunas proposiciones (fórmulas) que junto con los axiomas permiten el cálculo de probabilidades de ocurrencia de dos eventos A y B Si dos eventos no son mutuamente excluyentes P ( A U B ) = P ( A) + P ( B ) − P ( A I B ) lo que se interpreta como la probabilidad de ocurrencia de A o B, es igual a la suma de probabilidades de A con B menos la probabilidad de ocurrencia de A y B.

Si dos o más eventos son mutuamente excluyentes, entonces: P ( A U B U C ) = P ( A) + P ( B ) + P (C )

que se interpreta como la probabilidad de ocurrencia de A o B o C, es igual a la suma de probabilidades de A con B con C. La probabilidad de ocurrencia de un evento A o de un evento B. Frecuentemente el interés se centra en calcular la probabilidad de ocurrencia de uno u otro evento. Si los dos eventos son mutuamente excluyentes, la probabilidad se calcula como la suma de las probabilidades simples, pero cuando los eventos no son mutuamente excluyentes, el procedimiento anterior tiene que modificarse. Por ejemplo, al seleccionar un alumno, ¿cuál es la probabilidad de que sea mujer (F) o no haya aprobado (NA)? Si

pensamos

que

los

eventos son mutuamente excluyentes, entonces 23 22 45 P ( F o NA) = P ( F U NA) = P ( F ) + P ( NA) = + = = 1.3235 , resultado incorrecto porque la 34 34 34 probabilidad encontrada es mayor a 1. Como se mencionó anteriormente, el error proviene de no considerar que los eventos no son mutuamente excluyentes, es decir, de no tomar en consideración la ocurrencia simultánea de los eventos (F y NA). ¿Cómo eliminar este error? Una manera consiste en considerar que en la ocurrencia de estos dos eventos, digamos A y B, nos interesa en realidad la ocurrencia de tres eventos: a) que ocurra el evento A b) que ocurra el evento B c) que ocurran ambos eventos A y B. De acuerdo con esto, las probabilidades de interés para la ocurrencia del evento F o el evento NA, son: a) P( FyA) =

10 , nos interesa porque ocurre el evento F (aunque no ocurra el evento A). 34 47

b) P ( NA y M ) = P ( NA I M ) =

9 , nos interesa porque ocurre el evento NA (aunque no ocurra 34

el evento M). c) P ( F y NA) = P ( F I NA) =

13 , nos interesa porque ocurren ambos eventos F y NA. 34

Así, P ( F o NA) = P ( F U NA) = P ( A I F ) + P ( NA I M ) + P ( F I NA) =

10 9 13 32 + + = = 0.9411 34 34 34 34

que es equivalente a: 23 22 13 32 + − = = 0.9411 34 34 34 34 Los procedimientos anteriores también se pueden utilizar cuando se conocen las probabilidades simples y las probabilidades conjuntas para dos eventos (A y B). Para ilustrarlo consideremos la siguiente situación: P ( F o NA) = P ( F U NA) = P ( F ) + P ( NA) − P ( F I NA) =

Una compañía desea probar un producto en una zona comercial seleccionada aleatoriamente. Las áreas de ubicación de los mercados pueden ser clasificadas con base en su ubicación y densidad de población, para ello se definen los siguientes eventos (referidos al número de mercados en cada categoría) y sus probabilidades asociadas: Ubicación Este (E), P(E) = 0.6 Ubicación Oeste (O), P(O) = 0.4 Densidad de población urbana (U), P(U) = 0.36 Densidad de población rural (R), P(R) = 0.64 Ubicación Este y densidad urbana (E y U), P(E y U) = 0.2 Información que es conveniente organizar en una tabla de contingencia Densidad de Densidad de Total Población Rural (R) Población Urbana (U) Ubicación Oeste (O) 0.24 0.16 0.4 Ubicación Este (E) 0.4 0.2 0.6 Total 0.64 0.36 1 Con este arreglo podemos contestar las siguientes preguntas: a) Si se selecciona un mercado al azar, la probabilidad de que tenga ubicación este o se encuentre en área de población urbana, es: P ( E oU ) = P ( E U U ) = P ( E y R ) + P (O yU ) + P ( E yU ) = 0.4 + 0.16 + 0.2 = 0.76 que es equivalente a:

P ( E oU ) = P ( E U U ) = P ( E ) + P ( U ) − P ( E I U ) = 0.6 + 0.36 − 0.2 = 0.76 48

b) Si se selecciona un mercado al azar, la probabilidad de que tenga ubicación oeste dado que(si se sabe que) es del área rural, es: P(O dado R) = P(O / R ) =

P(O I R) 0.24 = = 0.375 P( R ) 0.64

Para calcular la probabilidad de dos eventos correlacionados o dependientes, se tiene: Si La probabilidad de ocurrencia del evento B afecta la probabilidad de ocurrencia del evento A, se denota como Probabilidad Condicional, se simboliza como P(A/B) y se calcula con:

P( A / B ) =

P( A I B) , con P ( B ) ≠ 0 P( B)

Regla de la multiplicación para dos eventos correlacionados o dependientes. Si en la expresión anterior se despeja P ( A I B ) , se obtiene P ( A I B ) = P ( A / B ) ⋅ P ( B ) , que es la expresión para calcular la probabilidad de ocurrencia simultánea de dos eventos que no son independientes.

Procedimiento estadístico para determinar si dos eventos A y B son independientes. Si en la regla de la multiplicación para dos eventos correlacionados o dependientes ocurre que P ( A / B ) = P ( A) , entonces resulta que los eventos A y B son independientes, es decir, la ocurrencia del evento B no altera de ninguna manera la ocurrencia del evento A. Esta situación implica que la regla de la multiplicación se modifica a: P ( A I B ) = P ( A) ⋅ P ( B ) De manera general, dos eventos A y B son independientes si y solo si se cumple cualquiera de las siguientes igualdades: P( A / B ) = P ( A)

P( A / B ) P( B) = P( A) P( B) Ejemplo. Si se tiene la siguiente tabla de contingencia para los eventos A, A c , B, B c Los eventos A c , B c se llaman eventos complementarios y sus probabilidades se calculan como: P( A c ) = 1 − P ( A) y P( B c ) = 1 − P ( B ) B B c Total 75 225 300 A c 50 150 200 A Total 125 375 500

Para determinar si los eventos A y B son o no independientes (están o no correlacionados), utilizaremos las expresiones anteriores para observar si se cumplen o no se cumplen: 49

75 = 0.6 125 300 P( A) = = 0.6 500 P( A / B ) =

Como P ( A / B ) = P ( A) , se concluye que los eventos A y B son independientes (no están correlacionados). P( A I B ) = P( A) ⋅ P( B) 75 300 125 = × 500 500 500 0.15 = 0.15

Como la igualdad se verifica, se concluye que los eventos A y B son independientes.

Procedimiento para determinar si dos eventos son mutuamente excluyentes

P( A I B) =0 P( B) Por ejemplo los eventos A y B anteriores no son mutuamente excluyentes porque P ( A / B ) = 0.6 ≠ 0 pero son independientes, porque P ( A / B ) = P ( A) = 0.6 Finalmente, señalamos que cuando se calcula la probabilidad conjunta de dos eventos, por método, se debe de pensar que ambos están correlacionados o que no son independientes, es decir, no se debe de partir del hecho de que no están correlacionados, a menos que se diga de manera clara que son independientes.

Dos eventos A y B son mutuamente excluyentes si P( A / B ) =

Ejercicios 1. Determina el espacio muestral para cada uno de los siguientes experimentos. a) El lanzamiento de una moneda cargada cuya probabilidad de que caiga sol es el doble de que caiga águila, b) La suma de los puntos de las caras superiores de un “dado de 12 caras” c) La extracción al azar de un gis de una caja donde se encuentran 8 gises blancos, 6 rojos, 4 amarillos y 12 azules. 2. A continuación se presentan los resultados de una investigación sobre los tipos de sangre en una encuesta a 300 personas. Los datos se organizan en una matriz o tabla de contingencia. 50

O A B AB Totales Rh(+) 114 96 27 8 245 Rh(-) 23 22 7 3 55 Totales 137 118 34 11 300 Si se elige al azar una de esas persona ¿cuál es la probabilidad de qué a) Tenga sangre tipo A o tipo B? b) Tenga sangre tipo A o tipo B o tipo AB? c) Tenga Rh(+) o sea del tipo A? d) Tenga Rh(-) y sea del tipo AB? e) Tenga sangre tipo O dado que su Rh es positivo? f) Son independientes los eventos Rh(+) tipo O? 3. La probabilidad de que una enfermera encuentre a uno de sus pacientes en casa es 0.8. Suponiendo que hay independencia de eventos, ¿cuál es la probabilidad de que en dos visitas que hace al día la enfermera, encuentre a sus pacientes en casa?. 4. El consejero escolar de un colegio estimó las probabilidades de éxito en la universidad para tres alumnos X. Y y Z, de último año en 0.9, 0.8 y 0.6 respectivamente, ¿cuál es la probabilidad de que los tres tengan éxito en la universidad? Suponga independencia de eventos. 5. Si la probabilidad de que un estudiante apruebe Estadística es Biología es

3 y de que apruebe 5

2 , determina la probabilidad de que apruebe al menos una de las dos 3

materias 6. Se ha recibido un cargamento de toronjas con las siguientes características: 10% son rosadas sin semilla, 20% son blancas sin semilla, 30% son rosadas con semilla y 40% son blancas con semilla. Si se selecciona aleatoriamente una toronja del cargamento, determina la probabilidad de que: a) b) c) d) e)

sea sin semilla sea blanca sea rosada o sin semilla sea rosada dado que es sin semilla sea sin semilla dado que es rosada.

7. Si en uno de los libreros de la biblioteca de una escuela se encuentran 8 libros mutilados y 9 en buen estado, determina la probabilidad de que si un usuario elige al azar: a) b) c) d)

un libro, esté mutilado uno esté en buen estado. tres libros, los tres estén en buenas condiciones. cuatro libros, la mitad estén en buen estado. 51

e) cinco libros, 3 estén en buen estado y 2 mutilados. 8 Una refaccionaria vende refacciones nuevas y usadas. El 60% de las refacciones en existencia son usadas, y al mismo tiempo el 61% de ellas son usadas o defectuosas, si el 5% de las piezas son defectuosas, ¿qué porcentaje de esas refacciones son usadas y defectuosas? 9. Una persona tiene una entrevista relacionada con un empleo ofrecido por una compañía, la probabilidad de que adquiera el trabajo después de la entrevista es de 0.68 La probabilidad de que la compañía tenga interés en esta persona es de 0.36. La probabilidad de que adquiera el trabajo dado que la compañía tenga interés, es de 0.88 a) Encuentra la probabilidad de que la persona adquiera el trabajo y la compañía tenga interés. b) Determina la probabilidad de que la compañía tenga interés dado que adquirió el trabajo. c) ¿Son independientes los eventos “la persona adquiera el trabajo” y “la compañía tenga interés”? 10. En una ciudad hay una alta incidencia de cirrosis entre la población. Se sospecha que se debe al alto índice de consumo de alcohol. Se hacen estudios estadísticos que asocian “presencia de la enfermedad” con “consumo de alcohol”. Se encuentra que el 40% de la población consume alcohol, el 20% padece la enfermedad y el 5% consume alcohol y padece la enfermedad. ¿Se verifica la creencia? Respuestas a los ejercicios.. Página 6. G,A,F,E,D,B,H Página 8. 1. Aleatoria, cualitativa, discreta 2. Aleatoria, cuantitativa, discreta. 3. Aleatoria, cuantitativa, discreta. 4. Determinística, Cuantitativa, continua. 5. Aleatoria, cuantitativa, discreta. 6. Aleatoria, cualitativa, discreta. 7. Aleatoria, cualitativa, discreta. 8. Determinística, cualitativa, discreta. 9. Determinística, cuantitativa, discreta. 10. Aleatoria, cuantitativa, continua.

52

Página 11 Intervalo

Frecuencia

Marca de clase

5 10 15 18 12

33 42 51 60 69

29 - 37 38 - 46 47 - 55 56 - 64 65 – 73

Páginas 22 a 25. x = 5.6 1. Me = 3

Límites reales Frecuencia Frecuencia de clase relativa acumulada 28.5 – 37.5 37.5 – 46.5 46.5 – 55.5 55.5 – 64.5 64.5 – 73.5

x = 2.5 Me = 2.5

2.

Mo = No tiene

0.083 0.166 0.25 0.3 0.2

5 15 30 48 60

4. x = 9

Mo = No tiene

x = 7.5

7.

Me = 7.5

8. b)

9. a)

10. x = 5

Mo = No tiene

11. a) Categórica, nominal o cualitativa b) con Toshiba 12. a) [ 22, 28)

13. 8.8, 9, 9.2, 9.5 y 9.8

b) Mediana

b) S c) S

x = $8363.63

x = $8.175

15. Me = $ 7000.00 Mo = $ 4166.67 y $13000.00 18. $ 45.00 por Kg. 21. 8 reactivos.

14. a) S

16. Me = $8.166 Mo = $8.361 19. 63 Kg.

x = 150.516 cm

17. Me = 150.5 cm Mo = 150.4285 cm 20. 9.5 Kg.

22. Incorrecto, el correcto es 3.8928 cm.

Páginas 29 a 30 1. En la Ciudad de Washington ya que tiene s = 2.449° 2. Si los datos son iguales, no hay variación. 3. a) La mejor variedad es la A porque su x = 3.88 , es la más alta. b) La variedad más consistente es B porque su s = 0.557 es menor. 4. a) A b) A c) B 5. Al fabricante I porque su s = 0.0027 6. s = 7.165 puntos 53

7. s 2 = $ 7.2943 Página 301 a 32

2.

y s = $ 2.7008

1. Hay más variabilidad en invierno porque su C.V . = 0.217 b)

3. a)

Página 40 a 41. 1. b) La tabla muestra la estatura de un bebé al nacer, X (cm), y el período de embarazo, Y (días promedio). X 48 49 50 51 52 250

Y 277.1 279.3 281.4 283.2 284.8 1405.8

XY 13300.8 13685.7 14070.0 14443.2 14809.6 70309.3

X2 2304 2401 2500 2601 2704 12510

Y2 76784.41 78008.49 79185.96 80202.24 81111.04 395292.14

c) El coeficiente de correlación de Pearson es r = 0.9978 d) Con m = 1.93 y b = 184.66 La recta tiene como ecuación Y = 1.93X + 184.66 f) Si Y = 280 es el número de días de embarazo X = 49.398 cm. es la estatura del bebé g) Si X = 50.4 cm. es la estura del bebé Y = 281.93 es el promedio de días de embarazo. 2. b) Tabla de Regresión del contenido de hierro Y de un mineral de hierro con densidad X. X 2.8 3.0 3.2 3.2 3.4 15.6

Y 27 30 30 34 36 157

XY 75.6 90.0 96.0 108.8 122.4 492.8

X2 7.84 9.00 10.24 10.24 11.56 48.88

Y2 729 900 900 1156 1296 4981

c) Coeficiente de correlación es r = 0.91 d) Con m = 14.23 y b = – 13 La ecuación de la recta de regresión es Y = 14.23X – 13 f) Si X = 2.9 es la densidad Y = 28.267 es el contenido de hierro. g) Si Y = 31 es el contenido de hierro X = 3.092 es la densidad.

54

Páginas 50 a 52 1. a) S = {águila, sol} b) S = {2,3, 4,5, 6, 7,...24}

2.

c) S = { gis blanco, gis rojo, gis amarillo, gis azul}

118 34 152 + = = 0.5066 300 300 300 118 34 11 163 b) P( A U B U AB ) = + + = = 0.5433 300 300 300 300 245 118 96 267 c) P( Rh(+) U A) = + − = = 0.89 300 300 300 300 3 d) P( Rh(−) I AB ) = = 0.01 300 114 114 e) P(O / Rh(+)) = 300 = = 0.4653 245 245 300 f) No son independientes.

a) P ( A U B ) =

3. P ( Encontrar I Encontrar ) = 0.8 × 0.8 = 0.64 4. P(XyYyZ)=0.432 5. P=0.8666 6.

7.

a) b) … c) d) e)

P ( Sin semilla ) = 0.3 P ( Blanca ) = 0.6 P ( Rosada o sin semilla ) = 0.6 P ( Rosada / Sin semilla ) = 0.333 P ( Sin semilla / Rosada ) = 0.25

a) P=0.4705 9 b) P = 17 21 c) P = 170 36 d) P = 85 1179 e) P = 3094 8. El 4% 9. a) P = 0.3168 b) P = 0.4658 c) No son independientes. 55

10. Se verifica la creencia.

BIBLIOGRAFIA RECOMENDADA PARA CONSULTA Y APOYO DANIEL, W. D. (1981) Estadística con aplicaciones a las Ciencias Sociales y a la Educación. Mc Graw -Hill. México. JOHNSON, R. (1990) Estadística Elemental. Grupo Editorial Iberoamericano. México. SPIEGEL. Estadística. Mc. Graw-Hill. México. STEVENSON, Williams J. Estadística para Adminitración y Economía. Harla. México. WILLOUGHBY, Stephen S. Probabilidad y Estadística. Publicaciones Cultural. México.

56

Get in touch

Social

© Copyright 2013 - 2025 MYDOKUMENT.COM - All rights reserved.