Story Transcript
Seminari 3. Estadística CP Problema 1 - Solució.
a) Estos datos describen a 5375 estudiantes, de los cuales 1004 fumadores y 4371 no fumadores. Para obtener estos números tenemos que completar la tabla de contingencia con el total de cada columna (total “Estudiantes Fumadores” y total “Estudiantes no Fumadores”) y con el total de cada fila (total “Los dos padres fuman”, total “Sólo uno de los padres fuma” y total “Ninguno de los dos padres fuma”). El total de los estudiantes se puede obtener como el total de cada una de las dos distribuciones marginales.
b) El porcentaje de los estudiantes fumadores es de 1004/5375= 18,7% En general para calcular los porcentaje es importante fijarse en el numero da poner en el numerador y en el numero da poner en el denominador. En este caso el denominador seria formado da “todos los estudiantes” (5375) y el numerador da “todos los estudiantes fumadores” (1004). c)
1
En la columna 4 hay la distribución marginal del “consumo de tabaco de los padres” con recuentos y en la columna 5 hay la distribución marginal del “consumo de tabaco de los padres” con recuentos. Para obtener la primera tenemos que hacer los siguientes cálculos: 400+1380=1789 416+1823=2239 188+1168=1356 Para obtener la segunda tenemos que hacer los siguientes cálculos: 1780/5375=33,1% 2239/5375=41,7% 1356/5375=25,2%
2
a) Desde las dos tablas de contingencia aquí abajo podemos ver que el porcentaje de vuelos de Alaska Airlines que llegan con retraso es 13,3%. Para obtenerlo ponemos al numerator todos los vuelos Alaska Airlines que llegan con retraso (62+12+20+102+305=501) y al denominador todos los vuelos de Alaska Airlines (3274+501=3775)
De la misma manera la tabla de contingencia de los vuelos de America West nos dice que el porcentaje de vuelos de America West que llegan con retraso es 10,9%, es decir 787/7225.
3
Desde estos dos porcentajes podríamos decir que la mejor compañía aérea es America West ya que tiene un porcentaje menor de vuelos que llegan con retraso. b) Para calcular el porcentaje de vuelos con retraso de cada una de las dos compañías en cada aeropuerto tenemos que poner en el numerador el recuento de vuelos con retraso en cada aeropuerto por cada compañía y en el denominador el total de los vuelos en cada aeropuerto por cada compañía. -Porcentaje de vuelos con retraso en Los Angeles por la compañía Alaska Airlines= 62/559=11,1% -Porcentaje de vuelos con retraso en Phoenix por la compañía Alaska Airlines= 12/233=5,2% -Porcentaje de vuelos con retraso en San Diego por la compañía Alaska Airlines= 20/232=8,6% -Porcentaje de vuelos con retraso en San Francisco por la compañía Alaska Airlines= 102/605=16,9% -Porcentaje de vuelos con retraso en Seattle por la compañía Alaska Airlines= 305/2146=14,2% -Porcentaje de vuelos con retraso en Los Angeles por la compañía America West= 117/811=14,4% -Porcentaje de vuelos con retraso en Phoenix por la compañía America West= = 415/5255=7,9% -Porcentaje de vuelos con retraso en San Diego por la compañía America West= = 65/448=14,5% -Porcentaje de vuelos con retraso en San Francisco por la compañía America West= = 129/449=28,7% -Porcentaje de vuelos con retraso en Seattle por la compañía America West= = 61/262=23,3%
4
Esto es el resultado del porcentaje por cada aeropuerto:
c) Considerando los aeropuertos conjuntamente como hemos hecho en el punto a la compañía mejor es America West que tiene 10,9% de vuelos con retaso mientras que la Alaska Airlines tiene 13,3% de ellos. Considerando cada aeropuerto por separado notamos que la compañía mejor es siempre la Alaska Airlines. No se trata de una contradicción sino de una paradoja de Simpson: hay una variable latente que, al nos ser considerada, cambia el sentido de nuestra asociación. Al ver los datos se puede notar que America West es la compañía con más vuelos procedentes de Phoenix, aeropuerto en el que se producen pocos retrasos (Phoenix es una ciudad muy soleada). Alaska Airlines es la compañía con más vuelos procedentes de Seattle, aeropuerto en el que se producen muchos retrasos (hay mucha nieblas en Seattle). El clima de la ciudad de procedencia es la variable latente que genera la paradoja de Simpson.
5
a) Resolvemos este ejercicio utilizando a SPSS. Para introducir la tabla e SPSS tenemos que crear tres variables: C_edad en la cual ponemos la marca de cada clase de edad (por ejemplo elegimos el promedio de cada clase: 21, 32, 52, 80); Estado_civil: Soltera, Casada, Viuda, Divorciada; Recuento: por cada clase de edad y estado civil ponemos el recuento. El resultado sería este:
6
Fíjate que cada variable tiene 16 casos (4 clases de edad * 4 topologías de estado civil). Ahora tenemos que ponderar los datos: DATOS + PONDERAR CASOS + "Ponderar casos mediante" + en "Variable de ponderación" poner "Recuento"+ ACEPTAR Ahora podemos obtener la tabla de contingencia: ANALIZAR + ESTADISTICOS DESCRIPTIVOS + TABLAS DE CONTINGENCIA en "Filas" ponemos C_edad es decir nuestra variable fila y en "Columnas" ponemos "Estado_civil"; en "Casillas" tener solo "Frecuencias" - "Observadas"; en "Ponderación no enteras" tener solo "Redondear frecuencias de casillas"; CONTINUAR + ACEPTAR. El resultado es este:
(a) La suma de los valores de la columna “Casada” es 58.929 en vez de 58.931 reportado en la tabla que aparece en el ejercicio. La diferencia deriva da un error de redondeo. Estos datos son en miles de mujeres y cada valor se ha redondeado hasta el millar más próximo. (b) La distribución marginal del estado civil de las mujeres adultas, a partir de la tabla de contingencia obtenida antes, puede obtener así: en "Casillas" tener "Frecuencias" - "Porcentaje" - "Fila" .
7
se
Este es el resultado y la distribución marginal (en porcentaje) del estado civil es reportado en la última fila por debajo de la tabla de contingencia:
Para obtener el grafico de la distribución marginal de estado civil hacemos GRAFICOS + INTERACTIVOS + BARRAS; ponemos “Porcentaje” en el eje y, “Estado_civil” en el eje x y obtenemos el siguiente:
c) Para obtener las distribuciones condicionales hacemos como en el punto b, pero en bajo a la ventana de ANALIZAR + ESTADISTICOS DESCRIPTIVOS + TABLAS DE CONTINGENCIA, tenemos que marcar en bajo de esta ventana remarcamos "Mostrar los gráficos de barras agrupados". Se obtiene la misma tabla de antes que por cada fila reporta las distribuciones condicionales del estado civil para clases de edad. Se obtiene también el siguiente grafico:
8
Podemos comparar las distribuciones condicionales por las mujeres entre 18 y 24 años y por las mujeres entre 40 y 64 años. Las primeras son por la mayoría solteras o casadas, mientras que las segundas son por la mayoría casadas, con un pequeño porcentaje de divorciadas y con un igual y muy pequeño porcentaje de solteras y viudas. d) Hacemos como en el punto (c), pero tenemos que invertir la variable fila y la variable columna cuando creamos la tabla de contingencia. Es decir: ANALIZAR + ESTADISTICOS DESCRIPTIVOS + TABLAS DE CONTINGENCIA, en "Filas" ponemos "Estado_civil" fila y en "Columnas" ponemos “C_edad”. Obtenemos la siguientes tabla (con las distribuciones condicionales de las edades entre cada grupo de estado civil de las mujeres) y el relativo grafico.
9
Nos fijamos en la distribución de las edades entre las mujeres solteras. La revista debería dirigirse a las mujeres entre 18 y 24 años, como representan el porcentaje mayor (48,1%).
10