Prof. Dr. Antonio José Sáez Castillo Departamento de Estadística e Investigación Operativa

Apuntes de M´etodos Estad´ısticos de la Ingenier´ıa Ingenier´ıa T´ecnica Industrial Mec´anica y Qu´ımica Industrial Escuela Polit´ecnica Superior de L

0 downloads 73 Views 980KB Size

Recommend Stories


Prof. Titular: Dr. Antonio Brahin
II CATEDRA DE PATOLOGIA Y CLINICA QUIRURGICA Prof. Titular: Dr. Antonio Brahin U.N.T SEMIOLOGIA DE MIEMBROS INFERIORES Y ARTERIAL PERIFERICO PRACTI

Prof. Dr. Ing. Antonio López Gómez HISTORIAL ACADÉMICO E INVESTIGADOR
Prof. Dr. Ing. Antonio López Gómez HISTORIAL ACADÉMICO E INVESTIGADOR FORMACIÓN ACADÉMICA Ingeniero Agrónomo Especialista en Ingeniería de las Industr

DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA
UNIVERSIDAD DE MURCIA DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Ampliación de Modelos de I.O. - Curso 2008/2009 Problemas de Teoría de Co

Story Transcript

Apuntes de M´etodos Estad´ısticos de la Ingenier´ıa Ingenier´ıa T´ecnica Industrial Mec´anica y Qu´ımica Industrial Escuela Polit´ecnica Superior de Linares Universidad de Ja´en Prof. Dr. Antonio Jos´e S´aez Castillo Departamento de Estad´ıstica e Investigaci´on Operativa Curso 2007-2008

2

Prof. Dr. Antonio Jos´ e S´ aez Castillo

´Indice general 1. Introducci´ on

I

9

1.1. ¿Qu´e significa Estad´ıstica? . . . . . . . . . . . . . . . . . . . . . . . . . .

9

1.2. Un poco de historia sobre la Estad´ıstica . . . . . . . . . . . . . . . . . .

10

1.3. Estad´ıstica e Ingenier´ıa

. . . . . . . . . . . . . . . . . . . . . . . . . . .

11

1.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12

Estad´ıstica descriptiva

13

2. El tratamiento de los datos. Estad´ıstica descriptiva

15

2.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

2.2. Tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

2.3. M´etodos gr´aficos y num´ericos para describir datos cualitativos . . . . . .

16

2.4. M´etodos gr´aficos para describir datos cuantitativos . . . . . . . . . . . .

18

2.5. M´etodos num´ericos para describir datos cuantitativos

. . . . . . . . . .

23

2.5.1. Medidas de tendencia central . . . . . . . . . . . . . . . . . . . .

24

2.5.2. Percentiles

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

2.5.3. Medidas de variaci´ on o dispersion . . . . . . . . . . . . . . . . . .

27

2.5.4. Medidas de forma. Coeficiente de asimetr´ıa . . . . . . . . . . . .

31

2.6. M´etodos para detectar datos cuantitativos fuera de rango . . . . . . . .

33

2.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

35

3

4

II

Prof. Dr. Antonio Jos´ e S´ aez Castillo

C´ alculo de Probabilidades

3. Probabilidad

39 41

3.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

3.2.

Experimentos aleatorios y experimentos determin´ısticos . . . . . . . . .

42

3.3.

Interpretaci´on frecuentista de la probabilidad . . . . . . . . . . . . . . .

43

3.4. Interpretaci´on cl´asica de la probabilidad . . . . . . . . . . . . . . . . . .

44

3.5. Definici´on axiom´atica de probabilidad . . . . . . . . . . . . . . . . . . .

45

3.5.1. ´algebra de conjuntos . . . . . . . . . . . . . . . . . . . . . . . . .

45

3.5.2. Espacio muestral . . . . . . . . . . . . . . . . . . . . . . . . . . .

47

3.5.3. Funci´on de probabilidad . . . . . . . . . . . . . . . . . . . . . . .

49

3.6. Probabilidad condicionada. Independencia de sucesos . . . . . . . . . . .

51

3.7. Teorema de la probabilidad total y Teorema de Bayes . . . . . . . . . .

56

3.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

60

4. Variable aleatoria

63

4.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . . . .

64

4.1.1. Definici´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

64

4.1.2. Funci´on masa de probabilidad . . . . . . . . . . . . . . . . . . . .

65

4.1.3. Funci´on masa de probabilidad emp´ırica. . . . . . . . . . . . . . .

66

4.1.4. Funci´on de distribuci´on . . . . . . . . . . . . . . . . . . . . . . .

66

Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . . .

70

4.2.1. Definici´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

70

4.2.2. Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

71

4.2.3. Funci´on de densidad . . . . . . . . . . . . . . . . . . . . . . . . .

73

4.2.4. Funci´on de distribuci´on . . . . . . . . . . . . . . . . . . . . . . .

74

4.2.5. Funci´on de distribuci´on emp´ırica . . . . . . . . . . . . . . . . . .

76

4.3. Momentos de una v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

77

4.3.1. Media o esperanza matem´atica . . . . . . . . . . . . . . . . . . .

78

4.2.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 5

4.3.2.

Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

80

4.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

82

5. Distribuciones te´ oricas de probabilidad 5.1.

85

Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

85

5.2. Distribuci´on binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . .

86

5.3. Distribuci´on de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . .

89

5.4. Distribuci´on geom´etrica . . . . . . . . . . . . . . . . . . . . . . . . . . .

92

5.5. Distribuci´on binomial negativa . . . . . . . . . . . . . . . . . . . . . . .

95

5.6. Distribuci´on uniforme (continua) . . . . . . . . . . . . . . . . . . . . . .

96

5.7.

Distribuci´on exponencial . . . . . . . . . . . . . . . . . . . . . . . . . .

98

5.8. Distribuci´on Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

99

5.9. Distribuci´on normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.10. Medias y varianzas de las distribuciones m´as comunes . . . . . . . . . . 108 5.11. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

III

Inferencia estad´ıstica

111

6. Distribuciones en el muestreo

113

6.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 6.2. Muestreo aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 6.3. Distribuciones en el muestreo . . . . . . . . . . . . . . . . . . . . . . . . 115 6.4. Distribuciones en el muestreo relacionadas con la distribuci´on normal . . 116 7. Estimaci´ on de par´ ametros de una distribuci´ on de probabilidad

119

7.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 7.2. Estimaci´on puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 7.2.1. Definici´on y propiedades deseables de los estimadores puntuales . 120 7.2.2. Obtenci´on de estimadores puntuales. M´etodos de estimaci´on

. . 121

6

Prof. Dr. Antonio Jos´ e S´ aez Castillo

7.2.3. Tabla resumen de los estimadores de los par´ametros de las distribuciones m´as comunes . . . . . . . . . . . . . . . . . . . . . . . 126 7.3. Estimaci´on por intervalos de confianza . . . . . . . . . . . . . . . . . . . 126 7.3.1. Intervalos de confianza para la media . . . . . . . . . . . . . . . . 127 7.3.2.

Intervalos de confianza para la varianza . . . . . . . . . . . . . . 131

7.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 8. Contrastes de hip´ otesis param´ etricas

135

8.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 8.2. Errores en un contraste de hip´otesis . . . . . . . . . . . . . . . . . . . . 137 8.3. Contraste para la media de una poblaci´on . . . . . . . . . . . . . . . . . 141 8.3.1. Con muestras grandes (n ≥ 30) . . . . . . . . . . . . . . . . . . . 141 8.3.2. Con muestras peque˜ nas (n < 30) . . . . . . . . . . . . . . . . . . 142 8.4. Contraste para la diferencia de medias . . . . . . . . . . . . . . . . . . . 142 8.4.1. Con muestras grandes (n1 , n2 ≥ 30) . . . . . . . . . . . . . . . . 142 8.4.2. Con muestras peque˜ nas (n1 < 30 o n2 < 30) y varianzas iguales (σ12 = σ22 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 8.4.3. Con muestras peque˜ nas (n1 < 30 o n2 < 30), varianzas distintas (σ12 6= σ22 ) y mismo tama˜ no muestral (n1 = n2 = n) . . . . . . . . 143 8.4.4. Con muestras peque˜ nas (n1 < 30 o n2 < 30), varianzas distintas (σ12 6= σ22 ) y distinto tama˜ no muestral (n1 6= n2 ) . . . . . . . . . . 144 8.5. Contraste para la diferencia de medias de poblaciones apareadas . . . . 144 8.5.1. Con muestras grandes (n ≥ 30) . . . . . . . . . . . . . . . . . . . 145 8.5.2. Con muestras peque˜ nas (n < 30) . . . . . . . . . . . . . . . . . . 145 8.6. Contraste para la proporci´on en una poblaci´on . . . . . . . . . . . . . . 146 8.7. Contraste para la diferencia de proporciones de poblaciones . . . . . . . 146 8.8. Contraste para la varianza de una poblaci´on . . . . . . . . . . . . . . . . 147 8.9. Contraste para el cociente de varianzas de 2 poblaciones independientes 148

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 7

8.10. Contraste para las medias de m´as de dos poblaciones independientes. ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 8.11. p-valor de un contraste de hip´otesis . . . . . . . . . . . . . . . . . . . . . 152 8.11.1. Definici´on de p-valor . . . . . . . . . . . . . . . . . . . . . . . . . 153 8.11.2. C´alculo del p-valor . . . . . . . . . . . . . . . . . . . . . . . . . . 154 8.12. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 9. Contrastes de hip´ otesis no param´ etricas

157

9.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 9.2. Contrastes de bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . 157 9.2.1. Test χ2 de bondad de ajuste para datos discretos . . . . . . . . . 158 9.2.2. Test de Kolmogorov-Smirnoff para la bondad del ajuste de datos continuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 9.3. Contraste de independencia χ2 para una poblaci´on clasificada seg´ un dos caracter´ısticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 9.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 10.Regresi´ on lineal simple

173

10.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 10.2. Estimaci´on de los coeficientes del modelo por m´ınimos cuadrados . . . . 177 10.3. Supuestos adicionales para los estimadores de m´ınimos cuadrados

. . . 180

10.4. Inferencias sobre la pendiente β1 . . . . . . . . . . . . . . . . . . . . . . 181 10.5. El coeficiente de correlaci´on lineal . . . . . . . . . . . . . . . . . . . . . . 183 10.6. El coeficiente de determinaci´on lineal . . . . . . . . . . . . . . . . . . . . 186 10.7. Predicci´on y estimaci´on a partir del modelo . . . . . . . . . . . . . . . . 187 10.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

8

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Cap´ıtulo 1

Introducci´ on 1.1.

¿Qu´ e significa Estad´ıstica?

Si buscamos en el Diccionario de la Real Academia Espa˜ nola de la Lengua (DRAE) el vocablo Estad´ıstica aparecen tres acepciones de dicha palabra: 1. Estudio de los datos cuantitativos de la poblaci´on, de los recursos naturales e industriales, del tr´afico o de cualquier otra manifestaci´on de las sociedades humanas. 2. Conjunto de estos datos. 3. Rama de la matem´atica que utiliza grandes conjuntos de datos num´ericos para obtener inferencias basadas en el c´alculo de probabilidades. Probablemente el m´as com´ un de los significados conocidos de la palabra sea el segundo, y por ello solemos ver en los medios de comunicaci´ on que cualquier recopilaci´on de cifras referentes a alg´ un asunto es llamado (de forma muy reduccionista) estad´ıstica o estad´ısticas. Sin embargo, el valor real de la Estad´ıstica como ciencia tiene que ver mucho m´as con la primera y la tercera acepci´on del DRAE. Concretamente, el primero de los 9

10

Prof. Dr. Antonio Jos´ e S´ aez Castillo

significados se corresponde con lo que vamos a estudiar como Estad´ıstica Descriptiva, donde la Estad´ıstica se utiliza para resumir, describir y explorar datos, y el tercero con lo que denominaremos Inferencia Estad´ıstica, donde lo que se pretende mediante la Estad´ıstica es utilizar datos de un conjunto reducido de casos para inferir caracter´ısticas de ´estos al conjunto de todos ellos. A prop´osito de esto u ´ltimo, y por ir fijando las definiciones m´as elementales: Definici´ on 1.1 Se denomina poblaci´ on a un conjunto de individuos o casos, objetivo de nuestro inter´es. on. Definici´ on 1.2 Una variable o dato es una caracter´ıstica concreta de una poblaci´ Definici´ on 1.3 Se denomina muestra a cualquier subconjunto de datos seleccionados de una poblaci´ on. Ejemplo 1.1 Podr´ıamos estar interesados en la poblaci´ on de todos los espa˜ noles con derecho a voto, de los que querr´ıamos conocer un dato o variable, su intenci´ on de voto en las pr´ oximas elecciones generales. Dado que estamos hablando de millones de personas, probablemente deberemos escoger una muestra, es decir, un subconjunto de espa˜ noles a los que se les realizar´ıa una encuesta. Ejemplo 1.2 Si estamos analizando la dureza de un nuevo material, la poblaci´ on es una abstracci´ on, ya que se referir´ıa al conjunto de todas las piezas construibles con ese nuevo material. Probablemente estemos interesados en la variable dureza de ese material, y, desde luego, utilizaremos una muestra de piezas del material para valorar esa dureza.

1.2.

Un poco de historia sobre la Estad´ıstica

Aunque podr´ıamos remontarnos mucho m´as en el tiempo, podemos fijar el desarrollo de la Estad´ıstica moderna a mediados del siglo XVIII. El origen de esta Estad´ıstica

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 11

moderna tiene que ver en ese momento con el desarrollo de dos ´areas en principio poco compatibles: por un lado, los juegos de azar y, por otro, la pol´ıtica. Los juegos de azar permitieron esbozar los principios del C´alculo de Probabilidades, en el que se basa la Estad´ıstica, mientras que la necesidad de los estados de describir num´ericamente sus unidades pol´ıticas (ciudades, provincias, distritos) impuls´o el desarrollo de la Estad´ıstica Descriptiva. Hoy en d´ıa la gran difusi´on de la Estad´ıstica como herramienta para el an´alisis de datos y la toma de decisiones en ambientes de incertidumbre tiene mucho que ver con el desarrollo de las tecnolog´ıas de la informaci´on y la comunicaci´ on que, entre otras consecuencias, ha provocado un enorme crecimiento de los conjuntos de datos que son conocidos sobre cualquier aspecto.

1.3.

Estad´ıstica e Ingenier´ıa

La Estad´ıstica comenz´o a jugar un papel fundamental en la Ingenier´ıa en todos los niveles, no s´olo en las ´elites cient´ıficas, sino en el ´ambito de las empresas y de los profesionales que en ellas trabajan, a mediados del siglo XX, como consecuencia del auge del Control de la Calidad. Los expertos aseguran que la utilizaci´on de estrategias de mejoramiento de la calidad fue el secreto del ´exito de Jap´on en su enorme desarrollo industrial y econ´omico tras la segunda guerra mundial. Estas estrategias fueron posteriormente adoptadas en Estados Unidos y m´as tarde a´ un en Europa y otras partes del mundo industrializado, y en ellas la Estad´ıstica juega un papel primordial. A lo largo del desarrollo de la docencia de esta asignatura vamos a tratar de exponer principios y t´ecnicas de la Estad´ıstica que tienen aplicaciones inmediatas en el ´ambito de las Ingenier´ıas, aunque tambi´en en otros much´ısimos campos cient´ıficos y tecnol´ogicos.

12

Prof. Dr. Antonio Jos´ e S´ aez Castillo

1.4.

Ejercicios

1. Leer Mendenhall, 3-4. 2. Leer Montgomery, 1-3. 3. Leer Mendenhall, 7-8.

Parte I

Estad´ıstica descriptiva

13

Cap´ıtulo 2

El tratamiento de los datos. Estad´ıstica descriptiva 2.1.

Introducci´ on

Obtenidos a trav´es de encuestas, experimentos o cualquier otro conjunto de medidas, los datos estad´ısticos son generalmente tan numerosos que resultan pr´acticamente in´ utiles si no son resumidos de forma adecuada. Para ello la Estad´ıstica utiliza tanto t´ecnicas gr´aficas como num´ericas, algunas de las cuales describimos en este cap´ıtulo.

2.2.

Tipos de datos

Los datos pueden ser de dos tipos: cuantitativos y cualitativos. Definici´ on 2.1 Los datos cuantitativos son los que representan una cantidad reflejada en una escala num´erica. A su vez, pueden clasificarse como datos cuantitativos discretos si se refieren al conteo de alguna caracter´ıstica, o datos cuantitativos continuos si se refieren a una medida. Ejemplo 2.1 Veamos algunos ejemplos de variables cuantitativas: 15

16

Prof. Dr. Antonio Jos´ e S´ aez Castillo

La frecuencia de potencia de un semiconductor es una variable cuantitativa continua. El n´ umero de piezas defectuosas fabricadas en una cadena es una variable cuantitativa discreta. La dureza de un material es una variable cuantitativa continua. El n´ umero de accidentes laborales en una empresa es una variable cuantitativa discreta. Definici´ on 2.2 Los datos cualitativos o categ´ oricos se refieren a caracter´ısticas de la poblaci´ on que no pueden asociarse a cantidades con significado num´erico, sino a caracter´ısticas que s´ olo pueden clasificarse. Ejemplo 2.2 Veamos ejemplos de variables cualitativas: El que un accidente laboral implique la muerte o no de un trabajador es una variable cualitativa. El color de los ojos de una persona es una variable cualitativa. El partido pol´ıtico al que vota una persona es una variable cualitativa. El c´ odigo postal de un municipio o parte de ´el es una variable cualitativa, a pesar de ser un n´ umero.

2.3.

M´ etodos gr´ aficos y num´ ericos para describir datos cualitativos

La forma m´as sencilla de describir de forma num´erica una variable cualitativa es determinar su distribuci´on de frecuencias. Por su parte, esta distribuci´on de frecuencias determina a su vez las representaciones gr´aficas m´as usuales.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 17

Definici´ on 2.3 Supongamos que tenemos una variable cualitativa, que toma una serie de posibles valores (categor´ıas). El n´ umero de veces que se da cada valor es la distribuci´ on de frecuencias de la variable. Si en vez de dar el n´ umero de veces nos fijamos en la proporci´ on de veces, tenemos la distribuci´ on de frecuencias relativas. Las representaciones gr´aficas m´as usuales son los diagramas de barras y los diagramas de sectores. Los diagramas de barras son una representaci´ on de cada una de las categor´ıas de la variable mediante una barra colocada sobre el eje X y cuya altura sea la frecuencia o la frecuencia relativa de dichas categor´ıas. Los diagramas de sectores son c´ırculos divididos en tantos sectores como categor´ıas, sectores cuyo ´angulo debe ser proporcional a la frecuencia de cada categor´ıa. Ejemplo 2.3 Tomamos como poblaci´ on los 98 reactores nucleares m´ as grandes en todo el mundo. Nos fijamos en la variable o dato referente al pa´ıs donde est´ an localizados. Los datos ser´ıan B´elgica, B´elgica, B´elgica, B´elgica, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Finlandia, Finlandia, Alemania, Alemania, Alemania, Alemania, Alemania, Alemania, Alemania, Holanda, Jap´ on, Jap´ on, Jap´ on, Jap´ on, Jap´ on, Jap´ on, Jap´ on, Jap´ on, Jap´ on, Jap´ on, Jap´ on, Suecia, Suecia, Suecia, Suiza, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados

18

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Categor´ıa

Frecuencia

Frecuencia relativa

Pa´ıs

N´ umero de reactores nucleares

Proporci´on

B´elgica

4

0.041

Francia

22

0.225

Finlandia

2

0.020

Alemania

7

0.714

Holanda

1

0.102

Jap´on

11

0.112

Suecia

3

0.031

Suiza

1

0.010

Estados Unidos

47

0.480

TOTAL

98

1.000

Cuadro 2.1: Tabla de frecuencias. Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos. Las distribuciones de frecuencias y de frecuencias relativas podemos resumirlas en una tabla de frecuencias como la que aparece en el Cuadro 1. 2.1 Por su parte, las representaciones mediante diagramas de barras y sectores de estos datos aparecen en la Figura 2.1 y la Figura 2.2 respectivamente.

2.4.

M´ etodos gr´ aficos para describir datos cuantitativos

Si tenemos una variable cuantitativa discreta y esta toma pocos valores, podemos tratarla como si fuera una variable cualitativa, calcular su distribuci´on de frecuencias y dibujar un diagrama de barras. Ejemplo 2.4 En una empresa con cadena de montaje donde se empaquetan piezas en cajas se realiza un estudio sobre la calidad de producci´ on. Los datos siguientes informan sobre el n´ umero de piezas defectuosas encontradas en una muestra de cajas examinadas:

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 19

Figura 2.1: Diagrama de barras.

Figura 2.2: Diagrama de sectores.

20

Prof. Dr. Antonio Jos´ e S´ aez Castillo

000000111111111222222222233333334444444555 566666777889 La distribuci´ on de frecuencias y el diagrama de barras asociado aparecen en la Figura 2.3.

Figura 2.3: Diagrama de barras. Sin embargo, la mayor´ıa de variables cuantitativas son de tipo continuo, de manera que toman demasiados valores como para que la representaci´ on de su distribuci´on de frecuencias sea u ´til1 . Por ello el m´etodo gr´afico m´as com´ un y tradicional para datos cuantitativos es el histograma. En realidad se trata de una variante del diagrama de barras donde se agrupan los valores de la variable en intervalos para que estos intervalos tengan frecuencias mayores que uno. Para obtener un histograma de forma manual deben seguirse los siguientes pasos:

umero, N , de intervalos que vamos a utilizar. Se recomienda que 1. Calculamos el n´ sea aproximadamente igual a la ra´ız cuadrada del n´ umero de datos. 1

Si toma muchos valores, muy probablemente la mayor parte de ellos s´ olo aparezca una vez, por lo

que la distribuci´ on de frecuencias ser´ a casi siempre constante e igual a 1.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 21

2. Calculamos el rango, R, del histograma, que ser´a ligeramente m´as amplio que el rango de los datos. El histograma debe comenzar en un n´ umero (xm ) ligeramente por debajo del m´ınimo de los datos y terminar en un n´ umero (xM ) ligeramente por encima del m´aximo. El rango del histograma ser´a, por tanto, R = xM − xm . 3. Calculamos la longitud, L, de los intervalos, como el cociente entre el rango del histograma y el n´ umero de intervalos, es decir, L =

R N.

4. Se construyen los N intervalos: I1 = [xm , xm + L) I2 = [xm + L, xm + 2L) I3 = [xm + 2L, xm + 3L) ... IN = [xm + N × L, xM ). umero de datos que hay en ´el, es decir, la 5. Para cada intervalo, contamos el n´ frecuencia del intervalo. 6. El histograma es un diagrama de barras donde en el eje X se colocan los intervalos y sobre ellos se construyen barras cuya altura sea la frecuencia o la frecuencia relativa del intervalo. En este caso, las barras deben dibujarse sin espacio entre ellas. Observaci´ on 2.1 Por cuestiones que detallaremos m´ as adelante es importante destacar que el porcentaje de datos que cae dentro de un intervalo es proporcional al ´ area de la barra que se construye sobre ese intervalo. Por ejemplo, si el ´ area de una barra es el 30 % del ´ area total del intervalo, entonces el 30 % de los datos est´ an en dicho intervalo. Por otra parte, ¿qu´e pasar´ıa si tomamos un n´ umero muy grande de datos? El n´ umero de intervalos del histograma ser´ıa tambi´en muy grande, y las barras ser´ıan muy es-

22

Prof. Dr. Antonio Jos´ e S´ aez Castillo

una funci´ on real de variable real. Hablaremos de esta funci´ on y del ´ area debajo de ella en breve. Por cierto, ¿c´ omo se calcula el ´ area bajo esta funci´ on?

Ejemplo 2.5 Los datos siguientes corresponden al tiempo necesario para procesar 25 trabajos en una CPU. 1,17

1,61

1,16

1,38

3,53

1,23

3,76

1,94

0,96

4,75

0,15

2,41

0,71

0,02

1,59

0,19

0,82

0,47

2,16

2,01

0,92

0,75

2,59

3,07

1,4

Vamos a calcular un histograma para esos datos.

1. Dado que

√ 25 = 5, utilizaremos 5 intervalos.

2. El m´ınimo de los datos es 0.02 y el m´ aximo 4.75, de manera que podemos considerar como rango del histograma el intervalo [0, 4.8], cuya longitud (rango del histograma) es 4.8. 3. La longitud de los intervalos es, en ese caso,

4.8 5

4. Construimos los intervalos: I1 = [0, 0.96) I2 = [0.96, 1.92) I3 = [1.92, 2.88) I4 = [2.88, 3.84) I5 = [3.84, 4.8)

= 0.96.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 23

5. Calculamos la distribuci´ on de frecuencia asociada a esos intervalos: Tiempo de procesado

Frecuencia

[0, 0.96)

8

[0.96, 1.92)

8

[1.92, 2.88)

5

[2.88, 3.84)

3

[3.84, 4.8)

1

6. Finalmente, representamos el diagrama de barras (Figura 2.4):

Figura 2.4: Histograma.

2.5.

M´ etodos num´ ericos para describir datos cuantitativos

Es cierto que un diagrama de barras o un histograma nos ayudan a tener una imagen de c´omo son los datos, pero normalmente es necesario complementar esa imagen

24

Prof. Dr. Antonio Jos´ e S´ aez Castillo

mediante medidas que, de forma objetiva, describan las caracter´ısticas generales del conjunto de datos. Vamos a ver en este apartado tres tipos de medidas, que b´asicamente responden a tres preguntas: por d´ onde est´ an los datos (medidas de posici´on), c´ omo de agrupados est´ an los datos (medidas de dispersi´on) y qu´e forma tienen los datos (medidas de forma).

2.5.1.

Medidas de tendencia central

Las medidas de tendencia central son medidas de posici´on que tratan de establecer un valor que pueda considerarse el centro de los datos en alg´ un sentido. Media Definici´ on 2.4 Sea un conjunto de datos de una variable cuantitativa, x1 , ..., xn . La media de los datos es

Pn x ¯=

i=1 xi

n

.

Esta medida es la m´as com´ un dentro de las de tendencia central y corresponde al centro de gravedad de los datos. Mediana Definici´ on 2.5 Sea un conjunto de datos de una variable cuantitativa, x1 , ..., xn . Ordenemos la muestra de menor a mayor, x(1) , ..., x(n) . Si n es impar, la mediana es el valor central de la muestra, que estar´ a en el lugar n+1 2

de la muestra ordenada. Si n es par, no hay un valor central en la muestra, y la

mediana es el punto medio entre el que hace la posici´ on

n 2

y el siguiente.

Observaci´ on 2.2 La mediana corresponde exactamente con la idea de valor central de los datos. De hecho, puede ser un valor m´ as representativo de ´estos que la media, ya que es m´ as robusta que la media. Ve´ amos qu´e significa esto en un ejemplo.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 25

Consideremos los datos siguientes: 0012345 Su media es

0+0+1+2+3+4+5 7

= 2. 142 9, y su mediana 2.

Pero imaginemos que por error o por casualidad obtenemos un nuevo dato enormemente grande en relaci´ on al resto de datos, 80. En ese caso, la media ser´ıa 0 + 0 + 1 + 2 + 3 + 4 + 5 + 80 = 11.875 8 y la mediana 2.5. Es decir, un solo dato puede desplazar enormemente la media, hasta convertirla en una medida poco representativa, pero s´ olo desplazar´ a ligeramente la mediana. Moda o intervalo modal En principio la moda se define como el valor m´as frecuente de los datos. Lo que ocurre es que si ´estos son datos de una variable continua o discreta con muchos valores, puede que los datos apenas se repitan. En ese caso, en el que como vimos en las representaciones gr´aficas, se debe agrupar por intervalos, no debe darse un valor como moda, sino un intervalo modal, aqu´el con mayor frecuencia asociada.

2.5.2.

Percentiles

Los percentiles son medidas de posici´on pero no necesariamente ligados al centro de los datos. La idea a la que responden es muy sencilla y muy pr´actica. Se trata de valorar de forma relativa c´omo es un dato respecto del conjunto global de todos los datos. Si, por ejemplo, un ni˜ no de 4 a˜ nos pesa 13 kilos, ¿est´a desnutrido? ¿est´a sano? La respuesta debe ser que depende. ¿D´onde vive el ni˜ no? Es importante porque, por ejemplo, en Estados Unidos los ni˜ nos son en general m´as grandes que, por ejemplo, en Jap´on. Quiz´a m´as que el peso nos interese saber qu´e posici´on relativa tiene el peso del

26

Prof. Dr. Antonio Jos´ e S´ aez Castillo

ni˜ no dentro de la poblaci´on de la que forma parte. Por ejemplo, si nos dicen que el ni˜ no est´a entre el 1 % de los ni˜ nos que menos pesan, probablemente tiene un problema de crecimiento. Definici´ on 2.6 El percentil 100p de unos datos (0 ≤ p ≤ 1), que notaremos como P100p , es un valor situado de modo que el 100p % de los valores sean menores o iguales que ´el y el resto (100(1 − p) %) mayores. Obs´ervese que la mediana es, de hecho, el percentil 50. No obstante, en la pr´actica vamos a encontrar un problema para encontrar percentiles, sobre todo con pocos datos. Puede que no exista el valor exacto que deje a la izquierda el 100p % de los valores. En ese caso, aproximaremos el valor del percentil correspondiente de la siguiente forma: umero de datos, es un entero, k, entonces 1. Si el 100p % de n, donde n es el n´ P100p =

x(k) +x(k+1) . 2

2. Si el 100p % de n no es un entero, lo redondeamos al entero siguiente, k, y entonces P100p = x(k) . Ejemplo 2.6 Consideremos de nuevo los datos correspondientes al tiempo de procesado de 25 tareas en una CPU: 0,02

0,75

1,17

1,61

2,59

0,15

0,82

1,23

1,94

3,07

0,19

0,92

1,38

2,01

3,53

0,47

0,96

1,4

0,71

1,16

1,59

2,16 2,41

3,76 4,75

Vamos a calcular distintas medidas de posici´ on y a comentarlas. En primer lugar, la media es 1.63. La mediana ocupa el lugar 13 en la muestra ordenada, y su valor es 1.38. Obs´ervese que la media es algo mayor que la mediana:

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 27

esto es debido a la presencia de algunos valores significativamente m´ as altos que el resto, como pudimos ver en el histograma. Por su parte, el P25 ocupa la posici´ on 7, ya que el 25 % de 25 es 6.25. Por tanto, P25 = 0.82. De igual forma, P75 = 2.16, el valor que ocupa la posici´ on 19. Podemos ver, por tanto, que los valores m´ as bajos est´ an muy agrupados al principio, y se van dispersando m´ as conforme se hacen m´ as altos.

2.5.3.

Medidas de variaci´ on o dispersion

Las medidas de variaci´ on o dispersi´ on est´an relacionadas con las medidas de tendencia central, ya que lo que pretenden es cuantificar c´omo de concentrados o dispersos est´an los datos respecto a estas medidas. Nosotros nos vamos a limitar a dar medidas de dispersi´on asociadas a la media. La idea de estas medidas es valorar hasta qu´e punto la media es una medida representativa de los datos. Esta cuesti´on tan simple es uno de los motivos m´as absurdos de la mala prensa que tiene la Estad´ıstica en la sociedad en general. La gente no se f´ıa de lo que ellos llaman la Estad´ıstica entre otros motivos, porque parece que todo el mundo cree que una media tiene que ser un valor v´alido para todos, y eso es materialmente imposible. Ejemplo 2.7 Pensemos en la media del salario de los espa˜ noles. En 2005 fue de 18.750 euros al a˜ no. Ahora bien, esa media incluye tanto a las regiones m´ as desarrolladas como a las m´ as desfavorecidas y, evidentemente, la cifra generar´ a mucho malestar en gran parte de la poblaci´ on (con toda seguridad, m´ as del 50 %), cuyo salario est´ a por debajo. Ejemplo 2.8 Existe una frase muy conocida que dice que la Estad´ıstica es el arte por el cu´al si un espa˜ nol se come un pollo y otro no se come ninguno, se ha comido medio pollo cada uno. Hay que decir que la Estad´ıstica no tiene la culpa de que la gente espere de una

28

Prof. Dr. Antonio Jos´ e S´ aez Castillo

media m´as de lo que es capaz de dar, ni de que muy poca gente conozca medidas de dispersi´on asociadas a la media. Varianza Definici´ on 2.7 Dados unos datos de una variable cuantitativa, x1 , ..., xn , la varianza de esos datos es s2n

Pn

i=1 (xi

=

−x ¯)2

n

,

es decir, la media de las desviaciones al cuadrado respecto de la media. Evidentemente, si una varianza es muy grande, ser´a porque las desviaciones de los datos respecto de la media ser´an muy grandes, por lo que la media ser´a poco representativa. Y viceversa, si una varianza es peque˜ na, los datos estar´an muy concentrados en torno a la media. Por otra parte, los enemigos de la media deber´ıan darse cuenta de lo siguiente. Supongamos que no queremos dar la media como medida de tendencia central. Supongamos que proponemos otra medida, a, como representativa de los datos. ¿Qu´e medida dar´ıamos? Quiz´a busc´aramos aquella medida que haga que las desviaciones al cuadrado de los datos respecto de ella,

Pn

i=1 (xi

n

− a)2

,

sea lo m´as peque˜ na posible, para que la medida est´e lo m´ as cerca posible de todos los datos. Se trata por tanto, de un problema de m´ınimo, ya que buscamos Pn (xi − a)2 m´ın i=1 . a n Pn

(x −a)2

Para resolverlo, derivamos i=1 n i e igualamos a cero: Pn Pn 2 (xi − a) d i=1 (xi − a) = −2 i=1 = 0, da n n de donde

n X i=1

(xi − a) = 0,

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 29

de donde

n X

xi = na,

i=1

es decir, a =

Pn

i=1

n

xi

. ¡La media! Resulta por tanto que si consideramos que queremos

una medida de tendencia central cuya distancia a los datos sea lo m´as peque˜ na posible, la respuesta es la media. Lo que deber´ıa hacerse para que nadie se lleve a enga˜ no al interpretar una media es proporcionar dicha media junto con su varianza u otra de las medidas que vamos a ver. Observaci´ on 2.3 Para calcular a mano la varianza resulta m´ as c´ omodo desarrollar un poco su f´ ormula, como vamos a ver: P Pn Pn Pn 2 x2 x ni=1 xi + n¯ x2 ¯)2 2 i=1 xi − 2¯ i=1 (xi − x = = i=1 i − 2¯ x2 + x ¯2 sn = n n n Pn x2 = i=1 i − x ¯2 , n es decir, la varianza es la media de los cuadrados menos el cuadrado de la media. Desviaci´ on t´ıpica o estandar El principal problema de la varianza es su unidad de medida. Por c´omo se define si, por ejemplo, la variable se expresa en kilos, la media tambi´en se expresa en kilos, pero la varianza se expresa en kilos2 . Definici´ on 2.8 Es por ello que se define la desviaci´ on t´ıpica o estandar de los p datos como sn = s2n , cuya unidad de medida es la misma que la de la media. Observaci´ on 2.4 La Regla Emp´ırica Si el histograma asociado a unos datos tiene la forma de una campana o de una joroba, el conjunto de datos tendr´ a las siguientes caracter´ısticas, lo que en algunos libros se conoce como Regla Emp´ırica:

30

Prof. Dr. Antonio Jos´ e S´ aez Castillo

1. Aproximadamente el 68 % de los datos estar´ a en el intervalo (¯ x − sn , x ¯ + sn ) . 2. Aproximadamente el 95 % de los datos estar´ a en el intervalo (¯ x − 2sn , x ¯ + 2sn ) . 3. Casi todos los datos estar´ an en el intervalo (¯ x − 3sn , x ¯ + 3sn ) .

Figura 2.5: Representaci´ on gr´afica de la regla emp´ırica.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 31

Coeficiente de variaci´ on Como acabamos de decir, debemos proporcionar cada media junto con alguna medida de dispersi´on, preferentemente la desviaci´on t´ıpica. Una forma de valorar en t´erminos relativos c´omo es de dispersa una variable es precisamente proporcionar el cociente entre la desviaci´on t´ıpica y la media (en valor absoluto), lo que se conoce como coeficiente de variaci´ on. Definici´ on 2.9 Dado un conjunto de datos de media x ¯ y desviaci´ on t´ıpica sn , se define su coeficiente de variaci´ on como CV =

sn . |¯ x|

La principal ventaja del coeficiente de variaci´ on es que no tiene unidades de medida, lo que hace m´as f´acil su interpretaci´ on. Ejemplo 2.9 Para los datos de tiempo de procesado en una CPU de 25 tareas, la varianza es 1.36, luego su desviaci´ on estandar es 1.17, y el coeficiente de variaci´ on 1.17 1.63

= 0.717 79. Por tanto, la desviaci´ on estandar es algo m´ as del 70 % de la media.

Esto indica que los datos no est´ an muy concentrados en torno a la media, probablemente debido a la presencia de los valores altos que hemos comentado antes.

2.5.4.

Medidas de forma. Coeficiente de asimetr´ıa

Las medidas de forma comparan la forma que tiene la representaci´ on gr´afica, bien sea el histograma o el diagrama de barras de la distribuci´on, con una situaci´on ideal en la que los datos se reparten en igual medida a la derecha y a la izquierda de la media. Definici´ on 2.10 Esa situaci´ on en la que los datos est´ an repartidos de igual forma a uno y otro lado de la media se conoce como simetr´ıa, y se dice en ese caso que la distribuci´ on de los datos es sim´etrica. En ese caso, adem´ as, su mediana, su moda y su media coinciden.

32

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Definici´ on 2.11 Por contra, se dice que una distribuci´ on es asim´ etrica a la derecha si las frecuencias (absolutas o relativas) descienden m´ as lentamente por la derecha que por la izquierda. Si las frecuencias descienden m´ as lentamente por la izquierda que por la derecha diremos que la distribuci´ on es asim´ etrica a la izquierda. Existen varias medidas de la asimetr´ıa de una distribuci´on de frecuencias. Una de ellas es el coeficiente de asimetr´ıa de Pearson: Pn

x) i=1 (xi −¯

As =

3

n s3n

Obs´ervese que para evitar el problema de la unidad y hacer que la medida sea escalar y por lo tanto relativa, dividimos por el cubo de su desviaci´on t´ıpica. De esta forma podemos valorar si unos datos son m´as o menos sim´etricos que otros, aunque no est´en medidos en la misma unidad de medida.

Figura 2.6: Formas t´ıpicas de distribuciones de datos.

Ejemplo 2.10 Para los datos de tiempo de procesado en una CPU de 25 tareas, el coeficiente de asimetr´ıa es 0.91, lo que, como hab´ıamos visto y comentado con ante-

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 33

rioridad, pone de manifiesto que la distribuci´ on es asim´etrica a la derecha, debido a la presencia de tiempos de procesado bastante altos en relaci´ on al resto.

2.6.

M´ etodos para detectar datos cuantitativos fuera de rango

Hay ocasiones en que un conjunto de datos contiene una o m´as observaciones inconsistentes. Por ejemplo, en los datos de tiempo de procesado en una CPU de 25 tareas, supongamos que tenemos una observaci´ on m´as, igual a 85, debido a que la CPU se bloque´o y hubo que reiniciarla. Este dato, que probablemente no deseemos incluir, es un caso de valor fuera de intervalo o valor fuera de rango. on que es inusualmente grande o peque˜ na Definici´ on 2.12 En general, una observaci´ en relaci´ on con los dem´ as valores de un conjunto de datos se denomina valor fuera de intervalo o fuera de rango. Estos valores son atribuibles, por lo general, a una de las siguientes causas: 1. El valor ha sido introducido en la base de datos incorrectamente. 2. El valor proviene de una poblaci´on distinta a la que estamos estudiando. 3. El valor es correcto pero representa un suceso muy poco com´ un. A continuaci´on vamos a proponer dos maneras de determinar si un dato es un valor fuera de rango. Mediante los valores z Este m´etodo es adecuado si el histograma de los datos tiene forma de campana, en cuyo caso podemos aplicar la regla emp´ırica para detectar qu´e datos est´an fuera de los rangos l´ ogicos seg´ un esta regla.

34

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Definici´ on 2.13 Dado un conjunto de datos de una variable cuantitativa, x1 , ..., xn , se definen los valores z como zi =

xi − x ¯ . sn

Estos valores modifican el origen y la escala de los datos, de manera que pueden compararse aunque no procedan del mismo conjunto de datos. La regla para rechazar datos como valores fuera de rango es la siguiente: se rechazar´ a como valor fuera de rango aquel cuyo valor z sea mayor que 3 en valor absoluto. De esta forma, se rechazan como valores fuera de rango los xi que no pertenecen al intervalo [¯ x − 3sn , x ¯ + 3sn ] . Mediante los percentiles Supongamos que tenemos un conjunto de datos x1 , ..., xn . El procedimiento es el siguiente: 1. Se calcula la mediana, P50 y los percentiles 25 y 75, P25 y P75 . Se calcula el llamado rango intercuart´ılico, IR = P75 − P25 . 2. Se consideran posibles valores fuera de rango aquellos inferiores a P25 −1.5IR o superiores a P75 + 1.5IR. 3. Se consideran valores fuera de rango muy probables aquellos inferiores a P25 − 3IR o superiores a P75 + 3IR. un valor fuera de rango entre los datos de tiempo Ejemplo 2.11 Vamos a ver si hay alg´ de procesado en una CPU de 25 tareas. En la Figura 2.7 est´ an los valores de la muestra y sus valores z. Dado que no hay ning´ un valor superior en valor absoluto a 3, no se rechaza ninguno. Por su parte, P50 = 1.38, P25 = 0.82 y P75 = 2.16. Por tanto, IR = 2.16 − 0.82 = 1. 34, y el intervalo fuera del c´ ual consideramos posibles valores fuera de rango

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 35

es [0.82 − 1.5 × 1.34, 2.16 + 1.5 × 1.34] = [−1.19, 4.17]. De esta forma, el valor 4.75 es un posible valor fuera de rango. Finalmente, el intervalo fuera del cu´ al se encuentran los valores fuera de rango muy probables es [0.82 − 3 × 1.34, 2.16 + 3 × 1.34] = [−3.2, 6.18], por lo que no hay valores de este tipo. Dependiendo de lo exigentes que desearamos ser con la muestra, deber´ıamos decicir si eliminar o no el dato 4.75.

Figura 2.7: Valores en la muestra y valores z.

2.7.

Ejercicios

1. Para los datos que aparecen en [Mendenhal, W & Sincich, T. (1997)], p. 63, 2.45, se pide: a) Representar las dos muestras mediante sendos histogramas. b) Obtener medidas de tendencia central para ambas muestras.

36

Prof. Dr. Antonio Jos´ e S´ aez Castillo

c) Valorar, en t´erminos relativos, cu´al de las dos muestras presenta datos m´as dispersos. d ) Detectar mediante el m´etodo de los percentiles si hay valores fuera de rango. 2. Para los datos que aparecen en [Mendenhal, W & Sincich, T. (1997)], pp. 64-65, 2.48. se pide: a) Representar los datos de la muestra mediante un histograma. b) Obtener medidas de tendencia central. c) Valorar, en t´erminos relativos, la dispersi´on de los datos. d ) Detectar mediante el empleo de valores z si hay valores fuera de rango. 3. Para los datos que aparecen en [Mendenhal, W & Sincich, T. (1997)], p. 66, 2.51. se pide: a) Representar los datos de la muestra mediante un histograma. b) Obtener medidas de tendencia central. c) Valorar, en t´erminos relativos, la dispersi´on de los datos. d ) Detectar mediante el empleo de valores z y mediante el m´etodo de los percentiles si hay valores fuera de rango. 4. [Mendenhal, W & Sincich, T. (1997)], pp. 66-67, 2.52. 5. Para los datos que aparecen en [Mendenhal, W & Sincich, T. (1997)], p. 70, 2.57. se pide: a) Representar los datos de la muestra mediante un histograma. b) Obtener medidas de tendencia central. c) Valorar, en t´erminos relativos, la dispersi´on de los datos.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 37

d ) Detectar si hay valores fuera de rango por el m´etodo que considereis m´as adecuado. 6. Para los datos que aparecen en [Mendenhal, W & Sincich, T. (1997)], p. 63, 2.45, se pide: a) Representar las dos muestras mediante sendos histogramas. b) Obtener medidas de tendencia central para ambas muestras. c) Valorar, en t´erminos relativos, cu´al de las dos muestras presenta datos m´as dispersos. d ) Detectar mediante el m´etodo de los percentiles si hay valores fuera de rango. 7. Para los datos que aparecen en [Lipschutz, S. & Schiller, J. (2000)], p. 47, 1.31, se pide: a) Representar las dos muestras mediante sendos histogramas. b) Obtener medidas de tendencia central para ambas muestras. c) Valorar, en t´erminos relativos, cu´al de las dos muestras presenta datos m´as dispersos. d ) Detectar si hay valores fuera de rango por el m´etodo que considereis m´as adecuado. 8. Para los datos que aparecen en [Lipschutz, S. & Schiller, J. (2000)], p. 43, 1.29, se pide: a) Representar la muestra mediante un diagrama de barras. b) Obtener medidas de tendencia central. c) Valorar, en t´erminos relativos, la dispersi´on de los datos de la muestra. d ) Detectar si hay valores fuera de rango por el m´etodo que considereis m´as adecuado.

38

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Parte II

C´ alculo de Probabilidades

39

Cap´ıtulo 3

Probabilidad 3.1.

Introducci´ on

En nuestra vida cotidiana asociamos usualmente el concepto de Probabilidad a su calificativo probable, considerando probables aquellos eventos en los que tenemos un alto grado de creencia en su ocurrencia. En esta l´ınea, Probabilidad es un concepto asociado a la medida del azar. Tambi´en pensamos en el azar vinculado, fundamentalmente, con los juegos de azar, pero desde esa ´optica tan reducida se nos escapan otros much´ısimos ejemplos de fen´omenos de la vida cotidiana o asociados a disciplinas de distintas ciencias donde el azar juega un papel fundamental. Por citar algunos: ¿Qu´e n´ umero de unidades de producci´on salen cada d´ıa de una cadena de montaje? No existe un n´ umero fijo que pueda ser conocido a priori, sino un conjunto de posibles valores que podr´ıan darse, cada uno de ellos con un cierto grado de certeza. ¿Cu´al es el tama˜ no de un paquete de informaci´on que se transmite a trav´es de HTTP? No existe en realidad un n´ umero fijo, sino que ´este es desconocido a priori. ¿Cu´al es la posici´on de un objeto detectado mediante GPS? Dicho sistema obtiene, realmente, una estimaci´on de dicha posici´on, pero existen m´argenes de error 41

42

Prof. Dr. Antonio Jos´ e S´ aez Castillo

que determinan una regi´on del plano donde el objeto se encuentra con alta probabilidad. ¿Qu´e ruido se adhiere a una se˜ nal que se env´ıa desde un emisor a un receptor? Dependiendo de las caracter´ısticas del canal, dicho ruido ser´a m´as o menos relevante, pero su presencia no podr´a ser conocida a priori, y deber´a ser diferenciada de la se˜ nal primitiva, sin que se conozca ´esta, teniendo en cuenta que se trata de un ruido aleatorio. En todos estos ejemplos el azar es un factor insoslayable para conocer el comportamiento del fen´omeno en estudio.

3.2.

Experimentos aleatorios y experimentos determin´ısticos

Definici´ on 3.1 En general, un experimento del que se conocen todos sus posibles resultados y que, repetido en las mismas condiciones, no siempre proporciona los mismos resultados se conoce como experimento aleatorio. En contraposici´ on, un experimento determin´ıstico es aquel donde las mismas condiciones aseguran que se obtengan los mismos resultados. Lo que el C´alculo de Probabilidades busca es encontrar una medida de la incertidumbre o de la certidumbre que se tiene de todos los posibles resultados, ya que jam´as (o muy dif´ıcilmente) se podr´a conocer a priori el resultado de cualquier experimento donde el azar est´e presente: a esta medida de la incertidumbre la denominaremos probabilidad1 . 1

Es mejor que aceptemos desde el principio que la Estad´ıstica no es la ciencia de la adivinaci´ on: tan

s´ olo se ocupa de cuantificar c´ omo de incierto es un evento y, ocasionalmente, de proponer estrategias de predicci´ on basadas en dicha medida de la incertidumbre.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 43

Ejemplo 3.1 Al lanzar una moneda al aire tenemos un experimento aleatorio, ya que todos somos conscientes que dos lanzamientos, a´ un tratando de imitar las mismas condiciones, no garantizan el mismo resultado. Ejemplo 3.2 La duraci´ on de una llamada telef´ onica realizada a trav´es de una centralita es un fen´ omeno claramente aleatorio, ya que nadie sabe de antemano cu´ anto va a ocupar una conversaci´ on telef´ onica.

3.3.

Interpretaci´ on frecuentista de la probabilidad

La aproximaci´on m´as com´ un al concepto de probabilidad tiene que ver con los promedios de ocurrencia de los sucesos del experimento en cuesti´on. Pensemos en el lanzamiento de una moneda: si nos preguntamos por la probabilidad de que un lanzamiento resulte cara o cruz, podr´ıamos estimar dicha probabilidad lanzando la moneda un gran n´ umero de veces y anotando el n´ umero de caras y de cruces; si tenemos que apostar, lo haremos por aquel evento con mayor frecuencia de ocurrencia. Generalizando este proceso, podr´ıamos decir que la probabilidad de un evento A, P [A] , es nA , n→∞ n

P [A] = l´ım

donde nA es el n´ umero de ocurrencias de A en n ensayos del experimento. Esta definici´on se conoce como definici´ on frecuentista de la probabilidad. Se trata de una definici´on de car´acter eminentemente pr´actico porque permite una aproximaci´ on f´ısica al concepto de probabilidad, pero se ve limitada por las complicaciones que supone la definici´on en t´erminos de un l´ımite que, como tal, s´olo se alcanza en el infinito. Ejemplo 3.3 Se han realizado 1000 lanzamientos de una moneda. En el Cuadro 3.1 aparece un resumen de ese proceso. Puede observarse como cuanto mayor es el n´ umero de lanzamientos, m´ as se aproxima la frecuencia relativa al valor

1 2,

de manera que

44

Prof. Dr. Antonio Jos´ e S´ aez Castillo

No de lanzamientos

10

100

250

500

750

1000

No de caras

4

46

124

244

379

501

N. de caras N. de lanzamientos

0.4

0.46

0.496

0.488

0.5053

0.501

Cuadro 3.1: Aproximaci´on frecuentista a la probabilidad de cara en el lanzamiento de una moneda. podr´ıamos pensar que la probabilidad de cara es igual que la probabilidad de cruz e iguales ambas a 12 , aunque esto s´ olo es una suposici´ on, o una aproximaci´ on, ya que para aplicar estrictamente la definici´ on frecuentista deber´ıamos continuar hasta el infinito, lo que resulta imposible. Esta interpretaci´on frecuentista de la probabilidad permite inferir lo que podemos llamar frecuencias esperadas. Si un evento A tiene asignada una probabilidad P [A], entonces, si repetimos el experimento aleatorio n veces, lo m´ as esperable es que el n´ umero de veces que se de el evento A ser´ a n × P [A] . M´ as adelante podremos matizar con m´as rigor a qu´e nos referimos con lo m´ as esperable. Ejemplo 3.4 Siguiendo con el ejemplo de la moneda, si la lanzamos 348 veces, lo esperable es que salgan alrededor de 348 × 0.5 = 174 caras.

3.4.

Interpretaci´ on cl´ asica de la probabilidad

Otro punto de vista que permite abordar el proceso de asignaci´on de probabilidad a sucesos es el siguiente: continuando con el ejemplo de la moneda, en este experimento son dos los resultados posibles, y no hay razones para pensar que uno de ellos es m´ as probable que otro, as´ı que tiene sentido considerar que la probabilidad de cara y la probabilidad de cruz son ambas del 50 %. En general, podr´ıamos decir que la probabilidad de un evento A, P [A] , es P [A] =

NA , N

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 45

donde N es el n´ umero de posibles resultados del experimento, todos ellos con la misma probabilidad, y NA es el n´ umero de resultados favorables a la ocurrencia de A. Esta definici´on, conocida como definici´ on cl´ asica, tambi´en es fundamentalmente pr´actica; m´as a´ un que la definici´on frecuentista ya que, por ejemplo, nos permite deducir que P [cara] =

1 2

en el lanzamiento de una moneda sin tener que lanzar la moneda un gran n´ umero de veces. Sin embargo, la definici´on tiene dos grandes inconvenientes: el conjunto de resultados posibles, N , tiene que ser finito y, adem´as, todos los resultados posibles deben tener la misma probabilidad (con lo cual, lo definido queda impl´ıcitamente inmerso en la definici´on).

3.5.

Definici´ on axiom´ atica de probabilidad

As´ı pues, vemos que mediante las definiciones frecuentista o cl´asica podr´ıan calcularse probabilidades de eventos, si bien ambas tienen inconvenientes desde el punto de vista formal. Veremos en seguida la definici´ on axiom´ atica, que re´ une todas las condiciones formales necesarias y que, adem´as, supone una generalizaci´on de las definiciones frecuentista y cl´asica.

3.5.1.

´ algebra de conjuntos

Si consideramos un experimento aleatorio, podemos caracterizar los posibles resultados de dicho experimento como conjuntos. Es de inter´es, por tanto, repasar los conceptos y propiedades b´asicas del ´algebra de conjuntos. En todo este apartado no debemos olvidar que los conjuntos representan en nuestro caso los posibles resultados de un experimento aleatorio. Definici´ on 3.2 Un conjunto es una colecci´ on de elementos.

46

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Definici´ on 3.3 Se dice que B es un subconjunto de A si todos sus elementos lo son tambi´en de A, y se notar´ a B ⊂ A. Para cada A se verifica

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 47

Se sigue por tanto, A ∪ A¯ = Ω A ∩ A¯ = ∅ (Ac )c = A ¯ =∅ Ω ¯ Si B ⊂ A → A¯ ⊂ B ¯ Si A = B → A¯ = B. Lema 3.3 Leyes de Morgan. ¯ A ∪ B = A¯ ∩ B ¯ A ∩ B = A¯ ∪ B.

3.5.2.

Espacio muestral

Consideremos un experimento aleatorio. Definici´ on 3.10 Llamaremos suceso o evento elemental a cualquier resultado del experimento aleatorio que no pueda descomponerse en otros resultados. Definici´ on 3.11 El conjunto formado por todos los sucesos elementales del experimento aleatorio recibe el nombre de espacio muestral, y lo notaremos habitualmente como Ω. Definici´ on 3.12 Cualquier subconjunto de un espacio muestral recibe el nombre de suceso o evento. on de un experimento aleatorio Definici´ on 3.13 Hablaremos de ensayo o realizaci´ refiri´endonos a una ejecuci´ on de dicho experimento. As´ı, diremos que en un ensayo ocurre un suceso A si se observa en dicho ensayo cualquier resultado incluido en el suceso A.

48

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Ejemplo 3.5 Si consideramos el lanzamiento de un dado, el espacio muestral ser´ıa Ω = {1, 2, 3, 4, 5, 6}. Los sucesos elementales posibles son {1} , {2} , {3} , {4} , {5} y {6} . Otros sucesos no elementales pueden ser {1, 2} , {mayor que 2} , {par} , ... Ejemplo 3.6 Un experimento habitual en Biolog´ıa consiste en extraer, por ejemplo, peces de un r´ıo, hasta dar con un pez de una especie que se desea estudiar. El n´ umero de peces posible que habr´ıa que extraer hasta conseguir el ejemplar deseado de la especie en estudio forma el espacio muestral, Ω = {1, 2, 3, ...}. Obs´ervese que se trata de un conjunto no acotado, pero numerable. Como ejemplos de posibles sucesos de inter´es podr´ıamos poner los eventos {1, 2, 3, 4, 5} , {mayor o igual a 5} , ... umero Ejemplo 3.7 Si consideramos el experimento aleatorio consistente en elegir un n´ absolutamente al azar entre 0 y 1, el espacio muestral ser´ıa Ω = [0, 1] . A diferencia de los anteriores ejemplos, este espacio muestral no es finito, ni siquiera numerable. Como ejemplo de sucesos posibles en este espacio muestral podemos destacar, entre otros, {menor que 0.5} , {mayor que 0.25} ∩ {menor que 0.75} , ... En estos u ´ltimos ejemplos podemos ver que hay dos tipos de espacios muestrales seg´ un el n´ umero de sucesos elementales. Definici´ on 3.14 Un espacio muestral se dice discreto si est´ a formado por un conjunto finito o infinito numerable de sucesos elementales. Por el contrario, un espacio muestral se dice continuo si est´ a formado por un conjunto no numerable de sucesos elementales.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 49

3.5.3.

Funci´ on de probabilidad

Definici´ on 3.15 Dado un espacio muestral Ω correspondiente a un experimento aleatorio, una funci´ on de probabilidad para ese espacio muestral es cualquier funci´ on que asigne a cada suceso un n´ umero en el intervalo [0, 1] y que verifique 1. P [A] ≥ 0, para cualquier evento A. 2. P [Ω] = 1. 3. Dada una colecci´ on de sucesos A1 , A2 , ..., mutuamente excluyentes, es decir, tales que Ai ∩ Aj = ∅ para todo i 6= j, P

[∪∞ i=1 Ai ]

=

∞ X

P [Ai ] .

i=1

Esta definici´on, llamada definici´ on axiom´ atica, permite interpretar la probabilidad como una m´etrica: m´as concretamente, como la m´etrica que mide la creencia en la ocurrencia de cada suceso posible. Como m´etrica que es, tiene las mismas propiedades que cualquier m´etrica, incluida la eucl´ıdea, que es la que usualmente consideramos. Ejemplo 3.8 Hay que notar que se puede dar m´ as de una funci´ on de probabilidad asociada al mismo espacio muestral. Por ejemplo, asociado al espacio muestral Ω = {cara, cruz}, del lanzamiento de una moneda, pueden darse un n´ umero infinito no numerable de medidas de la probabilidad; concretamente, asociadas a cada elecci´ on P [cara] = p P [cruz] = 1 − p, para cada p ∈ [0, 1] . Aunque si la moneda no est´ a cargada, como sucede habitualmente, se considera el caso en que p = 12 . Ejemplo 3.9 Volviendo sobre el lanzamiento del dado, si ´este no est´ a cargado, podemos definir la siguiente funci´ on de probabilidad: 1 P [{i}] = , i = 1, 2, ..., 6. 6

50

Prof. Dr. Antonio Jos´ e S´ aez Castillo

En ese caso, podemos, a su vez, calcular algunas probabilidades. Por ejemplo, P ({par}) = P [{2, 4, 6}] = P [{2}] + P [{4}] + P [{6}] =

1 1 1 + + = 0.5. 6 6 6

En este c´ alculo se ha tenido en cuenta la tercera condici´ on de la definici´ on axiom´ atica. Como consecuencia de la definici´on se verifican, entre otras, las siguientes propiedades, que adem´as facilitan bastante los c´alculos. Lema 3.4 P [∅] = 0. Demostraci´ on. 1 = P [Ω ∪ ∅] = P [Ω] + P [∅] . £ ¤ Lema 3.5 Sea A un suceso cualquiera. Entonces, P A¯ = 1 − P [A] . £ ¤ £ ¤ Demostraci´ on. 1 = P A ∪ A¯ = P [A] + P A¯ . £ ¤ ¯ = P [A] − Lema 3.6 Sean A y B dos sucesos cualesquiera. Entonces, P A ∩ B P [A ∩ B] . £ ¤ £ ¤ ¯ = P [A ∩ B] + P A ∩ B ¯ . Demostraci´ on. P [A] = P A ∩ B ∪ A ∩ B Lema 3.7 Sean A y B dos sucesos cualesquiera. Entonces, P [A ∪ B] = P [A]+P [B]− P [A ∩ B] . Demostraci´ on. £ ¤ £ ¤ £ ¤ ¯ ∪ A¯ ∩ B ∪ A ∩ B = P A ∩ B ¯ + P A¯ ∩ B + P [A ∩ B] P [A ∪ B] = P A ∩ B = P [A] − P [A ∩ B] + P [B] − P [A ∩ B] + P [A ∩ B] = P [A] + P [B] − P [A ∩ B] .

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 51

Ejemplo 3.10 El circuito que aparece en la Figura 3.1 est´ a constituido por dos interruptores ( switches) en paralelo. La probabilidad de que cualquiera de ellos est´e cerrado es de 21 .

Figura 3.1: Circuito en paralelo. Para que pase corriente a trav´es del circuito basta con que pase corriente por alguno de los dos interruptores, esto es, que al menos uno de ellos est´e cerrado. Por tanto, si notamos por E al suceso que pase corriente a trav´es del circuito y Ei al suceso que el interruptor i est´e cerrado, entonces, P [E] = P [E1 ∪ E2 ] = P [E1 ] + P [E2 ] − P [E1 ∩ E2 ] =

1 1 + − P [E1 ∩ E2 ] ≤ 1. 2 2

Para conocer esta probabilidad de forma exacta necesitamos saber c´ omo act´ uan de forma conjunta ambos circuitos.

3.6.

Probabilidad condicionada. Independencia de sucesos

Para introducir de manera intuitiva el concepto de probabilidad condicionada debemos pensar en la probabilidad como medida de la creencia en la ocurrencia de los sucesos.

52

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Pensemos en un experimento aleatorio y en un suceso de dicho experimento, A, en el que, en principio, tenemos un grado de creencia P [A] ; pero supongamos que conocemos algo del resultado de dicho experimento; concretamente, sabemos que ha ocurrido un suceso B. Parece l´ogico pensar que esa informaci´on conocida sobre el resultado del ensayo modificar´a nuestro grado de creencia en A: llamemos a este nuevo grado de creencia P [A | B], probabilidad de A conocida B o probabilidad de A condicionada a B. Ejemplo 3.11 Consideremos el suceso A : el d´ıa de hoy va a llover y el suceso B : el d´ıa de hoy est´ a nublado. Obviamente, la probabilidad P [A] ser´ a menor que la probabilidad P [A | B] , ya que el hecho de que est´e nublado refuerza nuestra creencia en que llueva. Ejemplo 3.12 Consideremos el experimento aleatorio de extraer una carta de una baraja espa˜ nola. Sea el suceso A : obtener una sota, el suceso B1 : obtener una figura y el suceso B2 : obtener una carta de copas. Las distintas probabilidades, condicionadas o no, bajo la definici´ on cl´ asica, son las siguientes: 4 sotas 1 = 40 cartas 10 4 sotas 1 P [A | B1 ] = = 12 f iguras 3 1 sota de copas 1 P [A | B2 ] = = . 10 copas 10 P [A] =

Como puede verse, B1 modifica la probabilidad a priori, pero no as´ı B2 . Puede decirse que B2 no ofrece informaci´ on acerca de A, o que A y B2 son independientes. Vamos a dar a continuaci´on una definici´on de probabilidad condicionada que responde a esta idea de recalcular la probabilidad en funci´on de la informaci´on existente. Definici´ on 3.16 La probabilidad condicionada de un suceso A, conocido otro

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 53

suceso B, denotada por P [A | B], se define como el cociente P [A | B] =

P [A ∩ B] , P [B]

siempre que P [B] 6= 0. Observaci´ on 3.1 Una funci´ on de probabilidad condicionada P [·/B ] es una funci´ on de probabilidad en toda regla: por tanto, cumple las mismas propiedades que cualquier funci´ on de probabilidad ’sin condicionar’. Observaci´ on 3.2 Hay que tener especial cuidado en la hip´ otesis P [B] 6= 0 de la definici´ on, ya que veremos en el pr´ oximo tema que puede ser necesario considerar este tipo de probabilidades condicionando a sucesos con probabilidad nula. En ese caso, esta definici´ on no ser´ a v´ alida. Como hemos comentado, la idea de la probabilidad condicionada es utilizar la informaci´on que nos da un suceso conocido sobre la ocurrencia de otro suceso. Pero, como ya hemos puesto de manifiesto en un ejemplo, no siempre un suceso da informaci´on sobre otro. En este caso se dice que ambos sucesos son independientes. Por tanto: Definici´ on 3.17 Dos sucesos A y B se dicen independientes si P [A | B] = P [A] , o equivalentemente si P [B | A] = P [B], o equivalentemente si P [A ∩ B] = P [A]×P [B] . Ejemplo 3.13 Continuando con el Ejemplo 3.10, lo m´ as l´ ogico es pensar que los dos interruptores act´ uan de forma independiente, en cuyo caso P [E1 ∩ E2 ] = P [E1 ] P [E2 ] y tenemos que, 1 1 + − P [E1 ∩ E1 ] 2 2 3 1 1 11 = . = + − 2 2 22 4

P [E] =

Esta definici´on de independencia puede extenderse a una familia de conjuntos.

54

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Definici´ on 3.18 Se dice que A1 , ..., An son independientes si P [Ai Aj ] = P [Ai ] P [Aj ] P [Ai Aj Ak ] = P [Ai ] P [Aj ] P [Ak ] .. . P [A1 ∩ ... ∩ An ] = P [A1 ] ...P [An ] para cualquier combinaci´ on de ´ındices tal que 1 ≤ i < j < k... ≤ n. Observaci´ on 3.3 Es muy importante no confundir la probabilidad condicionada de un suceso a otro con la probabilidad de la intersecci´ on de ambos sucesos. En la Figura 3.2 puede verse la diferencia entre las probabilidades condicionadas entre dos sucesos y la probabilidad de su intersecci´ on. En t´erminos coloquiales, podemos analizar estas probabilidades como el cociente entre una parte y un todo. Cuando la probabilidad es condicionada ese todo es el suceso que condiciona. Cuando la probabilidad no es condicionada, ese todo es todo el espacio muestral. En ambos casos esa parte es la intersecci´ on.

Figura 3.2: Esquema acerca de la definici´on de probabilidad condicionada.

Observaci´ on 3.4 Tambi´en suele ser bastante com´ un la confusi´ on entre sucesos independientes y sucesos incompatibles o mutuamente excluyentes.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 55

En este sentido, recordemos que dos sucesos A y B son incompatibles o mutuamente excluyentes si A ∩ B = ∅, en cuyo caso P [A ∩ B] = 0. Por su parte, A y B ser´ an independientes si P [A ∩ B] = P [A] P [B]. Las diferencias entre ambos conceptos son obvias. Ejemplo 3.14 ([Montgomery, D. C. & Runger, G. C. (2002)], pp. 93-94) La probabilidad de que el pedido de un cliente no se env´ıe a tiempo es 0.05. Un cliente dado hace tres pedidos, con la suficiente separaci´ on en el tiempo como para considerarlos eventos independientes. 1. ¿Cu´ al es la probabilidad de que todos los pedidos se env´ıen a tiempo? En primer lugar, notemos Ei al suceso enviar a tiempo el pedido i-´esimo. En ese caso, sabemos que P [Ei ] = 0.05. Por su parte, nos piden P [E1 ∩ E2 ∩ E3 ] = P [E1 ] P [E2 ] P [E3 ] = 0.053 , debido a que los pedidos son independientes. 2. ¿Cu´ al es la probabilidad de que exactamente un pedido no se env´ıe a tiempo? En este caso el suceso que nos piden es m´ as complejo: £ ¤ ¯1 ∩ E2 ∩ E3 ∪ E1 ∩ E ¯2 ∩ E3 ∪ E1 ∩ E2 ∩ E ¯3 P E £ ¤ £ ¤ £ ¤ ¯1 ∩ E2 ∩ E3 + P E1 ∩ E ¯2 ∩ E3 + P E1 ∩ E2 ∩ E ¯3 =P E = 0.95 × 0.052 + 0.95 × 0.052 + 0.95 × 0.052 = 7.125 × 10−3 , ¯1 ∩ E2 ∩ E3 , E1 ∩ E ¯2 ∩ E3 y E1 ∩ E2 ∩ E ¯3 donde se ha utilizado que los sucesos E son incompatibles. 3. ¿Cu´ al es la probabilidad de que dos o m´ as pedidos no se env´ıen a tiempo?

56

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Tengamos en cuenta que ya hemos calculado la probabilidad de que todos se env´ıen a tiempo y de que todos menos uno se env´ıen a tiempo. Entonces, P [dos o m´ as pedidos no se env´ıen a tiempo]

= 1 − P [todos se env´ıen a tiempo ∪ un pedido no se env´ıe a tiempo] ¡ ¢ = 1 − 0.053 + 7. 125 × 10−3 . Ejemplo 3.15 ([Montgomery, D. C. & Runger, G. C. (2002)], p. 94) Un lote de 50 arandelas de separaci´ on contiene 30 arandelas cuyo grosor excede las especificaciones de dise˜ no. Suponga que se seleccionan 3 arandelas al azar y sin reemplazo del lote. 1. ¿Cu´ al es la probabilidad de que las tres arandelas seleccionadas sean m´ as gruesas que las especificaciones de dise˜ no? Comenzamos notando los sucesos Ai : la ´ı-´esima arandela extraida es m´ as gruesa que las especificaciones de dise˜ no, i = 1, 2, 3. Entonces, nos piden P [A1 ∩ A2 ∩ A3 ] = P [A1 ] P [A2 /A1 ] P [A3 /A1 ∩A2 ] =

30 29 28 . 50 49 48

2. ¿Cu´ al es la probabilidad de que la tercera arandela seleccionada sea m´ as gruesa que las especificaciones de dise˜ no si las dos primeras fueron m´ as delgadas que la especificaci´ on? £ ¤ 30 P A3 /A¯1 ∩A¯2 = . 48

3.7.

Teorema de la probabilidad total y Teorema de Bayes

Los siguientes dos resultados se conocen como Teorema de la probabilidad total y Teorema de Bayes respectivamente, y juegan un importante papel a la hora de

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 57

calcular probabilidades. Los dos utilizan como principal herramienta el concepto de probabilidad condicionada. Teorema 3.1 (Teorema de la Probabilidad Total) Sea P una funci´ on de probabilidad en un espacio muestral. Sea {A1 , ..., AN } ⊂ F una partici´ on del espacio muestral Ω y sea B un suceso cualquiera. Entonces, P [B] = P [B | A1 ] P [A1 ] + ... + P [B | AN ] P [AN ] . Demostraci´ on. P [B] = P [B ∩ (A1 ∪ ... ∪ AN )] = P [B ∩ A1 ∪ ... ∪ B ∩ AN ] = P [B ∩ A1 ] + ... + P [B ∩ AN ] = P [B | A1 ] P [A1 ] + ... + P [B | AN ] P [AN ] .

Teorema 3.2 (Teorema de Bayes) En esas mismas condiciones, si P [B] 6= 0, P [Ai | B] =

P [B | Ai ] P [Ai ] . P [B | A1 ] P [A1 ] + ... + P [B | AN ] P [AN ]

Demostraci´ on. P [Ai | B] =

P [Ai ∩ B] P [B | Ai ] P [Ai ] = . P [B] P [B | A1 ] P [A1 ] + ... + P [B | AN ] P [AN ]

Ejemplo 3.16 Supongamos que tenemos 4 cajas con componentes electr´ onicas dentro. La caja 1 contiene 2000 componentes, con un 5 % de defectuosas; la caja 2 contiene 500 componentes, con un 40 % de defectuosas; las cajas 3 y 4 contienen 1000 componentes, con un 10 % de defectuosas. 1. ¿Cu´ al es la probabilidad de escoger al azar una componente defectuosa?

58

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Notemos D : componente defectuosa y Ci : componente de la caja i-´esima. Entonces, se tiene que 2000 2000 + 500 + 1000 + 1000 500 P [C2 ] = 2000 + 500 + 1000 + 1000 1000 P [C3 ] = 2000 + 500 + 1000 + 1000 1000 P [C4 ] = 2000 + 500 + 1000 + 1000 P [C1 ] =

4 9 1 = 9 2 = 9 2 = 9 =

P [D | C1 ] = 0.05 P [D | C2 ] = 0.4 P [D | C3 ] = 0.1 P [D | C4 ] = 0.1 Utilizando el Teorema de la probabilidad total, P [D] = P [D | C1 ] P [C1 ] + P [D | C2 ] P [C2 ] + P [D | C3 ] P [C3 ] + P [D | C4 ] P [C4 ] 1 2 2 4 = 0.05 + 0.4 + 0.1 + 0.1 = 0. 11111 9 9 9 9 2. Si se escoge una componente al azar y resulta ser defectuosa, ¿cu´ al es la probabilidad de que pertenezca a la caja 1?

P [C1 | D] =

0.05 49 P [D | C1 ] P [C1 ] = = 0.2 P [D] 0.11111

Ejemplo 3.17 Se disponen tres cajas donde se almacenan acumuladores seg´ un aparece en el Cuadro 3.2. Se escoge al azar una caja y de ella, a su vez, un acumulador. 1. ¿Cu´ al es la probabilidad de que se haya seleccionado un acumulador de 0.01µF ?

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 59

N´ umero

en cada

caja

µF

1

2

3

Total

0.01

20

95

25

140

0.1

55

35

75

165

1.0

70

80

145

295

Total

145

210

245

600

Cuadro 3.2: Acumuladores. Notemos 0.01µF, 0.1µF y 1.0µF a los sucesos extraer un acumulador de 0.01µF, 0.1µF y 1.0µF respectivamente. De igual forma, notemos c1, c2 y c3 a los sucesos elegir la caja 1, la caja 2 y la caja 3, respectivamente. Utilizando el teorema de la probabilidad total, P [0.01µF ] = P [0.01µF / c1] P [c1] + P [0.01µF / c2] P [c2] + P [0.01µF / c3] P [c3] =

95 1 25 1 5903 20 1 + + = = 0.23078. 145 3 210 3 245 3 25 578

2. Si ha sido seleccionado un acumulador de 1.0µF , ¿cu´ al es la probabilidad de que proceda de la caja 1? Utilizando el teorema de Bayes, P [c1 / 1.0µF ] =

P [1.0µF / c1] P [c1] . P [1.0µF ]

Por su parte, P [1.0µF ] = P [0.01µF / c1] P [c1] + P [0.01µF / c2] P [c2] + P [0.01µF / c3] P [c3] =

70 1 80 1 145 1 6205 + + = = 0.48518, 145 3 210 3 245 3 12 789

luego P [c1 / 1.0µF ] =

70 1 145 3 6205 12 789

=

2058 = 0.33167. 6205

60

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Ejemplo 3.18 Siguiendo con el ejemplo de [Montgomery, D. C. & Runger, G. C. (2002)], p. 94, sobre las arandelas con grosor fuera de las especificaciones de dise˜ no, ¿cu´ al es la probabilidad de que la tercera arandela seleccionada sea m´ as gruesa que las especificaciones de dise˜ no? P [A3 ] = P [A3 /A1 ∩A2 ] P [A1 ∩ A2 ] £ ¤ £ ¤ + P A3 /A¯1 ∩A2 P A¯1 ∩ A2 £ ¤ £ ¤ ¯2 + P A3 / ¯ P A1 ∩ A A1 ∩A2

£ ¤ £ ¤ + P A3 /A¯1 ∩A¯2 P A¯1 ∩ A¯2 = P [A3 /A1 ∩A2 ] P [A1 ] P [A2 /A1 ] ¤ £ ¤ £ ¤ £ + P A3 /A¯1 ∩A2 P A¯1 P A2 /A¯1 £ ¤ £ ¤ + P A3 /A1 ∩A¯2 P [A1 ] P A¯2 /A1 ¤ £ ¤ £ ¤ £ + P A3 /A¯1 ∩A¯2 P A¯1 P A¯2 /A¯1 28 30 29 48 50 49 29 20 30 + 48 50 49 29 30 20 + 48 50 49 30 20 19 + . 48 50 49 =

3.8.

Ejercicios

1. [Lipschutz, S. & Schiller, J. (2000)], p. 157, 4.42 y 4.43. 2. [Lipschutz, S. & Schiller, J. (2000)], p. 157, 4.44 y 4.45. 3. [Lipschutz, S. & Schiller, J. (2000)], p. 157, 4.48. 4. [Johnson, R. A. (1997)], p. 81, 3.70, apartados a. y b. 5. [Johnson, R. A. (1997)], p. 81, 3.70, apartados c. y d.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 61

6. [Johnson, R. A. (1997)], p. 82, 3,71 y 3.72. 7. [Canavos, G. C. (1988)], pp. 48-49, 2.1. 8. [Canavos, G. C. (1988)], pp. 51, 2.15. 9. [Canavos, G. C. (1988)], pp. 51, 2.18.

62

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Cap´ıtulo 4

Variable aleatoria En el tema anterior hemos visto que la Estad´ıstica se ocupa de experimentos aleatorios. En general, en Ciencia y Tecnolog´ıa se suele analizar cualquier experimento mediante una o varias medidas del mismo. Por ejemplo, se analiza un objeto seg´ un su peso, su volumen, su densidad, su contenido de agua...; o se analiza el tr´afico de Internet seg´ un el n´ umero de conexiones a un servidor, el volumen total de tr´afico generado, la velocidad... En estos sencillos ejemplos observamos que se ha descrito un fen´omeno f´ısico, como puede ser un objeto o el estado de una red de comunicaciones en un momento dado, mediante uno o varios n´ umeros o variables. Cuando ese fen´omeno es de tipo aleatorio, vamos a llamar a esa asignaci´on variable aleatoria. Consideremos un experimento probabil´ıstico con un espacio muestral Ω en el que se ha definido una funci´on de probabilidad P [·] . Definici´ on 4.1 Una variable aleatoria (a partir de ahora v.a.) es un n´ umero real asociado al resultado de un experimento aleatorio. Se trata, por tanto, de una funci´ on real con dominio en el espacio muestral, X : Ω → R. En la notaci´on que vamos a utilizar representaremos las variables aleatorias como funciones siempre en may´ usculas, y a sus valores concretos siempre en min´ uscula. Es 63

64

Prof. Dr. Antonio Jos´ e S´ aez Castillo

decir, si queremos referirnos a una v.a. antes de observar su valor, podemos notarla como X, por ejemplo; pero una vez que se observa el valor de dicha variable (ya no es, por tanto, algo aleatorio), debemos notar a ese valor en min´ uscula, por ejemplo, como x. Por ejemplo, podemos decir que la variable aleatoria X que corresponde a la puntuaci´on obtenida al lanzar el dado puede tomar los valores x = 1, 2, 3, 4, 5, 6. Podremos preguntarnos por la probabilidad de que X tome el valor x = 4 o de que X ≤ 6. Si lanzamos el dado y observamos que ha salido un 6, diremos que x = 6. Ejemplo 4.1 Consideremos el experimento aleatorio consistente en observar la duraci´ on de cada llamada telef´ onica recibida por una centralita. Dicha observaci´ on constituye una v.a. que notaremos, por ejemplo, como T (en may´ uscula, por supuesto). Cuando hablemos de ella lo haremos not´ andola en may´ uscula, T , pero si nos referimos a un valor que ha tomado en una observaci´ on concreta debemos hacerlo en min´ uscula. As´ı, por ejemplo, debemos decir: ”La v.a. T ha tomado el valor t en su u ´ltima observaci´ on”. ¿Qu´e nos interesar´ a conocer de la v.a.? Pues, por ejemplo, la probabilidad de que una llamada dure m´ as de un minuto, P [T > 1], o menos de 30 segundos, P [0 ≤ T < 0.5]... No olvidemos que el objeto de la Estad´ıstica con respecto a la observaci´ on de fen´omenos aleatorios es medir la certidumbre o la incertidumbre asociada a sus posibles resultados. Al describir estos resultados mediante variables aleatorias, lo que tenemos son resultados num´ericos sujetos a incertidumbre. El objetivo ahora es cuantificar la probabilidad de esos resultados num´ericos de alguna forma.

4.1. 4.1.1.

Variable aleatoria discreta Definici´ on

Definici´ on 4.2 Se dice que una v.a. es discreta si el conjunto de todos los valores que puede tomar es un conjunto, a lo sumo, numerable (discreto).

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 65

Ejemplo 4.2 Son variables discretas: El n´ umero de conexiones a un servidor por minuto. El n´ umero de errores en un mensaje transmitido. El n´ umero de clientes conectados a un servidor en un momento dado. El n´ umero de im´ agenes incluidas en una p´ agina WEB cualquiera.

4.1.2.

Funci´ on masa de probabilidad

Definici´ on 4.3 Dada una v.a. discreta, X, se define su funci´ on masa de probabilidad como f (x) = P [X = x] , para cada x ∈ R. Observaci´ on 4.1 Obs´ervese que una funci´ on masa de una v.a. discreta est´ a definida en todos los puntos de la recta real, pero s´ olo valdr´ a distinto de cero en un conjunto, a lo sumo, numerable, que corresponde con los u ´nicos valores que pueden darse de la variable. Proposici´ on 4.1 Sea X una v.a. discreta y f (x) su funci´ on masa. Entonces: 1. f (x) ≥ 0 para todo x ∈ R. 2.

P

x∈R f

(x) = 1.

3. En general, para cualquier conjunto B, P [X ∈ B] =

X xi ∈B

donde xi son valores posibles de X.

f (x) ,

66

Prof. Dr. Antonio Jos´ e S´ aez Castillo

4.1.3.

Funci´ on masa de probabilidad emp´ırica.

En la pr´actica nadie conoce la aut´entica funci´on masa de una variable discreta, pero podemos aproximarla mediante la funci´ on masa de probabilidad emp´ırica asociada a una muestra de resultados. Si tenemos una colecci´on de posibles resultados de la variable X, x1 , ..., xN , esta funci´on asigna al valor x la frecuencia con la que dicho valor se da en la muestra, es decir, femp (x) =

n´ umero de valores xi iguales a x . N

Si el tama˜ no, N , de la muestra es grande, esta funci´on tiende a la aut´entica, es decir, para cada x ∈ R. l´ım femp (x) = f (x) .

N →∞

Ejemplo 4.3 En la Figura 4.1 aparece la funci´ on masa emp´ırica correspondiente al lanzamiento de un dado 600 veces. Esta funci´ on emp´ırica aparece representada en barras verticales, mientras que la funci´ on masa te´orica, f (x) = 61 , para x = 1, 2, 3, 4, 5, 6 aparece representada como una l´ınea horizontal. Puede apreciarse c´ omo proporcionan probabilidades te´ oricas y emp´ıricas bastante parecidas. No obstante, ¿deber´ıamos concluir a la luz de estos 600 datos que el dado no est´ a cargado?

4.1.4.

Funci´ on de distribuci´ on

Definici´ on 4.4 Se define la funci´ on de distribuci´ on de probabilidad de una v.a. discreta X como F (x) = P [X ≤ x] =

X

f (xi ) ,

xi ≤x

para cada x ∈ R, donde los puntos xi son los puntos que puede tomar la variable discreta y f (x) es su funci´ on masa.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 67

Figura 4.1: Funci´on masa emp´ırica de una muestra de 600 lanzamientos de un dado. Ejemplo 4.4 En el ejemplo del lanzamiento del dado, consideremos que no est´ a cargado, por lo que su funci´ on masa ser´ıa f (1) = ... = f (6) =

1 6

f (x) = 0 en cualquier otro caso. En ese caso, su funci´ on de distribuci´ on es   0 si x < 1      1    6 si 1 ≤ x < 2    2   si 2 ≤ x < 3   6 3 , F (x) = 6 si 3 ≤ x < 4      46 si 4 ≤ x < 5      5 si 5 ≤ x < 6   6     1 si 6 ≤ x que aparece representada en la Figura 4.2. Proposici´ on 4.2 Dada una v.a. discreta con funci´ on masa f (x) y funci´ on de distribuci´ on F (x), se verifica 1. l´ımx→−∞ F (x) = 0.

68

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Figura 4.2: Funcion de distribuci´on asociada al lanzamiento de un dado. 2. l´ımx→∞ F (x) = 1. 3. F es creciente. 4. F es continua a la derecha. 5. Adem´ as, P [X ≤ a] = F (a) =

X

f (xi )

x1 ≤a

¡ ¢ X f (xi ) P [X < a] = F a− = xi a] = 1 − F (a) =

X

f (xi )

xi >a

X ¡ ¢ P [a < X < b] = F b− − F (a) = f (xi ) a 1] = 1 − P [X = 0, 1] = 1 −

5.4.

e−3.2 3.20 e−3.2 3.21 − = 0.828 80 0! 1!

Distribuci´ on geom´ etrica

Definici´ on 5.3 Sea X una v.a. discreta que puede tomar los valores x = 0, 1, 2, ... Se dice que sigue una distribuci´ on geom´ etrica de par´ ametro p (y se nota X → Geo (p)), con 0 < p < 1, si su funci´ on masa es f (x) = p (1 − p)x , para x = 0, 1, 2, ... Proposici´ on 5.6 Sea X → Geo (p). Entonces, 1−p p 1−p V arX = . p2 EX =

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 93

0.4 Geo(0.25) 0.3 0.2 0.1 0 −5

0

5

10

15

20

25

0.8 Geo(0.5) 0.6 0.4 0.2 0 −5

0

5

10

15

20

25

0.8 Geo(0.75) 0.6 0.4 0.2 0 −5

0

5

10

15

20

25

Figura 5.3: Funciones masa de distribuciones geom´etricas.

Proposici´ on 5.7 (Caracterizaci´ on de la distribuci´ on geom´ etrica) Supongamos que un determinado experimento aleatorio se repite sucesivamente de forma independiente y que en ese experimento hay un suceso que denominamos ´exito, que ocurre con probabilidad constante p. En ese caso, la variable aleatoria X que cuenta el n´ umero de fracasos hasta que ocurre el primer ´exito sigue una Geo (p). Ejemplo 5.6 Siguiendo con un ejemplo anterior, si tratamos de contar uno a uno el n´ umero de bits correctos hasta llegar en una secuencia de bits hasta el primer bit

94

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Figura 5.4: Esquema de las caracter´ısticas de una sesi´on de tr´afico WEB.

err´ oneo, dicha v.a. seguir´ a una distribuci´ on geom´etrica de par´ ametro 0.05. Es decir, podr´ıamos notar Y : n´ umero de bits correctos hasta encontrar uno err´ oneo, en cuyo caso P [Y = y] = 0.05 × 0.95y , y = 0, 1, 2, ... No obstante, para ello deben darse las mismas hip´ otesis que son necesarias para la distribuci´ on binomial, es decir, eventos independientes y probabilidad constante de ´exito. Ejemplo 5.7 El tr´ afico WEB de datos puede analizarse como la transmisi´ on a los largo del tiempo de los denominados paquetes de llamada, que son mensajes transmitidos en una trama compuestos a su vez por datagramas. El European Telecommunications Standard Institute (ETSI), recomienda en sus protocolos que variables discretas como el n´ umero de paquetes de llamada en una comunicaci´ on, el tiempo de lectura entre dos paquetes de llamada consecutivos, el n´ umero de datagramas en un paquete de llamada o el tiempo de lectura entre dos datagramas de

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 95

un paquete de llamada se describan como v.a. discretas con distribuci´ on geom´etrica. En la pr´ actica esto da lugar a distribuciones te´ oricas que se ajustan muy mal a los datos reales, probablemente porque se viole la hip´ otesis de probabilidad constante de ´exito.

5.5.

Distribuci´ on binomial negativa

Definici´ on 5.4 Sea una v.a. discreta que puede tomar los valores x = 0, 1, 2, ... Se dice que X sigue una distribuci´ on binomial negativa de par´ ametros a y p (y se nota X → BN (a, p)), con a > 0 y 0 < p < 1, si su funci´ on masa es f (x) = donde Γ (x) =

R∞ 0

Γ (a + x) pa (1 − p)x para x = 0, 1, 2, ... Γ (a) Γ (x + 1)

sx−1 e−s ds es la funci´ on gamma.

Obs´ervese que la distribuci´on geom´etrica es un caso particular de la binomial negativa, cuando a = 1.

Proposici´ on 5.8 Sea X → BN (a, p). Entonces 1−p p 1−p V arX = a 2 p EX = a

Proposici´ on 5.9 (Caracterizaci´ on de la distribuci´ on binomial negativa) Sea un determinado experimento aleatorio que se repite sucesivamente de forma independiente y donde hay un suceso que denominamos ´exito, que ocurre con probabilidad constante p. En ese caso, la variable aleatoria X que cuenta el n´ umero de fracasos hasta que ocurre el k-´esimo ´exito sigue una BN (k, p). En este caso, adem´ as, y dado que Γ (r) =

96

Prof. Dr. Antonio Jos´ e S´ aez Castillo

(r − 1)! si r es un entero, (k + x − 1)! a p (1 − p)x para x = 0, 1, 2, ... (k − 1)!x!   k+x−1  pa (1 − p)x para x = 0, 1, 2, ... = k−1

f (x) =

Proposici´ on 5.10 (Caracterizaci´ on de la distribuci´ on binomial negativa) Sean P X1 , ..., Xn v.a. independientes1 con distribuci´ on Geo (p). En ese caso, X = ni=1 Xi sigue una BN (n, p). De nuevo obs´ervese que el primer par´ ametro es un entero. Ejemplo 5.8 Continuando con el ejemplo del canal binario sim´etrico con probabilidad de cruce ε = 0.05, si, por ejemplo, estamos interesados en contar el n´ umero de bits correctos hasta que se produce el segundo error, dicha v.a. sigue una distribuci´ on BN (2, 0.95). afico de v´ıdeo de teleconferencia en redes Ejemplo 5.9 Si consideramos el estudio de tr´ ATM, el n´ umero de celdas ocupadas por cada trama de tr´ afico suele considerarse que sigue una distribuci´ on binomial negativa.

5.6.

Distribuci´ on uniforme (continua)

Definici´ on 5.5 Se dice que una v.a. continua X que s´ olo puede tomar valores en el intervalo (x1 , x2 ) sigue una distribuci´ on uniforme entre x1 y x2 (y se nota X → U (x1 , x2 )) si su funci´ on de densidad es   1 si x1 < x < x2 x2 −x1 f (x) = .  0 en otro caso Proposici´ on 5.11 Sea X → U (x1 , x2 ). Entonces x1 + x2 2 (x2 − x1 )2 V arX = . 12 EX =

1

Definiremos en breve el concepto de independencia con todo rigor.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 97

0.1

0.06 BN(2.5,0.25)

BN(5,0.25) 0.04

0.05 0.02 0 −10

0

10

20

30

40

0.4

0 −10

0

10

20

BN(5,0.5)

0.3

0.15

0.2

0.1

0.1

0.05 0

10

20

30

40

0.8

0 −10

0

10

20

30

40

0.4 BN(2.5,0.75)

BN(5,0.75)

0.6

0.3

0.4

0.2

0.2

0.1

0 −10

40

0.2 BN(2.5,0.5)

0 −10

30

0

10

20

30

40

0 −10

0

10

20

30

40

Figura 5.5: Funciones masa de distribuciones binomiales negativas.

Proposici´ on 5.12 (Caracterizaci´ on de la distribuci´ on uniforme) Si X es una v.a. tal que dos intervalos cualesquiera entre x1 y x2 de la misma longitud, tienen la misma probabilidad, entonces X → U (x1 , x2 ) .

El ejemplo m´as habitual de esta variable es la variable uniforme en el intervalo (0, 1) ; valores simulados de esta variable son los que se calculan con la orden RND de cualquier calculadora o con la funci´on rand de MATLAB.

98

Prof. Dr. Antonio Jos´ e S´ aez Castillo

5.7.

Distribuci´ on exponencial

Esta distribuci´on suele ser modelo de aquellos fen´omenos aleatorios que miden el tiempo que transcurre entre que ocurren dos sucesos. Por ejemplo, entre la puesta en marcha de una cierta componente y su fallo o el tiempo que transcurre entre dos llamadas consecutivas a una centralita. Definici´ on 5.6 Sea X una v.a. continua que puede tomar valores x ≥ 0. Se dice que X sigue una distribuci´ on exponencial de par´ ametro λ (y se nota X → exp (λ)) si su funci´ on de densidad ½ λ · e−λx si x ≥ 0 f (x) = = λe−λx u (x) . 0 en otro caso Obs´ervese que su funci´on de distribuci´on es ½ 1 − e−λx si x ≥ 0 F (x) = P [X ≤ x] = . 0 en otro caso Proposici´ on 5.13 Sea X → exp (λ). Entonces, 1 λ 1 V arX = 2 . λ EX =

Proposici´ on 5.14 (Caracterizaci´ on de la distribuci´ on exponencial) Sea X → P (λ) una v.a. discreta que cuenta el n´ umero de ´exitos en un determinado periodo de tiempo. En ese caso, el tiempo que pasa entre dos ´exitos consecutivos, T , es una v.a. que sigue una exp (λ). Ejemplo 5.10 Si en Ejemplo 5.3 consideramos el tiempo que transcurre entre visita y visita a la p´ agina WEB, este tiempo (medido en d´ıas), T , es una v.a. exp (15). Proposici´ on 5.15 (Relaci´ on entre la exponencial y la geom´ etrica) Si X sigue ¡ ¢ una distribuci´ on exp (λ), entonces Y = ent (X)2 sigue una distribuci´ on Geo 1 − e−λ . 2

ent (·) nota la parte entera. La parte entera de un n´ umero es el menor de los n´ umeros enteros entre

los que est´ a comprendido.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en. 99

1 exp(1)

0.5

0

0

2

4

6

8

10

12

14

16

18

20

0.2 exp(5) 0.15 0.1 0.05 0

0

2

4

6

8

10

12

14

16

18

20

0.1 exp(10)

0.05

0

0

2

4

6

8

10

12

14

16

18

20

Figura 5.6: Funciones de densidad de distribuciones exponenciales.

Demostraci´ on. Tenemos que P [Y = y] = P [ent (X) = y] = P [y ≤ X < y + 1] ³ ´ = e−λy − e−λ(y+1) = e−λy 1 − e−λ , para y = 0, 1, 2, ...

5.8.

Distribuci´ on Gamma

Definici´ on 5.7 Sea X una v.a. continua que puede tomar valores x ≥ 0. Se dice que X sigue una distribuci´ on Gamma de par´ ametros a y λ (y se nota X → Gamma (a, λ))

100

Prof. Dr. Antonio Jos´ e S´ aez Castillo

0.4

0.2 Gamma(2.5,1)

Gamma(5,1)

0.3

0.15

0.2

0.1

0.1

0.05

0

0

10

20

30

0.08

0

0

10

Gamma(5,5)

0.06

0.03

0.04

0.02

0.02

0.01 0

10

20

30

0.04

0

0

10

20

30

0.02 Gamma(2.5,10)

Gamma(5,10)

0.03

0.015

0.02

0.01

0.01

0.005

0

30

0.04 Gamma(2.5,5)

0

20

0

10

20

30

0

0

10

20

30

Figura 5.7: Funciones de densidad de distribuciones Gamma.

si su funci´ on de densidad es f (x) = donde Γ (x) =

R∞ 0

λ (λx)a−1 e−λx u (x) , Γ (a)

sx−1 e−s ds es la funci´ on gamma.

Obs´ervese que en el caso en que a = 1 se tiene la distribuci´on exponencial. Si a = n, n´ umero natural, la distribuci´on se denomina Erlang. Otro caso particular lo constituye la distribuci´ on χ2 con r grados de libertad, que no es m´as que una ¢ ¡ Gamma 2r , 12 . Esta distribuci´on se utiliza, por ejemplo, para evaluar la bondad del ajuste de una distribuci´on te´orica a unos datos, como veremos m´as adelante.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.101

Proposici´ on 5.16 Sea X → Gamma (a, λ). Entonces a λ a V arX = 2 . λ EX =

Proposici´ on 5.17 (Caracterizaci´ on de la distribuci´ on Gamma) Sea X → P (λ) una v.a. discreta que cuenta el n´ umero de ´exitos en un determinado periodo de tiempo. En ese caso, el tiempo que pasa entre el k-´esimo ´exito y el k+r, T , es una v.a. que sigue una Gamma (r, λ). Dado que r es un entero, en realidad es una Erlang (r, λ). Proposici´ on 5.18 (Caracterizaci´ on de la distribuci´ on Gamma) Sean X1 , ..., Xn Pn v.a. independientes3 con distribuci´ on exp (λ). En ese caso, X = i=1 Xi sigue una Gamma (n, λ). De nuevo obs´ervese que el primer par´ ametro es un entero, luego se trata de una Erlang.

5.9.

Distribuci´ on normal

Definici´ on 5.8 Sea X una v.a. continua que puede tomar cualquier valor real. Se dice que X sigue una distribuci´ on normal o gaussiana, de par´ ametros µ y σ 2 (y se ¡ ¢ nota X → N µ, σ 2 ), si su funci´ on de densidad es # " 1 (x − µ)2 f (x) = √ exp − para todo x ∈ R. 2σ 2 2πσ 2 Obs´ervese que es la u ´nica distribuci´on que hemos visto hasta ahora que toma todos los valores entre −∞ y +∞. ¡ ¢ Proposici´ on 5.19 Sea X → N µ, σ 2 . Entonces EX = µ V arX = σ 2 . 3

Definiremos en breve el concepto de independencia con todo rigor.

102

Prof. Dr. Antonio Jos´ e S´ aez Castillo

El propio nombre de la distribuci´on normal indica su frecuente uso en cualquier ´ambito cient´ıfico y tecnol´ogico. Este uso tan extendido se justifica por la frecuencia o normalidad con la que ciertos fen´omenos tienden a parecerse en su comportamiento a esta distribuci´on, ya que muchas variables aleatorias continuas presentan una funci´on de densidad cuya gr´afica tiene forma de campana. Esto, a su vez, es debido a que hay muchas variables asociadas a fen´omenos naturales cuyas caracter´ısticas son compatibles con el modelo aleatorio que supone el modelo de la normal: Caracteres morfol´ogicos de individuos (personas, animales, plantas, ...) de una especie (tallas, pesos, envergaduras, di´ametros, per´ımetros, ...). Caracteres fisiol´ogicos (efecto de una misma dosis de un f´armaco, o de una misma cantidad de abono). Caracteres sociol´ogicos (consumo de cierto producto por un mismo grupo de individuos, puntuaciones de examen...). Caracteres psicol´ogicos (cociente intelectual, grado de adaptaci´on a un medio, ...). Errores cometidos al medir ciertas magnitudes. Valores estad´ısticos muestrales, como por ejemplo la media. Otras distribuciones como la binomial o la de Poisson son aproximadas por la normal, ... En general, como veremos enseguida, cualquier caracter´ıstica que se obtenga como suma de muchos factores independientes encuentra en la distribuci´on normal un modelo adecuado. Existe otra raz´on m´as pragm´atica para el uso tan extendido de la distribuci´on normal: sus propiedades matem´aticas son, como iremos viendo, casi inmejorables. Eso conduce a que casi siempre se trate de forzar al modelo normal como modelo para

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.103

0.4

0.1 N(0,4)

N(0,1) 0.3 0.2

0.05

0.1 0 −10

−5

0

5

10

0.4

0 −10

−5

0

5

10

0.1 N(1,1)

N(1,4)

0.3 0.2

0.05

0.1 0 −10

−5

0

5

10

0.4

0 −10

−5

0

5

10

0.1 N(−1,1)

N(−1,4)

0.3 0.2

0.05

0.1 0 −10

−5

0

5

10

0 −10

−5

0

5

10

Figura 5.8: Funciones de densidad de la distribuci´on normal.

cualquier variable aleatoria, lo cual, en ocasiones puede conducir a errores importantes en las aplicaciones pr´acticas. Lo cierto es que tambi´en son frecuentes las aplicaciones en las que los datos no siguen una distribuci´on normal. En ese caso puede ser relevante estudiar qu´e factores son los que provocan la p´erdida de la normalidad y, en cualquier caso, pueden aplicarse t´ecnicas estad´ısticas que no requieran de esa hip´otesis. ¡ ¢ Proposici´ on 5.20 Sea X → N µ, σ 2 . Entonces, Z=

X −µ → N (0, 1) , σ

propiedad que suele conocerse como tipificaci´ on de la normal.

104

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Demostraci´ on. Es una aplicaci´on trivial del teorema de cambio de variable. Esta conocida propiedad tiene una aplicaci´on pr´actica muy usual. Dadas las caracter´ısticas de la densidad gaussiana, no es posible calcular probabilidades asociadas a la normal de forma exacta, ya que las integrales del tipo " # Z b 1 (x − µ)2 √ exp − dx 2σ 2 2πσ 2 a no pueden ser expresadas en t´erminos de las funciones usuales, y s´olo pueden calcularse por m´etodos num´ericos. No obstante, existen tablas donde aparecen multitud de valores de la funci´on de distribuci´on de la distribuci´on N (0, 1) y a partir de ellos se pueden calcular otras tantas probabilidades, utilizando la propiedad de tipificaci´on. Por ejem¡ ¢ plo, si queremos calcular la probabilidad de que una variable X → N µ, σ 2 est´e en el intervalo [a, b], tenemos · ¸ µ ¶ µ ¶ a−µ X −µ b−µ b−µ a−µ P [a ≤ X ≤ b] = P ≤ ≤ = FZ − FZ , σ σ σ σ σ donde FZ (·) es la funci´on de distribuci´on de una variable Z → N (0, 1), que puede evaluarse mediante el uso de tablas. Teorema 5.1 (Teorema Central del L´ımite) Sean X1 , ..., XN v.a. independientes4 , todas ellas con la misma distribuci´ on de probabilidad, distribuci´ on de media µX y va2 . En ese caso, la suma de estas variables sigue aproximadamente una distririanza σX

buci´ on normal cuando N es elevado, es decir, N X

¡ ¢ Xi ≈ N N µX , N σ 2 .

i=1

Corolario 5.1 Tipificando, podemos reenunciar el Teorema Central del L´ımite diciendo que

PN

i=1√Xi

− N µX

N σX

4

≈ N (0, 1) .

A´ un tenemos pendiente este concepto, pero entendamos por ahora que variables independientes

son aquellas en que los valores que toman unas no afectan a las distribuciones de probabilidad de las otras.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.105

Este teorema es el que proporciona una justificaci´on matem´atica del porqu´e la distribuci´on gaussiana es un modelo adecuado para un gran n´ umero de fen´omenos reales en donde la v.a. observada en un momento dado es el resultado de sumar un gran n´ umero de sucesos aleatorios elementales. Esto sucede con frecuencia en el ´ambito de las Telecomunicaciones. Por ejemplo, en los fen´omenos que dan lugar a los ruidos de un proceso de comunicaci´on. Ejemplo 5.11 Consideremos X1 , ..., XN variables independientes con distribuci´ on U [0, 1]. ¡ ¢ PN N Seg´ un el teorema central del l´ımite, i=1 Xi ≈ N 0.5N, 12 . Para poner este resultado de manifiesto se ha realizado el siguiente experimento: Para N = 1, 2, 5 y 10, se ha simulado una muestra de 10000 datos de

PN

i=1 Xi ,

dibujando su histograma en cada caso. Estos histogramas aparecen en la Figura 5.9. En ella se pone de manifiesto como seg´ un N crece, el histograma se va pareciendo cada vez m´ as a una densidad gaussiana. Ejemplo 5.12 Un CD contiene muestras digitalizadas de la onda ac´ ustica anal´ ogica original en el momento de la grabaci´ on del sonido que contiene. En un reproductor de CD con conversor de 1 bit cada muestra digital representa el valor original con una precisi´ on de 0.5mV. A la hora de recodificar la se˜ nal del CD para obtener el sonido original, el reproductor estima el valor de la onda original tomando 8 medidas independientes correspondientes a otras tantas muestras y obtiene un valor estimado de la onda mediante la media de las 8 medidas. Vamos a calcular la probabilidad de que el error del conversor al reproducir la onda sea mayor que 0.05mV . Podemos suponer que las medidas que permiten estimar la onda son v.a. X1 , ..., X8 con distribuci´ on U (v − 0.5, v + 0.5), donde v es el verdadero valor de la onda anal´ ogica. El valor reproducido por el reproductor es P8 Xi U = i=1 . 8 Lo que deseamos calcular es P [|U − v| > 0.05] .

106

Prof. Dr. Antonio Jos´ e S´ aez Castillo

140

250 N=1

N=2

120

200

100 80

150

60

100

40 50

20 0

0

0.2

0.4

0.6

0.8

0

1

300

0

0.5

1

1.5

2

350 N=5

N=10 300

250

250

200

200 150 150 100

100

50 0

50 0

1

2

3

4

0

5

0

2

4

6

8

10

Figura 5.9: Ilustraci´on del Teorema Central del L´ımite.

Teniendo en cuenta que EXi = v y V arXi = del limite asumiendo que

i=1

"P EU = E

8 i=1 Xi

8 ÃP

V arU = V ar

podemos aplicar el teorema central

µ ¶ 8 Xi ≈ N 8v, , 12

8 X

de manera que

1 12 ,

# =

8 i=1 Xi

8

E

hP 8

i

i=1 Xi

=

8

! =

V ar

³P 8

8v = v, 8

i=1 Xi

82

´ =

1 96

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.107

y entonces µ ¶ 1 U ≈ N v, 96 µ ¶ 1 U − v ≈ N 0, . 96 Finalmente, tenemos que P [|U − v| > 0.05] = P [U − v < −0.05] + P [U − v > 0.05]     U −v −0.05 0.05 U −v =P q < q +P  q >q  1 96

1 96

1 96

1 96

= P [Z < −0.489 9] + P [Z > −0.489 9] = 2 (1 − P [Z < −0.489 9]) = 0.34.

Ejemplo 5.13 Sea K el n´ umero de caras en 100 lanzamientos de una moneda no cargada. Dado que K → B (100, 0.5) , P [50 ≤ X ≤ 51] = fK (50) + fK (51)     100 100  0.550 (1 − 0.5)50 +   0.551 (1 − 0.5)49 = 50 51 = 0.1576. Sin embargo, podemos considerar que K es la suma de 100 variables de Bernouilli, una por cada lanzamiento de la moneda. En ese caso, dado que EK = 100 × 0.5 = 50 V arK = 100 × 0.5 × (1 − 0.5) = 25

108

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Distribuci´ on

Media

Varianza

Binomial (n, p)

np

np (1 − p)

P oisson (λ)

λ

λ

Geom´ etrica (p)

1−p p

Binomial negativa (k, p)

k 1−p p

U nif orme (a, b)

a+b 2

1−p p2 k 1−p p2 (b−a)2 12

Exponencial (λ)

1 λ

1 λ2

Gamma (a, λ) ¡ ¢ N ormal µ, σ 2

a λ

a λ2

µ

σ2

Cuadro 5.1: Media y varianza de las distribuciones te´oricas m´as columnes. K ≈ N (50, 25), y el teorema central del l´ımite establece que5 Z

51.5

P [50 ≤ K ≤ 51] ' 49.5

(x−50)2 1 √ e− 2×25 dx = 0.1577. 2π × 25

Esta aplicaci´ on se conoce en general como aproximaci´ on normal de la binomial.

5.10.

Medias y varianzas de las distribuciones m´ as comunes

En el Cuadro 5.1 aparecen, a modo de resumen, la media y la varianza de las distribuciones que acabamos de estudiar.

5.11.

Ejercicios

1. [Canavos, G. C. (1988)], p. 122, 4.6. 5

Los l´ımites de integraci´ on est´ an ligeramente corregidos para minimizar el efecto que supone pasar

del car´ acter discreto de la variable a la versi´ on continua que supone la aproximaci´ on normal. Esto se conoce como correcci´ on por continuidad.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.109

2. [Canavos, G. C. (1988)], p. 122, 4.8. 3. [Canavos, G. C. (1988)], p. 123, 4.11. 4. [Canavos, G. C. (1988)], p. 123, 4.16. 5. [Canavos, G. C. (1988)], p. 176, 5.7. 6. [Canavos, G. C. (1988)], p. 176, 5.8. 7. [Canavos, G. C. (1988)], p. 177, 5.12. 8. [Canavos, G. C. (1988)], p. 122, 4.7. 9. [Canavos, G. C. (1988)], p. 180, 5.39. 10. [Canavos, G. C. (1988)], p. 178, 5.22.

110

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Parte III

Inferencia estad´ıstica

111

Cap´ıtulo 6

Distribuciones en el muestreo 6.1.

Introducci´ on

Al estudiar el concepto de variable aleatoria, dijimos que viene motivado porque muchas de las variables que se observan en la vida real, en el ambiente de las Ingenier´ıas en particular, est´an sujetas a incertidumbre. Eso quiere decir que si nosotros obtenemos algunas observaciones de esas variables (muestras), los datos no son iguales. Es m´as, si obtenemos otras observaciones, las dos muestras tampoco ser´an ni mucho menos id´enticas. Por tanto, al hablar de distribuciones te´oricas de probabilidad, lo que pretend´ıamos era proponer un modelo que permitiera calcular probabilidades asociadas, no a una muestra en particular de datos, sino a todas las posibles muestras, con todos los posibles datos de la variable. Recordemos el ejemplo que pusimos: las distribuciones de probabilidad son como un traje que elegimos para ponernos cualquier d´ıa durante un periodo de tiempo amplio. En la medida que el traje de una variable, su distribuci´on, le quede bien, los resultados que obtengamos mediante el c´alculo de probabilidades podr´an aplicarse a cualquier dato o conjunto de datos de la variable. Pero igualmente, si un traje (una distribuci´on de probabilidad te´orica) no le queda bien a una variable, los resultados te´oricos, obtenidos 113

114

Prof. Dr. Antonio Jos´ e S´ aez Castillo

a partir de una funci´on masa o una funci´on de densidad te´oricas, pueden no ser realistas respecto a los resultados emp´ıricos que se obtengan mediante muestras de la variable. ¿Qu´e nos queda por hacer a lo largo del curso? Dado que, en general, las distribuciones te´oricas de probabilidad dependen de uno o m´as par´ametros, lo que nos ocupar´a gran parte del resto del curso es tratar de elegir adecuadamente esos par´ametros. En el ejemplo de los trajes pod´ıamos pensar que esto es como aprender a escoger la talla del traje. En este cap´ıtulo vamos a comenzar con algunas cuestiones te´oricas acerca de lo que implica el proceso de muestreo, previo a la elecci´on de los par´ametros y, posteriormente, nos vamos a centrar en resultados que implica el muestreo de datos de variables que siguen una distribuci´on normal.

6.2.

Muestreo aleatorio

En multitud de ´ambitos de la vida real es evidente que la mejor forma de aprender algo es a partir de la experiencia. Eso quiere decir que solemos utilizar aquello que vemos para aprender pautas y conductas que luego generalizamos. En Estad´ıstica pasa algo muy similar: necesitamos basarnos en muestras de una variable para poder aprender de ellas y generalizar, inferir, aspectos referentes a las muestras a toda la poblaci´on. Sin embargo, como en la vida real, en Estad´ıstica tambi´en debemos ser muy cuidadosos con los datos sobre los que basamos nuestro aprendizaje. ¿Qu´e pasar´ıa si basamos nuestro aprendizaje en experiencias incorrectas o poco significativas? Para que esto no ocurra debemos basarnos en muestras donde todos los individuos de la poblaci´on puedan verse representados. Por otra parte, es evidente que cuanto mayores sean las muestras m´as fiables deber´ıan ser nuestras inferencias. Vamos a ir concretando estos conceptos. on de modo tal que cada Definici´ on 6.1 Si se seleccionan n elementos de una poblaci´

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.115

conjunto de n elementos de la poblaci´ on tenga la misma probabilidad de ser seleccionado, se dice que los n elementos constituyen una muestra aleatoria simple. ¿C´omo se obtiene una muestra aleatoria simple? Hay que decir que es m´as complejo de lo que parece. En cualquier caso, esta cuesti´on excede los contenidos de nuestra asignatura. En principio, si nosotros tenemos que elegir una muestra y deseamos que sea aleatoria simple, tratemos de que el sentido com´ un funcione para que cualquier valor de la poblaci´on pueda salir en la muestra y que unos valores no influyan sobre otros.

6.3.

Distribuciones en el muestreo

Supongamos que estamos observando una variable aleatoria X, y que obtenemos una muestra aleatoria simple suya, x11 , ..., x1n . Con esos datos podemos calcular la media de la muestra, x ¯1 , y la desviaci´on t´ıpica de la muestra, s1 , por ejemplo. Pero debemos ser conscientes de lo que significa muestra aleatoria. El hecho de que hayan salido los valores x11 , ..., x1n es fruto del azar. De hecho, si obtenemos otra muestra, x21 , ..., x2n , obtendremos otra media, x ¯2 y otra desviaci´on t´ıpica de la muestra, s2 . Y si, sucesivamente, obtenemos una y otra muestra, obtendremos una y otra media muestral, y una y otra desviaci´on t´ıpica muestral. Por lo tanto, en realidad, lo que estamos viendo es que la media y la varianza muestrales (y en general, cualquier par´ametro de una muestra aleatoria simple) son, en realidad, variables aleatorias que, como tales, deben tener su distribuci´on, su media, su varianza... Definici´ on 6.2 Un par´ ametro muestral es un par´ ametro (media, varianza, ...) referido a una muestra de una variable aleatoria. Definici´ on 6.3 Un par´ ametro poblacional es un par´ ametro (media, varianza, ...) referido a la distribuci´ on te´ orica de una variable aleatoria.

116

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Definici´ on 6.4 La distribuci´ on en el muestreo de un par´ ametro muestral es su distribuci´ on de probabilidad. Definici´ on 6.5 El error estandar de un par´ ametro muestral es la desviaci´ on t´ıpica de su distribuci´ on en el muestreo. El problema es que, en general, es bastante dif´ıcil conocer la distribuci´on en el muestreo de los par´ametros muestrales. Sin embargo, el caso en el que resulta m´as sencillo hacerlo es probablemente el m´as importante. Como vamos a ver, si la variable que observamos sigue una distribuci´on normal, podremos conocer de forma exacta las distribuciones en el muestreo de los dos par´ametros m´as importantes, la media y la varianza. ¿Y si la variable no es normal? Si lo que pretendemos es estudiar la media y la varianza muestrales, recordemos que el Teorema Central del L´ımite nos dice que si una variable es suma de otras variables, su distribuci´on es aproximadamente normal, y la media es suma de las variables de la muestra. Es decir, si la variable no es normal, todav´ıa podemos tener confianza de que lo que hagamos para variables normales puede ser v´alido.

6.4.

Distribuciones en el muestreo relacionadas con la distribuci´ on normal

En este apartado simplemente vamos a presentar una serie de resultados acerca de la distribuci´on en el muestreo, es decir, acerca de las distribuciones de probabilidad, de algunos par´ametros muestrales que pueden obtenerse asociados a una variable aleatoria normal. Algunas de estas distribuciones aparecen por primera vez, as´ı que debemos definirlas previamente. Por otra parte, sus funciones de densidad son bastante poco tratables. Esto no es ning´ un problema hoy en d´ıa, gracias al uso que podemos hacer de los ordenadores

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.117

para cualquier c´alculo. Adem´as, para poder trabajar con ellas cuando no tenemos un ordenador a mano, existen tablas que pueden ser impresas en papel con muchos valores de sus funciones de distribuci´on. Observaci´ on 6.1 Una de las primeras distribuciones en el muestreo ser´ a la χ2 . Recordemos que una distribuci´ on χ2 con n grados de libertad es una distribuci´ on Gamma de par´ ametros

n 2

y 12 .

Definici´ on 6.6 Si Z es una variable aleatoria normal estandar y S una χ2 con n grados de libertad, siendo ambas independientes, entonces Z t= p S/n sigue una distribuci´ on llamada t de student con n grados de libertad. Definici´ on 6.7 Si S1 y S2 son variables aleatorias con distribuci´ on χ2 con n1 y n2 grados de libertad independientes, entonces F =

S1 /n1 S2 /n2

sigue una distribuci´ on que se denomina F con n1 y n2 grados de libertad. Con estas definiciones ya podemos dar las distribuciones en el muestreo de algunos par´ametros muestrales importantes asociados a la normal. ¡ ¢ Teorema 6.1 Sea X1 , ..., Xn una muestra aleatoria simple de una variable N µ, σ 2 . Entonces, el par´ ametro muestral t=

¯ −µ X √ Sn−1 / n

sigue una t de Student con n − 1 grados de libertad. Teorema 6.2 Sea una muestra X1 , ..., Xn una muestra aleatoria simple de una variable ¡ ¢ N µ, σ 2 . Entonces, el par´ ametro muestral χ2 =

2 (n − 1) Sn−1 σ2

sigue una χ2 con n − 1 grados de libertad.

118

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Teorema 6.3 Sean X1 , ..., Xn1 e Y1 , ..., Yn2 muestras aleatorias simples de variables in¡ ¢ ¡ ¢ dependientes con distribuciones N µ1 , σ 2 y N µ2 , σ 2 . Entonces, el par´ ametro muestral

¡ ¢ ¯ − Y¯ − (µ1 − µ2 ) X q , t= Sp n11 + n12

donde Sp2

¡ 1 ¢2 ¡ 2 ¢2 (n1 − 1) Sn−1 + (n2 − 1) Sn−1 = , n1 + n2 − 2

sigue una t de Student con n1 + n2 − 2 grados de libertad. Teorema 6.4 Sean X1 , ..., Xn1 e Y1 , ..., Yn2 muestras aleatorias simples de variables in¡ ¢ ¡ ¢ dependientes con distribuciones N µ1 , σ 2 y N µ2 , σ 2 . Entonces, el par´ ametro muestral χ2 =

(n1 + n2 − 2) Sp2 , σ2

sigue una χ2 n1 + n2 − 2 grados de libertad. Teorema 6.5 Sean X1 , ..., Xn1 e Y1 , ..., Yn2 muestras aleatorias simples de variables in¡ ¢ ¡ ¢ dependientes con distribuciones N µ1 , σ 2 y N µ2 , σ 2 . Entonces, el par´ ametro muestral

¡ 1 ¢2 2 S /σ F = ¡ n−1 ¢2 1 2 Sn−1 /σ22

sigue una distribuci´ on F con n1 − 1 y n2 − 1 grados de libertad.

Cap´ıtulo 7

Estimaci´ on de par´ ametros de una distribuci´ on de probabilidad 7.1.

Introducci´ on

En Estad´ıstica hay tres formas de inferir un valor a un par´ametro de una poblaci´on: Estimando el valor concreto de ese par´ametro. Estimando una regi´on de confianza para el valor del par´ametro. Tomando una decisi´on sobre un valor hipot´etico del par´ametro. Ejemplo 7.1 Podemos estimar el no medio de trabajos presentados cada hora a un centro de procesamiento, µ, podemos determinar un intervalo donde muy probablemente se encuentra dicho valor o podemos decidir si esa media excede un determinado valor, por ejemplo, 60 trabajos. En este cap´ıtulo nos centraremos en la primera y la segunda forma, que consisten en proporcionar un valor que creemos que est´a cerca del par´ametro (estimaci´on puntual) o en proporcionar un intervalo en el que confiamos que se encuentra el par´ametro desconocido (estimaci´on por intervalos de confianza). 119

120

Prof. Dr. Antonio Jos´ e S´ aez Castillo

7.2.

Estimaci´ on puntual

7.2.1.

Definici´ on y propiedades deseables de los estimadores puntuales

ˆ es una regla que nos dice c´ Definici´ on 7.1 Un estimador puntual, θ, omo calcular una estimaci´ on num´erica de un par´ ametro poblacional desconocido, θ, a partir de los datos de una muestra. El n´ umero concreto que resulta de un c´ alculo, para una muestra dada, se denomina estimaci´ on puntual. Ejemplo 7.2 Si deseamos obtener estimaciones de la media de una variable aleatoria, lo que parece m´ as l´ ogico ser´ıa utilizar como estimador la media muestral. Cada media muestral de cada muestra ser´ıa una estimaci´ on puntual de la media poblacional. ¿Qu´e ser´ıa deseable que le pasara a cualquier estimador? ¿Qu´e buenas propiedades deber´ıa tener un buen estimador? Vamos a ver dos de ellas. En primer lugar, parece l´ogico pensar que si bien el estimador no proporcionar´a siempre el estimador exacto del par´ametro, al menos deber´a establecer estimaciones que se equivoquen en igual medida por exceso que por defecto. Este tipo de estimadores se denominan insesgados. Definici´ on 7.2 Un estimador θˆ de un par´ ametro θ se dice insesgado si h i E θˆ = θ. ¯ h i ¯ ¯ ˆ − θ¯¯ . Se denomina sesgo de un estimador a ¯E Θ Observemos que para comprobar si un estimador es insesgado, en principio es necesario conocer su distribuci´on en el muestreo, para poder calcular su esperanza matem´atica. Adem´as de la falta de sesgo, nos gustar´ıa que la distribuci´on de muestreo de un estimador tuviera poca varianza, es decir, que la dispersi´on de las estimaciones con respecto al valor del par´ametro poblacional, fuera baja.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.121

Definici´ on 7.3 El estimador insesgado de m´ınima varianza de un par´ ametro θ es el estimador θˆ que tiene la varianza m´ as peque˜ na de entre todos los estimadores insesgados. Hay que decir que no siempre es f´acil encontrar este estimador, y que en ocasiones se admite un ligero sesgo con tal que la varianza del estimador sea m´ınima. Ejemplo 7.3 Dada una variable con una distribuci´ on cualquiera: la media muestral x ¯ es un estimador insesgado de m´ınima varianza de la media poblacional, EX; la cuasivarianza muestral, s2n−1

Pn =

−x ¯)2 , n−1

i=1 (xi

es un estimador insesgado de la varianza, V arX.

7.2.2.

Obtenci´ on de estimadores puntuales. M´ etodos de estimaci´ on

Hasta ahora hemos puesto unos pocos ejemplos acerca de la estimaci´on de la media o la varianza de una poblaci´on, mediante medias y cuasivarianzas muestrales. Sin embargo, nosotros hemos visto muchas distribuciones te´oricas que no dependen directamente de la media o la varianza. Por ejemplo, la binomial depende de p, la Gamma de dos par´ametros, a y λ, la Weibull de α y β... ¿C´omo obtener estimadores de estos par´ametros? Existen diversos m´etodos de estimaci´on de par´ametros. Nosotros vamos a ver dos de los m´as sencillos. M´ etodo de los momentos Vamos a explicar el m´etodo s´olo para distribuciones de uno o dos par´ametros poblacionales, que son las u ´nicas que hemos visto nosotros. Sea x1 , ..., xn una muestra de una variable aleatoria X:

122

Prof. Dr. Antonio Jos´ e S´ aez Castillo

1. Si la distribuci´on de X depende de un s´olo par´ametro, θ, la media poblacional de X, E [X] = µ, ser´a funci´on de θ, µ = f (θ). En ese caso, el estimador mediante ˆ se obtiene despej´andolo (si es posible) de la el m´etodo de los momentos de θ, θ, ³ ´ ecuaci´on x ¯ = f θˆ . 2. Si la distribuci´on de X depende de dos par´ametros, θ1 y θ2 , la media poblacional de X, E [X] = µ, ser´a funci´on de ambos, µ = f (θ1 , θ2 ) e igualmente la varianza poblacional estar´a expresada como funci´on de estos par´ametro, V arX = σ 2 = g (θ1 , θ2 ). En ese caso, los estimadores mediante el m´etodo de los momentos de θ1 y θ2 , θˆ1 y θˆ2 , se obtienen despej´andolos (si es posible) del sistema de ecuaciones ³ ´ x ¯ = f θˆ1 , θˆ2 ³ ´ 2 ˆ ˆ sn−1 = g θ1 , θ2 . Ejemplo 7.4 En la distribuci´ on binomial sabemos que EX = np, por lo que p =

EX n .

Por tanto, el m´etodo de los momentos propone como estimador de p a pˆ =

x ¯ . n

Ejemplo 7.5 En la distribuci´ on geom´etrica sabemos que EX = 1 1+EX ,

1 p

− 1, de donde p =

luego el m´etodo de los momentos propone como estimador a pˆ =

1 . 1+x ¯

Ejemplo 7.6 En el caso de la binomial negativa tenemos dos par´ ametros. Se sabe que k (1 − p) p k (1 − p) V arX = p2 EX =

De esta expresi´ on debemos despejar k y p. Dado que EX = p, V arX

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.123

se tiene que k = EX ×

EX p EX 2 = EX × V arX = 1−p V arX − EX 1 − VEX arX

de donde se proponen como estimadores pˆ = kˆ =

x ¯ s2X,N −1 x ¯2 s2X,N −1 − x ¯

.

M´ etodo de m´ axima verosimilitud Este m´etodo obedece a un principio muy l´ogico: dada una muestra, escojamos como estimaciones aquellos valores de los par´ametros que hagan m´ as creibles, m´ as veros´ımiles, los datos de la muestra. Para desarrollar el m´etodo debemos tener en cuenta que si tenemos una muestra aleatoria simple de una variable X, x1 , ..., xn , y la funci´on masa o densidad de la variable es p (x), entonces la funci´on masa o densidad de la muestra es p (x1 , ..., xn ) = p (x1 ) ...p (xn ) . Esta funci´on masa o densidad representa en cierto modo la credibilidad de los datos de la muestra. Definici´ on 7.4 Dada una variable aleatoria X con funci´ on masa o funci´ on de densidad p (x) , que depende de uno o dos par´ ametros, y una muestra aleatoria simple de X, x1 , ..., xn , la verosimilitud de la muestra es la funci´ on L = p (x1 ) ...p (xn ) , funci´ on que depender´ a de los par´ ametros desconocidos de la variable. Definici´ on 7.5 Dada la verosimilitud de una muestra, L,

124

Prof. Dr. Antonio Jos´ e S´ aez Castillo

si L depende de un s´ olo par´ ametro, θ, entonces el estimador m´ aximo-veros´ımil de θ se obtiene resolviendo el problema de m´ aximo siguiente: · ¸ θˆ = arg m´ ax L . θ

si L depende de dos par´ ametros, θ1 y θ2 , entonces los estimadores m´ aximoveros´ımiles de θ1 y θ2 se obtienen resolviendo el problema de m´ aximo siguiente: · ¸ ³ ´ ax L . θˆ1 , θˆ2 = arg m´ θ1 ,θ2

Observaci´ on 7.1 Dado que el m´ aximo de una funci´ on coincide con el m´ aximo de su logaritmo, suele ser muy u ´til maximizar el logaritmo de la funci´ on de verosimilitud en vez de la funci´ on de verosimilitud. Ejemplo 7.7 Vamos a calcular el estimador m´ aximo veros´ımil del par´ ametro p de una distribuci´ on B (n, p) basado en una muestra x1 , ..., xN . En primer lugar, la funci´ on de verosimilitud es Lx1 ,...,xN

N µ ¶ Y n xi (p) = p (1 − p)n−xi xi i=1 Ã N µ ¶! PN PN Y n = p i=1 xi (1 − p)nN − i=1 xi . xi i=1

Su logaritmo resulta ln Lx1 ,...,xN (p) = ln

à N µ ¶! Y n i=1

xi

à +

N X

! xi

Ã × ln p +

nN −

i=1

N X

! xi

ln (1 − p) .

i=1

Para maximizar esta funci´ on derivamos respecto a p e igualamos a cero: PN P nN − N i=1 xi i=1 xi − = 0, p 1−p de donde

PN x ¯ p x ¯ i=1 xi = = = n PN 1−p n−x ¯ 1− nN − i=1 xi

x ¯ n

.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.125

Luego el estimador es pˆ =

x ¯ . n

Obs´ervese que coincide con el estimador que obtuvimos por el m´etodo de los momentos. Ejemplo 7.8 Vamos a calcular el estimador m´ aximo veros´ımil del par´ ametro λ de una distribuci´ on exp (λ) basado en una muestra x1 , ..., xN . Funci´ on de verosimilitud: Lx1 ,...,xN (λ) =

N Y

λe−λxi = λN e−λ

PN

i=1

xi

.

i=1

Logaritmo de la funci´ on de verosimilitud: ln Lx1 ,...,xN (λ) = N ln λ − λ

N X

xi .

i=1

Para maximizar esta funci´ on, derivamos respecto a λ e igualamos a cero: N

N X − xi = 0, λ i=1

de donde ˆ = PN λ N

i=1 xi

=

1 . x ¯

De nuevo el estimador m´ aximo veros´ımil coincide con el proporcionado por el m´etodo de los momentos. Ejemplo 7.9 En el caso de la distribuci´ on normal, tenemos dos par´ ametros. Veamos c´ omo proceder en esta situaci´ on: La funci´ on de verosimilitud: Lx1 ,...,xN

N (xi −µ)2 ¡ ¢ Y 1 √ e− 2σ2 = µ, σ 2 = 2πσ 2 i=1

µ

1

¶N

√ 2πσ 2

e



Pn 2 i=1 (xi −µ) 2σ 2

Su logaritmo: ln Lx1 ,...,xN

¡ ¢ N ¡ 2¢ N ln σ − µ, σ 2 = − ln (2π) − 2 2

PN

i=1 (xi − 2σ 2

µ)2

.

.

126

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Debemos maximizar esta funci´ on como funci´ on de µ y σ 2 . Para ello, derivamos respecto de ambas variables e igualamos a cero: PN ¡ ¢ (xi − µ) d =0 ln Lx1 ,...,xN µ, σ 2 = i=1 2 dµ σ P 2 ¡ ¢ d N 1 N 2 i=1 (xi − µ) ln L µ, σ = − + =0 x1 ,...,xN dσ 2 2σ 2 2 (σ 2 )2 De la primera ecuaci´ on se sigue N X

(xi − µ) =

i=1

N X

xi − N µ = 0,

i=1

de donde

PN µ ˆ=

i=1 xi

N

=x ¯.

De la segunda, sustituyendo en ella µ por x ¯, PN ¯)2 i=1 (xi − x (σ 2 )2

de donde 2

σ ˆ =

7.2.3.

PN

i=1 (xi

N

=

−x ¯)2

N , σ2

= s2n .

Tabla resumen de los estimadores de los par´ ametros de las distribuciones m´ as comunes

En toda esta secci´on, supongamos que tenemos una muestra x1 , ..., xN de una variable aleatoria X. Los estimadores seg´ un el m´etodo de los momentos y de m´axima verosimilitud de los par´ametros seg´ un las distribuciones que hemos descrito aparecen en el Cuadro 7.1.

7.3.

Estimaci´ on por intervalos de confianza

Definici´ on 7.6 Sea x1 , ..., xN una muestra de una determinada v.a. X cuya distribuci´ on depende de un par´ ametro desconocido θ. Un intervalo de confianza para θ con

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.127

Modelo

Estimadores por el

Estimadores por el m´ etodo

m´ etodo de los momentos

de m´ axima verosimilitud

B (n, p)

Geo (p)

pˆ = kˆ =

ˆ= λ a ˆ=

x ¯2 , s2n−1

pˆ =

pˆ =

x ¯ s2X,N −1

1 1+¯ x

S´olo por m´etodos num´ericos ˆ= λ

1 x ¯

ˆ= λ

x ¯ n

ˆ=x λ ¯

1 1+¯ x

x ¯2 , x s2X,N −1 −¯

exp (λ) Gamma (a, λ) ¡ ¢ N µ, σ 2

pˆ =

ˆ=x λ ¯

P (λ)

BN (k, p)

x ¯ n

pˆ =

x ¯ s2n−1

1 x ¯

S´olo por m´etodos num´ericos

µ ˆ=x ¯, σ ˆ 2 = s2n−1

µ ˆ=x ¯, σ ˆ 2 = s2n

Cuadro 7.1: Estimadores por el m´etodo de los momentos y de m´axima verosimilitud de los par´ametros de las distribuciones m´as usuales. un nivel de significaci´ on α, I (x1 , ..., xN ) , es un intervalo real que depende de la muestra, pero que no depende de θ tal que P [θ ∈ I (x1 , ..., xN )] = 1 − α. Al valor 1 − α tambi´en se le llama nivel de confianza. Obs´ervese que la filosof´ıa de cualquier intervalo de confianza es proporcionar, bas´andonos en los datos, una regi´on donde tengamos un determinado nivel de confianza en que el par´ametro se encuentra. Como en el caso de los estimadores puntuales, el intervalo de confianza es aleatorio, ya que depende de los datos de una muestra. Adem´as, se da por hecho que existe la posibilidad de que el verdadero par´ametro θ no quede encerrado dentro del intervalo de confianza, cosa que ocurrir´ıa con probabilidad α.

7.3.1.

Intervalos de confianza para la media

on normal de media µ desconocida y vaTeorema 7.1 Sea X una v.a. con distribuci´ rianza σ 2 conocida. Sea una muestra x = (x1 , ..., xN ) de X, y x ¯ la media muestral

128

Prof. Dr. Antonio Jos´ e S´ aez Castillo

asociada. Entonces, ·

donde z1− α2

· ¸¸ σ σ P µ∈ x ¯ − z1− α2 √ , x ¯ + z1− α2 √ = 1 − α, N N ´ ³ es tal que FZ z1− α2 = 1 − α2 , siendo Z → N (0, 1) .

Es decir, la media se encuentra en el intervalo · ¸ σ σ α α x ¯ − z1− 2 √ , x ¯ + z1− 2 √ N N con un (1 − α) % de confianza. No obstante, hay que reconocer que en la pr´actica es poco probable que se desconozca el valor de la media y s´ı se conozca el de la varianza, de manera que la aplicaci´on de este teorema es muy limitada. El siguiente resultado responde precisamente a la necesidad de extender el anterior cuando se desconoce el valor de la varianza. Teorema 7.2 Sea X una v.a. con distribuci´ on normal de media µ y varianza σ 2 , ambas desconocidas. Sea una muestra x = (x1 , ..., xN ) de X, la media muestral x ¯ y la varianza muestral s2X,N −1 . Entonces, 



P µ ∈ x ¯ − t1− α2 ;N −1

s

s s2X,N −1 N

,x ¯ + t1− α2 ;N −1

s2X,N −1 N

  = 1 − α,

donde tα;N es el valor tal que FTN (tα;N ) = α, siendo TN una v.a. con distribuci´ on T de Student con N grados de libertad. Es decir, confiamos en un (1 − α) % en que el intervalo s s   s2X,N −1 s2X,N −1  x ,x ¯ + t1− α2 ;N −1 ¯ − t1− α2 ;N −1 N N contiene a la media, que es desconocida. Ejemplo 7.10 Mediante un programa matem´ atico hemos simulado 1000 valores de una distribuci´ on N (0, 1). La media y la varianza muestrales de esos 1000 valores han

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.129

resultado ser x ¯ = −0.0387 y s2999 = 0.8906. Por tanto, el intervalo de confianza que se establece al 95 % de confianza para la media es à ! r ¡ ¢ 0.8906 −0.0387 ∓ 1.6464 = −8. 783 3 × 10−2 , 1. 043 3 × 10−2 1000 Obs´ervese que, en efecto, la verdedera media, µ = 0, est´ a en el intervalo de confianza. Los dos resultados que acabamos de enunciar se basan en que se conoce la distribuci´on exacta de la muestra, normal, lo que permite deducir que la media muestral sigue tambi´en, y de forma exacta, una distribuci´on normal de media µ y varianza

σ2 N.

Sin

embargo, gracias al teorema central del l´ımite sabemos que sea cual sea la distribuci´on de las variables de la muestra aleatoria simple, la media muestral sigue aproximadamente una distribuci´on normal de media µ y varianza

σ2 N,

ya que se obtiene como suma

de v.a. independientes con la misma distribuci´on. Por lo tanto, podemos obtener un intervalo de confianza aproximado para cualquier media de cualquier distribuci´on en la que la varianza sea funci´on de la media, como se recoge en el siguiente teorema. Teorema 7.3 Sea X una v.a. con distribuci´ on cualquiera de media µ, desconocida, y con varianza, σ 2 (µ) dependiendo a lo sumo, s´ olo de la media. Sea una muestra x = (x1 , ..., xN ) de X y la media muestral, x ¯.Entonces, si N es suficientemente elevado1 , · · ¸¸ σ (¯ x) σ (¯ x) P µ∈ x ¯ − z1−α/2 √ , x ¯ + z1−α/2 √ ' 1 − α. N N Corolario 7.1 Sea X una v.a. con distribuci´ on exponencial de par´ ametro λ desconocido. Sea una muestra x = (x1 , ..., xN ) de X y la media muestral, x ¯.Entonces, si N es suficientemente elevado, · · ¸¸ x ¯ 1 x ¯ √ √ ∈ x ¯ − z1−α/2 P ,x ¯ + z1−α/2 ' 1 − α, λ N N luego

" P λ∈

1

"

1

1

, x ¯ + z1−α/2 √x¯N x ¯ − z1−α/2 √x¯N

## '1−α

¿C´ omo de elevado debe ser? Lo suficiente para que la media muestral alcance la convergencia que

exige el teorema central del l´ımite.

130

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Demostraci´ on. Basta con tener en cuenta que µ = EX =

1 λ

y V arX =

1 λ2

= EX 2 .

Ejemplo 7.11 Se considera que el tiempo de fallo de una componente electr´ onica sigue una distribuci´ on exponencial de par´ ametro λ desconocido. Se toma una muestra de 10 tiempos de fallo y la media muestral de ´estos es de x ¯ = 17.5. Calculemos un intervalo de confianza para λ: µ ¶ x ¯ x ¯ x ¯ − z0.95 √ , x ¯ + z0.95 √ 10 10 µ ¶ 17.5 17.5 = 17.5 − 1.96 × √ , 17.5 + 1.96 × √ 10 10 = (6.6534, 28.347). Dado que λ =

1 EX ,

el intervalo de confianza al 90 % de λ es ¶ µ 1 1 , = (0.035277, 0.15030) . 28.347 6.6534

Corolario 7.2 Sea p la probabilidad desconocida de un determinado evento, que llamaremos ´exito, que puede ocurrir en un determinado experimento. Supongamos que tenemos una muestra x = (x1 , ..., xN ) de realizaciones independientes del experimento, P

donde xi = 1 si se da el ´exito, y sea pˆ =

i xi N

la proporci´ on de n ˜exitos en la muestra.

Entonces, si N es suficientemente elevado, se tiene que " Ã !# r r pˆ (1 − pˆ) pˆ (1 − pˆ) P p ∈ pˆ − z0.95 , pˆ + z0.95 ' 1 − α. N N Demostraci´ on. Si notamos por X = 1 al ´exito y X = 0 al no ´exito, X → B (1, p) , siendo p la verdadera probabilidad de ´exito, que deseamos estimar. Sabemos que EX = p y V arX = p (1 − p), luego podemos aplicar el teorema. Ejemplo 7.12 Una empresa de sondeos desea estimar mediante un intervalo de confianza al 95 % el porcentaje de voto que recibir´ a un determinado partido. Para ello selecciona al azar 1000 personas para, mediante una encuesta telef´ onica, preguntarle

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.131

sobre su intenci´ on de voto. De los 1000 entrevistados, 353 declararon que votar´ıan a ese

132

Prof. Dr. Antonio Jos´ e S´ aez Castillo

el intervalo de confianza para la varianza al 95 % que proporciona el teorema es µ ¶ 889.7524 889.7524 , = (0. 817 41, 0. 974 22) . 1.0885 × 103 913.3010 Obs´ervese que ¡σ 2 = 1 no pertenece al intervalo de confianza al 95 %! Esto puede tener dos explicaciones: 1. Nos encontramos en ese 5 % de casos en que el intervalo, por azar, no contiene a la varianza. 2. El procedimiento mediante el que programa Matlab que simula los datos normales no es muy preciso. Vista la experiencia con Matlab, personalmente me decanto por la segunda opci´ on. Si en vez de utilizar un 95 % de confianza usamos el 99 %, el intervalo es ahora µ ¶ 889.7524 889.7524 = (0. 795 91, 1. 002 4) , , 1.1179 × 103 887.6211 al que s´ı pertenece la verdadera varianza. Obs´ervese que al aumentar el nivel de confianza, dado que nos hacemos m´as intolerantes con los errores, el intervalo se hace m´ as amplio.

7.4.

Ejercicios

1. [Canavos, G. C. (1988)], p. 296, 8.14. Dibujar adem´as el diagrama de barras asociado a los datos y la funci´on masa de probabilidad te´orica para la estimaci´on obtenida. ¿Qu´e conclusi´on debemos sacar? 2. [Canavos, G. C. (1988)], p. 296, 8.17, apartado a. Dibujar adem´as el diagrama de barras asociado a los datos y la funci´on masa de probabilidad te´orica para la estimaci´on obtenida. ¿Qu´e conclusi´on debemos sacar?

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.133

Obtener, bas´andonos en el modelo propuesto, la probabilidad de que se den valores mayores de 500, y comparar esta probabilidad con la proporci´on de valores en la muestra mayores que 500. ¿Parece coherente? 3. [Canavos, G. C. (1988)], p. 297, 8.21 y 8.22. 4. [Canavos, G. C. (1988)], p. 298, 8.27. 5. [Lipschutz, S. & Schiller, J. (2000)], p. 316, 8.54. 6. [Canavos, G. C. (1988)], p. 301, 8.41. 7. [Lipschutz, S. & Schiller, J. (2000)], p. 316, 8.55. 8. [Lipschutz, S. & Schiller, J. (2000)], p. 317, 8.57.

134

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Cap´ıtulo 8

Contrastes de hip´ otesis param´ etricas 8.1.

Introducci´ on

Como apunt´abamos en la introducci´on del cap´ıtulo anterior, las llamadas pruebas o contrastes de hip´ otesis se utilizan para inferir decisiones que se refieren a un par´ametro poblacional bas´andose en muestras de la variable. Vamos a comenzar a explicar el funcionamiento de un contraste de hip´otesis con un ejemplo. La Agencia de Protecci´on Ambiental (EPA) de Estados Unidos quiere determinar si el nivel medio, µ, de cierto tipo de contaminante liberado hacia la atm´osfera por una compa˜ n´ıa qu´ımica cumple con las pautas requeridas, que establecen un l´ımite m´aximo de 3 partes por mill´on. Para ello tomar´a una muestra de mediciones diarias de contaminaci´on para decidir si la compa˜ n´ıa est´a violando la ley, es decir, si µ > 3 o no. Por tanto, la EPA desea encontrar apoyo para la hip´otesis µ > 3, llamada hip´ otesis alternativa, obteniendo pruebas en la muestra que indiquen que la hip´otesis contraria, µ = 3 (o µ ≤ 3), llamada hip´ otesis nula, es falsa. La decisi´on de rechazar o no la hip´otesis nula en favor de la alternativa deber´a ba135

136

Prof. Dr. Antonio Jos´ e S´ aez Castillo

sarse en la informaci´on que da la muestra, a trav´es de una alguna medida asociada a ella, que se denomina estad´ıstico de contraste. Por ejemplo, si se toman 30 lecturas de contaminaci´on y la media muestral es mucho mayor que 3, lo l´ogico ser´a rechazar la hip´otesis nula en favor de µ > 3, pero si la media muestral es s´olo ligeramente mayor que 3 o menor que 3, no habr´a pruebas suficientes para rechazar µ = 3 en favor de µ > 3. La cuesti´on clave es en qu´e momento se decide rechazar la hip´otesis nula en favor de la alternativa. En nuestro ejemplo, en qu´e momento podemos decir que la media muestral es suficientemente mayor que 3. El conjunto de estos valores del estad´ıstico de contraste, que permiten rechazar µ = 3 en favor de µ > 3 se conoce como regi´ on de rechazo. A la luz de este ejemplo, vamos a tratar de definir de forma general los conceptos que acabamos de introducir. Definici´ on 8.1 Un contraste de hip´ otesis es una prueba que se basa en los datos de una muestra de una variable aleatoria mediante la cu´ al podemos rechazar una hip´ otesis sobre un par´ ametro de la poblaci´ on, llamada hip´ otesis nula (H0 ), en favor de una hip´ otesis contraria, llamada hip´ otesis alternativa (H1 ). Definici´ on 8.2 La prueba se basa en una transformaci´ on de los datos de la muestra, lo que se denomina estad´ıstico de contraste. Definici´ on 8.3 Se rechazar´ a la hip´ otesis nula en favor de la alternativa cuando el valor del estad´ıstico de contraste se sit´ ue en una determinada regi´ on, llamada regi´ on de rechazo. La hip´otesis H0 se suele expresar como una igualdad, del tipo H0 : θ = θ0 , donde θ es un par´ametro de una poblaci´on y θ0 es un valor hipot´etico para ese par´ametro. Por su parte, H1 puede tener tener dos formas:

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.137

H1 : θ > θ0 , en cuyo caso se habla de contraste unilateral a la derecha o de una cola a la derecha o de un extremo a la derecha, o H1 : θ < θ0 , en cuyo caso se habla de contraste unilateral a la izquierda o de una cola a la izquierda o de un extremo a la izquierda. H1 : θ 6= θ0 , en cuyo caso se habla de contraste bilateral o de dos colas o de dos extremos. Uno de los aspectos m´as importantes y que se suele prestar a mayor confusi´on se refiere a qu´e hip´otesis considerar como H0 y cu´al como H1 . Por c´omo se dise˜ nan los contrastes, H1 siempre debe ser aquella hip´otesis que queremos contrastar, la que realmente nos interesa discriminar, mientras que H0 juega un papel neutro, de ah´ı su nombre. De hecho, es important´ısimo que desde el principio tengamos claro qu´e tipo de decisiones puede proporcionarnos un contraste de hip´otesis. Aunque ya las hemos comentado, vamos a insistir en ellas. Son las dos siguientes: 1. Si el valor del estad´ıstico de contraste para los datos de la muestra cae en la regi´on de rechazo, podremos afirmar con un determinado nivel de confianza que los datos de la muestra permiten rechazar la hip´ otesis nula en favor de la alternativa. 2. Si el valor del estad´ıstico de contraste para los datos de la muestra no cae en la regi´on de rechazo, no podremos afirmar con el nivel de confianza exigido que los datos de la muestra permiten rechazar la hip´ otesis nula en favor de la alternativa.

8.2.

Errores en un contraste de hip´ otesis

El contraste de una hip´otesis estad´ıstica implica, por tanto, una toma de decisi´on, a favor de H0 o en contra de H0 y en favor de H1 . Esto implica que podemos equivocarnos

138

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Estado real H0

H1

Decisi´ on en

H0

Decisi´ on correcta

Error tipo II

el contraste

H1

Error tipo I

Decisi´ on correcta

Cuadro 8.1: Esquematizaci´on de los errorres tipo I y tipo II. al tomar la decisi´on de dos formas. Definici´ on 8.4 Se llama error tipo I o falso negativo a rechazar la hip´ otesis nula cuando es cierta, y su probabilidad se nota por α. Definici´ on 8.5 Se llama nivel de confianza a la probabilidad de aceptar la hip´ otesis nula cuando es cierta, es decir, 1 − α. Definici´ on 8.6 Se llama error tipo II o falso positivo a aceptar la hip´ otesis nula cuando es falsa, y su probabilidad se nota por β. otesis nula Definici´ on 8.7 Se llama potencia a la probabilidad de rechazar la hip´ cuando es falsa, es decir, 1 − β. ¿Cu´al de los dos errores es m´as grave? Probablemente eso depende de cada contraste, pero en general, lo que se pretende es acotar el error tipo I y tratar de minimizar el error tipo II, es decir, tratar de elegir contrastes lo m´as potentes posibles garantizando que la probabilidad del error tipo I es inferior a un determinado nivel. Ejemplo 8.1 Un fabricante de minicomputadoras cree que puede vender cierto paquete de software a m´ as del 20 % de quienes compran sus computadoras. Se seleccionaron al azar 10 posibles compradores de la computadora y se les pregunt´ o si estaban interesados en el paquete de software. De estas personas, 4 indicaron que pensaban comprar el paquete. ¿Proporciona esta muestra suficientes pruebas de que m´ as del 20 % de los compradores de la computadora adquirir´ an el paquete de software?

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.139

Si p es la verdadera proporci´ on de compradores que adquirir´ an el paquete de software, dado que deseamos demostrar p > 0.2, tenemos que H0 : p = 0.2 H1 : p > 0.2. Sea X : n´ umero de posibles compradores de la muestra, en cuyo caso, X → B (10, p). Utilizaremos el valor de X como estad´ıstico del contraste, rechazando H0 si X es grande. Supongamos que establecemos como regi´ on de rechazo x ≥ 4. En ese caso, dado que en la muestra x = 4, rechazar´ıamos H0 en favor de H1 , llegando a la conclusi´ on de que el fabricante tiene raz´ on. Pero, ¿cu´ al es el nivel de confianza de este contraste? Calculemos la probabilidad de error tipo I. Para ello, en el Cuadro 8.2 aparece la distribuci´ on de probabilidad del estad´ıstico de contraste que hemos elegido, suponiendo que H0 es cierta, ya que debemos calcular α = P [Rechazar H0 /H0

es cierta ]

= P [X ≥ 4/p=0.2 ] = 0.088 08 + 2. 642 4 × 10−2 + 5. 505 × 10−3 + 7. 864 3 × 10−4 + 7. 372 8 × 10−5 + 4. 096 × 10−6 + 1. 024 × 10−7 = 0.120 87, luego el nivel de confianza del contraste es del (1 − 0.12087) × 100 % = 87.9 13 %. La conclusi´ on ser´ıa que a la luz de los datos podemos afirmar con un 87.913 % de confianza que p > 0.2. ¿Y si queremos un nivel de confianza mayor, es decir, una probabilidad de error tipo I menor? En ese caso debemos reducir la regi´ on de rechazo. Si ponemos como regi´ on de rechazo x ≥ 5, ya no podremos rechazar H0 en favor de H1 , ya que x = 4. Adem´ as,

140

Prof. Dr. Antonio Jos´ e S´ aez Castillo

x 0 1 2 3 4 5 6 7 8 9 10

P [X = x] ¡10¢ 0 10 = 0.107 37 0 0.2 0.8 ¡10¢ 1 9 1 0.2 0.8 = 0.268 44 ¡10¢ 2 8 2 0.2 0.8 = 0.301 99 ¡10¢ 3 7 3 0.2 0.8 = 0.201 33 ¡10¢ 4 6 4 0.2 0.8 = 0.088 08 ¡10¢ 5 5 −2 5 0.2 0.8 = 2. 642 4 × 10 ¡10¢ 6 4 −3 6 0.2 0.8 = 5. 505 × 10 ¡10¢ 7 3 −4 7 0.2 0.8 = 7. 864 3 × 10 ¡10¢ 8 2 −5 8 0.2 0.8 = 7. 372 8 × 10 ¡10¢ 9 1 −6 9 0.2 0.8 = 4. 096 × 10 ¡10¢ 10 0 −7 10 0.2 0.8 = 1. 024 × 10

Regi´on de aceptaci´on

Regi´on de rechazo

Cuadro 8.2: Funci´on masa del estad´ıstico de contraste suponiendo cierta H0, es decir, suponiendo que p=0.2. ahora α = 2. 642 4 × 10−2 + 5. 505 × 10−3 + 7. 864 3 × 10−4 + 7. 372 8 × 10−5 + 4. 096 × 10−6 + 1. 024 × 10−7 = 3. 279 3 × 10−2 , ¡ ¢ luego el nivel de confianza ser´ıa 1 − 3. 279 3 × 10−2 × 100 % = 96.7 21 %, y la conclusi´ on ser´ıa que a la luz de los datos no podemos afirmar que p > 0.2 con un 96.721 % de confianza. El c´alculo de β es algo m´as tedioso y no lo abordaremos. En lo que resta del tema lo que vamos a hacer es enunciar distintos contrastes de hip´otesis para la media, la varianza o la proporci´on de una poblaci´on y para comparar las medias, las varianzas y las proporciones en dos poblaciones distintas. No nos vamos a centrar en los detalles de c´omo se deducen sino s´olo en c´omo se utilizan en la pr´actica.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.141

De todas formas, es importante hacer una aclaraci´on: cuando los datos proceden de una distribuci´on normal, es muy sencillo obtener la distribuci´on del estad´ıstico del contraste, gracias a los resultados que vimos en el cap´ıtulo de distribuciones en el muestreo. Sin embargo, si los datos no proceden de variables normales, esta cuesti´on es much´ısimo m´as dif´ıcil. Afortunadamente, si el tama˜ no de la muestra es grande, el Teorema Central del L´ımite garantiza que los par´ametros que se basan en sumas basadas en las muestras siguen aproximadamente una distribuci´on normal. Es por ello que en cada tipo de contraste que vamos a describir a continuaci´ on se distinguen aquellos que se basan en muestras grandes y los que se basan en muestras reducidas, que s´olo podr´an ser utilizados si la variable es normal.

8.3.

Contraste para la media de una poblaci´ on

Vamos a suponer que tenemos una muestra x1 , ..., xn de una variable aleatoria con media poblacional µ. Notaremos x ¯ a la media muestral y s2n−1 a la cuasivarianza muestral.

8.3.1.

Con muestras grandes (n ≥ 30) Tipo de prueba

Unilateral a

Bilateral

la izquierda Hip´otesis

H0 : µ = µ0

H0 : µ = µ0

H1 : µ < µ0

H1 : µ 6= µ0

H1 : µ > µ0

z=

de contraste

Supuestos

a la derecha

H0 : µ = µ0

Estad´ıstico

Rechazo

Unilateral

z < za 1

x ¯−µ √0 s/ n

|z| > z1 − α/2

z > z1 − α

n ≥ 30

Ejemplo 8.2 [Mendenhal, W & Sincich, T. (1997)], pp- 438-440, ejemplo 9.8.

142

Prof. Dr. Antonio Jos´ e S´ aez Castillo

8.3.2.

Con muestras peque˜ nas (n < 30)

Tipo de prueba

Unilateral a

Unilateral

Bilateral

la izquierda Hip´otesis

a la derecha

H0 : µ = µ0

H0 : µ = µ0

H0 : µ = µ0

H1 : µ < µ0

H1 : µ 6= µ0

H1 : µ > µ 0

Estad´ıstico

x ¯−µ √0 s/ n

t=

de contraste Rechazo Supuestos

t < ta;n−1 2

|t| > t1 − α/2; n − 1

t > t1 − α; n − 1

Distribuci´on de probabilidad aproximadamente normal

Ejemplo 8.3 [Mendenhal, W & Sincich, T. (1997)], pp- 441-442, ejemplo 9.9.

8.4.

Contraste para la diferencia de medias

Sean dos muestras, x1 , ..., xn1 e y1 , ..., yn2 , de v.a. independientes con medias µ1 y µ2 ¡ ¢2 ¡ ¢2 y varianzas σ12 y σ22 . Sean x ¯, y¯, s1n−1 y s2n−1 medias y cuasivarianzas muestrales.

8.4.1.

Con muestras grandes (n1 , n2 ≥ 30)

Tipo de

Unilateral a

prueba

la izquierda

Hip´otesis

H0 : µ1 − µ2 = D0

H0 : µ1 − µ2 = D0

H1 : µ1 − µ2 < D0

H1 : µ1 − µ2 6= D0

H1 : µ1 − µ2 > D0

z=

de contraste

Supuestos

a la derecha

H0 : µ1 − µ2 = D0

Estad´ıstico

Rechazo

Unilateral

Bilateral

s

(¯ x−¯ y )−D0

(s1n−1 )

z < za

2

2

n1

|z| > z1−α/2

+

(s2n−1 ) n2

z > z1−α

n1 , n2 ≥ 30. Las muestras se recogen de forma independiente y aleatoria

Ejemplo 8.4 [Mendenhal, W & Sincich, T. (1997)], pp- 450-451, ejemplo 9.13.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.143

8.4.2.

Con muestras peque˜ nas (n1 < 30 o n2 < 30) y varianzas iguales (σ12 = σ22 )

Tipo de

Unilateral a

prueba

la izquierda

Hip´otesis Estad´ıstico de contraste Rechazo Supuestos

Unilateral

Bilateral

a la derecha

H0 : µ1 − µ2 = D0

H0 : µ1 − µ2 = D0

H0 : µ1 − µ2 = D0

H1 : µ1 − µ2 < D0

H1 : µ1 − µ2 6= D0

H1 : µ1 − µ2 > D0

t=

(¯ x−¯ y )−D0 r “ ”, 2 sp n1 + n1 1

t < ta;n1 +n2 −2

s2p =

2

2

(n1 −1)(s1n−1 ) +(n2 −1)(s2n−1 ) n1 +n2 −2

2

|t| > t1−α/2;n1 +n2 −2

t > t1−α;n1 +n2 −2

Muestras independientes y aleatorias. Variables normales. σ12 = σ22

Ejemplo 8.5 [Mendenhal, W & Sincich, T. (1997)], pp- 452-453, ejemplo 9.14.

8.4.3.

Con muestras peque˜ nas (n1 < 30 o n2 < 30), varianzas distintas (σ12 6= σ22 ) y mismo tama˜ no muestral (n1 = n2 = n)

Tipo de prueba

Unilateral a

Unilateral

Bilateral

la izquierda Hip´otesis

H0 : µ1 − µ2 = D0

H0 : µ1 − µ2 = D0

H0 : µ1 − µ2 = D0

H1 : µ1 − µ2 < D0

H1 : µ1 − µ2 6= D0

H1 : µ1 − µ2 > D0

Estad´ıstico

t=

de contraste Rechazo

a la derecha

t < ta;2(n−1)

r “ 1 n

(¯ x−¯ y )−D0 2

2

(s1n−1 ) +(s2n−1 )

|t| > t1−α/2;2(n−1)



t > t1−α;2(n−1)

Las dos muestras se recogen de forma independiente y aleatoria Supuestos

Ambas variables siguen distribuciones aproximadamente normales Las muestras tienen el mismo tama˜ no, n1 = n2 = n

144

Prof. Dr. Antonio Jos´ e S´ aez Castillo

8.4.4.

Con muestras peque˜ nas (n1 < 30 o n2 < 30), varianzas distintas (σ12 6= σ22 ) y distinto tama˜ no muestral (n1 6= n2 )

Unilateral a

Tipo de prueba

Unilateral

Bilateral

la izquierda Hip´otesis

a la derecha

H0 : µ1 − µ2 = D0

H0 : µ1 − µ2 = D0

H0 : µ1 − µ2 = D0

H1 : µ1 − µ2 < D0

H1 : µ1 − µ2 6= D0

H1 : µ1 − µ2 > D0

2 s1 n−1 + n1 0 12 2 1 B sn−1 C @ A n1

(

Estad´ıstico

t=

s

de contraste

(¯ x−¯ y )−D0

, v= 2 2 (s1n−1 ) + (s2n−1 ) n1

n2

)

)

(

n1 −1

Regi´on

t < ta ; v

de rechazo Supuestos

|t| > t1 − α/2; v

2 !2

(s2n−1 )

+

n2 1 2 2 2 C B sn−1 A @ n2 0

(

3

)

n2 −1

t > t1 − α; v

Las dos muestras se recogen de forma independiente y aleatoria Ambas variables siguen distribuciones aproximadamente normales

8.5.

Contraste para la diferencia de medias de poblaciones apareadas

Supongamos que tenemos una misma poblaci´on, que seleccionamos una muestra de n individuos y que en cada uno de ellos observamos dos variables, X e Y . Evidentemente, estas variables no son independientes, y las muestras est´an apareadas, (x1 , y1 ) , ..., (xn , yn ). En ese caso, para comparar ambas variables se considera una nueva variable, D = X − Y . Notaremos d¯ a la muedia muestral de x1 − y1 , ..., xn − yn y ¡ d ¢2 sn−1 a su cuasivarianza muestral.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.145

8.5.1.

Con muestras grandes (n ≥ 30)

Tipo de

Unilateral a

prueba

la izquierda

Hip´otesis

Bilateral

a la derecha

H0 : µ1 − µ2 = D0

H0 : µ1 − µ2 = D0

H0 : µ1 − µ2 = D0

H1 : µ1 − µ2 < D0

H1 : µ1 − µ2 6= D0

H1 : µ1 − µ2 > D0

Estad´ıstico

z=

de contraste Regi´on de rechazo

z < za

Supuestos

8.5.2.

Unilateral

¯ d−D 0 √ sdn−1 / n

|z| > z1−α/2

z > z1−α

n ≥ 30

Con muestras peque˜ nas (n < 30)

Tipo de

Unilateral a

prueba

la izquierda

Hip´otesis

Supuestos

a la derecha H0 : µ1 − µ2 = D0

H0 : µ1 − µ2 = D0

H1 : µ1 − µ2 < D0

H1 : µ1 − µ2 6= D0

H1 : µ1 − µ2 > D0

t=

de contraste

de rechazo

Unilateral

H0 : µ1 − µ2 = D0

Estad´ıstico

Regi´on

Bilateral

t < ta;n−1

¯ d−D 0 √ sdn−1 / n

|t| > t1−α/2;n−1

t > t1−α;n−1

La distribuci´on de las diferencias, D = X − Y , es aproximadamente normal

Ejemplo 8.6 [Mendenhal, W & Sincich, T. (1997)], pp- 460-462, ejemplo 9.15.

146

Prof. Dr. Antonio Jos´ e S´ aez Castillo

8.6.

Contraste para la proporci´ on en una poblaci´ on

En esta ocasi´on tenemos una poblaci´on donde una proporci´on dada presenta una determinada caracter´ıstica, que denominamos ´exito, y cuya probabilidad es p. Deseamos hacer inferencia sobre esta proporci´on. Para ello seleccionamos una muestra aleatoria simple de tama˜ no n y contabilizamos la proporci´on de ´exitos en la muestra, pˆ. En este caso s´olo podemos obtener contastes para muestras grandes, concretamente, con np, n (1 − p) ≥ 4. Tipo de prueba

Unilateral a

Bilateral

la izquierda Hip´otesis

H0 : p = p 0

H0 : p = p0

H1 : p < p0

H1 : p 6= p0

H1 : p > p0

z=

de contraste

de rechazo Supuestos

a la derecha

H0 : p = p0

Estad´ıstico

Regi´on

Unilateral

z < za

qpˆ−p0

p(1− ˆ p) ˆ n

|z| > z1−α/2

z > z1−α

np, n (1 − p) ≥ 4

Ejemplo 8.7 [Mendenhal, W & Sincich, T. (1997)], pp- 465-466, ejemplo 9.16.

8.7.

Contraste para la diferencia de proporciones de poblaciones

En esta ocasi´on partimos de dos poblaciones dentro de las cuales hay proporciones p1 y p2 de individuos con la caracter´ıstica ´exito. Pretendemos comparar estas proporciones mediante la toma de muestras de tama˜ no n1 y n2 . Notaremos pˆ1 y pˆ2 las proporciones de ´exitos en las muestras. Supondremos de nuevo que las muestras son grandes (n1 p1 , n1 (1 − p1 ) , n2 p2 , n2 (1 − p2 ) ≥ 4) para poder aplicar el Teorema Central del L´ımite a la hora de trabajar con el estad´ıstico de contraste.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.147

Tipo de

Unilateral a

prueba

la izquierda

Hip´otesis

Supuestos

a la derecha H0 : p 1 − p 2 = 0

H0 : p1 − p2 = 0

H1 : p1 − p2 < 0

H1 : p1 − p2 6= 0

H1 : p1 − p2 > 0

z=

de contraste

de rechazo

Unilateral

H0 : p1 − p2 = 0

Estad´ıstico

Regi´on

Bilateral

r

pˆ1 −ˆ p2 “ ”, pˆ(1−ˆ p) n1 + n1 1

z < za

pˆ =

n1 pˆ1 +n2 pˆ2 n1 +n2

2

|z| > z1−α/2

z > z1−α

n1 p1 , n1 (1 − p1 ) , n2 p2 , n2 (1 − p2 ) ≥ 4

Ejemplo 8.8 [Mendenhal, W & Sincich, T. (1997)], pp- 470-471, ejemplo 9.17.

8.8.

Contraste para la varianza de una poblaci´ on

De nuevo consideremos que tenemos una variable aleatoria X con varianza σ 2 y que tomamos una muestra de tama˜ no n, cuya cuasivarianza muestral notamos por s2n−1 . Vamos a tratar de hacer inferencia sobre σ 2 . El problema es que ahora no podemos aplicar el Teorema Central del L´ımite, por lo que s´olo utilizar los contrastes cuando la variable X es normal. Tipo de prueba

Unilateral a

Bilateral

la izquierda Hip´otesis

a la derecha

H0 : σ 2 = σ02

H0 : σ 2 = σ02

H0 : σ 2 = σ02

H1 : σ 2 < σ02

H1 : σ 2 6= σ02

H1 : σ 2 > σ02

Estad´ıstico

χ2 =

de contraste Rechazo Supuestos

Unilateral

χ2 < χ2a;n−1 4

(n−1)s2n−1 σ02

χ2 < χ2α/2;n−1 o χ2

>

χ21−α/2;n−1

χ2 > χ1 − α; n − 12

Distribuci´on de probabilidad aproximadamente normal

Ejemplo 8.9 [Mendenhal, W & Sincich, T. (1997)], pp- 473-475, ejemplo 9.18.

148

Prof. Dr. Antonio Jos´ e S´ aez Castillo

8.9.

Contraste para el cociente de varianzas de 2 poblaciones independientes

En esta ocasi´on, vamos a suponer que tenemos dos muestras, x1 , ..., xn1 y y1 , ..., yn2 , de ¡ ¢2 dos variables aleatorias independientes con varianzas σ12 y σ22 . Notaremos s1n−1 y ¡ 2 ¢2 sn−1 a las cuasivarianzas muestrales. De nuevo s´olo podremos considerar el contraste si ambas variables son normales.

Tipo de prueba

Unilateral a

Unilateral

Bilateral

la izquierda Hip´otesis

H0 : H1 :

σ12 σ22 σ12 σ22

a la derecha

=1

H0 :

1

2

f=

de contraste Regi´on

σ12 σ22 σ12 σ22

f < fa;n1 −1,n2 −1 5

(s1n−1 ) 2 (s2n−1 )

f < fα/2;n1 −1,n2 −1 o f > f1−α/2;n1 −1,n2 −1

f > f1 − α; n1 − 1, n2 − 1

Las dos muestras se recogen de forma independiente y aleatoria Ambas variables siguen distribuciones aproximadamente normales

Ejemplo 8.10 [Mendenhal, W & Sincich, T. (1997)], pp- 477-479, ejemplo 9.19.

8.10.

Contraste para las medias de m´ as de dos poblaciones independientes. ANOVA

En algunas de las secciones anteriores hemos conseguido contrastes de hip´otesis para valorar si existen diferencias significativas entre dos grupos independientes. Lo que nos planteamos aqu´ı es extender estos contrastes para poder comparar no s´olo dos sino tres o m´as grupos. Se da por hecho, por tanto, que existe un factor que separa los valores de la variable en varios grupos (dos o m´as).

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.149

Concretamente, supongamos m muestras independientes unas de otras, cada una de ellas con un tama˜ no ni 6 . Supongamos tambi´en que cada una de las muestras provienen de poblaciones con distribuci´on normal de medias µi y varianzas todas iguales, σ 2 . Lo que planteamos es contrastar H0 : µ1 = ... = µm frente a H1 : no todas las medias son iguales. Obs´ervese que la alternativa no dice que todas las medias sean distintas sino tan s´olo que al menos dos de ellas sean diferentes. Denotemos por xi1 , ..., xini a la muestra i−´esima, y x ¯i y s2i,ni −1 a su media y su varianza muestral, con i = 1, ..., m. Este contraste se denomina ANOVA como acr´onimo de Analysis of Variance, ya que, como vamos a ver, se basa en analizar a qu´e se debe la variabilidad total que presentan los datos, si al azar o a las diferencias entre las poblaciones de las que proceden las muestras. Supongamos que juntamos todas las muestras, obteniendo una u ´nica muestra global de tama˜ no N=

m X

ni ,

i=1

y calculamos su media,

Pm Pni x ¯=

i j=1 xj

i=1

N

.

Ahora, vamos a preguntarnos por las fuentes de variaci´ on de los datos: 1. En primer lugar, los datos var´ıan globalmente respecto a la media total. Una medida de esta variaci´on es la suma de los cuadrados totales, SCT =

ni m X X ¡ i ¢2 xj − x ¯ . i=1 j=1

6

No es necesario, aunque s´ı deseable, que todas las muestras tengan el mismo tama˜ no.

150

Prof. Dr. Antonio Jos´ e S´ aez Castillo

2. Por otro lado, puede haber diferencias entre las medias de cada grupo y la media total. Podemos medir estas diferencias con la suma de los cuadrados entregrupos: SCE =

m X

ni (¯ xi − x ¯)2 .

i=1

Si la hip´otesis nula fuera cierta, s´olo habr´ıa peque˜ nas diferencias muestrales entre las medias de cada muestra, en cuyo caso, la SCE ser´ıa peque˜ na. Si fuera falsa, habr´ıa muchas diferencias entre las medias y con respecto a la media total, en cuyo caso SCE ser´ıa grande. 3. Por u ´ltimo, debido a la variabilidad inherente a toda muestra, los datos de cada muestra van a variar respecto a su media particular. Como medida de esta variaci´on consideramos la suma de los cuadrados dentro de los grupos o intra-grupos: SCD =

ni m m X X ¢2 X ¡ i (ni − 1) s2i,ni −1 . xj − x ¯i = i=1 j=1

i=1

La clave en estas consideraciones lo constituye la siguiente igualdad, conocida como teorema de partici´ on de la varianza: SCT = SCE + SCD. Teniendo en cuenta este resultado, el ANOVA consiste en ver si SCE es significativamente grande respecto de SCD. Para ello basta considerar que, suponiendo que la hip´otesis nula es cierta: SCT σ2

sigue una χ2 con N − 1 grados de libertad.

SCE σ2

sigue una χ2 con m − 1 grados de libertad.

SCD σ2

sigue una χ2 con N − m grados de libertad.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.151

As´ı, el estad´ıstico de contraste del test es F =

SCE m−1 , SCD N −m

que, suponiendo que la hip´otesis nula es cierta, sigue una F de Snedecor con m − 1 y N − m grados de libertad. Por lo tanto, el test podemos resumirlo de la siguiente forma: 1. Calculamos

Pm Pni

i j=1 xj

i=1

x ¯=

N

y con ella SCD =

m X

ni (¯ xi − x ¯)2 =

i=1

2. Calculamos SCE =

m X

ni x ¯2i − N x ¯2 .

i=1

ni m m X X ¢2 X ¡ i (ni − 1) s2i,ni −1 . xj − x ¯i = i=1

i=1 j=1

3. Calculamos el estad´ıstico del test: F =

SCE m−1 . SCD N −m

4. Tomamos la decisi´on: a) Si F ≤ Fm−1,N −m;1−α , no rechazamos la hip´otesis nula en favor de la alternativa con un nivel de significaci´on α. b) Si F > Fm−1,N −m;1−α , rechazamos la hip´otesis nula en favor de la alternativa con un nivel de significaci´on α. Ejemplo 8.11 En un experimento se prepararon flujos de soldadura con 4 composiciones qu´ımicas diferentes. Se hicieron 5 soldaduras con cada composici´ on sobre la misma

152

Prof. Dr. Antonio Jos´ e S´ aez Castillo

base de acero, midiendo la dureza en la escala de Brinell. La tabla siguiente resume los resultados: Composici´ on

Media muestral

Desviaci´ on t´ıpica muestral

A

253.8

9.7570

B

263.2

5.4037

C

271.0

8.7178

D

262.0

7.4498

Vamos a contrastar si existen diferencias significativas entre las durezas, suponiendo que estas siguen distribuciones normales todas ellas con la misma varianza. En primer lugar, observemos que los tama˜ nos muestrales son iguales: n1 = ... = n4 = 5. Por otra parte, tenemos: x ¯=

5 × 253.8 + 5 × 263.2 + 5 × 271.0 + 5 × 262.0 = 262.5 20

SCE = 5 × (253.8 − 262.5)2 + ... + 5 × (262.0 − 262.5)2 = 743.4 SCD = (5 − 1) 9.75702 + ... + (5 − 1) 7.44982 = 1023.6. Por tanto, F =

743.4 4−1 1023.6 20−4

= 3.8734.

Por su parte, el valor de F3,16;0.95 es 3.2389, de manera que podemos afirmar que existen diferencias significativas entre las durezas de los 4 compuestos, con un 95 % de confianza.

8.11.

p-valor de un contraste de hip´ otesis

De acuerdo con los procedimientos de los contrastes descritos a lo largo del cap´ıtulo, la regi´on de rechazo y el valor de α se escogen antes de realizar la prueba, y la conclusi´on

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.153

se expresa en t´erminos del rechazo o del no rechazo de la hip´otesis nula en favor de la alternativa para el nivel de confianza previamente exigido. Existe un segundo m´etodo para tomar la decisi´on en un contraste de hip´otesis, que se basa en valorar en qu´e medida el estad´ıstico de contraste est´a de acuerdo con la hip´otesis nula, dejando al investigador la tarea de decidir si rechaza o no esta hip´otesis en favor de la alternativa. Esta medida se llama p-valor.

8.11.1.

Definici´ on de p-valor

De forma general, supongamos que queremos contrastar una hip´otesis estad´ıstica simple del tipo H0 : θ = θ0 , frente a alguna de las alternativas siguientes: H1 : θ 6= θ0 , H

154

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Pero en general, lo que el p-valor permite es utilizar cualquier otro nivel de significaci´on: Si p < α ⇒ Rechazamos H0 en favor de H1 con un m´as de (1 − α) × 100 % de confianza Si p ≥ α ⇒ No podemos rechazar H0 en favor de H1 con un (1 − α) × 100 % de confianza. No debemos dejar de tener en cuenta que el p-valor es m´as informativo que la mera toma de la decisi´on en favor o en contra de H0 con un determinado nivel de significaci´on. Por ejemplo, si tenemos un nivel de significaci´on del 5 % y un p-valor de 0.049 la regla de decisi´on obligar´ıa a rechazar H0 , pero sabemos por el p-valor que, sin embargo, no podr´ıamos rechazar la hip´otesis con un nivel de significaci´on del 1 %, ya que 0.049 > 0.01.

8.11.2.

C´ alculo del p-valor

Para comprender c´omo se calcula el p-valor de un contraste es necesario distinguir entre contrastes unilaterales o de una cola frente a contrastes bilaterales o de dos colas. Como ya comentamos, los contrastes del tipo H0 : θ = θ0 , frente a H1 : θ 6= θ0 son contrastes bilaterales o de dos colas, ya que el rechazo de la hip´otesis nula en favor de la alternativa puede producirse porque el estad´ıstico de contraste toma valores muy altos o muy bajos. Por contra, los contrastes del tipo H0 : θ = θ0 , frente a H1 : θ > θ0 o H1 : θ < θ0 son contrastes unilaterales o de una cola, ya que el rechazo de la hip´otesis nula en favor de la alternativa puede producirse s´olo si el estad´ıstico de contraste toma valores muy altos (cuando H1 : θ > θ0 , llamado contraste a la derecha) o muy bajos (cuando H1 : θ < θ0 , llamado contraste a la izquierda). Por tanto, teniendo en cuenta la definici´on de p-valor, su c´alculo se realiza de la siguiente forma: 1. Si el contraste es unilateral a la izquierda (H1 : θ < θ0 ), p = P [S ≤ s/H0 ] .

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.155

Figura 8.1: Regiones de rechazo en contrastes unilaterales a la izquierda y a la derecha.

Figura 8.2: Regi´on de rechazo en un contraste bilateral. 2. Si el contraste es unilateral a la derecha (H1 : θ > θ0 ), p = P [S > s/H0 ] . 3. Si el contraste es bilateral (H1 : θ 6= θ0 ), p = 2 × m´ın {P [S ≤ s/H0 ] , P [S > s/H0 ]} . Ejemplo 8.13 Vamos a calcular el p-valor asociado al contraste del Ejemplo 8.1. Dado que es un test unilateral a la derecha y que el valor del estad´ıstico es x = 4, ser´ıa P [X ≥ 4/p=0.2 ] = 87.613 %. Hay que decir que el uso del p-valor se ha extendido hasta convertirse en el m´etodo m´as habitual de toma de las decisiones desde que el uso de los ordenadores y de los software de c´alculo est´an a disposici´on de la mayor´ıa de los usuarios. Hoy en d´ıa

156

Prof. Dr. Antonio Jos´ e S´ aez Castillo

casi nadie hace Estad´ıstica a mano, y pr´acticamente todos los programas estad´ısticos proporcionan el p-valor como dato para la toma de las decisiones.

8.12.

Ejercicios

1. [Walpole, R. E et al (1998)], p. 355, 1. 2. [Walpole, R. E et al (1998)], p. 355, 2. 3. [Walpole, R. E et al (1998)], p. 357, 11. 4. [Walpole, R. E et al (1998)], p. 357, 15. 5. [Montgomery, D. C. & Runger, G. C. (2002)], p. 369, 8.82. 6. [Montgomery, D. C. & Runger, G. C. (2002)], p. 369, 8.84. 7. [Montgomery, D. C. & Runger, G. C. (2002)], p. 423, 9.61. 8. [Montgomery, D. C. & Runger, G. C. (2002)], p. 425, 9.67. 9. [Montgomery, D. C. & Runger, G. C. (2002)], pp. 612-613, 12.46, apartado a. 10. [Montgomery, D. C. & Runger, G. C. (2002)], p. 613, 12.47, apartado a. 11. [Montgomery, D. C. & Runger, G. C. (2002)], p. 613, 12.49, apartados a. y b.

Cap´ıtulo 9

Contrastes de hip´ otesis no param´ etricas 9.1.

Introducci´ on

Todos los contrastes que hemos descrito en el cap´ıtulo anterior se basan, directa o indirectamente (a trav´es del teorema central del l´ımite) en que los datos se ajustan a la distribuci´on normal, haciendo inferencia de una u otra forma sobre sus par´ametros. En este cap´ıtulo vamos a considerar dos contrastes que no necesitan de tal hip´otesis, por lo que no se enuncian como contrastes sobre alg´ un par´ametro desconocido: de ah´ı que formen parte de los llamados contrastes no param´ etricos o contrastes de hip´ otesis no param´ etricas.

9.2.

Contrastes de bondad de ajuste

Gracias a lo estudiado en el apartado correspondiente a la estimaci´on puntual de par´ametros ahora somo capaces de ajustar una distribuci´on a unos datos mediante alg´ un m´etodo de estimaci´on (momentos, m´axima verosimilitud, ...). Sin embargo, hasta ahora no disponemos de ninguna herramienta capaz de juzgar si ese ajuste es bueno o malo, 157

158

Prof. Dr. Antonio Jos´ e S´ aez Castillo

o c´omo de bueno es. De hecho, en la relaci´on de problemas correspondiente dejamos abierta esta cuesti´on, ya que s´olo pudimos valorar esta bondad del ajuste mediante representaciones gr´aficas, lo que s´olo nos dio una visi´on parcial del problema, que puede ser muy subjetiva. Los dos contrastes de hip´otesis que vamos a describir ahora van a permitir contrastar como hip´otesis nula H0 : la distribuci´on se ajusta adecuadamente a los datos frente a la alternativa H1 : la distribuci´on no se ajusta adecuadamente a los datos, facilitando adem´as un p-valor que permitir´a, adem´as, comparar la bondad de distintos ajustes. Decir, por u ´ltimo, que aunque estos dos contrastes de hip´otesis pueden aplicarse a cualquier tipo de variables est´an especialmente indicados para variables de tipo discreto en el caso del primero de ellos (test χ2 de bondad de ajuste) y para variables de tipo continuo en el segundo (test de Kolmogorov-Smirnov).

9.2.1.

Test χ2 de bondad de ajuste para datos discretos

En primer lugar, supongamos que tenemos una muestra de tama˜ no N de una v.a. discreta, X, ajustada a un modelo dado por una distribuci´on. Consideremos una partici´on del conjunto de valores que puede tomar la variable: S1 , ..., Sr . En principio, esta partici´on podr´ıan ser simplemente todos y cada uno de los valores que toma la variable X, pero, como veremos, es posible que tengamos que agrupar algunos de ellos. Seguidamente, consideremos la probabilidad, seg´ un la distribuci´on dada por el ajuste que queremos evaluar, de cada una de estas partes, pi = P [X ∈ Si /H0 ] > 0.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.159

De igual forma, calculemos Oi , el n´ umero de observaciones de la muestra que caen en cada conjunto Si . La idea del test es comparar el n´ umero de observaciones Oi que caen realmente en cada conjunto Si con el n´ umero esperado de observaciones que deber´ıan caer en Si si el ajuste es el dado por nuestro modelo, que ser´ıa N × pi . Para ello, una medida que compara estas dos cantidades viene dada por r X (Oi − N × pi )2 D= . N × pi i=1

Si para una muestra dada esta v.a. toma un valor d muy alto indica que los valores observados no cuadran con el ajuste que hemos propuesto (con lo cu´al se rechazar´ıa la hip´otesis nula en favor de la alternativa); si, por el contrario, toma un valor d bajo, indica que nuestro ajuste corresponde bien con los datos de la muestra, por lo que es aceptable la hip´otesis nula. El problema final es decidir cu´ando el valor de la v.a. D, d, es lo suficientemente alto como para que nos resulte inaceptable el ajuste. Para decidirlo hay que tener en cuenta que cuando N es razonablemente alto y la hip´otesis H 0 es cierta, la distribuci´on de probabilidad de D es χ2 con r − k − 1 grados de libertad, es decir, N >>

D/H0 → χ2r−k−1 , donde k es el n´ umero de par´ametros que han sido estimados en el ajuste. Teniendo en cuenta este resultado, se calcula bajo esta distribuci´on la probabilidad de que se de un valor todav´ıa m´as alto que d (el p-valor, por tanto), p = P [D > d/H0 ] . Si esta probabilidad es inferior al 5 %, se rechaza la hip´otesis nula en favor de la alternativa. Dicho de otra forma, se acepta la hip´otesis nula s´olo si el valor de D entra dentro del 95 % de resultados m´as favorables a ella. Esquem´aticamente, el proceso es el siguiente:

160

Prof. Dr. Antonio Jos´ e S´ aez Castillo

1. Se enuncia el test: H0 : los datos siguen la distribuci´on dada por nuestro ajuste H1 : los datos no siguen la distribuci´on dada por nuestro ajuste 2. Si en la muestra se dan los valores x1 , ..., xm , se calculan las frecuencias esperadas seg´ un el ajuste propuesto de cada valor xi , N × P [X = xi ], i = 1, ..., m. Si alguna de estas frecuencias es inferior a 5, se agrupa con alguna de la m´as cercana hasta que sumen una frecuencia mayor o igual a 5. Se construye as´ı la partici´on del conjunto de valores posibles para X, S1 , ...Sr , cuyas frecuencias esperadas son todas mayores o iguales a 5. 3. Se calculan las frecuencias observadas de cada Si , y lo notamos como Oi . 4. Se calcula el estad´ıstico del test en la muestra r X (Oi − N × pi )2 . d= N × pi i=1

5. Se calcula el p-valor asociado al valor del estad´ıstico, p = P [D > d/H0 ] , seg´ un una distribuci´on χ2 con r − k − 1 grados de libertad. 6. Se toma la decisi´on: a) Si p < 0.05, se rechaza la hip´otesis nula en favor de la alternativa, con un (1 − p) × 100 % de confianza. b) Si p ≥ 0.05, se concluye que no hay evidencias en contra de afirmar que los datos se ajustan a la distribuci´on dada. Ejemplo 9.1 Los datos que se presentan en el Cuadro 9.1 constituyen una muestra aleatoria simple del tiempo en ms. que transcurre entre la llegada de paquetes transmitidos por un determinado protocolo. En la tabla aparecen los valores junto al n´ umero de veces que han sido observados en la muestra.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.161

xi

0

1

2

3

4

5

6

Frec. obs.

42

28

13

5

7

3

2

Cuadro 9.1: Frecuencias observadas en la muestra de tiempos entre llegadas. Se sospecha que una distribuci´ on geom´etrica puede ajustar bien esos datos. Vamos a realizar ese ajuste y contrastar si es aceptable mediante el test de la chi-cuadrado. En primer lugar, para ajustar una distribuci´ on geom´etrica debemos estimar el par´ ametro de la misma. Vamos a hacerlo de forma sencilla por el m´etodo de los momentos. El valor de la media de la distribuci´ on es EX =

1 − 1, p

de donde p=

1 . 1 + EX

Por tanto, nuestro estimador ser´ a pˆ =

1 . 1+x ¯

Por su parte, x ¯=

0 × 42 + 1 × 28 + 2 × 13 + 3 × 5 + 4 × 7 + 5 × 3 + 6 × 2 = 1.24, 100

luego pˆ =

1 = 0.4464. 1 + 1.24

As´ı pues, deseamos contrastar en qu´e medida el ajuste de una Geo (0.4464) es v´ alido para los datos de la muestra. Es decir, deseamos contrastar H0 : X → Geo (0.4464) frente a la alternativa H1 : X 9 Geo (0.4464) .

162

Prof. Dr. Antonio Jos´ e S´ aez Castillo

xi

Oi

N × pi

(Oi − N × pi )2

0

42

44.64

(42 − 44.64)2 = 6. 969 6

1

28

27.71

(28 − 27.71)2 = 0 .0 841

2

13

13.68

(13 − 13.68)2 = 0. 462 4

3

5

7.57

(5 − 7.57)2 = 6. 604 9

≥4

12

9. 38

(12 − 9.38)2 = 6. 864 4

Cuadro 9.2: Frecuencias observadas, frecuencias esperadas y residuos. Vamos a calcular cu´ ales son las probabilidades te´ oricas seg´ un esa distribuci´ on de los valores observados en la muestra: P [X = 0] = 0.4464 × (1 − 0.4464)0 = 0.4464 P [X = 1] = 0.4464 × (1 − 0.4464)1 = 0.2471 P [X = 2] = 0.4464 × (1 − 0.4464)2 = 0.1368 P [X = 3] = 0.4464 × (1 − 0.4464)3 = 0.0757 P [X = 4] = 0.4464 × (1 − 0.4464)4 = 0.0419 P [X = 5] = 0.4464 × (1 − 0.4464)5 = 0.0232 P [X = 6] = 0.4464 × (1 − 0.4464)6 = 0.0128 P [X > 6] = 1 − (0.4464 + 0.2471 + 0.1368 + 0.0757 + 0.0419 + 0.0232 + 0.0128) = 0.0159 Ahora tenemos que construir la partici´ on de los valores de la variable que, como sabemos, son 0,1,... Hay que tener en cuenta que debemos procurar que las frecuencias esperadas sean superiores o iguales a 5. Como hay 100 observaciones, ser´ a necesario agrupar los valores 4 en adelante en un solo conjunto. Vamos a resumir este planteamiento en el Cuadro 9.2 donde, adem´ as, aparecen los residuos al cuadrado entre las frecuencias observadas y esperadas, necesarios para calcular el estad´ıstico del test. El valor de ´este se calcula a partir de los resultados de la tabla de la siguiente

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.163

manera: d=

6. 969 6 0.0 841 0. 462 4 6. 604 9 6. 864 4 + + + + = 1.7973. 44.64 27.71 13.68 7.57 9. 38

Finalmente, el p-valor se calcula como P [D > 1.7973] , donde D sigue una χ25−1−1 , ¡ ¢ es decir, una Gamma 5−1−1 , 12 . Por tanto, 2 Z

1 2



p − valor = 1.7973

¡ 1 ¢ 3 −1 − 1 x 2 2 2x ¡ ¢e dx = 0.61552. 3 Γ 2

Al ser superior (muy superior, de hecho) a 0.05, podemos afirmar que no hay evidencias en los datos de la muestra en contra de que ´estos sigan una distribuci´ on Geo (0.4464).

9.2.2.

Test de Kolmogorov-Smirnoff para la bondad del ajuste de datos continuos

En este caso el test es aplicable sobre todo a variables de tipo continuo. Se basa en la comparaci´on de la funci´on de distribuci´on te´orica propuesta por el modelo cuyo ajuste estamos evaluando con la funci´on de distribuci´on emp´ırica de los datos. Concretamente, si tenemos X1 , ..., XN una muestra de una v.a. X, si notamos por F (x) a la funci´on de distribuci´on del modelo propuesto y por SN (x) a la funci´on de distribuci´on emp´ırica asociada a la muestra, el estad´ıstico que se utiliza para este contraste viene dado por DN = Sup |F (x) − SN (x)| . x

A la hora de calcular este m´aximo debemos tener en cuenta que la variable x es de tipo continuo. La hip´otesis nula a contrastar es H0 : los datos de la muestra se ajustan a la distribuci´on dada por F (x) ,

164

Prof. Dr. Antonio Jos´ e S´ aez Castillo

1.4647

0.4995

0.7216

0.1151

0.2717

0.7842

3.9898

0.1967

0.8103

0.4854

0.2333

0.0814

0.3035

1.7358

0.9021

0.0667

0.0868

0.8909

0.1124

0.0512

Cuadro 9.3: Datos de la muestra. frente a la hip´otesis alternativa H1 : los datos de la muestra no se ajustan a la distribuci´on dada por F (x) . Se rechazar´a la hip´otesis nula en favor de la alternativa cuando el p-valor asociado al valor que tome DN sea inferior a 0.05. Esquem´aticamente, el proceso en el desarrollo del test puede resumirse en los siguientes pasos: 1. Ordenamos los valores de la muestra de menor a mayor: x(1) , ..., x(N ) . 2. Construimos la funci´on de distribuci´on emp´ırica, que en cada valor de la muestra ¡ ¢ viene dado por SN x(i) = Ni . 3. El valor del estad´ıstico se calcula como dN = m´ax

1≤i≤N

© ©¯ ¡ ¢ ¡ ¢¯ ¯ ¡ ¢ ¡ ¢¯ªª m´ax ¯F x(i) − SN x(i) ¯ , ¯F x(i) − SN x(i−1) ¯ .

4. Se rechazar´a la hip´otesis nula en favor de la alternativa si p = P [DN > dN ] < 0.05, con un (1 − p) × 100 % de confianza. La distribuci´on de probabilidad de DN , necesaria para calcular el p-valor, no es muy conocida. Para evaluar esta probabilidad hay que echar mano de alg´ un paquete matem´atico o consultar tablas de dicha distribuci´on. Ejemplo 9.2 Los datos que aparecen en el Cuadro 9.3 corresponden al tiempo en sec. entre conexiones a un servidor. Nos planteamos si una distribuci´ on exponencial es adecuada para su ajuste.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.165

x(i)

¡ ¢ F x(i)

i 20

i−1 20

x(i)

¡ ¢ F x(i)

i 20

i−1 20

0.0512

7. 149 9 × 10−2

0.0 5

0

0.4854

0. 505 05

0.55

0.5

0.0667

9. 211 9 × 10−2

0.1

0.05

0.4995

0. 515 06

0.6

0.55

0.0814

0. 111 25

0.15

0.1

0.7216

0. 648 49

0.65

0.6

0.0868

0. 118 18

0.2

0.15

0.7842

0. 678 97

0.7

0.65

0.1124

0. 150 29

0.25

0.2

0.8103

0. 690 89

0.75

0.7

0.1151

0. 153 6

0.3

0.25

0.8909

0. 724 96

0.8

0.75

0.1967

0. 247 98

0.25

0.3

0.9021

0. 729 38

0.85

0.8

0.2333

0. 286 82

0.4

0.35

1.4647

0. 880 23

0.9

0.85

0.2717

0. 325 42

0.45

0.4

1.7358

0. 919 14

0.95

0.9

0.3035

0. 355 8

0.5

0.45

3.9898

0. 996 91

1

0.95

Cuadro 9.4: Tabla asociada al Test de Kolmogorov-Smirnov. En primer lugar hemos de decidir cu´ al es el ajuste propuesto. El estimador m´ aximo veros´ımil del par´ ametro λ de una exponencial coincide con el estimador del m´etodo de ˆ= los momentos, λ

1 m1 .

ˆ = 1/0.6902 = 1. 448 9. En este caso, λ

Para calcular el valor del estad´ıstico del contraste, debemos evaluar la funci´ on de distribuci´ on de una exp (1.4489), F (x) = 1 − e−1.4489x , x ≥ 0 con la funci´ on de distribuci´ on emp´ırica. El Cuadro 9.4 muestra ambas funciones de distribuci´ on. De ella se deduce que el valor del estad´ıstico de contraste es 0.172 72. El p-valor asociado (calculado con Matlab) toma el valor P [D20 > 0.172 72] = 0.7507. Por tanto, no hay en los datos evidencia en contra de asumir que siguen una distribuci´ on exp (1.4489).

166

Prof. Dr. Antonio Jos´ e S´ aez Castillo

1

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0

0

0.5

1

1.5

2

2.5

3

3.5

4

Figura 9.1: Funciones de distribuci´on te´orica y emp´ırica. Valor donde se da el estad´ıstico de Kolmogorov-Smirnof.

9.3.

Contraste de independencia χ2 para una poblaci´ on clasificada seg´ un dos caracter´ısticas

Si nos damos cuenta, desde el cap´ıtulo de estad´ıstica descriptiva nos hemos centrado exclusivamente en variables de tipo cuantitativo. Sin embargo, en numerosas ocasiones el objeto de estudio viene determinado, no por una cantidad, sino por una cualidad o un estado no cuantificable. Es por ello que vamos a considerar un contraste relativo a variables de tipo cualitativo, concretamente, para valorar si dos de estas variables est´an o no significativamente relacionadas. Como punto de partida, consideremos el siguiente ejemplo: ¿est´a relacionado el voto en Estados Unidos con el g´enero del votante? Es decir, nos planteamos si el que una persona vote dem´ocrata o republicano depende de si es var´ on o mujer. Existen dos variables cualitativas o caracter´ısticas que dividen a la poblaci´on. Lo que nos interesa es si esa divisi´on est´a o no relacionada. ¿Ser´an m´as conservadoras las mujeres? Consideremos en general una poblaci´on en la que cada individuo se clasifica de acuerdo con dos caracter´ısticas, designadas como X e Y . Supongamos que los posibles

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.167

valores de X son x1 , ..., xr y los posibles valores de Y son y1 , ..., ys . Denotemos por pij a la proporci´on de individuos de la poblaci´on cuyas caracter´ısticas son simult´aneamente xi e yj . Denotemos adem´as, como pi. a la proporci´on de individuos con caracter´ıstica xi y p.j a la proporci´on de individuos con caracter´ıstica yj . En t´erminos de probabilidades, tendremos que si se elige un individuo al azar, P [X = xi , Y = yj ] = pij P [X = xi ] = pi. =

s X

pij

j=1

P [Y = yj ] = p.j =

r X

pij .

i=1

Lo que pretendemos contrastar es si las dos caracter´ısticas son independientes, es decir, si para todo i y para todo j, P [X = xi , Y = yj ] = P [X = xi ] × P [Y = yj ] , es decir, si pij = pi. × p.j . As´ı pues, podemos enunciar el contraste como H0 : pij = pi. × p.j para todo i = 1, ..., r; j = 1, ..., s frente a H1 : pij 6= pi. × p.j para alg´ un valor de i y j. Para llevar a cabo el contraste tomaremos una muestra de la poblaci´on de tama˜ no n. Denotemos por nij los individuos de esa muestra que toman simult´ aneamente el Ps valor xi y el valor yj (frecuencias observadas), ni. = j=1 nij los individuos de la P muestra que toman el valor xi y n.j = ri=1 nij los que toman el valor yj . De esta forma, pˆij =

nij n

168

Prof. Dr. Antonio Jos´ e S´ aez Castillo

ser´a un estimador basado en la muestra de pij , pˆi. =

ni. n

ser´a un estimador basado en la muestra de pi. y pˆ.j =

n.j n

ser´a un estimador basado en la muestra de p.j . Por otra parte, si la hip´otesis nula fuera cierta, el n´ umero de individuos en la muestra, de tama˜ no n, que toman simult´ aneamente los valores xi y yj ser´ıa eij = n × pi . × p.j . Basado en la muestra, los valores eˆij = n × pˆi. × pˆ.j ni. × n.j = n (frecuencias esperadas) ser´ıan sus estimadores. Finalmente, el estad´ıstico del contraste se basa en comparar los valores reales en la muestra de nij con los valores eˆij que se dar´ıan si la hip´otesis nula fuera cierta, es decir, si las caracter´ısticas X e Y fueran independientes. El valor del estad´ıstico es d=

r X s X (nij − eˆij )2 . eˆij i=1 j=1

Suponiendo que la hip´otesis nula es cierta, la distribuci´on del estad´ıstico del contraste es χ2 con (r − 1) (s − 1) grados de libertad, por lo que decidiremos en funci´on del p-valor asociado, p = P [D > d/H0 ] , donde D → χ2(r−1)(s−1) o bien: Rechazaremos H0 con nivel de significaci´on α si d > χ2(r−1)(s−1);1−α .

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.169

No rechazaremos H0 con nivel de significaci´on α si d > χ2(r−1)(s−1);1−α . Hay que hacer una u ´ltima observaci´ on: para que en efecto D → χ2 con (r − 1) (s − 1) es necesario que todas las frecuencias esperadas eˆij sean mayores o iguales a 5. Si alguna o algunas de ellas no lo son, la distribuci´on χ2 podr´ıa no ser adecuada y el resultado del test incorrecto. Para que esto no ocurra es recomendable que el tama˜ no de la muestra sea grande. Ejemplo 9.3 Se toma una muestra de 300 votantes en Estados Unidos, pregunt´ andoles por el sentido de su voto y anotando su g´enero. El resultado se resume en la siguiente tabla: Dem´ ocratas

Republicanos

Independientes

Total

Mujeres

68

56

32

156

Hombres

52

72

20

144

Total

120

128

52

300

Este tipo de tablas se conocen como tablas de contingencia. Contiene los valores que hemos notado nij y, en los m´ argenes inferior y lateral derecho, los valores ni. y n.j . Vamos a ver si el g´enero est´ a relacionado con el sentido del voto. Si no fuera as´ı, si el sentido del voto fuera independiente del g´enero, se tendr´ıa en una muestra de 300 individuos las frecuencias esperadas ser´ıan Dem´ ocratas

Republicanos

Independientes

Total

Mujeres

120 300 156 300 300

128 300 156 300 300

156 52 300 300 300

156

Hombres

120 300 144 300 300

128 300 144 300 300

144 52 300 300 300

144

Total

120

128

52

300

Dem´ ocratas

Republicanos

Independientes

Total

Mujeres

62.40

66.56

27.04

156

Hombres

57.60

61.44

24.96

144

Total

120

128

52

300

,

es decir,

.

170

Prof. Dr. Antonio Jos´ e S´ aez Castillo

El valor del estad´ıstico de contraste es, por tanto, (68 − 62.40)2 (56 − 66.56)2 (32 − 27.04)2 + + + 62.40 66.56 27.04 (52 − 57.60)2 (72 − 61.44)2 (20 − 24.96)2 + + + 57.60 61.44 24.96

D=

= 6.433. Por su parte, χ2(2−1)(3−1);0.95 = 5.991, de manera que podemos rechazar la hip´ otesis nula en favor de la alternativa, afirmando con un 95 % de confianza que el genero est´ a relacionado con el sentido del voto. Sin embargo, este contraste no permite inferir en qu´e sentido est´ a relacionado. Lo u ´nico que podemos hacer como pista de en qu´e sentido est´ an relacionados es comparar las distribuciones condicionadas: Si nos centramos s´ olo en los dem´ ocratas, tenemos que el porcentaje de hombres y mujeres es de

68 120

× 100 % = 56. 667 % y de

52 120

× 100 % = 43.333 %, respectiva-

mente. Si nos centramos s´ olo en los republicanos, tenemos que el porcentaje de hombres y mujeres es de

56 128 ×100 %

= 43. 75 % y de

72 128 ×100 %

= 56. 25 %, respectivamente.

Finalmente, si nos centramos s´ olo en los independientes, tenemos que el porcentaje de hombres y mujeres es de

32 52

× 100 = 61. 538 % y de

20 52

× 100 = 38. 462 %,

respectivamente. Lo que parece que ocurre es que las mujeres tienen mayor preferencia por el partido republicano. Sin embargo, esta afirmaci´ on no se ha constrastado, sino que se basa simplemente en datos descriptivos1 .

9.4.

Ejercicios

1. [Mendenhal, W & Sincich, T. (1997)], p. 519, 10.23. 1

¿Qu´e t´ecnica que hemos estudiado podr´ıa ayudarnos a contrastar esta hip´ otesis?

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.171

2. [Mendenhal, W & Sincich, T. (1997)], p. 520, 10.25, apartado a. 3. [Mendenhal, W & Sincich, T. (1997)], p. 521, 10.26, apartado a. 4. [Mendenhal, W & Sincich, T. (1997)], p. 525, 10.32, apartado a. 5. [Montgomery, D. C. & Runger, G. C. (2002)], p. 360, 8.58. 6. [Montgomery, D. C. & Runger, G. C. (2002)], p. 361, 8.62. 7. [Lipschutz, S. & Schiller, J. (2000)], p. 429, 11.31 y 11.32. 8. [Johnson, R. A. (1997)], pp. 327-328, 10.23. 9. [Johnson, R. A. (1997)], p. 328, 10.24. 10. [Canavos, G. C. (1988)], p. 376, 10.11.

172

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Cap´ıtulo 10

Regresi´ on lineal simple 10.1.

Introducci´ on

Uno de los aspectos m´as relevantes que aborda la Estad´ıstica se refiere al an´alisis de las relaciones que se dan entre dos variables aleatorias. El an´alisis de estas relaciones est´a muy frecuentemente ligado al an´alisis de una variable, llamada variable dependiente (Y ) , y del efecto que sobre ella tiene otra (u otras) variable(s), llamada(s) variable(s) independiente(s) (X), y permite responder a dos cuestiones b´asicas: ¿Es significativa la influencia que tiene la variable independiente sobre la variable dependiente? Si, en efecto, esa relaci´on es significativa, ¿c´omo es? y ¿podemos aprovechar esa relaci´on para predecir valores de la variable dependiente a partir de valores observados de la variable independiente? Ejemplo 10.1 Un dise˜ nador de hardware puede estar interesado en saber si una computadora tarda m´ as o menos en ejecutar una tarea en funci´ on del n´ umero de tareas pendientes que tenga en memoria. En este caso, la variable dependiente ser´ıa T : tiempo de procesamiento de una tarea, 173

174

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Pieza

Presi´ on (x)

Compresi´ on (y)

1

1

1

2

2

1

3

3

2

4

4

2

5

5

4

Cuadro 10.1: Compresi´on vs presi´on en un material aislante

Figura 10.1: Diagrama de dispersi´on para los datos del ejemplo.

mientras que la variable independiente ser´ıa N : n´ umero de tareas pendientes en la computadora. En principio no sabemos si las tareas pendientes afectan o no al rendimiento, o si ese efecto es, de haberlo, significativo. Ejemplo 10.2 El inventor de un nuevo material aislante quiere determinar la magnitud de la compresi´ on (Y ) que se producir´ a en una pieza de 2 pulgadas de espesor cuando se somete a diferentes cantidades de presi´ on (X). Para ello prueba 5 piezas del material bajo diferentes presiones. Los valores de los pares (x, y) de la muestra aparecen en el Cuadro 10.2 y representados en la Figura 10.1 (a este gr´ afico se le denomina diagrama de dispersi´ on o nube de puntos). El inventor probablemente est´ a interesado en cuantificar en qu´e medida la presi´ on

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.175

afecta a la compresi´ on del material y seguro que est´ a interesado en una f´ ormula capaz de predecir, al menos de forma aproximada, qu´e compresi´ on provocar´ a en una pieza del material una determinada presi´ on. Definici´ on 10.1 Un modelo de regresi´ on lineal simple para una variable, Y (variable dependiente), dada otra variable, X (variable independiente), es un modelo matem´ atico que permite obtener una f´ ormula capaz de relacionar Y con X basada s´ olo en relaciones lineales, del tipo Y = β0 + β1 X + ε. En esta expresi´on: Y representa a la variable dependiente, es decir, a aquella variable que deseamos estudiar en relaci´on con otras. X representa a la variable independiente, es decir, aquellas que creemos que puede afectar en alguna medida a la variable dependiente. ε representa el error aleatorio, es decir, aquella cantidad (aleatoria) que provoca que la relaci´on entre la variable dependiente y la variable independiente no sea perfecta, sino que est´e sujeta a incertidumbre. Hay que tener en cuenta que el valor de ε ser´a siempre desconocido hasta que se observen los valores de X e Y , de manera que el modelo de predicci´on ser´a realmente Yˆ = β0 + β1 X. Lo que en primer lugar resultar´ıa deseable de un modelo de regresi´on es que estos errores aleatorios ocurran en la misma medida por exceso que por defecto, sea cual sea el valor de X, de manera que E [ε/X=x ] = E [ε] = 0 y, por tanto, E [Y /X=x ] = β0 + β1 x + E [ε/X=x ] = β0 + β1 x.

176

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Figura 10.2: Diagrama de dispersi´on y l´ınea de las medias hipot´eticas.

Es decir, las medias de los valores de Y para un valor de X dado son una recta. En la Figura 10.2 podemos ver los valores concretos de ε = y − E [Y /X=x ] para una muestra hipot´etica, supuesto que hemos obtenido un modelo de regresi´on. En ella se puede ver tambi´en la interpretaci´on de los coeficientes del modelo: β0 (b en la figura) es la ordenada al origen del modelo, es decir, el punto donde la recta intercepta o corta al eje y. β1 (a en la figura) representa la pendiente de la l´ınea y, por tanto, puede interpretarse como el incremento de la variable dependiente por cada incremento en una unidad de la variable independiente. Observaci´ on 10.1 Es evidente que la utilidad de un modelo de regresi´ on lineal tiene sentido siempre que la relaci´ on hipot´etica entre X e Y sea de tipo lineal, pero ¿qu´e ocurre si en vez de ser de este tipo es de otro tipo (exponencial, logar´ıtmico, hiperb´ olico...)? En primer lugar, es absolutamente conveniente dibujar el diagrama de dispersi´ on antes de comenzar a tratar de obtener un modelo de regresi´ on lineal, ya que si la forma de este diagrama sugiere un perfil distinto al de una recta quiz´ a deber´ıamos plantearnos otro tipo de modelo.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.177

Y, por otra parte, si se observa que el diagrama de dispersi´ on es de otro tipo conocido, puede optarse por realizar un cambio de variable para considerar un modelo lineal. Existen t´ecnicas muy sencillas para esta cuesti´ on, pero no las veremos aqu´ı.

10.2.

Estimaci´ on de los coeficientes del modelo por m´ınimos cuadrados

Si queremos obtener el modelo de regresi´on lineal que mejor se ajuste a los datos de la muestra, deberemos estimar los coeficientes β0 y β1 del modelo. Para obtener estimadores de estos coeficientes vamos a considerar un nuevo m´etodo de estimaci´on, conocido como m´ etodo de m´ınimos cuadrados. Hay que decir que bajo determinados supuestos que veremos en breve, los estimadores de m´ınimos cuadrados coinciden con los estimadores m´aximo-veros´ımiles de β0 y β1 . El razonamiento que motiva el m´etodo de m´ınimos cuadrados es el siguiente: si tenemos una muestra de valores de las variables independiente y dependiente, (x1 , y1 ) , ..., (xn , yn ) , buscaremos valores estimados de β0 y β1 , que notaremos por βˆ0 y βˆ1 , de manera que en el modelo ajustado, yˆx = βˆ0 + βˆ1 x minimice la suma de los cuadrados de los errores observados. Recordemos que E [Y /X=x ] = β0 + β1 x, luego yˆx puede interpretarse de dos formas: 1. Como una predicci´on del valor que tomar´a Y si X = x. 2. Como una estimaci´on del valor medio de Y cuando X = x.

178

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Concretando, lo que buscamos es minimizar la suma de los cuadrados de los errores

n ³ ³ ´´2 X SSE = yi − βˆ0 + βˆ1 xi , i=1

es decir buscamos

³

· ¸ ´ ˆ ˆ β0 , β1 = arg m´ın SSE . β0 ,β1

Definici´ on 10.2 Se llama recta de regresi´ on por m´ınimos cuadrados (o simplemente recta de regresi´ on) de Y dada X a la l´ınea que tiene la SSE m´ as peque˜ na de entre todos los modelos lineales. La soluci´on de ese problema de m´ınimo se obtiene por el mecanismo habitual: se deriva SSE respecto de βˆ0 y βˆ1 , se iguala a cero y se despejan estos. La soluci´on es la siguiente: SSxy βˆ1 = SSxx βˆ0 = y¯ − βˆ1 x ¯, donde SSxy = SSxx =

n X i=1 n X

(xi − x ¯) (yi − y¯) =

n X

xi yi − n¯ xy¯

i=1

(xi − x ¯)2 =

i=1

n X

x2i − n¯ x2 .

i=1

Ejemplo 10.3 Para los datos sobre Ejemplo 10.2 del material aislante, vamos a calcular e interpretar la recta de regresi´ on. SSxy = 7, SSx = 10 luego SSxy βˆ1 = = 0.7 SSxx βˆ0 = y¯ − βˆ1 x ¯, = −0.1,

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.179

Figura 10.3: Recta de regresi´on ajustada para los datos del ejemplo.

as´ı que la recta de regresi´ on ajustada es yˆx = −0.1 + 0.7x y est´ a representada en la Figura 10.3. La interpretaci´ on de βˆ1 es que la compresi´ on Y aumenta en promedio 0.7 unidades por cada incremento de 1 unidad de presi´ on. La interpretaci´ on de βˆ0 ser´ıa la del valor promedio de Y cuando x = 0, pero es que en este caso este supuesto no tiene sentido, as´ı que no debe tenerse en cuenta. on importante que suele conducir a Observaci´ on 10.2 Hay que hacer una observaci´ frecuentes errores. La recta de regresi´ on para la variable dependiente Y , dada la variable independiente X no es la misma que la recta de regresi´ on de X dada Y . La raz´ on es muy sencilla: para obtener la recta de regresi´ on de Y dado X debemos minimizar n ³ ³ ´´2 X yi − βˆ0 + βˆ1 xi , i=1

mientras que para obtener la recta de regresi´ on de X dado Y deber´ıamos minimizar n ³ ³ ´´2 X xi − βˆ0 + βˆ1 yi , i=1

180

Prof. Dr. Antonio Jos´ e S´ aez Castillo

en cuyo caso obtendr´ıamos como soluci´ on SSxy βˆ1 = SSyy βˆ0 = x ¯ − βˆ1 y¯, siendo la recta de regresi´ on, x ˆ = βˆ0 + βˆ1 y. El error que suele cometerse con frecuencia es pensar que si tenemos, por ejemplo, la recta de Y dado X, la de X dado Y puede obtenerse ”despejando”.

10.3.

Supuestos adicionales para los estimadores de m´ınimos cuadrados

Hasta ahora lo u ´nico que le hemos exigido a la recta de regresi´on es que los errores tengan media cero, independientemente del valor de x, lo que, por otra parte, no es una hip´otesis sino m´as bien un requerimiento l´ogico al modelo. Lo que ahora vamos a hacer es a˜ nadir algunos supuestos al modelo de manera que cuando ´estos se cumplan, las propiedades de los estimadores de los coeficientes del modelo sean muy buenas. Esto nos va a permitir hacer inferencia sobre estos coeficientes y sobre las estimaciones que pueden darse de los valores de la variable dependiente. Los supuestos que podemos a˜ nadir se refieren al error del modelo, la variable ε. Supuesto 10.1 E [ε/X=x ] = E [ε] = 0, lo que implica que E [Y /X=x ] = β0 + β1 x. Supuesto 10.2 La varianza de ε tambi´en es constante para cualquier valor de x dado, es decir, V ar (ε/X=x ) = σ 2 para todo x. Supuesto 10.3 La distribuci´ on de probabilidad de ε es normal.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.181

Figura 10.4: Representaci´on de los supuestos de un modelo de regresi´on lineal simple.

Supuesto 10.4 Los errores asociados a los valores de Y son independientes unos de otros. Existen diversas t´ecnicas para verificar la validez de estos supuestos, y hay remedios que pueden aplicarse cuando a primera vista no son v´alidos. En la pr´actica los supuestos no tienen que cumplirse al pi´e de la letra para garantizar las propiedades que vamos a ver de los estimadores. En cualquier caso, estos supuestos se dan en muchas aplicaciones pr´acticas, dado que no son especialmente restrictivos.

10.4.

Inferencias sobre la pendiente β1

Al comienzo del cap´ıtulo nos plante´ abamos como uno de los objetivos de la regresi´on el decidir si el efecto de la variable independiente es o no significativo para la variable dependiente. Si nos fijamos, esto es equivalente a contrastar si el coeficiente β1 es o no significativamente distinto de cero.

182

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Dados los supuestos descritos en la secci´on anterior, es posible obtener un contraste de este tipo:

Tipo de prueba

Unilateral a

Bilateral

la izquierda Hip´otesis

H0 : β1 = b1

H0 : β1 = b1

H1 : β1 < b1

H1 : β1 6= b1

H1 : β1 > b1

t = √β21 −b1 , s2 = s /SSxx

de contraste

de rechazo

a la derecha

H0 : β1 = b1

Estad´ıstico

Regi´on

Unilateral

t < ta;n−2

Supuestos

SSyy −βˆ1 SSxy n−2

|t| > t1−α/2;n−2

t > t1−α;n−2

Los dados en la Secci´on 10.3

En el caso en que, efectivamente, lo que deseamos es contrastar si el efecto de la variable independiente es o no significativo para la variable dependiente, el valor de b1 ser´a cero.

Ejemplo 10.4 Para los datos del Ejemplo 10.2 sobre el material aislante, vamos a probar si el efecto de la presi´ on sobre la compresi´ on es o no significativo (α = 0.05). βˆ1 = 0.7 s2 =

SSyy − βˆ1 SSxy = 0.367 n−2

SSxx = 10 t0.975;11−2 = 3.182, t0.025;11−2 = −3.182 0.7

t= p

0.61/10

= 3.7,

luego, como cab´ıa esperar, podemos afirmar a la luz de los datos y con un 95 % de confianza que el efecto de la presi´ on sobre la compresi´ on es significativo.

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.183

10.5.

El coeficiente de correlaci´ on lineal

βˆ1 mide en cierto modo la relaci´on que existe entre la variable dependiente y la variable independiente, ya que se interpreta como el incremento que sufre Y por cada incremento unitario de X. Sin embargo, es una medida sujeta a la escala de las variables X e Y , de manera que se hace dif´ıcil poder comparar distintos βˆ10 s entre s´ı. En esta secci´on vamos a definir el llamado coeficiente de correlaci´ on lineal, que ofrece una medida cuantitativa de la fortaleza de la relaci´on lineal entre X e Y en la muestra, pero que a diferencia de βˆ1 , es adimensional, ya que sus valores siempre est´an entre −1 y 1, sean cuales sean las unidades de medida de las variables. Definici´ on 10.3 Dada una muestra de valores de dos variables (x1 , y1 ) , ..., (xn , yn ), el coeficiente de correlaci´ on lineal muestral r se define como √ SSxy SSxx ˆ r=p =p β1 . SSxx SSyy SSyy Como coment´abamos, la interpretaci´ on del valor de r es la siguiente: Un valor de r cercano o igual a 0 implica poca o ninguna relaci´on lineal entre X e Y. Cuanto m´as se acerque a 1 ´o -1, m´as fuerte ser´a la relaci´on lineal entre X e Y . Si r = ±1, todos los puntos caer´an exactamente en la recta de regresi´on. Un valor positivo de r implica que Y tiende a aumentar cuando X aumenta, y esa tendencia es m´as acusada cuanto m´as cercano est´a r de 1. Un valor negativo de r implica que Y disminuye cuando X aumenta, y esa tendencia es m´as acusada cuanto m´as cercano est´a r de -1. En la Figura 10.5 aparecen algunos de los supuestos que acabamos de enunciar respecto a los distintos valores de r. Hay que hacer hincapi´e en que r s´ olo es capaz

184

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Figura 10.5: Valores de r y sus implicaciones.

de descubrir la presencia de relaci´on de tipo lineal. Si, como en el u ´ltimo gr´afico a la derecha de esta figura, la relaci´on entre X e Y no es de tipo lineal, r no es adecuado como indicador de la fuerza de esa relaci´on. Observaci´ on 10.3 Correlaci´ on frente a causalidad. Hay que hacer una advertencia importante acerca de las interpretaciones del coeficiente de correlaci´ on lineal. Es muy frecuente que se utilice para justificar relaciones causa-efecto, y eso es un grave error. r s´ olo indica presencia de relaci´ on entre las variables, pero eso no permite inferir, por ejemplo, que un incremento de X sea la causa de un incremento o una disminuci´ on de Y . Ejemplo 10.5 Para los datos del Ejemplo 10.2 sobre el material aislante, calculemos r e interpret´emoslo. Sabemos que SSxy = 7, SSxx = 10 ´2 ³P 5 5 yi X i=1 102 SSyy = yi2 − = 26 − = 6, 5 5 i=1

luego 7 r=√ = 0.903 70. 10 × 6

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.185

Por tanto, la presi´ on y la magnitud de la compresi´ on tienen una correlaci´ on elevada para esta muestra de 5 piezas, lo que implica que existe una relaci´ on lineal fuerte y positiva entre estas variables. No podemos olvidar que el coeficiente de correlaci´on lineal muestral, r, mide la correlaci´on entre los valores de X y de Y en la muestra. Existe un coeficiente de correlaci´on lineal similar pero que se refiere a todos los posibles valores de la variable. Evidentemente, r es un estimador de este coeficiente poblacional. Definici´ on 10.4 Dadas dos variables X e Y , el coeficiente de correlaci´ on lineal poblacional, ρ, se define como √ E [(X − EX) (Y − EY )] V arX √ ρ= = √ β1 . V arXV arY V arY Inmediatamente surge la cuesti´on de las inferencias. Podemos y debemos utilizar r para hacer inferencias sobre ρ. De todas formas, en realidad estas inferencias son equivalentes a las que hacemos sobre β1 , ya que la relaci´on entre β1 y ρ provoca que la hip´otesis H0 : β1 = 0 sea equivalente a la hip´otesis H0 : ρ = 0.

Tipo de prueba

Unilateral a

Unilateral

Bilateral

la izquierda Hip´otesis

H0 : ρ = 0

H0 : ρ = 0

H0 : ρ = 0

H1 : ρ < 0

H1 : ρ 6= 0

H1 : ρ > 0

Estad´ıstico

t=

de contraste Regi´on de rechazo Supuestos

a la derecha

t < ta;n−2

√ r√ n−2 1−r2

|t| > t1−α/2;n−2

t > t1−α;n−2

Las variables X e Y siguen una distribuci´on normal bivariante1

Ejemplo 10.6 Mendenhall & Sincich (1997), pp. 565-566, ejemplo 11.7.

186

Prof. Dr. Antonio Jos´ e S´ aez Castillo

10.6.

El coeficiente de determinaci´ on lineal

Como hemos visto, el coeficiente de correlaci´on lineal puede interpretarse como una medida de la contribuci´on de una variable a la predicci´on de la otra mediante la recta de regresi´on. En esta secci´on vamos a ver una medida m´as adecuada para valorar hasta qu´e punto la variable independiente contribuye a predecir la variable dependiente. Vamos a ponernos en las dos situaciones l´ımite que pueden darse en cuanto a la precisi´on de una recta de regresi´on: Si X no tiene ning´ un tipo de relaci´on lineal con Y , entonces ρ = 0, en cuyo caso β1 =

√ √ V arY ρ V arX

= 0 y la recta es simplemente yˆi = β0 + β1 xi = y¯.

Es decir, si X no tiene ning´ un tipo de relaci´on lineal con Y , entonces la mejor predicci´on que podemos dar por el m´etodo de m´ınimos cuadrados es la media. Adem´as, en ese caso SSE =

n X

(yi − yˆi )2

i=1

=

n X

(yi − y¯)2 = SSyy ,

i=1

es decir, SSE es el total de la variaci´ on de los valores de Y . Est´a claro que esta es la peor de las situaciones posibles de cara a la precisi´on. Si la relaci´on lineal entre X e Y es total, entonces ρ = 1, en cuyo caso β1 = Adem´as, si la relaci´on lineal es total, y = yˆ, de manera que SSE =

n X

(yi − yˆi )2 = 0.

i=1

Esta, desde luego, es la mejor de las situaciones posibles.

√ √ V arY . V arX

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.187

La idea de la medida que vamos a utilizar es cuantificar en qu´e medida estamos m´as cerca o m´as lejos de estas dos situaciones. Dado que SSE, que es la medida del error de la recta de regresi´on, puede ir de 0 (mejor situaci´on posible) a SSy (peor situaci´on posible), tan s´olo tenemos que relativizar en una escala c´omoda una medida de este error. Definici´ on 10.5 Se define el coeficiente de determinaci´ on lineal como r2 = 1 −

SSE . SSyy

N´otese que la notaci´on es r al cuadrado, ya que, en efecto, en una regresi´on lineal simple coincide con el coeficiente de correlaci´on lineal al cuadrado. Por lo tanto, la interpretaci´on de r2 es la medida en que X contribuye a la predicci´on de Y en una escala de 0 a 1, donde el 0 indica que el error es el total de la variaci´ on de los valores de Y y el 1 es la precisi´on total, el error 0. La medida suele darse en porcentaje. Dicho de otra forma: Aproximadamente 100 × r2 % de la variaci´ on total de los valores de Y respecto de su media pueden ser explicada mediante la recta de regresi´ on de Y dada X. Ejemplo 10.7 En el Ejemplo 10.2 r2 = 0.82 de manera que podemos decir que el 82 % de la variaci´ on total de los valores de la compresi´ on puede ser explicado mediante la recta de m´ınimos cuadrados dada la presi´ on.

10.7.

Predicci´ on y estimaci´ on a partir del modelo

Recordemos que en el modelo ajustado de la recta de regresi´on, yˆx = βˆ0 + βˆ1 x y, por otro lado, E [Y /X=x ] = β0 + β1 x,

188

Prof. Dr. Antonio Jos´ e S´ aez Castillo

luego yˆx puede interpretarse de dos formas: 1. Como predicci´ on del valor que tomar´a Y cuando X = x. on del valor medio de Y para el valor X = x, es decir, de 2. Como estimaci´ E [Y /X=x ]. Ambas cantidades est´an sujetas a incertidumbre, que ser´a tanto mayor cuanto m´as variabilidad tenga Y, y/o peor sea el ajuste mediante la recta de regresi´on. En este sentido, se define el error estandar de la estimaci´ on cuando se tiene el valor X = x como P s2e = =

2

i (yi

− yˆx ) = n−2

SSyy −

2 Sxy Sxx

n−2

´´2 ³ P ³ ˆ0 + βˆ1 x β y − i i n−2

.

Cuanto mayor sea esta cantidad, peor son las predicciones de la recta de regresi´on. Lo que vamos a ver en esta secci´on para concluir el tema es c´omo establecer regiones de confianza para estas predicciones de los valores de Y y para las estimaciones de los valores medios de Y dados valores de X. Estos resultados requieren que se verifiquen los supuestos adicionales sobre los errores dados en la secci´on 10.3. Proposici´ on 10.1 Podemos garantizar con un (1 − α)×100 % de confianza que cuando X = x, el valor medio de Y se encuentra en el intervalo   s s 2 2 1 (x − x ¯ ) 1 (x − x ¯ ) yˆx − t1−α/2;n−2 × se , + , yˆx + t1−α/2;n−2 × se + n SSxx n SSxx es decir, podemos garantizar que   P E[Y /X=x ] ∈ yˆx ∓ t1−α/2;n−2 × se

s

  1 (x − x ¯)2  + |X=x  = 1 − α. n SSxx

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.189

Proposici´ on 10.2 Podemos garantizar con un (1 − α)×100 % de confianza que cuando X = x, el valor Y se encuentra en el intervalo   s s 2 2 ¯) 1 (x − x ¯)  yˆx − t1−α/2;n−2 × se 1 + 1 + (x − x , yˆx + t1−α/2;n−2 × se 1 + + , n SSxx n SSxx es decir, podemos garantizar que   P Y ∈ yˆx ∓ t1−α/2;n−2 × se

  1 (x − x ¯)2  1+ + |X=x  = 1 − α n SSxx

s

Observaci´ on 10.4 Una u ´ltima advertencia. No debemos olvidar que los modelos de regresi´ on que podemos estimar lo son a partir de los datos de una muestra de valores de X e Y . A partir de estos modelos podemos obtener, como acabamos de recordar, predicciones y estimaciones para valores dados de X. Dado que el modelo se basa precisamente en esos valores de la muestra, no es conveniente hacer predicciones y estimaciones para valores de X que se encuentren fuera del rango de valores de X en la muestra.

Ejemplo 10.8 En la Figura 10.6 aparece la recta de regresi´ on para los datos del Ejemplo 10.2 junto con l´ıneas que contienen los intervalos de confianza al 95 % para las predicciones y las estimaciones asociadas a los distintos valores de X. Obs´ervese que la amplitud de los intervalos se hace mayor en los valores m´ as extremos de X. Es decir, los errores en las estimaciones y en las predicciones son mayores en estos valores m´ as extremos. Esto debe ser un motivo a a˜ nadir al comentario anterior para no hacer estimaciones ni predicciones fuera del rango de valores de X en la muestra.

10.8.

Ejercicios

1. [Walpole, R. E et al (1998)], p. 400, 2. Adem´as, se pide:

190

Prof. Dr. Antonio Jos´ e S´ aez Castillo

Figura 10.6: Recta de regresi´on con intervalos de confianza al 95 % para las predicciones (franjas m´as exteriores) y para las estimaciones (franjas interiores).

a) Obtener una medida del grado de relaci´on lineal entre ambas variables e interpretarla. ¿Podemos afirmar con un 95 % de confianza que existe una relaci´on estad´ısticamente significativa entre ambas variables? b) Obtener un intervalo de confianza de 95 % para la cantidad promedio de s´olido eliminado cuando se le expone a 6.1 horas de secado. c) Obtener un intervalo de predicci´on de 95 % para la cantidad de s´olido eliminado cuando se le expone a 6.1 horas de secado. d ) ¿En qu´e medida son fiables las estimaciones obtenidas mediante la recta de regresi´on? 2. [Walpole, R. E et al (1998)], p. 401, 3. Adem´as, se pide: a) Obtener una medida del grado de relaci´on lineal entre ambas variables e interpretarla. ¿Podemos afirmar con un 95 % de confianza que existe una relaci´on estad´ısticamente significativa entre ambas variables?

Apuntes de M´ etodos Estad´ısticos. I.T. Industrial. Universidad de Ja´ en.191

b) Obtener un intervalo de confianza de 95 % para el peso promedio del cuerpo cuando el peso del coraz´on es de 11 gramos. c) Obtener un intervalo de predicci´on de 95 % para el peso del cuerpo cuando el peso del coraz´on es de 11 gramos. d ) ¿En qu´e medida son fiables las estimaciones obtenidas mediante la recta de regresi´on? 3. [Walpole, R. E et al (1998)], p. 401, 3, apartados a. y b. Adem´as, se pide: a) ¿Podemos afirmar con un 95 % de confianza que existe una relaci´on estad´ısticamente significativa entre ambas variables? b) Obtener un intervalo de confianza de 95 % para la nota promedio de aquellos alumnos que sacaron 57 puntos en la prueba. c) Obtener un intervalo de predicci´on de 95 % para la nota de un alumno que sac´o 57 puntos en la prueba. d ) ¿En qu´e medida son fiables las estimaciones obtenidas mediante la recta de regresi´on? 4. [Canavos, G. C. (1988)], pp. 491-492, 13.4. y 13.6, apartados f. y g. 5. [Canavos, G. C. (1988)], p. 494, 13.4. 6. [Johnson, R. A. (1997)], pp. 362-363, 11.27 y 11.28. 7. [Johnson, R. A. (1997)], pp. 344-345, 11.6, 11.7 y 11.8. 8. [Johnson, R. A. (1997)], p. 346, 11.12 y 11.13. 9. [Montgomery, D. C. & Runger, G. C. (2002)], pp. 478-479, 10.64, apartados a., b. y c. Adem´as, se pide:

192

Prof. Dr. Antonio Jos´ e S´ aez Castillo

a) Obtener una medida del grado de relaci´on lineal entre ambas variables e interpretarla. ¿Podemos afirmar con un 95 % de confianza que existe una relaci´on estad´ısticamente significativa entre ambas variables? b) Obtener un intervalo de confianza de 95 % para la corriente promedio consumida cuando el voltaje tierra a fuente es de 1.21 V. c) Obtener un intervalo de predicci´on de 95 % para la corriente consumida cuando el voltaje tierra a fuente es de 1.21 V. d ) ¿En qu´e medida son fiables las estimaciones obtenidas mediante la recta de regresi´on? 10. [Montgomery, D. C. & Runger, G. C. (2002)], p. 479, 10.65, apartados a., b., e. y f.

Bibliograf´ıa [Canavos, G. C. (1988)] Canavos, G. C. (1988). Probabilidad y Estad´ıstica. Aplicaciones y M´etodos. McGraw-Hill. [Johnson, R. A. (1997)] Johnson, R. A. (1997). Probabilidad y estad´ıstica para Ingenieros (5a edici´on). Prentice Hall. [Lipschutz, S. & Schiller, J. (2000)] Lipschutz, S. & Schiller, J. (2000). Introducci´on a la Probabilidad y la Estad´ıstica. McGraw-Hill. [Mendenhal, W & Sincich, T. (1997)] Mendenhal, W & Sincich, T. (1997). Probabilidad y Estad´ıstica para Ingenier´ıa y Ciencias (4a edici´on). Prentice Hall. [Montgomery, D. C. & Runger, G. C. (2002)] Montgomery, D. C. & Runger, G. C. (2002). Probabilidad y estad´ıstica aplicadas a la Ingenier´ıa (2a edici´ on). Wiley. [Navidi, W. (2006)] Navidi, W. (2006). Estad´ıstica para ingenieros y cient´ıficos. McGraw-Hill. [Ross, S. M. (2005)] Ross, S. M. (2005). Introducci´on a la Estad´ıstica. Editorial Revert´e. [Walpole, R. E et al (1998)] Walpole, R. E., Myers, R. H. & Myers, S. L. (1998). Probabilidad y Estad´ıstica para Ingenieros (6a edici´on). Prentice Hall.

193

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.