Story Transcript
´ PUNTUAL ESTIMACION Juli´an de la Horra Departamento de Matem´aticas U.A.M.
1
Introducci´ on
En este cap´ıtulo, vamos a abordar la Estimaci´on Puntual, que es uno de los tres grandes conjuntos de t´ecnicas que utilizaremos en la Inferencia Estad´ıstica. La situaci´on general que vamos a considerar es la siguiente: Disponemos de una muestra aleatoria (X1 , ..., Xn ) de una caracter´ıstica X de una poblaci´on. Pensamos que esta caracter´ıstica puede ser adecuadamente modelizada mediante un modelo de probabilidad con funci´on de masa Pθ (x) (en el caso discreto) o con funci´on de densidad fθ (x) (en el caso continuo). En cualquiera de los casos, lo u ´nico que nos falta por conocer es el valor del par´ametro θ ∈ Θ que es desconocido. Lo que tratamos de hacer en este cap´ıtulo es encontrar estimaciones puntuales de este par´ametro desconocido. En primer lugar, se plantear´an dos ejemplos sencillos que servir´an como motivaci´on. Ejemplo 1.- En los ejercicios de c´alculo de probabilidades, siempre se suele hablar de monedas equilibradas pero, naturalmente, no todas lo son. Nos gustar´ıa conocer aproximadamente (estimar) la probabilidad de cara de una determinada moneda, y llamamos p = P (Cara). Necesitamos datos, para lo cual lanzamos la moneda, por ejemplo, 100 veces, y anotamos los resultados. Supongamos que obtenemos 55 caras y 45 cruces. Desde un punto de vista formal, las caras y las cruces pueden ser codificadas mediante unos y ceros, de modo que tenemos una muestra aleatoria (X1 , ..., X100 ) de (
X=
1 (si sale cara) con probabilidad p 0 (si sale cruz) con probabilidad 1 − p
y, por tanto, X puede ser modelizada mediante un modelo de Bernoulli con par´ametro p desoconocido. En este caso sencillo, parece razonable estimar la probabilidad de cara de la siguiente forma: pˆ = Frecuencia relativa de caras =
55 N´ umero de caras obtenidas = = 0, 55 N´ umero de lanzamientos 100
1
Ejemplo 2.- En una f´abrica, se est´a ensayando una nueva fibra sint´etica, y se quiere conocer aproximadamente (estimar) cu´al es la resistencia media a la rotura de las cuerdas fabricadas con esta nueva fibra. Llamaremos µ al valor de esta resistencia media que se quiere estimar. Necesitamos datos, para lo cual medimos la resistencia de, por ejemplo, 100 cuerdas, y anotamos los resultados. Supongamos que obtenemos una resistencia media muestral de 31 unidades. Desde un punto de vista formal, lo que tenemos es una muestra aleatoria (X1 , ..., X100 ) de la caracter´ıstica X = “Resistencia a la rotura”, que puede ser modelizada mediante una distribuci´on N (µ; σ), con par´ametros µ y σ desconocidos. En este caso sencillo, parece razonable estimar la resistencia media de la siguiente forma: µ ˆ = Resistencia media muestral = x¯ = 31 Obs´ervese que µ es la resistencia media (desconocida) de toda la producci´on, mientras que x¯ es la resistencia media (conocida) de una muestra. Si todas las situaciones a las que nos tuvi´eramos que enfrentar fueran tan sencillas e intuitivas como las de los ejemplos anteriores, seguramente no necesitar´ıamos desarrollar una metodolog´ıa general de la estimaci´on puntual. Pero, por un lado, los problemas no siempre son tan sencillos y, por otro lado, la intuici´on, a veces no nos dice nada, y otras veces nos resulta enga˜ nosa. Por este motivo, vamos a dar una metodolog´ıa general que nos permita enfrentarnos a este tipo de problemas de un modo sistem´atico y lo m´as objetivo posible.
2
Estimadores puntuales
En primer lugar, vamos a definir lo que entenderemos por un estimador puntual del par´ametro θ: Definici´ on.- Sea (X1 , . . . , Xn ) una muestra aleatoria de una caracter´ıstica X de una poblaci´on con funci´on de masa Pθ (x) (caso discreto), o con funci´on de densidad fθ (x) (caso continuo), donde θ ∈ Θ es desconocido. Un estimador puntual de θ es una funci´on T que a cada posible muestra (x1 , . . . , xn ) le hace corresponder una estimaci´on T (x1 , . . . , xn ) de θ.
2
Observaciones: 1. Lo que vamos a estimar habitualmente es θ pero, en algunos casos, podr´ıa interesarnos estimar alguna funci´on de θ. Por ejemplo, cuando X ∼ N (µ; σ), nos puede interesar estimar la desviaci´on t´ıpica σ, pero tambi´en podemos estar interesados en estimar la varianza σ 2 . En lo que sigue, s´olo nos referiremos a la estimaci´on de θ, pero teniendo claro que no habr´ıa ning´ un problema en extender las ideas a la estimaci´on de alguna funci´on de θ. 2. Evidentemente, T = T (X1 , . . . , Xn ) es una variable aleatoria. En realidad, un estimador puntual no es m´as que un estad´ıstico con una misi´on especial: acercarse lo m´as posible al verdadero y desconocido valor del par´ametro. 3. La definici´on que hemos dado de estimador puntual es enormemente general y engloba, tanto estimadores muy razonables, como estimadores completamente absurdos. Por este motivo, lo siguiente que vamos a hacer es indicar alguna propiedad deseable para un estimador razonable.
3
Error cuadr´ atico medio. Estimadores insesgados
Definici´ on.- El error cuadr´atico medio de un estimador T , para estimar θ, se define como: ECM (T ) = E[(T − θ)2 ] = E[(T (X1 , ..., Xn ) − θ)2 ] El objetivo de la definici´on est´a bastante claro: (a) T (X1 , ..., Xn ) − θ mide el error que se comete al estimar θ mediante T (X1 , ..., Xn ). (b) Consideramos el cuadrado de ese error para evitar que las diferencias positivas se compensen con las negativas. (c)Finalmente, calculamos cuanto vale, en promedio, este error cuadr´atico. Esta idea del error cuadr´atico medio ya fue utilizada para definir la recta de regresi´on. Por supuesto, lo que nos interesa es utilizar estimadores con
3
un error cuadr´atico peque˜ no. Para ver como puede conseguirse un error cuadr´atico peque˜ no, veamos una forma alternativa de expresarlo: E[(T − θ)2 ] = E[((T − E[T ]) + (E[T ] − θ))2 ] = E[(T − E[T ])2 ] + (E[T ] − θ)2 = V (T ) + (Sesgo de T )2 donde: Sesgo de T = E[T ] − θ De este modo, el error cuadr´atico medio se puede reducir, bien reduciendo la varianza del estimador, o bien reduciendo su sesgo. Una manera de eliminar completamente el sesgo es trabajar con estimadores insesgados: Definici´ on.- Un estimador T es insesgado (o centrado) para estimar θ, cuando verifica: E[T ] = θ Los estimadores insesgados, no s´olo son interesantes porque contribuyan a reducir el error cuadr´atico medio; son interesantes por s´ı mismos ya que, en promedio, sus estimaciones aciertan con el objetivo de estimar θ. Es sencillo encontrar ejemplos de estimadores insesgados: Ejemplo 1 (continuado).- Consideramos una muestra aleatoria (X1 , . . . , Xn ) de X ∼ Bernoulli(p) (recordemos que este modelo ser´a utilizado siempre que se quiera estimar una proporci´on p). Se hab´ıa considerado que un estimador razonable para p pod´ıa ser: pˆ = Frecuencia relativa de ´exitos =
1X ¯ Xi = X n
Es muy sencillo comprobar que este estimador es insesgado para p:
E[ˆ p] = E
1X 1X 1 Xi = E[Xi ] = (np) = p n n n
Tambi´en es muy sencillo hallar su error cuadr´atico medio: ¯ = V (X) ¯ + (Sesgo)2 = V (X) = p(1 − p) ECM (ˆ p) = ECM (X) n n
4
Ejemplo 2 (continuado).- Consideramos una muestra aleatoria (X1 , . . . , Xn ) de una caracter´ıstica X ∼ N (µ; σ). Se hab´ıa considerado que un estimador razonable para µ pod´ıa ser: 1X ¯ Xi = X n Es muy sencillo comprobar que este estimador es insesgado para µ: µ ˆ=
1X 1X 1 E[ˆ µ] = E Xi = E[Xi ] = (nµ) = µ n n n Tambi´en es muy sencillo hallar su error cuadr´atico medio:
¯ = V (X) ¯ + (Sesgo)2 = ECM (ˆ µ) = ECM (X)
σ2 V (X) = n n
En cualquier caso, la cuesti´on fundamental sobre los estimadores puntuales es la que se planteaba en la introducci´on y sigue todav´ıa sin respuesta: ¿Es posible dar una metodolog´ıa general que nos permita construir estimadores puntuales de un modo sistem´atico y lo m´as objetivo posible? Vamos a dar respuesta a esta cuesti´on en las dos siguientes secciones.
4
M´ etodo de los momentos
En el Ejemplo 2 de la Introducci´on, se quer´ıa estimar la resistencia media a la rotura de las cuerdas fabricadas con una nueva fibra, y se propon´ıa estimar esa resistencia media de todas las cuerdas fabricadas, mediante la resistencia media de las cuerdas utilizadas en una muestra. La idea intuitiva que hay detr´as de este modo de proceder es que, seguramente, la media muestral (conocida) ser´a bastante parecida a la media de toda la producci´on (desconocida). Esta idea intuitiva es la que se utiliza para formalizar el m´etodo de los momentos: Definici´ on.- Sea (X1 , . . . , Xn ) una muestra aleatoria de una caracter´ıstica X con funci´on de masa Pθ (x) (o funci´on de densidad fθ (x)), donde θ = (θ1 , . . . , θk ). El estimador de θ por el m´etodo de los momentos es el formado por los valores θ˜1 , . . . , θ˜k que se obtienen al resolver en θ1 , . . . , θk el siguiente sistema de k ecuaciones: P E[X] = n1 ni=1 Xi P E[X 2 ] = n1 ni=1 Xi2 ... ... ... ... 1 Pn k k E[X ] = n i=1 Xi 5
Observaciones: 1. La justificaci´on del m´etodo de los momentos es sencilla: se basa en la intuici´on de que los momentos de la poblaci´on (E[X], E[X 2 ], . . . ) se P P “parecer´an” a los respectivos momentos de la muestra ( n1 Xi , n1 Xi2 , . . . ). En consecuencia, consideramos k ecuaciones derivadas de esta intuici´on (tantas como componentes tiene el par´ametro que necesitamos estimar). El nombre del m´etodo procede de que utilizamos los momentos (poblacionales y muestrales). 2. Hay que se˜ nalar, no obstante, que el m´etodo de los momentos presenta a veces graves inconvenientes. Por ejemplo, es perfectamente posible que la estimaci´on obtenida corresponda a valores que est´an fuera del espacio param´etrico. Obviamente, esto u ´ltimo no es muy aconsejable.
5
M´ etodo de m´ axima verosimilitud
El m´etodo m´as ampliamente utilizado para construir estimadores puntuales es el m´etodo de m´axima verosimilitud. Est´a basado tambi´en en una idea intuitiva muy sencilla y no presenta inconvenientes serios como le ocurre a veces al m´etodo de los momentos. En el ejemplo siguiente vemos las ideas b´asicas que nos llevar´an a la definici´on general. Ejemplo 3.- Consideramos una urna con 4 bolas, que pueden ser blancas o negras, pero no sabemos en qu´e proporci´on. Llamaremos θ a la proporci´on (desconocida) de bolas blancas en la urna, que puede tomar los valores 1 1 3 θ ∈ Θ = 0, , , , 1 4 2 4
Para obtener informaci´on sobre este par´ametro, extraemos de la urna 2 bolas con reemplazamiento (de esta forma, las observaciones son independientes). Supongamos que la primera bola observada es blanca y la segunda negra, de modo que la muestra obtenida es (B, N ). La probabilidad que los diferentes valores de θ le dan a la muestra obtenida recibe el nombre de funci´ on de verosimilitud y es de la siguiente forma:
L(θ) = Pθ (B, N ) =
0 si θ = 0 3/16 si θ = 1/4
4/16 si θ = 1/2
3/16 si θ = 3/4
0
6
si θ = 1
La idea del m´etodo de m´axima verosimilitud es muy sencilla y muy razonable: tomar como estimaci´on de θ, aquel valor que hace m´as probable (m´as veros´ımil) la muestra obtenida. Por tanto, en este caso, si la muestra obtenida era (B, N ), la estimaci´on de m´axima verosimilitud ser´ıa: θˆ = 1/2 Esta idea intuitiva del Ejemplo 3 es la que se utiliza para formalizar el m´etodo de m´axima verosimilitud: Definici´ on.- Sea (X1 , . . . , Xn ) una muestra aleatoria de una caracter´ıstica X con funci´on de masa Pθ (x) (o funci´on de densidad fθ (x)), donde θ = (θ1 , . . . , θk ). La funci´on de verosimilitud de θ es: L(θ) = Pθ (x1 , ..., xn ) = Pθ (x1 ) . . . Pθ (xn ) L(θ) = fθ (x1 , ..., xn ) = fθ (x1 ) . . . fθ (xn )
(caso discreto) (caso continuo)
El estimador de m´axima verosimilitud de θ es el formado por los valores (θˆ1 , . . . , θˆk ) que maximizan la funci´on de verosimilitud L(θ).
Observaciones: 1. La funci´on de verosimilitud expresa la probabilidad (o la densidad) que los diferentes valores de θ le dan a la muestra obtenida. Lo que hacemos, por tanto, es maximizar esa probabilidad (o densidad), es decir, elegir el valor de θ que hace m´as veros´ımil la muestra obtenida. 2. Por la propia definici´on, la estimaci´on de m´axima verosimilitud siempre es un valor del espacio param´etrico (algo que no siempre ocurre con el m´etodo de los momentos). 3. El procedimiento m´as habitual para obtener el estimador de m´axima verosimilitud es el siguiente: • Obtenemos la funci´on de verosimilitud: L(θ) = Pθ (x1 , ..., xn ) = Pθ (x1 ) . . . Pθ (xn ) Por supuesto, si estamos en un caso continuo, utilizar´ıamos la funci´on de densidad del modelo utilizado. • Obtenemos ln L(θ) en vez de L(θ), ya que es m´as f´acil de manejar y presenta los mismos m´aximos y m´ınimos. 7
• Despejamos θ1 , . . . , θk del siguiente sistema de ecuaciones: ∂ ln L(θ) ∂θ1
= 0 ... ... ... ... ∂ ln L(θ) = 0 ∂θk Por supuesto, hay que tener precauci´on con este procedimiento, ya que el punto cr´ıtico obtenido no tiene por qu´e corresponder a un m´aximo. Tambi´en puede ocurrir que la funci´on de verosimilitud se maximice en un extremo y no obtengamos nada con este procedimiento.
8