Story Transcript
UNIVERSIDAD DE EXTREMADURA ´ DEPARTAMENTO DE MATEMATICAS
Trabajo Fin de Master
Estimaci´ on n´ ucleo de distribuciones: existencia y propiedades asint´ oticas del ancho de banda o ´ptimo.
Pablo Monfort Vinuesa
Badajoz, 2010
ii
´Indice general
iii
Introducci´ on Si realizamos una revisi´ on de car´ acter hist´orico referente a los estimadores de tipo n´ ucleo, veremos que ´estos aparecen por primera vez en el contexto de la estimaci´on de densidades. Previo a los estimadores n´ ucleo tenemos el primer art´ıculo que utiliza t´ecnicas no param´etricas para la estimaci´on de una densidad. Dicho art´ıculo, de Fix y Hodges (1951) [?], permaneci´o sin publicar hasta que es recuperado en 1989 por Silverman y Jones (1989) [?], los cuales publican dicho informe junto a interesantes aportaciones al respecto. A˜ nos m´ as tarde encontramos los primeros art´ıculos que hacen uso de los estimadores n´ ucleo para la estimaci´ on de densidades: Akaike (1954) [?], Parzen (1962) [?] y Rosenblatt (1956) [?]. Rosenblatt presenta importantes resultados en el contexto de la teor´ıa L2 , considerado el contexto natural a la hora de evaluar el comportamiento global de un estimador de una funci´on de densidad. Y no se consideran en profundidad hasta Parzen (1962) y Devroye (1983) [?] los criterios L∞ y L1 , respectivamente, para la medici´ on del error cometido por un estimador Es en 1964 cuando el estimador n´ ucleo de la distribuci´on es introducido por primera vez de la mano de Nadaraya (1964) [?], el cual decide considerar, como estimador de la funci´on de distribuci´on, la integral del estimador n´ ucleo de la densidad usado hasta la fecha por Parzen y Rosenblatt. En una ´epoca reciente es cuando los estimadores n´ ucleo de la distribuci´on est´an siendo objeto de un profundo estudio. Podemos destacar algunos art´ıculos que analizan los principales puntos de inter´es de estos estimadores como Altman & L´eger (1995) [?] sobre la selecci´on del ancho de banda ´optimo, Abdous (1993) [?] sobre el error cuadr´ atico integrado medio de estos estimadores y Swanepoel (1988) [?], Jones (1990) [?] y Tenreiro (2006) [?] sobre el comportamiento asint´otico del ancho de banda de los estimadores n´ ucleo de la distribuci´ on. En la presente memoria realizaremos un exhaustivo trabajo de recopilaci´on, an´alisis e investigaci´on referido a los estimadores n´ ucleo de la distribuci´on. Para ello, el escrito comienza con un cap´ıtulo de preliminares donde en primer lugar establecemos el marco general del presente estudio y definimos los conceptos b´ asicos en el estudio de la estimaci´on de distribuciones. A continuaci´on, para poder estudiar la precisi´ on de un estimador, y as´ı compararlo con otros, proporcionamos las definiciones y resultados necesarios dentro de las teor´ıas L1 , L2 y L∞ . Con tal objetivo, pasamos a definir y describir las m´as inmediatas caracter´ısticas de los dos estimadores que se comparan en esta memoria: la funci´on de distriv
vi
Introducci´on
buci´ on emp´ırica y el estimador n´ ucleo de la distribuci´on. Por u ´ltimo, y antes de finalizar el cap´ıtulo se incluyen unos comentarios sobre uno de los principales problemas a la hora de seleccionar el estimador n´ ucleo adecuado: la selecci´ on del ancho de banda ´optimo. En el segundo cap´ıtulo realizamos un exhaustivo an´alisis del error cometido por el estimador n´ ucleo y distintas descomposiciones del mismo. Todo ello como paso previo al an´alisis del comportamiento asint´otico del ancho de banda. Adem´ as incluimos resultados que nos proporcionan condiciones suficientes para la existencia del ancho de banda ´ optimo. En el tercer cap´ıtulo desarrollamos una extensa simulaci´on para comparar, tal y como coment´abamos previamente, los dos estimadores de los que disponemos. Enfrentamos la eficiencia del estimador n´ ucleo y de la funci´ on de distribuci´ on emp´ırica a trav´es del mencionado estudio de simulaci´on donde analizamos el error medio cometido por cada estimador para muestras procedentes de las densidades de Marron y Wand (1992) [?] y de distintos tama˜ nos muestrales. Finalmente, la memoria concluye con dos ap´endices y la bibliograf´ıa utilizada. En el primero de los ap´endices enunciamos y probamos algunos resultados utilizados a lo largo de la memoria que, por no ser exactamente del campo de la Estad´ıstica o por ser muy recurrentes en esta memoria, consideramos m´ as adecuado incluir en un ap´endice. Por u ´ltimo, en el segundo ap´endice incluimos las funciones implementadas en el programa estad´ıstico R para el desarrollo y estudio del tercer cap´ıtulo de simulaci´on y la realizaci´ on de los gr´ aficos e im´ agenes que aparecen en la memoria.
Cap´ıtulo 1
Preliminares A lo largo de este primer cap´ıtulo estudiaremos el problema de estimaci´on de distribuciones considerando diversos criterios existentes para medir el error cometido mediante un estimador de la distribuci´on. Describiremos los resultados existentes para el estimador m´as extendido de la funci´on de distribuci´on, la funci´ on de distribuci´ on emp´ırica, y, adem´as, introduciremos los estimadores n´ ucleo de la distribuci´on sobre los que versa el presente trabajo.
1.1.
Conceptos b´ asicos.
A lo largo de toda esta memoria, supondremos R y Rd provistos de sus respectivas σ-´algebras de Borel, R y Rd . La noci´ on de estructura estad´ıstica juega en Estad´ıstica Matem´atica un papel an´alogo al que el espacio de probabilidad desempe˜ na en C´ alculo de Probabilidades; viene a ser, por tanto, el punto de partida formal de cualquier problema de inferencia estad´ıstica. Definamos, pues, algunos conceptos b´asicos siguiendo la estructura del libro Nogales (1998) [?]. Definici´ on 1.1. a) Una estructura estad´ıstica es una terna (Ω, A, P), donde (Ω, A) es un espacio medible y P una familia de probabilidades sobre ´el. Al espacio medible (Ω, A) lo llamaremos espacio de las observaciones, los elementos de Ω se suelen llamar observaciones y los de A, sucesos. En ocasiones se escribe la familia P en la forma {Pθ : θ ∈ Θ}; en ese caso, el ´ındice θ se suele llamar par´ ametro, mientras que Θ se denomina espacio de par´ ametros. b) Un estad´ıstico sobre esa estructura estad´ıstica es una funci´on medible T (o variable aleatoria, en lenguaje probabil´ıstico) definida en (Ω, A) y a valores en otro espacio medible (Ω0 , A0 ). Entenderemos en lo sucesivo que una aplicaci´ on T : Ω → Ω0 escrita en la forma T : (Ω, A) → (Ω0 , A0 ) es (A, A0 )-medible; en ese caso, la estructura estad´ıstica (Ω0 , A0 , {P T : P ∈ P}) se denomina estructura imagen del estad´ıstico T , donde P T denota la distribuci´ on de probabilidad (o distribuci´on, a secas) de T respecto a P , definida por P T (A0 ) = P (T −1 (A0 )) = P ({ω : T (ω) ∈ A0 }), para cada A0 ∈ A0 . 1
2
Preliminares
Definici´ on 1.2. Se llama funci´ on de distribuci´ on de probabilidad a cualquier funci´on F : R −→ [0, 1] que verifique: 1. F es no decreciente. 2. F es continua por la derecha. 3.
l´ım F (x) = 0.
x→−∞
4. l´ım F (x) = 1. x→∞
Es sencillo ver que dada una probabilidad P en (R, R), la funci´on F (x) = P ((−∞, x]) es una funci´on de distribuci´ on. Se dice que F es la funci´ on de distribuci´on asociada a una variable aleatoria X : Ω −→ R si viene X inducida por P ; es decir, si F (x) = P X ((−∞, x]) = P (X ≤ x), ∀x ∈ R. Definici´ on 1.3. Sean (Ω, A) un espacio medible y µ una medida sobre ´el. Una densidad (de probabilidad ) ¯ tal que f > 0 µ-c.s. y verifique respecto a la medida µ es una funci´ on medible f : (Ω, A) → R Z f (ω)dµ(ω) = 1. Ω
En ese caso, Z Pf (A) =
f (ω)dµ(ω),
A ∈ A,
A
define una probabilidad en A, y se dice que f es una densidad de Pf respecto a µ. Si Pf = P X tambi´en se dice que f es la densidad de la variable aleatoria X. Si la funci´ on de distribuci´ on F de una variable aleatoria X es absolutamente continua, ser´a derivable en casi todo punto. Si adem´ as f es la densidad de X, entonces Z
x
F (x) = P (X ≤ x) =
f (s) ds
x ∈ R,
−∞
y por tanto F 0 (x) = f (x)
c.s.
Ambas propiedades ser´ an utilizadas a lo largo de todo el presente trabajo continuamente. Definici´ on 1.4. Una muestra de tama˜ no n sobre un espacio de probabilidad (Ω, A, P ) (resp., sobre una estructura estad´ıstica (Ω, A, P)) es una colecci´on X1 , . . . , Xn de n variables aleatorias (resp., estad´ısticos) independientes e id´enticamente distribuidas (abreviado, iid) a valores en un mismo espacio medible, donde independientes e id´enticamente distribuidas en el caso estad´ıstico significa P -iid, para cada P ∈ P. Definici´ on 1.5. Sean (Ω, A, {Pθ : θ ∈ Θ}) una estructura estad´ıstica, (Ω0 , A0 ) un espacio medible y on. Un estimador de ϕ es un estad´ıstico T : (Ω, A) → (Ω0 , A0 ). A la aplicaϕ : Θ → (Ω0 , A0 ) una aplicaci´ ci´ on ϕ se le llama estimando y, para cada observaci´on ω ∈ Ω, diremos que T (ω) es una estimaci´ on de ϕ. En estad´ıstica asint´ otica, se llama tambi´en estimador de ϕ a una sucesi´on (Tn ) de estimadores de ϕ en el sentido anterior.
1.2. Criterios de error
3
Definici´ on 1.6. Sea X una variable aleatoria definida en un espacio de probabilidad (Ω, A, P ), entonces la esperanza o valor esperado de X, que se denota como E[X] o EP [X], se define del siguiente modo: Z EP [X] = X dP. Ω
La esperanza de X verifica una serie de propiedades b´asicas, derivadas de las propiedades de las integrales, como el ser un operador lineal o ser un operador mon´otono, entre otras propiedades. Pueden consultarse en P´erez (1986) [?]. Definici´ on 1.7. Un estimador T de ϕ en la estructura estad´ıstica (Ω, A, P) se dice insesgado o centrado si verifica que EP [T ] = ϕ(P ), ∀P ∈ P De acuerdo a esta definici´ on, podemos definir el sesgo de un estimador: Definici´ on 1.8. Se denomina sesgo de un estimador T de ϕ, y se denota B(T ) o BP (T ), a la diferencia entre el valor esperado de T y el par´ ametro ϕ: B(T ) = E[T ] − ϕ. Definici´ on 1.9. Dada una variable aleatoria X con esperanza E[X], la varianza de X, que se denota por V ar(X) o V arP (X), viene definida mediante la siguiente expresi´on: h 2 i V ar(X) = E X − E[X] . Una descomposici´ on de la varianza muy habitual es: V ar(X) = E[X 2 ] − (E[X])2 .
1.2.
Criterios de error
Definici´ on 1.10. Llamaremos estimador de una funci´on de distribuci´on F a cualquier funci´on medible Gn : R × Rn −→ [0, 1] (x; x1 , . . . , xn ) → Gn (x; x1 , . . . , xn ) Para estudiar c´ omo de bueno es un estimador, es inevitable la selecci´on de criterios que nos permitan comparar entre varios estimadores en la b´ usqueda del estimador ´optimo. Hasta el presente, y debido a la subjetividad de la elecci´ on de los criterios del error, no se ha llegado a un consenso entre los diversos investigadores del ´ area existiendo dos grandes l´ıneas que optan por criterios que minimizan el error uniforme o el error cuadr´ atico de la estimaci´ on. Cuando utilizamos estimadores sesgados en una estimaci´on param´etrica, el criterio de minimizar la varianza es, a veces, sustituido por el criterio de minimizar el error cuadr´atico medio (MSE), que es la
4
Preliminares
suma de la varianza y del sesgo al cuadrado como vemos a continuaci´on. Puntualmente, dada una sucesi´on de estimadores Gn de la funci´ on de distribuci´on F , la precisi´on del estimador Gn se mide mediante M SE{Gn (x)} = E[{Gn (x) − F (x)}2 ] = V ar(Gn (x)) + B 2 (Gn (x)) donde recordemos que B(Gn (x)) = E[Gn (x)] − F (x). Esta ecuaci´ on afronta el problema de la estimaci´on no param´etrica de una forma puntual. Sin embargo, el inter´es de la estimaci´ on funcional radica en obtener una estimaci´on de la distribuci´on completa; por tanto, se hace necesario recurrir a criterios de error globales, como pueden ser los mencionados a continuaci´ on y cuyas definiciones se dar´ an de inmediato, una vez tenemos una sucesi´on de estimadores Gn de nuestra funci´ on de distribuci´ on F : kGn − F k1 , kGn − F k2 o kGn − F k∞ . Antes de pasar a definir los distintos tipos de criterios de error que se pueden considerar para un estimador, expondremos algunos conceptos previos. Definici´ on 1.11. Sea (Ω, A, µ) un espacio de medida. Dado 1 ≤ p < ∞, decimos que una funci´on G : (Ω, A) → R pertenece a Lp si verifica Z p |G| dµ < ∞. Ω
Definici´ on 1.12. Sea (Ω, A, µ) un espacio de medida. Decimos que una funci´on G : (Ω, A) → R pertenece ∞ a L si verifica sup G(ω) < ∞. ω∈Ω
´Intimamente relacionados con estos espacios figuran los conceptos de norma de una funci´on. Dicho concepto, que definiremos a continuaci´ on, nos permitir´an valorar la precisi´on de un estimador midiendo el error que comete como tal con respecto a la verdadera funci´on desconocida. Definici´ on 1.13. Sea (Ω, A, µ) un espacio de medida. Dado 1 ≤ p < ∞ y una funci´on G de Lp se llama norma p de G a Z 1/p p kGkp = |G| dµ Ω
An´ alogamente, podemos definir la norma infinito: Definici´ on 1.14. Sea (Ω, A, µ) un espacio de medida. Dada una funci´on G de L∞ se llama norma infinito de G a kGk∞ = sup |G(ω)| ω∈Ω
Se˜ nalar que aunque la definici´ on de kGk∞ es a trav´es del supremo esencial, en el presente trabajo dicho supremo esencial coincide con el supremo a secas ya que trabajamos con funciones de distribuci´on. Cuando el espacio de medida es (R, R) con la medida de Lebesgue y Gn y F son dos funciones de distribuci´ on, observar que kGn −F k∞ siempre estar´a bien definido pues ´estas toman valores en el intervalo [0, 1].
1.2. Criterios de error
5
Considerando, por tanto, la distancia L∞ definimos el error absoluto uniforme como U AE{Gn } = sup |Gn (x) − F (x)| . x∈R
Como este criterio depende de la muestra, es habitual utilizar el error absoluto uniforme medio definido como h i M U AE{Gn } = E sup |Gn (x) − F (x)| . x∈R
Por otro lado, los otros dos criterios kGn − F k1 y kGn − F k2 e incluso kGn − F kp ∀p ≥ 1 tambi´en estar´ an bien definidos sin m´ as que exigir que tanto Gn como F sean absolutamente continuas y tengan media finita. Ve´ amoslo en el siguiente lema: Lema 1.15. Sean F y Gn funciones de distribuci´ on con densidades f y gn respectivamente. Si F y Gn tienen media finita entonces kGn − F kp < ∞
∀p ≥ 1
Demostraci´ on. Comencemos viendo que Z ∞ Z ∞ Z x dx g (t) − f (t) dt |Gn (x) − F (x)| dx = n −∞ 0 0 Z ∞ Z ∞ Z ∞ 1 − dx = g (t) dt − 1 + f (t) dt n 0 x x Z ∞Z ∞ Z ∞ Z ∞ |gn (t) − f (t)| dt dx f (t) − gn (t) dt dx ≤ = 0
∞
Z
Z
0
x ∞
Z
x
∞
Z
t
≤
|gn (t)| + |f (t)| dt dx = |gn (t)| + |f (t)| dx dt 0 x 0 0 Z ∞ Z ∞ Z ∞ = t |gn (t)| + t |f (t)| dt = t |gn (t)| dt + t |f (t)| dt < ∞ 0
0
0
donde hemos utilizado el Teorema de Fubini para intercambiar el orden de integraci´on y donde la u ´ltima desigualdad es debido a la hip´ otesis de que F y Gn tienen media finita. An´ alogamente, Z 0 Z 0 Z x Z 0 Z x dx ≤ |Gn (x) − F (x)| dx = g (t) − f (t) dt |gn (t) − f (t)| dt dx n −∞
−∞ 0
Z
Z
−∞ x
−∞ 0
Z
−∞ 0
Z
|f (t)| + |gn (t)| dt dx =
= −∞ Z 0
−∞
|f (t)| + |gn (t)| dx dt −∞
t
−t |f (t)| − t |gn (t)| dt < ∞
= −∞
con lo que queda probado que Gn − F ∈ L1 . Como Gn y F son acotadas por ser funciones de distribuci´on, tenemos que:
6
Preliminares
kGn −
F kpp
Z
Z
p
p−1
|Gn (x) − F (x)| dx =
=
|Gn (x) − F (x)|
R
|Gn (x) − F (x)| dx
R
Z ≤1
|Gn (x) − F (x)| dx < ∞
∀p ∈ N
R
Si tomamos como herramienta de medida del error kGn − F k1 , para cada muestra el error absoluto integrado viene dado por Z IAE{Gn } = |Gn (x) − F (x)| dx R
Debido a que este criterio es aleatorio pues depende de la muestra, es preferible utilizar su media Z M IAE{Gn } = E
|Gn (x) − F (x)| dx R
Este criterio no est´ a tan desarrollado en la literatura cient´ıfica actual como L2 y L∞ , aunque se conocen algunos resultados que ponen de manifiesto la relaci´on entre este criterio y la m´etrica de Wasserstein. Para una mayor profundizaci´ on pueden verse algunas propiedades y resultados asint´oticos en del Barrio, Gin´e y Matr´ an (1999) [?]. Tambi´en podemos pensar en considerar la distancia L2 para el estudio del error cometido por el estimador. As´ı, para cada muestra, definimos el error cuadr´ atico integrado como Z
[Gn (x) − F (x)]2 dx
ISE{Gn } = R
donde recordemos que Gn es el estimador de la funci´on de distribuci´on desconocida F . Nuestro objetivo, sin embargo, ser´ a estudiar el error cuadr´ atico integrado medio Z M ISE{Gn } = E
[Gn (x) − F (x)]2 dx
R
Nos centraremos en este u ´ltimo por ser ampliamente utilizado y por su facilidad de manipulaci´on. T´engase en cuenta adem´ as que el integrando es no negativo, por lo que el orden de integraci´on y la esperanza pueden intercambiarse aplicando el Teorema de Fubini. De este modo:
Z hZ i Z M ISE{Gn } = E [Gn (x) − F (x)]2 dx = E[{Gn (x) − F (x)}2 ] dx = M SE{Gn (x)} dx R R R Z Z = V ar{Gn (x)} dx + B 2 {Gn (x)} dx = IV (Gn ) + IB 2 (Gn ) R
R
donde IV (Gn ) e IB 2 (Gn ) se denominan varianza integrada y sesgo cuadr´atico integrado respectivamente.
1.3. La funci´ on de distribuci´ on emp´ırica
1.3.
7
La funci´ on de distribuci´ on emp´ırica
Supongamos que tenemos una variable aleatoria X con funci´on de distribuci´on desconocida F (t) = P (X ≤ t), y disponemos de una muestra X1 , . . . , Xn de la distribuci´on definida por F . Consideremos ahora el problema de estudiar el error cometido al estimar la distribuci´on desconocida F mediante un estimador Gn : (R × Rn , R × Rn ) −→ (R, R). El estimador natural consistir´a en contar la proporci´ on de observaciones que son menores o iguales que t, es decir, n
Fn (x) =
1X I(−∞,x] (Xi ) n i=1
donde IA es la funci´ on indicador del conjunto A. La funci´ on Fn es conocida como funci´ on de distribuci´ on emp´ırica y, claramente, es una funci´on escalonada que toma valores en [0, 1]. Definimos ahora Zi (x) = I(−∞,x] (Xi ), las cuales son variables aleatorias independientes e id´enticamente distribuidas, pues lo eran las Xi , y su esperanza es E[Zi ] = P (X ≤ x) = F (x) ≤ 1. En consecuencia estamos en situaci´ on de poder aplicar la Ley de los Grandes N´ umeros llegando a que n 1 X (Zi (x) − EZi (x)) → 0 |Fn (x) − F (x)| = n i=1
c.s.
cuando n → ∞. Esto significa que podemos estimar de modo consistente una funci´on de distribuci´on arbitraria en cualquier punto x. Por otro lado, sabemos que M SE{Fn (x)} = V ar(Fn (x)) + B 2 (Fn (x)), donde B(Fn (x)) = 0 ya que podemos ver que Fn (x) es un estimador insesgado de F (x): n h1 X i I(−∞,x] (Xi ) = E[I(−∞,x] (X)] = P (X ∈ (−∞, x]) = F (x) E[Fn (x)] = E n i=1
y donde su varianza es V ar[Fn (x)] =
1 F (x)(1 − F (x)) n
Puede probarse que no existe ning´ un otro estimador insesgado con menor varianza. Adem´ as, gracias al Teorema Central del L´ımite, se establece que √
n(Fn (x) − F (x)) →d N (0, F (x)(1 − F (x)))
para cada x fijo.
Pero es m´ as, podemos enunciar a continuaci´on el Teorema Fundamental de la Estad´ıstica Matem´atica:
8
Preliminares
Teorema 1.16 (Teorema de Glivenko-Cantelli (1933)). Sean X1 , . . . , Xn variables aleatorias i.i.d. con funci´ on de distribuci´ on F . Entonces kFn − F k∞ = sup |Fn (x) − F (x)| → 0
c.s.
x∈R
cuando n → ∞. Demostraci´ on. Su demostraci´ on puede verse en Van der Vaart (1998) [?].
El Teorema de Glivenko-Cantelli nos proporciona un resultado de consistencia para Fn en L∞ , pero no especifica a qu´e velocidad converge dicho l´ımite. Para ello, disponemos de otros resultados como el que podemos encontrar en Nickl (2010) [?] : Teorema 1.17 (Desigualdad de Dvoretzky, Kiefer y Wolfowitz). Sean X1 , . . . , Xn variables aleatorias i.i.d. con funci´ on de distribuci´ on F . Entonces, para cada n ∈ N y cada λ ≥ 0, P
√
n sup |Fn (x) − F (x)| > λ ≤ 2exp{−2λ2 }. x∈R
Demostraci´ on. Una demostraci´ on para este resultado puede encontrarse en Massart (1990) [?].
Respecto al error cuadr´ atico integrado, para la funci´on de distribuci´on emp´ırica, Fn , tenemos que
M ISE{Fn } =
1 n
Z F (x)[1 − F (x)] dx, R
y adem´ as es finito sin m´ as que suponer que F tenga media finita. Veamos esto u ´ltimo en el siguiente resultado. Lema 1.18. Sea F una funci´ on de distribuci´ on con densidad f , y supongamos que dicha distribuci´ on R R tiene media finita, es decir, R |z| dF (z) < ∞. Entonces, ψ(F ) = R F (z)(1 − F (z)) dz < ∞. R Si R z dF (z) = 0 entonces podemos expresar Z ψ(F ) = 2
R R
f (z1 )f (z2 ) m´ax{z1 , z2 }dz1 dz2
zf (z)F (z)dz = R
Demostraci´ on. Que
Z Z R
|z| dF (z) < ∞ significa que
R
R R
|z| f (z) dz < ∞. Ahora bien, como
1.3. La funci´ on de distribuci´ on emp´ırica
Z
Z Z
9
x
Z
F (x)(1 − F (x))dx = R
∞
f (v)dvdx
f (u)du −∞
R
x
Z Z Z =
f (u)I(−∞,x) (u)f (v)I(x,∞) (v)dvdudx ZR ZR ZR
=
f (u)f (v)I(u,v) (x)I(−∞,v) (u)dxdvdu Z v = f (u)f (v)I(−∞,v) (u) dxdvdu u ZR R Z = f (u) f (v)(v − u)I(−∞,v) (u)dvdu R R Z Z Z Z = f (u)f (v)vI(−∞,v) (u)dvdu − f (u)f (v)uI(−∞,v) (u)dvdu ZR R Z Z v ZR R uf (u) f (v)I(−∞,v) (u)dvdu f (u)dudv − vf (v) = R R −∞ R Z Z Z ∞ = vf (v)F (v)dv − uf (u) f (v)dvdu u ZR ZR = vf (v)F (v)dv − uf (u)(1 − F (u))du R R Z Z Z = vf (v)F (v)dv − uf (u)du + uf (u)F (u)du R R R Z Z = 2 zf (z)F (z)dz − uf (u)du ZR ZR
R
R
R
entonces Z
Z
Z
F (z)(1 − F (z)) dz = 2
zf (z)F (z)dz −
uf (u)du Z ≤ 2 |zf (z)F (z)| dz + |uf (u)| du R ZR Z ≤ 2 |zf (z)| dz + |uf (u)| du R ZR = 3 |zf (z)| dz < ∞
R
ZR
R
R
Para demostrar la primera de la triple igualdad, y de acuerdo a los c´alculos anteriores, Z
Z
F (x)(1 − F (x))dx = 2 R Z = 2 zf (z)F (z)dz, R
por ser f sim´etrica.
Z zf (z)F (z)dz −
R
uf (u)du R
10
Preliminares Para la segunda igualdad, razonamos del siguiente modo, Z Z R
R
f (z1 )f (z2 ) m´ ax{z1 , z2 }dz1 dz2 Z Z z2 Z Z ∞ = f (z1 )f (z2 ) m´ ax{z1 , z2 }dz1 dz2 + f (z1 )f (z2 ) m´ax{z1 , z2 }dz1 dz2 R −∞ R z2 Z Z z2 Z Z ∞ = f (z1 )f (z2 )z2 dz1 dz2 + f (z1 )f (z2 )z1 dz1 dz2 R −∞ R z2 Z Z Z z1 = F (z2 )f (z2 )z2 dz2 + f (z1 )f (z2 )z1 dz2 dz1 R R −∞ Z = 2 zf (z)F (z)dz = ψ(F ) R
1.4.
El estimador n´ ucleo de la distribuci´ on
Existe una extensa bibliograf´ıa cient´ıfica que trata el problema de la estimaci´on de densidades desde diversos puntos de vista. La herramienta m´ as utilizada en dicho campo hoy d´ıa son los estimadores n´ ucleo. Disponemos de un gran abanico de escritos que tratan sobre dichos estimadores; puede consultarse Prakasa Rao (1983) [?], Silverman (1986) [?] o Chac´ on (2004) [?]. R Definici´ on 1.19. Llamamos n´ ucleo a cualquier funci´on k ∈ L1 tal que R k(x) dx = 1. A partir de ahora, siempre consideraremos n´ ucleos que verifiquen k ≥ 0, es decir, n´ ucleos que sean densidades. Definici´ on 1.20. Dados un n´ ucleo k y un n´ umero real h > 0, llamaremos estimador n´ ucleo de la densidad f , con n´ ucleo k y ancho de banda h al estimador definido por n
fn,k,h : (x; x1 , . . . , xn ) ∈ R × Rn 7→
1 X x − xi k ∈ R, nh i=1 h
que escribiremos de modo abreviado como n
fnh (x) =
1 X x − xi k . nh i=1 h
Observar que dicho estimador, por definici´on de n´ ucleo, es tambi´en una densidad si k ≥ 0. Ahora bien, este estimador induce otro para las funciones de distribuci´on de modo inmediato: el estimador n´ ucleo de la distribuci´ on. Es sobre este estimador sobre el que versa todo el presente trabajo. Pasemos, pues, a definirlo inmediatamente. Definici´ on 1.21. Con la notaci´ on utilizada en la anterior definici´on y dado el estimador n´ ucleo fnh de la densidad f , podemos definir el estimador n´ ucleo de la distribuci´ on como Z x fnh (t) dt. Fnh (x) = −∞
1.4. El estimador n´ ucleo de la distribuci´ on
11
Desarrollemos algo m´ as esta definici´ on para dar una forma equivalente de definir el estimador n´ ucleo de la distribuci´ on:
Z
x
Z
Fnh (x) = −∞ n
1X = n i=1 donde K(x) =
Rx −∞
x
fnh (t) dt = −∞
Z
n
n
1 X 1 X t − xi dt = k nh i=1 h nh i=1
x−xi h
Z
x
k
t − x i
h
−∞
dt
n
k(y) dy = −∞
1 X x − xi , K n i=1 h
k(t) dt y donde hemos realizado el cambio de variable y =
t−xi h .
De acuerdo a lo anterior, tenemos otra definici´on equivalente de estimador n´ ucleo de la distribuci´on que damos a continuaci´ on. Definici´ on 1.22. Consideramos una funci´on de distribuci´on K y un n´ umero real h > 0. En estas condiciones, llamaremos estimador n´ ucleo de la distribuci´ on F , con distribuci´on n´ ucleo K y ancho de banda h al estimador definido por n
Fn,K,h : (x; x1 , . . . , xn ) ∈ R × Rn 7→
1 X x − xi K ∈ R, n i=1 h
que escribiremos de modo abreviado como n
Fnh (x) =
1 X x − xi K . n i=1 h
Es obvio que, al ser K una funci´ on de distribuci´on, entonces el estimador n´ ucleo Fnh tambi´en es una distribuci´ on. Basta con ver que Fnh cumple efectivamente los requisitos exigibles a una funci´on para ser distribuci´ on. La definici´ on del estimador Fnh , v´ alido para h > 0, puede extenderse al caso h = 0. Podemos escribir Z Z x − y Fnh (x) = K dFn (y) = k(z)Fn (x − hz) dz, h donde hemos utilizado Z Z I[0,+∞) (x − hz − Xi ) dK(z) = {z≤(x−Xi )/h}
dK(z) = K
x − X i
h
,
como aparece en Chac´ on & Rodr´ıguez-Casal (2010) [?], de modo que, para h = 0, Fnh coincide con Fn . Uno de los inconvenientes principales de Fn es que, mientras que F puede ser continua, Fn siempre es discontinua. En el siguiente gr´ afico, podemos comparar para una muestra de tama˜ no 20 procedente de una distribuci´ on N (0, 1), la verdadera funci´ on de distribuci´on Φ(x), junto a los estimadores Fn y Fnh , apreci´andose c´ omo el estimador n´ ucleo parece aproximarse m´as a la verdadera distribuci´on.
12
Preliminares
1.0
Comparativa entre Φ, Fnh y Fn
0.0
0.2
0.4
F(x)
0.6
0.8
Φ Fnh Fn
−3
−2
−1
0
1
2
3
x
Figura 1.1: Comparativa entre Φ, Fn y Fnh
A la hora de estudiar la precisi´ on de Fnh como estimador de la funci´on de distribuci´on desconocida F mediante el criterio del M ISE, Jones (1990) [?] demuestra que el K ´optimo es el correspondiente a la distribuci´ on uniforme
K(x) =
0
√ x 0 ´ optimo. El criterio que seguiremos ser´a escogerlo de modo que minimice el M ISE cometido al utilizar el estimador n´ ucleo Fnh para estimar F . Es inmediato que M ISE{Fnh } ≡ M ISE(F ; K, n, h) es una cantidad que depender´a fuertemente del ancho de banda h tomado; por ello abreviaremos como M ISE(h) a partir de ahora. El estudio del mismo se desarrollar´ a extensamente en el Cap´ıtulo 2. Fijadas, pues, F , K y n, tenemos una funci´on real
M ISE : [0, ∞) ⊂ R → R.
Supongamos que dicha funci´ on M ISE tiene un punto donde se alcanza su m´ınimo, punto que denotaremos hM ISE (como expresi´ on abreviada de hM ISE (F ; K, n)), y que ser´a, por tanto, el que verifique
M ISE(hM ISE ) ≤ M ISE(h),
∀h > 0.
El valor de ancho de banda h = hM ISE ∈ (0, ∞) es, por tanto, el valor ´optimo a utilizar en el estimador Fnh para estimar la distribuci´ on. Sin embargo, es claro que dicho ancho de banda depende de n y tambi´en de F , que es desconocida desde el punto de vista estad´ıstico. En dicho sentido, podemos decir que el problema de elecci´ on del ancho de banda ´optimo es equivalente al problema mismo de la estimaci´ on de la distribuci´ on, ya que para determinar totalmente hM ISE necesitar´ıamos conocer F .
En la Figura ?? se muestra la gr´ afica de la funci´on M ISE(h) cuando n = 20, F = Φ y K es el n´ ucleo correspondiente a la distribuci´ on uniforme. El M ISE de Fn se refleja en el valor M ISE(0) y se observa claramente c´ omo una buena elecci´on de h puede mejorar sensiblemente dicho error, ya que M ISE(0) = 0,02848 y M ISE(hM ISE ) = 0,01894. Es m´as, el estimador Fnh comete menor error que Fn no s´ olo para hM ISE , sino para un amplio rango de valores de h.
14
Preliminares
0.030
0.035
Elección del h óptimo
0.020
0.025
MISE(h)
●
0.0
0.2
0.4
0.6
0.8
1.0
h
Figura 1.2: Problema de la elecci´on de hM ISE En el siguiente cap´ıtulo se establecen condiciones que aseguran la existencia de al menos un h que minimice el M ISE y se describen tambi´en con detalle las propiedades de dicho ancho de banda ´optimo.
Cap´ıtulo 2
El ancho de banda o ´ptimo 2.1.
Existencia y comportamiento l´ımite del ancho de banda o ´ptimo
En primer lugar indiquemos que, a partir de este punto y por cuesti´on de notaci´on, cada vez que R R escribamos sin especificar los l´ımites de integraci´on estaremos denotando R . Comencemos recordando que en el cap´ıtulo primero hemos visto que podemos escribir M ISE(h) = IB 2 (h) + IV (h), donde IB 2 (h) =
Z
[EFnh (x) − F (x)]2 dx
y
Z IV (h) =
V ar(Fnh (x)) dx
se denominan sesgo cuadr´ atico integrado y varianza integrada, respectivamente. Recordemos adem´ as que en la definici´ on del estimador n´ ucleo de la distribuci´on figura una funci´on k la cual es densidad de K y, por tanto, k integra 1 y es no negativa. A partir de este momento, supondremos en el desarrollo de todo el cap´ıtulo que F y K tienen densidades f y k, respectivamente. A continuaci´ on, proporcionaremos en esta secci´on dos lemas con desarrollos de IB 2 (h) y de IB 2 (h) + nIV (h) necesarios para la demostraci´ on de la siguiente proposici´on que nos informar´a sobre el comportamineto asint´ otico del M ISE(h). Para ello, utilizaremos continuamente el siguiente resultado: Teorema 2.1. (Teorema de Taylor con resto en forma integral). Sea f una funci´ on n-veces (n) derivable con f continua. En tales circunstancias, podemos escribir f (x + h) = f (x) + f 0 (x)h + donde Rn =
f n−1 (x) n−1 f 00 (x) 2 h + ··· + h + Rn−1 , 2 (n − 1)!
hn (n − 1)!
Z
1
(1 − t)n−1 f (n) (x + ht) dt.
0
15
x, h ∈ R,
16
El ancho de banda ´optimo
Demostraci´ on. Una demostraci´ on de este resultado puede verse en Ap´ostol (1991) [?]. Veamos en los dos siguientes lemas los desarrollos antes mencionados. Lema 2.2. Con la notaci´ on utilizada hasta el momento ZZZZ 1 2 IB (h) = −h uk(u)k(v)[F (y + uht − vh) − F (y + uht)] dt du dv dF (y)
(2.1)
0
Demostraci´ on. Recordemos que, por definici´on, al tener F densidad, F (x) = Rx k(y)dy. Podemos escribir la esperanza de Fnh como: −∞
Rx −∞
f (y)dy, K(x) =
Z Z (x−y)/h x − y x − X Z 1 k(z)f (y)dzdy = K f (y) dy = EFnh (x) = EK h h −∞ ZZ ZZ = k(z)f (y)I{z≤(x−y)/h} dz dy = k(z)f (y)I{y≤x−hz} dy dz x−hz
ZZ =
Z k(z)f (y) dy dz =
k(z)F (x − hz) dz.
−∞
donde hemos utilizado el Teorema de Fubini para cambiar el orden de integraci´on. De acuerdo al desarrollo realizado en (??) de EFnh (h), Z Z hZ i2 2 2 IB (h) = [EFnh (x) − F (x)] dx = k(u)F (x − uh) du − F (x) dx Z hZ i2 = k(u) F (x − uh) − F (x) du dx Z hZ i ih Z k(v) F (x − vh) − F (x) dv dx. = k(u) F (x − uh) − F (x) du De acuerdo al desarrollo de Taylor de F (x − uh), Z F (x − uh) = F (x) − uh
1
f (x − uht) dt 0
tenemos que IB 2 (h) =
Z hZ
Z k(u) − uh
1
i ih Z k(v) F (x − vh) − F (x) dv dx f (x − uht) dt du
0
= −h
Z h ZZ
1
i ih Z k(v) F (x − vh) − F (x) dv dx uk(u)f (x − uht) dt du
0 1
ZZZZ = −h
uk(u)k(v)f (x − uht)[F (x − vh) − F (x)] dt du dv dx 0
Realizando ahora el cambio de variable y = x − uht obtenemos
IB 2 (h) = −h
1
ZZZZ
uk(u)k(v)f (y)[F (y + uht − vh) − F (y + uht)] dt du dv dy 0 1
ZZZZ = −h
uk(u)k(v)[F (y + uht − vh) − F (y + uht)] dt du dv dF (y) 0
(2.2)
2.1. Existencia y comportamiento l´ımite del ancho de banda ´optimo
17
Lema 2.3. En las condiciones del lema anterior 1
ZZZ
2
IB (h) + nIV (h) = ψ(F ) − hψ(K) + 2h
uk(u)F (y + uht)dtdudF (y)
(2.3)
0
Demostraci´ on. Podemos escribir la varianza
Var[Fnh (x)] =
x − X i2 o h x − X i 1 n h x − X1 2 i h 1 1 1 = E K − EK . Var K n h n h h
(2.4)
Respecto al primer sumando, 2 Z Z (x−y)/h h x − X 2 i Z x − y 2 1 E K = K f (y)dy = k(z)dz f (y)dy h h −∞ Z Z (x−y)/h Z (x−y)/h = k(z1 )k(z2 )f (y)dz1 dz2 dy −∞ −∞ ZZZ = k(z1 )k(z2 )f (y)I{y≤x−hz1 } I{y≤x−hz2 } dz1 dz2 dy ZZ = k(z1 )k(z2 )F (x − h m´ax{z1 , z2 })dz1 dz2 (ya que I{y≤x−hz1 } I{y≤x−hz2 } = I{y≤x−h m´ax{z1 ,z2 }} ) ZZZ 1 = F (x) − h k(z1 )k(z2 ) m´ax{z1 , z2 }f (x − ht m´ax{z1 , z2 })dtdz1 dz2 0
donde la u ´ltima igualdad es debida al desarrollo de Taylor de F , Z F (x − h m´ ax{z1 , z2 }) = F (x) − h m´ax{z1 , z2 }
1
f (x − ht m´ax{z1 , z2 })dt. 0
Utilizando lo anterior y la f´ ormula (??), Z
2
2
(EFnh (x) − F (x)) dx + n
IB (h) + nIV (h) = Z
Z V ar(Fnh (x)) dx
(EFnh (x) − F (x))2 dx Z n h x − X i2 o x − X1 2 i h 1 1 E K − EK dx +n n h h =
(2.5)
18
El ancho de banda ´optimo Z nh x − X i2 1 EK + F 2 (x) − 2F (x)EFnh (x) h x − X i2 o h x − X 2 i h 1 1 − EK dx +E K h h Z Z n F 2 (x) − 2F (x) k(u)F (x − hu) du + F (x) = Z Z Z 1 o f (x − ht m´ax{z1 , z2 })dtdz1 dz2 dx −h k(z1 )k(z2 ) m´ ax{z1 , z2 } =
R
0
R
Z Z Z n F 2 (x) − 2F 2 (x) + 2F (x) huk(u) =
1
f (x − uht) dt du + F (x)
0
Z Z −h
Z k(z1 )k(z2 ) m´ ax{z1 , z2 }
R
1
o f (x − ht m´ax{z1 , z2 })dtdz1 dz2 dx
0
R 1
ZZZ = ψ(F ) − hψ(K) + 2h
uk(u)F (x)f (x − uht) dt du dx 0 1
ZZZ = ψ(F ) − hψ(K) + 2h
uk(u)F (y + hut)f (y) dt du dy 0 1
ZZZ = ψ(F ) − hψ(K) + 2h
uk(u)F (y + hut) dt du dF (y) 0
donde la pen´ ultima igualdad ha sido debida la cambio de variable y = x − hut.
El Lema (??) nos sirve para describir el comportamiento l´ımite de la funci´on IB 2 (h). Lema 2.4. Suponiendo las condiciones del Lema ?? se verifica que IB 2 es una funci´ on continua de h y cumple que: 1. l´ım IB 2 (h) = 0. h→0
2. l´ım IB 2 (h) = +∞. h→∞
Demostraci´ on. De acuerdo al desarrollo del Lema ?? sabemos que ZZZZ 1 IB 2 (h) = −h uk(u)k(v)[F (y + uht − vh) − F (y + uht)] dt du dv dF (y). 0
y adem´ as |F (y + uht − vh) − F (y + uht)| ≤ 1, pues F es funci´on de distribuci´on. Por tanto, |uk(u)k(v)[F (y + uht − vh) − F (y + uht)]| ≤ |uk(u)k(v)| , con lo que ZZZZ 1 Z |u| |k(u)| |k(v)| dt du dv dF (y) = |u| |k(u)| du < ∞ 0
y concluimos, aplicando el Teorema de la Convergencia Dominada, que IB 2 (h) es continua con respecto a h en (0, +∞). Para el primer l´ımite, como F es continua tenemos ZZZZ 1 l´ım IB 2 (h) = l´ım −h uk(u)k(v)[F (y + uht − vh) − F (y + uht)] dt du dv dF (y) = 0 h→0
h→0
0
2.1. Existencia y comportamiento l´ımite del ancho de banda ´optimo
19
donde la integral y el l´ımite conmutan por el Teorema de la Convergencia Dominada razonando de modo an´ alogo a como hemos hecho anteriormente. Para el segundo l´ımite, razonamos del siguiente modo. Teniendo en cuenta la expresi´on para EFnh (x) dada en (??) y que F es continua por hip´ otesis, tenemos que Z l´ım EFnh (x) = k(z) l´ım F (x − hz) dz h→∞ h→∞ Z 0 Z ∞ = k(z) l´ım F (x − hz) dz + k(z) l´ım F (x − hz) dz −∞ 0
h→∞
Z =
k(z) dz = K(0) = −∞
0
h→∞
1 , 2
R
ya que k es sim´etrica y k = 1. Adem´ as, el l´ımite y la integral han conmutado porque F (x − hz) ≤ 1 y R k(z) dz = 1. Aplicando ahora el Lema de Fatou a IB 2 obtenemos que Z Z Z l´ım inf Bx2 (h)dx = l´ım inf (EFnh (x) − F (x))2 dx ≥ l´ım inf (EFnh (x) − F (x))2 dx h→+∞ h→+∞ h→+∞ Z Z Z ∞ 1 2 2 = (K(0) − F (x)) dx = ( − F (x)) dx ≥ (1/4)2 = +∞ (2.6) 2 x0 donde para la u ´ltima desigualdad hemos usado que, como F (x) −→ 1 cuando x → ∞, tenemos que existe x0 tal que 1 1 ∀x ≥ x0 . F (x) − > 2 4
Utilicemos el lema anterior junto al Lema ?? para analizar el comportamiento l´ımite del M ISE. R R Teorema 2.5. Si se verifica que |x| dF (x) < ∞ y |u| |k(u)| du < ∞ entonces ∀n ∈ N, M ISE es una funci´ on real y continua en (0, +∞) tal que: i −1 1h 1 M ISE(h) − ψ(F ) = ψ(K) h→0 h n n
1. l´ım 2.
l´ım M ISE(h) = +∞
h→+∞
Demostraci´ on. Veamos primero que M ISE es continua en (0, +∞). Debido a que IB 2 (h) es continua con respecto a h en (0, +∞) tal y como hemos probado en el Lema ??, para probar que M ISE(h) tambi´en lo es, basta con verlo para IB 2 (h) + nIV (h) ya que podemos descomponer el M ISE(h) del siguiente modo: 1 (nIB 2 (h) + nIV (h)) n 1 1 = (n − 1)IB 2 (h) + (IB 2 (h) + nIV (h)) n n
M ISE(h) = IB 2 (h) + IV (h) =
pero ver que IB 2 (h) + nIV (h) es continua con respecto a h en (0, +∞) es inmediato siguiendo un razonamiento an´ alogo al empleado con el sesgo. Ve´amoslo.
20
El ancho de banda ´optimo
Teniendo en cuenta que IB 2 (h) + nIV (h) descompone del siguiente modo de acuerdo a como hemos probado en el Lema ??, IB 2 (h) + nIV (h) = ψ(F ) − hψ(K) + 2h
1
ZZZ
uk(u)F (y + uht)dtdudF (y), 0
bastar´ a ver que el tercer sumando es continuo con respecto a h en (0, +∞) ya que el primero no depende de h y el segundo es h por una cantidad que no depende de h. R Usando, pues, nuevamente que |u| |k(u)| du < ∞ por hip´otesis, y que |F (y + uht)| ≤ 1 debido a que F es funci´ on de distribuci´ on tenemos que: |uk(u)F (y + uht)| ≤ |uk(u)| , 1
ZZZ
con lo que
Z |u| |k(u)| dt du dF (y) =
|u| |k(u)| du < ∞.
0
Demostremos ahora los dos apartados restantes del presente teorema: 1. De acuerdo a las descomposiciones que hemos dado de M ISE(h), de IB 2 (h) y de IB 2 (h) + nIV (h), adem´ as de que F es continua, tenemos que i 1 1h M ISE(h) − ψ(F ) h→0 h n 1 i 1h1 1 2 = l´ım (n − 1)IB 2 (h) + IB (h) + nIV (h) − ψ(F ) h→0 h n n n h n − 1 ZZZZ 1 = l´ım − uk(u)k(v) F (y + uht − vh) − F (y + uht) dtdudvdF (y) h→0 n 0 ZZ 1 i 1 1 + ψ(F ) − hψ(K) + 2h ψ(F ) uk(u)F (y + uht)dtdudF (y) − nh nh 0 −1 ψ(K) = n l´ım
ya que tanto IB 2 (h) como IB 2 (h) + nIV (h) son funciones continuas respecto a h en (0, +∞). 2. De acuerdo al Lema ?? tenemos que l´ım IB 2 (h) = ∞.
h→∞
Por tanto, concluimos que l´ımh→+∞ M ISE(h) ≥ l´ımh→+∞ IB 2 (h) = +∞.
Fijarse que del anterior resultado se deduce que para h suficientemente peque˜ no, M ISE(h) < M ISE(0) 1 −1 ya que M ISE(0) = ψ(F ) y ψ(K) < 0. n n R R Teorema 2.6. Si se verifica que |x| dF (x) < ∞ y |u| |k(u)| du < ∞, entonces para cada n ∈ N, M ISE(h) tiene un m´ınimo en (0, +∞), es decir, existe un n´ umero real estrictamente positivo, hM ISE , tal que M ISE(hM ISE ) = m´ınh>0 M ISE(h).
2.1. Existencia y comportamiento l´ımite del ancho de banda ´optimo
21
Demostraci´ on. Demostrar que M ISE(h) tiene un m´ınimo en (0, +∞) es equivalente a probar que M (h) := R M ISE(h) − n1 F (x)(1 − F (x))dx tiene un m´ınimo. Pero M (0) = 0 y, por el resultado anterior, sabemos que l´ımh→+∞ M (h) = +∞. Por tanto, como M es continua, para probar que M (h) tiene un m´ınimo bastar´a ver que existe h1 tal que M (h1 ) < 0. Y esto es inmediato, pues, por el resultado anterior, l´ımh→0 Mh(h) = −1 n ψ(K) < 0, por tanto, ∃h1 > 0 M (h1 ) tal que h1 < 0 y esto implica que M (h1 ) < 0 A continuaci´ on vamos a probar que el ancho de banda ´optimo tiende a 0 bajo ciertas condiciones. Para ello, haremos uso de la siguiente definici´on y lema, el cual establece la relaci´on existente entre la funci´ on caracter´ıstica de una funci´ on arbitraria g y la funci´on caracter´ıstica de su derivada. Definici´ on 2.7. Dada una funci´ on g ∈ L1 arbitraria su funci´ on caracter´ıstica, que denotaremos por ϕg (t) con t real, se define como ϕg : R −→ C Z t → ϕg (t) =
exp{itx}g(x) dx.
Lema 2.8. Sea g ∈ L1 absolutamente continua y sea g 0 su derivada que suponemos que pertenece a L1 . Entonces ϕg0 (t) = −itϕg (t), t ∈ R. Demostraci´ on. Puede verse la demostraci´ on en Kawata (1972), p´ag. 69 [?]. Lema 2.9. Sean F y G funciones de distribuci´ on con densidades f y g, respectivamente, y tales que R R |x| f (x) dx < ∞ y |x| g(x) dx < ∞ entonces G − F ∈ L1 y ϕG−F (t) = (−it)−1 [ϕg (t) − ϕf (t)], Z ϕG−F (0) = t[f (t) − g(t)] dt
t 6= 0
Demostraci´ on. Veamos que se cumplen las hip´otesis del lema previo y as´ı aplicarlo para g = G − F (donde esta g no debe confundirse con la densidad de G sino que hace referencia a la g usada en el lema anterior): 1. G − F es absolutamente continua puesto que tiene densidad g − f . 2. G − F ∈ L1 de acuerdo al Lema ??. 3. (G − F )0 = g − f ∈ L1 por ser g y f funciones de densidad. Ahora podemos aplicar el lema previo, con lo que ϕ(G−F )0 (t) = (−it)ϕG−F (t)
con
t 6= 0.
Por tanto, como (G − F )0 = g − f y por propiedades b´asicas de las funciones caracter´ısticas, tenemos que
22
El ancho de banda ´optimo
ϕG−F (t) = (−it)−1 [ϕg (t) − ϕf (t)]
con t 6= 0.
Para el caso t = 0, es f´ acil ver con un razonamiento an´alogo al anterior; Z
Z
0
Z
[G(x) − F (x)] dx =
ϕG−F (0) =
[G(x) − F (x)] dx + −∞
Z
0
Z
∞
Z
x
[g(t) − f (t)] dt dx
−∞ Z x
0
Z
−∞ ∞Z ∞
[f (t) − g(t)] dt dx
[g(t) − f (t)] dt dx +
= −∞ Z 0
−∞ Z 0
Z
0 ∞
Z
−∞ Z 0
t
0
Z
0
∞
t[f (t) − g(t)] dt
−tg(t) + tf (t) dt +
Z−∞ = t[f (t) − g(t)] dt
x t
[f (t) − g(t)] dx dt
[g(t) − f (t)] dx dt +
= =
Z [g(t) − f (t)] dt dx +
−∞ Z 0
[G(x) − F (x)] dx 0
x
=
∞
0
Teorema 2.10. Bajo las condiciones del Teorema ??, si f es continua y la funci´ on caracter´ıstica de k no es constante en ning´ un entorno del origen, entonces l´ımn→+∞ hM ISE (F ; K, n) = 0 Demostraci´ on. Supongamos que l´ım supn→+∞ hM ISE (F ; K, n) > 0, para alguna F . Por tanto, existe una subsucesi´ on de (hM ISE (F ; K, n)) tal que l´ımk→+∞ hM ISE (F ; K, nk ) = λ. Para cada h > 0 fijo, y de acuerdo a las ecuaciones (??) y (??), a que IB 2 (F ; K, h) es una funci´on continua, a que el M ISE(h) descompone en funci´ on de sesgo y varianza y a que l´ımn→∞ IV (h) = 0 tenemos que: IB 2 (F ; K, h) = l´ım M ISE(F ; K, nk , h) ≥ l´ım M ISE(F ; K, nk , hM ISE (F ; K, nk )) k→+∞ k→+∞ +∞ si λ = +∞ ≥ l´ım IB 2 (F ; K, hM ISE (F ; K, nk )) = IB 2 (F ; K, λ) si 0 < λ < +∞ k→+∞ donde IB 2 (F ; K, λ) > 0, como veremos despu´es. En ambos casos, como IB 2 (F ; K, h) es continua tal y como probamos en la demostraci´ on de la Proposici´on ??, llegamos a contradicci´on al tomar l´ımite cuando 2 h → 0, debido a que l´ımh→0 IB (h) = 0 tal y como vimos en el Lema ??. Veamos que, efectivamente, IB 2 (F ; K, λ) > 0. Recordemos que Z EFnh =
Z k(z)F (x − hz) dz =
1 x−y k( )F (y) dy = h h
Z kh (x − y)F (y) dy = kh ∗ F (x).
Adem´ as, (kh ∗ F )0 = kh ∗ f por ser f continua (ver Chac´on (2004, Lema A.2)[?]); de modo que kh ∗ F es una funci´ on de distribuci´ on debido a que kh ∗ f es una funci´on de densidad por ser convoluci´on de densidades.
2.2. Representaci´ on asint´ otica del ancho de banda ´optimo
23
Por otro lado, como k y f tienen media finita por hip´otesis, entonces kh ∗ F tiene media finita: Z ZZ xkh ∗ f (x) dx = xkh (x − y)f (y) dx dy ZZ = (y + z)kh (z)f (y) dz dy Z Z ≤ |y| f (y) dy + |z| kh (z) dz < +∞, y, por tanto, kh ∗ F − F ∈ L1 . Pero, como adem´ as kh ∗ F y F son acotadas entonces, juntando todo lo anterior, tenemos que kh ∗ 2 F −F ∈L . Ahora ya podemos aplicar la f´ ormula de Parseval a kh ∗ F − F teniendo en cuenta las siguientes propiedades elementales de las transformadas de Fourier ϕK+L (t) = ϕK (t) + ϕL (t) ϕK∗L (t) = ϕK (t)ϕL (t) ϕKh (t) = ϕK (th). De este modo obtenemos, usando el lema previo y la f´ormula de Parseval, que Z
2
IB (h) = 1 π 1 = π 1 = π 1 = π =
2
Z
(EFnh − F (t)) dt = (kh ∗ F − F (t))2 dt Z ∞ 2 |ϕkh ∗F −F (t)| dt Z0 ∞ 2 t−2 |ϕkh ∗f − ϕf (t)| dt 0 Z ∞ 2 t−2 |ϕk (th)ϕf (t) − ϕf (t)| dt 0 Z ∞ 2 2 t−2 |ϕf (t)| |1 − ϕk (th)| dt > 0 0
ya que, por hip´ otesis, la funci´ on caracter´ıstica de k no es constante para ning´ un entorno del origen; y como ϕf (0) = 1 y ϕf es continua entonces ϕf es mayor que 0 en otro intervalo y bastar´a, pues, con tomar el menor de los dos intervalos para poder asegurar que tanto |ϕf (t)| como |1 − ϕk (th)| son positivos.
2.2.
Representaci´ on asint´ otica del ancho de banda ´ optimo
A lo largo de la presente secci´ on probaremos los resultados necesarios con el objetivo puesto en ver el orden de convergencia del ancho de banda ´ optimo para el M ISE. Para ello, construiremos un desarrollo adecuado para el sesgo y la varianza integrados para concluir con el Teorema ?? que proporciona el valor de c0 de modo que hM ISE = c0 n−1/3 + o(n−1/3 ). R R Denotemos, a partir de ahora, µ2 (k) = R z 2 k(z)dzy R(g) = g(x)2 dx para cualquier g ∈ L2 . Con esta notaci´ on, podemos dar el siguiente lema.
24
El ancho de banda ´optimo
Lema 2.11. Si k es sim´etrico, con µ2 (k) < ∞, y F tiene densidad f que es derivable con continuidad y con f 0 ∈ L2 ∩ L∞ entonces el sesgo cuadr´ atico integrado admite la siguiente expresi´ on IB 2 (h) =
1 µ2 (k)2 R(f 0 )h4 + o(h4 ), 4
cuando h → 0.
Demostraci´ on. De acuerdo a (??), podemos escribir la esperanza de Fnh como: Z EFnh (x) = k(z)F (x − hz)dz. R
Usando el desarrollo de Taylor para F (x − hz) alrededor de x tenemos que 2 2
Z
F (x − hz) = F (x) − hzf (x) + h z
1
(1 − t)f 0 (x − hzt)dt
0
y como F (x) =
R
k(z)F (x)dz, debido a que k integra 1, el sesgo de Fnh (x) puede ser reescrito como Z Z Bx (h) = EFnh (x) − F (x) = k(z)F (x − hz)dz − F (x) = k(z)[F (x − hz) − F (x)]dz Z ZZ 1 = −hf (x) zk(z)dz + h2 z 2 k(z)(1 − t)f 0 (x − hzt)dtdz 0
= h2
ZZ
1
z 2 k(z)(1 − t)f 0 (x − hzt)dtdz
(2.7)
0
R donde estamos usando, adem´ as, que zk(z)dz = 0, debido a que k es sim´etrico. A continuaci´ on, elevando al cuadrado e integrando obtenemos que el sesgo cuadr´atico integrado puede ser escrito como Z Z h ZZ 1 i2 IB 2 (h) = Bx (h)2 dx = h4 z 2 k(z)(1 − t)f 0 (x − hzt)dtdz dx. 0
RR 1
Denotemos ahora I(x; h) = 0 z 2 k(z)(1 − t)f 0 (x − hzt)dtdz. Como por hip´otesis µ2 (k) < ∞ y f 0 es continua y acotada tenemos que 2 z k(z)(1 − t)f 0 (x − hzt) ≤ z 2 k(z)(1 − t) kf 0 k∞ con
1
ZZ
2 z k(z)(1 − t) dt dz < ∞, 0
luego, por el Teorema de la Convergencia Dominada (TCD), sabemos que para cada x fijo, 1
ZZ
z 2 k(z)(1 − t)f 0 (x)dtdz = µ2 (k)f 0 (x)
l´ım I(x; h) =
h→0
0
Z
1
(1 − t)dt 0
1 = µ2 (k)f 0 (x) 2 Aplicando ahora el Lema de Fatou: 1 µ2 (k)2 R(f 0 ) = 4
Z
1 µ2 (k)2 f 0 (x)2 dx = 4
Z
Z
2
l´ım inf I(x; h) dx ≤ l´ım inf h→0
h→0
I(x; h)2 dx
(2.8)
2.2. Representaci´ on asint´ otica del ancho de banda ´optimo
25
Para obtener la correspondiente desigualdad para el l´ım sup tengamos en cuenta que, usando de nuevo la desigualdad de Cauchy-Schwarz,
2
I(x; h) ≤
1
hZ Z
1
ih Z Z u k(u)(1 − t)dtdu 2
0
1 = µ2 (k) 2
i u2 k(u)(1 − t)f 0 (x − hut)2 dtdu
0 1
Z Z
u2 k(u)(1 − t)f 0 (x − hut)2 dtdu 0
as´ı que Z l´ım sup
I(x; h)2 dx ≤
h→0
1 µ2 (k)2 R(f 0 ). 4
(2.9)
R Las desigualdades (??) y (??) implican que l´ımh→0 I(x; h)2 dx existe y es igual a 41 µ2 (k)2 R(f 0 ) y, de este modo, logramos el desarrollo deseado para el sesgo cuadr´atico integrado, ya que hemos probado que h−4 IB 2 (h) →
1 µ2 (k)2 R(f 0 ) 4
cuando h → 0.
Lema 2.12. En las mismas condiciones que el lema anterior y suponiendo adem´ as que f ∈ L2 y que R |xf (x)| dx < ∞, h2 1 1 IV (h) = ψ(F ) − hψ(K) + O , cuando h → 0. (2.10) n n n Demostraci´ on. Para cada punto fijo x, podemos escribir x − X i2 o 1 n h x − X1 2 i h 1 E K − EK Var[Fnh (x)] = n h h de acuerdo a (??). Para el segundo sumando, razonamos del mismo modo que en (??) y as´ı obtenemos Bx (h) = h2
1
ZZ
z 2 k(z)(1 − t)f 0 (x − hzt)dtdz 0
de modo que x − X EK
1
h
= F (x) + Bx (h) = F (x) + h2
1
ZZ
z 2 k(z)(1 − t)f 0 (x − hzt)dtdz 0
Elevando al cuadrado vemos que ZZ 1 h x − X i2 1 = F (x)2 + 2h2 F (x) z 2 K(z)(1 − t)f 0 (x − hzt)dtdz EK h 0 ZZ 1 2 4 2 +h z k(z)(1 − t)f 0 (x − hzt)dtdz 0
Recordemos que por (??) tenemos que, ZZZ 1 h x − X 2 i 1 = F (x) − h k(z1 )k(z2 ) m´ax{z1 , z2 }f (x − ht m´ax{z1 , z2 })dtdz1 dz2 . E K h 0
(2.11)
26
El ancho de banda ´optimo Uniendo (??) y (??) obtenemos 1n Var[Fnh (x)] = F (x)(1 − F (x)) n ZZZ 1 −h k(z1 )k(z2 ) m´ax{z1 , z2 }f (x − ht m´ax{z1 , z2 })dtdz1 dz2 0
− 2h2 F (x)
ZZ
1
z 2 k(z)(1 − t)f 0 (x − hzt)dtdz
o
0
− h4
1
ZZ
z 2 k(z)(1 − t)f 0 (x − hzt)dtdz
2
0
R
R Integrando lo anterior, y como F (1 − F ) < ∞ debido a la hip´otesis que establece que |xf (x)| dx < ∞, tenemos que Z Z 1 F (x)[1 − F (x)]dx IV (h) = Var[Fnh (x)]dx = n ZZZZ 1 1 − h k(z1 )k(z2 ) m´ax{z1 , z2 }f (x − ht m´ax{z1 , z2 })dtdz1 dz2 dx n 0 ZZZ 1 2 2 − h z 2 k(z)(1 − t)f 0 (x − hzt)F (x)dtdzdx n 0 Z ZZ 1 i2 1 4 h − h z 2 k(z)(1 − t)f 0 (x − hzt)dtdz dx n 0 Z 1 1 = F (x)[1 − F (x)]dx − hψ(K) n n ZZZ 1 2 z 2 k(z)(1 − t)f 0 (x − hzt)F (x)dtdzdx − h2 n 0 Z ZZ 1 i2 1 4 h − h z 2 k(z)(1 − t)f 0 (x − hzt)dtdz dx n 0 R donde hemos utilizado que f (x − ht m´ ax{z1 , z2 }) dx = 1 por ser f funci´on de densidad. Ahora, si probamos que las integrales del tercer y cuarto sumando est´an acotados por una constante que no depende de h ni n, entonces quedar´ a probado que h2 h4 1 F (x)[1 − F (x)]dx − hψ(K) + O +O n n n 4 2 tal y como quer´ıamos demostrar, ya que O hn = o hn porque h → 0. Respecto al cuarto sumando, podemos ver que Z Z Z 1 ZZZ 1 2 0 ≤ z k(z)(1 − t)f (x − hzt)F (x)dtdzdx z 2 k(z)(1 − t)|f 0 (x − hzt)F (x)|dtdzdx 1 IV (h) = n
0
Z
0
Para continuar, integremos por partes del siguiente modo: Z 0 f (x − hzt)dx = dv ⇒ v = f 0 (x − hzt)dx = f (x − hzt) F (x) = u ⇒ f (x)dx = du
(2.12)
2.2. Representaci´ on asint´ otica del ancho de banda ´optimo
27
De esta manera, Z Z Z f 0 (x − hzt)F (x)dx = [F (x)f (x − hzt)]+∞ − f (x − hzt)f (x)dx = − f (x − hzt)f (x)dx −∞ supuesto que l´ımx→±∞ f (x) = 0. Pero esto u ´ltimo es consecuencia, de acuerdo a los resultados auxiliares 0 del Ap´endice A, de decir que f y f f son integrables. Y f y f f 0 son integrables debido a que hemos supuesto que f 2 y f 02 son integrables (f tambi´en lo es por ser funci´on de densidad) y al Teorema de Cauchy-Schwarz: hZ
f (x)f 0 (x) dx
i2
Z ≤
2
Z
|f (x)| dx
2
|f 0 (x)| dx
As´ı, podemos continuar: ZZZ 1 (??) = z 2 k(z)(1 − t)f (x − hzt)f (x)dtdzdx 0 1
ZZ
z 2 k(z)(1 − t)
=
Z f (x − hzt)f (x)dxdtdz
0 1
ZZ
z 2 k(z)(1 − t)
≤
Z
f (x − hzt)2 dx
1/2 Z
f (x)2 dx
1/2
Z dtdz =
0
1 f (x)2 µ2 (k) dx 2
sin m´ as que usar de nuevo la desigualdad de Cauchy-Schwarz. Por otro lado, en relaci´ on al tercer sumando, y usando una vez m´as la desigualdad de Cauchy-Schwarz, obtenemos: ZZZZ 1 Z 1 z 2 k(z)(1 − t)w2 k(w)(1 − u)f 0 (x − hzt)f 0 (x − huw)dtdzdudwdx 0
≤
0
h ZZZZ h ZZZZ
1 0 1
Z Z
1
z 2 k(z)(1 − t)w2 k(w)(1 − u)f 0 (x − hzt)2
i1/2
0 1
z 2 k(z)(1 − t)w2 k(w)(1 − u)f 0 (x − huw)2 0 0 Z i1/2 h 1 1 f 0 (x − hzt)2 dx = µ2 (k) µ2 (k) 2 2 Z h i1/2 1 1 × µ2 (k) µ2 (k) f 0 (x − huw)2 dx 2 2 1 1 1 1 0 12 = µ2 (k) R(f ) µ2 (k) R(f 0 ) 2 = µ2 (k)2 R(f 0 ) 2 2 4 tal y como quer´ıamos. ×
i1/2
Una vez que hemos hallado IB 2 (h) y IV (h) y de acuerdo a la descomposici´on del M ISE en suma de dichas dos componentes, pasemos a enunciar el siguiente teorema que recoge lo estudiado en los dos lemas anteriores. Teorema 2.13. Si k es sim´etrico, con µ2 (k) < ∞, y F tiene densidad f tal que f ∈ L2 , es derivable con R continuidad y |xf (x)| dx < ∞, y adem´ as f 0 ∈ L2 ∩ L∞ entonces M ISE(h) = IB 2 (h) + IV (h) = AM ISE(h) + O
h2 n
+ o(h4 )
28
El ancho de banda ´optimo
siendo AM ISE(h) =
1 n ψ(F )
− nh ψ(K) + 41 h4 µ2 (k)2 R(f 0 )
Corolario 2.14. Existe un ancho de banda asint´ oticamente ´ optimo, que denotaremos hAM ISE , que minimiza el error cuadr´ atico integrado medio asint´ otico (AMISE). Dicho ancho de banda ´ optimo es hAM ISE = c0 n−1/3 donde c0 = ψ(K)1/3 µ2 (K)−2/3 R(f 0 )−1/3
(2.13)
Adem´ as, para dicho hAM ISE , el AMISE cometido, que denotaremos AM ISEo , viene dado por 3 AM ISEo = ψ(F )n−1 − µ2 (K)−2/3 ψ(K)4/3 R(f 0 )−1/3 n−4/3 4 Demostraci´ on. Hemos visto en el teorema anterior que 1 1 1 ψ(F ) − hψ(K) + h4 µ2 (k)2 R(f 0 ) n n 4 Hallando el h que minimiza el valor de dicha expresi´on, obtenemos: AM ISE(h) =
∂AM ISE = −n−1 ψ(K) + h3 µ22 (k)R(f 0 ) = 0 ∂h Por tanto, hAM ISE = n−1/3 ψ(K)1/3 µ2 (k)−2/3 R(f 0 )−1/3 = c0 n−1/3 . Y sustituyendo el hAM ISE en la expresi´ on del AMISE llegamos a que: AM ISEo = n−1 ψ(F ) − n−4/3 ψ(K)4/3 µ2 (k)−2/3 R(f 0 )−1/3 1 + µ2 (K)2 R(f 0 )n−4/3 ψ(K)4/3 µ2 (k)−8/3 R(f 0 )−4/3 = 4 3 = ψ(F )n−1 − µ2 (k)−2/3 ψ(K)4/3 R(f 0 )−1/3 n−4/3 4 Restando el t´ermino n−1 ψ(F ) al M ISE obtenemos lo que denotaremos por M : M (h) = M ISE(h) − n−1 ψ(F ). Por tanto, en virtud del teorema anterior podemos escribir h2 M (h) = AM (h) + O + o(h4 ) n donde 1 AM (h) = −n−1 hψ(K) + h4 µ2 (K)2 R(f 0 ) 4 Teorema 2.15. Bajo las condiciones del Teorema ??, existe U ∈ R, tal que 0 ≤ n1/3 hM ISE ≤ U, para casi todo n ∈ N. Es m´ as, se cumple que l´ımn→∞ n1/3 hM ISE = c0 , donde c0 viene dado por (??), de modo que, como consecuencia, podemos escribir hM ISE = c0 n−1/3 + o(n−1/3 ), es decir,
hAM ISE hM ISE
→ 1.
2.2. Representaci´ on asint´ otica del ancho de banda ´optimo
29
Demostraci´ on. De acuerdo con la notaci´ on antes se˜ nalada, y tomando h = cn−1/3 , tenemos que 1 M (cn−1/3 ) = −cn−4/3 ψ(K) + c4 n−4/3 µ2 (k)2 R(f 0 ) + O(n−5/3 ) + o(n−4/3 ) 4 h i 1 = n−4/3 − cψ(K) + c4 µ2 (k)2 R(f 0 ) + O(n−5/3 ) + o(n−4/3 ) 4 Tomando l´ımites, obtenemos 1 l´ım n4/3 M (cn−1/3 ) = −cψ(K) + c4 µ2 (k)2 R(f 0 ). 4
n→∞
(2.14)
N´ otese que, precisamente, el c que minimiza ese l´ımite es c0 . De acuerdo a la definici´ on de hM ISE tenemos que n4/3 M (cn−1/3 ) ≥ n4/3 M (hM ISE ). Tomando l´ımite en la expresi´ on anterior y de acuerdo a (??), tenemos que: 1 −cψ(K) + c4 µ2 (k)2 R(f 0 ) ≥ l´ım sup n4/3 M (hM ISE ) 4 n→∞
(2.15)
De aqu´ı deducimos que l´ım supn→∞ n1/3 hM ISE < ∞. Ve´amoslo razonando por contradicci´on. Supongamos que l´ım supn→∞ n1/3 hM ISE = +∞. Entonces, 1 − cψ(K) + c4 µ2 (k)2 R(f 0 ) ≥ l´ım sup n4/3 M (hM ISE ) 4 n→∞ h i 2 4/3 1 4 = l´ım sup n hM ISE µ2 (k) R(f 0 ) + o(h4M ISE ) − n−1 hM ISE ψ(K) + O(n−1 h2M ISE ) 4 n→∞ 1 4/3 4 = l´ım sup n hM ISE µ2 (k)2 R(f 0 ) + n4/3 o(h4M ISE ) − n1/3 hM ISE ψ(K) + O(n1/3 h2M ISE ) n→∞ 4 h 1 i = l´ım sup (n1/3 hM ISE )4 µ2 (k)2 R(f 0 ) + o(1) + (n1/3 hM ISE )(−ψ(K) + o(n1/3 hM ISE ) 4 n→∞ h i 1 = l´ım sup (n1/3 hM ISE )4 µ2 (k)2 R(f 0 ) + an + (n1/3 hM ISE )(−ψ(K) + bn ) 4 n→∞ donde an y bn son sucesiones que convergen a 0. Como 14 µ2 (k)2 R(f 0 ) > 0 entonces ∃n1 ∈ N suficientemente grande tal que ∀n > n1 , 1 1 µ2 (k)2 R(f 0 ) + an ≥ µ2 (k)2 R(f 0 ). 4 8 Y como −ψ(K) < 0 entonces ∃n2 ∈ N suficientemente grande tal que ∀n > n2 , −ψ(K) + bn ≥ −2ψ(K). Por tanto, para n0 = m´ ax{n1 , n2 } tenemos que ∀n > n0 , 1 1 µ2 (k)2 R(f 0 ) + an ≥ µ2 (k)2 R(f 0 ) 4 8
30
El ancho de banda ´optimo
y −ψ(K) + bn ≥ −2ψ(K). De acuerdo con esto, llegamos a que 1 − cψ(K) + c4 µ2 (k)2 R(f 0 ) 4 h 1 i ≥ l´ım sup (n1/3 hM ISE )4 µ2 (k)2 R(f 0 ) + (n1/3 hM ISE )(−2ψ(K)) 8 n→∞ = l´ım sup[c2 x4n − c1 xn ] = l´ım sup xn [c2 x3n − c1 ] = +∞ n→∞
n→∞
ya que c2 = 81 µ2 (k)2 R(f 0 ) > 0 y donde hemos denotado xn = n1/3 hM ISE y c1 = 2ψ(K). De este modo hemos llegado a contradicci´ on. Por tanto, como acabamos de probar que l´ım supn→∞ n1/3 hM ISE < ∞, tenemos que existe U ∈ R con U < ∞ y tal que n1/3 hM ISE ≤ U, para casi todo n ∈ N. Como cota inferior podemos considerar el 0 pues, por definici´on, hM ISE ≥ 0. Por tanto, a partir de un cierto n, todos los t´erminos de la sucesi´ on {n1/3 hM ISE }n est´an en el intervalo [0, U ]. Por consiguiente, existe una subsucesi´ on de {n1/3 hM ISE }n que es convergente; llamamos l a dicho l´ımite. De acuerdo a esto y al desarrollo de M (h) valorado en h = hM ISE obtenemos que 1 n4/3 M (hM ISE ) = −n1/3 hM ISE ψ(K) + n4/3 h4M ISE µ2 (k)2 R(f 0 ) 4 + O(n1/3 h2M ISE ) + n4/3 o(h4M ISE ) por lo que la correspondiente subsucesi´ on de {n4/3 M (hM ISE )}n tendr´a l´ımite 1 −lψ(K) + l4 µ2 (k)2 R(f 0 ). 4 Pero seg´ un (??), 1 1 −c0 ψ(K) + c40 µ2 (k)2 R(f 0 ) ≥ −lψ(K) + l4 µ2 (k)2 R(f 0 ) 4 4 Como c0 era el u ´nico valor positivo que hac´ıa m´ınima la expresi´on anterior, tiene que ser l = c0 . Con el razonamiento anterior se prueba adem´as que c0 es el u ´nico valor de adherencia de la sucesi´on 1/3 {n hM ISE }n en [0, U ]. Pero todos los elementos de dicha sucesi´on est´an en [0, U ] a partir de uno dado, por tanto, la sucesi´ on tiene l´ımite y dicho l´ımite es c0 .
Cap´ıtulo 3
Estudio de simulaci´ on
A lo largo del presente cap´ıtulo desarrollaremos un trabajo de simulaci´on en el que compararemos el ISE cometido con la funci´ on de distribuci´ on emp´ırica y el ISE cometido con el estimador n´ ucleo de la distribuci´ on.
Para ello generaremos 100 muestras de cada una de las diez primeras densidades de Marron & Wand (1992) [?] para diversos tama˜ nos muestrales (n = 50, n = 100 y n = 200) y realizaremos diagramas de cajas conjuntos donde comparar el ISE cometido por la funci´on de distribuci´on emp´ırica y por el estimador n´ ucleo de la distribuci´ on tomando h = hISE , el valor que minimizaba ISE(h).
Pueden verse los diversos programas utilizados para el estudio de simulaci´on en el Ap´endice B.
Recordemos cu´ ales eran dichas densidades de Marron y Wand procedentes de diversas mixturas de densidades y adjuntemos a continuaci´ on los gr´aficos resultantes de la simulaci´on detallada anteriormente para datos procedentes de las mencionadas diez distribuciones de Marron y Wand: 31
32
Estudio de simulaci´on Densidad 2
0.4
Densidad 1
0.4 0.3
f(x)
0.0
0.0
0.1
0.1
0.2
0.2
f(x)
0.3
0.5
N(0,1) Densidad de M.W.
−2
−1
0
1
2
3
−3
−2
−1
0
x
x
Densidad 3
Densidad 4
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
f(x) 0.0
0.0
0.2
0.4
0.5
0.6
f(x)
0.8
1.0
1.0
1.2
1.5
1.4
−3
−2
−1
0
1
2
3
−3
−2
−1
0
x
x
Densidad 5
Densidad 6
−2
−1
0
1
2
3
−3
−2
−1
0
x
x
Densidad 7
Densidad 8
f(x)
0.0
0.0
0.1
0.1
0.2
0.2
0.3
0.3
0.4
0.4
−3
f(x)
0.2
f(x) 0
0.0
0.1
1
f(x)
2
0.3
3
0.4
−3
−2
−1
0
1
2
3
−3
−2
−1
0
x
x
Densidad 9
Densidad 10
0.3
f(x)
0.2
0.2
0.1
0.1
0.0
0.0
f(x)
0.4
0.3
0.5
0.4
0.6
−3
−3
−2
−1
0 x
1
2
3
−3
−2
−1
0 x
Figura 3.1: Densidades de Marron y Wand.
Estudio de simulaci´ on
33
0.35
Densidad 2 de Marron y Wand
ISE(h=0) ISE(h=hISE)
●
● ● ●
● ●
0.25
● ● ●
●
0.02
● ●
● ● ●
● ● ● ● ●
● ●
0.01
● ●
0.20
●
● ● ● ●
● ● ●
0.15
0.03
ISE(h=0) ISE(h=hISE)
0.30
0.04
● ●
●
●
●
● ●
●
0.10
0.05
Densidad 1 de Marron y Wand ●
●
0.00
● ●
n=50
n=50
n=100
n=100
n=200
n=200
n=50
n=100
n=200
n=200
●
ISE(h=0) ISE(h=hISE)
1.2
0.05
0.06
ISE(h=0) ISE(h=hISE)
1.4
n=100
Densidad 4 de Marron y Wand 0.07
Densidad 3 de Marron y Wand
n=50
0.04
●
0.03
1.0
●
● ● ● ● ● ● ●
0.01
0.8
0.02
● ●
0.6
● ● ● ●
● ● ● ● ●
0.00
●
n=50
n=50
n=100
n=100
n=200
n=200
n=50
● ●
n=50
n=100
n=100
n=200
n=200
Densidad 6 de Marron y Wand 0.08
Densidad 5 de Marron y Wand ●
ISE(h=0) ISE(h=hISE)
0.06
0.15
ISE(h=0) ISE(h=hISE)
●
●
0.02
0.05
0.04
0.10
●
0.00
●
n=50
n=50
●
n=100
n=100
n=200
n=200
n=50
n=50
n=100
n=100
n=200
n=200
Densidad 8 de Marron y Wand
0.25
Densidad 7 de Marron y Wand ● ●
0.15
ISE(h=0) ISE(h=hISE)
ISE(h=0) ISE(h=hISE)
● ●
0.15
0.10
0.20
●
●
0.10
0.05
●
●
0.00
●
n=50
n=50
n=100
n=100
n=200
n=200
n=50
n=50
n=100
n=100
● ●
n=200
●
ISE(h=0) ISE(h=hISE)
●
n=200
Densidad 10 de Marron y Wand 0.04
0.10
Densidad 9 de Marron y Wand
ISE(h=0) ISE(h=hISE) ● ●
0.03
0.08
●
●
● ● ● ●
● ● ●
● ●
● ● ●
●
●
●
●
0.01
0.04
0.02
0.06
●
● ● ● ● ● ● ● ●
● ●
●
● ●
0.02
● ●
0.00
● ●
n=50
n=50
n=100
n=100
n=200
n=200
n=50
n=50
n=100
n=100
n=200
n=200
Figura 3.2: Comparaci´ on del ISE para Fnh y Fn con las densidades de Marron y Wand.
34
Estudio de simulaci´on
Como primera observaci´ on clara del presente estudio de simulaci´on, es se˜ nalable que la estimaci´on por parte de la distribuci´ on emp´ırica es, en t´erminos absolutos, relativamente buena con errores globales bajos. Sin embargo, a la hora de realizar una comparativa que enfrente a los dos estimadores objeto de estudio, puede verse que es claramente preferible el estimador n´ ucleo, el cual comete un error mucho menor para todas las densidades. En algunas de las muestras el estimador n´ ucleo es preferible aunque no claramente superior (densidades 6, 8 y 9), pero en las restantes densidades (densidades 1, 2, 3, 4, 5, 7 y 10) es significativamente preferible el estimador n´ ucleo, ya que mejora considerablemente en t´erminos de ISE a la funci´on de distribuci´on emp´ırica, llegando a cometer un error hasta 15 veces menor para los datos procedentes de la densidad 5 en cualquiera de los distintos tama˜ nos muestrales. Podemos apreciar en la siguiente figura, donde hemos representado la funci´ on M ISE para 500 muestras de tama˜ no muestral n = 100 de la densidad 5 de Marron y Wand, c´ omo es posible mejorar sustancialmente con respecto a la funci´on de distribuci´on emp´ırica mediante la elecci´ on ´ optima de h. En tal figura apreciamos que M ISE(0) = 0,14770 mientras que M ISE(hM ISE ) = 0,00284.
●
0.00
0.05
MISE(h)
0.10
0.15
Elección del h óptimo
0.0
0.2
0.4
0.6
0.8
1.0
h
Figura 3.3: M ISE(h) para la densidad 5 de Marron y Wand y n = 100 Todos estos resultados de simulaci´ on han sido desarrollados calculando el hISE , el cual, como hemos visto en los cap´ıtulos anteriores es desconocido en la pr´actica. No obstante, la b´ usqueda de selectores de b ancho de banda h, a partir de los datos, ser´ a objeto de futuro estudio.
Ap´ endice A
Algunos resultados auxiliares A lo largo del presente ap´endice desarrollaremos algunos resultados auxiliares que han sido utilizados en el presente trabajo pero cuyas demostraciones no consider´abamos adecuado incluir en el lugar en que se utilizaban por diversos motivos. Dichos resultados, pues, ser´ an enunciados y demostrados con todo detalle en este ap´endice. Lema A.1. Sea g : R → R una funci´ on continuamente diferenciable tal que g y gg 0 son integrables. Entonces l´ım|x|→+∞ g(x) = 0. Demostraci´ on. La integrabilidad de g es suficiente para probar que el l´ımite l´ım|x|→+∞ |g(x)| existe y es finito. Sea (xn ) una sucesi´ on estrictamente creciente de n´ umeros reales no negativos convergente a +∞ tal que x0 = 0. Tenemos entonces que g 0 gI[0,+∞)
=
∞ X
g 0 gI[xk ,xk+1 )
k=0
=
l´ım fn ,
donde fn =
n X
g 0 gI[xk ,xk+1 ) ,
k=0
de modo que |fn | ≤
∞ X
|g 0 g|I[xk ,xk+1 ) = |g 0 g|.
k=0
De la hip´ otesis de integrabilidad de |g 0 g| y el Teorema de la Convergencia Dominada de Lebesgue obtenemos que Z +∞ Z +∞ 0 g g = l´ım fn , 0
0
35
36
Algunos resultados auxiliares
donde, debido a la continuidad de g 0 , n Z X
+∞
Z
fn
=
0
+∞
g 0 gI([xk , xk+1 [)
0
k=0 n Z xk+1 X
=
k=0 n X
=
k=0
g0 g
xk
1 (g(xk+1 )2 − g(xk )2 ) 2
1 (g(xn+1 )2 − g(0)2 ). 2
= Por lo tanto, +∞
Z 0
1 g 0 g = l´ım (g(xn+1 )2 − g(0)2 ), 2
lo cual prueba que 2
2
+∞
Z
g 0 g.
l´ım g(x) = g(0) + 2
x→+∞
0
De un modo an´ alogo, puede verse que 2
2
Z
0
l´ım g(x) = g(0) − 2
x→−∞
g 0 g.
−∞
Corolario A.2. Si g : R → R es una funci´ on diferenciable tal que g 0 es continua y acotada y g es integrable, entonces l´ım|x|→+∞ g(x) = 0.
Ap´ endice B
Funciones implementadas Programa para pintar la funci´ on de distribuci´on de una N (0, 1), Fn y Fnh . pintanormalFnFnh