Estimación núcleo de distribuciones: existencia y propiedades asintóticas del ancho de banda óptimo

UNIVERSIDAD DE EXTREMADURA ´ DEPARTAMENTO DE MATEMATICAS Trabajo Fin de Master Estimaci´ on n´ ucleo de distribuciones: existencia y propiedades asi

Author: Carolina Quintana Cano

1 downloads 27 Views 1MB Size

Report

DOWNLOAD PDF

Recommend Stories

Mbps. de ancho de banda

A.DUO AP Router Doble Radio PoE de alta potencia AP Router Doble Radio Radios 11a + 11a/b/g de alta potencia Puerto PoE 802.3af Modo Super Turbo Ather

ANTECEDENTES. Segmento de ida: Segmento de retorno: Ancho de Banda:

PROPIEDADES DE LAS DISTRIBUCIONES BETA Y DIRICHLET DE MATRICES COMPLEJAS

Filtros de banda eliminada con un ancho de banda moderado en múltiples capas

Filtros de banda eliminada con un ancho de banda moderado en múltiples capas Anna Mª Trallero García Director del proyecto: Ignacio Llamas Garro Dep

Descarga en paralelo de archivos sensible a variaciones del ancho de banda

Cap Requerimientos del ancho de banda para las ondas, con modulación angular

Compilado, anexado y redactado por el Ing. Oscar M. Santa Cruz - 2008 Cap. 6.3.-Requerimientos del ancho de banda para las ondas, con modulación angu

MEMORIA DE ANCHO DE BANDA ALTO (HBM) PARTE UNO MAYO DE 2015

LEIOMIOMAS DEL LIGAMENTO ANCHO

Distribuciones de Probabilidad. Septiembre Distribuciones de probabilidad

Distribuciones de Probabilidad. Septiembre 2005 3.- Distribuciones de probabilidad Introducción Las variables aleatorias son los instrumentos matemát

Existencia y unicidad de soluciones

Story Transcript

UNIVERSIDAD DE EXTREMADURA ´ DEPARTAMENTO DE MATEMATICAS

Trabajo Fin de Master

Estimaci´ on n´ ucleo de distribuciones: existencia y propiedades asint´ oticas del ancho de banda o ´ptimo.

Pablo Monfort Vinuesa

Badajoz, 2010

ii

´Indice general

iii

Introducci´ on Si realizamos una revisi´ on de car´ acter hist´orico referente a los estimadores de tipo n´ ucleo, veremos que ´estos aparecen por primera vez en el contexto de la estimaci´on de densidades. Previo a los estimadores n´ ucleo tenemos el primer art´ıculo que utiliza t´ecnicas no param´etricas para la estimaci´on de una densidad. Dicho art´ıculo, de Fix y Hodges (1951) [?], permaneci´o sin publicar hasta que es recuperado en 1989 por Silverman y Jones (1989) [?], los cuales publican dicho informe junto a interesantes aportaciones al respecto. A˜ nos m´ as tarde encontramos los primeros art´ıculos que hacen uso de los estimadores n´ ucleo para la estimaci´ on de densidades: Akaike (1954) [?], Parzen (1962) [?] y Rosenblatt (1956) [?]. Rosenblatt presenta importantes resultados en el contexto de la teor´ıa L2 , considerado el contexto natural a la hora de evaluar el comportamiento global de un estimador de una funci´on de densidad. Y no se consideran en profundidad hasta Parzen (1962) y Devroye (1983) [?] los criterios L∞ y L1 , respectivamente, para la medici´ on del error cometido por un estimador Es en 1964 cuando el estimador n´ ucleo de la distribuci´on es introducido por primera vez de la mano de Nadaraya (1964) [?], el cual decide considerar, como estimador de la funci´on de distribuci´on, la integral del estimador n´ ucleo de la densidad usado hasta la fecha por Parzen y Rosenblatt. En una ´epoca reciente es cuando los estimadores n´ ucleo de la distribuci´on est´an siendo objeto de un profundo estudio. Podemos destacar algunos art´ıculos que analizan los principales puntos de inter´es de estos estimadores como Altman & L´eger (1995) [?] sobre la selecci´on del ancho de banda ´optimo, Abdous (1993) [?] sobre el error cuadr´ atico integrado medio de estos estimadores y Swanepoel (1988) [?], Jones (1990) [?] y Tenreiro (2006) [?] sobre el comportamiento asint´otico del ancho de banda de los estimadores n´ ucleo de la distribuci´ on. En la presente memoria realizaremos un exhaustivo trabajo de recopilaci´on, an´alisis e investigaci´on referido a los estimadores n´ ucleo de la distribuci´on. Para ello, el escrito comienza con un cap´ıtulo de preliminares donde en primer lugar establecemos el marco general del presente estudio y definimos los conceptos b´ asicos en el estudio de la estimaci´on de distribuciones. A continuaci´on, para poder estudiar la precisi´ on de un estimador, y as´ı compararlo con otros, proporcionamos las definiciones y resultados necesarios dentro de las teor´ıas L1 , L2 y L∞ . Con tal objetivo, pasamos a definir y describir las m´as inmediatas caracter´ısticas de los dos estimadores que se comparan en esta memoria: la funci´on de distriv

vi

Introducci´on

buci´ on emp´ırica y el estimador n´ ucleo de la distribuci´on. Por u ´ltimo, y antes de finalizar el cap´ıtulo se incluyen unos comentarios sobre uno de los principales problemas a la hora de seleccionar el estimador n´ ucleo adecuado: la selecci´ on del ancho de banda ´optimo. En el segundo cap´ıtulo realizamos un exhaustivo an´alisis del error cometido por el estimador n´ ucleo y distintas descomposiciones del mismo. Todo ello como paso previo al an´alisis del comportamiento asint´otico del ancho de banda. Adem´ as incluimos resultados que nos proporcionan condiciones suficientes para la existencia del ancho de banda ´ optimo. En el tercer cap´ıtulo desarrollamos una extensa simulaci´on para comparar, tal y como coment´abamos previamente, los dos estimadores de los que disponemos. Enfrentamos la eficiencia del estimador n´ ucleo y de la funci´ on de distribuci´ on emp´ırica a trav´es del mencionado estudio de simulaci´on donde analizamos el error medio cometido por cada estimador para muestras procedentes de las densidades de Marron y Wand (1992) [?] y de distintos tama˜ nos muestrales. Finalmente, la memoria concluye con dos ap´endices y la bibliograf´ıa utilizada. En el primero de los ap´endices enunciamos y probamos algunos resultados utilizados a lo largo de la memoria que, por no ser exactamente del campo de la Estad´ıstica o por ser muy recurrentes en esta memoria, consideramos m´ as adecuado incluir en un ap´endice. Por u ´ltimo, en el segundo ap´endice incluimos las funciones implementadas en el programa estad´ıstico R para el desarrollo y estudio del tercer cap´ıtulo de simulaci´on y la realizaci´ on de los gr´ aficos e im´ agenes que aparecen en la memoria.

Cap´ıtulo 1

Preliminares A lo largo de este primer cap´ıtulo estudiaremos el problema de estimaci´on de distribuciones considerando diversos criterios existentes para medir el error cometido mediante un estimador de la distribuci´on. Describiremos los resultados existentes para el estimador m´as extendido de la funci´on de distribuci´on, la funci´ on de distribuci´ on emp´ırica, y, adem´as, introduciremos los estimadores n´ ucleo de la distribuci´on sobre los que versa el presente trabajo.

1.1.

Conceptos b´ asicos.

A lo largo de toda esta memoria, supondremos R y Rd provistos de sus respectivas σ-´algebras de Borel, R y Rd . La noci´ on de estructura estad´ıstica juega en Estad´ıstica Matem´atica un papel an´alogo al que el espacio de probabilidad desempe˜ na en C´ alculo de Probabilidades; viene a ser, por tanto, el punto de partida formal de cualquier problema de inferencia estad´ıstica. Definamos, pues, algunos conceptos b´asicos siguiendo la estructura del libro Nogales (1998) [?]. Definici´ on 1.1. a) Una estructura estad´ıstica es una terna (Ω, A, P), donde (Ω, A) es un espacio medible y P una familia de probabilidades sobre ´el. Al espacio medible (Ω, A) lo llamaremos espacio de las observaciones, los elementos de Ω se suelen llamar observaciones y los de A, sucesos. En ocasiones se escribe la familia P en la forma {Pθ : θ ∈ Θ}; en ese caso, el ´ındice θ se suele llamar par´ ametro, mientras que Θ se denomina espacio de par´ ametros. b) Un estad´ıstico sobre esa estructura estad´ıstica es una funci´on medible T (o variable aleatoria, en lenguaje probabil´ıstico) definida en (Ω, A) y a valores en otro espacio medible (Ω0 , A0 ). Entenderemos en lo sucesivo que una aplicaci´ on T : Ω → Ω0 escrita en la forma T : (Ω, A) → (Ω0 , A0 ) es (A, A0 )-medible; en ese caso, la estructura estad´ıstica (Ω0 , A0 , {P T : P ∈ P}) se denomina estructura imagen del estad´ıstico T , donde P T denota la distribuci´ on de probabilidad (o distribuci´on, a secas) de T respecto a P , definida por P T (A0 ) = P (T −1 (A0 )) = P ({ω : T (ω) ∈ A0 }), para cada A0 ∈ A0 . 1

2

Preliminares

Definici´ on 1.2. Se llama funci´ on de distribuci´ on de probabilidad a cualquier funci´on F : R −→ [0, 1] que verifique: 1. F es no decreciente. 2. F es continua por la derecha. 3.

l´ım F (x) = 0.

x→−∞

4. l´ım F (x) = 1. x→∞

Es sencillo ver que dada una probabilidad P en (R, R), la funci´on F (x) = P ((−∞, x]) es una funci´on de distribuci´ on. Se dice que F es la funci´ on de distribuci´on asociada a una variable aleatoria X : Ω −→ R si viene X inducida por P ; es decir, si F (x) = P X ((−∞, x]) = P (X ≤ x), ∀x ∈ R. Definici´ on 1.3. Sean (Ω, A) un espacio medible y µ una medida sobre ´el. Una densidad (de probabilidad ) ¯ tal que f > 0 µ-c.s. y verifique respecto a la medida µ es una funci´ on medible f : (Ω, A) → R Z f (ω)dµ(ω) = 1. Ω

En ese caso, Z Pf (A) =

f (ω)dµ(ω),

A ∈ A,

A

define una probabilidad en A, y se dice que f es una densidad de Pf respecto a µ. Si Pf = P X tambi´en se dice que f es la densidad de la variable aleatoria X. Si la funci´ on de distribuci´ on F de una variable aleatoria X es absolutamente continua, ser´a derivable en casi todo punto. Si adem´ as f es la densidad de X, entonces Z

x

F (x) = P (X ≤ x) =

f (s) ds

x ∈ R,

−∞

y por tanto F 0 (x) = f (x)

c.s.

Ambas propiedades ser´ an utilizadas a lo largo de todo el presente trabajo continuamente. Definici´ on 1.4. Una muestra de tama˜ no n sobre un espacio de probabilidad (Ω, A, P ) (resp., sobre una estructura estad´ıstica (Ω, A, P)) es una colecci´on X1 , . . . , Xn de n variables aleatorias (resp., estad´ısticos) independientes e id´enticamente distribuidas (abreviado, iid) a valores en un mismo espacio medible, donde independientes e id´enticamente distribuidas en el caso estad´ıstico significa P -iid, para cada P ∈ P. Definici´ on 1.5. Sean (Ω, A, {Pθ : θ ∈ Θ}) una estructura estad´ıstica, (Ω0 , A0 ) un espacio medible y on. Un estimador de ϕ es un estad´ıstico T : (Ω, A) → (Ω0 , A0 ). A la aplicaϕ : Θ → (Ω0 , A0 ) una aplicaci´ ci´ on ϕ se le llama estimando y, para cada observaci´on ω ∈ Ω, diremos que T (ω) es una estimaci´ on de ϕ. En estad´ıstica asint´ otica, se llama tambi´en estimador de ϕ a una sucesi´on (Tn ) de estimadores de ϕ en el sentido anterior.

1.2. Criterios de error

3

Definici´ on 1.6. Sea X una variable aleatoria definida en un espacio de probabilidad (Ω, A, P ), entonces la esperanza o valor esperado de X, que se denota como E[X] o EP [X], se define del siguiente modo: Z EP [X] = X dP. Ω

La esperanza de X verifica una serie de propiedades b´asicas, derivadas de las propiedades de las integrales, como el ser un operador lineal o ser un operador mon´otono, entre otras propiedades. Pueden consultarse en P´erez (1986) [?]. Definici´ on 1.7. Un estimador T de ϕ en la estructura estad´ıstica (Ω, A, P) se dice insesgado o centrado si verifica que EP [T ] = ϕ(P ), ∀P ∈ P De acuerdo a esta definici´ on, podemos definir el sesgo de un estimador: Definici´ on 1.8. Se denomina sesgo de un estimador T de ϕ, y se denota B(T ) o BP (T ), a la diferencia entre el valor esperado de T y el par´ ametro ϕ: B(T ) = E[T ] − ϕ. Definici´ on 1.9. Dada una variable aleatoria X con esperanza E[X], la varianza de X, que se denota por V ar(X) o V arP (X), viene definida mediante la siguiente expresi´on: h 2 i V ar(X) = E X − E[X] . Una descomposici´ on de la varianza muy habitual es: V ar(X) = E[X 2 ] − (E[X])2 .

1.2.

Criterios de error

Definici´ on 1.10. Llamaremos estimador de una funci´on de distribuci´on F a cualquier funci´on medible Gn : R × Rn −→ [0, 1] (x; x1 , . . . , xn ) → Gn (x; x1 , . . . , xn ) Para estudiar c´ omo de bueno es un estimador, es inevitable la selecci´on de criterios que nos permitan comparar entre varios estimadores en la b´ usqueda del estimador ´optimo. Hasta el presente, y debido a la subjetividad de la elecci´ on de los criterios del error, no se ha llegado a un consenso entre los diversos investigadores del ´ area existiendo dos grandes l´ıneas que optan por criterios que minimizan el error uniforme o el error cuadr´ atico de la estimaci´ on. Cuando utilizamos estimadores sesgados en una estimaci´on param´etrica, el criterio de minimizar la varianza es, a veces, sustituido por el criterio de minimizar el error cuadr´atico medio (MSE), que es la

4

Preliminares

suma de la varianza y del sesgo al cuadrado como vemos a continuaci´on. Puntualmente, dada una sucesi´on de estimadores Gn de la funci´ on de distribuci´on F , la precisi´on del estimador Gn se mide mediante M SE{Gn (x)} = E[{Gn (x) − F (x)}2 ] = V ar(Gn (x)) + B 2 (Gn (x)) donde recordemos que B(Gn (x)) = E[Gn (x)] − F (x). Esta ecuaci´ on afronta el problema de la estimaci´on no param´etrica de una forma puntual. Sin embargo, el inter´es de la estimaci´ on funcional radica en obtener una estimaci´on de la distribuci´on completa; por tanto, se hace necesario recurrir a criterios de error globales, como pueden ser los mencionados a continuaci´ on y cuyas definiciones se dar´ an de inmediato, una vez tenemos una sucesi´on de estimadores Gn de nuestra funci´ on de distribuci´ on F : kGn − F k1 , kGn − F k2 o kGn − F k∞ . Antes de pasar a definir los distintos tipos de criterios de error que se pueden considerar para un estimador, expondremos algunos conceptos previos. Definici´ on 1.11. Sea (Ω, A, µ) un espacio de medida. Dado 1 ≤ p < ∞, decimos que una funci´on G : (Ω, A) → R pertenece a Lp si verifica Z p |G| dµ < ∞. Ω

Definici´ on 1.12. Sea (Ω, A, µ) un espacio de medida. Decimos que una funci´on G : (Ω, A) → R pertenece ∞ a L si verifica sup G(ω) < ∞. ω∈Ω

´Intimamente relacionados con estos espacios figuran los conceptos de norma de una funci´on. Dicho concepto, que definiremos a continuaci´ on, nos permitir´an valorar la precisi´on de un estimador midiendo el error que comete como tal con respecto a la verdadera funci´on desconocida. Definici´ on 1.13. Sea (Ω, A, µ) un espacio de medida. Dado 1 ≤ p < ∞ y una funci´on G de Lp se llama norma p de G a Z 1/p p kGkp = |G| dµ Ω

An´ alogamente, podemos definir la norma infinito: Definici´ on 1.14. Sea (Ω, A, µ) un espacio de medida. Dada una funci´on G de L∞ se llama norma infinito de G a kGk∞ = sup |G(ω)| ω∈Ω

Se˜ nalar que aunque la definici´ on de kGk∞ es a trav´es del supremo esencial, en el presente trabajo dicho supremo esencial coincide con el supremo a secas ya que trabajamos con funciones de distribuci´on. Cuando el espacio de medida es (R, R) con la medida de Lebesgue y Gn y F son dos funciones de distribuci´ on, observar que kGn −F k∞ siempre estar´a bien definido pues ´estas toman valores en el intervalo [0, 1].

1.2. Criterios de error

5

Considerando, por tanto, la distancia L∞ definimos el error absoluto uniforme como U AE{Gn } = sup |Gn (x) − F (x)| . x∈R

Como este criterio depende de la muestra, es habitual utilizar el error absoluto uniforme medio definido como h i M U AE{Gn } = E sup |Gn (x) − F (x)| . x∈R

Por otro lado, los otros dos criterios kGn − F k1 y kGn − F k2 e incluso kGn − F kp ∀p ≥ 1 tambi´en estar´ an bien definidos sin m´ as que exigir que tanto Gn como F sean absolutamente continuas y tengan media finita. Ve´ amoslo en el siguiente lema: Lema 1.15. Sean F y Gn funciones de distribuci´ on con densidades f y gn respectivamente. Si F y Gn tienen media finita entonces kGn − F kp < ∞

∀p ≥ 1

Demostraci´ on. Comencemos viendo que Z ∞ Z ∞ Z x dx g (t) − f (t) dt |Gn (x) − F (x)| dx = n −∞ 0 0 Z ∞ Z ∞ Z ∞ 1 − dx = g (t) dt − 1 + f (t) dt n 0 x x Z ∞Z ∞ Z ∞ Z ∞ |gn (t) − f (t)| dt dx f (t) − gn (t) dt dx ≤ = 0

∞

Z

Z

0

x ∞

Z

x

∞

Z

t

≤

|gn (t)| + |f (t)| dt dx = |gn (t)| + |f (t)| dx dt 0 x 0 0 Z ∞ Z ∞ Z ∞ = t |gn (t)| + t |f (t)| dt = t |gn (t)| dt + t |f (t)| dt < ∞ 0

0

0

donde hemos utilizado el Teorema de Fubini para intercambiar el orden de integraci´on y donde la u ´ltima desigualdad es debido a la hip´ otesis de que F y Gn tienen media finita. An´ alogamente, Z 0 Z 0 Z x Z 0 Z x dx ≤ |Gn (x) − F (x)| dx = g (t) − f (t) dt |gn (t) − f (t)| dt dx n −∞

−∞ 0

Z

Z

−∞ x

−∞ 0

Z

−∞ 0

Z

|f (t)| + |gn (t)| dt dx =

= −∞ Z 0

−∞

|f (t)| + |gn (t)| dx dt −∞

t

−t |f (t)| − t |gn (t)| dt < ∞

= −∞

con lo que queda probado que Gn − F ∈ L1 . Como Gn y F son acotadas por ser funciones de distribuci´on, tenemos que:

6

Preliminares

kGn −

F kpp

Z

Z

p

p−1

|Gn (x) − F (x)| dx =

=

|Gn (x) − F (x)|

R

|Gn (x) − F (x)| dx

R

Z ≤1

|Gn (x) − F (x)| dx < ∞

∀p ∈ N

R

Si tomamos como herramienta de medida del error kGn − F k1 , para cada muestra el error absoluto integrado viene dado por Z IAE{Gn } = |Gn (x) − F (x)| dx R

Debido a que este criterio es aleatorio pues depende de la muestra, es preferible utilizar su media Z M IAE{Gn } = E

|Gn (x) − F (x)| dx R

Este criterio no est´ a tan desarrollado en la literatura cient´ıfica actual como L2 y L∞ , aunque se conocen algunos resultados que ponen de manifiesto la relaci´on entre este criterio y la m´etrica de Wasserstein. Para una mayor profundizaci´ on pueden verse algunas propiedades y resultados asint´oticos en del Barrio, Gin´e y Matr´ an (1999) [?]. Tambi´en podemos pensar en considerar la distancia L2 para el estudio del error cometido por el estimador. As´ı, para cada muestra, definimos el error cuadr´ atico integrado como Z

[Gn (x) − F (x)]2 dx

ISE{Gn } = R

donde recordemos que Gn es el estimador de la funci´on de distribuci´on desconocida F . Nuestro objetivo, sin embargo, ser´ a estudiar el error cuadr´ atico integrado medio Z M ISE{Gn } = E

[Gn (x) − F (x)]2 dx

R

Nos centraremos en este u ´ltimo por ser ampliamente utilizado y por su facilidad de manipulaci´on. T´engase en cuenta adem´ as que el integrando es no negativo, por lo que el orden de integraci´on y la esperanza pueden intercambiarse aplicando el Teorema de Fubini. De este modo:

Z hZ i Z M ISE{Gn } = E [Gn (x) − F (x)]2 dx = E[{Gn (x) − F (x)}2 ] dx = M SE{Gn (x)} dx R R R Z Z = V ar{Gn (x)} dx + B 2 {Gn (x)} dx = IV (Gn ) + IB 2 (Gn ) R

R

donde IV (Gn ) e IB 2 (Gn ) se denominan varianza integrada y sesgo cuadr´atico integrado respectivamente.

1.3. La funci´ on de distribuci´ on emp´ırica

1.3.

7

La funci´ on de distribuci´ on emp´ırica

Supongamos que tenemos una variable aleatoria X con funci´on de distribuci´on desconocida F (t) = P (X ≤ t), y disponemos de una muestra X1 , . . . , Xn de la distribuci´on definida por F . Consideremos ahora el problema de estudiar el error cometido al estimar la distribuci´on desconocida F mediante un estimador Gn : (R × Rn , R × Rn ) −→ (R, R). El estimador natural consistir´a en contar la proporci´ on de observaciones que son menores o iguales que t, es decir, n

Fn (x) =

1X I(−∞,x] (Xi ) n i=1

donde IA es la funci´ on indicador del conjunto A. La funci´ on Fn es conocida como funci´ on de distribuci´ on emp´ırica y, claramente, es una funci´on escalonada que toma valores en [0, 1]. Definimos ahora Zi (x) = I(−∞,x] (Xi ), las cuales son variables aleatorias independientes e id´enticamente distribuidas, pues lo eran las Xi , y su esperanza es E[Zi ] = P (X ≤ x) = F (x) ≤ 1. En consecuencia estamos en situaci´ on de poder aplicar la Ley de los Grandes N´ umeros llegando a que n 1 X (Zi (x) − EZi (x)) → 0 |Fn (x) − F (x)| = n i=1

c.s.

cuando n → ∞. Esto significa que podemos estimar de modo consistente una funci´on de distribuci´on arbitraria en cualquier punto x. Por otro lado, sabemos que M SE{Fn (x)} = V ar(Fn (x)) + B 2 (Fn (x)), donde B(Fn (x)) = 0 ya que podemos ver que Fn (x) es un estimador insesgado de F (x): n h1 X i I(−∞,x] (Xi ) = E[I(−∞,x] (X)] = P (X ∈ (−∞, x]) = F (x) E[Fn (x)] = E n i=1

y donde su varianza es V ar[Fn (x)] =

1 F (x)(1 − F (x)) n

Puede probarse que no existe ning´ un otro estimador insesgado con menor varianza. Adem´ as, gracias al Teorema Central del L´ımite, se establece que √

n(Fn (x) − F (x)) →d N (0, F (x)(1 − F (x)))

para cada x fijo.

Pero es m´ as, podemos enunciar a continuaci´on el Teorema Fundamental de la Estad´ıstica Matem´atica:

8

Preliminares

Teorema 1.16 (Teorema de Glivenko-Cantelli (1933)). Sean X1 , . . . , Xn variables aleatorias i.i.d. con funci´ on de distribuci´ on F . Entonces kFn − F k∞ = sup |Fn (x) − F (x)| → 0

c.s.

x∈R

cuando n → ∞. Demostraci´ on. Su demostraci´ on puede verse en Van der Vaart (1998) [?].

El Teorema de Glivenko-Cantelli nos proporciona un resultado de consistencia para Fn en L∞ , pero no especifica a qu´e velocidad converge dicho l´ımite. Para ello, disponemos de otros resultados como el que podemos encontrar en Nickl (2010) [?] : Teorema 1.17 (Desigualdad de Dvoretzky, Kiefer y Wolfowitz). Sean X1 , . . . , Xn variables aleatorias i.i.d. con funci´ on de distribuci´ on F . Entonces, para cada n ∈ N y cada λ ≥ 0, P

√

n sup |Fn (x) − F (x)| > λ ≤ 2exp{−2λ2 }. x∈R

Demostraci´ on. Una demostraci´ on para este resultado puede encontrarse en Massart (1990) [?].

Respecto al error cuadr´ atico integrado, para la funci´on de distribuci´on emp´ırica, Fn , tenemos que

M ISE{Fn } =

1 n

Z F (x)[1 − F (x)] dx, R

y adem´ as es finito sin m´ as que suponer que F tenga media finita. Veamos esto u ´ltimo en el siguiente resultado. Lema 1.18. Sea F una funci´ on de distribuci´ on con densidad f , y supongamos que dicha distribuci´ on R R tiene media finita, es decir, R |z| dF (z) < ∞. Entonces, ψ(F ) = R F (z)(1 − F (z)) dz < ∞. R Si R z dF (z) = 0 entonces podemos expresar Z ψ(F ) = 2

R R

f (z1 )f (z2 ) m´ax{z1 , z2 }dz1 dz2

zf (z)F (z)dz = R

Demostraci´ on. Que

Z Z R

|z| dF (z) < ∞ significa que

R

R R

|z| f (z) dz < ∞. Ahora bien, como

1.3. La funci´ on de distribuci´ on emp´ırica

Z

Z Z

9

x

Z

F (x)(1 − F (x))dx = R

∞

f (v)dvdx

f (u)du −∞

R

x

Z Z Z =

f (u)I(−∞,x) (u)f (v)I(x,∞) (v)dvdudx ZR ZR ZR

=

f (u)f (v)I(u,v) (x)I(−∞,v) (u)dxdvdu Z v = f (u)f (v)I(−∞,v) (u) dxdvdu u ZR R Z = f (u) f (v)(v − u)I(−∞,v) (u)dvdu R R Z Z Z Z = f (u)f (v)vI(−∞,v) (u)dvdu − f (u)f (v)uI(−∞,v) (u)dvdu ZR R Z Z v ZR R uf (u) f (v)I(−∞,v) (u)dvdu f (u)dudv − vf (v) = R R −∞ R Z Z Z ∞ = vf (v)F (v)dv − uf (u) f (v)dvdu u ZR ZR = vf (v)F (v)dv − uf (u)(1 − F (u))du R R Z Z Z = vf (v)F (v)dv − uf (u)du + uf (u)F (u)du R R R Z Z = 2 zf (z)F (z)dz − uf (u)du ZR ZR

R

R

R

entonces Z

Z

Z

F (z)(1 − F (z)) dz = 2

zf (z)F (z)dz −

uf (u)du Z ≤ 2 |zf (z)F (z)| dz + |uf (u)| du R ZR Z ≤ 2 |zf (z)| dz + |uf (u)| du R ZR = 3 |zf (z)| dz < ∞

R

ZR

R

R

Para demostrar la primera de la triple igualdad, y de acuerdo a los c´alculos anteriores, Z

Z

F (x)(1 − F (x))dx = 2 R Z = 2 zf (z)F (z)dz, R

por ser f sim´etrica.

Z zf (z)F (z)dz −

R

uf (u)du R

10

Preliminares Para la segunda igualdad, razonamos del siguiente modo, Z Z R

R

f (z1 )f (z2 ) m´ ax{z1 , z2 }dz1 dz2 Z Z z2 Z Z ∞ = f (z1 )f (z2 ) m´ ax{z1 , z2 }dz1 dz2 + f (z1 )f (z2 ) m´ax{z1 , z2 }dz1 dz2 R −∞ R z2 Z Z z2 Z Z ∞ = f (z1 )f (z2 )z2 dz1 dz2 + f (z1 )f (z2 )z1 dz1 dz2 R −∞ R z2 Z Z Z z1 = F (z2 )f (z2 )z2 dz2 + f (z1 )f (z2 )z1 dz2 dz1 R R −∞ Z = 2 zf (z)F (z)dz = ψ(F ) R

1.4.

El estimador n´ ucleo de la distribuci´ on

Existe una extensa bibliograf´ıa cient´ıfica que trata el problema de la estimaci´on de densidades desde diversos puntos de vista. La herramienta m´ as utilizada en dicho campo hoy d´ıa son los estimadores n´ ucleo. Disponemos de un gran abanico de escritos que tratan sobre dichos estimadores; puede consultarse Prakasa Rao (1983) [?], Silverman (1986) [?] o Chac´ on (2004) [?]. R Definici´ on 1.19. Llamamos n´ ucleo a cualquier funci´on k ∈ L1 tal que R k(x) dx = 1. A partir de ahora, siempre consideraremos n´ ucleos que verifiquen k ≥ 0, es decir, n´ ucleos que sean densidades. Definici´ on 1.20. Dados un n´ ucleo k y un n´ umero real h > 0, llamaremos estimador n´ ucleo de la densidad f , con n´ ucleo k y ancho de banda h al estimador definido por n

fn,k,h : (x; x1 , . . . , xn ) ∈ R × Rn 7→

1 X x − xi k ∈ R, nh i=1 h

que escribiremos de modo abreviado como n

fnh (x) =

1 X x − xi k . nh i=1 h

Observar que dicho estimador, por definici´on de n´ ucleo, es tambi´en una densidad si k ≥ 0. Ahora bien, este estimador induce otro para las funciones de distribuci´on de modo inmediato: el estimador n´ ucleo de la distribuci´ on. Es sobre este estimador sobre el que versa todo el presente trabajo. Pasemos, pues, a definirlo inmediatamente. Definici´ on 1.21. Con la notaci´ on utilizada en la anterior definici´on y dado el estimador n´ ucleo fnh de la densidad f , podemos definir el estimador n´ ucleo de la distribuci´ on como Z x fnh (t) dt. Fnh (x) = −∞

1.4. El estimador n´ ucleo de la distribuci´ on

11

Desarrollemos algo m´ as esta definici´ on para dar una forma equivalente de definir el estimador n´ ucleo de la distribuci´ on:

Z

x

Z

Fnh (x) = −∞ n

1X = n i=1 donde K(x) =

Rx −∞

x

fnh (t) dt = −∞

Z

n

n

1 X 1 X t − xi dt = k nh i=1 h nh i=1

x−xi h

Z

x

k

t − x i

h

−∞

dt

n

k(y) dy = −∞

1 X x − xi , K n i=1 h

k(t) dt y donde hemos realizado el cambio de variable y =

t−xi h .

De acuerdo a lo anterior, tenemos otra definici´on equivalente de estimador n´ ucleo de la distribuci´on que damos a continuaci´ on. Definici´ on 1.22. Consideramos una funci´on de distribuci´on K y un n´ umero real h > 0. En estas condiciones, llamaremos estimador n´ ucleo de la distribuci´ on F , con distribuci´on n´ ucleo K y ancho de banda h al estimador definido por n

Fn,K,h : (x; x1 , . . . , xn ) ∈ R × Rn 7→

1 X x − xi K ∈ R, n i=1 h

que escribiremos de modo abreviado como n

Fnh (x) =

1 X x − xi K . n i=1 h

Es obvio que, al ser K una funci´ on de distribuci´on, entonces el estimador n´ ucleo Fnh tambi´en es una distribuci´ on. Basta con ver que Fnh cumple efectivamente los requisitos exigibles a una funci´on para ser distribuci´ on. La definici´ on del estimador Fnh , v´ alido para h > 0, puede extenderse al caso h = 0. Podemos escribir Z Z x − y Fnh (x) = K dFn (y) = k(z)Fn (x − hz) dz, h donde hemos utilizado Z Z I[0,+∞) (x − hz − Xi ) dK(z) = {z≤(x−Xi )/h}

dK(z) = K

x − X i

h

,

como aparece en Chac´ on & Rodr´ıguez-Casal (2010) [?], de modo que, para h = 0, Fnh coincide con Fn . Uno de los inconvenientes principales de Fn es que, mientras que F puede ser continua, Fn siempre es discontinua. En el siguiente gr´ afico, podemos comparar para una muestra de tama˜ no 20 procedente de una distribuci´ on N (0, 1), la verdadera funci´ on de distribuci´on Φ(x), junto a los estimadores Fn y Fnh , apreci´andose c´ omo el estimador n´ ucleo parece aproximarse m´as a la verdadera distribuci´on.

12

Preliminares

1.0

Comparativa entre Φ, Fnh y Fn

0.0

0.2

0.4

F(x)

0.6

0.8

Φ Fnh Fn

−3

−2

−1

0

1

2

3

x

Figura 1.1: Comparativa entre Φ, Fn y Fnh

A la hora de estudiar la precisi´ on de Fnh como estimador de la funci´on de distribuci´on desconocida F mediante el criterio del M ISE, Jones (1990) [?] demuestra que el K ´optimo es el correspondiente a la distribuci´ on uniforme

K(x) =

   0

√ x 0 ´ optimo. El criterio que seguiremos ser´a escogerlo de modo que minimice el M ISE cometido al utilizar el estimador n´ ucleo Fnh para estimar F . Es inmediato que M ISE{Fnh } ≡ M ISE(F ; K, n, h) es una cantidad que depender´a fuertemente del ancho de banda h tomado; por ello abreviaremos como M ISE(h) a partir de ahora. El estudio del mismo se desarrollar´ a extensamente en el Cap´ıtulo 2. Fijadas, pues, F , K y n, tenemos una funci´on real

M ISE : [0, ∞) ⊂ R → R.

Supongamos que dicha funci´ on M ISE tiene un punto donde se alcanza su m´ınimo, punto que denotaremos hM ISE (como expresi´ on abreviada de hM ISE (F ; K, n)), y que ser´a, por tanto, el que verifique

M ISE(hM ISE ) ≤ M ISE(h),

∀h > 0.

El valor de ancho de banda h = hM ISE ∈ (0, ∞) es, por tanto, el valor ´optimo a utilizar en el estimador Fnh para estimar la distribuci´ on. Sin embargo, es claro que dicho ancho de banda depende de n y tambi´en de F , que es desconocida desde el punto de vista estad´ıstico. En dicho sentido, podemos decir que el problema de elecci´ on del ancho de banda ´optimo es equivalente al problema mismo de la estimaci´ on de la distribuci´ on, ya que para determinar totalmente hM ISE necesitar´ıamos conocer F .

En la Figura ?? se muestra la gr´ afica de la funci´on M ISE(h) cuando n = 20, F = Φ y K es el n´ ucleo correspondiente a la distribuci´ on uniforme. El M ISE de Fn se refleja en el valor M ISE(0) y se observa claramente c´ omo una buena elecci´on de h puede mejorar sensiblemente dicho error, ya que M ISE(0) = 0,02848 y M ISE(hM ISE ) = 0,01894. Es m´as, el estimador Fnh comete menor error que Fn no s´ olo para hM ISE , sino para un amplio rango de valores de h.

14

Preliminares

0.030

0.035

Elección del h óptimo

0.020

0.025

MISE(h)

●

0.0

0.2

0.4

0.6

0.8

1.0

h

Figura 1.2: Problema de la elecci´on de hM ISE En el siguiente cap´ıtulo se establecen condiciones que aseguran la existencia de al menos un h que minimice el M ISE y se describen tambi´en con detalle las propiedades de dicho ancho de banda ´optimo.

Cap´ıtulo 2

El ancho de banda o ´ptimo 2.1.

Existencia y comportamiento l´ımite del ancho de banda o ´ptimo

En primer lugar indiquemos que, a partir de este punto y por cuesti´on de notaci´on, cada vez que R R escribamos sin especificar los l´ımites de integraci´on estaremos denotando R . Comencemos recordando que en el cap´ıtulo primero hemos visto que podemos escribir M ISE(h) = IB 2 (h) + IV (h), donde IB 2 (h) =

Z

[EFnh (x) − F (x)]2 dx

y

Z IV (h) =

V ar(Fnh (x)) dx

se denominan sesgo cuadr´ atico integrado y varianza integrada, respectivamente. Recordemos adem´ as que en la definici´ on del estimador n´ ucleo de la distribuci´on figura una funci´on k la cual es densidad de K y, por tanto, k integra 1 y es no negativa. A partir de este momento, supondremos en el desarrollo de todo el cap´ıtulo que F y K tienen densidades f y k, respectivamente. A continuaci´ on, proporcionaremos en esta secci´on dos lemas con desarrollos de IB 2 (h) y de IB 2 (h) + nIV (h) necesarios para la demostraci´ on de la siguiente proposici´on que nos informar´a sobre el comportamineto asint´ otico del M ISE(h). Para ello, utilizaremos continuamente el siguiente resultado: Teorema 2.1. (Teorema de Taylor con resto en forma integral). Sea f una funci´ on n-veces (n) derivable con f continua. En tales circunstancias, podemos escribir f (x + h) = f (x) + f 0 (x)h + donde Rn =

f n−1 (x) n−1 f 00 (x) 2 h + ··· + h + Rn−1 , 2 (n − 1)!

hn (n − 1)!

Z

1

(1 − t)n−1 f (n) (x + ht) dt.

0

15

x, h ∈ R,

16

El ancho de banda ´optimo

Demostraci´ on. Una demostraci´ on de este resultado puede verse en Ap´ostol (1991) [?]. Veamos en los dos siguientes lemas los desarrollos antes mencionados. Lema 2.2. Con la notaci´ on utilizada hasta el momento ZZZZ 1 2 IB (h) = −h uk(u)k(v)[F (y + uht − vh) − F (y + uht)] dt du dv dF (y)

(2.1)

0

Demostraci´ on. Recordemos que, por definici´on, al tener F densidad, F (x) = Rx k(y)dy. Podemos escribir la esperanza de Fnh como: −∞

Rx −∞

f (y)dy, K(x) =

Z Z (x−y)/h x − y x − X Z 1 k(z)f (y)dzdy = K f (y) dy = EFnh (x) = EK h h −∞ ZZ ZZ = k(z)f (y)I{z≤(x−y)/h} dz dy = k(z)f (y)I{y≤x−hz} dy dz x−hz

ZZ =

Z k(z)f (y) dy dz =

k(z)F (x − hz) dz.

−∞

donde hemos utilizado el Teorema de Fubini para cambiar el orden de integraci´on. De acuerdo al desarrollo realizado en (??) de EFnh (h), Z Z hZ i2 2 2 IB (h) = [EFnh (x) − F (x)] dx = k(u)F (x − uh) du − F (x) dx Z hZ i2 = k(u) F (x − uh) − F (x) du dx Z hZ i ih Z k(v) F (x − vh) − F (x) dv dx. = k(u) F (x − uh) − F (x) du De acuerdo al desarrollo de Taylor de F (x − uh), Z F (x − uh) = F (x) − uh

1

f (x − uht) dt 0

tenemos que IB 2 (h) =

Z hZ

Z k(u) − uh

1

i ih Z k(v) F (x − vh) − F (x) dv dx f (x − uht) dt du

0

= −h

Z h ZZ

1

i ih Z k(v) F (x − vh) − F (x) dv dx uk(u)f (x − uht) dt du

0 1

ZZZZ = −h

uk(u)k(v)f (x − uht)[F (x − vh) − F (x)] dt du dv dx 0

Realizando ahora el cambio de variable y = x − uht obtenemos

IB 2 (h) = −h

1

ZZZZ

uk(u)k(v)f (y)[F (y + uht − vh) − F (y + uht)] dt du dv dy 0 1

ZZZZ = −h

uk(u)k(v)[F (y + uht − vh) − F (y + uht)] dt du dv dF (y) 0

(2.2)

2.1. Existencia y comportamiento l´ımite del ancho de banda ´optimo

17

Lema 2.3. En las condiciones del lema anterior 1

ZZZ

2

IB (h) + nIV (h) = ψ(F ) − hψ(K) + 2h

uk(u)F (y + uht)dtdudF (y)

(2.3)

0

Demostraci´ on. Podemos escribir la varianza

Var[Fnh (x)] =

x − X i2 o h x − X i 1 n h x − X1 2 i h 1 1 1 = E K − EK . Var K n h n h h

(2.4)

Respecto al primer sumando, 2 Z Z (x−y)/h h x − X 2 i Z x − y 2 1 E K = K f (y)dy = k(z)dz f (y)dy h h −∞ Z Z (x−y)/h Z (x−y)/h = k(z1 )k(z2 )f (y)dz1 dz2 dy −∞ −∞ ZZZ = k(z1 )k(z2 )f (y)I{y≤x−hz1 } I{y≤x−hz2 } dz1 dz2 dy ZZ = k(z1 )k(z2 )F (x − h m´ax{z1 , z2 })dz1 dz2 (ya que I{y≤x−hz1 } I{y≤x−hz2 } = I{y≤x−h m´ax{z1 ,z2 }} ) ZZZ 1 = F (x) − h k(z1 )k(z2 ) m´ax{z1 , z2 }f (x − ht m´ax{z1 , z2 })dtdz1 dz2 0

donde la u ´ltima igualdad es debida al desarrollo de Taylor de F , Z F (x − h m´ ax{z1 , z2 }) = F (x) − h m´ax{z1 , z2 }

1

f (x − ht m´ax{z1 , z2 })dt. 0

Utilizando lo anterior y la f´ ormula (??), Z

2

2

(EFnh (x) − F (x)) dx + n

IB (h) + nIV (h) = Z

Z V ar(Fnh (x)) dx

(EFnh (x) − F (x))2 dx Z n h x − X i2 o x − X1 2 i h 1 1 E K − EK dx +n n h h =

(2.5)

18

El ancho de banda ´optimo Z nh x − X i2 1 EK + F 2 (x) − 2F (x)EFnh (x) h x − X i2 o h x − X 2 i h 1 1 − EK dx +E K h h Z Z n F 2 (x) − 2F (x) k(u)F (x − hu) du + F (x) = Z Z Z 1 o f (x − ht m´ax{z1 , z2 })dtdz1 dz2 dx −h k(z1 )k(z2 ) m´ ax{z1 , z2 } =

R

0

R

Z Z Z n F 2 (x) − 2F 2 (x) + 2F (x) huk(u) =

1

f (x − uht) dt du + F (x)

0

Z Z −h

Z k(z1 )k(z2 ) m´ ax{z1 , z2 }

R

1

o f (x − ht m´ax{z1 , z2 })dtdz1 dz2 dx

0

R 1

ZZZ = ψ(F ) − hψ(K) + 2h

uk(u)F (x)f (x − uht) dt du dx 0 1

ZZZ = ψ(F ) − hψ(K) + 2h

uk(u)F (y + hut)f (y) dt du dy 0 1

ZZZ = ψ(F ) − hψ(K) + 2h

uk(u)F (y + hut) dt du dF (y) 0

donde la pen´ ultima igualdad ha sido debida la cambio de variable y = x − hut.

El Lema (??) nos sirve para describir el comportamiento l´ımite de la funci´on IB 2 (h). Lema 2.4. Suponiendo las condiciones del Lema ?? se verifica que IB 2 es una funci´ on continua de h y cumple que: 1. l´ım IB 2 (h) = 0. h→0

2. l´ım IB 2 (h) = +∞. h→∞

Demostraci´ on. De acuerdo al desarrollo del Lema ?? sabemos que ZZZZ 1 IB 2 (h) = −h uk(u)k(v)[F (y + uht − vh) − F (y + uht)] dt du dv dF (y). 0

y adem´ as |F (y + uht − vh) − F (y + uht)| ≤ 1, pues F es funci´on de distribuci´on. Por tanto, |uk(u)k(v)[F (y + uht − vh) − F (y + uht)]| ≤ |uk(u)k(v)| , con lo que ZZZZ 1 Z |u| |k(u)| |k(v)| dt du dv dF (y) = |u| |k(u)| du < ∞ 0

y concluimos, aplicando el Teorema de la Convergencia Dominada, que IB 2 (h) es continua con respecto a h en (0, +∞). Para el primer l´ımite, como F es continua tenemos ZZZZ 1 l´ım IB 2 (h) = l´ım −h uk(u)k(v)[F (y + uht − vh) − F (y + uht)] dt du dv dF (y) = 0 h→0

h→0

0

2.1. Existencia y comportamiento l´ımite del ancho de banda ´optimo

19

donde la integral y el l´ımite conmutan por el Teorema de la Convergencia Dominada razonando de modo an´ alogo a como hemos hecho anteriormente. Para el segundo l´ımite, razonamos del siguiente modo. Teniendo en cuenta la expresi´on para EFnh (x) dada en (??) y que F es continua por hip´ otesis, tenemos que Z l´ım EFnh (x) = k(z) l´ım F (x − hz) dz h→∞ h→∞ Z 0 Z ∞ = k(z) l´ım F (x − hz) dz + k(z) l´ım F (x − hz) dz −∞ 0

h→∞

Z =

k(z) dz = K(0) = −∞

0

h→∞

1 , 2

R

ya que k es sim´etrica y k = 1. Adem´ as, el l´ımite y la integral han conmutado porque F (x − hz) ≤ 1 y R k(z) dz = 1. Aplicando ahora el Lema de Fatou a IB 2 obtenemos que Z Z Z l´ım inf Bx2 (h)dx = l´ım inf (EFnh (x) − F (x))2 dx ≥ l´ım inf (EFnh (x) − F (x))2 dx h→+∞ h→+∞ h→+∞ Z Z Z ∞ 1 2 2 = (K(0) − F (x)) dx = ( − F (x)) dx ≥ (1/4)2 = +∞ (2.6) 2 x0 donde para la u ´ltima desigualdad hemos usado que, como F (x) −→ 1 cuando x → ∞, tenemos que existe x0 tal que 1 1 ∀x ≥ x0 . F (x) − > 2 4

Utilicemos el lema anterior junto al Lema ?? para analizar el comportamiento l´ımite del M ISE. R R Teorema 2.5. Si se verifica que |x| dF (x) < ∞ y |u| |k(u)| du < ∞ entonces ∀n ∈ N, M ISE es una funci´ on real y continua en (0, +∞) tal que: i −1 1h 1 M ISE(h) − ψ(F ) = ψ(K) h→0 h n n

1. l´ım 2.

l´ım M ISE(h) = +∞

h→+∞

Demostraci´ on. Veamos primero que M ISE es continua en (0, +∞). Debido a que IB 2 (h) es continua con respecto a h en (0, +∞) tal y como hemos probado en el Lema ??, para probar que M ISE(h) tambi´en lo es, basta con verlo para IB 2 (h) + nIV (h) ya que podemos descomponer el M ISE(h) del siguiente modo: 1 (nIB 2 (h) + nIV (h)) n 1 1 = (n − 1)IB 2 (h) + (IB 2 (h) + nIV (h)) n n

M ISE(h) = IB 2 (h) + IV (h) =

pero ver que IB 2 (h) + nIV (h) es continua con respecto a h en (0, +∞) es inmediato siguiendo un razonamiento an´ alogo al empleado con el sesgo. Ve´amoslo.

20

El ancho de banda ´optimo

Teniendo en cuenta que IB 2 (h) + nIV (h) descompone del siguiente modo de acuerdo a como hemos probado en el Lema ??, IB 2 (h) + nIV (h) = ψ(F ) − hψ(K) + 2h

1

ZZZ

uk(u)F (y + uht)dtdudF (y), 0

bastar´ a ver que el tercer sumando es continuo con respecto a h en (0, +∞) ya que el primero no depende de h y el segundo es h por una cantidad que no depende de h. R Usando, pues, nuevamente que |u| |k(u)| du < ∞ por hip´otesis, y que |F (y + uht)| ≤ 1 debido a que F es funci´ on de distribuci´ on tenemos que: |uk(u)F (y + uht)| ≤ |uk(u)| , 1

ZZZ

con lo que

Z |u| |k(u)| dt du dF (y) =

|u| |k(u)| du < ∞.

0

Demostremos ahora los dos apartados restantes del presente teorema: 1. De acuerdo a las descomposiciones que hemos dado de M ISE(h), de IB 2 (h) y de IB 2 (h) + nIV (h), adem´ as de que F es continua, tenemos que i 1 1h M ISE(h) − ψ(F ) h→0 h n 1 i 1h1 1 2 = l´ım (n − 1)IB 2 (h) + IB (h) + nIV (h) − ψ(F ) h→0 h n n n h n − 1 ZZZZ 1 = l´ım − uk(u)k(v) F (y + uht − vh) − F (y + uht) dtdudvdF (y) h→0 n 0 ZZ 1 i 1 1 + ψ(F ) − hψ(K) + 2h ψ(F ) uk(u)F (y + uht)dtdudF (y) − nh nh 0 −1 ψ(K) = n l´ım

ya que tanto IB 2 (h) como IB 2 (h) + nIV (h) son funciones continuas respecto a h en (0, +∞). 2. De acuerdo al Lema ?? tenemos que l´ım IB 2 (h) = ∞.

h→∞

Por tanto, concluimos que l´ımh→+∞ M ISE(h) ≥ l´ımh→+∞ IB 2 (h) = +∞.

Fijarse que del anterior resultado se deduce que para h suficientemente peque˜ no, M ISE(h) < M ISE(0) 1 −1 ya que M ISE(0) = ψ(F ) y ψ(K) < 0. n n R R Teorema 2.6. Si se verifica que |x| dF (x) < ∞ y |u| |k(u)| du < ∞, entonces para cada n ∈ N, M ISE(h) tiene un m´ınimo en (0, +∞), es decir, existe un n´ umero real estrictamente positivo, hM ISE , tal que M ISE(hM ISE ) = m´ınh>0 M ISE(h).

2.1. Existencia y comportamiento l´ımite del ancho de banda ´optimo

21

Demostraci´ on. Demostrar que M ISE(h) tiene un m´ınimo en (0, +∞) es equivalente a probar que M (h) := R M ISE(h) − n1 F (x)(1 − F (x))dx tiene un m´ınimo. Pero M (0) = 0 y, por el resultado anterior, sabemos que l´ımh→+∞ M (h) = +∞. Por tanto, como M es continua, para probar que M (h) tiene un m´ınimo bastar´a ver que existe h1 tal que M (h1 ) < 0. Y esto es inmediato, pues, por el resultado anterior, l´ımh→0 Mh(h) = −1 n ψ(K) < 0, por tanto, ∃h1 > 0 M (h1 ) tal que h1 < 0 y esto implica que M (h1 ) < 0 A continuaci´ on vamos a probar que el ancho de banda ´optimo tiende a 0 bajo ciertas condiciones. Para ello, haremos uso de la siguiente definici´on y lema, el cual establece la relaci´on existente entre la funci´ on caracter´ıstica de una funci´ on arbitraria g y la funci´on caracter´ıstica de su derivada. Definici´ on 2.7. Dada una funci´ on g ∈ L1 arbitraria su funci´ on caracter´ıstica, que denotaremos por ϕg (t) con t real, se define como ϕg : R −→ C Z t → ϕg (t) =

exp{itx}g(x) dx.

Lema 2.8. Sea g ∈ L1 absolutamente continua y sea g 0 su derivada que suponemos que pertenece a L1 . Entonces ϕg0 (t) = −itϕg (t), t ∈ R. Demostraci´ on. Puede verse la demostraci´ on en Kawata (1972), p´ag. 69 [?]. Lema 2.9. Sean F y G funciones de distribuci´ on con densidades f y g, respectivamente, y tales que R R |x| f (x) dx < ∞ y |x| g(x) dx < ∞ entonces G − F ∈ L1 y ϕG−F (t) = (−it)−1 [ϕg (t) − ϕf (t)], Z ϕG−F (0) = t[f (t) − g(t)] dt

t 6= 0

Demostraci´ on. Veamos que se cumplen las hip´otesis del lema previo y as´ı aplicarlo para g = G − F (donde esta g no debe confundirse con la densidad de G sino que hace referencia a la g usada en el lema anterior): 1. G − F es absolutamente continua puesto que tiene densidad g − f . 2. G − F ∈ L1 de acuerdo al Lema ??. 3. (G − F )0 = g − f ∈ L1 por ser g y f funciones de densidad. Ahora podemos aplicar el lema previo, con lo que ϕ(G−F )0 (t) = (−it)ϕG−F (t)

con

t 6= 0.

Por tanto, como (G − F )0 = g − f y por propiedades b´asicas de las funciones caracter´ısticas, tenemos que

22

El ancho de banda ´optimo

ϕG−F (t) = (−it)−1 [ϕg (t) − ϕf (t)]

con t 6= 0.

Para el caso t = 0, es f´ acil ver con un razonamiento an´alogo al anterior; Z

Z

0

Z

[G(x) − F (x)] dx =

ϕG−F (0) =

[G(x) − F (x)] dx + −∞

Z

0

Z

∞

Z

x

[g(t) − f (t)] dt dx

−∞ Z x

0

Z

−∞ ∞Z ∞

[f (t) − g(t)] dt dx

[g(t) − f (t)] dt dx +

= −∞ Z 0

−∞ Z 0

Z

0 ∞

Z

−∞ Z 0

t

0

Z

0

∞

t[f (t) − g(t)] dt

−tg(t) + tf (t) dt +

Z−∞ = t[f (t) − g(t)] dt

x t

[f (t) − g(t)] dx dt

[g(t) − f (t)] dx dt +

= =

Z [g(t) − f (t)] dt dx +

−∞ Z 0

[G(x) − F (x)] dx 0

x

=

∞

0

Teorema 2.10. Bajo las condiciones del Teorema ??, si f es continua y la funci´ on caracter´ıstica de k no es constante en ning´ un entorno del origen, entonces l´ımn→+∞ hM ISE (F ; K, n) = 0 Demostraci´ on. Supongamos que l´ım supn→+∞ hM ISE (F ; K, n) > 0, para alguna F . Por tanto, existe una subsucesi´ on de (hM ISE (F ; K, n)) tal que l´ımk→+∞ hM ISE (F ; K, nk ) = λ. Para cada h > 0 fijo, y de acuerdo a las ecuaciones (??) y (??), a que IB 2 (F ; K, h) es una funci´on continua, a que el M ISE(h) descompone en funci´ on de sesgo y varianza y a que l´ımn→∞ IV (h) = 0 tenemos que: IB 2 (F ; K, h) = l´ım M ISE(F ; K, nk , h) ≥ l´ım M ISE(F ; K, nk , hM ISE (F ; K, nk )) k→+∞ k→+∞  +∞ si λ = +∞ ≥ l´ım IB 2 (F ; K, hM ISE (F ; K, nk )) = IB 2 (F ; K, λ) si 0 < λ < +∞ k→+∞ donde IB 2 (F ; K, λ) > 0, como veremos despu´es. En ambos casos, como IB 2 (F ; K, h) es continua tal y como probamos en la demostraci´ on de la Proposici´on ??, llegamos a contradicci´on al tomar l´ımite cuando 2 h → 0, debido a que l´ımh→0 IB (h) = 0 tal y como vimos en el Lema ??. Veamos que, efectivamente, IB 2 (F ; K, λ) > 0. Recordemos que Z EFnh =

Z k(z)F (x − hz) dz =

1 x−y k( )F (y) dy = h h

Z kh (x − y)F (y) dy = kh ∗ F (x).

Adem´ as, (kh ∗ F )0 = kh ∗ f por ser f continua (ver Chac´on (2004, Lema A.2)[?]); de modo que kh ∗ F es una funci´ on de distribuci´ on debido a que kh ∗ f es una funci´on de densidad por ser convoluci´on de densidades.

2.2. Representaci´ on asint´ otica del ancho de banda ´optimo

23

Por otro lado, como k y f tienen media finita por hip´otesis, entonces kh ∗ F tiene media finita: Z ZZ xkh ∗ f (x) dx = xkh (x − y)f (y) dx dy ZZ = (y + z)kh (z)f (y) dz dy Z Z ≤ |y| f (y) dy + |z| kh (z) dz < +∞, y, por tanto, kh ∗ F − F ∈ L1 . Pero, como adem´ as kh ∗ F y F son acotadas entonces, juntando todo lo anterior, tenemos que kh ∗ 2 F −F ∈L . Ahora ya podemos aplicar la f´ ormula de Parseval a kh ∗ F − F teniendo en cuenta las siguientes propiedades elementales de las transformadas de Fourier ϕK+L (t) = ϕK (t) + ϕL (t) ϕK∗L (t) = ϕK (t)ϕL (t) ϕKh (t) = ϕK (th). De este modo obtenemos, usando el lema previo y la f´ormula de Parseval, que Z

2

IB (h) = 1 π 1 = π 1 = π 1 = π =

2

Z

(EFnh − F (t)) dt = (kh ∗ F − F (t))2 dt Z ∞ 2 |ϕkh ∗F −F (t)| dt Z0 ∞ 2 t−2 |ϕkh ∗f − ϕf (t)| dt 0 Z ∞ 2 t−2 |ϕk (th)ϕf (t) − ϕf (t)| dt 0 Z ∞ 2 2 t−2 |ϕf (t)| |1 − ϕk (th)| dt > 0 0

ya que, por hip´ otesis, la funci´ on caracter´ıstica de k no es constante para ning´ un entorno del origen; y como ϕf (0) = 1 y ϕf es continua entonces ϕf es mayor que 0 en otro intervalo y bastar´a, pues, con tomar el menor de los dos intervalos para poder asegurar que tanto |ϕf (t)| como |1 − ϕk (th)| son positivos.

2.2.

Representaci´ on asint´ otica del ancho de banda ´ optimo

A lo largo de la presente secci´ on probaremos los resultados necesarios con el objetivo puesto en ver el orden de convergencia del ancho de banda ´ optimo para el M ISE. Para ello, construiremos un desarrollo adecuado para el sesgo y la varianza integrados para concluir con el Teorema ?? que proporciona el valor de c0 de modo que hM ISE = c0 n−1/3 + o(n−1/3 ). R R Denotemos, a partir de ahora, µ2 (k) = R z 2 k(z)dzy R(g) = g(x)2 dx para cualquier g ∈ L2 . Con esta notaci´ on, podemos dar el siguiente lema.

24

El ancho de banda ´optimo

Lema 2.11. Si k es sim´etrico, con µ2 (k) < ∞, y F tiene densidad f que es derivable con continuidad y con f 0 ∈ L2 ∩ L∞ entonces el sesgo cuadr´ atico integrado admite la siguiente expresi´ on IB 2 (h) =

1 µ2 (k)2 R(f 0 )h4 + o(h4 ), 4

cuando h → 0.

Demostraci´ on. De acuerdo a (??), podemos escribir la esperanza de Fnh como: Z EFnh (x) = k(z)F (x − hz)dz. R

Usando el desarrollo de Taylor para F (x − hz) alrededor de x tenemos que 2 2

Z

F (x − hz) = F (x) − hzf (x) + h z

1

(1 − t)f 0 (x − hzt)dt

0

y como F (x) =

R

k(z)F (x)dz, debido a que k integra 1, el sesgo de Fnh (x) puede ser reescrito como Z Z Bx (h) = EFnh (x) − F (x) = k(z)F (x − hz)dz − F (x) = k(z)[F (x − hz) − F (x)]dz Z ZZ 1 = −hf (x) zk(z)dz + h2 z 2 k(z)(1 − t)f 0 (x − hzt)dtdz 0

= h2

ZZ

1

z 2 k(z)(1 − t)f 0 (x − hzt)dtdz

(2.7)

0

R donde estamos usando, adem´ as, que zk(z)dz = 0, debido a que k es sim´etrico. A continuaci´ on, elevando al cuadrado e integrando obtenemos que el sesgo cuadr´atico integrado puede ser escrito como Z Z h ZZ 1 i2 IB 2 (h) = Bx (h)2 dx = h4 z 2 k(z)(1 − t)f 0 (x − hzt)dtdz dx. 0

RR 1

Denotemos ahora I(x; h) = 0 z 2 k(z)(1 − t)f 0 (x − hzt)dtdz. Como por hip´otesis µ2 (k) < ∞ y f 0 es continua y acotada tenemos que 2 z k(z)(1 − t)f 0 (x − hzt) ≤ z 2 k(z)(1 − t) kf 0 k∞ con

1

ZZ

2 z k(z)(1 − t) dt dz < ∞, 0

luego, por el Teorema de la Convergencia Dominada (TCD), sabemos que para cada x fijo, 1

ZZ

z 2 k(z)(1 − t)f 0 (x)dtdz = µ2 (k)f 0 (x)

l´ım I(x; h) =

h→0

0

Z

1

(1 − t)dt 0

1 = µ2 (k)f 0 (x) 2 Aplicando ahora el Lema de Fatou: 1 µ2 (k)2 R(f 0 ) = 4

Z

1 µ2 (k)2 f 0 (x)2 dx = 4

Z

Z

2

l´ım inf I(x; h) dx ≤ l´ım inf h→0

h→0

I(x; h)2 dx

(2.8)

2.2. Representaci´ on asint´ otica del ancho de banda ´optimo

25

Para obtener la correspondiente desigualdad para el l´ım sup tengamos en cuenta que, usando de nuevo la desigualdad de Cauchy-Schwarz,

2

I(x; h) ≤

1

hZ Z

1

ih Z Z u k(u)(1 − t)dtdu 2

0

1 = µ2 (k) 2

i u2 k(u)(1 − t)f 0 (x − hut)2 dtdu

0 1

Z Z

u2 k(u)(1 − t)f 0 (x − hut)2 dtdu 0

as´ı que Z l´ım sup

I(x; h)2 dx ≤

h→0

1 µ2 (k)2 R(f 0 ). 4

(2.9)

R Las desigualdades (??) y (??) implican que l´ımh→0 I(x; h)2 dx existe y es igual a 41 µ2 (k)2 R(f 0 ) y, de este modo, logramos el desarrollo deseado para el sesgo cuadr´atico integrado, ya que hemos probado que h−4 IB 2 (h) →

1 µ2 (k)2 R(f 0 ) 4

cuando h → 0.

Lema 2.12. En las mismas condiciones que el lema anterior y suponiendo adem´ as que f ∈ L2 y que R |xf (x)| dx < ∞, h2 1 1 IV (h) = ψ(F ) − hψ(K) + O , cuando h → 0. (2.10) n n n Demostraci´ on. Para cada punto fijo x, podemos escribir x − X i2 o 1 n h x − X1 2 i h 1 E K − EK Var[Fnh (x)] = n h h de acuerdo a (??). Para el segundo sumando, razonamos del mismo modo que en (??) y as´ı obtenemos Bx (h) = h2

1

ZZ

z 2 k(z)(1 − t)f 0 (x − hzt)dtdz 0

de modo que x − X EK

1

h

= F (x) + Bx (h) = F (x) + h2

1

ZZ

z 2 k(z)(1 − t)f 0 (x − hzt)dtdz 0

Elevando al cuadrado vemos que ZZ 1 h x − X i2 1 = F (x)2 + 2h2 F (x) z 2 K(z)(1 − t)f 0 (x − hzt)dtdz EK h 0 ZZ 1 2 4 2 +h z k(z)(1 − t)f 0 (x − hzt)dtdz 0

Recordemos que por (??) tenemos que, ZZZ 1 h x − X 2 i 1 = F (x) − h k(z1 )k(z2 ) m´ax{z1 , z2 }f (x − ht m´ax{z1 , z2 })dtdz1 dz2 . E K h 0

(2.11)

26

El ancho de banda ´optimo Uniendo (??) y (??) obtenemos 1n Var[Fnh (x)] = F (x)(1 − F (x)) n ZZZ 1 −h k(z1 )k(z2 ) m´ax{z1 , z2 }f (x − ht m´ax{z1 , z2 })dtdz1 dz2 0

− 2h2 F (x)

ZZ

1

z 2 k(z)(1 − t)f 0 (x − hzt)dtdz

o

0

− h4

1

ZZ

z 2 k(z)(1 − t)f 0 (x − hzt)dtdz

2

0

R

R Integrando lo anterior, y como F (1 − F ) < ∞ debido a la hip´otesis que establece que |xf (x)| dx < ∞, tenemos que Z Z 1 F (x)[1 − F (x)]dx IV (h) = Var[Fnh (x)]dx = n ZZZZ 1 1 − h k(z1 )k(z2 ) m´ax{z1 , z2 }f (x − ht m´ax{z1 , z2 })dtdz1 dz2 dx n 0 ZZZ 1 2 2 − h z 2 k(z)(1 − t)f 0 (x − hzt)F (x)dtdzdx n 0 Z ZZ 1 i2 1 4 h − h z 2 k(z)(1 − t)f 0 (x − hzt)dtdz dx n 0 Z 1 1 = F (x)[1 − F (x)]dx − hψ(K) n n ZZZ 1 2 z 2 k(z)(1 − t)f 0 (x − hzt)F (x)dtdzdx − h2 n 0 Z ZZ 1 i2 1 4 h − h z 2 k(z)(1 − t)f 0 (x − hzt)dtdz dx n 0 R donde hemos utilizado que f (x − ht m´ ax{z1 , z2 }) dx = 1 por ser f funci´on de densidad. Ahora, si probamos que las integrales del tercer y cuarto sumando est´an acotados por una constante que no depende de h ni n, entonces quedar´ a probado que h2 h4 1 F (x)[1 − F (x)]dx − hψ(K) + O +O n n n 4 2 tal y como quer´ıamos demostrar, ya que O hn = o hn porque h → 0. Respecto al cuarto sumando, podemos ver que Z Z Z 1 ZZZ 1 2 0 ≤ z k(z)(1 − t)f (x − hzt)F (x)dtdzdx z 2 k(z)(1 − t)|f 0 (x − hzt)F (x)|dtdzdx 1 IV (h) = n

0

Z

0

Para continuar, integremos por partes del siguiente modo: Z 0 f (x − hzt)dx = dv ⇒ v = f 0 (x − hzt)dx = f (x − hzt) F (x) = u ⇒ f (x)dx = du

(2.12)

2.2. Representaci´ on asint´ otica del ancho de banda ´optimo

27

De esta manera, Z Z Z f 0 (x − hzt)F (x)dx = [F (x)f (x − hzt)]+∞ − f (x − hzt)f (x)dx = − f (x − hzt)f (x)dx −∞ supuesto que l´ımx→±∞ f (x) = 0. Pero esto u ´ltimo es consecuencia, de acuerdo a los resultados auxiliares 0 del Ap´endice A, de decir que f y f f son integrables. Y f y f f 0 son integrables debido a que hemos supuesto que f 2 y f 02 son integrables (f tambi´en lo es por ser funci´on de densidad) y al Teorema de Cauchy-Schwarz: hZ

f (x)f 0 (x) dx

i2

Z ≤

2

Z

|f (x)| dx

2

|f 0 (x)| dx

As´ı, podemos continuar: ZZZ 1 (??) = z 2 k(z)(1 − t)f (x − hzt)f (x)dtdzdx 0 1

ZZ

z 2 k(z)(1 − t)

=

Z f (x − hzt)f (x)dxdtdz

0 1

ZZ

z 2 k(z)(1 − t)

≤

Z

f (x − hzt)2 dx

1/2 Z

f (x)2 dx

1/2

Z dtdz =

0

1 f (x)2 µ2 (k) dx 2

sin m´ as que usar de nuevo la desigualdad de Cauchy-Schwarz. Por otro lado, en relaci´ on al tercer sumando, y usando una vez m´as la desigualdad de Cauchy-Schwarz, obtenemos: ZZZZ 1 Z 1 z 2 k(z)(1 − t)w2 k(w)(1 − u)f 0 (x − hzt)f 0 (x − huw)dtdzdudwdx 0

≤

0

h ZZZZ h ZZZZ

1 0 1

Z Z

1

z 2 k(z)(1 − t)w2 k(w)(1 − u)f 0 (x − hzt)2

i1/2

0 1

z 2 k(z)(1 − t)w2 k(w)(1 − u)f 0 (x − huw)2 0 0 Z i1/2 h 1 1 f 0 (x − hzt)2 dx = µ2 (k) µ2 (k) 2 2 Z h i1/2 1 1 × µ2 (k) µ2 (k) f 0 (x − huw)2 dx 2 2 1 1 1 1 0 12 = µ2 (k) R(f ) µ2 (k) R(f 0 ) 2 = µ2 (k)2 R(f 0 ) 2 2 4 tal y como quer´ıamos. ×

i1/2

Una vez que hemos hallado IB 2 (h) y IV (h) y de acuerdo a la descomposici´on del M ISE en suma de dichas dos componentes, pasemos a enunciar el siguiente teorema que recoge lo estudiado en los dos lemas anteriores. Teorema 2.13. Si k es sim´etrico, con µ2 (k) < ∞, y F tiene densidad f tal que f ∈ L2 , es derivable con R continuidad y |xf (x)| dx < ∞, y adem´ as f 0 ∈ L2 ∩ L∞ entonces M ISE(h) = IB 2 (h) + IV (h) = AM ISE(h) + O

h2 n

+ o(h4 )

28

El ancho de banda ´optimo

siendo AM ISE(h) =

1 n ψ(F )

− nh ψ(K) + 41 h4 µ2 (k)2 R(f 0 )

Corolario 2.14. Existe un ancho de banda asint´ oticamente ´ optimo, que denotaremos hAM ISE , que minimiza el error cuadr´ atico integrado medio asint´ otico (AMISE). Dicho ancho de banda ´ optimo es hAM ISE = c0 n−1/3 donde c0 = ψ(K)1/3 µ2 (K)−2/3 R(f 0 )−1/3

(2.13)

Adem´ as, para dicho hAM ISE , el AMISE cometido, que denotaremos AM ISEo , viene dado por 3 AM ISEo = ψ(F )n−1 − µ2 (K)−2/3 ψ(K)4/3 R(f 0 )−1/3 n−4/3 4 Demostraci´ on. Hemos visto en el teorema anterior que 1 1 1 ψ(F ) − hψ(K) + h4 µ2 (k)2 R(f 0 ) n n 4 Hallando el h que minimiza el valor de dicha expresi´on, obtenemos: AM ISE(h) =

∂AM ISE = −n−1 ψ(K) + h3 µ22 (k)R(f 0 ) = 0 ∂h Por tanto, hAM ISE = n−1/3 ψ(K)1/3 µ2 (k)−2/3 R(f 0 )−1/3 = c0 n−1/3 . Y sustituyendo el hAM ISE en la expresi´ on del AMISE llegamos a que: AM ISEo = n−1 ψ(F ) − n−4/3 ψ(K)4/3 µ2 (k)−2/3 R(f 0 )−1/3 1 + µ2 (K)2 R(f 0 )n−4/3 ψ(K)4/3 µ2 (k)−8/3 R(f 0 )−4/3 = 4 3 = ψ(F )n−1 − µ2 (k)−2/3 ψ(K)4/3 R(f 0 )−1/3 n−4/3 4 Restando el t´ermino n−1 ψ(F ) al M ISE obtenemos lo que denotaremos por M : M (h) = M ISE(h) − n−1 ψ(F ). Por tanto, en virtud del teorema anterior podemos escribir h2 M (h) = AM (h) + O + o(h4 ) n donde 1 AM (h) = −n−1 hψ(K) + h4 µ2 (K)2 R(f 0 ) 4 Teorema 2.15. Bajo las condiciones del Teorema ??, existe U ∈ R, tal que 0 ≤ n1/3 hM ISE ≤ U, para casi todo n ∈ N. Es m´ as, se cumple que l´ımn→∞ n1/3 hM ISE = c0 , donde c0 viene dado por (??), de modo que, como consecuencia, podemos escribir hM ISE = c0 n−1/3 + o(n−1/3 ), es decir,

hAM ISE hM ISE

→ 1.

2.2. Representaci´ on asint´ otica del ancho de banda ´optimo

29

Demostraci´ on. De acuerdo con la notaci´ on antes se˜ nalada, y tomando h = cn−1/3 , tenemos que 1 M (cn−1/3 ) = −cn−4/3 ψ(K) + c4 n−4/3 µ2 (k)2 R(f 0 ) + O(n−5/3 ) + o(n−4/3 ) 4 h i 1 = n−4/3 − cψ(K) + c4 µ2 (k)2 R(f 0 ) + O(n−5/3 ) + o(n−4/3 ) 4 Tomando l´ımites, obtenemos 1 l´ım n4/3 M (cn−1/3 ) = −cψ(K) + c4 µ2 (k)2 R(f 0 ). 4

n→∞

(2.14)

N´ otese que, precisamente, el c que minimiza ese l´ımite es c0 . De acuerdo a la definici´ on de hM ISE tenemos que n4/3 M (cn−1/3 ) ≥ n4/3 M (hM ISE ). Tomando l´ımite en la expresi´ on anterior y de acuerdo a (??), tenemos que: 1 −cψ(K) + c4 µ2 (k)2 R(f 0 ) ≥ l´ım sup n4/3 M (hM ISE ) 4 n→∞

(2.15)

De aqu´ı deducimos que l´ım supn→∞ n1/3 hM ISE < ∞. Ve´amoslo razonando por contradicci´on. Supongamos que l´ım supn→∞ n1/3 hM ISE = +∞. Entonces, 1 − cψ(K) + c4 µ2 (k)2 R(f 0 ) ≥ l´ım sup n4/3 M (hM ISE ) 4 n→∞ h i 2 4/3 1 4 = l´ım sup n hM ISE µ2 (k) R(f 0 ) + o(h4M ISE ) − n−1 hM ISE ψ(K) + O(n−1 h2M ISE ) 4 n→∞ 1 4/3 4 = l´ım sup n hM ISE µ2 (k)2 R(f 0 ) + n4/3 o(h4M ISE ) − n1/3 hM ISE ψ(K) + O(n1/3 h2M ISE ) n→∞ 4 h 1 i = l´ım sup (n1/3 hM ISE )4 µ2 (k)2 R(f 0 ) + o(1) + (n1/3 hM ISE )(−ψ(K) + o(n1/3 hM ISE ) 4 n→∞ h i 1 = l´ım sup (n1/3 hM ISE )4 µ2 (k)2 R(f 0 ) + an + (n1/3 hM ISE )(−ψ(K) + bn ) 4 n→∞ donde an y bn son sucesiones que convergen a 0. Como 14 µ2 (k)2 R(f 0 ) > 0 entonces ∃n1 ∈ N suficientemente grande tal que ∀n > n1 , 1 1 µ2 (k)2 R(f 0 ) + an ≥ µ2 (k)2 R(f 0 ). 4 8 Y como −ψ(K) < 0 entonces ∃n2 ∈ N suficientemente grande tal que ∀n > n2 , −ψ(K) + bn ≥ −2ψ(K). Por tanto, para n0 = m´ ax{n1 , n2 } tenemos que ∀n > n0 , 1 1 µ2 (k)2 R(f 0 ) + an ≥ µ2 (k)2 R(f 0 ) 4 8

30

El ancho de banda ´optimo

y −ψ(K) + bn ≥ −2ψ(K). De acuerdo con esto, llegamos a que 1 − cψ(K) + c4 µ2 (k)2 R(f 0 ) 4 h 1 i ≥ l´ım sup (n1/3 hM ISE )4 µ2 (k)2 R(f 0 ) + (n1/3 hM ISE )(−2ψ(K)) 8 n→∞ = l´ım sup[c2 x4n − c1 xn ] = l´ım sup xn [c2 x3n − c1 ] = +∞ n→∞

n→∞

ya que c2 = 81 µ2 (k)2 R(f 0 ) > 0 y donde hemos denotado xn = n1/3 hM ISE y c1 = 2ψ(K). De este modo hemos llegado a contradicci´ on. Por tanto, como acabamos de probar que l´ım supn→∞ n1/3 hM ISE < ∞, tenemos que existe U ∈ R con U < ∞ y tal que n1/3 hM ISE ≤ U, para casi todo n ∈ N. Como cota inferior podemos considerar el 0 pues, por definici´on, hM ISE ≥ 0. Por tanto, a partir de un cierto n, todos los t´erminos de la sucesi´ on {n1/3 hM ISE }n est´an en el intervalo [0, U ]. Por consiguiente, existe una subsucesi´ on de {n1/3 hM ISE }n que es convergente; llamamos l a dicho l´ımite. De acuerdo a esto y al desarrollo de M (h) valorado en h = hM ISE obtenemos que 1 n4/3 M (hM ISE ) = −n1/3 hM ISE ψ(K) + n4/3 h4M ISE µ2 (k)2 R(f 0 ) 4 + O(n1/3 h2M ISE ) + n4/3 o(h4M ISE ) por lo que la correspondiente subsucesi´ on de {n4/3 M (hM ISE )}n tendr´a l´ımite 1 −lψ(K) + l4 µ2 (k)2 R(f 0 ). 4 Pero seg´ un (??), 1 1 −c0 ψ(K) + c40 µ2 (k)2 R(f 0 ) ≥ −lψ(K) + l4 µ2 (k)2 R(f 0 ) 4 4 Como c0 era el u ´nico valor positivo que hac´ıa m´ınima la expresi´on anterior, tiene que ser l = c0 . Con el razonamiento anterior se prueba adem´as que c0 es el u ´nico valor de adherencia de la sucesi´on 1/3 {n hM ISE }n en [0, U ]. Pero todos los elementos de dicha sucesi´on est´an en [0, U ] a partir de uno dado, por tanto, la sucesi´ on tiene l´ımite y dicho l´ımite es c0 .

Cap´ıtulo 3

Estudio de simulaci´ on

A lo largo del presente cap´ıtulo desarrollaremos un trabajo de simulaci´on en el que compararemos el ISE cometido con la funci´ on de distribuci´ on emp´ırica y el ISE cometido con el estimador n´ ucleo de la distribuci´ on.

Para ello generaremos 100 muestras de cada una de las diez primeras densidades de Marron & Wand (1992) [?] para diversos tama˜ nos muestrales (n = 50, n = 100 y n = 200) y realizaremos diagramas de cajas conjuntos donde comparar el ISE cometido por la funci´on de distribuci´on emp´ırica y por el estimador n´ ucleo de la distribuci´ on tomando h = hISE , el valor que minimizaba ISE(h).

Pueden verse los diversos programas utilizados para el estudio de simulaci´on en el Ap´endice B.

Recordemos cu´ ales eran dichas densidades de Marron y Wand procedentes de diversas mixturas de densidades y adjuntemos a continuaci´ on los gr´aficos resultantes de la simulaci´on detallada anteriormente para datos procedentes de las mencionadas diez distribuciones de Marron y Wand: 31

32

Estudio de simulaci´on Densidad 2

0.4

Densidad 1

0.4 0.3

f(x)

0.0

0.0

0.1

0.1

0.2

0.2

f(x)

0.3

0.5

N(0,1) Densidad de M.W.

−2

−1

0

1

2

3

−3

−2

−1

0

x

x

Densidad 3

Densidad 4

1

2

3

1

2

3

1

2

3

1

2

3

1

2

3

f(x) 0.0

0.0

0.2

0.4

0.5

0.6

f(x)

0.8

1.0

1.0

1.2

1.5

1.4

−3

−2

−1

0

1

2

3

−3

−2

−1

0

x

x

Densidad 5

Densidad 6

−2

−1

0

1

2

3

−3

−2

−1

0

x

x

Densidad 7

Densidad 8

f(x)

0.0

0.0

0.1

0.1

0.2

0.2

0.3

0.3

0.4

0.4

−3

f(x)

0.2

f(x) 0

0.0

0.1

1

f(x)

2

0.3

3

0.4

−3

−2

−1

0

1

2

3

−3

−2

−1

0

x

x

Densidad 9

Densidad 10

0.3

f(x)

0.2

0.2

0.1

0.1

0.0

0.0

f(x)

0.4

0.3

0.5

0.4

0.6

−3

−3

−2

−1

0 x

1

2

3

−3

−2

−1

0 x

Figura 3.1: Densidades de Marron y Wand.

Estudio de simulaci´ on

33

0.35

Densidad 2 de Marron y Wand

ISE(h=0) ISE(h=hISE)

●

● ● ●

● ●

0.25

● ● ●

●

0.02

● ●

● ● ●

● ● ● ● ●

● ●

0.01

● ●

0.20

●

● ● ● ●

● ● ●

0.15

0.03

ISE(h=0) ISE(h=hISE)

0.30

0.04

● ●

●

●

●

● ●

●

0.10

0.05

Densidad 1 de Marron y Wand ●

●

0.00

● ●

n=50

n=50

n=100

n=100

n=200

n=200

n=50

n=100

n=200

n=200

●

ISE(h=0) ISE(h=hISE)

1.2

0.05

0.06

ISE(h=0) ISE(h=hISE)

1.4

n=100

Densidad 4 de Marron y Wand 0.07

Densidad 3 de Marron y Wand

n=50

0.04

●

0.03

1.0

●

● ● ● ● ● ● ●

0.01

0.8

0.02

● ●

0.6

● ● ● ●

● ● ● ● ●

0.00

●

n=50

n=50

n=100

n=100

n=200

n=200

n=50

● ●

n=50

n=100

n=100

n=200

n=200

Densidad 6 de Marron y Wand 0.08

Densidad 5 de Marron y Wand ●

ISE(h=0) ISE(h=hISE)

0.06

0.15

ISE(h=0) ISE(h=hISE)

●

●

0.02

0.05

0.04

0.10

●

0.00

●

n=50

n=50

●

n=100

n=100

n=200

n=200

n=50

n=50

n=100

n=100

n=200

n=200

Densidad 8 de Marron y Wand

0.25

Densidad 7 de Marron y Wand ● ●

0.15

ISE(h=0) ISE(h=hISE)

ISE(h=0) ISE(h=hISE)

● ●

0.15

0.10

0.20

●

●

0.10

0.05

●

●

0.00

●

n=50

n=50

n=100

n=100

n=200

n=200

n=50

n=50

n=100

n=100

● ●

n=200

●

ISE(h=0) ISE(h=hISE)

●

n=200

Densidad 10 de Marron y Wand 0.04

0.10

Densidad 9 de Marron y Wand

ISE(h=0) ISE(h=hISE) ● ●

0.03

0.08

●

●

● ● ● ●

● ● ●

● ●

● ● ●

●

●

●

●

0.01

0.04

0.02

0.06

●

● ● ● ● ● ● ● ●

● ●

●

● ●

0.02

● ●

0.00

● ●

n=50

n=50

n=100

n=100

n=200

n=200

n=50

n=50

n=100

n=100

n=200

n=200

Figura 3.2: Comparaci´ on del ISE para Fnh y Fn con las densidades de Marron y Wand.

34

Estudio de simulaci´on

Como primera observaci´ on clara del presente estudio de simulaci´on, es se˜ nalable que la estimaci´on por parte de la distribuci´ on emp´ırica es, en t´erminos absolutos, relativamente buena con errores globales bajos. Sin embargo, a la hora de realizar una comparativa que enfrente a los dos estimadores objeto de estudio, puede verse que es claramente preferible el estimador n´ ucleo, el cual comete un error mucho menor para todas las densidades. En algunas de las muestras el estimador n´ ucleo es preferible aunque no claramente superior (densidades 6, 8 y 9), pero en las restantes densidades (densidades 1, 2, 3, 4, 5, 7 y 10) es significativamente preferible el estimador n´ ucleo, ya que mejora considerablemente en t´erminos de ISE a la funci´on de distribuci´on emp´ırica, llegando a cometer un error hasta 15 veces menor para los datos procedentes de la densidad 5 en cualquiera de los distintos tama˜ nos muestrales. Podemos apreciar en la siguiente figura, donde hemos representado la funci´ on M ISE para 500 muestras de tama˜ no muestral n = 100 de la densidad 5 de Marron y Wand, c´ omo es posible mejorar sustancialmente con respecto a la funci´on de distribuci´on emp´ırica mediante la elecci´ on ´ optima de h. En tal figura apreciamos que M ISE(0) = 0,14770 mientras que M ISE(hM ISE ) = 0,00284.

●

0.00

0.05

MISE(h)

0.10

0.15

Elección del h óptimo

0.0

0.2

0.4

0.6

0.8

1.0

h

Figura 3.3: M ISE(h) para la densidad 5 de Marron y Wand y n = 100 Todos estos resultados de simulaci´ on han sido desarrollados calculando el hISE , el cual, como hemos visto en los cap´ıtulos anteriores es desconocido en la pr´actica. No obstante, la b´ usqueda de selectores de b ancho de banda h, a partir de los datos, ser´ a objeto de futuro estudio.

Ap´ endice A

Algunos resultados auxiliares A lo largo del presente ap´endice desarrollaremos algunos resultados auxiliares que han sido utilizados en el presente trabajo pero cuyas demostraciones no consider´abamos adecuado incluir en el lugar en que se utilizaban por diversos motivos. Dichos resultados, pues, ser´ an enunciados y demostrados con todo detalle en este ap´endice. Lema A.1. Sea g : R → R una funci´ on continuamente diferenciable tal que g y gg 0 son integrables. Entonces l´ım|x|→+∞ g(x) = 0. Demostraci´ on. La integrabilidad de g es suficiente para probar que el l´ımite l´ım|x|→+∞ |g(x)| existe y es finito. Sea (xn ) una sucesi´ on estrictamente creciente de n´ umeros reales no negativos convergente a +∞ tal que x0 = 0. Tenemos entonces que g 0 gI[0,+∞)

=

∞ X

g 0 gI[xk ,xk+1 )

k=0

=

l´ım fn ,

donde fn =

n X

g 0 gI[xk ,xk+1 ) ,

k=0

de modo que |fn | ≤

∞ X

|g 0 g|I[xk ,xk+1 ) = |g 0 g|.

k=0

De la hip´ otesis de integrabilidad de |g 0 g| y el Teorema de la Convergencia Dominada de Lebesgue obtenemos que Z +∞ Z +∞ 0 g g = l´ım fn , 0

0

35

36

Algunos resultados auxiliares

donde, debido a la continuidad de g 0 , n Z X

+∞

Z

fn

=

0

+∞

g 0 gI([xk , xk+1 [)

0

k=0 n Z xk+1 X

=

k=0 n X

=

k=0

g0 g

xk

1 (g(xk+1 )2 − g(xk )2 ) 2

1 (g(xn+1 )2 − g(0)2 ). 2

= Por lo tanto, +∞

Z 0

1 g 0 g = l´ım (g(xn+1 )2 − g(0)2 ), 2

lo cual prueba que 2

2

+∞

Z

g 0 g.

l´ım g(x) = g(0) + 2

x→+∞

0

De un modo an´ alogo, puede verse que 2

2

Z

0

l´ım g(x) = g(0) − 2

x→−∞

g 0 g.

−∞

Corolario A.2. Si g : R → R es una funci´ on diferenciable tal que g 0 es continua y acotada y g es integrable, entonces l´ım|x|→+∞ g(x) = 0.

Ap´ endice B

Funciones implementadas Programa para pintar la funci´ on de distribuci´on de una N (0, 1), Fn y Fnh . pintanormalFnFnh