Robusticidad de los Diseños D-óptimos a la Elección. de los Valores Locales para el Modelo Logístico

26◦ Simposio De Estad´ıstica 2016 Hotel Malib´ u Sincelejo, Sucre-Colombia Agosto 8 al 12 de 2016 Robusticidad de los Dise˜ nos D-´ optimos a la Elec

Author: Ricardo Paz Mora

8 downloads 77 Views 71KB Size

Report

DOWNLOAD PDF

Recommend Stories

VALORES A LOS MENORES

EL TREN DE LOS VALORES

LOS VALORES DE LA BIODIVERSIDAD

LOS VALORES DE LA BIODIVERSIDAD La conservación de la biodiversidad es la condición máxima de sostenibilidad del sistema global de funcionamiento de l

VALORES EN LA FAMILIA. Formando a los Hijos en Valores

VALORES EN LA FAMILIA Formando a los Hijos en Valores Es un hecho que… • Todos quieren que sus hijo/as, alumnos/as y empleados/as sean personas con

los medios de comunicación y la enseñanza de valores interculturales: Una aproximación didáctica a los valores reflejados en los sitcoms

BIBLID 1133-1127 (2012) p. 135-156 Recibido: 15/02/2012 · aceptado: 07/03/2012 los medios de comunicación y la enseñanza de valores interculturales:

La funcionalidad de los poderes locales

El legado de los valores cristianos para nuestros hijos

TITULO IV. De los Locales

LOS VALORES SOCIALES DE LA CREATIVIDAD PUBLICITARIA

MODELO DE CONSEJERÍA ORIENTADA A LOS JÓVENES

CONSEJERÍA ORIENTADA EN LOS JÓVENES PARA PREVENIR VIH/ITS Y PARA PROMOVER LA SALUD SEXUAL Y REPRODUCTIVA Paname ric a a Salud de l c za ión na ni

Story Transcript

26◦ Simposio De Estad´ıstica 2016 Hotel Malib´ u Sincelejo, Sucre-Colombia Agosto 8 al 12 de 2016

Robusticidad de los Dise˜ nos D-´ optimos a la Elecci´ on de los Valores Locales para el Modelo Log´ıstico David Felipe Sosa Palacio1,a ,V´ıctor Ignacio L´ opez R´ıos2,a

a. Escuela de Estad´ıstica, Facultad de Ciencias, Universidad Nacional de Colombia, Medell´ın, Colombia

Resumen Para la b´ usqueda de los dise˜ nos ´optimos se utilizan criterios de optimalidad, los cuales son funcionales de la matriz de informaci´ on de Fisher. Uno de los criterios de optimalidad que se usar´a en este trabajo es el criterio D-optimalidad, el cual, tanto para modelos lineales como no lineales, busca aquel dise˜ no que minimiza el volumen del elipsoide de confianza del vector de par´ ametros del modelo. Uno de los problemas m´ as frecuente en la b´ usqueda de los dise˜ nos D-´optimos en los modelos no lineales, es la especificaci´ on de los valores locales para los par´ ametros del modelo, necesarios para la optimizaci´ on del criterio de optimalidad (King & Wong, 2000). Esta investigaci´ on se enfocar´ a en la robustez de los dise˜ nos D-´optimos para el modelo log´ıstico que busca encontrar el mejor ajuste que describe la relaci´ on entre la variable respuesta y un conjunto de variables independientes o covariables. El estudio de robustez estar´ a asociado a la elecci´on de los valores locales de los par´ ametros del modelo con el fin de determinar cu´ al es la magnitud de las perturbaciones donde los dise˜ nos D-´optimos resultantes tienen una eficiencia relativamente grande, alrededor del 90 %, de la eficiencia del dise˜ no obtenido 1 2

Estudiante de Maestr´ıa en Estad´ıstica, E-mail:[email protected] Profesor Asociado, Universidad nacional de Colombia Sede Medell´ın E-mail: vilo-

[email protected]

1

26◦ Simposio De Estad´ıstica 2016 Hotel Malib´ u Sincelejo, Sucre-Colombia Agosto 8 al 12 de 2016

usando el valor local sin perturbar.

´ Palabras clave: Regresi´on Log´ıstica, Dise˜ nos Optimos, Criterios de optimalidad, D-optimalidad, Modelo lineal generalizado.

1.

´ Dise˜ nos Optimos

La idea principal de los dise˜ nos ´optimos es determinar condiciones experimentales ´optimas, asociadas a las combinaciones de tratamientos que minimizcen alg´ un funcional de la matriz de dispersi´ on (equivalente a la matriz de informaci´ on de Fisher), y por ende, generar una mejor estimaci´ on en t´erminos de m´ınima varianza de los par´ ametros del modelo bajo estudio (L´ opez-R´ıos & Ramos Quiroga, 2007) [1]. Dichas condiciones involucran la selecci´ on de un dise˜ no ξ con k puntos de soporte que permitan la estimaci´ on del vector de par´ ametros: 

ξ=

x1

···

w1 · · ·

xk wk

 

donde los k puntos de soporte x1 , · · · , xk son elementos del espacio de dise˜ no χ, y los pesos asociados a cada punto w1 , · · · , wk son n´ umeros reales no negativos cuya suma es igual a la unidad. En general, se busca elegir funcionales de valor real que minimicen la matriz de varianzas-covarianzas los cuales se conocen como criterios de optimalidad. Bajo el supuesto de que el criterio sea convexo, se puede garantizar la existencia de un dise˜ no que minimice ´este, tal dise˜ no se conoce como dise˜ no ´optimo (L´ opez-R´ıos & Ramos Quiroga, 2007) [1]. En este trabajo se hallar´ an dise˜ nos ´optimos para el

2

26◦ Simposio De Estad´ıstica 2016 Hotel Malib´ u Sincelejo, Sucre-Colombia Agosto 8 al 12 de 2016

modelo log´ıstico, en el cual se tiene una variable respuesta dic´ otoma y una variable regresora. Los dise˜ nos se ilustrar´an para un problema donde se desea modelar la probabilidad de que una persona desarrolle una enfermedad coronaria en funci´on de su edad. El modelo general propuesto para modelar dicha probabilidad es el modelo de regresi´on log´ıstica dado por: Y = η(x; β) + ǫ =

1 +ǫ 1 + exp(β0 + β1 x)

(1)

Para los puntos de soporte x el dise˜ no ´optimo selecciona puntos tales que el dise˜ no resultante sea mejor con respecto a cierto criterio de optimalidad, definido previamente por el investigador. El modelo (1) se puede reparametrizar de tal forma que los par´ ametros del modelo tengan una interpretaci´on interesante para el problema, estudiada por varios autores, entre ellos, (Khuri & Mukherjee, 2006) [2]: E(Y |x) = π(x; θ) = η(x; θ) =

1 , 1 + exp[−γ(x − µ)]

(2)

con θ = (γ, µ). Este es un modelo log´ıstico con par´ ametro de localizaci´on µ y par´ ametro de escala γ. La matriz de informaci´ on para un dise˜ no ξ se define como: M (ξ; θ) =

k X

f (xi , θ)f T (xi , θ)wi

(3)

i=1

donde:

∂η(xi ; θ) ∂η(xi , θ) , f (xi ; θ) = ∂θ1 ∂θ2

T

∂η(x1 ; θ) ∂η(xi , θ) , = ∂γ ∂µ

T

;

para i = 1, 2, . . . , k. La matriz de informaci´ on es definida no negativa, es sim´etrica, es singular si el soporte de ξ contiene menos puntos que el n´ umero de par´ ametros y es aditiva.

3

26◦ Simposio De Estad´ıstica 2016 Hotel Malib´ u Sincelejo, Sucre-Colombia Agosto 8 al 12 de 2016

2.

´ Dise˜ no D-Optimo

El criterio D-optimalidad se define como el siguiente funcional: ψ(ξ; θ) := ψD (M (ξ; θ)) = |M (ξ; θ)|1/p ,

(4)

donde p: es el n´ umero de par´ ametros del modelo. Un dise˜ no ξ ∗ es llamado D-´optimo si minimiza la varianza generalizada asociada a los estimadores de m´ axima verosimilitud del vector de par´ ametros, la cual es proporcional a: |M −1 (ξ; θ)|,

(5)

o equivalente ξ ∗ es un dise˜ no D-´optimo si maximiza ψD (M (ξ; θ)). Note que este dise˜ no depender´a del vector de par´ ametros, θ y por tanto del valor que apriori elija nos hallados se conocen como dise˜ nos el investigador, denotado por θ0 . Los dise˜ ´optimos locales.

3.

Dise˜ nos ´ optimos locales para el modelo log´ıstico: Un ejemplo

Mediante un ejemplo, se har´ a la construcci´on de los dise˜ nos ´optimos locales en un modelo log´ıstico. Se encontrar´ an los dise˜ nos a partir de una estimaci´ on apriori de los par´ ametros del modelo y se analizar´ a el comportamiento de los dise˜ nos obtenidos al perturbar dichos valores. En el cuadro 1 se encuentra los primeros registros de un total de 100 individuos, donde se muestra la Edad en (a˜ nos), y presencia o no de enfermedad coronaria (EC). Datos disponibles en el texto de David W. Hosmer (2000) [3]. La variable respuesta es EC, la cual es codificada

4

26◦ Simposio De Estad´ıstica 2016 Hotel Malib´ u Sincelejo, Sucre-Colombia Agosto 8 al 12 de 2016

Edad

EC

Edad

EC

Edad

EC

Edad

EC

20

0

35

0

44

1

55

1

23

0

35

0

44

1

56

1

24

0

36

0

45

0

56

1

25

0

36

1

45

1

56

1

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

34

0

44

0

55

1

69

1

Cuadro 1: Edad y presencia/ausenica de Enfermedad Coronaria (EC) en los primeros 10 Individuos, tomados de David W. Hosmer (2000) con el valor 0 para ausencia o 1 para presencia de la EC en el individuo. Se quiere estudiar qu´e pasa cuando se cambian los valores iniciales de los par´ ametros por nuevos valores. En la parametrizaci´on se tiene que los valores de µ y γ0 son los valores locales que ya se estimaron, adem´ as el vector delta tiene dos componentes δ1 , δ2 , donde δ1 : es el movimiento a la derecha o a la izquierda de los valores iniciales de los par´ ametros. Se procede a continuaci´ on a encontrar un intervalo de confiaza para los valores locales, esto con el fin de determinar una regi´ on en la cual perturbar los par´ ametros.

4.

Discusi´ on

En este trabajo se har´ a un estudio comparativo de los dise˜ nos obtenidos, usando ambos criterios, c y D-´optimo, para ello se utilizar´ a el modelo log´ıstico. Adicionalmente se har´ a un estudio de robustez de los dise˜ nos c y D-´optimos con respecto

5

26◦ Simposio De Estad´ıstica 2016 Hotel Malib´ u Sincelejo, Sucre-Colombia Agosto 8 al 12 de 2016

a la elecci´ on de los valores locales de los par´ ametros. Se espera determinar cu´ al es la magnitud de las perturbaciones donde los dise˜ nos resultantes no pierden una eficiencia considerable con respecto al valor local inicial.

6

26◦ Simposio De Estad´ıstica 2016 Hotel Malib´ u Sincelejo, Sucre-Colombia Agosto 8 al 12 de 2016

Referencias ´ [1] V. L´ opez-R´ıos and R. Ramos-Quiroga. Introducci´ on a los Dise˜ nos Optimos. Revista Colombiana de Estad´ıstica, 30(1):37–51, 2007. [2] A Khuri and B. Mukherjee. Design Issues for Generalized Linear Models: A Review. Canadian Journal of Mathematics, 21(3):376–399, 2006. [3] W. David and L. Stanley. Applied Logistic Regression. John Wiley & Sons, New York, 2000.

7