26◦ Simposio De Estad´ıstica 2016 Hotel Malib´ u Sincelejo, Sucre-Colombia Agosto 8 al 12 de 2016
Robusticidad de los Dise˜ nos D-´ optimos a la Elecci´ on de los Valores Locales para el Modelo Log´ıstico David Felipe Sosa Palacio1,a ,V´ıctor Ignacio L´ opez R´ıos2,a
a. Escuela de Estad´ıstica, Facultad de Ciencias, Universidad Nacional de Colombia, Medell´ın, Colombia
Resumen Para la b´ usqueda de los dise˜ nos ´optimos se utilizan criterios de optimalidad, los cuales son funcionales de la matriz de informaci´ on de Fisher. Uno de los criterios de optimalidad que se usar´a en este trabajo es el criterio D-optimalidad, el cual, tanto para modelos lineales como no lineales, busca aquel dise˜ no que minimiza el volumen del elipsoide de confianza del vector de par´ ametros del modelo. Uno de los problemas m´ as frecuente en la b´ usqueda de los dise˜ nos D-´optimos en los modelos no lineales, es la especificaci´ on de los valores locales para los par´ ametros del modelo, necesarios para la optimizaci´ on del criterio de optimalidad (King & Wong, 2000). Esta investigaci´ on se enfocar´ a en la robustez de los dise˜ nos D-´optimos para el modelo log´ıstico que busca encontrar el mejor ajuste que describe la relaci´ on entre la variable respuesta y un conjunto de variables independientes o covariables. El estudio de robustez estar´ a asociado a la elecci´on de los valores locales de los par´ ametros del modelo con el fin de determinar cu´ al es la magnitud de las perturbaciones donde los dise˜ nos D-´optimos resultantes tienen una eficiencia relativamente grande, alrededor del 90 %, de la eficiencia del dise˜ no obtenido 1 2
Estudiante de Maestr´ıa en Estad´ıstica, E-mail:
[email protected] Profesor Asociado, Universidad nacional de Colombia Sede Medell´ın E-mail: vilo-
[email protected]
1
26◦ Simposio De Estad´ıstica 2016 Hotel Malib´ u Sincelejo, Sucre-Colombia Agosto 8 al 12 de 2016
usando el valor local sin perturbar.
´ Palabras clave: Regresi´on Log´ıstica, Dise˜ nos Optimos, Criterios de optimalidad, D-optimalidad, Modelo lineal generalizado.
1.
´ Dise˜ nos Optimos
La idea principal de los dise˜ nos ´optimos es determinar condiciones experimentales ´optimas, asociadas a las combinaciones de tratamientos que minimizcen alg´ un funcional de la matriz de dispersi´ on (equivalente a la matriz de informaci´ on de Fisher), y por ende, generar una mejor estimaci´ on en t´erminos de m´ınima varianza de los par´ ametros del modelo bajo estudio (L´ opez-R´ıos & Ramos Quiroga, 2007) [1]. Dichas condiciones involucran la selecci´ on de un dise˜ no ξ con k puntos de soporte que permitan la estimaci´ on del vector de par´ ametros:
ξ=
x1
···
w1 · · ·
xk wk
donde los k puntos de soporte x1 , · · · , xk son elementos del espacio de dise˜ no χ, y los pesos asociados a cada punto w1 , · · · , wk son n´ umeros reales no negativos cuya suma es igual a la unidad. En general, se busca elegir funcionales de valor real que minimicen la matriz de varianzas-covarianzas los cuales se conocen como criterios de optimalidad. Bajo el supuesto de que el criterio sea convexo, se puede garantizar la existencia de un dise˜ no que minimice ´este, tal dise˜ no se conoce como dise˜ no ´optimo (L´ opez-R´ıos & Ramos Quiroga, 2007) [1]. En este trabajo se hallar´ an dise˜ nos ´optimos para el
2
26◦ Simposio De Estad´ıstica 2016 Hotel Malib´ u Sincelejo, Sucre-Colombia Agosto 8 al 12 de 2016
modelo log´ıstico, en el cual se tiene una variable respuesta dic´ otoma y una variable regresora. Los dise˜ nos se ilustrar´an para un problema donde se desea modelar la probabilidad de que una persona desarrolle una enfermedad coronaria en funci´on de su edad. El modelo general propuesto para modelar dicha probabilidad es el modelo de regresi´on log´ıstica dado por: Y = η(x; β) + ǫ =
1 +ǫ 1 + exp(β0 + β1 x)
(1)
Para los puntos de soporte x el dise˜ no ´optimo selecciona puntos tales que el dise˜ no resultante sea mejor con respecto a cierto criterio de optimalidad, definido previamente por el investigador. El modelo (1) se puede reparametrizar de tal forma que los par´ ametros del modelo tengan una interpretaci´on interesante para el problema, estudiada por varios autores, entre ellos, (Khuri & Mukherjee, 2006) [2]: E(Y |x) = π(x; θ) = η(x; θ) =
1 , 1 + exp[−γ(x − µ)]
(2)
con θ = (γ, µ). Este es un modelo log´ıstico con par´ ametro de localizaci´on µ y par´ ametro de escala γ. La matriz de informaci´ on para un dise˜ no ξ se define como: M (ξ; θ) =
k X
f (xi , θ)f T (xi , θ)wi
(3)
i=1
donde:
∂η(xi ; θ) ∂η(xi , θ) , f (xi ; θ) = ∂θ1 ∂θ2
T
∂η(x1 ; θ) ∂η(xi , θ) , = ∂γ ∂µ
T
;
para i = 1, 2, . . . , k. La matriz de informaci´ on es definida no negativa, es sim´etrica, es singular si el soporte de ξ contiene menos puntos que el n´ umero de par´ ametros y es aditiva.
3
26◦ Simposio De Estad´ıstica 2016 Hotel Malib´ u Sincelejo, Sucre-Colombia Agosto 8 al 12 de 2016
2.
´ Dise˜ no D-Optimo
El criterio D-optimalidad se define como el siguiente funcional: ψ(ξ; θ) := ψD (M (ξ; θ)) = |M (ξ; θ)|1/p ,
(4)
donde p: es el n´ umero de par´ ametros del modelo. Un dise˜ no ξ ∗ es llamado D-´optimo si minimiza la varianza generalizada asociada a los estimadores de m´ axima verosimilitud del vector de par´ ametros, la cual es proporcional a: |M −1 (ξ; θ)|,
(5)
o equivalente ξ ∗ es un dise˜ no D-´optimo si maximiza ψD (M (ξ; θ)). Note que este dise˜ no depender´a del vector de par´ ametros, θ y por tanto del valor que apriori elija nos hallados se conocen como dise˜ nos el investigador, denotado por θ0 . Los dise˜ ´optimos locales.
3.
Dise˜ nos ´ optimos locales para el modelo log´ıstico: Un ejemplo
Mediante un ejemplo, se har´ a la construcci´on de los dise˜ nos ´optimos locales en un modelo log´ıstico. Se encontrar´ an los dise˜ nos a partir de una estimaci´ on apriori de los par´ ametros del modelo y se analizar´ a el comportamiento de los dise˜ nos obtenidos al perturbar dichos valores. En el cuadro 1 se encuentra los primeros registros de un total de 100 individuos, donde se muestra la Edad en (a˜ nos), y presencia o no de enfermedad coronaria (EC). Datos disponibles en el texto de David W. Hosmer (2000) [3]. La variable respuesta es EC, la cual es codificada
4
26◦ Simposio De Estad´ıstica 2016 Hotel Malib´ u Sincelejo, Sucre-Colombia Agosto 8 al 12 de 2016
Edad
EC
Edad
EC
Edad
EC
Edad
EC
20
0
35
0
44
1
55
1
23
0
35
0
44
1
56
1
24
0
36
0
45
0
56
1
25
0
36
1
45
1
56
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
34
0
44
0
55
1
69
1
Cuadro 1: Edad y presencia/ausenica de Enfermedad Coronaria (EC) en los primeros 10 Individuos, tomados de David W. Hosmer (2000) con el valor 0 para ausencia o 1 para presencia de la EC en el individuo. Se quiere estudiar qu´e pasa cuando se cambian los valores iniciales de los par´ ametros por nuevos valores. En la parametrizaci´on se tiene que los valores de µ y γ0 son los valores locales que ya se estimaron, adem´ as el vector delta tiene dos componentes δ1 , δ2 , donde δ1 : es el movimiento a la derecha o a la izquierda de los valores iniciales de los par´ ametros. Se procede a continuaci´ on a encontrar un intervalo de confiaza para los valores locales, esto con el fin de determinar una regi´ on en la cual perturbar los par´ ametros.
4.
Discusi´ on
En este trabajo se har´ a un estudio comparativo de los dise˜ nos obtenidos, usando ambos criterios, c y D-´optimo, para ello se utilizar´ a el modelo log´ıstico. Adicionalmente se har´ a un estudio de robustez de los dise˜ nos c y D-´optimos con respecto
5
26◦ Simposio De Estad´ıstica 2016 Hotel Malib´ u Sincelejo, Sucre-Colombia Agosto 8 al 12 de 2016
a la elecci´ on de los valores locales de los par´ ametros. Se espera determinar cu´ al es la magnitud de las perturbaciones donde los dise˜ nos resultantes no pierden una eficiencia considerable con respecto al valor local inicial.
6
26◦ Simposio De Estad´ıstica 2016 Hotel Malib´ u Sincelejo, Sucre-Colombia Agosto 8 al 12 de 2016
Referencias ´ [1] V. L´ opez-R´ıos and R. Ramos-Quiroga. Introducci´ on a los Dise˜ nos Optimos. Revista Colombiana de Estad´ıstica, 30(1):37–51, 2007. [2] A Khuri and B. Mukherjee. Design Issues for Generalized Linear Models: A Review. Canadian Journal of Mathematics, 21(3):376–399, 2006. [3] W. David and L. Stanley. Applied Logistic Regression. John Wiley & Sons, New York, 2000.
7