Metodología para la estimación de dico razones con el uso de información auxiliar en tablas de contingencia 3 3

Revista Colombiana de Estad´ıstica Volumen 28 No 2. pp. 141 a 154. Diciembre 2005 Metodolog´ıa para la estimaci´ on de dico–razones con el uso de inf

Author: Josefina Villalobos Silva

1 downloads 43 Views 174KB Size

Report

DOWNLOAD PDF

Recommend Stories

Tablas de contingencia

Tablas de Contingencia

STATGRAPHICS – Rev. 9/14/2006 Tablas de Contingencia Resumen El procedimiento Tablas de Contingencia esta diseñado para analizar y mostrar datos de f

Tablas de contingencia

Tablas de contingencia 1.Distribuciones condicionadas de Y a los valores de X 2.Distribuciones condicionadas de X a los valores de Y 3.Distribuciones

TABLAS DE CONTINGENCIA

TABLAS DE CONTINGENCIA INDICE TABLAS DE CONTINGENCIA................................................................................................

Tema 2: Tablas de Contingencia

Tema 2: Tablas de Contingencia Introducci´ on Una tabla de contingencia es una de las formas m´as comunes de resumir datos categ´oricos. En general, e

Multiplique su productividad con el uso de Tablas en AutoCAD

3. Indicadores de uso

Tema 6: Modelos Log-Lineales para tablas de Contingencia

Datos cualitativos: Tablas de contingencia bidimensionales

Contrastes de la bondad del ajuste y tablas de contingencia

Contrastes de la bondad del ajuste y t ablas de contingencia / / Esquema del capitulo 16.1. Contrastes de la bondad del ajuste: probabilidades especif

Story Transcript

Revista Colombiana de Estad´ıstica Volumen 28 No 2. pp. 141 a 154. Diciembre 2005

Metodolog´ıa para la estimaci´ on de dico–razones con el uso de informaci´ on auxiliar en tablas de contingencia 3 × 3 Dico–ratio Estimation with Auxiliary Information in 3 × 3 Contingency Tables

´ quene P.* Jairo A. Fu

Resumen Se comparan los dise˜ nos M.A.S, P.P.T., ESTMAS y estratificado por el m´etodo de Hidiroglou para estimar una raz´ on de totales de variables dicot´ omicas. En el dise˜ no P.P.T. se muestran las probabilidades de selecci´ on que hacen m´ınima la varianza aproximada. Bajo el dise˜ no ESTMAS, en el caso de asignaci´ on proporcional, se compara la eficiencia de utilizar la misma informaci´ on auxiliar que en el dise˜ no P.P.T. Mediante simulaci´ on, se comparan todos los dise˜ nos y se obtiene que para un grado de correspondencia medio o alto entre la variable auxiliar y la variable de inter´es, los estimadores para los dise˜ nos ESTMAS y P.P.T. son los m´ as eficientes. Palabras Claves: Informaci´ on auxiliar categ´ orica, estimaci´ on de una raz´ on de totales de variables dicot´ omicas, dico–raz´ on, dise˜ no P.P.T, dise˜ no ESTMAS Abstract The S.I, P.P.S, STSI and stratified by the Hidiroglou’s method to estimate a totals ratio of dichotomic variables are compared. In the P.P.S. design the selection probabilities that make minimum the approximate variance are showed. In the STSI design, in the case of proportional assignment of sample, the efficiency to use the same auxiliary information that in the P.P.S. design one is compared. By simulation, all the designs are compared and is obtained that for a medium or high grade of correspondence between the auxiliary variable and the variable of interest, the estimators for the STSI and P.P.S. designs are more efficient. Keywords: Auxiliary categorical information, estimation of a totals ratio of dichotomic variables, dicho–ratio, P.P.S. design, STSI design * Estad´ ıstico de la Universidad Nacional de Colombia. Grupo de Investigaci´ on en Muestreo. Departamento de Estad´ıstica, Sede Bogot´ a. E-mail: [email protected]

141

142

1.

Jairo A. F´ uquene P.

Introducci´ on

En muchos estudios de tipo muestral se tiene inter´es en estimar razones de totales de variables dicot´ omicas, denominadas tambi´en dico–razones. Ejemplo t´ıpico es la cifra de desempleo, obtenida como el cociente entre el total de personas que buscan empleo y el tama˜ no de la poblaci´ on econ´ omicamente activa en la regi´ on. Tambi´en es el caso de los resultados arrojados por las encuestas electorales, donde se estima la raz´on entre el total de quienes apoyan a un determinado candidato sobre la cantidad de quienes votar´an en el comicio electoral. Desde el punto de vista te´ orico este problema no deja de ser una aplicaci´ on m´ as de la estimaci´on de razones. Sin embargo en la literatura tanto cl´asica (Cochran 1963), como la m´ as reciente (S¨arndal, Swensson & Wretman 1992), no se encuentran indicaciones para tratar el caso de estimar dico–razones con el uso de informaci´ on auxiliar categ´ orica; como puede ser, en el segundo ejemplo, la situaci´ on de empleo o desempleo reportada por la persona el mes anterior. En particular interesa comparar la eficiencia que se obtiene con el uso de informaci´on auxiliar categ´orica en el estimador de una dico–raz´on en dise˜ nos como P.P.T. o estratificado con muestreo aleatorio simple en cada estrato (ESTMAS). F´ uquene & Bautista (2005) propusieron una metodolog´ıa para estimar por medio de informaci´ on auxiliar categ´orica una dico–raz´on bajo el dise˜ no P.P.T. Es conveniente conocer las propiedades de este estimador y compararlas con las del estimador de Horvitz y Thompson para los muestreos mencionados. En este trabajo se establece la opci´on m´ as viable para la estimaci´on de una dico–raz´on en presencia de informaci´ on auxiliar categ´orica para los dise˜ nos I.F.– ESTMAS, M.A.S, P.P.T. y ESTMAS y se estudia la precisi´on de este estimador. En la secci´on siguiente se muestra la variable auxiliar que se utiliza para hallar las probabilidades del dise˜ no P.P.T. que hacen m´ınima su varianza. En la secci´on tres, se estudia la metodolog´ıa de estratificar utilizando la misma informaci´ on auxiliar que en el dise˜ no P.P.T. En la cuarta secci´on se comparan, mediante simulaci´on, las varianzas de los dise˜ nos estudiados y en la u ´ltima secci´on se presentan algunas conclusiones de tipo pr´actico.

2.

Valores de pk en dise˜ nos P.P.T. que minimizan la varianza del estimador de la dico–raz´ on

Sean Uy ⊆ Uz ⊆ U y Uyc ⊆ Uz y las variables dicot´ omicas que definen estos subconjuntos, y y z. Gr´aficamente la situaci´ on es la siguiente: Esta situaci´ on se presenta, por ejemplo, en investigaci´ on de mercados cuando se desea estudiar la preferencia por una determinada marca. Para este caso: i. U es el universo de personas. ii. Uz es el subconjunto de personas que consumen un producto.

143

Estimaci´ on de dico–razones en tablas de contingencia 3 × 3

U Uz c

Uz |

| |

|

| |

|

|

|

|

|

| | |

|

|

Uy

|

| |

| |

|

|

| |

|

|

|

|

|

Uy c

|

|

|

|

| |

|

|

|

| |

|

|

|

| |

|

|

|

| |

| |

| |

|

| |

| |

|

| |

|

Figura 1: Representaci´on del espacio poblacional en la estimaci´on de una dico–raz´on. iii. Uy es el subconjunto de los que consumen una marca dentro de los consumidores del producto. iv. Uyc es el subconjunto de los que no consumen una marca dentro de los consumidores del producto. v. Uzc es el subconjunto de personas que no consumen un producto. Ny , por ejemplo, la proporci´ on de Nz personas que consumen la marca dentro de los consumidores del producto. La varianza aproximada y el estimador de la varianza de este par´ ametro se obtienen por medio del m´etodo de linealizaci´ on de Taylor (S¨arndal et al. 1992) que implica 1 (yk − Rzk ) y en este caso asume los la determinaci´on de la transformada uk = Nz siguientes valores:  Ny c z   si k ǫ Uy ∩ Uz  2    Nz (1) uk = − Nyz si k ǫ U c ∩ U y z  2  N  z    0 si k ǫ Uzc El objetivo es estimar la dico–raz´on R =

donde Nyc z es la cantidad de elementos que poseen la caracter´ıstica en z y no la poseen en y y, Nz es la cantidad de elementos que poseen la caracter´ıstica en z. Sean x y w dos variables categ´oricas auxiliares donde Ux ⊆ Uw y el par´ ametro Nx 1 ∗ R= . Sea uk = (xk − Rwk ), una variable auxiliar altamente correlacionada Nw Nw con uk disponible para k = 1, 2, . . . , N . u∗k asume los valores:

144

Jairo A. F´ uquene P.

 Nxc w    N2    w ∗ uk = − Nxw   Nw2     0

si k ǫ Ux ∩ Uw si k ǫ Uxc ∩ Uw

(2)

si k ǫ Uwc

donde, por ejemplo, Nxc w es la cantidad de elementos que poseen la caracter´ıstica en w y no la poseen en x y, Nw es la cantidad de elementos que poseen la caracter´ıstica en w. Ejemplo 2.1. Sup´ ongase que en el a˜ no 2006 una compa˜ n´ıa desea estimar la proporci´ on de colegios que cuentan con servicio de internet dentro de los que tienen sala de c´ omputo y que para ello cuenta con un censo realizado en el a˜ no 2004, en donde se tiene informaci´ on de N colegios, de los cuales, Nw ten´ıan sala de computo y de ellos, Nxw contaban con servicio de internet. Por motivos de costos la compa˜ n´ıa decide realizar un muestreo estad´ıstico para conseguir las estimaciones. Ny El par´ ametro que se quiere estimar es la dico–raz´ on R = . Nz Las variables auxiliares son el resultado del censo realizado en el a˜ no 2004, en el que Nxc w es la cantidad de colegios que no contaban con servicio de internet dentro de los que ten´ıan sala de c´ omputo y Nwc la cantidad de colegios que no ten´ıan sala de c´ omputo. Para este caso, el elemento k es el colegio y las variables auxiliares se definen como: ( 1 si k ten´ıa sala de c´ omputo en el a˜ no 2004 wk = 0 en otro caso   1 si wk = 1 y k contaba con servicio de internet xk = 0 si k no contaba con servicio de internet   0 si wk = 0

Las variables de estudio son: ( 1 si k tiene sala de c´ omputo en la actualidad zk = 0 en otro caso   1 si zk = 1 y k cuenta con servicio de internet yk = 0 si k no cuenta con servicio de internet   0 si zk = 0

Por otra parte, Nxywz denota la cantidad de colegios que, desde el a˜ no 2004 hasta hoy, han contado con servicio de internet y mxywz es la cantidad de colegios que tienen servicio de internet en la muestra y contaban con dicho servicio en el a˜ no 2004.

145

Estimaci´ on de dico–razones en tablas de contingencia 3 × 3

A continuaci´ on se muestran las probabilidades denotadas como α0 , β0 y µ0 que hacen m´ınima la varianza aproximada del estimador de la dico–raz´on bajo el dise˜ no P.P.T. (F´ uquene & Bautista 2005). Resultado 2.1. Para la dico–raz´on R = dise˜ no P.P.T. es:

Ny , la varianza aproximada bajo el Nz

1 Nxywz (Nyc z )2 + Nxyc wz (Nyz )2 + m(N − Nzc )4 α0 Nxc yc wz (Nyz )2 Nywc z (Nyc z )2 + Nyc wc z (Nyz )2 Nxc ywz (Nyc z )2 + + (3) β0 β0 µ0

ˆ = AVP P T (R)

α0 = (A)β0 µ0 = (B)β0 β0 =

1 (Nxw (A) + Nwc (B) + Nxc w )

(4)

Para el resultado anterior A y B se pueden escribir de la siguiente manera: s s Pxywz + Pxyc wz (Pyc y )2 Pywc z + Pyc wc z (Pyc y )2 B = A= Pxc ywz + Pxc yc wz (Pyc y )2 Pxc ywz + Pxc yc wz (Pyc y )2

Py c y =

Pxyc wz (Nxw ) + Pxc yc wz (Nxc w ) + Pyc wc z (Nwc ) Pxywz (Nxw ) + Pxc ywz (Nxc w ) + Pywc z (Nwc )

(5)

(6)

En lo que sigue se utilizar´an los par´ ametros poblacionales para establecer α0 , β0 y µ0 . En una aplicaci´ on real, el usuario deber´ a utilizar aproximaciones a partir de alguna fuente de informaci´ on diferente o en su defecto, estimar a partir de un estudio piloto las proporciones de la tabla siguiente: Tabla 1: Proporciones para establecer α0 , β0 y µ0 . u∗k Conjunto uk

Uy ∩ Uz Uy c ∩ Uz

Ux ∩ Uw Nxywz Pxywz = Nxw Pxyc wz =

Nxyc wz Nxw

Uxc ∩ Uw Nxc ywz Pxc ywz = Nxc w Pxc yc wz =

Nxc yc wz Nxc w

Uw c Nywc z Pywc z = Nw c Py c w c z =

Ny c w c z Nw c

Estas proporciones se interpretan en el caso del ejemplo 2.1 de la siguiente manera: Nxywz : proporci´ on de colegios que desde el a˜ no 2004 hasta hoy han Nxw contado con servicio de internet.

i. Pxywz =

146

Jairo A. F´ uquene P.

Nxyc wz : proporci´ on de colegios que en el 2004 contaban con servicio Nxw de internet y en la actualidad no.

ii. Pxyc wz =

Nxc ywz : proporci´ on de colegios que en el 2004 no contaban con Nxc w servicio de internet y en la actualidad si.

iii. Pxc ywz =

Nxc yc wz : proporci´ on de colegios que ni en el 2004 ni en la actualidad Nxc w han contado con servicio de internet.

iv. Pxc yc wz =

Nywc z : proporci´ on de colegios que en el 2004 no ten´ıan sala de Nw c c´ omputo y en la actualidad tienen y cuentan con servicio de internet.

v. Pywc z =

Ny c w c z : proporci´ on de colegios que en el 2004 no ten´ıan sala de Nw c c´ omputo y en la actualidad tienen y no cuentan con servicio de internet.

vi. Pyc wc z =

3.

Estimaci´ on de una dico–raz´ on en dise˜ nos ESTMAS

La resta de las varianzas para los dise˜ nos M.A.S. y ESTMAS para el caso de asignaci´ on proporcional de muestra, N nh = nNh , es: ˆ − AVEST M AS (R) ˆ = AVM AS (R) N2 n

H n 2 1 X 2 2 1 Wh SuU 1− S −N − h N uU n N

(7)

h=1

Nh . Para analizar la expresi´ on anterior se descompone la suma de N cuadrados total de la variable uk que se da en (1) en dos sumas: la suma de cuadrados entre los estratos y la suma de cuadrados dentro de los estratos, as´ı: X 2 (N − 1)SuU = (uk − u ¯U )2 (8)

donde Wh =

U

=

H X

Nh u ¯2U h +

h=1

H X

2 (Nh − 1)SuU h

(9)

h=1

SCT = SCE + SCD

(10)

reemplazando en (7), ˆ − AVEST M AS (R) ˆ = AVM AS (R) # "H H X 1 X 1 1 3 1 2 2 N Wh u ¯U h − (1 − Wh )SuU h (11) − n N N −1 N h=1

h=1

147

Estimaci´ on de dico–razones en tablas de contingencia 3 × 3

y como las variables y y z son dicot´ omicas, ˆ − AVEST M AS (R) ˆ = AVM AS (R) # " H H X X 1 1 1 1 2 N3 (12) (1 − Wh )SuU − Wh (Pzh (Rh − R)2 ) − h n N N −1 N h=1

h=1

donde Rh =

Nyh es la dico–raz´on en el h–´esimo estrato. Nzh

Nota 3.1. Si la dico–raz´ on Rh es igual o aproximadamente igual en todos los estratos, (12) muestra que es posible que la varianza para el dise˜ no ESTMAS sea m´ as grande que la del dise˜ no M.A.S. Por otra parte, si la dispersi´ on de las dico– razones Rh es mayor que la dispersi´ on de la variable uk en cada uno de los estratos, el dise˜ no ESTMAS resulta m´ as eficiente que el dise˜ no M.A.S. Como consecuencia, la mayor ganancia en un dise˜ no ESTMAS se obtiene por medio de una variable auxiliar altamente correlacionada con la variable uk . En lo que sigue, se estudia el uso de informaci´ on auxiliar de la forma u∗k para clasificar en tres estratos, dados por los tres conjuntos donde se puede definir esta variable. En cada estrato se aplica un dise˜ no M.A.S. con asignaci´ on proporcional. Resultado 3.1. Cuando se utiliza la variable u∗k como informaci´ on auxiliar, la varianza aproximada bajo el dise˜ no ESTMAS para el estimador de una dico–raz´on, Ny , es: R= Nz 3 X ˆ = 1 Fh Kh (13) AVEST M AS (R) Nz2 h=1

Para el caso de asignaci´ on proporcional, Fh y Kh est´an dados por:  N   1−   n     N 1− Fh =  n     N   1−  n

1 Nxw N Nxw − 1 1 Nxc w N Nxc w − 1 1 Nw c N Nw c − 1

si h = 1 si h = 2 si h = 3

  Nxywz Qxywz − 2(R)Nxywz Qxwz + R2 Nxwz Qxwz     Kh = Nxc ywz Qxc ywz − 2(R)Nxc ywz Qxc wz + R2 Nxc wz Qxc wz     N c Q c − 2(R)N c Q c + R2 N c Q c yw z yw z yw z w z w z w z

si h = 1 si h = 2 si h = 3

148

Jairo A. F´ uquene P.

con Qxywz = 1 − Pxywz ;

Nxywz ; Qxwz = 1 − Pxwz ; Nxw Nxc ywz ; Qxc wz = 1 − Pxc wz ; = Nxc w Nywc z ; Qwc z = 1 − Pwc z ; = Nw c

Pxywz =

Qxc ywz = 1 − Pxc ywz ; Pxc ywz Qywc z = 1 − Pywc z ;

Pywc z

Nxwz Nxw Nxc wz = Nxc w Nw c z = Nw c

Pxwz = Pxc wz Pw c z

Nota 3.2. Cuando la variable u∗k discrimina perfectamente los conjuntos de la variable uk , las proporciones Pij son iguales a uno para i = j e iguales a cero para i 6= j: Tabla 2: Proporci´on de elementos de la variable uk en relaci´on a u∗k u∗k

uk

P3

Conjunto

Ux ∩ Uw

Uxc ∩ Uw

Uw c

Uy ∩ Uz

1

0

0

Uy c ∩ Uz

0

1

0

1

Uz c

0

0

1

1

j=1

P·j

1

Para esta clasificaci´ on, el efecto de dise˜ no del P.P.T. estimador de la dico– raz´ on est´ a dado por: ˆ P P T ) = 4n(N − 1)(1 − R)RPz def f (P P T, R m(N − n)

(14)

y la varianza aproximada que se da en (13) es igual a cero; por ende, en este caso ˆ EST M AS es un estimador m´ ˆP P T . particular, R as eficiente que R No siempre se tiene una clasificaci´on uno a uno entre los conjuntos de las variables uk y u∗k , se considera ahora desde el punto de vista pr´actico, la tabla de proporciones 3. Tabla 3: Proporci´on de elementos de la variable u∗k en relaci´on a uk u∗k Conjunto Uy ∩ Uz uk

Uy c ∩ Uz Uz c 3 P Pi·

i=1

Ux ∩ Uw Nxywz Pxywz = Nxw Nxyc wz Pxyc wz = Nxw 0

Uxc ∩ Uw Nxc ywz Pxc ywz = Nxc w Nxc yc wz Pxc yc wz = Nxc w 0

Uw c

1

1

1

0 0 1

Estimaci´ on de dico–razones en tablas de contingencia 3 × 3

149

Para valores de Pxywz y Pxc ywz iguales a 0.2, 0.4, 0.6 y 0.8 se comparan, para ˆP P T , R ˆ EST M AS y R ˆ M AS con este escenario, las varianzas de los estimadores R tama˜ nos poblacionales de 10000, 50000 y 100000 y tama˜ nos muestrales de 100, 500 y 1000. Se obtiene lo siguiente: ˆ P P T con respecto a i. Cuando Pz es igual a 0.2 o 0.5 la eficiencia relativa de R ˆ REST M AS se encuentra entre 0.2 y 0.8. ii. Para Pxywz y Pxc ywz iguales a 0.2 o 0.8 y Pz = 0.8, la eficiencia relativa ˆ P P T con respecto a R ˆ EST M AS es igual a 1.24 y en los dem´as casos de de R Pz = 0.8 dicha eficiencia relativa est´a entre 0.8 y 0.95. ˆ P P T es igual al valor de Pz . iii. El efecto de dise˜ no de R De lo anterior se puede concluir que si los elementos del conjunto Uwc se clasifican ˆ P P T tiende a ser m´ casi en su totalidad en el conjunto Uzc , el estimador R as eficiente ˆ M AS y R ˆ EST M AS . que R El m´ etodo de Hidiroglou para estimar una dico–raz´ on En el momento de estratificar es necesario decidir sobre la cantidad de estratos y c´ omo deben ser delimitados. Hidiroglou (1986) propone un m´etodo para un tama˜ no fijo de muestra, que consiste en dividir la poblaci´ on de estudio en dos estratos: uno en el que se aplica un dise˜ no M.A.S y otro en el que todos los elementos hacen parte del estudio. Este procedimiento se basa en que, para el dise˜ no IF–ESTMAS, la varianza del estimador de un total se comporta de manera parab´olica con un m´ınimo que se puede encontrar por un m´etodo iterativo. En este trabajo se adapta este m´etodo a la estimaci´on de una dico–raz´on y consiste en: i. Ordenar los elementos de los subconjuntos Uy ={y1 , y2 , . . . , yk , . . . , yN } y Uz ={z1 , z2 , . . . , zk , . . . , zN } en forma descendente con respecto al valor absoluto de los elementos de la informaci´ on auxiliar Uu∗ ={u∗1 , u∗2 , . . . , u∗N }. ii. Del ordenamiento anterior se tienen t elementos grandes que hacen parte del primer estrato y (N − t) elementos peque˜ nos candidatos a ser estudiados en otro estrato por un muestreo aleatorio simple. iii. Para una muestra de tama˜ no nt , compuesta por t elementos grandes y (nt − t) elementos peque˜ nos, seleccionados por muestreo aleatorio simple, la varianza aproximada del estimador de la dico–raz´on se calcula como: (N − t)2 nt − t ˆ AVIF −−EST M AS (R) = 1− S2 (15) (nt − t) N − t u[N −t] con 1 uk = (yk − Rzk ) (16) Nz ˆ calculada desde iv. Se establece nt fijo y se toma la menor AVIF −EST M AS (R) t = 2 hasta t = nt − 2.

150

4.

Jairo A. F´ uquene P.

Comparaci´ on de las estimaciones

Con el fin de medir la precisi´on de las estimaciones de la dico–raz´on, se utiliza la metodolog´ıa para distribuciones discretas expuesta en Mart´ın, R´ıos & R´ıos (2000) para generar 125 poblaciones con N = 10000 mediante simulaci´on. Las 125 poblaciones corresponden al cruce de 5 casos de Pz : 0.2, 0.4, 0.5, 0.7, 0.9 con 5 caNy : 0.1, 0.3, 0.5, 0.7, 0.9 con 5 valores de coeficientes de contingencia sos de R = Nz ρp : 0.1, 0.2, 0.4, 0.6, 0.8. Precisi´ on de los estimadores estudiados Para cada una de las 125 poblaciones simuladas se compara la precisi´on de ˆ M AS , R ˆP P T , R ˆ EST M AS y R ˆ Hidiroglou mediante el coeficiente de los estimadores R variaci´ on poblacional. De los resultados obtenidos se concluye lo siguiente: i. Cuando se tiene una d´ebil correspondencia entre uk y u∗k (ρp igual a 0.2), los estimadores que se estudian alcanzan la misma precisi´on. Para los dem´as grados de correspondencia se obtiene una mayor ganancia con los estimadores ˆP P T y R ˆ EST M AS . R ii. Por lo general, se alcanzan los mismos coeficientes de variaci´ on con el estimaˆ Hidiroglou que con el estimador R ˆ M AS . dor R ˆ EST M AS en comparaci´ iii. La mayor ganancia lograda con el estimador R on con ˆ ˆ RM AS y RP P T se obtiene cuando el grado de correspondencia entre las variables uk y u∗k es medio o alto (ρp entre 0.4 y 0.8) y Rp est´a entre 0.3 y 0.7. Esta ganancia aumenta con el tama˜ no de muestra m, Pz y la raz´on poblacional Rp . ˆ P P T con respecto iv. La mayor ganancia que se alcanza utilizando el estimador R ˆ ˆ a RM AS y REST M AS se da cuando el valor de Rp es cercano a 0.1 o 0.9 y ˆP P T se tiene el mismo grado de correspondencia que en iii. La precisi´on de R crece junto a la raz´on poblacional Rp , el tama˜ no de muestra m y Pz . ˆ P P T cuando Rp es cercano a v. Para obtener alguna ganancia con el estimador R 0.1 y el grado de correspondencia entre las variables uk y u∗k es alto (ρ ≈ 0.8) es necesario un tama˜ no de muestra de n = 1000 individuos. vi. Cuando la raz´on poblacional Rp es cercana a 0.1 y el coeficiente de contingennos de cia entre las variables uk y u∗k est´a entre 0.2 y 0.6, incluso para tama˜ ˆP P T muestra altos, el valor del coeficiente de variaci´ on para los estimadores R ˆ y RM AS es mayor al 10 %. Lo anterior conduce a que utilizar los estimadores ˆP P T y R ˆ M AS en este caso particular no parece recomendable. R Para ilustrar se muestran los resultados en las siguientes gr´ aficas:

151

Estimaci´ on de dico–razones en tablas de contingencia 3 × 3

ˆ %) CV [R]( 7.0 6.5 6.0 5.5 5.0 4.5 4.0 3.5 3.0 2.5 2.0 n 100

200

CV -Hidiroglou

300

400

500

600

CV -M.A.S

700

800

900

CV -EST M AS

1000

CV -P.P.T

Figura 2: Coeficiente de contingencia (ρp ) : 0.2 - Dico-raz´on: 0.9 - Pz = 0.2

ˆ %) CV [R]( 10.0 9.0 8.0 7.0 6.0 5.0 4.0 3.0 2.0 1.0 n 100

200

CV -Hidiroglou

300

400

500

CV -M.A.S

600

700

800

CV -EST M AS

900

1000

CV -P.P.T

Figura 3: Coeficiente de contingencia (ρp ) : 0.8 - Dico-raz´on: 0.7 - Pz = 0.4

152

Jairo A. F´ uquene P.

ˆ %) CV [R]( 7.50 6.75 6.00 5.25 4.50 3.75 3.00 2.25 1.50 0.75 n 100

200

CV -Hidiroglou

300

400

500

600

CV -M.A.S

700

800

900

CV -EST M AS

1000

CV -P.P.T

Figura 4: Coeficiente de contingencia (ρp ) : 0.8 - Dico-raz´on: 0.9 - Pz = 0.2

ˆ %) CV [R]( 35.0 31.5 28.0 24.5 21.0 17.5 14.0 10.5 7.0 3.5 n 100

200

CV -Hidiroglou

300

400

500

CV -M.A.S

600

700

800

CV -EST M AS

900

1000

CV -P.P.T

Figura 5: Coeficiente de contingencia (ρp ) : 0.8 - Dico-raz´on: 0.1 - Pz = 0.7

153

Estimaci´ on de dico–razones en tablas de contingencia 3 × 3

ˆ %) CV [R]( 32.5 30.0 27.5 25.0 22.5 20.0 17.5 15.0 12.5 10.0 n 100

200

CV -Hidiroglou

300

400

500

CV -M.A.S

600

700

800

CV -EST M AS

900

1000

CV -P.P.T

Figura 6: Coeficiente de contingencia (ρp ) : 0.4 - Dico-raz´on: 0.1 - Pz = 0.7

5.

Conclusiones

Como producto de los ejercicios desarrollados en este trabajo para la estimaci´on de una dico–raz´on, se propone, en primer lugar, construir una variable auxiliar a partir de dos variables categ´oricas que tenga las mismas caracter´ısticas de la variable uk . En segundo lugar, con base en informaci´ on proveniente de una fuente auxiliar o de un estudio piloto, establecer el coeficiente de contingencia entre las variables uk y u∗k . En caso de conseguir lo anterior algunos criterios para seleccionar el dise˜ no m´ as apropiado en la estimaci´on de una dico–raz´on son: 1. Si la variable auxiliar discrimina casi perfectamente los conjuntos de la variable uk se debe utilizar un dise˜ no en tres estratos. Los estratos se construyen a partir de los tres conjuntos de la variable auxiliar y en cada uno se aplica un dise˜ no M.A.S. con asignaci´ on proporcional de muestra. 2. Si la poblaci´ on es de N≈ 10000, el coeficiente de contingencia entre la variable auxiliar y uk es medio o alto (0.4≤ ρ ≤0.8) y si se cuenta con una dico–raz´on poblacional entre 0.3 y 0.7 se puede utilizar un dise˜ no ESTMAS con el fin de alcanzar una buena eficiencia. Para un grado de correspondencia entre 0.4 y 0.8 y una dico–raz´on cercana a 0.9 es aconsejable aplicar un dise˜ no P.P.T. Si la variable auxiliar no se relaciona con la variable uk (ρ ≤ 0.2) y la dico–raz´on poblacional es distinta de 0.1 se debe utilizar un dise˜ no M.A.S.

154

Jairo A. F´ uquene P.

3. Para N≈ 10000 individuos, una dico–raz´on poblacional cercana a 0.1 y un grado de correspondencia entre la variable auxiliar y uk alto (ρ ≈ 0.8) se debe tomar un tama˜ no de muestra de 1000 individuos y utilizar un dise˜ no P.P.T. 4. Cuando se puede establecer que los elementos del conjunto Uwc se clasifican casi en su totalidad en el conjunto Uzc independiente de los valores del coeficiente de contingencia y de Pz se recomienda utilizar un dise˜ no P.P.T. En el ejemplo 2.1 este caso es equivalente a que los colegios que no contaban con sala de c´ omputo en el a˜ no 2004 en la actualidad tampoco cuentan con ello.

Recibido: 21 de Mayo de 2005 Aceptado: 6 de Octubre de 2005

Referencias Cochran, W. G. (1963), Sampling Techniques, second edn, Wiley, New York. Conover, W. J. (1980), Practical Nonparametric Statistics, second edn, John Wiley and Sons. F´ uquene, J. & Bautista, L. (2005), ‘El dise˜ no p.p.t. con variables categ´oricas para la estimaci´on de dico-razones’, Revista Colombiana de Estad´ıstica 28, 99–114. F´ uquene, J. (2004), Criterios de selecci´on y utilizaci´on de informaci´ on auxiliar para optimizar la estimaci´on de una raz´on de variables dicot´ omicas, Trabajo de grado, Universidad Nacional de Colombia. F´ uquene, J. (2005), Estratificaci´on sesgo y eficiencia en la estimaci´on de una proporci´ on aplicando un dise˜ no estratificado de muestreo, in ‘Tercer Coloquio Regional de Estad´ıstica’, Universidad Nacional de Colombia, Medell´ın. Hidiroglou, M. (1986), ‘The construction of a self-representing stratum of large units in survey design’, The American Statistician 40, 27–31. Mart´ın, J., R´ıos, D. & R´ıos, S. (2000), Simulaci´ on, M´etodos y Aplicaciones, Ra-Ma, Madrid. S¨arndal, C.-E., Swensson, B. & Wretman, J. (1992), Model Assisted Survey Sampling, Springer Verlag, New York.