Tema 2: Tablas de Contingencia

Tema 2: Tablas de Contingencia Introducci´ on Una tabla de contingencia es una de las formas m´as comunes de resumir datos categ´oricos. En general, e

Author: María del Rosario Rey Henríquez

1 downloads 184 Views 311KB Size

Report

DOWNLOAD PDF

Recommend Stories

Tablas de contingencia

Tablas de Contingencia

STATGRAPHICS – Rev. 9/14/2006 Tablas de Contingencia Resumen El procedimiento Tablas de Contingencia esta diseñado para analizar y mostrar datos de f

Tablas de contingencia

Tablas de contingencia 1.Distribuciones condicionadas de Y a los valores de X 2.Distribuciones condicionadas de X a los valores de Y 3.Distribuciones

TABLAS DE CONTINGENCIA

TABLAS DE CONTINGENCIA INDICE TABLAS DE CONTINGENCIA................................................................................................

Tema 6: Modelos Log-Lineales para tablas de Contingencia

2006 Access Tema 2. Tablas

Datos cualitativos: Tablas de contingencia bidimensionales

Tema 2. DESCRIPCIÓN DE UNA VARIABLE: TABLAS DE FRECUENCIAS

Tema 2. DESCRIPCIÓN DE UNA VARIABLE: TABLAS DE FRECUENCIAS CONTENIDO: 1. Descripción de variables cualitativas 9 Frecuencia absoluta y relativa 9 Diag

2.- Tablas de frecuencias

Contrastes de la bondad del ajuste y tablas de contingencia

Contrastes de la bondad del ajuste y t ablas de contingencia / / Esquema del capitulo 16.1. Contrastes de la bondad del ajuste: probabilidades especif

Story Transcript

Tema 2: Tablas de Contingencia Introducci´ on Una tabla de contingencia es una de las formas m´as comunes de resumir datos categ´oricos. En general, el inter´es se centra en estudiar si existe alguna asociaci´on entre una variable fila y otra variable columna y/o calcular la intensidad de dicha asociaci´on. Sean X e Y dos variables categ´oricas con I y J categor´ıas respectivamente. Un sujeto puede venir clasificado en una de las I × J categor´ıas, que es el n´ umero posible de categor´ıas que existe. Cuando las casillas de la tabla contienen las frecuencias observadas, la tabla se denomina tabla de contingencia, t´ermino que fue introducido por Pearson en 1904. Una tabla de contingencia (o tabla de clasificaci´on cruzada), con I filas y J columnas se denomina una tabla I × J. Por ejemplo, se considera la distribuci´on conjunta de dos variables y la correspondiente tabla de contingencia en una muestra de pacientes de un hospital. Se tiene la siguiente tabla: X ≡ Se toma aspirina o placebo (I = 2) Y ≡ Se sufre ataque card´ıaco o no (J = 3).

Ataque mortal Ataque no mortal Placebo 18 171 Aspirina 5 99

No ataque 10845 10933

Como resumen de la informaci´on que presenta la tabla, de los 11034 enfermos que tomaron un placebo, 18 tuvieron un ataque al coraz´on, mientras que de los 11037 que tomaron aspirina, 5 tuvieron ataques al coraz´on.

1

La distribuci´on conjunta de dos variables categ´oricas determina su relaci´on. Esta distribuci´on tambi´en determina las distribuciones marginales y condicionales.

Distribuci´on conjunta La distribuci´on conjunta viene dada por πij = P (X = i, Y = j) con i = 1, . . . , I y j = 1, , . . . , J. Es la probabilidad de (X, Y ) en la casilla de la fila i y la columna j.

Distribuci´on marginal Las distribuciones marginales son πi+ = P (X = i) =

J X

P (X = i, Y = j) =

j=1

π+j = P (Y = j) =

I X

J X

πij

j=1

P (X = i, Y = j) =

i=1

I X

πij

i=1

es decir, el s´ımbolo + indica la suma de las casillas correspondientes a un ´ındice dado. Se cumple siempre que X j

π+j =

X

πi+ =

i

XX i

πij = 1

j

Distribuci´on condicional En la mayor parte de las tablas de contingencia, como en el ejemplo anterior, una de las variables, digamos Y, es una variable respuesta y la otra variable X es una variable explicativa o predictora. En esta situaci´on no tiene sentido hablar de distribuci´on conjunta. Cuando se considera una categor´ıa fija de X, entonces Y tiene una distribuci´on de probabilidad que se expresa como una probabilidad condicionada. As´ı, se puede estudiar el cambio de esta distribuci´on cuando van cambiando los valores de X. Distribuci´ on condicionada de Y respecto de X P (Y = j|X = i) = πj|i = 2

πij πi+

Se tiene que X

πj|i = 1

j

y el vector de probabilidades π1|i , . . . , πJ|i forman la distribuci´on condicionada de Y en la categor´ıa i de X. La mayor parte de los estudios se centran en la comparaci´on de las distribuciones condicionadas de Y para varios niveles de las variables explicativas.

Independencia y Homogeneidad Cuando las variables que se consideran son de tipo respuesta, se pueden usar distribuciones conjuntas o bien distribuciones condicionales para describir la asociaci´on entre ellas. Dos variables son independientes si πij = πi+ · π+j lo cual implica que la distribuci´on condicionada es igual a la marginal: πj|i = π+j para j = 1, . . . , J, dado que πj|i =

πij πi+

para todo i y j. Si X e Y son variables respuesta entonces se habla de independencia Si Y es variable respuesta y X es variable explicativa entonces se habla de homogeneidad. Ejemplo con SAS Muchas veces, los datos categ´oricos se presentan en forma de tablas como la anterior, y otras veces se presentan en forma de matriz de datos. Supongamos, por ejemplo, que los datos se presentan seg´ un la siguiente tabla: Tratamiento Favorable Placebo 16 Test 40 En SAS el modo de introducir esta tabla ser´ıa:

3

Desfavorable 48 20

OPTIONS nodate ls =65 formchar = ’ | - - - -|+| - - -+=| -/\ < >* ’; DATA respira ; INPUT treat $ outcome $ count ; datalines ; placebo f 16 placebo u 48 test f 40 test u 20 ; PROC freq ; weight count ; tables treat * outcome ; RUN ;

The FREQ Procedure Table of treat by outcome treat

outcome

Frequency | Percent | Row Pct | Col Pct | f |u | Total ---------------------------placebo | 16 | 48 | 64 | 12 .90 | 38 .71 | 51 .61 | 25 .00 | 75 .00 | | 28 .57 | 70 .59 | ---------------------------test | 40 | 20 | 60 | 32 .26 | 16 .13 | 48 .39 | 66 .67 | 33 .33 | | 71 .43 | 29 .41 | ---------------------------Total 56 68 124 45 .16 54 .84 100 .00

Estos datos pueden estar grabados en forma de matriz de datos, es decir, cada individuo est´a representado por una u ´nica observaci´on. En SAS el programa ser´ıa semejante al anterior, pero no se tiene que usar el comando weight.

4

nodate ls =65 formchar = ’ | - - - -|+| - - -+=| -/\ < >* ’; /* Fijo el d i r e c t o r i o de t r a b a j o */

x ’ cd " c :\ PracticaSAS " ’; /* Se grab an los r e s u l t a d o s en un f i c h e r o rtf o en uno pdf */ / * O D S p d f f i l e = ’ c o s a . pdf ’ s t y l e = m i n i m a l s t a r t p a g e = n o ; * / / * O D S l i s t i n g f i l e = ’ c o s a . txt ’ ; * /

ODS rtf file = ’ cosa . rtf ’ style = minimal startpage = no ; DATA prueba ; INPUT prof $ count ; DATALINES ; advanced 18644 proficient 32269 basic 10039 minimal 10757 ; PROC freq order = data ; weight count ; tables prof / testp =(0.15 0.40 0.30 0.15) ; RUN ; ODS rtf close ;

The FREQ Procedure Test Cumulative Cumulative prof Frequency Percent Percent Frequency Percent --------------------------------------------------------------advanced 18644 26 .00 15 .00 18644 26 .00 proficie 32269 45 .00 40 .00 50913 71 .00 basic 10039 14 .00 30 .00 60952 85 .00 minimal 10757 15 .00 15 .00 71709 100 .00

Chi - Square Test for Specified Proportions ------------------------Chi - Square 12351 .6415 DF 3 Pr > ChiSq < .0001 Sample Size = 71709

5

OPTIONS nodate ls =65 formchar = ’ | - - - -|+| - - -+=| -/\ < >* ’; /* Fijo el d i r e c t o r i o de t r a b a j o */

x ’ cd " c :\ PracticaSAS " ’; /* Se grab an los r e s u l t a d o s en un f i c h e r o rtf o en uno pdf */ / * O D S p d f f i l e = ’ c o s a . pdf ’ s t y l e = m i n i m a l s t a r t p a g e = n o ; * / / * O D S l i s t i n g f i l e = ’ c o s a . txt ’ ; * /

ODS rtf file = ’ cosa . rtf ’ style = minimal startpage = no ; DATA respira ; INPUT treat $ outcome $ @@ ; datalines ; placebo f placebo f placebo f placebo f placebo f placebo u placebo u placebo u placebo u placebo u placebo u placebo u test f test f test f test f test f test u test u test u test u test u test u test u test u test u test u test u ; PROC freq ; tables treat * outcome ; RUN ; filename graphout " DBarras . png "; TITLE ’ Diagrama de Barras ’; greset = all device = png gsfname = graphout ; PROC GCHART DATA = respira ; VBAR outcome ; RUN ; filename graphout " DBarrasH . png "; TITLE ’ Diagrama de Barras Horizontal ’; greset = all device = png gsfname = graphout ; PROC GCHART DATA = respira ; HBAR outcome / DISCRETE ; RUN ; filename graphout " DTartas . png "; TITLE ’ Diagrama de tartas ’; greset = all device = png gsfname = graphout ; PROC GCHART DATA = respira ; PIE outcome / DISCRETE VALUE = INSIDE PERCENT = INSIDE SLICE = OUTSIDE ; RUN ; ODS rtf close ;

6

7

The FREQ Procedure Table of treat by outcome treat

outcome

Frequency | Percent | Row Pct | Col Pct | f |u | Total ---------------------------placebo | 5 | 7 | 12 | 17 .86 | 25 .00 | 42 .86 | 41 .67 | 58 .33 | | 50 .00 | 38 .89 | ---------------------------test | 5 | 11 | 16 | 17 .86 | 39 .29 | 57 .14 | 31 .25 | 68 .75 | | 50 .00 | 61 .11 | ---------------------------Total 10 18 28 35 .71 64 .29 100 .00

Cuando se consideran datos ordinales, es importante asegurase de que los niveles de las filas y columnas se ordenen correctamente, ya que los datos en SAS se ordenan de forma alfanum´erica por defecto. Para ello se usa el comando order=data. Por ejemplo, supongamos la siguiente tabla:

8

Sexo Mujer Mujer Hombre Hombre

Tratamiento Activo Placebo Activo Placebo

Alta 16 6 5 1

Mejora Escasa Ninguna 5 6 7 19 2 7 0 10

El programa en SAS para introducir la tabla anterior es

OPTIONS nodate ls =65 formchar = ’ | - - - -|+| - - -+=| -/\ < >* ’; /* Fijo el d i r e c t o r i o de t r a b a j o */

x ’ cd " c :\ PracticaSAS " ’; /* Se grab an los r e s u l t a d o s en un f i c h e r o rtf o en uno pdf */ / * O D S p d f f i l e = ’ c o s a . pdf ’ s t y l e = m i n i m a l s t a r t p a g e = n o ; * / / * O D S l i s t i n g f i l e = ’ c o s a . txt ’ ; * /

ODS rtf file = ’ cosa . rtf ’ style = minimal startpage = no ; DATA artritis ; INPUT sex $ treat $ improve $ count @@ ; datalines ; female active marked 16 female active some 5 female active none 6 female placebo marked 6 female placebo some 7 female placebo none 19 male active marked 5 male active some 2 male active none 7 male placebo marked 1 male placebo some 0 male placebo none 10 ; RUN ; PROC freq order = data ; weight count ; tables sex * treat * improve / nocol nopct ; RUN ; filename graphout " DTartas3D . png "; TITLE ’ Diagrama de Tartas ’; greset = all device = png gsfname = graphout ; PROC GCHART DATA = artritis ; pie3d improve / sumvar = count ; RUN ; filename graphout " DBarras3D . png "; TITLE ’ Diagrama de Barras ’; greset = all device = png gsfname = graphout ; PROC GCHART DATA = artritis ; hbar3d improve / sumvar = count patternid = midpoint group = sex ; RUN ; ODS rtf close ;

9

10

Se obtiene el siguiente resultado.

The FREQ Procedure Table 1 of treat by improve Controlling for sex = female treat

improve

Frequency | Row Pct | marked | some | none | ------------------------------------active | 16 | 5 | 6 | | 59 .26 | 18 .52 | 22 .22 | ------------------------------------placebo | 6 | 7 | 19 | | 18 .75 | 21 .88 | 59 .38 | ------------------------------------Total 22 12 25

Total 27

32

59

Table 2 of treat by improve Controlling for sex = male treat

improve

Frequency | Row Pct | marked | some | none | ------------------------------------active | 5 | 2 | 7 | | 35 .71 | 14 .29 | 50 .00 | ------------------------------------placebo | 1 | 0 | 10 | | 9 .09 | 0 .00 | 90 .91 | ------------------------------------Total 6 2 17

Total 14

11

25

Ejemplo con R datos = c (16 , 40 , 48 , 20) tabla = cbind ( expand.grid ( list ( Tratamiento = c ( " Placebo " ," Test " ) , Situacion = c ( " Favor " ," Desfavor " ))) , count = datos ) # Opcion simple ftable ( xtabs ( count ∼ Tratamiento + Situacion , tabla )) # Opcion tipo SAS library ( gmodels ) CrossTable ( xtabs ( count ∼ Tratamiento + Situacion , tabla ) , expected = TRUE , format = " SAS " )

11

Distribuci´ on multinomial en tablas 2 × 2 Cuando se considera muestras aleatorias, es habitual considerar que los recuentos de las casillas en las tablas de contingencia se distribuyen como una multinomial. En el muestreo multinomial, fijamos el tama˜ no total n pero no los totales de fila y columna. As´ı se modeliza la situaci´on de que las filas se refieren a diferentes grupos, los tama˜ nos muestrales est´an fijados previamente en el experimento, pero los totales por filas y columnas no lo est´an. Si se tienen I × J casillas con observaciones, la distribuci´on de probabilidad de los recuentos es YY n n! π ij . n11 ! · · · nIJ ! i j ij A veces, las observaciones en una variable respuesta Y aparecen de manera separada seg´ un cada nivel de una variable explicativa X. En este caso se trata los totales por filas como fijos. Se simplifica la notaci´on de modo que ni+ = ni , y suponemos que las ni en Y , para un nivel fijado de i of X, son independientes entre s´ı y con distribuci´on de probabilidad π1|i , . . . , πJ|i . P Los recuentos {nij , j = 1, . . . , J} tal que j nij = ni , se distribuyen como n ! Y nij Qi π . nij ! j j|i

(1)

j

Cuando las muestras que se toman en diferentes niveles de X son independientes, la distribuci´on conjunta de todos los datos es el producto de distribuciones multinomiales [1] para cada nivel i de X. Este esquema se denomina muestreo multinomial independiente o muestreo de producto de multinomiales. Ejemplos Consideremos el estudio del n´ umero de accidentes mortales y no mortales, con cintur´on y sin cintur´on. Muestreo multinomial: Tomamos un muestra aleatoria de 200 accidentes que tuvieron lugar el mes pasado y fijamos el tama˜ no total de la muestra. Muestreo multinomial (binomial aqu´ı) independiente: Tomamos una muestra de 100 accidentes donde hubo muertos y otros 100 en los que no hubo muertos. Fijamos los totales por columna.

12

Comparaci´ on de proporciones en tablas 2 × 2 Muchos estudios se dise˜ nan para comparar grupos bas´andonos en una respuesta Y binaria. Con dos grupos tenemos una tabla de contingencia 2 × 2. ´ Exito π1|1 π1|2

Grupo 1 Grupo 2

Fracaso π2|1 π2|2

Se denota π1|i = πi π2|i = 1 − π1|i = 1 − πi de modo que la tabla se puede reescribir como Exito π1 π2

Grupo 1 Grupo 2

Fracaso 1 − π1 1 − π2

Se quiere comparar π1 con π2 . Para ello, se puede estudiar,

(i ) La diferencia de las proporciones π1 − π 2 (ii ) El riesgo relativo π1 π2 (iii) La raz´on de odds: θ=

π1 /(1 − π1 ) π2 /(1 − π2 )

Ejemplo: Influencia de la toma de aspirina respecto a los ataques card´ıacos: Ataque No ataque Placebo 189 10845 Aspirina 104 10933

13

Para contrastar H0 : pa = pp (igual probabilidades de ataque al coraz´on por grupo), se puede usar el comando prop.test Para contrastar una hip´otesis unilateral, H0 : pa ≥ pp frente a H1 : pa < pp se hace usando la opci´on alternative. x = c (104 , 189) # aspirina y placebo n = c ((189+10845) , (104+10933)) prop.test (x , n ) prop.test (x , n , alt = " less " )

Se obtiene

2 - sample test for equality of proportions with continuity correction data : x out of n X - squared = 24 .3828 , df = 1 , p - value = 7 .897e -07 alternative hypothesis : two.sided 95 percent confidence interval : -0 .010807464 -0 .004590148 sample estimates : prop 1 prop 2 0 .009425412 0 .017124219 2 - sample test for equality of proportions with continuity correction data : x out of n X - squared = 24 .3828 , df = 1 , p - value = 3 .949e -07 alternative hypothesis : less 95 percent confidence interval : -1 .000000000 -0 .005075369 sample estimates : prop 1 prop 2 0 .009425412 0 .017124219

Se pueden obtener las proporciones a partir del componente estimate que en este caso es un vector num´erico de longitud 2. As´ı, la diferencia de las proporciones se calcula como: temp = prop.test (x , n ) names ( temp $ estimate ) = NULL temp $ estimate [1] - temp $ estimate [2] [1] -0 .007698806

Se puede calcular tambi´en el riesgo relativo y la raz´on de odds: # Riesgo relativo temp $ estimate [2] / temp $ estimate [1] [1] 1 .816814 # Razon de odds x [2] * ( n [1] - x [1]) / ( x [1] * ( n [2] - x [2])) [1] 1 .831045

14

Para programar las razones de odds en SAS, se usa:

OPTIONS nodate ls =65 formchar = ’ | - - - -|+| - - -+=| -/\ < >* ’; DATA riesgos ; INPUT ataque $ medica $ cuenta ; datalines ; ataque placebo 189 ataque aspirina 104 NOataque placebo 10845 NOataque aspirina 10933 ; PROC freq order = data ; weight cuenta ; tables ataque * medica / nocol ; exact or ; RUN ;

Se obtiene

15

The FREQ Procedure Table of ataque by medica ataque

medica

Frequency | Percent | Row Pct | placebo | aspirina | Total ---------------------------ataque | 189 | 104 | 293 | 0 .86 | 0 .47 | 1 .33 | 64 .51 | 35 .49 | ---------------------------NOataque | 10845 | 10933 | 21778 | 49 .14 | 49 .54 | 98 .67 | 49 .80 | 50 .20 | ---------------------------Total 11034 11037 22071 49 .99 50 .01 100 .00

Statistics for Table of ataque by medica Estimates of the Relative Risk ( Row1 / Row2 ) Type of Study Value 95 % Confidence Limits ----------------------------------------------------------------Case - Control ( Odds Ratio ) 1 .8321 1 .4400 2 .3308 Cohort ( Col1 Risk ) 1 .2953 1 .1886 1 .4116 Cohort ( Col2 Risk ) 0 .7070 0 .6056 0 .8255

Odds Ratio ( Case - Control Study ) ----------------------------------Odds Ratio 1 .8321 Asymptotic Conf Limits 95 % Lower Conf Limit 95 % Upper Conf Limit

1 .4400 2 .3308

Exact Conf Limits 95 % Lower Conf Limit 95 % Upper Conf Limit

1 .4323 2 .3539

Sample Size = 22071

16

Odds y raz´ on de odds Si π es la probabilidad de ´exito entonces los odds se definen como Ω=

π 1−π

π=

Ω . Ω+1

o de modo equivalente

Se tiene que Ω > 1 cuando un ´exito es m´as probable que un fallo. Por ejemplo, cuando π = 0,75, entonces Ω=

0,75 =3 0,25

es decir un ´exito es tres veces m´as probable que un fallo. Si se tiene una tabla 2 × 2 se pueden definir los odds en la fila i: Ωi =

πi . 1 − πi

El cociente de los odds de las dos filas se denomina raz´on de odds: θ=

Ω1 π1 / (1 − π1 ) = Ω2 π2 / (1 − π2 )

y se obtiene de manera equivalente cuando se tiene distribuciones conjuntas πij que θ=

π11 π22 π12 π21

por lo que tambi´en se denomina cociente de los productos cruzados. Propiedades Puede ser cualquier valor positivo. θ = 1 significa que no hay asociaci´on entre X e Y . Valores de θ alejados de 1 indican una asociaci´on mayor. Se suele trabajar con log θ ya que el valor que se obtiene es sim´etrico respecto a cero. La raz´on de odds no cambia cuando se intercambian filas y columnas.

17

Raz´ on de odds condicionales y marginales Las asociaciones marginales y condicionales pueden ser descritas mediante la raz´on de odds. Supongamos una tabla 2 × 2 × K, si denominamos µijk a la frecuencia esperada en la celda correspondiente. Fijamos Z = k, y se define la raz´on de odds condicional como θXY (k) =

µ11k µ22k µ12k µ21k

y la raz´on de odds marginal como µ11+ µ22+ µ12+ µ21+

θXY =

Si se sustituyen los valores de µijk por las frecuencias observadas se obtienen las razones de odds muestrales. Un valor de igual a 1 en la raz´on de odds supone, o bien independencia marginal, o bien condicionada a que Z = k, es decir, si θXY (k) = 1. Nota: La independencia condicional a que Z = k es equivalente a que P (Y = j|X = i, Z = k) = P (Y = j|Z = k) para todo i, j. Si se cumple para todo valor de la variable Z, entonces se dice que X e Y son condicionalmente independientes dado Z y se obtiene que πi+k π+jk π++k

πijk = para cualquier i, j, k.

La independencia condicional no implica la independencia marginal. Ejemplo Consideramos un ejemplo famoso en USA sobre procesamientos por asesinatos m´ ultiples en Florida entre los a˜ nos 1976 y 1987:

18

Raza Victima Blanca Negro Total

Raza Acusado Blanco Negro Blanco Negro Blanco Negro

Pena de Muerte Si No 53 414 11 37 0 16 4 139 53 430 15 176

Porcentaje Si 11.3 22.9 0 2.8 11 7.9

Esta es una tabla de contingencia 2×2×2 El ejemplo de la pena de muerte sirve para ilustrar las razones de odds condicionales. Se estudia el efecto de la raza del acusado (X) en el veredicto de culpabilidad (Y ), tratando a la raza de la v´ıctima (Z) como si fuera una variable control. vic.raza = c ( " blanca " , " negra " ) def.raza = vic.raza pena.muerte = c ( " SI " , " NO " ) datalabel = list ( acusado = def.raza , muerte = pena.muerte , victima = vic.raza ) tabla = expand.grid ( acusado = def.raza , muerte = pena.muerte , victima = vic.raza ) data = c (53 , 11 , 414 , 37 , 0 , 4 , 16 , 139) tabla = cbind ( tabla , recuento = data ) xtabs ( recuento ∼ acusado + muerte + victima , data = tabla )

Se obtiene

, , victima = blanca

acusado blanca negra

muerte SI NO 53 414 11 37

, , victima = negra

acusado blanca negra

muerte SI NO 0 16 4 139

Se calculan la raz´on de odds condicionales. temp = xtabs ( recuento ∼ acusado + muerte + victima , data = tabla ) apply ( temp , 3 , function ( x ) x [1 ,1] * x [2 , 2] / ( x [2 ,1] * x [1 ,2])) # Con el paquete vcd library ( vcd ) summary ( oddsratio ( temp , log =F , stratum =3))

Se obtiene en ambos casos

19

blanca negra 0 .4306105 0 .0000000

blanca negra

Odds Ratio 0 .4306 0 .9394

Se obtienen resultados diferentes en ambos casos, ya que la funci´on oddsratio a˜ nade 0.5 a cada casilla de la tabla.

Asociaci´ on Homog´ enea Una tabla 2 × 2 × K tiene una asociaci´on XY homog´enea cuando θXY (1) = θXY (2) = · · · = θXY (K) El tipo de asociaci´on entre X e Y es el mismo para las distintas categor´ıas de Z. La independencia condicional entre X e Y es un caso particular donde θXY (K) = 1. Si existe una asociaci´on XY homog´enea entonces tambi´en tenemos una asociaci´on XZ homog´enea y una asociaci´on Y Z homog´enea. Se dice tambi´en que no existe interacci´on entre las dos variables con respecto a sus efectos en la otra variable. Cuando existe interacci´on, la raz´on de odds para cada par de variables cambia a lo largo de las categor´ıas de la tercera variable. Ejemplo X ≡ fumador (s´ı, no) Y ≡ c´ancer de pulm´on (s´ı, no) Z = edad (< 45, 45 − 65, > 65) Si las razones de odds observadas son θXY (1) = 1,2 θXY (2) = 3,9 θXY (3) = 8,8

El efecto de fumar se acent´ ua conforme la edad es mayor. La edad se denomina efecto modificador, dado que el efecto de fumar queda modificado por la edad de las personas.

20

Inferencia en tablas de contingencia Intervalos de confianza para par´ ametros de asociaci´ on Intervalo para la raz´ on de odds El estimador que se utiliza para la raz´on de odds es n11 n22 θb = n12 n21 Este estimador puede ser 0 o´ ∞ (si alg´ un nij = 0) o no estar definido (0/0) dependiendo de los recuentos que se tengan. Una posible opci´on es trabajar con el estimador corregido: (n11 + 0,5) (n22 + 0,5) θb = (n12 + 0,5) (n21 + 0,5) b o bien con la transformaci´on log(θ). b es Una estimaci´on del error est´andar de log(θ) σ blog(θ) b =

1 1 1 1 + + + n11 n12 n21 n22

12

de modo que el correspondiente intervalo de Wald es b ± zα σ log(θ) b b 2 log(θ) Si se toman las exponenciales (antilogaritmo) de los extremos se obtiene el intervalo correspondiente para θ. El test es algo conservador (la probabilidad de cubrimiento es algo mayor que el nivel nominal). Intervalo de confianza para la diferencia de proporciones Supongamos que tenemos muestras de binomiales independientes, de modo que en el grupo i tenemos Yi ∼ Binom (ni , πi ) de modo que el estimador es π bi =

Yi ni

y la media y desviaci´on est´andar son E (b π1 − π b2 ) = π1 − π2 1/2 π1 (1 − π1 ) π2 (1 − π2 ) σ(bπ1 −bπ2 ) = + , n1 n2 21

de modo que un estimador es

σ b(bπ1 −bπ2 )

π b1 (1 − π b1 ) π b2 (1 − π b2 ) = + n1 n2

1/2 .

El intervalo de confianza de Wald es π b1 − π b2 ± z α2 σ b(bπ1 −bπ2 ) Cuando los valores de π1 y π2 est´an pr´oximos a 0 o a 1 este intervalo tiene una probabilidad de cubrimiento menor que la te´orica que se considera. Intervalo de confianza para el riesgo relativo El riesgo relativo muestral viene dado por r=

π b1 π b2

Se prefiere usar mejor el logaritmo ya que converge m´as r´apido a la normal. El estimador del correspondiente error est´andar es

σ blog(r)

1−π b1 1 − π b2 = + n1 π b1 n2 π b2

1/2

El intervalo de confianza de Wald para log( ππbb21 ) es blog(r) log(r) ± z α2 σ Ejemplo Por ejemplo, en la tabla de contingencia sobre el uso de la aspirina y el infarto de miocardio.

Placebo Aspirina

Infarto Miocardio SI NO 28 656 18 658

Total 684 656

Se crea la tabla en R: Medicina