TABLAS DE CONTINGENCIA. IGNACIO MÉNDEZ GÓMEZ-HUMARÁN

TABLAS DE CONTINGENCIA IGNACIO MÉNDEZ GÓMEZ-HUMARÁN [email protected] El uso de Tablas de Contingencia permite estudiar la relación entre dos vari

Author: Juan Cabrera Fuentes

0 downloads 44 Views 930KB Size

Report

DOWNLOAD PDF

Recommend Stories

Tablas de contingencia

Tablas de Contingencia

STATGRAPHICS – Rev. 9/14/2006 Tablas de Contingencia Resumen El procedimiento Tablas de Contingencia esta diseñado para analizar y mostrar datos de f

Tablas de contingencia

Tablas de contingencia 1.Distribuciones condicionadas de Y a los valores de X 2.Distribuciones condicionadas de X a los valores de Y 3.Distribuciones

TABLAS DE CONTINGENCIA

TABLAS DE CONTINGENCIA INDICE TABLAS DE CONTINGENCIA................................................................................................

Tema 2: Tablas de Contingencia

Tema 2: Tablas de Contingencia Introducci´ on Una tabla de contingencia es una de las formas m´as comunes de resumir datos categ´oricos. En general, e

Datos cualitativos: Tablas de contingencia bidimensionales

Contrastes de la bondad del ajuste y tablas de contingencia

Contrastes de la bondad del ajuste y t ablas de contingencia / / Esquema del capitulo 16.1. Contrastes de la bondad del ajuste: probabilidades especif

Tema 6: Modelos Log-Lineales para tablas de Contingencia

Capítulo 12 Análisis de variables categóricas El procedimiento Tablas de contingencia

Capítulo 12 Análisis de variables categóricas El procedimiento Tablas de contingencia En las ciencias sociales, de la salud y del comportamiento es b

Tablas

Story Transcript

TABLAS DE CONTINGENCIA

IGNACIO MÉNDEZ GÓMEZ-HUMARÁN [email protected]

El uso de Tablas de Contingencia permite estudiar la relación entre dos variables categóricas o criterios de clasificación.

En una Tabla, los renglones representan las categorías de un criterio y las columnas las categorías del otro. Referencia: Everitt, B. S. 1977 “The Analysis of Contingency Tables”, Halsted Press, 128 pp.

Por ejemplo, un criterio de clasificación podría ser los ingresos anuales por familia en cierta ciudad y el otro criterio las zonas donde viven las familias de dicha ciudad. INGRESOS ZONAS

A B C D Total

Bajo n11 n21 n31 n41 n.1

Medio n12 n22 n32 n42 n.2

Alto n13 n23 n33 n43 n.3

Total n1. n2. n3. n4. n..

Si los ingresos anuales por familia y las zonas donde viven son independientes, entonces en todas las zonas de la ciudad vivirían en las mismas proporciones familias de bajos, medios y altos ingresos. Un cuadro nij cualquiera de la tabla, contiene las frecuencias de familias clasificadas de acuerdo con los criterios de las dos categorías. Esto significa que cada cuadro esta formado por la interacción del nivel i-ésimo de un criterio con el nivel j-ésimo del otro criterio, esto se conoce como celda.

Los totales marginales para cada criterio son:

Suma de las celdas de los renglones:

c

ni.   nij j 1

Suma de las celdas de las columnas:

r

n. j   nij i 1

El gran total es:

c

r

r

c

i 1

j 1

n  n..    nij  ni.   n. j j 1 i 1

que deberá ser igual al número total de elementos en la muestra.

Prueba 2 (Ji-cuadrada) para independencia Si se denotan por Oij las frecuencias observadas nij en una muestra y por Eij las frecuencias esperadas. El estadístico 2 de Pearson es:

r

c

   2

i 1 j 1

O

ij

 Eij  Eij

2

con (r-1)(c-1) grados de libertad.

Prueba 2 (Ji-cuadrada) para independencia Si dos eventos son independientes, entonces la probabilidad de una intersección de eventos es el producto de sus probabilidades. Si suponemos que los niveles de un criterio son independientes de los niveles del otro criterio, entonces los valores esperados serán:

ni.n. j ni. n. j Eij  pi. p. j n  n n n n suponen cierta la hipótesis de nulidad Ho:

pij  pi. p. j

Criterio de Razón de Verosimilitud Un método alterno para obtener el estadístico 2, para comparar las frecuencias observadas con las esperadas bajo una hipótesis particular, es la 2L de Razón de Verosimilitud; el estadístico de prueba en este caso es:

  O ij 2  L  2    Oij LN   i 1 j 1 E  ij  r

c

que también tiene una distribución 2 cuando la hipótesis nula es cierta, los grados de libertad son los mismos que la 2 de Pearson.

Pearson vs Razón de Verosimilitud Es posible demostrar que 2 es aproximadamente igual a 2L para muestras grandes. Sin embargo, algunos autores muestran que, en general, 2L es preferible a 2 por lo que se recomienda su utilización. Para ambas pruebas se requiere que los valores esperados sean mayores a 5 en todas las celdas, de lo contrario sus resultados no son válidos.

Análisis de residuales Un procedimiento útil para identificar las categorías que influyen en forma significativa en los valores de la 2, es el análisis de los residuales, dij , dados por:

d ij 

Oij  Eij Eij

El estimador de la varianza de los valores zij es:

 ni.   n. j  vij  1    1   n  n 

Análisis de residuales Finalmente, para cada celda de la tabla de contingencia se calculan los residuales estandarizados, zij, que son:

zij 

d ij vij

Cuando las variables consideradas en la tabla de contingencia son independientes, los términos presentan una distribución normal (aprox.) con media cero y varianza uno. Los valores se contrastan con un valor de z de la distribución normal estándar para un nivel de confianza dado. Si representan una influencia en la dependencia entre las variables, se espera que sean superiores al valor de z en valor absoluto.

Tablas de Contingencia 2x2 Es muy común que se presenten casos donde se tienen tablas de contingencia con dos categorías para cada variable. En forma general, para tablas 2x2 se ha utilizado la nomenclatura que se presenta en el siguiente cuadro: Factor efecto Factor Causal

Si

No

Total

Si

a

b

n1

No

c

d

n2

Total

m1

m2

n

Estas tablas son muy utilizadas estudiar el riesgo o incidencia de que ocurra el efecto entre las poblaciones, dada la condición llamada causa. En éstos casos las medidas relativas de ocurrencia son muy utilizadas.

Prueba Exacta de Fisher (Tablas 2x2) La prueba Exacta de Fisher usa la distribución de probabilidad exacta de los valores observados. Si tomamos los totales marginados como fijos, entonces tendremos una distribución de probabilidad Hipergeométrica. Si consideramos que dos variables son independientes, entonces la probabilidad de obtener un arreglo particular será:

n1!n2 !m1!m2 ! P a!b!c!d!n! La probabilidad exacta se contrasta con el valor de α elegido a priori. Si el valor de P es menor que α se rechaza la hipótesis nula y se considera que existe asociación significativa entre las variables.

Tasas de Incidencia En estudios comparativos de causa a efecto usualmente se comparan dos poblaciones, una con el factor causal (expuesta) y la otra sin el (no expuesta). Las tasas de incidencia estimadas a partir de una tabla de contingencia son: expuestos (P(efecto | causa) es:

a p1  n1

no expuestos (P(efecto | no causa) es:

c p2  n2

Que representan las probabilidades marginales del efecto con respecto a la causa.

Riesgo Relativo El riesgo relativo representa cuantas veces ocurre el efecto entre la población de expuestos comparado con el de no expuestos. El estimador correspondiente es:

p1 R  p2

a c

n1 n2

Si R es diferente de la unidad se dice que existe asociación entre la causa y el efecto, si R > 1, se dice que existe una asociación positiva; si R < 1, se dice que existe asociación negativa.

Riesgo Atribuible Esta medida representa la proporción absoluta de cambio; es decir , el incremento o la disminución en la probabilidad de ocurrencia del efecto debido a la exposición al factor causal.

Es la diferencia entre las tasas de incidencia entre la población de expuestos y la de no expuestos, que es:

  p1  p2 En estudios comparativos de efecto a causa las estimaciones de las tasas de incidencia y el riesgo relativo y riesgo atribuible no son validas, pues las fracciones de muestreo con que se obtienen a y c son diferentes de las fracciones con que se obtienen n1 y n2.

Razón de Momios (Odds Ratio) La razón de momios es otra medida de asociación entre el factor causal y el efecto, que esta muy relacionada con el riesgo relativo. Si un evento ocurre con probabilidad p, y si q = 1 - p, entonces la razón p q es llamada momio del evento (Odd).

Si p1 es la tasa de incidencia del efecto entre la población de expuestos, entonces p1 q1 es el momio del efecto entre expuestos, y su estimador es:

a

a  b b n1 n1

Razón de Momios (Odds Ratio)

Igualmente, si p2 es la tasa de incidencia del efecto entre los

no expuestos,

p 2 q2

expuestos y se estima por:

es el momio del efecto entre no c d

n2 n2

c  d

Razón de Momios (Odds Ratio) En estudios de causa a efecto, la razón del momio del efecto entre expuestos, relacionada con el momio del efecto entre no expuestos, se llama razón de momios, y se representa por:



p1 p2

q1 q2

p1q2  p2 q1

El estimador correspondiente a la razón de momios es entonces: a

ˆ  c

b d

ad  cb

Razón de Momios (Odds Ratio) En estudios de efecto a causa (estudio de casos y controles), también es posible estimar la razón de momios dado que se pueden establecer los momios de exposición entre los que tienen el efecto (casos), en este caso el estimador es: a

a  c c m1 m1

el momio de exposición de los que no tienen el efecto (controles) el estimador correspondiente es: b d

m2 m2

b  d

Razón de Momios (Odds Ratio) En este caso particular, la razón de momios estimada es entonces: a

ˆ  b

c d

ad  cb

Como podemos observar, la razón de momios de exposición es igual a la razón de momios del efecto.

Por éste motivo, la razón de momios puede estimar en todos los estudios comparativos (tanto de causa a efecto como de efecto a causa).

Intervalo de confianza para la Razón de Momios El intervalo de confianza para la razón de momios es entonces: Z1 EE [ LN ( )]

ˆ  e

Donde: Z1- es el coeficiente de la distribución normal que garantiza el nivel de confianza deseado, y el error estándar del logaritmo de la razón de momios es:

VAR [ LN (ˆ )] 

1 1 1 1    a b c d