APÉNDICE 1 REVISIÓN DE CONCEPTOS EN EPIDEMIOLOGÍA

APÉNDICE 1 REVISIÓN DE CONCEPTOS EN EPIDEMIOLOGÍA Epidemiología: Es el estudio de la distribución y determinantes de los estados o eventos relacionado

0 downloads 8 Views 392KB Size

Story Transcript

APÉNDICE 1 REVISIÓN DE CONCEPTOS EN EPIDEMIOLOGÍA Epidemiología: Es el estudio de la distribución y determinantes de los estados o eventos relacionados con la salud en las poblaciones y la aplicación de éste en la prevención y control de los problemas.

Epidemiología ambiental: Es el estudio del impacto de los factores ambientales sobre la presentación de enfermedades u otras condiciones de salud en poblaciones especificas y la aplicación de ese estudio al control de problemas del salud.

Epidemiología ocupacional: Es el estudio del impacto de los factores del ambientes del trabajo sobre la presentación de enfermedades u otras condiciones del salud en poblaciones especificas de trabajadores y la aplicación de ese estudio al control de problemas del salud en el lugar de trabajo.

Usos de la epidemiología: -

Describir los eventos de salud ambiental y ocupacional

-

Evaluar el estado de salud de la población

-

Identificar los factores de riesgo de los expuestos

-

Identificar las causas de las enfermedades

-

Describir los patrones clínicos de la enfermedad

-

Proponer medidas de prevención y control

-

Corregir o modificar las medidas iniciales para confirmar o reformular la hipótesis.

Epidemiología descriptiva: Persona. Las personas se pueden describir en términos de sus características inherentes o adquiridas, actividades y circunstancias bajo las que viven, las cuales determinan un amplio grado en el que las personas están en mayor riesgo de adquirir enfermedades específicas o de padecer otras condiciones de salud no deseables:

1.

Factores demográficos y sociales: Edad, raza, sexo, ocupación, religión, estado civil, escolaridad.

2.

Características adquiridas: Inmunidad, estado vacunal, estado nutricional.

3.

Edad: Diferencias en susceptibilidad, diferencias en exposición, actividad fisiológica a nivel tisular que afecta la manifestación de la enfermedad subsecuente a la exposición.

Tiempo. El análisis de casos en función del tiempo es útil para la formulación de hipótesis, para determinar la fuente de exposición, el modo de difusión y el agente causal.

1.

Al conocer las tendencias de las enfermedades según tiempo, se puede: -

Predecir la ocurrencia de brotes, y así proponer las medidas de control.

-

Entender mejor la etiología de una enfermedad y prevenir brotes en el futuro.

¡ E

2.

Tipos de patrones temporales -

Tendencias seculares · Cambios durante largos períodos de tiempo (años o décadas). · Análisis histórico. · Evaluación de programas. · Tendencias cíclicas.

-

Las tendencias seculares pueden reflejar cambios reales, o los siguientes: · Cambios en los métodos diagnósticos. · Cambios en la codificación de certificados de defunción. · Cambios en la supervivencia.

-

Cambios cíclicos: · Ciclos anuales (estacionales). · Ciclos con una periodicidad de algunos años (sarampión). · Ciclos por día, semana, mes, años.

Lugar. Cualquier variable espacial o geográfica que esté relacionada con la ocurrencia del evento de salud. La asociación de la enfermedad con el lugar implica que los factores de mayor importancia etiológica, están presentes en los habitantes, el ambiente o en ambos: lugar de residencia, nacimiento, empleo, etc.

El análisis por lugar ayuda a: -

Definir los límites del problema.

-

Generar hipótesis sobre transmisión o dispersión del agente, o exposición a factores ambientales.

Tipos de descripción por lugar: -

Mapas.

-

Subdivisiones políticas.

-

Mapas de factores ambientales.

-

Comparaciones internacionales.

- Asociación con factores climáticos y ecológicos, así como índices socioeconómicos, biológicos, y culturales que varían según los países. -

Estudios de inmigrantes.

¡ E

APÉNDICE 2 PRESENTACIÓN DE RESULTADOS: TABLAS, GRÁFICAS Y DIAGRAMAS Tablas

Son series de datos que se encuentran dispuestos en renglones y columnas. Su utilidad consiste en presentar la frecuencia con la que algunos eventos ocurren en diferentes subdivisiones o categorías de una variable.

Reglas generales: 1.

Las tablas deben ser simples. Se prefieren dos o tres tablas pequeñas a una única más compleja, con demasiados detalles o variables. Generalmente no más de tres variables pueden ser leídas con facilidad.

2.

3.

Las tablas deben explicarse por sí mismas. -

Los códigos, abreviaturas o símbolos deben ser explicados en detalle, al pie de la tabla.

-

Cada fila y cada columna debe ser identificada en forma concisa y clara.

-

Deben proporcionarse las unidades específicas de medida utilizadas en los datos.

-

Los títulos deben ser claros, concisos y descriptivos del tema. Deben responder a las preguntas; ¿qué?, ¿cuándo?, ¿dónde?

-

El total debe figurar en las tablas.

Generalmente, el título de la tabla está separado de la misma por líneas o espacios. En las tablas pequeñas, no son necesarias las líneas verticales que separan las columnas.

4.

Si los datos no son originales, las referencias deben figurar al pie de la tabla.

Fuente: Indicar de dónde se obtuvo la información.

¡ E

Gráficas

La gráfica es un método para mostrar datos cuantitativos utilizando un sistema de coordenadas. Hay diferentes tipos de gráficas, como coordenadas rectangulares, coordenada polar y las de propósitos especiales (tridimensional).

Reglas generales:

1

El tipo más simple de gráfica es siempre el más efectivo. No se deben trazar más líneas ni símbolos en una sola gráfica de los que se puede seguir fácilmente con la vista.

2.

Cada gráfica debe explicarse por sí misma. Por consiguiente, debe estar correctamente rotulada en lo que se refiere al título, fuente, escalas y claves explicatorias o referencias.

3.

La posición del título de una gráfica es cuestión de preferencia personal. Sin embargo, las gráficas que se publican, generalmente llevan el título encima de la gráfica.

4.

Cuando se muestra más de una variable en una gráfica, cada una de ellas debe estar claramente diferenciada por medio de referencias o claves.

5.

No se deben mostrar más coordenadas que las necesarias para guiar la vista.

6.

La frecuencia se representa generalmente en la escala vertical; el método de clasificación en la escala horizontal.

7.

En una escala aritmética, los incrementos iguales en la escala deben representarse en unidades numéricas iguales.

8.

La división de la escala debe estar claramente indicada, así como las unidades en las cuales se divide la escala.

Escala aritmética lineal. Es en la que existen distancias iguales a lo largo del eje Y, representando cantidades iguales en cualquier sitio sobre el eje.

Cuando se debe usar:

1.

Es efectiva para representar datos recolectados en forma continua en un período de tiempo, como en los movimientos o tendencias a través de los años o las variaciones en períodos cortos (días, semanas o meses).

2.

Son útiles para resumir la forma de una curva epidémica.

¡ E

La escala aritmética lineal está específicamente adaptada para:

1. Una serie donde se representan muchos valores sucesivos. 2.

Mostrar varias series que deben ser comparadas en la misma gráfica.

3.

Posibilitar la lectura rápida o la interpolación.

4.

Dar énfasis al movimiento en lugar de a las cantidades reales.

EJEMPLO ESCALA ARITMÉTICA

TENDENCIA DE LOS ABORTOS HOSPITALARIOS CHILE, 1945 - 1972

Fuente: Anuarios Estadísticos Instituto Estadísticas y Censos y S.N.S.

¡ E

Gráfica lineal de escala semi-logarítmica. Es aquélla en la que el eje de la Y es medido en unidades logarítmicas.

Cuándo se debe usar: 1.

Es útil al examinar una serie de datos a lo largo de un período de tiempo y el interés está en el cambio relativo (o tasa de cambio) de los valores en lugar de en la cantidad absoluta de dicho cambio.

2.

Es útil cuando se tienen pocos valores extremos.

EJEMPLO DE ESCALA SEMI-LOGARÍTMICA

TENDENCIA HISTÓRICA DE LA EXPECTATIVA DE VIDA DE 9 PAÍSES DE AMÉRICA LATINA

Fuente: Pattern of Mortality Changes in Latin America Demography: Vol. 6, Nª 3, VIII, 1969.

¡ E

Ventajas:

1.

La inclinación de la línea indica la tasa de aumento o disminución.

2.

Una línea recta indica una tasa constante de aumento o disminución en los valores (si es horizontal, ningún cambio).

3.

Dos o más líneas que sigan trayectorias paralelas muestran tasas de cambio idénticas.

4.

Los cambios grandes o diferencias en la magnitud de los números se pueden mostrar fácilmente en una gráfica relativamente pequeña.

Histograma. Es una gráfica de frecuencias (datos cuantitativos continuos) distribuidas en grupos de diferentes tamaños. También se conoce como curva epidémica si la variable del eje X está dada por el tiempo.

Características: 1.

El ancho de las barras verticales es proporcional al ancho de los intervalos de clase utilizados.

2.

La altura de las barras en un intervalo de clase es proporcional a la frecuencia de ocurrencia del evento en ese mismo intervalo.

EJEMPLO HISTOGRAMA

10

8

AJENOS AL DEPARTAMENTO DE IMPRESIÓN

DEL DEPARTAMENTO DE IMPRESIÓN

6



CASO ORIGINAL

4

2 • •



FEB

MAR





MAY

JUN



0 JUL

AGO

SEP

OCT

NOV

DIC

ENE

1972

ABR

JUL

AGO

SEP

OCT

1973

Polígono de frecuencias. Es útil cuando se desea presentar más de dos series de datos como una distribución de frecuencias. Los datos son presentados en forma más clara que como histograma, además, tiene amplia utilidad para graficar datos cronológicos.

Se construye marcando los valores individuales de una frecuencia de distribución tomando el punto medio de su respectivo intervalo de clase y uniendo los puntos con una línea.

¡ E

MÉTODO CORRECTO PARA CERRAR EL POLÍGONO DE FRECUENCIA

MÉTODO INCORRECTO PARA CERRAR EL POLÍGONO DE FRECUENCIA

Diagramas

Son métodos para ilustrar la información estadística usando solamente una coordenada, son apropiados para comparar magnitudes de diferentes eventos o de componentes de un total.

Propósito del diagrama:

1.

Deben representar los hechos en forma fidedigna.

2.

Deben ser claros, de fácil lectura y comprensión.

3.

Deben estar diseñados y construidos para atraer y mantener la atención.

Gráfica de barras. Su principal uso es el de comparar magnitudes, también se utilizan para mostrar distribución de frecuencias y serie de datos en el tiempo.

1.

Tiene celdas, todas con el mismo ancho de la columna, separadas por espacios.

2.

Una celda puede contener más de una barra.

3.

Las barras pueden separarse opcionalmente con un espacio e ilustrarse distintivamente.

4.

Las distinciones deben mostrarse en un letrero.

5.

Las barras pueden ser dispuestas en orden ascendente o descendente con respecto a la altura.

6.

Pueden colocarse horizontal o verticalmente.

7.

Un corte en la escala nunca se debe utilizar, ya que daría lugar a malas interpretaciones.

¡ E

EJEMPLO DE GRÁFICA DE BARRAS

PROPORCIÓN DE EMBARAZOS QUE TERMINAN EN ABORTOS SEGÚN ÁREAS DE INVESTIGACIÓN BOLIVIA - 1969

Fuente: Condicionamientos socio-culturales de la fecundidad en Bolivia - 1969.

Barras combinadas. Se utilizan para presentar simultáneamente dos o más variables.

Gráfica circular. Utiliza un circulo en el cual se acomodan los datos en forma de sectores según su magnitud, de preferencia valores relativos equivalentes a la proporción gradual del área circular. Se obtiene multiplicando la proporción (valor 100) correspondiente por 360 y se divide entre 100.

¡ E

EJEMPLO DE GRÁFICA CIRCULAR

1er trim. 2do trim. 3er trim. 4to trim.

Diagrama de coordenadas geográficas. Representan la ocurrencia de eventos utilizando mapas. El mapa de puntos y el de áreas o superficies tienen usos en común; el mapa de puntos muestra por medio de puntos u otros símbolos la localización de cualquier evento que tuvo lugar, o condición existente. Un mapa de áreas muestra por medio de sombras o áreas con claves, la incidencia de un evento en subáreas o la distribución geográfica de alguna condición.

¡ E

EJEMPLO DE DIAGRAMA DE COORDENADAS GEOGRÁFICAS

TASAS DE NATALIDAD SEGÚN REGIONES AMÉRICA LATINA - 1973

Fuente: United Nations Demographic Year Book, 1973

¡ E

APÉNDICE 3 MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN Medidas de tendencia central:

La media, la mediana y la moda son las medidas de tendencia central de una distribución. _ Media (o promedio) se simboliza x y puede calcularse a partir de la distribución de las frecuencias, sumando los valores de todas las observaciones (xi) dividida por el número de observaciones (n).

x=

∑x n

donde:

x

= Media aritmética

∑x

= Suma de todas las observaciones

n = Número de observaciones

Ejem: x = 7, 16, 3, 12, 8, 3

x=

n =6

7 + 16 + 3 + 12 + 8 + 3 49 = = 8.2 6 6

Cálculo de la media a partir de una distribución de frecuencias:

x=

∑ fx

x=

n

donde:

x

= Media aritmética

f = Frecuencia de x

x = Valor de una observación n = número de observaciones = f

x

f

fx

64

1

64

65

0

0

66

2

132

67

5

335

68

9

612

69

22

1518

70

16

1120

71

12

852

72

8

576

73

3

219

74

1

74

75

1

75

80

5577

Total

¡ E

5577 = 69.7 80

Mediana es el valor que divide el número de observaciones en dos partes iguales. La mitad de las observaciones tienen valores inferiores o iguales a la mediana, mientras que la otra mitad tienen un valor mayor o igual a la mediana. Se debe usar cuando la distribución es asimétrica.

Para calcular la mediana de un conjunto de observaciones, primero se ordenan según su valor en la escala de medición. Si n es un número impar, la mediana será el valor correspondiente a la observación situada en el centro. Si el número de observaciones es par, la mediana será la media de las observaciones centrales.

La posición de la mediana se obtiene:

n+1 2

Ejemplos: 1, 3, 9, 15, 20:

Mediana = 9

1, 3, 9, 15, 20, 21:

Mediana =

9 + 15 = 12 2

Modo es el valor que ocurre más frecuentemente. Se utiliza raramente en estadísticas de salud pública.

Ejemplos:

3, 3, 7, 8, 12, 16:

Modo 3

5, 5, 6, 1, 17, 17, 12:

Modo 5 y 17

Reglas para el uso de las medidas de tendencia central para un conjunto de datos:

1.

La media se usa para datos numéricos y distribuciones simétricas (no sesgadas).

2.

La mediana se emplea para datos ordinales o numéricos con distribución sesgada.

3.

El modo se usa para distribuciones bimodales.

4.

El uso primario de la media geométrica es para observaciones medidas en una escala logarítmica.

Los puntos siguientes permiten conocer la forma de una distribución sin verla:

1.

Si la media y mediana son iguales, la distribución de observaciones es simétrica.

2.

Si la media es mayor que la mediana, la distribución está sesgada a la derecha.

3.

Si la media es menor que la mediana, la distribución está sesgada a la izquierda.

Medidas de dispersión o variación:.

Es necesario conocer el centro de la distribución y saber algo sobre la variabilidad de las observaciones. Las medidas usadas para describir esas variaciones son:

Rango es la diferencia entre el valor más alto y el más bajo.

Ejemplos: 7, 16, 3, 12, 8, 3

2, 3, 10, 16

Rango 13

Rango 14

¡ E

Percentil es una cifra que indica el porcentaje de una distribución que es igual o menor a esa cifra. El uso más común es para comparar un valor individual con un conjunto de normas. Se emplean en forma extensa para desarrollar e interpretar tablas de crecimiento físico y mediciones de destreza e inteligencia, así como para determinar rangos normales de valores de laboratorio.

Valor Máximo = el percentil 100

Mediana = el percentil 50

Cuartiles, la escala se divide en cuartos. Q1 = Primer cuartil

= El percentil 25

Q2 = Segundo cuartil

= El percentil 50

Q3 = Tercer cuartil

= El percentil 75

Q4 = Cuarto cuartil

= El percentil 100

= Mediana

El percentil y los cuartiles son medidas de posición.

Rango intercuartílico, se basa en los cuartiles que son subdivisiones de una distribución en subgrupos iguales ordenados; los deciles son décimos; los cuartiles, cuartos; los quintiles, quintos; los terciles, tercios; los centiles, centésimos.

Desviación estándar es la raíz cuadrada de la suma de las desviaciones de la media al cuadrado dividida por el número de observaciones (n) menos 1.

La desviación estándar es especialmente útil cuando la distribución a la que se refiere es aproximadamente normal, las medidas de tendencia central (mediana, media aritmética, modo y punto medio del rango) son iguales. Si se midiera desde la media una distancia de una desviación estándar a cada lado, se encontraría que el 68.3% de las observaciones caería dentro de esta área bajo la curva. Similarmente si se midiera desde la media una distancia de dos desviaciones estándar hacia cada lado, se encontraría que el 95.5% de las observaciones caería dentro del área bajo la curva. Si se midiera desde la media una distancia de 3 desviaciones estándar hacia cada lado, se encontraría que el 99.7% de las observaciones caerían dentro del área de la curva.

Fórmula para calcular la desviación estándar

Fórmula para Muestra

Fórmula para Población

∑(x - µ )2 c= n

∑(x - x )2 s= n-1

¡ E

X

X-

X

d

d2

1

1 - 50

-

49

2401

44

44 - 50

-

6

36

45

45 - 50

-

5

25

46

46 - 50

-

4

16

48

48 - 50

-

2

4

48

48 - 50

-

2

4

49

49 - 50

-

1

1

50

50 - 50

0

50

50 - 50

0

51

51 - 50

1

1

52

52 - 50

2

4

52

52 - 50

2

4

54

54 - 50

4

16

55

55 - 50

5

25

55

55 - 50

5

25

100

100 - 50

50

Total

2500 0

5062

5062 = 337.4666 = 18.3702 15

s=

Series A = 47.7

Series C = 32.8

Coeficiente de variación Es una medida que permite comparar la dispersión relativa en un tipo de datos con la dispersión relativa en otro tipo de datos. Es la desviación estándar dividida entre la media por 100 por ciento; produce una medida de la variación relativa con respecto a la media. Una aplicación frecuente es en pruebas de laboratorio y procedimientos de control de calidad.

Coeficiente de Variación = Desviación Estándar x 100 Media

C.V . =

s x100 x

Ejemplos:

Serie A:

C .V . =

47.7 x100 = 95.4% 50

Serie B:

C .V . =

Serie C:

18.37 x100 = 36.74% 50

¡ E

C .V . =

32.8 x100 = 65.6% 50

Grupo A: Peso

Grupo B: Altura

Media = 145 libras

Media = 67 pulgadas

Desviación

Desviación

Estándar = 7 libras

Estándar = 5 pulgadas

Peso

Altura

C.V. = 7 libras x 100 = 4.8%

C.V. = 5 pulgadas x 100 = 7.5%

145 libras

67 pulgadas

Uso de las medidas de dispersión:

1.

La desviación estándar se emplea cuando también es apropiado el uso de la media, en distribuciones simétricas (no sesgadas) de datos numéricos.

2.

Percentiles y rango intercuartílico se emplean en dos casos: a. Cuando se usa la mediana, es decir, con datos ordinales o numéricos sesgados. b. Cuando se utiliza la media, pero el objetivo es comparar observaciones individuales con un conjunto de normas.

3.

El rango intercuartílico se usa para describir el 50% central de distribución, sin importar su forma.

4.

El rango es una medida apropiada para datos numéricos cuando el propósito es enfatizar valores extremos.

5.

El coeficiente de variación es útil cuando se quiere comparar dos distribuciones numéricas medidas en escalas diferentes.

Intervalos de confianza se utiliza para estimar las características de variación de una población alrededor de la desviación estándar, la media, el tamaño de la muestra y la probabilidad especifica de la población. Con el 95% de confianza se calcula:

Limite inferior = x +1.96(

σ

Limite superior = x +1.96(

n

)

σ n

)

σ = Desviación estándar de la población

¡ E

APÉNDICE 4

TASAS, RAZONES Y PROPORCIONES (MEDIDAS DE MORBILIDAD Y MORTALIDAD)

Razón: Es una expresión de la relación entre un numerador y un denominador, independientemente de la base de población de la que se deriven, que pueden estar relacionados entre sí o ser totalmente independientes. La razón es simplemente el valor que se obtiene al dividir una cantidad entre otra, por lo tanto, la tasa es también una razón, pero una razón no siempre es una tasa.

Se expresa como: X/Y

Ejemplo: Una universidad tiene 4.000 estudiantes varones y 2.000 mujeres. La razón entre estudiantes varones y mujeres es: 4.000/2.000= 2/1.

Proporción: Es una razón en la cual el numerador está incluido en el denominador. Se lee generalmente como un porcentaje.

Se expresa como:

n × 100 N

Ejemplo: 500 personas asistieron a una fiesta de la compañía y 50 se enfermaron de una intoxicación, por alimentos contaminados por probable agente químico. Hubo 32 casos de varones enfermos y 18 casos de mujeres. La proporción de personas enfermas, la proporción de casos de hombres y la proporción de casos de mujeres, son las siguientes:

Proporción de enfermos:

50/500 = 10 = 0.10

Proporción de casos de varones:

32/50 = 64 = 0.64

Proporción de casos de mujeres:

18/50 = 36 = 0.36

Toda proporción debe ser ≤ a 1.

Tasas: Una tasa mide la probabilidad de la ocurrencia de algún evento particular, como casos o muertes. Es una proporción multiplicada por una base o constante. Se representa:

X × 10n Y Tasa cruda o bruta: Hace referencia a una población en general.

Ventajas: -

Medidas de resumen.

-

Fáciles de calcularse (ampliamente utilizadas a pesar de sus limitaciones).

Desventajas: -

No toman en cuenta diferencias en la composición de la población.

-

Dificultad para interpretar diferencias.

Tasa específica: Hace referencia a un grupo determinado de una población.

¡ E

Ventajas: -

Subgrupos homogéneos.

-

Tasas detalladas de utilidad para propósitos epidemiológicos y de salud pública.

Desventajas: -

Es problemático hacer la comparación entre numerosos subgrupos de 2 o más poblaciones.

Tasas ajustadas: Cuando se comparan dos o más poblaciones que difieren respecto a algunas características básicas (edad, sexo, raza, estado socioeconómico, etc.) que influyen de manera independiente en el riesgo de muerte, es necesario hacer una estandarización.

Ventajas: - Resumen una serie de datos. - Eliminan las diferencias en la composición de los grupos permitiendo una comparación sin sesgos.

Desventajas: - Es un índice ficticio - Su magnitud absoluta va a depender de la selección que se haga de la población estándar y del método de ajuste utilizado. Una tasa se puede expresar como:

X × 10n Y

donde X

= número de eventos o casos

Y

= población total en riesgo

10n

= base (100; 1.000; 10.000; 100.000; etc.).

Prevalencia puntual: Es la proporción de la población afectada por el problema de salud bajo estudio. El numerador incluye a todas las personas que tienen el problema de salud en un momento dado, independientemente del lapso de tiempo que haya padecido el problema cada individuo. En el denominador aparece la población total, tanto las personas a quienes se diagnóstico el problema de salud como las que no han sido afectadas.

Número de casos (nuevos y antiguos) existentes del problema de salud en un momento dado PP =

X 10n Población total en estudio

Ejemplo: Prevalencia de tabaquísmo entre mujeres de Puerto Rico en 1982. En la estimación de fecundidad y planificación familiar en Puerto Rico, en 1982, se preguntó a las mujeres de 15 a 49 años de edad: ¿fuma usted actualmente?. La prevalencia puntual de tabaquísmo fue:

¡ E

Mujeres que fumaban en la época PP =

de la entrevista

=

487 = 15.3%

Mujeres de 15-49 años entrevistadas

3175

Factores que influyen en la tasa de prevalencia

Aumenta por:

Disminuye por:

Mayor duración de la enfermedad

Menor duración de la enfermedad

Prolongación de la vida de los pacientes sin curación

Elevada tasa de letalidad por la enfermedad

Aumento de casos nuevos (aumento de la incidencia)

Disminución de casos nuevos (disminución de la incidencia)

Inmigración de casos

Inmigración de personas sanas

Emigración de personas sanas

Emigración de casos

Inmigración de personas

Emigración de personas susceptibles

Susceptibles Aumento de la tasa de curación de casos Mejor posibilidades diagnósticas (mejor información)

Tasa de incidencia: mide la frecuencia o rapidez con la que ocurre una enfermedad o la frecuencia con que se agregan casos nuevos; se calcula siempre para un período de tiempo dado.

No total de casos nuevos de una enfermedad específica en un intervalo de tiempo Se expresa como:

X 10n Población a la mitad de dicho intervalo

Ejemplo:

1 julio

1 agosto

¡ E

Esto representa 7 casos de enfermedad en una población de 10.000 habitantes durante 1991. Cada línea horizontal representa la proporción de tiempo que una persona está enferma. La línea comienza con la fecha de inicio y termina en la fecha de recuperación.

1.- Tasa de prevalencia al 1 de julio

=

2.- Tasa de prevalencia al 1 de agosto

3/10.000 x 100.000 = 30.0

=

4/9.997 x 100.000 = 40.0

3.- Tasa de prevalencia para julio

=

7/10.000 x 100.000 = 70.0

4.- Tasa de incidencia para julio

=

4/9.997 x 100.000 = 40.0

Tanto la incidencia y prevalencia son medidas de morbilidad (enfermedad), pero difieren en que la incidencia está diseñada para medir los casos nuevos que se presentan en un período determinado de tiempo y la prevalencia mide el número total de personas que tiene la enfermedad en un momento dado.

Tasa de ataque: tasa de incidencia que se expresa generalmente como un porcentaje, se usa para ciertas poblaciones en particular y se observa durante períodos limitados de tiempo, como en una epidemia o brote.

Número total de casos nuevos de una enfermedad específica durante un período de tiempo epidémico Se expresa como:

X 10n Población al comenzar el período

Ejemplo: 96 personas se expusieron a un agente químico (en un alimento contaminado), resultando 26 individuos enfermos en un período corto de tiempo.

Tasa de ataque = 26 enfermos

x 100 = 27.1%

96 expuestos

Tasa de ataque secundaria: mide la frecuencia de nuevos casos de una enfermedad durante un período epidémico entre los contactos de casos conocidos.

Número total de casos entre los contactos de caso primarios en un período de tiempo epidémico Se expresa como:

X 10n Pobblación de contacto baso riesgo

Tasa bruta de mortalidad: tiene el inconveniente de que no toma en cuenta que la probabilidad de que una persona muera, varía según su edad, sexo, raza, clase socioeconómicas y otros factores. No es adecuada para comparar situaciones en períodos de tiempo diferentes o en zonas geográficas distintas.

Número de muertes en un Tasa bruta de mortalidad =

período determinado

X 10n

Población total promedio durante dicho período

¡ E

Tasa de mortalidad específica por edad y sexo: Total de muertes en un grupo de edad y sexo determinado de la población de una zona definida durante un período determinado

X 10n

Población total estimada del mismo grupo de edad y sexo de la población en la misma zona y durante el mismo período

Letalidad: es una medida de la gravedad de una enfermedad y se define como la proporción de casos que resultan mortales en un período específico.

Número de muertes por una enfermedad Tasa de Letalidad(%)=

en un período determinado

X 100

Número de casos diagnosticados de la enfermedad en el mismo período

Ejemplo: en una región H, con una población de 30,000 habitantes, en 1986, hubo 200 casos de enfermedad respiratoria por contaminación del aire, con 6 defunciones.

Mortalidad por enf. respiratoria =

6 muertes

x 10.000 = 2

30.000 hab.

Letalidad por enf. respiratoria =

6 muertes

x 100 = 3

200 casos

La mortalidad por enfermedad respiratoria fue de 2 por 10.000 y la letalidad de 3%

APÉNDICE 5

¡ E

T I P O S D E M U E S T R E O*

En este capítulo revisaremos los siguientes tópicos:

* Definición de muestreo * Tipos de muestreo * Tipos de muestreo probabilístico * Tipos de muestreo no probabilístico

Estrategia: Mediante un ejemplo hipotético, se hará la conceptualización general de los tipos de muestreo probabilístico.

Se usarán ejemplos simples a fin de que las relaciones necesarias se puedan describir e interpretar fácilmente. Si bien son ejemplos algo artificiales ya que en la práctica pocas veces tenemos distribuciones tan ordenadas, la extensión de los métodos a situaciones más prácticas, de mayor tamaño y complejidad, resultará clara.

Ejercicios: Tendientes a fijar y aclarar los conceptos. Se harán al final del capítulo. Se hará un taller de manejo de la tabla de números aleatorios.

1. Definición de muestreo.

Es la operación para tomar una muestra del Universo

El objetivo del muestreo es contar con los datos necesarios para estimar parámetros en la población, es decir poder hacer una inferencia estadística con la mayor confiabilidad posible.

* Corresponde al Capítulo 4 deKageyama M.L., Sanín L.H., Romieu I. Manual de Muestreo Poblacional: Aplicaciones en Salud Ambiental. Metepec, México. Centro Panamericano de Ecología Humana y Salu. ECO/OPS/OMS. 1997.

¡ E

Una vez definida por el investigador el tamaño de la muestra (n), mediante técnicas que veremos más adelante (CAPITULO VI), él mismo se enfrenta al problema de cómo obtener esa muestra de la forma que sea más útil para los fines que persigue y por supuesto, que le rinda la mejor relación costo-beneficio. Esas diferentes formas o maneras de seleccionar la muestra son conocidas como "tipos" y en un sentido amplio son sólo dos. 2. Tipos de muestreo.

* Muestreo probabilístico * Muestreo no probabilístico

2.1 Muestreo probabilístico

2.1.1 Probabilidad. Es la medida del grado de ocurrencia de un suceso. Siempre es un número entre cero y uno y se define como el cociente entre el número de resultados favorables al suceso y el número total de resultados posibles. Ej: Una moneda tiene dos lados, el número de posibles resultados al lanzarla al aire es 2. La probabilidad de que el resultado sea águila es 1/2 = 0.5.

2.1.2 Definición. Es el tipo de muestreo en el cual cada unidad del universo tiene una probabilidad conocida y diferente de cero, de ser incluida en la muestra. Recordemos que la muestra, además de dar las estimaciones de las características de la población , debe proporcionar medidas de la precisión de tales estimaciones. Esas medidas de la precisión se podrán usar para determinar el error máximo que razonablemente puede esperarse en esas estimaciones si el procedimiento se cumple en la forma especificada y si la muestra tiene el tamaño suficiente. No se puede estimar la precisión a menos que la selección (tipo de muestreo) se efectúe de tal modo que se conozca la probabilidad de selección de cada unidad y se utilice algún tipo de muestra probabilística.

Hay varios tipos de muestreo probabilístico y a ellos nos referiremos con más detalle en este capítulo. El muestreo probabilístico permite estimar parámetros para el universo, es decir INFERIR.

2.2 Muestreo no probabilístico

La probabilidad de las unidades del universo para ser incluidas en la muestra se desconoce o, existen de antemano unidades con probabilidad cero. Este tipo de muestreo, por supuesto, no permite la aplicación de las técnicas de la inferencia estadística para sacar conclusiones acerca del Universo. Es necesario, sin embargo, destacar la existencia de situaciones, muy especialmente en el área ambiental, en las cuales lo único razonable es optar por este tipo de elección en lugar de un método probabilístico, por ello dedicaremos una parte de este capítulo al análisis de este apartado.

¡ E

3. Tipos de muestreo probabilístico.

* Muestreo Aleatorio Simple * Muestreo Sistemático * Muestreo Estratificado * Muestreo de Conglomerados * Diseños Complejos (Mixtos, Polietápicos, etc.)

3.1 Muestreo aleatorio simple (MAS).

Se da este nombre al tipo más sencillo de muestreo probabilístico.

3.1.1 Definición. Procedimiento de selección de una muestra mediante el cual cada subconjunto de tamaño n de la población tiene la misma probabilidad de ser seleccionado, es decir ninguna combinación de n elementos tiene más probabilidad de ser seleccionada que otra, siendo esta probabilidad igual a:

1

Ejemplo 4.1 Vamos a suponer la existencia de una hipotética población agrícola a la cual llamaremos Pavarandocito. Es esta una población en la cual por sus características agrícolas y epidemiológicas, dado que es una región palúdica y con antecedentes de haber presentado casos de fiebre amarilla en el pasado, se han usado ampliamente, diversos tipos de compuestos químicos. Recientes hallazgos de investigación hacen sospechar la relación de uno de estos compuestos con una patología específica en la población escolar, razón por la cual se desea estudiar una muestra de tamaño n, de los niños entre 6 y 12 años de edad con el fin de aplicarles una entrevista, realizarles un examen físico y tomarles una muestra de sangre para la determinación de un biomarcador, específicamente relacionado con el compuesto químico en cuestión (Nótese que igual pudiera tratarse de una población con alta contaminación ambiental por partículas o un pueblo minero etc., es decir, el ejemplo es válido para muchas otras circunstancias de interés ambiental).

La población de escolares en esta población es de 10,000 niños(N) y el tamaño de muestra a seleccionar se ha establecido en 400 niños (n) (Según el procedimiento explicado en el capítulo VI). El pueblo tiene cuatro grandes zonas determinadas por su ubicación geográfica , sus características socioeconómicas y, por supuesto, diferentes características en

¡ E

cuanto al uso de los compuestos químicos en cuestión; en cada una de estas zonas hay 50 escuelas primarias con un total de cincuenta niños cada una (Ver esquema anexo de la población de Pavarandocito 4.1 y 4.1.1).

De la teoría de probabilidades nosotros sabemos que el número de subconjuntos diferentes de n elementos, de un conjunto N es

2

(4.1)

Lo cual, en el caso de Pavarandocito, nos arroja un número que no cabría en esta página y el cual no nos interesa, ya que lo que nos importa es que cualquiera de esos subconjuntos (muestras) de elementos tenga la misma probabilidad de ser seleccionado.

3.1.2 Procedimiento.

Es necesario contar con un marco muestral muy completo el cual tenga un listado de 1 a 10,000, de cada uno de los niños que asisten a las escuelas primarias de dicha población. Hay varias opciones:

3.1.2.1 Primero hacer una fichita con cada nombre, meter las fichitas en una bolsita y, utilizando el método de la lotería, sacar las 400 fichas necesarias para completar nuestra n, en un muestreo sin reemplazo, en este caso concreto.

3.1.2.2 Utilizar una tabla de números aleatorios y mediante un procedimiento sin reemplazo, completar los 400 elementos necesarios a nuestros fines. Al final del capítulo se presenta el instructivo No. 4.1 “Uso de la tabla de dígitos aleatorios” con un ejemplo basado en la tablas 4.1 “Tabla de dígitos aleatorios” y tabla 4.2 “Valores de plomo en sangre en 325 mujeres puérperas de la Ciudad de México”.

3.1.2.3 Tener este marco muestral como una base de datos en una computadora y solicitarle a la misma una muestra del tamaño deseado, utilizando el paquete apropiado (STATA 3.1, 1992 por ejemplo). Esto es igual al punto número dos ya que la cómputadora hace este trabajo utilizando un procedimiento equivalente al uso de la tabla de números aleatorios.

3.1.3 Ventajas.

Todos los elementos tienen igual probabilidad.

Los cálculos matemáticos son sencillos.

3.1.4 Desventajas.

Se requiere un marco muestral completo y detallado.

¡ E

La muestra puede quedar muy dispersa.

Puede ser necesario visitar una localidad por un solo elemento.

3.1.5 Consideraciones especiales:

El MAS no requiere ningún esfuerzo especial para obligar a la muestra a ser representativa de la población; la tendencia a ese carácter es inherente al proceso mismo, aunque no lo garantiza.

En el MAS, el único camino para reducir el error de muestreo es aumentar el tamaño de la muestra. Sin embargo, antes de elegir la muestra, si se tiene algún conocimiento acerca de la población, se puede utilizar esa información en la estratificación y así reducir el error de muestreo. El Muestreo Aleatorio Estratificado (MAE) que veremos más adelante, es una alternativa para el MAS cuando tenemos la posibilidad de dividir la población en grupos.

3.2 Muestreo Sistemático (MS).

3.2.1 Definición:

Es aquel tipo de muestreo que nos permite obtener la muestra deseada al seleccionar aleatoriamente un elemento de los primeros k elementos en el marco muestral y después cada k-ésimo elemento hasta completar n.

Ejemplo 4.2 En el caso que nos ocupa en la población de Pavarandocito, nuestra fracción de muestreo es

n/N = 400/10,000 = 4/100 = 1/25

(4.2)

Es decir para completar nuestro tamaño muestral en una forma sistemática, nosotros debemos tomar uno de cada 25 escolares en la ciudad. Este número 25, inverso de la fracción de muestreo, es llamado k (intervalo de muestreo).

3.2.2 Procedimiento.

La muestra se extrae tomando un número al azar entre 1 y k (con la tabla de números aleatorios) el cual se conoce como arranque aleatorio y, que para efectos de este ejercicio, diremos que fue el número 11, mismo al que se le va sumando la k, hasta obtener la muestra deseada.

¡ E

Ejemplo 4.3 Veamos de nuestro hipotético marco muestral numerado del 1 al 10,000; ya sabemos que debemos tomar los niños que aparezcan en la lista con los siguientes números: 11 (arranque aleatorio), 36 (arranque aleatorio más k, es decir, (11+25), 61 (36+25), 86, 111, 136 y así sucesivamente hasta completar la n de tamaño 400 al llegar al niño marcado en el marco muestral con el número 9,986, suponiendo que todo se hace idealmente.

3.2.3 Ventajas.

Sólo es necesario usar la tabla de números aleatorios una sola vez.

La probabilidad de cada elemento es conocida, diferente a la del M.A.S., pues aquí la probabilidad es 1/k.

Garantiza la distribución de la muestra.

Los cálculos son iguales a los del MAS.

3.2.4 Desventajas.

Es necesario un marco muestral muy detallado.

No sirve si hay algún ordenamiento en el marco muestral o que se presente algún comportamiento periódico. Por ejemplo que se trate de registros matrimoniales y todos los números impares sean mujeres.

3.3 Muestreo Aleatorio Estratificado (MAE).

3.3.1 Definición.

Es un método de muestreo que consiste en clasificar primero los elementos de la población en grupos (estratos) y seleccionar luego, en cada grupo, una muestra aleatoria simple, tomando al menos un elemento de cada grupo (por lo general se necesitan mínimo dos para hacer estimaciones de precisión suficiente y si se quisieran hacer estimaciones por estrato).

Los estratos pueden reflejar distintos grupos de edad, regiones geográficas, sexo, diferente grado de exposición, etc.

Ejemplo 4.4 Los estratos del ejemplo fueron definidos en base a tres criterios: ubicación geográfica, características socioeconómicas y diferente grado de exposición. Es claro ver que nuestro interés es estimar el parámetro (media del biomarcador) para cada uno de los estratos, puesto que suponemos diferente riesgo en cada uno de ellos y para la población total. (Esquema 4.1.2)

¡ E

En este caso, dado que en aras del ejemplo los estratos son de igual tamaño, podemos hacer una afijación proporcional de la muestra y tomar 100 niños de cada estrato, ya sea por MAS o por MS. Tendremos así la estimación para cada una de las zonas (estratos) de Pavarandocito y para la población total.

3.3.2 Procedimiento.

El proceso que se sigue para establecer los grupos ya mencionados se conoce como estratificación y los distintos grupos se llaman estratos. Los estratos pueden reflejar regiones geográficas de un país, áreas densa o escasamente pobladas, diferentes niveles de contaminación o cualesquiera otros grupos.

En la estratificación se agrupan elementos similares a fin de que la varianza dentro de cada grupo sea pequeña; al mismo tiempo es deseable que las medias de los distintos estratos sean diferentes entre sí. Así mismo, todos los elementos deben de quedar incluidos en uno y sólo uno de los estratos.

No sólo las grandes encuestas tienen la estratificación incorporada en su diseño, es muy útil por ejemplo en un hospital, obtener datos para cada uno de los servicios o tener la información para hacer estimaciones por sexo. En el área ambiental la estratificación cobra gran relevancia por cuanto permite agrupar por zonas de riesgo similar, pero diferentes entre sí. Es muy importante el criterio experimentado en la definición y selección de los estratos ya que quizá sea este el paso más trascendental en este tipo de muestreo. Todos los estratos deben quedar representados.

En el MAE no siempre se hace una afijación proporcional de la muestra, ya que pueden tomarse en cuenta otros criterios que permiten llegar a la llamada "afijación óptima", mediante la aplicación de una tasa de muestreo en cada estrato, proporcional a la desviación estándar en ese mismo estrato, es decir una especie de ponderación. En ocasiones los costos de obtención de los datos varían considerablemente de un estrato a otro (ej.: área rural y urbana) y se prefiere concentrar la muestra mayoritaria en el estrato más económico, considerando la afijación óptima para un "costo fijo", en lugar de un "tamaño de muestra fijo". En otras palabras, se trata de afijar la muestra entre los estratos de tal forma, que se obtenga el error estándar más bajo, con un presupuesto fijo, para lo cual se necesita una "función del costo", la cual es una función matemática que expresa el costo de obtener la información en función del tamaño de la muestra (n). Este es un procedimiento más complejo; el lector interesado puede consultar el texto de Scheaffer (Scheaffer, 1986).

Ejemplo 4.5 Afijación proporcional (En el caso de estratos de diferentes tamaños).

Supongamos un universo de 10,000 y una muestra de tamaño 400; el universo tiene 3 estratos de tamaño 5,000, 3,000 y 2,000 respectivamente.

Universo

N

%

¡ E

n

Estrato I

5,000

50

200

Estrato II

3,000

30

120

Estrato III

2,000

20

80

10,000

100

400

Total

El porcentaje con el que contribuye cada estrato al total del universo, se aplica al tamaño de muestra calculado n y ese es el número de elementos que debe tomarse en cada estrato.

De tal manera, el estrato I con 5,000 elementos, contribuye el 50% del Universo. La muestra calculada fue de 400. El 50% de 400 es igual a 200, ese es el número de elementos que debe tomarse del estrato I y así sucesivamente.

3.3.3 Ventajas.

La estimación final del parámetro puede tener un error mucho menor, que el obtenido para una muestra aleatoria simple de tamaño comparable.

Por lo anterior puede tener una mejor relación costo-beneficio.

Permite estimar parámetros para cada estrato y para la población total.

Asegura la participación de todos los estratos.

3.3.4 Desventajas.

Mayor complejidad de los cálculos

Necesario un marco muestral detallado por estrato.

Criterio muy especializado en la selección y definición de los estratos.

3.4 Muestreo de Conglomerados (MC).

3.4.1 Definición.

¡ E

Se llama así a aquel tipo de muestreo, en el cual las unidades de muestreo son agrupaciones o colecciones de elementos llamadas conglomerados.

Los conglomerados pueden ser hogares, manzanas, fábricas, etc. (Ver Tabla No 4.3 Ejemplos de Conglomerados y esquema 4.1.3).

3.4.2 Consideraciones especiales:

Muchos problemas reales plantean el reto de muestrear ante la ausencia de un marco muestral muy detallado (por ejemplo, una lista de todos los escolares de Pavarandocito) o con un costo muy elevado en la construcción del mismo. Hay otras ocasiones en que este marco existe pero el muestreo de conglomerados resulta mucho más eficiente, dadas las economías que reporta en lo que se refiere a la etapa de campo.

Ejemplo 4.6 En nuestro ejemplo los conglomerados son las escuelas, las cuales agrupan varias unidades de análisis (escolares). En términos generales la característica que define un conglomerado es su proximidad geográfica, al reunir varios elementos en una misma área. Un conglomerado no implica necesariamente la homogeneidad que se mencionaba para el estrato y representa más una facilidad operativa. De hecho, se busca que sean heterogéneos al interior de cada conglomerado y homogéneos entre si.

3.4.3 Procedimiento.

En un sentido estricto el muestreo de conglomerados implica que se muestree a todos los elementos incluidos en el conglomerado muestreado. Si en nuestro ejemplo el conglomerado es la escuela, solo necesitaríamos una lista de las doscientas escuelas de Pavarandocito, de la cual tomaríamos una muestra de ocho escuelas (ya sea por MAS o por MS) luego de lo cual estudiaríamos en cada escuela la totalidad de los niños de dicha escuela. Es decir, tenemos un universo de 10,000 elementos, repartidos en 200 conglomerados (escuelas) de 50 niños cada uno. Como la muestra es de 400, necesitamos un listado de las 200 escuelas y mediante la tabla de números aleatorios escogemos 8 de ellas, en estos 8 tenemos el total de la muestra (8x50 = 400), por eso hay que estudiar a la totalidad de los niños de cada escuela.

Hay una variante de este muestreo, que puede quedar también incluida en lo que hemos llamado diseños complejos y es el conocido como muestreo multietápico o polietápico de conglomerados (bietápico, trietápico, etc.). En esta variante se seleccionan los conglomerados y puede procederse a una segunda selección dentro de los conglomerados seleccionados y lo mismo en las etapas que sean necesarias. Así la necesidad de listados se va limitando a aquellas unidades de muestreo que vayan siendo seleccionadas en cada etapa.

¡ E

En este caso la primera etapa podría ser escoger conglomerados y luego dentro de cada conglomerado escoger elementos. Un caso muy usual es definir los conglomerados como manzanas (de vivienda) y luego dentro de cada manzana elegir viviendas (Esquema 4.1.4).

Casi todos los países construyen sus marcos muestrales definiendo conglomerados básicos que pueden agruparse o desagruparse en conjuntos y subconjuntos de los mismos. Ello se verá con mayor detalle en el capítulo VII dedicado a los marcos muestrales, pero basta señalar el ejemplo de México que ha definido las llamadas "áreas geoestadísticas básicas" (AGEB), las cuales constituyen un segmento geográfico definido que puede abarcar tanto viviendas como negocios, fincas o terrenos y situarse en una zona rural o urbana. Un conglomerado puede ser un conjunto de AGEBs o un subconjunto del mismo, según se opere para los fines del estudio que se esté realizando.

3.4.4 Ventajas.

Disminución en los costos de trabajo de campo.

Poder trabajar en ausencia de listados muy complejos.

3.4.5 Desventajas.

Complicación de los cálculos matemáticos para la estimación de los parámetros (lo cual en los tiempos actuales, con el uso masivo de las computadoras ha sido obviado, ya que existe un buen número de paquetes computacionales que permiten obtener estos datos con gran facilidad (SUDAAN, PSDUM (Silva, 1993)) .

Antes de terminar este apartado vale la pena enfatizar la diferencia entre estratos y conglomerados. Los estratos deben ser tan homogéneos dentro de ellos como sea posible , pero un estrato debe diferir de otro tanto como se pueda en relación a la característica que está siendo medida. Los conglomerados por su parte deben ser tan heterogéneos dentro de sí mismos como sea posible, pero similares a los otros para aprovechar las ventajas económicas de su diseño. Los estratos deben quedar representados todos, es decir contribuir a la muestra. Los conglomerados no tienen que quedar representados todos, pero si uno queda en la muestra debe ser muestreado totalmente (al menos en el monoetápico).

3.5 Diseños Complejos

En ocasiones la realidad presenta retos que superan los esquemas clásicos presentados aquí, es el caso por ejemplo de las encuestas nacionales, especialmente en países con una población numerosa.

¡ E

Es usual que ante la ausencia de marcos muestrales tan complejos y detallados como los que se requerirían para llevar a cabo una estrategia simple, se opte por estratificar y luego dentro de cada estrato se definan conglomerados que pueden muestrearse en una o varias etapas, estos diseños reciben el nombre de mixtos o complejos (Esquema 4.1.5).

Regresemos a Pavarandocito y reflexionemos en las ventajas y economías que representaría la elección de un muestreo mixto, para nuestra muestra de 400 escolares. Podríamos simplemente tomar 2 escuelas de cada uno de los estratos y examinar la totalidad de los escolares incluidos en ellas, estaríamos frente a un tipo de muestreo mixto (estratificado y de conglomerados monoetápico) que simplificaría grandemente las actividades de campo, sin necesidad de un marco muestral complejo, ya que sólo sería necesario contar con el listado de alumnos de las escuelas incluidas. La visita a una escuela tendría así una relación costo-beneficio muy satisfactoria puesto que se examina al total de alumnos.

Un ejemplo real de diseño complejo lo constituye la segunda encuesta nacional de salud llevada a cabo en México en 1991 y cuyo diseño puede consultarse en las publicaciones al respecto. El texto de Silva-Aycaguer (1993) se extiende ampliamente en las características de este tipo de diseños, por lo cual remitimos a él, al lector interesado en profundizar en este tema.

4. Muestras no probabilísticas.

Pese a la superioridad reconocida de los métodos de muestreo probabilístico, a veces se emplean en su lugar métodos no probabilísticos, habitualmente para situaciones en las cuales el primero es supremamente costoso o en casos que lo ameritan por la circunscripción de un problema específico, como suele suceder en algunas contingencias ambientales, en las cuales sólo es posible muestrear a aquellos sujetos expuestos o en los cuales se sospecha la presencia de alguna situación pre o patológica concreta, en cuyo caso hablaríamos de un estudio de brote (cluster).

Hay otros casos en los cuales no es posible accesar a la población de origen y se trabaja con los datos que se han podido obtener en un proceso que pareciera el inverso del muestreo. Un ejemplo concreto de este caso es el que se presenta cuando tenemos datos de un programa de vigilancia epidemiológica (ej. Vigilancia de los niveles de plomo en el binomio madre-hijo)1

que sin ser una muestra probabilística en el

sentido estricto, nos permite inferir acerca de la población de origen. Una situación similar se presenta en los estudios analíticos donde importa más la comparabilidad que la representatividad.

Los métodos básicos de muestreo no probabilístico son:

* El muestreo de cuota * El muestreo de juicio (criterio) * El muestreo de sujetos disponibles

¡ E

4.1 El muestreo por cuota. Este empieza con una matriz que describe las características generales de la población que se desea estudiar. Por ejemplo distribución por edad y sexo, por zona urbana y rural etc. Una vez generada dicha matriz y asignada una proporción relativa a cada una de sus células se asume que la muestra ha de estar dispersa por toda la población y ha de contener la misma proporción de individuos con cierta característica, que la población entera. Se establece pues que la muestra tenga sus elementos distribuidos por las subclases de tal manera que las proporciones muestrales coincidan con las de la población. Puede asignarse al o los entrevistadores una cuota fija de muestreo con las restricciones que implique la cuota (12 entrevistas, seis en niños y seis en niñas por ejemplo).

4.2 El muestreo de juicio (criterio) En el cual se selecciona específicamente un grupo que a juicio del criterio de un experto, represente adecuadamente a la población en cuanto a la característica que queremos estudiar. Este es un tipo de muestreo muy importante dado que es el único razonable por ejemplo en aquellos casos, en que el tamaño planeado de la muestra es muy pequeño, sobre todo si el tamaño poblacional también lo es. En la aplicación de este método el experto debe tener suficiente información acerca de la población y sopesar muy concienzudamente todos los elementos, para elegir aquellos que conformen el modelo más parecido a la realidad. Puede ser muy útil este muestreo pero nunca se le podrá aplicar la teoría del muestreo probabilístico. Ejemplo 4.7 Escoger trabajadores de las gasolineras para estudiar efectos de exposición a hidrocarburos. No pueden aplicarse los resultados a la población general. 4.3. El muestreo de sujetos disponibles (o de conveniencia). Es el que hace con sujetos que aceptan participar voluntariamente en el estudio, por algún interés personal o por una gratificación económica. Se ha utilizado mucho en clínica, farmacología, toxicología, etc. Ejemplo: estudio de Rabinowitz sobre la cinética del plomo (Rabinowitz, 1979). Algunos autores hablan de otro tipo de muestreo al que llaman "semiprobabilístico" y que consiste en la selección aleatoria de una unidad muestral, después de lo cual se escogen los elementos a juicio de un experto, por lo cual según nuestro criterio, es del tipo conocido como muestreo de juicio. Se usa en estudios de tipo ambiental y ocupacional, en los cuales puede seleccionarse aleatoriamente una o varias unidades de muestreo, por ejemplo: determinadas áreas de trabajo en una fábrica, de cada una de ellas escoger los elementos a incluir.

¡ E

En general debe recomendarse al investigador que trate con mucha cautela el tipo de diseño no probabilístico y que cuando ello sea necesario, se haga cuidando el rigor científico.

¡ E

Conclusión : El tipo de diseño a elegir depende pues del problema que se desea resolver y de las facilidades operativas y económicas de que se disponga. Parece una paradoja pues hacemos un muestreo para conocer algo acerca de una población, pero para poder hacer el muestreo bien hecho debemos conocer muy bien la población que queremos muestrear, pero este conocimiento es mas bien a nivel global que particular. Ejercicios 1. Enumere las ventajas y desventajas de cada uno de los tipos de muestreo explicados en este capítulo. 2. Utilizando la tabla de números aleatorios seleccione una muestra de tamaño 50, del universo de valores que se anexa en la tabla No. 4.2 3. Utilizando el mismo ejemplo de Pavarandocito, seleccione una muestra de tamaño 800. Para el MAS, solamente mencione los 10 primeros elementos. 4. Mencione qué marco muestral disponible para población general, existe en su país o región. 5. Usted necesita una muestra de escolares de 6-7 años y de 12-13, para participar en un estudio multicéntrico sobre prevalencia de asma. ¿Qué estrategia podría utilizar en su región específica? ¿De qué marco muestral podría disponer? ¿Qué fallas tendría dicho marco? Presente las respuestas con un esquema que permita entender la propuesta.

¡ E

ESQUEMA No. 4.1 POBLACIONDE PAVARANDOCITO

ZONA I

N1 Escuelas

ZONA II

= 2,500 =

N2

50

UG: Montaña NSE: Medio GE: Nula

Escuelas

=

50

UG: Llano NSE: Muy bajo GE: Muy alta

ZONA III

N3

= 2,500

=

ZONA IV

2,500

Escuelas = UG: Costa NSE: Bajo GE: Alta N = 10,000 n = 400 200 escuelas con 50 alumnos cada una

N4

50

=

Escuelas = UG: Desierto NSE: Alto GE: Media UG = Ubicación Geográfica NSE= Nivel Socioeconómico GE= Grado de exposición

¡ E

2,500 50

INSTRUCTIVO 4.1 USO DE LA TABLA DE NUMEROS ALEATORIOS Una manera de seleccionar una muestra aleatoria simple es utilizar una tabla de números aleatorios como la que aquí se ilustra. Esta consta de 20 columnas de números, agrupadas de cuatro en cuatro para ayuda visual y 20 renglones agrupados de cinco en cinco por la misma razón, (tabla 4.1). Nuestra población de interés son los 325 valores de plomo en sangre en mujeres puérperas que se indican en la tabla No. 4.2, anexa. Se desea extraer una muestra de tamaño 10, utilizando la tabla de números aleatorios. Como primer paso se debe localizar un punto de partida, lo cual puede hacerse en varias formas, simplemente dejando caer la punta del lápiz sin mirar la hoja, el punto de partida será el dígito más próximo a la punta del lápiz. Supóngase que en este caso ese punto corresponde a la intersección del renglón 5 con la columna 9, es decir el dígito 2 (Ver tabla). Dado que se tienen 325 valores para elegir, es necesario seleccionar números de tres dígitos y aceptar aquellos que estén comprendidos entre 001 y 325 que es nuestro rango de posibilidades. El primer número de tres dígitos, iniciando en el punto mencionado y siguiendo un esquema de lectura como el que se usa en la mayoría de los países occidentales (de izquierda a derecha y de arriba hacia abajo) es el número 232, el cual corresponde entonces a nuestro primer elemento de la muestra. Se aclara que se van tomando dígitos de tres en tres pero se incluyen en la muestra sólo los que estén dentro del rango de interés ya mencionado. En ese entendido los siguientes elementos de nuestra muestra serían los marcados con los números: 033, 219, 026, 045, 094, 132, 058, 106 y 066. Si un número se repite y nosotros estamos haciendo un muestreo sin reemplazo, lo incluimos solamente una vez.

¡ E

T A B L A No 4.2 VALORES DE PLOMO EN SANGRE EN 325 MUJERES PUERPERAS DE LA CIUDAD DE MEXICO PLOMO µg/dl 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38.

8.1 8.9 9.1 12.9 12.4 6.1 15.9 8.2 7.1 7.8 6.5 8.7 7.0 7.2 5.9 16.9 10.7 16.6 8.0 5.6 11.5 9.7 12.9 3.2 6.3 7.8 4.8 8.2 9.1 8.4 3.2 4.7 12.4 5.3 15.9 6.9 6.6 20.3

¡ E

39. 7.6 40. 11.5 41. 5.1 42. 7.8 43. 11.4 44. 14.6 45. 6.3 46. 16.2 PLOMOµg /dl 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. 59. 60. 61. 62. 63. 64. 65. 66. 67. 68. 69. 70. 71. 72. 73. 74. 75. 76. 77. 78. 79. 80. 81. 82. 83.

8.8 6.4 10.0 7.4 11.7 17 14.4 10.0 7.9 8.2 8.3 11.3 5.1 23.3 10.0 10.4 6.5 6.4 12.3 5.9 9.3 23.0 11.9 6.6 16.8 4.9 9.6 14.9 11.6 5.6 24.5 9.1 9.2 8.2 9.9 8.1 7.7 ¡ E

84. 16.3 85. 13.1 86. 17.0 87. 12.0 88. 9.1 89. 9.3 90. 4.2 91. 4.5 92. 4.8 PLOMO µg /dl 93. 94. 95. 96. 97. 98. 99. 100. 101. 102. 103. 104. 105. 106. 107. 108. 109. 110. 111. 112. 113. 114. 115. 116. 117. 118. 119. 120. 121. 122. 123. 124. 125. 126. 127. 128.

10.3 5.2 5.4 4.0 7.8 6.3 3.6 14.0 9.1 6.6 8.7 5.9 13.3 10.7 9.8 14.4 5.2 4.2 5.4 7.3 4.0 3.2 2.9 8.3 10.5 21.0 8.1 9.2 8.5 10.0 6.3 8.5 23.1 13.3 10.5 6.8 ¡ E

129. 130. 131. 132. 133. 134. 135. 136. 137. 138.

14.4 7.6 5.9 7.4 7.4 6.4 9.3 11.9 6.3 5.0

139. 140. 141. 142. 143. 144. 145. 146. 147. 148. 149. 150. 151. 152. 153. 154. 155. 156. 157. 158. 159. 160. 161. 162. 163. 164. 165. 166. 167. 168. 169. 170. 171. 172. 173. 174.

11.2 6.8 6.9 5.7 4.8 11.2 10.0 5.9 11.4 6.5 7.8 10.3 14.5 14.4 7.4 5.2 18.9 16.1 29.1 4.0 19.5 12.5 23.1 11.8 6.0 8.4 11.0 7.3 11.6 13.4 6.4 9.2 12.7 8.5 15.0 11.9 ¡ E

175. 176. 177. 178. 179. 180. 181. 182. 183. 184. 185. 186. 187. 188.

22.4 11.7 15.8 9.2 7.4 11.4 23.9 14.3 9.8 10.6 7.0 7.9 6.8 12.4

189. 190. 191. 192. 193. 194. 195. 196. 197. 198. 199. 200. 201. 202. 203. 204. 205. 206. 207. 208. 209. 210. 211. 212. 213. 214. 215. 216. 217. 218. 219. 220.

5.1 5.5 7.4 17.1 7.1 9.7 14.2 9.4 9.4 8.7 4.0 10.7 13.1 8.8 8.7 11.9 11.5 11.4 11.9 10.0 10.5 7.3 11.9 9.9 11.8 12.5 6.7 9.1 5.1 8.4 12.9 14.9 ¡ E

221. 222. 223. 224. 225. 226. 227. 228. 229. 230. 231. 232. 233. 234. 235. 236. 237. 238.

4.9 8.9 14.2 12 11.7 8.2 7.3 7.0 13.5 8.1 7.5 8.5 8.5 10.0 6.2 16.9 9.0 21.0

239. 240. 241. 242. 243. 244. 245. 246. 247. 248. 249. 250. 251. 252. 253. 254. 255. 256. 257. 258. 259. 260. 261. 262. 263. 264. 265. 266.

9.2 5.7 9.4 6.2 6.6 12.3 8.7 8.1 5.6 7.9 6.3 5.8 5.9 16.5 11.7 9.5 7.9 6.3 10.9 11.1 9.1 6.2 8.8 7.3 9.7 9.2 10.8 7.0 ¡ E

267. 268. 269. 270. 271. 272. 273. 274. 275. 276. 277. 278. 279. 280. 281. 282. 283. 284. 285. 286. 287. 288.

6.3 14.3 15.4 6.9 8.6 4.4 8.0 9.0 4.4 7.7 7.2 18.7 7.3 7.9 8.9 12.6 7.0 9.1 4.6 6.8 4.9 6.1

289. 290. 291. 292. 293. 294. 295. 296. 297. 298. 299. 300. 301. 302. 303. 304. 305. 306. 307. 308. 309. 310. 311. 312.

5.2 7.0 8.7 15.2 5.5 6.8 9.9 5.0 11.1 9.7 12.1 5.8 4.4 7.3 7.8 4.3 5.2 8.9 9.3 7.9 7.2 4.5 6.4 7.3 ¡ E

313. 314. 315. 316. 317. 318. 319. 320. 321. 322. 323. 324. 325.

7.8 14.9 13.5 8.0 9.8 10.5 13.0 12.0 10.7 9.9 8.8 8.0 8.0

¡ E

A continuación se presentan los diez elementos incluidos en la muestra con sus respectivos valores: No.

Tabla

1. 2. 3. 4. 5.

232 033 219 026 045

Valor Pb 8.5 12.4 12.9 7.8 6.3

No. 6. 7. 8. 9. 10.

¡ E

Tabla 094 132 058 106 066

Valor Pb 5.2 7.4 11.3 10.7 5.9

Tabla No. 4.3 Ejemplo de conglomerados Conglomerado Manzana

Unidad de lista Casa

Elemento Persona

Condado

Hospital

Paciente

Escuela

Clase

Estudiante

Paquete de jeringas

Jeringa

Jeringa

Página de texto

Línea de texto

Palabra

Conjunto de archivos

Folder

Cuenta única

Semana calendario

Día

Día

¡ E

Aplicación Estimación del total de personas con hipertensión en la ciudad Estimación de la proporción de pacientes muertos en hospital en un estado Estimación de la media de escolaridad, obtenida por los alumnos en un distrito Estimación de la proporción de jeringas con defectos Estimación del número total de palabras en un libro Estimación del número total de cuentas vencidas Estimación de la proporción de días con nivel de ozono por arriba del nivel permitido

APÉNDICE 6

TAMAÑO DE LA MUESTRA

1. Introducción

Uno de los primeros aspectos que más nos preocupa cuando estamos planeando realizar una encuesta por muestreo es qué tan grande será la muestra que necesitamos para obtener estimadores a partir de ella, que sean lo suficientemente confiables a fin de cumplir los objetivos del estudio.

Para tal efecto y antes de iniciar cualquier encuesta por muestreo, debemos conocer diversos factores que influyen en la determinación de un tamaño muestral mínimo adecuado que nos permita obtener estimaciones útiles sobre aquellos parámetros que se desean estudiar. En primera instancia, se presentarán todos los cálculos asumiendo muestreo aleatorio simple.

2. Factores que influyen en el tamaño de la muestra.

2.1 La Precisión.

En primer término, nos referiremos al grado de precisión que requiere el estimador y que es equivalente a la mitad del intervalo que se pretende construir; mientras más precisión se imponga más corto será el intervalo que se obtenga y por consiguiente mayor será el tamaño de la muestra.

Ejemplo 6.1 Supóngase que la característica en estudio es el cadmio en cabello de niños de una localidad “ x” . A partir de un estudio previo se encontró el rango aproximado está entre 0.002 y 2.544 µg/g de cabello, es decir una amplitud de 2.542. Por las propiedades de la curva normal, sabemos que el rango equivale aproximadamente a seis desviaciones estándar (2.542/6=0.424), por lo cual en este caso la varianza (s2) sería 0.4242=0.180

Si la característica de interés es por ejemplo el nivel medio de plomo en sangre en niños, podemos consultar los registros de estudios anteriores en la misma región, en un proceso análogo al mencionado anteriormente. Si no es posible realizar este tipo de inferencias es necesario recurrir al estudio piloto. Considere que la primera especificación es la creación de un intervalo del 95% de confianza basado en la media muestral mas o menos 0.05 µg/g. Esta restricción conocida como precisión requiere que el 0.05 µg/g sea igual a 1

0;

Asumiendo inicialmente MAS, e ignorando el factor de corrección para poblaciones finitas, tenemos que el

0 , donde S2 es la varianza poblacional, y n’ es la estimación inicial a partir del cual se aproxima el tamaño muestral, es decir, sin considerar el factor de corrección para poblaciones finitas.

Entonces, sustituyendo el error estándar de la media, encontramos:

0

¡ E

y resolviendo para n’, encontramos que:

0 personas. (6.1)

Ejemplo 6.2 Suponga usted que se conducirá una encuesta sobre una población para estimar la proporción de personas que usan loza vidriada para consumir sus alimentos; considere que la primera especificación es la creación de un intervalo del 95% de confianza basado en la proporción muestral mas o menos 2%. igual a 1.96σ

Es decir, una precisión del 2%

p.

Asumiendo inicialmente MAS, e ignorando el factor de corrección para poblaciones finitas, tenemos que el

0 , donde P es la proporción poblacional que usan loza vidriada, Q es la proporción que no lo usa, es decir, Q = 1-P y n’ es la estimación inicial a partir del cual se aproxima el tamaño muestral, sin tomar en cuenta el factor de corrección para poblaciones finitas.

Por la precisión fijada, tenemos que 1.96σ =0.02, sustituyendo el error estándar encontramos que: p

0

y resolviendo para n’ encontramos que:

0

(6.2)

De principio, podrían obtenerse diversos tamaños muestrales, usando diferentes valores en la precisión y manteniendo constantes el nivel de confianza del 95% (Z=1.96), una P=0.35 y una Q=0.65.

Tabla No. 6.1

Tamaños muestrales para diferentes valores de precisión, manteniendo constantes el nivel de confianza (95%) , una P=0.35 y una Q=0.65

¡ E

Precisión

Cálculo del tamaño muestral

0.01

0

0.02

0

0.05

0

0.10

0

Tamaño de n’

n’=8740

n’=2185

n’=350

n’=88

2.2 Proporción poblacional

De la fórmula anterior, podemos notar, que necesitamos tener alguna idea de la proporción poblacional, que puede ser aproximada mediante estudios anteriores, a través de alguna muestra piloto o simplemente y desde un punto de vista muy conservador, utilizando un valor máximo obtenido para PQ que será cuando P = Q = 0.5

Si la P sugerida esta alrededor de 0.2 a 0.35 la elección más conservadora sería P = 0.35, sustituyendo para n’ tenemos que:

0

Si este tamaño muestral fuera pequeño comparado con el tamaño poblacional, dejaríamos este como el tamaño muestral requerido; sin embargo, si este no es el caso, debemos tomar en cuenta el factor de corrección y corregir el tamaño muestral mediante:

0

(6.3)

Ejemplo 6.3 Se puede hacer notar, que el máximo tamaño muestral será cuando P y Q son iguales, es decir P=Q=0.5, como veremos en la siguiente tabla, en la que se manejarán diversas P’s y Q’s manteniendo constantes la precisión y el nivel de confianza.

Tabla No. 6.2

Tamaños muestrales para diferentes P’s y Q’s, manteniendo constantes una precisión de 0.02 y un nivel de confianza del 95% (Z=1.96)

P

Q

Cálculo del tamaño muestral

¡ E

Tamaño de la muestra (n’)

0.1

0.9

0.2

0.8

0.3

0.7

0.5

0.5

0.8

0.2

n’=96

0

n’=1537

0

n’=2017

0

n’=2401

0

n’=1537

0

De la tabla anterior se desprende que el mismo tamaño muestral corresponde para P=0.2 y Q=0.8 que para P=0.8 y Q=0.2 ya que estas proporciones podrían corresponder para el primer caso a la proporción de las personas que usan loza vidriada y para el segundo a la proporción de los que no la usan y ya que uno es complemento del otro, da lo mismo hacer el cálculo para cualquiera de las dos proporciones.

2.3 Nivel de Confianza

Hasta aquí, hemos utilizado frecuente un nivel de confianza del 95%, es decir, nuestros intervalos de confianza o la determinación del tamaño muestral usa un valor de Z=1.96, el cual determina este nivel de confianza.

Sin embargo, podríamos estar interesados en otros niveles de confianza, lo cual modificaría directamente en el tamaño muestral. Otros niveles de confianza usualmente utilizados son:

Z=1.645 para un nivel de confianza del 90% Z=2 para un nivel de confianza del 95.45% Z=2.33 para un nivel de confianza del 98% y

Z=2.575 para un nivel de confianza del 99%.

Ejemplo 6.4 Siguiendo el ejemplo anterior, podemos calcular algunos tamaños muestrales para cada uno de estos niveles, manteniendo constantes la precisión igual a 0.02, la P= 0.35 y la Q=0.65

Tabla No. 6.3

Tamaños muestrales para diferentes niveles de confianza y manteniendo constantes la precisión igual a 0.02, la P=0.35 y la Q=0.65

Nivel de Confianza

Cálculo del tamaño muestral

Tamaño de la muestra

Valor de Z

90%

aprox.

1.645

0

¡ E

n’=1540

95%

1.96

95.45%

2.0

98%

2.33

99%

2.575

n’=2185

0

n’=2275

0

0

0

n’=3088

n’=3772

2.4 Otros tipos de diseños muestrales

Cuando nuestro diseño es otro que un muestreo aleatorio simple, será necesario modificar este tamaño muestral multiplicándolo por el efecto del diseño en cuestión con respecto al aleatorio simple. Este diseño de efecto no es mas que la razón de la varianza del error estándar obtenido con el diseño complejo entre la varianza que se obtendría con un muestreo aleatorio simple.

Si se pensara utilizar un muestreo estratificado, se requeriría un tamaño muestral mas pequeño que con el aleatorio simple, debido a las ganancias en precisión que es inherente al proceso de estratificación, es decir el efecto de diseño tendría un valor menor a 1; sin embargo, esta ganancia es pequeña cuando estimamos un porcentaje con una estratificación proporcional, de tal manera que la reducción del tamaño muestral será modesta.

Ejemplo 6.5 Si el error estándar obtenido para el consumo de loza vidriada a partir de un muestreo aleatorio simple resulta ser 0.0102 ( luego entonces la varianza del error estándar es de 0.000104) y de otros estudios anteriormente realizados se sabe que el uso de loza vidriada es más común para el área rural, donde se encontró con un muestreo estratificado, una varianza del error estándar de 0.000091, el efecto de diseño resulta ser de:

0

por lo que si se decide efectuar un muestreo estratificado y el tamaño muestral para muestreo aleatorio simple fue de 1907, se necesitaría un tamaño de (1907)(0.875)=1669 personas en total de ambos estratos; y podría ser el tamaño muestral para cada estrato proporcional al tamaño del estrato.

Por otro lado, cuando aplicamos un diseño de conglomerados multietápico, ya sea con probabilidad proporcional al tamaño u otro tipo de selección, implícitamente el proceso conlleva una homogeneización dentro de los conglomerados y por consiguiente una disminución en la precisión del intervalo, por lo que en este caso el efecto de diseño será mayor de 1 y por lo tanto el tamaño muestral deberá incrementarse con respecto al aleatorio simple.

Ejemplo 6.6 En una prueba piloto con muestreo de conglomerados en dos etapas se encuentra un error estándar de 0.01724 (es decir la varianza del error estándar es de 0.0002974), y continuando con la varianza del error estándar para muestreo aleatorio simple de 0.000104 tenemos que:

¡ E

0

por consiguiente, si calculamos un tamaño muestral para el MAS de 1907 personas y estuviéramos pensando en usar un muestreo bietápico por conglomerados, requeriríamos un tamaño muestral 2.859 veces mayor que el del aleatorio simple; es decir, (1907)(2.859)=5453 aproximadamente.

2.5 Tasa de no respuesta

Otro factor a considerarse en el cálculo del tamaño muestral es la tasa de no respuesta, por ejemplo, si la tasa de respuesta es del 75%, el tamaño muestral necesario para alcanzar el requerido será para este ejemplo 1907/0.75 = 2543. Por supuesto, este es un ajuste para alcanzar el tamaño muestral y de ninguna manera es una garantía para evitar un sesgo de no respuesta.

Del mismo modo, es importante tomar en consideración los costos de la encuesta relacionándolos con los niveles de precisión, pues resulta poco práctico efectuar encuestas a bajo costo para obtener intervalos muy amplios para obtener información.

3. Otras consideraciones

Mientras que los ejemplos anteriores muestran los aspectos principales para el cálculo de la muestra, esto está muy simplificado, pues en la práctica las encuestas cumplen con varios objetivos, conteniendo un número sustancial de estimadores y estos a su vez, cubrirán un rango grande de subclases como serían regiones diferentes, diversos grupos de edad o múltiples grupos educacionales u ocupacionales, lo cual implica realizar varios cálculos para tamaños muestrales y se aceptará aquél que permita hacer divisiones finas para el análisis por subclases, por lo que en general, podemos decir que mientras mayor sea el tamaño muestral alcanzaremos una mayor precisión y se podrá conducir un análisis más detallado.

El tamaño muestral idóneo dependerá de los factores mencionados que junto con el aspecto financiero será aquel que nos permita realizar interpretaciones útiles de los intervalos obtenidos, por lo que resulta poco práctico efectuar cálculos con poca precisión o niveles de confianza demasiado bajos debido a un financiamiento limitado, ya que el alcance de nuestras inferencias será pobre.

4. Tamaño de muestras para la comparación de dos medias o dos proporciones en dos poblaciones en estudios transversales.

Hasta aquí se ha incluido el diseño de encuestas por muestreo refiriéndose básicamente a una sola población. Cuando se trata de estudios comparativos que involucran dos poblaciones como en el caso de los diseños epidemiológicos transversales, de casos y controles, estudios de cohorte, ensayos clínicos, etc., es necesario hacer consideraciones referentes a los tipos de error (Tabla No.6.4).

¡ E

Tabla 6.4 Tipos de error según la situación verdadera de la hipótesis nula.

Decisión hecha

Situación

H verdadera o

H no rechazada o

H rechazada o

Sin error

Error Tipo I (α)

(1-α) real

H

o

falsa

Error tipo II

Sin error (Poder=1-β)

(β)

4.1 Poder estadístico de la muestra (1-β β ) que es la capacidad de la misma para detectar una diferencia de los parámetros de las poblaciones cuando ésta existe y se expresa en términos de porcentaje, como el complemento del Error tipo II o Beta que no es más que la probabilidad de aceptar una hipótesis nula cuando ésta es falsa. 4.2 Nivel de significancia (α α ) que corresponde a la probabilidad de rechazar una hipótesis nula (h ) cuando ésta es o verdadera.

La figura 6.1 ilustra los principios básicos de estos conceptos. Si se postula una hipótesis nula verdadera, esto implica que no hay diferencia de los parámetros entre las dos poblaciones estudiadas, es decir la diferencia de los parámetros es igual a 0 (d=0), α sería la probabilidad de rechazar h cuando es verdadera y d denota el valor de la o c diferencia que es significativo desde d a un nivel de significancia α. Por otro lado, cuando h es falsa, esto es, existe o diferencia entre los parámetros poblacionales, el valor real de la diferencia de las medias o de las proporciones estudiadas es diferente de 0 (d*≠ d), entonces el área que queda a la izquierda de d representa la probabilidad de aceptar la hipótesis c nula cuando ésta es falsa (Error tipo II o β) y el área a la derecha corresponde a la probabilidad de rechazar la hipótesis nula cuando ésta es falsa representando el poder de detectar la diferencia (o asociación).

¡ E

d denota el valor de la hipótesis nula d* denota el valor de la hipótesis alterna d es aquel valor que es significativo al nivel de significancia α c Por consiguiente d puede ser expresado como d + Z σ ó equivalentemente d* + Z σ donde: c α/2 d β d* Z es el valor de Z correspondiente a la posición de d según el nivel de significancia seleccionado, sobre la distribución α/2 c alrededor de d y donde la diferencia de los parámetros puede ser positiva o negativa. Z denota la posición de d según el nivel de β seleccionado, sobre la distribución alrededor de d* y σ y σ son lo errores β c d d* correspondientes de cada distribución.

Puesto que los valores de Z niveles.

α/2

y Z son ampliamente utilizados, se presentan aquellos mas usuales y para diferentes β

Tabla No. 6.5 Valores de Z

α/2

y Z para diferentes niveles de error. β Niveles de Error

Z α/2

Z β

0.01

2.58

2.33

0.02

2.33

2.05

0.05

1.96

1.645

0.10

1.645

1.28

De este modo, tenemos la siguiente igualdad:

d+Z

σ = d* + Z σ α/2 d β d* Debido a que los errores estándar son generalmente cercanos en valor, y mediante un poco de álgebra podemos

resolver esta ecuación para obtener una buena aproximación del tamaño muestral para un estudio transversal:

Si se trata de diferencia de medias :

0

Si es diferencia de proporciones:

0 donde:

d*

es el valor de la diferencia en proporciones o medias (es decir, la

diferencia que el investigador desea detectar).

¡ E

magnitud de la

n

el número de individuos expuestos estudiados.

r

el cociente del número de individuos no expuestos estudiado,

entre el

número de individuos expuestos estudiados. σ

desviación estándar en la población para una variable continua.

p 1

proporción de individuos expuestos quienes tienen la consecuencia

p 0

proporción de sujetos no expuestos quienes tienen la consecuencia

(enfermedad).

(enfermedad).

0

0 = promedio ponderado de p y p 1 0

Ejemplo 6.7 Para ilustrar el cálculo del tamaño muestral para diferencia de proporciones considere un estudio para evaluar si fumar durante el embarazo está asociado con un incremento en la prevalencia de bajo peso al nacer del recién nacido. Se conoce de estudios anteriores que por cada mujer que fuma durante el embarazo hay alrededor de 3 que no lo hacen, por lo tanto, en un estudio donde los sujetos se seleccionan aleatoriamente sin considerar los hábitos de fumar, encontramos una r = 3, una proporción de fumadoras del 25% y una proporción de no fumadores del 75%. Además las encuestas reportan una prevalencia de bajo peso al nacer (es decir, recién nacidos de 2500 gr o menos) de 7%. Suponga que la diferencia a detectarse que se considera de interés entre los grupos expuestos en la proporción de recién nacidos con bajo peso al nacer es de 8% (d* = 0.08).

Si el nivel de significancia es del 5%, entonces el valor correspondiente de Z es 1.96 y el poder es de 90% el valor que corresponde de Z es 1.28. Utilizando la fórmula para diferencia de proporciones tenemos que:

0= 142.4

Se estima que aproximadamente 143 recién nacidos de fumadoras tienen que ser incluidos en la muestra junto con 429 recién nacidos de no fumadoras, es decir, un tamaño global de 572 recién nacidos.

Ejemplo 6.8 Suponga usted que se requiere calcular un tamaño muestral para realizar un estudio cuyo propósito es comparar el nivel de plomo en hueso entre los sujetos que usan loza de barro vidriada y aquellos que no lo usan. Por estudios anteriores, se conoce que la media de plomo entre aquellas personas que no lo usan es alrededor de 9.25 µg/g de hueso y la media de plomo entre aquellas personas que lo usan es de 16.01. Además se sabe que la varianza de plomo en hueso es de 103.18 y que por cada persona que usa loza vidriada hay otra que no lo usa, por consiguiente r=1. Si se quisiera detectar una diferencia de 3 unidades con un nivel de significancia del 5% y una potencia del 95%, el tamaño muestral requerido para este ejemplo sería calculado como sigue:

¡ E

0=238.4

De este modo, el tamaño requerido, resulta ser de 239 personas que usan loza vidriada y otro tanto que no lo usa, es decir, se requiere un tamaño global de 478 personas, bajo las especificaciones señaladas.

Los ejemplos anteriores se reducen a presentar el cálculo del tamaño muestral para estudios transversales, es decir, cuando las características bajo estudio son obtenidas en un solo momento; sin embargo, existen otros diseños epidemiológicos como casos y controles que requieren considerar definiciones específicas para un adecuado cálculo muestral.

5. Errores frecuentes en la estimación del tamaño muestral.

5.1 El tamaño de la muestra depende principalmente del tamaño del universo. Es una práctica común elegir un tamaño muestral como un porcentaje de la población, por decir, el 10%. Esta decisión no es justificada, pues como se revisó, está más influenciado por la precisión, el nivel de confianza y la proporción de la característica más que por el tamaño de la población.

La eficiencia de la muestra depende más bien de su número absoluto y no del valor proporcional con respecto al universo.

5.2 Hacer toda una etapa de muestreo probabilístico y luego no hacer los cálculos correspondientes para el error estándar y para la construcción del Intervalo de Confianza, limitándose a la descripción de el estimador muestral.

5.3 Hacer reemplazos no planeados puede alterar la estructura probabilística del muestreo al alterar la probabilidad de ciertas unidades, por lo que si se llegaran a efectuar deberá considerarse la probabilidad de cada elemento de quedar en la muestra.

5.4 Aplicar un diseño complejo para seleccionar la muestra y analizar como en un muestreo aleatorio simple. Este ha sido un error que se comete frecuentemente por la facilidad de las fórmulas del MAS, las cuales no toman en cuenta las variaciones de diseño, provocando errores en el cálculo del intervalo de confianza y por consiguiente errores en su interpretación.

Ejercicios.

1. Calcule el tamaño muestral del ejemplo de plomo en mujeres, si la proporción encontrada hubiese sido del 30%. Utilice los datos de los tres investigadores incluidos en el cuadro. Comente cómo afecta este cambio el tamaño muestral.

2. Calcule un tamaño de muestra para la población de Pavarandocito, sabiendo que la desviación estándar del biomarcador en cuestión es de 564 Unidades Internacionales. Haga el cálculo con un nivel de confianza del 95% y del 99%. Precise usted el error que aceptaría y déjelo fijo en ambos cálculos.

3. Que ocurriría con la n anterior si el diseño es complejo y se espera una tasa de no respuesta del 20%.

¡ E

APÉNDICE 7

ANÁLISIS DE DATOS

1.1

Medidas de asociación. El riesgo relativo y la razón de productos cruzados son medidas relativas, que dan una

idea de la magnitud de la asociación que se está estudiando; sin embargo, estas medidas no indican el impacto absoluto que el factor de estudio puede tener en la población.

Riesgo relativo o razón de riesgo (RR), compara en dos grupos el riesgo de algún evento de salud, enfermedad o muerte. Los dos grupos son diferentes en cuanto a factores de riesgo tales como la exposición al agente en estudio (por ejemplo, exposición o no a contaminantes ambientales).

Enfermedad Sí

No

TOTAL

Expuestos

a

b

E 1

No expuestos

c

d

E 2

Total

X 1

X 2

X T

Exposición

El RR nos dice cuantas veces ocurre el evento en estudio en el grupo de expuestos comparados con el de no expuestos. Se lo puede calcular mediante tasas de incidencia acumulada, incidencia real y de prevalencia. Un valor de RR de 1 indica riesgo idéntico en los 2 grupos, un valor mayor de 1 habla de un incremento en el grupo numerador (expuestos), mientras que un valor menor de 1 indica un decremento en el riesgo del grupo expuesto o quizás muestre un efecto protector del factor de exposición bajo estudio.

RR = Tasa de ataque o incidencia en expuestos/tasa de ataque o incidencia en no expuestos

RR =

(a/E ) 1 ---------(c/E ) 2

Razón de productos cruzados (RPC) es un estimador insesgado del riesgo relativo, es decir, sobrestima al RR. Se utiliza cuando no es posible estimar la incidencia de una enfermedad o condición de salud.

¡ E

RPC = ad/bc

a = el número de personas con la enfermedad y con la exposición de interés. b = el número de personas sin la enfermedad y con la exposición de interés. c = el número de personas con la enfermedad y sin la exposición de interés. d = el número de personas sin la enfermedad y sin la exposición de interés.

Riesgo Atribuible (RA) o Diferencia de Riesgo (DR): nos habla de la magnitud absoluta del cambio en los expuestos, es decir, del número de personas enfermas entre los expuestos que se puede atribuir a la exposición. Mide la diferencia entre la tasa de incidencia de la enfermedad en el grupo expuesto menos la tasa de incidencia del grupo no expuesto.

RA = a/E - c/E . 1 2 1.2

Medidas de impacto: Son proporciones que reflejan la contribución esperada de un factor bajo estudio a la

frecuencia de la enfermedad en una población particular y derivan tanto de las medidas de frecuencia como de las de asociación. Se utilizan para estimar la proporción de casos observados en una población que son debidos al factor bajo estudio, y para predecir el impacto o cambio en el estado de salud de una población como consecuencia de una intervención.

Riesgo atribuible porcentual en población expuesta (RA%):

RA%=Tasa Incidencia Expuestos - Tasa Incidencia no Expuestosx100 Tasa Incidencia Expuestos

Riesgo atribuible poblacional porcentual (RAP%):

RAP% = Tasa Incidencia Global-Tasa Incidencia no Expuestos x 100 Tasa Incidencia Global

Tasa Incidencia no Expuestos = c/E

2

Tasa Incidencia Global = X /X 1 T

Fracción etiológica (FE) o fracción atribuible (FA): mide en los expuestos la cantidad (porcentaje) del riesgo absoluto que es atribuible a la exposición. Se puede interpretar como la proporción de casos que podrían no haber ocurrido si la exposición hubiera estado ausente (% de reducción en el número de casos). Se asume que hay relación causal.

¡ E

Diferencia de Riesgo FE = ---------------------------------------------------------- x 100 Tasa de incidencia en expuestos

Ejemplo: Asociación entre exposición ocupacional a fosfina y mutaciones genéticas.

Tasa de incidencia en expuestos a fosfina

= 0,71

Tasa de incidencia en no expuestos a fosfina = 0,14

RR = 0,71 / 0,14 = 5,1 DR = 0,71 - 0,14 = 0,57 FE = 0,57 / 0,71 = 0,803 X 100 = 80,3%

1.3

Pruebas de significancia estadística. Cuando se realizan investigaciones y aún en la vida cotidiana, se tienen que

tomar decisiones. En el trabajo científico, las decisiones tienen carácter de hipótesis de comprobación. Estas comprobaciones son hechas comparando las variables de interés de dos o más poblaciones o muestras y, dependiendo del tipo de escala en la que se mida la variable, se utilizan las diversas pruebas estadísticas.

Las pruebas estadísticas que hacen uso del modelo de probabilidad normal se conocen como pruebas paramétricas de significación.

Distribución normal: La distribución de probabilidad continua más importante es la distribución normal o de Gauss, que gráficamente es una distribución en forma de campana, simétrica al promedio aritmético. Muchas variables siguen una distribución normal, y tienen una función central en pruebas estadísticas de hipótesis.

Dos distribuciones normales con diferentes promedios o medias aritméticas, pero la misma varianza o desviación estándar, se diferenciarán en la localización pero no en la forma (Figura 1).

Dos distribuciones normales con igual promedio, pero diferentes varianzas o desviaciones estándares, tendrán la misma localización, pero tendrán diferentes formas o amplitudes en relación al valor promedio (Figura 2).

La población incluida por una desviación estándar (DS o S) a cada uno de los lados del promedio de una población distribuida normalmente, incluye al 68,26% de las observaciones de esa población; 2 DS para cada lado incluyen al 95,46% de las observaciones; y 3 DS incluyen al 99,99% de las observaciones de la población (Figura 3).

Un principio fundamental para la distribución normal es el teorema del límite central, que enuncia que sin importar lo que haga la distribución subyacente (de la variable de interés particular), la muestra promedio tendrá una distribución normal si el tamaño de la muestra es lo bastante grande (n>30).

La certeza con que se estima la población promedio aumenta con el tamaño de la muestra; mientras que el error estándar del promedio disminuye con el incremento de la muestra. -

Prueba de hipótesis: Es un procedimiento objetivo que debe basarse tanto en la información obtenida al investigar, como es el margen de error que estemos dispuestos a aceptar si nuestro criterio de decisión con respecto a la hipótesis resulta incorrecto. En epidemiología, se trata de una proposición acerca de la relación entre agente, huésped y ambiente, que se puede aceptar o rechazar a través de estudios que utilizan métodos analíticos.

¡ E

Procedimiento:

Formulación de la hipótesis nula (Ho) y alterna. La hipótesis estadística define las variables o características a estudiar. Ho = A=B Hi = A≠B

Ho: la hipótesis nula es la afirmación aritmética del parámetro bajo estudio, aceptando como mínimo el valor cero. A=B

AB

Ha: La hipótesis alterna es una afirmación aritmética contraria a la hipótesis nula; es la hipótesis de trabajo.

Elección de la prueba estadística, con un modelo asociado para probar o rechazar Ho con una prueba adecuada según el tamaño de la muestra, y las características y comportamiento de la variable.

Especificación del nivel de significancia. El valor de "p" indica en términos estadísticos, la probabilidad de obtener la estadística observada o un valor más extremo, bajo la hipótesis nula.

Usualmente el valor de "p" tiene que ser igual o menor a 0.05 (es el margen de error del 5%) para concluir que los resultados son significativos, es decir, que cada vez que se repita la investigación los resultados serán semejantes en un 95% de las ocasiones.

Definir el criterio o región de rechazo. En las diferentes pruebas estadísticas se estima de distinta manera esta región.

Cálculo de la prueba estadística e interpretación.

El investigador debe comprender 5 puntos acerca del nivel de significancia: El nivel de significancia indica la probabilidad de cometer el error tipo I o α, es decir, rechazar la hipótesis nula siendo ésta verdadera.

La probabilidad de que una prueba estadística produzca un valor conforme por el cual la hipótesis de nulidad sea aceptada, cuando en realidad es falsa, queda comprendido como error tipo II o β.

La potencia de una prueba (1-β), mide la probabilidad de rechazar acertadamente la Ho.

La potencia está relacionada con la naturaleza de la prueba estadística elegida.

En términos generales, la potencia de una prueba estadística se incrementa al aumentar el tamaño de la muestra.

En general, ni la prueba de hipótesis ni la inferencia estadística conducen a la demostración de una hipótesis, sino que simplemente indican si la hipótesis es apoyada o no por los datos que se dieron. Por lo tanto cuando no es posible rechazar una hipótesis nula, no se dice que es verdadera, sino que se acepta la hipótesis alterna, o se reserva el juicio.

¡ E

1.4

Prueba t de Student. En la investigación médica frecuentemente se trabaja con muestras cuantitativas pequeñas

(número < 30) en las que, al querer compararlas entre sí o con valores teóricos, resulta engañoso observar que las diferencias encontradas son debidas a un error de muestreo, por lo que se recurre a utilizar la prueba t para comparar la diferencia entre medias aritméticas.

Tipos de pruebas t

Prueba de t para un promedio



Un promedio poblacional

t pareadas o relacionadas.



Muestras pareadas

Prueba t para igual o diferente



Muestras independientes

número de sujetos por grupo.

varianzas homogéneas o

heterogéneas.

La distribución t tiene ciertas características: -

Es simétrica respeto a su media.

-

Contiene en su punto central a la media, la moda y a la mediana.

-

En general la desviación estándar de t es mayor que la desviación estándar de la distribución normal.

-

La curva de t es más baja y más ancha.

Condiciones para utilizar prueba t: -

Que la variable sometida a análisis (dependiente) sea cuantitativa, continua o discontinua (discreta).

-

Que la distribución de los valores de las variables en la población sea aproximadamente normal.

-

Las observaciones de cada población deben ser obtenidas aleatoriamente.

-

Supone que las dos muestras tienen la misma varianza de la población subyacente.

Ejercicio: Prueba de hipótesis, uso de t para promedio.

Se obtuvo el peso de 11 niños de 4 años de edad dentro de una guardería. Se desea saber si el promedio de peso de este grupo difiere con el de la población en general (µ), cuyo valor es 22 kg.

Peso de los niños: 24,8; 21,6; 27,8; 29,9; 30,0; 23,0; 22,0; 22,6; 21,0; 23,4; 27,5.

Peso premedio: 24,87

-

Los niños de la guardería tienen diferente peso promedio

de la misma edad (µ). Ho= A = B Ha= A ≠ B

¡ E

( x)

que el promedio de peso de la población general

-

Prueba de t

∑(x - x )2 n -1 t=

x−µ S n

(n-1 para muestras y N para población)

-

∝ = 0,05 (0,025 bilateral).

-

Grados de libertad = n-1 = 11-1= 10

al buscar en la tabla valor de t crítica = t(0,05;10) = 1,8125 - Criterio: Rechazar Ho si t calculada es ≥ o (≠) que t crítica, o sea: Si t calculada ≥ 1,8123 o ≤ 1,8125 -

Cálculo de la fórmula.

t = 24,87 - 22,0 = 3,34 / √11

2,87

= 2,85

1,007

culada > t crítica

2,85 > 1,8125

-

Interpretación: se rechaza la Ho. dado que el valor de t estimado es mayor que t de tabla, por lo tanto A ≠ B; es

decir, existe una diferencia significativa entre la media del peso del grupo de niños estudiados con la media del peso de la población en general (p< 0.05) que puede ser atribuida al azar.

Ejercicio: t pareada.

Se detectó un grupo de fumadores en la consulta externa de una clínica, los cuales fueron canalizados para participar en una serie de pláticas de educación para la salud. Se comparó el número de cigarros consumidos antes y después de las pláticas y se encontró lo siguiente:

¡ E

-

Paciente

antes (x) A

1

28

después (y) B 15

2

19

10

3

30

25

4

40

32

5

37

20

6

35

30

7

25

30

8

18

15

9

10

0

10

33

28

Se desea saber si la serie de pláticas tiene efecto sobre el tabaquísmo.

Ho = A = B (no hay diferencia de consumo de cigarrillo) Ha = A > B (disminuye el consumo de cigarrillo)

-

Prueba de t pareada. Para mediciones en un mismo sujeto antes y después de una intervención.

t=

d E. E

E. E =

s n

d=

-

α = 0,05

-

Grados de libertad (n-1) 10-1=9

∑x−∑y n

t (0,05,9) = 2,262

-

Criterio: Rechazar Ho, si t calculada es > 2,262

-

Cálculo

_ t=

7

= 3,7

= 1,89

d=

√10

1,89

-

E.E= 5,98

70 = 7 10

Decisión: Se rechaza hipótesis nula dado que t de tabla es menor que t calculada. Por lo tanto, existe diferencia

significativa entre el consumo de cigarrillo antes y después de las pláticas, resultando una disminución en el consumo de cigarrillo (p < 0,05).

1.5

Prueba de Chi Cuadrada (X2) para independencia u homogeneidad.

Existen muchos datos que se reúnen en la práctica, que no se prestan para ser analizados en términos de la curva normal de probabilidad, o para los cuales no podemos establecer suposiciones básicas para su aplicación. Consideremos un estudio en el cual los datos reunidos están constituidos por rangos (por ejemplo, agrupar estudiantes por

¡ E

categorías, según su falta de cooperatividad). Los valores resultantes son cualitativos, ordinales, y se distribuyen en un modelo rectangular.

La prueba de X2 se utiliza cuando se quiere investigar la asociación entre variables categóricas o cualitativas en una misma población, también cuando interesa investigar si en las diferentes poblaciones estudiadas los valores o categorías de cada una de las manifestaciones se presentan en la misma proporción.

Fundamento: Si dos variables no están asociadas, la proporción de individuos en cada categoría de una de las variables no depende de las categorías de la otra; en cambio, cuando están asociadas, repercutirá directamente, porque la proporción de individuos de cada una de las categorías de una variable depende de las categorías de la otra variable.

Para realizar esta prueba es necesario conocer la distribución de los valores bajo el supuesto de que no hay asociación. Para ello, se elabora una tabla de contingencia donde se clasifican a los elementos en forma exhaustiva y en categorías mutuamente excluyentes, para dos o más variables simultáneamente.

El clasificarlas en forma exhaustiva significa que debe haber suficientes categorías para incluir a todos los individuos. Por otra parte, clases mutuamente excluyentes significa que el mismo individuo no puede quedar clasificado en más de una categoría.

A partir de los valores de la tabla de contingencia, se calculan los valores que se esperaría encontrar, llamados valores esperados, bajo el supuesto de no asociación que es la hipótesis de nulidad. La prueba consiste en comparar esos valores esperados y los valores observados en el estudio realizado, y ver que tanto discrepan unos de otros. Bajo el supuesto de no asociación, se espera que está discrepancia sea pequeña ya que esta dada por el azar. Para evaluar el tamaño de la discrepancia se obtiene un valor llamado X2 calculado y se compara con un valor obtenido en tablas de valores críticos de X2 que ya existen y que son de uso general (distribución X2).

Requisitos: -

Muestras representativas de cada población.

-

Observaciones independientes.

-

Mediciones efectuadas en escala nominal u ordinal (variables sociodemográficas).

-

La clasificación de los individuos debe ser exhaustiva y mutuamente excluyente.

Población ≥ 15, distribución binomial.

Fórmula:

X2= Σ

( o-e )2, donde: e

e = Tc - Tr n

Ejercicio: En julio de 1994 fueron reportadas 152 muertes por carcinoma hepático en hombres que trabajaban en una planta de cloruro de polivinil. Para determinar si el exceso de muerte por cáncer de acuerdo al número esperado se debían al azar, se aplicó una prueba de X2.

-

Hipótesis:

Ho: P = P (Proporción de cáncer hepático en población común es igual a proporción del cáncer en los trabajadores). 1 2 Ha: P ≠ P 1 2

¡ E

-

Fijar el nivel de significancia (α), en 0.05 ó en 0.01. Se utilizará α=0,05 (95% de certeza).

-

Calcular los grados de libertad a partir de la tabla de contingencia mediante la fórmula:

g.l = (Nº de filas - 1) x (Nº de columnas - 1)

Para una tabla de contingencia de 2x2= (2-1) x (2-1)= 1 Con un grado de libertad y a un α de 0.05, X2 = 3.841. -

Criterio: Rechazar Ho si X2 calculada >3,841. En caso contrario aceptar la hipótesis nula o se reserva el juicio.

-

X2 calculada:

Valor

Casos

No Casos

TOTAL

152

1.313

1.465

No

502

7.911

8.413

TOTAL

654

9.224

9.878

observado

Expuestos

expuestos

Valor esperado: celda

a=

654 x 1.465 / 9.878 = b=

97 9.224 x 1.465 / 9.878 =

c=

654 x 8.413 / 9.878 =

d=

9.224 x 8.413 / 9.878 =

¡ E

1.368 557 7.856

Nota: si en cualquiera de las celdillas se encontrara un valor esperado inferior a 5, no se puede realizar la prueba de X2.

X2 = (152 - 97)2 + (1,313 - 1.368)2 + (502 - 557)2 + (7.911 - 7.856)2 97

1,368

557

7,856

= 31.18 + 2.21 + 5.43 + 3.85 = 39.21

Interpretación: El exceso de muertes es estadísticamente significativo. Debido a que el valor de X2 calculada es mayor que el valor de X2 de tabla, se considera que hay discrepancia entre los valores observados y esperados. Se dice que hay diferencias estadísticamente significativas al nivel de significación escogido y se rechaza la hipótesis de nulidad (Ho) que establece igual proporción para el exceso de muertes.

1.6

Prueba no paramétrica.

Una prueba no paramétrica de significación se define como aquélla en la cual no se hacen suposiciones que conciernan a la forma de la distribución principal o población y de acuerdo con esto se le conoce comúnmente como una prueba de significación de distribución libre. Entre ellas se encuentran: prueba de signos de una muestra, prueba de signos con datos en pareja, prueba de suma de rangos (Prueba de Wilcoxon), prueba H, prueba de Kruskal-Wallis, correlación de rango, entre otras.

¡ E

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.