Story Transcript
Esquema estadístico •
Problema de investigación
• •
Pregunta de investigación
• •
Formulación precisa de la(s) pregunta(s) de investigación
• •
Planeación
• •
Diseño
• •
Muestra
• •
Fenómeno Aleatorio
• •
Análisis y presentación de la información
• •
Inferencias
• •
Toma de decisiones
•
Planeación: Comunicación usuario/estadístico ¿Qué preguntar? ¿Cómo preguntar? ¿A quién preguntar? ¿Qué medir? ¿Cómo medir? Diseño: Cohorte, casos y controles, ensayo clínico, transversal, longitudinal, observacional, de intervención.
Muestreo: ¿Qué tipo de muestreo se va a utilizar en el diseño? Aleatorio simple, estratificado, sistemático, por conglomerados, bietápico, multietápico, etc. Análisis y presentación de la información: Análisis descriptivo: Permite tener un mejor conocimiento del problema que nos ocupa y hacer conjeturas sobre el mismo Análisis inferencial: ¿Habrá un modelo teórico (Probabilístico) que se ajuste a los datos? ¿Y para qué sirve tener ese modelo? ! YA TERMINAMOS! Por que podremos responder todas las preguntas sobre el fenómeno en términos probabilísticos. Permite extrapolar los resultados obtenidos a partir de muestra a la población objetivo. En este punto es donde se “juntan” la PROBABILIDAD Y LA ESTADÍSTICA Toma de decisiones Un estudio estadístico, así como de cualquier otra índole, no tendría ningún sentido si los resultados no se utiliza para realizar propuestas con miras a la toma de decisiones. ¿Porqué hay tantos métodos de análisis en estadística? Objetivos Asociación
Correlación, correlación canónica, tablas de contingencia, Análisis de correspondencias, etc.
Causalidad Modelos tipo regresión: Regresión lineal, Logística, Politómica, Politómica Ordinal, Multivariada, Modelos para supervivencia, etc.
Estructura de la información Modelos Multinivel, Modelos mixtos, Series de tiempo, Meta análisis, Modelos para datos de panel, etc. Consideraciones muestrales Modelos con pesos diferenciados en las observaciones, atendiendo las características del muestreo.
Clasificación de las variables La clasificación de las variables aleatorias que tiene más importancia para fines estadísticos, es la que se realiza de acuerdo a su escala de medición. Y se clasifican en: Nominal: Los valores de la variable sólo identifican alguna característica de la población. Sexo: 0: masculino 1: femenino Preferencia política: 1: PAN, 2: PRD 3: PRI Enfermedad: 0: sano, 1: enfermo Ordinal: Sus categorías representan orden. Nivel socioeconómico: 1: bajo, 2: medio, 3: alto. Nivel de satisfacción: 1: nada, 2: regular, 3: mucho Nivel de atención: 1: muy malo, 2: malo, 3: regular, 4: bueno, 5: muy bueno. Enfermedad: 0: leve, 1: moderada, 2: grave, 3: muy grave. Las “etiquetas” no son intercambiables. No siempre es claro si la “distancia” entre categorías adyacentes es la misma. Por lo general, sólo indican que una categoría es mejor o peor que la otra, pero no en qué magnitud lo es. De intervalo o de razón: Aquí la diferencia entre dos valores si es cuantificable. Discretas de conteo( ...-2,-1,0,1,2...) Número de enfermos Número de nacimientos Continuas: Pueden tomar TODOS los valores en un intervalo definido. Peso, estatura, algún biomarcador, etc.
Estadística Descriptiva Medidas de tendencia central •Media •
n
X=
∑X i =1
i
n
Promedio. Como medida de tendencia central, caracteriza bien a poblaciones que son simétricas alrededor de ella. No es resistente a observaciones atípicas Mediana
•
Si “n” es impar, es el dato central de la serie ordenada (la mediana es un elemento de la muestra) Si “n” es par, es el promedio de los datos centrales (la mediana no es un elemento de la muestra) Moda: El dato que más se repite en la serie de observaciones.
•
Importante, si la distribución es simétrica, media = mediana = moda. Medidas de dispersión Varianza n
S2 =
∑ (X i =1
i
− X) 2
n −1
Desviación estándar: S Rango X(n)-X(1) Rango intercuartílico •Q75-Q25 •
Coeficiente de variación
C.V. =
S X
Medidas de forma: Sesgo: Simetría Curtosis: Picudez Representación gráfica de la información Histogramas -Tabla de frecuencias Despliegue gráfico de las frecuencias Información: Forma de la distribución subyacente a los datos Desventaja: El número de clases para construir la tabla de frecuencias, puede alterar la forma de la distribución.
Diagramas circulares (pie) Despliegue gráfico de la tabla de frecuencias relativas
Diagramas de tallo y hoja Similar a un histograma, pero muestra la distribución de los datos al interior de cada frecuencia.
Box-Plot Excelente herramienta gráfica para representar información sobre medidas de tendencia y variación de un conjunto de variables. De suma utilidad para presentar cambios en estas medidas, entre diferentes grupos. Información que proporciona: Mediana y los cuartiles 25 y 75 Máximo y mínimo Dispersión (Rango intercuartil) Simetría Forma de la distribución Datos atípicos El box-plot puede dar respuestas a preguntas como: -¿Un factor es significativo? -¿La mediana es distinta entre los grupos? -¿La variación es distinta entre los grupos? -¿Hay muchos datos atípicos?
Medidas de Asociación Coeficiente de correlación lineal Covarianza entre las variables Escalar la covarianza por las varianzas de las variables.
Correlación de Pearson cuya expresión es:
ρ=
Cov(x, y) var(x) * var(y)
y que se estima por medio de la expresión
n
ρˆ = r =
∑ (x i =1
i
− x )(y i − y)
n
n
i =1
i =1
∑ (x i − x ) 2 ∑ (y i − y) 2 Características del coeficiente de correlación de Pearson: -1≤ρ≤1 ρ≈1 si valores grandes de X tienden a relacionarse con valores grandes de Y, equivalentemente, valores pequeños con pequeños. ρ≈-1, si valores grandes (pequeños) de X tienen a relacionarse con valores pequeños (grandes) de Y y ρ≈0, si valores grandes de X están relacionados con valores grandes y pequeños de Y o viceversa. ¿Qué tan grande debe ser r para considerar que la relación lineal entre las variables es fuerte? Pruebas de hipótesis sobre el coeficiente de correlación. Supuesto: (x1,y1),...,(xn,yn) es una muestra bivariada normal. !Muy difícil de cumplir!. Hipótesis nula: H0: ρ=0 vs Ha: ρ>0 asociación lineal positiva (prueba de una cola) Ha: ρ30, se tiene una aproximación normal. La estadística de prueba es:
Z = rs n − 1 y tiene una distribución aproximadamente normal estándar. !Muy importante!, este coeficiente no sólo mide asociación lineal entre dos variables, sino que, en general, mide si dos variables están asociadas de manera MONÓTONA. Coeficiente de correlación de Kendall (tau de Kendall) Escala de medición: Al menos ordinal Parejas concordantes: Las parejas (xi,yi) y (xj,yj) se dice que son concordantes, si siempre que xi>xj (xiyj (yixj (xi25) la estadística:
Z=
3τˆ n(n − 1) 2(2n + 5)
Se distribuye aproximadamente como una normal estándar.
¡IMPORTANTÍSIMO! CORRELACIÓN NO IMPLCA CAUSALIDAD, al menos que el experto del área afirme que lo implica. Algunos elementos para la inferencia estadística VARIABLES ALEATORIAS
Definición: X es una variable aleatoria, si es una función que va del espacio de resultados de un experimento aleatorio, Ω, a los números reales, ℜ. En símbolos: X: Ω→ℜ ℜ ¿Qué es esto? Urgente! un ejemplo. Supongamos que nuestro experimento aleatorio consiste en lanzar tres veces una moneda "honesta".
Ω = {(s, s, s), (a, s, s), (s, a, s), (s, s, a), (a, a, a), (s, a, a), (a, s, a), (a, a, s)} Definamos nuestra Variable Aleatoria como: X= Número de "soles" que se observaron en los tres lanzamientos. Valores que puede tomar esta variable aleatoria: {0,1,2,3}ε ℜ. ¿Por qué?: X((s,s,s))=3, obsérvese que (s,s,s) ε Ω y {3}ε ℜ y X((a,s,s)) = X((s,a,s)) = X((s,s,a)) =1 y así sucesivamente. Así podríamos definir cualquier otra variable aleatoria relacionada con Ω, como: X1: "El cuadrado del número de soles observado" X2: "El número de soles observados menos el número de águilas", etc., etc. La parte CRUCIAL consiste en determinar CON QUÉ PROBABILIDAD TOMA ESTA VARIABLE SUS VALORES. Probabilidad de un evento A (Probabilidad clásica)
P ( A) =
#A #Ω
Con esta definición
P(X=0)=1/8 P(X=1)=3/8 P(X=2)=3/8 P(X=3)=1/8 Como podemos observar, todos los valores posibles de la variable aleatoria tienen asignada una probabilidad, misma que genera la llamada función de masa de probabilidad o función de densidad de probabilidad. Esta función es la que nos proporcionará la probabilidad asignada a cada valor que toma la variable aleatoria, si es discreta, o la probabilidad asignada a un intervalo de valores de la variable aleatoria, si ésta es continua. Las dos únicas condiciones que debe cumplir una función de probabilidad son: 1)
f(x) > 0 para toda x ∞
∞
2)
∑ f ( x ) = 1 si X es discreta o ∫ f(x)dx = 1 i =1
i
si X es continua
-∞
es claro que se podrían definir una infinidad de funciones que cumplieran con estas dos condiciones, lo importante de una función de densidad es, qué tipo de fenómenos reales modela su variable aleatoria asociada. En nuestro ejemplo, definamos nuestra función de densidad como:
1/8 3/8 f(x) = 3/8 1/8 0
si x = 0 si x = 1 si x = 2 si x = 3 en cualquier otro lado
claramente, esta función cumple las dos condiciones impuestas sobre una densidad, a saber, f(x)>0 y f(x=0) + f(x=1) + f(x=2) + f(x=3) = 1/8 + 3/8 + 3/8 +1/8 =1. Asociada a una función de densidad está la función de distribución también conocida como función de distribución acumulada, F(x), definida como:
x ∑ f(y i ) si X es discreta F(x) = P(X ≤ x) = xi =1 f(u)du si X es continua −∫∞ En nuestro ejemplo:
1/8 4/8 F(x) = 7/8 1
si x ≤ 0 si x ≤ 1 si x ≤ 2 si x ≥ 3
Entonces, como habíamos comentado, lo importante es qué fenómenos modela cada variable aleatoria. Variables aleatorias discretas. Bernoulli (p) Esta es una variable aleatoria con las siguientes características: 1) El ensayo aleatorio sólo puede tener dos resultados posibles, denominados como ÉXITO o FRACASO y, generalmente, denotados con “1” y “0”.
2) La probabilidad de obtener el éxito es p y 3) La probabilidad de obtener el fracaso es 1-p = q La función de densidad de probabilidad asociada a esta variable es:
f(x) = p x (1 − p)1− x x = 0,1 Fenómenos que modela la Bernoulli -Nacimiento de un niño -Lanzamiento de una moneda, una sola vez. -Observación de una cara particular al lanzar una vez un dado -Presencia de enfermedad en un individuo.
Binomial(n,p) Si consideramos n ensayos Bernoulli y nos preguntamos por la probabilidad de que x de estos ensayos sean éxitos, daremos origen la variable aleatoria denominada Binomial. Cuyas características son: 1) Se realizan n ensayos Bernoulli INDEPENDIENTES. 2) Cada ensayo tiene probabilidad de éxito p y de fracaso 1-p 3) Nos interesa saber cuál es la probabilidad de obtener x éxitos 0≤x≤n La función de densidad de probabilidad asociada a esta variable aleatoria es:
n f(x) = p x (1 − p) n − x x = 0,1,..., n x con:
n n! = las combinaciones de n “objetos” tomados x (n − x)! x! de x en x La Binomial modela fenómenos como 1) Número de hijos hombres o mujeres de n nacimientos 2) Número de “soles” o “águilas” en n lanzamientos de una moneda 3) Observación de una cara al lanzar n veces un dado 4) Número de enfermos por un padecimiento, etc. El ejemplo que presentamos de lanzar 3 veces una moneda “honesta”, tiene una distribución binomial (3,1/2). Observemos que: 3 1 0 1 0−3 1 − = 1/8 si x = 0 0 2 2 3 1 1 1 1−3 1 − = 3/8 si x = 1 1 2 2 f(x) = 2 2 −3 3 1 1 − 1 = 3/8 si x = 2 2 2 2 3 3− 3 3 1 1 1− = 1/8 si x = 3 3 2 2 que es la función de densidad que habíamos obtenido anteriormente.