Story Transcript
Tema 1. Modelo de dise˜ no de experimentos (un factor)
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
1
Introducci´ on El objetivo del An´alisis de la Varianza es estudiar si existe relaci´on entre el valor medio de una variable respuesta o caracter´ıstica (por ej. el nivel de contaminaci´ on) y una variable cualitativa, atributo o factor (por ej. la localizaci´ on del lugar de medida). Ejemplo 1.1: Se mide la contaminaci´ on de un r´ıo analizando la cantidad de ox´ıgeno que contiene en disoluci´ on el agua. Se toman muestras en cuatro lugares diferentes del r´ıo (a 10, 25, 50 y 100 km. del nacimiento), obteni´endose: A 100 A 50 A 25 A 10
km. km. km. km.
4,8 6 5,9 6,3
5,2 6,2 6,1 6,6
5 6,1 6,3 6,4
4,7 5,8 6,1 6,4
5,1 6 6,5
Queremos averiguar si existen diferencias significativas en el nivel medio de contaminaci´ on a distintas alturas del cauce. Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
2
Tenemos una muestra de n = 19 elementos que se diferencian en un factor. En cada elemento de la muestra observamos una caracter´ıstica continua (Y ), que var´ıa aleatoriamente de un elemento a otro. Otros posibles ejemplos: • ¿Existe diferencia entre el salario medio mensual entre hombre
y mujer? • ¿Existen diferencias entre las calificaciones medias de
estudiantes de la misma asignatura, pero de distintos grupos? • Diferencias entre el consumo medio de carburante en coches
de la misma categor´ıa pero distintas marcas. Para determinar si hay diferencias significativas entre las respuestas medias a distintos niveles del factor, el An´alisis de la Varianza descompone la variabilidad de un experimento en componentes independientes que se asignan a causas distintas. Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
3
El modelo En el Ejemplo 1.1 el factor toma I = valores (los niveles, grupos o tratamientos del factor). Se mide la cantidad de ox´ıgeno en disoluci´on n1 = veces a 100 km. del nacimiento del r´ıo, n2 = veces a 50 km., n3 = veces a 25 km. y n4 = veces a 10 km. ni = no de observaciones de la respuesta para el nivel i del factor Si n1 = n2 = . . . = nI se dice que el dise˜ no es equilibrado. I X ni = no total de observaciones de Y n= i=1
yij = j-´esimo valor observado de la respuesta en el nivel i, i = 1, . . . , I , j = 1, . . . , ni Ejemplo 1.1 (cont.):
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
4
Ejemplo 1.1 (cont.): 6.5
y
6 5.5 5 4.5
1
2
3
4
i
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
5
Suponemos que, en el nivel i del factor, la respuesta Y oscila aleatoriamente en torno a un nivel desconocido µi , la media de la poblaci´on i-´esima: E (Yij ) = µi . Cada observaci´ on yij resulta de una perturbaci´on aleatoria uij en torno al valor medio µi . El modelo de Analisis de la Varianza (ANOVA) unifactorial es el modelo lineal Yij = µi + Uij ,
para j = 1, . . . , ni , i = 1, . . . , I ,
con las siguientes hip´otesis b´asicas del modelo: a) E (Uij ) = 0 para todo i, j (linealidad) b) Var(Uij ) = σ 2 para todo i, j (homocedasticidad) c) E (Uij Ukl ) = 0 para todo i 6= k, j 6= l (independencia) d) Uij ∼ Normal para todo i, j (normalidad) A las Uij tambi´en se las llama error experimental. Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
6
Las anteriores hip´otesis equivalen a a) E (Yij ) = µi para todo i, j b) Var(Yij ) = σ 2 para todo i, j c) E (Yij Ykl ) = 0 para todo i 6= k, j 6= l d) Yij ∼ Normal para todo i, j Seg´ un el modelo las ni observaciones yi1 , yi2 , . . . , yini de la poblaci´on i son una muestra aleatoria de una N(µi , σ 2 ). Si estas hip´otesis no se cumplen las conclusiones del An´alisis de la Varianza pueden ser incorrectas.
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
7
Estimaci´ on de los par´ ametros del modelo El modelo ANOVA con un factor depende de I + 1 par´ametros desconocidos: las medias µ1 ,. . . ,µI y la varianza com´ un σ 2 . Los estimamos mediante el m´etodo de m´axima verosimilitud (MV): µ ˆi =
ni 1 X yij = y¯i· ni j=1
y I
σ ˆ2 =
n
I
i X ni 1 XX (yij − y¯i· )2 = s 2, n n i
i=1 j=1
i=1
Pni
donde si2 = j=1 (yij − y¯i· )2 /ni es la varianza muestral en la poblaci´on i-´esima. Por tanto, σ ˆ 2 es la media de las si2 ponderada por la proporci´on de observaciones en cada nivel del factor.
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
8
Ejemplo 1.1 (cont.): i 1 2 3 4
4,8 6 5,9 6,3
5,2 6,2 6,1 6,6
yij 5 6,1 6,3 6,4
ni 4,7 5,8 6,1 6,4
si2
y¯i·
5,1 6 6,5 n=
σ ˆ2 =
Los residuos del modelo son valores observados de las perturbaciones Uij : eij = yij − y¯i· En general en todos los temas de esta asignatura se define Residuo (eij ) = Valor observado (yij ) - Valor previsto (ˆ yij )
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
9
Ejemplo 1.1 (cont.): i 1
eij
2 3 4 Los n residuos del modelo verifican las ecuaciones de restricci´on ni X eij = 0, i = 1, . . . , I . j=1
Es decir, de los n residuos s´ olo n − I son linealmente independientes: los residuos tienen n − I grados de libertad. Grados de libertad (g.l.) de los residuos = N´ umero total de residuos − − N´ umero de restricciones lineales entre ellos = n − I Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
10
Propiedades de los estimadores de los par´ ametros ni 1 X σ2 Y¯i· = Yij ∼ N µi , ni ni j=1
nˆ σ2 ∼ χ2n−I ⇒ σ ˆ 2 no es centrado σ2 Un estimador insesgado de σ 2 es la varianza residual sR2 =
ni I 1 XX n σ ˆ2, eij2 = n−I n−I i=1 j=1
que verifica (n − I )sR2 ∼ χ2n−I . σ2 Ejemplo 1.1 (cont.): Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
11
Usando estas propiedades obtenemos intervalos de confianza para los par´ametros: r 1 IC1−α (µi ) = y¯i· ± tn−I ;α/2 sR ni ! 2 (n − I ) sR (n − I ) sR2 2 IC1−α (σ ) = , χ2n−I ;α/2 χ2n−I ;1−α/2 Ejemplo 1.1 (cont.):
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
12
El contraste de igualdad de medias
Bajo el modelo ANOVA unifactorial queremos contrastar H0 :
µ1 = µ2 = . . . = µ I = µ (todas las medias son iguales, el factor no influye)
H1 :
µi 6= µj para alg´ un par i 6= j. (las medias difieren en al menos dos de los niveles, el factor influye)
El contraste compara las diferencias entre medias muestrales con la variabilidad experimental, medida por sR2 , para decidir si ´esta ha podido generar esas diferencias o no.
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
13
La descomposici´ on de la variabilidad Cada dato yij se puede expresar as´ı yij = y¯·· + (¯ yi· − y¯·· ) + eij donde
I
n
i 1 XX yij y¯·· = n
i=1 j=1
es la media global e y¯i· − y¯·· es la modificaci´ on debida al grupo. Esto permite descomponer la variabilidad entre los datos y la media global en dos t´erminos: la variabilidad entre las medias por grupos y la media general, y la variabilidad residual, o variabilidad dentro del grupo.
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
14
De hecho, se cumple que VT = VE + VNE, donde el t´ermino de la izquierda es la variabilidad total VT =
ni I X X (yij − y¯·· )2 , i=1 j=1
VE =
I X
ni (¯ yi· − y¯·· )2
i=1
denota la variabilidad explicada por el modelo o por las diferencias entre niveles del factor y VNE =
ni I X X
eij2 = (n − I )sR2
i=1 j=1
denota la variabilidad no explicada o residual. Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
15
Las propiedades de los estimadores de los par´ametros implican que VNE ∼ χ2n−I . σ2 Adem´as, cuando la hip´ otesis nula H0 de igualdad de medias es cierta, se verifica que VE ∼ χ2I −1 σ2 VNE VE y 2 son independientes entre s´ı. y los t´erminos σ2 σ Esto nos permite construir el siguiente contraste.
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
16
La tabla ANOVA y el contraste Los t´erminos de la descomposici´ on de la variabilidad se disponen en la tabla ANOVA Fuentes de variaci´on Explicada
Suma de cuadrados I X VE = ni (¯ yi· − y¯·· )2
Grados de libertad I −1
Varianzas se2 =
i=1
Residual
ni I X X
eij2
n−I
(yij − y¯·· )2
n−1
VNE =
VE I −1
sR2
i=1 j=1
Total
ni I X X i=1 j=1
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
sy2 =
VT n−1
Tema 1: Dise˜ no de experimentos (un factor)
17
Si la hip´otesis nula de igualdad de medias H0 : µ1 = µ2 = . . . = µI es cierta entonces s2 F = e2 ∼ FI −1,n−I . sR Una regi´on de rechazo para el contraste H0 :
µ1 = µ2 = . . . = µI = µ
H1 :
µi 6= µj para alg´ un par i 6= j.
al nivel de significaci´on α es R = {F > FI −1,n−I ,α }. Observemos que, para I = 2 poblaciones, este contraste es matem´aticamente equivalente al contraste t de Student que compara dos medias de distribuciones normales homoced´asticas. Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
18
Ejemplo 1.1 (cont.):
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
19
Ejemplo 1.2: Se examina el contenido de azufre en cinco yacimientos de carb´on en Texas. Se toman muestras aleatorias de cada uno de los yacimientos y se analizan, obteni´endose los siguientes datos del porcentaje de azufre por muestra. Yacimientos Contenido de azufre
1 1.51 1.92 1.08 2.04 2.14 1.76 1.17
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
2 1.69 0.64 0.90 1.41 1.01 0.84 1.28 1.59
3 1.56 1.22 1.32 1.39 1.33 1.54 1.04 2.25 1.49
4 1.30 0.75 1.26 0.69 0.62 0.90 1.20 0.32
5 0.73 0.80 0.90 1.24 0.82 0.72 0.57 1.18 0.54 1.30
Tema 1: Dise˜ no de experimentos (un factor)
20
Ejemplo 1.2 (cont.): Contrastar la igualdad de niveles medios de azufre en los cinco yacimientos.
2
y
1.5
1
0.5
0
1
2
3
4
5
6
i Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
21
El coeficiente de determinaci´ on Una medida relativa de la variabilidad explicada por los grupos o niveles del factor es el coeficiente de determinaci´ on R2 =
VE . VT
Es la proporci´on de variabilidad total de las observaciones y explicada por el modelo lineal establecido. Observaci´ on: 0 ≤ R 2 ≤ 1 Ejemplo 1.1 (cont.): Ejemplo 1.2 (cont.):
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
22
An´ alisis de las diferencias entre medias Si aceptamos H0 en el contraste H0 :
µ1 = µ2 = . . . = µI = µ
H1 :
µi 6= µj para alg´ un par i 6= j.
entonces estimamos la media global µ mediante y¯·· . Bajo las hip´otesis b´asicas del modelo ANOVA unifactorial, un intervalo de confianza para µ al nivel de confianza 1 − α es sy IC(µ) = y¯·· ∓ tn−1,α/2 √ , n Observaci´ on: Bajo H0 un estimador insesgado de σ 2 = Var(Y ) es sy2 .
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
23
Si se rechaza H0 queremos determinar qu´e parejas de medias son distintas entre s´ı y estimar las diferencias µi − µj . Utilizando que y¯i· − y¯j· − (µi − µj ) q ∼ tn−I , sR n1i + n1j construimos un intervalo de confianza para µi − µj s " # 1 1 IC1−α (µi − µj ) = y¯i· − y¯j· ∓ tn−I ;α/2 sR + . ni nj Tambi´en podemos contrastar H0 : µi = µj frente a H1 : µi 6= µj a nivel de significaci´on α. La regi´ on de rechazo es y¯ − y¯ − (µ − µ ) i· j· i j q > t . R = n−I ;α/2 1 s + 1 R
ni
nj
Esto equivale a rechazar H0 : µi = µj si 0 ∈ / IC1−α (µi − µj ). Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
24
Ejemplo 1.1 (cont.):
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
25
Contrastes m´ ultiples I I! = parejas de medias 2 2!(I − 2)! distintas µi , µj . Luego podemos realizar c contrastes H0 : µi = µj .
Es posible formar c =
Ejemplo 1.1 (cont.):
Supongamos que tenemos I = 3 poblaciones y hemos rechazado H0 : µ1 = µ2 = µ3 = µ en el modelo Yij = µi + Uij , para i = 1, 2, 3, j = 1, . . . , ni . Entonces tenemos que decidir si µ1 6= µ2 , o si µ2 6= µ3 , o si µ1 6= µ3 .
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
26
Cuando tomo 100 muestras de Y puedo construir 100 intervalos de confianza para µ1 − µ2 , para µ3 − µ2 y para µ1 − µ3 : y1(1) , . . . , yn(1) y1(2) , . . . , yn(2) y1(3) , . . . , yn(3) .. .
→ IC(1) 0.95 (µ1 − µ2 ) → IC(2) 0.95 (µ1 − µ2 ) → IC(3) 0.95 (µ1 − µ2 ) .. .
IC(1) 0.95 (µ3 − µ2 ) IC(2) 0.95 (µ3 − µ2 ) IC(3) 0.95 (µ3 − µ2 ) .. .
IC(1) 0.95 (µ1 − µ3 ) IC(2) 0.95 (µ1 − µ3 ) IC(3) 0.95 (µ1 − µ3 ) .. .
y1(100) , . . . , yn(100) → IC(100) IC(100) IC(100) 0.95 (µ1 − µ2 ) 0.95 (µ3 − µ2 ) 0.95 (µ1 − µ3 ) Aprox. 95 de los 100 intervalos contienen a µ1 − µ2 .
Aprox. 95 de los 100 intervalos contienen a µ3 − µ2 .
Aprox. 95 de los 100 intervalos contienen a µ1 − µ3 .
Puede que s´ olo para 90 de las 100 muestras se verifique simult´ aneamente que µ1 − µ2 ∈ IC0.95 (µ1 − µ2 ), µ3 − µ2 ∈ IC0.95 (µ3 − µ2 ) y µ1 − µ3 ∈ IC0.95 (µ1 − µ3 ).
Se puede razonar igual con los contrastes H0 : µi = 6 µj al nivel α. Utilizamos el m´etodo de Bonferroni para calcular intervalos de confianza o contrastes m´ ultiples. Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
27
Buscamos el nivel individual α tal que para el 95%(=1 − αT =nivel global) de las muestras se verifique simult´aneamente que µ1 − µ2 ∈ IC1−α (µ1 − µ2 ), µ3 − µ2 ∈ IC1−α (µ3 − µ2 ) y µ1 − µ3 ∈ IC1−α (µ1 − µ3 ). En el m´etodo de Bonferroni se toma α = αT /c = 0.05/3, pues 1 − αT = P {µ1 − µ2 ∈ IC1−α (µ1 − µ2 ), µ3 − µ2 ∈ IC1−α (µ3 − µ2 ), µ1 − µ3 ∈ IC1−α (µ1 − µ3 )} ⇒ ⇒ αT = P {µ1 − µ2 ∈ / IC1−α (µ1 − µ2 ) ´o µ3 − µ2 ∈ / IC1−α (µ3 − µ2 ) ´ o µ1 − µ 3 ∈ / IC1−α (µ1 − µ3 )} ≤ P{µ1 − µ2 ∈ / IC1−α (µ1 − µ2 )} +P{µ3 − µ2 ∈ / IC1−α (µ3 − µ2 )} +P{µ1 − µ3 ∈ / IC1−α (µ1 − µ3 )} = cα Observaci´ on: Quiz´a rechacemos H0 : µ1 = µ2 = . . . = µI en ANOVA y no encontremos diferencias entre ning´ un µi , µj con Bonferroni, pues es un m´etodo conservador si c es grande. Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
28
Ejemplo 1.1 (cont.): Tomo αT = 0.05. Como c = α tenemos que α = 0.05 6 = 0.0083 ⇒ 2 = 0.0041. √
I 2
= 6,
r
1 1 + ] 5 4 = [−1.3874, −0.7426] ⇒ Rechazo H0 : µ1 = µ2
IC0.9917 (µ1 − µ2 ) = [¯ y1· − y¯2· ∓ t15,0.0041 0.0266
IC0.9917 (µ1 − µ3 ) = [−1.42, −0.82] ⇒ Rechazo H0 : µ1 = µ3 IC0.9917 (µ1 − µ4 ) = [−1.78, −1.18] ⇒ Rechazo H0 : µ1 = µ4 IC0.9917 (µ2 − µ3 ) = [−0.38, 0.27] ⇒ No rechazo H0 : µ2 = µ3 IC0.9917 (µ2 − µ4 ) = [−0.74, −0.09] ⇒ Rechazo H0 : µ2 = µ4 IC0.9917 (µ3 − µ4 ) = [−0.66, −0.06] ⇒ Rechazo H0 : µ3 = µ4 Con un nivel global de confianza del 95% podemos afirmar que µ1 < µ2 , µ3 < µ4 , pero no rechazamos que µ2 = µ3 .
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
29
Diagnosis del modelo Consiste en estudiar si los datos de nuestro problema son coherentes con las hip´ otesis b´asicas del modelo y qu´e problemas se derivan si no se verifica alguna. La diagnosis se realiza a trav´es del an´alisis de los residuos eij . Podemos obviar que los residuos no son independientes si el tama˜ no total muestral n es grande comparado con el n´ umero de poblaciones, I . Un primer paso en el an´alisis de los residuos consiste en la representaci´on gr´afica de los mismos, por ejemplo, mediante diagramas de puntos si el tama˜ no muestral n es peque˜ no (n < 20) o, en caso contrario, mediante histogramas o diagramas de cajas. Esto permite verificar si los residuos incumplen la hip´otesis de normalidad y si existen datos at´ıpicos. Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
30
Ejemplo 1.1 (cont.): Histograma de los residuos
3 2.5 2 1.5 1 0.5 0
−0.3
−0.2
−0.1
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
0
0.1
0.2
0.3
Tema 1: Dise˜ no de experimentos (un factor)
31
Ejemplo 1.2 (cont.): Histograma de los residuos
1.5
1
0.5
0
−0.5
0
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
0.5 Tema 1: Dise˜ no de experimentos (un factor)
32
Ejemplo 1.2 (cont.): Si retiramos el dato at´ıpico 2.25 de la poblaci´on 3, Fuentes de variaci´on Explicada Residual Total
Suma de cuadrados VE = 3.4855 VNE = 3.7949 VT = 7.2804
g.l. 4 36 40
Varianzas se2 = 0.8714 sR2 = 0.1026
F F = 8.4958
F4,36,0.05 = 2.63 ⇒ Seguimos rechazando la igualdad del contenido medio de azufre en las cinco minas de carb´ on. Cuando existen datos at´ıpicos (outliers, valores anormalmente grandes o peque˜ nos comparados con el resto de observaciones), se debe buscar la causa de esta discrepancia. Si es debido a un error en la observaci´on de la muestra o por cambios inesperados en las condiciones experimentales, quiz´a debamos eliminar el dato. Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
33
Ejemplo 1.2 (cont.): Histograma de los residuos tras retirar el dato at´ıpico
0.15
0.1
0.05
0
−0.6
−0.4
−0.2
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
0
0.2
0.4
0.6
Tema 1: Dise˜ no de experimentos (un factor)
34
Un gr´afico que permite evaluar la normalidad de los residuos es el diagrama probabil´ıstico normal, en el que se representan los residuos ordenados de menor a mayor frente a los correspondientes estad´ısticos de orden normales. Bajo la hip´ otesis de normalidad los puntos dibujados se ajustan aproximadamente a una l´ınea recta. Ejemplo 1.1 (cont.): Gr´afico probabil´ıstico normal de los residuos 0.98 0.95 0.90 0.75 0.50 0.25 0.10 0.05 0.02 −0.2
−0.1
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
0
0.1
0.2
Tema 1: Dise˜ no de experimentos (un factor)
35
Ejemplo 1.2 (cont.): Gr´afico probabil´ıstico normal de los residuos (sin retirar at´ıpico)
0.99 0.98 0.95 0.90 0.75 0.50 0.25 0.10 0.05 0.02 0.01 −0.5 Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
0
0.5 Tema 1: Dise˜ no de experimentos (un factor)
36
Para comprobar la hip´ otesis de normalidad de manera m´as rigurosa tambi´en podemos hacer alg´ un contraste de bondad de ajuste. El fallo de la hip´otesis de normalidad afecta al c´alculo de intervalos de confianza para σ 2 , aunque no al contraste de igualdad de medias ni al an´alisis de las diferencias entre medias. El an´alisis de la varianza es robusto frente a desviaciones de la normalidad. Para comprobar la hip´ otesis de homocedasticidad representamos los residuos eij frente a los valores previstos yˆij = y¯i· . As´ı comprobamos que la variabilidad no depende del nivel medio de la respuesta. La heterocedasticidad tambi´en influye en la estimaci´on de σ 2 . Respecto a los contrastes de igualdad de medias, se consideran v´alidos si el dise˜ no es bastante equilibrado.
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
37
Ejemplo 1.1 (cont.): 0.3 0.2
Residuos
0.1 0 −0.1 −0.2 −0.3 −0.4 4.5
5
5.5 6 Valores previstos
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
6.5
Tema 1: Dise˜ no de experimentos (un factor)
38
Ejemplo 1.2 (cont.): 0.8 0.6
Residuos
0.4 0.2 0 −0.2 −0.4 −0.6 0.8
1
1.2 1.4 Valores previstos
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
1.6
1.8
Tema 1: Dise˜ no de experimentos (un factor)
39
Si las varianzas de los residuos var´ıan marcadamente como funci´on del nivel medio de la respuesta, o se detectan desviaciones importantes respecto a la normalidad, se puede probar a transformar la variable respuesta. Algunas transformaciones frecuentes son log(y ) o y k . Entonces se contrastar´ıa que el nivel medio de la respuesta transformada no depende del nivel del factor, pero ya no H 0 : µ1 = . . . = µ I . Ver Ejemplo∗ 5 de ANOVA con Excel.
Estad´ıstica (CC. Ambientales). Profesora: Amparo Ba´ıllo
Tema 1: Dise˜ no de experimentos (un factor)
40