Story Transcript
Ana Justel - 2015
TEMA 2: DISEÑO DE EXPERIMENTOS Objetivo: Proponer modelos para analizar la influencia de varios factores sobre un fenómeno que nos interesa estudiar. 1 Introducción 1. I t d ió a los l diseños di ñ de d experimentos i t factoriales f t i l 2. Diseño con dos factores 3. Diseño con dos factores e interacción 4. Otros diseños de experimentos
1
Ana Justel - 2015
1. Introducción a los diseños de experimentos factoriales Se trata de realizar comparaciones, lo más homogéneas posibles, para identificar los factores (variables categóricas) que explican la variabilidad entre las respuesta a un fenómeno que nos interesa estudiar. Ejemplos:: Ejemplos
A A. En la fabricación de un vino ecológico se trata de ver si la producción depende del tipo de suelo y de si se utiliza o no una fertilización natural.
B. En un estudio sobre la sensibilización de la población de la
UE frente al cambio climático, se quiere ver si depende del sexo, para ello se consideran individuos de todos los países.
Se comparan los niveles medios de respuesta en cada grupo 2
Ana Justel - 2015
1. Introducción a los diseños de experimentos factoriales
DISEÑOS FACTORIALES Cuando se obtienen observaciones para todos los niveles de cada factor cruzados con todos los niveles de todos los otros factores.
Algunos g ejemplos: j p Modelo con dos factores:
yij i uij yijk i j uijk
Modelo con tres factores:
yijkl i j k uijkl
Modelo con dos factores con interacción:
yijk i j ( )ij uijk
Modelo con un factor:
Modelo con tres factores que interaccionan:
yijkl i j k ( )ij ( )ik ( ) jjk ( )ijkj uijkl j 3
Ana Justel - 2015
1. Introducción a los diseños de experimentos factoriales
Los datos que tenemos que obtener para poder cruzar todos los niveles en un diseño con dos factores para el estudio de sensibilización sobre cambio climático son: CR
Y1 28 Y2 28 1,…,28
2 x 28
Si consideramos también el factor educación a dos niveles: Con estudios universitarios Sin estudios universitarios CR Y1 28 1 Y2 28 1
CR Y1 28 2 Y2 28 2
2 x 28 x 2
Y2 1 2 es la respuesta p de un hombre alemán con estudios universitarios 4
Ana Justel - 2015
1. Introducción a los diseños de experimentos factoriales
Si tenemos t dos d factores f t con I y J niveles, i l los l datos d t son:
yij es la respuesta de un individuo del nivel i-ésimo del primer factor y jésimo del segundo factor
Podemos calcular medias por filas, por columnas y de todos los datos
y i
es la media de todos los datos del grupo
i (i =1,…, I)
y j
es la media de todos los datos del grupo
j (j =1,…, J)
y
es la media de todos los datos
Si podemos replicar el experimento K veces, veces los datos son:
yijk es la respuesta del individuo k-ésimo a nivel i-ésimo del primer factor y
j-ésimo ésimo del segundo factor
Si hay un factor más con k-niveles los datos sin replicar son:
yijk es la respuesta del individuo i-ésimo del primer factor, j-ésimo del
segundo factor y k-ésimo del tercer factor
5 5
Ana Justel - 2015
1. Introducción a los diseños de experimentos factoriales
Ejemplo de una planta desalinizadora Para la construcción de una planta desalinizadora se quiere adquirir la maquinaria que produzca menos emisiones de CO2 por unidad fija desalada. Por las características de estas máquinas se cree que las emisiones pueden depender de la cantidad de sal que contenga el agua. Cinco fabricantes ofrecen sus productos y se realiza un experimento para determinar cuál es la mejor oferta. ¿Qué máquina es más eficiente? fi i ? y i Salinidad Poca Bastante Mucha Aparentemente Máquina I
24
26
29
26,3
Máquina II
27
30
32
29 6 29,6
Máquina III
26
27
30
27,6
Máquina IV
25
28
28
27,0
Máquina V
28
29
31
29,3
y j “la máquina” es factor principal “La salinidad del agua” es un factor instrumental i t t l (bloque)
26
28
30
y 28
la mejor es la máquina I
Ninguna es más eficiente que las demás en todas las condiciones de salinidad
¿Las emisiones de CO2 dependen de la máquina empleada? ¿Qué máquina es más eficiente? ¿Influye la salinidad del agua? Si volviéramos a hacer el experimento, ¿consideraríamos las tres salinidades?
¿Qué explica más las diferencias entre los resultados resultados, la salinidad del agua o la máquina? 6
Ana Justel - 2015
2. Diseño con dos factores MODELO de DISEÑO de EXPERIMENTOS con DOS FACTORES
yijk i j uijk
i =1,…, I
j =1,…, J
k =1,…, K I J y se cumple que i 1 i j 1 j 0
es la respuesta media de toda la población
i
es el efecto sobre la respuesta del nivel i del primer factor
j es el efecto sobre la respuesta del nivel j del segundo factor
uijk es el error (o perturbación) aleatorio debido al resto de variables
que influyen en la respuesta del individuo k-ésimo a niveles i y j de los factores
Hipótesis (condiciones) que asumimos que cumplen los datos:
yijk N ( i j , 2 )
independientes 7
Ana Justel - 2015
2. Diseño con dos factores
METODOLOGÍA
8
Ana Justel - 2015
2. Diseño con dos factores
ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO Estimadores de m, ai y bj
ˆ ˆi ˆ j
y yi y y j y
1 I J K y yijk IJK i1 j1 k1 1 J K y yijk i JK j1 k1 1 I K y yijkk j IK i1 k1
Residuos del modelo
eijk yijk yi y j y Grados de libertad de los residuos IJK I J 1 Estimador de la varianza s2
suma de residuosal cuadrado 2 ˆ S R grados de libertad de los residuos 2 ( y y y y ) ijk i j i j k IJK I J 1 9
Ana Justel - 2015
2. Diseño con dos factores
Ejemplo de una planta desalinizadora Continuación… Se trata de elegir entre 5 máquinas y se consideran 3 niveles de salinidad y i
Salinidad S li id d
Poca P
Bastante B t t
Mucha M h
Máquina I
24
26
29
26,3
Máquina II
27
30
32
29,6
Máquina III
26
27
30
27,6
Máquina IV
25
28
28
27,0
Má i V Máquina
28
29
31
29 3 29,3
y j
26
28
30
y 28
S R2 0 , 583
¿Las emisiones de CO2 dependen de la máquina empleada? H0: α1 = α2 … = αI = 0 ¿Qué máquina es más eficiente? Aparentemente la Máquina I, pero no sabemos si también la Máquina IV… ¿Influye la salinidad del agua? H0: β1 = β2 … = βJ = 0 Si volviéramos a hacer el experimento, ¿consideraríamos los tres niveles de salinidad? ¿Qué explica ¿ p más las diferencias entre los resultados,, la salinidad del agua g o la máquina? q 10
Ana Justel - 2015
2. Diseño con dos factores
Test ANOVA (¿el factor influye en la respuesta?) H0: Los efectos del factor sobre la respuesta p son cero p para todos los niveles (el factor NO influye) H1: Algún efecto es distinto de cero (el factor SI influye)
(Cuando H0 y las hipótesis del modelo son ciertas)
Para el otro factor se cambia: ap por b I por J
F FI 1,IJK I J 1, 11
Ana Justel - 2015
2. Diseño con dos factores
Tabla ANOVA En la tabla ANOVA se representa la idea de que la varianza se puede descomponer en las distintas fuentes que la originan
IJK I J+1 IJK-I-J+1
IJK-I-J+1
IJK-1
12
Ana Justel - 2015
2. Diseño con dos factores
Descomposición de la variabilidad del experimento
SCE( ) JK i( yi y )2 SCE( ) IK j ( y j y )2 2 SCT i j k ( yijk y )
2 SCR i j k ( yijk yi y j y )
13
Ana Justel - 2015
2. Diseño con dos factores
Ejemplo de una planta desalinizadora Continuación… Se trata de elegir entre 5 máquinas y se consideran 3 niveles de salinidad y i
y j
S R2 0 , 583
y 28
¿Las emisiones de CO2 dependen de la máquina empleada? Rechazamos H0. Hemos encontrado evidencia de que si dependen de la máquina ¿Qué máquina es más eficiente? Aparentemente la Máquina I, pero no sabemos si también la Máquina IV… ¿Influye la salinidad del agua? Rechazamos H0. Hemos encontrado evidencia de que influye el tipo de agua Si volviéramos a hacer el experimento, ¿consideraríamos los tres niveles de salinidad? ¿? ¿Qué explica más las diferencias entre los resultados, la salinidad del agua o la máquina? ¿? 14
Ana Justel - 2015
2. Diseño con dos factores
¿Cómo evaluamos si el modelo propuesto sirve para explicar la variabilidad en la respuesta?
COEFICIENTE DE DETERMINACIÓN Es la proporción ó de la variabilidad observada en los datos que queda explicada por el modelo
R2=SCE/SCT SCE/SCT =(SCE(α =(SCE( α)/SCT)+(SCE( )/SCT)+(SCE(β β)/SCT)
15
Ana Justel - 2015
2. Diseño con dos factores
Ejemplo de una planta desalinizadora Continuación… Se trata de elegir entre 5 máquinas y se consideran 3 niveles de salinidad
R2 = R2(a) + R2(b) = 0.362 0 362 + 0 0.571 571 = 0 0.933 933 ¿Qué habría pasado si no hubiéramos tenido en cuenta la distinta salinidad del agua? yi
y j
S R2 0 ,583
y 28
Con los mismos datos no habríamos encontrado la evidencia 16
Ana Justel - 2015
2. Diseño con dos factores
Consejos de actuación… actuación… 1. En general ,cruzar todos los factores que creemos que pueden influir en la respuesta es una herramienta más potente para encontrar la evidencia 2 Si algún 2. l ú ffactor no influye, i fl es mejor j ((aunque no iimprescindible) i dibl ) eliminarlo del análisis y repetir el ANOVA. Los datos no cambian así que la información es la misma cambian, misma. Lo que disminuye es el número de parámetros desconocidos. Por tanto, nuestro análisis será más potente eliminando factores no influyentes 3. Los modelos con dos factores, se pueden generalizar para considerar todos los factores necesarios para analizar el experimento p correctamente 17
Ana Justel - 2015
2. Diseño con dos factores
Comparaciones de dos niveles Si hay h evidencia id i para rechazar h l hipótesis la hi ót i nula l para ell factor f t podemos preguntarnos ¿son iguales los efectos de los niveles i y j?
^
Si el cero no está dentro del intervalo, entonces rechazamos la hipótesis nula
18
Ana Justel - 2015
2. Diseño con dos factores
Comparaciones dos a dos Si queremos h hacer comparaciones i múltiples, últi l podemos d aplicar li lla corrección de BONFERRONI
19
Ana Justel - 2015
2. Diseño con dos factores
Ejemplo de una planta desalinizadora Continuación… Se trata de elegir entre 5 máquinas y se consideran 3 niveles de salinidad
La tabla ANOVA que se obtiene con el SPSS es:
20
Ana Justel - 2015
2. Diseño con dos factores
Ejemplo de una planta desalinizadora Continuación… Se trata de elegir entre 5 máquinas y se consideran 3 niveles de salinidad
21
Ana Justel - 2015
2. Diseño con dos factores
Ejemplo de una planta desalinizadora Continuación… Se trata de elegir entre 5 máquinas y se consideran 3 niveles de salinidad
22
Ana Justel - 2015
2. Diseño con dos factores
DIAGNÓSTICO DE LAS HIPÓTESIS DEL MODELO ¿Hay alguna evidencia CLARA en contra de alguna d las de l hipótesis hi ót i del d l modelo d l que hemos h asumido? id ? Cuando las hipótesis del modelo no se pueden “comprobar” porque hay pocas replicas li (K b bajo) j ) o muchos h niveles i l ( (I (IxJ I IxJ J alto) alto), l ) se analizan li llos residuos id Los residuos del modelo son aproximadamente:
Se estudian con: N Normalidad lid d y media di cero: histograma, gráfico probabilístico normal (Q-Q o P-P plot), test de normalidad (Kolmogorov-Smirnov (K l S i o Shapiro-Wilk)
Cuando alguna de estas características falla es porque las hipótesis p q que hemos asumido en los datos no son ciertas
El 95% de los residuos estandarizados deben estar entre -2 y 2, en una nube de puntos sin forma
Homocedasticidad y linealidad: Diagrama de dispersión (residuos
estandarizados vs. Valor pronosticado)
Datos atípicos: p box-plot p 23
Ana Justel - 2015
2. Diseño con dos factores
Gráficos de Residuos frente a Valores pronosticados
24
Ana Justel - 2015
2. Diseño con dos factores
Con los datos publicados sobre la reserva total de agua embalsada en cada una de las cuencas de la Península en los meses de enero de 2004 y 2005,
¿hay alguna evidencia iniciado h l id i de d que en 2005 pudo d haberse h b i i i d un periodo de sequía?
ANOVA de un factor
25
Ana Justel - 2015
2. Diseño con dos factores
Continuación… Se trata de ver si hay alguna evidencia de que en 2005 pudo haberse iniciado un periodo de sequía.
Si tenemos en cuenta t t que una parte t importante i t t de d las l diferencias entre las cantidades de agua embalsadas en el mismo año se debe a los diferentes tamaños de las cuencas y que tenemos este factor controlado, consideraremos un modelo que incluya la CUENCA como un factor instrumental (bloque)
26
Ana Justel - 2015
2. Diseño con dos factores
Continuación… Se trata de ver si hay alguna evidencia de que en 2005 pudo haberse iniciado un periodo de sequía.
Hemos encontrado evidencia estadística para rechazar que
Antes de dar por bueno el resultado, miramos los residuos. ¿Presentan alguna evidencia clara de que no se alguna de las hipótesis que en hemos asumido en el modelo (normalidad, linealidad, etc…)? 27
Ana Justel - 2015
2. Diseño con dos factores
Continuación… Se trata de ver si hay alguna evidencia de que en 2005 pudo haberse iniciado un periodo de sequía.
La homocedasticidad no se cumple. Transformamos la variable i bl respuesta t con ell logaritmo l it neperiano i 28
Ana Justel - 2015
2. Diseño con dos factores
Continuación… Se trata de ver si hay alguna evidencia de que en 2005 pudo haberse iniciado un periodo de sequía.
La conclusión ó es la misma, pero la evidencia es más á clara (sin transformar, p-valor=0.027) y la proporción de variabilidad explicada por el modelo mayor (sin transformar, transformar R2= 0 0.985) 985)
29
Ana Justel - 2015
3. Diseño con dos factores e interacción Cuando la respuesta en los niveles de un factor depende de cuál se q hay y una INTERACCIÓN entre el nivel de otro factor,, se dice que
los dos factores
Un ejemplo de posible interacción se da entre medicamentos j p típico p p SIN INTERACCIÓN
CON INTERACCIÓN
CON INTERACCIÓN
sin B
sin B
sin B
con B
con B
sin A
sin A
sin A
con A
con A
con A
Y22 = μ+α2+β2+u22 sin B
con B
sin A
4
99
con A
101
200
con B
Y22 = μ+α2+β2+¿?+u22 Y22 = μ+α2+β2-¿?+u22 sin B
con B
sin A
4
99
con A
101
1985
sin B
con B
sin A
4
99
con A
101
1 30
Ana Justel - 2015
3. Diseño con dos factores e interacción
MODELO con dos FACTORES e INTERACCIÓN
(αβ)ij es el efecto de la interacción entre el nivel i del primer factor y el nivel j del segundo factor K es el número de réplicas del experimento Para que los efectos de la interacción se puedan estimar (haya más datos que parámetros) es necesario que K ≥ 2
31
Ana Justel - 2015
3. Diseño con dos factores e interacción
ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO Estimadores de m , ai , bj y (ab)ij
ˆ , ˆi , ˆ j
Los mismos del modelo de dos factores sin interacción
( )ij yij yi y j y yij
1 K yijk K k1
Residuos del modelo
eijk yijk yij Grados de libertad de los residuos IJ ( K 1)
Estimador de la varianza s2
suma de residuosal cuadrado Sˆ 2 R grados de libertad de los residuos 2 y y ( ) ij ijk i j k IJ ( K 1)
32
Ana Justel - 2015
3. Diseño con dos factores e interacción
T bl ANOVA Tabla
33
Ana Justel - 2015
3. Diseño con dos factores e interacción
Tests ANOVA (¿el factor influye en la respuesta?) H0: Los efectos del factor sobre la respuesta son cero para todos los niveles (el factor NO influye) H1: Algún efecto es distinto de cero (el factor SI influye)
Test ANOVA (¿la INTERACCIÓN influye en la respuesta?) H0: Los efectos f de d las l interacciones sobre b la l respuesta son cero para todas d las combinaciones de los niveles de los dos factores (la interacción NO influye) H1: Algún efecto es distinto de cero (la interacción SI influye)
34
Ana Justel - 2015
3. Diseño con dos factores e interacción
SIN INTERACCIÓN sin B
con B
sin A
4
99
con A
101
200
a ab e depe d e te
espuesta Suma de cuadrados 19503,125 18915 125 18915,125 6,125 10,500 38434,875
Fuente TratA TratB TratA * TratB Error Total corregida
sin B
con B
sin A
4
99
con A
101
1985
CON INTERACCIÓN sin B
con B
sin A
4
99
con A
101
1
Fuente TratA TratB TratA * TratB Error Total corregida
Fuente TratA TratB Error Total corregida
Suma de cuadrados 1965153,125 1959210,125 1599376,625 5523739 875 5523739,875
1 1 1 4 7
Media cuadrática 19503,125 18915 125 18915,125 6,125 2,625
F 7429,762 7205 762 7205,762 2,333
Significación ,000 ,000 000 ,201
a ab e depe d e te
CON INTERACCIÓN
espuesta Suma de cuadrados 1965153,125 1959210,125 , 1599366,125 10,500 5523739,875
gl
a ab e depe d e e Fuente TratA TratB TratA * TratB Error Total corregida
espues a Suma cuadrados 1,125 10,125 19110,125 10,500 19131,875
gl 1 1 1 4 7
gl 1 1 5 7
gl 1 1 1 4 7
Media cuadrática 1965153,1 1959210,1 , 1599366,1 2,625
F 748629,8 746365,8 , 609282,3
Significación ,000 ,,000 ,000
Media cuadrática 1965153,1 1959210,1 319875,325
F 6,143 6,125
Significación ,056 ,056
Media cuadrática 1,125 10,125 19110,125 2,625
F ,429 3,857 7280,048
Significación ,548 ,121 ,000
35
Ana Justel - 2015
4. Otros diseños de experimentos
DISEÑOS PARA TRES FACTORES MODELO completo
Para poder utilizar este modelo se necesitan un mínimo de IJK+1 datos Por ejemplo con tres factores y 5 niveles cada uno, hay que hacer 125 experimentos. A veces no es fácil conseguir tantos datos Alternativa: utilizar un DISEÑO DE CUADRADOS LATINOS
36
Ana Justel - 2015
4. Otros diseños de experimentos
DISEÑO DE CUADRADOS LATINOS puede utilizar cuando tenemos,, TRES factores,, con el MISMO Se p número de niveles y SIN interacciones entre ellos. Cada nivel de un factor se cruza solo una vez con cada uno de los niveles de los otros factores. Ejemplo de diseño de cuadrados latinos para 3 factores con 9 niveles:
Con este diseño el número mínimo de datos necesario es 9x9=81, en lugar de los 9x9x9=729 del diseño factorial 37
Ana Justel - 2015
4. Otros diseños de experimentos
Ejemplo de mariposas nocturnas Una asociación de Amigos de la Entomología quiere diseñar un cartel de sensibilización para la conservación de las mariposas nocturnas. Para elegir la imagen del cartel deciden hacer un estudio para ver como influyen algunos factores en la impresión que causan las fotos. Los factores son: Saturación del color, Efectos, Composición Se pide a 126 personas que valoren de 1 a 5 una foto cada uno del cuadrado latino.
38
Ana Justel - 2015
4. Otros diseños de experimentos
OTROS DISEÑOS DE EXPERIMENTOS: Cuadrados greco-latinos Factoriales a dos niveles Anidados Split-plot Medidas repetidas …
39