1
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
ANGEL FRANCISCO ARVELO LUJAN Angel Francisco Arvelo Luján es un Profesor Universitario Venezolano en el área de Probabilidad y Estadística, con más de 40 años de experiencia en las más reconocidas universidades del área metropolitana de Caracas. Universidad Católica “Andrés Bello” : Profesor Titular Jubilado 1970 a 2003 Universidad Central de Venezuela: Profesor por Concurso de Oposición desde 1993 al presente Universidad Simón Bolívar: Profesor desde 2005 al presente Universidad Metropolitana: Profesor desde 1973 a 1987 Universidad Nacional Abierta: Revisor de contenidos, desde 1979 hasta 2004 Sus datos personales son : Lugar y Fecha de Nacimiento: Caracas, 16-02-1947 Correo electrónico:
[email protected] Teléfono: 58 416 6357636 Estudios realizados: Ingeniero Industrial. UCAB Caracas 1968 Máster en Estadística Matemática CIENES, Universidad de Chile 1972 Cursos de Especialización en Estadística No Paramétrica Universidad de Michigan 1982 Doctorado en Gestión Tecnológica: Universidad Politécnica de Madrid 2006 al Presente El Profesor Arvelo fue Director de la Escuela de Ingeniería Industrial de la Universidad Católica “Andrés Bello” (1974-1979) , Coordinador de los Laboratorios de esa misma Universidad especializados en ensayos de Calidad, Auditor de Calidad, y autor del libro “Capacidad de Procesos Industriales” UCAB 1998. En numerosas oportunidades, el Profesor Arvelo ha dictado cursos empresariales en el área de “Estadística General” y “Control Estadístico de Procesos”. Para mayor información sobre otras publicaciones del Prof. Arvelo, consulte la página web: www.arvelo.com.ve , en la sección PDFS.
2
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
PROLOGO El Diseño de Experimentos es una técnica estadística que comenzó a desarrollarse aproximadamente en 1930, e inicialmente fue aplicada en la agricultura, con el objetivo de identificar las mejores condiciones de terreno, fertilizante, tipo de semilla, clima, etc., que permiten optimizar la cosecha de un determinado producto agrícola. Posteriormente fue aplicada en los procesos industriales, pues a través de ella se pueden alcanzar objetivos muy importantes en su optimización, como por ejemplo: Identificar los factores que realmente ejercen una influencia significativa en la calidad del producto terminado. Jerarquizar estos factores en orden de importancia. Identificar el punto óptimo de operación del proceso En efecto, un proceso industrial puede verse como una caja negra, en donde interactúan unas variables de entrada con otras variables controlables y algunas incontrolables o ruido del proceso, que dan como resultado un producto terminado con ciertas características de calidad.
Las variables de entrada son controlables y se refieren a las características de calidad de las materias primas e insumos que ingresan al proceso, como son por ejemplo, la cantidad, concentración, y tipo de las materias primas utilizadas, la proporción con que estas materias primas alimentan al proceso, etc. Las variables del proceso también son controlables, pueden ser modificadas a voluntad del experimentador, y colocadas en distintos estados o posiciones. Así por ejemplo, el investigador puede decidir a qué temperatura va a operar un horno, cuánto tiempo va a permanecer la pieza dentro de él, la velocidad de giro de una bandeja dentro del horno, etc. Las variables incontrolables o ruido representan aquellos factores que afectan al proceso y cuya acción escapa de la voluntad del experimentador, como por ejemplo, fluctuaciones en la intensidad de la corriente eléctrica, fluctuaciones en las condiciones ambientales como temperatura y humedad, cambios en el estado de ánimo de los operarios, errores de lectura, etc. Las variables de salida representan el valor de ciertas magnitudes cuantitativas que definen la calidad del producto terminado, como pueden ser por ejemplo, su dureza, su viscosidad, su resistencia a la compresión, etc. El objetivo del experimento es identificar el conjunto de variables controlables que ejercen una influencia significativa en las variables de salida, para mantener un estricto control sobre ellas, y también para decidir en qué estado deben ser fijadas para maximizar la calidad del producto terminado, y el rendimiento del proceso. Así por ejemplo, mediante la aplicación de estas técnicas se puede identificar cual es la mejor materia prima a utilizar, la mejor temperatura del proceso, el tiempo óptimo de permanencia de una pieza dentro del horno, etc.
3
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
Diseño de experimentos : Definiciones ,Glosario y Supuestos Un experimento estadístico es una secuencia de observaciones de una o más variables cuantitativas, cuando otras variables cualitativas o cuantitativas que supuestamente las afectan, llamadas variables de control o factores, son manipuladas o cambiadas por el experimentador. Variable de respuesta: Variable cuantitativa continua, objetivo del experimento Factores: Variables controlables, cualitativas o cuantitativas. que pueden ser manipuladas o colocadas en diferentes estados. Niveles del factor: Valores nominales que corresponden a los distintos estados en los que puede encontrarse un factor. Los factores pueden ser principales o de bloqueo. Los factores principales son aquellos cuya influencia sobre las variables de respuesta se quiere medir con el experimento Los factores de bloqueo son aquellos factores secundarios, o de estorbo, que pueden perturbar a las variables de respuesta, y que pueden ser fijados también en distintos niveles para medir su influencia. Tratamiento: Cada una de las combinaciones de niveles de los distintos factores principales Unidad experimental: Objeto (persona o cosa) sobre la cual se va a realizar la medición de las variables de respuesta, después de aplicar un tratamiento dado. Ensayo: Procedimiento realizado para obtener una observación Observación: Resultado de medir cada una de las variables de respuesta, bajo las acción de uno de los tratamientos. Fuente de variación: Cualquier factor planificado o no que pueda contribuir a explicar la variabilidad en la respuesta. Variabilidad residual: Variabilidad debida a factores aleatorios o no planificados en el experimento. Réplica: Repetición del ensayo sobre una nueva unidad experimental que recibe el mismo tratamiento que la anterior. Diseñar el experimento consiste en seleccionar las variables y factores a considerar, para luego planificar la forma cómo van a ser tomadas las observaciones, según el arreglo previsto en el modelo seleccionado. Etapas en el diseño de un experimento 1. Definir los objetivos 2. Especificar las medidas con las que se trabajará, el procedimiento de los ensayos y las mediciones. 3. Definir los factores a considerar y sus niveles 4. Ejecutar un experimento piloto y evaluarlo. 5. Seleccionar el tipo de diseño que será aplicado en el experimento. 6. Determinar tamaño muestral y el número de réplicas 7. Obtener las observaciones según el diseño seleccionado. 8. Procesar la información, y obtener las conclusiones.
4
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
Tipos de diseño y supuestos Existen muchas modelos para el diseño experimental. En esta guía sólo se analizaran las siguientes: Diseño completamente aleatorio: Considera un sólo factor con k niveles, y las observaciones se toman en un orden completamente aleatorio. Si el número de observaciones es igual para cada nivel, se dice que es un experimento balanceado. Para aplicar este diseño, el experimentador debe considerar que las unidades experimentales son inicialmente homogéneas, y que la variabilidad en las respuestas se debe exclusivamente a que las unidades experimentales reciben diferentes tratamientos. Existen dos tipos de modelos completamente aleatorios: Modelo I: De efectos fijos, donde el investigador selecciona de antemano los “k” niveles del factor. El supuesto para este modelo es : Xij = + i + eij Los errores se suponen independiente y normalmente distribuidos con una varianza común. La hipótesis a probar es:
Ho :
1
2
H1 : Algún
k i
0
0
Modelo II: De efectos aleatorios, donde el investigador selecciona al azar los “k” niveles del factor dentro de una población de posibles niveles, y por lo tanto los i son variables aleatorias. Este modelo además de los supuestos anteriores, supone que cada efecto del factor, es decir i ,es independiente del error, y que estos efectos siguen una distribución normal con media 0 y una varianza La hipótesis a probar es:
2
.
Ho :
2
2
H1 :
0 0
En esta guía sólo se consideran modelos del tipo I Diseño en bloques completos al azar: Considera un sólo factor con k niveles, pero dado que las unidades experimentales no son inicialmente homogéneas, el investigador introduce antes de aplicar los tratamientos un factor de bloqueo, que clasifica a las unidades experimentales en grupos homogéneos, llamados bloques. La palabra “completo” se debe a que en cada bloque se experimenta con todos los niveles del factor. La asignación del nivel del factor que le corresponde a cada una de las unidades del bloque se hace aleatoriamente. El supuesto del modelo establece: Xij = + i + j + eij , donde las diferentes “ j” representan el efecto del bloque. La hipótesis a probar es:
Ho :
1
2
H1 : Algún
k i
0
0
Diseño en cuadrado latino: Considera un sólo factor con k niveles, pero con dos factores de bloqueo. El nombre de cuadrado latino se deriva del hecho que el factor principal, y los dos de bloqueo deben tener igual número de niveles, y de que las letras latinas representan los niveles del factor principal, mientas que las filas y columnas los niveles de los factores de bloqueo. El supuesto del modelo es : Xijl = + i + j + l + eijl , donde las diferentes “ j” y los “ l” representan el efecto de cada factor de bloqueo.
5
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
Diseño en cuadrado grecolatino: Considera un sólo factor con k niveles, y tres factores de bloqueo. Las letras latinas representan los niveles del factor principal, mientas que las filas ,las columnas y las letras griegas los niveles de los factores de bloqueo. El factor principal y los tres de bloqueo deben tener igual número de niveles. El supuesto del modelo es: Xijlm = + i + j + l + m + eijl , donde los “ j” ,“ l” “ m” representan el efecto de cada uno de los factores de bloqueo. k
Experimentos 2 , que consideran “k” factores, cada uno con sólo 2 niveles, denominados bajo (-) y alto (+) . TABLAS ANOVA Diseño completamente aleatorio: En este caso las observaciones vienen de la forma Xij donde el primer subíndice representa el nivel del factor y el segundo el número de la ….
observación. i = 1,2, ,k ; j = 1, 2
i k
, ….
ni .
,ni N = i 1
Este tipo de experimento considera un solo factor k niveles, y la muestra viene dada de la siguiente forma: Nivel 1 Nivel 2 Nivel 3 ………. Nivel K X11 X21 X31 Xk1 X12 X22 X32 Xk2 ………. ………. ………. ………. X1n1 X2n2 X3n3 Xknk La tabla ANOVA ( ONE WAY ANOVA) para el caso de efectos fijos es como sigue: Fuente g.de l Suma de Cuadrados Cuadrado Medio F Signific. i k
Factor
ni (Xi
k-1
S.C.F k 1 S.C.E N k
X)2
i 1
i k j ni
Error
N-k
(Xij
Xi )2
(Xij2
X)2
i 1 j 1 i k j ni
Total
N-1
C.M.F C.M.E
Valor p
i 1 j 1
Cuando Valor p < , se rechaza Ho, y la conclusión del experimento es que por lo menos dos niveles del factor tienen diferente media, y que por lo tanto el factor es influyente. Para identificar los niveles del factor que presentan diferencias significativas existen varios métodos: L.S.D , Duncan , Tuckey e Intervalos de confianza. El método LS.D ( Least Significant Difference) es equivalente al de construir intervalos de confianza, y consiste en calcular todas las diferencias absolutas entre medias de niveles, es decir todas las Xi
Xi
X j > L.S.D
Xj . Existe diferencia significativa entre el nivel “i” y el nivel “j” del factor.
L.S.D = t
( Xi
/ 2;N k
C.M.E
1
1
ni
nj
X j ) ± L.S.D es el intervalo del (1- ) de confianza para i- j . Cuando este intervalo
contiene al cero, la conclusión es que no existe diferencia significativa entre estos dos niveles del factor.
6
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
Algunas fórmulas útiles para simplificar los cálculos son:
Xi.2 ni
i k
i k
X)2 =
ni (Xi
S.C.F = i 1
i 1
i k j ni
i k j ni
X)2 =
(Xij
S.T.C =
X2 N
i 1 j 1
Xij2
i 1 j 1
X2 N
S.C.E = S.T.C – S.C.F La notación con punto como subíndice significa que se ha totalizado sobre este subíndice, y así por ejemplo, X
significa la suma total de todas observaciones; mientras que Xi.
representa la suma de las observaciones en el nivel “i”. Diseño en bloques completos al azar: En este caso las observaciones vienen dispuestos en una forma matricial de dimensión b x k , donde las filas representan los niveles del factor de bloqueo, y las columnas los niveles del factor principal; de manera que X ij representa el resultado de la observación con el factor de bloqueo al nivel “i” , y el principal al nivel “j”. La tabla ANOVA para el caso de efectos fijos y una sola réplica es como sigue: Fuente g.de l Suma de Cuadrados Cuadrado F Signific. Medio j k Factor S.C.F C.M.F Principal k-1 Valor pF b (X.j X)2
k 1
j 1
Factor de Bloqueo
i b
k
b-1
(Xi.
X)2
Xi.
X.j
i 1
i b j ki
(Xij
(k-1) (b-1)
Error
X)2
i 1 j 1
S.C.B b 1 S.C.E (k 1)(b 1)
C.M.E
C.M.B C.M.E
Valor pB
i b j k
(Xij2
Total
X)2
i 1 j 1
Valor pF < por lo menos dos niveles del factor principal tienen diferente media. Valor pB < por lo menos dos niveles del factor de bloqueo tienen diferente media. Para identificar los niveles del factor Principal que presentan diferencia significativa, se aplica el método L.S.D , para las diferencias entre medias muestrales de todas las parejas de niveles .
L.S.D = t
En este caso:
/ 2;(a 1)(b 1)
2C.M.E b
Algunas fórmulas útiles para simplificar los cálculos son: i k
X.j2
j 1
i 1
b
X2 bk
i b
i k
Xi2 k
X2 bk
j k
S.C.F =
b
(X.j
S.T.B= k
(Xi.
X)2 = X)2 = i 1
i 1
i k j ni
(Xij
S.T.C = i 1 j 1
X)2 =
i k j ni i 1 j 1
Xij2
X2 bk
S.C.E = S.T.C – S.C.F - S.C.B Cuando se hacen varias réplicas para cada tratamiento, entonces existen varias observaciones en cada celda, y es posible detectar la interacción entre los dos factores considerados.
7
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
En este caso, el supuesto del modelo es X ijk = + i+ j+ ij + e ; donde j representa el efecto del factor fila, j el del factor columna y ij la interacción entre ellos, dando lugar a la formulación de tres hipótesis nulas referidas a la influencia o no de cada uno de ellos. Cuando el número n de observaciones es el mismo en cada celda, la descomposición de la suma total de cuadrados resulta como sigue; i b j k l n
j k
(Xijl
X)2
bn
i 1 j 1 l 1
i b
X)2
(X.j,
kn
j 1
La primera sumatoria
b
X)2
(Xi.. i 1
j k
bn
(X.j,
X)2
j k
n
i b j k l n
(Xij.
Xi..
X.j.
X)2
i 1 j 1
(Xijl
Xij. )2
i 1 j 1 l 1
representa la contribución del factor columna a la suma
j 1
i b
total de cuadrados, la segunda kn (Xi.. X)2 la del factor fila, la tercera
b
j k
n
(Xij.
Xi..
X.j.
X)2
i 1 j 1
i 1
la de la interacción, mientras que la última
i b j k l n
(Xijl
Xij. )2
es la residual, pues si los únicos
i 1 j 1 l 1
factores influyentes fueran fila y columna, entonces observaciones dentro de una misma celda deberían ser idénticas. La tabla ANOVA para este diseño es: Fuente
g.de l
Factor Principal
Suma de Cuadrados
X)2
S.C.F k 1
C.M.F C.M.E
(Xi..
X)2
S.C.Fila k 1
C.M.Fila C.M.E
j 1
Factor Fila Bloqueo
b-1
i b
kn i 1 b
Interacción
j k
n
(k-1)(b-1)
(Xij.
Xi..
X.j.
X)2
i 1 j 1
i b j k l n
Error
F
(X.j,
j k
bn
k-1
Cuadrado Medio
(Xijl
k b (n-1)
Xij. )2
i 1 j 1 l 1
S.C.Interacción (k 1)(b 1)
C.M.I C.M.E
Signific.
Valor pF Valor pFila Valor p interacción
S.C.E (k 1)(k 2)
i b j k l n
Total
(Xijl
kbn -1
X)2
i 1 j 1 l 1
EJEMPLO: Un Ingeniero de Producción está interesado en identificar el mejor entre tres procedimientos para ensamblar una pieza, y para ello diseña un experimento que consiste en seleccionar un grupo de operarios, y observar cuantas piezas puede ensamblar cada uno en su turno de trabajo. Dado que los operarios no tienen el mismo nivel de experiencia decide introducir este factor como bloqueo, y los clasifica en cuatro niveles, superior, buenos, medios y aprendices, seleccionando luego nueve operarios de cada categoría, que luego divide al azar en tres grupos de a tres, asignándole a cada grupo uno de los procedimiento del ensamblaje. Las observaciones resultaron: Experiencia Procedimiento 1 Procedimiento 2 Procedimiento 3 Superior 24 21 18 17 18 20 13 12 16 Buena 18 15 16 18 20 15 14 10 12 Media 10 13 11 11 14 12 17 13 20 Aprendiz 10 5 12 6 9 13 11 10 9 Solución. Las hipótesis a probar son tres:
I
H0 :
1..
2..
3..
4..
i
0
El factor fila no es influyente
H1 : Por lo menos dos son diferentes
8
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
II
H0 :
.1.
.2.
.3.
j
0
El factor columna no es influyente
H1 : Por lo menos dos son diferentes
H0 : No existe int eracción
III
H1 : Existe interacción
ij
A lgún
0 (i,j) i =1,2,3,4 ; j = 1,2,3 ij
0
Para analizar el experimento es necesario comenzar calculando las medias de celdas, las medias de filas, las de columna y la gran media, tal como se muestra en la tabla a continuación: Experiencia Procedimiento 1 Procedimiento 2 Procedimiento 3 Medias Superior X 11.= 21 X 12..=18,33 X 13.= 13,67 X 1..=17,67 Buena X = 16,33 X =17,67 X = 12 X = 15,33 21.
Media
22.
X 31.= 11,33 X 41.= 9 X .1.= 14,41
Aprendiz Medias
X 32.=12,33 X 42.=9,33 X .2.=14,41
23.
X 33. = 16,67 X 43. = 10 X .3. = 13,09
2..
X 3..= 13,44 X 4..= 9,44 X = 13,97
Una vez calculadas las diferentes medias, procedemos a calcular las sumas de cuadrados: 2 2 …. 2 S.T.C = (24-13,97) + (21-13,97) + .+ (9 - 13,97) = 654,97 2 2 2 2 S.C. Filas =9 (17,674-13,97) + (15,33 -13,97) + (13,44-13,97) (9,44 - 13,97) =326,53 2 2 2 S.C. Columnas =12 (14,41-13,97) + (14,41 -13,97) + (13,09-13,97) = 14,22 2 )2 )2 )2 2 SCE = (24-21) + (21-21 + (18-21 + (17 -18,33 +….+ (9 – 10) = 143,33 SCI = 654,97 – 326,53 – 14,22 – 143,33 = 170,89 Fuente g.de l Suma de Cuadrados Cuadrado F p-valor. Medio Procedi 2 14,22 7,11 1,19 0,3215 mientos -6 Experiencia 3 326,53 18,23 2,21 10 108,84 Interacción 6 170,89 4,77 0,0025 28,48 Error 24 143,33 5,97 Total 35 654,97 A un 1% de significancia, la hipótesis I resulta aceptada, mientras que la II y la III resultan rechazadas, de donde se concluye que no existe diferencia significativa entre los tres procedimientos, pero si existe una cierta interacción entre los factores, y una influencia muy significativa de la experiencia del operario en el número de unidades producidas durante un turno de trabajo. Si se quisiera obtener por ejemplo, un intervalo del 95% de confianza para la diferencia entre las medias de producción de un operario superior y un aprendiz, tendríamos:
(X1..
X4.. ) t
CME 2
;bk(n 1)
1 n1..
1 1 = (17,67-9,44) 2,064 5,97 9 n4..
1 9
= 8,23 2,38, que al resultar todo del lado positivo, revela que efectivamente la experiencia ocasiona un efecto muy significativo en la producción. Diseño en cuadrado latino: En este caso las observaciones vienen dispuestos también en una forma matricial cuadrada de dimensión k x k , donde las filas representan los niveles del primer factor de bloqueo, las columnas los niveles del segundo factor de bloqueo y las letras latinas los niveles del factor principal. Cuadrado latino 3 x 3 Cuadrado Latino 4 x 4 Cuadrado Latino 5 x 5 A B C A B C D A B C D E C A B D A B C E A B C D B C A C D A B D E A B C B C D A C D E A B B C D E A
9
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
Para una misma dimensión existen muchos arreglos en forma de cuadrado latino, de hecho al permutar filas o columnas dentro de un cuadrado latino resulta otro cuadrado latino. Existen por ejemplo, 576 cuadrados latinos 4 x 4. Al diseñar el experimento debe sortearse al azar el cuadrado latino a elegir, así como también la fila, la columna y la letra latina que le corresponde a cada uno de los niveles. Cada observación se designa por Xijl; donde los subíndices representan “fila” , “columna” y “letra latina” respectivamente. La tabla ANOVA para el caso de una sola réplica es como sigue: Fuente g.de l Suma de Cuadrados Cuadrado F Signific. Medio l k Factor S.C.F C.M.F k (X l X)2 Principal k-1 Valor pF
k 1 C.M.E C.M.Fila S.C.Fila C.M.E k 1 S.C.Columna C.M.Columna k 1 C.M.E
l 1
Factor Fila Bloqueo
k-1
i k
(Xi
X)2
(X j
X)2
k i 1
Factor Columna Bloqueo
j k
k
k-1
j 1
Error
(k-1) (k-2)
Total
k -1
S.T.C – S.C.F- S.C.Fila S.C.Columna i k j k
Valor pcolumna
S.C.E (k 1)(k 2)
X k2
Xij2
2
Valor pFila
i 1 j 1
Algunas fórmulas útiles para simplificar los cálculos son: l k
l k
S.C.F = k
(X
X)2 =
l
l 1
l 1
i k
l k
S.C. Fila = k
X2 l k
(Xi
X)2 = i 1
l 1
X2 k2 Xi2 k
j k
S.C. Columna =
k
i k
(X j j 1
X)2 = i 1
X2 k2 X2j
k
X2 k2
Diseño en cuadrado grecolatino: En este caso las observaciones vienen dispuestos también en una forma matricial cuadrada de dimensión k x k, donde las filas representan los niveles del primer factor de bloqueo, las columnas los niveles del segundo factor de bloqueo, las letras griegas los niveles del tercer factor de bloqueo, y las letras latinas los niveles del factor principal. Cuadrado greco latino 3 x 3 Cuadrado greco latino 4 x 4 Cuadrado grecolatino 5 x 5 A B C A B C D A B C D E C A B B A D C B C D E A B C A C D A B C D E A B D C B A D E A B C E A B C D Cada observación se designa por Xijlm; donde los subíndices representan “fila” , “columna” y “letra latina” y “letra griega” respectivamente. La tabla ANOVA para el caso de una sola réplica es como sigue:
10
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
Fuente
g.de l
Factor Principal
Suma de Cuadrados l k
k
k-1
(X
X)2
l
l 1
Factor Fila Bloqueo
(Xi
X)2
(X j
X)2
i 1
Factor Columna Bloqueo Factor L. griega Bloqueo
j k
k
k-1
j 1
m k
k
k-1
X)
m
m 1
Error
(k-1) (k-3)
Total
k -1
S.T.C – S.C.F- S.C. Fila S.C. Columna – S,C L griega i k j k
C.M.F C.M.E
Signific.
Valor p Factor Valor p Fila
C.M.Lgriega
C.M.E
Valor p letra griega
S.C.E (k 1)(k 3)
X k2
Xij2
2
S.C.F k 1
S.C.Lgriega k 1
2
(X
F
C.M.Fila S.C.Fila C.M.E k 1 S.C.Columna C.M.Columna Valor C.M.E p columna k 1
i k
k
k-1
Cuadrado Medio
i 1 j 1
Algunas fórmulas útiles para simplificar los cálculos son: l k
l k
S.C.F = k
(X
X)2 =
l
l 1
l 1
i k
l k
S.C. Fila = k
X2 l k
X)2 =
(Xi
i 1
l 1
X2 k2 Xi2 k
j k
S.C. Columna =
k
i k
(X j
X)2 =
j 1
i 1
(X m 1
k
m
X)2 = m
X2 k2
X2 m 1 k
m k
m k
S.C. Letra Griega = k
X2 k2 X2j
X2 k2
EJEMPLO: Interesa saber si existe diferencia significativa entre las millas recorridas por galón, entre las gasolinas A, B, C y D. Se consideraron los siguientes factores de bloqueo: Fila: Tipo de Vehículo Columna: Conductor Letra Griega: Tipo de carretera Con un arreglo en forma de cuadrado greco latino, el número de millas por galón resultó ser:
Conductor 1 Conductor 2 Conductor 3 Conductor 4 Vehículo 1 B 19 A 16 D 16 C 14 Vehículo 2 A 15 B 18 C 11 D 15 Vehículo 3 D 14 C 11 B 21 A 16 Vehículo 4 C 16 D 16 A 15 B 23 Analizar a un nivel de significación del 5% si existe diferencia significativa entre los cuatro tipos de gasolina. SOLUCION: Se determinan los totales de fila, de columna, de letra latina y de letra griega:
11
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
Totales de fila: X1… = 19 +16+16+14 = 65 X2… = 15 +18+11+15 = 59 X3… = 14 +11+21+16 = 62 X4… = 16 +16+15+23 = 70
Totales de columna: X.1.. = 19 +15+14+16 = 64 X.2.. = 16 +18+11+16 = 61 X.3.. = 16 +11+21+15 = 63 X.4.. = 14 +15+16+23 = 68
Totales de letra latina: X..1.= 15 +16+15+16 = 62 X..2. = 19 +18+21+23 = 81 X..3. = 16 +11+11+14 = 52 X..4. = 14 +16+16+15 = 61
Totales de letra griega: X…1 = 14 +18+15+14 = 61 X…2 = 16 +16+21+15 = 68 X…3 = 19 +16+11+16 = 62 X…4 = 15 +11+16+23 = 65
Total general: X….= 256 Se calculan ahora las sumas de cuadrados correspondientes a cada factor: i k
S.C. Fila = i 1
Xi2 k
2 2 2 2 X2 65 59 62 70 = k2 4
i k
X2j
i 1
k
S.C. Columna = l k
S.C.F = l 1
X2 l k
X2 m 1 k
m k m
16
2 2 2 2 X2 64 61 63 68 = 4 k2
X2 622 812 522 612 = k2 4
S.C. Letra Griega =
2
256
256
= 16.50
256
2
= 6.50
16
2
= 111.50
16
X2 612 682 622 652 = k2 4
256
2
= 7.50
16
La suma total de cuadrados es: i k j k
Xij2
S.T.C = i 1 j 1
2 X 256 2 2 … 2 2 = 19 + 16 + .+15 + 23 = 148 16 k2
Y la suma de cuadrados debida al error: S.C.E = 148 – 16.50 – 6.50 – 111.50 – 7.50 = 6 Finalmente, el resultado de estos cálculos es presentado en la tabla ANOVA Fuente g.de lib. Suma de cuadrados Cuadrado medio Gasolinas 3 111.50 37.17 Vehículos 3 16.50 5.50 Conductores 3 6.50 2.17 Caminos 3 7.50 2.50 Error 3 6.00 2.00 Total 15 148.00
F 18.6 2.75 1.08 1.25
Como el valor crítico dado en la tabla de la Distribución F es: F 0.05; 3,3 = 9.28, se concluye que el único factor significativo es el tipo de gasolina, por ser el único cuyo valor F supera este valor crítico. Los tres factores de bloqueo resultan no influyentes. Para identificar cuales tipo de gasolinas presentan diferencias significativas, se hace necesario ahora encontrar el L.S.D, y hacer las comparaciones múltiples entre todas las diferencias posibles entre medias. Las medias de cada tipo de gasolina resulta ser: X A 15.50 ; XB 20.25 ; X C 13 ; XD 15.25
12
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
L.S.D = t
/ 2;(k 1)(k 3)
2C.M.E k
= 3.18
2(6.00) 4
5.51
La única diferencia de medias que supera este L.S.D es XB
Xc = 7.25 > 5.51
Por lo tanto, la conclusión del experimento es que la gasolina B proporciona un número promedio de millas por galón significativamente mayor que la C; y las restantes comparaciones no evidencian una diferencia significativa. EJERCICIOS PROPUESTOS 1º) Cuatro operarios distintos 1,2,3 y 4, en cuatro máquinas I, II, III y IV reciben cuatro marcas diferentes A ,B, C y D de una materia prima, y se registra en cada caso el tiempo que tardan en elaborar una cierta pieza. El experimento se diseña con un arreglo en forma de cuadrado latino, y los resultados obtenidos fueron: Máquina I Máquina II Máquina III Máquina IV
Operario 1 A :7 D :6 C :5 B :6
Operario 2 B :4 A :9 D :1 C :3
Operario 3 C :5 B :4 A :6 D :4
Operario 4 D :3 C :2 B :1 A : 10
A un nivel de significación del 5%, obtenga conclusiones del experimento. Solución: Fuente SS DF MS F p-valor MAQUINA 14.00 3 4.67 1.47 .313 MATERIAL 56.50 3 18.83 5.95 .031 OPERARIO 9.50 3 3.17 1.00 .455 ERROR 19.00 6 3.17 Total 99.00 15 6.60 2°) Se ha tomado una muestra al azar de tres tipos de alambres de acero de alta tensión, y se ha medido su resistencia a la tracción en cientos de libras, encontrándose los siguientes resultados: Acero 1 Acero 2 Acero 3 29 36 24 36 17 18 37 19 20 36 21 24 36 26 25 35 29 28 39 27 31 38 21 34 40 32 30 23 33 22 37 21 16 A un nivel de significación del 5%, analice si existe una diferencia significativa entre los tres tipos de alambres, y recomiende el mejor tipo de alambre Solución:
13
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
3º) Con cuatro tipos de cables T 1,T2,T3 y T4 se fabrica cada vez usando uno sólo de ellos una pieza ,la cual es recubierta luego con uno de cuatro materiales diferentes M1, M2, M3 y M4, . Cuatro operarios( A,B,C y D) ejecutan el ensamblaje usando cuatro máquinas distintas ( , , , ), y finalmente se mide la tensión a la ruptura de estas piezas, obteniendo los valores que indica el cuadrado greco latino de la tabla a continuación: M1 M2 M3 M4 T1 A 164 B 181 C 193 D 160 T2 C 171 D 162 A 183 B 145 T3 D 198 C 212 B 207 A 188 T4 B 157 A 172 D 166 C 136 a) Obtenga las conclusiones del experimento. b) Obtenga un intervalo del 95 % de confianza para la diferencia entre las resistencias medias dadas por los materiales M1 y M3 . Solución Analysis of Variance for Resistencia Source Material Cable Operador Maquina Error Total
DF SS 3 2066.19 3 4326.19 3 120.69 3 66.69 3 299.69 15 6879.44
MS 688.73 1442.06 40.23 22.23 99.90
F 6.89 14.44 0.40 0.22
P 0.074 0.027 0.763 0.876
4º) Se examinan tres marcas de automóviles para averiguar su consumo de gasolina. Cada marca de automóvil es conducida por tres tipos diferentes de conductor, y se registra en cada caso el número de millas por galón obtenidas. Los resultados se presentan a continuación: Conductor 1 Conductor 2 Conductor 3 Automóvil 1 19 18 17 Automóvil 2 21 22 20 Automóvil 3 18 16 17 a) ¿Existe diferencia significativa en el consumo de gasolina, obtenido por los tres tipos de vehículos? . b) ¿Existe diferencia significativa en el consumo de gasolina, obtenido por los tres tipos de conductores? . Use un nivel de significación del 5% en ambos casos.
14
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
Solución: Two Wa y Anova-Block De sign A: 3 Groups B: Automóvil 3 So urce
DF:
Sum S qua res:
Mea n S qua re:
F-test:
A
2
2.667
1.333
1.6
B
2
26
13
15.6
Erro r
4
3.333
.833
To ta l
8 A pro ba b ility:
32 p > .25
B pro ba b ility:
.01 < p .025
5º) En un estudio, se observó el tiempo empleado por 3 operarios, en ejecutar una cierta operación, en tres máquinas diferentes. Se tomaron cuatro observaciones para cada operario en cada máquina, encontrándose los siguientes resultados:
Obtenga las conclusiones de este experimento Solución: Fuente SS DF Máquina 0,004 2 Operario 0,463 2 Interacción 0,034 4 Error 3,2 27 Total 3,701 35
MS 0,002 0,231 0,009 0.119
F 0,18 1,962 0,073
15
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
EXPERIMENTOS 2
k
Este tipo de diseño considera “k” factores cada uno a dos niveles, que se denominan bajo (-) k y alto (+). Es un diseño completo, y recibe ese nombre porque 2 representan el total de tratamientos posibles. El experimentador es quien define previamente estos dos niveles. En el caso de factores cuantitativos el nivel bajo corresponde obviamente a un menor valor y el nivel alto a un mayor valor; pero en el caso de factores cualitativos la selección del nivel bajo y del alto es totalmente arbitraria. El número de réplicas para cada tratamiento puede ser diferente, pero sólo consideraremos el caso en que es igual para cada uno, representándolo por “n”. k En consecuencia n2 es el total de observaciones realizadas, las cuales deben ser tomadas en un orden completamente aleatorio, que debe ser previamente sorteado. NOMENCLATURA Los factores a considerar se designan por letras latinas en mayúscula, A, B, C etc. La suma de las observaciones realizadas con todos los factores a nivel bajo se designa por (1) La suma de las observaciones con un determinado tratamiento se designa con la letra minúscula correspondiente a aquellos factores que estén a nivel alto. 2
Así por ejemplo, un experimento 2 , considera 2 factores y existen cuatro posibles + + + + tratamientos que son: A con B , A con B , A con B y A con B . La suma de las n observaciones correspondientes a cada tratamiento quedaría representada por (1), a, b, ab respectivamente.
(1) =Total de observaciones con A- y B-
a = Total de observaciones con A+ y Bb = Total de observaciones con A- y B+ ab = Total de observaciones con A+ y B+
SUPUESTOS El análisis del experimento parte de un supuesto totalmente aditivo, que considera la respuesta frente a cada tratamiento como la suma entre una media general μ con unos efectos principales que representan la contribución de cada factor, y unos efectos secundarios o interacciones que representan el efecto combinado entre los distintos niveles de los factores, además de considerar también un error aleatorio o ruido, que se suponen independientes uno de los otros, normalmente distribuido con una media 0 y una varianza 2 común . Este último supuesto tendrá que ser posteriormente validado mediante el análisis de residuos. La metodología para calcular cada uno de los efectos y las interacciones será analizada a continuación. EFECTOS PRINCIPALES Se define como efecto de un factor a la diferencia entre la media de ese factor a nivel alto y su media a nivel bajo; es decir, el efecto de un factor representa la diferencia promedio en la respuesta cuando se pasa de nivel bajo a nivel alto. Así por ejemplo, si tenemos unos bloque de arcilla, y su resistencia promedio cuando se 2 preparan a temperatura baja es de 30 Kg /cm y cuando se preparan a temperatura alta es 2 de 50 Kg/cm ; entonces podríamos decir que el efecto de la temperatura es aumentar la 2 resistencia promedio de los bloques en 20 Kg/cm
16
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
En general; Efecto de un factor A =
XA
XA
2
En el experimento 2 , A está a nivel alto en los vértices de la derecha, y a nivel bajo en los de la izquierda, por tanto XA
a ab , mientras que XA 2n
(1) b 2n
El divisor 2n se debe a que en cada vértice hay n observaciones, y por tanto existen 2n observaciones a nivel alto y 2n a nivel bajo. Efecto de A =
a ab (1) b Contraste A = 2n 2n
La expresión del numerador se suele llamar el contraste para el efecto del factor. Análogamente Efecto de B =
b ab (1) a Contraste B = 2n 2n
INTERACCION Se dice que entre un factor y otro no existe interacción cuando el efecto de un factor no depende del nivel en que se encuentre el otro. Ejemplo: Consideremos un experimento que consiste en preparar bloques de arcilla y luego medir su resistencia. Supongamos que se consideran sólo dos factores: Temperatura del Horno (A) y Tiempo de Horneado (B), cada uno a dos niveles, alto y bajo. Se realizan dos réplicas para cada tratamiento, y las mediciones fueron: + B B A 24 28 31 37 + A 42 46 54 58 Los totales de cada vértice son: (1)= 24 +28 = 52; a = 42 + 46 = 88 ; b = 31 + 37 = 68 ; ab = 54 + 58 = 112 Efecto de A =
88 112 52 68 = 20 4
Nótese que este efecto del factor temperatura (A) no es el mismo en los dos niveles de B. Si el factor B hubiese estado a nivel bajo, el efecto de A hubiese sido:
42 46 2
24 28 = 44-26 = 18 2
Mientras que si el factor “B” hubiese estado a nivel alto, el efecto de A sería:
54 58 2
31 37 = 56 – 34 = 22 2
El efecto promedio de A es 20, pero no es el mismo en los dos niveles de B. Gráficamente la situación es la siguiente: El efecto de incrementar la temperatura es incrementar la resistencia promedio en 18 2 Kg/cm , si el tiempo se mantiene a nivel 2 bajo, o incrementarla en 22 Kg/cm , si el tiempo se mantiene a nivel alto. El efecto de la temperatura depende del nivel en que se encuentre el otro factor, y por tanto existe interacción. Nótese que las dos rectas no resultan paralelas. Cuando no existe interacción estas dos rectas resultan paralelas, pues el efecto del factor A es el mismo para cualquiera de los dos niveles del factor B.
17
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
Se deja al lector que analice esta misma situación, si los resultados del experimento hubiesen sido: + B B A 24 28 43 49 + A 32 40 55 57 Cuando las rectas son paralelas, es decir, cuando no existe interacción, las dos diagonales se cortan en sus puntos medios, y de allí el promedio de sus dos vértices debe ser coincidir. Los vértices de la diagonal principal son (1) y ab, mientras que los de la diagonal secundaria son a y b; de allí que el efecto de la interacción AB se calcule como Efecto AB =
(1) ab a b Contraste AB = 2n 2n
TABLA DE SIGNOS PARA LOS CONTRASTES Con el objeto de facilitar los signos que corresponden a cada contraste, existen tablas que señalan el signo de cada vértice en los diferentes contrastes, y para cada dimensión del experimento. 2 Para el experimento 2 la tabla es la siguiente: Vértice Contraste A Contraste B Contraste AB (1) +
+ +
a b ab Para el experimento 2 Vértice (1) a b c ab ac bc abc
+ +
+
3 CONTRASTE
A
B
C
AB
AC
BC
ABC
+ + + +
+ + + +
+ + + +
+ + + +
+ + + +
+ + + +
+ + + +
Para experimentos de mayor dimensión, consulte Diseño y Análisis de Experimentos del autor Douglas Montgomery. 3 Es importante destacar que en el experimento 2 , los diferentes tratamientos pueden ser representados como los vértices de un cubo. La fórmula general para calcular un efecto es:
Efecto =
Contraste n 2k 1
TABLA ANOVA k AL igual que en los demás experimentos, la tabla ANOVA para uno 2 , va a presentar tantas fuentes de variación como efectos tenga, además de una variabilidad residual que representa el error del modelo. Como cada efecto tiene sólo dos niveles, los grados de libertad resultan ser 1 para cada k efecto; mientras que para el error son 2 (n-1)
18
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
La suma de cuadrados para cada efecto se calcula por la fórmula:
(Contraste)2 n 2k
mientras que la suma de cuadrados residual por diferencia de la suma total de cuadrados. SUPERFICIE DE RESPUESTA 2 En un experimento 2 , cada tratamiento puede ser representado tal como vimos, por cada uno de los vértices de un cuadrado contenido en el plano XY; mientras que la respuesta como una recta vertical para al eje Z. El experimento quedaría representado gráficamente como una nube de punto en el espacio 3 tridimensional , tal como se indica en la figura.
La superficie que mejor se ajusta a esta nube de puntos se conoce como superficie de respuesta, y representa el techo del cuadrado definido por el dominio de experimentación. 3 Obviamente, en el caso de experimentos 2 o de mayor dimensión, no es posible graficar esta superficie de respuesta. La ecuación de la superficie de respuesta puede ser obtenida de la siguiente manera: ,….. 1) Se definen “k” variables X1,X2 Xk que representan a los k factores considerados en el experimento. 2) Cada variable puede tomar sólo dos valores, -1 si el factor que representa está a nivel bajo, o +1 si esta a nivel alto. 3) Se define un modelo un modelo de regresión múltiple de ecuación: … Y = 0 + 1X1 + 2X2+…+ kXk+ 12X1X2++ 13X1X3+…….++ 12..k X1X2 Xk + e Donde Y representa a la respuesta del experimento. 4) La aplicación del método de mínimos cuadrados sobre este modelo, conduce a que los estimadores de los coeficientes Beta son: ˆ 0
Y = Gran Media
i
Efecto i 2
Para aquellos betas con un solo subíndice, el efecto corresponde al de su factor principal; mientras que aquellos betas con varios subíndices, el efecto es el de su correspondiente interacción. Los beta correspondientes a efectos no significativos pueden ser eliminados de la ecuación de la superficie de respuesta, pues para ellos, la hipótesis Ho: i= 0 resulta aceptada. 2 Cuando no existen interacciones el modelo resulta lineal, y en el caso de experimento 2 , la superficie de respuesta es un plano. En este caso, tanto el punto de máxima respuesta, como el de mínima respuesta están en uno de los vértices. ANALISIS DE RESIDUOS Una vez obtenida la ecuación de la superficie de respuesta, es necesario validar los tres supuestos básicos del modelo, normalidad de los errores, varianza común (homocedasticidad), e independencia entre los errores. En este resumen sólo abordaremos el primero de ellos. El error o residuo para cada punto es la diferencia entre la respuesta realmente observada y la pronosticada por la superficie de respuesta, es decir ei = Yi - Yi , donde Yi es el valor que resulta de sustituir en su ecuación cada Xi por -1 ó +1 según corresponda al vértice para el cual estamos realizando el pronóstico.
19
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
Una vez obtenidos todos los errores, estos deben ser llevados al papel probabilístico para verificar su normalidad. EJEMPLOS RESUELTOS 1º) Un experimento consiste en analizar el efecto del tamaño de la broca (factor A) y de la velocidad (factor B) sobre la vibración de una ranuradora (respuesta Y). 2 Para ello se decide utilizar un experimento factorial 2 , con cuatro replicas para cada 2 tratamiento, lo que da un total de 4 x 2 = 16 observaciones.. El tamaño de la broca se fija en dos niveles: 1/16 (Bajo) y 1/8 ( Alto) de pulgada, mientras que la velocidad en 40 rps (Bajo) y 80 rps (Alto) . Antes de tomar las 16 observaciones es necesario definir el orden en que van a ser tomadas, para lo cual es necesario repartir aleatoriamente los números del 1 al 16 entre los 4 tratamientos. Supongamos que el resultado de esta asignación fue: Broca Velocidad Orden 1 / 16 40 5 8 13 14 1/8 40 1 6 10 12 1 / 16 90 3 7 11 15 1/8 90 2 4 9 16 Una vez definido el orden, se procede a tomar las observaciones, y se obtiene: A : Broca B : Velocidad Vibración Totales 18.2 18.9 12.9 14.4 1 / 16 40 64.4 = (1) 27.2 24.0 22.4 22.5 1/8 + 40 96.1 = a 15.9 14.5 15.1 14.2 1 / 16 90 + 59.7 = b 41.0 43.9 36.3 39.9 1/8 + 90 + 161.1 = ab Fuente: Análisis y Diseño de Experimentos Cap. VI Pag. 207 Pulido & De la Vara Editorial Mac. Graw Hill , Mexico 2003 Cálculo de los efectos:
Contraste A a ab b (1) 133.10 = 16,64 4 (2) 8 n 2k 1 Contraste B b ab a (1) 60,30 = 7,54 B 4 (2) 8 n 2k 1 Contraste AB ab (1) a b 69,70 = 8,71 AB 4 (2) 8 n 2k 1 A
Cálculo de las sumas de cuadrados.
(Contraste A)2 (133.10)2 = 1.107,23 4 (4) n 2k (Contraste B)2 (60,30)2 SCB = 227,26 4 (4) n 2k (Contraste AB)2 (69,70)2 SCAB = 303,63 4 (4) n 2k
SCA
i 2 j 2 m n
Yijm
i 2 j 2 m n 2 ijm
S.T.C
Y i 1 j 1 m 1
i 1 j 1 m 1 k
n2
= 1.709,83
20
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
La tabla ANOVA es en consecuencia: Suma de Grados de Fuentes Cuadrados libertad A: Broca 1.107,23 1 B: Velocidad 227,26 1 AB : Interacción 303,63 1 Error 71,71 12 Total 1.709,83 15
Cuadrado Medio 1.107,23 227,26 303,63 5,98
F 185,16 38,00 50,77
p- valor 0,0000 0,0000 0,0000
De la tabla ANOVA se deduce que las tres fuentes de variación resultan altamente significativas, siendo el más influyente el factor A (Broca) por tener una mayor suma de cuadrados. Análisis de Residuos Para ello se utiliza un modelo de regresión de la forma: Y = 0 + 1 X1 + 2 X2 + 3 X1 X2 + e En donde X1 y X2 representan a los factores principales A y B, mientras que X1 X2 a la interacción AB. En caso de que alguno de los factores no fuera significativo por la Tabla ANOVA, su correspondiente = 0, y puede ser eliminado del modelo de regresión. Como los niveles de cada factor son cualitativos (alto y bajo) , y en la regresión se necesitan valores cuantitativos, es necesario hacer una codificación que consiste en asignarle a cada variable “X” el valor -1 si su respectivo factor está a nivel bajo, o el valor +1 , si se encuentra a nivel alto. Bajo esta codificación, puede demostrarse que los estimadores de los coeficientes de la regresión resultan ser:
Efecto de i 2 ˆ Para el ejemplo se obtiene: 0 Y = 23,83, ˆ 1 8,32 ˆ 2 3,77 ˆ 3 4,35 y el modelo regresión : Y = 23,83 + 8,32 X1 + 3,77 X2 + 4,35 X1 X2 + e Los 16 residuos se obtiene por diferencia: e = observado – estimado El valor estimado se obtiene al sustituir X1 por -1 ó +1 y X2 por -1 ó +1 según el factor esté a nivel bajo o alto respectivamente. Por ejemplo el valor estimado para el vértice “a”, corresponde a X1 = +1 y X2 = -1 , ˆ dando por resultado: Y 24,03 por lo que los 4 residuos correspondientes a ese a vértice son: 27,20 – 24,03 = 3,17 ; 24,0 – 24,03 = - 0,03 ; 22,4 – 24,03 = -1,63 y 22,5 – 24,03 = -1,53 . Los 16 residuos son: ˆ
0
Yi 18,20 18,90 12,90 14,40
Y = Gran Media ; ˆ i
Estimado 16,09 16,09 16,09 16,09
ei 2,11 2,81 -3,19 -1,69
Yi 27,2 24 22,4 22,5
Estimado 24,03 24,03 24,03 24,03
ei 3,17 -0,03 -1,63 -1,53
Al llevarlos al papel probabilístico se obtiene:
Yi 15,9 14,5 15,1 14,2
Estimado 14,93 14,93 14,93 14,93
ei 0,97 -0,43 0,17 -0,73
Yi 41 43,9 36,3 39,9
Estimado 40,27 40,27 40,27 40,27
ei 0,73 3,63 -3,97 -0,37
21
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
Normal P-P Plot of RESIDUOS 1,00
,75
Expected Cum Prob
,50
,25
0,00 0,00
,25
,50
,75
1,00
Observed Cum Prob
Coeficiente de determinación Se usa para medir la precisión del modelo, y puede ser calculado mediante la expresión: STC SCE 1.709,83 71,71 0,9581 ó 95,81 % R2 STC 1.709,83 Conclusiones: La precisión del modelo es bastante satisfactoria R2 = 0,9581 Ambos factores son ampliamente significativos, y ambos ejercen una influencia positiva en la respuesta del experimento. Existe una fuerte interacción entre ellos, que refuerza positivamente la acción individual de cada uno. El efecto de esta interacción es más importante que la del factor B individualmente. Si se quiere disminuir la vibración de la ranuradora, la posición óptima es con los dos factores a nivel bajo.
El supuesto de normalidad del error es razonablemente válido. 2º) La duración de un resorte se mide en número de compresiones hasta la rotura. Se quiere analizar la influencia de tres factores en su duración: Longitud (A) con dos niveles 10 cm y 15 cm, Grosor (B) con dos niveles 5 mm y 7 mm, y tipo de acero (C) con dos niveles de contenido de carbono 0.04 % y 0.06 %. 3 Un experimento 2 con dos réplicas arrojó el siguiente resultado: Tratamiento Duración
+
-
+
A B C 82 86
+
+
+
A BC 92 88
-
-
+
A B C 63 65
-
+
+
A BC 72 74
+
-
-
A B C 98 96
-
-
-
A B C 77 81
+
+
-
A BC 90 94
-
+
-
A B C 76 74
Obtenga la tabla ANOVA correspondiente al experimento, halle los efectos de cada factor, y obtenga sus conclusiones Solución: Comencemos por identificar los diferentes vértices, para luego hallar sus totales. (1)= 77+81 = 158 a=98+96= 194 b=76+74= 150 c= 63+65= 128 ab= 90+94 = 184 ac= 82 + 86 = 168 bc = 72 + 74 = 146 abc = 92 + 88 = 180
Calculemos ahora las sumas de cuadrados: (Contraste A)2 (194 184 168 180 158 150 128 146)2 = = 1296 n 2k 2 23 (Contraste B)2 (150 184 146 180 158 194 128 168)2 SSB= = =9 n 2k 2 23 (Contraste C)2 (128 168 146 180 158 194 150 184)2 SSC= = = 256 n 2k 2 23
SSA=
22
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
(Contraste AB)2 (158 128 184 180 194 150 168 146)2 = =4 k n2 2 23 (Contraste AC)2 (158 150 168 180 194 128 184 146)2 SSAC= = =1 k n2 2 23 (Contraste BC)2 (158 194 146 180 150 128 184 168)2 SSBC= = = 144 k n2 2 23
SSAB=
SSABC=
(Contraste ABC)2 (194 150 128 180 158 184 168 146)2 = =1 k n2 2 23
STC = 1751
SCE = 1751- 1296- 9- 256- 4- 1- 144- 1= 40
La tabla ANOVA resulta entonces: Fuentes de Variación A B C AB AC BC ABC Residual Total
Suma de Cuadrados 1296 9 256 4 1 144 1 40 1751
Grados de Libertad 1 1 1 1 1 1 1 8 15
Cuadrado Medio
Razón F
1296 9 256 4 1 144 1 5
259,20 > 5,52 1,80 51,20 > 5,52 0,80 0,20 28,80 > 5,52 0,20
El valor crítico de la distribución F para 5% de significancia es F 0.05; 1, 8 = 5,52 de donde se concluye que los factores influyentes en orden de importancia son: A , C y la interacción BC Para hallar los efectos se debe tomar en cuenta nuevamente la tabla de signos para los contrastes, y aplicar: Efecto =
Contraste n 2k 1
Así por ejemplo (Contraste A) 194 184 168 180 158 150 128 146 A= = = 18 n 2k 1 2 23 1
BC
(1) a b ab c ac bc abc = 6 8
La tabla de efectos queda entonces: Factor A B Efecto 18 1,5
C -8
AB -1
AC 0,5
BC 6
ABC -0,5
El intervalo de confianza para el efecto de un factor se halla aplicando la expresión;
1 k 2 n2 2 Para 95 % de confianza, el coeficiente de la t-Student es : t0,05,8 = 2,306 Efecto Muestral ± t
C.M.R
Para el Factor A , el intervalo del 95% de confianza es: 18 ± 2,306
5
1 = 4
18,00 ± 2,58 Observe que el ± 2,58 que representa la estimación de la desviación estándar del error, define el radio del intervalo de confianza para todos los efectos, y que al restarlo y sumarlo a
23
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
cada efecto, el cero queda contenido en todos ellos, a excepción de los factores A , C y BC, que resultaron ser los únicos significativos, según la tabla ANOVA. El efecto de A es positivo es decir que incrementa la respuesta, el de C negativo es decir que la disminuye, y el de BC también positivo. La ecuación de la superficie de respuesta es en general: Y = β0 + β1X1 + β2X2 + β3X3 + β4X1X2 + β5X1X3 + β6X2 X3 + β7X1 X2 X3 + e Efecto i En donde β0 = Y , y β = , y se obtiene i 2 La tabla de coeficientes queda entonces: Coeficiente β0 β1 β2 β3 β4 β5 β6 β7 Valor 81,75 9 0,75 -4 -0,5 0,25 3 -0,25 1751 40 El coeficiente R2 correspondiente es: R2 = 0,9772 1751 Dado que los únicos factores significativos resultaron ser A, C y BC, la ecuación de la superficie de respuesta se reduce a Y = 81,75 + 9X1 - 4X3 + 3 X2 X3 + e Entre las conclusiones más importantes del experimento podemos citar las siguientes: El factor más influyente es el factor A, y le sigue en importancia el C El factor A ejerce una influencia positiva en la respuesta, mientras que el C una negativa. La acción del factor A no presenta interacción significativa con ninguno de los otros. El factor B no resulta significativo, pero su interacción con el C sí lo es, y de manera positiva, de donde podríamos decir que el factor B refuerza la acción del C y es un factor coadyuvante para C. El modelo es bastante preciso, con un coeficiente de determinación de 0,9772 Para encontrar dentro del dominio de experimentación, el punto de máxima respuesta, es decir el tratamiento que maximiza la duración del resorte, encontramos que este se alcanza en X1 = 1, X3 = -1 y X2 = -1, es decir con longitud alta, grosor bajo y acero bajo, con una duración esperada de Y = 81,75 + 9 + 4 + 3 = 97,75 En cuanto al análisis de residuos, es necesario primero calcular el valor estimado de cada una de las respuestas obtenidas en el experimento sustituyendo las coordenadas -1 +o +1 del vértice, dentro de la ecuación ya simplificada de la superficie de respuesta. Y
Estimado
Error
Y
Estimado
Error
77
79,75
-2,75
90
91,75
-1,75
81
79,75
1,25
94
91,75
2,25
98
97,75
0,25
82
83,75
-1,75
96
97,75
-1,75
86
83,75
2,25
76
73,75
2,25
72
71,75
0,25
74
73,75
0,25
74
71,75
2,25
63
65,75
-2,75
92
89,75
2,25
65
65,75
-0,75
88
89,75
-1,75
24
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
Normal P-P Plot of RESIDUOS 1,00
,75
Expected Cum Prob
,50
,25
0,00 0,00
,25
,50
,75
1,00
Observed Cum Prob
En virtud de que los errores quedan razonablemente alineados, es aceptable su normalidad. EJERCICIOS PROPUESTOS 1º) En la preparación del concreto intervienen diversos factores, como son por ejemplo, el tipo de arena y la relación agua cemento. Para analizar la influencia de estos dos factores en la resistencia del concreto, medida en 2 Kg/cm , se consideran dos niveles para el tipo de arena A, de grano fino (-) y de grano grueso (+), y dos niveles bajo (-) y alto (+) para la relación agua cemento B. Se realizan tres réplicas para cada tratamiento, y se mide en cada caso la resistencia del concreto obtenido. Los resultados fueron + B B A 210 208 204 215 220 216 + A 219 225 223 225 224 230 1)Obtenga la tabla ANOVA para este experimento, por dos procedimientos diferentes: Como un experimento con dos factores y tres observaciones por celda. 2 Como un experimento 2 con tres observaciones en cada vértice. 2) Obtenga un intervalo del 95% de confianza para cada uno de los efectos. 3) ¿Cuáles son sus conclusiones acerca del experimento? 4) ¿Cuál tratamiento recomendaría Ud. para obtener una mezcla de concreto más resistente? Solución; Fuentes S.S G.L C.M F Arena 444,0807 1 444,0807 49,32 > 5,32 Agua Cemento 140,0861 1 140,0861 15,57 > 5,32 Interacción 24,0832 1 24,0832 2,68 < 5,32 Error 72,0000 8 9,00 Total 680,25 11 Efectos : A 12,17
3,99
B: 6,83
3,99
AB -2,83
3,99
2º) Un ingeniero está interesado en el efecto de la velocidad de corte (A), la dureza del metal (B), y el ángulo de corte (C) sobre la duración de una herramienta de corte. Para ello se 3 eligen dos niveles para cada factor, y se corren dos replicas del diseño factorial 2 . La tabla siguiente presenta los datos de tiempo de duración (en horas) de la herramienta Tratamiento
Duración
+
-
A B C
406 377
+
+
+
+
-
-
+
-
+
+
+
-
-
-
-
-
+
+
-
-
+
-
A BC
A B C
A BC
A B C
A B C
A BC
A B C
392 419
440 453
605 500
325 435
221 311
552 472
354 348
25
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
Estos datos fueron procesados con un programa estadístico, y se obtuvo una tabla de efectos , y una tabla ANOVA FACTORES A B C AB AC BC EFECTOS 18,25 ? 71,75 -11,25 ? -24,25
ABC -34,75
Fuentes S.S G.L C.M F A ? ? 1332,25 ? B ? ? ? ? C 20592,25 ? ? ? AB 506,25 ? ? ? AC ? ? ? ? BC 2352,25 ? ? ? ABC 4830,25 ? ? ? Residual ? ? ? Total 134587,75 ? a) Calcule el efecto del factor B y de la interacción AC b) Calcule la suma de cuadrados correspondiente al factor B y a la interacción AC, y utilícelas para completar la tabla ANOVA c) Redacte un informe con sus conclusiones, señalando la precisión del modelo, identificando los factores que ejercen una influencia significativa en la duración de la herramienta, y clasificándolos en orden de importancia c) Obtenga un intervalo del 95% de confianza para el efecto del factor más influyente. d) ¿Cuál es el tratamiento que proporciona la máxima duración de la herramienta? + + e) Calcule los residuos correspondientes al tratamiento A B C Solución: TABLA DE EFECTOS: FACTORES A B C AB AC BC EFECTOS 18,25 84,25 71,75 -11,25 -119,25 -24,25
ABC -34,75
Fuentes A B C AB AC BC ABC Residual Total
Coeficiente Valor
S.S 1332,25 28392,25 20592,25 506,25 56882,25 2352,25 4830,25 19700 134587,75
β0 413,125
TABLA ANOVA G.L 1 1 1 1 1 1 1 8 15
C.M 1332,25 28392,25 20592,25 506,25 56882,25 2352,25 4830,25 2462,5
TABLA DE COEFICIENTES BETA β1 β2 β3 Β12 9,125 42,125 35,875 -5,625
F 0,54 11,53 8,36 0,21 23,10 0,96 1,96
Β13 -59,625
Β23 -12,125
Residuos: 14,50 3) Investigar el uso de algún software estadístico, como por ejemplo MINITAB o SPSS, en el 4 análisis de experimentos, y utilizarlo en el siguiente experimento 2 El Ingeniero responsable del proceso de producción de un cierto alimento, considera que existen 4 factores que afectan el número diario de kilos producidos A su juicio, estos factores son: o o T: Temperatura: Dos niveles (-) 160 C y (+) 180 C
Β123 -17,375
26
Guia de Diseño de Experimentos o Ing Angel Francisco Arvelo L.
C: Concentración de un ingrediente: Dos niveles (-) 20% y (+) 40% K: Uso de un catalizador: Dos niveles (-) sin y (+) con P: Presión Dos niveles (-) 50 psi y (+) 80 psi Para analizar la influencia de cada uno de estos factores diseña un experimento que consiste en ir cambiando cada día los niveles de cada factor, y observar el número de kilos del alimento, producidos ese día. El experimento va a tener una duración de 32 días y previamente mediante un sorteo aleatorio se decide cual combinación de los factores va a ser aplicado ese día. Al cabo de esos 32 días se obtuvieron los siguientes resultados; Factor T Factor C Factor K Factor P Día1 Día 2 -1 -1 -1 -1 60 64 +1 -1 -1 -1 72 70 -1 +1 -1 -1 54 55 +1 +1 -1 -1 73 79 -1 -1 +1 -1 78 70 +1 -1 +1 -1 84 82 -1 +1 +1 -1 79 78 +1 +1 +1 -1 79 81 -1 -1 -1 +1 57 55 +1 -1 -1 +1 66 64 -1 +1 -1 +1 74 73 +1 +1 -1 +1 63 66 -1 -1 +1 +1 86 82 +1 -1 +1 +1 66 67 -1 +1 +1 +1 84 86 +1 +1 +1 +1 75 73 Obtenga la tabla ANOVA Obtenga un intervalo del 95 % de confianza para cada uno de los efectos y las interacciones. Obtenga la ecuación de la superficie de respuesta, analice los residuos mediante el uso del papel probabilistico, y verifique la validez de los supuestos del modelo. ¿Cuál es a su juicio, el punto óptimo de operación? Elabore un informe con sus conclusiones acerca del experimento