ANOVA Multifactorial. StatFolio Muestra: anova.sgp

STATGRAPHICS – Rev. 4/d/yyyy ANOVA Multifactorial Resumen El procedimiento ANOVA Multifactorial está diseñado para construir un modelo estadístico de

Author: Ana Escobar Ortiz de Zárate

44 downloads 147 Views 178KB Size

Report

DOWNLOAD PDF

Recommend Stories

ANOVA Simple. StatFolio de Ejemplo: oneway.sgp

Obesidad: Problema multifactorial

MUESTRA

SOLICITUD CUENTA CORRIENTE EN PESOS SEGMENTO INDIVIDUOS - CARTERA DE CONSUMO CANAL DE VENTA CODIGO PROMOCION EJECUTIVO: SUC RADICACION: , NOMBRE/

Tratamiento multifactorial de la arteriosclerosis

MUESTRA

Cuestionario muestra

QUETA DE MUESTRA ETIQUETA DE MUESTRA ETIQUETA DE MUESTRA ETIQUETA DE MUESTRA ETIQUE

muestra universitaria

Diseño de experimentos: ANOVA. Elisa Mª Molanes López

Diseño de experimentos: ANOVA Elisa Mª Molanes López Un ejemplo introductorio ¾ Un ingeniero de desarrollo de productos desea maximizar la resisten

XXIII muestra de Teatro

XXIII muestra de Teatro PROVINCIA DE VALLADOLID 2006 XXIII muestra de Teatro PROVINCIA DE VALLADOLID 2006 XXIII muestra de Teatro PROVINCIA DE V

Story Transcript

STATGRAPHICS – Rev. 4/d/yyyy

ANOVA Multifactorial Resumen El procedimiento ANOVA Multifactorial está diseñado para construir un modelo estadístico describiendo el impacto de dos o más factores categóricos Xj de una variable dependiente Y. Se realizan pruebas para determinar si hay o no diferencias significativas entre las medias a diferentes niveles de los factores y si hay o no interacciones entre los factores. Además, los datos pueden desplegarse gráficamente de varias maneras, incluyendo un gráfico múltiple de dispersión, una gráfica de medias y una gráfica de interacciones. Este procedimiento está diseñado para experimentos relativamente simples, tales como experimentos factoriales con efectos fijos. El procedimiento Modelos Lineales Generales debe ser usado para situaciones más complicadas.

StatFolio Muestra: anova.sgp Datos de Muestra: El archivo stresstest.sf6 contiene datos de una prueba de estrés de n = 36 individuos, reportado por Kutner et al. (1996). En el estudio, cada uno realizó sus ejercicios diarios y se registró el número de minutos requeridos para alcanzar un nivel predefinido de estrés. La tabla de abajo muestra una lista parcial de datos en ese archivo: Subject (Sujeto) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Body fat (Grasa corporal) baja baja baja baja baja baja baja baja baja baja baja baja baja baja baja baja baja baja alta alta

Gender (Sexo) masculino masculino masculino masculino masculino masculino masculino masculino masculino femenino femenino femenino femenino femenino femenino femenino femenino femenino masculino masculino

Smoking (Fumador) ninguno ninguno ninguno ligero ligero ligero pesado pesado pesado ninguno ninguno ninguno ligero ligero ligero pesado pesado pesado ninguno ninguno

Minutes (Minutos) 34 32 31 27 24 23 20 21 24 25 35 26 22 22 20 15 10 13 21 20

3 individuos fueron seleccionados de 12 combinaciones de los siguientes factores: © 2006 por StatPoint, Inc.

ANOVA Multifactorial - 1

STATGRAPHICS – Rev. 4/d/yyyy Cantidad de grasa corporal: baja o alta Sexo: masculino o femenino Historial de fumador: ligero, pesado o ninguno. El estudio es un diseño factorial replicado de 2 por 2 por 3.

Entrada de Datos Los datos consisten en una sola columna que contiene mediciones y múltiples columnas indicando los niveles de los factores experimentales.

•

Variable dependiente: columna numérica que contiene las observaciones.

•

Factores: columnas numéricas o no numéricas que contienen niveles identificando cada factor.

•

Covariación: columnas numéricas opcionales que contienen valores de variables cuantitativas que varían junto con la respuesta y cuyos efectos deben ajustarse antes de comparar niveles de factores categóricos.

•

Seleccionar: subconjunto a seleccionar.

© 2006 por StatPoint, Inc.

ANOVA Multifactorial - 2

STATGRAPHICS – Rev. 4/d/yyyy

Resumen del Análisis El Resumen del Análisis muestra el número de factores y el número total de observaciones n. ANOVA Multifactorial - minutos Variable dependiente: minutos Factores: grasa corporal sexo fumador Número de casos completos: 36

Gráfico de Dispersión El panel Gráfico de Dispersión grafica por niveles los datos de un nivel seleccionado. Dispersión por Código de Nivel 40

minutes

30

20

10

0 high

low body fat

Si hay muchas variables comunes, tal vez deseé agregar a la gráfica una pequeña cantidad de jitter horizontal presionando el botón Jitter en la barra de herramientas análisis:

Esto compensa cada punto aleatoriamente en dirección horizontal de tal forma que valores idénticos no se grafican uno encima del otro.

© 2006 por StatPoint, Inc.

ANOVA Multifactorial - 3

STATGRAPHICS – Rev. 4/d/yyyy Dispersión por Código de Nivel 40

minutes

30

20

10

0 high

low body fat

La gráfica anterior sugiere que hay tres diferencias entre individuos con alta grasa corporal e individuos con baja grasa corporal. Panel de Opciones

•

Factor: factor a graficar en el eje horizontal.

Tabla ANOVA Para determinar si los factores tienen o no un efecto significativo en la variable dependiente, se realiza un análisis de varianza. Los resultados son desplegados en la Tabla ANOVA: Análisis de Varianza para minutos - Suma de Cuadrados Tipo III Fuente Suma de Cuadrados Gl Cuadrado Medio EFECTOS PRINCIPALES A:grasa corporal 702.25 1 702.25 B:sexo 210.25 1 210.25 C:fumador 343.056 2 171.528 INTERACCIONES AB 2.25 1 2.25 AC 204.167 2 102.083 BC 21.5 2 10.75 RESIDUOS 230.833 26 8.87821 TOTAL (CORREGIDO) 1714.31 35

Razón-F

Valor-P

79.10 23.68 19.32

0.0000 0.0000 0.0000

0.25 11.50 1.21

0.6189 0.0003 0.3142

Todas las razones-F se basan en el cuadrado medio del error

© 2006 por StatPoint, Inc.

ANOVA Multifactorial - 4

STATGRAPHICS – Rev. 4/d/yyyy residual

La tabla divide la variabilidad total entre las n mediciones en varios componentes: 1. Un componente atribuible al Efecto Principal de cada factor, que mide la variabilidad entre las respuestas medias a cada nivel del factor. 2. Un componente atribuible a la Interacción entre diferentes factores. Ocurre una interacción si el efecto de un factor depende del nivel de otro factor. 3. Si hay Covariación presenta un componente atribuible a cada covariación. 4. Un componente Residual, que mide la variabilidad entre sujetos a niveles idénticos de los factores. Los F-radios son de particular importancia así como sus P-Valores asociados. P-Valores pequeños (menores que 0.05 si se opera a un nivel de significancia del 5%) corresponden a efectos significativos. En este ejemplo, todos los efectos principales son estadísticamente significativos como los es también la interacción entre factores A y C (grasa corporal y fumador). Panel de Opciones El cuadro de diálogo Panel de Opciones controla cómo se calculan las F-pruebas:

•

Suma de Cuadrados: el tipo de descomposición usada para calcular las sumas de cuadrados en la tabla ANOVA. La selección por defecto es Tipo III, que cuantifica el incremento del

© 2006 por StatPoint, Inc.

ANOVA Multifactorial - 5

STATGRAPHICS – Rev. 4/d/yyyy error en la suma de cuadrados que ocurriría si cada efecto se removiese del análisis, dado que todos los otros efectos permanecen. En contraste, la suma de cuadrados Tipo I representa la reducción en el error de suma de cuadrados que ocurre cuando cada variable es añadida al modelo, en el orden mostrado en la tabla ANOVA. En un experimento balanceado (un experimento con igual número de observaciones de todas las combinaciones de factores) tal como en este ejemplo, ambos tipos de sumas de cuadrados arrojan resultados idénticos. En casos no balanceados, habrá diferencia. Tipo III es por defecto pues cuantifica la contribución marginal de cada efecto dado que todos los demás efectos han sido computados. •

Término de Error: la media cuadrática a usarse como denominador de la F-prueba al probar la importancia de cada efecto. En un diseño en el que todos los factores se cruzan y no son aleatorios, la selección de Residual es correcta. Para tipos de diseños más complicados, el analista tal vez deseé especificar otro denominador para ciertos efectos. Nota: el procedimiento Modelos Lineales Generales determina automáticamente del denominador propio de muchos tipos de modelos involucrando factores aleatorios y anidados y normalmente deben usarse para analizar esos tipos de diseños experimentales.

Opciones de Análisis El cuadro de diálogo Opciones de Análisis especifica las interacciones a incluirse en el análisis.

•

Máximo Orden de Interacción: número máximo de factores para los que se estimará una interacción.

•

Excluir: Presione este botón para quitar del análisis una o más interacciones.

Ejemplo – Removiendo Interacciones Insignificantes Para remover del análisis una o más interacciones, presione el botón Excluir en el cuadro de diálogo Opciones de Análisis. Esto despliega un segundo cuadro de diálogo:

© 2006 por StatPoint, Inc.

ANOVA Multifactorial - 6

STATGRAPHICS – Rev. 4/d/yyyy

Haciendo doble clic en cualquier interacción, esta puede moverse de derecha a izquierda o viceversa. Cualquier interacción especificada en el campo Excluir no será estimada. Luego de remover los dos efectos insignificantes de los datos de las pruebas de estrés, la tabla de arriba muestra los efectos remanentes: Análisis de Varianza para minutos - Suma de Cuadrados Tipo III Fuente Suma de Cuadrados Gl Cuadrado Medio EFECTOS PRINCIPALES A:grasa corporal 702.25 1 702.25 B:sexo 210.25 1 210.25 C:fumador 343.056 2 171.528 INTERACCIONES AC 204.167 2 102.083 RESIDUOS 254.583 29 8.77874 TOTAL (CORREGIDO) 1714.31 35

Razón-F

Valor-P

79.99 23.95 19.54

0.0000 0.0000 0.0000

11.63

0.0002

Todas las razones-F se basan en el cuadrado medio del error residual

Gráfica ANOVA La Gráfica ANOVA, desarrollada por Hunter (2005), es una técnica para desplegar gráficamente la importancia de cada factor en el análisis. Es una gráfica de efectos escalados de cada factor, donde el “efecto” de un factor es igual a la diferencia entre la media de mínimos cuadrados para © 2006 por StatPoint, Inc.

ANOVA Multifactorial - 7

STATGRAPHICS – Rev. 4/d/yyyy el nivel del factor y la media total estimada. Cada uno de los efectos es multiplicado por un factor escalador.

ν R ni νT n

(1)

donde νR es los grados de libertad residuales, νT es los grados de libertad del efecto principal del factor, ni es igual al número de observaciones en el i-ésimo nivel del factor, y n es el número promedio de observaciones a todos los niveles del factor. Esto escala los efectos de tal forma que la varianza natural de los puntos en el diagrama es comparable a la de los residuales, los cuales son desplegados debajo de la gráfica. La gráfica para los datos de muestra se ve a continuación: ANOVA Gráfico para minutes

heavy

smoking

none

female

gender body fat

light

P = 0.0000

male

P = 0.0000 low

high

P = 0.0000

Residuos -24

-14

-4

6

16

26

En la parte derecha del display están los P-Valores de los efectos principales, tomados de la tabla ANOVA. Comparando la variabilidad entre los efectos del tratamiento en la gráfica anterior y los residuales, es fácil ver que todos los factores muestran diferencias de una magnitud mayor que la que podría atribuirse solamente a error experimental. Dependiendo de la localización relativa de los efectos, podría ser posible en algunos casos identificar visualmente qué niveles son diferentes significativamente de qué otros, lo cual se hace formalmente con las Pruebas de Rangos Múltiples descrita a continuación.

Pruebas de Rangos Múltiples Para factores que muestran P-Valores significativos en la tabla ANOVA y que no interactúan con otros factores, se puede realizar un análisis posterior seleccionando las Pruebas de Rangos Múltiples. Contraste Múltiple de Rangos para minutos por sexo Método: 95.0 porcentaje LSD

© 2006 por StatPoint, Inc.

ANOVA Multifactorial - 8

STATGRAPHICS – Rev. 4/d/yyyy sexo Casos femenino 18 masculino 18

Contraste femenino masculino

Media LS 16.7222 21.5556

Sig. *

Diferencia -4.83333

Sigma LS 0.698361 0.698361

Grupos Homogéneos X X

+/- Límites 2.01994

* indica una diferencia significativa.

La mitad de arriba de la tabla despliega cada uno de los estimadores medios de mínimos cuadrados en orden creciente de magnitud. Muestra: •

Conteo – el número de observaciones al nivel especificado del factor.

•

LS Media – la media estimada por mínimos cuadrados. En el caso de un diseño balanceado, la media de mínimos cuadrados es equivalente al promedio de todas las observaciones al nivel indicado. En diseños no balanceados, la media de mínimos cuadrados es el valor predicho de la variable dependiente cuando el factor especificado se fija a un nivel particular mientras los demás factores se fijan a sus niveles medios. Las medias de mínimos cuadrados ajusta cualquier desbalanceo en los datos, haciendo predicciones a un nivel común para todos los factores.

•

LS Sigma – el error estándar estimado de la media de mínimos cuadrados.

© 2006 por StatPoint, Inc.

ANOVA Multifactorial - 9

•

STATGRAPHICS – Rev. 4/d/yyyy Grupos homogéneos – una ilustración gráfica de cuáles medias son significativamente diferentes de cuáles, basada en los contrastes desplegados en la segunda mitad de la tabla. Cada columna de X’s indica un grupo de medias entre las que no hay diferencias estadísticamente significativas. En el ejemplo hay 2 columnas, cada una conteniendo una sola X, indicando que los dos sexos caen en grupos significativamente diferentes.

La segunda mitad de la tabla despliega una comparación entre cada par de medias de nivel. •

Diferencia – la diferencia entre las dos medias de mínimos cuadrados.

•

Límites – un estimador de intervalo de esa diferencia, usando el procedimiento seleccionado de múltiples comparaciones.

•

Sig. – Se pone un asterisco junto a cualquier diferencia que sea estadísticamente significativamente diferente de 0 al nivel de significancia seleccionado, i.e., cualquier intervalo que no contenga al 0.

Panel de Opciones

•

Método: el método usado para hacer las comparaciones múltiples.

•

Factor: el factor a desplegarse.

•

Nivel de Confianza: el nivel de confianza usado por el procedimiento seleccionado de comparaciones múltiples.

Los métodos disponibles son: •

LSD - forma un intervalo de confianza para cada par de medias al nivel de confianza seleccionado, usando la distribución t de Student. Este procedimiento se le atribuye a © 2006 por StatPoint, Inc. ANOVA Multifactorial - 10

STATGRAPHICS – Rev. 4/d/yyyy Fisher y se conoce como el procedimiento Diferencia Menos Significativa, pues la magnitud de los límites indica la menor diferencia entre dos medias cualesquiera que puedan representar una diferencia estadísticamente significativa. Sólo debe usarse cuando la F-prueba de la tabla ANOVA indique diferencias significativas entre las medias muestrales •

Tukey HSD – ensancha los intervalos para permitir comparaciones múltiples entre todos los pares de medias usando la t de Tukey. Tukey llamó a su procedimiento el de Diferencia Honestamente Significativa ya que controla la tasa de error experimental a α. Si todas las medias son iguales, la probabilidad de declarar a cualquiera de los pares como significativamente diferentes en todo el experimento es igual a α. El procedimiento de Tukey es más conservador que el procedimiento LSD de Fisher, pues hace más difícil declarar cualquier par particular de medias como significativamente diferentes.

•

Scheffe – diseñado para permitir la estimación de todos los posibles contrastes entre las medias muestrales (no solo en comparaciones por pares). Usa una múltiple relacionada con la distribución F. En esta instancia, es probable que el procedimiento sea muy conservador, pues sólo se están estimando pares.

•

Bonferroni – diseñado para permitir la estimación de cualquier número preseleccionado de contrastes. Estos límites son usualmente más anchos que los de Tukey cuando se hacen todas las comparaciones por pares.

•

Student-Newman-Keuls – A diferencia de los métodos previos, éste no crea intervalos para las diferencias por pares. En vez de eso, ordena las medias en orden creciente y luego comienza a separarlas en grupos de acuerdo a valores del rango distribución Studentizada. Eventualmente, las medias se separan en grupos homogéneos en los que no hay diferencias significativas.

•

Duncan –similar al procedimiento Student-Newman-Keuls, excepto que usa un valor crítico distinto al rango de la distribución Studentizada al definir los grupos homogéneos. Una discusión detallada de los procedimientos de Duncan y de Student-Newman-Keuls la dan Milliken y Johnson (1992)

Esto sólo debe usarse cuando la F-prueba en la tabla ANOVA indique diferencias significativas entre las medias muestrales. La probabilidad de hacer un error Tipo I α aplica a cada par de medias de manera separada. Si se hace más de una comparación, la probabilidad total de llamar al menos a un par de medias significativamente diferentes cuando no lo son puede ser considerablemente mayor que α. La elección entre un procedimiento LCD y uno de múltiples comparaciones como el HSD de Tukey debe depender del costo relativo de hacer un error Tipo I (llamar diferentes a un par de medias que realmente no lo son) contra el costo de hacer un error Tipo II (no llamar diferentes a un par de medias que sí lo sean). En las primeras etapas de una investigación, tal vez uno no quiera ser tan conservador como cuando ya se han hecho las verificaciones finales

© 2006 por StatPoint, Inc.

ANOVA Multifactorial - 11

STATGRAPHICS – Rev. 4/d/yyyy

Tabla de Medias Esta tabla despliega las medias de mínimos cuadrados para cada nivel de los factores y para pares de niveles de cualquier interacción bifactorial incluida. Cada media se muestra junto a su error estimado estándar y un intervalo de confianza: Tabla de Medias por Mínimos Cuadrados para minutos con intervalos de confianza del 95.0 % Error Límite Límite Nivel Casos Media Est. Inferior Superior MEDIA GLOBAL 36 19.1389 grasa corporal alta 18 14.7222 0.698361 13.2939 16.1505 baja 18 23.5556 0.698361 22.1272 24.9839 sexo femenino 18 16.7222 0.698361 15.2939 18.1505 masculino 18 21.5556 0.698361 20.1272 22.9839 fumador pesado 12 15.6667 0.855314 13.9174 17.416 ligero 12 18.5833 0.855314 16.834 20.3326 ninguno 12 23.1667 0.855314 21.4174 24.916 grasa corporal por fumador alta,pesado 6 14.1667 1.2096 11.6928 16.6406 alta,ligero 6 14.1667 1.2096 11.6928 16.6406 alta,ninguno 6 15.8333 1.2096 13.3594 18.3072 baja,pesado 6 17.1667 1.2096 14.6928 19.6406 baja,ligero 6 23.0 1.2096 20.5261 25.4739 baja,ninguno 6 30.5 1.2096 28.0261 32.9739

Panel de Opciones

•

Nivel de Confianza: el nivel de confianza asociado a cada intervalo.

© 2006 por StatPoint, Inc.

ANOVA Multifactorial - 12

STATGRAPHICS – Rev. 4/d/yyyy

Gráfica de Medias Las medias de nivel pueden graficarse junto a intervalos de incertidumbreMedias y 95.0% de Fisher LSD 25 23

minutes

21 19 17 15 13 high

low body fat

El tipo de intervalo desplegado depende de las configuraciones del Panel de Opciones. Si todos los tamaños de muestra son los mismos (o cercanos), el analista puede determinar cuáles medias son significativamente diferentes de cuáles otras usando los procedimientos LSD, Tukey, Scheffe o Bonferroni simplemente viendo si un par de intervalos se traslapan en dirección vertical o no. Un par de intervalos que no se traslapan indica una diferencia estadísticamente significativa entre las medias al nivel de confianza seleccionado. En este caso, note que el intervalo para alta grasa corporal no se traslapa con el intervalo de baja grasa corporal, indicando una diferencia estadísticamente significativa entre las medias a esos dos niveles.

Panel de Opciones

© 2006 por StatPoint, Inc.

ANOVA Multifactorial - 13

STATGRAPHICS – Rev. 4/d/yyyy •

Intervalos: el método usado para construir los intervalos.

•

Factor: el factor a graficarse.

•

Nivel de Confianza: el nivel de confianza asociado a cada intervalo.

Los tipos de intervalos que pueden ser seleccionados. •

Intervalos de Confianza – despliega intervalos de confianza para las medias de nivel usando el error cuadrático medio de la tabla ANOVA.

•

Intervalos LSD – diseñados para comparar cualquier par de medias con el nivel de confianza establecido.

•

Intervalos HSD Tukey – diseñados para comparar todos los pares de medias. El nivel de confianza establecido aplica para toda la familia de comparaciones par a par.

•

Intervalos Scheffe – diseñados para comparar todos los contrastes. No son muy relevantes aquí.

•

Intervalos Bonferroni – diseñados para comparar un número seleccionado de contrastes. Los intervalos de Tukey son usualmente más ajustados.

Gráfica de Interacción Cuando existan una o más interacciones significativas, deben examinarse juntas usando la Gráfica de Interacción.

Gráfico de Interacciones 32

body fat high low

29

minutes

26 23 20 17 14 heavy

light smoking

none

La gráfica de interacción despliega las medias por mínimos cuadrados en todas las combinaciones de dos factores. Si los factores no interactúan, las líneas en la gráfica deben ser aproximadamente paralelas. Si no, entonces el efecto de un factor depende del nivel de otro, que es la definición de interacción. © 2006 por StatPoint, Inc.

ANOVA Multifactorial - 14

STATGRAPHICS – Rev. 4/d/yyyy Note que el efecto de fumador es mucho mayor en individuos con baja grasa corporal que en aquellos con alta grasa corporal.

Panel de Opciones

•

Intervalo – el tipo de intervalo (si hay) a ponerse alrededor de cada media.

•

Nivel de Confianza – el nivel de confianza del intervalo.

•

Interacción – la interacción a graficarse. Se desplegará un punto mostrando el valor medio predicho para cada combinación de factores en la interacción seleccionada.

•

Graficar en Ejes – el factor de la interacción seleccionada que será utilizada para definir el eje horizontal. Líneas separadas se retirarán de cada nivel del otro factor.

Ejemplo – Gráfica de Interacción con Intervalos Tukey Añadir intervalos Tukey HSD permite una comparación por pares entre las seis combinaciones de fumador y grasa corporal:

© 2006 por StatPoint, Inc.

ANOVA Multifactorial - 15

STATGRAPHICS – Rev. 4/d/yyyy

Interacciones y 95.0% de Tukey HSD 35

smoking heavy light none

31

minutes

27 23 19 15 11 high

low body fat

Examinando el traslape de los intervalos, tres grupos homogéneos son identificables: Grupo 1: individuos no-fumador, baja grasa corporal, cuyos tiempos en la prueba son significativamente más largos que los de los demás individuos.

Grupo 2: individuos ligero-fumador, baja grasa corporal, cuyos tiempos en la prueba son menores que los del Grupo 1, pero significativamente mayores que los de otros. Grupo 3: los demás. Note que todos sus intervalos se traslapan, indicando que no hay diferencias estadísticamente significativas entre los individuos restantes.

Gráficas de Residuales Como en todo modelo estadístico, es una buena costumbre examinar los residuales. Los residuales son iguales a los datos observados menos los valores predichos por el modelo estadístico subyacente. El procedimiento ANOVA Multifactorial crea 3 gráficas de residuales: 1. contra nivel de factor. 2. contra valor predicho. 3. contra número de observación. Residuales contra Nivel de Factor Esta gráfica es de ayuda para visualizar cualquier diferencia en la variabilidad de varios niveles de un factor.

© 2006 por StatPoint, Inc.

ANOVA Multifactorial - 16

STATGRAPHICS – Rev. 4/d/yyyy Gráfico de Residuos para minutes 8

residuos

5 2 -1 -4 -7 heavy

light

none

smoking

El residual promedio de cada nivel es igual a 0.

Panel de Opciones

•

Factor: factor a desplegarse en el eje horizontal.

Residuales contra Predicho Esta gráfica es de ayuda para detectar cualquier heteroescedasticidad en los datos. Gráfico de Residuos para minutes 8

residuos

5 2 -1 -4 -7 0

© 2006 por StatPoint, Inc.

10

20 predichos

30

40

ANOVA Multifactorial - 17

STATGRAPHICS – Rev. 4/d/yyyy La heteroescedasticidad ocurre cuando la variabilidad de los datos cambia como lo hace la media, y puede necesitarse transformar los datos antes de realizar el ANOVA. Usualmente es evidenciado por un patrón de forma de embudo en la gráfica de residuales. Residuales contra Observación Esta gráfica muestra los residuales contra el número de fila en la hoja de datos: Gráfico de Residuos para minutes 8

residuos

5 2 -1 -4 -7 0

10

20 número de fila

30

40

Si los datos se arreglan en orden cronológico, cualquier patrón de los datos puede indicar una influencia exterior. No es evidente ningún patrón así en la gráfica de arriba.

© 2006 por StatPoint, Inc.

ANOVA Multifactorial - 18

STATGRAPHICS – Rev. 4/d/yyyy

Guardar Resultados Los siguientes resultados pueden guardarse en la hoja de datos: 1. Recuentos por Nivel – el número de observaciones a cada nivel de los factores y a cada par de factores. 2. Medias por Nivel – la respuesta media a cada nivel de factores y a cada par de factores. 3. Errores Estándar por Nivel – el error estándar a cada nivel de factores. 4. Medias de Mínimos Cuadrados – la media por mínimos cuadrados a cada nivel de factores. 5. Residuos – los n residuales.

Cálculos Modelo Estadístico Para ajustar un modelo a los datos, STATGRAPHICS construye una matriz de n por p de variables X independientes. La matriz incluye: •

Una columna de 1’s para representar una constante.

•

Variables indicatrices para cada factor. Para un factor con k niveles, k – 1 variables indicatrices se construyen. La j-ésima variable indicadora para un factor contiene el valor 1 para cada observación igual al j-ésimo nivel del factor, -1 para cada observación igual al késimo nivel y 0 para cualquier otro caso.

•

Una columna conteniendo los valores de cada covariación, si hay.

•

Productos – cruz de las variables indicadoras y las columnas covariadas para representar cualquier interacción.

Entonces se ajusta un modelo usando estimación lineal de mínimos cuadrados:

βˆ = ( X ′X ) −1 X ′Y

(2)

Medias por Mínimos Cuadrados Las medias por mínimos cuadrados son la respuesta predicha

Yˆp = X ′p ( X ′X ) −1 X ′Y

(3)

donde X p es el vector de variables independientes en las que cada variable indicadora correspondiente a factores no incluidos en el efecto especificado se fija a 0 y cada covariación se fija a su nivel medio observado.

© 2006 por StatPoint, Inc.

ANOVA Multifactorial - 19

STATGRAPHICS – Rev. 4/d/yyyy Errores Estándar Estimados a partir de

s.e. p =

X ′p MSE ( X ′X ) −1 X p

(4)

donde MSE es igual al error cuadrático medio en la tabla ANOVA.

Procedimientos de Comparaciones Múltiples Vea la documentación ANOVA de una vía.

© 2006 por StatPoint, Inc.

ANOVA Multifactorial - 20