ANÁLISIS DE LA VARIANZA

-1- T1 x11 ! x1n1 T2 x21 ! x2n2 … Tr … xr1 " ! … x rnr INTRODUCCIÓN AL ANÁLISIS DE LA VARIANZA José Luis Vicente Villardón Departamento de Estadí

Author: Lidia Alarcón Morales

1 downloads 48 Views 1013KB Size

Report

DOWNLOAD PDF

Recommend Stories

1. Análisis de la Varianza

1. Análisis de la Varianza Curso 2011-2012 Estadística 1.1 Dos tratamientos Comparación de dos tratamientos A 51,3 39,4 26,3 39,0 48,1 34,2 69,8 31

Varianza y covarianza armónica

Varianza y covarianza armónica Francisco Parra Rodriguez Doctor en Ciencias Económicas. UNED. Series temporales estacionarias. Sea x(t ) un conjunto

Análisis de Varianza no paramétricos

Capítulo VII Análisis de Varianza no paramétricos Anova de Kruskal-Wallis Anova de Friedman Anova de Q de Cochran Introducción Las técnicas de anális

MEDIA Y VARIANZA (VARIABLES DISCRETAS)

6.3. Estimadores Insesgados de Varianza Uniformemente Mínima

6.3. ESTIMADORES INSESGADOS DE VARIANZA UNIFORMEMENTE M´INIMA 6.3. Carlos Erwin Rodr´ıguez Estimadores Insesgados de Varianza Uniformemente M´ınima

c. Calcule la varianza de las medias muestrales

Estimadores robustos de autocorrelación espacial basados en la varianza muestral

Vol. 17, 1, 3–17 (2001) Revista Internacional de M´ etodos Num´ ericos para C´ alculo y Dise˜ no en Ingenier´ıa Estimadores robustos de autocorrelac

Heterogeneidad de varianza ambiental en vacunos Brangus Tesista: Gabriel Otero

DETERMINACION DE COMPONENTES DE VARIANZA GENETICA Y HEREDABILIDAD EN CARACTERES DE INTERES EN AGUACATE

modelos aditivos y multiplicativos en el anlisis de matrices multitrazos-multimtodos de cuestionarios de intereses profesionales

´ tica: Teor´ıa y Aplicaciones 1998 5(1) : 49–56 Revista de Matema cimpa – ucr – ccss issn: 1409-2433 modelos aditivos y multiplicativos en el anlis

Story Transcript

-1-

T1 x11 ! x1n1

T2 x21 ! x2n2

… Tr … xr1 " ! … x rnr

INTRODUCCIÓN AL ANÁLISIS DE LA VARIANZA

José Luis Vicente Villardón Departamento de Estadística

-2-

ANALISIS DE LA VARIANZA DISEÑO DE UNA VIA Disponemos de r poblaciones, generalmente correspondientes a r tratamientos experimentales. Cada uno de los tratamientos Ti, (i=1, …, r) se supone que tiene distribución normal con media µi y varianza σ2, común a todos ellos, es decir se trata de poblaciones normales y homoscedásticas. De cada una de las poblaciones (o tratamientos), tomamos una muestra de tamaño ni. Las observaciones obtenidas se pueden recoger en una tabla de la forma

T1 x11 ! x1n1

T2 x21 ! x2n2

… Tr … xr1 " ! … x rnr

es decir xij es la observación j del grupo experimental i. Llamaos x1,…, xr a las medias muestrales de los grupos y media de todas las observaciones.

x

a la

Cuando se trata de un experimento diseñado, es decir, cuando se trata de la aplicación de r tratamientos a un conjunto de unidades experimentales, estas deben seleccionarse para que sean homogéneas, de forma que no se introduzcan factores de variación distintos del que se desea controlar. La asignación de los tratamientos a cada una de las unidades debe hacerse al azar. Es lo que se conoce como diseño “completamente al azar”. El modelo matemático subyacente a este tipo de diseño es

-3-

xij = µi + ! ij xij = µ + ( µ i " µ ) + ! ij xij = µ + # i + !ij donde µi = µ + ! i es la cantidad que depende del tratamiento usado (descompuesta en una media global y un efecto del tratamiento) y !ij es la cantidad que depende solamente de la unidad experimental y que se identifica con el error experimental. La hipótesis de que los distintos tratamientos no producen ningún efecto (o la de que las medias de todas las poblaciones son iguales) se contrasta mediante el análisis de la varianza de una vía, comparando la variabilidad entre grupos con la variabilidad dentro de los grupos.

H0 : µ1 = … = µr = µ Ha : !i, j / µ i " µ j El análisis de la varianza se basa en la descomposición de la variabilidad total en dos partes, una parte debida a la variabilidad entre las distintas poblaciones o tratamientos (variabilidad entre grupos o variabilidad explicada por el diseño) y otra parte que puede considerarse como la variabilidad intrínseca de las observaciones (variabilidad dentro de los grupos o residual).

Q = QE + QR La variabilidad entre grupos

r

QE = " ni ( xi ! x ) 2 i=1

mide la discrepancia entre los grupos y la media global, de forma que si no hay diferencias entre ellos (la hipótesis nula es cierta) obtendremos variabilidades pequeñas. Si, por el contrario, la

-4-

hipótesis nula es falsa, cabe esperar que la variabilidad entre grupos sea grande. La variabilidad dentro de los grupos

r

ni

QR = " " ( xij ! xi )2 i=1 j=1

mide la variabilidad intrínseca de las observaciones, es decir, si el experimento está bien diseñado y no se incluyen factores de variación distintos al estudiado, debe ser error puramente aleatorio producido como resultado de la variabilidad biológica del material experimental. El contraste del Análisis de la varianza se basa en la comparación de la variabilidad entre y la variabilidad dentro, rechazaremos la hipótesis nula siempre que la variabilidad “entre” sea grande, pero utilizando como patrón de comparación la variabilidad “dentro”. Es decir, aceptaremos un efecto de los tratamientos siempre que estos produzcan mayores diferencias en las unidades experimentales que las que habría sin la aplicación de los mismos. Antes de proceder a la comparación hemos de dividir las sumas de cuadrados por sus correspondientes grados de libertad, relacionados con el número de observaciones con las que se realiza el cálculo. De esta forma obtenemos los cuadrados medios o estimadores de las variabilidades. La información completa se resume en la tabla siguiente. Es la que se conoce como tabla de ANOVA y resume toda la información necesaria para realizar el correspondiente contraste.

-5-

Fuente Entre

Residua l Total

Suma de cuadrados r QE = " ni ( xi ! x ) 2 i=1

ni

r

QR = " " ( xij ! xi )

g.l. r-1

Estimador Fexp Q SE2 = E F = exp

r !1

2

n-r

SR2 =

i=1 j=1

r

ni

Q = " " ( xij ! x )

2

SE2 S2R

QR n!r

n-1

i=1 j=1

El cociente entre la variabilidad “entre” y la variabilidad “dentro”, una vez que se han hecho comparables, sigue una distribución F de Snedecor con r-1 y n-r grados de libertad. La distribución nos sirve para buscar el valor a partir del cual el cociente es lo suficientemente grande como para declarar las diferencias entre grupos estadísticamente significativas. Los estimadores de los efectos de los tratamientos se estiman a partir de

!ˆ i = µˆ i " µˆ = xi " x y la parte propia de cada observación (o residual)

!ˆij = xij " µˆ " # i = xij " xi Los residuales pueden servirnos para la validación de las hipótesis básicas. Recuérdese que, en realidad, un análisis de la varianza de una vía es equivalente a un modelo de regresión en el que solo aparece una regresora cualitativa con r categorías (mediante las correspondientes variables ficticias). La validación de las hipótesis básicas puede

-6-

hacerse entonces de la misma manera que en un modelo re regresión, utilizando gráficos de residuales.

COMPARACIONES POR PAREJAS Una vez determinada la significación de las diferencias procederemos a la comparación de los tratamientos por parejas, es decir, a contrastar la hipótesis

H 0 : µi = µ j H a : µi ! µ j

para cada pareja de medias. El estadístico de contraste que utilizaremos es:

t

i, j

xi ! x j

= SR

1 1 + ni n j

" t N !r

que sigue Una distribución t de Student con N-r grados de libertad. La realización directa de cada contraste para un nivel de significación α incrementa la probabilidad de cometer un error de tipo I para el contraste global de igualdad de todas las medias por lo que, en general, el nivel de significación de cada contraste particular tiene que ser corregido. Si no importa el incremento en el riesgo tipo I puede realizarse directamente el contraste t de Student, asumiendo que probablemente encontraremos más diferencias de las que se encuentran realmente en los datos. Se rechaza la hipótesis nula si el estadístico de contraste supera el valor crítico de la distribución t de Student al nivel α.

t

i, j exp

xi ! x j

= SR

o lo que es lo mismo,

1 1 + ni n j

> t N !r,"

-7-

xi ! x j > t N !r," SR

1 1 + ni n j

es decir, cuando la diferencia de medias supera el valor

# 1 1& + ( % t N !r," SR ni n j ' $

que se denomina “diferencia significativa

mínima” (lest significant difference). Por esta razón, a veces al test se le conoce como LSD. Si se está interesado en mantener el nivel de significación global por debajo del nivel predeterminado, es necesario corregir el nivel que se utilizará en cada contraste individual de forma que al aumentar el riesgo, permanezca por debajo del fijado. La corrección consiste en utilizar para cada contraste un nivel α ‘, más pequeño que α y que resulta de dividir éste por una constante de penalización K.

!'=

! K

Dependiendo de los valores que tomemos para K obtendremos distintos procedimientos de contraste. TEST DE BONFERRONI K es el número de comparaciones posibles por parejas.

! r $ r(r ' 1) K =# & = 2 " 2% El test de Bonferroni es el que más penaliza de forma que, el nivel de significación para el contraste global queda, en realidad, por debajo del fijado. Se trata entonces de un test conservador que detecta menos diferencias de las que hay realmente en los datos. TEST DE TUKEY Cuando los tamaños de muestra son todos iguales es posible utilizar como penalización el propio número de grupos r. El test de Tukey es menos conservador que el de Bonferroni.

-8-

Tukey

LSD (1)

(2)

Bonferroni (3)

(4)

-9-

ANALISIS DE DOS VIAS En muchas situaciones prácticas la unidades experimentales no son homogéneas por lo que conviene agruparlas en distintos conjuntos de observaciones homogéneas. A tales conjuntos se les denomina bloques. Los tratamientos se aplican dentro de cada bloque siguiendo las mismas técnicas de aleatorización expuestas previamente. Se procurará que los tratamientos estén representados de la misma manera en todos los bloques. Diseño en bloques al azar Supongamos que se dispone de r tratamientos a comparar y que se dividen las observaciones en s bloques con r unidades experimentales cada uno. Dentro de cada bloque se aplica una vez cada tratamiento utilizando un procedimiento de aleatorización. Los datos resultantes serían los siguientes

Tratamientos T1 B1 x11 Bloques ! ! Bs xs1

… Tr … x1r " ! … xsr

El modelo matemático es ahora

xij = µ ij + ! ij xij = µ + " i + # j + !ij αi es el efecto debido al bloque, βj es el efecto debido al tratamiento y εij es el error experimental. Donde

-10-

Obsérvese que solamente hemos sustraído del residual la parte correspondiente a los bloques. -Análisis estadístico: Análisis de la varianza de dos vías. Las hipótesis de que los distintos tratamientos y los bloques no producen ningún efecto se contrasta mediante el análisis de la varianza de dos vías, comparando la variabilidad entre bloques y la variabilidad entre tratamientos con la variabilidad dentro de los grupos. Los resultados fundamentales se resumen en la tabla siguiente. Suma de cuadrados s Entre 2 Q = r( x ! x ) " B i• Bloques i=1

g.l. s-1

Estimador Fexp Q F = 2 SB = B B s ! 1 S2 B SR2

r

r-1

ST =

Fuente

Entre Tratam.

QT = " s(x• j ! x )

2

j =1

QR =

Residual

s

(r-1)(s-1)

r

2 " " ( xij ! xi• ! x• j + x )

i=1 j=1 Total

s

r

Q = " " ( xij ! x )2

2

QT FT = r ! 1 S2 T SR2

SR2 = QR (r!1)(s!1)

n-1

i=1 j=1

Los estimadores de los efectos de los bloques y tratamientos se estiman a partir de

-11-

µˆ = x !ˆ i = xi• " x #ˆ j = x• j " x y la parte propia de cada observación (o residual)

!ˆij = xij " xi• " x• j + x Los residuales pueden servirnos para la validación de las hipótesis básicas de la misma manera que en el diseño de una vía.

-12-

IDEAS BASICAS SOBRE EXPERIMENTOS FACTORIALES -Definiciones generales y discusión A cada uno de los tratamientos básicos le denominaremos factor y a cada una de sus posibles formas (o valores) la denominaremos nivel del factor. Una combinación de un nivel de cada uno de los factores estudiados determina un tratamiento. El experimento en el que todas las combinaciones de niveles de los factores son interesantes se denomina experimento factorial.

-Tipos de factores -Factores cualitativos específicos. Factores susceptibles de aplicación Factores de clasificación -Factores cuantitativos -Factores cualitativos ordenados. -Factores cualitativos muestreados.

-13-

Efectos principales e interacción en un experimento de dos factores. Supongamos que tenemos un experimento de dos factores A y B con cuatro niveles cada uno, y supongamos, para simplificar que no existe variación no controlada.

Factor A nivel 1 nivel 2 nivel 3 nivel 4 media

nivel 1 9 12 10 13 11

Factor B nivel 2 nivel 3 11 14 14 17 12 15 15 18 13 16

nivel 4 15 18 16 19 17

media 12.25 15.25 13.25 16.25

Tenemos varias formas de cacterizar esta tabla: a)La diferencia entre las observaciones de dos niveles cualesquiera de A es la misma para todos los niveles de B. b)La diferencia entre las observaciones de dos niveles cualesquiera de B es la misma para todos los niveles de A. c) Los efectos de los dos factores son aditivos. d) Los residuales al restar los efectos fila y columna son cero. En este caso se dice que los factores no interactuan o que sus efectos son aditivos. Si estas condiciones no se verifican decimos que hay una interacción entre A y B. Se dice que hay interacción cuando las diferencias entre dos niveles cualesquiera de uno de los factores dependen de los niveles del otro factor.

Factor A nivel 1 nivel 2 nivel 3 nivel 4 media

nivel 1 9 12 11 12 11

Factor B nivel 2 nivel 3 11 14 14 17 11 14 16 19 13 16

nivel 4 15 18 17 18 17

media 12.25 15.25 13.25 16.25

-14-

Efectos principales: Efectos de cada uno de los niveles de los factores por separado (promediando sobre el otro factor). Interacción: Efectos producidos por la aplicación conjunta de los niveles de los dos factores. Gráficos de interacción 20 18 16 14 12 10 8 6 4 2 0

n1 n2 n3 n4

Efectos aditivos

20 18 16 14 12 10 8 6 4 2 0

n1 n2 n3 n4

Efectos no aditivos

-15-

Experimento factorial con dos factores de variación y el mismo número de observaciones por casilla. Se dispone de un conjunto de observaciones homogéneas y se asigna los tratamientos (combinación de niveles de los dos factores) aleatoriamente a las unidades. Los datos resultantes serían los siguientes

Factor A B1 Factor B

! Bs

A1 ! x111 $ # & #! & #x & " 11t % ! ! x s11 $ # & ! # & #x & " s1t %

…

Ar ! x1r1 $ # & … #! & #x & " 1rt % " ! ! x rs1 $ # & … #! & #x & " rst %

El modelo matemático es ahora

xijk = µij + !ijk xijk = µ + " i + # j + ("# )ij + ! ijk Donde αi es el efecto debido al bloque, βj es el efecto debido al tratamiento, (αβ)ij es el efecto conjunto (interacción) y εij es el error.

-Análisis estadístico: Análisis de la varianza de dos vías. Las hipótesis de que los distintos factores no producen ningún efecto y de que no existe interacción se contrastan mediante el análisis de la varianza de dos vías con interacción, comparando la

-16-

variabilidad entre los niveles del factor A, la variabilidad entre los niveles del factor B, y la variabilidad debida a la interacción con la variabilidad dentro de los grupos o residual. Fuente Filas

Columnas

Suma de cuadrados s r t QF = " " " (xi•• ! x )2 i=1 j=1 k =1

s

r

g.l. s-1

t

r-1

QC = " " " (x• j• ! x )2 i=1 j=1 k =1

QFC =

Interacc.

(r-1)(s-1)

" (xij• ! xi•• ! x• j• + x )2

i, j,k

Resid.

(r!1)(s!1) s

r

t

QR = " " " ( xijk ! xij• )

2

rs(t-1)

i=1 j=1 k =1

Total

Estimador Fexp 2 Q SF2 = F SF s !1 S2 R QC S 2 2 C SC = r ! 1 S2 R 2 2 SFC SFC = SR2 QFC

s

r

t

Q = " " " (xij ! x )2

SR2 = QR rs(t !1)

rst-1

i=1 j=1 k =1

Los estimadores de los efectos de los bloques y tratamientos se estiman a partir de

µ=x !ˆ i = xi•• " x #ˆ j = x• j• " x

(!ˆ#ˆij ) = xij• " xi•• " x• j• + x y la parte propia de cada observación (o residual)

-17-

!ˆij = xijk " xij• Los residuales pueden servirnos para la validación de las hipótesis básicas de la misma manera que en el diseño de una vía.

-18-

EJEMPLO Se está investigando cual es el efecto de tres tipos de abono sobre dos tipos de suelo. Se espera que el efecto de los distintos abonos se manifieste de forma diferente dependiendo del tipo de suelo. Para el presente estudio tomaremos dos tipos de suelo, ácido y alcalino y tres tipos de abono que denotaremos con A, B y C. Tenemos así dos factores (suelo y abono) con 2 y 3 niveles respectivamente, que resultan en 6 combinaciones. Tomaremos un diseño factorial con dos factores y tres réplicas en cada una de las combinaciones de los niveles de los dos factores. La respuesta es un índice de abundancia de una determinada especie tras la aplicación de los distintos abonos. Los resultados se muestran en la tabla siguiente.

Ácido Alcalino

A 8 4 0 14 10 6

B 10 8 6 4 2 0

C 8 6 4 15 12 9

ANOVA Table for RESPUESTA DF

Sum of Squares

Mean Square

F-Value

P-Value

Lambda

Power

SUELO

1

18,000

18,000

2,038

,1789

2,038

,248

ABONO

2

48,000

24,000

2,717

,1063

5,434

,428

2

144,000

72,000

8,151

,0058

16,302

,905

12

106,000

8,833

SUELO * ABONO Residual

Means Table for RESPUESTA Effect: SUELO * ABONO Count

Mean

Std. Dev.

Std. Err.

ACIDO, A

3

4,000

4,000

2,309

ACIDO, B

3

8,000

2,000

1,155

ACIDO, C

3

6,000

2,000

1,155

ALCALINO, A

3

10,000

4,000

2,309

ALCALINO, B

3

2,000

2,000

1,155

ALCALINO, C

3

12,000

3,000

1,732

-19-

Interaction Line Plot for RESPUESTA Effect: SUELO * ABONO 14 12

Cell Mean

10 A

8

B

6

C

4 2 0

ACIDO

ALCALINO Cell

Bonferroni/Dunn for RESPUESTA Effect: ABONO Significance Level: 5 %

Fisher's PLSD for RESPUESTA Effect: ABONO Significance Level: 5 % Mean Diff.

Crit. Diff

P-Value

Mean Diff.

Crit. Diff

P-Value

A, B

2,000

3,739

,2664

A, B

2,000

4,769

,2664

A, C

-2,000

3,739

,2664

A, C

-2,000

4,769

,2664

B, C

-4,000

3,739

,0380

B, C

-4,000

4,769

,0380

S

Comparisons in this table are not significant unless the corresponding p-value is less than ,0167. Tukey/Kramer for RESPUESTA Effect: ABONO Significance Level: 5 % Mean Diff.

Crit. Diff

A, B

2,000

4,574

A, C

-2,000

4,574

B, C

-4,000

4,574

-20-

ANOVA Table for RESPUESTA Split By: SUELO Cell: ACIDO DF

Sum of Squares

Mean Square

F-Value

P-Value

Lambda

Power

ABONO

2

24,000

12,000

1,500

,2963

3,000

,207

Residual

6

48,000

8,000

Tukey/Kramer for RESPUESTA Effect: ABONO Significance Level: 5 % Split By: SUELO Cell: ACIDO Mean Diff.

Crit. Diff

A, B

-4,000

7,087

A, C

-2,000

7,087

B, C

2,000

7,087

ANOVA Table for RESPUESTA Split By: SUELO Cell: ALCALINO DF

Sum of Squares

Mean Square

F-Value

P-Value

Lambda

Power

ABONO

2

168,000

84,000

8,690

,0169

17,379

,822

Residual

6

58,000

9,667

Tukey/Kramer for RESPUESTA Effect: ABONO Significance Level: 5 % Split By: SUELO Cell: ALCALINO Mean Diff.

Crit. Diff

A, B

8,000

7,791

A, C

-2,000

7,791

B, C

-10,000

7,791

S S

Recommend Stories

Story Transcript

Get in touch

Social