Transformaciones de Box-Cox

STATGRAPHICS – Rev. 9/14/2006

Transformaciones de Box-Cox Resumen El procedimiento para las Transformaciones de Box-Cox es diseñado para determinar una transformación optima para Y mientras se estima un modelo de regresión lineal. Es muy útil cuando la variabilidad de Y cambia como una función de X. A menudo, una apropiada transformación de Y estabiliza la variabilidad y produce que las desviaciones alrededor del modelo sean más normalmente distribuidas. La clase de transformaciones consideradas son transformaciones de potencia definidas por:

Y ′ = (Y + λ 2 ) 1 λ

(1)

en la cual los datos son calculados en una potencia de λ1 después de cambiarlo a una cierta cantidad λ2. Posteriormente, el parámetro de cambio λ2 se fija igual a 0. Esta clase incluyen raíces cuadradas, logaritmos, recíprocos, y otras transformaciones comunes, que dependen sobre una potencia. Los ejemplos incluyen: Potencia λ1 = 2 λ1 = 1 λ1 = 0.5 λ1 = 0.333 λ1 = 0 λ1 = -0.5

λ1 = -1

Transformación Y′ = Y 2 Y′ = Y Y′ = Y Y′ = 3 Y Y ′ = ln(Y ) 1 Y′ = Y 1 Y′ = Y

Descripción Cuadrado Datos sin Transformar Raíz Cuadrada Raíz Cúbica Logaritmo Raíz Cuadrada Inversa

Reciproco

Note que si λ1 → 0, la transformación de potencia se enfoca en un logaritmo.

Ejemplo StatFolio: boxcox.sgp

© 2006 por StatPoint, Inc.

Transformaciones de Box-Cox - 1

STATGRAPHICS – Rev. 9/14/2006

Datos del Ejemplo: El archivo plasma.sf3 contiene datos presentados por Neter et al. (1998) que muestran el nivel de plasma de polaminos para n = 25 niños sanos. Una porción de los datos se muestra abajo: Age (Edad) 0 0 0 0 0 1 1 1 1 1 2 2 …

Plasma level (Nivel Plasma) 13.44 12.84 11.91 20.09 15.6 10.11 11.38 10.28 8.96 8.59 9.83 9 …

Es deseable determinar un modelo relacionando el nivel de plasma para la edad de los niños.

Entrada de Datos La caja de dialogo para la entrada de datos requiere los nombres de las columnas que contienen la variable dependiente Y y la variable independiente X:

•

Y: Columna numérica que contiene las n observaciones para la variable dependiente Y.

•

X: Columna numérica que contiene las n observaciones para la variable independiente X.

•

Selección: Selección de un subconjunto de los datos.

© 2006 por StatPoint, Inc.

Transformaciones de Box-Cox - 2

STATGRAPHICS – Rev. 9/14/2006

Resumen del Análisis En relación a las dos variables, el procedimiento para estimar un modelo es de la forma W = β 0 + β1 X + ε

(2)

donde la variable dependiente W se relaciona con Y de acuerdo a

[

]

⎧1 + K 1 (Y + λ 2 )λ1 − 1 ⎪ W =⎨ ⎪1 + K ln (Y + λ ) 2 2 ⎩

λ1 ≠ 0 (3)

si

λ1 = 0

y ⎡ n ⎤ K 2 = ⎢∏ (Yi + λ 2 )⎥ ⎣ i =1 ⎦ 1 K1 = λ1 K 2λ1 −1

1/ n

(4) (5)

Note que K2 es la media geométrica de Y+λ2. Después de Box y Cox (1964), la transformación óptima es la que minimiza el cuadrado medio del error de W. La razón para usar la variable estandarizada W en vez de Y ′ es ajustar la magnitud sobre la suma de cuadrados del error para que haya el efecto de la transformación potencia. El Resumen del Análisis presenta la potencia óptima y el resultado del modelo: Transformaciones Box-Cox - Plasma Level vs. Age Potencia = -0.506 Camibio = 0.0 Variable dependiente: Plasma Level Variable independiente: Age Error Parámetro Estimado Estándar Intercepto 37.6283 0.399299 Pendiente -1.99141 0.163013

T Estadístico 94.2359 -12.2162

Análisis de Varianza Fuente Suma de Cuadrados Modelo 198.285 Residuo 30.5593 Total (Corr.) 228.845

Gl 1 23 24

Valor-P 0.0000 0.0000

Cuadrado Medio 198.285 1.32866

Razón-F 149.24

Valor-P 0.0000

Coeficiente de Correlación = -0.93084 R-cuadrada = 86.6463 porciento Error Estándard del Est. = 1.15268 Intervalo aproximado del 95% de confianza para la potencia: -1.116 a 0.063

Se incluye en la salida: • Parámetros de Potencia y Cambio: Los valores de λ1 y λ2. Por defecto, el parámetro de potencia es optimizado, mientras que el parámetro de cambio es fijado en 0. Esto se puede cambiar usando Opciones del Análisis. También se incluye al final de la pantalla una

© 2006 por StatPoint, Inc.

Transformaciones de Box-Cox - 3

STATGRAPHICS – Rev. 9/14/2006 aproximación de un intervalo de confianza para λ1 por defecto en el nivel de confianza del sistema.

•

Coeficientes: Los coeficientes estimados, errores estándares, estadístico-t, y valores P. La estimación de los coeficientes del modelo puede utilizarse para escribir la ecuación estimada, lo cuál en el ejemplo es:

W = 37.6386 – 1.99141 Edad

(6)

El estadístico-t prueba la hipótesis nula de que los parámetros correspondientes al modelo son iguales a 0, contra la hipótesis alternativa de que no sean iguales a 0. Valores P pequeños (menor que 0.05 si esta operando un nivel de significancia al 5%) indica que un coeficiente del modelo es significativamente diferente de 0. En los datos del ejemplo, ambos el intercepto y la pendiente son estadísticamente significativos. •

Análisis de Varianza: Es una descomposición de variabilidad en la variable dependiente W dentro de un modelo de sumas de cuadrados y residuales o suma de cuadrados del error. Es de particular interés la prueba F y su valor P asociado, el cual prueba la significancia estadística del modelo estimado. Un valor P pequeño (menor que 0.05 si esta operando un nivel de significancia al 5%) indica que existe una relación lineal significativa entre X y Y. En los datos del ejemplo, el modelo es altamente significativo.

•

Estadísticas: Resumen de estadísticas para el modelo estimado, incluyendo:

Coeficiente de Correlación – Mide la fuerza de la relación lineal entre W y X oscilando sobre una escala de -1 (correlación lineal perfecta negativa) a +1 (correlación lineal perfecta positiva). R-Cuadrada - Representa el porcentaje de la variabilidad en W que puede explicarse por el modelo de regresión estimado, oscilando de 0% hasta 100%. Error Estándar de la Est. – La estimación de la desviación estándar de los residuales (las desviaciones alrededor del modelo). Este valor es utilizado para crear límites de predicción para nuevas observaciones. Media del Error Absoluto – El promedio de los valores absolutos de los residuales. En los datos del ejemplo, la transformación seleccionada está muy cerca de una raíz cuadrada inversa, implicando que 1 / NivelPlasma es una función lineal de la Edad. Sin embargo, de acuerdo al intervalo de confianza, La transformación optima real puede ser cualquiera entre un reciproco y un logaritmo.

© 2006 por StatPoint, Inc.

Transformaciones de Box-Cox - 4

STATGRAPHICS – Rev. 9/14/2006

Opciones del Análisis

•

Potencia: El valor del parámetro de potencia λ1. Si Optimizar esta seleccionado, esto sirve como el valor inicial de la búsqueda de optimización cuando se presiona OK. Si Optimizar no esta seleccionado, este es el valor usado para la transformación.

•

Cambio: El valor del parámetro de potencia λ2. Este valor se resta de la variable dependiente Y antes que la transformación de potencia sea desarrollada.

•

Optimizar: Cuando se optimiza el parámetro de potencia o se usa el valor especificado.

Grafico del Modelo Estimado Este panel muestra el modelo estimado, junto con límites de confianza y predicción si son deseados. Gráfica del Modelo Ajustado Potencia=-0.506, Cambio=0.0 24

Plasma Level

20 16 12 8 4 0 0

1

2 Age

3

4

El gráfico incluye: •

La línea del mejor ajuste o ecuación de predicción. Esta es la ecuación que será utilizada para predecir valores de la variable dependiente Y dado los valores de la variable independiente X. Note que se realiza un trabajo relativamente bueno al tomar el incremento de la variabilidad del Nivel de Plasma sobre Edades bajas, así como la relación de la curvatura.

© 2006 por StatPoint, Inc.

Transformaciones de Box-Cox - 5

•

•

STATGRAPHICS – Rev. 9/14/2006 Intervalos de Confianza para la respuesta media en X. Estos son los límites interiores en el gráfico anterior y describen que tan bien la localización de la línea fue estimada dada la muestra disponible de los datos. Como el tamaño de n incrementa, testos límites llegarán a ser más apretados También debemos notar que la anchura de los límites varia como una función de X, con la línea estimada lo más exacto posible cerca del valor promedio x . Límites de Predicción para nuevas observaciones. Estos son los límites externos del gráfico anterior y describen como exactamente uno podría predecir donde mentiría una nueva observación. Sin importar el tamaño de muestra, las nuevas observaciones varían alrededor de la verdadera línea.

La inclusión de los límites de confianza y predicción y su nivel de confianza por defecto esta determinado por la configuración sobre la sección Regresión/ANOVA de la caja de dialogo Preferencias, accesible desde el menú Edición.

Opciones del Panel

•

Incluir: Los limites a incluir sobre el gráfico.

•

Nivel de Confianza: El porcentaje del nivel de confianza para los límites.

•

Resolución del Eje X: El número de valores de X en los cuales se determina la línea cuando se grafica. Altas resoluciones dan como resultado gráficos más suaves.

•

Tipo de Límites: Cuando se grafican intervalos de confianza de dos-colas o límites de confianza de una-cola.

Gráfico de Comparación CME Al optimizar la transformación, la potencia se reduce al mínimo sobre el cuadrado medio del error del ajuste de W como una función de X. Para ilustrar el resultado de la búsqueda, el Gráfico de Comparación CME presenta el cuadrado medio del error en la vecindad del valor óptimo:

© 2006 por StatPoint, Inc.

Transformaciones de Box-Cox - 6

STATGRAPHICS – Rev. 9/14/2006 Comparación MSE lambda2 = 0.0 12 10

MSE

8 6 4 2 0 -2

-1

0

1

2

lambda1

Las líneas verticales se dibujan en λ1 calculado y sus límites de confianza. Note que el CME alcanza un mínimo cercano a λ1 = –0.5, aunque es relativamente plano con una región amplia alrededor del valor óptimo, indicando que la potencia puede cambiarse a otros valores sin afectar sustancialmente el modelo.

Opciones del Panel

•

Lamda-1 Mínimo: El valor más pequeño de λ1 para incluir en el gráfico.

•

Lamda-1 Máximo: El valor más grande de λ1 para incluir en el gráfico.

•

Resolución: Número de diferentes valores de λ1 en el cuál se calcula el CME.

© 2006 por StatPoint, Inc.

Transformaciones de Box-Cox - 7

STATGRAPHICS – Rev. 9/14/2006

Tabla de Comparación CME Esta tabla tabula los valores graficados por el Gráfico de Comparación CME. Tabla Comparativa MSE Cambio (lambda2): 0.0 lambda1 MSE -1.0 1.4743 -0.95 1.44668 -0.9 1.42193 -0.85 1.40006 -0.8 1.38107 -0.75 1.36496 -0.7 1.35177 -0.65 1.34151 -0.6 1.33421 -0.55 1.32992 -0.5 1.32868 -0.45 1.33055 -0.4 1.33559 -0.35 1.34388 -0.3 1.35549 -0.25 1.37052 -0.2 1.38907 -0.15 1.41125 -0.1 1.43718 -0.05 1.467 0.0 1.50085

Las Opciones del Panel son las mismas que para el gráfico.

Gráfico de Sesgo y Curtosis Este gráfico presenta los valores estandarizados del sesgo y la curtosis como una función del parámetro de potencia λ1. Gráfica de Sesgo y Curtosis lambda2 =0.0 6 sesgo curtosis 4

2

0

-2 -2

-1

0 lambda1

1

2

La estandarización del sesgo y la curtosis se presenta para ambas entre –2 y +2 para una transformación adecuada a los datos normalizados. El gráfico muestra una línea horizontal entre –2 y +2, con la línea vertical indicando el valor óptimo de λ1 y sus límites de confianza. © 2006 por StatPoint, Inc.

Transformaciones de Box-Cox - 8

STATGRAPHICS – Rev. 9/14/2006 Claramente, hay un amplio rango de valores para λ1 que crearía una transformación razonable de los datos.

Prueba de Falta de Ajuste Cuando más de una observación se ha registrado en el mismo valor de X, una prueba de falta de ajuste se puede desarrollar para determinar cuando la selección del modelo es adecuado para describir la relación entre X y Y. El panel de Falta-de-Ajuste despliega la siguiente tabla: Análisis de Varianza con Carencia de Ajuste Fuente Suma de Cuadrados Modelo 198.285 Residuo 30.5593 Carencia de Ajuste 3.83648 Error Puro 26.7228 Total (Corr.) 228.845

Gl 1 23 3 20 24

Cuadrado Medio 198.285 1.32866 1.27883 1.33614

Razón-F 149.24

Valor-P 0.0000

0.96

0.4321

La prueba de Falta-de-Ajuste descompone la suma de cuadrados del error de los valores transformados de W en 2 componentes: 1. Error Puro: la variabilidad de los valores de W en el mismo valor de X. 2. Falta-de-Ajuste: la variabilidad del promedio de los valores de W alrededor del modelo estimado. Es de interés primario el valor P para la falta-de-ajuste. Un valor P pequeño (menor que 0.05 si esta operando un nivel de significancia al 5%) indica que el modelo seleccionado no describe adecuadamente la relación observada. Para los datos del ejemplo, el valor P grande indica que el modelo lineal explica adecuadamente la relación entre Nivel de Plasma y Edad.

Observado contra Predicho El gráfico de Observado contra Predicho muestra los valores observados de Y sobre el eje vertical y los valores predichos de Yˆ sobre el eje horizontal, en la métrica transformada. Gráfica de Plasma Level 24

observados

20 16 12 8 4 0 0

4

8

12

16

20

24

predichos

© 2006 por StatPoint, Inc.

Transformaciones de Box-Cox - 9

STATGRAPHICS – Rev. 9/14/2006 Si el modelo se ajuste bien, los puntos se deben dispersar aleatoriamente alrededor de la línea diagonal. Es posible algunas veces ver curvaturas en este gráfico, lo cual indicará la necesidad de un modelo curvilíneo más que un modelo lineal. En este caso, el cambio de la variabilidad sobre el gráfico anterior si los valores predichos se incrementan no es una preocupación, puesto que fue estabilizado por la transformación de Box-Cox.

Gráfico de Residuales Como con todos los modelos estadísticos, es una buena practica examinar los residuales. En una regresión, los residuales están definidos por: ei = Wi −Wˆ i

(7)

ej., los residuales son las diferencias entre los valores transformados de los datos y la estimación del modelo de regresión lineal. El procedimiento de Transformaciones de Box-Cox crea 3 gráficos de residuales: 1. contra X. 2. contra valores predichos Wˆ . 3. contra número de fila. Residuales contra X Este gráfico es provechoso en la visualización cuando fue buena la transformación considerada para cualquier curvatura en los datos. Gráfica de Residuos

Residuos Estudentizados

3.3 2.3 1.3 0.3 -0.7 -1.7 -2.7 0

1

2 Age

3

4

Los residuales se deben dispersar aleatoriamente alrededor de 0.

© 2006 por StatPoint, Inc.

Transformaciones de Box-Cox - 10

STATGRAPHICS – Rev. 9/14/2006 Residuales contra Predichos Este gráfico es provechoso en la visualización cuando fue bueno el modelo para cualquier heterocedasticidad en los datos. Gráfica de Residuos

Residuos Estudentizados

3.3 2.3 1.3 0.3 -0.7 -1.7 -2.7 5.4

7.4

9.4 11.4 Plasma Level predicho

13.4

15.4

Si la transformación fue efectiva, la variabilidad puede ser aproximadamente igual por todas partes.

Residuales contra Observaciones Este gráfico muestra los residuales contra el número de fila en la base de datos: Gráfica de Residuos

Residuos Estudentizados

3.3 2.3 1.3 0.3 -0.7 -1.7 -2.7 0

5

10 15 número de fila

20

25

Si los datos fueron arreglados en orden cronológico, cualquier patrón en los dato sindican una influencia extrema.

Opciones del Panel

Los siguientes residuales pueden graficarse sobre cualquier gráfico residual: © 2006 por StatPoint, Inc.

Transformaciones de Box-Cox - 11

STATGRAPHICS – Rev. 9/14/2006 1. Residuales – Los residuales por estimación de mínimos cuadrados. 2. Residuales Estandarizados – La diferencia entre los valores observados wi y los valores predichos wˆ i cuando el modelo es ajustado usando todas las observaciones excepto el iésimo, divididos por el error estándar de la estimación. Estos residuales a veces se llaman residuales externamente eliminados, puesto que miden que tan lejos esta cada valor del modelo estimado cuando el modelo es ajustado usando todos los datos excepto el punto inicial considerado. Esto es importante, puesto que un valor atípico muy grande pueden afectar de alguna manera al modelo tanto que no parecería ser inusualmente separado de la línea.

Residuales Inusuales Una vez que se ha estimado el modelo, es útil estudiar los residuales para determinar donde existe cualquier valor atípico que deba ser removido de los datos. El panel Residuales Inusuales lista todas las observaciones que tienen un residual estandarizado mayor que 2.0 en valor absoluto. Residuos Atípicos Y Row X Y 4 0.0 20.09 18 3.0 5.14

Predicha 13.9249 6.63425

Residual Residual 6.16515 -1.49425

Estudentizado 2.22 -2.64

Los residuales estandarizados mayor que 3 en valor absoluto corresponden a puntos a más de 3 desviaciones estándar del modelo estimado, lo cual es un evento extremadamente raro para una distribución normal. Note que la fila 18 es más de 2.5 desviaciones estándar hacia afuera por la que habría que investigarlo. Los puntos pueden removerse de la estimación mientras se examina con el Gráfico del Modelo Estimado dando clic sobre un punto y presionando el botón Excluir/Incluir sobre la barra de herramientas: Gráfica del Modelo Ajustado Potencia=-0.629, Cambio=0.0 24

Plasma Level

20 16 12 8 4 0 0

1

2 Age

3

4

Los puntos excluidos son marcados con una X. Para los datos del ejemplo, removiendo la fila 18 se tiene poco efecto sobre el modelo estimado o la transformación optima. © 2006 por StatPoint, Inc.

Transformaciones de Box-Cox - 12

STATGRAPHICS – Rev. 9/14/2006

Puntos Influyentes En la estimación de un modelo de regresión, todas las observaciones no tienen la misma influencia sobre la estimación de los parámetros en el modelo estimado. En una regresión lineal simple, los puntos localizados con valores muy bajos o altos de X tienen mayor influencia que los que están localizados cerca de la media de X. El panel de Puntos Influyentes despliega cualquier observación que tiene una alta influencia sobre la estimación del modelo: Puntos Influyentes Y Residual Fila X Y Predicha Estudentizado Leverage Valor de influencia promedio de un punto = 0.08

La tabla anterior muestra todos los puntos con palancada igual o mayor a 3 veces sobre un valor promedio de los datos, donde la palancada de una observación es una medida de la influencia sobre la estimación de los coeficientes del modelo. En general, valores con palancada excesiva a 5 veces sobre de un valor promedio de los datos deben ser examinados a detalle, puesto que tienen inusualmente un alto impacto sobre la estimación del modelo. En los datos del ejemplo, no hay observaciones con palancada inusualmente grande.

Pronósticos El panel de Pronósticos crea predicciones usando el modelo estimado. Valores Predichos

X 0.0 1.0 2.0 3.0 4.0 5.0

Predicho Y 13.9226 10.534 8.24875 6.63479 5.45266 4.5609

95.00% Límites de Inferior 9.83804 7.82401 6.34227 5.22299 4.35965 3.68238

Predicción Superior 21.2112 14.9464 11.1674 8.70911 7.01618 5.79685

95.00% Límites de Inferior 12.3424 9.77386 7.81234 6.25099 5.05345 4.15302

Confianza Superior 15.8276 11.3866 8.72285 7.05514 5.90123 5.03211

Se incluyen en la tabla: •

X – El valor de la variable independiente en la cuál la predicción es realizada.

•

Predicción Y – El valor predicho de la variable dependiente usando el modelo estimado.

•

Límites de Predicción – Límites de predicción para nuevas observaciones en la selección del nivel de confianza (correspondientes a los límites exteriores sobre el gráfico del modelo estimado).

•

Límites de Confianza – Límites de confianza para la media de Y en la selección del nivel de confianza (correspondientes a los límites internos sobre el gráfico del modelo estimado).

Por ejemplo, en X = 3, 95% de todos los niños se espera tener niveles de plasma entre 5.47 y 8.53. © 2006 por StatPoint, Inc. Transformaciones de Box-Cox - 13

STATGRAPHICS – Rev. 9/14/2006

Opciones del Panel

•

Nivel de Confianza: Porcentaje de confianza para los intervalos.

•

Tipo de Límites: donde se definen límites de dos-colas o una-cola.

•

Pronósticos en X: Hasta 10 valores de X para realizar predicciones.

Grabar Resultados Los siguientes resultados pueden grabarse en la base de datos: 1. Valores Predichos – El valor predicho de Y correspondiente a cada una de las n observaciones. 2. Limite de Predicción Inferior –El límite de predicción inferior para cada valor predicho. 3. Limite de Predicción Superior –El límite de predicción superior para cada valor predicho. 4. Limite de Predicción Inferior de la Media – El límite de confianza inferior para la media de Y en cada n valores de X. 5. Limite de Predicción Superior de la Media – El límite de confianza superior para la media de Y en cada n valores de X. 6. Residuales – Los n residuales. 7. Residuales Estandarizados – Los n residuales estandarizados. 8. Palancadas – Los valores de palancadas correspondientes a n valores de X. 9. Transformación de los Datos – Los n valores transformados W. Nota: Si se graban los límites, corresponden a la configuración sobre el panel de Pronósticos. Si los límites de dos-colas son presentados en la tabla de Pronósticos, entonces los límites guardados serán también de dos-colas. Si los límites de una-cola son presentados en la tabla de Pronósticos, entonces los límites guardados serán también de una-cola.. Cálculos La línea de regresión es desarrollada sobre la transformación de valores W. Los límites de predicción son calculados en la métrica transformada y deben invertirse antes de ser presentados. © 2006 por StatPoint, Inc.

Transformaciones de Box-Cox - 14

STATGRAPHICS – Rev. 9/14/2006 Para más detalle sobre los cálculos, vea la documentación de Regresión Simple.

© 2006 por StatPoint, Inc.

Transformaciones de Box-Cox - 15

Recommend Stories

Story Transcript

Get in touch

Social