Story Transcript
STATGRAPHICS – Rev. 4/25/2007
Series de Tiempo – Métodos Descriptivos Resumen El procedimiento de Métodos Descriptivos crea varias tablas y gráficas para datos de series de tiempo. Una serie de tiempo consiste en un conjunto datos numéricos secuenciales tomados en intervalos de tiempo igualmente espaciados, usualmente sobre un período de tiempo o espacio. El procedimiento grafica los datos y muestra las autocorrelaciones, autocorrelaciones parciales y el periodograma de la muestra. Se realizan pruebas para determinar si las observaciones podrían ser muestras de un proceso aleatorio o “ruido blanco”. Si se aporta una segunda serie de tiempo, también se calculan y se muestran las correlaciones cruzadas entre las dos series.
StatFolio de Muestra: tsdescribe.sgp Datos Muestrales: El archivo golden gate.sf6 contiene volúmenes del tráfico mensual del puente Golden Gate en San Francisco para un período de n = 168 meses desde enero de 1968 hasta diciembre de 1981. La tabla de abajo muestra una lista parcial de los datos de ese archivo: Month 1/68 2/68 3/68 4/68 5/68 6/68 7/68 8/68 9/68 10/68 11/68 12/68 1/69 …
Traffic 73.637 77.136 81.481 84.127 84.562 91.959 94.174 96.087 88.952 83.479 80.814 77.466 75.225 …
Los datos fueron obtenidos de una publicación del Puente Golden Gate.
©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 1
STATGRAPHICS – Rev. 4/25/2007
Captura de Datos El cuadro de diálogo de captura de datos requiere el nombre de la columna que contiene los datos de series de tiempo:
•
Datos: columna numérica que contiene n observaciones igualmente espaciadas.
•
Intervalo de Muestreo: define el intervalo entre observaciones sucesivas. Por ejemplo, los datos del Puente Golden Gate fueron recabados una vez al mes, iniciando en enero de 1968.
•
Estacionalidad: la amplitud de la estacionalidad s, si la hay. Los datos son estacionales si existe un patrón que se repite en un período de tiempo fijo. Por ejemplo, los datos mensuales como el tráfico en el puente Golden Gate tienen una estacionalidad de s = 12. Los datos por hora que se repiten todos los días tienen una estacionalidad de s = 24. Si no se introduce nada, se asume que los datos no tienen estacionalidad (s = 1).
•
Ajuste por Jornadas Financieras: una variable numérica con n observaciones usadas para normalizar las observaciones originales tales como el número de días laborales en un mes. Las observaciones en la columna Datos serán divididas por estos valores antes de ser graficadas o analizadas.
•
Selección: selecciona el subconjunto.
©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 2
STATGRAPHICS – Rev. 4/25/2007
Resumen del Análisis El Resumen del Análisis muestra el número de observaciones en la serie de tiempo y la amplitud de la estacionalidad: Métodos Descriptivos - Traffic Datos/Variable: Traffic (Golden Gate Bridge Traffic Volume) Número de observaciones = 168 Indice Inicial = 1/68 Intervalo de Muestra = 1.0 mes(es) Longitud de la estacionalidad = 12
Nota: una cantidad limitada de datos faltantes está permitida, siempre que no haya demasiados valores faltantes juntos. Los valores faltantes son reemplazados por valores interpolados de acuerdo con el método señalado en la sección Cálculos.
Tabla de Datos La Tabla de Datos despliega la captura de datos: Tabla de Datos para Traffic Periodo 1/68 2/68 3/68 4/68 5/68 6/68 7/68 8/68 9/68 10/68 11/68 12/68 …
Datos 73.637 77.136 81.481 84.127 84.562 91.959 94.174 96.087 88.952 83.479 80.814 77.466 …
Ajustados 1.8671 1.88726 1.91106 1.92494 1.92718 1.96359 1.97393 1.98266 1.94916 1.92158 1.90749 1.88911 …
•
Periodo: el índice de la muestra t.
•
Datos: la observación yt.
•
Ajustados: los datos ajustados y t′ , si un ajuste ha sido especificado usando Opciones de Análisis.
Opciones de Análisis Opciones de Análisis permite que los datos sean transformados antes de que sean graficados o analizados: ©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 3
STATGRAPHICS – Rev. 4/25/2007
•
Matemática: transforma los datos mediante la realización de la operación matemática indicada. Con excepción de la transformación de Box-Cox, las selecciones son auto explicatorias. La transformación de Box-Cox es usada cuando es necesario que los datos sean más Gaussianos. Para una discusión detallada, ver la documentación para el procedimiento Transformaciones de Box-Cox.
•
Estacional: ajuste estacional de datos usando el método indicado. Los ajustes estacionales están diseñados para remover cualquier componente estacional de los datos. Los métodos usados son discutidos en la documentación para el procedimiento Descomposición Estacional.
•
Tendencia: remueve una tendencia ajustando y substrayendo el tipo de tendencia indicado. Los datos transformados son los residuos de la línea de tendencia. Las ecuaciones para cada tipo de tendencia es discutida en la documentación para el procedimiento Predicción.
•
Diferenciación: transforma los datos al tomar las diferencias no estacionales de orden d y/o las diferencias estacionales de orden D. La Diferenciación es usada algunas veces para estabilizar una serie de tiempo no estacionaria que no tiene una media constante. Una diferencia no estacional de orden d es creada al substraer consecutivas observaciones d veces. Por ejemplo, la primera diferencia (d = 1) es dada por: y t′ = y t − y t −1
(1)
Mientras que una segunda diferencia (d = 2) está dada por: ©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 4
STATGRAPHICS – Rev. 4/25/2007
y t′ = ( y t − y t −1 ) − ( y t −1 − y t −2 )
(2)
Una diferencia estacional de orden 1 (D = 1) está dada por: y t′ = y t − y t − s
3)
Una diferencia estacional de orden 2 (D = 2) está dada por: y t′ = ( y t − y t − s ) − ( y t − s − y t − 2 s ) •
(4)
Inflación: ajusta los datos por la inflación usando la tasa de inflación especificada λ. Aplicada al inicio del período, el ajuste es:
y t′ =
yt
(5)
(1 + λ )(t −t +1) 0
Donde t0 es el índice de la primera observación. Si se aplica a la mitad del período, el ajuste es: y t′ =
yt (1 + λ ) ( t −t0 + 0.5)
(6)
Si más de una transformación es requerida, éstas serán aplicadas en el siguiente orden: 1. 2. 3. 4. 5. 6.
Ajuste de días hábiles ajuste por inflación ajuste matemático ajuste estacional ajuste de tendencia diferenciación
Gráfica de Secuencia de Tiempo Horizontal La Gráfica de Secuencia de Tiempo Horizontal muestra los datos de la serie de tiempo en orden secuencial:
©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 5
STATGRAPHICS – Rev. 4/25/2007
Gráfica de Serie de Tiempo para Traffic 113
Traffic
103
93
83
73 1/68
1/71
1/74
1/77
1/80
1/83
Los datos del tráfico contienen algunas características muy interesantes: 1. Una tendencia general ascendente. 2. Una ciclicidad regular anual alrededor de la tendencia, con un pico en el tráfico que ocurre en los meses de verano. 3. Dramáticos cambios a la línea de tendencia ocurriendo a finales de 1973, cuando el embargo al petróleo de Arabia convirtió a la gasolina en un bien difícil de conseguir. Un suceso similar pero menos dramático ocurrió durante 1978. Opciones de Cuadro
•
Puntos: grafica símbolos de puntos en cada observación.
•
Líneas: conecta las observaciones con una línea.
Gráfica de Secuencia de Tiempo Vertical La Gráfica de Secuencia de Tiempo Vertical muestra la serie de tiempo dibujando líneas verticales desde una línea base para cada observación:
©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 6
STATGRAPHICS – Rev. 4/25/2007
Gráfica de Serie de Tiempo para Traffic 113
Traffic
103
93
83
73 1/68
1/71
1/74
1/77
1/80
1/83
Opciones de Cuadro
•
Línea base: posición de la cual las líneas verticales son dibujadas.
Autocorrelaciones Una herramienta importante en la modelación de datos de series de tiempo es la función de autocorrelación. La autocorrelación en el rezago k mide la fuerza de la correlación entre las observaciones durante k períodos de tiempo. La autocorrelación muestral del rezago k se calcula de la siguiente manera: n−k
rk =
∑ (y t =1
t
− y )( y t + k − y )
n
∑ (y t =1
t
− y)
(7) 2
©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 7
STATGRAPHICS – Rev. 4/25/2007 El cuadro de Autocorrelaciones muestra las autocorrelaciones muestrales junto con los errores estándar de los rezagos grandes y los límites de probabilidad: Autocorrelaciones Estimadas para Traffic
Retraso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Autocorrelación 0.840362 0.601514 0.329537 0.0932316 -0.108987 -0.169318 -0.11148 0.0723794 0.274421 0.490762 0.664932 0.735963 0.618444 0.411699 0.173765 -0.0384742 -0.219497 -0.280273 -0.229326 -0.0606596 0.126304 0.338969 0.506746 0.580971
Error Estd. 0.0771517 0.119832 0.136627 0.141279 0.141645 0.142143 0.143339 0.143854 0.14407 0.147149 0.156589 0.172579 0.190346 0.201953 0.206888 0.207755 0.207797 0.209173 0.211397 0.212872 0.212975 0.21342 0.216601 0.223547
Límite en 95.0% Inferior -0.151215 -0.234866 -0.267785 -0.276902 -0.277619 -0.278596 -0.280939 -0.281949 -0.282373 -0.288407 -0.306909 -0.338249 -0.373072 -0.395821 -0.405494 -0.407193 -0.407276 -0.409972 -0.41433 -0.417223 -0.417424 -0.418297 -0.424532 -0.438145
Límite en 95.0% Superior 0.151215 0.234866 0.267785 0.276902 0.277619 0.278596 0.280939 0.281949 0.282373 0.288407 0.306909 0.338249 0.373072 0.395821 0.405494 0.407193 0.407276 0.409972 0.41433 0.417223 0.417424 0.418297 0.424532 0.438145
El error estándar para rk es calculado con el supuesto de que las autocorrelaciones han “desaparecido” por el rezago k y son iguales a 0 en todos los rezagos mayores o iguales a k. El error estándar se calcula de la siguiente manera:
se[rk ] =
k −1 1⎧ ⎫ + 1 2 rk2 ⎬ ⎨ ∑ n⎩ i =1 ⎭
(8)
Este error estándar se usa para calcular 100(1-α)% límites de probabilidad alrededor de cero, usando un valor crítico de la distribución normal estándar: 0 ± zα / 2 se[rk ]
(9)
Si α = 0.05, las autocorrelaciones muestrales que caen fuera de esos límites son estadísticamente significativamente diferente de 0 en un nivel de significancia de 5%. El StatAdvisor señala ese tipo de autocorrelaciones con rojo. Para los datos del tráfico, note que hay valores significativos para los 3 primeros rezagos y también en la vecindad de s = 12 y 2s = 24. Los valores significativos en los primeros ©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 8
STATGRAPHICS – Rev. 4/25/2007 rezagos ocurren porque existen observaciones cercanas en el tiempo que están correlacionadas. Los rezagos significativos alrededor de 12 y 24 son causados por el fuerte patrón estacional.
Cuadro de Opciones
•
Número de retrasos: máximo rezago k para calcular la autocorrelación.
•
Nivel de Confianza: valor de 100(1-α)% usado para calcular los límites de probabilidad.
Función de Autocorrelación La gráfica de Función de Autocorrelation muestra las autocorrelacionadas muestrales y los límites de probabilidad: Autocorrelaciones Estimadas para Traffic 1
Autocorrelaciones
0.6 0.2 -0.2 -0.6 -1 0
5
10
15
20
25
retraso
©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 9
STATGRAPHICS – Rev. 4/25/2007
Las barras que se extienden más allá de los límites superior e inferior corresponden a autocorrelaciones estadísticamente significativas.
Autocorrelaciones Parciales Otra importante herramienta en la modelación de datos de series de tiempo es la función de autcorrelación parcial. Las autocorrelaciones parciales son usadas para ayudar a identificar el orden adecuado del modelo autorregresivo para usar en la descripción de la serie de tiempo observada. La autocorrelación parcial φˆkk del rezago muestral k se calcula como se describe en la sección de Cálculos. El cuadro de Autocorrelaciones Parciales muestra las autocorrelaciones parciales muestrales junto con errores estándar de rezagos grandes y límites de probabilidad: Autocorrelaciones Parciales Estimadas para Traffic
Retraso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Parcial Autocorrelación 0.840362 -0.356356 -0.220746 -0.0325883 -0.132289 0.294114 0.174468 0.309939 0.0754963 0.219082 0.252541 0.0188762 -0.267034 -0.0880152 -0.00778138 -0.023474 -0.137019 -0.0313481 -0.0791926 0.0714297 -0.0340022 0.12536 0.0894574 0.0420213
Error Estd. 0.0771517 0.0771517 0.0771517 0.0771517 0.0771517 0.0771517 0.0771517 0.0771517 0.0771517 0.0771517 0.0771517 0.0771517 0.0771517 0.0771517 0.0771517 0.0771517 0.0771517 0.0771517 0.0771517 0.0771517 0.0771517 0.0771517 0.0771517 0.0771517
Límite en 95.0% Inferior -0.151215 -0.151215 -0.151215 -0.151215 -0.151215 -0.151215 -0.151215 -0.151215 -0.151215 -0.151215 -0.151215 -0.151215 -0.151215 -0.151215 -0.151215 -0.151215 -0.151215 -0.151215 -0.151215 -0.151215 -0.151215 -0.151215 -0.151215 -0.151215
Límite en 95.0% Superior 0.151215 0.151215 0.151215 0.151215 0.151215 0.151215 0.151215 0.151215 0.151215 0.151215 0.151215 0.151215 0.151215 0.151215 0.151215 0.151215 0.151215 0.151215 0.151215 0.151215 0.151215 0.151215 0.151215 0.151215
El error estándar para φˆkk es calculado a partir de: se[φˆkk ] =
1 n
©2006 por StatPoint, Inc.
(10)
Series de Tiempo – Métodos Descriptivos 10
STATGRAPHICS – Rev. 4/25/2007
Este error estándar se usa para calcular 100(1-α)% límites de probabilidad alrededor de cero, usando un valor crítico de la distribución normal estándar: 0 ± zα / 2 se[φˆkk ]
(11)
Si α = 0.05, cualquiera de las autocorrelaciones parciales muestrales que caen fuera de estos límites son estadísticamente significativamente diferente de 0 a un nivel de significancia de 5%. El StatAdvisor señala cualquier autocorrelación parcial de ese tipo con rojo. Para los datos del tráfico, note que existen valores significativos a lo largo de los primeros 13 rezagos. Esto implica que se necesitaría un modelo autorregresivo más complicado para describir los datos observados, lo cual no sería sorprendente dada su naturaleza (tendencia) no estacionaria.
Cuadro de Opciones
•
Número de retrasos: máximo rezago k para calcular la autocorrelación parcial.
•
Nivel de Confianza: valor de 100(1-α)% usado para calcular los límites de probabilidad.
Función de Autocorrelación Parcial La Función Parcial de Autocorrelación grafica las autocorrelaciones parciales muestrales y los límites de probabilidad:
©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 11
STATGRAPHICS – Rev. 4/25/2007
Autocorrelaciones Parciales Estimadas para Traffic
Autocorrelaciones Parciales
1 0.6 0.2 -0.2 -0.6 -1 0
5
10
15
20
25
retraso
Las barras que se extienden más allá de los límites superior o inferior corresponden a autocorrelaciones parciales significativas.
Periodograma Las autocorrelaciones y autocorrelaciones parciales describen el comportamiento de los datos en el dominio del tiempo, por ejemplo, al estimar estadísticos basados en un espacio del tiempo entre observaciones. También es útil examinar los datos en el dominio de la frecuencia al considerar qué tanta variabilidad existe en diferentes frecuencias. Se ha demostrado que cualquier serie de tiempo discreta puede ser representada como la suma de un conjunto de senos y cosenos en un conjunto de frecuencias llamadas frecuencias de Fourier. Un típico componente tiene la forma: ai cos(2πf i t ) + bi sin (2πf i t )
(12)
donde fi es la i-ésima frecuencia de Fourier. La i-ésima frecuencia de Fourier es
fi =
i n
(13)
Para i = 0, 1, …, n/2 si n es par y i = 0, 1, …, (n-1)/2 si n es impar. El periodograma calcula la potencia de los datos en cada frecuencia de Fourier al calcular:
I ( fi ) =
(
n 2 ai + bi2 2
)
©2006 por StatPoint, Inc.
(14)
Series de Tiempo – Métodos Descriptivos 12
STATGRAPHICS – Rev. 4/25/2007 El cual se mide de acuerdo con una escala tal que la suma de las ordenadas del periodograma a través de todas las frecuencias de Fourier excepto para i = 0, arroja la suma de las desviaciones cuadradas de la serie de tiempo alrededor de su media, por n
ejemplo
∑ (y i =1
− y ) . En efecto, el periodograma genera un análisis de varianza por 2
i
frecuencia. El cuadro del periodograma muestra la siguiente tabla: Periodograma para Traffic
i
Frecuencia
Periodo
Ordenada
Suma Acumulada
Periodograma Integrado
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 …
0.0 0.00595238 0.0119048 0.0178571 0.0238095 0.0297619 0.0357143 0.0416667 0.047619 0.0535714 0.0595238 0.0654762 0.0714286 0.077381 0.0833333 0.089285157 …
168.0 84.0 56.0 42.0 33.6 28.0 24.0 21.0 18.6667 16.8 15.2727 14.0 12.9231 12.0 1511.2 …
1.57558E-23 1387.62 866.251 465.451 90.789 447.388 68.8937 60.3328 28.0432 36.3759 61.0357 40.4935 24.073 1.28899 4968.08 30.471915 …
1.57558E-23 1387.62 2253.87 2719.32 2810.11 3257.5 3326.39 3386.72 3414.77 3451.14 3512.18 3552.67 3576.74 3578.03 8546.11 8576.58 …
1.66608E-27 0.146731 0.238332 0.28755 0.297151 0.344459 0.351744 0.358124 0.361089 0.364936 0.37139 0.375672 0.378217 0.378354 0.903696 0.906918 …
La tabla incluye: •
Frecuencia: la i-ésima frecuencia de Fourier fi = i/n.
•
Periodo: el periodo asociado por la frecuencia de Fourier dado por 1/ fi. Este es el número de observaciones en un ciclo completo en esa frecuencia.
•
Ordenada: la ordenada del periodograma I(fi).
•
Suma Acumulada: la suma de las ordenadas del periodograma en todas las frecuencias hasta e incluyendo la i-ésima.
•
Periodograma Integrado: la suma acumulada dividida entre la suma las ordenadas del periodograma en todas las frecuencias de Fourier. Esta columna representa la proporción de la potencia en la serie de tiempo en o debajo de la i-ésima frecuencia.
Por ejemplo, la frecuencia 14a de Fourier corresponde a una oscilación con un periodo de 12 meses. Hay una ordenada muy grande en esa frecuencia porque los datos tienden a subir y caer sobre una base anual. Si se fuera a ajustar un modelo de regresión en esa frecuencia, tomaría la forma: ©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 13
STATGRAPHICS – Rev. 4/25/2007
⎛ 2πt ⎞ ⎛ 2πt ⎞ Yt = c + a cos⎜ ⎟ + b sin ⎜ ⎟ + et ⎝ 12 ⎠ ⎝ 12 ⎠
(15)
donde c es una constante y et es el término de error. Ajustando este modelo usando el procedimiento Regresión Múltiple arroja:
⎛ 2πt ⎞ ⎛ 2πt ⎞ Yˆt = 93.9783 − 4.94209 cos⎜ ⎟ + 5.89233 sin ⎜ ⎟ ⎝ 12 ⎠ ⎝ 12 ⎠
(16)
Un diagrama de puntos de éste modelo se muestra abajo:
Gráfico X-Y Múltiple 113
Variables Regression Traffic
103
93
83
73 1/68
1/71
1/74
1/77
1/80
1/83
Month
Note qué tanto de la variabilidad ha sido explicada por aquel simple componente. Cuadro de Opciones
•
Remover media: verifica para sustraer la media de la serie de tiempo antes de calcular el periodograma. Si la media no es removida, la ordenada en i = 0 será probablemente muy grande.
©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 14
STATGRAPHICS – Rev. 4/25/2007 •
Menguar: porcentaje de los datos en cada final de la serie de tiempo en el cual un grabador de datos será aplicado antes de que el periodograma sea calculado. Siguiendo a Bloomfield (2000), STATGRAPHICS usa un ajustador de coseno que disminuye la importancia de las observaciones cercanas a i = 1 y i = n. Esto es útil para corregir el sesgo si las ordenadas del periodograma van a ser suavizadas para crear una estimación de la función de densidad espectral subyacente.
Gráfica de Periodograma La Gráfica de Periodograma muestra las ordenadas del periodograma:
Periodograma para Traffic (X 1000.0) 5
Ordenada
4 3 2 1 0 0
0.1
0.2 0.3 frecuencia
0.4
0.5
Note un pico enorme en la frecuencia 1/12 meses. Dos pequeñas elevaciones pueden ser observadas en el primer y segundo armónicos (2/12 y 3/12) porque la oscilación estacional no es puramente senoidal. Existe también alguna potencia en las frecuencias muy pequeñas, causado por las tendencias y cambios repentinos en la serie de tiempo del tráfico. Cuadro de Opciones
©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 15
STATGRAPHICS – Rev. 4/25/2007 •
Remover media: verifica para substraer la media de la serie de tiempo antes de calcular el periodograma.
•
Puntos: si es verificado, serán mostrados símbolos de puntos.
•
Líneas: si es verificado, las ordenadas serán conectadas por una línea.
•
Menguar: porcentaje de los datos en cada final de la serie de tiempo en los cuales un ajustador de datos será aplicado antes de que el periodograma sea calculado.
Periodograma Integrado El Periodograma Integrado muestra las sumas acumuladas de las ordenadas del periodograma divididas entre la suma de las ordenadas de todas las frecuencias de Fourier:
Periodograma para Traffic 1
Ordenada
0.8 0.6 0.4 0.2 0 0
0.1
0.2 0.3 frecuencia
0.4
0.5
Se incluye una línea diagonal sobre la gráfica junto con bandas de Kolmogorov de 95% y 99%. Si la serie de tiempo es puramente aleatoria, el periodograma integrado debería caer dentro de esas bandas el 95% y 99% del tiempo. Para los datos del tráfico, es seguro concluir que los datos no forman una serie de tiempo aleatoria.
©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 16
STATGRAPHICS – Rev. 4/25/2007
Prueba para Aleatoriedad El cuadro de Pruebas para Aleatoriedad muestra los resultados de pruebas adicionales realizadas para determinar si o no la serie de tiempo es puramente aleatoria: Prueba de Aleatoriedad de Traffic (1) Corridas arriba o abajo de la mediana Mediana = 94.323 Número de corridas arriba o abajo de la mediana = 32 Número esperado de corridas = 85.0 Estadístico z para muestras grandes = 8.12529 Valor-P = 4.44089E-16 (2) Corridas arriba y abajo Número de corridas arriba y abajo = 47 Número esperado de corridas = 111.667 Estadístico z para muestras grandes = 11.8052 Valor-P = 0.0 (3) Prueba Box-Pierce Prueba basada en las primeras 24 autocorrelaciones Estadístico de prueba para muestras grandes = 677.926 Valor-P = 0.0
Se realizan tres pruebas: 1. Corridas arriba y debajo de la mediana: calcula el número de veces que la serie va arriba o debajo de su mediana. Este número es comparado con el valor esperado para una serie de tiempo aleatoria. Una serie con tendencia como la de los datos del tráfico, es probable que muestre significativamente menos corridas a las esperadas. Pequeños P-values (menos que 0.05 si se opera en un nivel de significancia de 5%) indican que la serie de tiempo no es puramente aleatoria. 2. Corridas arriba y abajo: calcula el número de veces que la serie sube y baja. Éste número se compara con el valor esperado para una serie de tiempo aleatoria. Una serie con fuerte oscilación, tal como los datos del tráfico, es muy probable de mostrar significativamente menos corridas que las esperadas. Pequeños P-values indican que la serie de tiempo no es puramente aleatoria. 3. Prueba de Box-Pierce: construye una prueba estadística basada en las primeras k autocorrelaciones muestrales al calcular: k
Q = n∑ ri 2
(17)
i =1
Éste estadístico se compara con una distribución chi-cuadrada con k grados de libertad. Como con las otras dos pruebas, pequeños P-values indican que la serie de tiempo no es puramente aleatoria.
©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 17
STATGRAPHICS – Rev. 4/25/2007 Nuevamente, no hay alguna duda de que la serie de tráfico contiene una estructura no aleatoria significativa. Cuadro de Opciones
•
Número de retrasos: número de rezagos k para incluir en la prueba de Box-Pierce.
Correlaciones Cruzadas El cuadro de Correlaciones Cruzadas muestra correlaciones cruzadas entre la serie de tiempo principal y la segunda serie especificada usando las Opciones de Cuadro. Las correlaciones cruzadas entre una serie de tiempo Y en el tiempo t y una segunda serie de tiempo X en el tiempo t-k se denota como cxy(k). Un uso típico de las correlaciones cruzadas es en la identificación de “indicadores principales” o en una relación insumoproducto. Por ejemplo, Box, Jenkins y Reinsel (1994) presentan datos de insumo y producto de un horno de gas en intervalos de 9 segundos los cuales se encuentran en el archivo furnace.sf6. Los datos consisten en: 1. Serie de producto Y: % Co2 en el gas obtenido 2. Serie de insumo X: tasa de gas introducido en pies cúbicos por minuto La tabla de correlaciones cruzadas se muestra abajo: Correlaciones Cruzadas Estimadas para Output con Input Retraso Correlación Cruzada -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8
-0.179456 -0.206068 -0.226716 -0.242871 -0.260351 -0.286432 -0.328542 -0.393467 -0.484451 -0.598405 -0.725033 -0.84282 -0.924592 -0.95032 -0.914593 -0.82932 -0.71652
©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 18
STATGRAPHICS – Rev. 4/25/2007
Algunas correlaciones negativas grandes son notables, con un pico en k = 5. Esto sugiere que los incrementos en el insumo tasa de gas usado causan decrementos en el % de Co2 en la tasa de gas obtenido con un pico alrededor de 45 segundos después. Cuadro de Opciones
•
Segunda Serie de Tiempo: las observaciones para la serie de tiempo X.
•
Número de rezagos: máximo rezago k (positivo y negativo) en el cual se calculan las correlaciones cruzadas.
Gráfica de Correlaciones Cruzadas La Gráfica de correlaciones cruzadas muestra las correlaciones cruzadas estimadas:
Correlaciones Cruzadas Estimadas para Output con Input
Correlaciones Cruzadas
1 0.6 0.2 -0.2 -0.6 -1 -25
-15
-5
5
15
25
retraso
©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 19
STATGRAPHICS – Rev. 4/25/2007 Note las correlaciones negativas grandes en los rezagos positivos.
Guardar Resultados Los siguientes resultados pueden ser guardados en la hoja de base de datos: 1. Datos – las observaciones originales junto con cualquier valor interpolado reemplazado para los datos faltantes. 2. Datos Ajustados – datos de la serie de tiempo después que cualquier ajuste se haya hecho. 3. Etiquetas de periodo – identificación del tiempo t para cada observación. 4. Autocorrelaciones – autocorrelaciones muestrales. 5. Autocorrelaciones parciales – autocorrelaciones parciales muestrales. 6. Correlaciones cruzadas – correlaciones cruzadas muestrales. 7. Ordenadas de Periodograma –ordenadas del periodograma calculadas. 8. Frecuencias de Fourier – Frecuencias de Fourier que corresponden a las ordenadas del periodograma.
©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 20
STATGRAPHICS – Rev. 4/25/2007
Cálculos Datos Faltantes Un limitado número de datos faltantes está permitido, mientras no haya muchos valores faltantes que se encuentren cerca. Antes que los datos sean analizados, los valores faltantes son reemplazados por valores interpolados, los cuales son determinados de acuerdo con la siguiente regla:
1. Si yt, la observación en el tiempo t, falta, encuentre las dos observaciones en la misma estacionalidad que preceden el tiempo t (yt-s y yt-2s) y las dos observaciones en la misma estacionalidad que vienen después del tiempo t (yt+s y yt+2s). 2. Si ninguna de las cuatro observaciones falta, entonces el valor de reemplazo para yt es: yt =
− 3 y t − 2 s + 12 y t − s + 12 y t + s − 3 y t + 2 s 18
(18)
3. Si yt+2s falta pero los otros tres no, entonces el valor de reemplazo para yt es: yt =
− yt −2 s + 3 yt − s + yt + s 3
(19)
4. Si yt+s está faltando pero los otros tres no, entonces el valor de reemplazo para yt es: yt =
− 3 yt −2 s + 8 yt −s + yt + s 6
(20)
5. Si yt+s está faltando pero los otros tres no, entonces el valor de reemplazo para yt es: y + 8 yt + s − 3 yt +2 s yt = t −2 s (21) 6 6. Si yt-2s está faltando pero los otros tres no, entonces el valor de reemplazo para yt es: y + 3 yt + s − yt + s yt = t −s (22) 3 7. Si yt+s y yt+2s están faltando pero los otros dos no, entonces el valor de reemplazo para yt es: ©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 21
STATGRAPHICS – Rev. 4/25/2007
yt = − yt −2 s + 2 yt − s
(23)
8. Si yt-s y yt+2s están faltando pero los otros dos no, entonces el valor de reemplazo para yt es: yt =
yt −2 s + 2 yt + s 3
(24)
9. Si yt-s y yt+s están faltando pero los otros dos no, entonces el valor de reemplazo para yt es: yt =
yt −2 s + yt +2 s 2
(25)
10. Si yt-2s y yt+2s están faltando pero los otros dos no, entonces el valor de reemplazo para yt es: yt =
yt −s + yt + s 2
(26)
11. Si yt-2s y yt+s están faltando pero los otros dos no, entonces el valor de reemplazo para yt es: yt =
2 y t − s + y t + 2s 3
(27)
12. Si yt-2s y yt-s están faltando pero los otros dos no, entonces el valor de reemplazo para yt es: yt = 2 yt + s − yt + 2 s
(28)
Si más de 2 de las cuatro observaciones están faltando, un mensaje de error será mostrado y el análisis no será realizado. Los valores interpolados están diseñados para reproducir perfectamente una tendencia cuadrática (si solamente una de las observaciones falta) o una tendencia lineal (si faltan dos observaciones), siempre que no haya ruido presente.
©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 22
STATGRAPHICS – Rev. 4/25/2007
Autocorrelaciones Parciales
k =1 ⎧r1 ⎪ k −1 ⎪⎪ rk − ∑ φˆk −1, j rk − j para k > 1 φˆkk = ⎨ j =1 k −1 ⎪ ⎪ 1 − ∑ φˆk −1, j r j ⎪⎩ j =1
(29)
donde
φˆkj = φˆk −1, j − φˆkk φˆk −1,k − j para j = 1, 2, …, k-1 (30)
Pruebas de Corridas Refiérase a la documentación para el procedimiento Cuadros de Rachas o Corridas.
Correlaciones Cruzadas
rxy (k ) =
c xy (k )
(31)
sx s y
donde c xy (k ) =
1 n−k ∑ (xt − x )( yt + k − y ) para k = 0, 1, 2, … n t =1
(32)
c xy (k ) =
1 n+ k ∑ ( yt − y )(xt −k − x ) para k = 0, -1, -2, … n t =1
(33)
n
x=
∑x t =1
t
(34)
n n
y=
∑y t =1
t
n
©2006 por StatPoint, Inc.
(35)
Series de Tiempo – Métodos Descriptivos 23
STATGRAPHICS – Rev. 4/25/2007 s x = c xx (0)
(36)
s y = c yy (0)
(37)
©2006 por StatPoint, Inc.
Series de Tiempo – Métodos Descriptivos 24