Máster en comunicaciones. Clase 2. Modelos predictores

M´ aster en comunicaciones. Clase 2. Modelos predictores.

1.

Introducci´ on Uno de los cometidos m´as importantes de la estad´ıstica es la explotaci´on de los datos

observados de una o m´as caracter´ısticas de inter´es en un problema real. Adem´as de las cl´asicas herramientas descriptivas que permiten ordenar, visualizar y resumir los datos, se plantea un modelo matem´atico que los datos permiten validar en el sentido de que si el comportamiento de los datos es coherente con la informaci´on que proporciona el modelo, este modelo se considerar´a adecuado con fines explicativos (tratan de comprender el funcionamiento del sistema en estudio) o predictores (tratan de reducir la incertidumbre que genera el comportamiento futuro del sistema adelantando, con un error, las ocurrencias futuras). El planteamiento anterior no deja de tener algunos problemas como la sobreexplotaci´on de los datos ya que son utilizados tanto para estimar los par´ametros del modelo como para validarlo, lo cual genera un sesgo que puede ser corregido utilizando distintos datos para la estimaci´on y para la validaci´on. Esto no es factible en cualquier tipo de estudios, especialmente en el campo de las ciencias sociales, pero s´ı en el campo de la ingenier´ıa. En el tratamiento de series temporales el problema de la sobreexplotaci´on de los datos juega un papel importante, mayor que en otras t´ecnicas estad´ısticas. La raz´on estriba en que los modelos de series temporales son utilizados para la predicci´on por tanto aparecen, adem´as de los errores de ajuste del modelo, los errores de predicci´on. Estos errores preferiblemente se obtienen con datos que no han sido utilizados en el ajuste del modelo puesto que, en otro caso, se adultera la informaci´on que proporcionan. Esta clase se centrar´a en distinguir la naturaleza de los distintos tipos de errores en la modelizaci´on con series temporales. Posteriormente, se presentar´an medidas para discriminar entre las distintas t´ecnicas de predicci´on basadas en series temporales.

2.

Notaci´ on En este tema supondremos que tenemos una realizaci´on de tama˜ no N de una serie

temporal. En concreto, disponemos de N datos que denotaremos {Y1 , Y2 , . . . , YN } y que se utilizar´an a efectos de ajuste del modelo. 1

Por otra parte, el modelo puede ser utilizado para predecir valores futuros de la serie en un horizonte de M unidades de tiempo tras el instante N , estas predicciones las denotaremos YˆN (M ), donde impl´ıcitamente se indica que la predicci´on se ha construido a partir de un modelo ajustado con una realizaci´on de tama˜ no N de la serie en estudio.

3.

Validaci´ on del ajuste: ruido blanco Para facilitar los contenidos de este punto, supondremos que nuestra t´ecnica de predic-

ci´on se basa en un modelo estad´ıstico. Esto significa que cada valor de la serie se puede escribir:

Yt = Pt + εt donde Pt representa la parte determinista [o sistem´atica] y εt la perturbaci´on aleatoria, donde {εt } es un ruido blanco. Se denomina ruido blanco gaussiano a una sucesi´on de variables aleatorias {εt } incorreladas, con media cero y varianza constante que se distribuyen normalmente. Una sucesi´on de variables aleatorias que satisfaga las condiciones anteriores se denomina ruido blanco, m´as formalmente {εt } es un ruido blanco cuando: 1. E[{εt }] = 0, para cada t. 2. E[εt εt0 ] = 0, para cada t, t0 . 3. E[ε2t ] = σ2 , para cada t. 4. εt ∼ N (0, σ 2 ), para cada t. Tambi´en se denomina perturbaci´on y en el campo de la ingenier´ıa de telecomunicaci´on es el ruido ”ideal” en el sentido de que los ruidos de transmisi´on son inevitables y un ruido blanco permite que el sistema proporciones se˜ nales buenas. Las cuatro condiciones anteriores son, en general, las hip´otesis b´asicas para validar un modelo de ajuste con series temporales. Observemos que el correlograma te´orico de una serie que es ruido blanco est´a en blanco. Puesto que las variables que constituyen un ruido blanco son incorreladas entre s´ı. Desde le dominio de la frecuencia, Observa que dada una serie de perturbaciones podemos decidir si forman un ruido blanco si su correlograma muestral no sugiere lo contrario, esto es, si el correlograma muestral no 2

tiene barras que destaquen mucho. Tambi´en se han desarrollado contrastes que son utilizados al efecto. Contraste de ruido blanco A partir de una realizaci´on de un proceso estoc´astico podemos determinar si es o no es un ruido blanco. Para ello utilizamos el contraste de Box-Ljung que consiste en contrastar si, conjuntamente, los k primeros coeficientes de autocorrelaci´on son nulos. En esencia se plantea:   H0 :  H : 1

ρ1 = ρ2 = · · · = ρk = 0,

(1)

al menos uno no es nulo.

El estad´ıstico de contraste, Q, se distribuye como una χ2 con k grados de libertad:

Q = N (N + 2)

M X h=1

1 r2 N −h h

Si este valor supera un nivel cr´ıtico (es un contraste de una cola), entonces no hay evidencia para aceptar H0 y no consideraremos la hip´otesis de ruido blanco.

4.

Los errores en las t´ ecnicas de predicci´ on Observemos que εt es una variable aleatoria para cada t y se denomina muchas veces

error del modelo, pero no descansa en ´el la precisi´on de una t´ecnica de predicci´on, sino la validez te´orica del modelo estad´ıstico, puesto que las propiedades de ruido blanco recogen la idea de ”buen”modelo, pero puede haber varios ”buenos”modelos entre los que habr´a que escoger el de mejor capacidad predictora. Es este u ´ltimo aspecto el que centra este apartado. Por otra parte, habr´a que utilizar una t´ecnica de ajuste para obtener los par´ametros que determinan Pt , por lo que finalmente tendremos Pˆt+m , que es el valor utilizado para obtener el pron´ostico del valor de la serie en el instante t + m, Yˆt (t + m). La precisi´on de un m´etodo de predicci´on es un problema complicado. Tengamos en cuenta que estamos tratando de medir la aproximaci´on a valores futuros desconocidos. Podemos seguir distintos criterios para seleccionar una t´ecnica, en cualquier caso, el criterio escogido es determinante. Es imposible dar ”el mejor¸criterio, nuestro objetivo es presentar en este punto los distintos factores que intervienen en la construcci´on de un criterio. El hecho de conocerlos nos permitir´a defender nuestras predicciones de modo razonado. 3

A la hora de predecir podemos partir de dos planteamientos:

1.- Buscar un m´etodo de predicci´on que proporcione una serie ajustada lo m´as parecida posible a la serie tomada como muestra.

2.- Buscar un m´etodo de predicci´on que proporcione pron´osticos que se aproximen lo mejor posible a los futuros valores que tomar´a la serie en estudio.

Estos dos planteamientos pueden dar lugar a id´enticas conclusiones, esto es, el m´etodo que mejor se ajusta a la serie es, a su vez, el que proporciona los pron´osticos m´as pr´oximos a los valores futuros desconocidos. Esto s´olo puede sustentarse te´oricamente en el caso de que se suponga que la serie en el futuro no tendr´a alteraciones importantes, luego su comportamiento ser´a similar al seguido en el pasado. Esta estabilidad en la serie lleva a la asunci´on de estacionariedad en la serie.

Pero, como veremos, no tiene por qu´e ser as´ı incluso si hay estacionariedad en la serie. En efecto, debemos tener en cuenta otro problema que consiste en decidir entre dos o m´as series cu´al se aproxima m´as a una tomada como referencia. Cuando tengamos decidido el criterio, entonces podremos hablar de la mejor aproximaci´on de modo preciso, pero siempre indicando el criterio bajo el cual hemos llegado a la selecci´on del m´etodo.

Es muy importante tener claro cu´al es el planteamiento adoptado en un trabajo pr´actico, porque es en funci´on del uso que estemos dando a la t´ecnica de predicci´on que entenderemos de distinta manera el error y, por tanto, la precisi´on de una t´ecnica de predicci´on. Observa el siguiente esquema: 4

Figura 1: errores de ajuste y de predicci´ on

En la esquema superior de la figura 1 el error se corresponde con los residuos. Tambi´en se denominan errores de predicci´on con paso 1, puesto que resultan de restar a cada observaci´on la predicci´on obtenida utilizando la informaci´on de la serie hasta el instante anterior. Son estos los errores que se utilizar´an cuando el criterio de selecci´on se base en la calidad del ajuste. En el esquema inferior de la figura 1, los errores de predicci´on son variables aleatorias, puesto que resultan de restar un valor no observado (variable aleatoria) con la correspondiente predicci´on obtenida utilizando la informaci´on de la serie hasta el u ´ltimo instante observado, N. Ahora bien, en muchos casos se reservan los ”h”´ ultimos datos de la serie y no son utilizados para realizar el ajuste del modelo. Posteriormente se calculan los errores de predicci´on restando a cada dato reservado la predicci´on que proporciona el modelo. Estos errores son utilizados para medir la capacidad de predicci´on del m´etodo y se denominan errores fuera de la muestra (out of sample). Una vez que hemos calculado los errores con ambos criterios, debemos obtener un error global que permita establecer un orden de prelaci´on entre las t´ecnicas utilizadas. De nuevo 5

nos encontramos que existe una gran variedad de medidas para obtener el error global (bien sea de ajuste o de predicci´on). En la figura 2 se presentan las que destacamos en este curso, donde el error et puede ser el error de ajuste (residuo) o de predicci´on, seg´ un que la finalidad del estudio sea explicativa o predictora.

Figura 2: medidas de error

Existen otros criterios para valorar la calidad del ajuste, mucho m´as elaborados que los presentados en el cuadro anterior, pero que no permiten su generalizaci´on para valorar la capacidad predictora del modelo. Las medidas presentadas en la primera fila del cuadro dependen de las unidades de medida, por lo que no son u ´tiles para comparar la precisi´on de un m´etodo cuando es utilizado con series de distinta naturaleza o con una misma serie en diferentes intervalos de tiempo. La medida MAPE es un error relativo, cada sumando del numerador representa el tanto por uno de desviaci´on del pron´ostico respecto al verdadero valor. Finalmente, la U-Theil compara el pron´ostico realizado con el que realizar´ıa el m´etodo ingenuo. Cuando toma valores pr´oximos a 1, el m´etodo utilizado no difiere mucho del ingenuo, si es mayor que uno la t´ecnica utilizada es peor que el m´etodo ingenuo y si es menor que uno, la t´ecnica utilizada es mejor que el m´etodo ingenuo.

5.

Ejercicios 1.- Ejercicio modelo: Dada una serie temporal pedir: 6

a) Construir la predicci´on ingenua, medias m´oviles m´as adecuadas, alg´ un m´etodo algor´ıtmico. b) Ajuste ARIMA c) Predicci´on d) Selecci´on de modelos.

7

Máster en comunicaciones. Clase 2. Modelos predictores

Recommend Stories

Story Transcript

Get in touch

Social