Logística/Técnicas de previsão/Métodos ARIMA de Box-Jenkins/Identificação do modelo

Nesta fase, o primeiro passo é, determinar se a série é ou não estacionária, isto é, se a série cronológica parece variar em relação a um nível fixo. Para esta determinação, torna-se útil a análise em simultâneo do gráfico da série cronológica e da Autocorrelation Function (ACF). Se a série tiver um comportamento crescente ou decrescente ao longo do tempo e as autocorrelações da amostra não terminarem rapidamente, está-se na presença de uma série não estacionária. Torna-se então necessária a sua conversão numa série estacionária, através de diferenciação. Mais concretamente, a série de dados original é substituída por uma série de diferenças entre dois valores consecutivos. Exemplificando, suponha-se que uma série de valores original, $\ Y_{t}$ , tem um comportamento crescente ao longo do tempo, cujas primeiras diferenças, $\vartriangle Y_{t}=Y_{t}-Y_{t-1}$ , variam em relação a um valor fixo. Pode ser apropriado usar um modelo Autorregressivo de Médias Móveis (ARMA) de ordem p = 1 e q = 1. Neste caso, o modelo é (Hanke et al., 2008, p. 408):

$\vartriangle Y_{t}=\phi _{1}\vartriangle Y_{t-1}+\varepsilon _{t}-\omega _{1}\varepsilon _{t-1}$

ou

$(Y_{t}-Y_{t-1})=\phi _{1}(Y_{t-1}-Y_{t-2})+\varepsilon _{t}-\omega _{1}\varepsilon _{t-1}$

Nalguns casos, pode ser necessário diferenciar as diferenças, para se obterem dados estacionários. Se a diferenciação simples for feita duas vezes, obtém-se:

$\vartriangle ^{2}Y_{t}=\vartriangle (\vartriangle Y_{t})=\vartriangle (Y_{t}-Y_{t-1})=Y_{t}-2Y_{t-1}+Y_{t-2}$

As diferenciações são efectuadas sucessivamente até que a representação gráfica dos dados indique que a série tem uma variação em relação a um valor fixo e as autocorrelações da amostra desaparecem com alguma rapidez. O número de diferenciações necessário para obter estacionaridade é designado por d.

Assim que se obtém uma série de dados estáveis, o analista tem de identificar a forma do modelo a ser usado. A identificação da forma do modelo é conseguida através da comparação entre as ACF e Partial Autocorrelation Function (PACF) dos dados originais e as ACF e PACF dos vários modelos Autorregressivos Integrados de Médias Móveis (ARIMA). A cada modelo ARIMA corresponde um grupo único de ACF e PACF, tornando assim possível a associação dos valores da amostra com uma das tendências teóricas. A possível ambiguidade associada à determinação do modelo ARIMA apropriado leva, no entanto, a que o modelo inicialmente escolhido seja tido como uma tentativa. As análises que determinaram se o modelo é acertado, são feitas nos dois passos seguintes. A escolha do modelo certo depende da experiência do analista. À medida que este ganha mais prática, o número de tentativas para chegar ao modelo adequado será menor (Hanke et al., 2008, p. 408-409).

É de salientar que, se as autocorrelações da amostra se extinguirem exponencialmente para zero e as autocorrelações parciais da amostra terminarem, o modelo vai requerer termos autorregressivos. Verificando-se o inverso, o modelo necessita de termos de médias móveis. Caso ambas as autocorrelações e autocorrelações parciais se extingam, então recorre-se a termos autorregressivos e de médias móveis. Através da contagem das autocorrelações e autocorrelações parciais significativas das amostras, a ordem das componentes Médias Móveis (MA) e Autoregressiva (AR) pode ser determinada. Para avaliar a significância de ambas, os valores das autocorrelações e autocorrelações parciais da amostra são comparados com, $\pm {2/{\sqrt {n}}}$ , onde $\ n$ representa o número de observações na série cronológica. Estes limites funcionam bem para valores elevados de $\ n$ .

Tendo tudo isto em conta, é preferível trabalhar com modelos simples em vez de utilizar modelos complexos, facto conhecido como o princípio da parcimónia. Com uma quantidade de dados limitada, é relativamente simples encontrar um modelo com um grande número de parâmetros que se encaixe perfeitamente. No entanto, previsões realizadas por tais modelos, serão, muito provavelmente, fracas isto porque, muita da variação dos dados será relativa à modelação do erro aleatório. O objectivo é desenvolver o mais simples dos modelos que consegue fornecer uma descrição adequada das principais características dos dados (Hanke et al., 2008, p. 409). O processo de escolha do modelo descrito acima, apresenta alguma subjectividade e é possível que, dois ou mais modelos iniciais apresentem resultados consistentes na comparação dos padrões. Ainda para mais, depois da estimação de parâmetros e análise do modelo, podemos ter ainda dois que representem adequadamente os dados. Se os modelos em causa, conterem o mesmo número de parâmetros, opta-se pelo que tiver menor $s^{2}$ . Se os modelos apresentarem diferente número de parâmetros, o princípio da parcimónia leva à selecção do modelos mais simples. No entanto, o modelo com maior número de parâmetros pode ter um $s^{2}$ consideravelmente menor (Hanke et al., 2008, p. 431).

Outra técnica utilizada na escolha do modelo é o Critério de Informação de Akaike (AIC), que selecciona o melhor modelo dentro de um grupo de candidatos que minimiza

$AIC=\ln {{\hat {\sigma }}^{2}}+{\frac {2}{n}}r$

onde

$ln$	= ao logaritmo natural
${\hat {\sigma }}^{2}$	= ao quociente entre o resíduo da soma dos quadrados e o número de observações
$n$	= ao número de observações
$r$	= ao número total de parâmetros(incluindo o termo constante) do modelo ARIMA

Outra técnica possível passa por utilizar o Critério de Informação de Bayesian (BIC), que escolhe o modelo que minimiza

$BIC=\ln {{\hat {\sigma }}^{2}}+{\frac {\ln n}{n}}r$

O segundo termo utilizado tanto na AIC como na BIC, é um factor que penaliza a inclusão de parâmetros adicionais no modelo. Como o critério BIC impõe uma penalização superior em relação ao critério AIC, a minimização de BIC vai resultar num modelo cujo número de parâmetros não é superior aos do modelo escolhido pela AIC. Muitas vezes os dois critérios produzem o mesmo resultado. A AIC e a BIC devem ser vistas como procedimentos adicionais que ajudam na escolha do modelo. A sua utilização não deve ser feita em substituição de uma análise cuidada das ACF e PACF, mas sim como um complemento a essa análise (Hanke et al., 2008, p. 431).