Logística/Técnicas de previsão/Estatísticas univariadas, bivariadas e autocorrelação

Considera-se uma estatística o resumo numérico de um determinado conjunto de dados. (Makridakis, 1998, p. 28-29).

As estatísticas descritivas mais usadas tanto para conjuntos de dados univariados únicos, como séries temporais únicas são a média, o desvio padrão e a variância. No caso de existirem dados bivariados (par de variáveis aleatórias), as estatísticas mais usadas para descrever a relação entre os dois conjuntos de dados são a covariância e a correlação. Finalmente, as estatísticas mais comuns para efectuar a comparação entre as observações de uma única série temporal em dois períodos de tempo distintos são a autocovariância e a autocorrelação.

Estatísticas univariadas

A medição do valor em relação ao qual 50 por cento dos desvios estão acima e 50 por cento dos desvios estão abaixo é dada pela média (ou média aritmética), ou seja, a soma dos desvios em torno desta é zero. Por exemplo (DeLurgio, 1998, p. 41):

Tabela 1. Vendas de um determinado produto.

$t\,\!$	01	02	03	04	05	06	07	08	09

$X_{t}\,\!$	08	08	11	07	08	12	10	13	13

onde $X_{t}\,\!$ , na Tabela 1, é o valor de vendas de um determinado produto nos últimos nove meses. A média das vendas é dada por:

${\overline {X}}={\frac {\textstyle \sum _{t=1}^{n}X_{t}}{n}}={\frac {8+8+11+7+8+12+10+13+13}{9}}={\frac {90}{9}}=10$

onde $\textstyle \sum _{t=1}^{9}X_{t}$ é o somatório de $t$ = 1 até $t$ = 9.

Desvios

Um desvio médio ( $x_{t}\,\!$ ) é definido pela subtracção da média a um valor observado ( $X_{t}\,\!$ ) e é dado por:

$x_{t}=X_{t}-{\overline {X}}$

Tabela 3. Cálculo dos desvios.

$t\,\!$	-1	-2	03	-4	-5	06	07	08	09

$X_{t}\,\!$	-8	-8	11	-7	-8	12	10	13	13

$x_{t}\,\!$	-2	-2	01	-3	-2	02	00	03	03

$\textstyle \sum _{t=1}^{11}x_{t}=(-2)+(-2)+1+(-3)+(-2)+2+0+3+3=0$

Como a soma dos desvios é sempre igual a zero, é útil desenvolver uma estatística descritiva para estes desvios, que, ou são elevados ao quadrado, ou, ocasionalmente, toma-se o seu valor absoluto.

O desvio médio absoluto é denominado de DMA e é dado por:

$DMA={\frac {\textstyle \sum _{t=1}^{n}|X_{t}-{\overline {X}}|}{n}}$

Neste caso:

$DMA={\frac {|8-10|+|8-10|+|11-10|+|7-10|+|8-10|+|12-10|+|10-10|+|13-10|+|13-10|}{9}}$

$DMA={\frac {2+2+1+3+2+2+0+3+3}{9}}={\frac {20}{9}}=2,22$

Por seu lado, o desvio médio quadrado, é designado por DMQ e é dado por:

$DMQ={\frac {\textstyle \sum _{t=1}^{n}(X_{t}-{\overline {X}})^{2}}{n}}$

Neste caso:

$DMQ={\frac {(8-10)^{2}+(8-10)^{2}+(11-10)^{2}+(7-10)^{2}+(8-10)^{2}+(12-10)^{2}+(10-10)^{2}+(13-10)^{2}+(13-10)^{2}}{9}}$

$DMQ={\frac {4+4+1+9+4+4+0+9+9}{9}}={\frac {44}{9}}=4,89$

Intimamente relacionado com o desvio médio quadrado (DMQ), está a variância. Esta é definida da seguinte maneira:

$S^{2}={\frac {\textstyle \sum _{t=1}^{n}(X_{t}-{\overline {X}})^{2}}{n-1}}$

Neste caso:

$S^{2}={\frac {(8-10)^{2}+(8-10)^{2}+(11-10)^{2}+(7-10)^{2}+(8-10)^{2}+(12-10)^{2}+(10-10)^{2}+(13-10)^{2}+(13-10)^{2}}{8}}$

$S^{2}={\frac {4+4+1+9+4+4+0+9+9}{8}}={\frac {44}{8}}=5,5$

onde $n-1$ representa os «graus de liberdade», que podem ser definidos como o número de observações a subtrair pelo número de parâmetros estimados (Makridakis, 1998, p. 31-32).

A variância é menos intuitiva que o DMQ mas possui propriedades matemáticas desejáveis, porque, ao contrário do DMQ não é uma estimativa tendenciosa.

Tanto a variância como o desvio médio absoluto fornecem medidas de dispersão. Medem aproximadamente o desvio médio das observações em relação à sua média. Se as observações estiverem muito dispersas, estarão longe da média (acima e abaixo). Neste caso tanto o desvio médio absoluto como a variância terão um valor elevado. Quando as observações estão próximas entre si, o desvio médio absoluto e a variância terão valores pequenos. Ambos têm a mesma unidade que as observações.

O desvio padrão é a raiz quadrada do desvio médio quadrado (DMQ) e é dado por (DeLurgio, 1998, p. 43):

$S={\sqrt {\frac {\textstyle \sum _{t=1}^{n}(X_{t}-{\overline {X}})^{2}}{n-1}}}$

Neste caso:

$S={\sqrt {\frac {(8-10)^{2}+(8-10)^{2}+(11-10)^{2}+(7-10)^{2}+(8-10)^{2}+(12-10)^{2}+(10-10)^{2}+(13-10)^{2}+(13-10)^{2}}{8}}}$

$S={\sqrt {\frac {4+4+1+9+4+4+0+9+9}{8}}}={\sqrt {\frac {44}{8}}}={\sqrt {5,5}}=2,35$

Muitos conjuntos de dados verificam as seguintes regras empíricas (Makridakis, 1998, p. 32):

Aproximadamente dois terços das observações distam até 1 desvio padrão da sua média;
Aproximadamente 95% das observações distam até 2 desvios padrões da sua média.

Quando se ordena o número de observações por ordem crescente, como acontece na Tabela 2, e este for ímpar, a mediana é o valor em relação ao qual 50 por cento dos valores são maiores e 50 por cento são menores, ou seja, a mediana é a observação a meio. Nos casos em que o número de observações for par, a mediana é igual à média entre os valores das duas observações centrais.

Tabela 2. Valores de vendas ordenados por ordem crescente.

$X_{t}\,\!$	07	08	08	08	10	11	12	13	13

Para as nove observações da Tabela 2, quatro estão acima de 10 e quatro estão abaixo de 10. A mediana é, portanto, 10.

A média e a mediana providenciam uma medida numérica do centro do conjunto de dados, bem como a medição da sua dispersão, de modo a saber se estes estão fortemente agrupados ou espalhados por uma vasta gama de valores (Makridakis, 1998, p. 29-30).

O número, ou conjunto de números, que ocorre mais vezes dá pelo nome de moda. Nos dados da Tabela 2, o número que aparece com maior frequência é 8, logo é a moda(DeLurgio, 1998, p. 41).