Utilizador:Diogo G. Fernandes/Rascunhos

Estimativa dos Mínimos Quadrados ou Método dos Mínimos Quadrados

O objectivo principal na análise de regressão é, modelar com precisão a relação entre variáveis independentes e dependentes. Como iremos aprofundar o melhor modelo é aquele com o menor somatório do quadrado dos desvios entre os valores reais e os valores ajustados, por este motivo o modelo recebe o nome Método dos Mínimos Quadrados.

Recordando que o erro ou desvio é a distância vertical entre os valores reais (Y) e os valores ajustados (Ŷ), o método dos mínimos quadrados têm, como o nome indica, o objectivo de minimizar o quadrado desses desvios verticais.

e¡ = Y¡ - Ŷ¡

A introdução do conceito de quadrado do erro deve-se ao facto de existir um numero infinito de rectas, segundo as quais a soma do erro acima e abaixo dessa mesma recta seja igual a zero. De forma a contrariar que o erro abaixo da recta de ajuste cancele o erro acima da recta, que pode levar à selecção de uma recta de ajuste não óptima, é adoptado o quadrado dos erros e consequentemente o Método dos Mínimos Quadrados.

e¡² = (Y¡ - Ŷ¡)²

Analisando agora as equações fundamentais da recta aplicadas aos valores reais (Y) e os valores ajustados (Ŷ) obtêm-se os seguintes resultados:

Y = a + bX + e

Ŷ = a + bX

e = Y - Ŷ

O objectivo de minimização da soma dos quadrados dos desvios (Σe²) é alcançado através da seguinte equação:

MIN [ Σ(Y¡ - Ŷ¡)² ] = MIN [ Σ(Y¡ - a - bX)² ]

Os valores de a e b que minimizam os desvios quadráticos são chamados de coeficientes e são calculados através das equações normais descritas em baixo.

Ŷ = a + bX

a = Ŷ - bX

b = [Σ (X¡ - Ẍ¡)(Y¡ - Ŷ¡)] / Σ (X¡ - Ẍ¡)²

Sendo Ẍ a média da variável independente e Ŷ a média da variável dependente.

Interpretação do coeficiente a

Existe uma tendência para interpretar literalmente o valor a como o valor de Y quando X é igual a zero. Contudo esta assumpção pode revelar-se muitas vezes incorrecta, pois na realidade o coeficiente a representa a influencia das variáveis independentes não incluídas na relação modelada.

Intervalo de Previsão

Devido à importância de um intervalo da estimativa é definido o intervalo de previsão, sendo este determinado através do Standard Error of Forecast (S_f) ou Desvio Padrão da Previsão.

Olhando para o desvio padrão da recta de regressão de uma determinada estimativa, pode-se analisar o erro associado à recta ajustada pela regressão. Mas não é possível medir/avaliar a dispersão de observações individuais (Y) relativamente a essa mesma recta de ajustamento. Ou seja para gerar um intervalo da estimativa (previsão) é necessário detectar quanto uma observação individual (Y) pode desviar-se da recta de regressão.

O Desvio Padrão da Previsão estima o erro associado à previsão de Y a partir de um variável independente X.

S_f = √(S_yx² + S_x²)

O valor obtido representa o intervalo de previsão, ou seja o valor de erro médio, associado a cada estimativa de Ŷ.

Ŷ ∓ S_f