Consiste na verificação de dados amostrais para saber se e de que forma duas ou mais variáveis estão relacionadas numa população determinada. A análise de regressão permite encontrar a equação que descreve em termos matemáticos essas relações. Em outras palavras, a regressão linear consiste na determinação de uma equação linear (descrita por uma linha reta) que descreva o relacionamento entre duas variáveis. A finalidade da equação de regressão linear é tanto estimar valores de uma variável com base em valores conhecidos de outra, assim como estimar valores futuros de uma variável em função do conhecimento de seus valores no passado. A equação linear tem a seguinte forma: Y = a + bX, na qual a e b são determinados a partir dos dados amostrais disponíveis; a determina o ponto em que a reta intercepta o eixo Y quando X = 0, e b é o coeficiente angular da reta, ou melhor, o valor determinado pela razão Y / X, como pode ser visto no gráfico:
[INSERIR GRAFICO]
O método mais conhecido para ajustar uma linha reta a um conjunto de pontos é o dos mínimos quadrados.
[INSERIR GRAFICO]
A reta obtida mediante esse método apresenta duas características importantes: 1) a soma dos desvios verticais dos pontos em relação à reta é zero, pois os valores que se encontram acima dela (positivos) anulam os que se encontram abaixo (negativos); 2) a soma dos quadrados destes desvios é mínima, isto é, nenhuma outra resultaria numa soma melhor que a soma dos quadrados destes desvios. Os valores de a e b para a reta Y = a + bX que torna mínima a soma dos quadrados dos desvios são calculados pelas equações:
[INSERIR FÓRMULA]
em que n corresponde ao número de pares de observações XY.