Buscar

8 - Correlação e Regressão linear simples

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Unidade 8: Correlação e Regressão linear simples 
 
8.1 Primeiras palavras 
Existem vários estudos em que as variáveis de interesse 
encontram-se relacionadas entre si, de tal forma que se torna 
mais interessante o estudo conjunto dessas variáveis do que 
tratar de cada variável isoladamente. Nesta unidade, iremos 
considerar situações desta natureza, porém, serão 
apresentados apenas casos em que as variáveis se relacionam 
de forma linear. 
A partir do estabelecimento das relações entre as variáveis, é 
possível construir modelos que permitam predizer uma ou mais 
variáveis em termos de outras. 
 
8.2 Problematizando o tema 
Em muitos problemas, duas ou mais variáveis estão 
inerentemente relacionadas, sendo interessante explorar a 
natureza dessa relação. A análise de regressão é uma técnica 
estatística empregada para modelar e investigar como duas ou 
mais variáveis se relacionam (ou seja, a correlação entre as 
mesmas). Na análise de regressão simples, o termo simples 
frisa que serão estudados casos que envolvem apenas duas 
variáveis. 
Por exemplo, em um processo químico, suponha que o 
rendimento de um produto esteja relacionado com a 
temperatura de operação do processo. A análise de regressão 
pode ser usada para prever o rendimento em uma dada 
temperatura. Este modelo pode, ainda, ser usado para fins de 
otimização do processo, tal como encontrar a temperatura que 
proporciona rendimento máximo ou ainda, com a finalidade de 
controlar este mesmo processo. 
 
8.3 Correlação 
Tomemos um exemplo de uma amostra de dez pessoas, cujas 
variáveis que nos interessam investigar são altura (cm) e peso 
(kg). Iremos denominá-las x e y, respectivamente. Para cada 
elemento da amostra, temos um par ordenado (x, y). Temos, 
então, n=10 pares de valores das duas variáveis que podem 
ser plotados em um gráfico, o qual denominamos diagrama de 
dispersão. Os dados deste exemplo se encontram na Tabela 
8.1 e o respectivo diagrama de dispersão é apresentado na 
Figura 8.1. 
Tabela 8.1. Valores de atura e peso de dez pessoas. 
Pessoa Altura (cm) Peso (kg) 
1 174 73 
2 161 66 
3 170 64 
4 180 94 
5 182 79 
6 164 72 
7 156 62 
8 168 64 
9 176 90 
10 175 81 
Fonte: COSTA NETO (2002) 
 
 
Figura 8.1. Diagrama de dispersão para os dados da Tabela 
8.1. 
A vantagem em se construir o diagrama de dispersão está no 
fato de uma simples observação dos mesmo nos dar uma idéia 
de como as duas variáveis se correlacionam. Observamos na 
Figura 8.1 que as variáveis altura e peso apresentam uma 
correlação linear positiva (isto é, os dados se aproximam de 
uma reta crescente). Quanto maior a altura da pessoa, a 
tendência é que o peso também seja maior (e vice-versa). 
O caso mais comum em um estudo de correlação é a 
correlação linear, a qual descreve a existência de uma relação 
linear entre os pares de valores (x, y), exemplo o qual 
acabamos de ver. Pudemos observar visualmente a relação 
entre as variáveis de interesse com a construção de um 
diagrama de dispersão. A construção deste diagrama é o 
primeiro passo para estudarmos a correlação entre duas 
variáveis. As figuras a seguir (Figuras 8.2; 8.3; 8.4; 8.5) 
exemplificam alguns outros exemplos. 
 
Figura 8.2. Correlação linear negativa. 
 
Figura 8.3. Correlação linear nula. 
 
Figura 8.4. Correlação linear positiva. 
 
Figura 8.5. Correlação não- linear. 
 
A Figura 8.2 apresenta um exemplo em que a tendência para 
maiores valores de x, sejam observados menores valores de y 
e vice-versa. Este caso é chamado de correlação linear 
negativa. 
O preço de um produto x quantidade procurada; temperatura 
do ambiente x rendimento do motor, renda per capita x índice 
de analfabetismo são exemplos de variáveis que se espera que 
sejam negativamente correlacionadas. 
Há casos de variáveis não-correlacionadas ou de correlação 
linear nula (Figuras 8.3 e 8.5). 
A Figura 8.4 apresenta um caso de correlação linear positiva 
em que observamos com o aumento dos valores de x, uma 
tendência a obtermos maiores valores de y e vice-versa 
(mesmo caso do exemplo visto: peso x altura). 
Os diagramas representam relações que podem existir entre 
pares de valores. Quando x e y variam de forma linear, como 
os diagramas apresentados nas Figuras 8.2 e 8.4, pode-se 
afirmar que existe uma correlação linear entre as variáveis. 
Vemos que o sinal da correlação (positiva ou negativa) indica a 
tendência da variação conjunta das duas variáveis 
consideradas. Entretanto, deve-se considerar, também, a 
intensidade ou o grau da correlação. Esta intensidade ou grau 
de correlação pode ser avaliado pela covariância amostral 
(vista na unidade 3), definida por: 
��� = ��� 	
, �
 = ∑ 	
� − 
̅
	�� − ��
���� � − 1 
No caso da correlação linear observada nas Figura 8.2 e 8.4, a 
covariância tende a ser alta. Para a Figura 8.4, o valor é 
positivo assinalando que tanto os valores de x, quanto y 
crescem no mesmo sentido. Já no caso da Figura 8.2, a 
covariância é negativa, indicando que os valores de y 
decrescem quando os de x aumentam. Para os demais casos, 
a covariância será pequena, próxima de zero, indicando que 
não existe correlação linear. O caso extremo seria aquele em 
que todos os pontos se situam sobre uma mesma reta com 
inclinação positiva ou negativa, em que teríamos uma 
correlação linear perfeita. No entanto, na prática, este caso 
dificilmente ocorre. 
Coeficiente de correlação linear 
A utilização da covariância como medida de associação entre 
duas variáveis apresenta um inconveniente, a dependência das 
unidades de medidas das variáveis. 
Consequentemente, uma media adimensional que divida a 
covariância por termos com as mesmas unidades de medidas, 
torna-se conveniente. Surge, então, o chamado coeficiente 
linear de Pearson ou, simplesmente, coeficiente de correlação, 
cujo valor amostral é estimado por: 
� = ��� 	
, �
���� 
Onde sx e sy são os desvios-padrão amostrais das variáveis x e y na 
amostra. 
Como... 
�� = �∑ 	
� − 
̅
������ − 1 �� = �∑ 	�� − ��
������ − 1 
... resulta que: 
� = ∑ 	
� − 
̅
	�� − ��
�����∑ 	
� − 
̅
� × ∑ 	�� − ��
��������� = 
������� × ��� 
Temos aqui novas notações, que abreviam os somatórios (Sxy, 
Sxx e Syy) e que serão muito úteis nos cálculos da análise de 
regressão. Observe que notações parecidas (som a utilização 
de somatório) já apareceram quando aprendemos, na unidade 
2, os cálculos de desvio padrão e variância amostrais. 
��� = ∑ 	
� − 
̅
	�� − ��
���� 
��� = ∑ 	
� − 
̅
����� 
��� = ∑ 	�� − ��
����� 
Outra fórmula para o cálculo (que pode ser demonstrada 
matematicamente) é : 
� = � ∑ 
��� − ∑ 
� ∑ ���[� ∑ 
�� − 	∑ 
�
�] × [� ∑ ��� − 	∑ ��
�] 
 
O coeficiente de correlação linear de Pearson assume valores 
entre -1 e +1 (-1 ≤ r ≤ + 1). r = -1 corresponde ao caso de 
correlação linear negativa perfeita; r = +1 corresponde ao de 
correlação linear positiva perfeita; enquanto r = 0 aponta 
inexistência de correlação linear. 
Aplicação 
Tomemos o exemplo dos pardais que se acidentaram após 
uma tempestade de granizo. O quadro 8.1 mostra duas 
características desses pardais: comprimento total e do externo 
alar. Vamos verificar se há correlação entre essas duas 
dimensões. 
Aplicando a fórmula: 
� = ∑ 	
� − 
̅
	�� − ��
�����∑ 	
� − 
̅
� × ∑ 	�� − ��
��������� = 
������� × ��� 
Rotulando X como comprimento total e Y o tamanho do externo 
alar, temos as seguintes soma de quadrados usando o Excel: 
Sxy=653,3265; Sxx=640,9796; Syy=1232,7755. 
Substituindo esses valores na fórmula, temos: 
� = 653,3266�640,9796 × 1232,7755 = 0,735 
 
Quadro 8.1: Dimensões de 49 pardais. 
Pássaro Comprimento Total 
Extensão 
alar Pássaro 
Comprimento 
Total 
Extensão 
alar 
1 156,00245,00 26 160,00 250,00 
2 154,00 240,00 27 155,00 237,00 
3 153,00 240,00 28 157,00 245,00 
4 153,00 236,00 29 165,00 245,00 
5 155,00 243,00 30 153,00 231,00 
6 163,00 247,00 31 162,00 239,00 
7 157,00 238,00 32 162,00 243,00 
8 155,00 239,00 33 159,00 245,00 
9 164,00 248,00 34 159,00 247,00 
10 158,00 238,00 35 155,00 243,00 
11 158,00 240,00 36 162,00 252,00 
12 160,00 244,00 37 152,00 230,00 
13 161,00 246,00 38 159,00 242,00 
14 157,00 245,00 39 155,00 238,00 
15 157,00 235,00 40 163,00 249,00 
16 156,00 237,00 41 163,00 242,00 
17 158,00 244,00 42 156,00 237,00 
18 153,00 238,00 43 159,00 238,00 
19 155,00 236,00 44 161,00 245,00 
20 163,00 246,00 45 155,00 235,00 
21 159,00 236,00 46 162,00 247,00 
22 155,00 240,00 47 153,00 237,00 
23 156,00 240,00 48 162,00 245,00 
24 160,00 242,00 49 164,00 248,00 
25 152,00 232,00 
 
 
 
Observamos, então, que há correlação entre as duas medidas 
dos pardais. 
 
8.4 Regressão 
Muitas vezes, a posição dos pontos experimentais no diagrama 
de dispersão sugere a existência de uma relação entre as 
variáveis. Surge, então, o problema de se determinar uma 
função que exprima esse relacionamento. Nesse curso, será 
tratado apenas o modelo linear. 
A análise de regressão consiste em determinar um modelo 
matemático que possibilite predizer uma variável em termo de 
outra. 
Ao empregar dados para expressar uma equação matemática, 
a qual irá descrever a relação entre duas variáveis, três 
questões pertinentes são levantadas: 
• Qual modelo utilizar? 
• Dentre as diversas equações que podem justificar o 
modelo, qual delas é a melhor para os dados que estão 
sendo utilizados? 
• A equação matemática adotada justifica os dados 
experimentais? 
 
8.4.1 Modelos matemáticos empíricos 
A primeira questão é usualmente resolvida construindo um 
diagrama de dispersão que relacionam os pares de valores. Se 
for observada uma correlação linear entre as variáveis, 
podemos descrevê-la por meio de um modelo de equação 
linear que apresenta a forma: 
) = *+ + *�- 
Sendo ) a variável dependente e - a variável independente ou 
explanatória ou preditora. Já ./ é o coeficiente linear (corresponde ao 
ponto em que a reta - que descreve os dados - cruza o eixo y) e .0, o 
coeficiente angular (corresponde à inclinação da reta do modelo). 
Esse é o modelo populacional, sendo *+ e *� parâmetros do 
modelo a serem estimados a partir de uma amostra. Assim, o 
modelo empírico estimado a partir de uma amostra é dado por: 
�1 = 2 + 3
 
Na prática, os valores de ./ e .0 são estimados com base em 
pares de x e y, onde y é a variável resultante, que se quer 
analisar e x é a variável preditora. Define-se, portanto, duas 
classes de variáveis para a análise de regressão: y como 
variável dependente e x como variável independente. 
Para melhor compreender a diferença entre variável 
dependente e independente, tomemos o seguinte exemplo. 
Deseja-se medir as temperaturas de um forno de aquecimento 
de 5 em 5 minutos. Os tempos (valores de x) estão bem 
determinados, ao passo que as temperaturas deverão ser 
verificadas ao longo do experimento. Vemos que, nesse 
exemplo, os valores de x independem dos de y, pois foram 
simplesmente estipulados, enquanto que os valores de y, 
dependerão dos de x, desde que exista regressão. Por essa 
razão, a variável x (tempo) é denominada independente, 
enquanto y (temperatura) é dependente. 
 
8.4.2 Estimativas dos parâmetros do modelo 
Uma vez decidido qual o modelo a ser utilizado, nos 
deparamos com a segunda questão: qual a melhor reta que 
descreve os dados? 
Para definirmos a melhor reta, adotamos o método dos 
mínimos quadrados, que consiste na construção de um modelo 
que minimize o erro. Este método foi desenvolvido pelo 
cientista alemão Karl Gauss. 
Na regressão, o erro é definido como a somatória da diferença, 
ao quadrado, entre os valores de y observados e os valores de 
y estimados pela equação (�1 = 2 + 3
). O símbolo �1 é utilizado 
para distinguir os valores obtidos com a reta estimada dos 
valores de y experimentais. Ou seja, a reta adotada deverá ser 
aquela que torna mínima a soma dos quadrados das distâncias 
da reta aos pontos experimentais, conforme ilustra a Figura 8.6. 
 
Figura 8.6. Distâncias cuja soma dos quadrados deve ser 
minimizada. 
Vamos aprender como encontrar os parâmetros a e b? 
Começamos pelo cálculo do parâmetro “b”, que é o coeficiente 
angular da reta: 
3 = ������ 
Onde 
 ��� = ∑ 	
� − 
̅
	�� − ��
���� e ��� = ∑ 	
� − 
̅
����� 
Encontrado o valor do b (coeficiente angular da reta), podemos 
calcular facilmente o parâmetro “a” (coeficiente linear da reta), 
substituindo na equação os valores médios experimentais de x 
e y (
̅ 4 ��). Sendo assim, temos: 
�� = 2 + 3
̅ → 2 = �� − 3
̅ 
Encontrados “a” e “b”, basta substituir os valores encontrados e 
teremos a reta que melhor descreve os dados experimentais. 
O modelo matemático empírico estima o valor médio da 
variável dependente Y. Assim, para cada valor de X, o modelo 
estima 5	)|-
 = 7	�8|�9
. Outro aspecto importante do modelo 
é que, para ser considerado adequado, os valores de ) para 
um dado - devem flutuar em torno da média 5	)�
 segundo 
uma distribuição normal. Em outras palavras, o erro aleatório 
das estimativas dos )� 	:�
 segue uma distribuição normal e é 
dado por: 
:� = �� − �1� 
Sendo �1� a estimativa do valor médio para um dado 
� e �� são 
todos os possíveis valores de ) para um - específico. 
 
8.4.3 Validação do modelo empírico 
Determinada a equação que melhor descreve os dados, falta, 
ainda, responder à última questão: a reta encontrada justifica 
os dados experimentais? 
Para responder a esta pergunta, teremos de realizar um novo 
cálculo, o do coeficiente de determinação (r2): 
�� = ∑ 	�1� − ��
�����∑ 	�� − ��
����� 
onde �1� corresponde aos valores de y estimados pela equação da 
reta e �� aos dados experimentais. 
O valor do coeficiente de determinação (r2) varia entre 0 e 1. 
Quanto mais próximo de 1, melhor é o modelo de ajuste. Se 
r2=1, significa que a regressão explica 100% dos valores 
observados, ou seja �1 = � (a reta passa perfeitamente pelos 
dados experimentais). 
 
8.5 Aplicações 
Vamos visualizar a aplicação de todos os cálculos vistos em 
um exemplo de uma destilaria. Na tabela 8.2 apresentamos os 
dados que iremos trabalhar, onde y é a pureza do oxigênio 
produzido em um processo químico de destilação e x é a 
porcentagem de hidrocarbonetos presentes no condensador 
principal da unidade de destilaria. 
Tabela 8.2. Níveis de oxigênio e hidrocarbonetos. 
Número da 
observação 
Nível de 
hidrocarboneto x 
(%) 
Pureza do 
oxigênio 
y (%) 
1 0,99 90,01 
2 1,02 89,05 
3 1,15 91,43 
4 1,29 93,74 
5 1,46 96,73 
6 1,36 94,45 
7 0,87 87,59 
8 1,23 91,77 
9 1,55 99,42 
10 1,40 93,65 
11 1,19 93,54 
12 1,15 92,52 
13 0,98 90,56 
14 1,01 89,54 
15 1,11 89,85 
16 1,20 90,39 
17 1,26 93,25 
18 1,32 93,41 
19 1,43 94,98 
20 0,95 87,33 
Fonte: MONTGOMERY (2004) 
 
O exercício já nos informa quem serão nossos dados em x 
(nível de hidrocarboneto) e y (pureza do oxigênio). Dessa 
forma, temos que a pureza do oxigênio (y) é nossa variável 
dependente, cujo comportamento queremos avaliar em função 
do nível de hidrocarboneto (x, variável independente). 
O primeiro passo consiste em construir um diagrama de 
dispersão, para visualizarmos se as variáveis se correlacionam 
(existe correlação?) e como se dá essa correlação (será linear? 
Positiva ou negativa?). A Figura 8.7 mostra o diagrama de 
dispersão construído a partir dos dados da Tabela 8.2. 
Visualmente, podemos observar que x e y se correlacionam 
positivamente (a pureza do oxigênio aumenta conforme o nível 
de hidrocarboneto se eleva). 
 
Figura8.7. Diagrama de dispersão da pureza do oxigênio 
versus nível de hidrocarboneto. 
Vamos medir o quanto estas variáveis se correlacionam? Para 
isso, determinamos o coeficiente de correlação de Pearson, 
dado por: 
� = ������� × ��� =
∑ 	
� − 
̅
	�� − ��
�����∑ 	
� − 
̅
� × ∑ 	�� − ��
��������� 
O primeiro passo para efetuar este cálculo é determinar as 
médias de x e y (
̅ 4 ��). 
̅ = ∑ 
� ����� = ∑ 
� 
�+���20 = 
= 0,99 + 1,02 + 1,15 + 1,29 + 1,46 + 1,36 + 0,87 + 1,23 + ⋯ + 1,26 + 1,32 + 1,43 + 0,9520 
̅ = ∑ 
� �+���20 = 23,9220 = 1,196 
 
�� = ∑ �� ����� = ∑ �� 
�+���20 
= 90,01 + 89,05 + 91,43 + 93,74 + 94,45 + 87,59 + ⋯ + 93,25 + 93,41 + 94,98 + 87,3320 
�� = ∑ �� �+���20 = 1843,2120 = 92,16 
 
Encontrados os valores médios, tabulo os dados de 	
� − 
̅) e 	�� − ��
, para facilitar os cálculos de Sxx, Syy e Sxy. 
Tabela 8.3. Cálculo de 	
� − 
̅
 para as 20 observações. 
xi 	=> − =?
 xi 	=> − =?
 
x1 = 0,99 (0,99 – 1,196) = -0,206 x11 = 1,19 (1,19 – 1,196) = -0,006 
x2 = 1,02 (1,02 – 1,196) = -0,176 x12 = 1,15 (1,15 – 1,196) = -0,046 
x3 = 1,15 (1,15 – 1,196) = -0,046 x13 = 0,98 (0,98 – 1,196) = -0,216 
x4 = 1,29 (1,29 – 1,196) = 0,094 x14 = 1,01 (1,01 – 1,196) = -0,186 
x5 = 1,46 (1,46 – 1,196) = 0,264 x15 = 1,11 (1,11 – 1,196) = -0,086 
x6 = 1,36 (1,36 – 1,196) = 0,164 x16= 1,20 (1,20 – 1,196) = 0,004 
x7 = 0,87 (0,87 – 1,196) = -0,326 x17 = 1,26 (1,26 – 1,196) = 0,064 
x8 = 1,23 (1,23 – 1,196) = 0,034 x18 = 1,32 (1,32 – 1,196) = 0,124 
x9 = 1,55 (1,55 – 1,196) = 0,354 x19 = 1,43 (1,43 – 1,196) = 0,234 
x10 = 1,40 (1,40 – 1,196) = 0,204 x20= 0,95 (0,95 – 1,196) = -0,246 
 
Tabela 8.4 Cálculo de 	�� − ��
 para as 20 observações. 
yi 	@> − @?
 yi 	@> − @?
 
y1 = 90,01 (90,01 – 92,16) = -2,15 y11 = 93,54 (93,54 – 92,16) = 1,38 
y2 = 89,05 (89,05 – 92,16) = -3,11 y12 = 92,52 (92,52 – 92,16) = 0,36 
y3 = 91,43 (91,43 – 92,16) = -0,73 y13 = 90,56 (90,56 – 92,16) = -1,60 
y4 = 93,74 (93,74 – 92,16) = 1,58 y14 = 89,54 (89,54 – 92,16) = -2,62 
y5 = 96,73 (96,73 – 92,16) = 4,57 y15 = 89,85 (89,85 – 92,16) = -2,31 
y6 = 94,45 (94,45 – 92,16) = 2,29 y16= 90,39 (90,39 – 92,16) = -1,77 
y7 = 87,59 (87,59 – 92,16) = -4,57 y17 = 93,25 (93,25 – 92,16) = 1,09 
y8 = 91,77 (91,77 – 92,16) = -0,39 y18 = 93,41 (93,41 – 92,16) = 1,25 
y9 = 99,42 (99,42 – 92,16) = 7,26 y19 = 94,98 (94,98 – 92,16) = 2,82 
y10 = 93,65 (93,65 – 92,16) = 1,49 y20= 87,33 (87,33 – 92,16) = -4,83 
 
Combinando os dados de 	
� − 
̅) e 	�� − ��
 encontramos Sxy, 
Sxx e Syy: 
OBS: Notem os sinais que acompanham os números obtidos 
com a multiplicação (lembrando que a ausência de sinal, 
significa que o número é positivo): 
(+)*(+) = (+) 
(+)*(-) = (-) 
(-)2 = (-)*(-) = (+) 
Tabela 8.5 Cálculo de Sxy 	=> − =?
 	@> − @?
 	=> − =?
 × 	@> − @?
 
-0,206 -2,15 0,4429 
-0,176 -3,11 0,5474 
-0,046 -0,73 0,0336 
0,094 1,58 0,1485 
0,264 4,57 1,2065 
0,164 2,29 0,3756 
-0,326 -4,57 1,4898 
0,034 -0,39 -0,0133 
0,354 7,26 2,5700 
0,204 1,49 0,3040 
-0,006 1,38 -0,0083 
-0,046 0,36 -0,0166 
-0,216 -1,60 0,3456 
-0,186 -2,62 0,4873 
-0,086 -2,31 0,1987 
0,004 -1,77 -0,0071 
0,064 1,09 0,0698 
0,124 1,25 0,1550 
0,234 2,82 0,6599 
-0,246 -4,83 1,1882 
Sxy = SOMA 10,1774 
 
 
Tabela 8.6 Cálculo de Sxx 	=> − =?
 	=> − =?
A 	=> − =?
 	=> − =?
A 
-0,206 0,042 -0,046 0,002 
-0,176 0,031 -0,216 0,047 
-0,046 0,002 -0,186 0,035 
0,094 0,009 -0,086 0,007 
0,264 0,070 0,004 0,000 
0,164 0,027 0,064 0,004 
-0,326 0,106 0,124 0,015 
0,034 0,001 0,234 0,055 
0,354 0,125 -0,246 0,061 
0,204 0,042 Sxx = 
0,6809 
-0,006 0,000 SOMA 
 
 
 
Tabela 8.7 Cálculo de Syy 
	@> − @?
 	@> − @?
A 	@> − @?
 	@> − @?
A 
-2,15 4,622 0,36 0,130 
-3,11 9,672 -1,60 2,560 
-0,73 0,533 -2,62 6,864 
1,58 2,496 -2,31 5,336 
4,57 20,885 -1,77 3,133 
2,29 5,244 1,09 1,188 
-4,57 20,885 1,25 1,563 
-0,39 0,152 2,82 7,952 
7,26 52,708 -4,83 23,329 
1,49 2,220 Syy = 
172,3769 
1,38 1,904 SOMA 
 
Pelos cálculos feitos acima, temos: 
Sxy = 10,1774, 
Sxx= 0,6809, 
Syy= 173,3769. 
Substituindo estes valores na fórmula do coeficiente de 
correlação, ficamos com: 
� = ������� × ��� =
10,1774√0,6809 × 173,3769 = 0,93672 
Pronto! Comprovamos que existe uma considerável correlação 
linear positiva (valor de “r” próximo a +1) entre as variáveis. 
Agora vamos para a segunda parte: encontrar um modelo 
matemático que descreva essa correlação. 
Com a ajuda da ferramenta “adicionar linha de tendência” do 
Excel, podemos traçar uma reta que se aproxime dos pontos. 
Nosso gráfico de dispersão com a reta é apresentado na Figura 
8.8. 
Para determinar a equação desta reta que descreve nossos 
dados experimentais, precisamos determinar os coeficiente 
linear (a, que é onde a reta intercepta o eixo y) e o coeficiente 
angular (b, que nos diz a inclinação dessa reta). 
 
Figura 8.8. Modelo linear de ajuste aos dados do gráfico de 
dispersão. 
 
Vimos que a equação de uma reta é: 
� = 2 + 3
 
(y, ou seja, a pureza do oxigênio varia em função de x - nível 
de hidrocarboneto - por esta relação, cujos coeficientes 
precisamos determinar). 
 
O coeficiente angular da reta pode ser calculado por: 
3 = ������ 
Este valores de Sxy e Sxx já foram obtidos anteriormente, uma 
vez que foram utilizados no cálculo do coeficiente de 
correlação. Substituindo os valores que já temos calculados, 
ficamos com: 
3 = ������ = 10,17740,6809 = 14,9475 ≅ 14,95 
Para encontrarmos o coeficiente linear da reta (a) fazemos: 
� = 2 + 3
 
E substituímos b e o valor médio de x (
̅) e y (��), para 
determinarmos “a”. 
Nota: Não podemos substituir um par de números qualquer de 
x e y do enunciado nesta equação, pois a reta calculada 
representa os dados, mas não passa exatamente por eles, 
como podemos ver no gráfico, OK? 
�� = 2 + 3
̅ 
2 = �� − 3
̅ 
Pelos cálculos efetuados anteriormente, temos: 
̅ = 1,196 �� = 92,16 3 = 14,95 
Substituindo estes na fórmula acima, ficamos com: 
2 = 92,16 − 14,95 ∗ 1,196 = 92,16 − 17,88 = 74,28 
Substituindo os valores de a e b, temos, como modelo linear 
que melhor descreve os dados experimentais: 
�1 = 74,28 + 14,95 ∗ 
 
Encontrado o modelo linear, temos que determinar o 
coeficiente de determinação (r2) para saber quão bem o modelo 
encontrado explica os dados experimentais. 
O primeiro passo para tal é encontrar os valores de �1, a partir 
da equação da reta, para cada dado experimental x. 
Observamos que o �1 é próximo, mas não se iguala aos valores 
de y fornecidos pelo enunciado (porque �1 estima um valor 
médio). Por isso, calculamos o coeficiente de determinação (r2), 
para saber o quanto a reta explica as variáveis dispersas. Para 
auxiliar neste cálculo, construo as tabelas 8.8 e 8.9. 
 
Tabela 8.8. Cálculo de �1 
xi @E = FG, AH + 0G, IJ ∗ => yi 
x1 = 0,99 (74,28 + 14,95*0,99) = 89,0805 y1 = 90,01 
x2 = 1,02 (74,28 + 14,95*1,02) = 89,5290 y2 = 89,05 
x3 = 1,15 (74,28 + 14,95*1,15) = 91,4725 y3 = 91,43 
x4 = 1,29 (74,28 + 14,95*1,29) = 93,5655 y4 = 93,74 
x5 = 1,46 (74,28 + 14,95*1,46) = 96,1070 y5 = 96,73 
x6 = 1,36 (74,28 + 14,95*1,36) = 94,6120 y6 = 94,45 
x7 = 0,87 (74,28 + 14,95*0,87) = 87,2865 y7 = 87,59 
x8 = 1,23 (74,28 + 14,95*1,23) = 92,6685 y8 = 91,77 
x9 = 1,55 (74,28 + 14,95*1,55) = 97,4525 y9 = 99,42 
x10 = 1,40 (74,28 + 14,95*1,40) = 95,2100 y10 = 93,65 
x11 = 1,19 (74,28 + 14,95*1,19) = 92,0705 y11 = 93,54 
x12 = 1,15 (74,28 + 14,95*1,15) = 91,4725 y12 = 92,52 
x13 = 0,98 (74,28 + 14,95*0,98) = 88,9310 y13 = 90,56 
x14 = 1,01 (74,28 + 14,95*1,01) = 89,3795 y14 = 89,54 
x15 = 1,11 (74,28 + 14,95*1,11) = 90,8745 y15 = 89,85 
x16= 1,20 (74,28 + 14,95*1,20) = 92,2200 y16= 90,39 
x17 = 1,26 (74,28 + 14,95*1,26) = 93,1170 y17 = 93,25 
x18 = 1,32 (74,28+ 14,95*1,32) = 94,0140 y18 = 93,41 
x19 = 1,43 (74,28 + 14,95*1,43) = 95,6585 y19 = 94,98 
x20= 0,95 (74,28 + 14,95*0,95) = 88,4825 y20= 87,33 
 
Por fim, substituindo o valor obtido na Tabela 8.9 (apresentada 
a seguir) e o valor de Syy (= ∑ 	�� − ��
����� , calculado 
anteriormente), encontramos o coeficiente de determinação, 
dado por: 
�� = ∑ 	�1� − ��
�����∑ 	�� − ��
����� =
152,1784173,3769 = 0,8773 
Com base neste valor, podemos dizer que o modelo 
encontrado explica 87,73% dos dados experimentais. 
 
8.6 Considerações finais 
Aprendemos, nesta unidade, como identificar a existência de 
correlação entre variáveis, bem como descrever esta relação 
por meio de um modelo matemático. Este modelo é de grande 
utilidade, quando se pretende, em um ambiente industrial, 
prever a influência de um parâmetro no resultado de um 
processo (como visto, como o nível de hidrocarboneto 
influencia na pureza do oxigênio) ou ainda, otimizar este 
processo (determinar o nível de hidrocarboneto que 
proporciona pureza máxima). 
Tabela 8.9. Cálculo de ∑ 	�1� − ��
����� @E> 	@E − @?
 	@E − @?
A @E0= 89,0805 (89,0805 – 92,16) = -3,0795 9,4833 @EA= 89,5290 (89,5290 – 92,16) = -2,6310 6,9222 @EK= 91,4725 (91,4725 – 92,16) = -0,6875 0,4727 @EG= 93,5655 (93,5655 – 92,16) = 1,4055 1,9754 @EJ= 96,1070 (96,1070 – 92,16) = 3,9470 15,5788 @EL= 94,6120 (94,6120 – 92,16) = 2,4520 6,0123 @EF= 87,2865 (87,2865 – 92,16) = -4,8735 23,7510 @EH= 92,6685 (92,6685 – 92,16) = 0,5085 0,2586 @EI= 97,4525 (97,4525 – 92,16) = 5,2925 28,0106 @E0/= 95,2100 (95,2100 – 92,16) = 3,0500 9,3025 @E00= 92,0705 (92,0705 – 92,16) = -0,0895 0,0080 @E0A= 91,4725 (91,4725 – 92,16) = -0,6875 0,4727 @E0K= 88,9310 (88,9310 – 92,16) = -3,2290 10,4264 @E0G= 89,3795 (89,3795 – 92,16) = -2,7805 7,7312 @E0J= 90,8745 (90,8745 – 92,16) = -1,2855 1,6525 @E0L= 92,2200 (92,2200 – 92,16) = 0,0600 0,0036 @E0F= 93,1170 (93,1170 – 92,16) = 0,9570 0,9158 @E0H= 94,0140 (94,0140 – 92,16) = 1,8540 3,4373 @E0I= 95,6585 (95,6585 – 92,16) = 3,4985 12,2395 @EA/= 88,4825 (88,4825 – 92,16) = -3,6775 13,5240 
SOMA M 	@E − @?
AA/>�0 152,1784 
 
8.7 Estudos complementares 
Os livros do Costa Neto (Estatística) e Montgomery e Runger 
(Estatística aplicada e probabilidade para engenheiros) 
aprofundam no assunto visto nesta unidade, bem como trazem 
mais exemplos. Vale a pena “brincar” com os dados em Excel, 
construindo gráficos e efetuando cálculos (com a ajuda das 
planilhas) para fixar o aprendizado.

Outros materiais