Buscar

Ficha de Correlação_ Regressão

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UNIVERSIDADE SÃO TOMAS DE MOÇAMBIQUE 
FACULDADE DE CIÊNCIAS ECONÓMICAS & EMPRESARIAIS 
CURSO: CONTALIDADE & AUDITORIA 
DISCIPLINA: ESTATÍSTICA I 
 
Tema 2: Teoria de Correlação e Regressão Linear Simples 
 
2.1 Introdução 
Em nossos estudos até este momento sempre nos concentramos em descrever a forma da 
distribuição dos valores de uma variável, mas ao trabalhamos com duas variáveis podemos avaliar 
e medir as relações entre as variáveis estudadas, o que é chamado de correlação. 
Se houver uma correlação entre as variáveis, poderemos ter uma função matemática que caracteriza 
esta relação, com a regressão seremos capazes de determinar os parâmetros desta função. 
2.2 Relação Funcional 
Neste tipo de relação a ligação entre as variáveis é exata, veja o exemplo 1: 
O perímetro de um quadrado é exactamente a soma da dimensão de seus quatro lados, logo: P 
= 4L 
 
Onde: P – é o perímetro e L – é a medida do lado do quadrado. 
Vemos que esta relação é exacta, portanto, é uma relação funcional. 
 
2.3 Relação Estatística 
Aqui existe uma relação entre as variáveis que não é exata, mas sim estatística, veja o exemplo 2: 
A relação entre o peso e a altura de um grupo de pessoas. Vemos claramente que a ligação entre 
peso e altura não é precisa quanto à ligação entre os lados do quadrado e seu perímetro, porém, em 
média quanto maior a altura, maior o peso. 
 
Outros exemplos: 
a) A relação entre a idade e a produtividade de um operário; 
b) A relação entre o peso e a idade de um indivíduo; 
c) A relação entre o nº de alunos por turma e o seu rendimento académico; 
d) A relação entre as vendas e o lucro. 
 
 
2.4 Objectivo principal do estudo da teoria de correlação e regressão 
 
O objectivo principal do estudo da teoria de correlação e regressão é: 
1. Encontrar um critério (modelo ou fórmula) que permite com exactidão estabelecer o tipo de 
relacionamento entre as variáveis; 
2. Determinar a presença e o sentido da relação entre fenómenos; 
3. Avaliar quantitativamente a influência de outros factores no relacionamento entre 
fenómenos; 
4. Avaliar a velocidade de mudança dos resultados recebidos quando se variam os factores 
independentes. 
 
2.5 Correlação 
 
Quando duas variáveis estão ligadas por uma relação estatística, dizemos que existe correlação 
entre elas. A correlação, então, é a verificação da existência e do grau de relação entre duas (ou 
mais) variáveis. 
 
 
2.6 Representação de dados bivariados 
 
A informação da população que se pretende estudar aparece sob forma de pares de valores (x,y), 
isto é, cada unidade estatística contribui com um conjunto de dois valores. Surge então o problema 
de estudar a existência ou não da relação entre essas variáveis observadas. 
Como ponto de partida do estudo da existência ou não da relação estatística (correlação) entre duas 
variáveis ou características de uma amostra, podemos representá-las graficamente. 
 
 
2.7 Diagrama de dispersão ou nuvem de pontos 
 
É uma representação gráfica para os dados bivariados, em que num sistema de eixos cartesianos 
marcamos os valores xi e yi nos respectivos eixos e obtemos a representação dos pontos 
correspondentes aos pares ordenados (xi,yi). 
Através dos diagramas de dispersão podemos ter uma ideia de tipo de relação entre variáveis 
estudadas. 
 
Exemplo 3: Uma pesquisa pretende verificar se há correlação entre as vendas (xi) com os lucros 
(yi). 
 
Observações 1 2 3 4 5 6 7 8 
Vendas (xi) 201 225 305 380 560 600 685 735 
Lucros (yi) 17 20 21 23 25 24 27 27 
 
 
 
 
Este diagrama, de forma intuitiva, permite-nos concluir que talvez exista uma correlação (linear) 
entre as duas variáveis em estudo. 
Logo, através do diagrama de dispersão ou nuvem de pontos podemos, por observação, concluir 
acerca da existência ou não da correlação linear entre duas variáveis. 
 
 
2.8 Correlação linear 
0
5
10
15
20
25
30
0 100 200 300 400 500 600 700 800
Lu
cr
o
s 
(Y
i)
Vendas (Xi)
Diagrama de dispersão
 
Ao observarmos os diagramas abaixo, vemos que os pontos formam uma elipse, quanto mais fina esta 
elipse, mais ela se aproximará de uma recta, assim chamada de correlação linear. A correlação linear 
pode-se classificar em: vide as figuras (a); (b); (c) e (d). 
 
 
 
 
 
 
 
 
 
 
 
(a) (b) 
 
 
 
 
 
 
 
 
 
 
 (c) (d) 
O diagrama de dispersão é no entanto insuficiente para qualificar a relação entre x e y, assim como 
quando há observações que se repetem, o diagrama não realça a sua frequência. 
 
2.9 Correlação linear simples ( xyr ) 
2.9.1 Cálculo de Coeficiente de correlação linear simples ( xyr ) 
O instrumento empregue para a medida da correlação linear é o coeficiente de correlação. Esse 
coeficiente deve indicar o grau de intensidade da correlação entre duas variáveis e, ainda, o 
sentido dessa correlação (positivo ou negativo). 
O coeficiente de correlação determinado por Pearson considera: 
 2
11
2
2
11
2
1 1 1
.
...






−











−





−
=

  
====
= = =
n
i
i
n
i
i
n
i
i
n
i
i
n
i
n
i
n
i
iiii
xy
yynxxn
yxyxn
r
 
Onde: n é o número de pares de valores (xi,yi) observados. 
 
Nesta definição está implícita a definição de uma medida que dá uma ideia da variabilidade 
conjunta entre as variáveis e que se denomina covariância amostral: 
( )( )yyxx
n
i
n
i
ixy −−
−
= 
=11
1
 ou 
 
 
Correlação positiva 
(forte) 
 
 
 
 Y 
 
 
 
 
 X 
 
 
 .. 
 .. 
 . 
 . 
 . 
 .. 
 . 
 . 
 .. 
 . 
. 
 
Correlação negativa 
(forte) 
 
 
 
 Y 
 
 
 
 
 X 
 
 
 .. 
 .. 
 . 
 . 
 . 
 .. 
 . 
 . 
 .. 
 . 
 . 
 
Correlação positiva 
(fraca) 
 
 
 
 Y 
 
 
 
 
 X 
 
 
 . 
 . . 
 . 
 . 
 . 
 . . 
 . 
 . 
 . . 
 . 
. 
 
Correlação negativa 
(fraca) 
 
 
 
 Y 
 
 
 
 
 X 
 
 
. 
. . 
 . 
 . 
 . 
 . . 
 . 
 . 
 . . 
 . 
 . 
 
Deste modo podemos rescrever o coeficiente de correlação como: 
 
yx
xy
yx
xy
xyr




.22
=

=
 
 
Onde: xy é a covariância de x e y (dispersão conjunta); 
x é o desvio padrão de x (dispersão de x) = 
2
1
2
)(xn
n
i
ix −
=
 
y é o desvio padrão de y (dispersão de y) = 
2
1
2
)(yn
n
i
ix −
=
 
 
 
 
 
 
 
 2.9.2 Propriedades de Correlação linear simples ( xyr ) 
 O coeficiente de correlação linear é um número do intervalo  1;1 +− ou 11 +− xyr em 
que: 
✓ →−= 1xyr Correlação negativa muito forte ou perfeita; 
✓ →−− 5,01 xyr Correlação negativa forte; 
✓ →− 05,0 xyr Correlação negativa fraca; 
✓ →= 0xyr Correlação nula (não existe relação entre as variáveis); 
✓ → 5,00 xyr Correlação positiva fraca; 
✓ →+ 15,0 xyr Correlação positiva forte; 
✓ →+= 1xyr Correlação positiva muito forte ou perfeita. 
 
 
 
 
 
 
 
 
 
 
 
 +1 Correlação linear positiva (perfeita) 
 Correlação linear positiva (forte) 
 0,5 
 
 
 
 
 
 0 Correlação linear nula 
 
 
 
 
 -0,5 
 Correlação linear negativa (forte) 
 
 -1 Correlação linear negativa (perfeita) 
 
 
 
Tomandoem conta o exemplo 3 temos: 
 
953,0
41211
39272
)184()4318(*8*)3691()2011501(*8
)184(*)3691()89802(*8
.
...
22
2
11
2
2
11
2
1 1 1
==
=
−−
−
=
=






−











−





−
=

  
====
= = =
xy
xy
n
i
i
n
i
i
n
i
i
n
i
i
n
i
n
i
n
i
iiii
xy
r
r
yynxxn
yxyxn
r
 
 
Interpretação: O grau de associação ou a relação entre as variáveis x e y é de 0,953, isto significa que existe um 
relacionamento positivo forte ou uma correlação positiva forte entre as variáveis x e y, ou seja, entre as vendas e o 
lucro. 
 
2.10 Coeficiente de determinação ou de explicação ( r xy
2
) 
Denomina-se de coeficiente de determinação à seguinte razão: 
 
ou 
 
( )222
2
2
11
2
2
2
11
2
2
1 1 12
.
...
xyxy
yx
xy
xy
n
i
i
n
i
i
n
i
i
n
i
i
n
i
n
i
n
i
iiii
xy
R
ss
s
yynxxn
yxyxn
R
RR ==
=
























−





























−











−
=

  
====
= = =
 
 
O coeficiente de determinação é uma medida descritiva da proporção da variação de Y que pode ser explicada 
por X, segundo o modelo especificado. O intervalo de valores possíveis de é sempre positivos, porque 
mesmo uma correlação negativa torna-se positiva quando elevada ao quadrado. 
O complemento chamado coeficiente de não-determinação, ou seja, a proporção da variância em Y que 
não é explicada po X é : 
 
Obs.: O valor de R² varia de 0 a 1. 
 
Do exemplo 3, temos: 
 
 
 ( )  ( )
908,0
)184()4318(*8*)3691()2011501(*8
)184(*)3691()89802(*8
2
2
2
2
2
2 =
−−
−
=xyr
Interpretação: O valor de r² varia de 0 a 1, logo o fato de r² = 0.908 (no exemplo), indica que 
aproximadamente 91% da variação do lucro estão relacionados com a variação das vendas, em 
outras palavras 9% da variação dos lucros não são explicados pelas vendas. 
 
 
2.11 Regressão 
 
A regressão tem por objectivo descrever através de um modelo matemática a relação entre duas ou 
mais variáveis escrevendo a equação desse relacionamento. 
 
2.10.1 Modelo (Recta) de regressão (ou recta de mínimos quadrados ou recta de ajuste) 
linear simples 
 
Este tipo de regressão trata apenas de relacionamento entre duas variáveis, procurando estimar os 
parâmetros de equação de ajustamento e outras medidas ligadas a estas variáveis. 
 
O modelo geral de equação de regressão linear entre duas variáveis tem a seguinte forma: 
 
 ouxfy )(= ii xyouxbay  +=+= ou 
 
Onde: =b é o coeficiente angular da recta de regressão, ele caracteriza a variação média do 
índice do resultado sob a influência da variação do índice de causa em uma unidade de medida ou 
indica quantas unidades de y mudam para a mudança de uma unidade de x; 
 
=a é o ponto de intersecção com o eixo oy, ele mede ou caracteriza o nível médio do índice 
do resultado y quando a variável de causa x é igual a zero, isto é, se x = 0 implica que y = a. 
 
Um dos métodos usados para ajustar uma recta a um conjunto de dados, é o método dos mínimos 
quadrados (MMQ) que consiste em determinar a recta que minimiza a soma dos quadrados dos 
desvios (erros ou resíduos) entre os verdadeiros valores das ordenadas y e os obtidos a partir da 
recta, que se pretende ajustar: 
 
 
 yi ŷi = a +bxi +ei 
 ei 
 
ŷi 
 
 
 
 
 xi 
 
 
O modelo matemático que expressa a relação linear é a recta de regressão ŷi = axi +b, obtida de tal 
modo que os desvios ou resíduos (ei = yi - ŷi) quadráticos das observações em relação à recta sejam 
mínimos (MMQ). 
( )
2
1
2
1
minˆmin 
==
+−=−
n
i
ii
n
i
ii xayyy 
 
2.10.2 Cálculo dos parâmetros (a e b) 
 
 
 XYa b−= XYa b−= 
 
2
11
2
11
n
1i
n
b






−
−
=


==
===
n
i
i
n
i
i
n
i
i
n
i
iii
XXn
XYYX
 
x
xyr

Yb =
 
 
 Ou 
 
 







+=
+=
 
 
= ==
= =
n
i
n
i
i
n
i
iii
n
i
n
i
ii
xaxbyx
xanby
1 1
2
1
1 1
 
 
 
 
 
 
2.10.3 Análise Elementar de Resíduos 
 
Uma forma de verificar se o modelo ajustado é bom, é através dos resíduos, isto é, das diferenças 
entre os valores observados (y) e os ajustados (ŷ) pois, se estes não forem muito grandes e nem 
tiverem um padrão em definido, o modelo tem boa qualidade. 
 
2.10.4 Diagrama de Dispersão dos resíduos 
 
Uma forma simples de visualizar os resíduos (ei) é através de um diagrama de dispersão 
representando os pontos (xi; ei). Num modelo bem ajustado, os pontos apresentam-se de forma 
aleatória sem nenhum padrão particular definido. 
 
Exemplo 4: Uma pesquisa pretende verificar se há correlação entre as vendas (xi) com os lucros 
(yi). 
 
Observações 1 2 3 4 5 6 7 8 
Vendas (xi) 201 225 305 380 560 600 685 735 
Lucros (yi) 17 20 21 23 25 24 27 27 
Analisemos estas duas variáveis através de um diagrama de dispersão e do coeficiente de 
correlação linear: 
 
 
 
 
Obs. Vendas (xi) Lucros (yi) xi
2
 y
i
2
 ii yx 
1 201 17 40401 289 3417 
2 225 20 50625 400 4500 
3 305 21 93025 441 6405 
4 380 23 144400 529 8740 
5 560 25 313600 625 14000 
6 600 24 360000 576 14400 
7 685 27 469225 729 18495 
8 735 27 540225 729 19845 
∑ 3691 184 2011501 4318 89802 
 
 
 
2
XYb
X

=
 ➔ 
2
11
2
11
n
1i
n
b






−
−
=


==
===
n
i
i
n
i
i
n
i
i
n
i
iii
XXn
XYYX
 
( )
0159,0
3691)2011501(8
)184((3691) - (89802) 8
b
2
=
−

= 
 
66,15
8
3691
0159,0
8
184
xb =−=−= ya 
 
Então, a recta de regressão é: 66,150159,0ˆ += xy 
 
Graficamente, podemos ver esta recta ajustada à nuvem de pontos: 
 
 
O correspondente coeficiente de correlação linear 953,0=xyr . Conclui-se desta forma que tanto 
através do diagrama de dispersão como do coeficiente de correlação é favorável o ajustamento 
de uma recta de regressão linear. Vamos então proceder ao seu cálculo: 
 
Partindo da reta de regressão podemos afirmar que para uma venda de 400 mil podemos obter um 
lucro de 000.2266,15)000.400)(0159,0(ˆ =+=y . 
 
 
Exercícios 
 
1. Numa amostra de 5 operários de uma dada empresa, foram observadas duas variáveis; sendo X os 
anos de experiência num dado cargo e Y o tempo, em minutos, gasto na execução de uma certa tarefa 
relacionada com esse cargo. 
X 1 2 4 4 5 
Y 7 8 3 2 2 
 
Usando um critério estatístico, você diria que a variável X pode ser usada para explicar a variação de 
Y? Justifique. 
 
2. Muitas vezes, a determinação da capacidade de produção instalada para certo tipo de indústria em 
certas regiões é um processo difícil e custoso. Como alternativa, pode-se estimar a capacidade de 
produção através da escolha de uma outra variável de medida mais fácil e que esteja linearmente 
relacionada com ela. 
Suponha que foram observados os valores para as variáveis: capacidade de produção instalada, 
potência instalada e área construída. Com base num critério estatístico, qual das variáveis você 
escolheria para estimar a capacidade de produção instalada? 
 
X capacidade de produção instalada (ton) 4 5 4 5 8 9 10 11 12 12 
Y potência instalada (1.000 kW) 1 1 2 3 3 5 5 6 6 6 
Z área construída (100 m) 7 7 10 10 11 9 12 10 11 14 
Σx = 80; Σy = 38; Σz = 100; Σx
2 
= 736; Σy
2 
= 182; Σz
2 
= 1048; Σx.y = 361; Σx.z = 848; Σy.z = 411. 
3. Uma pesquisapretende verificar se há correlação significativa entre o peso total do lixo 
descartado, por dia, numa empresa com o peso do papel contido nesse lixo. 
 
Hotel H1 H2 H3 H4 H5 H6 H7 H8 H9 H10 
Peso total 10,47 19,85 21,25 24,36 27,38 58,09 33,61 35,75 38,33 49,14 
Peso do papel 2,43 5,12 6,88 6,22 8,84 8,76 7,54 8,47 9,55 11,43 
 
 
4. Para os dados abaixo: 
a) Construa um diagrama de dispersão; 
b) Determine a recta de regressão; 
c) Calcule o Coeficiente de Explicação (determinação) ; 
f) Calcule o Coeficiente de Correlação de Pearson; 
e) Interprete os resultados obtidos. 
 
4.1 X = 1º = Exame e Y = 2º Exame 
Aluno 1 2 3 4 5 6 7 8 9 10 
Exame 82 84 86 83 88 87 85 83 86 85 
Exame 92 91 90 92 87 86 89 90 92 90 
 
4.2 X = horas de estudo e Y = Nota da Prova 
Aluno 1 2 3 4 5 6 7 8 
Horas 2 4 5 5 6 8 9 10 
Nota 1 3 6 6 8 7 8 10 
 
4.3 X = Seguro (x 1000 ) e Y = Renda (x 100) 
Indivíduo 1 2 3 4 5 6 7 8 
Seguro 20 16 34 23 27 32 18 22 
Renda 64 61 84 70 88 92 72 77 
 
4.5 X = Peso do Pai (kg) e Y = Peso do Filho (kg) 
Indivíduo 1 2 3 4 5 6 7 8 9 10 
Peso Pai 65 63 67 64 68 62 70 66 68 67 
Peso Filho 68 66 68 65 69 66 68 65 71 67 
 
 
5. O quadro seguinte é resultado de observações feitas num cruzamento rodoviário durante um 
período de 5 minutos, para o estudo da fluidez do tráfego. 
 
Densidade (Veíc./km) 43 55 40 52 39 33 50 33 44 21 
Velocidade (Km/h) 27 23 31 24 35 41 27 40 32 51 
 
a) Represente as observações num diagrama de dispersão; 
b) A representação anterior sugere a existência de alguma relação linear entre as variáveis em 
estudo? 
c) Se na alínea anterior a sua resposta foi afirmativa, obtenha a expressão da recta dos 
mínimos quadrados. 
d) Obtenha uma estimativa entre a velocidade e a densidade dos automóveis num cruzamento 
se a densidade for de 57 Veíc/km. 
 
6. Considere as duas amostras de dados referentes a duas variáveis, x e y. 
Amostra 1: 
X 10 8 13 9 11 14 6 4 12 7 5 
Y 8.04 6.95 7.58 8.81 8.33 9.96 7.24 4.26 10.84 4.82 5.68 
 
Amostra 2: 
X 10 8 13 9 11 14 6 4 12 7 5 
Y 9.14 8.14 8.75 8.77 9.26 8.10 6.13 3.10 9.13 7.26 7.74 
 
 
 
 
Y 
 
 
 
 
 
 
 
 
 
 
Y sobre X 
X 
X sobre Y 
a) Represente graficamente, através de um diagrama de dispersão, ambas as amostras. 
b) Qual das duas amostras lhe parece mais adequada para descrever a variável y 
através de uma recta de regressão linear simples? Justifique. 
c) Para a amostra escolhida da alínea anterior, determina a respectiva equação de 
regressão linear. 
 
7. Considera os dados bivariados, (- 0.2, 0.96); (0.2, 1.14); (0.4, 1.56); (0.6, 1.74); (0.7, 1.96); (0.8, 
2.04). 
a) Represente os dados através de um diagrama de dispersão; 
b) Ajuste a recta de regressão aos dados; 
c) Calcule o coeficiente de correlação e comente a qualidade do ajustamento anterior. 
 
8. Relativamente a um conjunto de 10 dados bidimensionais, (x;y), sabe-se que: 
 
 ===== 4324;198;3496;2874;160 22 iiiiii yyyxxx 
d) Calcula a média de x e de y. 
e) Calcule o coeficiente de correlação entre x e y. Comente o resultado. 
f) Caso se justifique, determine a equação da recta de regressão de x sobre y. 
g) Apresente um valor admissível para Y quando x = 16. 
 
9. Considere x e y duas variáveis discretas. Para um conjunto de 6 observações foram determinados 
os seguintes valores: 
;1855853;1934523;2981 2 ===  iiii yxxx 
 1780659;2875
2 ==  ii yy 
 
Sabendo que um dos valores observados para a variável x foi 333 diga, justificando, se é possível 
obter uma estimativa do correspondente valor de y. 
 
 
10. Faça um comentário em relação ao coeficiente de corelação baseando-se nos gráficos a baixo. 
 
 
 
 
 
 
 
 
 
 
 (a) 
 
(b) 
 
(c)
 
 
 
 
 
 (d) 
 
 
 
 
 
(e)
23-11-2021 
 
 
12 
 
	2.6 Representação de dados bivariados

Outros materiais