Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

Correlação e Regressão 
Linear
Núcleo de Educação a Distância 
www.unigranrio.com.br
Rua Prof. José de Souza Herdy, 1.160 
25 de Agosto – Duque de Caxias - RJ
Reitor
Arody Cordeiro Herdy
Pró-Reitoria de Programas de Pós-Graduação
Nara Pires
Pró-Reitoria de Programas de Graduação
Lívia Maria Figueiredo Lacerda
Produção: Gerência de Desenho Educacional - NEAD Desenvolvimento do material: Jhoab Pessoa de Negreiros, 
Sergio Ricardo Pereira de Mattos e Tereza Luzia de Mello Canalli
1ª Edição
Copyright © 2019, Unigranrio
Nenhuma parte deste material poderá ser reproduzida, transmitida e gravada, por qualquer meio eletrônico, mecânico, por 
fotocópia e outros, sem a prévia autorização, por escrito, da Unigranrio.
Pró-Reitoria Administrativa e Comunitária
Carlos de Oliveira Varella
Núcleo de Educação a Distância (NEAD)
Márcia Loch
Sumário
Correlação e Regressão Linear
Para início de conversa… .................................................................. 04
Objetivos ......................................................................................... 05
1. Diagrama de Dispersão ......................................................... 06
2. Coeficiente de Correlação Linear de Pearson ............................ 08
2.1 Nível de Significância ........................................................... 12
3. Equação de Regressão .......................................................... 14
Referências ....................................................................................... 20
Exercícios ......................................................................................... 21
4 Estatística
Para início de conversa…
Neste capítulo, estudaremos as Medidas de Correlação e Regressão 
Linear em distribuições normais (ou que se comportem como tal).
O coeficiente de correlação linear de Pearson visa verificar a existência 
de correlação linear entre duas variáveis quantitativas e, em caso afirmativo, 
determinar sua intensidade e o seu tipo (correlação positiva ou negativa). Já a 
regressão se propõe a estimar o valor de uma variável (dependente), baseada 
no conhecimento da outra (independente), com o auxílio de uma equação de 
regressão.
Apesar de existirem correlações não lineares (quadrática, exponencial, 
logarítmica e cúbica), trataremos apenas da correlação linear simples. Também 
veremos a aplicabilidade desses conceitos em diversas áreas do conhecimento e 
faremos os cálculos por meio da fórmula e com o auxílio do software Excel.
5Estatística
Objetivos 
 ▪ Fazer correlações entre variáveis e calcular o coeficiente.
 ▪ Identificar a reta de regressão e prever dados.
6 Estatística
1. Diagrama de Dispersão
Em diversas situações do nosso cotidiano ou em pesquisas científicas, 
é comum fazermos a seguinte pergunta: “Será que isto tem alguma coisa a 
ver com aquilo?” Para respondermos tal indagação, estatisticamente falando, 
precisamos verificar se há correlação entre as variáveis e, em caso positivo, 
que tipo de correlação existe (linear, exponencial, quadrática etc.). Segundo 
Farber e Larson (2007), “Uma correlação é uma relação entre duas variáveis. 
Os dados podem ser representados por pares ordenados (x, y) onde x é a 
variável independente (variável explicativa) e y é a variável dependente (variável 
resposta)”.
Ao representarmos, em um sistema cartesiano ortogonal, esses pares 
ordenados, teremos um gráfico denominado diagrama de dispersão. Esse 
gráfico é um bom indicativo da possível existência e do tipo de correlação 
entre as variáveis x e y, mas não pode ser o único parâmetro para classificação. 
Olhando para o diagrama, é possível imaginarmos o traçado de uma curva 
que mais se aproxime dos pontos marcados (dados) – essa curva recebe o 
nome de Curva de Ajustamento. 
Os gráficos a seguir são exemplos de diagramas de dispersão feitos 
no Excel. Observe que, na Figura 1, os dados estão dispostos de maneira 
“alinhada” (a curva de ajustamento é a reta desenhada em vermelho), na 
Figura 2, não há uma correlação entre os pontos, enquanto, na Figura 3, há 
uma correlação, porém, não é linear. 
Figura 1: Dados dispostos de forma alinhada. Fonte: Elaborado pelos autores.
2 4 6 8 10 12
0
5
10
15
20
25
30
7Estatística
Figura 2: Ausência de correlação entre pontos. Fonte: Elaborado pelos autores.
Figura 3: Correlação. Fonte: Elaborado pelos autores.
É importante notar que não podemos julgar se duas variáveis têm 
correlação apenas pelo gráfico. Dependendo da escala utilizada, podemos ter 
impressões diferentes sobre o mesmo conjunto de dados. A Figura 4, por 
exemplo, é o mesmo diagrama da Figura 5, porém, a imagem foi “achatada”. 
Olhando a figura dessa maneira, temos a impressão que a curva de ajustamento 
é uma reta, o que não é verdadeiro (basta observar a Figura 3 para perceber o 
quão longe os pontos estão de formar uma reta). 
 
2 4 6 8 10 12
0
5
10
15
20
25
30
2 31 4 5 6 7 8 9 10 11
0
0,2
0,4
0,6
0,8
1
1,2
8 Estatística
Figura 4: Dados dispostos de forma alinhada. Fonte: Elaborado pelos autores.
2. Coeficiente de Correlação Linear de Pearson
A fim de não dependermos da nossa percepção para verificarmos se 
há correlação linear entre duas variáveis, podemos utilizar o Coeficiente de 
Correlação Linear de Pearson (r) , definido por:
2 2
2 2
( ) ( )
( )
( ) ( )
( ( ) )( ) )
x y
x y
nr
x y
x y
n n
⋅
⋅ −
=
− −
∑ ∑∑
∑ ∑∑ ∑
Em que n representa o número de pares da amostra.
Esse coeficiente mede o grau de relacionamento linear entre os 
valores de duas variáveis quantitativas, “x” e “y”, de um mesmo conjunto 
de dados. Esse coeficiente pode assumir valores apenas no intervalo [-1, +1]. 
Isto é, o valor de r está entre -1 (inclusive) e +1 (inclusive). Dentro desse 
intervalo, quanto mais próximo o valor de r estiver de -1 ou +1, mais forte 
será a intensidade da correlação. Por outro lado, quanto mais o seu valor se 
aproximar de zero, mais fraca será a intensidade da correlação linear entre as 
variáveis em questão. De acordo com o valor de r , podemos classificar uma 
correlação linear da seguinte maneira:
21 4 6 8 10 120
0,2
0,4
0,6
0,8
1
1,2
9Estatística
Valor do coeficiente de correlação linear ( r ) Tipo de correlação linear
0 < r ≤ 1 Correlação linear positiva
r = 0 Não há correlação linear entre as variáveis
-1 ≤ r < 0 Correlação linear negativa
Tabela 1: Tipos de correlação linear simples. Fonte: Elaborado pelos autores.
É importante observar que o resultado do coeficiente de correlação 
linear de Pearson nos indica apenas se há uma correlação linear entre as 
variáveis, nada diz a respeito de outros tipos de correlação. Ou seja, o fato 
de o valor de r ser nulo, não indica que não há correlação entre as variáveis, 
apenas que não tem correlação linear simples. Por exemplo, o coeficiente de 
correlação dos dados apresentados no diagrama de dispersão a seguir é quase 
nulo (r = 0,01), mas a existência de relação entre elas é nítida. 
Figura 5: Exemplo de coeficiente de correlação. Fonte: Elaborado pelos autores.
Vamos ver outros exemplos?
Exemplo 1
0
20
40
60
80
100
120
10 Estatística
A tabela a seguir exibe as medidas das variáveis x e y de uma amostra 
de dados. Verifique se há correlação linear entre elas.
Variáveis Dados
x 2 4 3 5 6 8 10 8 6 7
y 5 7 8 9 11 15 18 14 11 12
Vamos completar a tabela com os valores que precisamos substituir na 
fórmula do coeficiente de Pearson.
x y x y x . y
2 5 4 25 10
4 7 16 49 28
3 8 9 64 24
5 9 25 81 45
6 11 36 121 66
8 15 64 225 120
10 18 100 324 180
8 14 64 196 112
6 11 36 121 66
7 12 49 144 84
Somando todas as colunas, temos: 59x =∑ , 110y =∑ , 2 403x =∑ , 
2 1350y =∑ e 735xy =∑ . Substituindo esses valores na fórmula, temos:
2 2
2 2
( ) ( )
( )
( ) ( )
( ( ) ) ( ) )
x y
x y
nr
x y
x y
n n
⋅
⋅ −
=
− ⋅ −
∑ ∑∑
∑ ∑∑ ∑
2 2
(59) (110)735
10
(59) (110)(403 ) (1350 )
10 10
⋅
−
=
− ⋅ −
735 649
(54,9) (140)
−
=
⋅
11Estatística
86
87,669
=
0,9809=O valor de r é muito próximo de 1 e há correlação linear positiva e 
muito forte, ou seja, os pontos no diagrama de dispersão estão “bem próximos” 
da reta de ajustamento.
Em situações práticas reais, não precisamos fazer todos esses cálculos 
manualmente. Há diversos softwares que nos fornecem esse resultado, apenas 
inserindo os dados. Optamos por fazê-lo passo a passo neste exemplo para 
que você entenda o processo utilizado na determinação do Coeficiente de 
Correlação Linear de Pearson. 
Exemplo 2
Com o auxílio do Excel, verifique se há correlação linear entre as 
variáveis “x” e “y”, exibidas na tabela a seguir: 
Variáveis Dados
x 2 4 3 5 6 8 10 8 6 7
y 5 7 8 9 11 15 18 14 11 12
Observe que os dados são os mesmos do Exemplo 1, só que, agora, 
faremos o cálculo de r, com o auxílio do Excel. Primeiro digitamos, em 
uma planilha do Excel, as duas colunas de dados; em seguida, clicamos em 
qualquer célula em branco e nela digitamos a fórmula associada à correlação. 
No nosso caso, de acordo com a imagem a seguir, a primeira coluna começa 
em A2 e termina em A11, enquanto a segunda coluna começa em B2 e 
termina com B11. Assim, temos que digitar na “célula em branco” escolhida, 
a seguinte fórmula: =CORREL(A2:A11;B2:B11). Ao clicar na tecla “enter”, 
automaticamente o valor do coeficiente linear de Pearson aparecerá na célula.
 
12 Estatística
Observe que o valor dado pelo Excel confere com o obtido por meio 
da fórmula. 
2.1 Nível de Significância
O fato de estarmos trabalhando com uma amostra visando extrapolar 
a conclusão para a população nos impõe a necessidade de verificação da 
significância do coeficiente de correlação amostral obtido, isto é, saber se ele 
realmente é significante para a população. Para verificarmos isso, utilizamos 
os valores críticos – esses valores são tabelados e estão disponíveis em vários 
livros de Estatística e também podem ser obtidos com o auxílio do Excel. A 
seguir, mostraremos uma parte dessa tabela e faremos o teste de significância 
do valor encontrado no Exemplo 1. 
Se |r| for maior do que o valor crítico, então, a correlação será 
significante para aquele valor de α. Em caso contrário, não há evidência que 
haja significância. Um valor de α = 0,05 significa que, em 5% das vezes, você 
estará considerando o coeficiente como significante, quando ele realmente 
não é. 
13Estatística
Valor de n Nível de significância αα = 0,05 Nível de significância αα = 0,01
4 0,950 0,999
5 0,878 0,959
6 0,811 0,917
7 0,754 0,875
8 0,707 0,834
9 0,666 0,798
10 0,632 0,765
11 0,602 0,735
12 0,576 0,708
13 0,553 0,684
14 0,532 0,661
15 0,514 0,641
16 0,497 0,623
17 0,482 0,606
18 0,468 0,590
19 0,456 0,575
20 0,444 0,561
25 0,396 0,505
30 0,361 0,463
35 0,334 0,430
40 0,312 0,403
Tabela 2: Valores críticos para o coeficiente de Correlação de Pearson (α = 0,05 e αα = 0,01).
Fonte: Elaborado pelos autores.
Como o valor do |r| encontrado no Exemplo 1 é igual a 0,9809, e 
esse valor é maior do que o tabelado (0,632) para uma amostra de 10 dados 
14 Estatística
(n = 10), então, a correlação é significante para α = 0,05. Observe que 
também seria significante para α = 0,01, pois 0,9809 também é maior do 
que o valor tabelado (0,765).
Existem alguns outros testes que podem ser feitos para determinar 
se a correlação entre duas variáveis é significante, porém, não fazem parte do 
escopo deste capítulo.
3. Equação de Regressão
Uma vez constatado que há correlação linear entre duas variáveis e 
que é significante, podemos determinar a equação da reta que melhor modela 
os dados. Essa reta é conhecida como Reta de Regressão e sua equação serve 
para estimarmos um valor para a variável dependente (y) a partir de um valor 
dado para a variável independente (x). Essa estimativa só pode ser feita dentro 
de um intervalo contemplado na amostra. Assim, dada uma amostra de dados 
emparelhados, a Equação de Regressão definida como ŷ = a . x + b descreve 
a relação entre as variáveis em questão. 
A seguir, temos as fórmulas para cálculo dos valores de “a” e de “b”, 
que compõem a equação de regressão acima.
2
2
( ) ( )
( )
( )
( ( )
x y
x y
na
x
x
n
⋅
⋅ −
=
−
∑ ∑∑
∑∑
b y a x= − ⋅
Em que xx
n
= ∑ e yy
n
= ∑ são, respectivamente, as médias aritméticas 
entre as variáveis x e y. 
Vamos ver alguns exemplos?
15Estatística
Exemplo 3
A tabela a seguir exibe o valor mensal gasto (x) com propagandas e o 
lucro líquido mensal (y), do respectivo mês, de uma rede de Pousadas. 
a. Calcule o coeficiente de correlação linear entre x e y.
b. Verifique se há correlação linear significante para α = 0,05.
c. Caso exista correlação linear significante, estime o valor do lucro, 
caso sejam investidos 2,7 mil reais em propagandas.
Gasto mensal com propaganda
(em milhares de Reais)
Lucro mensal
(em milhares de Reais)
3,5 84,0
2,8 69,5
2,0 46,0
1,8 42,2
2,2 56,0
3,8 91,5
4,0 94,0
2,4 57,0
3,1 75,9
2,9 72,2
3,0 73,2
3,6 87,0
a. Com o auxílio do Excel, determinamos o coeficiente de correlação 
linear de Pearson (r) e o somatório das variáveis x e y:
16 Estatística
b. Como r = 0,995, existe forte correlação linear positiva entre x e 
y. Já que o valor do |r| é maior do que o valor crítico tabelado, 
que é 0,576 (Tabela 1, n = 12 e α = 0,05), então, a correlação é 
significante. 
c. Agora, determinaremos os valores de a e b para montarmos a 
equação de regressão:
2
2
( ) ( )
( )
( )
( ( )
x y
x y
na
x
x
n
⋅
⋅ −
=
−
∑ ∑∑
∑∑
2
(35,1) (848,52617,73
12
(35,1)108,4
12
a
⋅
−
=
−
135,87
5,74
a =
23,67a =
17Estatística
35,1 2,92
12
x
x
n
= = =∑
848,5 70,70
12
y
y
n
= = =∑
b y a x= − ⋅
70,70 (23,67) (2,92)
1,59
b
b
= − ⋅
=
Daí, a equação de regressão será ŷ = 23,76 . x + 1,59. 
Para sabermos a estimativa para o valor de y quando x for igual a 2,7, 
substituímos “x” por “2,7”, na equação de regressão. Daí, temos: ŷ = 23,76 . (2,7) 
+ 1,59 = 65,74. Ou seja, quando forem investidos R$ 2.700,00 em propaganda, 
estima-se um lucro de R$ 65.740,00. Porém, isso é apenas uma estimativa, uma 
previsão. 
É importante observar que só podemos estimar valores de y para x que 
estejam dentro do intervalo dessa amostra, ou seja, para valores entre o menor 
(1,8) e o maior (4,0) valor de x da tabela. 
Exemplo 4
A tabela a seguir exibe a medida do pH (variável x) e a porcentagem 
de área (variável y) do transepto de uma lagoa ocupada pela planta aquática 
da espécie Cabomba furcata, em diferentes análises.
a. Calcule o coeficiente de correlação linear entre x e y.
b. Verifique se há correlação linear significante para α = 0,01.
70,70 (23,67) (2,92)
1,59
b
b
= − ⋅
=
18 Estatística
pH da água (x) Área ocupada do transepto, em % (y)
6,8 80
6,9 90
7,5 100
7,1 100
6,7 100
6,8 100
6,9 100
7,1 100
7,8 100
6,5 50
6,4 80
7,1 100
6,2 25
6,4 20
6,1 10
5,2 20
6,8 100
6,3 20
8,3 100
8,1 100
Tabela 3: Medida do pH da água e porcentagem de área ocupada pela Cabomba furcata, Silva Jardim, Rio de Janeiro, 
2019. Fonte: Adaptado de Canalli (2019).
19Estatística
Solução:
a. Os dados foram digitados no Excel e, após a digitação da fórmula 
de correlação, nos foi dado o valor coeficiente de correlação linear 
de Pearson, que é igual a 0,7409.
b. Como o valor do coeficiente de correlação é 0,7409, e esse valor é 
maior do que o encontrado na Tabela 2, para n = 20 e α = 0,01, que 
é 0,561, então, a correlação é significante.
O coeficiente de correlação de Pearson serve para verificarmos se há 
uma correlação linear entre duas variáveis (x e y), seu tipo e intensidade. 
Caso a correlação exista e seja significante, podemos determinar a equação da 
reta de regressão. Essa equação nos permite estimar o valor de y, dado um x 
pertencente ao intervalo em estudo.
20 Estatística
Referências
CANALLI, Y. M. Dados Abióticos da Lagoa de Juturnaíba. Silva Jardim, 
2019.
FARBER, B.; LARSON, R. Estatística aplicada. São Paulo: Prentice Hall, 
2007.
21Estatística
Exercícios
1. Um pesquisador deseja descobrirse há alguma correlação entre a 
variável x e y. Para isso, ele determinou o coeficiente de correlação 
linear entre duas variáveis. Se o valor encontrado foi r = −0,985, 
podemos garantir que:
a. Há uma correlação linear positiva e muito fraca entre as variáveis.
b. Há uma correlação linear negativa e muito fraca entre as variáveis.
c. Há uma correlação linear negativa e muito forte entre as variáveis.
d. Há uma correlação linear positiva e muito forte entre as variáveis.
e. Há uma correlação, mas não podemos garantir que seja linear.
2. A tabela a seguir exibe a idade (x) dos entrevistados e número de 
livros (y) lidos por eles nos últimos 12 meses. O valor do coeficiente 
de correlação linear de Pearson entre x e y é igual a 0,0374. De 
acordo com esses dados, é possível fazer uma estimativa de quantos 
livros uma pessoa de 19 anos teria lido no período citado?
22 Estatística
3. Dentre os valores a seguir, qual não pode representar o coeficiente 
de correlação linear de Pearson entre as variáveis x e y?
a. r = −0,995
b. r = 0,625
c. r = 0
d. r = 1,1
e. r = 0,312
Respostas
1. Letra C.
2. Como o valor de r é muito próximo de zero, não há correlação 
linear significante entre a idade do leitor e o número de livros que 
ele lê. Observe que, para n = 15, com nível de significância igual 
0,05, o valor do |r| deveria ser maior do que 0,514. Portanto, não 
há como estimar o valor de y apenas com esses dados.
3. Letra D, pois o valor de r tem que ser um número maior ou igual 
a −1 e menor ou igual a +1. Isto é, -1 ≤ r ≤ + 1 .
	Título da Unidade
	Objetivos
	Introdução
	_gjdgxs
	_dusx8w7xvgxr
	_j4xpihe7y0w4
	Conceitos Básicos
	Para início de conversa...
	Objetivo
	1.	População
	2.	Amostra
	2.1	Tamanho de uma Amostra
	2.2	Amostragem
	2.3	Técnicas de Amostragem
	3.	Variáveis
	Referências
	Representação Gráfica 
	e Tabular
	Para início de conversa…
	Objetivo 
	1. 	Tipos de Gráficos
	1.1 	Gráficos em Coluna
	1.2 	Gráfico de Linha
	1.3 	Gráfico em Setor Circular
	1.4 	Histograma
	1.5 	Pictograma
	2. 	Tipos de Tabelas
	2.1 	Confecção de uma Tabela Simples
	2.1.1 	Título da Tabela 
	2.1.2 	Cabeçalho
	2.1.3 	Coluna Indicadora 
	2.1.4 	Corpo da Tabela
	2.2 	Séries Estatísticas
	2.2.1 	Histórica, Cronológica ou Temporal
	2.2.2 	Geográfica, Espacial ou Territorial
	2.2.3 	Específica ou Categórica
	3. 	Distribuição de Frequência 
	3.1 	Tabela Primitiva
	3.2 	Rol
	3.3 	Construção de Distribuição de Frequências
	Referências
	_GoBack
	Medidas de Posição
	Para início de conversa…
	Objetivo
	1. 	Média
	1.1 	Média Aritmética Simples de uma Amostra de Dados 
	1.1.2 	Dados Agrupados em Classes
	1.2 	Média Aritmética Ponderada
	1.3 	Média Geométrica (G)
	1.4 	Média Harmônica Simples (H)
	2. 	Moda
	2.1 	Dados Não Agrupados em Classes
	2.2 	Dados Agrupados em Classes
	3. 	Mediana ( Md )
	3.1 	Dados Não Agrupados em Classes 
	3.2 	Dados Agrupados em Classes
	3.3 	Separatriz
	3.3.1 Percentil
	3.3.1.1 Dados Agrupados em Classes 
	3.3.2 	Decil
	3.3.2.1 Dados Agrupados em Classes
	3.3.3 	Quartil
	2.3.3.1 Dados Agrupados em Classes
	Referências
	Exercícios Resolvidos
	MTBlankEqn
	_GoBack
	Medidas de Dispersão
	Para início de conversa…
	Objetivos
	1.	Variância e Desvio Padrão
	1.1	Variância e Desvio Padrão de Dados Não Agrupados em Classes
	1.1.1 Variância e Desvio Padrão de uma População
	1.1.2	Variância e Desvio Padrão de uma Amostra de Dados
	1.2	Variância e Desvio Padrão de Dados Agrupados em Classes 
	2.	Coeficiente de Variação (CV)
	3. Desvio Médio (DM)
	Referências
	Exercícios
	_GoBack
	Medidas de Assimetria 
	e Curtose
	Para início de conversa…
	Objetivos
	1. 	Assimetria
	2. 	Curtose
	Referências
	Exercícios
	_GoBack
	_Hlk16375251
	Correlação e Regressão Linear
	Para início de conversa…
	Objetivos 
	1.	Diagrama de Dispersão
	2.	Coeficiente de Correlação Linear de Pearson
	2.1	Nível de Significância
	3.	Equação de Regressão
	Referências
	Exercícios

Mais conteúdos dessa disciplina