Buscar

aula9 Correlacao e Regressao Linear

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Disciplina: Análise Estatística
Aula 9: Correlação e Regressão Linear
Apresentação
Nesta aula, veremos como correlacionar amostras de dados obtidas em pesquisas, que, apesar
de terem sido retiradas da uma mesma população, possuem parâmetros diferentes.
Aprenderemos como estimar pontos não existentes em uma série de dados, mas necessários
para análise ou interpretação dos resultados, utilizando a equação de regressão linear.
Objetivos
Aprender a definição de Correlação, bem como das suas espécies (correlação positiva,
negativa e curvilínea) e como calcular o coeficiente de correlação linear;
Compreender correlação linear e o coeficiente de correlação linear;
Aprender o modelo de regressão linear simples, as propriedades da equação de regressão e
como estimar seus parâmetros;
Compreender o ajustamento de reta, ressaltando o conceito de interpolação e extrapolação.
Correlação e Regressão
Nas aulas anteriores procuramos descrever a distribuição de valores de uma única
variável. A partir desse ponto podemos aprender a calcular as medidas de tendência
central, variabilidade e demais parâmetros. Quando, porém, consideramos observações
de duas ou mais variáveis surge um novo problema, do tipo, como verificar as relações
que podem existir entre as variáveis estudadas. Para esse tipo de análise, as medidas
estudadas não são eficientes.
Assim, quando consideramos variáveis como peso e
estatura de um grupo de pessoas, uso do cigarro e
incidência de problemas pulmonares, procura-se verificar
se existe alguma relação entre as variáveis de cada um
dos pares e qual é essa relação.
Uma vez caracterizada a relação quantitativa, procuramos descrevê-la através de uma
função matemática. A regressão é o instrumento adequado para determinação dos
parâmetros dessa função e medir essa relação. Se todos os valores das variáveis
satisfazem exatamente uma equação, diz-se que elas estão perfeitamente
correlacionadas ou que há correlação perfeita entre elas.

Dica
Quando estão em jogo somente duas variáveis, fala-se em correlação e regressão
simples. Quando se trata de mais de duas variáveis, fala-se em correlação e
regressão múltipla.
Correlação
É de conhecimento matemático que a área e o comprimento do lado do quadrado estão
relacionados. Essa é uma relação perfeitamente definida e pode ser expressa por meio
de uma sentença matemática, algumas vezes chamada de relação funcional:
2
A = ℓ
Onde A é a área e ℓ é o lado do quadrado.
Vejamos, agora, a relação que existe entre peso e altura das pessoas de um grupo. Fica
claro de essa relação não é a do mesmo tipo e nem tão precisa quanto a anterior.
Uma vez que pessoas de alturas diferentes tenham pesos iguais e, da mesma forma,
pessoas com alturas iguais possuam pesos diferentes. Entretanto, quanto maior a altura,
maior o peso. Neste caso dizemos que peso-altura possui uma relação estatística.
Diagrama de Dispersão
Um exemplo interessante é separar as notas das provas de alunos de uma mesma turma
da faculdade A. vejamos duas disciplinas da área de exatas, por exemplo, matemática e
estatística. Separando uma amostra de notas de 10 alunos escolhidos aleatoriamente,
teremos:
ALUNOS
NOTAS
MATEMÁTICA ESTATÍSTICA
(x ) (y )
01 5,0 6,0
02 8,0 9,0
03 7,0 8,0
04 10,0 10,0
05 6,0 5,0
06 7,0 7,0
07 9,0 8,0
08 3,0 4,0
09 8,0 6,0
10 2,0 2,0
Para esboçar um diagrama de dispersão, primeiro traça-se o sistema de eixos cartesianos
ortogonais. Depois se representa uma das variáveis no eixo “x” (horizontal) e a outra no
eixo “y”(vertical). Colocam-se, então os valores das variáveis sobre os respectivos eixos
e marca-se um ponto para cada par de valores.
2
i i
Esse diagrama nos fornece uma ideia grosseira, porém
útil da correlação existente entre as variáveis.
Correção Linear
De um modo geral, os pontos de uma análise estatística colocados no gráfico cartesiano,
possuem a forma aproximada de uma elipse em diagonal. Logo, quanto mais fina for
essa elipse, mais ela se aproximará de uma reta. Essa reta pode ser chamada de
“imagem” da correlação.
A correlação linear é a aproximação dessa elipse em uma reta que mais se aproxime da
maioria dos pontos dados.
Neste exemplo a “imagem” é uma reta crescente, então é denominada correlação linear
positiva.
Correlação Linear Positiva
Os pontos do gráfico têm como “imagem” uma reta crescente.
Correlação Linear Negativa
Os pontos do gráfico têm como “imagem” uma reta decrescente.
Correção Não – Linear
Os pontos do gráfico têm como “imagem” uma curva.
Não há Correlação
Quando os pontos, por sua elevada dispersão, não segue nenhum dos casos anteriores,
dizemos que não há correlação.
Coeficiente de Correlação Linear
Dizemos que duas ou mais variáveis expressam a relação de causa e efeito ou se elas
variam concomitantemente, se elas são variáveis consideradas correlacionadas. Nesta
situação é dita que essas variáveis possuem correlação linear, no caso de sua “imagem”
ser uma reta. E o instrumento de medida desta correlação linear é o coeficiente de
correlação. Através do valor deste coeficiente sabemos o grau de intensidade da
correlação entre as duas variáveis, bem como, o sentido dessa correlação (negativo ou
positivo).
Utilizaremos o coeficiente de correlação de Pearson, que é dado por:
Onde n é o número de observações, ou seja, o tamanho da amostra. O resultado obtido
para r deve estar no intervalo fechado [– 1, 1].
Podemos concluir que:
Se a correlação entre duas variáveis é perfeita e positiva, então: r = +1
Se a correlação entre duas variáveis é perfeita e positiva, então: r = –1
Se não há correlação entre as variáveis, então: r = 0
r  =  
n ∑      − (∑   ) (∑   )x
i
y
i
x
i
y
i
[n ∑    − (∑   ] [n ∑    − (∑   ]x
2
i
x
i
)
2
y
2
i
y
i
)
2
√

Saiba mais
Para que possamos descrever a relação por meio do coeficiente de correlação de
Pearson é fundamental que ela se aproxime da função linear. A maneira prática de
verificar essa linearidade é a inspeção do diagrama de dispersão. Se a elipse
apresenta reentrâncias ou saliências mais acentuadas, provavelmente trata-se da
correlação curvilínea. O r mede a intensidade, ou grau, de um relacionamento linear.
Não serve para medir a intensidade de um relacionamento não-linear.
Em função do coeficiente de correlação é possível concluir a relação entre as variáveis:
0,6 ≤ |r| ≤ 1
É considerada boa a correlação entre as variáveis, é possível tirar conclusões
significativas sobre o comportamento simultâneo das variáveis.
0,3 ≤ |r| < 0,6
A correlação entre as variáveis é relativamente fraca.
0 < |r| < 0,3
A correlação entre as variáveis é muito fraca e não é possível concluir praticamente nada
sobre a relação das variáveis em estudo.
Vamos analisar a correlação das notas de
matemática e estatística dos alunos da amostra
selecionada?
ALUNOS
NOTAS
x y x,yMATEMÁTICA 
(x)
ESTATÍSTICA 
(y)
1 5 6 36 36 36
2 8 9 64 81 72
3 7 8 49 64 56
4 10 10 100 100 100
5 6 5 36 25 30
2 2
6 7 7 49 49 49
7 9 8 81 64 72
8 3 4 16 16 16
9 8 6 49 36 42
10 2 2 4 4 4
Soma (∑) 65 65 481 475 473
Solução
Substituindo os valores da tabela na fórmula do coeficiente de Pearson
Onde aparece o símbolo de somatório (∑), deve-se colocar o valor referente à soma
de toda a coluna ao qual o somatório está relacionado. Por exemplo ∑x y = 473 que
corresponde a soma de todos os valores da coluna x.y da tabela.
O resultado r = 0,91 indica uma correlação linear positiva altamente significativa
entre as duas variáveis.
Regressão
Todas as vezes que temos duas variáveis com certa correlação e desejamos estudar uma
variável em função da outra, fazemos uma análise de regressão.
O objetivo principal da análise de regressão é realizar a relação entre as duas variáveis, a
partir de um modelo matemático linear,partindo de n observações das mesmas.
A variável sobre a qual desejamos fazer a estimativa é denominada variável dependente
e a outra recebe o nome de variável independente.
Considerando X a variável independente e Y a variável dependente, vamos determinar o
ajustamento da reta obtendo a função definida por:
Y = aX + b
r  =  
n ∑      − (∑   ) (∑   )x
i
y
i
x
i
y
i
[n ∑    − (∑   ] [n ∑    − (∑   ]x
2
i
x
i
)
2
y
2
i
y
i
)
2
√
i i
r  =     =     =     =  0, 91112
(10) ⋅ (473) − (65) ⋅ (65)
[(10) ⋅ (481) −  ] [(10) ⋅ (475) −  ]
(65)
2
(65)
2
√
505
585.525√
505
307125√
Onde a e b são parâmetros.
Voltando ao exemplo das notas de matemática e estatística, verificamos que existe uma
correlação acentuada entre as variáveis, r = 0,91. Vimos ainda pela forma do diagrama
de dispersão, que se trata de uma correlação retilínea.
Determinando parâmetros
Vamos, agora, determinar os parâmetros a e b com a ajuda das fórmulas a seguir:
Para determinar o parâmetro b é necessário calcular a média dos valores de x ( ) e
y ( ).
Para o cálculo de b teremos:
Estimativa da equação
a  =  
n ∑      − (∑   ) (∑   )x
i
y
i
x
i
y
i
n ∑    − x
2
i
(∑   )x
i
2
i x¯
i y¯
  =                =  x¯
∑  x
i
n
y¯
∑  y
i
n
b  =     −  ay¯ x¯
Agora a equação de regressão pode ser montada. Lembrando que os parâmetros
foram obtidos através da amostra de dados, logo temos uma estimativa da
verdadeira equação de regressão.
Desta forma representaremos a equação:
Onde é o valor estimado de Y.
Substituindo paramentros
Voltemos então para o exercício das notas de matemática e estatística (consulte a
tabela clicando aqui). Substituindo os valores na fórmula do parâmetro a,
teremos:
Calculando as médias:
Substituindo os valores na fórmula do parâmetro b, teremos:
b = 6,5 – 0,8632 x 6,5 = 6,5 – 5,6108 = 0,8892
Com os parâmetros determinados: a = 0,86 e b = 0,89, a equação será:
Elaborando o gráfico
Para que possamos traçar o gráfico da reta, é necessário pelo menos 2 pontos da
reta, logo, basta escolhermos 2 valores para X:
  =  aX  =  bY
ˆ
Y
ˆ
a  =     =     =     =     = 0,8632
n ∑      − (∑   )x
i
y
i
y
i
n ∑    − x
2
i
(∑   )x
i
2
10.473 − (65) (65)
10.481 − (65)
2
4730 − 4225
4810 − 4225
505
585
  =     =     =  6,5              e              =     =     =  6,5    x¯
∑  x
i
n
65
10
y¯
∑  y
i
n
65
10
  =  0, 86X  +  0, 89 Y
ˆ
X  =  0  ⇒   =  0, 89 Y
ˆ
X  =  5  ⇒   =  0, 86 x 5  +  0, 89  =  5, 19Y
ˆ
Observando as notas vemos que a menor nota é 2 e a maior nota é 10, então 4,5 ∈ [2 ,
10]. Dizemos então que foi feita uma interpolação, isto é, a estimativa de uma nota
dentro da faixa abrangida pelos dados da amostra. Da mesma forma vemos que 1,5 não
faz parte da relação de notas, fazendo a estimativa dessa nota:
Observando as notas vemos que 1,5 ∉ [2 , 10]. Dizemos então que foi feita uma
extrapolação, isto é, a estimativa de uma nota fora da faixa abrangida pelos dados da
amostra.

Atenção
Uma norma básica no uso da regressão linear é a de nunca extrapolar, exceto
quando considerações teóricas ou experimentais demonstrem a possibilidade de
extrapolação.
Notas
Tabela
ALUNOS
NOTAS
x y x,yMATEMÁTICA 
(x)
ESTATÍSTICA 
(y)
X  =  1, 5  ⇒     =  0, 86 x 1, 5  +  0, 89  =  2, 18
Y
ˆ
2 2
1 5 6 36 36 36
2 8 9 64 81 72
3 7 8 49 64 56
4 10 10 100 100 100
5 6 5 36 25 30
6 7 7 49 49 49
7 9 8 81 64 72
8 3 4 16 16 16
9 8 6 49 36 42
10 2 2 4 4 4
Soma (∑) 65 65 481 475 473
Referências
CRESPO, Antônio Arnot. Estatística fácil. 19.ed. São Paulo: Saraiva, 2009.
KAZMIER, Leonard J. Estatística aplicada à Economia e Administração. 4.ed. Porto Alegre:
Artmed, 2007
Próximos Passos
Conceituaremos o que são números Índices bem como sua importância como ferramenta a
ser utilizada por administradores;
Abordaremos também o conceito de relativo – relação de preços, relação de quantidade e
relação de valor.
Explore mais
Pesquise na internet, sites, vídeos e artigos relacionados ao conteúdo visto.
Em caso de dúvidas, converse com seu professor online por meio dos recursos disponíveis no
ambiente de aprendizagem.

Outros materiais

Perguntas Recentes