correlação e regressão

•

Humanas / Sociais

0

Filipe Inácio Procópio Araújo Viana

25.07.2014

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

O termo correlação significa relação em dois sentidos e é usado em estatística para designar a força que mantém unidos dois conjuntos de valores.
A média aritmética sozinha é insuficiente para exprimir bem a força que mantém unidas as variáveis X e Y. Por isso, usa-se uma estatística desenvolvida por Pearson chamada de coeficiente de correlação linear ( )
O estudo da correlação pressupõe que as variáveis X e Y tenham distribuição normal.
Correlação e Regressão Linear Simples
O coeficiente de correlação pode ser descrito de duas formas:
ou

, onde é o produto dos desvios em relação à média e é o produto dos desvios-padrão para X e Y.
O calculado pela primeira fórmula é mais preciso que o calculado pela segunda fórmula, pois na primeira trabalhamos com dados brutos, sem arredondamentos e transformações.
Como podemos ver o cálculo de é trabalhoso, portanto, é conveniente fazer o gráfico antes de começar qualquer cálculo.
Se os pontos do gráfico distribuírem-se de tal modo que lembrem uma reta, convém calcular , já se os pontos estiverem dispersos de modo não-linear, não convém calcular .
A esse gráfico damos o nome de diagrama de dispersão (nuvem de pontos).
O coeficiente de correlação é adimensional.

A natureza não produz correlações perfeitas do tipo =1 ou =-1
Características de
Imagine que tenhamos sorteado 5 pessoas adultas com mais de 30 anos em um centro urbano e que a cada uma tenham sido feitas duas perguntas: Durante quantos anos você frequentou regularmente a escola? e Quantos livros você tem em sua biblioteca particular?
Exemplos:
Como vimos anteriormente o valor da média não mede a força da relação existente entre X e Y, pois:
podemos observar que a
cada 10 anos de estudo,
em média, a pessoa possui 42 livros, em média.
Sendo assim, uma pessoa que frequentou a escola por 5 anos deveria ter 21 livros, mas pela tabela para X=5 anos tem-se Y= 10 livros.
Bem, a média é um valor teórico e os dados podem oscilar para mais ou para menos.
Dessa forma precisamos calcular o coeficiente de correlação para determinar a força entre X e Y.
podemos verificar que a
disposição dos pontos lembra
uma reta, e portanto, vale a
pena calcular o coeficiente.

Logo, X e Y possuem uma correlação positiva quase perfeita. A medida que os valores de X aumentam os valores de Y também aumentam .
Da outra maneira:
Coincidentemente obtemos o mesmo resultado para as duas fórmulas.
2) Suponha dois dados honestos D1 e D2, jogados simultaneamente 10 vezes. Os valores produzidos por D1 são os valores de X e os produzidos por D2 são os valores de Y.
Exemplos:
Pelo exame do diagrama de dispersão sabemos antecipadamente que o coeficiente de correlação será próximo de zero ma vez que a nuvem de pontos não se assemelha a uma reta.
3)
Vimos anteriormente que o coeficiente de correlação é capaz de medir a força que mantém unidas as variáveis X e Y.
Neste capítulo vamos estudar as leis que explicam como essas variáveis estão unidas e como é possível obter um dado desconhecido a partir de seu par conhecido com razoável aproximação.

Regressão Linear Simples.
Francis Galton, ao comparar as estaturas de pais com as estaturas de seus respectivos primogênitos, verificou que:
Filho de pai alto era também alto, mas não tão alto quanto o pai.
Filho de pai baixo era também baixo, mas não tão baixo quanto o pai.
Dessa forma poderíamos esperar que ao longo das gerações os filhos de pais altos seriam cada vez mais baixos e os filhos de pais baixos seriam cada vez mais altos.
O início:
Porém ,Galton verificou que essas oscilações para mais ou para menos ocorriam dentro de certos limites, tendo a média aritmética da espécie como ponto de convergência.
De maneira bem simplificada é como se os sujeitos altos fossem “perdendo estatura”, de geração em geração, até o limite representado pela média da espécie; ou, como se os sujeitos baixos fossem “ganhando estatura”, também de geração em geração, até alcançarem a média da espécie – que é o limite para onde convergem todas as estaturas.
A esse fenômeno de “retorno à média” Galton deu o nome de Regressão.
A Regressão que traduz a lei segundo a qual as variáveis caminham juntas (correlacionadas), é expressa por meio de uma relação matemática chamada Equação de Regressão.
Na verdade Correlação e Regressão são conceitos logicamente inseparáveis. Uma não pode existir sem a outra.
Chamamos de Regressão Linear Simples, pois:
Linear porque a disposição dos pontos permite a interpolação de uma reta.
Simples porque só há 2 variáveis envolvidas no
processo.
Dada uma nuvem de pontos com a configuração aproximadamente retilínea, é sempre possível interpolar a esses pontos uma reta com o objetivo de produzir uma lei.
Ocorre que por dois pontos passa uma só reta, mas quando existem muitos pontos (como é o caso da nuvem), a questão torna-se mais complicada porque passam a existir inúmeras retas.
Reta interpolatriz
De todas as retas possíveis, somente a que apresentar melhor ajustamento a todos os pontos é que deve ser escolhida
A escolha dessa reta obedece a um critério chamado Método dos Mínimos Quadrados.
Equação Normal de Regressão de X sobre Y:
, onde .
Equação Normal de regressão de Y sobre X:
, onde .
O sinal ^ sobre Xi e Yi indica que se trata de um valor teórico, próximo da realidade, mas não necessariamente presente na tabela original de dados.
Equações Normais de Regressão
A Equação Normal de Regressão de X sobre Y permite calcular um X desconhecido a partir de um Y conhecido.
A Equação Normal de Regressão de Y sobre X permite calcular um Y desconhecido a partir de um X conhecido.
O que as Equações Normais de Regressão nos fornece são estimativas razoáveis que levam em conta o conjunto de dados da tabela.
Determine as equações normais de regressão para o conjunto de dados a seguir.
Solução: precisaremos dos valores dos desvios-padrão para X e Y e do coeficiente de correlação das duas variáveis.
Exercício:
Equação normal de regressão de X sobre Y:
Equação Normal de regressão de Y sobre X:
Suponhamos agora que tivéssemos perdido a anotação do valor de X₂. Como recuperá-lo?
Teremos que estimar X₂ a partir de seu par Y₂=30, utilizando a Equação Normal de Regressão de X sobre Y.
Verifique que o valor tabelado para X₂ é 8, ou seja, a estimativa dada pela equação de regressão teve uma boa aproximação.
Imagine agora que o valor desaparecido fosse X₄=12, então para recuperá-lo utilizamos o seu par Y₄=50 e como resultado para a estimativa temos:
Procederemos da mesma maneira para estimar um valor desconhecido de Yi a partir de seu respectivo par Xi utilizando agora a equação de regressão de Y sobre X.
Sabemos que por 2 pontos passa uma única reta. Então se quisermos saber qual a reta de X que apresenta o melhor ajuste a todos os pontos, basta calcular dois valores extremos.
Por exemplo:
O Método dos Mínimos Quadrados fornece uma reta interpolatriz que passa entre os pontos e se ajusta bem a todos.
Vamos agora, e por igual raciocínio, determinar a reta de Y que apresente o melhor ajuste a todos os pontos.
Para conseguir isso basta tomar dois valores extremos de X (X₁=5 e X₅=15) e calcular os Yi correspondentes.
Se sobrepusermos ambas as retas de regressão no mesmo diagrama de dispersão,
verificaremos que:
As retas de regressão não são coincidentes.
As retas de regressão cruzam-se num ponto que corresponde simultaneamente a .
Determine as retas de regressão para os seguintes exercícios.
Exercícios: