Buscar

CORRELAÇÃO E REGRESSÃO

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UNIVERSIDADE ZAMBEZE
FACULDADE DE ENGENHARIA AMBIENTAL E DE RECURSOS NATURAIS
CURSO LICENCIATURA EM ENGENHARIA AMBIENTAL E DE RECURSOS NATURAIS
CORRELAÇÃO E REGRESSÃO 
Discentes: 
Adelina David
Ancha Aidão
Anízio Ronda
Anicleto Nota
Dércio Silambo
Délcio Absala
Francisco Aprosse
Isac Mussama
Jossefa António
Jordão Martinho
Manuel Francisco 
Martinho Albano
Teodósio Gabriel
Tilza Maria Docente: 
Vladimiro Camoês Engo. João Ah Shenga
 
Chimoio, Maio de 2016
Introdução 
Segundo VIALI, ao se estudar uma variável o interesse eram as medidas de tendência central, dispersão, assimetria, etc. Com duas ou mais variáveis além destas medidas individuais também é de interesse conhecer se elas têm algum relacionamento entre si, isto é, se valores altos (baixos) de uma das variáveis implicam em valores altos (ou baixos) da outra variável. Por exemplo, pode-se verificar se existe associação entre a taxa de desemprego e a taxa de criminalidade em uma grande cidade, entre verba investida em propaganda e retorno nas vendas, etc. A associação entre duas variáveis poder ser de dois tipos: correlaciona e experimental. Numa relação experimental os valores de uma das variáveis são controlados pela atribuição ao acaso do objeto sendo estudado e observando o que acontece com os valores da outra variável. Por exemplo, pode-se atribuir dosagens casuais de uma certa droga e observar a resposta do organismo; pode-se atribuir níveis de fertilizante ao acaso e observar as diferenças na produção de uma determinada cultura.
Objectivos 
Objectivo geral
Falar sobre correlação e regressão.
Objectivos específicos 
Definir correlação e regressão;
Expilar o diagrama de dispersao; o coeficiente de correlação;
Demostrar os procedimento para cálculo da correlação;
Explicar a equação geral da regressão “recta interpoladora”.
Conceitos fundamentais 
Segundo (VIALI) correlação amostral: serve para estudar o comportamento conjunto de duas varáveis quantitativas distintas. Ou seja, em outras palavras, mede o grau de associação entre duas variáveis aleatórias X e Y.
Para o estudo do comportamento conjunto das variáveis podem ser usados:
O diagrama de dispersão: é um gráfico cartesiano em que cada um dos eixos corresponde às variáveis correlacionadas. A variável dependente (Y) situa-se no eixo vertical e o eixo das abscissas é reservado para a variável independente (X). Os pares ordenados formam uma nuvem de pontos. 
O coeficiente de correlação: é uma correlação entre duas variáveis, cujo gráfico aproxima - se de uma linha. É uma linha de tendência, porque procura acompanhar a tendência da distribuição de pontos, que pode corresponder a uma reta ou a uma curva.
Correlação Linear 
O “Novo Dicionário Básico da Língua Portuguesa – Aurélio” apresenta as seguintes definições para a palavra correlação:
“Relação mútua entre dois termos”. 
 “Qualidade de correlativo”. 
 “Correspondência”.
Em Estatística, a correlação é um parâmetro que indica o “grau de correspondência” entre duas variáveis. Ou seja, a correlação mostra a “ intensidade” com a qual dois conjuntos de dados estão relacionados mutuamente (MARIANO; LAURICELLA; FRUGOLI). 
Assim, a correlação indica o comportamento conjunto de duas variáveis. Podemos utilizar a correlação para responder questões do tipo:
O salario de um trabalhador esta relacionado com a escolaridade do mesmo, ou seja, em que grau a variável “salário médio de um trabalhador” esta “ligado” com a variável “ escolaridade do trabalhador?”
A quantidade de livro que uma pessoa já leu esta relacionada com a sua escolaridade?
Em que grau do peso de uma pessoa esta relacionado com a sua altura?
A estrutura de uma pessoa esta relacionado com a sua alimentação?
Podemos verificar o quanto duas varáveis estão relacionados entre si seguindo uma função do 1º grau (relação linear), ou seja, podemos calcular um parâmetro que indique “correlação linear” entre duas variáveis.
Inicialmente, estudaremos um caso com “correlação linear Perfeita”, denominado de exemplo 1, que dificilmente será observado em situações “experimentais”. No entanto, é interessante que estudemos a fim de fixar os conceitos envolvidos e praticar os cálculos necessários. 
Tabela 1: Exemplo 1 – “correlação linear Perfeita”.
	
	0
	1
	2
	3
	4
	5
	
	0
	3
	6
	9
	12
	15
A tabela mostra o procedimento preliminar para o cálculo da correlação: listar os valores de , , xi2 (xi elevado ao quadrado), yi2 (yi elevado ao quadrado), (produto de por ), (somatório de , ou seja , para o exemplo em estudo), (somatório de , ou seja , para o exemplo em estudo), (somatório elevado ao quadrado), (somatório elevado ao quadrado) e ( somatório do produto de por ).
Tabela 1.1: Procedimento para cálculo da correlação – exemplo 1. 
	
	
	
	
	
	0
	0
	=0
	=0
	=0
	1
	3
	=1
	=9
	=3
	2
	6
	=4
	=36
	=12
	3
	9
	=9
	=81
	=27
	4
	12
	=16
	=144
	=48
	5
	15
	=25
	=225
	=75
	=15
	=45
	=55
	=495
	=165
A medida para o grau de correlação linear entre duas variáveis é o coeficiente de correlação de Pearson (conhecido como coeficiente de correlação linear), indicando por “r”, calculado por:
onde:
r = o coeficiente de Pearson; 
n = o número de observações ou n representa o numero de pares de dados em estudo (no caso do exemplo 1 n=6);
xi = variável independente;
yi =variável dependente.
Quando o valor de r é 1, significa que as variáveis em estudo estão perfeitamente relacionadas, ou seja, se fizermos um diagrama de dispersão (representação cartesiana de um conjunto de dados), a distribuição dos pontos experimentais “segue” extactamente uma recta, conforme ilustrado na figura 1.
Figura 1. Diagrama de dispersão
Os valores das correlação linear variam de – 1 e 1, ou seja: 
Podemos proceder à seguinte classificação:
r = -1,00: correlação negativa perfeita.
r = -0,75: correlação negativa forte.
r = -0,50: correlação negativa média.
r = -0,25: correlação negativa fraca.
r = 0,00: correlação linear inexistente.
r = 0,25: correlação positiva fraca. 
r = 0,75: correlação positiva média.
r = 1,00: correlação positiva perfeita.
Na correlação positiva, as variáveis em estudo alteram – se no mesmo sentido (se uma variável “aumenta”, a outra variável também “aumenta” ou se uma variável “diminui”, a outra também “diminui”). Na correlação negativa, as variáveis em estudo alteram – se em sentidos opostos (se uma variável “aumenta”, a outra “diminui”).
Na figura 1.1. mostra diagrama de dispersão para casos de correlação positiva e negativa. 
Figura 1.1. exemplos de diagramas de dispressoes para casos de correlação positiva e negativa. 
Precauções no uso e interpretação 
A relação deve ser representável por uma linha recta (curva de regressão),
A recta não pode ser extendida além dos pontos medidos,
A associação não implica necessariamente uma relação casual,
Depende da variabilidade amostral.
Exemplo 2: um pesquisador procurou saber a 7 pessoas (todos com 40 anos de idade) que guardavam o chapa no muqueixa as seguintes questões: 
qual a escolaridade, ou seja, quantos anos vocês estudou?
Quantos livros você já leu?
As respostas encontram – se sumarizadas na tabela 1.1
xi representa o numero de anos que a pessoa estou;
yi representa o numero de livros que a pessoa já leu.
Tabela 1.1. Número de anos que a pessoa estudou (xi) e número de livros que a pessoa já leu (yi)
	
	3
	5
	7
	9
	10
	14
	16
	
	1
	2
	3
	5
	7
	10
	13
O número de pares de dados é: n = 7. Procedendo de forma análoga à tabela 1.2, obtemos a tabela 1.2.
Tabela 1.2. Procedimento para cálculo da correlação – exercícios 2.
	
	
	
	
	
	3
	1=9
	=1
	=3
	5
	2
	=25
	=4
	=10
	7
	3
	=49
	=9
	=21
	9
	5
	=81
	=25
	=45
	10
	7
	=100
	=49
	=70
	14
	10
	=196
	=100
	=140
	16
	13
	=256
	=169
	=208
	=64
	=41
	=716
	=357
	=497
O coeficiente de correlação linear é:
	
Figura 1.3. Diagrama de dispersão 
O exemplo 2 ilustra um caso de “correlação positiva forte”, pois:
quando x “aumenta” y também “aumenta”.
A dispersão dos dados ”lembra” o comportamento de uma recta, embora os dados não sigam “perfeitamente” uma recta.
Vale notar que a correlação não conclui a respeito da causa e efeito entre duas variáveis. Ou seja, um elevado grau de correlação entre dois conjuntos de dados não significa necessariamente que um seja a causa e outro seja o efeito. Por exemplo, para uma dada amostra, pode – se ter que a variável “números de xicaras de café ingeridas diariamente” esteja fortemente correlacionada com a variável “números de sobrinhos da pessoa”. Evidentemente o número de xicaras de café ingeridas diariamente por uma pessoa não é a causa do seu número de sobrinhos!
No entanto, se houver uma relação de causa e efeito entre duas variáveis, obrigatoriamente elas apresentaram elevado coeficiente de correlação. Por exemplo, a variável “forca resultante exercida sobre uma bola” é a causa da variável “aceleração adquirida pela bola”. Logo, o diagrama de dispersao para levantamentos experimentais de força e aceleração, para o caso citado, deve mostrar intensa correlação entre as referidas variáveis.
Regressão Linear 
A regressão é o processo de traduzir o comportamento conjunto de duas variáveis na forma de uma “lei” matemática, denominada “equação da regressão”. Logo, os conceitos de “correlação” e “ regressão” são indissociáveis. A regressão é dita linear quando o diagrama de dispersao dos dados em estudo sugere a interpretação de uma recta pelos mesmos. Como, na prática, trabalhamos com diversos pontos experimentais, há inúmeras rectas possíveis para o referido conjunto de dados. No entanto, há um critério, conhecido como “Método dos Mínimos Quadrados”, que estabelece a “melhor” recta que se ajusta a todos os pontos experimentais do diagrama de dispersao. Esta recta será chamada de “recta interpoladora” (MARIANO; LAURICELLA; FRUGOLI). 
Exemplo 3: retornamos no exemplo 1 (construído de n = 6 pares de dados experimentais), para mostrar o procedimento para a determinação da “recta interpoladora” usando a regressão linear. Neste exemplo, o coeficiente de correlação linear resultou em r = 1. Devemos agora calcular o desvio padrão de x (sx), e o desvio padrão de y (sy).
Tabela 1.3. Cálculo de sx
	
	
	
	0
	
	=6,25
	1
	
	=2,25
	2
	
	=0,25
	3
	
	=0,25
	4
	
	=2.25
	5
	
	=6,25
	=15
	
	=17,5
Tabela 1.4. Cálculo de sy
	
	
	
	0
	
	=56,25
	3
	
	=20,25
	6
	
	=2,25
	9
	
	=2,25
	12
	
	=20.25
	15
	
	=56,25
	=45
	
	=157,50
Deve se calcular os seguintes parâmetros 
A equação geral da regressão (“recta interpoladora) é
Indica – se e não yx, pois os valor obtido pela equação de regressão é um “valor aproximado ou teórico” que pode, inclusive, não constar na tabela original de dados experimentais.
No entanto, no caso do exemplo 1, como se trata de uma situação hipotética “puramente matemática”, o coeficiente de correlação linear ‘e 1 e os valores de calculamos pela equação da regressão linear coincidirão os valores da tabela. 
Conclusão 
Diagramas de dispersão. As tabelas de contingência 2x2 fornecem somente a indicação grosseira da relação entre duas variáveis, a não ser o fato de que os valores estão situados acima e abaixo da mediana, qualquer outra informação é desperdiçada.
A análise de correlação fornece um número que resume o grau de relacionamento linear entre as duas variáveis. Já a análise de regressão fornece uma equação que descreve o comportamento de uma das variáveis em função do comportamento da outra variável.
O coeficiente de correlação pode variar de –1,00 a + 1,00, com um coeficiente de +1, indicando uma correlação linear positiva perfeita. Neste caso, as duas variáveis serão exatamente iguais em termos de escores padronizados z, isto é, um elemento apresentando um escore padronizado de 1,5 em uma das variáveis vai apresentar o mesmo escore padronizado na outra variável.
Referências bibliográficas 
FAZENDA, R. Z. Estatística Descritiva, Probabilidade e Inferência Estatística.
MARIANO, M. V; LAURICELLA, C. M; FRUGOLI, A. D. Estatística Indutiva
CORREA, S. M. B. B. Probabilidade e Estatística. – 2ª ed. - Belo Horizonte: PUC Minas Virtual, 2003 
VIALI, Lorí. Estatística Básica: Correlação e Regressão.

Outros materiais