Baixe o app para aproveitar ainda mais
Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
O termo correlação significa relação em dois sentidos e é usado em estatística para designar a força que mantém unidos dois conjuntos de valores. A média aritmética sozinha é insuficiente para exprimir bem a força que mantém unidas as variáveis X e Y. Por isso, usa-se uma estatística desenvolvida por Pearson chamada de coeficiente de correlação linear ( ) O estudo da correlação pressupõe que as variáveis X e Y tenham distribuição normal. Correlação e Regressão Linear Simples O coeficiente de correlação pode ser descrito de duas formas: ou , onde é o produto dos desvios em relação à média e é o produto dos desvios-padrão para X e Y. O calculado pela primeira fórmula é mais preciso que o calculado pela segunda fórmula, pois na primeira trabalhamos com dados brutos, sem arredondamentos e transformações. Como podemos ver o cálculo de é trabalhoso, portanto, é conveniente fazer o gráfico antes de começar qualquer cálculo. Se os pontos do gráfico distribuírem-se de tal modo que lembrem uma reta, convém calcular , já se os pontos estiverem dispersos de modo não-linear, não convém calcular . A esse gráfico damos o nome de diagrama de dispersão (nuvem de pontos). O coeficiente de correlação é adimensional. A natureza não produz correlações perfeitas do tipo =1 ou =-1 Características de Imagine que tenhamos sorteado 5 pessoas adultas com mais de 30 anos em um centro urbano e que a cada uma tenham sido feitas duas perguntas: Durante quantos anos você frequentou regularmente a escola? e Quantos livros você tem em sua biblioteca particular? Exemplos: Como vimos anteriormente o valor da média não mede a força da relação existente entre X e Y, pois: podemos observar que a cada 10 anos de estudo, em média, a pessoa possui 42 livros, em média. Sendo assim, uma pessoa que frequentou a escola por 5 anos deveria ter 21 livros, mas pela tabela para X=5 anos tem-se Y= 10 livros. Bem, a média é um valor teórico e os dados podem oscilar para mais ou para menos. Dessa forma precisamos calcular o coeficiente de correlação para determinar a força entre X e Y. podemos verificar que a disposição dos pontos lembra uma reta, e portanto, vale a pena calcular o coeficiente. Logo, X e Y possuem uma correlação positiva quase perfeita. A medida que os valores de X aumentam os valores de Y também aumentam . Da outra maneira: Coincidentemente obtemos o mesmo resultado para as duas fórmulas. 2) Suponha dois dados honestos D1 e D2, jogados simultaneamente 10 vezes. Os valores produzidos por D1 são os valores de X e os produzidos por D2 são os valores de Y. Exemplos: Pelo exame do diagrama de dispersão sabemos antecipadamente que o coeficiente de correlação será próximo de zero ma vez que a nuvem de pontos não se assemelha a uma reta. 3) Vimos anteriormente que o coeficiente de correlação é capaz de medir a força que mantém unidas as variáveis X e Y. Neste capítulo vamos estudar as leis que explicam como essas variáveis estão unidas e como é possível obter um dado desconhecido a partir de seu par conhecido com razoável aproximação. Regressão Linear Simples. Francis Galton, ao comparar as estaturas de pais com as estaturas de seus respectivos primogênitos, verificou que: Filho de pai alto era também alto, mas não tão alto quanto o pai. Filho de pai baixo era também baixo, mas não tão baixo quanto o pai. Dessa forma poderíamos esperar que ao longo das gerações os filhos de pais altos seriam cada vez mais baixos e os filhos de pais baixos seriam cada vez mais altos. O início: Porém ,Galton verificou que essas oscilações para mais ou para menos ocorriam dentro de certos limites, tendo a média aritmética da espécie como ponto de convergência. De maneira bem simplificada é como se os sujeitos altos fossem “perdendo estatura”, de geração em geração, até o limite representado pela média da espécie; ou, como se os sujeitos baixos fossem “ganhando estatura”, também de geração em geração, até alcançarem a média da espécie – que é o limite para onde convergem todas as estaturas. A esse fenômeno de “retorno à média” Galton deu o nome de Regressão. A Regressão que traduz a lei segundo a qual as variáveis caminham juntas (correlacionadas), é expressa por meio de uma relação matemática chamada Equação de Regressão. Na verdade Correlação e Regressão são conceitos logicamente inseparáveis. Uma não pode existir sem a outra. Chamamos de Regressão Linear Simples, pois: Linear porque a disposição dos pontos permite a interpolação de uma reta. Simples porque só há 2 variáveis envolvidas no processo. Dada uma nuvem de pontos com a configuração aproximadamente retilínea, é sempre possível interpolar a esses pontos uma reta com o objetivo de produzir uma lei. Ocorre que por dois pontos passa uma só reta, mas quando existem muitos pontos (como é o caso da nuvem), a questão torna-se mais complicada porque passam a existir inúmeras retas. Reta interpolatriz De todas as retas possíveis, somente a que apresentar melhor ajustamento a todos os pontos é que deve ser escolhida A escolha dessa reta obedece a um critério chamado Método dos Mínimos Quadrados. Equação Normal de Regressão de X sobre Y: , onde . Equação Normal de regressão de Y sobre X: , onde . O sinal ^ sobre Xi e Yi indica que se trata de um valor teórico, próximo da realidade, mas não necessariamente presente na tabela original de dados. Equações Normais de Regressão A Equação Normal de Regressão de X sobre Y permite calcular um X desconhecido a partir de um Y conhecido. A Equação Normal de Regressão de Y sobre X permite calcular um Y desconhecido a partir de um X conhecido. O que as Equações Normais de Regressão nos fornece são estimativas razoáveis que levam em conta o conjunto de dados da tabela. Determine as equações normais de regressão para o conjunto de dados a seguir. Solução: precisaremos dos valores dos desvios-padrão para X e Y e do coeficiente de correlação das duas variáveis. Exercício: Equação normal de regressão de X sobre Y: Equação Normal de regressão de Y sobre X: Suponhamos agora que tivéssemos perdido a anotação do valor de X₂. Como recuperá-lo? Teremos que estimar X₂ a partir de seu par Y₂=30, utilizando a Equação Normal de Regressão de X sobre Y. Verifique que o valor tabelado para X₂ é 8, ou seja, a estimativa dada pela equação de regressão teve uma boa aproximação. Imagine agora que o valor desaparecido fosse X₄=12, então para recuperá-lo utilizamos o seu par Y₄=50 e como resultado para a estimativa temos: Procederemos da mesma maneira para estimar um valor desconhecido de Yi a partir de seu respectivo par Xi utilizando agora a equação de regressão de Y sobre X. Sabemos que por 2 pontos passa uma única reta. Então se quisermos saber qual a reta de X que apresenta o melhor ajuste a todos os pontos, basta calcular dois valores extremos. Por exemplo: O Método dos Mínimos Quadrados fornece uma reta interpolatriz que passa entre os pontos e se ajusta bem a todos. Vamos agora, e por igual raciocínio, determinar a reta de Y que apresente o melhor ajuste a todos os pontos. Para conseguir isso basta tomar dois valores extremos de X (X₁=5 e X₅=15) e calcular os Yi correspondentes. Se sobrepusermos ambas as retas de regressão no mesmo diagrama de dispersão, verificaremos que: As retas de regressão não são coincidentes. As retas de regressão cruzam-se num ponto que corresponde simultaneamente a . Determine as retas de regressão para os seguintes exercícios. Exercícios:
Compartilhar