Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIDADE 3 – ASSOCIAÇÃO E CORRELAÇÃO 1. Ajuste de Curvas 3.1 ANÁLISE DE REGRESSÃO O termo regressão surgiu no final do século XIX em trabalhos que procuravam explicar certas características de um indivíduo a partir das características de seus pais. Um cientista inglês, Francis Galton, coletou altura, peso, medidas de ossos específicos e outras características de membros da família, para tentar prever a altura dos filhos. Para ele, era óbvio que pais altos tendiam a ter filhos altos. Haveria alguma fórmula matemática com que pudesse prever qual seria a altura do filho usando como base apenas a altura dos pais? 3.1 ANÁLISE DE REGRESSÃO Galton descobriu um fenômeno que chamou de “regressão à média”. Acontece que filhos de pais muito altos tendem a ser mais baixos que seus pais, e os filhos de pais muito baixo tendem a ser mais altos que seus pais. É como se uma misteriosa força fizesse a estatura humana se afastar dos extremos e se aproximar da altura média de todos os homens. O fenômeno da regressão à média não é válido só para a altura humana; quase todas as observações científicas apresentam regressão à média. Posteriormente, outro pesquisador (R.A. Fisher) foi capaz de transformar a regressão à média em modelos estatísticos. 3.1 ANÁLISE DE REGRESSÃO Como vimos, a correlação mede a força, ou o grau, de relacionamento entre duas variáveis. Por sua vez, a regressão dá uma equação que descreve o relacionamento em termos matemáticos. O modelo estatístico-matemático de regressão relaciona uma variável Y, chamada de variável dependente ou resposta, com uma (ou mais variáveis) X, denominada variável explicativa ou independente. 3.2 APLICAÇÕES DO MODELO DE REGRESSÃO Variável independente (X) → Variável dependente (Y) Renda → Consumo Gasto com controle de qualidade → Número de defeitos nos produtos Memória RAM do computador → Tempo de resposta do sistema Área construída do imóvel → Preço do imóvel 3.3 ANÁLISE DE REGRESSÃO Objetivo: Explicar como uma variável se comporta em função de outra. Outra definição: estimar valores de uma variável, com base em valores conhecidos de outra Variável dependente (Y): variável de interesse, cujo comportamento se deseja explicar. Variável independente (X): variável utilizada para explicar a variável dependente. Modelo de regressão linear: equação linear (reta) que associa Y e X. 3.3 ANÁLISE DE REGRESSÃO Deve-se lembrar que a lógica de uma relação deve provir de teorias externas ao âmbito da estatística. A análise de regressão apenas indica qual relacionamento matemático pode existir, se existir algum. Embora tais relações possam assumir uma grande diversidade de formas, nossa discussão se limitará às equações lineares. Essas equações são importantes porque servem para aproximar muitas das relações da vida real, e porque são relativamente fáceis de lidar e de interpretar. Outras formas da análise de regressão, tais como regressão múltipla (mais de duas variáveis) e regressão curvilínea (não- linear) envolvem extensões dos mesmos conceitos utilizados na regressão linear simples. 3.4 A EQUAÇÃO LINEAR Uma equação linear tem a forma: Fixando valores para a e b, a equação acima é a equação de uma reta. Por exemplo, se a = 1 e b = 2, a equação y = 1 + 2x é uma certa reta. Para desenhar essa reta, basta atribuir valores para X e calcular os correspondentes valores para Y. bxay += 3.4 A EQUAÇÃO LINEAR Digamos que x=0, então y = 1 + 2*0 = 1. Para x=1, então y = 1+2*1 = 3. 3.4 A EQUAÇÃO LINEAR Digamos que x=0, então y = 1 + 2*0 = 1. Para x=1, então y = 1+2*1 = 3. Assim, temos a reta: 0 0,5 1 1,5 2 2,5 3 3,5 0 0,2 0,4 0,6 0,8 1 1,2 Y X 3.5 MODELAGEM Ao observarmos um conjunto de observações, verificamos que, em geral, os pontos não estão exatamente sobre uma reta, mas flutuam em torno de alguma reta imaginária. Isso ocorre porque essa reta é um modelo. E, como todo modelo é imperfeito, não conseguiremos capturar todos os aspectos da realidade. 3.5 MODELAGEM Então, a equação anterior pode ser transformada em um modelo com a adição de um erro aleatório, isto é, o efeito de uma infinidade de fatores que estão afetando a observação de Y de forma aleatória. Por exemplo, a altura de um indivíduo (Y) não depende somente da altura média de seus pais (X), mas, também, de sua alimentação, do genótipo de seus ancestrais e de uma infinidade de outros fatores, tudo representado no modelo por ε. ε++= bxay 3.5 MODELAGEM Dessa forma, cada indivíduo “possuirá” uma reta de regressão, no sentido que sua altura individual será determinada pela altura de seus pais e dos seus fatores aleatórios. Dessa forma, a equação passa a ter um caráter mais pessoal: Onde o índice i indica o indivíduo analisado. iii bxay ε++= 3.5 MODELAGEM Como não controlamos o erro, nosso objetivo é encontrar a reta que passe mais próximo possível dos pontos observados. Representaremos esta reta por: E a chamaremos de reta de regressão ou equação de regressão. bxay +=ˆ 3.6 EXEMPLO Vamos considerar uma parte dos dados coletados por Galton, por volta de 1885. Tabela: Altura de indivíduos (Y) e alturas médias de seus pais (X), medidas em centímetros. Fonte: Stigler (1986, p.286; apud Barbetta, 2012), com adaptações. X Y X Y X Y X Y 164 166 164 168 166 166 166 168 166 171 166 173 169 166 169 168 169 171 169 173 171 166 171 168 171 171 171 173 171 176 173 168 173 171 173 176 173 178 176 171 176 173 176 176 178 176 178 178 3.6 EXEMPLO Diagrama de dispersão com reta ajustada. 164 166 168 170 172 174 176 178 180 162 164 166 168 170 172 174 176 178 180 Y X 12ε bxay +=ˆ 3.6 EXEMPLO Como visto na figura, o erro é determinado pela diferença entre o valor y e a reta ajustada 164 166 168 170 172 174 176 178 180 162 164 166 168 170 172 174 176 178 180 Y X 12ε bxay +=ˆ yˆ 3.7 MÍNIMOS QUADRADOS Para encontrar a reta que passa mais próximo aos pontos, devemos encontrar a reta que minimize os erros. Como Y e X dependem dos indivíduos, temos que encontrar os valores de a e b na equação linear. O método mais usado para encontrar a e b é conhecido como o método dos mínimos quadrados (ou mínimos quadrados ordinários – MQO). 3.7 MÍNIMOS QUADRADOS Esse método fornece as seguintes expressões: 2 11 2 1 11 * )*(* − − = ∑∑ ∑ ∑∑ == = == n i i n i i n i n i i n i iii XXn YXYXn b XbYa *−= 3.8 MÍNIMOS QUADRADOS - EXEMPLO No exemplo, b = 0,5883 a = 70,821 Nessa equação, o valor a = 70,821 é o intercepto. Nesse caso, o intercepto não tem uma interpretação prática. Não faz sentido dizer que a altura mínima da pessoa seria 70,8 cm, caso os pais dela tivessem uma altura de 0 cm. O valor b = 0,5883 é o coeficiente angular da reta e indica a variação de y por unidade de variação de x. A cada centímetro a mais na altura média dos pais, esperamos um acréscimo de 0,5883 cm na altura do filho. ii xy *5883,0821,70 += 3.9 MÍNIMOS QUADRADOS –EXEMPLO 2 Suponha que tenhamos coletado dados de vendedores de carros da área, sobre a quilometragem e preços de carros de 1975 de certa marca e com determinado equipamento (ar condicionado, toca-fitas, etc). Os dados amostrais, que poderiam se originar de uma amostra aleatória de vendedores da região, se apresentariam mais ou menos como os dados da tabela a seguir. 3.9 MÍNIMOS QUADRADOS – EXEMPLO 2 Observação (i) Km (em mil) (xi) Preço de venda $ (yi) 1 40 1000 2 30 1500 3 30 1200 4 25 1800 5 50 800 6 60 1000 7 65 500 8 10 3000 9 15 2500 10 20 2000 11 55 800 12 40 1500 13 35 2000 14 30 2000 3.9 MÍNIMOS QUADRADOS – EXEMPLO 2 0 500 1000 1500 2000 2500 3000 3500 0 10 20 30 40 50 60 70 P re ço Km A partir do diagrama de dispersão, parece que uma relação linear é razoavelmente consistente com os dados amostrais. 3.9 MÍNIMOS QUADRADOS – EXEMPLO 2 0 500 1000 1500 2000 2500 3000 3500 0 10 20 30 40 50 60 70 P re ço Km A equação de regressão resultante é: xy *56,38934.2ˆ −= xy *56,38934.2ˆ −= 3.9 MÍNIMOS QUADRADOS – EXEMPLO 2 A equação pode ser interpretada da seguinte maneira: O preço esperado para um carro de 1975 é $ 2.934 menos $ 38,56 para cada mil quilômetros que o carro tenha rodado. O intercepto indica que se o carro não tiver nenhum quilômetro rodado, seu valor seria de $ 2.934. Por outro lado, se um carro tiver 20.000 km rodados, a equação sugere que o preço de venda é $ 2.934 – 38,56*20 = $ 2.163. 3.9 MÍNIMOS QUADRADOS – EXEMPLO 2 É importante reconhecermos certos fatos relativos à equação de regressão. Um é que se trata de uma relação média; assim, um carro com determinada quilometragem não obterá necessariamente o preço de venda exato indicado pela equação. Outro ponto importante é que seria muito arriscado extrapolar essa equação para preços e quilômetros fora do âmbito dos dados. Em outras palavras, embora tenhamos ficado razoavelmente convencidos, mediante uma rápida inspeção dos dados, de que a relação era linear, isso não nos autoriza a supor que carros com maior ou menos quilometragem apresentem a mesma relação entre preço e quilometragem. Unidade 3 – Associação e Correlação 3.1 Análise de Regressão 3.1 Análise de Regressão 3.1 Análise de Regressão 3.2 Aplicações do Modelo de Regressão 3.3 Análise de Regressão 3.3 Análise de Regressão 3.4 A Equação Linear 3.4 A Equação Linear 3.4 A Equação Linear 3.5 Modelagem 3.5 Modelagem 3.5 Modelagem 3.5 Modelagem 3.6 Exemplo 3.6 Exemplo 3.6 Exemplo 3.7 Mínimos Quadrados 3.7 Mínimos Quadrados 3.8 Mínimos Quadrados - Exemplo 3.9 Mínimos Quadrados – Exemplo 2 3.9 Mínimos Quadrados – Exemplo 2 3.9 Mínimos Quadrados – Exemplo 2 3.9 Mínimos Quadrados – Exemplo 2 3.9 Mínimos Quadrados – Exemplo 2 3.9 Mínimos Quadrados – Exemplo 2
Compartilhar