Baixe o app para aproveitar ainda mais
Prévia do material em texto
Correlac¸a˜o e Regressa˜o Linear Guilherme Biz 3 de maio de 2014 • Na infereˆncia estat´ıstica e´ u´til identificar se existe relac¸a˜o entre duas ou mais varia´veis. • Uma relac¸a˜o entre duas varia´veis pode ser identificada por meio de um gra´fico de dispersa˜o. • Pode-se quantificar a relac¸a˜o existente entre duas varia´veis utilizando o coeficiente de correlac¸a˜o linear. • Em muitos problemas ha´ duas ou mais varia´veis quantitativas que sa˜o relacionadas, e e´ importante modelar e explorar essa relac¸a˜o. Gra´fico de Dispersa˜o Figura : Correlac¸a˜o positiva Figura : Correlac¸a˜o negativa Figura : Na˜o ha´ correlac¸a˜o Coeficiente de correlac¸a˜o • O coeficiente de correlac¸a˜o linear tem por objetivo medir o grau de relac¸a˜o entre duas varia´veis e e´ definida por: r = Cov(X ,Y )√ S2x S 2 y em que S2x = ∑n i=1 x 2 i − ( ∑n i=1 xi ) 2 n n − 1 S2y = ∑n i=1 y 2 i − ( ∑n i=1 yi ) 2 n n − 1 Cov(X ,Y ) = ∑n i=1 xiyi − ∑n i=1 xi ∑n i=1 yi n n − 1 • O coeficiente de correlac¸a˜o e´ denotado por r e somente pode assumir um valor entre -1 e 1 inclusive. • Se r = +1, existe uma correlac¸a˜o perfeita positiva entre as varia´veis. • Se r = −1, existe uma correlac¸a˜o perfeita negativa entre as vaia´veis. • Se r = 0, na˜o existe correlac¸a˜o entre as varia´veis. • Exemplo 1: Certa empresa, estudando a variac¸a˜o de vendas de seus produtos em relac¸a˜o a` variac¸a˜o de despesas com propagandas, obteve a tabela: Vendas R$ 24 34 27 20 36 16 27 16 28 30 Despesas R$ 7 12 10 5 13 4 8 4 9 11 Existe relac¸a˜o entre as duas varia´veis? Calcule o coeficiente de correlac¸a˜o e interprete. Exerc´ıcios 1- Os dados a seguir correspondem a` varia´vel renda familiar e gasto com alimentac¸a˜o (em unidades moneta´rias) para uma amostra de 8 fam´ılias. Renda 3 5 10 20 30 40 50 60 Gasto 2 3 6 10 15 10 20 20 (a) Construa o gra´fico de dispersa˜o. (b) Calcular o coeficiente de correlac¸a˜o e interpretar o resultado. Teste de hipo´teses E´ poss´ıvel testar a hipo´tese que o coeficiente de correlac¸a˜o seja igual a zero, ou seja, H0 : ρ = 0 H1 : ρ 6= 0 O teste estat´ıstico apropriado para esta hipo´tese e´ tcal = r √ n − 2 1− r2 que segue uma distribuic¸a˜o t com n-2 graus de liberdade. Rejeita-se a hipo´tese nula se |tcal | > ttab. • Exemplo 2: Estamos estudando se ha´ ou na˜o correlac¸a˜o entre as notas de diversas disciplinas de um curso de mestrado. Analisando uma amostra de 12 alunos encontrou-se uma correlac¸a˜o de 0,6 entre as disciplinas de Estat´ıstica e Metodologia da Pesquisa. Teste a hipo´tese de na˜o haver correlac¸a˜o entre as disciplinas. Use α = 5%. 2- Abaixo esta˜o os dados referentes a` porcentagem da populac¸a˜o economicamente ativa empregada no setor prima´rio e o respectivo ı´ndice de analfabetismo para algumas regio˜es metropolitanas do Brasil. Regio˜es Setor prima´rio (X) Analfabetismo (Y) Sa˜o Paulo 2,0 17,5 Rio de Janeiro 2,5 18,5 Bele´m 2,9 19,5 Belo Horizonte 3,3 22,2 Salvador 4,1 26,5 Porto Alegre 4,3 16,6 Recife 7,0 36,6 Fortaleza 12,0 38,3 (a) Fac¸a o diagrama de dispersa˜o. (b) Calcule o coeficiente de correlac¸a˜o, interprete o resultado. (c) Teste a hipo´tese de na˜o haver correlac¸a˜o entre as duas varia´veis usando α = 0, 05. 3- Na tabela abaixo esta´ apresentado os dados referentes a taxa de fundo de investimento: FIC executivo, e taxa SELIC, no per´ıodo de janeiro a dezembro de 2005. Meses Taxas Jan Fev Mar Abr Mai Jun SELIC (X) 1,38 1,22 1,53 1,41 1,50 1,60 FIC (Y) 1,34 1,18 1,49 1,35 1,43 1,53 Meses Taxas Jul Ago Set Out Nov Dez SELIC (X) 1,51 1,66 1,50 1,41 1,38 1,47 FIC (Y) 1,43 1,55 1,46 1,35 1,43 1,46 (a) Construa o gra´fico de dispersa˜o. (b) Calcule o coeficiente de correlac¸a˜o e interprete o resultado. (c) Teste a hipo´tese de na˜o haver correlac¸a˜o entre as duas varia´veis. Use α = 0, 05. Regressa˜o Linear Simples • Em muitos problemas ha´ duas ou mais varia´veis quantitativas que sa˜o relacionadas, e e´ importante modelar e explorar essa relac¸a˜o. • Por exemplo, as vendas pode estar relacionado com despesas com propagandas. • Pode ser de interesse construir um modelo relacionando as vendas e as despesas com propagandas para predic¸a˜o. • Em geral, suponha que haja uma u´nica varia´vel dependente, ou reposta, Y que depende de k varia´veis independentes ou explicativas, X1,X2, ...,Xk . • A relac¸a˜o entre essas varia´veis e´ caracterizada por um modelo chamado equac¸a˜o de regressa˜o, que e´ ajustado a um conjunto de dados amostrais. • Em algumas situac¸o˜es, o pesquisador conhece a forma exata da relac¸a˜o funcional entre Y e X1,X2, ...,Xk dada por Y = f (X1,X2, ...,Xk). • Entretanto, em muitos casos, essa relac¸a˜o e´ desconhecida, e o pesquisador escolhe uma func¸a˜o apropriada para aproximar f. • Modelos de regressa˜o sa˜o frequentemente usados para analisar dados de um experimento na˜o planejado, tal pode surgir de observac¸o˜es de um fenoˆmeno na˜o controlado ou registros histo´ricos. Regressa˜o linear simples • Determinar a relac¸a˜o entre uma u´nica varia´vel explicativa X e uma varia´vel resposta Y. • E´ usual assumir que a varia´vel regressora X seja cont´ınua e controlada pelo pesquisador, ou seja, se o experimento e´ planejado, escolhe-se os valores de X e observa-se as respostas Y. • Cada observac¸a˜o Y pode ser descrita pelo modelo Y = a + bX + � em que � e´ o erro aleato´rio e � ∼ N(0, σ2). • Utilizando o me´todo dos m´ınimos quadrados para estimar os paraˆmetros a e b, temos: aˆ = Y¯ − bˆX¯ bˆ = ∑n i=1 XiYi − ∑n i=1 Xi ∑n i=1 Yi n∑n i=1 X 2 i − ( ∑n i=1 Xi ) 2 n • A diferenc¸a entre o valor observado Yi e o correspondente valor ajustado Yˆi e´ chamado res´ıduo. �i = Yi − Yˆi = Yi − (aˆ + bˆXi ), i = 1, 2, ..., n Os res´ıduos teˆm papel importante na verificac¸a˜o do ajuste do modelo e nas suposic¸o˜es que sa˜o feitas. • Exemplo 3: Certa empresa, estudando a variac¸a˜o de vendas de seus produtos em relac¸a˜o a` variac¸a˜o de despesas com propagandas, obteve a tabela: Vendas R$ 24 34 27 20 36 16 27 16 28 30 Despesas R$ 7 12 10 5 13 4 8 4 9 11 Determine a equac¸a˜o da reta de regressa˜o linear de Y em X. Estime o valor de Y para X igual ao valor me´dio. • Exemplo 4: Os dados a seguir correspondem a` varia´vel renda familiar e gasto com alimentac¸a˜o (em unidades moneta´rias) para uma amostra de 8 fam´ılias. Renda 3 5 10 20 30 40 50 60 Gasto 2 3 6 10 15 10 20 20 Determine o modelo de regressa˜o linear simples. Estime o valor de Y para X=25. Exerc´ıcios 4- Na tabela abaixo esta´ apresentado os dados referentes a taxa de fundo de investimento: FIC executivo, e taxa SELIC, no per´ıodo de janeiro a dezembro de 2005. Meses Taxas Jan Fev Mar Abr Mai Jun SELIC (X) 1,38 1,22 1,53 1,41 1,50 1,60 FIC (Y) 1,34 1,18 1,49 1,35 1,43 1,53 Meses Taxas Jul Ago Set Out Nov Dez SELIC (X) 1,51 1,66 1,50 1,41 1,38 1,47 FIC (Y) 1,43 1,55 1,46 1,35 1,43 1,46 Determine o modelo de regressa˜o linear simples. Coeficiente de Determinac¸a˜o • A medida R2 e´ chamada de coeficiente de determinac¸a˜o e seu campo de variac¸a˜o e´ 0 ≤ R2 ≤ 1 e indica a proporc¸a˜o da variac¸a˜o total que e´ “explicada”pela regressa˜o. • Se R2 = 1, todos os pontos observados se situam “exatamente”sobre a reta de regressa˜o, enta˜o, as variac¸o˜es de Y sa˜o 100% explicadas pelas variac¸o˜es de X atrave´s da func¸a˜o especificada. • Por outro lado, um R2 = 0 pode ou na˜o indicar auseˆncia de correlac¸a˜o entre X e Y . Exerc´ıcios 5- Um jornal quer verificar a efica´cia de seus anu´ncios na venda de carros usados. A tabela abaixo mostra o nu´mero de anu´ncios publicados e o correspondentenu´mero de carros vendidos por seis companhias que usaram apenas esse jornal como ve´ıculo de propaganda. Companhia A B C D E G Anu´ncios 74 45 48 36 27 16 Carros vendidos 139 108 98 76 62 57 Ajuste a reta de regressa˜o linear simples, determine o coeficiente de determinac¸a˜o e interprete. 6- A empresa Lojas Barateiras possui cinco lojas, situadas nos estados de Sa˜o Paulo, Rio de Janeiro, Minas Gerais, Rio Grande do Sul e Santa Catarina. Alguns dados das lojas esta˜o apresentados abaixo: Loja SP RJ MG RS SC N ◦ de vendedores 18 12 10 16 13 Vendas(em R$ mil) 16 11 10 14 12 Ajuste a reta de regressa˜o linear, determine o coeficiente de determinac¸a˜o e interprete. 7- A companhia dos Sonhos Gelados produz e comercializa sorvetes. A a´rea comercial da empresa resolveu analisar alguns dados referentes aos u´ltimos anos. Analisou a temperatura me´dia no vera˜o e o volume de vendas nesta mesma estac¸a˜o. Obteve os nu´meros apresentados na tabela seguinte. Temp.( ◦C) 32 28 33 27 26 36 34 30 31 29 Vendas(mil uni.) 83 78 80 75 71 92 85 81 83 79 Pede-se: (a) construa um modelo de ajuste linear entre os pontos; (b) calcule o coeficiente de determinac¸a˜o; (c) para uma temperatura me´dia igual a 35 ◦C, qual o volume de vendas projetado pelo modelo linear; (d) para vendas iguais a 90 mil unidades, calcule qual deveria ser a temperatura me´dia. 8- As u´ltimas vendas das Indu´strias Pirapora ltda. esta˜o apresentadas na tabela seguinte. Com base nos nu´meros fornecidos, pede-se: (a) obter o modelo linear para a previsa˜o da demanda; (b) o coeficiente de determinac¸a˜o do modelo; (c) a demanda prevista para os pro´ximos dois per´ıodos. Per´ıodo 1 2 3 4 5 6 7 8 9 10 11 Vendas 40 43 51 54 58 62 57 65 60 68 72 Regressa˜o Linear Mu´ltipla • O objetivo da ana´lise de regressa˜o mu´ltipla e´ estabelecer uma equac¸a˜o que possa ser utilizada para predizer, ou entender, os valores de (Y) para valores dados das diversas varia´veis expli- cativas (Xi ). • Para o caso com duas varia´veis independentes, X1 e X2, o mo- delo matema´tico e´ dado por: Y = a + b1X1 + b2X2 + � em que, � ∼ N(0, σ2). Exemplo • Seja a v.a. y= vendas de reme´dios de um laborato´rio, x1 = vendas dos vendedores e x2 o n o de visitas feitas pelos vende- dores. y 16 16 27 18 20 28 26 27 32 35 x1 5 5 5 10 10 10 15 15 15 15 x2 3 6 12 3 6 12 3 6 12 10 • Apresente a equac¸a˜o da reta ajustada e calcule o coeficiente de determinac¸a˜o; • Para x1 = 12 e x2 = 9, estime y.
Compartilhar