Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 UNIVERSIDADE FEDERAL DE GOIÁS INSTITUTO DE MATEMÁTICA E ESTATÍSTICA PROFESSOR: HIRON PEREIRA FARIAS DISCIPLINA: PROBABILIDADE E ESTATISTICA Capítulo 2 Correlação e Regressão linear 2.1 Associação entre variáveis Quantitativas Apresentaremos medidas numéricas relecionando duas variáveis ao mesmo tempo. A covariância e o coeficiente de correlação medem a tendência e a forca da relação linear entre duas variáveis ou amostras. 2.2 Covariância (σσσσxy) A covariância é a média dos produtos dos desvios das duas variáveis. A Covariância (σxy) das variáveis x = x1, x2, x3,. . . , xN e y = y1, y2, y3 , . . . ,yN , consideradas como população é : )).((1 1 yi N i xixy yx N µµσ − = −∑= A Covariância (Sxy) das variáveis x = x1, x2, x3,. . . , xn e y = y1, y2, y3 , . . . ,yn , consideradas como amostra é : )).(( 1 1 1 yyxx n S i n i ixy − = −∑ − = 2.3 Propriedades: 1) A covariância de uma variável e ela mesma é a própria variância da variável, seja no caso de população ou amostra. • σxx = σx 2 2) A permutação das variáveis não altera o resultado da covariância, se os mesmos pares de valores forem mantidos: σxy = σyx 3) Se as variáveis X e Y forem estatisticamente independentes, então a covariância destas variáveis será igual zero. 0bs: 1) Se o resultado da covariância das variáveis X e Y for igual a zero, não se pode afirmar que as duas variáveis sejam estatisticamente independentes. Para confirmar essa independência deve-se verificar se todos os pares de valores de X e Y cumprem a condição: P( X e Y) = P(X∩Y) = P(X) . P(Y) 2 2) A covariância pode assumir qualquer valor do conjunto dos números reais, pois pode ser nula, negativa ou positiva. 2.4 Coeficiente de Correlação ( rxy) Para facilitar a relação entre duas variáveis e evitar a unidade de medida da covariância, foi definido o coeficiente de correlação ( rxy). Sejam X e Y variáveis • Se os dados referem-se à população : yx xy xyCov r σσ * )( = 2.5 Propriedades: 1) Os valores de rxy estão limitados entre -1 e 1 ; isto é, -1 ≤ rxy ≤ 1; 2) O Coeficiente de correlacão de uma variável e ela mesma é igual a um. rxx = 1 3) rxy = ryx ( se os mesmos pares de valores valores mantidos ). 4) Se X e Y são independentes rxy = ryx = 0 Observação: Para podermos tirar algumas conclusões significativas sobre o comportamento simultâneo das variáveis analisadas, é necessário que : •••• 0,6 ≤ | r | ≤ 1 Se 0 ≤ | r | < 0,6 ( fraca correlação ) Se 0,6 ≤ | r | ≤ 1 ( forte correlação ) 3 2.6 Reta de Regressão O objetivo da análise de regressão simples é encontrar a equação de uma reta que permita: •••• Descrever e compreender a relação entre duas variáveis aleatórias. •••• Projetar ou estimar a relação uma das variáveis em função da outra. A reta de regressão é representada pela equação y = A + B Xi, sendo y a variável dependente e x a variável independente. Os coeficientes a e b são os coeficientes de regressão e têm o seguinte significado: • O coeficiente b é a declividade da reta e define o aumento ou diminuição da variável y por unidade de variação da variável x; • A constante a é o intercepto y, sendo igual ao valor de y para x = 0. ∑ ∑ − − = xx n yxnyx B i ii 22 ou σ 2 )(xyCovB = e A= xBy − 2.7 Coeficiente de Determinação ( r2): O Coeficiente de Determinação ( r2) é sempre positivo e deve ser interpretado como a proporção da variação total da variável dependente y que é explicada pela variação da variável independente x. 0 ≤ r2 ≤ 1 R2= (rxy)2 ou R2 = STQ gSQ Re 4 2.8 Medidas de Variação na Regressão 1) Erro padrão da estimativa Utilizamos o método dos mínimos quadrados para desenvolver o modelo matemático que relaciona a variável Y em função da variável X. Embora o método dos mínimos quadrados resulte em uma linha que se ajusta aos dados com a quantidade mínima de variação, a equação de regressão não é um modelo matemático perfeito de previsão, a menos que todos os pontos ( Xi , Yi ) estejam na linha de regressão. A linha de regressão serve somente como uma previsão aproximada de um valor Y para um dado valor de X. A medida de variabilidade em torno da linha de regressão ( seu desvio padrão ) é chamada de erro padrão da estimativa. O erro da estimativa, dado pelo símbolo Sxy , é definido como Sxy = 2 ii )yˆ - y( 2 − ∑ n Em que Yi – ŷi = êi : Resíduos ( desvio em relação a Regressão ) ∑∑ == =− n i i n i i eyy i 11 ˆ)ˆ( = 0 ∑ )yˆ - y( ii 2 : soma dos quadrados dos Resíduos 2) Obtenção da soma dos quadrados STQ : soma total dos quadrados ∑ = − = n i ii YSTQ y 1 2)( SQRg : Soma de Quadrados devido à regressão ∑ = − = n i ii yygST 1 2)( ˆRe SQRes : Soma de quadrados dos Resíduos ∑ = − = n i ii ysSQ y 1 2)( ˆRe Essas medidas de variação podem ser representadas da seguinte maneira: STQ = SQRes + SQReg ou SQReg = STQ – SQRes 5 Exercício1: Considerando uma amostra aleatória, formada por dez dos 98 alunos do curso de Medicina Veterinária da FTB : Número do aluno Matemática ( xi ) Estatística ( yi ) Estimativas ( ŷi) Resíduos ( êi =yi – ŷi) ii yy −ˆ 1 5 6 8 8 9 24 7 8 38 10 10 44 6 5 58 7 7 59 9 8 72 3 4 80 8 6 92 2 2 a) Determine do conjunto: X = ∑ i xVar Média n x 2 )( = ∑ i yVar Média n Y y 2 )( e ∑ iiyx b) Determine o coeficiente de correlação e Determinação. c) Determine a Reta de Regressão 3) Faça a interpretação do exercício 4) Estime y para os valores de x dados abaixo na tabela Xi Estimação ( ŷi ) 4 6 8 f) determine as tabelas de Covariância e Correlação. 6 Questão2: Em uma região de Goiás, acredita-se que o gado alimentado em um determinado pasto tem um ganho de peso maior que o usual. Estudos de laboratório detectaram uma substância no pasto e deseja-se verificar se ela pode ser utilizada para melhorar o ganho de peso dos bovinos. Foram escolhidos 15 bois de mesma raça e idade, e cada animal recebeu uma determinada concentração da substância X (em mg/l). O ganho de peso após 30 dias denotado por Y, foi anotado e os dados foram os seguintes ( em kg): X 0,2 0,5 0,6 0,7 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 Y 9,4 11,4 12,3 10,2 11,9 13,6 14,2 16,2 16,2 17,7 18,8 19,9 22,5 24,7 23,1 Determine o que se pede cada item abaixo: a) O coeficiente de correlação (rxy ); b) A Reta de Regressão; c) O Coeficiente de determinação ( r2); d) O que você pode concluir com base nos dados acima ? e) As tabelas de covariância e Correlação; f) A Variância do conjunto X e o desvio-padrão do conjunto Y. g) Estime Y para os valores de X da tabela abaixo Xi Estimativas ( ŷi ) 0,9 1,5 2 7 Questão3: A quantidade de chuva é um fator importante na produtividade agrícola. Para medir esse efeito foram anotados, para 8 diferentes regiões produtoras de soja, o índice pluviométrico em milímetros (X) e produção do último ano em toneladas (Y ). X 120 140 122 150 115 190 130 118 Y 40 46 45 37 25 54 33 30 Determine o que se pede cada item abaixo: a) O coeficiente de correlação (r ); b) A equação da reta de regressão; c) O Coeficiente de determinação ( r2); d) O que você pode concluir com base nos dados acima ? e) As tabelas de covariânciae Correlação; 8 Bibliográfia • BUSSAB, Wilton de O. & MORETTIN, Pedro A. Estatística Básica. 5ª edição. Editora Saraiva. São Paulo 2002. • DANTAS , Carlos A. B. Probabilidade: um curso introdutório • FONSECA, Jairo Simon da. & MARTINS, Gilberto de Andrade. Curso de Estatística. 6ª edição. Editora Atlas: São Paulo.1996 • LAPPONI, Juan Carlos. Estatística Usando o Excel. 4ª edição. São Paulo. Editora: Campus.2005 • MAGALHÃES, Marcos Nascimento; LIMA, Antonio Carlos Pedroso de. Noções de Probabilidade e Estatística. 4ª edição. São Paulo: Editora da Universidade de São Paulo, 2002. • MAGALHÃES, Marcos Nascimento. Probabilidade e Variáveis Aleatórias. 2ª edição. São Paulo: Editora da Universidade de São Paulo, 2006. • MOOD, A. M.; GRAYBILL, F. A.; BOES, D.C. Introduction to the Theory of Statistics. Third Ediction. McGraw-Hill, 1974.
Compartilhar