Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE SÃO TOMAS DE MOÇAMBIQUE FACULDADE DE CIÊNCIAS ECONÓMICAS & EMPRESARIAIS CURSO: CONTALIDADE & AUDITORIA DISCIPLINA: ESTATÍSTICA I Tema 2: Teoria de Correlação e Regressão Linear Simples 2.1 Introdução Em nossos estudos até este momento sempre nos concentramos em descrever a forma da distribuição dos valores de uma variável, mas ao trabalhamos com duas variáveis podemos avaliar e medir as relações entre as variáveis estudadas, o que é chamado de correlação. Se houver uma correlação entre as variáveis, poderemos ter uma função matemática que caracteriza esta relação, com a regressão seremos capazes de determinar os parâmetros desta função. 2.2 Relação Funcional Neste tipo de relação a ligação entre as variáveis é exata, veja o exemplo 1: O perímetro de um quadrado é exactamente a soma da dimensão de seus quatro lados, logo: P = 4L Onde: P – é o perímetro e L – é a medida do lado do quadrado. Vemos que esta relação é exacta, portanto, é uma relação funcional. 2.3 Relação Estatística Aqui existe uma relação entre as variáveis que não é exata, mas sim estatística, veja o exemplo 2: A relação entre o peso e a altura de um grupo de pessoas. Vemos claramente que a ligação entre peso e altura não é precisa quanto à ligação entre os lados do quadrado e seu perímetro, porém, em média quanto maior a altura, maior o peso. Outros exemplos: a) A relação entre a idade e a produtividade de um operário; b) A relação entre o peso e a idade de um indivíduo; c) A relação entre o nº de alunos por turma e o seu rendimento académico; d) A relação entre as vendas e o lucro. 2.4 Objectivo principal do estudo da teoria de correlação e regressão O objectivo principal do estudo da teoria de correlação e regressão é: 1. Encontrar um critério (modelo ou fórmula) que permite com exactidão estabelecer o tipo de relacionamento entre as variáveis; 2. Determinar a presença e o sentido da relação entre fenómenos; 3. Avaliar quantitativamente a influência de outros factores no relacionamento entre fenómenos; 4. Avaliar a velocidade de mudança dos resultados recebidos quando se variam os factores independentes. 2.5 Correlação Quando duas variáveis estão ligadas por uma relação estatística, dizemos que existe correlação entre elas. A correlação, então, é a verificação da existência e do grau de relação entre duas (ou mais) variáveis. 2.6 Representação de dados bivariados A informação da população que se pretende estudar aparece sob forma de pares de valores (x,y), isto é, cada unidade estatística contribui com um conjunto de dois valores. Surge então o problema de estudar a existência ou não da relação entre essas variáveis observadas. Como ponto de partida do estudo da existência ou não da relação estatística (correlação) entre duas variáveis ou características de uma amostra, podemos representá-las graficamente. 2.7 Diagrama de dispersão ou nuvem de pontos É uma representação gráfica para os dados bivariados, em que num sistema de eixos cartesianos marcamos os valores xi e yi nos respectivos eixos e obtemos a representação dos pontos correspondentes aos pares ordenados (xi,yi). Através dos diagramas de dispersão podemos ter uma ideia de tipo de relação entre variáveis estudadas. Exemplo 3: Uma pesquisa pretende verificar se há correlação entre as vendas (xi) com os lucros (yi). Observações 1 2 3 4 5 6 7 8 Vendas (xi) 201 225 305 380 560 600 685 735 Lucros (yi) 17 20 21 23 25 24 27 27 Este diagrama, de forma intuitiva, permite-nos concluir que talvez exista uma correlação (linear) entre as duas variáveis em estudo. Logo, através do diagrama de dispersão ou nuvem de pontos podemos, por observação, concluir acerca da existência ou não da correlação linear entre duas variáveis. 2.8 Correlação linear 0 5 10 15 20 25 30 0 100 200 300 400 500 600 700 800 Lu cr o s (Y i) Vendas (Xi) Diagrama de dispersão Ao observarmos os diagramas abaixo, vemos que os pontos formam uma elipse, quanto mais fina esta elipse, mais ela se aproximará de uma recta, assim chamada de correlação linear. A correlação linear pode-se classificar em: vide as figuras (a); (b); (c) e (d). (a) (b) (c) (d) O diagrama de dispersão é no entanto insuficiente para qualificar a relação entre x e y, assim como quando há observações que se repetem, o diagrama não realça a sua frequência. 2.9 Correlação linear simples ( xyr ) 2.9.1 Cálculo de Coeficiente de correlação linear simples ( xyr ) O instrumento empregue para a medida da correlação linear é o coeficiente de correlação. Esse coeficiente deve indicar o grau de intensidade da correlação entre duas variáveis e, ainda, o sentido dessa correlação (positivo ou negativo). O coeficiente de correlação determinado por Pearson considera: 2 11 2 2 11 2 1 1 1 . ... − − − = ==== = = = n i i n i i n i i n i i n i n i n i iiii xy yynxxn yxyxn r Onde: n é o número de pares de valores (xi,yi) observados. Nesta definição está implícita a definição de uma medida que dá uma ideia da variabilidade conjunta entre as variáveis e que se denomina covariância amostral: ( )( )yyxx n i n i ixy −− − = =11 1 ou Correlação positiva (forte) Y X .. .. . . . .. . . .. . . Correlação negativa (forte) Y X .. .. . . . .. . . .. . . Correlação positiva (fraca) Y X . . . . . . . . . . . . . . Correlação negativa (fraca) Y X . . . . . . . . . . . . . . Deste modo podemos rescrever o coeficiente de correlação como: yx xy yx xy xyr .22 = = Onde: xy é a covariância de x e y (dispersão conjunta); x é o desvio padrão de x (dispersão de x) = 2 1 2 )(xn n i ix − = y é o desvio padrão de y (dispersão de y) = 2 1 2 )(yn n i ix − = 2.9.2 Propriedades de Correlação linear simples ( xyr ) O coeficiente de correlação linear é um número do intervalo 1;1 +− ou 11 +− xyr em que: ✓ →−= 1xyr Correlação negativa muito forte ou perfeita; ✓ →−− 5,01 xyr Correlação negativa forte; ✓ →− 05,0 xyr Correlação negativa fraca; ✓ →= 0xyr Correlação nula (não existe relação entre as variáveis); ✓ → 5,00 xyr Correlação positiva fraca; ✓ →+ 15,0 xyr Correlação positiva forte; ✓ →+= 1xyr Correlação positiva muito forte ou perfeita. +1 Correlação linear positiva (perfeita) Correlação linear positiva (forte) 0,5 0 Correlação linear nula -0,5 Correlação linear negativa (forte) -1 Correlação linear negativa (perfeita) Tomandoem conta o exemplo 3 temos: 953,0 41211 39272 )184()4318(*8*)3691()2011501(*8 )184(*)3691()89802(*8 . ... 22 2 11 2 2 11 2 1 1 1 == = −− − = = − − − = ==== = = = xy xy n i i n i i n i i n i i n i n i n i iiii xy r r yynxxn yxyxn r Interpretação: O grau de associação ou a relação entre as variáveis x e y é de 0,953, isto significa que existe um relacionamento positivo forte ou uma correlação positiva forte entre as variáveis x e y, ou seja, entre as vendas e o lucro. 2.10 Coeficiente de determinação ou de explicação ( r xy 2 ) Denomina-se de coeficiente de determinação à seguinte razão: ou ( )222 2 2 11 2 2 2 11 2 2 1 1 12 . ... xyxy yx xy xy n i i n i i n i i n i i n i n i n i iiii xy R ss s yynxxn yxyxn R RR == = − − − = ==== = = = O coeficiente de determinação é uma medida descritiva da proporção da variação de Y que pode ser explicada por X, segundo o modelo especificado. O intervalo de valores possíveis de é sempre positivos, porque mesmo uma correlação negativa torna-se positiva quando elevada ao quadrado. O complemento chamado coeficiente de não-determinação, ou seja, a proporção da variância em Y que não é explicada po X é : Obs.: O valor de R² varia de 0 a 1. Do exemplo 3, temos: ( ) ( ) 908,0 )184()4318(*8*)3691()2011501(*8 )184(*)3691()89802(*8 2 2 2 2 2 2 = −− − =xyr Interpretação: O valor de r² varia de 0 a 1, logo o fato de r² = 0.908 (no exemplo), indica que aproximadamente 91% da variação do lucro estão relacionados com a variação das vendas, em outras palavras 9% da variação dos lucros não são explicados pelas vendas. 2.11 Regressão A regressão tem por objectivo descrever através de um modelo matemática a relação entre duas ou mais variáveis escrevendo a equação desse relacionamento. 2.10.1 Modelo (Recta) de regressão (ou recta de mínimos quadrados ou recta de ajuste) linear simples Este tipo de regressão trata apenas de relacionamento entre duas variáveis, procurando estimar os parâmetros de equação de ajustamento e outras medidas ligadas a estas variáveis. O modelo geral de equação de regressão linear entre duas variáveis tem a seguinte forma: ouxfy )(= ii xyouxbay +=+= ou Onde: =b é o coeficiente angular da recta de regressão, ele caracteriza a variação média do índice do resultado sob a influência da variação do índice de causa em uma unidade de medida ou indica quantas unidades de y mudam para a mudança de uma unidade de x; =a é o ponto de intersecção com o eixo oy, ele mede ou caracteriza o nível médio do índice do resultado y quando a variável de causa x é igual a zero, isto é, se x = 0 implica que y = a. Um dos métodos usados para ajustar uma recta a um conjunto de dados, é o método dos mínimos quadrados (MMQ) que consiste em determinar a recta que minimiza a soma dos quadrados dos desvios (erros ou resíduos) entre os verdadeiros valores das ordenadas y e os obtidos a partir da recta, que se pretende ajustar: yi ŷi = a +bxi +ei ei ŷi xi O modelo matemático que expressa a relação linear é a recta de regressão ŷi = axi +b, obtida de tal modo que os desvios ou resíduos (ei = yi - ŷi) quadráticos das observações em relação à recta sejam mínimos (MMQ). ( ) 2 1 2 1 minˆmin == +−=− n i ii n i ii xayyy 2.10.2 Cálculo dos parâmetros (a e b) XYa b−= XYa b−= 2 11 2 11 n 1i n b − − = == === n i i n i i n i i n i iii XXn XYYX x xyr Yb = Ou += += = == = = n i n i i n i iii n i n i ii xaxbyx xanby 1 1 2 1 1 1 2.10.3 Análise Elementar de Resíduos Uma forma de verificar se o modelo ajustado é bom, é através dos resíduos, isto é, das diferenças entre os valores observados (y) e os ajustados (ŷ) pois, se estes não forem muito grandes e nem tiverem um padrão em definido, o modelo tem boa qualidade. 2.10.4 Diagrama de Dispersão dos resíduos Uma forma simples de visualizar os resíduos (ei) é através de um diagrama de dispersão representando os pontos (xi; ei). Num modelo bem ajustado, os pontos apresentam-se de forma aleatória sem nenhum padrão particular definido. Exemplo 4: Uma pesquisa pretende verificar se há correlação entre as vendas (xi) com os lucros (yi). Observações 1 2 3 4 5 6 7 8 Vendas (xi) 201 225 305 380 560 600 685 735 Lucros (yi) 17 20 21 23 25 24 27 27 Analisemos estas duas variáveis através de um diagrama de dispersão e do coeficiente de correlação linear: Obs. Vendas (xi) Lucros (yi) xi 2 y i 2 ii yx 1 201 17 40401 289 3417 2 225 20 50625 400 4500 3 305 21 93025 441 6405 4 380 23 144400 529 8740 5 560 25 313600 625 14000 6 600 24 360000 576 14400 7 685 27 469225 729 18495 8 735 27 540225 729 19845 ∑ 3691 184 2011501 4318 89802 2 XYb X = ➔ 2 11 2 11 n 1i n b − − = == === n i i n i i n i i n i iii XXn XYYX ( ) 0159,0 3691)2011501(8 )184((3691) - (89802) 8 b 2 = − = 66,15 8 3691 0159,0 8 184 xb =−=−= ya Então, a recta de regressão é: 66,150159,0ˆ += xy Graficamente, podemos ver esta recta ajustada à nuvem de pontos: O correspondente coeficiente de correlação linear 953,0=xyr . Conclui-se desta forma que tanto através do diagrama de dispersão como do coeficiente de correlação é favorável o ajustamento de uma recta de regressão linear. Vamos então proceder ao seu cálculo: Partindo da reta de regressão podemos afirmar que para uma venda de 400 mil podemos obter um lucro de 000.2266,15)000.400)(0159,0(ˆ =+=y . Exercícios 1. Numa amostra de 5 operários de uma dada empresa, foram observadas duas variáveis; sendo X os anos de experiência num dado cargo e Y o tempo, em minutos, gasto na execução de uma certa tarefa relacionada com esse cargo. X 1 2 4 4 5 Y 7 8 3 2 2 Usando um critério estatístico, você diria que a variável X pode ser usada para explicar a variação de Y? Justifique. 2. Muitas vezes, a determinação da capacidade de produção instalada para certo tipo de indústria em certas regiões é um processo difícil e custoso. Como alternativa, pode-se estimar a capacidade de produção através da escolha de uma outra variável de medida mais fácil e que esteja linearmente relacionada com ela. Suponha que foram observados os valores para as variáveis: capacidade de produção instalada, potência instalada e área construída. Com base num critério estatístico, qual das variáveis você escolheria para estimar a capacidade de produção instalada? X capacidade de produção instalada (ton) 4 5 4 5 8 9 10 11 12 12 Y potência instalada (1.000 kW) 1 1 2 3 3 5 5 6 6 6 Z área construída (100 m) 7 7 10 10 11 9 12 10 11 14 Σx = 80; Σy = 38; Σz = 100; Σx 2 = 736; Σy 2 = 182; Σz 2 = 1048; Σx.y = 361; Σx.z = 848; Σy.z = 411. 3. Uma pesquisapretende verificar se há correlação significativa entre o peso total do lixo descartado, por dia, numa empresa com o peso do papel contido nesse lixo. Hotel H1 H2 H3 H4 H5 H6 H7 H8 H9 H10 Peso total 10,47 19,85 21,25 24,36 27,38 58,09 33,61 35,75 38,33 49,14 Peso do papel 2,43 5,12 6,88 6,22 8,84 8,76 7,54 8,47 9,55 11,43 4. Para os dados abaixo: a) Construa um diagrama de dispersão; b) Determine a recta de regressão; c) Calcule o Coeficiente de Explicação (determinação) ; f) Calcule o Coeficiente de Correlação de Pearson; e) Interprete os resultados obtidos. 4.1 X = 1º = Exame e Y = 2º Exame Aluno 1 2 3 4 5 6 7 8 9 10 Exame 82 84 86 83 88 87 85 83 86 85 Exame 92 91 90 92 87 86 89 90 92 90 4.2 X = horas de estudo e Y = Nota da Prova Aluno 1 2 3 4 5 6 7 8 Horas 2 4 5 5 6 8 9 10 Nota 1 3 6 6 8 7 8 10 4.3 X = Seguro (x 1000 ) e Y = Renda (x 100) Indivíduo 1 2 3 4 5 6 7 8 Seguro 20 16 34 23 27 32 18 22 Renda 64 61 84 70 88 92 72 77 4.5 X = Peso do Pai (kg) e Y = Peso do Filho (kg) Indivíduo 1 2 3 4 5 6 7 8 9 10 Peso Pai 65 63 67 64 68 62 70 66 68 67 Peso Filho 68 66 68 65 69 66 68 65 71 67 5. O quadro seguinte é resultado de observações feitas num cruzamento rodoviário durante um período de 5 minutos, para o estudo da fluidez do tráfego. Densidade (Veíc./km) 43 55 40 52 39 33 50 33 44 21 Velocidade (Km/h) 27 23 31 24 35 41 27 40 32 51 a) Represente as observações num diagrama de dispersão; b) A representação anterior sugere a existência de alguma relação linear entre as variáveis em estudo? c) Se na alínea anterior a sua resposta foi afirmativa, obtenha a expressão da recta dos mínimos quadrados. d) Obtenha uma estimativa entre a velocidade e a densidade dos automóveis num cruzamento se a densidade for de 57 Veíc/km. 6. Considere as duas amostras de dados referentes a duas variáveis, x e y. Amostra 1: X 10 8 13 9 11 14 6 4 12 7 5 Y 8.04 6.95 7.58 8.81 8.33 9.96 7.24 4.26 10.84 4.82 5.68 Amostra 2: X 10 8 13 9 11 14 6 4 12 7 5 Y 9.14 8.14 8.75 8.77 9.26 8.10 6.13 3.10 9.13 7.26 7.74 Y Y sobre X X X sobre Y a) Represente graficamente, através de um diagrama de dispersão, ambas as amostras. b) Qual das duas amostras lhe parece mais adequada para descrever a variável y através de uma recta de regressão linear simples? Justifique. c) Para a amostra escolhida da alínea anterior, determina a respectiva equação de regressão linear. 7. Considera os dados bivariados, (- 0.2, 0.96); (0.2, 1.14); (0.4, 1.56); (0.6, 1.74); (0.7, 1.96); (0.8, 2.04). a) Represente os dados através de um diagrama de dispersão; b) Ajuste a recta de regressão aos dados; c) Calcule o coeficiente de correlação e comente a qualidade do ajustamento anterior. 8. Relativamente a um conjunto de 10 dados bidimensionais, (x;y), sabe-se que: ===== 4324;198;3496;2874;160 22 iiiiii yyyxxx d) Calcula a média de x e de y. e) Calcule o coeficiente de correlação entre x e y. Comente o resultado. f) Caso se justifique, determine a equação da recta de regressão de x sobre y. g) Apresente um valor admissível para Y quando x = 16. 9. Considere x e y duas variáveis discretas. Para um conjunto de 6 observações foram determinados os seguintes valores: ;1855853;1934523;2981 2 === iiii yxxx 1780659;2875 2 == ii yy Sabendo que um dos valores observados para a variável x foi 333 diga, justificando, se é possível obter uma estimativa do correspondente valor de y. 10. Faça um comentário em relação ao coeficiente de corelação baseando-se nos gráficos a baixo. (a) (b) (c) (d) (e) 23-11-2021 12 2.6 Representação de dados bivariados
Compartilhar