Baixe o app para aproveitar ainda mais
Prévia do material em texto
AULA - 04 ESTATÍSTICA E PROBABILIDADE CORRELAÇÃO E REGRESSÃO LINEAR VARIÁVEIS: características ou itens de interesse de cada elemento de uma população ou amostra Também chamada parâmetro, posicionamento, condição... Duas variáveis estão relacionadas se a mudança de uma provoca a mudança na outra. Ex.: velocidade x consumo combustível CORRELAÇÃO: - Correlação entre duas variáveis Quando uma delas está, de alguma forma, relacionada com a outra; - Quando a alteração no valor de uma variável(dita independente) provoca alterações no valor da outra variável (dita dependente) CORRELAÇÃO E REGRESSÃO LINEAR DIAGRAMA DE DISPERSÃO: Um diagrama de dispersão mostra a relação entre duas variáveis quantitativas, medidas sobre os mesmos indivíduos. Os valores de uma variável aparecem no eixo horizontal, e os da outra, no eixo vertical. Cada indivíduo aparece como o ponto do gráfico definido pelos valores de ambas as variáveis para aquele indivíduo dica: normalmente, coloca-se no eixo x um parâmetro DIAGRAMA DE DISPERSÃO: Fabricação: número de peças produzidas x número de peças defeituosas; Construção: número de falhas em uma obra x satisfação média dos construtores; ou dias de atraso de entrega x número de dias chuvosos; Financeiro: média de tempo de atraso de pagamento x número de erros de fatura; Vendas: % de imóveis vendidos na data de entrega da obra x satisfação média dos clientes nos últimos 10 empreendimentos. DIAGRAMA DE DISPERSÃO PESO X ALTURA: DIAGRAMA DE DISPERSÃO PESO X ALTURA - DETALHANDO: DIAGRAMA DE DISPERSÃO EIXO ´X´ : variável que é alterada por uma modificação no processo (variável independente). Geralmente é uma possível causa de um problema; EIXO ´Y´: variável que pode mudar de acordo com a mudança da variável em ´x´(variável dependente). Geralmente éum indicador de qualidade ou efeito gerado por uma causa. DIAGRAMA DE DISPERSÃO EIXO ´X´ : variável que é alterada por uma modificação no processo (variável independente). Geralmente é uma possível causa de um problema; EIXO ´Y´: variável que pode mudar de acordo com a mudança da variável em ´x´(variável dependente). Geralmente éum indicador de qualidade ou efeito gerado por uma causa. ASPECTOS NA ANÁLISE DOS DIAGRAMAS: - DIREÇÃO (crescente, decrescente) - FORMA (linear, não-linear, aglomerados) - PONTOS DISCREPANTES Quanto maior a correlação, mais próxima de uma reta a 45º ou 135o será a distribuição. PROBLEMAS DA ANÁLISE GRÁFICA - a análise gráfica da relação entre variáveis é importante, mas os olhos nem sempre são um bom juiz da intensidade de uma relação linear. - nossos olhos podem ser enganados por uma mudança de escalas, ou pela quantidade de espaço em branco em torno do aglomerado dos pontos. Deve-se, então, utilizar uma medida numérica para suplementar o gráfico. - o mais utilizado é o Coeficiente de Correlação Linear, representado por ( r ) COEFICIENTE DE CORRELAÇÃO LINEAR ( r ) O coeficiente de correlação linear (r) mede o grau de relacionamento linear entre valores emparelhados x e y em uma amostra . Mede a intensidade e a direção da relação linear entre duas variáveis quantitativas. Chamado também de Coeficiente de Correlação de Pearson* *Karl Pearson, 1857 – 1936 - matemático britânico é considerado como sendo o criador da Estatística Aplicada. COEFICIENTE DE CORRELAÇÃO LINEAR ( r ) Formula: COEFICIENTE DE CORRELAÇÃO LINEAR ( r ) Interpretando o Coeficiente de Correlação Linear: - r - sempre será um valor entre -1 ≤ r ≤1; - quanto mais próximo de 1: maior correlação positiva; - quanto mais próximo de –1: maior correlação negativa; - quanto mais próximo de 0: menor a correlação linear COEFICIENTE DE CORRELAÇÃO LINEAR ( r ) Interpretando o Coeficiente de Correlação Linear: valor de r correlação negativa forte correlação negativa fraca correlação positiva fraca correlação positiva forte ausência de correlação COEFICIENTE DE CORRELAÇÃO LINEAR ( r ) Propriedades: - o valor de r não varia se todos os valores de qualquer uma das variáveis são convertidos para uma escala diferente; - o valor de r não é afetado pela escolha de x ou y . Permutandox e y , r permanece inalterado; - o r só mede a intensidade ou grau de relacionamentos lineares. Não serve para medir intensidade de relacionamentos não lineares. Exemplo: uma equipe de biólogos comparou as alturas e os pesos de um grupo de oitos ursos siberiano, conforme detalhado na tabela abaixo. Qual a correlação entre a altura e o peso dos ursos estudados? Altura (pol.) Peso (lb.) x y 53,0 80 67,5 344 72,0 416 72,0 348 73,5 262 68,5 360 73,0 332 37,0 34 Altura (pol.) Peso (lb.) x y x.y x2 y2 (∑xi) 2 (∑yi) 2 53,0 80 4.240 2.809,00 6.400 67,5 344 23.220 4.556,25 118.336 72,0 416 29.952 5.184,00 173.056 72,0 348 25.056 5.184,00 121.104 73,5 262 19.257 5.402,25 68.644 68,5 360 24.660 4.692,25 129.600 73,0 332 24.236 5.329,00 110.224 37,0 34 1.258 1.369,00 1.156 517 2.176 151.879 34.525,75 728.520 266.772,25 4.734.976 a) Montamos uma tabela com os valores que iremos utilizar: b)Depois inserimos os valores na fórmula: 897,0 184.093.175,9433 128.91 = ⋅ = 8(151.879)−(516,5)(2.176) 8(34.525,75)−(516,5)2 . 8(728.520)−(2.176)2r = n∑(xi ⋅ yi )−(∑xi )(∑yi ) n∑xi 2 −( xi ) 2 . n∑yi 2 −(∑yi ) 2 r =Fórmula: Exercício: Calcule o coeficiente de correlação linear entre X e Y da tabela abaixo. X Y 1 3 2 4,8 3 7,1 4 9 5 10,9 6 13,2 x y X.Y x2 y2 (∑xi) 2 (∑yi) 2 Sugestão: monte a tabela: n∑(xi ⋅ yi )−(∑xi )(∑yi ) n∑xi 2 −( xi ) 2 . n∑yi 2 −(∑yi ) 2 r =Fórmula: x y X.Y x2 y2 (∑xi) 2 (∑yi) 2 1 3 3 1 9 2 4,8 9,6 4 23,04 3 7,1 21,3 9 50,41 4 9 36 16 81 5 10,9 54,5 25 118,8 6 13,2 79,2 36 174,2 21 48,0 203,6 91 456,5 441 2.304 0,999 45.675 213,6 == 6(203,6)−(21)(48) 6(91)−441. 6(456,5)−2.304r = Exemplo: É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação, uma nutricionista selecionou 18 mulheres, com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) e a massa muscular (Y). Calcule o coeficiente de correlação linear entre X e Y. Massa muscular (Y) Idade (X) 82.0 71.0 91.0 64.0 100.0 43.0 68.0 67.0 87.0 56.0 73.0 73.0 78.0 68.0 80.0 56.0 65.0 76.0 84.0 65.0 116.0 45.0 76.0 58.0 97.0 45.0 100.0 53.0 105.0 49.0 77.0 78.0 73.0 73.0 78.0 68.0 x y X.Y x2 y2 (∑xi) 2 (∑yi) 2 Sugestão: monte a tabela: n∑(xi ⋅ yi )−(∑xi )(∑yi ) n∑xi 2 −( xi ) 2 . n∑yi 2 −(∑yi ) 2 r =Fórmula: y x X.Y Y2 X2 (∑xi) 2 (∑yi) 2 82.0 71.0 5822 6724 5041 91.0 64.0 5824 8281 4096 100.0 43.0 4300 10000 1849 68.0 67.0 4556 4624 4489 87.0 56.0 4872 7569 3136 73.0 73.0 5329 5329 5329 78.0 68.0 5304 6084 4624 80.0 56.0 4480 6400 3136 65.0 76.0 4940 4225 5776 84.0 65.0 5460 7056 4225 116.0 45.0 5220 13456 2025 76.0 58.0 4408 5776 3364 97.0 45.0 4365 9409 2025 100.0 53.0 5300 10000 2809 105.0 49.0 5145 11025 2401 77.0 78.0 6006 5929 6084 73.0 73.0 5329 5329 5329 78.0 68.0 5304 6084 4624 1.530 1.108 91.964 133.300 70.362 1.227.664 2.340.900 n∑(xi ⋅ yi )−(∑xi )(∑yi ) n∑xi 2 −( xi ) 2 . n∑yi 2 −(∑yi ) 2 r =Fórmula: 18(91.964)−1.530.1.108 18(70.362)-1.227.664.18(133.300)-2.340.900 r =Fórmula: -39.888 1.266.516-1.227.664 . 2.399.400-2.340.900 r =Fórmula: -39.888 38.852 . 58.500* r =Fórmula: *2.272.842.000 = -0,8366 Os dados a seguir correspondem à variável renda familiar e gasto com alimentação (em unidades monetárias) para uma amostra de 25 famílias.Calcule o coeficiente linear Renda Familiar (X) Gasto com Alimentação (Y) 3 1,5 5 2,0 10 6,0 10 7,0 20 10,0 20 12,0 20 15,0 30 8,0 40 10,0 50 20,0 60 20,0 70 25,0 70 30,0 80 25,0 100 40,0 100 35,0 100 40,0 120 30,0 120 40,0 140 40,0 150 50,0 180 40,0 180 50,0 200 60,0 200 50,0 Um pesquisador deseja verificar se um instrumento para medir a concentração de determinada substância no sangue está bem calibrado. Para isto, ele tomou 15 amostras de concentrações conhecidas (X) e determinou a respectiva concentração através do instrumento (Y), obtendo os dados da tabela abaixo. Calcule o coeficiente linear dos dados: X 2,0 2,0 2,0 4,0 4,0 4,0 6,0 6,0 6,0 8,0 8,0 8,0 10,0 10,0 10,0 Y 2,1 1,8 1,9 4,5 4,2 4,0 6,2 6,0 6,5 8,2 7,8 7,7 9,6 10,0 10,1 1) Abaixo apresentamos os custos por quantidade do produto X, produzido pela fábrica A. Calcule o coeficiente linear dos dados: Quantidade (x) 10 11 12 13 14 15 Custos (y) 100 112 119 130 139 142 2) A fábrica A tem dois produtos X e Y e testou duas formas diferentes de produzi-lo, calculando os custos por tempo de produção. As duas tabelas estão abaixo. Qual é o método mais vantajoso? X 3,41 3,52 3,57 3,6 1 3,43 3,5 9 3,6 2 3,56 3,35 3,47 Y 8,20 7,10 7,30 8,6 0 6,80 7,6 0 8,5 0 6,90 5,40 6,20 X 3,53 3,33 3,54 3,2 2 3,49 3,2 5 3,7 9 3,64 3,67 3,72
Compartilhar