Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Básica para os Cursos de Engenharia 1 2 CORRELAÇÃO 2.1 INTRODUÇÃO O problema da correlação está ligado ao grau de relação entre duas ou mais variáveis. Quando os valores dessas variáveis satisfazem exatamente uma equação, diz-se que elas estão perfeitamente correlacionadas. Não existindo relação entre as variáveis elas são incorrelacionadas. Na prática, o que vai mais ocorrer é o meio termo, ou seja, existe um certo grau de relação entre essas variáveis, e deseja-se determinar quantitativamente até que ponto esse grau de relação pode ser considerado. Quando o problema envolve apenas duas variáveis, fala-se em correlação simples, e no caso de mais de duas variáveis em correlação múltipla. 2.2 CORRELAÇÃO LINEAR SIMPLES Quando os valores das duas variáveis em estudo, por exemplo X e Y, tendem a cair nas proximidades de uma reta, fala-se em correlação linear. A Figura 2.1 mostra diversos aspectos da correlação linear entre duas variáveis, sendo esses gráficos denominados de diagrama de dispersão. Na Figura 2.1 tem-se que: (a) correlação linear positiva e perfeita; (b) correlação linear negativa e perfeita; (c) correlação linear positiva; (d) correlação linear negativa; (e) correlação linear nula. Correlação 2 Figura 2.1 - Correlação linear simples Y Y Y • • • • • • • • • • • • • • • • O X O X O X (a) (b) (c) Y • Y • • • • • • • • • • • •• • • • • • O (d) X O (e) X Uma medida utilizada em correlação linear é conhecida como coeficiente de correlação linear de Pearson, definido por YX .ss Y)Cov(X, r = , (2.1) sendo sX e sY os desvios padrões amostrais de X e Y, respectivamente. A expressão (2.1) pode ser colocada na forma − − − = ∑∑∑ ∑ ∑ ∑ ∑ === = = = = 2 n 1i i n 1i 2 i n 1i 2 n 1i i 2 i n 1i n 1i n 1i iiii YYnXXn YXYXn r (2.2) Estatística Básica para os Cursos de Engenharia 3 O coeficiente de correlação linear r é adimensional e demonstra- se que pode variar de -1 a 1, ou seja, -1 ≤ r ≤ 1. Quando r = -1, tem-se a correlação linear negativa perfeita (Figura 2.1 - b), enquanto que para r = 1, a correlação linear é dita positiva e perfeita (Figura 2.1 - a). Para r = 0, não existe correlação linear entre as variáveis, podendo existir relação de outro tipo. Evidentemente, quanto mais próximo o valor de r estiver de -1 ou 1, melhor é o grau de correlação linear entre as variáveis. Na prática, ocorrem diferentes valores de r. A interpretação do valor de r depende muito dos objetivos de sua utilização e as razões pela quais este é calculado. O coeficiente de correlação linear pode ser avaliado qualitativamente da seguinte forma: • se 0 < | r | < 0,3 existe fraca correlação linear; • se 0,30 ≤ | r | < 0,60 existe moderada correlação linear; • se 0,60 ≤ | r | < 0,90 existe forte correlação linear; • 0,90 ≤ | r | < 1,00 existe correlação linear muito forte. Exemplo A tabela seguinte fornece valores das variáveis X (poder calorífico) e Y (percentagem de cinzas) de certo combustível. Calcular o coeficiente de correlação linear de Pearson e construir o diagrama de dispersão. X 13100 11200 9300 7400 5300 Y 20,5 25,3 32,1 38,0 44,0 Como r está próximo de -1, tem-se uma correlação linear negativa quase perfeita. Figura 2.2 - Exemplo de diagrama de dispersão Correlação 4 2.3 TESTES DE HIPÓTESES ACERCA DO COEFICIENTE DE CORRELAÇÃO LINEAR Quando se calcula o coeficiente de correlação linear r, na realidade, está se estimando, através de uma amostra de tamanho n, o verdadeiro coeficiente de correlação linear populacional ρ. Evidentemente, sob esse aspecto, o tamanho da amostra exerce um papel fundamental na estimativa de ρ. Utilizando testes adequados pode-se testar se o valor de r, juntamente com o n correspondente, fornece resultado que permite concluir se realmente existe correlação linear significativa entre as variáveis. A aplicação de testes de hipóteses acerca do coeficiente de correlação linear exige que as duas variáveis envolvidas tenham uma distribuição normal bivariada conjunta, o que equivale dizer que para X dado, a variável Y é normalmente distribuída. Esta suposição de normalidade é imprescindível para pequenas amostras e diminui de importância à medida que aumenta o tamanho da amostra, o que é justificado pelo Teorema Central do Limite para distribuições multivariadas. No caso de um teste bilateral H0: ρ = 0 H1: ρ ≠ 0 onde a estatística do teste é dada por 2r-1 2-nr r = , (2.3) Estatística Básica para os Cursos de Engenharia 5 onde t segue uma distribuição t de Student com ν = n - 2 graus de liberdade. O teste pode ser aplicado também unilateralmente. Para a hipótese H0: ρ = ρ0 ≠ 0, utiliza-se a estatística − + = r1 r1ln 2 1Z (2.4) onde ρ− ρ+ =µ 0 0 Z 1 1ln 2 1 (2.5) e 3n 1 Z − =σ (2.6) Como Z tem distribuição aproximadamente normal, então a variável padronizada z será dada por Z ZZz σ µ− = (2.7) Exemplos: 1. Para o exemplo da seção 2.2, verifique se existe correlação linear negativa significativa na população que originou a amostra, utilizando o nível de significância de 5 %. Correlação 6 2. Para o exemplo da seção 2.2, pode-se concluir pela existência de correlação linear ρ < -0,9 ao nível de significância de 5%? Estatística Básica para os Cursos de Engenharia 7 2.4 PROBLEMAS PROPOSTOS 1. A seguinte amostra de tamanho 7 foi obtida da variável aleatória bidimensional (X,Y). Utilizandoesses valores, calcule o coeficiente de correlação linear. X 1 2 3 4 5 6 7 Y 9 7 6 6 5 4 2 2. O alongamento (X) de uma mola foi medido em função de 5 valores (Y) da carga aplicada. Os resultados obtidos foram: Carga (kg) 4 5 6 7 8 Alongamento (cm) 7,3 8,5 9,0 9,5 9,9 (a) Calcular o coeficiente de correlação linear de Pearson. (b) Construir o diagrama de dispersão. (c) Testar se a correlação é significativa, ao nível de 1%. (d) Verifique a afirmação de que o coeficiente de correlação é superior a 0,95. 3. As importações de uma determinada matéria prima (em toneladas), no período de 1980 a 1986 estão na tabela seguinte: Correlação 8 Ano (X) 1980 1981 1982 1983 1984 1985 1986 Importações(Y) 97 86 74 64 58 43 39 Pede-se: (a) calcular o coeficiente de correlação linear de Pearson e interpretar o resultado; (b) construir o diagrama de dispersão; (c) verificar se a correlação linear é significativa ao nível de significância de 5%. (d) Verifique a afirmação de que o coeficiente de correlação é inferior a -0,70.
Compartilhar