Baixe o app para aproveitar ainda mais
Prévia do material em texto
Unidade 8: Correlação e Regressão linear simples 8.1 Primeiras palavras Existem vários estudos em que as variáveis de interesse encontram-se relacionadas entre si, de tal forma que se torna mais interessante o estudo conjunto dessas variáveis do que tratar de cada variável isoladamente. Nesta unidade, iremos considerar situações desta natureza, porém, serão apresentados apenas casos em que as variáveis se relacionam de forma linear. A partir do estabelecimento das relações entre as variáveis, é possível construir modelos que permitam predizer uma ou mais variáveis em termos de outras. 8.2 Problematizando o tema Em muitos problemas, duas ou mais variáveis estão inerentemente relacionadas, sendo interessante explorar a natureza dessa relação. A análise de regressão é uma técnica estatística empregada para modelar e investigar como duas ou mais variáveis se relacionam (ou seja, a correlação entre as mesmas). Na análise de regressão simples, o termo simples frisa que serão estudados casos que envolvem apenas duas variáveis. Por exemplo, em um processo químico, suponha que o rendimento de um produto esteja relacionado com a temperatura de operação do processo. A análise de regressão pode ser usada para prever o rendimento em uma dada temperatura. Este modelo pode, ainda, ser usado para fins de otimização do processo, tal como encontrar a temperatura que proporciona rendimento máximo ou ainda, com a finalidade de controlar este mesmo processo. 8.3 Correlação Tomemos um exemplo de uma amostra de dez pessoas, cujas variáveis que nos interessam investigar são altura (cm) e peso (kg). Iremos denominá-las x e y, respectivamente. Para cada elemento da amostra, temos um par ordenado (x, y). Temos, então, n=10 pares de valores das duas variáveis que podem ser plotados em um gráfico, o qual denominamos diagrama de dispersão. Os dados deste exemplo se encontram na Tabela 8.1 e o respectivo diagrama de dispersão é apresentado na Figura 8.1. Tabela 8.1. Valores de atura e peso de dez pessoas. Pessoa Altura (cm) Peso (kg) 1 174 73 2 161 66 3 170 64 4 180 94 5 182 79 6 164 72 7 156 62 8 168 64 9 176 90 10 175 81 Fonte: COSTA NETO (2002) Figura 8.1. Diagrama de dispersão para os dados da Tabela 8.1. A vantagem em se construir o diagrama de dispersão está no fato de uma simples observação dos mesmo nos dar uma idéia de como as duas variáveis se correlacionam. Observamos na Figura 8.1 que as variáveis altura e peso apresentam uma correlação linear positiva (isto é, os dados se aproximam de uma reta crescente). Quanto maior a altura da pessoa, a tendência é que o peso também seja maior (e vice-versa). O caso mais comum em um estudo de correlação é a correlação linear, a qual descreve a existência de uma relação linear entre os pares de valores (x, y), exemplo o qual acabamos de ver. Pudemos observar visualmente a relação entre as variáveis de interesse com a construção de um diagrama de dispersão. A construção deste diagrama é o primeiro passo para estudarmos a correlação entre duas variáveis. As figuras a seguir (Figuras 8.2; 8.3; 8.4; 8.5) exemplificam alguns outros exemplos. Figura 8.2. Correlação linear negativa. Figura 8.3. Correlação linear nula. Figura 8.4. Correlação linear positiva. Figura 8.5. Correlação não- linear. A Figura 8.2 apresenta um exemplo em que a tendência para maiores valores de x, sejam observados menores valores de y e vice-versa. Este caso é chamado de correlação linear negativa. O preço de um produto x quantidade procurada; temperatura do ambiente x rendimento do motor, renda per capita x índice de analfabetismo são exemplos de variáveis que se espera que sejam negativamente correlacionadas. Há casos de variáveis não-correlacionadas ou de correlação linear nula (Figuras 8.3 e 8.5). A Figura 8.4 apresenta um caso de correlação linear positiva em que observamos com o aumento dos valores de x, uma tendência a obtermos maiores valores de y e vice-versa (mesmo caso do exemplo visto: peso x altura). Os diagramas representam relações que podem existir entre pares de valores. Quando x e y variam de forma linear, como os diagramas apresentados nas Figuras 8.2 e 8.4, pode-se afirmar que existe uma correlação linear entre as variáveis. Vemos que o sinal da correlação (positiva ou negativa) indica a tendência da variação conjunta das duas variáveis consideradas. Entretanto, deve-se considerar, também, a intensidade ou o grau da correlação. Esta intensidade ou grau de correlação pode ser avaliado pela covariância amostral (vista na unidade 3), definida por: ��� = ��� , � = ∑ � − ̅ �� − �� ���� � − 1 No caso da correlação linear observada nas Figura 8.2 e 8.4, a covariância tende a ser alta. Para a Figura 8.4, o valor é positivo assinalando que tanto os valores de x, quanto y crescem no mesmo sentido. Já no caso da Figura 8.2, a covariância é negativa, indicando que os valores de y decrescem quando os de x aumentam. Para os demais casos, a covariância será pequena, próxima de zero, indicando que não existe correlação linear. O caso extremo seria aquele em que todos os pontos se situam sobre uma mesma reta com inclinação positiva ou negativa, em que teríamos uma correlação linear perfeita. No entanto, na prática, este caso dificilmente ocorre. Coeficiente de correlação linear A utilização da covariância como medida de associação entre duas variáveis apresenta um inconveniente, a dependência das unidades de medidas das variáveis. Consequentemente, uma media adimensional que divida a covariância por termos com as mesmas unidades de medidas, torna-se conveniente. Surge, então, o chamado coeficiente linear de Pearson ou, simplesmente, coeficiente de correlação, cujo valor amostral é estimado por: � = ��� , � ���� Onde sx e sy são os desvios-padrão amostrais das variáveis x e y na amostra. Como... �� = �∑ � − ̅ ������ − 1 �� = �∑ �� − �� ������ − 1 ... resulta que: � = ∑ � − ̅ �� − �� �����∑ � − ̅ � × ∑ �� − �� ��������� = ������� × ��� Temos aqui novas notações, que abreviam os somatórios (Sxy, Sxx e Syy) e que serão muito úteis nos cálculos da análise de regressão. Observe que notações parecidas (som a utilização de somatório) já apareceram quando aprendemos, na unidade 2, os cálculos de desvio padrão e variância amostrais. ��� = ∑ � − ̅ �� − �� ���� ��� = ∑ � − ̅ ����� ��� = ∑ �� − �� ����� Outra fórmula para o cálculo (que pode ser demonstrada matematicamente) é : � = � ∑ ��� − ∑ � ∑ ���[� ∑ �� − ∑ � �] × [� ∑ ��� − ∑ �� �] O coeficiente de correlação linear de Pearson assume valores entre -1 e +1 (-1 ≤ r ≤ + 1). r = -1 corresponde ao caso de correlação linear negativa perfeita; r = +1 corresponde ao de correlação linear positiva perfeita; enquanto r = 0 aponta inexistência de correlação linear. Aplicação Tomemos o exemplo dos pardais que se acidentaram após uma tempestade de granizo. O quadro 8.1 mostra duas características desses pardais: comprimento total e do externo alar. Vamos verificar se há correlação entre essas duas dimensões. Aplicando a fórmula: � = ∑ � − ̅ �� − �� �����∑ � − ̅ � × ∑ �� − �� ��������� = ������� × ��� Rotulando X como comprimento total e Y o tamanho do externo alar, temos as seguintes soma de quadrados usando o Excel: Sxy=653,3265; Sxx=640,9796; Syy=1232,7755. Substituindo esses valores na fórmula, temos: � = 653,3266�640,9796 × 1232,7755 = 0,735 Quadro 8.1: Dimensões de 49 pardais. Pássaro Comprimento Total Extensão alar Pássaro Comprimento Total Extensão alar 1 156,00245,00 26 160,00 250,00 2 154,00 240,00 27 155,00 237,00 3 153,00 240,00 28 157,00 245,00 4 153,00 236,00 29 165,00 245,00 5 155,00 243,00 30 153,00 231,00 6 163,00 247,00 31 162,00 239,00 7 157,00 238,00 32 162,00 243,00 8 155,00 239,00 33 159,00 245,00 9 164,00 248,00 34 159,00 247,00 10 158,00 238,00 35 155,00 243,00 11 158,00 240,00 36 162,00 252,00 12 160,00 244,00 37 152,00 230,00 13 161,00 246,00 38 159,00 242,00 14 157,00 245,00 39 155,00 238,00 15 157,00 235,00 40 163,00 249,00 16 156,00 237,00 41 163,00 242,00 17 158,00 244,00 42 156,00 237,00 18 153,00 238,00 43 159,00 238,00 19 155,00 236,00 44 161,00 245,00 20 163,00 246,00 45 155,00 235,00 21 159,00 236,00 46 162,00 247,00 22 155,00 240,00 47 153,00 237,00 23 156,00 240,00 48 162,00 245,00 24 160,00 242,00 49 164,00 248,00 25 152,00 232,00 Observamos, então, que há correlação entre as duas medidas dos pardais. 8.4 Regressão Muitas vezes, a posição dos pontos experimentais no diagrama de dispersão sugere a existência de uma relação entre as variáveis. Surge, então, o problema de se determinar uma função que exprima esse relacionamento. Nesse curso, será tratado apenas o modelo linear. A análise de regressão consiste em determinar um modelo matemático que possibilite predizer uma variável em termo de outra. Ao empregar dados para expressar uma equação matemática, a qual irá descrever a relação entre duas variáveis, três questões pertinentes são levantadas: • Qual modelo utilizar? • Dentre as diversas equações que podem justificar o modelo, qual delas é a melhor para os dados que estão sendo utilizados? • A equação matemática adotada justifica os dados experimentais? 8.4.1 Modelos matemáticos empíricos A primeira questão é usualmente resolvida construindo um diagrama de dispersão que relacionam os pares de valores. Se for observada uma correlação linear entre as variáveis, podemos descrevê-la por meio de um modelo de equação linear que apresenta a forma: ) = *+ + *�- Sendo ) a variável dependente e - a variável independente ou explanatória ou preditora. Já ./ é o coeficiente linear (corresponde ao ponto em que a reta - que descreve os dados - cruza o eixo y) e .0, o coeficiente angular (corresponde à inclinação da reta do modelo). Esse é o modelo populacional, sendo *+ e *� parâmetros do modelo a serem estimados a partir de uma amostra. Assim, o modelo empírico estimado a partir de uma amostra é dado por: �1 = 2 + 3 Na prática, os valores de ./ e .0 são estimados com base em pares de x e y, onde y é a variável resultante, que se quer analisar e x é a variável preditora. Define-se, portanto, duas classes de variáveis para a análise de regressão: y como variável dependente e x como variável independente. Para melhor compreender a diferença entre variável dependente e independente, tomemos o seguinte exemplo. Deseja-se medir as temperaturas de um forno de aquecimento de 5 em 5 minutos. Os tempos (valores de x) estão bem determinados, ao passo que as temperaturas deverão ser verificadas ao longo do experimento. Vemos que, nesse exemplo, os valores de x independem dos de y, pois foram simplesmente estipulados, enquanto que os valores de y, dependerão dos de x, desde que exista regressão. Por essa razão, a variável x (tempo) é denominada independente, enquanto y (temperatura) é dependente. 8.4.2 Estimativas dos parâmetros do modelo Uma vez decidido qual o modelo a ser utilizado, nos deparamos com a segunda questão: qual a melhor reta que descreve os dados? Para definirmos a melhor reta, adotamos o método dos mínimos quadrados, que consiste na construção de um modelo que minimize o erro. Este método foi desenvolvido pelo cientista alemão Karl Gauss. Na regressão, o erro é definido como a somatória da diferença, ao quadrado, entre os valores de y observados e os valores de y estimados pela equação (�1 = 2 + 3 ). O símbolo �1 é utilizado para distinguir os valores obtidos com a reta estimada dos valores de y experimentais. Ou seja, a reta adotada deverá ser aquela que torna mínima a soma dos quadrados das distâncias da reta aos pontos experimentais, conforme ilustra a Figura 8.6. Figura 8.6. Distâncias cuja soma dos quadrados deve ser minimizada. Vamos aprender como encontrar os parâmetros a e b? Começamos pelo cálculo do parâmetro “b”, que é o coeficiente angular da reta: 3 = ������ Onde ��� = ∑ � − ̅ �� − �� ���� e ��� = ∑ � − ̅ ����� Encontrado o valor do b (coeficiente angular da reta), podemos calcular facilmente o parâmetro “a” (coeficiente linear da reta), substituindo na equação os valores médios experimentais de x e y ( ̅ 4 ��). Sendo assim, temos: �� = 2 + 3 ̅ → 2 = �� − 3 ̅ Encontrados “a” e “b”, basta substituir os valores encontrados e teremos a reta que melhor descreve os dados experimentais. O modelo matemático empírico estima o valor médio da variável dependente Y. Assim, para cada valor de X, o modelo estima 5 )|- = 7 �8|�9 . Outro aspecto importante do modelo é que, para ser considerado adequado, os valores de ) para um dado - devem flutuar em torno da média 5 )� segundo uma distribuição normal. Em outras palavras, o erro aleatório das estimativas dos )� :� segue uma distribuição normal e é dado por: :� = �� − �1� Sendo �1� a estimativa do valor médio para um dado � e �� são todos os possíveis valores de ) para um - específico. 8.4.3 Validação do modelo empírico Determinada a equação que melhor descreve os dados, falta, ainda, responder à última questão: a reta encontrada justifica os dados experimentais? Para responder a esta pergunta, teremos de realizar um novo cálculo, o do coeficiente de determinação (r2): �� = ∑ �1� − �� �����∑ �� − �� ����� onde �1� corresponde aos valores de y estimados pela equação da reta e �� aos dados experimentais. O valor do coeficiente de determinação (r2) varia entre 0 e 1. Quanto mais próximo de 1, melhor é o modelo de ajuste. Se r2=1, significa que a regressão explica 100% dos valores observados, ou seja �1 = � (a reta passa perfeitamente pelos dados experimentais). 8.5 Aplicações Vamos visualizar a aplicação de todos os cálculos vistos em um exemplo de uma destilaria. Na tabela 8.2 apresentamos os dados que iremos trabalhar, onde y é a pureza do oxigênio produzido em um processo químico de destilação e x é a porcentagem de hidrocarbonetos presentes no condensador principal da unidade de destilaria. Tabela 8.2. Níveis de oxigênio e hidrocarbonetos. Número da observação Nível de hidrocarboneto x (%) Pureza do oxigênio y (%) 1 0,99 90,01 2 1,02 89,05 3 1,15 91,43 4 1,29 93,74 5 1,46 96,73 6 1,36 94,45 7 0,87 87,59 8 1,23 91,77 9 1,55 99,42 10 1,40 93,65 11 1,19 93,54 12 1,15 92,52 13 0,98 90,56 14 1,01 89,54 15 1,11 89,85 16 1,20 90,39 17 1,26 93,25 18 1,32 93,41 19 1,43 94,98 20 0,95 87,33 Fonte: MONTGOMERY (2004) O exercício já nos informa quem serão nossos dados em x (nível de hidrocarboneto) e y (pureza do oxigênio). Dessa forma, temos que a pureza do oxigênio (y) é nossa variável dependente, cujo comportamento queremos avaliar em função do nível de hidrocarboneto (x, variável independente). O primeiro passo consiste em construir um diagrama de dispersão, para visualizarmos se as variáveis se correlacionam (existe correlação?) e como se dá essa correlação (será linear? Positiva ou negativa?). A Figura 8.7 mostra o diagrama de dispersão construído a partir dos dados da Tabela 8.2. Visualmente, podemos observar que x e y se correlacionam positivamente (a pureza do oxigênio aumenta conforme o nível de hidrocarboneto se eleva). Figura8.7. Diagrama de dispersão da pureza do oxigênio versus nível de hidrocarboneto. Vamos medir o quanto estas variáveis se correlacionam? Para isso, determinamos o coeficiente de correlação de Pearson, dado por: � = ������� × ��� = ∑ � − ̅ �� − �� �����∑ � − ̅ � × ∑ �� − �� ��������� O primeiro passo para efetuar este cálculo é determinar as médias de x e y ( ̅ 4 ��). ̅ = ∑ � ����� = ∑ � �+���20 = = 0,99 + 1,02 + 1,15 + 1,29 + 1,46 + 1,36 + 0,87 + 1,23 + ⋯ + 1,26 + 1,32 + 1,43 + 0,9520 ̅ = ∑ � �+���20 = 23,9220 = 1,196 �� = ∑ �� ����� = ∑ �� �+���20 = 90,01 + 89,05 + 91,43 + 93,74 + 94,45 + 87,59 + ⋯ + 93,25 + 93,41 + 94,98 + 87,3320 �� = ∑ �� �+���20 = 1843,2120 = 92,16 Encontrados os valores médios, tabulo os dados de � − ̅) e �� − �� , para facilitar os cálculos de Sxx, Syy e Sxy. Tabela 8.3. Cálculo de � − ̅ para as 20 observações. xi => − =? xi => − =? x1 = 0,99 (0,99 – 1,196) = -0,206 x11 = 1,19 (1,19 – 1,196) = -0,006 x2 = 1,02 (1,02 – 1,196) = -0,176 x12 = 1,15 (1,15 – 1,196) = -0,046 x3 = 1,15 (1,15 – 1,196) = -0,046 x13 = 0,98 (0,98 – 1,196) = -0,216 x4 = 1,29 (1,29 – 1,196) = 0,094 x14 = 1,01 (1,01 – 1,196) = -0,186 x5 = 1,46 (1,46 – 1,196) = 0,264 x15 = 1,11 (1,11 – 1,196) = -0,086 x6 = 1,36 (1,36 – 1,196) = 0,164 x16= 1,20 (1,20 – 1,196) = 0,004 x7 = 0,87 (0,87 – 1,196) = -0,326 x17 = 1,26 (1,26 – 1,196) = 0,064 x8 = 1,23 (1,23 – 1,196) = 0,034 x18 = 1,32 (1,32 – 1,196) = 0,124 x9 = 1,55 (1,55 – 1,196) = 0,354 x19 = 1,43 (1,43 – 1,196) = 0,234 x10 = 1,40 (1,40 – 1,196) = 0,204 x20= 0,95 (0,95 – 1,196) = -0,246 Tabela 8.4 Cálculo de �� − �� para as 20 observações. yi @> − @? yi @> − @? y1 = 90,01 (90,01 – 92,16) = -2,15 y11 = 93,54 (93,54 – 92,16) = 1,38 y2 = 89,05 (89,05 – 92,16) = -3,11 y12 = 92,52 (92,52 – 92,16) = 0,36 y3 = 91,43 (91,43 – 92,16) = -0,73 y13 = 90,56 (90,56 – 92,16) = -1,60 y4 = 93,74 (93,74 – 92,16) = 1,58 y14 = 89,54 (89,54 – 92,16) = -2,62 y5 = 96,73 (96,73 – 92,16) = 4,57 y15 = 89,85 (89,85 – 92,16) = -2,31 y6 = 94,45 (94,45 – 92,16) = 2,29 y16= 90,39 (90,39 – 92,16) = -1,77 y7 = 87,59 (87,59 – 92,16) = -4,57 y17 = 93,25 (93,25 – 92,16) = 1,09 y8 = 91,77 (91,77 – 92,16) = -0,39 y18 = 93,41 (93,41 – 92,16) = 1,25 y9 = 99,42 (99,42 – 92,16) = 7,26 y19 = 94,98 (94,98 – 92,16) = 2,82 y10 = 93,65 (93,65 – 92,16) = 1,49 y20= 87,33 (87,33 – 92,16) = -4,83 Combinando os dados de � − ̅) e �� − �� encontramos Sxy, Sxx e Syy: OBS: Notem os sinais que acompanham os números obtidos com a multiplicação (lembrando que a ausência de sinal, significa que o número é positivo): (+)*(+) = (+) (+)*(-) = (-) (-)2 = (-)*(-) = (+) Tabela 8.5 Cálculo de Sxy => − =? @> − @? => − =? × @> − @? -0,206 -2,15 0,4429 -0,176 -3,11 0,5474 -0,046 -0,73 0,0336 0,094 1,58 0,1485 0,264 4,57 1,2065 0,164 2,29 0,3756 -0,326 -4,57 1,4898 0,034 -0,39 -0,0133 0,354 7,26 2,5700 0,204 1,49 0,3040 -0,006 1,38 -0,0083 -0,046 0,36 -0,0166 -0,216 -1,60 0,3456 -0,186 -2,62 0,4873 -0,086 -2,31 0,1987 0,004 -1,77 -0,0071 0,064 1,09 0,0698 0,124 1,25 0,1550 0,234 2,82 0,6599 -0,246 -4,83 1,1882 Sxy = SOMA 10,1774 Tabela 8.6 Cálculo de Sxx => − =? => − =? A => − =? => − =? A -0,206 0,042 -0,046 0,002 -0,176 0,031 -0,216 0,047 -0,046 0,002 -0,186 0,035 0,094 0,009 -0,086 0,007 0,264 0,070 0,004 0,000 0,164 0,027 0,064 0,004 -0,326 0,106 0,124 0,015 0,034 0,001 0,234 0,055 0,354 0,125 -0,246 0,061 0,204 0,042 Sxx = 0,6809 -0,006 0,000 SOMA Tabela 8.7 Cálculo de Syy @> − @? @> − @? A @> − @? @> − @? A -2,15 4,622 0,36 0,130 -3,11 9,672 -1,60 2,560 -0,73 0,533 -2,62 6,864 1,58 2,496 -2,31 5,336 4,57 20,885 -1,77 3,133 2,29 5,244 1,09 1,188 -4,57 20,885 1,25 1,563 -0,39 0,152 2,82 7,952 7,26 52,708 -4,83 23,329 1,49 2,220 Syy = 172,3769 1,38 1,904 SOMA Pelos cálculos feitos acima, temos: Sxy = 10,1774, Sxx= 0,6809, Syy= 173,3769. Substituindo estes valores na fórmula do coeficiente de correlação, ficamos com: � = ������� × ��� = 10,1774√0,6809 × 173,3769 = 0,93672 Pronto! Comprovamos que existe uma considerável correlação linear positiva (valor de “r” próximo a +1) entre as variáveis. Agora vamos para a segunda parte: encontrar um modelo matemático que descreva essa correlação. Com a ajuda da ferramenta “adicionar linha de tendência” do Excel, podemos traçar uma reta que se aproxime dos pontos. Nosso gráfico de dispersão com a reta é apresentado na Figura 8.8. Para determinar a equação desta reta que descreve nossos dados experimentais, precisamos determinar os coeficiente linear (a, que é onde a reta intercepta o eixo y) e o coeficiente angular (b, que nos diz a inclinação dessa reta). Figura 8.8. Modelo linear de ajuste aos dados do gráfico de dispersão. Vimos que a equação de uma reta é: � = 2 + 3 (y, ou seja, a pureza do oxigênio varia em função de x - nível de hidrocarboneto - por esta relação, cujos coeficientes precisamos determinar). O coeficiente angular da reta pode ser calculado por: 3 = ������ Este valores de Sxy e Sxx já foram obtidos anteriormente, uma vez que foram utilizados no cálculo do coeficiente de correlação. Substituindo os valores que já temos calculados, ficamos com: 3 = ������ = 10,17740,6809 = 14,9475 ≅ 14,95 Para encontrarmos o coeficiente linear da reta (a) fazemos: � = 2 + 3 E substituímos b e o valor médio de x ( ̅) e y (��), para determinarmos “a”. Nota: Não podemos substituir um par de números qualquer de x e y do enunciado nesta equação, pois a reta calculada representa os dados, mas não passa exatamente por eles, como podemos ver no gráfico, OK? �� = 2 + 3 ̅ 2 = �� − 3 ̅ Pelos cálculos efetuados anteriormente, temos: ̅ = 1,196 �� = 92,16 3 = 14,95 Substituindo estes na fórmula acima, ficamos com: 2 = 92,16 − 14,95 ∗ 1,196 = 92,16 − 17,88 = 74,28 Substituindo os valores de a e b, temos, como modelo linear que melhor descreve os dados experimentais: �1 = 74,28 + 14,95 ∗ Encontrado o modelo linear, temos que determinar o coeficiente de determinação (r2) para saber quão bem o modelo encontrado explica os dados experimentais. O primeiro passo para tal é encontrar os valores de �1, a partir da equação da reta, para cada dado experimental x. Observamos que o �1 é próximo, mas não se iguala aos valores de y fornecidos pelo enunciado (porque �1 estima um valor médio). Por isso, calculamos o coeficiente de determinação (r2), para saber o quanto a reta explica as variáveis dispersas. Para auxiliar neste cálculo, construo as tabelas 8.8 e 8.9. Tabela 8.8. Cálculo de �1 xi @E = FG, AH + 0G, IJ ∗ => yi x1 = 0,99 (74,28 + 14,95*0,99) = 89,0805 y1 = 90,01 x2 = 1,02 (74,28 + 14,95*1,02) = 89,5290 y2 = 89,05 x3 = 1,15 (74,28 + 14,95*1,15) = 91,4725 y3 = 91,43 x4 = 1,29 (74,28 + 14,95*1,29) = 93,5655 y4 = 93,74 x5 = 1,46 (74,28 + 14,95*1,46) = 96,1070 y5 = 96,73 x6 = 1,36 (74,28 + 14,95*1,36) = 94,6120 y6 = 94,45 x7 = 0,87 (74,28 + 14,95*0,87) = 87,2865 y7 = 87,59 x8 = 1,23 (74,28 + 14,95*1,23) = 92,6685 y8 = 91,77 x9 = 1,55 (74,28 + 14,95*1,55) = 97,4525 y9 = 99,42 x10 = 1,40 (74,28 + 14,95*1,40) = 95,2100 y10 = 93,65 x11 = 1,19 (74,28 + 14,95*1,19) = 92,0705 y11 = 93,54 x12 = 1,15 (74,28 + 14,95*1,15) = 91,4725 y12 = 92,52 x13 = 0,98 (74,28 + 14,95*0,98) = 88,9310 y13 = 90,56 x14 = 1,01 (74,28 + 14,95*1,01) = 89,3795 y14 = 89,54 x15 = 1,11 (74,28 + 14,95*1,11) = 90,8745 y15 = 89,85 x16= 1,20 (74,28 + 14,95*1,20) = 92,2200 y16= 90,39 x17 = 1,26 (74,28 + 14,95*1,26) = 93,1170 y17 = 93,25 x18 = 1,32 (74,28+ 14,95*1,32) = 94,0140 y18 = 93,41 x19 = 1,43 (74,28 + 14,95*1,43) = 95,6585 y19 = 94,98 x20= 0,95 (74,28 + 14,95*0,95) = 88,4825 y20= 87,33 Por fim, substituindo o valor obtido na Tabela 8.9 (apresentada a seguir) e o valor de Syy (= ∑ �� − �� ����� , calculado anteriormente), encontramos o coeficiente de determinação, dado por: �� = ∑ �1� − �� �����∑ �� − �� ����� = 152,1784173,3769 = 0,8773 Com base neste valor, podemos dizer que o modelo encontrado explica 87,73% dos dados experimentais. 8.6 Considerações finais Aprendemos, nesta unidade, como identificar a existência de correlação entre variáveis, bem como descrever esta relação por meio de um modelo matemático. Este modelo é de grande utilidade, quando se pretende, em um ambiente industrial, prever a influência de um parâmetro no resultado de um processo (como visto, como o nível de hidrocarboneto influencia na pureza do oxigênio) ou ainda, otimizar este processo (determinar o nível de hidrocarboneto que proporciona pureza máxima). Tabela 8.9. Cálculo de ∑ �1� − �� ����� @E> @E − @? @E − @? A @E0= 89,0805 (89,0805 – 92,16) = -3,0795 9,4833 @EA= 89,5290 (89,5290 – 92,16) = -2,6310 6,9222 @EK= 91,4725 (91,4725 – 92,16) = -0,6875 0,4727 @EG= 93,5655 (93,5655 – 92,16) = 1,4055 1,9754 @EJ= 96,1070 (96,1070 – 92,16) = 3,9470 15,5788 @EL= 94,6120 (94,6120 – 92,16) = 2,4520 6,0123 @EF= 87,2865 (87,2865 – 92,16) = -4,8735 23,7510 @EH= 92,6685 (92,6685 – 92,16) = 0,5085 0,2586 @EI= 97,4525 (97,4525 – 92,16) = 5,2925 28,0106 @E0/= 95,2100 (95,2100 – 92,16) = 3,0500 9,3025 @E00= 92,0705 (92,0705 – 92,16) = -0,0895 0,0080 @E0A= 91,4725 (91,4725 – 92,16) = -0,6875 0,4727 @E0K= 88,9310 (88,9310 – 92,16) = -3,2290 10,4264 @E0G= 89,3795 (89,3795 – 92,16) = -2,7805 7,7312 @E0J= 90,8745 (90,8745 – 92,16) = -1,2855 1,6525 @E0L= 92,2200 (92,2200 – 92,16) = 0,0600 0,0036 @E0F= 93,1170 (93,1170 – 92,16) = 0,9570 0,9158 @E0H= 94,0140 (94,0140 – 92,16) = 1,8540 3,4373 @E0I= 95,6585 (95,6585 – 92,16) = 3,4985 12,2395 @EA/= 88,4825 (88,4825 – 92,16) = -3,6775 13,5240 SOMA M @E − @? AA/>�0 152,1784 8.7 Estudos complementares Os livros do Costa Neto (Estatística) e Montgomery e Runger (Estatística aplicada e probabilidade para engenheiros) aprofundam no assunto visto nesta unidade, bem como trazem mais exemplos. Vale a pena “brincar” com os dados em Excel, construindo gráficos e efetuando cálculos (com a ajuda das planilhas) para fixar o aprendizado.
Compartilhar