Baixe o app para aproveitar ainda mais
Prévia do material em texto
Motivação 1 Em problemas de tratamento térmico deseja-se estabelecer uma relação entre a temperatura da estufa e uma característica da qualidade (dureza, por exemplo) de uma peça. Desta forma, pretende-se determinar os valores de temperatura em °C que "otimizam" a performance do processo de tratamento térmico em relação a estrutura metalográfica do material, avaliada em relação de dureza em HB. Considere que em um experimento, a dureza de pistões foi medida em diferentes níveis de temperatura escolhidos conforme interesse (T1=220ºC, T2=225ºC, T3=230ºC e T4=235ºC ). Para cada ponto de temperatura foram submetidos ao tratamento térmico 5 pistões. Os dados observados são apresentados na Tabela 1.1 e o objetivo é estabelecer uma relação entre a variável de entrada (temperatura) e a variável de saída (dureza). Observação Dureza (HB) Temperatura (ºC) Observação Dureza (HB) Temperatura (ºC) 1 137 220 11 128 230 2 137 220 12 124 230 3 137 220 13 126 230 4 136 220 14 129 230 5 135 220 15 126 230 6 135 225 16 122 235 7 133 225 17 122 235 8 132 225 18 122 235 9 133 225 19 119 235 10 133 225 20 122 235 Tabela 1.1: Dados de dureza em um conjunto de pistões à diferentes níveis de temperatura. ��� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reglin.xls" �clique aqui para efetuar o download dos dados utilizados nesse exemplo� Na maioria das vezes não se conhece a princípio a real relação existente entre as variáveis de interesse. Assim, uma análise gráfica preliminar é realizada construindo-se o gráfico de dispersão entre as variáveis em questão. Este gráfico é importante em qualquer análise de regressão já que por meio dele é possível ter uma noção do tipo de relação existente entre as variáveis (relação linear, quadrática). Esta relação na maioria das vezes não é perfeita, ou seja, os pontos não estão dispostos perfeitamente sobre a função que relaciona as duas variáveis mas deseja-se que estes pontos estejam próximos. Além disto, o gráfico de dispersão dá indícios sobre a variabilidade associada as variáveis em questão e sobre pontos atípicos ou discrepantes. Para o conjunto de dados da Tabela 1.1, o gráfico de dispersão é dado por Figura 1.1: Temperatura da Estufa vs Dureza dos pistões. �� Para entender como executar essa função do Software Action, você pode consultar o manual do usuário. Pela Figura 1.1, observa-se que à medida que o nível da temperatura aumenta, a dureza dos pistões diminui. Desta forma, supor uma relação linear entre as variáveis temperatura e dureza, para valores de temperatura entre 220ºC e 235ºC é razoável. Como visto na Figura 1.1 referente à "Motivação 1", é razoável supor que a relação existente entre as variáveis dureza de pistões, denotada por Y e níveis de temperatura, denotada por X, é linear. Desta forma, definimos o seguinte modelo de regressão linear simples entre Y (variável resposta) e X (variável regressora). Definição 1.1.1 Consideremos duas variáveis X e Y. Dados n pares , se Y é função linear de X, pode-se estabelecer uma regressão linear simples cujo modelo estatístico é em que substituímos Xi por xi uma vez que Xi é uma variável determinística (constante conhecida). Neste modelo, é uma variável aleatória e representa o valor da variável resposta (variável dependente) na i-ésima observação; representa o valor da variável explicativa (variável independente, variável regressora) na i-ésima observação; é uma variável aleatória que representa o erro experimental; e são os parâmetros do modelo, que serão estimados, e que definem a reta de regressão e n é o tamanho da amostra. 1.1.1 Interpretação dos parâmetros do modelo O parâmetro é chamado intercepto ou coeficiente linear e representa o ponto em que a reta regressora corta o eixo dos y's, quando x=0. Já o parâmetro representa a inclinação da reta regressora e é dito coeficiente de regressão ou coeficiente angular. Além disso, temos que para um aumento de uma unidade na variável x, o valor E(Y|x) aumenta unidades. A interpretação geométrica dos parâmetros e pode ser vista na Figura 1.1.1. Figura 1.1.1: Reta Regressora. Um ponto negativo na Definição 1.1.1 é que o modelo de regressão linear simples não acomoda impactos de erros experimentais (variação de matéria prima), de erros de medida, entre outras inúmeras fontes de variabilidade, tornando-se inadequado nestes casos. 1.1.2 Suposições para o modelo Ao estabelecer o modelo 1.1.1 para os dados, pressupomos que: i) A relação matemática entre Y e X é linear; ii) Os valores de x são fixos (ou controlados), isto é, x não é uma variável aleatória; iii) A média do erro é nula, ou seja, . Desta forma, segue que e portanto, a função de regressão para o modelo 1.1.1 é dada por: Note que o valor observado de está em torno do valor da função de regressão com erro experimental . iv) Para um dado valor de x, a variância de é sempre , isto é, isto implica em: Neste caso, dizemos que o erro é homocedástico (tem variância constante); v) O erro de uma observação é não correlacionado com o erro de outra observação, isto é, Esta hipótese não implica que os erros sejam independentes. Se a distribuição dos erros for normal, esta hipótese é equivalente a independência dos erros. vi) Frequentemente, supomos que os erros tem distribuição Normal. Desta forma, combinando (iii), (iv) e (vi) temos que . Como é a soma de um termo constante, , com um termo aleatório, , segue que Além disso, por (v) e (vi) temos que e são independentes. A suposição de normalidade é necessária para a elaboração dos testes de hipóteses e obtenção de intervalos de confiança. Supondo que a relação linear entre as variáveis Y e X é satisfatória, podemos estimar a linha de regressão e resolver alguns problemas de inferência. O problema de estimar os parâmetros e é o mesmo que ajustar a melhor reta em um gráfico de dispersão, como na Figura 1.2.1. O Método dos Mínimos Quadrados é uma eficiente estratégia de estimação dos parâmetros da regressão e sua aplicação não é limitada apenas às relações lineares. Figura 1.2.1: Representação da Reta de Regressão. 1.2.1 Método dos Mínimos Quadrados O primeiro passo na análise de regressão é obter as estimativas e dos parâmetros do modelo. Os valores dessas estimativas serão obtidos a partir de uma amostra de n pares de valores , i=1,...,n que correspondem a n pontos em um gráfico, como na Figura 1.2.1. No método de Mínimos Quadrados, não é necessário conhecer a forma da distribuição dos erros. Suponha que é traçada uma reta arbitrária passando por esses pontos. No valor da variável explicativa, o valor predito por esta reta é , enquanto o valor observado é . Os desvios (erros) entre estes dois valores é , que corresponde a distância vertical do ponto à reta arbitrária. O objetivo é estimar os parâmetros e de modo que os desvios () entre os valores observados e estimados sejam mínimos. Isso equivale a minimizar o comprimento do vetor de erros, . Uma forma de obter essas estimativas é o Método de Mínimos Quadrados. Este método consiste em minimizar a soma dos quadrados dos desvios L, como na expressão abaixo Obviamente, que poderíamos calcular a distância entre a reta e os valores observados de diferentes formas. Por exemplo, poderiámos utilizar o módulo ao invés do quadrado, ou qualquer função de distância apropriada. A escolha do quadrado está na simplicidade dos cálculos envolvidos Para encontrarmos estimativas para os parâmetros, vamos minimizar (1.2.1.1) em relação aos parâmetros e . Para isto, derivamos em relação aos parâmetros e . Assim, Substituindo e por e ,para indicar valores particulares dos parâmetros que minimizam L, e igualando as derivadas parciais a zero, obtemos Simplificando, obtemos as equações denominadas Equações Normais de Mínimos Quadrados. Para encontrarmos os valores de e que minimizam L, resolvemos o sistema de equações dado em (1.2.1.2). Considerando a primeira equação de (1.2.1.2) obtemos que, ou seja, em que são as médias de x e da variável Y, respectivamente. Desta forma, substituindo (1.2.1.3) na segunda equação de (1.2.1.2) temos que, Então, e portanto, concluímos que Podemos também escrever Os valores de e assim determinados são chamados Estimadores de Mínimos Quadrados (EMQ). O modelo de regressão linear simples ajustado é então sendo que é um estimador pontual da média da variável Y para um valor de , ou seja, Notação: Considerando n pares de valores observados , As quantidades e são as médias amostrais de x e y. Já as quantidades e são as somas dos quadrados dos desvios das médias e é a soma dos produtos cruzados dos desvios de x e y. Desta forma, as estimativas de mínimos quadrados de e , em termos desta notação são: Exemplo 1.2.1 Voltando à "Motivação 1", em que queríamos determinar os valores de temperatura em que otimizam a dureza do material, encontramos as estimativas dos parâmetros e pelo Método dos Mínimos Quadrados. ��� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reglin.xls" �clique aqui para efetuar o download dos dados utilizados nesse exemplo� Solução: As médias amostrais das variáveis temperatura (X) e dureza (Y) são, respectivamente, Além disso, na Tabela 1.2.1, apresentamos os valores de e para cada observação i, i=1,...,20. Observação Temperatura (x) Dureza (y) 1 220 137 48.400 18.769 30.140 2 220 137 48.400 18.769 30.140 3 220 137 48.400 18.769 30.140 4 220 136 48.400 18.496 29.920 5 220 135 48.400 18.225 29.700 6 225 135 50.625 18.225 30.375 7 225 133 50.625 17.689 29.925 8 225 132 50.625 17.424 29.700 9 225 133 50.625 17.689 29.925 10 225 133 50.625 17.689 29.925 11 230 128 52.900 16.384 29.440 12 230 124 52.900 15.376 28.520 13 230 126 52.900 15.876 28.980 14 230 129 52.900 16.641 29.670 15 230 126 52.900 15.876 28.980 16 235 122 55.225 14.884 28.670 17 235 122 55.225 14.884 28.670 18 235 122 55.225 14.884 28.670 19 235 119 55.225 14.161 27.965 20 235 122 55.225 14.884 28.670 Soma 4.550 2.588 1.035.750 335.594 588.125 Média 227,5 129,4 Tabela 1.2.1: Dados da Motivação 1. Assim, encontramos as somas de quadrados Logo, as estimativas dos parâmetros e são, respectivamente Portanto, o modelo ajustado é dado por Pelos valores das estimativas, temos que a cada aumento da Temperatura, temos um decréscimo de 1,032 na Dureza. 1.2.2 Resíduos A diferença entre o valor observado e o correspondente valor ajustado , dado pela expressão (1.2.1.4), é chamada de resíduo e é denotado por Essa medida é importante já que por meio dela verificamos o ajuste do modelo. 1.2.2.1 Algumas propriedades do ajuste de mínimos quadrados (i) A soma dos resíduos é sempre nula. Na realidade, basta substituirmos os estimadores de mínimos quadrados (ii) A soma dos valores observados é igual a soma dos valores ajustados . (iii) A reta de regressão de mínimos quadrados passa pelo ponto . De fato, com . Assim, a reta de regressão ajustada é dada por Logo, no ponto temos que Portanto, temos que a reta ajustada passa por . (iv) A soma dos resíduos ponderado pelo correspondente valor da variável regressora é sempre nula. (v) A soma dos resíduos ponderado pelo correspondente valor ajustado é sempre zero. 1.2.3 Estimador da variância residual Assim como os parâmetros e , a variância dos termos do erro precisa ser estimada. Isto é necessário já que inferências a respeito da função de regressão e da predição de Y requerem uma estimativa de . Consideremos os resíduos dado em (1.2.2.1). Desta forma, definimos a Soma de Quadrados dos Resíduos (Erros), Como demonstrado em "Propriedades dos Estimadores", SQE é um estimador viciado de , isto é, Desta forma, um estimador não viciado para é dado por em que QME é o Quadrado Médio dos Erros (Resíduos). Considerando n pares de valores observados , podemos escrever como visto em "Propriedades dos Estimadores", em que e são dados respectivamente pelas expressões (1.2.1.6) e (1.2.1.7). Portanto, Daremos mais detalhes para a Soma de Quadrados dos Erros (SQE) e para o Quadrado Médio dos Erros (QME) em "Análise de Variância". Exemplo 1.2.2 Obter um estimador não viesado para a variância residual do exemplo da "Motivação 1". ��� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reglin.xls" �clique aqui para efetuar o download dos dados utilizados nesse exemplo� Solução: Temos que Já vimos que �� INCLUDEPICTURE "http://www.portalaction.com.br/files/tex/c38723e44636497ed3ffb30fec3f549d816f1fd4.png" \* MERGEFORMATINET e então Usando o Software Action obtemos os seguintes resultados: Os estimadores de mínimos quadrados e possuem importantes propriedades: são não viciados e têm variância mínima entre todos os estimadores não viciados que são combinações lineares dos (Teorema de Gauss-Markov). Desta forma, os estimadores de mínimos quadrados são frequentemente ditos "melhores estimadores lineares não viciados". 1. Valor esperado (média) de : Definindo segue que, Desta forma, Como concluímos que (estimador não viciado). 2. Variância de : De (1) temos que Como , são variáveis independentes, segue que Considerando n pares de valores observados , podemos escrever 3. Valor esperado (média) de : Como , segue que (estimador não viciado). 4. Variância de : Notemos que Como já que para , e para , segue que Desta forma, Como , são independentes, segue que Novamente, dados n pares de valores escrevemos 5. Covariância entre e : De (4) temos que e portanto, 6. Distribuição amostral para : Em (1), definimos Como é combinação linear de normais independentes (combinação linear dos ), segue que também tem distribuição normal com média e variância dadas respectivamente em (1) e (2) e portanto, 7. Distribuição amostral para : Como em (6), também é combinação linear de normais independentes e portanto, tambémtem distribuição normal. A média e a variância de são apresentadas em (3) e (4), respectivamente. Desta forma, Em relação ao estimador da variância , 8. Valor esperado (média) de QME: Assim, Sabemos que Desta forma, Como e Segue que Portanto, (estimador não viciado). Exemplo 1.3.1 Para os dados do exemplo da "Motivação 1", obter estimativas para a variância dos estimadores e . O valor de QME foi calculado no "Exemplo 1.2.2". Já os valores de e foram calculados no "Exemplo 1.2.1". ��� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reglin.xls" �clique aqui para efetuar o download dos dados utilizados nesse exemplo� Solução: Utilizando o Software Action obtemos os seguintes resultados: Na regressão linear é importante avaliarmos se existe uma boa "correlação" entre a resposta e a variável explicativa. Por exemplo, se o aumento em cinco graus na temperatura de uma peça na estufa acarretará em uma mudança significativa no valor de dureza da peça. Para respondermos a esta questão, utilizamos testes de hipóteses e intervalos de confiança para os parâmetros. Em todos estes casos, é feita a suposição de que os erros são independentes e identicamente distribuídos . Dessa forma, as observações têm distribuição . 1.4.1 Inferência para Não é com frequência que fazemos inferências sobre . Isso só ocorre quando a variável x pode assumir o valor x=0. Suponha que desejamos testar a hipótese de que o intercepto é igual a um determinado valor, denotado por . Desta forma, sejam as hipóteses no qual é uma constante. Em geral, consideramos . Como visto em "Propriedades dos Estimadores", Assim, sob temos que Além disso, seja Como as variáveis aleatórias e são independentes, segue que ou seja, T tem distribuição t de Student com n-2 graus de liberdade. Logo, intervalos de confiança e testes a respeito de podem ser realizados utilizando a distribuição t. No modelo 1.1.1, queremos testar as hipóteses Assim, a estatística do teste é dada por Logo, rejeitamos com um nível de confiança de se . O p-valor associado ao teste é dado por Rejeitamos se o p-valor for menor do que o nível de significância considerado. Geralmente adotamos . Quando não rejeitamos , podemos utilizar o "Modelo de Regressão sem Intercepto". O intervalo de confiança para com é dado por 1.4.2 Inferência para Inferência sobre é mais frequente já que por meio deste parâmetro temos um indicativo da existência ou não de associação linear entre as variáveis envolvidas. Similarmente ao parâmetro , consideremos as hipóteses no qual é uma constante. Em geral, consideramos . De "Propriedades dos Estimadores", Assim, sob segue que Novamente, considerando que e que e são independentes, obtemos ou seja, T tem distribuição t de Student com n-2 graus de liberdade. Logo, intervalos de confiança e testes a respeito de podem ser realizados utilizando a distribuição t. No modelo em questão, queremos testar as seguintes hipóteses Neste caso, a estatística do teste é Assim, rejeitamos com um nível de confiança se . O p-valor associado ao teste é dado por Rejeitamos se o P-valor for menor do que O intervalo de confiança para com é dado por Exemplo 1.4.1 Aplicar testes de hipóteses e construir intervalos de confiança para os parâmetros (), usando os dados do exemplo na "Motivação 1". Como visto no Exemplo 1.2.1, as estimativas dos parâmetros são e . �� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reglin.xls" clique aqui para efetuar o download dos dados utilizados nesse exemplo Solução: Para , queremos testar as hipóteses Dos Exemplos 1.2.2 e 1.3.1, temos que Desta forma, a estatística do teste é dada por Para temos . Como , e rejeitamos O intervalo de confiança, , para é dado por Para , queremos testar as hipóteses Novamente, dos Exemplos 1.2.2 e 1.3.1, temos que A estatística do teste, sob é dada por Para obtemos que . Como e rejeitamos O intervalo de confiança, , para é dado por Usando o Software Action temos os seguintes resultados: No caso de um modelo linear simples, no qual temos apenas uma variável explicativa, testar a significância do modelo corresponde ao seguinte teste de hipóteses Na seção sobre os testes dos parâmetros do modelo, utilizamos a estatística t-student realizar este teste de hipóteses. Aqui, vamos introduzir de análise de variância (ANOVA) para testarmos a hipótese . Além disso, mostraremos que os dois testes são iguais. Assumimos o "Modelo de Regressão Linear Simples" com a suposição de que os erros tem distribuição Normal. A análise de variância é baseada na decomposição da soma de quadrados. Em outras palavras, o desvio de uma observação em relação à média pode ser decomposto como o desvio da observação em relação ao valor ajustado pela regressão mais o desvio do valor ajustado em relação à média, isto é, podemos escrever como 1.5.1 Soma de Quadrados Elevando cada componente de (1.3.1) ao quadrado e somando para todo o conjunto de observações, obtemos em que Desta forma, escrevemos em que decompomos a Soma de Quadrados Total em Soma de Quadrados da Regressão e Soma de Quadrados dos Erros. Prova: Notemos que Como visto em "Algumas propriedades do ajuste de mínimos quadrados", e Desta forma, e portanto, Conforme demonstramos na seção propriedade dos estimadores, ao tomarmos os pares , temos que e . Portanto, concluímos que . 1.5.2 Partição dos Graus de Liberdade Assim como temos a decomposição da soma de quadrados total, vamos derivar uma decomposição para os graus de liberdade. ë importante ressaltarmos que os graus de liberdade são definidos como a constante que multiplica para definir o valor esperado da soma de quadrados. Conforme demonstrado na seção propriedade dos estimadores, temos que . Assim, os graus de liberdade relacionado com a é dado por . Agora, sob , temos que é uma amostra aleatória simples de uma população com média e variância . Conforme demonstrado no módulo de inferência sobre propriedades gerais dos estimadores, temos que . Então, como a soma de quadrados total foi decomposta na soma de quadrados dos erros mais a soma de quadrados da regressão, concluímos que sob , Com isso, concluímos que a tem um grau de liberdade. Assim, sob , obtemos a seguinte decomposição dos graus de liberdade: (1) tem graus de liberdade; (2) tem grau de liberdade; (3) tem graus de liberdade. De forma geral, não necessariamente sob , também podemos calcular facilmente o valor esperado da soma de quadrado total. Para isto, temos que A partir da definição de variânciade uma variável aleatória, concluímos que Da mesma forma, temos que Portanto, obtemos que Observe que sob , obtemos que . Por outro lado, o valor esperado do quadrado médio da regressão é dado por, 1.5.3 Quadrado Médio A ideia básica do quadrado médio está em tornarmos as somas de quadrados comparáveis. Sabemos que, sob , os graus de liberdade são constantes que vem muliplicando o no cálculo do valor esperado da soma de quadrados. A partir da partição dos graus de liberdade obtidos na seção anterior, estimadores de momentos para são dados pela divisão da soma de quadrados pelo seu respectivo grau de liberdade. Com isso, chegamos a definição dos quadrados médios: Sob , tanto o quadrado médio dos erros (QME) quanto o quadrado médio da regressão (QMR) são estimadores de momento para . Portanto, eles são comparáveis. A seguir, apresentamos algumas formas simplificados para o cálculo das somas de quadrados. Como visto em "Propriedades dos Estimadores", Além disso, Desta forma, e portanto, 1.5.4 Teste F Considerando o Modelo de Regressão Linear Simples, a siginificância do modelo linear pode ser avaliada através do seguinte teste de hipóteses Se não rejeitamos , concluímos que não existe relação linear significativa entre as variáveis explicativa (x) e dependente (Y). A estratégia para testarmos a hipótese consiste em compararmos o quadrado médio da regressão com o quadrado médio dos erros, pois sob , ambos quadrados médios são estimadores de momentos para o parâmetro . Para isto precisamos do teorema de Cochran. Teorema de Cochran Sejam variáveis aleatórias independentes com distribuição . Conforme demonstrado na seção sobre a distribuição qui-quadrado, sabemos que Se tivermos em que são somas de quadrados, cada um com graus de liberdade, tal que então obtemos que e são independentes para qualquer . Sob temos que é uma amostra aleatória simples da . Com isso, obtemos da seção que aborda as propriedades dos estimadores da média e variância de uma população normal, que Assim, através do teorema de Cochran, concluímos que tem distribuição qui-quadrado com e graus de liberdade, respectivamente. Além disso, temos que e são independentes. Desta forma, propomos a estatística do teste Como é a divisão de duas variáveis qui-quadrado, cada uma dividida pelos seus graus de liberdade e são independentes, segue que tem distribuição F com grau de liberdade no numerador e graus de liberdade no denominador, denotada por . Através da partição dos graus de liberdade obtido na seçao 1.5.2, obtemos que Estes valores esperados nos sugerem que que valores grandes de nos indiam que deve ser diferente de zero, ou seja, devemos rejeitar . Logo, rejeitamos com um nível de significância se , no qual representa o quantil da distribuição . Outra maneira é analisar o p_valor. Neste caso, rejeitamos se , no qual é o nível de significância estabelecido para o teste. Na tabela a seguir apresentamos a tabela ANOVA com a Estatística do Teste F. Fonte GL Soma de Quadrados Quadrado Médio Regressão 1 Resíduo Total Tabela: Análise de significância usando ANOVA. Exemplo 1.5.1 Construir a tabela da ANOVA para o exemplo dado na "Motivação 1". �� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reglin.xls" clique aqui para efetuar o download dos dados utilizados nesse exemplo Solução: Assim, A tabela da ANOVA é então, dada por Fonte GL Soma de Quadrados Quadrado Médio Regressão 1 665,64 Resíduo 18 41,16 Total 19 706,80 Tabela: Análise de significância usando ANOVA. Para , obtemos que Logo, Além disso, Portanto, rejeitamos com um nível de confiança de e concluímos que a variável explicativa tem correlação com a variável resposta. Interpretação do P-valor Quando o p-valor é aproximadamente zero significa que, se a hipótese nula for verdadeira, a chance de exceder o valor observado é praticamente nula. Esta é uma evidência muito forte, contra Um p-valor pequeno fornece evidências contra Por exemplo, se fixarmos um nível de significância (), então poderemos dizer que uma hipótese nula é rejeitada a este nível, quando o p-valor é menor do que esse . Usando o Software Action temos os seguintes resultados: Uma das formas de avaliar a qualidade do ajuste do modelo é através do coeficiente de determinação. Basicamente, este coeficiente indica quanto o modelo foi capaz de explicar os dados coletados. O coeficiente de determinação é dado pela expressão ou seja, é a razão entre a soma de quadrados da regressão e a soma de quadrados total. No modelo com intercepto, podemos escrever Notemos que O é, portanto, uma medida descritiva da qualidade do ajuste obtido. Em geral referimo-nos ao como a quantidade de variabilidade nos dados que é explicada pelo modelo de regressão ajustado. Entretanto, o valor do coeficiente de determinação depende do número de observações , tendendo a crescer quando diminui. Se , tem-se sempre O deve ser usado com precaução, pois é sempre possível torná-lo maior pela adição de um número suficiente de termos ao modelo. Assim, se, por exemplo, não há dados repetidos (mais do que um valor para um mesmo ) um polinômio de grau dará um ajuste perfeito para dados. Quando há valores repetidos, o não será nunca igual a 1, pois o modelo não poderá explicar a variabilidade devido ao erro puro. Embora aumente com a adição de termos ao modelo, isto não significa necessariamente que o novo modelo é superior ao anterior. A menos que a soma de quadrados residual do novo modelo seja reduzida por uma quantidade igual ao quadrado médio residual original, o novo modelo terá um quadrado médio residual maior do que o original, devido a perda de 1 grau de liberdade. Na realidade esse novo modelo poderá ser pior do que o anterior. A magnitude de , também, depende da amplitude de variação da variável regressora (). Geralmente, aumentará com maior amplitude de variação dos 's e diminuirá em caso contrário. Pode-se mostrar que Assim, um valor grande de poderá ser grande simplesmente porque variou em uma amplitude muito grande. Por outro lado poderá ser pequeno porque a amplitude dos 's foi muito pequena para permitir que uma relação com fosse detectada. Em geral, também, não mede a magnitude da inclinação da reta. Um valor grande de não significa uma reta mais inclinada. Além do mais, ele não leva em consideração a falta de ajuste do modelo; ele poderá ser grande, mesmo que e estejam não linearmente relacionados. Dessa forma, vê-se que não deve ser considerado sozinho, mas sempre aliado a outros diagnósticos do modelo. Exemplo 1.6.1: Vamos calcular o coeficiente de determinação com os dados do exemplo na "Motivação 1". �� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reglin.xls" clique aqui para efetuar o download dos dados utilizados nesse exemplo Solução: 1.6.1 Coeficiente de Determinação Ajustado Para evitar dificuldades na interpretação de , alguns estatísticos preferem usar o ( ajustado), definido para uma equação com 2 coeficientes como Assim como o Coeficiente de Determinação , quanto maior , mais a variável resposta é explicada pela regressora X. Exemplo 1.6.1.1: Vamos calcular agora o coeficiente de determinação com os dadosdo exemplo na "Motivação 1". �� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reglin.xls" clique aqui para efetuar o download dos dados utilizados nesse exemplo Solução: Usando o software Action temos os seguintes resultados: 1.7.1 Intervalo de confiança para a resposta média A estimativa de um intervalo de confiança para é de grande interesse. Um estimador pontual de pode ser obtido a partir do modelo ajustado, isto é, Notemos que é uma variável aleatória normalmente distribuída já que é uma combinação linear das observações . Além disso, temos que ou seja, é um estimador não viciado para Assim, temos que Temos também que Logo, Portanto, o intervalo de confiança para é dado por em que é a resposta média estimada para o nível Considerando vários valores para dentro do intervalo de realização dos dados, encontraremos vários valores para Com isso, ao calcularmos o intervalo de confiança para cada um dos , temos um conjunto de intervalos de confiança que representam as bandas de confiança para a reta de regressão. Exemplo 1.7.1 Calcular o intervalo de confiança para a reta de regressão usando, novamente, os dados do exemplo na "Motivação 1". �� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reglin.xls" clique aqui para efetuar o download dos dados utilizados nesse exemplo Solução: Adotemos ou seja, um valor pertencente à amostra. Neste caso, Portanto o intervalo de confiança para a resposta média é 1.7.2 Intervalo de predição Um modelo de regressão pode ser usado para prever a variável resposta, correspondente a valores da variável explicativa não considerada no experimento. Chamamos de predição a obtenção de um valor de para um que não pertence aos dados, porém pertence ao intervalo de variação estudado. Em situações em que o valor de não pertence ao intervalo estudado, denominamos de extrapolação. Seja um dado valor da variável explicativa que não pertence a amostra. Então, é um estimador não viciado para pois . Chamamos de erro na previsão a diferença cuja variância é dada por De maneira semelhante à realizada em Intervalo de confiança para a resposta média, podemos demonstrar que Assim, o intervalo de predição para é, Exemplo 1.7.2 Calcular o intervalo de confiança para uma nova observação aplicando o mesmo exemplo da "Motivação 1". �� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reglin.xls" clique aqui para efetuar o download dos dados utilizados nesse exemplo Solução: Utilizemos isto é, um valor que não pertence à amostra mas que pertence ao intervalo de variação estudado. Temos do Exemplo 1.2.1 que e Assim, Logo, o intervalo de predição é Usando o software Action temos os seguintes resultados: - Intervalo de 95% de confiança de Predição: - Intervalo de 95% de confiança de Previsão do exemplo 1.7.2. Suponha que dispomos de pares de observações �� INCLUDEPICTURE "http://www.portalaction.com.br/files/tex/931423bb450a2748245306d969b6fee64d113dba.png" \* MERGEFORMATINET O modelo de regressão linear simples, sem intercepto, é definido por Neste caso, a função de mínimos quadrados é que derivando em relação a resulta em Substituindo por e igualando a zero, obtemos que resolvendo em relação a resulta em Podemos mostrar que Sendo temos que i) ii) Um estimador não viciado para é dado por iii) iv) Um intervalo de de confiança para é dado por Um intervalo de de confiança para a resposta média em é dado por em que Um intervalo de de confiança para a predição de dado é em que Exemplo 1.8.1 Voltando à "Motivação 1", em que queríamos determinar os valores de temperatura em que otimizam a dureza do material, calculemos a estimativa de considerando o modelo sem intercepto. �� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/RegsInt.xls" clique aqui para efetuar o download dos dados utilizados nesse exemplo Temos que a estimativa de do modelo sem intercepto é Usando o Software Action temos os seguintes resultados: A Análise de Resíduos consiste em um conjunto de técnicas para investigar a adequabilidade do modelo com base nos resíduos A ideia básica é que se o modelo linear simples é apropriado, os resíduos devem refletir as suposições descritas na Seção 1.1, tais como independência, variância constante para diferentes níveis de X e distribuição Normal. Na Seção 3 estão as principais técnicas utilizadas na verificação das suposições dos resíduos, que devem ser analisadas para que o modelo ajustado realmente faça sentido. A calibração é um processo de comparação, por exemplo na metrologia, a comparação de um equipamento que desejamos calibrar com um padrão, que pode ser um outro equipamento (padrão) ou algum material padrão. Na área química a comparação pode ser feita usando medições obtidas de um material chamado de Material de Referência Certificado (MRC), como exemplo podemos citar os materiais certificados internacionais (ISO GUIDE). Consideramos que cada quantidade do material de referência utilizado é a mesma, pelo menos no que diz respeito às propriedades do analito. A curva de calibração é uma relação funcional do sinal observado (y) dada uma certa quantidade de analito. Em geral, utilizamos a regressão linear simples (para mais detalhes consulte o conteúdo regressão linear simples) para estimarmos a incerteza devido a curva de calibração (para mais detalhes sobre o que é incerteza consulte o conteúdo incerteza de medição). Segundo o documento orientativo do INMETRO de validação de métodos (DOQ-CGCRE-008), o método é mais sensível quando pequenas variações de concentração resultam em maior variação na resposta (coeficiente angular ). Em geral, são necessários vários níveis de concentração (no mínimo cinco) para construir a curva de calibração e o número de replicatas em cada nível de concentração deve ser o mais próximo possível daquele empregado na rotina do laboratório. Todo experimento de determinação da faixa de trabalho é iniciado pela escolha de uma faixa preliminar, no qual a faixa de trabalho deve cobrir a faixa de aplicação para o qual o ensaio vai ser usado. A orientação segundo DOQ-CGCRE-008 [12] é que a concentração mais esperada da amostra deve, sempre que possível, se situar no centro da faixa de trabalho. No limite inferior da faixa de concentração, o fator limitante é o valor do limite de quantificação, já no limite superior, os fatores limitantes dependem do sistema de resposta do equipamento de medição. A maioria das aplicações da curva de calibração é que na prática, temos interesse em predizer o valor de (X) dado uma observação(Y), para ilustrarmos o problema observe a seguinte aplicação. Motivação Considere a curva de calibração de um composto químico realizado por um equipamento chamado Espectrômetro de emissão ótica (ICP). A seguir apresentamos o conjunto de dados: Concentracao Area 0,05 0,00000405 0,05 0,00000312 0,05 0,00000211 0,1 0,0000286 0,1 0,00002380,1 0,0000308 0,5 0,0001913 0,5 0,0001936 0,5 0,0002006 1 0,0004883 1 0,0004761 1 0,0004851 2 0,0009072 2 0,0009246 2 0,0009008 ��� HYPERLINK "http://www.portalaction.com.br/sites/default/files/Incerteza/planilhas/Curva_calibracao.xls" �clique aqui para efetuar o download dos dados utilizados nesse exemplo� Notamos através desta aplicação, que na prática temos interesse em predizer o valor de concentração (X) dado uma observação em área (Y). Neste caso, estamos tratando um problema de regressão inversa, em que predizemos de forma inversa. A principal diferença do modelo de regressão linear clássico é na predição da concentração e no cálculo da variância . Além disto, temos normas específicas para tratarmos as curvas de calibração. O Ministério da Agricultura, Pecuária e Abastecimento (MAPA) publicou no Diário Oficial da União em 22/07/2009 a instrução normativa [11] para tratarmos as curvas de calibração. No anexo II seção 7.1 apresenta os procedimentos mínimos requeridos como evidência objetiva da validação do método analítico, são elas: 7.1.1.1. A curva de calibração/resposta deve ser obtida a partir de 5 níveis de concentração, equidistante distribuídos (0,0 - 0,5 - 1,0 - 1,5 - 2,0 vezes o limite máximo de resíduo [LMR] / limite mínimo de desempenho requerido [LMDR]). 7.1.1.2. Cada ponto da curva deve ser ensaiado em pelo menos seis réplicas. 7.1.1.3. Três tipos de curvas de calibração/resposta devem ser elaborados: i. Padrões de calibração em solução. ii. Matriz branca fortificada com os padrões de calibração. iii. Extrato da matriz branca fortificado com os padrões de calibração. 7.1.1.4. As replicatas de cada nível de concentração devem ser independentes ou repetições genuínas, e não somente repetições de leitura. 7.1.1.5. As medidas devem ser feitas em ordem aleatória, adotando-se os devidos cuidados para evitar contaminação cruzada. 7.1.1.6. As curvas de calibração não devem ser forçadas a passar pela origem. 7.1.1.7. Perfil sugerindo heteroscedasticidade significa que os dados da calibração são melhores se tratados por regressão ponderada. 7.1.1.8. Os intervalos de aceitação dos parâmetros da curva, faixa linear de trabalho, devem compreender os valores de LMR ou LMDR. 7.1.1.9. Na determinação dos demais parâmetros de validação (repetitividade, reprodutibilidade), assim como nas rotinas analíticas, os 5 pontos da curva resposta devem ser ensaiados em pelo menos três réplicas cada. O item 7.1.1.10 trata da avaliação da linearidade e esta avaliação está descrita no conteúdo regressão linear simples. À partir do subitem ii, o conteúdo está descrito na seção análise resíduos. Nas demais seções deste conteúdo vamos aplicar os conceitos da regressão linear simples e fazer uma análise de diagnósticos através da análise dos resíduos. Nesta seção vamos descrever o modelo estatístico para a motivação, para isto é razoável supor que a relação existente entre a variável Área (Y) e níveis de Concentração (X) é linear. Desta forma, definimos o seguinte modelo de regressão linear simples entre Y (variável resposta) e X (variável regressora). Consideramos duas variáveis Concentração e Área, neste caso, podemos estabelecer uma regressão linear simples cujo modelo estatístico é em que, : representa a j-ésima medição de área referente a i-ésima concentração; : representa a i-ésima concentração; : representa o coeficiente linear ou intercepto; : representa o coeficiente angular; : representa o j-ésimo erro cometido na medição da i-ésima área. Consideramos que os são independentes e identicamente distribuídos com distribuição . Pelo método dos mínimos quadrados, obtemos em que, representa a média das leituras de área; representa a média das leituras de concentração. para mais detalhes consulte estimação dos parâmetros do modelo. Exemplo Voltando à Motivação, vamos calcular as estimativas dos parâmetros e pelo Método dos Mínimos Quadrados. n Concentracao Area Conc2 Area2 Conc x Area 1 0,05 0,00000405 0,0025 1,64E-11 2,02E-07 2 0,05 0,00000312 0,0025 9,74E-12 1,56E-07 3 0,05 0,00000211 0,0025 4,43E-12 1,05E-07 4 0,1 0,0000286 0,01 8,21E-10 2,86E-06 5 0,1 0,0000238 0,01 5,67E-10 2,38E-06 6 0,1 0,0000308 0,01 9,48E-10 3,08E-06 7 0,5 0,0001913 0,25 3,66E-08 9,56E-05 8 0,5 0,0001936 0,25 3,75E-08 9,68E-05 9 0,5 0,0002006 0,25 4,03E-08 1,00E-04 10 1 0,0004883 1 2,38E-07 4,88E-04 11 1 0,0004761 1 2,27E-07 4,76E-04 12 1 0,0004851 1 2,35E-07 4,85E-04 13 2 0,0009072 4 8,23E-07 1,81E-03 14 2 0,0009246 4 8,55E-07 1,85E-03 15 2 0,0009008 4 8,12E-07 1,80E-03 Soma 10,95 0,005 15,788 0,00000331 0,007 Média 0,73 0,0003 ��� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/figuras/Curva_calibracao.xls" �clique aqui para efetuar o download dos dados utilizados nesse exemplo� Solução: As médias amostrais das variáveis Concentração (X) e Área (Y) são, respectivamente, Além disso, na Tabela, apresentamos os valores de , e para cada observação . Da tabela calculamos as somas de quadrados da seguinte forma: Logo, as estimativas dos parâmetros e são, respectivamente Portanto, o modelo ajustado é dado por Veja a seguir os resultados obtidos pelo software Action. Da seção análise de variância obtemos que Substituindo os valores obtemos que Com isso, podemos calcular as variâncias dos parâmetros O é uma medida descritiva da qualidade do ajuste obtido. Como obtemos um de 0,99, logo a quantidade de variabilidade dos dados bem é explicada pelo modelo de regressão ajustado. Como dito anteriormente, na prática temos interesse em predizer o valor de concentração (X) dado uma observação em área (Y). Então, dado observado, tomamos como estimativa (invertendo a função linear) Logo, a variância da estimativa é dada por (Veja Brown [13], 1993, pg. 26) Após estimarmos os parâmetros da curva de calibração, as suposições do modelo ajustado precisam ser validadas para que os resultados sejam confiáveis. Chamamos de Análise dos Resíduos um conjunto de técnicas utilizadas para investigar a adequabilidade de um modelo de regressão com base nos resíduos. Os resíduos é dado pela diferença entre a variável resposta observada (Área ) e a variável resposta estimada Ao estabelecer o modelo para curva de calibração, supomos que: i) A relação matemática entre Y e X é linear (seção modelo estatístico para curva de calibração); ii) Os valores de x são fixos (ou controlados), isto é, x não é uma variável aleatória; iii) A média do erro é nula, ou seja, E(εi)=0. Desta forma, segue que iv) Para um dado valor de x, a variância de é sempre , isto é, isto implica em: Então, podemos dizer que o erro é homocedástico (tem variância constante); v) O erro de uma observação é independente do erro de outra observação (erros não correlacionados), isto é, vi) Frequentemente, supomos que os erros tem distribuição Normal. A suposição de normalidade é necessária para a elaboração dos testes de hipóteses e obtenção de intervalos de confiança. Visando atender os requisitos do MAPA item 7.1.1.10 subitem ii e as disposições do modelo lde regressão linear, vamos realizar a análise de diagnósticos. Com isso, a primeira análise de diagnósticos é o teste de normalidade (para mais detalhes consulte o conteúdo teste de normalidade). A partir do software Action, obtemosos seguintes resultados: Tabela 1.10.2.1: Teste de normalidade. Figura 1.10.2.1: Gráfico da análise de resíduos. Dos resultados obtidos pela tabela, temos que para qualquer estatística escolhida temos que os resíduos são normais. Assim, atendemos a suposição de normalidade dos resíduos. Dos gráficos notamos que o nível de concentração de 1, pode afetar a normalidade dos resíduos, porém dos testes (tabela 1.10.2.1) notamos que os resíduos são normais. Do gráfico resíduos versus ordem de coleta não temos uma tendência, com isso temos indícios dos resíduos serem independentes. Por fim, analisando o gráfico de resíduos versus valores ajustados observamos uma variação pequena dos resíduos, com isso temos indícios de homoscedasticidade dos resíduos. A seguir, vamos testar a independência dos resíduos. Tabela 1.10.2.2: Teste de independência dos resíduos. Para testarmos a independência dos resíduos vamos utilizar a estatística de Durbin-Watson (para mais detalhes consulte diagnóstico de independência). Logo, para nível de significância não rejeitamos (p-valor0,0547). Portanto, podemos afirmar que com um nível de confiança de 95%, os resíduos são independentes. Agora, vamos testar a suposição (iv), isto é, o teste de homoscedasticidade. Primeiramente, vamos apresentar a estatística de teste recomendada pelo MAPA. Teste de Brown-Forsythe O teste de Brown-Forsythe é utilizado para o teste de igualdade de variâncias, porém em certos casos utilizamos para testar a homoscedasticidade dos resíduos no caso de uma variável explicativa. O teste e o teste de Bartlett são muito sensíveis à suposição de que as populações subjacentes têm distribuição normal. Quando as distribuições subjacentes são não têm distribuição normal, tais testes podem extrapolar seu nível de significância nominal. Levene propôs uma estatística para dados balanceados, que foi generalizada posteriormente para dados desbalanceados. A estatística é obtida à partir de uma ANOVA (1 fator) entre os grupos, em que cada observação foi substituída pelo seu desvio absoluto da sua média do grupo. No artigo Brown e Forsythe [10] esta estatística foi descrita para amostras muito pequenas, em que as correlações altas entre desvios no mesmo grupo fragilizam a validade do teste. Com isso, Brown e Forsythe consideraram a mediana ou 10 % da tri-média (mais robustas), como alternativas para a média no cálculo dos desvios absolutos. Agora, vamos definir a estatística do teste, para isto seja para j-ésima observação () no i-ésimo grupo (), em que a média são desconhecidas e desiguais. Assumimos que são independentes e identicamente distribuídos com média zero variância possivelmente desiguais. Para cada grupo, tomamos a mediana () e a variância amostral (). Seja os desvios absolutos Portanto, temos a seguinte estatística: em que, e Agora vamos calcular a estatística de Brown-Forsythe, para isto vamos fazer um sumário dos dados necessários. Tabela 1.10.2.3: Sumário básico dos dados. Com isso, calculamos e o tamanho da amostra para cada nível de concentração. Agora, vamos calcular os desvios absolutos. Concentração Área zij 0,05 4,05E-06 3,00E-06 1,04829E-06 1,00E-06 2,33154E-15 0,05 3,12E-06 3,00E-06 1,20893E-07 1,00E-06 7,7283E-13 0,05 2,11E-06 3,00E-06 8,94803E-07 1,00E-06 1,10664E-14 0,1 2,86E-05 0,000029 3,52781E-07 2,00E-06 2,71333E-12 0,1 2,38E-05 0,000029 5,19687E-06 2,00E-06 1,022E-11 0,1 3,08E-05 0,000029 1,78221E-06 2,00E-06 4,74331E-14 0,5 0,000191 0,000194 2,72662E-06 3,00E-06 7,47356E-14 0,5 0,000194 0,000194 4,31653E-07 3,00E-06 6,59641E-12 0,5 0,000201 0,000194 6,62629E-06 3,00E-06 1,315E-11 1 0,000488 0,000485 3,27345E-06 0,000004 5,27876E-13 1 0,000476 0,000485 8,86904E-06 0,000004 2,37075E-11 1 0,000485 0,000485 1,05052E-07 0,000004 1,51706E-11 2 0,000907 0,000907 1,72542E-07 0,000008 6,12691E-11 2 0,000925 0,000907 1,75731E-05 0,000008 9,16435E-11 2 0,000901 0,000907 6,16094E-06 0,000008 3,38215E-12 Média 3,68897E-06 soma 2,29289E-10 Tabela 1.10.2.4: Tabela auxiliar para calcularmos a estatística de Brown-Forsythe. Logo, da tabela obtemos os resultados de Por fim, calculamos a estatística de Brown-Forsythe, para isto observe a seguinte tabela: Concentração ni ni-1 Z.. g-1 Numerador Denominador Estatística 0,05 1,00E-06 3 2 3,68897E-06 4 5,42291E-12 0,1 2,00E-06 3 2 3,68897E-06 4 2,13946E-12 0,5 3,00E-06 3 2 3,68897E-06 4 3,56006E-13 1 0,000004 3 2 3,68897E-06 4 7,25564E-14 2 0,000008 3 2 3,68897E-06 4 1,39388E-11 Soma 10 2,19297E-11 2,29289E-10 2,29289E-11 0,937442 Tabela 1.10.2.5: Teste de Brown-Forsythe. Logo, temos que O p-valor é dado por: Para nível de significância , obtemos que Portanto, com 95% de confiança, não rejeitamos , ou seja, os resíduos são homocedásticos. A seguir, através do software Action, testamos a homoscedasticidade através das estatísticas de Breusch-Pagan e Goldfeld-Quandt (para mais detalhes consulte diagnóstico de homoscedasticidade). Tabela 1.10.2.5: Teste de homoscedasticidade. Através das tabelas notamos que para nível de significância , obtemos que com 95% de confiança, não rejeitamos , ou seja, os resíduos são homoscedásticos para os testes de Breusch-Pagan e Brown-Forsythe (Teste de Levene modificado). Uma observação importante é que para o teste de Goldfeld-Quandt rejeitamos porém dentre as limitações deste teste é que necessitamos de uma amostra relativamente grande, o que não acontece com este exemplo. Portanto, podemos concluir que a homoscedasticidade dos resíduos (variância constante). Diagnóstico de outliers e pontos influentes A seguir, vamos analisar os outliers, que é uma observação extrema, ou seja, é um ponto com comportamento diferente dos demais. Se um outlier for influente, ele interfere sobre a função de regressão ajustada (a inclusão ou não do ponto modifica substancialmente os valores ajustados). Mas uma observação ser considerada um outlier não quer dizer que consequentemente é um ponto influente. Por isso, um ponto pode ser um outlier em relação a Y ou aos X, e pode ou não ser um ponto influente. A detecção de pontos atípicos tem por finalidade identificaroutliers com relação a X, outliers com relação a Y e observações influentes. Primeiramente, vamos analisar os outliers em X, para isto observe os resultados obtidos pelo software Action: Figura 1.10.2.2: Boxplot dos pontos de alavanca (Leverage). Figura 1.10.2.3: Gráfico dos pontos de alavanca (leverage hii) versus nº da observação. Do gráfico 1.10.2.2 notamos alguns indícios de observações podem alavancar o ajuste do modelo. Do gráfico 1.10.2.3 observamos que os pontos são o de concentração igual a 2. Notamos que ele está muito distante em relação a concentração de 1. Porém, pelo critério 0,4 temos que nenhum ponto é um outlier em X (Concentração). Agora, vamos analisar os outliers em Y, para isto observe os resultados obtidos pelo software Action: Figura 1.10.2.4: Gráfico dos resíduos padronizados versus valores ajustados. Figura 1.10.2.5: Gráfico dos resíduos studentizados versus valores ajustados. Dos gráficos 1.10.2.4 e 1.10.2.5 não observamos nenhum outlier em Y (Área). Tabela 1.10.2.6: Teste de outliers. Observamos da tabela 1.10.2.6 e do gráfico de resíduos studentizados versus ajustados 1.10.2.5, que a observação 10 é um outlier, porém do gráfico de resíduos padronizados versus ajustados 1.10.2.4 notamos que este ponto está nula zonanebulosa de ser ou não um outlier. A seguir, vamos analisar os pontos influentes, para isto observe os resultados obtidos pelo software Action: Vale lembrar que um ponto é influente, se sua exclusão do ajuste da regressão causa uma mudança substancial nos valores ajustados. DFFITS medem a influência que a observação i tem sobre seu próprio valor ajustado. Pelo critério DFFITS, obtemos que a observação 15 é um ponto influente, porém pelo critério da distância de Cook, não detectamos pontos influentes. O DFBETA mede a influência da observação i sobre o coeficiente de X (Concentração). Pelo critério observamos que o ponto 15 é um ponto influente para o coeficiente de Concentração. Um resumo geral da análise de diagnóstico é que os pontos 10, 11e 12 podem influenciar na normalidade dos resíduos. Já para análise de outliers em Y, temos que o ponto 10 é um outlier em Y (Concentração). Já o ponto 15 é um ponto influente que pode causar uma mudança substancial no ajuste do modelo. Após as validações das suposições do modelo ajustado, o próximo passo é calcular a incerteza devido à curva de calibração. Para isto propomos calcular a incerteza (para mais detalhes consulte o conteúdo incerteza de medição) por quatro métodos: Método MGQ (Manual da Garantia da Qualidade); Método da projeção do intervalo de predição; Método Delta; Método Fieller. A seguir vamos descrever o primeiro método, que é o método do manual da garantia da qualidade (MGQ). Ao relatarmos o resultado da medição de uma grandeza física é obrigatório que seja dado alguma indicação quantitativa da qualidade do resultado, de tal forma que aqueles que utilizam o resultado da medição possam avaliar sua confiabilidade. O conceito de incerteza de medição será utilizado como um atributo quantificável para determinar a qualidade de um sistema de medição. Afim de atender este conceito referente a incerteza devido à curva de calibração para métodos analíticos e controle de resíduos contaminantes em alimentos, o Ministério da Agricultura, Pecuária e Abastecimento (MAPA), por intermédio da Secretaria de Defesa Agropecuária e da Coordenação-Geral de Apoio Laboratorial (CGAL), resolveu redigir e publicar o Manual de Garantia da Qualidade Analítica. No anexo IV do MGQ é descrito de como é calculado da incerteza de previsão da concentração do analito da Curva de Calibração (Cálculo de Incerteza de Calibração). A incerteza padrão da concentração de analito não é a incerteza da concentração de analito na amostra de ensaio, pois nela não consideramos outras fontes de incerteza como a incerteza da preparação das soluções e os níveis de concentração da curva de calibração, tampouco a repetibilidade do ensaio. Esta incerteza é uma das fontes de incerteza do ensaio analítico. Inicialmente, notamos que na prática o maior interesse é predizer o valor da concentração (X) dado uma observação em área (Y), por exemplo, em análises cromatográficas ou por espectrometria (ICP). Então, dado observado, tomamos como estimativa (invertendo a função linear) Chamamos de erro na previsão a diferença cuja variância é dada por Um estimador pontual pode ser obtido à partir do modelo ajustado Notemos que é uma variável aleatória normalmente distribuída já que é uma combinação linear das observações . Além disso, temos que Com isso temos que é um estimador não viciado para Outra observação importante, é que é obtida na seção testes e intervalo de confiança dos parâmetros. Logo, temos que Logo, voltando em (1.10.3.1.1) obtemos Portanto a incerteza devido à curva de calibração pelo método MGQ é dada por: ou equivalentemente Vale lembrar que: x0: é a concentração de analito da solução injetada no instrumento de medição analítica obtida por interpolação ou extrapolação da curva de calibração. y0: é a resposta instrumental média das injeções no instrumento de medição analítica das soluções obtidas. sres: é o desvio-padrão da resposta instrumental para solução da amstra injetada no instrumento de medição analítica. Mais especificamente é o desvio-padrão dos resíduos do modelo de regressão linear simples. Exemplo 1.10.3.1.1: Voltando ao exemplo de motivação da seção 1.10.1 - Modelo Estatístico para Curva de Calibração. Já temos calculado: Tomamos o ponto Logo, a incerteza devido à curva de calibração devido ao método da projeção do intervalo de confiança da resposta média é dada por �� Para entender como executar essa função do Software Action, você pode consultar o manual do usuário. Na próxima seção, vamos descrever o método da projeção do intervalo de confiança da resposta média. Nesta seção vamos deduzir outra metodologia para calcularmos a incerteza devido à curva de calibração, que denominamos método da projeção do intervalo de confiança da resposta média. Para ilustrarmos esta denominação, observe o exemplo da motivação. A estimativa de um intervalo de confiança para é de grande interesse. Um estimador pontual de pode ser obtido a partir do modelo ajustado, isto é, Notemos que é uma variável aleatória normalmente distribuida já que é uma combinação linear das observações . Além disso, temos que Portanto, o intervalo de confiança para é dado por em que é a resposta média estimada para o nível x=x0. Observe a figura (1.10.3.2.1) que ilustra o intervalo de predição Figura 1.10.3.2.1: Banda de confiança do intervalo de predição. Primeiramente, traçamos uma linha paralela ao eixo na altura de estimado em , que denominaremos por . Projetamos linhas à partir das bandas de confiança, em seguida, traçamos uma reta perpendicular ao eixo para obtermos os os valores de e . Igualando as equações (1.10.3.2.1) e (1.10.3.2.2), temos: elevando ambos os lados ao quadrado, Colocando em evidência e , temos, (1.10.3.2.4) Vale lembrar que (1.10.3.2.4) é uma equação do segundo grau do tipo (Bhaskara) com: Assim, resolvendo a equação (1.10.3.2.4) em encontramos e . Com isso, temos que Resolvendo , temos Dessa maneira, temos Somamos e subtraímos , e obtemos Multiplicamos e dividimos o segundo termo do lado direito da igualdade por Substituímos g por Vamos escrever Com isso temos para em que Quando g é zero para , temos os limites para Com isso temos que que são os limites do intervalo de confiança da resposta média dividido pelo parâmetro Podemos encontrar dois tipos de problemas quando calculamos o intervalo de confiança por este método. pode ser negativo. Quando isso acontece, não existe um intervalo de confiança real para , pois as soluções das equações não são números reais e sim números complexos. A Figura (1.10.3.2.2) ilustra o que ocorre. Figura 1.10.3.2.2: Caso em que as soluções de e são complexas. Assim, não existe um intervalo de confiança para . É possível encontrar e ambas menores ou ambas maiores que . Quando isso acontece, a incerteza calculada por este método não é válido. A Figura (1.10.3.2.3) ilustra o que ocorre nesse caso. Figura 1.10.3.2.3: Caso em e são ambos menores que Portanto, a incerteza devido à curva de calibração devido ao método da projeção do intervalo de confiança da resposta média é dada por Exemplo 1.10.3.2.1: Voltando ao exemplo de motivação da seção 1.10.1 - Modelo Estatístico para Curva de Calibração. Já temos calculado:Tomamos o ponto Logo, a incerteza devido à curva de calibração devido ao método da projeção do intervalo de confiança da resposta média é dada por A seguir apresentamos os resultados obtidos pelo software Action: �� Para entender como executar essa função do Software Action, você pode consultar o �� HYPERLINK "http://www.portalaction.com.br/manual-metrologia/curva-de-calibracao" manual do usuário. Na próxima seção, vamos descrever o método delta. Nesta seção, vamos utilizar o método delta para calcularmos a incerteza devido a curva de calibração. O método delta é uma técnica para aproximar um vetor aleatório, através da expansão pela séria de Taylor. Ela proporciona transformações que levam a uma variância assintótica que é independente do parâmetro. Se usarmos a aproximação de 1a ordem para obtemos Expandimos em série de Taylor até primeira ordem, com isso obtemos, Então é o estimador de e temos aproximadamente, (1.10.3.3.1) Da seção 1.3 Propriedades dos Estimadores, temos que Agora, é necessário calcularmos as derivadas. Assim, em que Substituímos as derivadas e os dados obtidos nas seções anteriores em (1.10.3.3.1). Com algumas manipulações algébricas obtemos Portanto, a incerteza devido à curva de calibração pelo método delta é dada por Exemplo 1.10.3.3.1: Voltamos ao exemplo da motivação. Já temos calculado: Suponhamos, logo a incerteza devido à curva de calibração pelo método Delta é dada por �� Para entender como executar essa função do Software Action, você pode consultar o �� HYPERLINK "http://www.portalaction.com.br/manual-metrologia/curva-de-calibracao" manual do usuário. A incerteza devido à curva de calibração como dito na seção modelo estatístico para curva de calibração, na prática temos interesse em predizer o valor da concentração X, dado uma observação em Área (Y). Com isso obtemos: que é uma razão de duas variáveis aleatórias com distribuição normal (para mais detalhes consulte a distribuição Normal), ou seja, tem distribuição normal com média e variância e tem distribuição normal com média e variância Ao padronizarmos estas duas variáveis aleatórias, obtemos duas variáveis aleatórias normais padrão, isto é, Logo a razão destas duas variáveis aleatórias terá uma distribuição de Cauchy (para mais detalhes consulte o conteúdo da distribuição de Cauchy), que não possui média e variância, o que impossibilitaria calcularmos a incerteza devido à curva de calibração. Porém, vamos utilizar um resultado que possibilitará calcularmos a incerteza devido à curva de calibração, que é o teorema de Fieller. O teorema de Fieller é um resultado geral para intervalos de confiança da razão de duas variáveis aleatórias normalmente distribuídas. Seja a variável aleatória em que e são estimados por e e estes estimadores são normalmente distribuídos com médias e e variâncias Var e Var respectivamente.Consideramos Com isso, como e são estimadores não viciados de e temos que Suponhamos que seja normalmente distribuído e tem distribuição normal padrão. Agora, observemos a seguinte desigualdade, Elevamos ao quadrado em ambos os lados e igualamos a zero. Substituimos por (1.10.3.4.1), com isso obtemos Para facilitar a notação, substituímos �� INCLUDEPICTURE "http://www.portalaction.com.br/files/tex/2661b01edcc5dca3f4c7fab7939dd7c5e168ed59.png" \* MERGEFORMATINET �� INCLUDEPICTURE "http://www.portalaction.com.br/files/tex/3e2d46eb72b1a07e81bb6a9c8972e2fcda124af2.png" \* MERGEFORMATINET e Com isso, temos que Assim esta expressão é uma equação do segundo grau do tipo (Bhaskara). Logo resolvemos esta equação da seguinte forma: Logo, a solução para é dada por Voltamos as notações originais e chegamos a seguinte expressão: em que As duas raízes da equação do segundo grau, são os limites de confiança 100(1-)% para que é o método de Fieller. Agora vamos calcular a variância para Para isto, vamos adaptarmos o resultado obtido para Então basta trocarmos por Mas para isto vamos fazer alguns cálculos: Porém, temos Calculamos agora Voltamos em (1.10.3.4.3) e obtemos Agora, voltamos em (1.10.3.4.2) e obtemos Vale lembrar que Logo, temos que Substituímos a equação anterior pelos valores: e com algumas manipulações algébricas obtemos que em que Quando g é zero para , temos os limites para Com isso temos que Agora, observe que Multiplicamos por -1 a inequação e somamos obtemos que Logo, temos que Portanto, a incerteza padronizada devido a curva de calibração é dada por: Exemplo 1.10.3.4.1: Voltamos ao exemplo da motivação. Já temos calculado: Suponhamos, logo a incerteza devido à curva de calibração pelo método Fieller é dada por �� Para entender como executar essa função do Software Action, você pode consultar o �� HYPERLINK "http://www.portalaction.com.br/manual-metrologia/curva-de-calibracao" manual do usuário. O modelo de regressão linear inversa foi aplicado à avaliação da incerteza na determinação de compostos químicos à partir da construção de curva de calibração para diferentes níveis de concentrações. Nas seções anteriores utilizamos cinco métodos para determinar a incerteza devido à curva de calibração e são elas: Método Ingênuo; Método MGQ (Manual da Garantia da Qualidade); Método da projeção do intervalo de confiança da resposta média; Método Delta; Método Fieller. Na presente seção vamos fazer uma comparação entre os quatro métodos para aplicação obtida na seção 1.10 (ICP - Espectrômetro de emissão ótica). Concentração Área Ajustada u(Ing) u(MGQ) u(Proj) u(delta) u(Fieller) 0,05 0,000004 0,04239 0,04521 0,0157 0,0318 0,00011 0,1 0,000027 0,04239 0,04508 0,0153 0,0314 0,00083 0,25 0,000098 0,04239 0,04474 0,0143 0,0303 0,00339 0,5 0,000216 0,04239 0,04438 0,0132 0,0286 0,00899 1 0,000451 0,04239 0,04442 0,0133 0,0263 0,0253 2 0,000922 0,04239 0,04746 0,0213 0,0266 0,078 3 0,001392 0,04239 0,05379 0,0331 0,0329 0,16 5 0,002334 0,04239 0,07253 0,0589 0,0541 0,40 Tabela 1.10.3.5.1: Resumo das incertezas devido à curva de calibração para todos os métodos. Comparamos as incertezas obtidas na tabela 1.10.3.5.1, e notamos que os métodos ingênuo (Ing) e do manual da garantia da qualidade (MGQ) estão bem próximos em concentrações até 1 μg/mL, comparando com os demais métodos. Vale lembrar que o método ingênuo (para mais detalhes consulte modelo estatístico para curva de calibração) é dado pela fórmula: e este método mantêm constante a incerteza para qualquer nível de concentração. Em concentrações até 0,5 μg/mL, temos que o método de Fieller é tem menor incerteza e cresce linearmente, à medida que aumentamos os níveis de concentração. Os métodos delta e MGQ tem variação pequena ao longo dos níveis de concentração adotados, enquanto o método da projeção (Proj) cresce linearmente à medida que aumentamos os níveis de concentração, porém com menos intensidade comparado com o método de Fieller.Resumindo, notamos que o método de Fieller, para níveis de concentração baixo têm incerteza baixa, enquanto que para níveis de concentração altos a incerteza é muito maior comparado com os demais métodos. Incerteza relativa aos níveis de concentração (%) Concentração u(Ing) u(MGQ) u(Proj) u(delta) u(Fieller) 0,05 84,78 90,42 31,44 63,66 0,23 0,1 42,39 45,08 15,34 31,44 0,83 0,25 16,96 17,90 5,73 12,12 1,36 0,5 8,48 8,88 2,63 5,73 1,80 1 4,24 4,44 1,33 2,63 2,53 2 2,12 2,37 1,07 1,33 3,90 3 1,41 1,79 1,10 1,10 5,25 5 0,85 1,45 1,18 1,08 7,95 Tabela 1.10.3.5.2: Incertezas em porcentagem em relação aos níveis de concentração. A tabela 1.10.3.5.2 nos mostra a porcentagem da incerteza devido a curva de calibração em relação aos níveis de concentração. Desta tabela, obtemos que a incerteza para os baixos níveis de concentração é bem alto. Por exemplo, vamos observar o nível de concentração de 0,05 μg/mL. A incerteza que mais alta é o obtido pelo método do manual da garantia da qualidade (MGQ). O método da projeção do intervalo de confiança da resposta média (Proj), embora com incerteza menor que os métodos MGQ, delta e ingênuo, ainda assim tem cerca de 32% em relação a concentração de 0,05 μg/mL. Ao compararmos a incerteza obtida pelo método Fieller com os demais, observamos que ela é a mais adequada para incertezas com níveis de concentração baixos. Os demais métodos decrescem à medida que aumentamos os níveis de concentração (tabela 1.10.3.5.2), enquanto que o método de Fieller cresce. Outro argumento de favorece o método de Fieller é que é a razão de duas variáveis aleatórias com distribuição normal e este método leva em conta esta suposição. Ao contrário dos demais métodos que não usam esta suposição. Portanto, o método de Fieller é o método mais plausível para calcularmos a incerteza devido à curva de calibração. Em muitos casos, ao analisarmos os resíduos de um modelo de regressão linear, ao visualizarmos que estes não apresentam a característica de variância constante, temos uma das suposições do modelo não atendidas. Quando isso acontece, dizemos que o modelo apresenta heterocedasticidade nos erros (resíduos), ou ainda que o modelo é heterocedástico. Alguns efeitos causados por essa falha na suposição do modelo são: Os erros padrões dos estimadores, obtidos pelo Método dos Mínimos Quadrados Ordinários, são incorretos e portanto a inferência estatística não é valida. Não podemos mais dizer que os Estimadores de Mínimos Quadrados Ordinários são os melhores estimadores de variância mínima para , embora ainda possam ser não viciados. Por que usar pesos? Suponhamos que a variância seja não constante, isto é, tomamos, por exemplo, pesos de forma que Com isso, as estimativas de Mínimos Quadrados Ponderados (MQP) tem erros padrão menores do que as estimativas de Mínimos Quadrados Ordinários (MQO). Como dito anteriormente, as estimativas de MQO são incorretos, em relação as estimativas de MQP. Motivação Considere a curva de calibração para o ensaio de certo composto químico realizado por um equipamento chamado Cromatógrado. A seguir apresentamos o conjunto de dados: Área Concentração 0,078 0 1,329 0 0,483 0 0,698 0 0,634 0 0,652 0 0,071 0 20,718 25 21,805 25 16,554 25 19,948 25 21,676 25 22,207 25 19,671 25 33,833 50 34,726 50 35,463 50 34,04 50 34,194 50 33,664 50 34,517 50 79,224 100 73,292 100 85,514 100 82,072 100 85,044 100 73,876 100 82,568 100 108,065 150 118,268 150 108,89 150 127,183 150 121,447 150 122,414 150 135,555 150 224,932 250 200,113 250 200,368 250 205,17 250 213,059 250 207,931 250 201,766 250 371,534 500 408,86 500 383,509 500 405,143 500 404,132 500 379,243 500 387,419 500 �� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reg_pond.xlsx" clique aqui para efetuar o download dos dados utilizados nesse exemplo Ajustamos o modelo de regressão linear, com o apoio computacional do software Action, obtemos o gráfico da análise de resíduos: Gráfico 1.11.1: Análise de Diagnóstico do modelo. Vale lembrar que a suposição do modelo linear é que os erros (resíduos) têm distribuição normal, independentes e com variâncias constantes, isto é, o modelo é homocedástico. Ao avaliarmos o gráfico de resíduos x valores ajustados, podemos verificar indícios de homocedasticidade ou o contrário (heterocedasticidade). Na avaliação da homocedasticidade, esperamos que esse gráfico apresente seus pontos dispostos aleatoriamente em torno da linha traçada em 0, que é o valor esperado dos resíduos. Porém, do gráfico 1.11.1, podemos observar que os resíduos apresentam certa tendência. Por exemplo, notamos um comportamento crescente até metade dos valores ajustados e decrescente da metade pro fim. Com isso, temos indícios de que os erros não possuem variâncias contantes, neste caso dizemos que o modelo apresenta heterocedasticidade nos erros. Além disso, observando o gráfico Resíduos x Ordem de Coleta, vemos de maneira ainda mais clara a tendência dos resíduos em relação a distância da linha central, novamente percebemos que eles se distanciam menos nas primeiras observações e aumenta conforme nos aproximamos da última. A avaliação da hipótese de homoscedasticidade dos resíduos, é feita através das estatísticas de Cochran, Brown-Forsyte (Levene), Breusch-Pagan e Goldfeld-Quandt.Para isto, testamos as seguintes hipóteses: A seguir, com auxílio do software Action, vamos avaliar a homocedasticidade: Tabela 1.11.1: Teste de homocedasticidade dos erros (resíduos). A partir dos resultados, notamos que para todas as estatísticas utilizadas rejeitamos a hipótese nula , isto é, o modelo é heterocedástico ao nível de significância de 5% (). Ao testarmos a hipótese de homocedasticidade e este for rejeitado, então temos um modelo heterocedástico. Para contornar a falha na suposição do modelo de regressão linear, descrevemos a estimativa por Mínimos Quadrados Ponderados. Modelo Estatístico Neste momento, consideramos o modelo de regressão linear simples e vamos denotar por a variância relacionada ao i-ésimo erro , A suposição do modelo é que independentes. Observe que estamos considerando que a variância depende da i-ésima observação, podendo ser não constante ao longo das observações. O modelo descrito é da forma: em que, é a i-ésima observação da variável resposta; é a i-ésima observação da covariável constante e conhecida; e são os parâmetros desconhecidos da regressão; é o i-ésimo erro, consideramos para e é o número de observações. A ideia principal é obter estimadores para os parâmetros de regressão de forma que os estimadores dos parâmetros da regressão sejam consistentes e de variância mínima. Desta forma, as inferências realizadas sobre o modelo se tornam válidas. Como dito, vamos introduzir os princípios dos estimadores de mínimos quadrados ponderados, no qual devemos considerar que cada uma das observações podem não gerar a mesma variabilidade nos resíduos. Por fim, determinamos o peso que cada observação terá sobre os estimadores, isto é, a influência sobre elas. Para isto, vamos nos basear na ideia de que o peso atribuído a uma observação é inversamente proporcional a variância do resíduo relacionado a ela, em outras palavras, consideramos que as observações que causam maior variabilidade nos resíduos têm menor confiabilidade em termos de inferência para os parâmetros da função de regressão. De maneira análoga, as observações com menor variância
Compartilhar