Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 MODELAGEM DE BIOSSISTEMAS TEORIA DOS ERROS VALIDAÇÃO DE MODELOS Daniela de Carvalho Lopes Antonio José Steidle Neto MODELOS E ERROS Nenhum resultado obtido por meio de cálculos eletrônicos ou métodos numéricos tem valor se não tivermos conhecimento e controle sobre os possíveis erros envolvidos no processo. Os modelos resultam em soluções aproximadas dos problemas reais, sendo necessário avaliar se os erros inerentes ao processo de solução deles são aceitáveis (validação do modelo). Um número y é dito uma aproximação para o número exato x se existe uma pequena diferença entre eles. Dizemos que y é um número aproximado por falta se y < x. Dizemos que y é um número aproximado por excesso se y > x. Exemplo: 1.41 é uma aproximação da raiz de 2 por falta e 1.42 é uma aproximação da raiz de 2 por excesso. MODELOS EXATOS MODELOS PRECISOS O valor de uma grandeza física submetida à medição costuma ser adquirido através de procedimentos que, em geral, envolvem instrumentos como os sensores, por exemplo. Toda medida realizada tem uma incerteza associada. Ou seja, a seleção do processo de medida, do instrumento usado e a reprodutibilidade da grandeza física medida resultam em variações com relação aos valores reais. Este comportamento também é observado quando simulamos um processo. A exatidão corresponde ao grau de proximidade entre o valor simulado e o valor verdadeiro. A precisão de um modelo está relacionada à menor mudança possível nos resultados para condições semelhantes. Alta precisão não implica, necessariamente, em alta exatidão, entretanto, alta exatidão requer usualmente alta precisão (exemplo do tiro ao alvo). MODELOS EXATOS MODELOS PRECISOS Modelo exato e preciso Modelo preciso Modelo não exato mas não exato e não preciso 2 ERRO INICIAL OU ERRO INERENTE A solução matemática de um determinado problema envolve diversas etapas, incluindo a criação de um modelo matemático do sistema em questão e/ou a utilização de dados experimentais para a obtenção da solução em questão. Os modelos e os processos de aquisição de dados experimentais sempre apresentarão aproximações, limitações e incertezas. Estes fatores resultarão em incertezas na solução numérica do problema, que são chamadas erros inerentes ou erros iniciais. ERROS DE TRUNCAMENTO E DE ARREDONDAMENTO Erro de truncamento: ocorre quando utilizamos apenas uma parte de um processo infinito. Exemplo: Cálculos que dependem de séries numéricas. Erro de arredondamento: erro originado pela representação dos números reais utilizando-se apenas um número finito de casas decimais. ERRO ABSOLUTO Diferença entre o valor real da grandeza estudada e o seu valor aproximado. Sua unidade é a mesma da grandeza medida : Ea = | x – y | Quanto menor o erro absoluto, mais exato é o resultado da medida ou da simulação. Uma limitação é a variação na avaliação do erro absoluto de acordo com os valores estudados. Por exemplo, considerando que um valor exato de medida seria 1.256.900 e o valor simulado foi 1.250.000, o erro absoluto seria igual a 6.900 (valor grande), mas aceitável. Mas, se o valor real fosse 0,05 e o valor medido fosse 0,03 o erro absoluto seria 0,02 (valor pequeno), mas na comparação entre os valores real e medido esse erro representaria uma grande diferença. ERRO RELATIVO Quociente entre o erro absoluto e o valor real da grandeza a ser avaliada. Sua unidade é dada em porcentagem (%): Er = 100 Ea / x O erro relativo é uma forma muito mais geral de se avaliar a exatidão de uma medida ou o resultado de uma simulação. Considerando o exemplo anterior: Sendo o valor exato de uma medida igual a 1.256.900 e o valor simulado igual a 1.250.000, o erro relativo é igual a 0,55%. Mas, se o valor real for 0,05 e o valor medido for 0,03 o erro relativo será 40,00%. 3 PROPAGAÇÃO DE ERROS Ao se resolver um problema numericamente, a cada etapa e a cada operação realizada, devem surgir diferentes tipos de erros gerados das mais variadas maneiras, e estes erros se propagam e determinam o erro no resultado final obtido. A propagação de erros é muito importante pois, além de determinar o erro final de uma operação numérica, ela também determina a sensibilidade de um determinado modelo ou método numérico. Se uma pequena variação nos dados de entrada de um problema levar a uma grande diferença no resultado final, considera-se que essa operação é mal-condicionada, ou seja, existe uma grande propagação de erros nessa operação. Por outro lado, se uma pequena variação nos dados de entrada leva a apenas uma pequena diferença no resultado final, então essa operação é bem-condicionada. VALIDAÇÃO DE MODELOS O processo no qual os erros de um modelo são avaliados, visando verificar se ele é adequado para a simulação proposta e chamado validação. Realizando estes testes é possível afirmar se as aproximações geradas pelo modelo para o sistema real são aceitáveis. Este processo requer conjunto de dados independente do que foi utilizado para gerar o modelo, visando garantir que as equações que representam o sistema são válidas para diferentes conjuntos de dados. Após serem desenvolvidos, todos os modelos devem ser validados. As técnicas apresentadas neste material podem ser usadas em qualquer tipo de modelo. Para ilustrar o processo, vamos usar modelos de regressão. MODELOS DE REGRESSÃO Equações matemáticas que relacionam o comportamento de uma variável Y com outra variável X. Geralmente são modelos empíricos. Quando a função “F” que relaciona duas variáveis é do tipo F(X) = a + b X, temos o modelo de regressão linear simples. A variável X é denominada de independente da equação, enquanto que Y = F(X) é a variável dependente das variações de X. O modelo de regressão é denominado de multivariado quando o comportamento de Y é explicado por mais de uma variável independente X1, X2, ... , Xn. Os modelos univariados ou multivariados simulam relacionamentos entre as variáveis do tipo linear (equação da reta ou do plano) ou não linear (equação exponencial, geométrica, logarítmica, dentre outros.) COMO GERAR UM MODELO DE REGRESSÃO DIAGRAMA DE DISPERSÃO O diagrama de dispersão é uma nuvem de pontos obtida ao se plotar os pares de informação referentes a cada observação em um gráfico cartesiano. O formato da nuvem de pontos definirá um padrão de relacionamento entre X e Y. Por exemplo, a regressão será linear no caso de observada uma tendência ou eixo linear na nuvem de pontos cartesianos. A relação entre as variáveis será considerada direta ou positiva se os valores de Y aumentam quando também se elevam os valores de X. Será inversa ou negativa quando os valores de Y variam inversamente em relação aos de X. 4 ALGUNS TIPOS DE REGRESSÃO EXEMPLO Temperatura (ºC) Massa específica (kg m3) 10,00 1035,00 Experimento 01 20,00 1030,00 30,00 1029,40 40,00 1025,30 50,00 1012,80 Temperatura (ºC) Massa específica (kg m3) 10,00 1034,00 Experimento 02 15,00 1032,00 25,00 1030,10 45,00 1022,00 50,00 1010,80 Variação da massa específica da polpa de cupuaçu em função da temperatura: Veja o vídeo sobre este assunto para complementar seu entendimento O MODELO SE AJUSTA BEM AOS DADOS ORIGINAIS? Dados medidos e usados para gerar a equação do modelo Dados calculados com a equação gerada, usando as mesmas variáveis independentes originais COEFICIENTE DE CORRELAÇÃO (R) COEFICIENTE DE DETERMINAÇÃO (R2) Não quantificam a magnitude do erro do modelo, mas avaliam a precisão do modelo de estimativa. O coeficiente de correlação deve ser usado como uma medida de força da relação entre as variáveis, podendo assumir valores positivos ou negativos. Valores de r iguais (correlação perfeita) ou próximos de ±1 indicam que exige uma forte relação entre as variáveis. O coeficiente de determinação descreve a proporção da variação total dos valores observados que pode ser explicada pelo modelo de estimativa, podendo assumir somente valores positivos. Os valores de r2 variam de 0 (zero) a 1 (um), sendo que, quanto mais próximos de 1 (um),melhor o ajuste do modelo. 5 Por exemplo, na regressão linear ao lado o coeficiente de determinação é igual a 0,855 ou 85,5% indicando que a variação dos Y’s (massas específicas) são explicadas em 85,5% pela relação com os X’s (temperaturas) utilizando o modelo proposto. Neste caso o modelo é aplicado ao conjunto de dados utilizado na modelagem. Y = -0,0011x3+0,0828x2-2,2155x+1049,9 r2 = 99,9% Y = -0,491x+1041,2 r2 = 85,5% Y = -0,0132x2+0,3019x+1032 r2 = 94,2% VALIDAÇÃO DO MODELO Executar outro experimento ou dividir os dados coletados em um conjunto utilizado na modelagem e outro conjunto utilizado para comparar os dados reais com os dados estimados. Quanto mais dados coletados melhor! Com este segundo conjunto de dados, aplicar a equação do modelo usando as variáveis independentes originais: Temperatura (ºC) ME observada (kg m3) ME linear (kg m3) ME pol. 2 grau (kg m3) ME pol. 3 grau (kg m3) 10,00 1034,00 1036,29 1030,98 1034,93 15,00 1032,00 1033,84 1029,33 1031,59 25,00 1030,10 1028,93 1024,05 1029,08 45,00 1022,00 1019,11 1005,57 1017,64 50,00 1010,80 1016,65 999,30 1008,63 GRÁFICO DE VALIDAÇÃO 13:34 Validação 995 1005 1015 1025 1035 995 1005 1015 1025 1035 Massa específica observada (kg/m3) M a s s a e s p e c íf ic a s im u la d a ( k g /m 3 ) Linear Quadrático Terceiro grau - Gráfico quadrado - Eixos X e Y com mesma escala - Linha 1:1 (montada com os valores mínimo e máximo analisados) - Mesma variável nos dois eixos (x - observado e y - simulado) AVALIAÇÃO DE ERROS EM MODELOS Estes parâmetros estatísticos são úteis na validação de modelos de regressão, mas podem ser utilizados para a avaliação de outros modelos, como os baseados na física e matemática, e também, os baseados em equações diferenciais. Além destes índices, existem outros que podem ser pesquisados em artigos científicos. Raiz do erro quadrático médio (REQM) Erro absoluto médio (EAM) Erro relativo médio (ERM) Erro médio de estimativa (EME) Índice de concordância de Willmott (d) 6 Y = -0,0132x2+0,3019x+1032 REQM = 9,54 kg/m3 RAIZ DO ERRO QUADRÁTICO MÉDIO (REQM) A REQM quantifica a magnitude do erro do modelo e avalia a precisão do modelo de estimativa. Sua unidade é a mesma da grandeza avaliada. Fornece uma informação em relação à dispersão dos valores, ou seja, o grau de espalhamento obtido na correção entre os valores preditos e observados. Quanto menor for o REQM, menor será o desvio dos valores preditos pelo modelo em relação aos valores observados e, assim, melhor o desempenho do modelo. Y = -0,0011x3+0,0828x2-2,2155x+1049,9 REQM = 2,27 kg/m3 Y = -0,491x+1041,2 REQM = 3,24 kg/m3 Y = -0,0132x2+0,3019x+1032 EAM = 7,93 kg/m3 ERRO ABSOLUTO MÉDIO (EAM) Quantifica a magnitude do erro do modelo em termos absolutos. Sua unidade é a mesma da grandeza avaliada. Quanto menor for o erro absoluto médio, menor será o desvio dos valores preditos pelo modelo em relação aos valores observados. Y = -0,0011x3+0,0828x2-2,2155x+1049,9 EAM = 1,78 kg/m3 Y = -0,491x+1041,2 EAM = 2,81 kg/m3 ERRO RELATIVO MÉDIO (ERM) Quantifica a magnitude do erro do modelo em termos relativos. Expresso em %. Quanto menor for o erro relativo médio, menor será o desvio dos valores preditos pelo modelo em relação aos valores observados. n O OP 100 ERM n 1i i ii Y = -0,0011x3+0,0828x2-2,2155x+1049,9 ERM = 0,17% Y = -0,491x+1041,2 ERM = 0,28% Y = -0,0132x2+0,3019x+1032 ERM = 0,78% Y = -0,0132x2+0,3019x+1032 EME = - 7,93 kg/m3 ERRO MÉDIO DE ESTIMATIVA (EME) Também quantifica a magnitude do erro do modelo. Quanto mais próximo de 0 (zero), melhor será a exatidão da estimativa gerada pelo modelo. Sua unidade é a mesma da grandeza avaliada. Valores negativos do EME indicam subestimativa, enquanto que, valores positivos indicam superestimativa dos valores observados. Y = -0,0011x3+0,0828x2-2,2155x+1049,9 EME = - 1,41 kg/m3 Y = -0,491x+1041,2 EME = 1,18 kg/m3 7 Y = -0,0132x2+0,3019x+1032 d = 0,90 ÍNDICE DE CONCORDÂNCIA DE WILLMOTT (D) Não quantifica a magnitude do erro do modelo, mas avalia a exatidão do modelo de estimativa. Adimensional ou expresso em %. Indica o grau de concordância (exatidão) entre os valores preditos e observados, ressaltando-se que quanto mais próximo de 1 (um), melhor o desempenho do modelo e quanto mais próximo de 0 (zero) pior o desempenho. Y = -0,0011x3+0,0828x2-2,2155x+1049,9 d = 0,98 Y = -0,491x+1041,2 d = 0,96 EXERCÍCIO RESOLVIDO 1. Os quadros e gráfico abaixo contém os dados coletados para a modelagem e para a validação da estimativa do número de pimentões comerciais colhidos em função do nível de adubação orgânica (t/ha). a) Qual a variável independente e qual a variável dependente? Qual o eixo associado a cada variável no gráfico da modelagem? b) Gere o gráfico da validação dos dados. c) Calcule os coeficientes de correlação (r) e de determinação (r2) do modelo. d) Calcule os índices REQM, EAM, EME, ERM e d para a validação dos dados. Interprete os resultados obtidos. e) O modelo é adequado para a estimativa proposta? Por quê? Modelagem Adubo (t/ha) Pimentões (x 1000) 0 200,00 30 550,00 60 880,00 90 1100,00 Validação Adubo (t/ha) Pimentões (x 1000) 0 190,00 30 600,00 60 900,00 90 1095,00 y = 247,19e0,0186x 0 200 400 600 800 1000 1200 1400 0 20 40 60 80 100 Adubo (t/ha) P im e n tõ e s (x 1 00 0 ) EXERCÍCIO RESOLVIDO a) A variável dependende é o número de pimentões comerciais (eixo y, cujo valor é simulado) e a variável independente é o nível de adubação (eixo x, variável conhecida). b) Gráfico da validação dos dados: - Gráfico quadrado - Eixos X e Y com mesma escala - Linha 1:1 (montada com o conjunto de dados 190,190 e 1400,1400. De maneira geral usa-se os valores mínimo e máximo analisados) - Mesma variável nos dois eixos (x observado e y simulado) 190 390 590 790 990 1190 1390 190 390 590 790 990 1190 1390 Número de pimentões observados (x 1000) N úm er o de p im en tõ es si m ul ad os (x 1 00 0) EXERCÍCIO RESOLVIDO c) Calcule os coeficientes de correlação (r) e de determinação (r2) do modelo. UTILIZO TABELA DA MODELAGEM! 8 EXERCÍCIO RESOLVIDO d) Calcule os índices REQM, EAM, EME, ERM e d para a validação dos dados. Interprete os resultados obtidos. UTILIZO TABELA DA VALIDAÇÃO! EXERCÍCIO RESOLVIDO e) O modelo é adequado para a estimativa proposta? Por quê? Os baixos valores de REQM e EMA, comparativamente à faixa de valores avaliada, sinalizam pequenas dispersões dos valores estimados em relação aos observados (160 e 149, respectivamente). Esta pequena dispersão é confirmada pelo valor do EME, que sendo negativo, indica ainda uma leve subestimativa do número de frutos (comprovada pelo gráfico de validação). Finalmente o valor de d foi igual a 95% (próximo de 100%) indicando um alto grau de concordância entre os tempos simulados e observados. Portanto o modelo proposto se mostrou adequado.
Compartilhar