Baixe o app para aproveitar ainda mais
Prévia do material em texto
Brasília-DF. AjustAmento de observAções Elaboração Luís Antônio dos Santos Produção Equipe Técnica de Avaliação, Revisão Linguística e Editoração Sumário APRESENTAÇÃO ................................................................................................................................. 4 ORGANIZAÇÃO DO CADERNO DE ESTUDOS E PESQUISA .................................................................... 5 INTRODUÇÃO.................................................................................................................................... 7 UNIDADE I INTRODUÇÃO E PROCEDIMENTOS ......................................................................................................... 9 CAPÍTULO 1 INTRODUÇÃO AO SISTEMA ESTATÍSTICO R.................................................................................. 9 CAPÍTULO 2 INTRODUÇÃO AO AJUSTAMENTO DE OBSERVAÇÕES ............................................................... 33 UNIDADE II PRÁTICAS ............................................................................................................................................ 43 CAPÍTULO 1 PRINCÍPIOS DE AJUSTAMENTO DE OBSERVAÇÕES ................................................................... 43 CAPÍTULO 2 AJUSTAMENTO DE REDES GEODÉSICAS ................................................................................... 80 UNIDADE III PRÁTICAS FINAIS .................................................................................................................................. 96 CAPÍTULO 1 PRÁTICAS FINAIS ..................................................................................................................... 96 REFERÊNCIAS ................................................................................................................................ 101 4 Apresentação Caro aluno A proposta editorial deste Caderno de Estudos e Pesquisa reúne elementos que se entendem necessários para o desenvolvimento do estudo com segurança e qualidade. Caracteriza-se pela atualidade, dinâmica e pertinência de seu conteúdo, bem como pela interatividade e modernidade de sua estrutura formal, adequadas à metodologia da Educação a Distância – EaD. Pretende-se, com este material, levá-lo à reflexão e à compreensão da pluralidade dos conhecimentos a serem oferecidos, possibilitando-lhe ampliar conceitos específicos da área e atuar de forma competente e conscienciosa, como convém ao profissional que busca a formação continuada para vencer os desafios que a evolução científico-tecnológica impõe ao mundo contemporâneo. Elaborou-se a presente publicação com a intenção de torná-la subsídio valioso, de modo a facilitar sua caminhada na trajetória a ser percorrida tanto na vida pessoal quanto na profissional. Utilize-a como instrumento para seu sucesso na carreira. Conselho Editorial 5 Organização do Caderno de Estudos e Pesquisa Para facilitar seu estudo, os conteúdos são organizados em unidades, subdivididas em capítulos, de forma didática, objetiva e coerente. Eles serão abordados por meio de textos básicos, com questões para reflexão, entre outros recursos editoriais que visam a tornar sua leitura mais agradável. Ao final, serão indicadas, também, fontes de consulta, para aprofundar os estudos com leituras e pesquisas complementares. A seguir, uma breve descrição dos ícones utilizados na organização dos Cadernos de Estudos e Pesquisa. Provocação Textos que buscam instigar o aluno a refletir sobre determinado assunto antes mesmo de iniciar sua leitura ou após algum trecho pertinente para o autor conteudista. Para refletir Questões inseridas no decorrer do estudo a fim de que o aluno faça uma pausa e reflita sobre o conteúdo estudado ou temas que o ajudem em seu raciocínio. É importante que ele verifique seus conhecimentos, suas experiências e seus sentimentos. As reflexões são o ponto de partida para a construção de suas conclusões. Sugestão de estudo complementar Sugestões de leituras adicionais, filmes e sites para aprofundamento do estudo, discussões em fóruns ou encontros presenciais quando for o caso. Praticando Sugestão de atividades, no decorrer das leituras, com o objetivo didático de fortalecer o processo de aprendizagem do aluno. 6 Atenção Chamadas para alertar detalhes/tópicos importantes que contribuam para a síntese/conclusão do assunto abordado. Saiba mais Informações complementares para elucidar a construção das sínteses/conclusões sobre o assunto abordado. Sintetizando Trecho que busca resumir informações relevantes do conteúdo, facilitando o entendimento pelo aluno sobre trechos mais complexos. Para (não) finalizar Texto integrador, ao final do módulo, que motiva o aluno a continuar a aprendizagem ou estimula ponderações complementares sobre o módulo estudado. 7 Introdução Vamos iniciar nossos estudos em Ajustamento de Observações no contexto do georreferenciamento de imóveis rurais, utilizando o sistema estatístico R, que aos poucos todos os alunos ficarão familiarizados. Além do sistema R, ou em conjunto com o R, também vamos utilizar, quando necessário, o LibreOffice Calc e, da mesma forma, apresentaremos conceitos básicos de estatística, antes de avançar para problemas mais específicos na área de ajustamento de observações. Alguns problemas de modelagem matemática serão explorados, principalmente para aprimorar, ou ampliar, a visão do aluno sobre o contexto maior da otimização matemática, que se relaciona diretamente com os métodos de ajustamento de observações. Outras definições, como as de álgebra de matrizes, ou operações de cálculo diferencial e integral, ou mesmo, os próprios problemas estatísticos, não serão analisadas profundamente. Lembramos apenas da necessidade desses conceitos para o curso de ajustamento de observações. Quando copiar as linhas de comando e digitar Ctrl R para rodar e Script escrito em R, e não acontecer nada pode ser que na revisão, desse material, algumas linhas de comando passaram a conter espaços desnecessários. É bom prestar atenção nisso. Objetivos » Desenvolver fundamentos da estatística, aplicada ao georreferenciamento de imóveis rurais, fazendo uma breve introdução ao sistema estatístico R. » Apresentar conceitos de ajustamento de observações, variáveis aleatórias e distribuição de probabilidade, variância e covariância, propagação do erro ou das covariâncias. » Proporcionar práticas do método dos mínimos quadrados, paramétrico e condicional, avaliando a qualidade das estimativas e análise dos resultados. 8 9 UNIDADE IINTRODUÇÃO E PROCEDIMENTOS Nessa unidade veremos o conteúdo introdutório a cerca do sistema estatístico R, o qual se mostra muito importante quando usado de forma integrada com a geotecnologia. Nesse viés, além dos assuntos introdutórios, estudaremos também alguns ajustamentos e operações básicas. CAPÍTULO 1 Introdução ao sistema estatístico R Objetivo Vamos usar os dados da seção técnica da revista A Mira – Comparativo entre dados obtidos pelo nivelamento trigonométrico com ET e dados altimétricos obtidos com GPS com correção em tempo real (RTK). (A MIRA, Ano XXII, no 163; SANTOS et al., 2014). E, a partir desses dados, fazer uma pequena introdução ao sistema estatístico R. Então, na sequência, discutir alguns resultados, fazendo uma revisão estatística, dentro do contexto do ajustamento de observações. Nós vamos usar a Introdução ao Ambiente Estatístico R de Paulo Justiniano Ribeiro Júnior, atualizada em 29 de maio de 2011 e o livro Conhecendo o R, uma visão mais que Estatística (MELLO et al, 2013). Passo a passo 1o Passo: criar um arquivo .txt no bloco de notas, chamado Altimetria: 10 UNIDADE I │ INTRODUÇÃO E PROCEDIMENTOS Figura 1. Altimetria. Fonte: Autor. 2o Passo: vamos abrir esse arquivo no Sistema Estatístico R usando os comandos: Figura 2. Fonte: Autor. Script R-1 – Copiar para o editor de Script do R edar o comando Ctrl R. Obs.: a resposta, ou saída no R Console, não será, na maioria das vezes, documentada. > variável <- read.table (file.choose(), header=T) > variável Ou > Altimetria <- read.table (file.choose(), header=T) > Altimetria 11 INTRODUÇÃO E PROCEDIMENTOS │ UNIDADE I 3o Passo: agora vamos separar a tabela em dois vetores: > ET <- Altimetria [,1] > ET E > GPS <- Altimetria [,2] > GPS 4o Passo: depois devemos calcular o vetor v dos erros: > v <- ET-GPS > v 5o Passo: segundo a teoria, que pode ser aprofundada, o vetor v dos erros deve seguir a distribuição normal (Curva de Sino), portanto vamos testar a normalidade dos dados. Figura 3. Fonte: Autor. Obs.: caso os dados não obedeçam à distribuição normal, será necessária uma transformação matemática. Por exemplo, usando logaritmo ou expansão em série de Taylor. > shapiro.test (v) Obs.: discutir o resultado p-value que deve ser maior que 0,05. 12 UNIDADE I │ INTRODUÇÃO E PROCEDIMENTOS Quando os dados seguem uma distribuição normal eles se distribuem ao longo de uma reta, mas para isso existe um tipo de papel gráfico, chamado papel de probabilidade. O papel de probabilidade lognormal difere apenas no fato de que a escala na ordenada é logarítmica. > qqnorm(v) > qqline(v) 6o Passo: algumas operações com vetores: Obs.: os dados devem, sempre quando necessário, serem armazenados em uma variável. > length(v) #(Número de observações de v) > max(v) # (Valor máximo de v) > min(v) #(Valor mínimo de v) > sum(v) #(Soma de v) > v^2 #(Quadrado de v) > sqrt(v^2) #(Raiz quadrada de v^2) 7o Passo: calculando média do vetor v: 1o modo: > mv <- sum(v)/11 > mv 2o modo: > mv <- mean(v) > mv 8o Passo: calculando o desvio padrão do vetor v: 1o modo: Resolver, ou calcular, o desvio padrão do vetor v, usando a fórmula do desvio padrão da NBR13133, produzindo o Script escrito em R. 13 INTRODUÇÃO E PROCEDIMENTOS │ UNIDADE I 2o modo: > sv <- sd(v) > sv Obs.: uma pausa para o cálculo do Erro. A variância dos dados é o desvio padrão ao quadrado. Entretanto, segundo Weeks (2012), encontrar a diferença entre medidas constitui uma operação comum. Uma medida, ou um sinal, como os do GPS, por exemplo, pode ser medido com certo grau de erro, um erro que deve ser considerado aceitável. A quantidade, ou qualidade desse erro entre o sinal original (enviado pelo satélite) e a versão reconstruída, ou reconstituída (gerada no receptor), deve ser encontrada somando-se os valores das diferenças entre as medições. Vamos considerar duas medidas, ou dois sinais, x e y: > x<-c(1,2,5,0,-2) > x > y<-c(-1,4,0,5,-2) > y > v<-sum(x-y) > v Percebe-se claramente que x e y não são iguais, mas como as diferenças positivas e as diferenças negativas cancelam uma a outra, esse método simples faz com que eles pareçam ser iguais. O erro entre sinais, x e y, pode ser encontrado e melhorado com o comando a seguir: (veja a função de valor absoluto abs) > v<-sum(abs(x-y)) > v Outra forma, mais sofisticada, de se medir o erro é conhecida com RMSE (root mean square error ou raiz quadrada do erro médio quadrático – bem parecido com o desvio padrão), que é calculado segundo o código a seguir. Primeiramente, diff encontra a diferença entre os sinais x e y. Em seguida, encontramos sigma_squared (sigma ao 14 UNIDADE I │ INTRODUÇÃO E PROCEDIMENTOS quadrado), também conhecida como variância; calcula-se, então, elevando ao quadrado cada elemento em diff e somando-se, finalmente, os resultados. Por fim, podemos computar o RMSE: > diff<- x-y > diff > sigma_squared<- sum(diff*diff) > sigma_squared > RMSE<-sqrt(sigma_squared/length(x)) > RMSE E finalmente, se dividirmos o RMSE pelos valores max(v) – min(v), do conjunto dos erros apresentados, teremos o NRMSD – Normalized root mean square deviation ou desvio quadrático médio normalizado, que é uma das inúmeras formas de padronizar os dados, principalmente em geoprocessamento, quando trabalhamos com várias fontes ou escalas de informação. Então, normalizar o RMSE facilita a comparação entre os conjuntos de dados, ou modelos com diferentes escalas. Embora não haja, segundo a literatura, meios consistentes para a normalização dos dados. 9o Passo: fazer o histograma do vetor v: > hist(v) > pnorm(11, mv, sv) > curve(dnorm(x), -2,2) Discussão A conclusão do trabalho, que pode ser lido na íntegra na revista A Mira, segundo a observação final dos dados, é que os dois métodos possuem resultados bem próximos. Mas “bem próximo” pode ser uma conclusão vaga, ou não científica, e, portanto, não pode ser aceita. Precisamos de algum teste estatístico para validar os resultados, apresentando o p-value. Diante dos fatos evidenciados nesse trabalho conclui-se que ou uso do GPS em tempo real pode ser aplicado para a obtenção da altimetria, pois o mesmo comparado com o trigonométrico, um dos métodos mais 15 INTRODUÇÃO E PROCEDIMENTOS │ UNIDADE I utilizados atualmente no mercado, possui resultados bem próximo um do outro. (A MIRA, Ano XXII, no 163; SANTOS et al., 2014). 10o Passo: realizar o teste t do vetor v: > t.test(v) Obs.: discutir o resultado p-value que deve ser maior que 0,05. Prática R-02: pesquisar a fórmula para resolver, ou calcular para o erro v, o teste t de Student e produzir um Script escrito em R. Um simples teste t, com a apresentação do resultado do p-value, já seria o suficiente para uma conclusão, digamos, mais técnica do trabalho. Mas vamos dar um passo à frente, fazendo uma análise da variância. Em certas situações, nosso interesse está voltado para o efeito de um fator A (ex.: comparação entre métodos de levantamento, (ET e GPS), sobre uma variável quantitativa Y (Medições). Porém, outro fator B (Qualidade do operador), que nem sempre podemos observar ou controlar, também pode estar presente. E ainda existem outros fatores C, D, E etc., que não sabemos como se relacionam com nossos dados. Uma forma clássica de se anular isso, quando estamos fazendo um experimento, é trabalhar com amostras aleatórias do nosso conjunto de dados. 11o Passo: vamos fazer agora uma análise da variância ANOVA para os dois métodos de levantamentos (um fator) que foram testados, ou comparados, (ET e GPS): Análise da variância é a técnica estatística que permite avaliar afirmações sobre as médias da população, ou amostra. A análise visa, fundamentalmente, verificar se existe uma diferença significativa entre as médias e se os fatores exercem influência em alguma variável dependente. A análise de variância compara médias de diferentes populações para verificar se essas populações possuem médias iguais ou não. Assim, essa técnica permite que vários grupos sejam comparados a um só tempo. Em outras palavras, a análise de variância é utilizada quando se quer decidir se as diferenças amostrais observadas são reais (causadas por diferenças significativas nas populações observadas) ou casuais (decorrentes da mera variabilidade amostral). Portanto, essa análise parte do pressuposto que o acaso só produz pequenos desvios, sendo as grandes diferenças geradas por causas reais. 16 UNIDADE I │ INTRODUÇÃO E PROCEDIMENTOS Tabela 1. AA. N MEDIÇÕES FATOR MÉTODO OPERADOR 1 947,530 1 ET 1 2 956,299 1 ET 1 3 954,269 1 ET 2 4 949,751 1 ET 3 5 953,566 1 ET 1 6 952,864 1 ET 2 7 952,514 1 ET 2 8 950,919 1 ET 3 9 939,275 1 ET 3 10 941,756 1 ET 1 11 942,866 1 ET 2 12 947,523 2 GPS 1 13 956,304 2 GPS 2 14 954,274 2 GPS 3 15 949,742 2 GPS 1 16 953,570 2 GPS 2 17 952,874 2 GPS 3 18 952,509 2 GPS 3 19 950,923 2 GPS 3 20 939,279 2 GPS 1 21 941,747 2 GPS 2 22 942,878 2 GPS 1 Fonte: Autor. Script R-2 – Copiar para o editor de Script do R e dar o comando Ctrl R. Obs.: Tabela 01 AA = Altimetria Anova Abrir arquivo: > AA <- read.table (file.choose(), header=T) > AA Separar vetores: > MD <- AA[,1] > MD > FT <- AA[,2] > FT 17 INTRODUÇÃO E PROCEDIMENTOS │ UNIDADE I Transformar o vetor FT em fator de nível2: FT<- factor(FT) Criar o modelo ANOVA: >MODELO1 = aov(MD ~ FT) Comando summary (MODELO1) para ver os resultados: > summary (MODELO1) Obs.: no resultado, tempos duas linhas. A linha para os efeitos da variável MD (variação entre os grupos) e a outra para os resíduos (variação dentro dos grupos). 11o Passo: vamos repetir a análise da variância ANOVA para os dois métodos de levantamentos ET e GPS usando, agora, um novo fator, o operador: > OP <-AA [,4] > OP <-factor (OP) > OP > MODELO2 = aov (MD~FT*OP) > summary (MODELO2) Obs.: a distribuição Qui-quadrado torna-se bastante importante quando se quer verificar o ajustamento de uma distribuição de frequência, de uma amostra, a uma distribuição teórica, como no caso presente, a distribuição normal. Vamos aprofundar os detalhes do teste da distribuição Qui-quadrado. O aluno deverá pesquisar a fórmula e a tabela com os graus de liberdade, para produzir um Script escrito em R. Script: > v <-ET-GPS > v > gl<-length(v) > gl > gl<-gl-1 > gl 18 UNIDADE I │ INTRODUÇÃO E PROCEDIMENTOS > S0<-sum(sqrt(v*v/gl)) > S0 > Qui<-gl*S0 Nova rodada Vamos fazer uma nova rodada usando uma tabela modificada e discutir os resultados do novo erro vm: Figura 4. Fonte: Autor. Obs.: ou calcular o erro de 15 pontos GPS, em três dimensões 3D, e novamente fazer as análises do erro V: Tabela 2. Pontos GPS Pontos E(m) N(m) H(m) 1 -0,012 -0,003 -0,038 2 -0,002 -0,013 1,008 3 -0,002 -0,009 0,090 4 0,015 0,002 0,121 5 0,012 -0,015 0,087 6 0,026 0,001 0,058 7 -0,027 -0,005 1,076 8 0,026 0,015 2,036 9 0,027 0,023 0,024 10 0,037 0,004 1,054 11 0,04 0,009 -0,048 12 0,055 -0,036 0,054 13 0,065 0,016 0,024 14 0,073 0,016 -0,019 15 0,235 -0,019 0,382 Fonte: Autor. 19 INTRODUÇÃO E PROCEDIMENTOS │ UNIDADE I Script: > gps<-read.table (file.choose(), header=T) > gps > E<-gps[,1] > E > N<-gps[,2] > N > H<-gps[,3] > H > V<-sqrt(E^2+N^2+H^2) > V Script R1 – Completo > Altimetria <- read.table (file.choose(), header=T) > Altimetria > ET <- Altimetria[,1] > ET > GPS <- Altimetria[,2] > GPS > v <- ET-GPS > v > shapiro.test (v) > plot(v) > qqnorm(v) > qqline(v) 20 UNIDADE I │ INTRODUÇÃO E PROCEDIMENTOS > length(v) > max(v) > min(v) > sum(v) > v^2 > sqrt(v^2) > mv <- sum(v)/11 > mv > mv <- mean(v) > mv > sv <- sd(v) > sv > hist(v) > pnorm(11, mv, sv) > curve(dnorm(x), -2,2) > t.test(v) Script R2 – Completo > AA <- read.table (file.choose(), header=T) > AA > MD <- AA[,1] > MD > FT <- AA[,2] > FT > FT <-factor(FT) 21 INTRODUÇÃO E PROCEDIMENTOS │ UNIDADE I > FT > OP <-AA[,4] > OP > OP <-factor(OP) > OP > MODELO1 = aov(MD~FT) > summary (MODELO1) > MODELO2 = aov(MD~FT*OP) > summary (MODELO2) Caso prático No trabalho apresentado, e que foi discutido usando as ferramentas do sistema estatístico R, podemos fazer algumas analogias e demonstrar a finalidade ou importância de tudo isso. Por exemplo, vamos imaginar que a primeira medição usando ET e GPS, ou qualquer outro método, foi uma medição de controle e de alta precisão. Mas no decorrer dos trabalhos outras medições deverão ser realizadas, com novos métodos ou outros equipamentos menos precisos, e comparadas com as medições originais. Levando em consideração todas as estatísticas apresentadas, para validar o primeiro conjunto de dados, então, poderemos usar simplesmente a função densidade de probabilidade, da distribuição normal, que depende apenas da média mv e do desvio padrão sv, dos dados da medição de controle, e dizer, para cada novo conjunto de novas medidas, se os valores são confiáveis ou não. 12o Passo: avaliar a densidade de probabilidade das novas medições: Usar o Script R3, a seguir: > dnorm (vm, mean = mv, sd = sv) Obs.: vm = Erro da nova rodada Finalmente vamos terminar essa primeira etapa fazendo uma análise de Correlação Linear dos dados, conhecida como Correlação Linear de Pearson ou Régua de Pearson. 22 UNIDADE I │ INTRODUÇÃO E PROCEDIMENTOS Fica a dica do livro Uma Senhora Toma Chá... Como a estatística revolucionou o século XX, em que são contadas as histórias de Fisher, Pearson, Student e outros grandes nomes da estatística. O sistema R através da função rnorm é capaz de gerar uma distribuição normal. Devemos informar apenas três parâmetros: o número de observações desejadas, a média mv e do desvio padrão sv, dos dados de controle. 13o Passo: vamos produzir uma distribuição normal com 11 observações, de média mv e desvio padrão sv: > distNorm <- rnorm(11, mean=mv, sd=sv) 14o Passo: calcular a correlação linear dos dados: Usar o Script R4, a seguir: > cor (v, distNorm) Obs.: a correlação linear é uma questão muito importante e que tem aplicação em praticamente tudo e que pode ser aprofundada com mais detalhes. Porém, no momento, basta saber que ela varia de 0 a 1. Quanto mais perto de 1 (um) melhor. Conclusão Há um grande interesse sobre a aplicação do ajustamento de observações no georreferenciamento de imóveis rurais. Porém, embora as observações sejam superabundantes, pois equipamentos como a ET ou o GPS, são capazes de fazer várias medições (internas) antes de apresentar os resultados, portanto trabalhando com média e desvio padrão, ou mesmo na própria metodologia do trabalho, onde somos obrigados a processar o ajustamento de uma rede de apoio, no entanto, na verdade, falta uma etapa, que é a base ou o verdadeiro objetivo de um trabalho de ajustamento de observações; O de criar um modelo matemático para simplificar o controle de futuras medições. O nosso passo a passo chega nessa etapa, mas lógico que com algumas simplificações. Lembramos também que nessa fase de criação de modelos, para previsão de novas medidas, ainda poderíamos trabalhar com a simulação dos dados, usando o Método de Monte Carlo, Redes Neurais ou Análise Bayesiana, por exemplo. 23 INTRODUÇÃO E PROCEDIMENTOS │ UNIDADE I 14o Passo: fazer uma Regressão Linear dos dados e achar a função matemática: Usar o Script R5, a seguir: > MODELO3 <- lm(ETnovo~v) Aqui vamos ter que usar um pouco mais a imaginação, pois existem várias possibilidades práticas. Primeiro, vamos imaginar (extrapolando a ideia inicial) que ET e GPS são, na verdade, parte de um conjunto de pontos de controle, que foram medidos com alta precisão usando duas técnicas para comparar os resultados. Após isso, rotineiramente, ao longo do tempo, precisaremos fazer outras verificações, comparadas com as medições feitas em T0, e que resultaram nas coordenadas da figura 1 Altimetria. Como foi apresentado ao longo dessa introdução, supomos que o trabalho inicial foi feito com todo rigor metodológico e com equipamentos de alta precisão, porém, as novas medições de verificação, certamente, deverão seguir uma rotina mais simplificada. Então, e em vez de comparar diretamente as novas séries de medições com as coordenadas de controle, vamos usar um modelo matemático (no nosso caso, simplificado), criado para cada ponto P (ET e GPS), para comparar os resultados. Podemos ter N pontos P2 (ET2, GPS2), P3 (ET3, GPS3) etc., onde esse processo ou procedimento poderia ser repetido. Script R3 – Completo > Altimetria <- read.table (file.choose(), header=T) > Altimetria > ET <- Altimetria[,1] > ET > GPS <- Altimetria[,2] > GPS > v <- ET-GPS > v > mv <- mean(v) > mv > sv <- sd(v) > sv 24 UNIDADE I │ INTRODUÇÃO E PROCEDIMENTOS > Modificada <- read.table (file.choose(), header=T) > Modificada > ETm <- Modificada[,1] > ETm > GPSm <- Modificada[,2] > GPSm > vm <- ETm-GPSm > vm > dnorm(vm, mean = mv, sd = sv) Script R4 – Completo > Altimetria <- read.table (file.choose(), header=T) > Altimetria > ET <- Altimetria[,1] > ET > GPS <- Altimetria[,2] > GPS > v <- ET-GPS > v > mv <- mean(v) > mv > sv <- sd(v) > sv > distNorm <- rnorm(11, mean=mv, sd=sv) > distNorm > cor (v,distNorm) 25 INTRODUÇÃO E PROCEDIMENTOS │ UNIDADE I Script R5 – Completo > Altimetria <- read.table (file.choose(),header=T) > Altimetria > ET <- Altimetria[,1] > ET > GPS <- Altimetria[,2] > GPS > v <- ET-GPS > v > mv <- mean(v) > mv > sv <- sd(v) > sv > MODELO3 <- lm(ET~v) > summary(MODELO3) Ou > MODELO4 <- lm(GPS~v) > summary(MODELO4) > v2 <- rnorm(11, mean=mv, sd=sv) > v2 > v2 <- mean(v2) > v2 > v3 <- rnorm(11, mean=mv, sd=sv) > v3 26 UNIDADE I │ INTRODUÇÃO E PROCEDIMENTOS > v3<- mean(v3) > v3 > ET = - 112.014 * v2 + 949.095 > ET > GPS = -113.014 * v3 + 949.095 > GPS Matemática não linear, um novo ingrediente na busca por eficiência Da Business Week Acima de tudo, os engenheiros são pessoas práticas. Se desenvolver uma câmera perfeita ou uma refinaria de petróleo toma muito tempo, eles se decidem por um projeto que seja apenas “suficientemente bom”. Contudo, isso vai-se tornando cada vez mais insuficiente. Nas empresas movidas pela competição para extrair a última gota de eficiência da manufatura e projetar produtos com tolerância muito mais rígidos, os engenheiros estão sendo forçados a se aprofundar numa nova caixa de ferramentas da matemática. E o resultado final, acreditam os especialistas, revolucionará a engenharia como a Mecânica Quântica transformou a Física. As novas ferramentas são chamadas equações não lineares, e o nome diz tudo. Essas equações são utilizadas para descrever com precisão o comportamento das coisas com uma faceta imprevisível. Isto inclui quase tudo: do funcionamento de motores de carros à ação das moléculas do DNA. Até mesmo assar um bolo é não linear: elevando a temperatura do forno duas vezes mais não assaria o bolo duas vezes mais rápido. E com algumas receitas industriais, como as de produzir medicamentos e plásticos, uma minúscula nos ingredientes ou nas condições de processamento pode significar uma enorme diferença no produto final. A matemática não linear pode ajudar a explicar esses efeitos assimétricos. Para resumir, ela “permite a você descrever as coisas da forma que elas funcionam no mundo real”, diz David Kinderlehrer, diretor do Centro de Análise Não-Linear da Universidade de Minnesota. Os engenheiros evitavam as equações não lineares até agora porque obter boas respostas é terrivelmente difícil. Desde que você não esteja certo de como 27 INTRODUÇÃO E PROCEDIMENTOS │ UNIDADE I qualquer mudança vai afetar o resultado, você tem que se ligar em todas as variações concebíveis e resolver as equações milhares ou milhões de vezes. Antigamente, até mesmo um simples problema não linear era um trabalho para um supercomputador – e os problemas mais difíceis ainda são irresolvíveis: eles tomariam décadas de contínua realização de cálculos. Mas agora essas estações de trabalho com desktop podem ultrapassar os supercomputadores de ontem, e os matemáticos têm os meios para enfrentar uma gama muito mais ampla de desafios industriais. E para muitos desses desafios com os quais ainda são demasiadamente difícil de lidar, os programadores estão criando atalhos para aproximações que tornam o “suficientemente bom” muito melhor. “Estão sendo feitos grandes progressos nas técnicas para resolver grandes e complexos problemas”, diz James L. Philips gerente de engenharia e análise matemática da Boeing Co. Ele deveria saber. A Boeing vem utilizando essas técnicas não lineares como a dinâmica computacional dos fluídos (DFC) desde a década de 1970. A DFC envolve elaboração de um projeto de estrutura de um avião em milhares ou milhões de formas interconectadas chamadas de elementos finitos. Quanto mais houver, tanto mais precisos serão os resultados. O modelo de computador resultante é coberto com uma “rede”, que a faz parecer estar embrulhada amarrotadamente em papel de gráfico. Depois o computador simula uma corrente de ar sobre cada elemento e integra todas as respostas para determinar como o avião voará bem. O último software da DFC, que custa uma fração das versões iniciais, gera a rede até automaticamente, economizando dias de tempo de engenharia. Como resultado a Boeing imagina que ele agora paga para reformar os aviões velhos. Uma edição futura do 737 de trintas anos de vida útil será mais leve, carregará mais carga útil, e utilizará menos combustível. A grande notícia é que a matemática não linear está se estendendo a muitos outros setores. A General Motors Corp. Está fazendo testes de colisão com modelos de elementos finitos em vez de fazê-los em carros reais – e tem aperfeiçoado o “software” não linear para projetar os painéis interiores. “Nós seremos capazes de explorar as alterações do projeto muito mais facilmente do que antes”, diz James C. Cavendish, principal cientista pesquisador do centro de pesquisas da GM. Enquanto isso, a IBM se voltou para a DCF para melhorar os seus acionadores de discos rígidos. A cabeça “read/write”, que desliza sobre o disco a 30 milhas por hora, cria tanta pressão aerodinâmica que os engenheiros não poderiam 28 UNIDADE I │ INTRODUÇÃO E PROCEDIMENTOS imaginar como reduzir a defasagem entre os componentes para menos de um milímetro. Com as equações não lineares eles conseguiram reduzi-la para um micrômetro – um milésimo de um milímetro. Isso aumenta a capacidade de armazenagem, uma vez que uma maior proximidade permite que a cabeça leia e escreva pontos magnéticos menores. O interessante vai além da alta tecnologia. Os produtores de aço encomendaram estudos de novos projetos de fornos. E no laboratório de Los Álamos, a Mobil Oil Corp. Está financiando o desenvolvimento de um “software” que simula o movimento do petróleo das rochas porosas – para ajudar a melhorar as técnicas de extração. Virtualmente, para qualquer produto agora há ferramentas não lineares para lidar com projetos e conseguir um feedback preciso em questão de horas. Os engenheiros estão, desta vez, gastando mais tempo aperfeiçoando projetos – muitas vezes tentando centenas de alternativas, diz Luiz F. Reyna, gerente de análise e modelagem no Laboratório de Pesquisa Thomas J. Watson da IBM. Isso é importante porque de 70 a 90% do custo total de um produto é fixado durante a fase de elaboração do projeto. A matemática não linear está também descobrindo novas abordagens para os assim chamados problemas de otimização – encontrando a melhor forma de administrar uma fábrica, programar frota de caminhões e motoristas, ou administrar uma carteira de ações. Aqui, mesmo encontrar uma solução suficientemente boa é difícil. Mas David L. Jensen, gerente de otimização matemática da divisão de pesquisa da IBM, está adaptando a otimização quadrática para calcular rapidamente o equilíbrio ótimo entre o risco e o lucro do portfólio. (GAZETA MERCANTIL, 1994) Os setores mais beneficiados Os principais setores que estão se beneficiando com o software baseado na matemática não linear. Setor aeroespacial OS engenheiros podem simular a aerodinâmica de uma estrutura completa de um avião em vez de somente as asas, melhorando o desempenho e reduzindo custos. 29 INTRODUÇÃO E PROCEDIMENTOS │ UNIDADE I Biotecnologia Os geneticistas estão conseguindo um controle melhor sobre o complexo comportamento do DNA. Eventualmente, as descobertas mais importantes da biologia podem estar relacionadas com o computador, e não com tubos de ensaio e experiências. Carros Os projetistas podem modelar carrocerias de carros mais fortes e mais seguras. Finanças Os “traders” estão utilizando os algoritmos da “otimização não linear” para ajudar a maximizar e minimizar os riscos. Manufatura Os produtores de produtos químicos e de petróleo estão arquitetando processos produtivos mais eficientes, e os produtores estão projetando produtos para tolerâncias mais rígidas. O que é um sinal Segundo Weeks (2012) um sinal é um fenômeno variável que pode ser medido. Muitas vezes trata-se de uma quantidade física que varia com o tempo, embora também possa variar com outro parâmetro, tal como o espaço. Exemplosincluem o som (ou, mais precisamente, a pressão acústica), uma tensão (tal como as diferenças de tensão produzidas por um microfone), radar e imagens transmitidas por câmeras de vídeo. A temperatura é outro exemplo de sinal. Medida a cada hora, a temperatura flutuará, indo normalmente de um valor baixo (ao amanhecer) para um valor mais alto (no final da manhã), até um ainda maior ainda (à tarde) e depois para um valor mais baixo (ao anoitecer), até finalmente atingir um valor baixo à noite, novamente. Em muitos casos, devemos examinar o sinal ao longo de um período de tempo. Se, por exemplo, você estiver planejando viajar para uma cidade distante, saber a temperatura média na cidade pode lhe dar uma noção das roupas a serem postas na mala. Mas, se você verificar como a temperatura muda ao longo de um dia, poderá saber se precisará ou não levar uma jaqueta. Os sinais podem conter erros devido às limitações dos dispositivos de medição ou devido ao ambiente. Um sensor de temperatura, por exemplo, pode ser afetado por 30 UNIDADE I │ INTRODUÇÃO E PROCEDIMENTOS um vento frio. Na melhor das hipóteses, os sinais representados por um computador constituem boas aproximações dos processos físicos originais. Alguns sinais reais, como a temperatura, podem ser medidos continuamente. Não importa por quanto tempo você olhar para um termômetro, ele fornecerá uma leitura, mesmo que o tempo entre as leituras seja arbitrariamente curto. Podemos registar a temperatura em intervalos de um segundo, um minuto, uma hora etc. Uma vez que tenhamos registrado essas medições; compreenderemos intuitivamente que a temperatura possui valores entre as leituras e que não sabemos quais seriam eles. Se soprar um vento frio, a temperatura cairá e, se o sol brilhar entre as nuvens, ela subirá. Suponha, por exemplo, que meçamos a temperatura a cada hora. Ao fazermos isso, estamos optando por ignorar a temperatura o tempo todo exceto durante as leituras de hora em hora. Trata-se de uma ideia importante: o sinal pode variar ao longo do tempo, mas, quando fazemos leituras periódicas do sinal, terminamos apenas com uma representação do mesmo. Um sinal pode ser imaginado como uma sequência (Contínua ou discreta) de valores (Contínuos ou discretos). Ou seja, um sinal contínuo pode ter valores em qualquer valor de índice (index) arbitrário (você pode medir a temperatura ao meio-dia ou, caso deseje, medi-la 0,0000000003 segundos após o meio-dia). Um sinal discreto, entretanto, possui restrições quanto ao índice – normalmente, a de que ele deve ser inteiro. Por exemplo, a massa de cada planeta em nosso sistema solar poderia ser registrada, numerando-se os planetas de acordo com as suas posições relativas a partir do sol. Para simplificar, presume-se que um sinal discreto possua um índice inteiro e que a relação entre o índice e o tempo (ou qualquer que seja o parâmetro) seja fornecida. Da mesma forma, os valores para o sinal podem ser medidos com uma precisão arbitrária (contínua) ou com uma precisão limitada (discreta). Isto é, você poderia registar a temperatura em milionésimos de grau ou poderia limitar os valores a um nível razoável, tal como um dígito além do decimal. Discreto não significa inteiro, e sim que os valores poderiam ser armazenados como um número racional (um inteiro dividido por outro inteiro). Por exemplo, 72,3 graus Fahrenheit poderiam ser encarados como 723/10. Isso implica que números irracionais não podem ser armazenados em um computador, mas apenas aproximados. Um bom exemplo é π. Você pode escrever 3.14 para representar π, mas trata-se de uma mera aproximação. E, se você escreveu 3,141592654 para representar π, ainda assim não passou de uma aproximação. Na verdade, você poderia representá-lo com 50 milhões de dígitos e mesmo assim continuaria sendo somente uma aproximação! 31 INTRODUÇÃO E PROCEDIMENTOS │ UNIDADE I É possível considerar um sinal cujo índice seja contínuo e cujos valores sejam discretos, tal como o número de pessoas presentes em um edifício em um dado momento. O índice (tempo) pode ser medido em frações de segundo, enquanto o número de pessoas é sempre um número inteiro. Também é possível lidar com um sinal em que o índice seja discreto e os valores sejam contínuos; por exemplo, a hora de nascimento de cada pessoa em uma cidade. A pessoa no 4 pode ter nascido apenas 1 microssegundo antes da pessoa no 5, mas tecnicamente elas não nasceram ao mesmo tempo. Isso não significa que duas pessoas não podem ter a mesma hora de nascimento, mas que podemos ser tão precisos quanto desejamos em relação a essa hora. Na maioria dos casos, concentramos nossa atenção nos sinais contínuos (que possuam um índice contínuo e um valor contínuo) e nos sinais discretos (com um índice inteiro e um valor discreto). A maior parte dos sinais na natureza é contínua, mas os sinais representados no interior de um computador são discretos. Um sinal discreto frequentemente é uma aproximação de um valor contínuo. Concentraremos nossa atenção nos sinais contínuo/contínuo e discreto/discreto, pois são os que encontramos no mundo real e no mundo computacional, respectivamente. Doravante nos referiremos a esses sinais como analógico e digital, respectivamente. No âmbito digital, um sinal não é mais do que uma lista de números. Ele pode ser encarado como um vetor, uma matriz unidimensional. Naturalmente, existem sinais multidimensionais, tais como as imagens, que são simplesmente matrizes bidimensionais. Encarar os sinais como matrizes constitui uma importante etapa analítica, por permitir que utilizemos álgebra linear com os nossos sinais. Ou seja, uma lista de números poderia corresponder às mudanças na pressão acústica medida em intervalos de 1 milissegundo ou poderia ser a temperatura em graus centígrados medida a cada hora. Os sinais frequentemente são estudados em termos de tempo e amplitude. A amplitude é utilizada como uma forma geral de rotulagem das unidades de um sinal, sem estar limitada pelo sinal específico. Quando se fala da amplitude de um valore de um sinal, não importa se esse valor é medido em graus centígrados, pressão ou tensão. (WEEKS, 2012) Script: séries temporais função TS Neste exemplo, vamos fazer inferência sobre um único ponto de mudança em uma série temporal. Os dados são de acidentes por ano em minas de carvão na Inglaterra. Foram registrados todos os acidentes que envolveram pelo menos 10 mortes entre 1851 e 1962. 32 UNIDADE I │ INTRODUÇÃO E PROCEDIMENTOS A partir do gráfico, podemos ver uma mudança em torno do ano 1900. O número médio de acidentes a partir de então parece ficar bem reduzido em comparação com o período anterior. > yr<- 1851:1962 >ac<- c(4,5,4,1,0,4,3,4,0,6,3,3,4,0,2,6,3,3,5,4,5,3,1,4,4,1,5,5,3,4,2,5,2,2,3,4,2,1,3,2,2,1, 1,1,1,3,0,0,1,0,1,1,0,0,3,1,0,3,2,2,0,1,1,1,0,1,0,1,0,0,0,2,1,0,0,0,1,1,0,2,3,3,1,1,2,1,1,1,1,2, 4,2,0,0,0,1,4,0,0,0,1,0,0,0,0,0,1,0,0,1,0,1) > ac > summary(ac) > st<- ts(ac, start= c(1851,1), freq=12) > class(st) > st > plot(st) > plot(yr, ac) > plot(yr, ac, type=”l”) > dec<- decompose(st) > dec$seasonal > plot(dec$seasonal) > plot(dec$trend) > plot(dec$random) > plot(dec) Visite site do INPE e veja os dados das séries temporais do satélite MODIS. 33 CAPÍTULO 2 Introdução ao ajustamento de observações Ótimo quer dizer o melhor, em relação a um determinado critério. Como se sabe há uma, certa, velocidade na condução de um veículo que o consumo de combustível é menor em relação a um percurso, num determinado tempo. Nesse caso, o critério é a velocidade, que minimiza o consumo de combustível ou tempo de trajeto. Chama-se de otimização todo o processo pelo qual se procura determinar ou encontrar a solução ou situação ótima. Porém na maioria dos problemas a solução é bastante complexa, principalmente por causa dos numerosos critérios ou das condições conflitantes. Critérios contraditórios aparecem com bastante frequência, imagine o estudopara o traçado de uma nova rodovia, nesse caso, o custo de execução, impacto ambiental e tempo de execução, podem ser critérios conflitantes, e portanto, devem ser padronizados, antes de se buscar, ou encontrar, a melhor solução. Certos fenômenos biológicos dependem de condições ideais de temperatura para o seu melhor desenvolvimento, o lucro na engorda de animais depende do consumo de ração ao longo do tempo, o crescimento da população também pode ser comparado por sua variação ao longo do tempo etc. Poderíamos citadas inúmeras situações da vida cotidiana onde os fenômenos da variação estão ligados à solução de algum problema. Em todo caso haverá sempre um valor ótimo a ser encontrado para a variável independe (rapidez do trabalho, preço, segurança de operação etc.) em relação à variável dependente, ou critério escolhido. Muitos modelos matemáticos podem ser aplicados na solução desses diversos problemas, porém, no nosso caso de estudo, estaremos focados no ajustamento de observações, relacionadas ao georreferenciamento de imóveis rurais, ligados a geotecnologias ou geociências como, topografia, geodesia, geoprocessamento, sistemas de posicionamento global, como o GPS, além de outras áreas da geomática que dependem diretamente da busca de alguma solução otimizada, minimizando o erro das observações, de um sistema de equações. As observações são representações numéricas de quantidades físicas como comprimento, ângulo, peso etc. As quantidades numéricas são obtidas através de medições; possuem, portanto, não apenas as flutuações próprias das observações, 34 UNIDADE I │ INTRODUÇÃO E PROCEDIMENTOS mas também toda sorte de erros possíveis de ocorrer nas medições, identificações, anotações e transferência de dados. (DALMOLIN, 2004) As medidas que representam uma mesma quantidade possuem dispersão com respeito a uma média, o que se chama de flutuações randômicas próprias das observações ou erros randômicos, também chamados erros acidentais. Esse tipo de erro será o objeto de nosso estudo, pois devidos às flutuações randômicas (pequenos erros) os sistemas de equações (propostos para os diversos problemas apresentados) serão inconsistente e exigirão uma solução pelo Método dos Mínimos Quadrados. Porém as medidas podem ainda possuir outros erros, como os erros grosseiros, um bom exemplo seria os erros de anotação e os erros sistemáticos quando se trabalha com instrumentos mal calibrados. Esses erros devem ser eliminados basicamente por procedimentos operacionais. Já os erros acidentais jamais poderão ser eliminados, não existe mensuração sem esses erros, por mais preciso que possa ser o instrumento de medida, eles sempre vão ocorrer. Como já foi observado anteriormente vamos utilizar o sistema estatístico R e o LibreOffice Calc como ferramentas para auxiliar na resolução dos diversos problemas que serão apresentados ao longo deste material. O objetivo principal deste Caderno de Estudos é apresentar aos alunos uma introdução consistente do Método dos Mínimos Quadrados e dar ênfase ao modelo paramétrico em problemas práticos de georreferenciamento de imóveis rurais, principalmente ajustamento de redes de controle. Rede de referência cadastral: rede de apoio básico de âmbito municipal para todos os levantamentos que se destinem a projetos, cadastros ou implantação de obras, sendo constituída por pontos de coordenadas planialtimétricas materializados no terreno, referenciados a uma única origem (Sistema Geodésico Brasileiro – SGB) e a um mesmo sistema de representação cartográfica, permitindo a amarração e consequente incorporação de todos os trabalhos de topografia num mapeamento de referência cadastral. Compreendem, em escala hierárquica quanto à exatidão, os pontos geodésicos (de precisão e de apoio imediato), pontos topográficos e pontos referenciadores de quadras ou glebas, todos codificados, numerados e localizados no mapeamento de referência cadastral. (NBR 13133, 1994) É notável que uma ciência que começou com jogos de azar tenha se tornado o mais importante objeto do conhecimento humano. Pierre Simon Laplace Deus não joga dados com o universo. Albert Einstein 35 INTRODUÇÃO E PROCEDIMENTOS │ UNIDADE I O demônio de Laplace Em 1814, Laplace refere-se, em um ensaio sobre as probabilidades, a uma ideia que se tornaria base de partida para todos os debates futuros sobre o caos, o acaso e o determinismo. Trata-se de uma entidade que poderia ter pleno conhecimento sobre todos os fatos. − “Devemos, portanto, ver o estado presente do universo como o efeito de seu estado anterior, e como a causa daquele que virá”. Uma inteligência que, em qualquer instante dado, soubesse todas as forças pelas quais o mundo natural se move e a posição de cada uma de suas partes componentes, e que tivesse a capacidade de submeter todos estes dados a um processamento matemático, compilando numa mesma fórmula os movimentos dos maiores e dos menores objetos do universo; nada seria incerto para ele, e o futuro, assim como o passado estaria presente diante de seus olhos. Porém, a observação de planetas e cometas a partir da Terra não se ajustava com precisão às posições previstas matematicamente, fato que levou Laplace e seus colegas cientistas atribuírem a erros nas observações, algumas vezes atribuíveis a alterações na atmosfera da Terra (erros sistemáticos), outras vezes a falhas humanas (erros grosseiros). Laplace reuniu todos esses erros numa peça extra (a função erro), que atrelou a suas descrições matemáticas. Essa função erro absorveu as imprecisões e deixou apenas as puras leis do movimento para prever as verdadeiras posições dos corpos celestes. Acreditava-se que, com medições cada vez mais precisas, diminuiria a necessidade da função erro. Como ela dava conta de pequenas discrepâncias entre observado e previsto (erros aleatórios). No entanto, a ciência do século XIX ainda estava nas garras do determinismo filosófico – a crença de que tudo é determinado de antemão pelas condições iniciais do Universo e pelas fórmulas matemáticas que descrevem seus movimentos. No final do século XIX, os erros tinham aumentado, em vez de diminuir. À proporção que as medições se tornaram mais precisas, novos erros se revelaram. O andar do Universo mecânico era trôpego. Falharam as tentativas de descobrir as leis da biologia e da sociologia. Nas antigas ciências, como a física e a química, as leis que Newton e Laplace tinham utilizado mostravam-se meras aproximações grosseiras. Gradualmente, a ciência começou a trabalhar com um novo paradigma, o modelo estatístico da realidade. No final do século XX, quase toda a ciência tinha passado a usar os modelos estatísticos. (SALSBURG, 2009) 36 UNIDADE I │ INTRODUÇÃO E PROCEDIMENTOS Erros grosseiros A desatenção do observador pode conduzir a erros grosseiros como a inversão de dígitos numa leitura, a troca do bordo visado na medida da distância zenital do Sol etc. Até mesmo quando o registro das informações se processa eletronicamente existe a possibilidade de erros grosseiros. É o caso, para exemplificar na área da Geodesia Celeste, do posicionamento pelo rastreio de satélites explorando o Efeito Doppler; certas “palavras”, irradiadas em código pelo satélite e gravadas eletronicamente no receptor, podem ter dígitos alterados pelo ruído (noise) comum nas transmissões. Observações eivadas de erros grosseiros às vezes se constituem em problemas, pois a detecção dos mesmos é fácil em certos casos (erros muito grandes, por exemplo) e pode tornar-se difícil em outros casos. Muitas vezes somente um teste estatístico pode justificar ou não a rejeição de uma observação suspeita de abrigar um erro grosseiro. De qualquer forma cabe ao observador cercar-se de precauções, variáveis com a natureza da medida, visando evitar a sua ocorrência ou detectar a sua presença. (GEMAEL, 1994) Erros sistemáticos Os chamados erros sistemáticos, produzidos por causas conhecidas,podem ser evitados através de técnicas de observação ou eliminados a posteriori mediante fórmulas fornecidas pela teoria. A medida eletrônica de uma distância deve ser depurada do efeito da refração; a leitura de um gravímetro expurgada da influência da atração luni-solar; a distância zenital de uma estrela corrigida da aberração diurna etc. Obviamente, não se trata de “erros” mas de influências das condições ambientais que devem ser neutralizadas através de modelos matemáticos estabelecidos. Já a reiteração e a pontaria completa (posição direta e inversa) nas observações angulares e a colocação do nível a igual distância das miras de nivelamento geométrico, são exemplos de planejamento para evitar certas influências sistemáticas. Focalizamos assim diversos casos de erros sistemáticos ligados a equipamentos de mensuração e às condições ambientais em que se processa a observação. Mas erros sistemáticos também podem estar associados ao homem; é o caso do operador que 37 INTRODUÇÃO E PROCEDIMENTOS │ UNIDADE I efetua a cronometragem sempre um pouco antes (ou sempre um pouco depois) da estrela cruzar o fio do retículo; ou do nivelador que procede a leitura sempre um pouco abaixo (ou sempre um pouco acima) do traço da mira. Trata-se de erros de eliminação problemática exceto nos casos de observações diferenciais. (GEMAEL, 1994) Erros acidentais ou aleatórios Eliminados os erros sistemáticos, as observações repetidas sobre a mesma grandeza ainda se revelam inconsistentes; as discrepâncias constatadas são atribuídas aos erros acidentais ou aleatórios que, ao contrário dos anteriores, ocorrem ora num sentido ora noutro sentido e que não podem ser vinculados a nenhuma causa conhecida. Os erros sistemáticos, como a própria denominação sugere, tendem a se acumular; os acidentais, por apresentarem distribuição normal tendem a se neutralizar quando o número de observações cresce ou tende ao infinito. Bem por isso, antes de iniciar um ajustamento, devemos depurar as observações de todas as tendências sistemáticas, uma vez que a nossa atenção irá se concentrar nos erros acidentais. (GEMAEL, 1994) Precisão x exatidão x viés Nos textos de língua inglesa ocorrem dois vocábulos, accuracy e precision que apesar de aparentados não são sinônimos, e que traduzidos respectivamente por acurácia e precisão. O termo precisão está vinculado apenas a efeitos aleatórios (ou com a dispersão dos dados ou das observações) enquanto acurácia (exatidão) vincula-se a ambos, efeitos aleatórios e sistemáticos. Acurácia: proximidade da medida relativamente ao verdadeiro valor da variável. Precisão: proximidade entre os valores obtidos pela repetição do processo de mensuração. Exatidão: correção, perfeição ou ausência de erro em uma medida ou cálculo. Em mensuração os termos exatidão e precisão são considerados como características do processo de medição. A exatidão está associada à proximidade do valor verdadeiro e a precisão está associada à dispersão dos valores resultantes de uma série de medidas. 38 UNIDADE I │ INTRODUÇÃO E PROCEDIMENTOS Precisão: significa a aptidão de um instrumento de medição fornecer indicações muito próximas, quando se mede o mesmo mensurando, sob as mesmas condições. Define o quanto um instrumento é capaz de reproduzir um valor obtido numa medição, mesmo que ele não esteja correto. A precisão é definida pelo desvio padrão de uma série de medidas de uma mesma amostra ou um mesmo ponto. Quanto maior o desvio padrão, menor é a precisão. A precisão está relacionada com as incertezas aleatórias da medição e tem relação com a qualidade do instrumento. Exatidão: é a aptidão de um instrumento para dar respostas próximas ao valor verdadeiro do mensurando. É a capacidade que o instrumento de medição tem de fornecer um resultado correto. Um equipamento exato é aquele que, após uma série de medições, nos fornece um valor médio que é próximo ao real, mesmo que o desvio padrão seja elevado, ou seja, apresente baixa precisão. A exatidão está relacionada às incertezas sistemáticas da medição. A exatidão pode ser avaliada através da calibração do instrumento. Figura 5. Fonte: <www.calibraend.com.br> a. Grande dispersão de resultados. Erros fortuitos elevados. Existência de erros sistemáticos: resultado não preciso e não exato. b. Baixa dispersão de resultados. Erros fortuitos pequenos. Existência de erros sistemáticos: resultado preciso, mas não exato. c. Grande dispersão de resultados. Erros fortuitos elevados. Não existência de erros sistemáticos: resultado não preciso, mas exato. d. Baixa dispersão de resultados. Erros fortuitos pequenos. Não existência de erros sistemáticos: resultado preciso e exato. 39 INTRODUÇÃO E PROCEDIMENTOS │ UNIDADE I Figura 6. Fonte: Autor. Observações diretas x indiretas x diretas condicionadas Diretas: numa poligonal o geodesista necessita conhecer ângulos e distância para efetuar o transporte de coordenadas. A medida angular entre dois lados consecutivos constitui um exemplo de observações diretas, isto é, da observação que procuramos diretamente sobre a grandeza procurada. O mesmo se pode dizer da medida de comprimento de um desses lados com basímetro de ínvar (ou trena). Medimos diretamente uma grandeza que se relaciona, por meio de um modelo matemático com as incógnitas que realmente nos interessam. (GEMAEL, 1994) Indiretas: já a medida do mesmo comprimento com um distanciômetro eletrônico não pode, a rigor, ser enfocada sob o mesmo prisma apesar de o dial exibir diretamente uma distância; “para medir uma grandeza” nós a comparamos com outra da mesma espécie denominada unidade; mas neste caso o equipamento mede, na realidade, uma diferença de fase que é convertida sucessivamente em intervalos de tempo e distância. Não se trata, portanto, de uma mensuração direta sobre a grandeza procurada. Vejamos um exemplo: cronometrando a passagem de uma série de vinte estrelas pelo mesmo almicantarado visando à obtenção da latitude. (GEMAEL, 1994) Diretas condicionadas: podemos focalizar ainda um terceiro caso: medindo dois ângulos de um triângulo geodésico com um teodolito estamos realizando observações diretas; mas se estendermos a mensuração ao terceiro ângulo introduziremos uma condição geométrica através de uma observação superabundante, pois os três ângulos de um triângulo são funcionalmente dependentes. Nesse caso as observações se dizem diretas condicionadas. 40 UNIDADE I │ INTRODUÇÃO E PROCEDIMENTOS Ajuste de função Um problema fundamental da teoria de erros consiste em obter a melhor função f(x) para descrever um conjunto de pontos experimentais obtidos em medidas de grandezas x e y. Graficamente, o problema consiste em traçar a curva que melhor descreva o conjunto de pontos em questão. Este processo é chamado ajuste de uma função ao conjunto de pontos experimentais ou regressão, simplesmente. (VUOLO, 1992) Regressão linear A regressão linear é chamada linear porque se considera que a relação da resposta às variáveis é uma função linear de alguns parâmetros. Os modelos de regressão que não são uma função linear dos parâmetros se chamam modelos de regressão não linear. Sendo uma das primeiras formas de análise regressiva a ser estudada rigorosamente, e usada extensamente em aplicações práticas. Isso acontece porque modelos que dependem de forma linear dos seus parâmetros desconhecidos são mais fáceis de ajustar que os modelos não lineares aos seus parâmetros, e porque as propriedades estatísticas dos estimadores resultantes são fáceis de determinar. (REIS, 1994) > x<- c(1:20) > x > y<- x > y > plot(x,y) Figura 7. Fonte: Autor. 41 INTRODUÇÃO E PROCEDIMENTOS │ UNIDADE I Regressão não linear A regressão não linear é uma forma de análise observacional em que os dados são modelados por uma função que é uma combinação não linear de parâmetros do modelo e depende de uma ou mais variáveis independentes. Os dados são ajustados geralmente pelo Método dos MínimosQuadrados ou por algum método de aproximações sucessivas. Um modelo de regressão é não linear quando pelo menos um dos seus parâmetros aparece de forma não linear. (MAZUCHELI, 2010) > x<- c(1:20) > x > y<- x^2 > y > plot (x,y) Figura 8. Fonte: Autor. Obs.: o problema de ajustar uma função arbitrária a um conjunto de pontos experimentais não tem solução definitiva. Uma infinidade de funções poderia ser ajustada aos pontos da figura 8, todas satisfatórias do ponto de vista estatístico. No que segue é considerado o problema mais restrito de ajustar uma particular função entre tipos de funções com formas predeterminadas. Como exemplo deste procedimento, pode-se considerar o problema de ajustar um polinômio de grau qualquer aos pontos 42 UNIDADE I │ INTRODUÇÃO E PROCEDIMENTOS da figura 8. A solução do problema consiste em determinar o polinômio mais adequado para descrever os pontos experimentais. (VUOLO, 1992) As funções de formas predeterminadas a serem ajustadas podem ser caracterizadas por p parâmetros a1, a2, …, ai, …. ap. Neste caso, o problema de ajustar uma função se reduz a determinar os valores dos parâmetros que são mais adequados. Por exemplo, um polinômio é dado por: f(x) = a1 + a2x + a3x 2 + … + aj+ix j + … + apx p-1 Nesse caso, devem ser determinados o grau (p – 1) do polinômio, bem como os valores dos coeficientes ou parâmetros a a1 + a2 + a3 + … + aj+i + … + ap Obs.: uma função f(x) pode ser “expandida” também em uma série de Fourier onde a função é aproximada pela soma de senos e cossenos do seguinte modo: f(x) = a0+ a1 sen(x) +a2 sen(2x) +a3 sen(3x)+ ... + b1 cos(x) + b2 cos(2x) + ... Fourier conseguiu achar uma forma simples e elegante de calcular esses coeficientes a0, a1, a2, ... , b1, b2. 43 UNIDADE IIPRÁTICAS CAPÍTULO 1 Princípios de ajustamento de observações Figura 9. Método dos Mínimos Quadrados – MMQ. Fonte: Adaptado de Prandiano, 1998. 44 UNIDADE II │ PRÁTICAS Figura 10. Fonte: Adaptado de Prandiano,1998. Segue o ajustamento de uma reta ou equação de 1o grau pelo MMQ Existem vários fenômenos onde uma função, ou curva, apresenta distribuição linear: S = ∑ [yi − fi]² S = ∑ [yi − (ax + b)]² Tabela 3. (Ajustar para 4 pontos) x 1 4 3 5 y 3 4 2,5 0,5 Fonte: Autor. S = [y₁ −(ax₁ + b)]² + [y₂ −(ax₂ + b)]² + [y₃ −(ax₃ + b)]² + [y₄ −(ax₄ + b)]² S = [3 −(1a + b)]² + [4 −(2a + b)]² + [2,5 −(3a + b)]² + [0,5 − (5a + b)]² 45 PRÁTICAS │ UNIDADE II Derivando ∂ S/∂ a = 2[3 − a − b]¹( − 1) + 2[4 − 2a − b]¹( − 2) + 2[2,5 − 3a − b]¹( − 3) + 2[0,5 − 5a − b]¹( − 5) = 0 ∂ S/∂ b = 2[3 − a − b]¹( − 1) + 2[4 − 2a − b]¹( − 1) + 2[2,5 − 3a − b]¹( − 1) + 2[0,5 − 5a − b]¹( − 5) = 0 S1 – Resolvendo do sistema: 21 – 39a – 11b = 0 10 – 11a – 4b = 0 Resulta: f(x) = -0,742x + 4,542 Assista ao vídeo no YouTube: <https://youtu.be/0o_wuKE-mm4> D-1 – Dados referentes ao Lucro Operacional Líquido de uma companhia durante os 6 primeiros anos de operação: Tabela 4. (Ajustar para 6 pontos) Ano Ano Lucro Operacional Líquido em (em 1.000 reais) 2009 1 112 2010 2 149 2011 3 238 2012 4 354 2013 5 580 2014 6 867 Fonte: Autor. Ajustar os dados através de um modelo linear. SCRIPT 06 – Lucro Líquido x Ano (colar na linha de comando do Sistema R e dar Ctrl R) > ano <- c(1,2,3,4,5,6) # (Coluna ou vetor) > ano 46 UNIDADE II │ PRÁTICAS > lucro_liq <- c(112,149,238,354,580,867) # (Coluna ou vetor) > lucro_liq > plot (lucro_liq ~ ano) > modLn <- lm (lucro_liq ~ ano) > modLn > abline (modLn) Figura 11. Os dados seguem uma curva exponencial. Fonte: Autor. Figura 12. Os dados não se ajustam a uma curva linear. Fonte: Autor. 47 PRÁTICAS │ UNIDADE II SCRIPT 06 (continuação) – Lucro Líquido x Ano (colar a outra parte na linha de comando do Sistema R e dar Ctrl R) > lucro_liq_l <- log(lucro_liq) > luro_liq_l > plot (lucro_liq_l ~ ano) > modLn <- lm (lucro_liq_l ~ ano) > modLn > abline (modLn) Figura 13. Após a transformação usando logaritmo, os dados seguem uma curva linear. Fonte: Autor Figura 14. Os dados se ajustam a uma curva linear. Fonte: Autor 48 UNIDADE II │ PRÁTICAS D2 – Dados referentes à Consumo x Renda Tabela 5. (Ajustar para 6 pontos). Ano Consumo (em 1.000 reais) Renda (em 1.000 reais) 2009 122 139 2010 114 126 2011 86 90 2012 134 144 2013 146 163 2014 107 136 Fonte: Autor. Ajustar os dados através de um modelo linear (adaptar o Script R-6). SCRIPT R-07 – Produção de leite x Índice pluviométrico > y_prod_leite <- c (26,25,31,29,27,31,32,28,30,30) > y_prod_leite > ny <- length(y_prod_leite) > ny > x_indice_pluv <- c (23,21,28,27,23,28,27,22,26,25) > x_indice_pluv > nx <- length(x_indice_pluv) > nx > sy <- sum (y_prod_leite) > sy > sx <- sum (x_indice_pluv) > sx > sxy <- sum (x_indice_pluv * y_prod_leite) > sxy > sxx <- sum (x_indice_pluv^2) 49 PRÁTICAS │ UNIDADE II > sxx > sqxy <- (sxy - (sx*sy)/nx) > sqxy > sqx <- (sxx – sxx^2/nx) > sqx > b <- sqxy/sqx > b > a <- (sy/ny) - b * (sx/nx) > a > plot (y_prod_leite ~ x_indice_pluv) > modLn <- lm ( y_prod_leite ~ x_indice_pluv) > modLn > abline (modLn) De acordo com o modelo encontrado, qual seria a produção de leite em 2015 para um índice pluviométrico de 26 mm? R-6: Calcule a equação da regressão linear e o coeficiente de determinação (R2) entre todas as variáveis em relação à área. Utilize, organizadamente, apenas um Script do R que contenha todos os procedimentos. Tabela 6. Elementos. Área Condutividade Nitrogênio Perímetro Turbidez ua1 0.16 28.55 315.4 4.83 16.47 ua2 0.09 41.45 455.7 2.17 26.65 ua3 0.24 38.7 525.2 6.32 20.75 ua4 0.28 56 221.2 4.79 26.9 ua5 0.88 5.67 280.0 23.42 19345 ua6 0.13 48.55 546.5 2.93 15.23 ua7 0.39 42.5 399.8 5.52 16265 ua8 1.42 35.1 398.1 18.23 22.35 ua9 1.87 29.15 333.7 20.09 13035 ua10 0.37 32.75 430.5 7.96 21 50 UNIDADE II │ PRÁTICAS Figura 15. Fonte: Autor. Respostas: (Completar a Tabela 7) Tabela 7. Resposta. Par R2 Equação 1 Área x Cond 0.1748613 y= 41.27382 - 9.317015x 2 Área x N 0.09355446 y= 421.0773 – 52.25947x 3 Área x Perim 0.748253 y= 3171167 + 11.07175x 4 Área x Turb 5 Cond x N 6 Cond x Perim 7 Cond x Turb 8 N x Perim 9 N x Turb 10 Perim x Turb Fonte: Autor. Obs.: ajuda, para relembrar: como abrir tabelas no Sistema R. > variável <- read.table (file.choose(), header=T) > variável Obs.: a tabela 5 pode ser aberta no Sistema R através de um arquivo TXT (usando o Bloco de Notas ou Notepad++) O comando lm é o verdadeiro demônio de Laplace. 51 PRÁTICAS │ UNIDADE II SCRIPT R-08 > Elementos <- read.table (file.choose(), header=T) > Elementos > fit1<-lm(Condutividade~Área,Elementos) > fit1 > fit2<-lm(Nitrogênio~Área,Elementos) > fit2 Obs.: explorar: > fit3<-lm(Nitrogênio~Área+Perímetro,Elementos) > fit3 > anova1<-aov(fit3) > anova1 Tabela 8. Galápagos. Id Coord_E Coord_N Ilhas SPE Total SPE Nativas Elevação Área Ilha Mais Prox. Dist. Sta Cruz Dist. Ilha Adjacente 1 803690.69 9950405.32 Baltra 58 23 0 25.09 0.6 0.6 1.84 2 772991.66 9968578.24 Bartolome 31 21 109 1.24 0.6 26.3 572.33 3 796228.87 9855436.65 Caldwell 3 3 114 0.21 2.8 58.7 0.78 4 790950.53 9863052.31 Champion 25 9 46 0.1 1.9 47.4 0.18 5 802919.23 9916020.39 Coamano 2 1 0 0.05 1.9 1.9 903.82 6 792540.55 9953217.19 Daphne Major 18 11 119 0.34 8 8 1.84 7 794810.16 9956292.13 Daphne Minor 24 0 93 0.08 6 12 0.34 8 610911.88 185499.07 Darwin 10 7 168 2.33 34.1 290.2 2.85 9 775393.13 9943131.27 Eden Fawkes 8 4 0 0.03 0.4 0.4 17.95 10 793512.44 9863728.10 Enderby 2 2 112 0.18 2.6 50.2 0.1 11 202856.26 9847577.72 Espanola_16 97 26 198 58.27 1.1 88.3 0.57 12 664033.07 9956361.03 Fernandinha 93 35 1494 634.49 4.3 95.3 4669.32 13 205911.06 9851409.99 Gardner_E 58 17 49 0.57 1.1 93.1 58.27 14 801043.94 9852504.69 Gardner_S 5 4 227 0.78 4.6 62.2 0.21 52 UNIDADE II │ PRÁTICAS Id Coord_E Coord_N Ilhas SPE Total SPE Nativas Elevação Área Ilha Mais Prox. Dist. Sta Cruz Dist. Ilha Adjacente 15 171012.7335653.17 Genovesa 40 19 76 17.35 47.4 92.2 129.49 16 714631.56 9941988.66 Isabela 347 89 1707 4669.32 0.7 28.1 634.49 17 781146.64 37194.27 Marchena 51 23 343 129.49 29.1 8 19 750034.55 64786.28 Pinta 104 37 777 59.56 29.1 119.6 129.49 20 759971.90 9932799.73 Pinzon 108 33 458 17.95 10.7 10.7 0.03 21 815922.25 9935593.71 Las Plazas 12 9 0 0.23 0.5 0.6 25.09 22 755093.43 9954353.41 Rabida 70 30 367 4.89 4.4 24.4 572.33 23 231176.47 9909148.28 San_ Critóbal_16 280 65 716 551.62 45.2 66.6 0.57 24 756007.40 9969033.63 San Salvador Santiago 237 81 906 572.33 0.2 19.8 4.89 25 797360.06 9929387.74 Santa Cruz 444 95 864 903.82 0.6 0 0.52 26 827253.84 9909488.12 Santa Fe 62 28 259 24.08 16.5 16.5 0.52 27 786088.04 9857069.81 Santa Maria Floreana 285 73 640 170.92 2.6 49.2 0.1 28 802343.92 9956400.39 Seymour 44 16 0 1.84 0.6 9.6 25.09 29 736678.65 9887874.48 Tortunga 16 8 186 1.24 6.8 50.9 17.95 30 631943.71 152780.09 Wolf 21 12 253 2.85 34.1 254.7 2.33 Fonte: Rogerson, 2010. O comando lm é o verdadeiro demônio de Laplace. SCRIPT R-09 > Galapagos <- read.table (file.choose(), header=T) > Galapagos > fit1<-lm(SPE_Total~Area,Galapagos) > fit1 > anova1<-aov(fit1) > anova1 > fit2<-lm(SPE_Nativas~Area+Elevacao+Ilha_Mais_Prox,Galapagos) > fit2 > anova2<-aov(fit2) 53 PRÁTICAS │ UNIDADE II > anova2 > fit3<-lm(SPE_Nativas~Elevacao,Galapagos) > fit3 > anova3<- aov(fit3) > anova3 Exercício R-7: Qual dos modelos: fit1, fit2, fit3, escolher? Vamos discutir o resultado. Tabela 9. Peso específico. PE (Y) Quarto (X1) Cor(X2) Feldspato(X3) Coord E-W(X4) Coord N-S(X5) 1 2.63 21.30 5.50 73.00 6.09 0.92 2 2.64 38.90 2.70 57.40 3.62 1.15 3 2.64 26.10 11.10 62.60 6.75 1.16 4 2.63 29.30 6.00 63.60 3.01 1.30 5 2.64 24.50 6.60 69.10 7.40 1.40 6 2.61 30.90 3.30 65.10 8.63 1.59 7 2.63 27.90 1.90 69.10 4.22 1.75 8 2.63 22.80 1.20 76.00 2.42 1.82 9 2.65 20.10 5.60 74.10 8.84 1.83 10 2.69 16.40 21.30 61.70 10.92 1.86 11 2.67 15.00 18.90 65.60 14.22 2.01 12 2.83 0.60 35.90 62.50 10.60 2.04 13 2.70 18.40 16.60 64.90 8.32 2.05 14 2.68 19.50 14.20 65.40 8.06 2.21 15 2.62 34.40 4.60 60.70 2.73 2.27 16 2.63 26.90 8.60 63.60 3.50 2.53 17 2.61 28.70 5.50 65.80 7.44 2.62 18 2.62 28.50 3.90 67.80 5.06 3.03 19 2.61 38.40 3.00 57.60 5.42 3.06 20 2.63 28.10 12.90 59.00 12.50 3.07 21 2.63 37.40 3.50 57.60 12.13 3.12 22 2.78 0.90 22.90 74.40 15.40 3.40 23 2.76 8.80 34.90 55.40 9.91 3.52 24 2.63 16.20 5.50 77.60 11.52 3.61 25 2.74 2.20 28.40 69.30 16.40 4.22 26 2.64 29.10 5.10 65.70 11.43 4.25 27 2.70 24.90 6.90 67.80 5.91 4.94 28 2.63 36.60 3.60 56.60 1.84 5.04 29 2.71 17.10 11.30 70.90 11.76 5.06 30 2.84 0.00 47.80 52.20 16.43 5.09 31 2.68 19.90 11.60 67.20 11.33 5.24 54 UNIDADE II │ PRÁTICAS PE (Y) Quarto (X1) Cor(X2) Feldspato(X3) Coord E-W(X4) Coord N-S(X5) 32 2.84 1.20 34.80 64.00 8.78 5.32 33 2.74 13.20 18.80 67.40 13.73 5.32 34 2.74 13.70 21.20 64.00 12.45 5.33 35 2.61 26.10 2.30 71.20 1.43 5.35 36 2.63 19.90 4.10 76.00 4.15 5.61 37 2.77 4.90 18.80 74.30 13.84 5.85 38 2.72 15.50 12.20 69.70 11.66 6.46 39 2.83 0.00 39.70 60.20 14.64 6.59 40 2.77 4.50 30.50 63.90 12.81 7.26 41 2.92 0.00 63.80 35.20 16.61 7.42 42 2.77 4.00 24.10 71.80 14.65 7.91 43 2.79 23.40 12.40 63.10 13.33 8.47 44 2.69 29.50 9.80 60.40 15.77 8.74 Fonte: Ladim, 2003. A análise de variância é utilizada quando se quer decidir se as diferenças amostrais observadas são reais (causadas por diferenças significativas nas populações observadas) ou casuais (decorrentes da mera variabilidade amostral). Portanto, essa análise parte do pressuposto que o acaso só produz pequenos desvios, sendo as grandes diferenças geradas por causas reais. Esse é um experimento que você mesmo pode fazer: Vamos escolher, por exemplo, três caminhos para ir para o trabalho e cronometrar, cada dia, aleatoriamente, para eliminar outros fatores indesejáveis, o tempo de percurso. Uma análise da variância seria interessante para abordar o problema. Mas aí você vai me perguntar o que isso tem haver com georreferenciamento de imóveis rurais? Vou lhe responder que esse exercício é exatamente o mesmo de analisar o tempo de percurso entre um, ou vários satélites, até um, ou vários receptores, em terra. Existem vários efeitos como, por exemplo, o multicaminhamento, que atrasa a chegada do sinal, e claro, vai aumentar o valor da distância e, consequentemente, provocar o erro no posicionamento. Então, o melhor procedimento, é que esse, ou esses, satélites sejam eliminados antes do processamento. Tabela 10. Ensaio. Ensaio Saída Dia Percurso Tempo 1 1 10:55:00 Segunda 3 18.3 2 2 11:20:00 Quarta 3 18.9 3 3 10:40:00 Sexta 2 10.9 4 4 11:25:00 Segunda 3 20.7 5 5 12:50:00 Sexta 2 11.4 6 6 11:30:00 Quarta 3 22.9 55 PRÁTICAS │ UNIDADE II Ensaio Saída Dia Percurso Tempo 7 7 11:25:00 Quarta 2 12.1 8 8 07:35:00 Terça 1 12.8 9 9 08:10:00 Segunda 3 56.3 10 10 07:00:00 Terça 1 13.3 11 11 08:10:00 Quinta 2 10.9 12 12 17:00:00 Sexta 1 13.1 13 13 15:00:00 Quarta 1 12.7 14 14 12:30:00 Segunda 3 20.6 15 15 07:30:00 Terça 3 18.6 16 16 12:30:00 Quarta 2 11.0 17 17 08:15:00 Sexta 2 10.3 18 18 07:05:00 Quinta 1 13.0 19 19 12:50:00 Segunda 3 18.6 20 20 07:35:00 Terça 1 13.0 21 21 08:00:00 Quinta 2 10.6 22 22 09:20:00 Quarta 2 10.4 23 23 07:15:00 Quinta 3 21.5 24 24 08:15:00 Sexta 2 10.9 25 25 08:40:00 Segunda 2 10.9 26 26 08:40:00 Quarta 2 11.0 27 27 09:00:00 sexta 3 19.1 28 28 10:00:00 Quarta 3 16.1 29 29 09:10:00 Sexta 2 12.1 30 30 09:15:00 Quarta 3 18.1 31 31 11:15:00 Segunda 2 12.2 32 32 14:30:00 Sexta 3 19.2 Fonte: Neto, 2010. Analisando os dados da tabela Ensaio, e usando o Script a seguir, pergunta-se qual trajeto, ou satélite, que você já eliminaria antes de começar a processar os dados? SCRIPT R-10 > ensaio <- read.table (file.choose(), header=T) > ensaio > leitura<-ensaio[,1] > leitura > tempo<-ensaio[,5] > tempo > plot(leitura, tempo) 56 UNIDADE II │ PRÁTICAS > percurso<-ensaio[,4] > percurso > per.f<-factor(percurso) > per.f > table(per.f ) > plot(per.f,tempo) Série de Taylor A série de Taylor nos proporciona o valor de uma função f(x) quando x=0. Ela pode ser escrita nessa forma: f(0) = f(0) + f’(0)/1! x + f’’(0)/2! x2 + f’’’(0)/3! x3 + f’’’’(0)/4! x4 + … A expansão em série de Taylor serve para linearizar as funções, pois para valores de x próximos da segunda potência, que serve para muitos casos práticos, podemos truncar ou descartar os valores superiores, e nesse caso, a curva f(x) poderá ser substituída por uma resta: f(x) = f(a) + f’(a) (x-a) Ou na forma matricial F(X) = F(X0) + dF/dX|X0 ΔX Figura 16. Fonte: Autor. 57 PRÁTICAS │ UNIDADE II Assista aos vídeos no YouTube: <https://youtu.be/5KRNo8Ji9Y0> e <https:// youtu.be/0dqWoZs3erM> Vamos escrever a função seno na sua forma expandida da série de Taylor: Seno(x) = x – x3/6 + x5/120 – x7/5040…. Agora tente testar o Script: > x<-c(1:100) > x > y<-sin(x) > y > plot(x,y,col=’blue’, pch=20) > y<-x-x^3/6 ##################### Função seno em série de Taylor > y > plot(x,y,col=’blue’, pch=20) Observe que a partir do valor 5 (cinco) os dados começam a divergir, o que podemos fazer? Acrescentar mais termos a série? E é exatamente isso que uma calculadora faz, ou usa, para calcular valores de seno, cosseno, pi, exponencial etc. Tabela 11. Valores Seno Série Erro 0 0,000 0,000 0,000 1 0,841 0,841 0,000 2 0,909 0,908 0,001 3 0,141 0,091 0,050 4 -0,757 -1,384 0,627 5 -0959 -5,293 4,334 6 -0,279 -20,743 20,463 Fonte: Autor. 58 UNIDADE II │ PRÁTICAS Funções trigonométricas nos Sistema R > sin(.5*pi) > cos(2*pi) > tan(pi) > atan(0) Propagação do erro O volume de um cilindro pode ser determinado medindo-se o comprimento L e o raio R. Ou seja, um problema estocástico. Em teoria probabilística, o padrão estocástico é aquele cujo estado é indeterminado, com origem em eventos aleatórios. Por exemplo, o lançar de um dado resulta num processo estocástico, pois qualqueruma das seis faces do dado tem iguais probabilidades de ficar para cima após o arremesso. Assim, qualquer sistema ou processo analisado usando a teoria probabilística é estocástico, ao menos em parte. (DEBASTIANI, 2008) No, entanto, o volume V é calculado por uma fórmula matemática: V = πLR2 Uma vez que R e L tenham erros experimentais ou de mensuração, é evidente que o volume V também terá, pois ele é calculado em função ou a partir de R e L. Portanto, a relação entre as incertezas será dada pela Lei da Propagação dos Erros: S2v= 2 2 2V VS L + S R L R ∂ ∂ ∂ ∂ Calculando as derivadas parciais, ∂V/∂L = πR2 e ∂V/∂R = πL(2R) Obtém-se S2v = (πR 2)2 S2L + (2πLR) 2 S2R 59 PRÁTICAS │ UNIDADE II Introdução à probabilidade Experimentos aleatórios Segundo Mendes (2013), um experimento aleatório consiste em um procedimento que pode ser repetido diversas vezes, sob as mesmas condições de observação, mas que cujos resultados não serão essencialmente os mesmos em todas as repetições. Um exemplo simples pode ser o jogo de dados ou de uma moeda. Espaço amostral O espaço amostral (S) consiste no conjunto de todos os resultados possíveis para um experimento aleatório. Exemplo: Jogo de dados de seis (6) faces (1,2,3, … 6) ou (1 e 2 e 3…. e 6) Moedas (Cara, coroa) ou (cara e coroa) Evento É o resultado, evento (E) observado num espaço amostral (S) aleatório. Jogo de dados (1 ou 2 ou 3…. ou 6) Moedas (Cara ou coroa) Probabilidade É o evento (E) observado sobre o espaço amostral (S) P = E/S 60 UNIDADE II │ PRÁTICAS A probabilidade também pode ser calculada em função da frequência e da ocorrência de eventos, por exemplo: Um motor falha a cada 1000 partidas. P=1/1000 Brincado de cara ou coroa A probabilidade de sair cara ou coroa em um experimento aleatório é P = 1/2, ou seja, a cada cem jogadas existe a chance ou probabilidade sair 50 caras e 50 coroas, mas como todos os tipos de medições são sempre acometidas de erros aleatórios isso na prática não acontece. Experimento Jogar uma moeda 10 vezes e comparar a medição com a probabilidade: Probabilidade de cara = 5 Probabilidade de coroa = 5 Medição Ocorrência de cara = 6 Ocorrência de coroa = 4 Erro aleatório Cara (P) – Cara (O) = - 1 Coroa (P) – Coroa (O) = 1 O padrão de comportamento do erro aleatório, ou distribuição, é sempre + 1 e-1, que podemos chamar de + n – p Em termos matemáticos: f(x) + n – p = r 61 PRÁTICAS │ UNIDADE II Figura 17. Fonte: Adaptado de Romero, 1993. Síntese matemática 1 Descobrindo a melhor função (a função erro) para o ajustamento do fenômeno, usando o MMQ: M(5) − n₁(6) = e₁ M(5) − n₂(4) = e₂ …. M( ) − nn( ) = en Segue: ∑e² = ∑ e1² + e2² + … + en² = min ∑e² = ∑ (M – n1)² + (M – n2)² + … + (M − nn)² = min Derivando d∑e² ∕dM = 0 d∑e² ∕dM = 2(M – n1).1 + 2(M – n2).1 + … + 2(M − nn).1 = 0 Resulta (M − n₁) + (M − n₂) + … + (M − nn) = 0 nM - (n₁ + n₂ + … + nn) = 0 O resultado é a Média Aritmética, um estimador não tendencioso, que de acordo com MMQ minimiza a soma dos resíduos ao quadrado. M = (n₁ + n₂ + … + nn) / n A média ponderada também pode ser derivada do jogo de moedas. 62 UNIDADE II │ PRÁTICAS Síntese matemática 2 Derivar para a média ponderada para o ajustamento do fenômeno, usando o MMQ: w1(M(5) − n₁(6)) = w1e₁ w2(M(5) − n₂(4)) = w2e₂ …. wn(M( ) − nn( )) = wnen Segue ∑e² = ∑ w1e1² + w2e2² + … + wnen² = min ∑e² = ∑ w1(M – n1)² + w2(M – n2)² + … + wn(M − nn)² = min Derivando d∑e² ∕dM = 0 d∑e² ∕dM = 2w1(M – n1).1 + 2w2(M – n2).1 + … + 2wn(M − nn).1 = 0 Resulta (w1M − w1n₁) + (w2M − w2n₂) + … + (wnM − wnnn) = 0 (w1 + w2 +…. + wn) M - (w1n₁ + w2 n₂ + … + wnnn) = 0 O resultado é a Média Pondera, mais um estimador não tendencioso, que de acordo com MMQ minimiza a soma dos resíduos ao quadrado. M = (w1n₁ + w2 n₂ + … + wnnn) / (w1 + w2 +….+ wn) A média ponderada também pode ter diversos outros pesos. M = (w1w1n₁ + w2w2 n₂ + … + wnwnnn) / (w1w1 + w2w2 +….+ wnwn) O exemplo de áreas de vendas e centro de abastecimento pode ser remodelado por pensamento lateral como bairros e postos de saúde, escolas, ou Unidades de Polícia Pacificadora – UPPs etc. 63 PRÁTICAS │ UNIDADE II A tabela a seguir apresenta a demanda diária de cada loja em termos de caminhão/ dia e, ainda, de acordo com critérios que não serão discutidos, os pesos relativos da importância estratégica de cada loja. Tabela 12. Loja Bairro Representação Econômica Peso Importância L1 Centro 09 caminhões/dia 7 L2 Águas Claras 07 caminhões/dia 5 L3 Riacho Fundo 05 caminhões/dia 2 L4 Asa Sul 12 caminhões/dia 2 L5 Asa Norte 08 caminhões/dia 5 L6 Palmeiras 15 caminhões/dia 6 L7 Vila Planalto 11 caminhões/dia 7 Fonte: Autor. Cabe ao analista de geoprocessamento localizar o ponto ótimo ou o mais próximo possível do ideal, onde será construído o novo centro de abastecimento. » solicitar um arquivo DXF ou criar o próprio mapa usando o DraftSight; » o próximo passo é transformar o arquivo DXF em ShapeFile usando o QGIS; » o próximo passo é processar o centroide (achar as coordenadas) de cada área de vendas, pois vamos supor que cada loja fica exatamente no centro de cada área de vendas; » finalmente usando Média Ponderada poderemos calcular as coordenadas do novo centro de vendas e, finalmente, poder plotar no mapa o local sugerido; » todos os passos podem ser feitos no Sistema Estatístico R. Exemplo tirado do livro Conhecendo o R, uma visão mais que Estatística (Mello, 2013). Agora, supomos que haja um conjunto de sete cidades (ou sete bairros etc.) (aqui nomeadas de A a G) e suas coordenadas planas (x e y). Assim, cada cidade pode ser identificada individualmente, veja: > x <- c(2,3,4,5,6,7, 9) > y <- c(15, 46, 56, 15, 81, 11, 25) > nomes <- LETTERS[1:7] > nomes 64 UNIDADE II │ PRÁTICAS > cidades <- data.frame (x,y, row.names=nomes) > cidades > plot(cidades) Pacotes do R O R é um programa leve (ocupa pouco espaço e memória) e geralmente roda rápido, até em computadores não muito bons. Isso porque ao instalarmos o R apenas as configurações mínimas para seu funcionamento básico são instaladas (o pacote base). Para realizar tarefas mais complicadas pode ser necessário instalar pacotes adicionais (packages). Caso o mesmo experimento seja repetido com dois dados ou mais, em vez de moedas, será possível perceber que o erro se aproxima de uma curva com distribuição normal, ou seja, segue o traçado da curva de sino ou Gauss. Figura 18. Curva de Gauss. Fonte: Autor. A curva de Gauss depende apenas de dois parâmetros: média e desvio padrão. Figura 19. Fonte: Autor. Onde μ é média e σ é o desvio padrão. 65 PRÁTICAS │ UNIDADE II Método das direções (série de leituras) Consiste nas medições angulares horizontais com visadas das direções determinantes nas duas posições de medição permitidas pelo teodolito (direta e inversa), a partir de uma direção tomada como origem, que ocupa diferentes posições no limbo horizontal do teodolito. As observações de uma direção, nas posições direta e inversa do teodolito, chamam-se leituras conjugadas. Uma série de leituras conjugadas consiste na observação sucessiva das direções, a partir da direção origem, fazendo-se o giro de ida na posição direta da luneta e de volta na posição inversa, ou vice-versa, terminando na última direção e iniciando-se, aí, a volta sem fechar o giro. O intervalo, medido no limbo horizontal do teodolito, entre as posições da direção origem neste limbo, chama- se intervalo de reiteração. Assim, para observação de “n” séries de leituras conjugadas pelo método das direções, o intervalo de reiteração deve ser 180°/n. Como exemplo, se forem três séries de leituras conjugadas, o intervalo de reiteração deve ser 180°/3 = 60°, e a direção origem deve ocupar, no limbo horizontal do teodolito, posições nas proximidades de 0°, 60° e 120°. Os valores dos ângulos medidos pelo método das direções são as médias aritméticas
Compartilhar