Baixe o app para aproveitar ainda mais
Prévia do material em texto
2Módulo Avaliação de bens e imóveis com foco no método evolutivo Infraestrutura Conceitos e noções básicas de Estatísticas aplicadas na avaliação de imóveis Enap, 2021 Fundação Escola Nacional de Administração Pública Diretoria de Desenvolvimento Profissional SAIS - Área 2-A - 70610-900 — Brasília, DF Fundação Escola Nacional de Administração Pública Diretoria de Desenvolvimento Profissional Conteudista/s Antônio Sérgio Costa Amorim, 2021. Diretoria de Desenvolvimento Profissional. Sumário Unidade 1: Noções de estatística ........................................................4 1.1 Considerações Iniciais ................................................................................................ 4 1.2 Medidas Estatísticas ................................................................................................... 5 1.3 Aplicando Conceitos ................................................................................................... 8 1.3.1 Calculando Amostras .............................................................................................. 9 1.3.2 Desvios nas Amostras ........................................................................................... 12 Referências ..................................................................................................................... 14 Unidade 2: Econometria .....................................................................15 2.1 Considerações Iniciais .............................................................................................. 15 2.2 Regressão Linear ...................................................................................................... 16 2.3 Método dos Mínimos Quadrados........................................................................... 18 2.3.1 Formas de Encontrar uma Reta de Regressão Linear e sua Equação ............ 19 2.4 Coeficientes de Determinação (R²) e Correlação (R) ............................................ 23 2.5 Distribuição Normal ................................................................................................. 26 2.6 Pressupostos Básicos para a Validação dos Modelos ......................................... 29 2.7 Estimativas Intervalares ........................................................................................... 41 2.7.1 Hipóteses Estatísticas ........................................................................................... 42 2.7.2 Intervalo de Confiança (IC) ................................................................................... 43 2.7.3 Distribuição F de Snedecor .................................................................................. 43 Referências ..................................................................................................................... 45 4Enap Fundação Escola Nacional de Administração Pública Módulo Conceitos e noções básicas de Estatísticas aplicadas na avaliação de imóveis 2 Esse módulo abordará os conceitos mínimos necessários de estatística para melhor entender os pressupostos normativos e resultados obtidos no tratamento científico de dados de uma amostra em uma avaliação de imóveis. 1.1 Considerações Iniciais Unidade 1: Noções de estatística Objetivo de aprendizagem Ao final desta unidade, você será capaz de entender conceitos básicos de estatística utilizados nos métodos de avaliações de imóveis. A partir de agora, o curso vai começar a falar em números, fazer contas, analisar dados, enfim, algo que todo engenheiro de avaliações gosta de fazer. A utilização da metodologia científica, especialmente nas etapas de analise exploratória dos dados coletados e construção do modelo de avaliação, fica mais fácil com a ajuda de sistemas computacionais específicos. Embora existam vários softwares específicos de avaliação de imóveis e de estudos estatísticos avançados disponíveis no mercado, neste curso, você irá se aprofundar somente na abordagem introdutória da estatística descritiva e nas impressões iniciais sobre a regressão linear aplicada às avaliações de imóveis. Estatística é a área da matemática que estuda a coleta, registro, organização e análise dos dados de uma pesquisa. Há três tipos de estatísticas: • Descritiva: é a base inicial de uma análise, caracterizada pela coleta, organização e apresentação de dados por meio de técnicas que permitem descrever e resumir de forma simplificada algumas características de um conjunto de dados; Enap Fundação Escola Nacional de Administração Pública 5 • Inferencial: é caracterizada por ferramentas e técnicas que possibilitam obter afirmações e conclusões a partir da amostra de uma população e, com base nessa análise, é possível obter afirmações e conclusões sobre essa população; • Probabilística: caracterizada por análises de situações de incerteza oriundas de fenômenos aleatórios. Para o estudo de estatística, é fundamental que alguns conceitos sejam bem assimilados para melhor compreensão das técnicas e ferramentas que serão utilizadas. 1.2 Medidas Estatísticas Na estatística, utilizam-se alguns parâmetros/números para medir e resumir certas características das distribuições (ou frequência) dos dados de uma amostra ou população, que são denominados Medidas Estatísticas. Para o estudo deste curso, serão melhor explicadas algumas dessas medidas de Posição (ou Tendência Central) e medidas de Dispersão, que são as mais utilizadas para a avaliação de bens. As Medidas de Posição (ou Tendência Central) são as estatísticas que representam uma série de dados que orientam quanto à posição da distribuição em relação ao eixo horizontal do gráfico da curva de frequência. Elas mostram o valor representativo em torno do qual os dados tendem a se agrupar, seja com maior ou menor frequência. São utilizadas para sintetizar, em um único número, o conjunto de dados observados. As principais medidas de posições são: A. Média aritmética: é o valor obtido somando-se um conjunto de valores observados e dividindo-se o total pelo número de valores. É denotada por x̄ (leia-se “x barra”). B. Mediana (Md): é um valor central de um rol, ou seja, a mediana de um conjunto de valores ordenados (crescente ou decrescente) é a medida que divide este conjunto em duas partes iguais. C. Moda (Mo): é o valor que se repete com maior frequência no conjunto. 6Enap Fundação Escola Nacional de Administração Pública Exemplo: nos dados dos conjuntos abaixo, tem-se: A = {3, 4, 6, 7, 9, 10, 14} x̄ = 7,57 Md = 7 Mo = amodal (nenhuma moda) B = {2, 4, 6, 8, 9, 11, 13, 15} x̄ = 8,5 Md = 8,5 Mo = amodal (nenhuma moda) C = {1, 3, 6, 5, 9, 4, 3, 8} => ordenando => {1, 3, 3, 4, 5, 6, 8, 9} x̄ = 4,875 Md = 4,5 Mo = 3 unimodal (uma moda) E = {10, 3, 5, 8, 3, 6, 10, 4} => ordenando => {3, 3, 4, 5, 6, 8, 10, 10} x̄ = 6,125 Md = 5,5 Mo = 3 e 10 multimodal (duas ou mais modas) Já as Medidas de Dispersão mostram o grau de afastamento dos valores observados em relação ao valor representativo. Servem para verificar a representatividade das medidas de posição, pois é muito comum encontrar séries que, apesar de terem a mesma média, são compostas de maneira distinta. As principais medidas de dispersão são: A. Amplitude (h): é a diferença entre o maior e o menor valor de um conjunto de dados. h = xmáx – xmín > Ex.: X = { 8, 2, 6, 4, 9, 15, 13, 11 } -> h = 15 – 2 = 13 B. Desvio médio (DM): é o desvio médio ou afastamento médio em relação à média. C. Desvio médio absoluto (DMA): é o desvio médio absoluto ou afastamento médio absoluto em relação à média. D. Variância da Amostra (σ²): é a soma dos quadrados dos desvios dividida pelo número de ocorrências. Utilizada para avaliação da variabilidade de um processo/amostra. E. Desvio Padrão (σ): é a raiz quadrada positiva da média aritmética dos quadrados das diferenças entre cada valor e a média aritmética do conjunto, ou a raiz quadrada da variância. F. Coeficiente de Variância (CV): é uma comparação,em termos percentuais, do desvio padrão de uma série de dados em relação ao valor médio dessa série. Permite a comparação de amostras com unidades diferentes. Enap Fundação Escola Nacional de Administração Pública 7 Exemplo CV: Em um grupo de pessoas, observou-se os resultados abaixo. Qual das duas grandezas possui maior grau de dispersão? - Altura -> CV = (5 / 175) x 100 => CV = 2,86 % - Peso -> CV = (3 / 68) x 100 => CV = 4,41 % Resposta: neste caso, o Peso apresenta o maior grau de dispersão. Média Desvio Padrão Altura 175 cm 5,0 cm Peso 68,0 kg 3,0 kg Exemplo - Com os dados do conjunto X = {2, 4, 6, 8, 10}, tem-se: Série (x) Dados Desvios x̄ - xⁿ DMA Variância (σ²) Desvio Padrão (σ) x¹ 2 4 4 16 x² 4 2 2 4 x³ 6 0 0 0 x⁴ 8 - 2 2 4 x⁵ 10 - 4 4 16 Somatória 30 0 12 40 Média x̄ 6 - - σ²=10 σ=3,16 O desvio padrão é uma medida que possibilita uma análise melhor e mais conclusões que uma simples média. Exemplo σ - Um professor aplica uma prova a duas turmas de 100 alunos cada, obtendo as seguintes notas: 8Enap Fundação Escola Nacional de Administração Pública Notas de duas turmas de alunos, coletadas e organizadas em forma de tabela. Fonte: CEPED/UFSC (2022). Neste caso, fazendo os cálculos das médias e desvio padrão de cada turma: - Média das notas da Turma 1 = 6,85 Desvio padrão das Notas da T 1 = 2,07 - Média das notas da Turma 2 = 6,85 Desvio padrão das Notas da T 2 = 1,71 Assim, é possível concluir que a Turma 2 seria mais homogênea do que a Turma 1. 1.3 Aplicando Conceitos Como você aprendeu, a engenharia de avaliações se ocupa em estimar o valor do bem avaliando, e que, sendo o imóvel pertencente ao mercado de concorrência imperfeita, seu valor geralmente será consequência do mercado em que ele está inserido. Veja o seguinte exemplo: em uma determinada região, existe uma seleção de indivíduos homogêneos, composta predominantemente indivíduos “roxos”, de forma que, ao extrair uma amostra dessa população, ela deverá ser eminentemente homogênea. Em um segundo quadrante, existe uma seleção de indivíduos heterogêneos, no qual não é possível afirmar como ela é composta em sua predominância, de forma que, ao extrair uma amostra dessa população, ela será eminentemente heterogênea. Enap Fundação Escola Nacional de Administração Pública 9 Logo, populações homogêneas produzirão amostras homogêneas, ao passo que populações heterogêneas produzirão mais facilmente amostras heterogêneas. Entretanto, toda amostra, sendo ela homogênea ou heterogênea, apresentará variação em torno de sua média. Essas variações são chamadas de desvios ou erros, e acontecem devido aos fatores socioeconômicos e diferenças físicas entre os dados. Isso é a chamada “aleatoriedade de mercado”, conforme apresentado na imagem: Ilustração de tipos de amostras. Fonte: CEPED/UFSC (2022). Adaptado de Pinto (2018). 1.3.1 Calculando Amostras 4 5 6 Agora, você entenderá como são feitos esses cálculos no mercado imobiliário. Imagine a seguinte situação: em uma pesquisa, coletam-se sete amostras – que são chamados dados de mercado –, cada uma com um preço. 10Enap Fundação Escola Nacional de Administração Pública Dessa amostra, tem-se o dado 1, com o preço ofertado de 360 reais; o dado 2, com o preço ofertado 370 reais; o dado 3, com preço ofertado de 330 reais; e assim por diante. A soma dos sete dados totaliza 2.270 reais e a média de preços da amostra é de 324 reais. Seria muito fácil parar no valor médio obtido pela média aritmética direta das amostras obtidas. Porém, no mercado imobiliário, os dados podem ser bem diferentes entre si, e considerar apenas os preços ofertados não explicará a realidade do mercado, deixando margem para uma grande variação em torno da média, como você verá a partir de agora. Para fazer esses cálculos, é importante saber calcular a variação de cada dado, que é chamado de resíduo. Para calcular o resíduo de cada dado, basta subtrair seu preço ofertado pela média das amostras. Continuando o exemplo anterior, tem-se: o dado 1 tem resíduo de 35,70 (360 -324); o dado 2 tem resíduo de 45,7 (370 - 324); e assim por diante, até o dado 7 com resíduo -94,30 (230 - 324), de modo que o somatório dos resíduos da amostra é zero, como mostra a coluna “Resíduo (Y - Ymed)” do quadro a seguir: Dados Preço (Y) Preços médios (Ymed) Resíduo (Y – Ymed) Resíduo² 1 360 324 35,7 1.275,51 2 370 324 45,7 2.089,80 3 330 324 5,7 32,65 4 460 324 135,7 18.418,37 5 270 324 -54,3 2.946,94 6 250 324 -74,3 5.518,37 7 230 324 -94,3 8.889,80 Total 2270 0 39.171,43 Média 324 Cálculo dos resíduos da Amostra. Fonte: CEPED/UFSC (2022). Enap Fundação Escola Nacional de Administração Pública 11 O somatório dos resíduos sempre será zero, pois esse dado corresponde às restrições impostas pela média, sendo suas diferenças positivas anuladas pelas negativas. Você reparou que na última coluna consta “resíduo²”? Isso é necessário para eliminar o sinal negativo dos resíduos, ou seja, eleva-se ao quadrado ou trabalha-se em módulo. Para representação mais adequada, eleve ao quadrado cada resíduo: o dado 1 tem resíduo² de 1.275,51 (35,7)², e assim por diante, até o dado 7, com resíduo² de 8.889,80 (-94,3)². Assim, o somatório do quadrado dos resíduos é 39.171,43, o que representa a variação total da amostra, ou seja, a diferença entre os dados e a média da amostra. Essa variação se explica pela aleatoriedade de mercado, diferenças físicas entre os dados e fatores socioeconômicos da região. Graficamente, a dispersão dos dados é visualizada em torno do valor médio, conforme apresenta a imagem a seguir. A amostra apresenta uma média de preços de 324 reais e uma variação total de 39.171,43. Gráfico dos desvios em relação à média (324). Fonte: CEPED/UFSC (2022). 12Enap Fundação Escola Nacional de Administração Pública Perceba que obter somente a média é uma informação muito frágil. Conhecer apenas os preços ofertados da amostra não garante segurança para conhecimento desse mercado. Aliás, é fundamental conhecer bem o imóvel avaliando e o mercado em que ele se encontra, de modo a coletar mais variáveis para que a variação em torno da média seja diminuída. 1.3.2 Desvios nas Amostras Conforme já mencionado, a variação em torno da média advém de três fatores principais: os fatores socioeconômicos, a aleatoriedade de mercado e as diferenças físicas entre os imóveis. Este último é o de maior importância ao método comparativo de dados de mercado, até porque avaliar é comparar e, por conta disso, as diferenças físicas entre os imóveis (que são abundantes e facilmente identificadas) explicam boa parte da variação em torno da média, traduzindo em poder de explicação ao trabalho avaliatório. Será utilizada a variável “área" para a explicação do modelo de avaliação, de modo que foi identificada a área de cada imóvel da amostra. Dando continuidade ao exemplo anterior, tem-se: o dado 1 com área de 410, o dado 2 com área de 330, e assim por diante, até o dado 7 com área de 230. A princípio, o valor médio da amostra permanece o mesmo (324), bem como sua variação (39.171,43). No entanto, ao esboçar o gráfico de dispersão entre as duas variáveis – preço e área –, valiosíssimas informações são reveladas, conforme apresenta a imagem a seguir, na qual constam os dados da amostra e o gráfico: Ilustração dos desvios em relação à média com influência da área. Fonte: CEPED/UFSC (2022). Enap Fundação Escola Nacional de Administração Pública 13 Para o gráfico de dispersão, sempre será utilizada a variável dependente no eixo das ordenadas e a variável independente no eixo das abscissas. Os valores da média e do Resíduo² não se alteram, mas pode- se observar que a dispersão tem tendência decrescente, ou seja, quanto maior a área, menor o preço. Portanto, há uma correlação negativa, pois as maiores áreas estão com os preços abaixo da média, enquanto as menores estão acima da média. É a partir desse ponto que serãoutilizadas as técnicas econométricas. No mercado de concorrência imperfeita que são os imóveis, espera- se sempre uma grande variação dos preços em torno da média, de forma que se faz necessário aplicar técnicas científicas para reduzir tais variações, aumentando a confiança dos valores estimados pelos engenheiros avaliadores. Você chegou ao final desta unidade de estudo. Caso ainda tenha dúvidas, reveja o conteúdo e se aprofunde nos temas propostos. 14Enap Fundação Escola Nacional de Administração Pública ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS (ABNT). NBR 14653-1: Avaliação de Bens Parte 1: Procedimentos gerais. Rio de Janeiro, 2019. ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS (ABNT). NBR 14653-2: Avaliação de Bens Parte 2: Imóveis urbanos. Rio de Janeiro, 2011. BRASIL. Ministério do Planejamento, Desenvolvimento e Gestão. Secretaria do Patrimônio da União. Manual de avaliação de imóveis do patrimônio da União, Brasília, DF, 2017. 114 p. DANTAS Rubens Alves. Engenharia de Avaliações – Uma introdução à metodologia científica, 2011, São Paulo, Editora PINI. GUEDES Terezinha Aparecida; MARTINS, Ana Beatriz Tozzo; ACORSI, Clédina Regina Lonardan; JANEIRO, Vanderly . Projeto de Ensino: Aprender Fazendo Estatística. Universidade estadual de Maringa, 2005. 49 p. GUJARATI, Damodar. Econometria Básica, 2006, São Paulo, Editora Campus. HOCHHEIM, Norberto. Avaliação de Imóveis Urbanos: Fundamentos e aplicação da estatística inferencial, UFSC. PINTO, Rodrigo Lobo. Cálculo da Amostra. [S.L.], [201-]. 47 slides, color. Disponível em: https://slideplayer.com.br/slide/13403287. Acesso em: 07 jan. 2022. MAYER, Fernando de Pol. Introdução à Estatística e conceitos de amostragem. Laboratório de Estatística e Geoinformação. UFPR, 2016. Referências https://slideplayer.com.br/slide/13403287 Enap Fundação Escola Nacional de Administração Pública 15 2.1 Considerações Iniciais Unidade 2: Econometria Objetivo de aprendizagem Ao final desta unidade, você será capaz de entender as noções de econometria aplicada à avaliação de imóveis, bem como os pressupostos básicos da inferência estatística utilizada no tratamento científico de dados. Não basta o engenheiro avaliador se valer apenas dos preços ofertados em sua amostra para estimativa de valor do imóvel avaliando. É fundamental a coleta e utilização de outras variáveis (além dos preços) para que a variação em torno do valor médio seja reduzida. Para tanto, faz-se necessária a aplicação de recursos estatísticos (o tratamento científico dos dados da amostra), sendo o principal deles oriundo da econometria. A econometria, como sugere Damodar Gujarati (2006), pode haver várias definições, desde a mais literal, que diz: Econometria significa medição econômica. Outras definições mais elaboradas afirmam que: Pode-se dizer que econometria é a aplicação da estatística matemática aos dados econômicos para dar apoio aos modelos formulados pela economia matemática e obter resultados numéricos. Gerhard Tintner (1968) 16Enap Fundação Escola Nacional de Administração Pública 2.2 Regressão Linear Qualquer modelo de regressão linear aplicado à avaliação de imóveis estudará o efeito que a variável ou as variáveis independentes exercem sobre a variável dependente, que geralmente são preços à vista, sendo eles de oferta ou os transacionados. A regressão linear pode ser simples ou múltipla: • Regressão Linear Simples: Y= β⁰ + β¹X • Regressão Linear Múltipla: Y= β⁰ + β¹X¹ + β²X² + ... + βⁿXⁿ Para este caso, será utilizada a regressão linear múltipla. Os preços estarão sempre nos eixos das ordenadas (y), enquanto as variáveis independentes ficam sempre no eixo das abscissas (x), de modo que: Y = f (x). Ou ainda uma definição intermediária: A econometria pode ser definida como a ciência social em que as ferramentas da teoria econômica, da matemática e da inferência estatística são aplicadas à análise dos fenômenos econômicos. Arthur Golberger (1964). No entanto, para sua compreensão e correta aplicação, você irá conhecer antes a principal ferramenta da econometria: a regressão! Neste curso de avaliação de imóveis, serão abordadas exclusivamente a regressão linear simples e múltipla, não fazendo parte outros tipos de regressão como a não linear, espacial etc. Como complemento, é sugerida a leitura do texto que faz uma breve abordagem histórica e uma interpretação moderna sobre a regressão que se encontra na página 13 do livro Econometria Básica, de Damodar Gujarati e Dawn C. Porter. Enap Fundação Escola Nacional de Administração Pública 17 A análise da regressão se ocupa do estudo da dependência de uma variável dependente, em relação a uma ou mais variáveis independentes, com vistas a estimar e/ou prever o valor médio do bem avaliando. Damodar Gujarati (2006) Para facilitar a compreensão, imagine a seguinte situação, em que as características para um conjunto de n preços coletados xi (i= 1, 2, ...n), representados pelos pontos vermelhos, e os correspondentes valores de Yi = f (xi), admitindo uma relação linear simples (apenas uma variável independente). Se for inserida uma linha de tendência, obtém-se a reta representativa do modelo matemático que relaciona as duas variáveis (Yi e Xi). Observe na imagem a seguir o modelo de regressão linear em que se estuda o efeito que uma variável independente (X) exerce sobre a variável dependente (Y). Seu modelo estatístico será: Você deve ter percebido que, na equação, consta o erro (e). Esse “erro" inclui todos os fatores residuais, mais os possíveis erros de medição. Tratando-se de erro (resíduos), a seguir você verá um dos métodos mais conhecidos e utilizados na engenharia de avaliações: o método dos mínimos quadrados! Modelo de regressão linear. Fonte: CEPED/UFSC (2022). 18Enap Fundação Escola Nacional de Administração Pública 2.3 Método dos Mínimos Quadrados O Método dos Mínimos Quadrados (MMQ), ou Quadrados Mínimos Ordinários (MQO), ou ainda o nome em inglês, Ordinary Least Squares (OLS), é uma técnica de otimização matemática que procura encontrar o melhor ajuste para um conjunto de dados, tentando minimizar a soma dos quadrados das diferenças entre o valor estimado e os dados observados (tais diferenças são chamadas de resíduos). A utilização dos mínimos quadrados permite ao engenheiro de avaliações explicar uma grande parte da variação, em torno da média aritmética, encontrada nos preços dos imóveis que compõe as amostras do mercado imobiliário, bem como identificar as variáveis chaves que estão fortemente correlacionadas com os preços. Geralmente, essa variação é elevada, principalmente nas parcelas referentes às diferenças físicas e aos fatores socioeconômicos. A utilização de uma metodologia científica permite reduzir as incertezas sobre os valores estimados para os imóveis. Antônio Pelli Neto (2014) Voltando ao exemplo, verifica-se que cada amostra coletada tem uma distância da média, de modo que a variação total da amostra em torna da média é representada pela soma do quadrado das distâncias de todos os dados, cujo resultado é 39.171,43. Sendo a média aritmética definida pela equação Y est= a + bx + e, na reta horizontal o coeficiente angular (b) é nulo, restando o intercepto (a), portanto, 324, como mostra a imagem: Enap Fundação Escola Nacional de Administração Pública 19 Somatória dos desvios ao quadrado. Fonte: CEPED/UFSC (2022). No mercado de concorrência imperfeita que são os imóveis, espera-se uma grande variação dos preços em torno da média, de forma que a utilização da regressão linear poderá se mostrar eficaz na redução da variação total da amostra. Para tanto, deve ser encontrada outra reta que se aproxime mais dos pontos (preços observados na amostra). 2.3.1 Formas de Encontrar uma Reta de Regressão Linear e sua Equação Veja a seguir como encontrar uma reta de regressão linear no Excel: Uma forma simples e rápida é plotando um gráfico de dispersão seguido da inserção de linha detendência, optando pelo tipo linear. Ao ativar a opção “exibir equação do gráfico”, verifica-se a seguinte equação: Y = 538,26 – 0,4329X, que representa o modelo estatístico (Yest= a + bx). Veja na imagem a seguir que o Excel permite optar pela análise de regressão diretamente do menu análise de dados: 20Enap Fundação Escola Nacional de Administração Pública Regressão linear definida com auxílio do Excel. Fonte: CEPED/UFSC (2022). Essa opção mostra uma série de informações valiosas que devem ser utilizadas, porém, para o caso em análise, serão considerados somente os coeficientes de regressão. Ao montar o modelo de equação, tem-se mesmo valor: Y = 538,26 – 0,4329X. Resultado de uma análise de dados por regressão linear pelo Excel. Fonte: CEPED/UFSC (2022). Enap Fundação Escola Nacional de Administração Pública 21 Na equação Y = 538,26 – 0,4329X, deve-se observar que o valor médio estimado para cada imóvel não será mais constante, pois ele se modifica de acordo com a variação das áreas. Veja que, para cada valor estimado para a variável dependente, pode ser calculado um erro ou desvio (ei) relativo ao respectivo valor observado: • e¹ = y¹ – (a+bx¹); • e² = y² – (a+bx²); • eⁿ = yⁿ – (a+bxⁿ); Deduzindo-se tais equações e valendo-se de suas derivadas parciais, chega-se, matematicamente, aos mesmos parâmetros: a (538,26) e b (-0,4329). Portanto: Y = 538,26 – 0,4329x, conforme mostra a imagem a seguir. Equação estimativa que define a reta da regressão linear. Fonte: CEPED/UFSC (2022). Embora os softwares auxiliem com fórmulas matemáticas, recomenda-se que o engenheiro de avaliações seja incansável na busca das devidas interpretações, valendo-se de leituras e estudos. Este curso é focado em outras interpretações que têm significados práticos ao mercado de imóveis tão valiosos quanto as fórmulas. Aplicando-se o modelo de equação (Y = 538,26 – 0,4329x), o valor médio estimado para cada imóvel não será mais constante, culminando em nova variação residual em função da área. Voltando ao exemplo anterior, em que se tem o dado 1 com valor estimado de 361 e resíduo de -0,77, o dado 2 com valor estimado de 395 e resíduo de -25,40, o dado 22Enap Fundação Escola Nacional de Administração Pública 3 com valor estimado de 322 e resíduo de 8,19 e assim por diante, ao final, a variação residual total representada pelo somatório dos quadrados das diferenças entre os preços e os valores estimados da equação de regressão é de 1.582,82, indicando uma considerável redução em relação ao resíduo total inicial de 39.717,43. Cálculo de novo resíduo, incluindo a influência da área. Fonte: CEPED/UFSC (2022). Os dados que apresentam menores resíduos (soma dos quadrados) são aqueles mais próximos à reta de regressão. Assim sendo, não se pode simplesmente atribuir um valor médio das amostras coletadas sem o devido tratamento estatístico, o que seria um julgamento de valor. Os engenheiros de avaliação devem entender as principais características (variáveis independentes) que influenciam diretamente os preços dos imóveis (variáveis dependentes) por meio da metodologia científica, de forma que a variação não explicada seja inferior a variação total dos dados em torno da média. Como você já aprendeu, o processo de minimizar a variação ao quadrado é chamado de método dos mínimos quadrados. Mas isso é só o começo, pois, para o devido enquadramento ao que dispõe a NBR 14653, outras análises fundamentais deverão ser feitas, começando pelas estatísticas de regressão na qual permitem avaliar a qualidade do ajustamento da reta de regressão aos dados, auxiliando na escolha do modelo mais adequado. As estatísticas básicas de regressão são: • Coeficiente de determinação; e • Coeficiente de correlação linear. Enap Fundação Escola Nacional de Administração Pública 23 2.4 Coeficientes de Determinação (R²) e Correlação (R) Se a dispersão observada em relação à reta de regressão for menor do que aquela observada em relação à reta que indica o valor médio, então as estimativas baseadas na reta de regressão serão melhores do que as baseadas na média. O coeficiente de determinação R² ou r² representa o poder de explicação das variáveis dependentes sobre a variável independente. Assim, ao dizermos que o coeficiente de determinação é 0,85, por exemplo, significa dizer que 85,00% da variação dos preços em torno da média aritmética são explicadas. Conceituando o coeficiente de determinação R². Fonte: CEPED/UFSC (2022). Na figura, é possível enxergar a dispersão dos dados em torno da média e em torno da reta de regressão, de forma que concluímos que o desvio de um ponto em torno da reta de regressão é chamado de desvio não explicado ou resíduo, porque ele não pode ser explicado apenas pelo x (Local), mesmo levando-se em conta a regressão. Já o desvio de um ponto situado na reta de regressão em relação à média é chamado de desvio explicado. Finalmente, o desvio de um ponto em torno da média é chamado de desvio total. 24Enap Fundação Escola Nacional de Administração Pública Conceituando o coeficiente de Determinação. Fonte: CEPED/UFSC (2022). Ele sempre terá valor que varia de 0 a 1 (0 ≤ R² ≤ 1), sendo próximo de 1 quando a dispersão em torno da reta de regressão for pequena em relação à variação total dos valores de Y em torno de sua média, significando que a variação explicada responde por grande porcentagem da variação total. No caso prático, calculando a relação entre a variação explicada (variação total – resíduo da regressão) e a variação total, tem-se: (39.171-1.582) / 39.171 = 0,9596, significando dizer que 96% da variação do preços dos imóveis da amostra em torno de sua média aritmética se devem à variação das áreas dos mesmos. O coeficiente de determinação pode ser aumentado com a introdução de mais variáveis independentes no modelo. O poder de explicação de um modelo de regressão pode ser aferido pelo seu coeficiente de determinação, conforme o item A.4 da NBR 14653-2 (ABNT, 2011). O coeficiente de correlação, também chamado de R ou r, mede a intensidade, direção e dispersão numérica em torno da equação linear ajustada através do método dos mínimos quadrados, de modo que expressa o grau de relação das variáveis na amostra, podendo variar entre -1 e 1. Quanto maior a correlação, maior o poder de explicação. É encontrada tirando a raiz quadrada do coeficiente de determinação. Enap Fundação Escola Nacional de Administração Pública 25 Exemplos de coeficiente de correlação R e tabela com sugestão de classificação. Fonte: CEPED/UFSC (2022). Adaptado de Brasil (2018). Para o caso estudado, calculando a relação entre a variação explicada (variação total – resíduo da regressão) e a variação total, tem-se: (39.171-1.582) / 39.171 = 0,96, o que significa dizer que o poder de explicação do modelo foi de 96%. Para ter ideia da eficiência da equação, deve-se extrair a raiz quadrada do coeficiente de determinação. Portanto: R = Raiz (R²) = Raiz (0,96) = 0,9796, ou seja, uma relação negativa muito forte de causa e efeito da variável preço e área no modelo. Para um engenheiro de avaliação de imóveis, concluir por uma equação de regressão linear com alto poder de explicação e verificar a correlação das variáveis coerentes com o mercado analisado já seria suficiente para boa fundamentação de seu trabalho avaliatório? Não. Os coeficientes de determinação e correlação indicam apenas que parte da variação foi explicada e que as variáveis apresentam relação de causa e efeito. Outros testes devem ser feitos para maior consistência do modelo de regressão. 26Enap Fundação Escola Nacional de Administração Pública 2.5 Distribuição Normal Para entender o que é distribuição normal, é necessário entender o que é um “evento aleatório”. O evento aleatório é um evento cuja ocorrência individual não obedece a regras ou padrões que permitam fazer previsões acertadas, por exemplo, qual face de um dado lançado cairá para cima. A estatística mostra que,apesar de a ocorrência individual destes eventos aleatórios serem objetivamente imprevisíveis, é possível tirar algumas conclusões a partir de um conjunto suficientemente grande deles. Muitos dos conjuntos de eventos aleatórios apresentam padrões que não são identificáveis em cada evento isoladamente, como a tendência de os eventos se concentrarem próximos a uma posição que representa uma média matemática deles. Assim, a quantidade de eventos diminui constante e gradativamente à medida em que se afasta da média. Eventos aleatórios que seguem este padrão enquadram-se na chamada "distribuição normal", representada pela curva também conhecida como Curva de Gauss ou Curva do Sino (Bell Curve), conforme a imagem a seguir: Curva de distribuição normal. Fonte: CEPED/UFSC (2022). Adaptado de Vieira (2017). A distribuição normal, conhecida também como distribuição gaussiana, é sem dúvida a mais importante distribuição contínua. Sua importância se deve a vários fatores, como o fato de que um grande número de fenômenos naturais apresenta sua distribuição de probabilidade tão proximamente normal e também devido ao teorema central do limite, que é um resultado fundamental em aplicações práticas Enap Fundação Escola Nacional de Administração Pública 27 e teóricas, pois garante que, mesmo que os dados não sejam distribuídos segundo uma normal, a média dos dados converge para uma distribuição normal conforme o número de dados aumenta. Além disso, diversos estudos práticos têm como resultado uma distribuição normal. Quanto mais afastado do centro da curva normal, mais área compreendida abaixo da curva haverá. A um desvio padrão, tem-se 68,26% das observações contidas. A dois desvios padrões, 95,44% dos dados são compreendidos. Finalmente, a três desvios, 99,73%. Pode-se concluir que, quanto maior a variabilidade dos dados em relação à média, maior a probabilidade de encontrarmos o valor buscado embaixo da normal. Gráfico do comportamento da Distribuição Normal. Fonte: Santos (2020). • Algumas propriedades da Curva Normal: - tem forma de sino e é simétrica em torno da origem e da média, que é = 0; - a área total sobre a curva é de 100%; - tende a zero quando x tende para + infinito ou – infinito. A distribuição normal é a mais familiar das distribuições de probabilidade e também uma das mais importantes em estatística. Observe no exemplo a seguir: Exemplo - O peso de recém-nascidos é uma variável aleatória contínua. As figuras a seguir mostram a distribuição de frequências relativas de 100 e 5.000 pesos de recém-nascidos com intervalos de classe de 500g e 125g, respectivamente. 28Enap Fundação Escola Nacional de Administração Pública Histograma de frequências relativas a 100 pesos de recém-nascidos com intervalo de classe de 500g (A) e Histograma de frequências relativas a 5000 pesos de recém-nascidos com intervalo de classe de 125g (B). Fonte: CEPED/UFSC (2022). Adaptado de Laboratório de Estatística e Geoinformação (LEG) [20--] O segundo histograma é um refinamento do primeiro, obtido ao aumentar o tamanho da amostra e reduzir a amplitude dos intervalos de classe. As distribuições das figuras sugerem a curva mostrada na imagem a seguir, que é conhecida como curva normal ou Gaussiana. A variável aleatória (peso) considerada neste exemplo e muitas outras variáveis de outras áreas das ciências, como na avaliação de imóveis, podem ser descritas pelo modelo normal ou Gaussiano. Função de densidade de probabilidade para a variável aleatória contínua X=peso do recém-nascido (g). Fonte: CEPED/UFSC (2022). Adaptado de Laboratório de Estatística e Geoinformação (LEG) [20--] Figura A Figura B Enap Fundação Escola Nacional de Administração Pública 29 A equação da curva normal é especificada usando dois parâmetros: a média µ e o desvio padrão σ. Denota-se N (µ, σ) à curva normal com média µ e desvio padrão σ. A média refere-se ao centro da distribuição e o desvio padrão ao espalhamento (ou achatamento) da curva. A distribuição normal é simétrica em torno da média, o que implica que a média, a mediana e a moda são todas coincidentes. Para referência, a equação da curva é: 2.6 Pressupostos Básicos para a Validação dos Modelos Quando um modelo de regressão é escolhido em uma pesquisa, deve-se verificar se ele é adequado para os propósitos a que se destina. Uma ou mais características do modelo podem não se ajustar aos dados da amostra. Então, é importante investigar a aptidão do modelo, antes de qualquer análise mais aprofundada dos resultados. O exame inicial é realizado quanto ao ajustamento do modelo, por meio dos testes de variância e de inferência estatística. O modelo numérico gerado na análise não pode ser generalizado e aceito em qualquer situação e, para que possa ser empregado na estimação de valores, deve obedecer a algumas exigências, chamadas de pressupostos, hipóteses ou condições básicas. Todos os pressupostos devem ser atendidos. Entretanto, os testes estatísticos geralmente não indicam respostas do tipo "sim/não" (determinístico), mas do tipo "melhor/pior" (probabilístico), e a análise da gravidade da situação cabe ao avaliador. Neste sentido, há prioridades na análise. A normalidade dos resíduos e a existência de outliers são razoavelmente fáceis de serem examinadas e estão ligadas a outros problemas. Por esse motivo, devem ser verificadas inicialmente. . 30Enap Fundação Escola Nacional de Administração Pública Outro teste a examinarmos de imediato é o poder de explicação do modelo, que é a verificação do grau de ajuste da estimativa, uma forma de avaliar a qualidade do ajuste do modelo, realizado através dos coeficientes de correlação e de determinação. A análise da correlação dá um indicador que resume o grau de relacionamento entre variáveis, a análise da regressão tem como resultado uma equação matemática que descreve o relacionamento. Surgindo problemas, o modelo deve ser descartado, sem que se perca tempo com os outros testes. Os pressupostos básicos a serem observados para a validação dos modelos de Regressão Linear estão preconizados no Anexo A da NBR 14653-2 (2011, p. 34): • Aderência • Linearidade • Normalidade • Homocedasticidade • Não Auto-correlação • Não-Multicolinearidade • Micronumerosidade Entenda o papel cada um desses pressupostos a seguir. Aderência A aderência pode ser vista por meio do gráfico com os valores estimados pelo modelo em função dos valores da variável dependente de cada amostragem. Quanto mais os pontos se aproximam da reta de referência (bissetriz), conforme a figura a seguir, melhor foi o ajuste do modelo (equação da regressão escolhida pelo usuário, que dá a variável dependente em função das independentes) aos dados (NASSER JÚNIOR, 2011). Valor observado x Valor estimado. Fonte: Hochheim (2010). Enap Fundação Escola Nacional de Administração Pública 31 Linearidade A análise de regressão baseia-se no "modelo linear clássico". Essa condição poderá ser verificada através do comportamento gráfico da variável dependente em relação a cada variável independente. Espera-se que não haja forma definida para os pontos. Se forem detectadas tendências, deve-se linearizar a relação usando transformações nas variáveis, pois a análise de uma reta é mais simples que a análise de uma curva. Linearizar é o procedimento para tornar uma curva em uma reta. É encontrar uma relação entre duas variáveis que satisfaça a equação da reta, ou seja, determinar os coeficientes angular e linear da reta “y = a + bx”. As transformações utilizadas para linearizar o modelo devem, tanto quanto possível, refletir o comportamento do mercado, com preferência pelas transformações mais simples de variáveis, que resultem em modelo satisfatório. Após as transformações realizadas, se houver, examina-se a linearidade do modelo pela construção de gráficos dos valores observados para a variável dependente versus cada variável independente, com as respectivas transformações. Normalidade A análisede regressão baseia-se na hipótese de que os erros seguem uma distribuição normal (distribuição de Gauss). A condição de normalidade dos resíduos não é necessária para a obtenção dos estimadores de mínimos quadrados, mas é fundamental para a definição de intervalos de confiança e testes de significância. Ou seja, em falta de normalidade, os estimadores são não-tendenciosos, mas os testes não têm validade, principalmente em amostras pequenas. Entretanto, pequenas fugas da normalidade não causam grandes problemas. A não-normalidade dos resíduos pode ser causada por violações de outras condições básicas, tais como a heterocedasticidade ou a escolha de um modelo incorreto para a equação. A verificação da normalidade pode ser realizada, entre outras formas: • Exame do histograma; • Análise gráfica de resíduos padronizados versus valores ajustados; • Comparação da frequência relativa dos resíduos (68%, 90% e 95%); • Pelos testes de aderência não paramétricos, como o qui-quadrado, o de Kolmogorov-Smirniv ajustado por Stephens e o de Jarque-Bera. 32Enap Fundação Escola Nacional de Administração Pública As análises mais simples de serem feitas para observar a normalidade dos resíduos são a do comportamento do histograma e a observância da distribuição da frequência relativa dos resíduos amostrais padronizados, exemplificados nas figuras a seguir: Histograma - Frequência relativa dos resíduos. Fonte: Brasil (2018, p. 46) Curva Normal. Fonte: Brasil (2018, p. 110) Homocedasticidade Homocedasticidade é a variância constante dos resíduos. Essa é uma propriedade fundamental que deve ser garantida, sob pena de invalidar toda a análise estatística. Deseja-se que os erros sejam aleatórios, ou seja, não devem ser relacionados com as características dos imóveis. Se isto não ocorre, há heterocedasticidade, o que significa dizer que há tendências nos erros. A heterocedasticidade pode ser verificada através da análise gráfica dos resíduos versus valores ajustados ou pelos testes de Park e de White. Histograma - Frequência relativa dos resíduos Curva Normal Gráfico bom (nuvem de pontos) – Homocedástico Gráfico ruim (tendência crescente) – Heterocedástico Gráfico bom (nuvem de pontos) – Homocedástico. Fonte: Brasil (2018, p. 47) Gráfico ruim (tendência crescente) – Heterocedástico. Fonte: Brasil (2018, p. 47) Enap Fundação Escola Nacional de Administração Pública 33 Não autocorrelação Existe autocorrelação quando os erros são correlacionados com os valores anteriores ou posteriores na série. Se a hipótese de independência dos erros for violada, os pacotes estatísticos irão errar no cálculo do desvio padrão dos coeficientes e errar nos valores dos testes de hipótese. Este é o problema da autocorrelação. Pode-se detectar a autocorrelação por meio de gráficos dos resíduos contra os valores da variável dependente ou pelo teste não-gráfico de Durbin-Watson. Esse teste é utilizado quando se trabalha com séries temporais (elementos coletados ao longo de um determinado tempo, meses ou anos). Lembre-se que os dados devem que estar ordenados de forma crescente ou decrescente. Se os dados estiverem aleatoriamente dispostos, o resultado (positivo ou negativo) não pode ser considerado (NASSER JÚNIOR, 2011). Não multicolinearidade Uma forte dependência linear entre duas ou mais variáveis independentes provoca degenerações no modelo e limita a sua utilização. Isso não gera estimativas viesadas ou alterações, mas “infla” os desvios padrões de cada coeficiente. Esse é o problema da multicolinearidade. O que ocorre é que há duas variáveis explicativas com o mesmo conteúdo informacional (variabilidade similar, altamente correlacionada). Com isso, o método de mínimos quadrados não consegue distinguir entre os efeitos diretos e indiretos das variáveis. Entre as variáveis que podem ser altamente correlacionadas, pode-se citar o tamanho da testada com área e o índice fiscal com distância ao centro. O mais razoável é pensar no problema e identificar qual variável (dentre aquelas que têm, na prática, a mesma informação) é a mais importante e/ou a mais representativa, retirando do modelo a variável menos importante. Uma medida corretiva para o caso de haver multicolinearidade é aumentar o tamanho da amostra. Uma forma de verificação da multicolinearidade é pela matriz de correlações, que espelha as dependências lineares de primeira ordem entre as variáveis independentes, com especial atenção especial para resultados superiores a 0,80. 34Enap Fundação Escola Nacional de Administração Pública Imagem do software SISdea: Matriz de colinearidade (exceto a última linha e última coluna) é recomendável que os valores não sejam superiores a 0,80. Fonte: CEPED/UFSC (2022) Micronumerosidade Micronumerosidade ocorre quando se utiliza uma quantidade reduzida de dados amostrais com uma determinada característica. A NBR 14653-2, em seu Anexo A, item A.2, letra a) (ABNT, 2011, p. 34), descreve que, para evitar a micronumerosidade, ao serem utilizadas variáveis dicotômicas ou qualitativas expressas por códigos alocados ou ajustados, o número mínimo de dados efetivamente utilizados (n) no modelo deve obedecer aos seguintes critérios, com respeito ao número de variáveis independentes (k): n ≥ 3(k+1) para n ≤ 30, nj ≥ 3 para 30 < n ≤ 100, nj ≥ 10% n para n > 100, nj ≥ 10 onde: nj é o número de dados de mesma característica. A observação da multicolinearidade deve ocorrer entre as variáveis independentes. A correlação entre uma variável independente e uma dependente poderá ser elevada (acima de 0,80), conforme a figura: Enap Fundação Escola Nacional de Administração Pública 35 Além dos pressupostos elencados, há mais dois parâmetros a serem observados para a definição do modelo a ser adotado: • Outliers; e • Significâncias. Outliers Em virtude da forma de estimação da equação, geralmente por mínimos quadrados, os mesmos acarretam um erro grande, modificando significativamente os somatórios e alterando os coeficientes da equação. Assim, apenas um elemento pode modificar a equação. Não existem limites fixos, mas, geralmente, adota-se o intervalo de dois desvios- padrão em torno da média dos erros. Como a média precisa ser zero, os resíduos padronizados devem estar no intervalo [-2; +2]. A existência desses pontos atípicos pode ser verificada pelo gráfico dos resíduos (Gráfico A) versus cada variável independente (Gráfico B), como também em relação aos valores ajustados, ou ainda usando técnicas estatísticas mais avançadas, como a estatística de Cook (Gráfico Distância de Cook) para detectar pontos influenciantes. Gráfico de resíduos (A) sem outliers e (B) com outliers (3, conforme destaque). Fonte: Brasil (2011, p. 49) Distância de Cook (SisDea): os outliers identificados ficaram abaixo de 1,00. Fonte: Brasil (2011, p. 118) 36Enap Fundação Escola Nacional de Administração Pública Se forem encontrados outliers, não se recomenda a exclusão automática, mesmo que a amostra seja grande. Deve ser feita a análise da adequação dos elementos suspeitos ao conjunto da amostra e de sua semelhança com o avaliando. Se os outliers forem muito distintos do avaliando (tamanho, idade, localização, tipo), devem ser removidos. Contudo, se os outliers são mais parecidos com o avaliando do que o restante da amostra, a coleta de dados foi mal conduzida, e deve-se analisar melhor as informações desses elementos ou voltar ao mercado para a busca de um conjunto de dados melhor. Significâncias A vantagem da inferência estatística sobre os outros processos de avaliação é a possibilidade de aferição do grau de precisão e de estabelecer se os resultados obtidos têm significância estatística de acordo com limites pré-estabelecidos. - Nível de significância O nível de significância é o limite que se toma como base para afirmar que um certo desvio é decorrente do acaso ou não. São aceitos como estatisticamente significativos os níveis P = 0,05 e P = 0,01,ou seja, 5% e 1%, respectivamente. Se, por exemplo, utilizarmos o nível de significância de 5%, a hipótese nula (Ho) será rejeitada somente se o resultado da amostra for tão diferente do valor suposto que uma diferença igual ou maior ocorreria com uma probabilidade máxima de 0,05. A partir de um nível de significância convencionado (alfa – α), os desvios são devidos à lei do acaso e o resultado é considerado não significativo. O nível de significância deve ser estabelecido antes de o experimento ser realizado e corresponde ao risco que se corre de rejeitar uma hipótese verdadeira ou aceitar uma hipótese falsa. Enap Fundação Escola Nacional de Administração Pública 37 Testes de Significância As primeiras verificações sobre uma equação de regressão são os testes estatísticos. Basicamente, consistem em testes de hipóteses sobre a validade do modelo em si e sobre a importância isolada de cada uma das variáveis. A. Teste de hipótese unicaudal para a relação entre a variável dependente e as independentes (Teste de significância do modelo ou Teste F) Para se testar a significância global de todos os parâmetros que participam de um modelo de regressão de “n” preços observados sobre “k” variáveis independentes, utiliza-se o teste F, que tem distribuição F de Snedecor, que leva em conta a razão entre a variância explicada pela variância não explicada do modelo. Essa relação tem distribuição F, com k e (n–k–1) graus de liberdade, sendo k o número de regressores e n o tamanho da amostra. Então, compara-se o parâmetro estatístico calculado Fcalc (obtido pelo software) com o tabelado F(k,n–k–1). Sendo Fcalc>Ftab, rejeita- se a hipótese nula de não existência de relação linear, de acordo com as indicações de 1% de significância da norma de avaliações, ou seja, aprova-se (aceita-se) a equação de regressão. Conforme a Associação Brasileira de Normas Técnicas (ABNT), no caso de utilização de modelos de regressão linear, em relação a este teste, são exigidos os seguintes níveis de significância máximos: 1% para Grau III; 2% para Grau II e 5% para o Grau I. A utilização da Tabela de F de Snedecor (mostrada a seguir) será exemplificada em exercício ao final deste curso. 38Enap Fundação Escola Nacional de Administração Pública Limites unilaterais da distribuição F de Fisher-Snedecor ao nível de 1,0% de probabilidade. Fonte: Brasil (2011, p. 124) B. Teste de hipótese bicaudal para os parâmetros da Regressão (teste t de Student) Enap Fundação Escola Nacional de Administração Pública 39 "O objetivo desse teste individual de um parâmetro qualquer bj é verificar se a variável correspondente xj é ou não importante na composição do modelo." Ragnar Thofehrn (2010) Para determinar a importância de um coeficiente individual no modelo de regressão, usa-se um teste baseado na estatística t de Student. O parâmetro estatístico calculado, tcalc, deve ser maior que o tabelado, t(n–k–1), em que k é o número de regressores e n é o tamanho da amostra. Se tcalc>ttab, rejeita-se a hipótese nula de não significância do parâmetro, com os níveis de significância indicados em cada regressão apresentada em geral superando os níveis indicados pela NBR 14653. Para isso, formula-se um teste de hipótese. Muitas vezes, as hipóteses são formuladas com o único intuito de rejeitá-las. Para decidir se a regressão linear é adequada, formula-se a hipótese de que os regressores são iguais a 0, ou seja, o que o avaliador não quer que ocorra. Essa hipótese é chamada de “hipótese nula” (H0), que tem como objetivo ser rejeitada. Exemplo: a figura abaixo mostra o resultado do T calculado e sua significância. Nesse caso, tem-se uma amostra com 19 dados e dois regressores (para as variáveis independentes). Portanto, o t tabelado para o modelo da figura a seguir é: t(n–k–1) = 19 – 2 – 1 = 16 Consultando a tabela 2, o t tabelado, para a significância de 10% (5% em cada calda) é de 1,746. Para a variável Área (m²), o t calculado foi de 15,05. Portanto, t calculado > t tabelado, logo, H0 é rejeitada. Ou seja, o regressor não é nulo. A significância para a essa variável é de 0,01%, que quer dizer que a probabilidade do t tabelado ser maior que o t calculado é de 0,01%: Prob (t tabelado >|t calculado|). 40Enap Fundação Escola Nacional de Administração Pública Janela do software SisDea – valores de t calculado em destaque. Fonte: Brasil (2011, p. 121) Conforme a Associação Brasileira de Normas Técnicas (ABNT), no caso de utilização de modelos de regressão linear em relação a este teste, são exigidos os seguintes níveis de significância máximos: 10% para Grau III; 20% para Grau II; e 30% para Grau I. T de Student. . Fonte: Brasil (2011, p. 122) Enap Fundação Escola Nacional de Administração Pública 41 Tabela de t de Student – a ser comparado com o t calculado. Fonte: Brasil (2011, p. 122) 2.7 Estimativas Intervalares Existem dois tipos de estimativas que podem ser obtidas a partir de uma amostra aleatória: • Estimativa Pontual, em que se tem como resultado um único valor numérico para o parâmetro de interesse; • Estimativa Intervalar, em que é definido um intervalo de valores utilizados para estimar o parâmetro de interesse. 42Enap Fundação Escola Nacional de Administração Pública “Consideremos uma população com uma média µ, desconhecida, e uma amostra dessa população com a média x- , conhecida; embora, geralmente, a média x- esteja muito próxima de µ, quase que certamente estará um pouco acima ou um pouco abaixo de µ. Daí decorre que se desejarmos ter uma dose razoável de confiança na correção de nossa inferência, não poderemos afirmar que µ seja precisamente igual a x- e deveremos estabelecer um intervalo de confiança expresso por: µ = x- ± um erro de amostragem. O importante aqui é saber qual deve ser a amplitude da tolerância para esse erro amostral e a resposta obviamente depende de quanto x- flutuar um relação a µ, de forma que esse intervalo de confiança efetivamente englobe µ” (MOREIRA, 2001, p. 195-196). A Associação Brasileira de Normas Técnicas (ABNT) define o intervalo de confiança como o intervalo de valores dentro do qual está contido o parâmetro populacional com determinada confiança. A ABNT também considera a amplitude do intervalo de confiança de 80% em torno do valor central da estimativa para medir a precisão das estimativas, de acordo com o seguinte critério: Grau III, se a amplitude for menor ou igual a 30%; Grau II, se a amplitude estiver entre 30% e 40%; e Grau I, se a amplitude estiver entre 40% e 50%. 2.7.1 Hipóteses Estatísticas Hipótese, em estatística, é uma suposição formulada a respeito dos parâmetros de uma distribuição de probabilidade de uma ou mais populações. Ao ser feita determinada suposição sobre uma população, mais especificamente sobre um parâmetro dessa população, é natural desejar saber se os resultados experimentais provenientes de uma amostra contrariam ou não tal afirmação. Para isso, é feito o teste de hipóteses. A hipótese será testada com base em resultados amostrais, sendo aceita ou rejeitada. Ela somente será rejeitada se o resultado da amostra for claramente improvável de ocorrer quando a hipótese for verdadeira. Enap Fundação Escola Nacional de Administração Pública 43 Existem duas suposições acerca dos parâmetros de uma população (suposições verdadeiras ou não), que são: • Hipótese nula ou básica: é a hipótese a ser validada por um teste (H⁰); • Hipótese alternativa: qualquer hipótese contrária à hipótese nula (H¹). Por meio de um procedimento ou regra de decisão, o teste de hipóteses estatísticas é o que nos possibilita decidir pela aceitação ou rejeição de H⁰, com base na informação contida na amostra. 2.7.2 Intervalo de Confiança (IC) O Intervalo de Confiança (IC) é um intervalo estimado de um parâmetro de interesse de uma população. Em vez de estimar o parâmetro por um único valor, é dado um intervalo de estimativas prováveis. Quão prováveissão estas estimativas é determinado pelo coeficiente de confiança (1 – α), para α ϵ (0, 1). Os ICs são usados para indicar a confiabilidade de uma estimativa, por exemplo, para descrever o quanto os resultados de uma pesquisa são confiáveis. Sendo todas as estimativas iguais, uma pesquisa que resulte em um IC pequeno é mais confiável do que uma que resulte em um IC maior. 2.7.3 Distribuição F de Snedecor A distribuição F de Snedecor, também conhecida como distribuição de Fisher, é frequentemente utilizada na inferência estatística para análise da variância, especialmente para comparação das médias amostrais. No caso específico de avaliações de imóveis, a distribuição F é usada para realizar testes de hipóteses da equação de regressão como um todo. A distribuição F testa a hipótese de que nenhum dos coeficientes de regressão tenha significado contra a hipótese de que pelo menos um tenha significado, ou seja, formulando as seguintes hipóteses nula e alternativa: • H⁰ = nenhum dos coeficientes da regressão tenha significado; • H¹ = pelo menos um tenha significado. O valor da estatística deve ser comparado com uma tabela de valores de F, no caso da tabela de distribuição F de Fisher-Snedecor, que indica o valor máximo da estatística no caso de H⁰ ser verdadeira, a um determinado nível de significância. 44Enap Fundação Escola Nacional de Administração Pública Compara-se o número resultante com um valor F da tabela: se o valor é maior que o valor tabulado, rejeita-se a hipótese nula; se o valor calculado é menor, a hipótese nula não pode ser rejeitada. Até o momento, você aprendeu sobre a importância da utilização da metodologia científica aplicada à avaliação de imóveis e as principais etapas principais de sua utilização. Não se esqueça de que os assuntos e tópicos abordados neste curso não têm a pretensão de esgotar todo conteúdo sobre o tema, mas provê-lo dos conhecimentos mínimos necessários para entender as etapas de elaboração de um laudo de avaliação. Continue sempre aprendendo, seja insistente e curioso, afinal, quem sabe quanto vale, sabe mais. Que bom que você chegou até aqui! Agora é hora de você testar seus conhecimentos. Então, acesse o exercício avaliativo que está disponível no ambiente virtual. Boa sorte! Enap Fundação Escola Nacional de Administração Pública 45 ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS (ABNT). NBR 14653-2: Avaliação de Bens Parte 2 - Imóveis urbanos. Rio de Janeiro, 2011. BRASIL. Ministério do Planejamento, Desenvolvimento e Gestão - Secretaria do Patrimônio da União. Manual de avaliação de imóveis do patrimônio da União. Brasília, 2018. DANTAS Rubens Alves. Engenharia de Avaliações – Uma introdução à metodologia científica, 2011, São Paulo, Editora PINI. GOLBERGER, Arthur S. Econometric Theory. New York: John Wiley and Sons. 1964. GUJARATI, Damodar; PORTER, Dawn C. Econometria Básica, 2006, São Paulo: Editora Campus., 2006. HOCHHEIM, Norberto. Engenharia de Avaliações. Florianópolis, 2010. (Apostila). LABORATÓRIO DE ESTATÍSTICA E GEOINFORMAÇÃO (LEG) (Curitiba). A distribuição Normal. [20--]. Disponível em: http://www.leg.ufpr.br/~silvia/CE008/node44.html. Acesso em: 07 jan. 2022. MOREIRA, Alberto Lélio. Princípios de engenharia de avaliações. 3ª ed. São Paulo: Pini, 2001. MAYER, Fernando de Pol. Introdução à Estatística e conceitos de amostragem. Laboratório de Estatística e Geoinformação. UFPR, 2016. NASSER JÚNIOR, Radegaz. Avaliação de Bens Princípios Básicos e Aplicações. Guarulhos: Editora Leud, 2011. PELLI NETO, Antônio. Apostila do Curso de Avaliações de Empreendimentos Imobiliários, de Base Imobiliária e Industrial. Belo Horizonte, 2014. SANTOS, João Victor Ribeiro. O que é Estatística Descritiva? 2020. Disponível em: https://sif.org.br/2020/05/como-apresentar-os-seus-resultados-use-a-estatistica- descritiva/. Acesso em: 07 jan. 2022. TINTNER, Gerhard. Methodology of Mathematicial Economics and Econometrics. Chicago: University of Chicago Press. 1968. Referências http://www.leg.ufpr.br/~silvia/CE008/node44.html https://sif.org.br/2020/05/como-apresentar-os-seus-resultados-use-a-estatistica-descritiva/ https://sif.org.br/2020/05/como-apresentar-os-seus-resultados-use-a-estatistica-descritiva/ 46Enap Fundação Escola Nacional de Administração Pública THOFEHRN, Ragnar. Avaliação em massa de imóveis urbanos: para cálculo de IPTU e ITBI. São Paulo: Pini, 2010. VIEIRA, Sonia. Meus dados são normais? 2017. Disponível em: http://soniavieira. blogspot.com/2017/01/meus-dados-sao-normais.html. Acesso em: 07 jan. 2022. http://soniavieira.blogspot.com/2017/01/meus-dados-sao-normais.html http://soniavieira.blogspot.com/2017/01/meus-dados-sao-normais.html Referências Unidade 2: Econometria 2.5 Distribuição Normal 2.6 Pressupostos Básicos para a Validação dos Modelos 2.7 Estimativas Intervalares 2.7.1 Hipóteses Estatísticas 2.7.2 Intervalo de Confiança (IC) 2.7.3 Distribuição F de Snedecor 2.4 Coeficientes de Determinação (R²) e Correlação (R) 2.3.1 Formas de Encontrar uma Reta de Regressão Linear e sua Equação 2.3 Método dos Mínimos Quadrados 2.2 Regressão Linear 2.1 Considerações Iniciais Referências Unidade 1: Noções de estatística 1.3.2 Desvios nas Amostras 1.3.1 Calculando Amostras 1.2 Medidas Estatísticas 1.1 Considerações Iniciais 1.3 Aplicando Conceitos
Compartilhar