Baixe o app para aproveitar ainda mais
Prévia do material em texto
9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo7… 1/27 Introdução Autoria: José Tadeu de Almeida – Revisão técnica: Jorge Lisandro Maia Ussan Econometria UNIDADE 3 - ESTIMAÇÃO DE PARÂMETROS E ANÁLISE DE VARIÂNCIA 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo7… 2/27 Prezado(a) estudante, a econometria utiliza conceitos de inferência estatística para desenvolver métodos de estimação. Desse modo, ao criar um modelo econométrico, é preciso avaliar se ele é realmente eficaz em explicar se um conjunto de variáveis tem relação entre si, e se a variação de uma série de dados pode ser explicada pela variação de outra série. Fica evidente, portanto, a importância do uso de conjuntos amostrais para obter as informações necessárias para esse processo de estimação. No entanto, há diferentes conceitos e terminologias que precisam ser suficientemente compreendidos para que você possa desenvolver um modelo econométrico que seja consistente. Considerando essas terminologias, ao longo desta unidade, responderemos a uma série de perguntas, por exemplo: como podemos entender um conjunto amostral que tenha uma boa precisão? Em que consiste uma amostra viesada? E em que estamos nos baseando quando dizemos que um conjunto de dados tem uma boa acurácia? Como você poderá observar, esses conceitos são mais do que simples expressões: na verdade, cada conceito remete a uma característica ou perfil de um conjunto de dados amostrais. Tais características, por sua vez, quando observadas em conjunto, permitem entender se as variáveis estão suficientemente relacionadas a ponto de gerar uma análise de variância e um modelo estatisticamente significativo. Bons estudos! 3.1 Fundamentos da estimação O elemento analítico principal da inferência estatística é a construção de análises, deduções e generalizações a respeito de um grupo populacional, utilizando conjuntos amostrais colhidos por meio de procedimentos aleatórios. Com isso, pode-se comparar e deduzir características que envolvem, como um todo, o grupo populacional (WOOLDRIDGE, 2017). Há dois procedimentos que devem ser observados para a elaboração das inferências: o primeiro deles é a avaliação de um estimador para verificar as suas condições representativas de uma população. O segundo procedimento diz respeito à construção de métodos de estimação de parâmetros, que avaliam a probabilidade de um estimador “representar” adequadamente um parâmetro populacional. Nesta unidade, avaliaremos esses procedimentos. No entanto, antes disso, iniciaremos nossas reflexões com uma abordagem sintética sobre as principais propriedades de um estimador. Acompanhe na sequência! 3.1.1 Estimação: conceitos principais 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo7… 3/27 Os parâmetros são indicadores que dizem respeito — isto é, avaliam — características relacionadas a todo o grupo populacional, ao passo que as estatísticas — ou estimadores — são criadas em função de grupos amostrais e de séries de dados extraídos como subconjuntos de uma população. Uma estatística é utilizada, portanto, para estimar um parâmetro relativo a uma população, cuja característica é objeto de interesse do pesquisador. Diante disso, os métodos de estimação se prestam a criar estimadores e estatísticas eficazes para transmitir uma informação populacional de modo eficiente. Quando há mais de um estimador para um mesmo parâmetro, é necessário estabelecer alguns critérios comparativos em relação aos estimadores, observando as suas propriedades específicas (BUSSAB; MORETTIN, 2017). Dessa forma, os estimadores podem ser viesados ou não viesados; muito acurados, ou pouco acurados; e ter precisão progressiva (baixa, regular, alta), de acordo com a distribuição amostral e as suas tendências gerais. Como exemplo dessas propriedades do estimador, pode-se recorrer a um caso objetivo relacionado ao jogo de bocha. Esse jogo consiste em uma prática na qual os jogadores devem lançar suas bochas (bolas de material rígido) o mais próximo possível de uma bocha menor, denominada bolim, podendo ainda afastar, com os lançamentos, as bochas dos adversários. Diz respeito à distância entre cada elemento e o valor-alvo que se espera alcançar, isto é, o valor esperado para uma dada estatística. Destaca a distância entre cada elemento observado e o valor médio relacionado a todas as observações/elementos. É a distorção de uma variável, isto é, uma discrepância em relação ao valor esperado, conduzindo à formação de uma série de dados tendenciosos em torno de um valor médio que não corresponde à realidade. Acurácia Precisão Viés 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo7… 4/27 #PraCegoVer: na fotografia, há quatro jogadores em uma área gramada lançando bolas de tamanho médio, com aproximadamente dez centímetros de diâmetro, ao redor de uma bola menor, com cinco centímetros, denominada bolim. As bolas estão em primeiro plano, ao passo que os jogadores aparecem ao fundo, desfocados. Suponhamos que, em um desses jogos, foram apurados os resultados relacionados a cada um dos jogadores em um determinado período de tempo, gerando as séries apresentadas na figura a seguir. Cada série — A, B, C e D — é representativa de um jogador. Figura 1 - Representação de um jogo de bocha Fonte: PlainJane33, Shutterstock, 2021. Figura 2 - Resultados obtidos em séries de lançamentos Fonte: Elaborada pelo autor, baseada em BUSSAB; MORETTIN, 2017. 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo7… 5/27 #PraCegoVer: a imagem apresenta os resultados dos lançamentos de quatro jogadores de bocha, denominados A, B, C e D. Cada um dos resultados é formado por diversas marcações da posição das bolas ao redor de um ponto central. Alguns conjuntos estão mais dispersos, enquanto outros estão mais concentrados. Observe que o jogador A efetuou lançamentos bem uniformes em relação ao ponto médio onde se localiza o bolim; portanto, a amostra desse jogador é não viesada. No entanto, esse jogador também não tem acurácia, visto que os lançamentos estão distantes do alvo, e não tem precisão, uma vez que os elementos estão dispersos em relação ao seu próprio ponto médio. Assim, tal amostra pode ser definida como não viesada, pouco acurada e com baixa precisão. O jogador B, por sua vez, tem uma amostra de lançamentos que é viesada, visto que é concentrada à esquerda do bolim; pouco acurada em relação ao bolim; e com precisão baixa em relação à média desses lançamentos, havendo uma dispersão importante. Já o jogador C reuniu uma amostra não viesada, muito acurada e com boa precisão, enquanto o jogador D, finalmente, gerou uma amostra viesada, pouco acurada, pois está distante do valor esperado/alvo, e com alta precisão, uma vez que os elementos estão bem concentrados entre si. O exemplo apresentado ajuda a pensar a respeito das características de um estimador: é importante que ele traduza a realidade da população com eficiência, com o mínimo de viés e com o máximo de acurácia e de precisão. Diante disso, os resultados do jogador C seriam os mais interessantes para ilustrar essa situação; logo, C é um estimador em relação a um resultado ideal (BUSSAB; MORETTIN, 2017). Agora que já conhecemos as características dos estimadores, na sequência, veremos quais são as suas propriedades. Contudo, como algumas dessas propriedades dependem de comprovação algébrica e de ferramentas de cálculo numérico que demandam requisitos que estão além dos conceitos apresentados nesta disciplina, enfocaremos as duas propriedadesprincipais. 3.1.2 Propriedades dos estimadores Para entender adequadamente as propriedades dos estimadores, é preciso considerar, primeiramente, a existência de um conjunto amostral X formado pelos indivíduos ( ), relativo a uma variável aleatória, que apresenta uma certa característica de interesse em uma população. A professora Ivette Luna Huamaní, do Instituto de Economia da Universidade de Campinas (Unicamp), explora os conceitos de precisão e acurácia no vídeo Propriedade dos estimadores. Para isso, são utilizados exemplos práticos que ajudam a compreender as características dos estimadores para um conjunto amostral. Acesse (https://www.youtube.com/watch? v=jBdpvxH8AbY) Você quer ver? https://www.youtube.com/watch?v=jBdpvxH8AbY 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo7… 6/27 Dessa população, pode ser extraído um parâmetro , o qual deverá ser estimado pelo pesquisador, por exemplo: a média dessa população, dada por , ou a sua variância, que é dada por . Observe, portanto, que E(X) e Var(X) são indicadores relativos ao parâmetro, isto é, são estimadores desse parâmetro. Dessa definição, pode-se extrair uma propriedade do estimador, a saber, se T e T’ são estimadores não viesados de um parâmetro , e a variância Var (T) é inferior a Var (T’), logo, T é mais eficiente do que o estimador T’ (BUSSAB; MORETTIN, 2017). Para entender essa propriedade, é necessário observar o conceito de acurácia, isto é, a distância entre o estimador e o parâmetro, conforme destacado anteriormente. Essa diferença pode ser formulada pela seguinte equação: . Nesse caso, a variável e pode ser compreendida como um erro amostral, que diz respeito à estimação do parâmetro a partir do estimador ( ), o qual é baseado no subconjunto amostral ( ). Considere que há dois estimadores de proporção, denominados R e R’, relativos a um certo parâmetro, que é dado por . Nesse caso, é sabido que e que . A dimensão das amostras desses dois estimadores é a mesma, com indivíduos. Deseja-se investigar as relações de eficiência que regem esses dois estimadores. Assim, tendo o valor esperado de ambos os indicadores, pode-se obter a sua variância: O estimador R’ gera a variância apresentada a seguir: Observando que a variância de R é inferior à variância de R’, o estimador R prova-se mais eficiente. Assim, supondo que o parâmetro foi arbitrado com um valor igual a 0,43, o erro amostral de R será igual a: Novamente, o sinal negativo aponta para uma subestimação do parâmetro populacional. Por sua vez, o erro amostral de R’ será igual a: Observe que uma superestimação do parâmetro populacional aponta para uma discrepância positiva do erro amostral, superior ao erro do estimador R. A partir dessa discrepância, pode-se extrair a seguinte propriedade, de acordo com Bussab e Morettin (2017): o erro quadrático médio (EQM) de um estimador T relativo ao parâmetro é dado por: Caso 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo7… 7/27 A partir dessa fórmula, tem-se que o EQM corresponde ao valor esperado do quadrado do erro amostral. Consequentemente, esse indicador corresponde à soma entre a variância do estimador e o quadrado de seu viés: em que: Retomando o exemplo dos estimadores R e R’, em que o parâmetro populacional é igual a 0,43, tem-se o seguinte: O erro quadrático médio de R’, por sua vez, é dado por: Na verdade, pode-se perceber que um estimador preciso pode apresentar uma variância pequena (uma distribuição bem ajustada ao redor de E(T), a média amostral). Porém, se o viés for grande, o EQM será proporcionalmente significativo (BUSSAB; MORETTIN, 2017). Para entender esse raciocínio, observe a figura a seguir. Caso 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo7… 8/27 #PraCegoVer: a imagem apresenta o resultado de um jogo em que a amostra está bem concentrada ao redor de uma pequena área, mas essa área está distante do ponto médio do exercício, demonstrando, assim, a criação de um viés alto na amostra. Verifique, pela figura, que essa distribuição amostral tem um EQM alto, ainda que apresente uma variância pequena, em função da dimensão do viés do estimador T, que é a distância entre E(T) e o parâmetro . Figura 3 - Representação do EQM em um conjunto amostral Fonte: Elaborada pelo autor, baseada em BUSSAB; MORETTIN, 2017. Teste seus conhecimentos (Atividade não pontuada) “A inferência estatística é uma das partes da Estatística. Esta é a parte da metodologia da Ciência que tem por objetivo a coleta, redução, análise e modelagem dos dados, a partir do que, finalmente, faz-se a inferência para uma população da qual os dados (a amostra) foram obtidos. Um aspecto importante da modelagem dos dados é fazer previsões, a partir das quais se podem tomar decisões”. BUSSAB, W. O.; MORETTIN, P. Estatística básica. 7. ed. São Paulo: Saraiva, 2017. p. 1. Sabendo que para fazer inferências é fundamental ter atenção aos estimadores, analise as afirmativas a seguir acerca dos estimadores. I. Se Q e Q’ são dois estimadores não viesados, Q’ será mais eficiente se a sua variância for inferior à variância de Q. II. O erro amostral corresponde ao quadrado da diferença entre a variância e o valor do parâmetro populacional. 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo7… 9/27 A criação de conjuntos amostrais com um maior grau de precisão e com uma redução do viés somente é viabilizada por meio de estimadores eficientes, que reduzam os erros amostrais tanto quanto possível. Os processos de criação desses estimadores serão descritos no próximo tópico. III. O erro quadrático médio (EQM) corresponde à soma entre a variância do estimador e o valor de seu viés elevado ao quadrado. IV. Um estimador populacional se encontra subestimado quando a discrepância do erro amostral é negativa. Está correto apenas o que se afirma em: a) I e II. b) II e IV. c) III e IV. d) I, II e III. e) I, III e IV. Verificar Você pode realizar uma experimentação prática a partir dos exemplos apresentados nesta seção: crie um jogo com um alvo e múltiplos lançamentos (dardos, boliche, bola de gude, jogo de taco, sinuca etc.), mesmo virtualmente, e avalie suas habilidades de criação de amostras baseadas em precisão, viés e acurácia. Vamos Praticar! 3.2 Métodos de estimação 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo… 10/27 A partir da discussão realizada a respeito dos processos de estimação e de suas principais características e propriedades, é importante observar os modos de criação de estimadores relacionados a grupos amostrais. Esses estimadores podem ser utilizados para realizar uma aproximação em relação a valores estimados de diferentes conjuntos de dados. Assim, por meio de instrumentos como o estimador de mínimos quadrados e o estimador de máxima verossimilhança, você poderá obter indicadores que minimizem os erros amostrais e que se constituam como fontes precisas de uma série estatística. Na sequência, descobriremos, então, em que consiste o método dos mínimos quadrados e, depois, nos aprofundaremos no estimador de máxima verossimilhança. 3.2.1 Método dos mínimos quadrados A estimação pelo método dos mínimos quadrados é um procedimento utilizado para obter estimadores precisos em relação a um parâmetro populacional. Esse método demanda o uso de ferramentas de cálculo, no entanto, vamos apresentá-lo de uma forma simplificada e objetiva. Para isso, suponha uma situação-problema na qual um pesquisador está avaliando uma característica Y de uma planta — a sua capacidade de forneceroxigênio ao ambiente, por exemplo — em função do diâmetro X do caule dessa planta. O pesquisador percebeu que essas variáveis guardam uma certa proporção entre si, de acordo com a seguinte relação, em que é o coeficiente de proporção (BUSSAB; MORETTIN, 2017): Desse modo, esse é o parâmetro a ser investigado, a partir de um conjunto amostral de cinco exemplares dessa planta, cujos resultados são descritos a seguir. Observe, nessa distribuição, que a média é igual a 3,6 e que a média é igual a 21,6. Logo, é possível perceber que há uma proporção de 6:1 entre os valores médios de Y e X, o que leva a compreender que o estimador relacionado a essa distribuição tem valor igual a 6, gerando um modelo . No entanto, é preciso testar, isto é, validar a hipótese de que o estimador seja preciso em relação ao parâmetro populacional (BUSSAB; MORETTIN, 2017). Nesse caso, ao assumir que , cria-se o modelo , pois os valores de Y serão gerados a partir do estimador. Se , logo, o modelo pode ser descrito por . Essa situação ocorrerá se o estimador for não viesado. Contudo, será que essa situação se aplicará aos dados encontrados pelo pesquisador, ou seja, esse modelo irá refletir a situação da amostra com fidelidade? X: 2,4; 3; 3,4; 4; 5,2. Y: 15,6; 18,8; 22,4; 23,2; 28. 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo… 11/27 Para obter essas respostas, será preciso analisar o modelo, os valores da amostra e os valores potenciais, isto é, os valores estimados. A partir deles, pode-se calcular a dispersão em relação ao modelo. Observe, então, o quadro a seguir. #PraCegoVer: o quadro destaca diferentes valores relacionados a um conjunto X de dados. Esses valores são oferecidos a partir de três equações, dadas por Y, 6X, Y - 6X e , cada uma disposta em uma linha. Verifique, nesse caso, que a soma dos valores relativos à equação é igual a zero. Essa soma de valores destaca a inadequação do modelo, isto é, a sua capacidade de explicar as variações do modelo a partir dos elementos amostrais. Se a soma é igual a zero, o modelo é adequado para a amostra apresentada, com dimensão . No entanto, deve-se observar também a precisão desse modelo por meio da equação , que mostra o erro quadrático total dessa amostra, eliminando as discrepâncias geradas pelos sinais (positivo/negativo). Efetivamente, quanto menor a dimensão da soma melhor será a estimativa gerada pelo estimador. Consequentemente, o pesquisador deve encontrar um valor relacionado ao estimador (valor esse que é chamado de estimativa) que minimize a soma dos quadrados . No exemplo apresentado, em que , essa soma será dada por: De acordo com o quadro anterior, o valor é igual a 16,96, ou seja, aparentemente há um viés significativo se a estimativa for adotada como um parâmetro. Deve-se, assim, procurar um outro valor que gere maior precisão na estimação do parâmetro. Esse valor poderá ser obtido por meio de um procedimento de cálculo que gerará um estimador de mínimos quadrados, o qual é expresso pela equação que se segue (BUSSAB; MORETTIN, 2017): Para o exemplo apresentado, tem-se que o estimador é dado por: Para encontrar esse estimador, observe o quadro a seguir. Quadro 1 - Análise de um modelo relativo a um estimador Fonte: Elaborado pelo autor, 2021. 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo… 12/27 #PraCegoVer: o quadro apresenta, na primeira e na segunda linhas, os valores de um conjunto de pares ordenados; o produto entre os valores desses pares X e Y, na segunda linha; e o valor dos dados de X elevados ao quadrado, na terceira linha. A partir desse quadro, tem-se o seguinte: Assim, o valor gera um valor mínimo para . Logo, a representação ideal do modelo apresentado pelo pesquisador seria expresso do seguinte modo: Nesse caso, o quadro apresentado anteriormente poderá ser reescrito conforme destacado na sequência. #PraCegoVer: quadro destacando os valores obtidos pelo estimador de mínimos quadrados igual a 5,89, demonstrando que os erros amostrais serão os menores possíveis para esse valor de estimador. Assim, para , o valor é igual a: Esse é o menor valor possível do erro quadrático total para o modelo apresentado, de modo que valores maiores ou menores para o indicador irão gerar erros totais com valor absoluto maior. Quadro 2 - Estimação por mínimos quadrados Fonte: Elaborado pelo autor, 2021. Quadro 3 - Análise de estimador de mínimos quadrados Fonte: Elaborado pelo autor, 2021. Você sabia? 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo… 13/27 Na verdade, para esse modelo específico, você pode perceber que o erro total ainda é grande em relação aos valores médios de X. Essa situação é relativamente comum se a amostra tem uma dimensão mais limitada, como no caso presente em que . Se a amostra tivesse um tamanho maior, provavelmente o indicador assumiria um valor diferente, mais próximo do parâmetro, de modo a minimizar ainda mais o erro total (BUSSAB; MORETTIN, 2017). Para entender a importância dessa relação entre a dimensão da amostra e o erro total dentro da estimação por mínimos quadrados, considere o quadro a seguir, que apresenta as informações referentes ao número de horas trabalhadas (H) de um grupo de motoristas de aplicativo e à quilometragem (K) percorrida por esse mesmo grupo. #PraCegoVer: o quadro apresenta um conjunto amostral contendo o número de horas de trabalho, na primeira, terceira, quinta e sétima colunas, e os quilômetros percorridos por um grupo de motoristas de aplicativo, na segunda, quarta, sexta e oitava colunas. No caso apresentado, a média de horas de trabalho é igual a 10,2, enquanto a média de quilometragem é igual a 278,4. Desse modo, a relação entre as médias de quilometragem e de horas de trabalho poderia gerar um estimador aproximadamente igual a: Será que se usássemos outros valores para o estimador, o erro quadrático não seria menor? Como curiosidade, verifiquemos o valor do erro quadrático com estimadores com valores diferentes: ao arbitrar , o valor de é igual a 16,76; e para , o valor de é igual a 16,81. Logo, observa-se que efetivamente minimiza o erro quadrático total. Quadro 4 - Rodagem e horas de trabalho em uma amostra Fonte: Elaborado pelo autor, 2021. 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo… 14/27 Assim, a partir desse estimador, pode-se deduzir que um modelo aparentemente razoável para explicar a relação entre quilômetros rodados e horas de trabalho é igual a . Dessa forma, um motorista que trabalhe uma hora deverá rodar 27,3 quilômetros; o que trabalhe três horas irá rodar 81,9 quilômetros, e assim por diante. Observe a relação entre esses dados amostrais pelo gráfico apresentado a seguir. #PraCegoVer: o gráfico destaca a relação crescente entre o número de horas de trabalho de um conjunto de motoristas de aplicativo e a quilometragem percorrida pelos trabalhadores em sua jornada diária. Se esse estimador for do tipo não viesado, a equação poderá ser descrita por . Para entender o comportamento do estimador, deve-se verificar os valores estimados decorrentes dessa amostra, verificando o grau de dispersão dos dados amostrais pela sua variância, de acordo com o quadro a seguir. Figura 4 - Relação quilometragem/horas de trabalho em uma amostra Fonte: Elaborada pelo autor, 2021. 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo… 15/27 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo…16/27 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo… 17/27 #PraCegoVer: o quadro apresenta os dados relativos à estimação da quilometragem por meio do estimador de mínimos quadrados, criado a partir da equação . De acordo com o quadro, o valor relativo à equação é igual a 21296,2. Trata-se de uma soma muito alta, sendo possível, então, tentar obter um estimador de mínimos quadrados: A estimativa que minimiza a soma dos quadrados será expressa do seguinte modo (já fornecendo os valores das somas): Portanto, tem-se o indicador , que minimiza os erros amostrais, de modo que a equação pode ser melhor descrita da seguinte forma: . A tendência relacionada a essa equação pode ser observada no gráfico a seguir. Quadro 5 - Elaboração de um estimador de mínimos quadrados Fonte: Elaborado pelo autor, 2021. Figura 5 - Dados reais e estimados em uma amostra Fonte: Elaborada pelo autor, 2021. 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo… 18/27 #PraCegoVer: o gráfico apresenta dois conjuntos de dados. O primeiro conjunto é formado pelas informações disponibilizadas no gráfico anterior, demonstrando os dados reais de quilometragem percorrida por hora de trabalho. O segundo conjunto é uma série de dados que está inserida em uma reta de regressão, demonstrando valores estimados em relação ao modelo de mínimos quadrados. Por meio do gráfico, percebe-se que a relação dos dados amostrais com o modelo de mínimos quadrados é bastante próxima: o modelo é eficiente para explicar a variação entre as horas trabalhadas pelos motoristas e a quilometragem percorrida. Apesar de haver algumas discrepâncias, especialmente entre os motoristas que dirigem mais de dezesseis horas, observa-se uma tendência uniforme entre os dados reais e os dados estimados pelo modelo de mínimos quadrados. 3.2.2 Estimadores de máxima verossimilhança O conceito de verossimilhança, de acordo com o dicionário Michaelis (2021), envolve uma característica ou qualidade de algo que seja verossímil, isto é, que tenha aparência de ser algo verdadeiro ou real. Aplicando esse conceito à estatística, uma amostra verossímil será aquela que tenha condições de apresentar ou de fornecer a melhor informação possível a respeito de um parâmetro populacional, o qual deve ser estimado (MAIA, 2017). Desse modo, entende-se que é necessário, sempre, optar pelo valor estimado de um parâmetro que deve maximizar a possibilidade de o pesquisador obter uma amostra mais semelhante possível à característica desejada no parâmetro populacional. Esse conceito é conhecido como princípio da máxima verossimilhança, e foi elaborado no início do século XX por Ronald Aylmer Fisher (BUSSAB; MORETTIN, 2017). Os estimadores de máxima verossimilhança (EMV) podem ser elaborados a partir de diferentes conjuntos amostrais. Nesta unidade, vamos observar a construção desse estimador para uma distribuição binomial. Nesse caso, considere a existência de um experimento, no qual um pesquisador colhe n demonstrações para a construção de uma amostra. A probabilidade de sucesso é dada por , sendo que p está compreendido no intervalo [0,1]. Consequentemente, a probabilidade de haver fracasso é igual a . O número de sucessos é dado por X. Assim, pretende-se tomar como estimador o valor da probabilidade p que seja capaz de tornar o mais verossímil possível a amostra observada. Caso se adote, por exemplo, que o valor de n é igual a 3 e, nessas três demonstrações, sejam obtidos dois sucessos e uma falha, a função de verossimilhança será dada como se segue: Ronald Aylmer Fisher (1890-1962) foi um biólogo e geneticista inglês que desenvolveu diferentes métodos estatísticos para a comparação e a avaliação de populações. A distribuição F, que está relacionada a testes de significância de estimadores, é assim nomeada em sua homenagem (BUSSAB; MORETTIN, 2017). Você o conhece? 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo… 19/27 Ao maximizar essa função em relação à probabilidade de sucesso p, deve-se realizar a sua derivada, igualando-a a zero, da seguinte forma: Para essa equação, observe que o valor de p pode ser igual a zero ou a 2/3. Nesse caso, o ponto máximo da função ocorrerá quando . Consequentemente, esse é o EMV de p, quando . É ainda possível extrapolar essa abordagem para qualquer valor de n, da seguinte forma (BUSSAB; MORETTIN, 2017): Desse modo, ao efetivar a derivada e igualando-a a zero, pode-se obter o estimador: Teste seus conhecimentos (Atividade não pontuada) Considere a seguinte situação-problema: o dono de um buffet deseja reduzir o número de desperdício de salgadinhos nas festas realizadas em seu salão. Tradicionalmente, arbitra-se um parâmetro de 13 salgadinhos por pessoa adulta. No entanto, as informações obtidas em dez festas por meio de uma amostra com o consumo médio de salgadinhos (S) por pessoa (P) gerou a seguinte distribuição: Fonte: Elaborado pelo autor, 2021. #PraCegoVer: quadro composto por duas linhas, apresentando o número médio de salgadinhos por pessoa. Na primeira linha estão os números relativos a S, isto é, aos salgadinhos. Na segunda linha, são dispostos os valores relativos a P, ou seja, ao número de pessoas. A partir da observação das amostras, o proprietário estimou uma média A de consumo de salgadinhos por pessoa, dada por , e, posteriormente, com o apoio de um pesquisador amigo, obteve um estimador de mínimos quadrados (EMQ). Com isso, o proprietário desejava saber o número de salgadinhos por pessoa (seja EMQ ou A) que fosse o mais eficiente possível, minimizando o erro quadrático total. Considerando essas informações e seus conhecimentos sobre os EMQs, é correto afirmar que o número ideal de salgadinhos por pessoa deve ser igual a: a) 10,87. b) 11,02. 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo… 20/27 Para a construção do estimador , portanto, é utilizada a seguinte função de verossimilhança, para um número n de demonstrações e um número x de sucessos: . c) 10,64. d) 12,77. e) 11,55. Verificar Você pode criar um EMV com o seguinte experimento: faça uma série de lançamentos de uma moeda no estilo cara ou coroa, estabelecendo uma das faces como sucesso. Nessa série, anote o número de sucessos ou fracassos, criando o estimador EMV a partir da fórmula . Vamos Praticar! 3.3 Análise de variância De acordo com a discussão que vem sendo realizada ao longo desta unidade, você deve ter observado que um modelo econométrico, que opere com mecanismos de regressão linear, deve explicar com eficiência as tendências e o comportamento da variável dependente (Y). Quando essa explicação é observada, o modelo prova-se adequado para entender variações futuras e para prever a ocorrência de elementos que não constam da amostra original. Assim, é importante entender, dentro do estudo desses modelos econométricos, qual a influência do modelo para a explicação da variabilidade da variável dependente. Essa análise comparativa é realizada por meio do estudo dos erros amostrais, que são resíduos relacionados 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo… 21/27 ao ajuste do modelo, na diferença entre valores reais e esperados. Essa é a base do estudo da análise de variância, que será melhor discutida ao longo deste tópico. 3.3.1 Soma dos quadrados Uma análise de regressão permite avaliar uma dispersão importante dos valores apresentados pela variável Y. Essa dispersão demonstra a sua variabilidade total, a qual, segundo Maia (2017), pode ser explicada a partir de duas dimensões,a saber: Desse modo, em um modelo econométrico, a variação de Y permite criar uma reta de regressão, na qual as tendências de variação podem ser explicadas pelo modelo ou por elementos externos. Por exemplo, considere que, em uma cidade do interior de São Paulo, com aproximadamente 170.000 habitantes, um pesquisador deseje averiguar qual a porcentagem da população que pode ter sido contaminada por um vírus respiratório. Nesse caso, ele utiliza o seguinte cálculo para estimar o número de pessoas potencialmente contaminadas: No cálculo, P é a probabilidade de contágio; A é o número de casos ativos na cidade (casos confirmados – curados – óbitos); e S é o número de casos suspeitos. Ao longo de aproximadamente quatro meses, a probabilidade de contágio P variou de acordo com o gráfico a seguir. #PraCegoVer: o gráfico apresenta três conjuntos de dados. O primeiro deles é uma série formada pela porcentagem de pessoas expostas à contaminação em uma cidade. Uma reta na horizontal representa a média desse conjunto. Por fim, uma reta inclinada é a linha de tendência, que tem um padrão crescente, demonstrando que mais pessoas podem estar expostas ao vírus na cidade ao longo do tempo. comportamento da variável independente (X), que determina em parte o comportamento de Y; uma parcela não explicada a partir de X, que se associa aos resíduos (erros amostrais) do ajuste de regressão, e que é explicada por fatores exógenos (externos) ao modelo. Figura 6 - Risco de contaminação em uma cidade (em %) Fonte: Elaborada pelo autor, 2021. 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo… 22/27 No gráfico, observa-se uma variabilidade alta da variável dependente P. Em alguns momentos, os dados reais superam os valores esperados e, em outros, essa diferença é negativa. Além disso, a partir do dia 73, o risco supera o valor médio do período. Tal situação pode ocorrer por vários fatores exógenos, como o grau de exposição da população, a tendência à formação de festas e aglomerações, entre outros elementos. De todo modo, a reta de regressão explica a variabilidade de Y, que é compreendida pela variação da variável independente. Os erros de previsão, por sua vez, não são controlados pelo modelo. Por fim, a linha horizontal mostra o valor médio do conjunto de dados. Para avaliar a variação total dos dados reais de Y, deve ser criada uma soma total dos quadrados (STQ ou SQT), que mede a distância ao quadrado dos valores da variável dependente em relação à sua média aritmética. São avaliadas, nesse caso, as distâncias entre os valores reais da regressão e a linha média, do seguinte modo (MAIA, 2017): Na sequência, é preciso lembrar que a SQT deve ser desdobrada em dois elementos principais. O primeiro deles demonstra a variação dos dados de Y que podem ser atribuídos ao modelo econométrico, isto é, à reta de regressão. Assim, essa variação é avaliada a partir do quadrado das distâncias entre os valores previstos/estimados e a média da variável. Esse indicador é a soma dos quadrados da regressão (SQReg), medindo as distâncias entre a reta de regressão e o valor médio, e é estruturado como se segue (MAIA, 2017): Por fim, a parte não explicada do modelo faz menção aos seus resíduos, gerando a soma dos quadrados dos resíduos (SQRes), que mede o quadrado das distâncias entre valores reais e estimados, da seguinte forma (MAIA, 2017): Consequentemente, vem a seguinte soma: Posto isso, na sequência, conheceremos a distribuição F de Snedecor. 3.3.2 Distribuição F de Snedecor Para elaborar a análise de variância e entender a eficácia do modelo econométrico, não basta apenas verificar a contribuição de cada dimensão (regressão e resíduos) de modo a entender a variabilidade do modelo. É preciso entender, também, se o modelo tem significância, isto é, se contribui o suficiente para explicar a variabilidade (MAIA, 2017). Por exemplo, se e , tem-se que , e a contribuição da regressão é praticamente marginal ou nula para a explicação dessa variabilidade. A significância do modelo é testada por meio da estatística F, também conhecida como Fisher- Snedecor. Essa estatística está baseada em uma distribuição criada a partir de uma variável aleatória, produzida por uma razão entre duas variáveis de distribuição qui-quadrado. Para obter os valores dessa distribuição, você deve consultar uma tabela com os valores pré-calculados da distribuição F, computando um número de graus de liberdade no denominador, e no denominador (MAIA, 2017). 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo… 23/27 Para o caso de uma regressão linear, os valores de significância serão comparados aos valores da distribuição F com um grau de liberdade (GL) no numerador (correspondente ao coeficiente angular, o único valor que se altera livremente) e (n – 2) graus de liberdade no denominador. Esse teste é uma das bases para testar a significância de um modelo, de acordo com o que será apresentado no próximo tópico. 3.3.3 Tabela ANOVA e teste de significância do modelo A tabela ANOVA consolida os dados necessários para a criação de um teste de significância, o qual utiliza as somas dos quadrados da regressão e dos resíduos, obtidos por meio do processo de estimação. Assim, comparando a razão entre as variâncias amostrais, é possível entender o nível de eficácia na capacidade explicativa do modelo econométrico (MAIA, 2017). O teste de significância para a regressão linear simples utiliza o teste F, de acordo com a seguinte fórmula: Portanto, o valor F associado à significância do modelo econométrico (ou do estimador) deve ser comparado ao valor padrão de uma distribuição F com um grau de liberdade no numerador e (n – 2) graus de liberdade no denominador. A razão SQReg/1 corresponde ao quadrado médio da regressão (MQReg) e diz respeito a um indicador de variabilidade média, que é explicada pelo modelo. O quadrado médio dos resíduos (MQRes), por sua vez, é dado pela razão SQRes/(n – 2) e corresponde ao estimador da variância dessa regressão. Tendencialmente, ao assumir a hipótese de que o modelo não contribui para explicar a variação do modelo, a SQReg será mínima e a SQRes será muito alta, de modo que a estatística F terá um valor baixo. Contrariamente, se o modelo contribui para demonstrar a variabilidade de Y, o valor da SQReg tenderá a ser comparativamente mais alto (GUJARATI, 2011). Dessa forma, a tabela ANOVA, apresentada a seguir, estabelece uma síntese desses resultados. #PraCegoVer: o quadro, composto por cinco colunas, apresenta, na primeira coluna, a fonte (regressão, resíduos e total); na segunda coluna, o grau de liberdade (GL); na terceira e na quarta colunas, respectivamente, as fórmulas de cálculo das somas dos quadrados e dos quadrados médios necessários para a criação do teste F de análise de variância, cuja fórmula é apresentada, finalmente, na quinta coluna. Para viabilizar a compreensão da tabela ANOVA, vejamos um exemplo prático. Assim, primeiramente, observe o conjunto de dados apresentado na sequência. Quadro 6 - ANOVA Fonte: Elaborado pelo autor, baseado em MAIA, 2017. 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo… 24/27 #PraCegoVer: o quadro, composto por duas colunas, apresenta um conjunto de dados formados por duas variáveis, denominadas X e Y, com os seus valores reais. Essa distribuição de pares ordenados (X, Y) gera uma média de X igual a 13 e uma média de Y igual a 9. A partir dessas médias, pode-se elaborar os coeficientes angular e linear. Assim, o coeficiente angular é dado por: Consequentemente, o coeficiente linear é dado por: Desse modo, o modelo de regressão é expresso por: Com isso, é possível estimar os valores de Y a partir do modelo econométrico, gerando a sequência dispostano quadro a seguir. #PraCegoVer: o quadro, composto por três colunas, apresenta, na última coluna, os valores estimados de Y em vista de um modelo de regressão linear, a partir dos pares ordenados que foram apresentados no quadro anterior. Para a elaboração da tabela ANOVA, será preciso elaborar a SQReg com um grau de liberdade: Quadro 7 - Pares ordenados ( X, Y) Fonte: Elaborado pelo autor, 2021. Quadro 8 - Valores reais e estimados Fonte: Elaborado pelo autor, 2021. 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo… 25/27 Na sequência, vem a SQRes, com graus de liberdade: Você pode perceber que há uma diferença importante entre as SQRegs e as SQRes, demonstrando que o modelo tem potencial de ser explicativo. No entanto, vamos continuar a análise, agora com a SQT: Observe que os valores de SQT e (SQReg + SQRes) são coincidentes; a discrepância pode ser atribuída aos arredondamentos recorrentes no modelo econométrico. A etapa seguinte é a elaboração dos quadrados médios da regressão, com um grau de liberdade: Os quadrados médios dos resíduos, com graus de liberdade, são calculados como se segue: Por fim, cria-se a estatística relativa ao teste F para verificar a significância do modelo: A tabela ANOVA, por fim, pode ser vista na sequência. A tabela ANOVA tem várias aplicações práticas a partir de seu objetivo, que é o teste de significância de um modelo econométrico. Você poderá encontrar uma aplicação dessa análise de variância no artigo de Inaiara Scalçone Almeida Corbi et al. (2011), “Qualidade de vida relacionada à saúde de pacientes em uso de anticoagulação oral”, no qual as autoras correlacionam o uso de medicações específicas (anticoagulantes orais) à qualidade de vida em um grupo amostral. Acesse (https://www.scielo.br/pdf/rlae/v19n4/pt_03.pdf) Você quer ler? Quadro 9 - ANOVA Fonte: Elaborado pelo autor, 2021. https://www.scielo.br/pdf/rlae/v19n4/pt_03.pdf 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo… 26/27 #PraCegoVer: o quadro, composto por cinco colunas, apresenta, na primeira coluna, a fonte (regressão, resíduos e total); na segunda coluna, o grau de liberdade (GL); na terceira e na quarta colunas, respectivamente, o cálculo das somas dos quadrados e dos quadrados médios necessários para a criação do teste F de análise de variância, cujo cálculo é apresentado, finalmente, na quinta coluna. Observando a tabela da distribuição F, com um grau de liberdade no numerador e três graus de liberdade no denominador, tem-se o valor crítico igual a 10,13. Assim, pelo exemplo apresentado, a estatística F é maior que o valor crítico, devendo-se rejeitar a hipótese nula de que o modelo não é significativo, de modo que o coeficiente angular é eficiente para criar valores estimados de Y que geram o modelo econométrico. Portanto, o modelo contribui de forma significativa para explicitar a variabilidade de Y. Uma sugestão simples para a construção da tabela ANOVA é anotar o peso e a altura de cinco pessoas (você mais quatro pessoas). Com esse conjunto, você pode obter os valores médios, criar o modelo econométrico e os valores estimados e, a partir deles, você poderá criar a análise de variância. Vamos Praticar! A análise de variância e os processos de estimação são utilizados, essencialmente, para a elaboração de indicadores cujo grau de precisão e a redução do viés e dos erros amostrais permitam deduzir, com a maior eficiência possível, os valores esperados de um conjunto de dados. Esse conteúdo é particularmente relevante para as ciências econômicas, permitindo gerar modelos econométricos que investiguem relações e fluxos de longo prazo. Nesta unidade, você teve a oportunidade de: Conclusão avaliar as propriedades dos estimadores e os conceitos de acurácia, precisão e viés; aplicar o cálculo do erro quadrático médio para verificar a qualidade de um estimador linear; 9/21/22, 12:00 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7oxBJqyo… 27/27 contrastar os métodos de mínimos quadrados e de máxima verossimilhança para a estimação de variáveis; aplicar a análise de variância com a construção do teste F e da tabela ANOVA. AULA 9: propriedade dos estimadores. [S. l.: s. n.], 2020. 1 vídeo (32 min). Publicado pelo canal Ivette Luna. Disponível em: https://www.youtube.com/watch?v=jBdpvxH8AbY (https://www.youtube.com/watch?v=jBdpvxH8AbY). Acesso em: 18 fev. 2021. BUSSAB, W. O.; MORETTIN, P. Estatística básica. 7. ed. São Paulo: Saraiva, 2017. CORBI, I. S. A. et al. Qualidade de vida relacionada à saúde de pacientes em uso de anticoagulação oral. Revista Latino-Americana de Enfermagem, Ribeirão Preto, v. 19, n. 4, p. 1-9, jul./ago. 2011. Disponível em: https://www.scielo.br/pdf/rlae/v19n4/pt_03.pdf (https://www.scielo.br/pdf/rlae/v19n4/pt_03.pdf). Acesso em: 18 fev. 2021. GUJARATI, D. N. Econometria básica. 5. ed. Porto Alegre: Bookman, 2011. MAIA, A. G. Econometria: conceitos e aplicações: aprenda os fundamentos da análise econométrica e resolva problemas econômicos concretos. São Paulo: Saint Paul, 2017. VEROSSIMILHANÇA. In: DICIONÁRIO brasileiro da língua portuguesa Michaelis. São Paulo: Melhoramentos, 2021. Disponível em: https://michaelis.uol.com.br/moderno- portugues/busca/portugues-brasileiro/verossimilhan%C3%A7a/ (https://michaelis.uol.com.br/moderno-portugues/busca/portugues- brasileiro/verossimilhan%C3%A7a/). Acesso em: 18 fev. 2021. WOOLDRIDGE, J. M. Introdução à econometria: uma abordagem moderna. 6. ed. São Paulo: Cengage Learning, 2017. Referências https://www.youtube.com/watch?v=jBdpvxH8AbY https://www.scielo.br/pdf/rlae/v19n4/pt_03.pdf https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/verossimilhan%C3%A7a/
Compartilhar