Baixe o app para aproveitar ainda mais
Prévia do material em texto
INTRODUÇÃO À ECONOMETRIA PROF. “A Faculdade Católica Paulista tem por missão exercer uma ação integrada de suas atividades educacionais, visando à geração, sistematização e disseminação do conhecimento, para formar profissionais empreendedores que promovam a transformação e o desenvolvimento social, econômico e cultural da comunidade em que está inserida. Missão da Faculdade Católica Paulista Av. Cristo Rei, 305 - Banzato, CEP 17515-200 Marília - São Paulo. www.uca.edu.br Nenhuma parte desta publicação poderá ser reproduzida por qualquer meio ou forma sem autorização. Todos os gráficos, tabelas e elementos são creditados à autoria, salvo quando indicada a referência, sendo de inteira responsabilidade da autoria a emissão de conceitos. Diretor Geral | Valdir Carrenho Junior INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 3 SUMÁRIO AULA 01 AULA 02 AULA 03 AULA 04 AULA 05 AULA 06 AULA 07 AULA 08 AULA 09 AULA 10 AULA 11 AULA 12 AULA 13 AULA 14 AULA 15 05 17 29 41 52 63 74 83 93 103 113 132 142 153 163 REGRESSÃO LINEAR INTRODUÇÃO A ANÁLISE DE SÉRIES TEMPORAIS DISTRIBUIÇÕES AMOSTRAIS HIPÓTESES ESTATÍSTICAS PARAMÉTRICAS MÉTODOS ESTATÍSTICOS E ECONOMÉTRICOS DEFINIÇÃO E APLICABILIDADE DE PCA (PRINCIPAL COMPONENT ANALYSIS PESQUISA OPERACIONAL E ESTATÍSTICA TEORIA DA PROBABILIDADE APLICABILIDADE DAS VARIÁVEIS TESTES DE HIPÓTESES E ERROS DE DECISÃO MODELAGENS E ESTRUTURAS NÚMERICAS ECONOMETRIA EM ESCALA DA ECONOMIA ECONOMETRIA INDUSTRIAL INTERPOLAÇÃO LINEAR INTEGRAÇÃO NÚMERICA INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 4 INTRODUÇÃO Com a finalidade de apresentar os fundamentos básicos da teoria e prática da econometria, esta Unidade de Aprendizagem dará ênfase a alguns elementos da metodologia econométrica, de forma descritiva, indo da teoria econômica ao modelo experimental, permitindo uma visão geral e bastante simples de aplicações nesta área. O economista faz declarações de natureza determinística, enquanto que o econometrista, através da observação de experimentos, faz declarações de natureza probabilística. O conjunto de todos os resultados possíveis de um experimento é chamado de espaço amostral, enquanto que o conjunto das frequências relativas a cada um dos eventos possíveis é chamado espaço de probabilidades. Um evento é um subconjunto do espaço amostral. O estudo da econometria pode ser visto como uma perspectiva quantitativa sobre a Economia. Esse estudo consiste na aplicação da estatística e da matemática como forma de dar suporte aos modelos teóricos existentes, os quais buscam explicar fenômenos que ocorrem na Economia. Em linhas gerais, é possível dizer que a econometria é utilizada na verificação das teorias econômicas por meios de modelos específicos. Estudar econometria, permite, por meio de dados econômicos, avaliar a relação entre duas variáveis distintas; também pode ser utilizada para fazer previsões voltadas ao meio empresarial. Isso se torna relevante, pois o uso correto da econometria, juntamente com a base de dados de uma empresa, pode ser de grande auxílio na tomada de decisões e formulações estratégicas. A econometria é um estudo que compreende o desenvolvimento de métodos estatísticos, tendo como seu principal objetivo resolver problemas econômicos por meio de cálculos matemáticos. De modo geral, é possível dizer que a econometria é uma estatística aplicada à Economia, e que por meio dela muitas teorias econômicas podem ser explicadas de forma quantitativa. No estudo da Economia existe uma infinidade de possibilidades para a aplicação de métodos econométricos, entre eles é possível citar: estimações de séries de relação econômicas, previsões econométricas utilizando os mais diferentes tipos de dados, avaliações de políticas públicas utilizando variáveis macroeconômicas, entre outras aplicações que podem também servir de ferramenta na tomada de decisões no meio corporativo. Bons estudos! INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 5 AULA 01 REGRESSÃO LINEAR Olá Caro (a) Aluno (a), percebemos que a todo momento nos deparamos com problemas nos quais conhecemos os dados por meios experimentais, e temos o interesse em estudar como esses dados se relacionam, seja para permitir uma análise quantitativa sobre o comportamento desses dados, seja para permitir e/ou prever dados não analisados. Por exemplo, se estudar mais resulta em notas melhores, de que modo, e em que escala, o aumento no estudo impacta na nota? Para responder a essa e outras perguntas, estudaremos como transformar um punhado de dados experimentais em uma expressão que represente da melhor maneira possível os dados. 1.1 Regressão Linear e suas aplicabilidades Em diversas áreas de pesquisa, como engenharia, saúde ou finanças, é comum a necessidade de verificar se duas ou mais variáveis possuem alguma relação e, caso exista, de que maneira ocorre essa relação. Ao estudar a relação entre duas variáveis, é necessário identificar se ambas possuem uma correlação entre si, seja ela linear ou não. Caso seja identificada a existência, pode-se construir um modelo que conhecemos na matemática como uma função que relacione as variáveis. A este processo damos o nome de regressão, e por meio dele é possível estabelecer como uma determinada variável pode influenciar em uma outra. Quando se deseja correlacionar duas variáveis ou mais, é importante descrever como ocorre essa relação. Também chamada de modelo, essa relação é importante uma vez que permite análises diferentes daquelas baseadas em média e desvio-padrão. Por exemplo, ao estudar a variação do comprimento (ou deformação) de uma mola com base na força aplicada sobre ela, são aplicadas diferentes tensões sobre uma mola, e medidas as deformações provocadas. Com isso, temos duas amostras: a das forças aplicadas e a das deformações da mola. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 6 Sabemos que cada leitura realizada é composta de um par de variáveis, uma de cada amostra. Então, se quiséssemos saber se existe uma relação entre as duas variáveis, basta saber se existe uma correlação entre elas, e qual o modelo que as relaciona. Ainda com base no exemplo citado, digamos que, durante os testes, foram obtidos os resultados apresentados na Tabela 1. Força (newtons) Deformação(milímetros) 0 0 1 3 5 12 10 20 Tabela 01: Dados Experimentais Fonte: Autor (2022). Para iniciar qualquer análise sobre a relação entre ambas as variáveis, é importante identificar qual variável é independente (normalmente vemos representada como a variável x na matemática), ou seja, aquela que não sofre a influência da outra, e qual é dependente (comumente chamada de y), que esperamos que seja função da primeira. Gráfico 01: Resultados Fonte: Autor(2022). Aparentemente, existe uma relação entre tensão e deformação. Para ter certeza sobre a existência ou não dessa relação, deve-se calcular o coeficiente de correlação de Pearson e provar que ele é diferente de zero por meio de um teste de hipótese. Para INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 7 relembrar como obter o coeficiente de Pearson e a avaliação sobre ele ser diferente de zero, usaremos os dados do exemplo. Assim, o coeficiente de Pearson é dado por: r = S xy Sxx . S yy Sxx = ∑(x - x)2 = n∑(x2 ) - (∑x)2 S yy = ∑(y - y)2 = n∑(y2 ) - (∑y)2 S xy = ∑(x - x)(y - y) = n∑(x . y) - (∑x) . (∑y) Tensão (em newtons) Deformação (em milímetros) _ (x - x )2 _ (y - y )2 (x - _ )(y - _ ) x y 0 0 16 76,5625 35 1 3 9 33,0625 17,25 5 12 1 10,5625 3,25 10 20 36 126,5625 67,5 Soma 62 246,75 123 Tabela 02: Dados calculados para determinar o coeficiente de correlação Fonte: Autor (2022). O coeficiente de correlação linear de Pearson é aplicado apenas quando a relação entre as variáveis é linear. Um coeficiente de Pearson nulonão indica a inexistência da relação (modelo), mas sim que ela não é linear. Sxy = 123 = 0,994 E o teste de hipótese: H0 : r = 0 (não existe correlação) : r ≠ 0 (existe uma correlação) r 0,994 t = = = 12,851 Aplicando significância de 5%, temos os valores limites como: t0 = t(0,025;2) = t(0,025; 2) = 6,205 Como o valor calculado é maior que o tabelado, então a correlação não é nula. Isso quer dizer que é possível que exista uma relação linear entre a tensão e a deformação da mola. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 8 É possível também que o coeficiente de Pearson seja elevado, mesmo que o modelo de regressão mais adequado não seja linear. Isso ocorre em dispersões monótonas, onde a correlação entre as variáveis permanece com o mesmo sinal, porém apresentam módulos diferentes. Gráfico 02: Comportamento de uma função monótona Fonte: Autor (2022). Este é apenas um exemplo para que possamos compreender a importância dos modelos de regressão. Para se ter uma ideia da importância do estudo da regressão, em especial da regressão linear, na maioria das vezes que o termo “taxa de variação” é empregado, ele é obtido por meio de um modelo de regressão linear. Saber a velocidade (taxa de variação do espaço em função do tempo) ou a taxa de crescimento de uma planta ao logo do ano parte da regressão. Os modelos também servem para ajudar a estimar valores não conhecidos. Em nosso exemplo, se quiséssemos saber qual a deformação da mola quando aplicado 8 N de força, o modelo de regressão permitiria calculá-la, mesmo sem ter sido experimentada. Como estamos supondo uma relação linear entre as variáveis envolvidas, diremos que o modelo é descrito pela equação da reta, incluído um termo de erro ε, referente à diferença entre os dados observados e os dados a serem calculados, que podem ser descritos de duas formas: Y = ax + b + ε ou Y = ε + a0 + a1 x Onde a e b e an são coeficientes constantes do modelo a ser obtido. Sabendo disso, calcularemos o modelo, ou a função, que relaciona nossa variável dependente com a independente. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 9 Aqui, deve-se deixar claro a diferença entre regressão e correlação. Correlação é uma medida descritiva que indica quão forte é a relação entre duas variáveis numéricas. Regressão é a relação entre estas variáveis, a fim de que seja possível estimar valores de uma variável em função da outra. 1.2 Método dos mínimos quadrados ordinários O método dos mínimos quadrados ordinários (MQO) é uma técnica para ajustar a melhor reta à amostra de observações dos pares (x, y), onde x é aquela variável que adotamos como independente, e y, a variável dependente. Matematicamente, o MMQO envolve obter um modelo capaz de possuir a menor soma dos desvios quadrados entre os pontos observados e os calculados através do modelo de regressão, não necessariamente passando pelos pontos. Para obter um modelo de regressão linear correto, deve-se ter em mente que a relação deve existir (comprovada pelo coeficiente de Pearson), e que o modelo deve ser constante (os coeficientes do modelo são fixos), além dos erros não serem correlacionados a nenhuma variável, com distribuição normal e média nula. Por esse motivo, é comum a omissão do termo relacionar ao erro. Para obter o modelo de regressão linear por meio do MMQO, consideraremos que seja escrito como: Y = ε + a0 + a1 x Para obter os coeficientes, resolveremos o seguinte sistema de equações: ∑ y = a0n + a1 ∑ x Com isso, temos: n ∑ (xy) - ∑ x ∑ y n ∑ (x2) - (∑ x)2 ∑ (xy) = a0 ∑ x + a1 ∑ (x2) a0 = ∑ y ∑ x n - a1 n INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 10 Onde n é o número de pares observados. Para compreender a aplicação do MMQO, retomaremos o problema da tensão e deformação mostrados na Tabela 1, com os termos a serem calculados mostrados na Tabela 3. Tensão (em newtons) x Deformação (em milímetros) y x² xy 0 0 0 0 1 3 1 3 5 12 25 60 10 20 100 200 Soma 16 35 126 263 Tabela 03: Cálculo dos termos necessários para o MMQO Fonte: Autor (2022). Assim temos: a1 = 4(263) - (16)(35) = 1,984 .4(126) – 162 a = 35 = 0,814 Com isso, o modelo de regressão para nosso problema, usando o MMQO, vale: y = 0,814 + 1,984x Para mostrar o comportamento aleatório do erro, é comum mostrar o gráfico de dispersão com o resíduo entre os dados observados e os calculados com o modelo de regressão obtido. No caso do nosso exemplo, mostra que não existe uma tendência de aumento ou diminuição do erro ao longo da variação da variável independente. Caso isso ocorresse (por exemplo, o erro aumentar com o aumento da variável, ou o contrário), seria um indício de que o erro não é aleatório, apresentando alguma correlação com a variável independente. Quando se confronta um problema como esse, a primeira coisa a ser observada é qual variável está sendo considerada independente (aquela que rege o problema) e qual dependente (que é função da outra variável). Conforme a situação do exemplo, a altura foi medida consoante o passar dos anos. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 11 Isto significa que as medições foram feitas, de modo mais claro, no ano 1, depois no ano 2, ano 3, e assim por diante, e não quando a planta tinha altura a, depois b, depois c. Com isso, podemos concluir que a variável dependente é a altura e a independente é o ano. Depois, devemos avaliar a correlação entre as variáveis, através do coeficiente de Pearson. 1.3 Adequação do modelo de regressão ajustado e Regressão Não Linear Ao obter um modelo, devemos avaliar se este é adequado, representando de forma coerente os dados analisados. Para tanto, avaliamos os coeficientes a fim de comprovarmos que eles representam um valor significativo, e obter um indicador dessa qualidade, chamado de coeficiente de determinação R2. Para avaliar a adequação do modelo de regressão obtido, podemos iniciar considerando o estudo da variância. A variância é uma medida de dispersão entre os dados de uma amostra, podendo indicar a regularidade de um conjunto de dados em função da média aritmética. Veremos quais são e como calcular as variâncias envolvidas no estudo do modelo de regressão. Como vimos, devemos primeiramente avaliar se as constantes do modelo possuem um valor significativo ou não. Para isso, aplicaremos o teste de hipótese de modo a confirmar se eles são ou não nulos. Para aplicar esses testes, devem supor que as dispersões são normalmente distribuídas, independentes e de mesma variância. O teste de significância do coeficiente é realizado por meio de um teste t de Student, segundo o teste de hipótese: H0 : coeficiente é nulo : coeficiente não é nulo Para avaliar a hipótese, aplicamos a estatística: At = σa Onde a são os coeficientes do modelo de regressão linear. Segundo a literatura, estes coeficientes podem ser chamados de a e b, a0 e a1 , ou β0 e β1 . O termo σ̂ a é obtido pelas expressões, para os termos independentes (interceptos, ou aqueles que não acompanham a variável independente) e lineares (que acompanham a variável independente no modelo de regressão): SQr/1 f = e/n - 2 244,04 = 2,7338/2 = 178,53 INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 12 Consultando a tabela F de Fisher, temos (para α = 5%) que f(0, 05, 1, n - 2) = 18,513. Como o valor calculado é maior, então o modelo representa o comportamento dos pontos analisados. O coeficiente de determinação não pode ser utilizado como único indicador de qualidade do modelo de regressão. Além disso, alguns cuidados ao analisar este valor devem ser tomados, tais como: • O R² não mede a inclinação da reta do modelo de regressão, não havendo relação entre estes dois dados; • Mesmo que seja um bom indicador, ele não necessariamente representa fielmente a relação entre os dados e o modelo; De modo mais exato, o coeficiente de determinação indica a escala dos resíduos do modelo,sendo que quanto maior R², menor o resíduo do modelo. Uma vez que obtivemos um modelo que represente o comportamento dos pontos observados, e aplicadas as análises para garantir que o modelo seja satisfatório, podemos interpretar cada um dos parâmetros. O termo independente, também chamado de intercepto ou coefi ciente linear, representa o ponto em que o modelo cruza com o eixo x = 0, ou seja, intercepta o eixo y. Ele pode ser observado como um termo de deslocamento entre a função linear do tipo y = ax. Por esse motivo, este coeficiente pode estar relacionado ao erro médio das medições. Por exemplo, no problema apresentado envolvendo a deformação em função da tensão aplicada, era de se esperar que, quando aplicada a tensão nula, a deformação também fosse nula. Como não ocorre, é possível dizer que o equipamento que realizou as medidas apresenta um erro de deslocamento nas medidas realizadas. Outra abordagem deste termo é a de identificar o valor inicial da variável a ser monitorada no instante inicial do experimento (das leituras), já que este valor descreve o valor do modelo quando x = 0. Já o termo que multiplica a variável independente é chamado de coeficiente angular da reta ou coeficiente da regressão. Este termo está relacionado à taxa de variação da variável dependente em função da variação da variável independente, descrevendo a relação entre a variação de cada uma delas, seja positiva (o aumento de uma provoca aumento na outra) ou negativa (o aumento de uma incorre na redução da outra). Isto indica que, ao aumentar uma unidade da variável INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 13 independente, o coeficiente angular representa a variação ocorrida na dependente (no nosso exemplo, a variação de 1 N provoca 1,984 mm de deformação). O coeficiente angular está comumente relacionado ao termo de taxa do modelo, pois, conforme a intepretação dada ao termo. Em muitos casos, as variáveis não possuem um comportamento linear. Por esse motivo, aplicar o coeficiente de correlação de Pearson e um modelo de regressão linear não fornece dados válidos. Se calcularmos, por exemplo, o coeficiente de Pearson para um conjunto de pontos que se assemelhe a uma equação do segundo grau nas proximidades de seus valores de inflexão (valores de máximo ou mínimo), ele fornecerá um valor nulo ou muito pequeno. Mas isto não significa que não há um modelo que represente o comportamento dos pontos. Para esses casos, veremos o estudo dos modelos de regressão não lineares mais comuns, e as técnicas para a obtenção dos modelos. Os modelos de regressão não linear possuem aplicabilidade maior que os modelos lineares. Lembre-se de que um modelo de regressão é uma função que expressa a relação entre as variáveis dependente e independente. Conhecendo o comportamento dos pontos a serem avaliados, é possível escolher um modelo que melhor se adeque, restando apenas calcular o valor dos coeficientes envolvidos em cada modelo. Entre os modelos não lineares, o modelo polinomial é amplamente utilizado. A escolha desse modelo se deve à possibilidade de adequar a ordem do polinômio para que melhor represente o comportamento da amostra. Além disso, o cálculo dos coeficientes de um modelo polinomial não depende de técnicas de linearização, além de serem a base para o cálculo dos coeficientes de outros modelos de regressão. Existem diferentes modelos não lineares, direcionados ao estudo do crescimento da variável dependente ou da variação da relação (ou da taxa) entre as variáveis dependente e independente. Estes modelos são de grande valia no estudo de problemas cujo comportamento é conhecido, porém é necessário identificar os parâmetros envolvidos. Para esses modelos, a obtenção dos coeficientes é feita por meio da substituição de variáveis, que consiste em substituir um termo não linear em um linear, e a linearização do modelo, que, por meio de manipulações matemáticas, torna o modelo não linear em um modelo linear. Os métodos para solução dos modelos não lineares mais comuns estão envolvidos com métodos de interpolação, substituição de variáveis e a linearização. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 14 Os métodos de interpolação consistem em propor que os pontos se comportam conforme um modelo polinomial. A ordem do polinômio pode ser definida pelo número de pontos conhecidos ou de modo visual, por meio do diagrama de dispersão e o conhecimento do comportamento gráfico dos polinômios. Os métodos de interpolação mais comuns são o método de Lagrange e o método dos mínimos quadrados. O método de Lagrange consiste em obter um polinômio que obrigatoriamente passe por todos os pontos da amostra. Para isso, ele apresenta um polinômio de ordem n - 1, onde n é o número de pontos. Para avaliar a adequação de um modelo com relação a outro, é aplicado o coeficiente de determinação R² ajustado. Ele representa a porcentagem da variação que pode ser explicada pelo modelo em função dos preditores utilizados para descrever o modelo. Um preditor é uma variável do modelo, envolvida na explicação da variação da variável dependente. Por exemplo, no modelo de repressão linear, temos apenas um preditor (p = 1), referente à variável x. Caso fosse um modelo polinomial de segundo grau, teríamos dois preditores (p = 2), já que temos as variáveis x e x². Isso quer dizer que, em caso de dois modelos com o mesmo coeficiente de determinação, será mais adequado aplicar aquele com menor número de preditores aplicados. Ao interpretar os coeficientes obtidos para o modelo, é válido estudar o impacto de cada termo no modelo obtido, e com isso identificar aqueles que realmente afetam a descrição da variação das amostras. A maioria dos softwares estatísticos fornece, ao aplicar alguma técnica de regressão, o p-valor relativo a cada preditor aplicado no modelo. Em uma regressão, os valores-p baixos indicam termos estatisticamente significativos. Então, elementos com p-valor alto podem indicar que o preditor impacta pouco na variação da variável dependente. Por exemplo, em um modelo de repressão polinomial de 3º grau, cujos preditores são x, x2 e x3, foram obtidos os valores p-valor relativos a cada um deles. No caso mostrado, é possível observar com base no p-valor que o preditor x, mesmo possuindo um coeficiente elevado, possui pouca significância para o modelo. Neste caso, seria possível que o modelo de regressão não apresentasse o termo referente a esse preditor. Por conta dessa análise baseada no p-valor, é comum que a realização da regressão, na prática, inicie os estudos incluindo todos os preditores relacionadas ao modelo e, em seguida, remova o termo com p-valor mais alto, obtendo um novo INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 15 modelo, até restarem apenas preditores significativos. De modo mais simples, é obtido um modelo de regressão com todos os preditores, depois é analisada a significância de cada um deles. Caso algum não possua significância, é construído um novo modelo omitindo este termo, e novamente é repetido o processo de análise e eliminação do preditor caso necessário, até que reste apenas preditores significantes. A análise de tendências é fortemente aplicada no estudo de séries temporais. A distinção do estudo das séries temporais com relação aos modelos de regressão citados anteriormente é de suma importância, já que no caso dos modelos de regressão adotamos que os dados possuem um comportamento semelhante em todo o intervalo de variáveis independente observado, enquanto as séries temporais possuem intervalos delimitados de análise, relacionados, por exemplo, à sazonalidade de alguma característica, como as estações do ano ou ciclos comemorativos. Por esse motivo, ao avaliar as séries temporais, principalmente focadas para a previsão de resultados, busca-se normalizar (ou estacionar) o comportamento das leituras, de modo que possam ser avaliadas sob amesma abordagem. Uma série temporal é um conjunto de leituras, ou observações, que têm como variável independente o tempo. Isto implica dizer que, para cada intervalo de tempo, existe um conjunto de dados, com características únicas dentro de cada intervalo. Um detalhe importante na definição das séries temporais é que a ordem na qual os dados são obtidos é importante para a descrição do problema. Por isso, os dados possuem elevada autocorrelação. O estudo dessas séries é de grande valia no mercado financeiro e em gestão, pois permite identificar o comportamento de uma variável com base em períodos, e não só na variável independente. É comum analisar uma série temporal através da sua decomposição nos componentes de tendência, ciclo e sazonalidade. Diferente dos modelos de regressão, as séries temporais apresentam uma autocorrelação entre os dados amostrados, o que significa que os valores lidos da variável dependente não são unicamente relacionados à variável independente, mas também apresentam uma relação entre si. Quando aplicadas à manutenção preditiva e preventiva, por exemplo, as séries temporais permitem prever se aquela variação momentânea do valor monitorado é consequência de algo irregular, ou apenas uma variação prevista, por exemplo, de acordo com a hora do dia. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 16 ISTO ESTÁ NA REDE Link: https://www.youtube.com/watch?v=qft6BI7KUwg O MMQ já foi apresentado nas técnicas de regressão linear e não linear. Lembre- se de que o método pode ser aplicado na obtenção de modelos de tendência logaritmos ou exponencial, devendo aplicar as técnicas de linearização já apresentadas. Então, daremos destaque ao modelo de média móvel. ANOTE ISSO A tendência é o estudo do comportamento da série temporal quando acompanhada durante um longo período, normalmente definido como “longo prazo”. A tendência indica de que modo a série varia, se mantém constante, aumenta o valor, diminui e de que modo ocorre a variação (se é linear, polinomial, logarítmica, entre outras). De modo geral, a tendência é o padrão de crescimento ou decaimento dos valores ao longo de tempo. O ciclo é caracterizado pelas variações nos valores das leituras ao longo da tendência, em que é possível definir a repetição de um comportamento. A sazonalidade é definida pelo comportamento que a amostra tem dentro de um período temporal. Isto implica dizer que a sazonalidade é a análise dos padrões de variação que ocorrem dentro de um intervalo de tempo, que podem se repetir em períodos de tempo. Dentro da análise da sazonalidade, é possível que ela ocorra em ciclos de comportamento conhecidos ou se comporte de modo completamente aleatório. https://www.youtube.com/watch?v=qft6BI7KUwg INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 17 AULA 02 INTRODUÇÃO A ANÁLISE DE SÉRIES TEMPORAIS Olá Caro (a) Aluno (a), o desenvolvimento de séries históricas pode ser realizado conforme modelos estabelecidos. A maioria delas se baseia na identificação dos parâmetros de sazonalidade, a fim de obter duas séries: uma de curto prazo, identificando o comportamento dentro de um ciclo, e outra de longo prazo, buscando identificar a tendência. 2.1 Séries Temporais Existem diferentes modelos a serem aplicados para calcular uma série temporal. Os modelos mais comuns são: • Univariados, que se baseiam em uma única variável no estudo da série histórica; • Função de transferência, focados em avaliar a relação entre mais de uma série histórica; e • Multivariados, que permitem obter um modelo temporal que envolva mais de uma série. É comum para cada tipo de análise um modelo temporal dedicado. Existem, por exemplo, modelos para estimar custo financeiro, consumo de energia e variação do custo de ações no mercado financeiro. A partir de estudos dos modelos univariados, existem os modelos autor regressivos integrados de médias móveis, dentre eles o modelo ARIMA. Esses modelos são ajustados com base em dados das séries temporais e para compreender como os dados (ou para estimar quais dados) serão os pontos futuros da série. Os modelos de previsão ARIMA (também conhecidos como Box-Jenkins) são baseados em princípios estatísticos, e são capazes de modelar uma ampla gama de séries temporais. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 18 O modelo temporal ARIMA será utilizado em casos nos quais os dados apresentam estacionariedade – comportamento que se mantém semelhante ao longo do tempo. Além disso, o número de observações utilizadas deve ser maior que 40. O modelo de regressão ARIMA é uma série de equações descritas em função dos valores anteriores à leitura, e possui um conjunto de termo autorregressivo (modelo AR), um termo de média móvel (modelo MA) e um termo integrado (diferenciação) ao modelo (modelo I), que tem por intuito fazer com que o modelo se ajuste aos dados da melhor maneira. O termo “diferenciação” se refere às subtrações (diferenças) a serem aplicadas para que se possa “sobrepor” diferentes ciclos, definidos pelos comportamentos sazonais. Figura 01: Controle dos Dados Fonte: https://cdn.pixabay.com/photo/2016/06/13/15/07/presentation-1454403__340.png O modelo ARIMA é comumente referenciado de modo ARIMA (p, d, q), nos quais consideramos que: • p é o número de termos autorregressivos, referindo-se aos números defasados (um atraso na leitura); • d é o número de diferenças não sazonais necessárias para a estacionariedade (número de padrões presentes na série); • q é o número de erros de previsão atrasados na equação de previsão, referente à ordem do modelo de média móvel. Vale destacar que os modelos ARIMA envolvem conceitos relacionados a filtros de média móvel, cujos parâmetros são obtidos de forma empírica, e que em muitos https://cdn.pixabay.com/photo/2016/06/13/15/07/presentation-1454403__340.png INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 19 casos devem ser comparados para determinar qual modelo é mais indicado. Por esse motivo, é recomendado o uso de softwares dedicados à obtenção deste tipo de modelo. O modelo ARIMA possui algumas simplificações, conforme a ausência de algum dos termos, como o modelo ARMA, com o termo d nulo (não existem períodos sazonais na série temporal). Assim, ele não inclui os termos de diferenciação e, por esse motivo, o modelo ARMA contém um modelo AR(p) (autorregressivo) e um modelo MA(q) (média móvel) descritos como: AR(p) → y(t) = a(1)y(t - 1) + a(2)y(t - 2) + ⋯ + a(p)y(t - p) MA(p) → y(t) = e(t) + c(1)e(t - 1) + c(2)e(t - 2) + ⋯ + c(q)e(t - q) Onde y(n) é o valor de saída da série ajustada, e(n) são os erros de previsão, a(n) os termos referentes ao atraso ou lag, e c(n) são os pesos aplicados à média móvel. O desenvolvimento de séries históricas pode ser realizado conforme modelos estabelecidos. A maioria delas se baseia na identificação dos parâmetros de sazonalidade, a fim de obter duas séries: uma de curto prazo, identificando o comportamento dentro de um ciclo, e outra de longo prazo, buscando identificar a tendência. Como a tendência é o componente mais importante ao definir uma série histórica, focaremos nos métodos usados para identificá-la. Lembre-se de que a tendência representa o comportamento da série temporal para um longo período de tempo. Calculada a tendência, é possível inclusive removê-la dos dados temporais para auxiliar na identificação da sazonalidade e dos ciclos. Para obter a tendência, é possível aplicar diversas técnicas, entre elas o método dos mínimos quadrados e a média móvel. Entre as técnicas de média móvel, temos o modelo simples e o de ajuste logaritmo. O MMQ já foi apresentado nas técnicas de regressão linear e não linear. Lembre-se de que o método pode ser aplicado na obtenção de modelos de tendência logaritmos ou exponencial, devendo aplicar as técnicas de linearização já apresentadas. Então, daremos destaque ao modelo de média móvel. Os conceitosaqui apresentados são a base para os modelos que utilizam média móvel, como, por exemplo, o ARIMA. Para calcular a tendência com base na média móvel, devemos escolher uma faixa de valores contendo um intervalo de valores (por exemplo, as leituras de 1 a 5). Depois, é calculado o valor médio dos passos de tempo e da variável monitorada. Feito isto, é dado um incremento no intervalo de leitura (agora de 2 a 6), e assim é feito o mesmo processo das médias. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 20 Observe que é mais simples de identificar o comportamento da série temporal, permitindo identificar os ciclos dos valores. Uma vez que a média móvel suaviza o comportamento da série, algumas técnicas são aplicadas de modo a acelerar a percepção de variações bruscas nos dados. Uma delas é o duplo crossover, em que se analisa a relação entre uma média móvel, que aplica um intervalo de tempo grande, e uma com intervalo pequeno. É realizada comparando justamente como uma média mais próxima do momento real se comporta com relação à tendência de longo prazo. Essa análise é necessária pois, quanto maior o número de pontos usados na média móvel, maior o atraso entre um acontecimento e sua influência na tendência da série. Retomando o modelo de regressão obtido pelo MMQ, será possível estimar (ou prever) valores futuros com base nas séries temporais. Para isso, basta substituir o período temporal de interesse no modelo obtido – isso também é conhecido como extrapolação do modelo. Por exemplo o modelo polinomial de quarto grau vale: y = -0,026t4 + 0,2564t3 - 0,7894t2 + 1,2713t + 14,894 Caso seja de interesse conhecer o valor no instante t = 8, basta substituir o valor no modelo, ou seja: y = 0,026(6)4 - 0,2564(6)3 + 0,7894(6)2 - 1,2713(6) - 14,894 = 18,802 Para obtenção de modelos que permitem descrever, por meio de uma função (ou modelo), o comportamento de um conjunto de leituras processo chamado regressão. Para definir um modelo de regressão, deve-se destacar qual é a variável dependente e a independente, por meio dos modelos de regressão lineares, nos quais as variáveis independentes e dependentes se relacionam por meio de uma equação de primeiro grau (uma reta), ou não lineares, quando as leituras podem possuir um comportamento polinomial de ordem maior que dois, ou exponencial, logarítmica, por exemplo. No caso dos modelos lineares, o coeficiente angular define a relação entre a taxa de variação das variáveis independente e dependente. Para calcular o modelo de regressão, independentemente do tipo de comportamento, o método dos mínimos quadrados ordinários (MMQO) é uma escolha para determinar os coeficientes do modelo. No caso dos modelos de regressão linear, e os polinomiais, o método MQO pode ser aplicado diretamente. Mas em outros casos, deve-se aplicar a linearização ou a substituição de variáveis para obter o modelo. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 21 É importante destacar que as amostras devem conter preferencialmente um valor grande de leituras. Caso contrário, o polinômio obtido na regressão se aproxima do modelo de regressão exato, em que o polinômio obtido passa por todos os pontos, resultando em um coeficiente de determinação unitário. Para minimizar esse problema, é de suma importância que o número de elementos amostrados deva ser o maior possível, equilibrando o esforço da aquisição das amostras com a quantidade de informações necessárias. Os modelos podem ser qualificados conforme o coeficiente de determinação R², que relaciona as variações ocorridas na amostra original e aquela calculada por meio do modelo obtido. Quanto maior esse coeficiente, melhor o modelo explica o comportamento das variáveis. Deve-se sempre deixar bem claro que o coeficiente de determinação, assim como o de correlação, apenas qualifica a variação de uma variação de uma variável com relação à outra, mas nunca quantificam. Por isso, ao avaliar a relação entre o tempo de estudo e as notas obtidas, deve-se sempre avaliar os coeficientes presentes no modelo de regressão obtido, e não os coeficientes de determinação ou de correlação. As séries temporais, e os conceitos sobre o estudo e análise desse tipo de dado. Nesse tipo de dado é importante avaliar os dados na ordem em que foram avaliados. Ao estudar esse tipo de dado, temos que avaliar a tendência, o ciclo e a sazonalidade dos dados. Essa distinção é importante, pois os dados temporais podem apresentar padrões de repetição ao longo da amostra, enquanto podem apresentar uma tendência nos dados a cada ciclo. Por exemplo, ao se estudar os dados em um longo período, como o PIB de um país ao longo de um século, é mais importante compreender sobre a tendência dos dados, e não sobre o comportamento dentro de cada ciclo, tendo em vista que a tendência representa um dado mais real, enquanto a sazonalidade mostra o comportamento “momentâneo”. A todo momento nos deparamos com problemas nos quais devemos estimar valores dos parâmetros relacionados à população, como a média, a partir de dados amostrais. Para isso, existem estatísticas próprias, chamadas de estimadores, que permitem que essa estimativa seja a mais correta possível. Para tanto, o valor da população pode ser definido como um único valor ou um intervalo de possíveis valores. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 22 As avaliações envolvendo esses estimadores são o objeto de estudo da Estatística Inferencial. Assim, lançamos a seguinte pergunta: por que a compreensão sobre os estimadores é tão importante em todas as áreas que envolvem pesquisa? 2.2 Estimadores de Econometria Quando estudamos qualquer parâmetro de uma população, como a média, o desvio- padrão ou a proporção, é possível que se apliquem todos os indivíduos na pesquisa. Nesse caso, teremos realizado um censo, e temos 100% de certeza sobre os valores da população. Porém, quando a população é grande, ou o tempo disponível para a análise dos dados é pequeno, o desenvolvimento de um censo se torna impraticável. Além disso, em muitos casos, a avaliação da população é impossível. Por exemplo, se o objeto de estudo for a segurança de um carro durante uma colisão, aplicar um censo significaria realizar o teste de colisão em todos os carros. Para esses casos, é necessário aplicar a amostragem dos elementos dentro da população. Uma amostra é, por definição, um subconjunto formado por apenas alguns elementos selecionados da população e, a partir dos dados fornecidos por eles, são previstos os valores da população. Porém, isso gera um problema: não podemos mais ter certeza sobre a população. A inferência estatística surge, então, como solução para esse problema. Pode-se defini-la como um conjunto de ferramentas que permite estimar características da população com base em dados obtidos de uma amostra. Por meio dessas ferramentas, também é possível responder hipóteses referentes aos parâmetros populacionais. Após a apresentação de diferentes ferramentas para estimativa de valores médios em populações a partir de amostras, deve-se ter o cuidado de aplicar a estatística correta. Perceba que, além de cálculos diferentes, distribuições diferentes são aplicadas. A escolha deve ser motivada pela necessidade de estimar a média ou a diferença, e se há algum conhecimento sobre a variância (ou desvio-padrão) populacional. Após a apresentação de diferentes ferramentas para estimativa de valores médios correta. Perceba que, além de cálculos diferentes, distribuições diferentes são aplicadas. A escolha deve ser motivada pela necessidade de estimar a média ou a diferente. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 23 Figura 02: Dados e Parâmetros Fonte: https://cdn.pixabay.com/photo/2019/09/09/08/23/internet-4463031__340.jpg Como nem sempre é possível calcular os parâmetros populacionais utilizando todos os indivíduos da população, é necessário separar uma amostrae, a partir das informações obtidas por meio dela, estimar as características da população. Para isso, devemos encontrar um estimador; este é definido como o conjunto de estatísticas (expressões) aplicadas na amostra de modo a estimar um parâmetro populacional. Essas estatísticas podem fornecer um único valor ou uma faixa de valores possíveis. Por exemplo, vamos estimar a idade média dos alunos que entram em instituições de ensino superior. Como a quantidade de indivíduos é alta, e nem sempre as informações sobre eles são de fácil acesso, podemos realizar a amostragem dos alunos e, a partir dela, calcular a idade média de todos os alunos. Se essa análise resultar em um único valor, a estatística aplicada é considerada, então, um estimador pontual. Agora, se a estatística aplicada definir um intervalo de confiança para o valor médio das idades, teremos um estimador intervalar que, de modo simples, define uma faixa de possíveis valores para a idade média populacional. É importante distinguir os termos «estimador» e «estimativa». Um estimador é o conjunto de cálculos, ou seja, o método de determinação do parâmetro. Já a estimativa é o valor numérico obtido por meio do estimador. Ou seja, existe um estimador (a expressão para o cálculo de média, por exemplo) para que, com base na amostra, se obtenha a estimativa. Os estimadores pontuais são normalmente referenciados como os parâmetros amostrais: média amostral x desvio-padrão amostral s; variância amostral s²; e proporção amostral p̂. Deve-se ter em mente que, mesmo possuindo o mesmo https://cdn.pixabay.com/photo/2019/09/09/08/23/internet-4463031__340.jpg INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 24 nome das estatísticas aplicadas à população, as expressões aplicadas podem ser diferentes. Os estimadores são aplicados quando se deseja determinar um parâmetro populacional com base em uma amostra. Eles são de grande valia em diferentes áreas, pois a avaliação da população pode ser inviável, tanto pelos custos envolvidos, tempo limitado, ou mesmo pela impossibilidade da análise da população toda. Por exemplo, em pesquisas eleitorais, não é possível realizar pesquisas de intenção de voto semanalmente com todo os eleitores. Nesse caso, uma amostragem é feita, na qual apenas um pequeno grupo de eleitores é entrevistado e, com base em um estimador, pode-se determinar a proporção dos eleitores que desejam votar no candidato A ou B. Além disso, a margem de erro da pesquisa, sempre apresentada junto com o resultado, é também obtida por meio dos estimadores. Perceba que, ao término das eleições, essa margem de erro deixa de existir, uma vez que o resultado da eleição é o parâmetro da população. Da mesma forma, se desejamos estudar sobre os índices de pobreza ao redor do mundo, é inviável percorrê-lo perguntando a todos os habitantes sobre seus rendimentos. Assim, selecionam-se algumas regiões e, com base nos valores obtidos nelas, deduz-se que o restante do mundo possui as mesmas características. Agora, imagine uma situação em que se deseja determinar as taxas de um determinado composto no sangue. Qualquer análise envolvendo a população implicaria na avaliação de todo o sangue da pessoa, o que é inviável. Por isso, é feita uma coleta, que é basicamente uma amostragem e, com base nas informações obtidas nessa amostra, são estimadas as condições do paciente. Esse é, entre vários motivos, o responsável pelos resultados apresentarem intervalos de valores considerados saudáveis. Esses são apenas alguns exemplos da aplicação dos estimadores. Deve-se ter clareza de que os estimadores são aplicados quando desejamos expressar um valor populacional com base em uma amostra. Por esse motivo, o valor numérico obtido por meio de um estimador é a melhor estimativa para os valores da população. Aqui é importante destacar que, mesmo que a definição sobre estimador esteja relacionada à estatística, deve-se ter em mente que seu resultado é uma medida, um valor. Então, um sistema de medição, como, por exemplo, uma régua, é um estimador, já que fornece um valor referente à entidade em estudo. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 25 2.3 Propriedades Ao avaliar um estimador, deve-se ter em mente que ele representa um conjunto de variáveis aleatórias. Por esse motivo, seu valor depende das características da amostra selecionada. Ao avaliar a qualidade de um estimador, um parâmetro importante é o erro quadrático médio (EQM). Ele é a função da variância dos dados em torno da estimativa e a distância para o valor exato. Segue a expressão: EQM(T)=(T-θ)²=var(T)-(viés(T))² em que o termo T se refere ao valor do estimador avaliado (por exemplo, a média) e θ é o valor exato (obtido da população) do parâmetro estudado. Podemos, assim, identificar três parâmetros importantes na análise dos estimadores: o estimador pontual, que se refere ao valor do estimador T avaliado; a variância (o termo var(t)), relativa aos indivíduos em torno da estimativa; e o termo viés (parâmetro viés(t)) relacionado à distância entre a estimativa amostral e o valor exato do parâmetro avaliado. Além disso, antes de compreender as propriedades dos estimadores, devemos distinguir duas probabilidades envolvidas nas análises. A primeira probabilidade está envolvida na seleção dos indivíduos da amostra. E a segunda é a probabilidade de escolha de um valor dentro da amostra. Ao propor um estimador, algumas propriedades devem ser respeitadas. Um estimador que não respeite essas propriedades não pode ser considerado um bom estimador e, por isso, pode não representar corretamente os valores populacionais. São quatro as propriedades: suficiência; não viés (ou não tendencioso); consistência; e eficiência. Figura 03: Propriedades Fonte: https://cdn.pixabay.com/photo/2018/06/23/09/33/businessman-3492380__340.jpg https://cdn.pixabay.com/photo/2018/06/23/09/33/businessman-3492380__340.jpg INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 26 Um estimador é dito não viesado, ou não tendencioso, quando a estimativa calculada é igual à esperança do próprio parâmetro, ou o erro entre a estimativa e o valor exato (da população) é nulo. Isso ocorre quando a probabilidade de sorteio de cada elemento é igual, com a distribuição de probabilidade dos valores centrada na estimativa. Caso isso não ocorra, é dito que a amostra é polarizada, e o resultado obtido pela amostra pode tender a um valor diferente do valor exato do parâmetro. O critério de suficiência informa que a amostra selecionada possui tamanho suficiente para expressar de forma clara e completa o comportamento da população. Desse modo, a adição de qualquer outro indivíduo na amostra não representa melhoria nos resultados. Quando um estimador se torna suficiente, o valor obtido pelo estimador não é mais função do tamanho da amostra, uma vez que ele se torna constante. Um estimador possui consistência; essa propriedade se refere à relação entre o tamanho da amostra e a aproximação entre o valor estimado e o valor exato, o que é importante pois a maioria dos estimadores dependem do tamanho da amostra. A consistência informa que o aumento do tamanho da amostra implica na convergência das estimativas para o valor populacional. Se o estimador é bom, isso implica em dizer que o valor do parâmetro tende ao valor exato, com o valor do EQM diminuindo. O critério da eficiência define que, ao comparar dois estimadores, o melhor será aquele que apresentar menor erro quadrático médio (EQM). Quanto menor o EQM dentro da amostra, melhor a estimativa. Caso dois estimadores possuam o mesmo viés, a eficiência estará relacionada à dispersão (variância) dos elementos em torno do estimador. Os critérios de eficiência e de tendência dos estimadores também podem ser relacionados, respectivamente, à precisão e à acurácia dos valores. A acurácia define quão próximo a estimativa obtida pelo estimador está do valor exato. Então,um estimador não tendencioso possui acurácia alta. Do mesmo modo, um estimador não tendencioso eficiente é aquele que possui menor dispersão nos dados. Assim, pode-se dizer que está relacionado à precisão das informações, ou seja, quanto mais eficiente, mais preciso é o estimador. Os critérios de eficiência e de tendência dos estimadores também podem ser relacionados, respectivamente, à precisão e à acurácia dos valores. A acurácia define estimador não tendencioso possui acurácia alta. Do mesmo modo, um estimador não tendencioso eficiente é aquele que possui menor dispersão nos dados. Assim, pode-se dizer que está relacionado à precisão das informações, ou seja, quanto mais eficiente, mais preciso é o estimador. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 27 Como dito, os estimadores são funções que permitem estimar o valor populacional a partir dos dados amostrais. Existem diversos métodos para se obter estes estimadores, entre eles o método dos momentos e o método de máxima verossimilhança, que permitem identificar o melhor estimador pontual para cada parâmetro. O método dos momentos define que cada parâmetro avaliado possui um momento de ordem k. Um momento é a média dos valores da amostra elevados a k, ou seja: Ek = 1 n ∑ n i = 1 X k i O método consiste em igualar o k-ésimo momento, calculado por meio da expressão Ek ao k-ésimo parâmetro a ser estimado da população a partir de um conjunto de expressões, de modo a representar o parâmetro populacional com base no momento amostral. Esse método necessita do desenvolvimento de uma função específica para cada parâmetro relacionado à população. Por exemplo, para obter a média, aplicamos k = 1. Assim: x = 1 n ∑ n i = 1 Xi O método da máxima verossimilhança afirma o estimador pontual; é um valor que maximiza a probabilidade de se obter uma distribuição cujo valor possui maior chance de estar correto. A partir do conhecimento prévio sobre o comportamento da função de probabilidade da amostra f(x) é possível obter a expressão para o estimador, por meio do produtório das probabilidades, em que N é o tamanho da população de cada elemento da amostra. ISTO ESTÁ NA REDE Link: https://www.youtube.com/watch?v=KF9IrsAlc_E Desenvolvido o produtório, é aplicado o logaritmo natural na função L(x). Depois, calculamos a derivada e igualamos a zero. Esse procedimento é realizado quando se busca a função que maximize a probabilidade da distribuição. Por exemplo, caso a probabilidade da variável aleatória x seja a normal N(μ,σ²), em que μ e σ² são, respectivamente, a média e a variância populacional, poderemos obter o estimador de máxima verossimilhança. https://www.youtube.com/watch?v=KF9IrsAlc_E INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 28 ANOTE ISSO Para a obtenção do estimador de máxima verossimilhança, foi aplicado o conceito de otimização que destaca o maior valor (ou menor) de uma função quando a derivada dela é nula. Mas esse tipo de otimização, na maioria dos casos, é feito por meios numéricos, aplicando ferramentas computacionais, já que, dependendo da função de probabilidade, pode não ser possível encontrar a derivada por meios analíticos. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 29 AULA 03 DISTRIBUIÇÕES AMOSTRAIS Olá Caro (a) Aluno (a), ao se estudar a probabilidade de um valor ser selecionado em uma amostra, é avaliada uma distribuição amostral. Essas distribuições são de grande importância na Inferência Estatística, pois permitem estimar a confiança das estimativas realizadas. Uma distribuição amostral é definida como uma distribuição de probabilidades de um parâmetro estatístico obtido de uma amostra aleatória. O comportamento dessa distribuição depende da distribuição de probabilidade da população original, do tamanho da amostra e do tipo de amostragem realizada. Para obter uma distribuição amostral, é definido o tamanho da amostra a ser avaliada e é calculada a estimativa para todas as amostras possíveis com o tamanho definido. Construindo um histograma com os valores obtidos, podemos observar a distribuição amostral daquela população para um determinado tamanho de amostra. 3.1 Variáveis Aleatórias Por definição, uma variável aleatória é uma função que define o valor numérico de uma variável quantitativa, cujo valor é definido de forma aleatória. Por exemplo, em um sorteio, o elemento é escolhido “na sorte”, sem que haja um fator que afete as chances da variável. Então, a amostragem a ser aplicada para a análise deverá ser realizada de forma aleatória. Uma variável aleatória pode ser contínua, aquela cujo intervalo de valores admitidos é ilimitado, ou discreta, que pode assumir uma quantidade limitada de valores. Por exemplo, a variável aleatória peso de uma pessoa é uma variável aleatória contínua, pois é capaz de assumir qualquer valor. Agora, as faces de um dado definem uma variável discreta, já que pode assumir apenas seis valores diferentes. Existem dois parâmetros a serem avaliados em uma variável aleatória: a esperança e a variância. A esperança, ou média, é um valor numérico aplicado como resumo do comportamento da variável aleatória. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 30 É obtida pela somatória do valor da variável e a probabilidade relacionada ao valor: E(x) = n i = 1 xi pi ∑ • A variância é o grau de dispersão dos valores da variável em torno de sua média ou esperança: E(x2 e ) = n i = 1 xi 2 pi Ao estudar a distribuição amostral em que o parâmetro de análise é a média, o histograma formado pelos resultados obtidos em todas as amostras possíveis se comporta como o exemplo da Figura abaixo: Figura 04: Distribuição Amostral Fonte: Autor (2022). Observe que, quanto maior for o número de elementos da amostra, mais o histograma se assemelha com a distribuição normal destacada na curva em laranja. Isso significa que quanto maior for o número de elementos da amostra, mais próximo o valor estimado é do valor exato, já que cada vez mais amostras fornecem esse valor. O limite dessa análise seria uma amostra com todos os elementos da população que resultaria em uma única barra coincidindo com o valor exato da população. Quando se aumenta o grau de confiança de um estimador, maiores são as chances de o intervalo de confiança obtido conter o valor exato, já que a faixa de valores possíveis é maior. Dessa forma, o controle do tamanho do erro que rejeita um valor verdadeiro por este meio deve ser evitado, uma vez que é criada uma faixa de valores muito grande. Considere, por exemplo, uma distribuição amostral em que E(x) = μ e var(x) = σ². A aproximação da amostra com relação a uma distribuição normal depende do tamanho da amostra e da distribuição da população original. Em muitos casos, a aproximação é válida se o número de elementos for maior ou igual a 30, independentemente da distribuição da população originária. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 31 Se a amostra possuir um comportamento normal, a probabilidade da variável aleatória poderá ser descrita pela distribuição N(μ;σ²) e os parâmetros amostrais podem ser estimados pelas expressões: s2 e = = n n i = 1 i = 1 (xi - x) ∑ ∑ 2 1 σ2 1 n n n-1 xi x = μ = Por isso, uma distribuição amostral de médias segue três propriedades matemáticas: • A média da distribuição amostral é igual à média da população original; • O desvio-padrão da distribuição amostral é igual a σ ⁄√n; • A forma da distribuição é aproximadamente igual à da distribuição normal. Como a distribuição é normal, podemos normalizar seus valores conforme a distribuição com média zero e variância unitária, ou seja: =N(0;1) n Uma das aplicações mais comuns do teorema do limite central é o cálculo da probabilidade para definir se um determinado evento ocorre em uma distribuição normal ou quase normal. A probabilidade de um evento ocorrer é obtida por meio da integral da funçãode probabilidade. Como normalmente as intergrais são de difícil solução, é comum que os valores sejam apresentados por meio de tabelas. No caso da distribuição normal, retira-se a probabilidade apresentada nas tabelas da integral, compreendida no intervalo (-∞;z). Por exemplo, a probabilidade de uma variável aleatória possuir valor menor que x = 3 em uma amostra N(4;10) composta de 50 elementos, é obtida por meio da normalização dos valores para a variável z: P(x < 3) = P(z < -2,23) = 0,0128 = 1,28% Outra aplicação do teorema do limite central é nas distribuições de probabilidade no estudo de intervalos de confiança e em testes de hipóteses. Os intervalos de confiança são estimadores de parâmetros que fornecem uma faixa de valores. Podem, então, representar o valor populacional desse parâmetro. Já os testes de hipótese são estatísticas aplicadas para avaliar uma suposição com relação à população a partir dos dados amostrais. Como o teorema destaca que a maior proporção dos valores é disposta nas proximidades do valor exato, então, ao observar qualquer distribuição amostral, podemos dizer que a condição de igualdade entre os valores amostral e populacional está localizada na região próxima ao pico da distribuição. Por exemplo, ao estudar a distribuição t de Student, que possui o formato mostrado. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 32 Quando avaliamos os parâmetros estatísticos de uma população através de uma amostra, os valores obtidos não são exatos, contendo um erro amostral também chamado de variabilidade amostral. De modo geral, o erro amostral é a diferença entre os valores amostrais e os valores exatos oriundos da população. Relembrando as distribuições amostrais, sabemos que duas amostras diferentes, retiradas da mesma população, podem resultar em estimativas erradas. Isso ocorre porque a amostra não contém todos os integrantes da população. Então, é possível que a amostragem não contemple elementos que afetam de forma signifi cativa as estimativas. Além dos erros amostrais, consequência do processo de amostragem, existem outras fontes de erro, originadas, por exemplo, da escolha de uma função de probabilidade inadequada, ou erros aleatórios não relacionados diretamente à amostragem, como a formulação incorreta de questionários. Em uma pesquisa eleitoral, a amostra pode ser viesada caso ela ocorra apenas em uma região, já que tal região pode privilegiar um candidato em relação a outro. O erro amostral pode ser controlado de diferentes formas, entre elas: • Aumento da amostra: pelo princípio da consistência, quanto maior o tamanho da amostra, mais próximo da população a amostra é e, consequentemente, menor o EQM. Um modo de minimizar esse detalhe é o cálculo da menor dimensão possível da amostra a partir da determinação da maior margem de erro percentual E0 do estimador, da confiança desejada α, e do desvio-padrão σ obtido de uma amostra inicial com no mínimo 30 elementos: • Substituição dos estimadores: é possível aplicar um estimador baseado em uma distribuição diferente, que resulte em uma variação menor; • Aumentar o grau de confiança do estimador: ao obter estimadores intervalares, aumentar a confiança do estimador resulta em uma faixa maior de valores considerados verdadeiros. Exemplo: Se quisermos determinar o tamanho de uma amostra que possua uma variação nos valores de 2%, a ser retirada de uma população de 1.000 indivíduos, aplicaremos os cálculos: n = 0,02 = 2.500 2 1 N 1.000 2.500 714,28 = 715 N + n0 1.000 + 2.500 n0 = e n0 INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 33 Nesse caso, a amostra deverá possuir 715 indivíduos. Como já foi dito, os estimadores permitem estimar o valor populacional de um parâmetro com base em dados amostrais. Além disso, vimos que existem os estimadores pontuais, que fornecem um valor, chamados de média amostral; e os estimadores intervalares, que são denominados intervalos de confiança, que fornecem uma faixa de possíveis valores para o parâmetro populacional. 3.2 Estimação de Médias Mas como chegar aos estimadores intervalares para a média e para a diferença entre duas médias? Dependendo das condições da amostra avaliada, estes estimadores são calculados com base nas distribuições normal e t de Student. Antes de conhecer as estimativas para determinar a média, é válido conhecer os conceitos de significância e de confiança. A confiança, ou índice de confiança, é a probabilidade de o valor estimado estar correto. De modo simples, o índice de confiança determina o tamanho do intervalo no qual existe uma probabilidade de que o valor populacional esteja presente, considerando que existem valores não amostrados que provocam pequenas variações na estimativa pontual. A significância, definida pela letra α, é definida como a probabilidade de erro na estimativa. Ela define os intervalos que compreendem os casos extraordinários como, por exemplo, de um indivíduo que não foi amostrado e cujo valor é tão discrepante que afeta de forma significativa o valor da média amostral. Uma relação entre estes dois conceitos é que a soma da significância e da confiança deve ser igual a 1 ou 100%. Então, os intervalos definidos para cada um dos termos devem compreender todo o intervalo de variação do parâmetro avaliado. Como mostra a figura abaixo podemos dizer, de modo simples, que existem os intervalos para valores iguais à média, definidos pelo índice de confiança, e os intervalos de valores diferentes da média, sejam eles maiores ou menores do que a média. Por esse motivo, a significância é dividida pela metade, uma vez que são dois intervalos ditos diferentes da média: INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 34 Figura 05: Intervalos Fonte: Autor(2022). Para determinar o tamanho dos intervalos de confiança, devemos calcular os valores críticos da distribuição de probabilidade. Estes valores são aqueles que definem a probabilidade desejada. Relembrando o conceito de probabilidade, ela é a área abaixo da função probabilidade definida a partir de -∞. Então, para saber o valor-limite dos intervalos de confiança para a média, basta calcular os valores que delimitam as probabilidades da significância. Quando a amostra a ser avaliada segue uma distribuição normal e possui um número de elementos grande (maior ou igual a 30), ou possui a variância populacional σ² conhecida, é possível estimar um intervalo de confiança para a média aplicando a distribuição normal ou distribuição z. Nesse caso, as probabilidades definidas pela significância e pelo índice de confiança serão obtidas com base na variável normalizada z. Para estimar a média em casos em que a variância σ² (ou o desvio-padrão σ) populacional é conhecida, ou é pré-definida, calculamos a margem de erro por meio da expressão: E = Zcrítico . σ n Para casos em que a variância populacional é desconhecida, porém a amostra é composta de mais de 30 elementos. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 35 Uma forma de representar o intervalo de confiança da média por meio de uma expressão é IC(μ,1 - α). Isso quer dizer que, se for informado que é de interesse o cálculo do IC(μ,0,95), é o mesmo que dizer que desejamos obter o intervalo de confiança para a média com 95% de confiança, ou 5% de significância. Exemplo: Imagine que desejamos obter um intervalo de confiança de 99% para as notas conquistadas na disciplina de Estatística. Para isso, foram amostrados 50 alunos, que forneceram uma média amostral de 7,5 e desvio-padrão de 2. Para resolver esse exemplo, primeiro devemos observar os dados da amostra. Nesse caso não conhecemos as informações sobre a variância populacional, mas temos uma amostra com mais de 30 elementos. Então, aplicaremos a estatística: E = Z(α/2) . s n Para obter o valor de Zcrítico, consultaremos a Tabela 1, buscando a confiança de 99%, ou a significância α ⁄2 de 0,5% (ou0,005). Com isso, temos que: Zcrítico = 2,57. De posse dos valores amostrais da média, do desvio-padrão e do Zcrítico, seguiremos o procedimento para obter o intervalo de confiança. Primeiro, calcular a margem de erro: E = Z(α/2) . s n = 2,57 . = 0,72 2 50 O cálculo dos extremos: Extremo mínimo = x_ - E = 6,78 Extremo máximo = x_ + E = 8,22 E calcular o intervalo de confiança: 6,78 < μ < 8,22 ou IC(μ,0,99) = (6,78;8,22) Isso implica dizer que, se a distribuição for normal, existe 95% de chance de o valor da média populacional estar entre 6,78 e 8,22. A informação fornecida pelo intervalo de confiança também pode ser interpretada como uma nota média de 7,5, com uma margem de erro de 0,72 para mais ou para menos. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 36 Perceba que a parte mais importante do cálculo do intervalo de confiança está em identificar qual o parâmetro desejado (a média), a confiança (ou significância) desejada, e os dados fornecidos (média, desvio-padrão e tamanho da amostra). Com isso é identificada a estatística desejada, são consultadas as tabelas para se obter os valores críticos e, depois, desenvolvem-se os cálculos. 3.3 Estimativas Menores Caso a amostra for pequena, isso é, possuir menos de 30 elementos, e a variância populacional não for conhecida, será aplicada a distribuição t de Student para obtenção dos valores-limites. Devido a seu comportamento semelhante, a distribuição t de Student possui as mesmas propriedades da distribuição normal, diferenciando-se apenas no conceito do grau de liberdade. A figura baixo mostra o comportamento da distribuição t de Student quando comparada à distribuição normal, deixando claro que, quanto maior for o grau de liberdade da amostra, mais próximo é o comportamento da distribuição com relação à distribuição normal. Figura 06: Distribuição Normal Fonte: Autor (2022). Agora, imagine que desejamos estimar um intervalo de confiança para a diferença entre duas médias populacionais μ1 e μ2 com base em amostras obtidas de cada população. De forma simplificada, pode-se representá-lo como IC(μ1 -μ2,1-α). Novamente, para o desenvolvimento dessa estimação, devemos nos perguntar a respeito das características das duas amostras. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 37 Se as duas amostras possuírem um comportamento normal e possuírem a variância populacional conhecida, é possível estimar o intervalo de confiança com base na distribuição normal. Considere que a amostra 1 possua média amostral x _ 1 , variância populacional σ1 ² e tamanho da amostra n1 , e que a amostra 2 seja definida pela média amostral x 2, variância populacional σ2 ² e tamanho da amostra n2. Exemplo: Imagine que desejamos saber a diferença salarial entre setores de uma empresa. Para isso, foram observados, no setor A, os salários de oito funcionários, resultando em uma média salarial de R$ 5.000,00. O desvio-padrão apresentado entre todos os salários do setor é conhecido, e vale R$ 1.200,00. A mesma análise foi realizada no setor B, com a amostragem de quatro funcionários, que obtiveram média salarial de R$ 8.000,00. O desvio-padrão de todos os salários desse setor é conhecido, e vale R$ 800,00. Então, obtenha o IC(μ1 -μ2 ,0,95). Agora, imagine que não conhecemos as variâncias populacionais das duas populações-alvo da pesquisa, mas sabemos que elas são iguais. Nesse caso, podemos calcular o intervalo de confiança da diferença entre as duas populações aplicando uma estatística diferente. Para calcular o intervalo de confiança da diferença entre as amostras em que a variância populacional é desconhecida, porém são iguais, precisaremos dos dados referente à média e variância amostrais e do número de elementos de cada amostra. É comum, em análises, avaliar a proporção em que um evento ocorre dentro de uma população. Por exemplo, ao se avaliar a taxa de emprego, é avaliada a proporção entre empregados e desempregados em uma população. Em outro exemplo, como em uma pesquisa eleitoral, os números apresentados para cada candidato se referem à proporção da população que tem a intenção de votar no candidato A ou B. Para avaliação da proporção de um determinado evento em uma população, devemos considerar que a variável avaliada possui uma distribuição de Bernoulli. Isso quer dizer que a variável apresenta uma probabilidade de estar em conformidade com a situação dita como “sucesso”, e a probabilidade restante é definida como “fracasso”. Vale lembrar sempre que a soma das probabilidades de sucesso e de fracasso devem totalizar 100% das possibilidades. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 38 Para estimar o intervalo de confiança para a proporção, inicialmente devemos avaliar se é possível a aproximação para a distribuição normal conforme a regra mostrada para o teorema do limite central, ou seja: np≥5enq=n(1-p)≥5 Validado esse critério, podemos aplicar a distribuição normal como distribuição de probabilidade usada para calcular o intervalo de confiança. Do mesmo modo que desenvolvido para o intervalo de confiança da média, temos o intervalo de confiança delimitado na região central da distribuição normal, com a significância definindo o tamanho das regiões em que a proporção amostral é diferente da populacional. Então, o valor crítico usado para calcular o tamanho do intervalo de confiança é definido como Z(α ⁄2) para um intervalo de confiança IC(p,1-α). Para determinar o tamanho mínimo da amostra, a fim de que se forneça alguma informação válida, deve-se primeiro definir a significância α do intervalo que será construído posteriormente e a margem de erro E máxima desejada. Nesta aula, foram apresentados os conceitos de estimadores para os parâmetros de média e proporção populacional. Eles são importantes, pois, se aplicados corretamente, fornecem informações confiáveis sobre todos os valores de uma população sem a necessidade de conhecê-los. A estatística inferencial, a partir de seus estimadores, permite a redução de custos e tempo, já que não devemos pesquisar toda a população para ter informações sobre um parâmetro, pois, com base em uma amostra, pode-se ter uma certa confiança nas análises realizadas. Vimos que, para isso, a amostra não pode ser viciada, já que forneceria dados tendenciosos. Ademais, deve ter um número de elementos suficientes para garantir uma análise confiável. Foram ainda apresentados os conceitos de erro amostral, importantes para compreender como os dados amostrais podem representar ou não a população; tal como os estimadores pontuais, normalmente chamados de parâmetros amostrais e os intervalares, chamados de intervalos de confiança. Sobre este último, vimos os conceitos relacionados às distribuições de probabilidade amostrais e ao teorema do limite central. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 39 Entendeu-se que os intervalos de confiança seguem uma probabilidade de estarem corretos, cujo tamanho é definido pela confiança e pela significância desejada. De modo geral, o roteiro para definir o tamanho do intervalo de confiança requer, primeiramente, que seja identificada a distribuição de probabilidade a ser aplicada, para obter seus valores críticos com base na significância, depois obter a margem de erro conforme cada estatística e calcular o intervalo de confiança. Vimos também como calcular o tamanho de amostras, o que é muito importante para que se tenha uma quantidade de elementos suficientes para que as análises realizadas sejam aceitáveis. De posse dos intervalos de confiança, podemos realizar algumas análises. Por exemplo, para termos certeza que a quantidade de votos de um candidato não é igual a de outro, devemos avaliar se não existe nenhum trecho do intervalo de confiança se sobrepondo. Se existir algum valor que seja igual em dois intervalos, significa que existe uma chance de que a quantidade de votos seja igual.Assim, concluímos que diversos conceitos são essenciais para um levantamento estatístico adequado. ISTO ESTÁ NA REDE Link: https://www.youtube.com/watch?v=uR6gBmdpn4c A econometria tem aplicações distintas, divididas em dois grandes grupos: os testes de hipóteses e a determinação de parâmetros de estimação. Ao estudar os parâmetros referentes a uma população, todos os indivíduos são conhecidos e, por isso, temos certeza dos resultados. Agora, ao estudar o comportamento de amostras, não é possível determinar com exatidão os resultados. Nesse caso, a estatística inferencial aplica os testes de hipóteses. Eles estão associados à confirmação de algum fato sobre a população, com base em uma informação amostral. Por exemplo, a expressão “tecnicamente empatados”, usada nas eleições, reflete o resultado de um teste de hipótese com relação à possibilidade de dois candidatos possuírem a mesma quantidade de eleitores, quando observados os votos da população total. Essa é apenas uma das possibilidades da aplicação da estatística inferencial e de seus testes. https://www.youtube.com/watch?v=uR6gBmdpn4c INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 40 ANOTE ISSO Ao aplicar a econometria de modo prático, é necessário determinar a média e a variância utilizando amostras. Para esse tipo de análise, utiliza-se a estatística inferencial, amplamente aplicada na validação de resultados obtidos quando se tem amostras. Para entender a importância da estatística inferencial, imagine o período eleição: durante as pesquisas de intenção de votos, apenas um pequeno número de eleitores é entrevistado. Por conta disso, os resultados apresentam uma margem de erro. Isso quer dizer que, se a pesquisa for feita com todos os eleitores (como ocorre na eleição propriamente dita), existe uma chance de os resultados estarem dentro daquele intervalo de valores. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 41 AULA 04 HIPÓTESES ESTATÍSTICAS PARAMÉTRICAS Olá Caro (a) Aluno (a), os testes podem ser definidos como testes paramétricos e não paramétricos. Um teste paramétrico supõe um comportamento conhecido da amostra diante de uma distribuição de probabilidade conhecida, como a distribuição normal ou qui-quadrado. Já o teste não paramétrico pode ser usado em qualquer amostra, mas possui um custo matemático maior em seu desenvolvimento. Por esse motivo, os dados amostrais são comparados com a distribuição equivalente para a obtenção da hipótese correta. Um teste paramétrico tem por vantagem o desenvolvimento mais simples e de fácil compreensão, inclusive permitindo o estudo de dados não numéricos. 4.1 Estruturas das Hipóteses Como não são conhecidos todos os indivíduos da população ao realizar um teste estatístico, é definida uma margem de confiança do teste. Por isso, jamais considere o valor obtido em uma amostra como exatamente igual ao valor obtido para a população. A função primordial de um teste é prover uma informação com relação à população ao usar este tipo de teste de forma indiscriminada, já que tendem a reduzir as informações referentes à amostra usada. Por isso, não são tão eficientes em condições nas quais o teste paramétrico poderia ser usado. Ao executar um teste, devemos ter em mente que ele possui sempre como resposta duas possibilidades: verdadeiro ou falso. Este fator deve estar bem claro, a fim de que não haja interpretações equivocadas. Quando se deseja realizar um teste de qualquer tipo, primeiro deve-se levantar uma suposição, definida como aquilo que se pretende ter como verdadeiro. Com base nela, são criadas duas hipóteses: uma que avalia sua veracidade (hipótese nula ou H0) e outra que nega ou rejeita a hipótese nula (hipótese alternativa ou H1 ). Então, por definição, uma hipótese estatística é uma suposição levantada com relação a algum parâmetro de uma variável amostral. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 42 Nesse sentido, o teste de hipótese é o processo aplicado para confi rmá-la ou rejeitá-la com base nas informações amostrais. Para entender como são propostas as hipóteses, é possível pensar no exemplo da eleição. Se for de interesse avaliar se um candidato possui o mesmo número de votos que outro, com base na pesquisa de intensão de votos, as hipóteses levantadas são: H0 : o número de votos é igual H1 : o número de votos é diferente) A partir disso, deve-se avaliar se a hipótese se refere ao valor da variável ou a sua variação. No caso exemplificado, a hipótese é referente ao valor e está relacionada ao estudo da média. Então, considerando que o número de votos do candidato 1 vale μ1 e do candidato 2 vale μ2, a hipótese é ser reescrita como: : H0 : μ1 = μ2 H1 : μ1 ≠ μ2 Nesse caso, ao aplicar o teste correspondente, a resposta a ser dada indica se hipótese H0 está correta ou não. Agora, imagine que é de interesse saber, com base na pesquisa de intenção de votos, se o candidato 1 será eleito no primeiro turno. Para que isso ocorra, sabe-se que o candidato deverá ter mais da metade dos votos. Perceba agora que estamos interessados na proporção dos eleitores. A aplicação do teste envolve uma expressão matemática, cujo resultado deve ser analisado antes que seja dada a conclusão do problema. Nessa análise da hipótese H0, é possível que ocorram dois tipos de erros: o tipo I e o tipo II. O erro de tipo I está relacionado a rejeitar a hipótese H0 quando ela é verdadeira. É o erro conhecido como o falso negativo. Por exemplo, ao testar a hipótese de igualdade dos votos, suponha que a hipótese nula H0 (número de votos igual) seja verdadeira. Então é correto dizer que o número de votos é igual. Caso a conclusão fornecida seja que os votos sejam diferentes, temos um erro do tipo I. A probabilidade de cometer um desses erros está relacionada ao nível de confiança ou significância do teste, definida pela letra α. INTRODUÇÃO À ECONOMETRIA PROF. FACULDADE CATÓLICA PAULISTA | 43 Já o erro de tipo II se refere a aceitar a hipótese H0 quando ela é falsa. É conhecido como o falso positivo. Por exemplo, considere que a hipótese alternativa H1 (número de votos diferente) seja verdadeira no caso da igualdade de votos. Então, é correto dizer que o número de votos é diferente. Caso a conclusão fornecida seja que os votos sejam iguais, temos um erro do tipo II. A probabilidade de cometer um erro desse tipo está relacionada ao poder do teste, representado pela letra β. Para fornecer uma resposta referente à população com base em um teste de hipótese, é necessário definir uma margem de valores assumidos como verdadeiros. No exemplo da campanha eleitoral, essa margem se apresenta como a faixa de valores de intenção de votos para cada candidato. Lembre-se que dentro dessa margem todos os valores são estatisticamente iguais, enquanto os valores fora do intervalo. Dito isso, podemos definir a região crítica como o intervalo de valores no qual a variável estudada pelo teste de hipótese tem a hipótese H0 rejeitada. Para obter a região crítica a ser avaliada no teste, analisa-se o índice de significância requerida do tipo de teste e da distribuição usada para comparação. Ao defini-la, a regra de decisão é realizada dispondo o valor a ser testado. Ele é obtido por meio de uma estatística dentro do intervalo de valores possíveis. Assim, é possível dizer que a hipótese H0 é rejeitada quando o valor está dentro dessa região crítica. Caso contrário, H0 é aceita. Suponha que, na pesquisa eleitoral, o candidato 1 possua a intenção de votos de 25 pontos, com uma margem de erro de 2 pontos para mais ou para menos. Isso quer dizer que os valores compreendidos entre 23 pontos e 27 pontos são estaticamente iguais a 25 pontos o são considerados diferentes. 4.2 Testes de Significância Para desenvolver um teste de hipótese (ou de significância), deve-se seguir uma sequência de ações. Primeiramente, é preciso identificar a variável avaliada, a qual
Compartilhar