Baixe o app para aproveitar ainda mais
Prévia do material em texto
FUNDAMENTOS DE ESTATÍSTICA Webconferência IV Professor(a):Mabel Lopes Teste qui quadrado De acordo com Larson e Farber (2015), um teste de ajuste qui- quadrado é usado para testar se uma distribuição de frequência se encaixa em uma distribuição esperada. Estabelecer as hipóteses nula e alternativa. Em geral, a hipótese nula estabelece que a distribuição de frequência se ajusta à distribuição esperada e a hipótese alternativa que a distribuição de frequência não se ajusta. Frequência observada O: é a frequência da categoria observada nos dados da amostra. Frequência esperada E: é a frequência calculada para a categoria. A frequência esperada para a i-ésima categoria é: Onde n é o tamanho da amostra e pi é a prob. assumida da i-ésima categ. Teste qui quadrado Para usar o teste qui quadrado, as seguintes observações devem ser verdadeiras. 1. As frequências observadas devem ser obtidas usando uma amostra aleatória. 2. Cada frequência esperada deve ser maior ou igual a 5. Se essas condições forem satisfeitas, então a distribuição amostral para o teste é aproximada por uma distribuição qui quadrado com k-1 graus de liberdade , sendo o número de categorias. A estatística de teste é : Obs.: uma estatística de teste grande é uma evidência para rejeitar a hipótese nula. Teste qui quadrado Instruções para realizar o teste qui quadrado: Tabela Distr. Qui Quadrado Teste qui quadrado Ex .(Larson e Farber, 2015): Uma associação de comércio varejista afirma que os meios de preparação de imposto são distribuídos conforme mostrado na Tabela. Uma consultoria de impostos seleciona aleatoriamente 300 adultos e pergunta como eles preparam seus impostos. Os resultados encontram- se na tabela. Para 𝛼= 0,01, teste a afirmação da associação. Teste qui quadrado Como as frequências observadas foram obtidas usando uma amostra aleatória e cada frequência esperada é maior do que 5, podemos usar o teste qui-quadrado para testar a qualidade do ajuste para a distribuição proposta. As hipóteses nulas e alternativas são as seguintes. a distribuição esperada dos métodos de preparação de impostos é: 24% por contador, 20% à mão, 35% com programa de computador, 6% por amigo ou familiar e 15% com consultoria de impostos.(Afirmação) : a distribuição dos métodos de preparação de impostos difere da distribuição esperada. Como há 5 categorias, a distribuição qui quadrado tem g.l=5-1=4, α=0,01, o valor crítico é 𝜒0²=13,277. A região de rejeição é 𝜒 2 > 13,277. Teste qui quadrado 𝜒2 = (𝑂 − 𝐸)² 𝐸 = (61 − 72)2 72 + (42 − 60)2 60 + (112 − 105)2 105 + (29 − 18)2 18 + (56 − 45)2 45 ≈ 16,958 Como 𝜒2 está na região de rejeição, pela figura, então rejeitamos a hipótese nula. Interpretação: Há evidências suficiente , ao nível de significância de 1%, para rejeitar a afirmação de que a distribuição dos meios de preparação dos impostos observada e a distribuição esperada da associação são as mesmas. Distribuição F Comparando duas variâncias (distribuição F): Para variâncias diferentes, designe a maior variância amostral como . Isso significa que F será sempre maior ou igual a 1. Instruções para encontrar os valores críticos da distribuição F Tabela de distribuição F (Larson e Farber, 2015) Teste F O teste F com duas amostras compara duas variâncias populacionais usando uma amostra de cada população. Teste F Instruções para utilizar o teste F: Teste F Exemplo: Um gerente de restaurante está criando um sistema que se destina a diminuir a variância do tempo que os clientes esperam antes de suas refeições serem servidas. Com o antigo sistema uma amostra aleatória de 10 clientes teve uma variância de 400. Com o novo sistema, uma amostra aleatória de 21 clientes teve uma variância de 256. Para α=0,10, há evidência suficiente para convencer o gerente a mudar para o novo sistema? Suponha que ambas as populações são normalmente distribuídas. Sol.: Como 400>256, então 𝑠1 2 =400 e 𝑠2 2 = 256 . Portanto, 𝑠1 2 e 𝜎1² representam as variâncias da amostra e da população do sistema antigo, respectivamente. Com a afirmação: A variância dos tempos de espera no novo sistema é menor que a variância dos tempos de espera no sistema antigo. Então as hipóteses são: Teste F 𝐻0: 𝜎1² ≤ 𝜎2² 𝐻𝑎: 𝜎1 2 > 𝜎2² (Afirmação) O teste é unilateral à direita com α=0,10, e os graus de liberdade são g.ln= n1-1 = 10-1=9 e g.ld=n2-1= 21-1=20. Então o valor crítico é 𝐹0 = 1,96 e a região de rejeição é F>1,96. A estatística de teste é : F = 𝑠1 2 𝑠2 2 = 400 256 ≈ 1,56. Como F não está na região de rejeição, não rejeitamos a hipótese nula. Interpretação: Não há evidência suficiente, ao nível de significância 10%, para convencer o gerente a trocar de sistema. Números- Índices Os números-índices são usados para indicar variações relativas em quantidades, preços ou valores de um artigo (artigos) durante certo período de tempo. Eles resumem as modificações nas condições econômicas em um espaço de tempo, através de uma razão. Esses números nos ajudam a quantificar variações em diversos setores, tais como: financeiro, agrícola, alimentício, imobiliário... Ex.: ao se escutar que os produtos da cesta básica aumentaram 3 pontos em relação ao ano passado, ou que o mercado de ações abriu em baixa de 12 pontos. Outro ex.: é o IPC (índice de preço ao consumidor)é um dos índices que mede a inflação. Os índices de inflação são usados para medir a variação dos preços e o impacto no custo de vida da população. Números- Índices 1. Números índices simples: quando apenas um item (produto) é computado. Um período é escolhido como base, e todos os índices são computados em relação aos registros deste período específico. Os números índices simples podem ser de preço, quantidade e de valor. Vejamos as equações: Números- Índices Ex.1:- Uma siderúrgica produz chapas de aço. No ano de 2015 a chapa custava R$ 45, e em 2016 R$ 47,5. Em 2015 a empresa produziu 1500 toneladas, e em 2016, 1567 toneladas. Calcular os números índices de preço, quantidade e valor para a chapa de aço tomando o ano de 2015 como base. Sol.:O período base é 2015, então: O períoda atual é 2016, então: Os índices de preço, quantidade e valor são: Aumento de 5,56% Aumento de 4,47% Aumento de 10,27% Números- Índices Considere agora a situação em que temos mais de um produto e estamos interessados em estudar variações de preços ou quantidade para todos os produtos conjuntamente. Ex.: Veja na tabela os produtos presentes na cesta básica que compõem o café da manhã típico da maioria dos brasileiros. Vamos criar um índice desse grupo de alimentos para 2014 usando como base 2013. Números- Índices Esses próximos índices foram calculados usando a fórmula passada. Condensando todos os índices em um só índice, calcularemos a média simples de preços relativos: Esse valor indica que a média desse grupo de índices cresceu 6,36% de 2013 para 2014. Números- Índices Uma vantagem : podemos obter o mesmo valor dos índices apesar das diferentes medidas de seus componentes. Uma desvantagem: é que ele deixa de considerar a importância relativa dos itens incluídos. ( o mesmo peso) 2. Números índices compostos: expressam variações no preço, quantidade ou valor de um grupo de itens. Atribuem pesos diferentes para os itens que os compõem, isso nos permite dar uma ênfase maior às variações de cada item. Os índices compostos mais utilizados são: - Índice de Laspeyres (época básica): ponderação é feita em função dos preços ou quantidades do período base. Podem ser calculados índices de preço e quantidade. Números- Índices - Índice de Paasche (época atual): ponderação é feita em função dos preços ou quantidades do período “atual”. Podem ser calculados índices de preço e quantidade. - Outros índices: Fischer, Marshall - Edgeworth,Drobish, Divisia, e os índices de preços normalmente utilizados no Brasil (IGP-M, INPC, IPC-A, ICV do DIEESE, IPC da FIPE). Índice de Laspeyers: a ponderação é feita em função dos preços e quantidades do período base. Por causa disso ele tende a exagerar a alta, por considerar as quantidades (ou preços) iguais aos do período base. As equações: Números- Índices Ex.: O índice de Laspeyres é dado por: Números- Índices -Índice de Paasche: a ponderação é feita em função dos preços e quantidades do período atual. Por causa disso ele tende a exagerar a baixa, por considerar as quantidades (ou preços) iguais aos do período atual. O índice de Paasche para o mesmo ex. dos itens do café da manhã é: Números- Índices -Índice ideal de Fischer: foi proposto como uma tentativa de compensar os problemas apresentados pelos outro índices. O índice ideal de Fisher é definido como a média geométrica dos índices de Laspeyers e Paasche: Raramente é utilizado por apresentar o mesmo problema do índice de Paasche, determinar um novo conjunto de quantidades a cada ano. O índice ideal de Fischer para o ex. anterior nos dá: Números- Índices “As variações de preço, causadas por inflação ou deflação, podem obscurecer as variações de quantidade”. Às vezes o que parece ser um crescimento de vendas, ou aumento na participação no mercado (por apresentar maior faturamento) deve-se mais a flutuações de preços, ou desvalorizações cambiais, do que realmente a acréscimos nas quantidades vendidas. Este problema torna-se mais grave se examinamos longas séries temporais, incluindo vários anos (considerando, no caso do Brasil, as grandes mudanças estruturais que a economia sofreu, o problema torna-se ainda mais sério). Neste caso, precisamos remover o efeito da inflação nos valores de uma série temporal. Devemos procurar um número índice apropriado para isso. Números-Índices Um índice de preços usado para equiparar valores monetários de diversas épocas ao valor monetário de uma época base é chamado deflator. - se for uma empresa que vende diretamente ao consumidor final, no varejo, utilizar como deflator um índice de preços ao consumidor (como o IPC-A do IBGE, o IPC da FIPE, etc.); - se a empresa vender bens de capital, ou realizar vendas no atacado, devemos utilizar um índice que retrate as flutuações de tal mercado (como o IGP-M da Fundação Getúlio Vargas, do qual 60% deve-se ao Índice de Preços por Atacado, calculado pela mesma instituição). - se a empresa exporta, seria interessante incluir também a flutuação da taxa de câmbio do país (ou países de destino). Números-Índices Ex.: Obtenha o faturamento real a preços de 1999. Faturamento da empresa 100 R$ em 1999 equivalem a 105,272 R$ em 2000, a 115,212 em 2001, etc. A série de faturamentos a preço de 1999 é : Números-Índices • Mudança de base de um número índice A escolha da base de um número índice é muitas vezes uma tarefa difícil. É preciso escolher um período relativamente estável, o mais "típico" possível, quando a atividade econômica não estiver sendo afetada por variações estruturais ocasionais. Pode ser interessante, ou necessário, mudar a base de um número índice por duas razões: - para atualizar a base, tornando-a mais próxima da realidade atual. - para permitir a comparação de duas séries de índices que tenham bases diferentes Números-Índices O procedimento é simples: basta dividir toda a série de números índices originais pelo número índice do período escolhido como nova base. Isso preservará as diferenças relativas. Ex.: Mudar a base da série de números índices abaixo para 2013. Ano 2011 2012 2013 2014 2015 Índice 100 109,12 113,86 116,69 126,53 Novo Índice 87,83 95,84 100 102,49 111,13 Coeficiente de Correlação O cálculo da correlação nos ajudará a descrever se existe algum tipo de relação entre duas variáveis quantitativas e determinar se a correlação é significante. Os dados podem ser representados por pares ordenados (x,y), sendo x a variável independente e y a variável dependente. Ex.:Um professor tenta investigar se há relação entre o número de horas que seus alunos passam em redes sociais e os resultados dos exames finais. Para averiguar melhor se existe algum tipo de correlação entre duas variáveis o diagrama dispersão é bem utilizado. Coeficiente de Correlação Gráficos sobre correlação Coeficiente de Correlação Ex.: Um economista quer determinar se existe relação linear entre o produto interno bruto (PIB) de países e as respectivas emissões de dióxido de carbono (CO2). Os dados encontram-se na Tabela. Pelo diagrama de dispersão, parece existir uma correlação linear positiva. Coeficiente de Correlação Observando apenas os gráficos não é possível dizer qual é o valor do coeficiente de correlação e nem mesmo se é fraca ou forte. Para isso, utilizamos a fórmula: (coeficiente de correlação amostral) Onde n, é o número de pares dados. Coeficiente de Correlação • O coeficiente de correlação pode variar entre -1 e 1, quando r está próximo de 1 significa que x e y tem uma relação linear positiva forte. • Se x e y tem uma correlação linear negativa forte , r está próximo de -1. • Se não há correlação linear ou existe uma correlação linear fraca, r está próximo de 0. Regressão Linear Sabendo da existência da correlação linear entre duas variáveis, o próximo passo é determinar a equação da linha que melhor modela os dados. Essa linha é chamada de linha (reta) de regressão,e sua equação pode ser usada para predizer o valor de y para um dado valor de x. di=resíduos Uma reta de regressão, é reta para a qual a soma dos quadrados dos resíduos é um valor mínimo. Regressão Linear A equação da reta de regressão é: Em que ො𝑦 é o valor previsto para um dado valor x. A inclinação m e a intersecção b são dadas por: , em que ത𝑦 e ҧ𝑥 são as médias dos valores y e x no conjunto de dados. Regressão Linear Analisemos um ex. de Larson e Farber. Vamos encontrar a equação da reta de regressão para o problema do dióxido de carbono anterior. Sabemos que : 𝑛 = 10, σ 𝑥 = 24,6 , σ 𝑦 = 5263 , σ𝑥𝑦 =16.145,46 , σ𝑥2 = 79,68. A inclinação 𝒎 = 𝑛.σ 𝑥𝑦−(σ 𝑥)(σ 𝑦) 𝑛.σ 𝑥2− σ 𝑥 2 = 10(16.145,46)−(24,6)5263 10(79,68)−24,62 𝒎 ≈ 𝟏𝟔𝟔, 𝟗 e 𝒃 = ത𝑦 −𝑚 ҧ𝑥 = 5263 10 − 166,9. 24,6 10 = 𝟏𝟏𝟓, 𝟕𝟐𝟓 Então, a equação da reta de regressão é ෝ𝒚 = 𝟏𝟔𝟔, 𝟗𝒙+115,725 Regressão Linear Reta de regressão Variações sobre uma linha de regressão: há 3 tipos de variações sobre uma linha de regressão, a variação total, a variação explicada e variação não explicada. Para identificar cada uma precisamos calcular : Regressão Linear A variação total para um linha de regressão é a soma dos quadrados das diferenças entre o valor y de cada par pedido e a média de y. A variação explicada é a soma dos quadrados das diferenças entre o valor y previsto e a média de y. A variação não explicada é a soma dos quadrados das diferenças entre o valor y de cada par pedido e cada valor y previsto correspondente. Coeficiente de determinação O quadrado do coeficiente de correlação é chamado de coeficiente de determinação . O coeficiente de determinação é a relação da variação explicada com a variação total. • significa que a variável dependente não pode ser prevista a partir da variável independente. • , significa que a variável dependente pode ser prevista, sem erro, a partir da variável independente. • entre 0 e 1 , significa que a variável é previsível. O coeficiente de determinação é a relação da variação explicada com a variação total, isto é, Coeficiente de determinação Usando o ex. anterior e calculando o coeficiente de determinação temos: 𝑟2 = 0,9122 = 0,832 Cerca de 83,2% da variação nas emissões de dióxido de carbono pode ser explicada pela equação de regressão em função do produto interno bruto. Os restantes 16,8% da variação são a parte não explicada e consequência de outros fatores, taiscomo erro amostral, e outras variáveis não consideradas.
Compartilhar