Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE FEDERAL DE MINAS GERAIS – UFMG FACULDADE DE CIÊNCIAS ECONÔMICAS – FACE RELAÇÕES ECONÔMICAS INTERNACIONAIS MÉTODOS QUANTITATIVOS APLICADOS II – ECN089 PROF: RAFAEL FARIA DE ABREU CAMPOS GUILHERME RODRIGUES DE FIGUEIREDO Lista de Exercícios I Questão 1 Defina: a) Erro tipo I O erro do tipo I de um teste de hipóteses é aquele que ocorre quando, após a aplicação do teste a uma hipótese H0, se chega à conclusão de que a diferença entre um determinado parâmetro amostral e populacional é significativa (ou seja, se rejeita a hipótese H0), quando na verdade essa hipótese é verdadeira (não há diferença estatística entre o parâmetro amostral e populacional). b) Erro tipo II O erro do tipo II de um teste de hipóteses é aquele que ocorre quando, após a aplicação do teste a uma hipótese H0, se chega à conclusão de que a diferença entre um determinado parâmetro amostral e populacional não é significativa (ou seja, não rejeita a hipótese H0), quando na verdade essa hipótese é falsa (existe diferença estatística entre o parâmetro amostral e populacional). c) Poder de um teste O poder de um teste é determinado pela relação (1 – β), em que β é o erro do tipo II. Assim, o poder do teste é a probabilidade de rejeitar uma hipótese falsa, ou seja, chegar à conclusão correta e não cometer o erro β. Questão 2 Suponha que RPP tenha distribuição normal com média μRPP e variância σ2RPP. Teste a hipótese de que μRPP = US$135 no nível de significância de 5% se (a) σ2RPP = 2.150 ou (b) σ2RPP for desconhecido. Preste atenção especial à sua escolha da estatística do teste. α = 0,05; σ(desvio padrão) = = 46,37; μRPP = 135 Primeiramente, é necessário identificar se o teste deverá ser uni caudal ou bicaudal, uma vez que é relevante para o valor que o nível de significância assume na cauda da função e, assim, determinar precisamente a área de rejeição de H0. Nesse caso, o teste será uni caudal à direita, pois não seria possível obter valores negativos para renda. Assim, como trata-se de uma distribuição normal, a região crítica de H0 se inicia aos 45% da totalidade da distribuição a partir da média, se estendendo até o fim da distribuição à direita. Com variância conhecida, utiliza-se o teste z, sendo necessário normalizar o valor para encontrar um valor tabelado para z. A região de rejeição de H0 se dará a partir do valor de z. Zcalc = = Nesse caso, não foram fornecidos dados de nem de n, sendo a média amostral e n o número de observações da amostra, justamente por não ter sido apresentada nenhuma amostra. Supondo que a média amostral seja igual a 136 () e que houveram nove observações, podemos utilizar a equação Zcalc = . Zcalc = = = = 0,065. Nesse caso, pela tabela de distribuição normal, a região de rejeição de H0 começa em z = 1,645; dessa forma, com esses dados especificamente, como o Zcalc é menor que o Ztabelado, não se rejeita H0 e é possível dizer que se espera que a média populacional (μ) seja igual a US$135, pois não há evidência estatística que conteste a hipótese H0 de que μ = 135. Com variância desconhecida, deve se usar o teste t de Student. Questão 3 Num estudo sobre a renda em determinada cidade com uma amostra de 36 habitantes, encontrou-se uma renda média de R$830,00. Estudo anterior encontrou um valor de R$800,00. Teste se o primeiro estudo continua válido com nível de significância de 2%, sendo conhecida a variância da renda de 9.600. n = 36; = 800; σ(desvio padrão) = = 97,98; α = 0,02; H0: não há diferença estatística entre 800 e 830, ou seja, = μ = 800. Conforme explicado no exemplo anterior, trata-se de um teste uni caudal, sendo que dessa vez, como o nível de significância é de 2%, a região de rejeição de H0 se inicia em 48% da amostra a partir da média. Zcalc = = = = = -1,8371. Como não se utiliza valores negativos da distribuição, espelhamos o valor para a metade positiva, encontrando Zcalc = 1,8371. Pela tabela da distribuição normal z, temos que o Ztabelado para α = 0,02 é de 2,055. Como Zcalc é menor que Ztabelado, podemos dizer que não deve se rejeitar H0, uma vez que o ponto calculado do Z está fora da região crítica. Isso quer dizer que o estudo anterior ainda é válido, pois não há evidência estatística que conteste a hipótese de que a renda média atual encontrada, de R$830,00, seja estatisticamente diferente da renda média encontrada anteriormente de R$800,00, com um nível de significância de 2%. Questão 4 Suponha que uma fábrica de lâmpadas produza lâmpadas com vida média de 2.000 horas e um desvio padrão de 200 horas. Um inventor alega ter desenvolvido um processo aperfeiçoado que produz lâmpadas com vida média maior e o mesmo desvio padrão. A gerente da fábrica seleciona aleatoriamente 100 lâmpadas produzidas pelo processo. Ela diz que acreditará na alegação do inventor se a vida média da amostra das lâmpadas for maior que 2100 horas, caso contrário, concluirá que o novo processo não é melhor que o antigo. Ou seja, o nível de significância do procedimento de teste da gerente da fábrica será de 5%. Seja μ a média do novo processo. Considere as hipóteses nula e alternativa H0: μ = 2.000 versus H1: μ > 2.000. a) Qual é o tamanho (probabilidade de que o teste rejeite de maneira incorreta a hipótese nula, ou seja, quando esta é verdadeira) do procedimento de teste da gerente da fábrica? A probabilidade de que o teste criado pela gerente rejeite a hipótese nula incorretamente (ou seja, um erro do tipo I ou α) é determinado pelo nível de significância. Como o nível de significância do teste é de 0,05 ou 5%, essa é justamente a probabilidade de erro α do teste. b) Suponha que o novo processo seja de fato melhor e ofereça vida média das lâmpadas de 2.150 horas. Qual é o poder do procedimento de teste da gerente? O poder de um teste é determinado por 1 – β, sendo que β é a probabilidade de não rejeitar uma hipótese falsa, ou seja, de cometer o erro tipo II ou β. Para determinar a probabilidade do erro β, é necessário identificar Zcalc = = = = 2,5. Temos pela tabela da distribuição normal que o Ztabelado para o nível de significância de 5% é de 1,96, já que agora trata-se de um teste bicaudal, já que a suposta invenção poderia reduzir a vida média das lâmpadas em vez de ampliá-las. O Zcalc resulta dentro da região de rejeição de H0, mas não aborda sua totalidade. Assim, a diferença entre Zcalc e Ztabelado é a probabilidade de não rejeição da hipótese nula, ou seja, de não identificar corretamente que μ > 2000. Essa diferença é de 0,9938 – 0,9750 = 0,0188. Logo, o poder do teste da gerente é de 0,9812 ou 98,12%. Questão 5 Sejam os dados a seguir: Admite-se que as variáveis estão relacionadas de acordo com o modelo: Yi = βo+β1Xi + εi Ainda sem o auxílio de softwares computacionais, faça o que se pede. a) Determine as estimativas dos parâmetros da regressão e trace o seu gráfico Os parâmetros da regressão são obtidos através da aplicação do Método dos Quadrados Ordinários, que visa minimizar o somatório dos erros ao quadrado. . Através desse método, encontramos as fórmulas gerais para obtenção dos parâmetros βo e β1: ; e Para proceder à estimativa dos parâmetros é necessário completar a tabela para encontrar os dados necessários: A tabela foi preenchida da seguinte maneira: I) Os dados ausentes de Xi, Yi, XiYi, Xi2 e Yi2 foram obtidos através dos dados da própria tabela, após aplicação das devidas operações; e II) Os dados de i foram obtidos após encontrar os valores dos parâmetros explicativos desse modelo (através da substituição dos valores de β0 e β1 em cada valor de Xi), permitindo encontrar os valores de ui (através do cálculo da diferença entre Yi e ) através dos valores encontrados na estimativa de Y. Para encontrar os parâmetros, também é necessário computar alguns outros dados: ; Com isso, pode-se encontrar os valores dos parâmetros: Gráfico da regressão: * *: apesar da instrução de não utilizar softwares, achei pertinente traçar o gráfico através do próprio aplicativo Gretl para fins de treinamentoe aperfeiçoamento, bem como evitar transtornos com o uso do Word. b) Calcule o coeficiente de determinação e o interprete O coeficiente de determinação (R2) é utilizado como forma de medida da qualidade do ajustamento da reta obtida através da regressão linear. Para obtermos o quadrado dos desvios de Y e , devemos calcular os desvios dessas variáveis para encontrar o seu quadrado. Para isso, precisamos fazer a operação para o numerador, e para o denominador dessa equação. Como será necessário, calculou-se as médias conforme anteriormente, e . Os dados se mostraram da seguinte forma: Logo, temos que . Portanto, . Isso quer dizer que 91,67% das variações em Y estão sendo explicadas pelas variações em X. c) Calcule o coeficiente de correlação linear entre Y e X e o interprete. O coeficiente de correlação linear identifica o quando uma variável está relacionada à outra. Ele pode ser calculado através de . . Deve se atentar para o sinal da resolução, que dependerá do valor de β1 nessa resposta, uma vez que é esse parâmetro que explica o sentido da linearidade entre as variáveis Y e X. Nesse caso, o resultado é de -0,9575. Isso significa que essas variáveis estão altamente relacionadas e possuem uma relação negativa, ou seja, a variação de 1 unidade em X provoca uma variação quase proporcional em Y no sentido oposto. Há uma correlação linear entre eles. d) Interprete a estimativa obtida para o coeficiente de regressão e a constante de regressão. A constante de regressão (ou β1) é a inclinação da regressão, ou seja, é o valor pelo qual será multiplicado a variável X para resultar na variação de Y. Nesse caso, essa estimativa é de -0,08382, o que significa que a cada variação em X, Y sofrerá uma alteração nesse valor. Já o coeficiente de regressão (ou β0) é o intercepto da regressão, ou seja, é o valor que Y assume quando X = 0. Nesse caso, essa estimativa é de 9,7967, o que significa que quando X for igual a 0, Y será igual a esse mesmo valor. e) Determine as estimativas para X = 10 e para X = 50. Para X = 10: Para X = 50: No entanto, é necessário frisar que ambas se tratam de extrapolações do modelo de regressão apresentado, uma vez que esses valores específicos para X não estão contidos na amostra apresentada; por isso, o nível de confiança de acerto do modelo é menor. f) Calcule o desvio para X = 30. Temos que o desvio de X é . Logo, para calcular esse desvio foi preciso identificar que Assim, o desvio para X = 30 será Questão 6 A associação entre renda e educação tem sido muito estudada. A teoria sugere que um aumento da educação e da experiência deveria estar associado a rendas mais elevadas. Porque as pessoas que ofertam trabalho investem tempo e esforço em uma maior educação, em antecipação aos retornos a este investimento, e os demandantes por trabalho têm que disputar os indivíduos mais qualificados no mercado de trabalho. Neste sentido, para qualquer indivíduo, um maior nível de educação e de experiência produziria, ceteris paribus, uma maior renda esperada. Neste exercício, consideraremos a amostra da Pesquisa Nacional por Amostra de Domicílios (PNAD), do IBGE, referente ao ano de 2011. Este banco de dados é constituído por 4.102 indivíduos ocupados e remunerados, entre 25 e 59 anos de idade, residentes na Região Metropolitana de Belo Horizonte. As variáveis contidas neste banco de dados correspondem aos anos de estudo completos (anosest), à experiência aproximada pela idade (idade) e ao rendimento do trabalho mensal (rendtrab) no arquivo “Base_Exercícios_I_SUA_MATRÍCULA.csv” (dica: não precisa fazer nada nos dados pelo Excel, é somente os abrir pelo gretl selecionando o tipo dele “.csv”). De acordo com os modelos abaixo, faça o que se pede. Modelo 1: Modelo 2: Modelo 3: Fonte dos Dados: PNAD, 2011. IBGE. a) Identifique a categoria dos dados utilizados (corte transversal, série de tempo, corte transversal agrupado ou dados de painel). Justifique. Os dados utilizados nesse caso são de corte transversal, pois tratam-se de uma amostra de indivíduos (residentes de Belo Horizonte entre 25 e 59 anos, ocupados e remunerados) tomada no ano de 2011. Dessa forma, ignora-se quaisquer distorções temporais, uma vez que a amostra é estática, e não uma série de tempo. b) Gere, somente a título de treinamento, uma nova variável – a l_rendtrab (igual ao logaritmo de rendtrab). c) Faça, para cada um dos três modelos apresentados, a estimação pelo método dos Mínimos Quadrados Ordinários (MQO). Utilize somente as variáveis necessárias. Modelo 1: Modelo 1: MQO, usando as observações 1-4102 Variável dependente: rendtrab Coeficiente Erro Padrão razão-t p-valor const 106,758 86,8773 1,229 0,2192 anosest 220,000 8,51289 25,84 <0,0001 *** Média var. dependente 2158,035 D.P. var. dependente 2439,060 Soma resíd. quadrados 2,10e+10 E.P. da regressão 2262,065 R-quadrado 0,140077 R-quadrado ajustado 0,139867 F(1, 4100) 667,8694 P-valor(F) 1,5e-136 Log da verossimilhança −37503,47 Critério de Akaike 75010,94 Critério de Schwarz 75023,58 Critério Hannan-Quinn 75015,42 Nesse caso, temos que Y é a renda do trabalho, e X são os anos de estudo do indivíduo. A equação geral do modelo se dá na forma , o que quer dizer que, levando em consideração apenas os anos de estudo e tudo mais constante, a cada ano adicional de estudo o indivíduo sofre uma ampliação na sua renda de 220 unidades. Modelo 2: Modelo 2: MQO, usando as observações 1-4102 Variável dependente: rendtrab Coeficiente Erro Padrão razão-t p-valor const 991,795 165,545 5,991 <0,0001 *** idade 29,3267 4,05260 7,237 <0,0001 *** Média var. dependente 2158,035 D.P. var. dependente 2439,060 Soma resíd. quadrados 2,41e+10 E.P. da regressão 2423,927 R-quadrado 0,012611 R-quadrado ajustado 0,012371 F(1, 4100) 52,36703 P-valor(F) 5,47e-13 Log da verossimilhança −37786,96 Critério de Akaike 75577,93 Critério de Schwarz 75590,56 Critério Hannan-Quinn 75582,40 Nesse caso, temos que Y é a renda do trabalho, e X são os anos de experiência do indivíduo, medido pela sua idade. A equação geral do modelo se dá na forma , o que quer dizer que, levando em consideração apenas a idade e tudo mais constante, a cada ano adicional de experiência o indivíduo sofre uma ampliação na sua renda de 29,3267 unidades. Modelo 3: Modelo 3: MQO, usando as observações 1-4102 Variável dependente: rendtrab Coeficiente Erro Padrão razão-t p-valor const −2170,50 187,081 −11,60 <0,0001 *** anosest 243,947 8,50889 28,67 <0,0001 *** idade 51,6500 3,78021 13,66 <0,0001 *** Média var. dependente 2158,035 D.P. var. dependente 2439,060 Soma resíd. quadrados 2,01e+10 E.P. da regressão 2212,519 R-quadrado 0,177535 R-quadrado ajustado 0,177134 F(2, 4099) 442,4006 P-valor(F) 1,1e-174 Log da verossimilhança −37412,13 Critério de Akaike 74830,25 Critério de Schwarz 74849,21 Critério Hannan-Quinn 74836,96 Nesse caso, o modelo apresentado é uma Regressão Linear Múltipla, e não simples como anteriormente. Temos que Y é a renda do trabalho, X1 são os anos de estudo do indivíduo, e X2 são os seus anos de experiência, medidos pela sua idade. A equação geral do modelo se dá na forma , o que quer dizer que, levando em consideração tanto os anos de estudo quanto a idade e tudo mais constante, a cada ano de estudo a mais o indivíduo sofre uma ampliação na sua renda de 243,947 unidades e, analogamente, uma ampliação de 51,65 unidades no caso de um ano a mais de experiência. d) Sobre o teste geral do modelo (teste F), quais são as hipóteses (nula e alternativa)? Qual o valor calculado para a estatística F? E a conclusão do teste? Explique o teste e justifique sua conclusão (não se esqueça de especificar qual foi o nível de significância utilizado). Modelo 1: H0: β0 = β1 = 0; H1: Existe pelo menos um βi ≠ 0. O valor confere com ocalculado pelo aplicativo. Pode se dizer que o modelo é válido a partir desse teste, já que o P-valor(F) da variável anosest é praticamente igual a zero, o que quer dizer que o parâmetro é válido e explica a variável Y (renda do trabalho). Assim, rejeitamos H0, pois existe β1 estatisticamente diferente de 0, sendo que nesse caso isso é válido para todos os níveis de significância (10%, 5% e 1%). Apesar disso, β0 não é estatisticamente diferente de 0 e não explica bem a variável Y. Modelo 2: H0: β0 = β1 = 0; H1: Existe pelo menos um βi ≠ 0. O valor confere aproximadamente com o calculado pelo aplicativo. Pode se dizer que o modelo é válido a partir desse teste, já que o P-valor(F) da variável idade e também da constante de regressão β0 são praticamente igual a zero, o que quer dizer que os parâmetros são válidos e explicam a variável Y (renda do trabalho). Assim, rejeitamos H0, pois existem β0 e β1 diferentes de 0, sendo que nesse caso isso é válido para todos os níveis usuais de significância (10%, 5% e 1%). Modelo 3: H0: β0 = β1 = β2 = 0; H1: Existe pelo menos um βi ≠ 0. O valor confere com o calculado pelo aplicativo. Pode se dizer que o modelo é válido a partir desse teste, já que o P-valor(F) das variáveis idade e anosest, e também da constante de regressão β0, são praticamente igual a zero, o que quer dizer que os parâmetros são válidos e explicam a variável Y (renda do trabalho). Assim, rejeitamos H0, pois existem β0, β1 e β2 diferentes de 0, sendo que nesse caso isso é válido para todos os níveis usuais de significância (10%, 5% e 1%). e) Faça o teste t para a significância de cada um dos parâmetros de cada um dos três modelos (especifique somente uma vez as hipóteses e a regra que se utilizará para a tomada de decisão) e interprete. O teste t é utilizado para medir a significância dos parâmetros utilizados pelos modelos de regressão linear. As hipóteses utilizadas serão: , com i = 0, 1 ou 2 (no caso do Modelo 3). Modelo 1: . Como a partir da tabela da distribuição de Student temos que, para os níveis de significância de 10%; 5%; e 1% os valores para t são pelo menos 1,645; 1,960 e 2,576, respectivamente, esse resultado significa que em todos níveis de significância esse parâmetro não é relevante para o modelo, já que assume valor menor que t tabelado e, portanto, não se rejeita a hipótese nula H0 pois é estatisticamente igual a zero. Pode se retirar esse parâmetro do modelo. . Como a partir da tabela da distribuição de Student temos que, para os níveis de significância de 10%; 5%; e 1% os valores para t são pelo menos 1,645; 1,960 e 2,576, respectivamente, esse resultado significa que em todos níveis de significância esse parâmetro é relevante para o modelo, já que assume valor maior que t tabelado e, portanto, se rejeita a hipótese nula H0 pois é estatisticamente diferente de zero. Modelo 2: . Como a partir da tabela da distribuição de Student temos que, para os níveis de significância de 10%; 5%; e 1% os valores para t são pelo menos 1,645; 1,960 e 2,576, respectivamente, esse resultado significa que em todos níveis de significância esse parâmetro é relevante para o modelo, já que assume valor maior que t tabelado e, portanto, se rejeita a hipótese nula H0 pois é estatisticamente diferente de zero. . Como a partir da tabela da distribuição de Student temos que, para os níveis de significância de 10%; 5%; e 1% os valores para t são pelo menos 1,645; 1,960 e 2,576, respectivamente, esse resultado significa que em todos níveis de significância esse parâmetro é relevante para o modelo, já que assume valor maior que t tabelado e, portanto, se rejeita a hipótese nula H0 pois é estatisticamente diferente de zero. Modelo 3: . Como a partir da tabela da distribuição de Student temos que, para os níveis de significância de 10%; 5%; e 1% os valores para t são pelo menos 1,645; 1,960 e 2,576, respectivamente, esse resultado significa que em todos níveis de significância esse parâmetro é relevante para o modelo, já que assume valor maior que t tabelado e, portanto, se rejeita a hipótese nula H0 pois é estatisticamente diferente de zero. . Como a partir da tabela da distribuição de Student temos que, para os níveis de significância de 10%; 5%; e 1% os valores para t são pelo menos 1,645; 1,960 e 2,576, respectivamente, esse resultado significa que em todos níveis de significância esse parâmetro é relevante para o modelo, já que assume valor maior que t tabelado e, portanto, se rejeita a hipótese nula H0 pois é estatisticamente diferente de zero. . Como a partir da tabela da distribuição de Student temos que, para os níveis de significância de 10%; 5%; e 1% os valores para t são pelo menos 1,645; 1,960 e 2,576, respectivamente, esse resultado significa que em todos níveis de significância esse parâmetro é relevante para o modelo, já que assume valor maior que t tabelado e, portanto, se rejeita a hipótese nula H0 pois é estatisticamente diferente de zero. f) Indique o valor do coeficiente de determinação de cada um dos três modelos e seu valor ajustado. Identifique qual dos dois valores (o original ou o ajustado) é o mais adequado para a análise do modelo 3 e o interprete? Por que escolheu este coeficiente como o mais adequado? Modelo 1: O coeficiente de determinação desse modelo é igual a 0,140077, conforme calculado pelo próprio aplicativo, enquanto seu valor ajustado é de 0,139867. Modelo 2: O coeficiente de determinação desse modelo é igual a 0,012611, conforme calculado pelo próprio aplicativo, enquanto seu valor ajustado é de 0,012371. Modelo 3: O coeficiente de determinação desse modelo é igual a 0,177535, conforme calculado pelo próprio aplicativo, enquanto seu valor ajustado é de 0,177134. Para o modelo 3, o coeficiente de determinação ajustado é muito mais adequado para a análise. Isso ocorre porque o nunca reduz seu valor com o acréscimo de novas variáveis, correndo o risco de o seu valor não representar bem a eficiência do modelo, pois pode aumentar de valor com uma variável pouco explicativa. Assim, o ajustado é mais confiável, pois penaliza esse viés ao ponderar o acréscimo pelo número de parâmetros utilizados.
Compartilhar