Buscar

Trabalho - Estatística Aplicada

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Introdução
A base de dados escolhida para a realização do trabalho final da disciplina de Estatística Aplicada a Sistemas de Gestão foi encontrada no website do World Bank. O download da base pode ser realizado através do seguinte link: https://data.worldbank.org/indicator/EN.ATM.CO2E.KT?view=chart. 
A base em questão faz parte da sessão de "Climate Change" dos dados do site, e traz o indicador "CO2 emissions (kt)", que se refere à emissão do dióxido de carbono pelos países. Para a realização da atividade, foram considerados os dados de emissão dos anos de 2018 (mais recente que o website fornece), 2017 e 2016.
Os dados foram baixados no formato XLS e transferidos posteriormente para uma planilha do Google Sheets para facilitar o trabalho em dupla. O tratamento (descrito abaixo) e análise dos dados ocorreu no Google Sheets.
Afim de se ter uma base de dados coerente com as especificações da disciplina e preparada para a análise dos dados, as seguintes operações foram realizadas (na ordem apresentada): 
1. Os dados qualitativos dos países foram inseridos na aba dos dados quantitativos (estavam em abas separadas).
2. Os países que não possuíam dados disponíveis para os 3 anos de análise (2018,2017 e 2016) foram excluídos da análise. 
3. A base de dados trouxe conglomerados de países, como: "Latin America & Caribbean (excluding high income)", "East Asia & Pacific", "Heavily indebted poor countries (HIPC)", "Not classified", "Small states", etc. Esses conglomerados de países foram excluídos da análise, para que pudéssemos analisar apenas dados referentes a cada país individualmente. Além disso, os dados qualitativos da base de dados não abrangiam tais grupos de países.
4. Os países que não possuíam todos os dados qualitativos disponíveis foram excluídos da análise.
Por fim, restaram 190 países na análise.
Afim de tornar a estrutura do trabalho simples e clara para fins de correção, as perguntas (enunciado) estão em negrito. As respostas para cada questão estão abaixo das mesmas.
Questões
Os cálculos realizados no excel estão com a base em uma planilha anexada junto com a prova.
1) Apresentar e/ou descrever a base de dados. Especificar a escala de mensuração de cada variável.
A base de dados contém 6 variáveis.
As variáveis qualitativas são:
· País: descreve o país no qual os dados se referem. É uma variável qualitativa nominal. Ao todo, são 190 países inseridos na análise em questão.
· Região: determina a região do mundo na qual o país pertence. É uma variável qualitativa nominal e os valores variam entre 7 possibilidades.
· Grupo de renda: determina o grupo de receita que o país se encontra, expressando sua situação econômica (de forma simplificada). É uma variável qualitativa ordinal e os valores para essa variável variam entre 4 possibilidades.
Já as variáveis quantitativas são: 
· Emissão de CO2 (kt) 2016: expressa a quantidade de CO2 emitidos (em kilotons) em 2016. É uma variável quantitativa contínua.
· Emissão de CO2 (kt) 2017: expressa a quantidade de CO2 emitidos (em kilotons) em 2017. É uma variável quantitativa contínua.
· Emissão de CO2 (kt) 2018: expressa a quantidade de CO2 emitidos (em kilotons) em 2018. É uma variável quantitativa contínua.
Figura 1: visualização da base de dados utilizada
2) Escolha uma das variáveis quantitativas. Pede-se:
A variável quantitativa escolhida para essa questão foi a "Emissão de CO2 (kt) 2018". Este problema se enquadra na Estatística Descritiva Univariada.
a) Calcule as medidas de posição referentes à média aritmética, à mediana e à moda.
As medidas de posição de tendência central (média, mediana e moda) para a variável em questão estão mostradas a seguir:
Média aritmética: 176.004,42 kt (calculado com a fórmula =MÉDIA)
Mediana: 11.585 kt (calculado com a fórmula =MED)
Moda: 180 kt (calculado com a fórmula =MODO)
b) Calcule o primeiro e terceiro quartil e veja se há indícios de existência de outliers.
Quartil é uma medida de posição, do tipo separatriz. Baseando-se na fórmula de posição de quartil apresentada na aula de Estatística Descritiva Univariada, temos que o primeiro quartil de uma amostra de 190 observações corresponde à posição 48 (190/4 + 1/2). Seguindo a mesma lógica, o terceiro quartil corresponde à posição 143 (190*3/4 + 1/2). Colocando as observações em ordem crescente é possível definir a observação referente à cada posição. Com isso, temos: 
Primeiro quartil: 2.260 kt
Terceiro quartil: 65.290 kt
Para a análise de possíveis outliers (outliers moderados), usaremos a fórmula apresentada na aula:
O intervalo interquartil da variável é igual a 63.030 kt. O intervalo inferior, determinado foi de -92.298, enquanto o valor superior foi de 159.835.
	Com esses intervalos estabelecidos e analisando os valores da variável em questão, temos que as 30 maiores observações (da posição 160 até a posição 190) são todas possíveis outliers. Não há valores que ultrapassem o limite inferior.
Agora, para a análise de prováveis outliers, usaremos a fórmula apresentada na aula que usa o dobro da variabilidade da fórmula para possíveis outliers:
Para este caso o intervalo inferior e superior são respectivamente iguais a -186.830 e 254.380.
Sendo assim, as 22 maiores observações (da posição 168 até a posição 190) são todas prováveis outliers. Não há valores que ultrapassem o limite inferior.
c) Calcule os percentis de ordem 20 e 80.
	
Percentil é uma medida de posição, do tipo separatriz. Baseando-se na fórmula de posição de percentil apresentada na aula de Estatística Descritiva Univariada, temos que o percentil de ordem 20 de uma amostra de 190 observações corresponde à posição 38,5 (190*20/100 + 1/2), ou seja, é a média aritmética entre a posição 38 e 39. Seguindo a mesma lógica, o percentil de ordem 80 corresponde à posição 152,5 (190*80/100 + 1/2), ou seja, é a média aritmética entre as posições 152 e 153. Colocando as observações em ordem crescente é possível definir a observação referente à cada posição. Com isso, temos: 
Percentil de ordem 20: 1.380 kt
Percentil de ordem 80: 91.820 kt
d) Calcule os decis de ordem 4 e 7.
Decil é uma medida de posição, do tipo separatriz. Baseando-se na fórmula de posição do decil apresentada na aula de Estatística Descritiva Univariada, temos que o decil de ordem 4 de uma amostra de 190 observações corresponde à posição 76,5 (190*4/10 + 1/2), ou seja, é a média aritmética entre a posição 76 e 77. Seguindo a mesma lógica, o decil de ordem 7 corresponde à posição 133,5 (190*7/10 + 1/2), ou seja, é a média aritmética entre a posição 133 e 134. Colocando as observações em ordem crescente é possível definir a observação referente à cada posição. Com isso, temos: 
Decil de ordem 4: 7.545 kt
Decil de ordem 7: 44.950 kt
e) Calcule as seguintes medidas de dispersão: amplitude, desvio-médio, variância, desvio-padrão.
Amplitude: 10.313.450 kt
Desvio-médio: 257.975,5 kt(calculada através da fórmula =DESV.MÉDIO )
Variância: 737.504.797.434 kt(calculada através da fórmula =VAR )
Desvio-padrão: 858.780,9 kt (raiz quadrada da variância)
f) Verifique se a distribuição é simétrica, assimétrica positiva ou assimétrica negativa.
A medida de simetria é uma medida de forma.
A variável em questão possui distribuição assimétrica positiva, visto que a maior parte de seus valores são menores do que o valor médio, que é igual a 176.004,4 kt.
159 observações de 190 possuem valores inferiores à média, o que corresponde a cerca 84% das observações.
g) Calcule o coeficiente de curtose e classifique o grau de achatamento da distribuição (mesocúrtica, platicúrtica ou leptocúrtica).
A curva é muito alongada (leptocúrtica), como pode ser visto na curva de distribuição normal a seguir. O coeficiente de curtose de Fischer portanto é positivo para essa variável.
h) Construa o histograma, o gráfico ramo-e-folhas e o boxplot para a variável em estudo; não se esqueça de representar (se houver) os outliers no boxplot.
Para a construção do histograma da variável contínua, foram primeiramente definidos valores de amplitude,número de classes e intervalo.
A amplitude desta variável é igual a 10313450 kt, definida pela subtração do maior valor (10313460 kt) pelo menor valor (10 kt). Para calcular o número de classes do histograma, foi usada a fórmula onde o número de classes é igual a raiz quadrada do total da amostra, que neste caso, corresponde à raiz quadrada de 190, que é 13,78. Arredondando para cima, para garantir que nenhum ponto amostral fique fora da dos intervalos, teremos 14 classes.
	O intervalo da análise será igual a 736.675 kt (calculado através do quociente entre a amplitude e o número de classes).
Como observado no histograma acima, a elevada amplitude dos valores e extrema concentração dos pontos amostrais na primeira classe ofusca a análise da maior parte das observações. Portanto, para a melhor observação dos dados, o histograma foi re-construído, retirando-se os 5 maiores valores da variável (valores fora da primeira barra do histograma).
O fenômeno anterior continua sendo observado, mesmo que em menor escala. Portanto, os dados fora da primeira barra do histograma foram novamente retirados, para a melhor análise dos dados com valores menores.
A construção do gráfico de ramo e folha ficaria com difícil visualização para o tamanho da amostra e a amplitude da mesma, por possuir valores que ultrapassam a casa de um milhão, impossibilitando assim a reprodução no Excel. Por esse motivo, apenas como ilustração do diagrama, considerou-se apenas os 991 menores valores da variável em questão. Mesmo assim, o diagrama ficou muito grande e de difícil visualização, não podendo ter alguma conclusão com base nele, pelo fato dos números terem uma grande amplitude e pouca repetição entre eles. Os valores da variável estudada variaram de 10 a 10.313.460.
Abaixo, imagem de parte do diagrama ramo e folhas (apenas dos 50 menores valores).
O boxplot também ficou com difícil visualização pela grande amplitude de valores da variável estudada.Com todos os valores, o gráfico ficou como mostrado abaixo.
Para melhor visualização, restringiu-se o eixo y para o valor máximo de 500.000, tendo essa visualização:
Os outliers estão identificados no gráfico a partir do x, que representa o número 177410 e os demais outliers, os quais são os valores maiores do que 177410 (listados todos na planilha).
3) Para duas variáveis qualitativas, pede-se:
Este problema se enquadra na Estatística Descritiva Bivariada, pois busca o entendimento da relação entre duas variáveis.
a) Há indícios de associação entre as variáveis? Justificar por meio das tabelas de distribuição de frequência (por linha, coluna, etc.).
As tabelas de distribuição de frequência para duas variáveis qualitativas também são chamadas de tabela de contingência. Segue a tabela base para análise de associação entre as variáveis qualitativas da base de dados:
Serão utilizadas as 3 formas de ilustrar a proporção de cada categoria: 
· Em relação ao total geral: 
Essa tabela expressa as porcentagens em relação ao total da base de dados.
· Em relação ao total de cada linha:
	Essa tabela expressa as porcentagens de grupo de renda em relação ao total de cada região.
· Em relação ao total de cada coluna:
Essa tabela expressa as porcentagens de grupo de renda em relação ao total de cada categoria de grupo de renda.
Esses resultados apresentam possíveis associações entre as categorias das variáveis Região e Grupo de Renda. Seguem as possíveis associações: 
· Há uma possível associação entre a região do Leste Asiático & Pacífico e o grupo de renda com renda média baixa.
· Há também uma possível associação entre a região da Europa & Ásia Central com o grupo de renda com renda alta.
· Há uma possível associação entre a região da América Latina & Caribe e o grupo de renda com renda média alta.
· Há uma possível associação entre a região do Oriente Médio & Norte da África e o grupo de renda com renda alta.
· Há uma possível associação entre a região da América do Norte e o grupo de renda com renda alta.
· Há uma possível associação entre a região da Sul da Ásia e o grupo de renda com renda média baixa.
· Há uma possível associação entre a região da África Subsaariana e o grupo de renda com renda baixa.
b) Confirme o item anterior calculando a estatística qui-quadrado e interpretando o resultado do teste.
O uso da estatística Qui-Quadrado consiste em comparar as frequências teóricas (esperadas, que supõem não haver associação entre as variáveis) e as frequências observadas. Quanto maior a diferença entre a distribuição de frequência esperada e observada, maior o valor da estatística Qui-Quadrado, e portanto maior é a associação entre as variáveis. A estatística qui-quadrado será calculada com base na tabela de contingência em relação ao total das linhas.
Segue a tabela com os valores esperados: 
A partir dos valores esperados e da tabela base, podemos construir a tabela com os qui-quadrados de cada combinação entre as categorias das variáveis. O valor do qui-quadrado final é a soma desses valores.
Como o número de categorias da variável Região é 7 e da variável Grupo de Renda é 4, temos que o valor teórico do qui-quadrado é 26,7 (11 graus de liberdade).
Como o valor do qui-quadrado encontrado é maior do que 26,7, podemos dizer que há associação entre as categorias das variáveis.
4) Para duas variáveis quantitativas, pede-se:
Este problema se enquadra na Estatística Descritiva Bivariada, pois busca o entendimento da relação entre duas variáveis. As duas variáveis escolhidas para essa questão foram Emissão de CO2 (kt) 2018 e Emissão de CO2 (kt) em 2017. 
a) Elabore o diagrama de dispersão e análise se parece haver dependência entre as respectivas variáveis.
O gráfico de dispersão para as variáveis pode ser visto a seguir.
Apesar do gráfico de dispersão mostrar uma relação linear positiva entre as variáveis, não há dependência entre elas. Ambas são as causas da matriz energética, situação socioeconômica, dentre outros fatores dos países da base de dados analisada.
b) Calcule o coeficiente de correlação de Pearson. Qual a sua conclusão em relação à dependência dessas variáveis?
O coeficiente de correlação de Pearson foi calculado a partir da covariância, dividida pelo produto entre o desvio padrão de ambas variáveis (fórmula apresentada na aula).
Covariância entre as variáveis: 711857261291 kt (calculada com a fórmula =COVAR)
Desvio padrão da variável Emissão de CO2 (kt) 2018: 858780,9 kt (calculada com a fórmula =DESVPAD)
Desvio padrão da variável Emissão de CO2 (kt) 2017: 833365,2 kt (calculada com a fórmula =DESVPAD)
Coeficiente de correlação de Pearson = 0,995
Sendo o coeficiente de correlação de Pearson extremamente próximo à 1, podemos afirmar que há uma correlação linear positiva entre as variáveis x e y
5) A partir de pelo menos 3 variáveis quantitativas, especifique qual delas é a variável dependente e quais são as variáveis explicativas do modelo de regressão. Pede-se:
A variável dependente será a Emissão de CO2 (kt) 2018, enquanto que as variáveis Emissão de CO2 (kt) 2017 e Grupo de Renda serão as explicativas do modelo de regressão.
Para o uso da variável Grupo de Renda, não podemos atribuir valores numéricos a elas, pois este seria o erro de ponderação arbitrária. Como se trata de uma variável categórica qualitativa com 4 categorias, são necessárias 3 variáveis dummies. A categoria 'low income' será a categoria de referência. Seguem os valores das variáveis dummies.
O modelo é então representado pela seguinte equação:
Emissão CO2 2018 = a + b1 * Emissão CO2 2017 + b2 * perf. 1 + b3 * perf. 2 + b4 * perf.3 + u
A equação que queremos encontrar é a seguinte: 
Emissão CO2 2018 = alfa + beta1 * Emissão CO2 2017 + beta2 * perf. 1 + beta3 * perf. 2 + beta4 * perf.3
Segue visualização da base de dados com as variáveis dummy no Excel (não foi possível baixar o software SPSS devido à falta de máquina com sistema operacional Windows dentre os alunos do grupo).
Foi utilizada a funcionalidade do Excel de Regressão Linear, encontradaem Dados → Análise de Dados → Regressão. O sumário dos resultados podem ser encontrados a seguir.
Os parâmetros alfa, beta1, beta2, beta3 e beta4 do modelo são encontrados na última tabela fornecida no sumário, na coluna coeficientes, onde:
a) Qual o poder explicativo do modelo?
	O poder explicativo do modelo pode ser analisado de acordo com o valor do R quadrado, que no caso foi de 99,99%. Dessa forma, o poder explicativo do modelo é extremamente confiável e poderoso.
b) As hipóteses do modelo de regressão foram satisfeitas?
	Sim, uma vez que o modelo de regressão linear mostrou grande poder em prever o nível de emissão de gás carbônico a partir da emissão do ano anterior e a partir do grupo de renda em que o país se encontra.
c) Analise o nível de significância do teste F. Pelo menos uma das variáveis explicativas é estatisticamente significante para explicar o comportamento da variável dependente, ao nível de significância de 5%?
Sim. Como possível observar na coluna "Valor P" da tabela do sumário do modelo, tiveram nível de significância abaixo de 0,05 as variáveis Emissão de CO2 2017 e a variável dummy de perfil 3.
d) Se a resposta do item anterior for sim, analise o nível de significância de cada variável explicativa (testes t). Ambas variáveis são estatisticamente significantes para explicar o comportamento da variável dependente, ao nível de significância de 5%?
	Sim, ambas as variáveis são estatisticamente significantes para explicar o comportamento da variável dependente a nível de significância de 5%, uma vez que os valores de significância das mesmas no modelo são de 0% e 2,1%.
e) Qual a equação final estimada para o modelo de regressão linear múltipla?
A equação final do modelo é:
Emissão CO2 2018 = -284,97 + 1,03 * Emissão CO2 2017 + 2.822,49 * perf. 1 + -1931,9 * perf. 2 + -5546,05 * perf.3

Outros materiais