Buscar

ESTATÍSTICA PARA ANÁLISE DE DADOS NA ADMINISTRAÇÃO PÚBLICA - EXERCÍCIO 1_2_3_4

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 31 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 31 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 31 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Iniciado em sexta, 4 ago 2023, 08:55 
Estado Finalizada 
Concluída em sexta, 4 ago 2023, 08:58 
Tempo empregado 3 minutos 17 segundos 
Notas 2,00/2,00 
Avaliar 25,00 de um máximo de 25,00(100%) 
Questão 1 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
A estatística é uma área do conhecimento que utiliza teorias probabilísticas para explicação de 
eventos, estudos e experimentos que tem como missão obter organizar e analisar dados, além 
de tirar delas suas consequências. 
Considerando o conceito de estatística e suas aplicações, é possível afirmar que: 
Escolha uma opção: 
a. Por ser uma ciência humana, não há possibilidade de aplicação de estatística na psicologia. 
b. A estatística é útil para determinar resultados de testes genéticos. 
c. Não é uma missão da estatística organizar os dados que serão testados. 
d. Gráficos com a representação de temperaturas medidas ao longo dos anos e séculos não 
contribui para evidenciar a evolução das mudanças climáticas. 
e. Não há relação entre estatística e a gestão do Estado. 
Feedback 
Sua resposta está correta. 
 
A alternativa correta é a letra “b”. Conforme matéria do Globo Ciência apresentada no texto, um 
teste estatístico apoia uma metodologia laboratorial para inclusão ou exclusão de paternidade 
por testes genéticos de DNA. 
 
A resposta correta é: A estatística é útil para determinar resultados de testes genéticos. 
Questão 2 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
Considerando as áreas de aplicação da estatística, descritiva; inferencial; e probabilidade, é 
possível afirmar que: 
Escolha uma opção: 
a. A análise exploratória de dados é a mais recente abordagem para estatística descritiva e 
apoia-se fortemente no uso de gráficos. 
b. As medidas de centralidade trabalhadas na estatística descritiva não têm aplicabilidade no 
estudo de probabilidades. 
c. Usando métodos de estatística inferencial não é possível generalizar achados de uma 
amostra. 
d. A probabilidade do lançamento de um dado não viciado apresentar a face 6 é de 2/6. 
e. O uso de ferramentas estatísticas conseguiu provar que a idade média de pessoas que 
tiveram alta após internação por COVID é maior do que as que foram a óbito após a 
internação. 
Feedback 
Sua resposta está correta. 
 
A alternativa correta é a letra “a”. Conforme Bussab e Morettin a análise descritiva de dados 
“limita-se a calcular algumas medidas de posição e variabilidade, como a média e variância, 
por exemplo” com o fortalecimento da AED passou-se a investir mais em técnicas gráficas em 
contraposição ao mero resumo numérico. 
 
A resposta correta é: A análise exploratória de dados é a mais recente abordagem para 
estatística descritiva e apoia-se fortemente no uso de gráficos. 
 
Iniciado em sexta, 4 ago 2023, 09:01 
Estado Finalizada 
Concluída em sexta, 4 ago 2023, 10:38 
Tempo empregado 1 hora 37 minutos 
Notas 6,00/6,00 
Avaliar 25,00 de um máximo de 25,00(100%) 
Questão 1 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
Os pacotes ampliam as funcionalidades originais do R. Atualmente existem milhares de 
pacotes com as mais diversas finalidades. 
Sobre as possibilidades de uso dos pacotes R, marque a alternativa correta: 
Escolha uma opção: 
a. Não há pacotes que apoiem o desenvolvimento de mapas. 
b. O pacote {basedosdados} apoia o desenvolvimento de machine learning no R. 
c. Organizações da sociedade civil desenvolvem pacotes que permitem maior transparência de 
dados públicos brasileiros. 
d. O pacote {cluster} é usado para desenhar gráficos. 
e. O pacote {colorspace} pouco contribui para a ampliação da possibilidade de uso de cores 
nos gráficos gerados com a linguagem R. 
Feedback 
Sua resposta está correta. 
 
A alternativa correta é a letra “c”. O pacote {basedosdados} é uma das ótimas contribuições da 
sociedade civil para o ecossistema de dados abertos no Brasil. Trata-se de um pacote que 
facilita a consulta de grande conjunto de dados que são disponibilizados principalmente pelo 
governo federal brasileiro. 
 
A resposta correta é: Organizações da sociedade civil desenvolvem pacotes que permitem 
maior transparência de dados públicos brasileiros. 
Questão 2 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
Considerando que: 
receita<- 5000000 
despesa<- 2000000 
resultado_contabil<- receita-despesa 
 
 
Qual o valor final da variável resultado_contabil? 
Análise o código abaixo e o execute no programa RStudio. 
Escolha uma opção: 
a. 1500000. 
b. 1800000. 
c. 5000000. 
d. -3000000. 
e. 3000000. 
Feedback 
Sua resposta está correta. 
 
30.000.000 é o resultado da subtração da variável receita com a variável despesa, portanto a 
alternativa correta é a letra “e”. 
 
A resposta correta é: 3000000. 
Questão 3 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
Analise o script abaixo para responder essa questão. 
 
nome_escola<- c("Elefante Branco", "Liceu", "Pedro II") 
 
quantidade_alunos_inscritos<- c(200, 250, 300) 
 
media_escola<- c(400.34 , 453.27, 425.32) 
 
df_enem<- data.frame(nome_escola=nome_escola, 
 
quantidade_alunos_inscritos=quantidade_alunos_inscritos, 
 
media_escola=media_escola) 
 
Quais são as variáveis, categórica; contínua; e discreta, do dataframe df_enem com dados 
hipotéticos sobre o ENEM? 
Escolha uma opção: 
a. Categórica: nome_escola. Contínua: media_escola. Discreta: quantidade_alunos_inscritos. 
b. Categórica: media_escola. Contínua: nome_escola. Discreta: quantidade_alunos_inscritos. 
c. Categórica: quantidade_alunos_inscritos. Contínua: media_escola. Discreta: nome_escola. 
d. Categórica: nome_escola. Contínua: quantidade_alunos_inscritos. Discreta: media_escola. 
e. Categórica: quantidade_alunos_inscritos. Contínua: media_escola. Discreta: nome_escola. 
Feedback 
Sua resposta está correta. 
 
A alternativa correta é a letra “a”, pois as variáveis categóricas são do tipo texto, que é o caso 
do nome da escola. As variáveis discretas expressam quantidades inteiras, que é o caso da 
quantidade de alunos inscritos e as variáveis contínuas associam a números que precisam ser 
expressos usando casas decimais, que é o caso da média da escola. 
 
A resposta correta é: Categórica: nome_escola. Contínua: media_escola. Discreta: 
quantidade_alunos_inscritos. 
Questão 4 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
A partir do script abaixo, indique entre as opções a seguir qual representa a distribuição correta 
de frequência para a variável “rede hospitalar” no dataframe “hospitais”. 
 
library(questionr) 
 
nome_hospital<- c("São Sebastião","João Paulo II","Trindade","São Clemente","Hospital 
Regional", "Hospital Geral") 
 
rede_hospitalar<- c("municipal","municipal","federal","estadual","estadual","municipal") 
 
hospitais<- data.frame(nome_hospital= nome_hospital, rede_hospitalar= rede_hospitalar) 
 
questionr::freq(hospitais$rede_hospitalar, cum = TRUE, sort = "dec", total = TRUE) 
Escolha uma opção: 
a. 
 n % val% %cum val%cum 
municipal 3 50.0 50.0 50.0 50.0 
estadual 2 33.3 33.3 83.3 83.3 
federal 1 16.7 16.7 100.0 100.0 
Total 6 100.0 100.0 100.0 100.0 
b. 
 n % val% %cum val%cum 
municipal 3 50.0 50.0 50.0 50.0 
estadual 2 33.3 35.0 85.0 85.0 
federal 1 16.7 15.0 100.0 100.0 
Total 6 100.0 100.0 100.0 100.0 
c. 
 n % val% %cum val%cum 
estadual 3 50.0 50.0 50.0 50.0 
municipal 2 33.3 33.3 83.3 83.3 
federal 1 16.7 16.7 100.0 100.0 
Total 6 100.0 100.0 100.0 100.0 
d. 
 n % val% %cum val%cum 
federal 3 50.0 50.0 50.0 50.0 
estadual 2 33.3 33.3 83.3 83.3 
municipal 1 16.7 16.7 100.0 100.0 
Total 6 100.0 100.0 100.0 100.0 
e. 
 n % val% %cum val%cum 
municipal 3 50.0 50.0 50.0 50.0 
federal 2 33.3 33.3 83.3 83.3 
estadual 1 16.7 16.7 100.0 100.0 
Total 6 100.0 100.0 100.0 100.0 
Feedback 
Sua resposta está correta. 
 
A execuçãoda função questionr::freq mostra exatamente o que aparece na opção “a”. 
 
A resposta correta é: 
 n % val% %cum val%cum 
municipal 3 50.0 50.0 50.0 50.0 
 n % val% %cum val%cum 
estadual 2 33.3 33.3 83.3 83.3 
federal 1 16.7 16.7 100.0 100.0 
Total 6 100.0 100.0 100.0 100.0 
Questão 5 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
Analise o script abaixo. 
 
#O set.seed(1972) possibilita que os números gerados aleatoriamente logo a seguir sejam 
repetidos em próximas execuções 
set.seed(1972) 
#gera um conjunto com 50 números aleatórios entre 1 e 100 
valores_aleatorios<- sample(1:100, size = 50) 
 
Qual é o valor da média e da mediana para o conjunto de dados presente na variável 
valores_aleatorios? 
Escolha uma opção: 
a. 
Média = 45 
Mediana = 43 
b. 
Média = 45.8 
Mediana = 42.6 
c. 
Média = 45 
Mediana = 47.24 
d. 
Média = 44 
Mediana = 46 
e. 
Média = 47.24 
Mediana = 44.5 
Feedback 
Sua resposta está correta. 
 
Utilizando as funções mean (valores_aleatorios) e median (valores_aleatorios) chega-se aos 
valores presentes na alternativa “e”. 
 
A resposta correta é: 
Média = 47.24 
Mediana = 44.5 
Questão 6 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
Analise o script abaixo. 
 
#O set.seed(13) possibilita que os números gerados aleatoriamente logo a seguir sejam 
repetidos em próximas execuções 
set.seed(13) 
#gera um conjunto com 50 números aleatórios entre 1 e 100 
novos_valores_aleatorios<- sample(1:100, size = 50) 
 
sd(novos_valores_aleatorios) 
min(novos_valores_aleatorios) 
max(novos_valores_aleatorios) 
 
Quais são os valores corretos do desvio padrão, valor mínimo e valor máximo para o conjunto 
de dados presente na variável “novos_valores_aleatorios”? 
Escolha uma opção: 
a. 
Desvio Padrão = 29.62777 
Mínimo = 2 
Máximo = 100 
 
 
b. 
Desvio Padrão = 29.90817 
Mínimo = 1 
Máximo = 99 
 
 
c. 
Desvio Padrão = 29.4686 
Mínimo = 2 
Máximo = 99 
 
 
d. 
Desvio Padrão = 26.97025 
Mínimo = 2 
Máximo = 98 
 
 
e. 
Desvio Padrão = 29.70748 
Mínimo = 1 
Máximo = 100 
 
 
Feedback 
Sua resposta está correta. 
 
A execução do script gera os valores mínimo, máximo e desvio padrão apontados na 
alternativa “b”. 
 
A resposta correta é: 
Desvio Padrão = 29.90817 
Mínimo = 1 
Máximo = 99 
 
 
Iniciado em sexta, 4 ago 2023, 10:39 
Estado Finalizada 
Concluída em sexta, 4 ago 2023, 10:42 
Tempo empregado 3 minutos 34 segundos 
Notas 8,00/8,00 
Avaliar 25,00 de um máximo de 25,00(100%) 
Questão 1 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
Analise o script abaixo. 
 
library(tidyverse) 
 
#O objeto url abaixo indica onde está na internet a tabela com os dados sobre municípios 
brasileiros 
url<- 
"https://raw.githubusercontent.com/fernandobarbalho/enap_auto_instucional/main/data/dados_
municipios.csv" 
 
#O comando read_csv permite ler para a sua máquina o conteúdo de uma tabela que está no 
endereço especificado no objeto url 
#o conteúdo da tabela é passado para o dataframe dados_municipios 
dados_municipios<- read_csv(url) 
 
dados_municipios%>% 
filter(sigla_uf == "CE") %>% 
select(sigla_uf,nome, populacao) %>% 
arrange(desc(populacao)) 
 
Qual o resultado da execução do script acima? 
Escolha uma opção: 
a. 
# A tibble: 185 x 3 
 sigla_uf nome populacao 
 <chr> <chr> <dbl> 
1 PE Recife 1653461 
2 PE Jaboatão dos Guararapes 706867 
3 PE Olinda 393115 
4 PE Caruaru 365278 
5 PE Petrolina 354317 
6 PE Paulista 334376 
7 PE Cabo de Santo Agostinho 208944 
8 PE Camaragibe 158899 
9 PE Garanhuns 140577 
10 PE Vitória de Santo Antão 139583 
# A tibble: 185 x 3 
 sigla_uf nome populacao 
# ... with 175 more rows 
 
 
b. 
# A tibble: 184 x 2 
 nome populacao 
 <chr> <dbl> 
1 Fortaleza 2686612 
2 Caucaia 365212 
3 Juazeiro do Norte 276264 
4 Maracanaú 229458 
5 Sobral 210711 
6 Crato 133031 
7 Itapipoca 130539 
8 Maranguape 130346 
9 Iguatu 103074 
10 Quixadá 88321 
# ... with 174 more rows 
 
 
c. 
# A tibble: 184 x 3 
 sigla_uf nome populacao 
 <chr> <chr> <dbl> 
1 CE Abaiara 11853 
2 CE Acarape 15036 
3 CE Acaraú 63104 
4 CE Acopiara 54481 
5 CE Aiuaba 17493 
6 CE Alcântaras 11781 
7 CE Altaneira 7650 
8 CE Alto Santo 17196 
9 CE Amontada 43829 
10 CE Antonina do Norte 7378 
# ... with 174 more rows 
 
 
d. 
# A tibble: 369 x 3 
 sigla_uf nome populacao 
 <chr> <chr> <dbl> 
1 CE Fortaleza 2686612 
2 CE Recife 1653461 
3 CE Jaboatão dos Guararapes 706867 
4 CE Olinda 393115 
5 CE Caruaru 365278 
6 CE Caucaia 365212 
7 CE Petrolina 354317 
8 CE Paulista 334376 
9 CE Juazeiro do Norte 276264 
10 CE Maracanaú 229458 
# ... with 359 more rows 
 
 
e. 
# A tibble: 184 x 3 
 sigla_uf nome populacao 
 <chr> <chr> <dbl> 
1 CE Fortaleza 2686612 
2 CE Caucaia 365212 
3 CE Juazeiro do Norte 276264 
4 CE Maracanaú 229458 
5 CE Sobral 210711 
6 CE Crato 133031 
7 CE Itapipoca 130539 
8 CE Maranguape 130346 
9 CE Iguatu 103074 
10 CE Quixadá 88321 
# ... with 174 more rows 
 
 
Feedback 
Sua resposta está correta. 
 
A opção “e” corresponde aos filtros de coluna e linha aplicados no script, bem como traz os 
valores de população em ordem decrescente, tal como indicado no script. 
 
A resposta correta é: 
# A tibble: 184 x 3 
 sigla_uf nome populacao 
 <chr> <chr> <dbl> 
1 CE Fortaleza 2686612 
2 CE Caucaia 365212 
3 CE Juazeiro do Norte 276264 
4 CE Maracanaú 229458 
5 CE Sobral 210711 
6 CE Crato 133031 
7 CE Itapipoca 130539 
8 CE Maranguape 130346 
9 CE Iguatu 103074 
10 CE Quixadá 88321 
# ... with 174 more rows 
 
Questão 2 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
Execute o script indicado nesta atividade. Em seguida julgue as alternativas como verdadeiras 
ou falsas: 
 
#O objeto url abaixo indica onde está na internet a tabela com os dados sobre municípios 
brasileiros 
url<- 
"https://raw.githubusercontent.com/fernandobarbalho/enap_auto_instucional/main/data/dados_
municipios.csv" 
 
#O comando read_csv permite ler para a sua máquina o conteúdo de uma tabela que está no 
endereço especificado no objeto url 
#o conteúdo da tabela é passado para o dataframe dados_municipios 
dados_municipios<- read_csv(url) 
 
 
dados_municipios%>% 
filter(sigla_uf != "DF") %>% 
group_by(sigla_uf) %>% 
summarise( 
media_populacao_municipios = mean(populacao) 
) %>% 
 
arrange(desc(media_populacao_municipios)) 
a. O estado de São Paulo possui a maior média de população dos seus 
municípios. 
Resposta 1
Falsa
 
b. O estado do Acre está entre os dez estados com maior média de 
população nos seus municípios. 
Resposta 2
Verdadeira
 
c. O Rio de Janeiro é o único estado que tem uma média de população 
dos seus municípios maior do que 100.000 habitantes. 
Resposta 3
Verdadeira
 
d. Todos os 10 estados com maior média de população nos seus 
municípios têm essa média acima dos 50.000 habitantes. 
Resposta 4
Falsa
 
e. A Bahia não aparece na lista dos dez estados com maior média de 
população por município. 
Resposta 5
Verdadeira
 
Feedback 
Sua resposta está correta. 
 
A afirmativa “a” é falsa – o estado do Rio de Janeiro ocupa a primeira posição. A opção “b” é 
verdadeira – o Acre é o décimo do ranking. A opção “c” é verdadeira – o Rio de Janeiro, com 
média de 188763 habitantes nos seus municípios, é o único com esta medida acima de 
100.000 habitantes. A opção “d” é falsa – CE, RR e AC possuem uma média inferior a 50.000 
habitantes. A opção “e” é verdadeira – a lista dos 10 estados compreende: RJ, SP, AM, PA, 
ES, PE, CE, RR, AC. 
 
A resposta correta é: a. O estado de São Paulo possui a maior média de população dos seus 
municípios. → Falsa, b. O estado do Acre está entre os dez estados com maior média de 
população nos seus municípios. → Verdadeira, c. O Rio de Janeiro é o único estado que tem 
uma média de populaçãodos seus municípios maior do que 100.000 habitantes. → Verdadeira, 
d. Todos os 10 estados com maior média de população nos seus municípios têm essa média 
acima dos 50.000 habitantes. → Falsa, e. A Bahia não aparece na lista dos dez estados com 
maior média de população por município. → Verdadeira. 
Questão 3 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
Gráficos de ranking em formato de barras horizontal ajudam você a identificar de forma rápida 
as ocorrências mais relevantes de uma dada variável categórica, tendo como referência 
alguma variável quantitativa. 
Assinale a alternativa que apresenta o gráfico que melhor descreve um ranking de população 
das 10 cidades mais populosas do Brasil: 
Escolha uma opção: 
a. 
 
 
b. 
 
 
c. 
 
 
d. 
 
 
e. 
Feedback 
Sua resposta está correta. 
 
O gráfico da alternativa “c” traz as dez cidades mais populosas do Brasil, como também lista os 
municípios em ordem decrescente de população. 
 
A resposta correta é: 
 
 
Questão 4 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
Assinale a alternativa que apresenta o script que permite analisar a evolução da expectativa de 
vida no Brasil ao longo do tempo. 
Escolha uma opção: 
a. library(dados) 
library(tidyverse) 
dados_gapminder %>% 
filter(pais=="Brasil") %>% 
ggplot()+ 
geom_point(aes(x=pib_per_capita, y=expectativa_de_vida)) 
b. library(dados) 
library(tidyverse) 
dados_gapminder %>% 
filter(ano==2007) %>% 
slice_max(order_by = expectativa_de_vida, n=10) %>% 
mutate(pais = reorder(pais,expectativa_de_vida)) %>% 
ggplot()+ 
geom_col(aes(x=expectativa_de_vida, y=pais)) 
c. library(dados) 
library(tidyverse) 
dados_gapminder %>% 
filter(pais=="Brasil") %>% 
ggplot()+ 
geom_line(aes(x=ano, y=pib_per_capita)) 
d. library(dados) 
library(tidyverse) 
dados_gapminder %>% 
filter(pais=="Brasil") %>% 
ggplot()+ 
geom_line(aes(x=ano, y=expectativa_de_vida)) + 
geom_point(aes(x=ano, y=expectativa_de_vida )) 
e. library(dados) 
library(tidyverse) 
dados_gapminder %>% 
filter(pais=="Argentina") %>% 
ggplot()+ 
geom_point(aes(x=ano, y=expectativa_de_vida)) 
Feedback 
Sua resposta está correta. 
 
Na opção “d” é feito um filtro para que permaneçam apenas os dados do Brasil. O gráfico de 
linha possui o ano no eixo x e a expectativa de vida no eixo y. 
 
A resposta correta é: library(dados) 
library(tidyverse) 
dados_gapminder %>% 
filter(pais=="Brasil") %>% 
ggplot()+ 
geom_line(aes(x=ano, y=expectativa_de_vida)) + 
geom_point(aes(x=ano, y=expectativa_de_vida )) 
Questão 5 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
Observe atentamente o gráfico box-plot a seguir. 
 
Esse é o script que gerou o gráfico anterior: 
 
library(dados) 
library(tidyverse) 
dados_gapminder %>% 
mutate(ano = as.character(ano)) %>% 
ggplot() + 
geom_boxplot(aes(x=ano, y= expectativa_de_vida)) + 
scale_y_continuous(breaks=(seq(0,80,20))) + 
ylim(c(0,NA)) 
a. As linhas horizontais inferiores de cada um dos quadrados 
representam o primeiro quartil, ou seja, 25% dos valores de expectativa 
de vida dos países estão abaixo do valor representado por essa linha. 
Resposta 1
Verdadeira
 
b. As medianas não se alteram ao longo dos anos. 
Resposta 2
Falsa
 
c. Não são percebidos pontos extremos ao longo dos anos. 
Resposta 3
Falsa
 
d. Pode-se perceber que no eixo vertical foi aplicada a escala linear com 
os valores apresentados ao longo do eixo variando de 20 em 20 
unidades, não tendo sido necessário, portanto, o uso da escala 
logarítmica. 
Resposta 4
Verdadeira
 
e. A diferença entre a mediana e o terceiro quartil foi diminuindo ao 
longo dos anos. 
Resposta 5
Verdadeira
 
Feedback 
Sua resposta está correta. 
 
A primeira afirmação é verdadeira: a primeira linha horizontal num box-plot de fato marca o 
primeiro quartil. 
 
A segunda é falsa: as medianas aumentam ao longo dos anos. A terceira afirmativa é falsa: o 
gráfico apresenta um ponto extremo inferior no ano de 1992. A quarta é verdadeira: não foi 
preciso usar a escala logarítmica para o eixo vertical já que a amplitude, diferença entre os 
valores mínimos e máximos, em cada ano não apresenta valor muito elevado. A última 
informação é verdadeira: nos primeiros anos a mediana era mais próxima do primeiro quartil, 
porém os últimos anos disponíveis já mostram que a mediana se aproxima cada vez mais do 
terceiro quartil. 
 
A resposta correta é: a. As linhas horizontais inferiores de cada um dos quadrados 
representam o primeiro quartil, ou seja, 25% dos valores de expectativa de vida dos países 
estão abaixo do valor representado por essa linha. → Verdadeira, b. As medianas não se 
alteram ao longo dos anos. → Falsa, c. Não são percebidos pontos extremos ao longo dos 
anos. → Falsa, d. Pode-se perceber que no eixo vertical foi aplicada a escala linear com os 
valores apresentados ao longo do eixo variando de 20 em 20 unidades, não tendo sido 
necessário, portanto, o uso da escala logarítmica. → Verdadeira, e. A diferença entre a 
mediana e o terceiro quartil foi diminuindo ao longo dos anos. → Verdadeira. 
Questão 6 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
O script abaixo gera um histograma que mostra a distribuição da quantidade de países de 
acordo com a renda per capita em dólares. 
 
library(dados) 
library(tidyverse) 
 
dados_gapminder %>% 
 
filter(ano==2007) %>% 
ggplot() + 
geom_histogram(aes(x= pib_per_capita), color="white") + 
scale_y_continuous(breaks = c(seq(0,10,1)))+ 
scale_x_log10() 
 
De acordo com o que está escrito no código e com o gráfico gerado, assinale a alternativa 
correta. 
Escolha uma opção: 
a. A figura mostra a distribuição de “pib_per_capita” para todos os anos disponíveis na tabela. 
b. Existe apenas um país com “pib_per_capita” menor do que 300 dólares. 
c. Não existem países com “pib_per_capita” maior do que 30000 dólares. 
d. O gráfico não utiliza escala logarítmica no eixo x. 
e. Existem vinte países com renda “per_capita_menor” do que 1000 dólares. 
Feedback 
Sua resposta está correta. 
 
A alternativa correta é a letra “b”, pois o gráfico de histograma revela apenas uma ocorrência à 
esquerda do valor 300 dólares. 
 
A resposta correta é: Existe apenas um país com “pib_per_capita” menor do que 300 dólares. 
Questão 7 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
O código abaixo inclui a leitura de uma tabela sobre cidades brasileiras no ano 2020. Entre 
outras variáveis estão presentes a população e o percentual do gasto municipal com saúde. 
Além disso, todo o código também gera um gráfico que mostra uma associação entre duas 
variáveis e o coeficiente de correlação. Analise com atenção. 
 
library(tidyverse) 
 
url<- 
"https://raw.githubusercontent.com/fernandobarbalho/enap_auto_instucional/main/data/dados_s
aude_municipio.csv" 
 
dados_saude_municipio<- 
read_csv(url) 
 
dados_saude_municipio%>% 
ggplot()+ 
geom_point(aes(x=populacao, y=perc))+ 
scale_x_log10() 
cor(log10(dados_saude_municipio$populacao), dados_saude_municipio$perc) 
 
Sobre a execução do código no programa RStudio, é possível afirmar que: 
Escolha uma opção: 
a. O código usa escala logarítmica no eixo Y. 
b. Pelo gráfico gerado percebe-se uma forte inclinação positiva (quanto maior a população 
maior o percentual gasto com saúde) que é corroborado pelo coeficiente de correlação 
calculado cujo valor é maior que 0.9. 
c. O coeficiente de correlação calculado ao final do código indica uma correlação desprezível 
entre as duas variáveis, o que corrobora a conclusão tirada ao se analisar o gráfico. 
d. Há uma correlação negativa entre população e percentual gasto com saúde. 
e. Como a correlação mediu um valor entre 0.5 e 0.7, há uma associação moderada entre as 
duas variáveis. 
Feedback 
Sua resposta está correta. 
 
O coeficientede correlação medido é de 0.1117601, o que é considerado desprezível, portanto 
a alternativa correta é a letra “c”. 
 
A resposta correta é: O coeficiente de correlação calculado ao final do código indica uma 
correlação desprezível entre as duas variáveis, o que corrobora a conclusão tirada ao se 
analisar o gráfico. 
Questão 8 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
O código abaixo trabalha com a mesma tabela da questão anterior, só que agora se dedica a 
analisar a associação entre população e o valor gasto com saúde. 
 
library(tidyverse) 
 
url<- 
"https://raw.githubusercontent.com/fernandobarbalho/enap_auto_instucional/main/data/dados_s
aude_municipio.csv" 
 
dados_saude_municipio<- 
read_csv(url) 
 
dados_saude_municipio%>% 
ggplot()+ 
geom_point(aes(x=populacao, y=valor))+ 
scale_x_log10() + 
scale_y_log10() 
cor(log10(dados_saude_municipio$populacao), log10(dados_saude_municipio$valor)) 
 
Sobre a execução do código no programa RStudio, é possível afirmar que: 
Escolha uma opção: 
a. O código não usa escala logarítmica. 
b. Pelo gráfico gerado percebe-se uma forte inclinação positiva (quanto maior a população 
maior o percentual gasto com saúde) que é corroborado pelo coeficiente de correlação 
calculado cujo valor é maior que 0.9. 
c. O coeficiente de correlação calculado ao final do código indica uma correlação desprezível 
entre as duas variáveis, o que corrobora a conclusão tirada ao se analisar o gráfico. 
d. Há uma correlação negativa entre população e valor gasto com saúde. 
e. Como a correlação mediu um valor entre 0.5 e 0.7 há uma associação moderada entre as 
duas variáveis. 
Feedback 
Sua resposta está correta. 
 
O gráfico revela uma inclinação fortemente positiva com um coeficiente de correlação medido 
em 0.9449733, portanto a alternativa correta é a letra “b”. 
 
A resposta correta é: Pelo gráfico gerado percebe-se uma forte inclinação positiva (quanto 
maior a população maior o percentual gasto com saúde) que é corroborado pelo coeficiente de 
correlação calculado cujo valor é maior que 0.9. 
 
Iniciado em sexta, 4 ago 2023, 11:18 
Estado Finalizada 
Concluída em sexta, 4 ago 2023, 11:23 
Tempo empregado 4 minutos 40 segundos 
Notas 7,00/8,00 
Avaliar 21,88 de um máximo de 25,00(88%) 
Questão 1 
Incorreto 
Atingiu 0,00 de 1,00 
Marcar questão 
Texto da questão 
O tema de dados abertos ainda é recente e passa por amadurecimento em suas práticas e 
concepções, porém já há alguns direcionamentos aceitos por grande parte da Academia e do 
Governo. 
Sobre os conceitos e temas relacionados a dados abertos, selecione a alternativa correta. 
Escolha uma opção: 
a. Os usuários precisam se cadastrar em uma página de Internet para ter acesso a dados 
abertos. 
b. O campo de dados abertos se desenvolveu de forma independente de outras inciativas 
abertas, tais como código aberto e inovação aberta. 
c. A sociedade civil organizada não tem participação no ecossistema de dados abertos. 
d. A Lei de Acesso à Informação (LAI) favoreceu a consolidação da disponibilização de dados 
abertos no Brasil. 
e. Não é possível fazer download de portais de dados abertos utilizando códigos em R. 
Feedback 
Sua resposta está incorreta. 
 
O artigo 8º da LAI, por prever aspectos de dados abertos, favoreceu a expansão da abertura de 
dados no Brasil, Sendo assim a alternativa correta é a letra “c” . 
 
A resposta correta é: A Lei de Acesso à Informação (LAI) favoreceu a consolidação da 
disponibilização de dados abertos no Brasil. 
Questão 2 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
O código abaixo mostra como se pode utilizar dados vindos do principal portal de dados 
abertos no Brasil, o site dados.gov.br. Execute o e, em seguida, analise o código e o resultado 
para indicar qual a alternativa correta. 
 
##Dados abertos de dados.gov.br 
 
#url do dado 
url_habitacao<- "http://sishab.mdr.gov.br/dados_abertos/_contratacoes_pcmv_pcva.csv" 
 
#download do dado a partir do endereço da url 
download.file(url = url_habitacao, destfile = "contratacoes_pcmv_pcva.csv", mode="wb") 
 
library(readr) 
library(tidyverse) 
library(questionr) 
 
#gera um dataframe a partir do arquivo csv baixado 
contratacoes_pcmv_pcva <- read_delim("contratacoes_pcmv_pcva.csv", 
 delim = "|", escape_double = FALSE, locale = locale(decimal_mark = ",", 
 grouping_mark = ".", encoding = 
"LATIN1"), 
 trim_ws = TRUE) 
 
 
contratacoes_2013<- 
 contratacoes_pcmv_pcva %>% 
 filter(num_ano_assinatura_contrato==2013) 
 
library(questionr) 
 
questionr::freq(contratacoes_2013$txt_modalidade_programa , cum = TRUE, sort = "dec", total 
= TRUE) 
 
Sobre a execução do código acima no programa RStudio, é possível afirmar que: 
Escolha uma opção: 
a. O ano a que o script se refere nesse dado é 2020. 
b. A tabela de frequência mostra que os seis tipos de modalidade de programa possuem a 
mesma distribuição de contratos. 
c. A modalidade de programa Rural possui a maior quantidade de contratos. 
d. Quando somados os contratos das modalidades CCFGTS e Rural percebe-se que mais de 
80% dos contratos relacionam-se com esses dois tipos. 
e. O grupo Rural está associado a 2000 contratos. 
Feedback 
Sua resposta está correta. 
 
A alternativa correta é a letra “d” pois a tabela de frequência demonstra que as modalidades de 
programa Rural e CCFGTS juntas estão associados a 84,7% de todos os contratos realizados 
em 2021. 
 
A resposta correta é: Quando somados os contratos das modalidades CCFGTS e Rural 
percebe-se que mais de 80% dos contratos relacionam-se com esses dois tipos. 
Questão 3 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
O script abaixo gera um gráfico que mostra as principais despesas obrigatórias do governo 
central brasileiro. Execute o script e analise o gráfico gerado. Em seguida, escolha a alternativa 
correta. 
 
library(rtn) 
library(tidyverse) 
 
#Códigos de contas associadas a despesas obrigatórias com controle de fluxo 
despesas_obrigatorias<- c("4.4.1.1", "4.4.1.2", "4.4.1.3","4.4.1.4","4.4.1.5" ) 
 
#gera valores acumulados em 12 meses para as contas selecionadas 
rtn::get_12_month_accumulated_account_data_by_month(despesas_obrigatorias, 
month = c(1:12), #indica que quer o valor acumulado para todos os 12 meses do ano 
 
match_required = FALSE)%>% #indica que vai fazer o match sem precisar do nome completo 
da conta 
rtn::plot_rtn_series() #gera o gráfico de linha 
Escolha uma opção: 
a. A despesa obrigatória com Saúde apresenta valores superiores a todas as demais desde o 
início da série. 
b. A rubrica Bolsa Família e Auxílio Brasil apresenta um comportamento estável, com pouca 
variação durante toda a série. 
c. A rubrica Demais apresenta valores maiores do que Educação em todo o período analisado. 
d. As séries apresentam valores maiores que 0 desde o ano 2000. 
e. A despesa obrigatória com Educação apresenta um forte crescimento a partir do ano de 
2020. 
Feedback 
Sua resposta está correta. 
 
A letra “a” é a alternativa correta. Desde 2008 quando os dados começam a apresentar valores 
maiores que zero a despesa obrigatória com Saúde é maior do que todos os outros tipos de 
despesas obrigatórias. 
 
A resposta correta é: A despesa obrigatória com Saúde apresenta valores superiores a todas 
as demais desde o início da série. 
Questão 4 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
O gráfico logo abaixo é gerado a partir do seguinte código que utiliza a biblioteca {rcofog}. 
 
library(Rcofog) 
library(tidyverse) 
 
funcoes<- c("Saúde","Educação") 
 
Rcofog::dataTimeSeries(funcoes) %>% 
Rcofog::graphTimeSeries() 
 
 
Analise o gráfico e escolha a alternativacorreta. 
Escolha uma opção: 
a. Os gastos com Saúde são maiores do que os com Educação durante todo o período 
analisado. 
b. Os gastos com Saúde sempre são superiores a 6% do gasto total. 
c. O pico do % gasto com Educação ocorre em 2014. 
d. Em 2020 o gasto com Saúde ultrapassa 7% do gasto total. 
e. Os gastos com Educação sempre são superiores a 6% do gasto total. 
Feedback 
Sua resposta está correta. 
 
Pelo gráfico percebe-se que em 2020 o gasto com Saúde apresenta valor entre 7% e 7,5% do 
gasto total, portanto a alternativa correta é a letra “d”. 
 
A resposta correta é: Em 2020 o gasto com Saúde ultrapassa 7% do gasto total. 
Questão 5 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
Analise o script abaixo que gera o gráfico que você vê logo a seguir. O gráfico demonstra uma 
comparação entre as idades de homens e mulheres internados em hospitais de Goiás em 
dezembro de 2020, de acordo com o SIH-RD. 
 
library(microdatasus) 
library(tidyverse) 
 
 
ano_inicio<- 2020 
ano_fim <- 2020 
mes_inicio<-12 
mes_fim<-12 
estado<- "GO" 
 
#Traz dados sobre internações hospitalares: SIH-RD 
resultado<-microdatasus::fetch_datasus(year_start = ano_inicio, 
year_end = ano_fim, 
uf = estado, 
month_start = mes_inicio, 
month_end = mes_fim, 
information_system = "SIH-RD") 
 
dados_internacoes<- microdatasus::process_sih(resultado) 
 
dados_internacoes%>% 
filter(COD_IDADE=="Anos")%>% #filtrar para excluir bebês que ainda não completaram um 
ano 
mutate(IDADE = as.numeric(IDADE))%>% #converte idade de variável categórica para 
numérica 
ggplot() + 
geom_boxplot(aes(x=SEXO, y=IDADE)) + 
scale_y_continuous(breaks = seq(0,100,10)) 
 
 
Sobre a análise do gráfico, assinale qual a alternativa verdadeira. 
Escolha uma opção: 
a. A mediana de idade de pessoas do sexo masculino internadas é maior do que 70 anos. 
b. O primeiro quartil de idade de pessoas do sexo feminino internadas é menor do que 20 
anos. 
c. Existem valores extremos (outliers) no gráfico para o box-plot do sexo feminino. 
d. O gráfico utiliza transformação logarítmica. 
e. A mediana de idade de pessoas internadas do sexo masculino é maior do que a do sexo 
feminino. 
Feedback 
Sua resposta está correta. 
 
Como se vê no gráfico, a mediana da idade de internação para o sexo masculino é de 
aproximadamente 50 anos, portanto superior à do sexo feminino que no gráfico aponta para 
uma idade próxima de 40 anos. A alternativa correta é a letra “e”. 
 
A resposta correta é: A mediana de idade de pessoas internadas do sexo masculino é maior do 
que a do sexo feminino. 
Questão 6 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
Execute o código abaixo que traz uma tabela de frequência de tipo de gestão de hospitais para 
o estado do Ceará em dezembro de 2020. 
 
library(microdatasus) 
library(tidyverse) 
library(questionr) 
 
ano_inicio<- 2020 
ano_fim <- 2020 
mes_inicio<-12 
mes_fim<-12 
estado<- "CE" 
 
#Traz dados sobre internações hospitalares: CNES-ST 
resultado<-microdatasus::fetch_datasus(year_start = ano_inicio, 
year_end = ano_fim, 
uf = estado, 
month_start = mes_inicio, 
 month_end = mes_fim, 
 information_system = "CNES-ST") 
 
dados_hospitais<- microdatasus::process_cnes(resultado) 
questionr::freq(dados_hospitais$TPGESTAO, cum = TRUE, sort = "dec", total = TRUE) 
 
Sobre o resultado da execução do código, assinale a alternativa correta. 
Escolha uma opção: 
a. Em dezembro de 2020 havia mais de 13000 hospitais da rede SUS ativos no Ceará. 
b. O número de hospitais estaduais no Ceará representa menos que 2% do número total de 
hospitais. 
c. O número de hospitais com dupla gestão no Ceará atinge 1% do total de hospitais. 
d. A quantidade de hospitais municipais e estaduais no Ceará corresponde conjuntamente a 
99,9% do total de estabelecimentos ligados ao SUS no estado. 
e. No Ceará havia 12650 hospitais municipais em funcionamento em dezembro de 2020. 
Feedback 
Sua resposta está correta. 
 
A tabela de frequência mostra que a frequência relativa acumulada para os hospitais 
municipais e estaduais em dezembro de 2020 é 99,9%. A alternativa correta é a letra “d”. 
 
A resposta correta é: A quantidade de hospitais municipais e estaduais no Ceará corresponde 
conjuntamente a 99,9% do total de estabelecimentos ligados ao SUS no estado. 
Questão 7 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
O script abaixo gera o gráfico que você vê em seguida. Trata-se de informação sobre o total de 
escolas em cada UF do Brasil. 
library(tidyverse) 
 
#Endereço onde está o arquivo com dados de censo escolar 
url_dados_2021<- 
"https://download.inep.gov.br/dados_abertos/microdados_censo_escolar_2021.zip" 
 
#Faz o download do arquivo 
download.file(url= url_dados_2021,destfile="censo_escolar_2021.zip", mode="wb") 
 
#Descompacta o arquivo zio 
unzip("censo_escolar_2021.zip", files = 
"microdados_ed_basica_2021/dados/microdados_ed_basica_2021.csv") 
 
 
#lê o arquivo csv que estava no arquivo zip e alimenta o dataframe 
microdados_ed_basica_2021 <- 
read_delim("microdados_ed_basica_2021/dados/microdados_ed_basica_2021.csv", 
 delim = ";", escape_double = FALSE, locale = locale(encoding = 
"LATIN1"), 
 trim_ws = TRUE) 
 
#Verificar uma amostra dos dados presentes no dataframe 
glimpse(microdados_ed_basica_2021) 
 
#Gera gráfico de ranking no número de escolas 
microdados_ed_basica_2021 %>% 
 group_by(SG_UF) %>% 
 summarise( 
 quantidade = n() 
 ) %>% 
 mutate(SG_UF = reorder(SG_UF, quantidade)) %>% 
 ungroup() %>% 
 ggplot() + 
 geom_col(aes(x=quantidade, y=SG_UF)) + 
 scale_x_continuous(breaks = seq(0,35000,5000)) 
 
 
 
A partir da análise do gráfico acima, assinale a alternativa correta. 
Escolha uma opção: 
a. Apenas São Paulo tem mais de 25.000 escolas. 
b. Rio de Janeiro ocupa a terceira colocação no número de escolas. 
c. Não existem estados com menos de 5.000 escolas. 
d. Roraima ocupa a última posição no ranking de número de escolas. 
e. Existem apenas dois estados com mais de 15.000 escolas. 
Feedback 
Sua resposta está correta. 
 
Como se vê no gráfico, São Paulo possui quase 35.000 escolas. A segunda colocação fica com 
o Estado de Minas Gerais que apresenta menos de 25.000 escolas. A alternativa correta é a 
letra “a”. 
 
A resposta correta é: Apenas São Paulo tem mais de 25.000 escolas. 
Questão 8 
Correto 
Atingiu 1,00 de 1,00 
Marcar questão 
Texto da questão 
O gráfico abaixo mostra a distribuição de escolas entre federais, estaduais, municipais e 
privadas. Faça uma análise deste gráfico e considere a seguinte codificação. 
 
#TP_DEPENDENCIA 
#1 - Federal 
#2 - Estadual 
#3 - Municipal 
#4 – Privada 
A partir da análise do gráfico e da codificação, assinale a alternativa correta. 
Escolha uma opção: 
a. As escolas federais estão presentes em todos os estados. 
b. As escolas municipais são as mais numerosas em todos os estados com exceção do DF. 
c. O Maranhão tem mais escolas privadas do que o Rio de Janeiro. 
d. A Bahia tem mais escolas estaduais do que o Rio Grande do Sul. 
e. O Ceará tem mais escolas privadas do que Pernambuco. 
Feedback 
Sua resposta está correta. 
 
Fica claro no gráfico que não há escolas municipais, representadas pela cor verde, no DF. A 
alternativa correta é a letra “b”. 
 
A resposta correta é: As escolas municipais são as mais numerosas em todos os estados com 
exceção do DF.

Mais conteúdos dessa disciplina