Buscar

Uniasselvi - Preparacao e Análise Exploratória-Flex Individual - Avaliacao Final

Prévia do material em texto

Disciplina: Preparação e Análise Exploratória de Dados (19364) 
Avaliação: 
Avaliação Final (Objetiva) - Individual Semipresencial ( Cod.:672573) 
( peso.:3,00) 
Prova: 32083291 
Nota da 
Prova: 
9,00 
Legenda: Resposta Certa Sua Resposta Errada 
1. Algumas vezes, exibir somente as informações condensadas de um conjunto de 
dados é mais adequado do que mostrar todas as informações em uma tabela. Nesse 
caso, devemos usar uma exibição de caule e folhas. Referente à exibição de caule e 
folhas, classifique V para as sentenças verdadeiras e F para as falsas: 
 
( ) A exibição de caule e folhas é o objeto mais simples da EDA. 
( ) A exibição de caule e folhas serve simplesmente para organizar os dados de 
uma maneira conveniente. 
( ) As folhas são números em uma haste. 
( ) A haste é uma linha com um valor. 
 
Assinale a alternativa que apresenta a sequência CORRETA: 
 a) F - V - F - V. 
 b) F - F - V - F. 
 c) F - F - V - V. 
 d) V - F - V - V.
 
2. Existe uma técnica da análise exploratória de dados que é uma maneira conveniente 
de estudar a dispersão dos dados bivariados. Na sua construção, é necessária uma 
mediana bivariada, análoga dos quartis e whiskers. Que técnica é essa? 
 a) Exibição Scatterplot Matrix.
 b) Residual Plots. 
 c) Exibição por Outliers. 
 d) Bag Plots. 
 
3. Várias atividades precisam ser realizadas para transformar os dados brutos em 
informações relevantes para a tomada de decisão, ou seja, na sabedoria necessária 
para as organizações. Essas atividades dizem respeito à coleta, integração de dados, 
enriquecimento, entendimento do problema, limpeza de dados ausentes, tratamento 
de dados ausentes, análise de outliers, análise estatística, normalização e redução da 
dimensionalidade. Com relação à integração de dados, analise as sentenças a seguir: 
 
I- Envolve combinar dados de diversas fontes e tipos em um único conjunto de 
dados. 
II- É o processo de agregar valor aos dados existentes. 
III- Consiste em eliminar ruídos, inconsistências e resolver problemas estruturais 
IV- Entre 50% e 90% do tempo dos funcionários de Business Intelligence (BI) é 
gasto na preparação de dados para serem analisados. 
 
Assinale a alternativa CORRETA: 
 a) As sentenças I e IV estão corretas. 
 b) Somente a sentença III está correta. 
 c) Somente a sentença II está correta. 
 d) Somente a sentença IV está correta.
 
4. Em um conjunto de dados, a organização dos dados deve ser um objetivo geral em 
função de facilitar nossa análise posterior. As propriedades dos dados organizados 
são as mesmas que a terceira forma normal de Codd, só que voltadas à linguagem 
estatística, e o foco está em um único conjunto de dados. Com relação às principais 
propriedades dos dados organizados, analise as sentenças a seguir: 
 
I- Cada valor pertence a uma variável e a uma observação (instância). 
II- Cada variável contém todos os valores de uma determinada propriedade medidos 
em todas as observações. 
III- Cada observação contém todos os valores das variáveis medidas para o 
respectivo caso. 
 
Assinale a alternativa CORRETA: 
 a) As sentenças I, II e III estão corretas.
 b) Somente a sentença III está correta. 
 c) Somente a sentença II está correta. 
 d) Somente a sentença I está correta. 
 
5. A organização SGB elencou alguns números para termos uma ideia melhor do 
volume de dados. "O volume de dados criado nos últimos anos é maior do que a 
quantidade produzida em toda a história." (SGB, 2019, s.p.). O estimado para o ano 
2020 é que "[...] existirão cerca de 50 bilhões de dispositivos conectados 
desenvolvidos para a coleta, análise e compartilhamento de dados. A produção de 
dados dobra a cada dois anos e a previsão é de que em 2020 sejam gerados 350 
zettabytes de dados ou 35 trilhões de gigabytes; a rede social Facebook gera mais de 
500 terabytes de dados diariamente. O volume de dados no Brasil pode chegar a 1,6 
bilhão de gigabytes em 2020" (SGB, 2019, s.p.). Nesse sentido, qual é o tamanho de 
um ZB? 
 
FONTE: SGB. O que você precisa entender sobre dados para se tornar uma 
organização Data Driven. 2019. Disponível em: 
http://socialgoodbrasil.org.br/2019/05/15/entenda-tudo-sobre-dados-para-se-tornar-
uma-organizacao-data-driven/. Acesso em: 11 set. 2020. 
 a) Equivale a um trilhão de bytes. 
 b) Equivale a um trilhão de bits. 
 c) Equivale a um trilhão de gigabytes. 
 d) Equivale a um trilhão de megabytes.
 
6. Ao buscar uma solução de um determinado problema, os profissionais envolvidos 
fazem a identificação dos dados relacionados com ele. Esses dados podem ser 
internos e externos. Cabe destacar que essa identificação inicial será o ponto de 
partida para fazer a coleta dos dados e a integração em um conjunto de dados que 
será utilizado no projeto. Com relação aos tipos de dados identificados e suas fontes, 
analise as sentenças a seguir: 
 
I- Os dados estruturados são oriundos de bancos de dados relacionais da 
organização. 
II- Os dados não estruturados e semiestruturados podem ser provenientes das mais 
diversas fontes, como de arquivos de texto, imagem, áudio, vídeo, planilhas, além de 
pesquisas realizadas de mercado. 
III- As redes sociais e bases externas abertas não são relevantes no contexto da 
questão. 
 
Assinale a alternativa CORRETA: 
 a) Somente a sentença I está correta. 
 b) As sentenças I e II estão corretas. 
 c) As sentenças I e III estão corretas. 
 d) As sentenças II e III estão corretas.
 
7. Os valores do conjunto de dados precisam ser trabalhados para que estejam limpos. 
A boa estruturação dos dados facilita as análises. Frequentemente, os dados não são 
fornecidos em um formato tão organizado. Com relação aos cinco principais 
problemas encontrados em conjunto de dados, de acordo com Wickham (2014), 
analise as sentenças a seguir: 
 
I- Múltiplas variáveis são armazenadas em uma coluna. 
II- Cabeçalhos de coluna são valores, ou seja, são nomes de variáveis. 
III- Múltiplos tipos de observação são armazenados na mesma tabela. 
IV- As variáveis são armazenadas somente em linhas. 
V- Um único tipo de observação é armazenado em várias tabelas. 
 
Assinale a alternativa CORRETA: 
 
FONTE: WICKHAM, H. Tidy data. Journal of Statistical Software, v. 59, n. 10, p. 
1-23, 2014. 
 a) Somente a sentença IV está correta. 
 b) As sentenças II e III estão corretas. 
 c) As sentenças I e III estão corretas. 
 d) As sentenças II, IV e V estão corretas.
 
8. Existe uma análise exploratória de dados que tem como objetivo substituir a 
dispersão de pontos por uma smooth curve. Cabe destacar que nesta técnica o efeito 
de suavização é meio drástico e ocorre uma sinalização. A curva resultante da 
suavização pode ser uma linha reta, na qual muitas vezes um ajuste de mínimos 
quadrados locais pode ser empregado nas curvas locais, y = f (x), um quadrático. O 
caractere local é frequentemente introduzido empregando um kernel. Um segundo 
kernel pode ser introduzido para tornar a operação robusta/resistente. Desta forma, se 
reduz o impacto de pontos com grandes resíduos. A qual técnica estamos nos 
referindo? 
 a) Exibição por Outliers.
 b) Bag Plots. 
 c) Smoother. 
 d) Residual Plots. 
 
9. A reexpression se refere a ter uma expressão de mesma informação por números 
diferentes. Podemos exemplificar usando logit = log (p/(1-p)) ao invés da proporção 
p. Com relação à reexpression, analise as sentenças a seguir: 
 
I- Ela pode ser utilizada para se trabalhar com tabelas bidirecionais. 
II- O objetivo pode ser substituir a dispersão de pontos por uma smooth curve. 
III- O objetivo pode ser tanto a aditividade quanto obter retidão ou simetria ou ainda 
tornar a variabilidade mais uniforme. 
 
Assinale a alternativa CORRETA: 
 a) As sentenças I e II estão corretas. 
 b) As sentenças II e III estão corretas.
 c) As sentenças I e III estão corretas. 
 d) Somente a sentença I está correta. 
 
10.Valores com informações ausentes surgem em quase todas as análises estatísticas 
sérias. Primeiramente, para podermos lidar com valores ausentes,é importante 
sabermos o motivo deles estarem ausentes. Referente a como a linguagem R trata 
essas questões, classifique V para as sentenças verdadeiras e F para as falsas: 
 
( ) Os valores ausentes são indicados pelos zeros e Nas. 
( ) Os valores ausentes são indicados pelo Null. 
( ) Os valores ausentes são indicados pelos Nas e Null. 
( ) Os valores ausentes são indicados pelos Nas. 
 
Assinale a alternativa que apresenta a sequência CORRETA: 
 a) F - F - V - F. 
 b) F - F - F - V. 
 c) F - V - V - V.
 d) V - F - V - V.

Outros materiais

Materiais relacionados

Perguntas relacionadas

Perguntas Recentes