Baixe o app para aproveitar ainda mais
Prévia do material em texto
Disciplina: Preparação e Análise Exploratória de Dados (19364) Avaliação: Avaliação Final (Objetiva) - Individual Semipresencial ( Cod.:672573) ( peso.:3,00) Prova: 32083291 Nota da Prova: 9,00 Legenda: Resposta Certa Sua Resposta Errada 1. Algumas vezes, exibir somente as informações condensadas de um conjunto de dados é mais adequado do que mostrar todas as informações em uma tabela. Nesse caso, devemos usar uma exibição de caule e folhas. Referente à exibição de caule e folhas, classifique V para as sentenças verdadeiras e F para as falsas: ( ) A exibição de caule e folhas é o objeto mais simples da EDA. ( ) A exibição de caule e folhas serve simplesmente para organizar os dados de uma maneira conveniente. ( ) As folhas são números em uma haste. ( ) A haste é uma linha com um valor. Assinale a alternativa que apresenta a sequência CORRETA: a) F - V - F - V. b) F - F - V - F. c) F - F - V - V. d) V - F - V - V. 2. Existe uma técnica da análise exploratória de dados que é uma maneira conveniente de estudar a dispersão dos dados bivariados. Na sua construção, é necessária uma mediana bivariada, análoga dos quartis e whiskers. Que técnica é essa? a) Exibição Scatterplot Matrix. b) Residual Plots. c) Exibição por Outliers. d) Bag Plots. 3. Várias atividades precisam ser realizadas para transformar os dados brutos em informações relevantes para a tomada de decisão, ou seja, na sabedoria necessária para as organizações. Essas atividades dizem respeito à coleta, integração de dados, enriquecimento, entendimento do problema, limpeza de dados ausentes, tratamento de dados ausentes, análise de outliers, análise estatística, normalização e redução da dimensionalidade. Com relação à integração de dados, analise as sentenças a seguir: I- Envolve combinar dados de diversas fontes e tipos em um único conjunto de dados. II- É o processo de agregar valor aos dados existentes. III- Consiste em eliminar ruídos, inconsistências e resolver problemas estruturais IV- Entre 50% e 90% do tempo dos funcionários de Business Intelligence (BI) é gasto na preparação de dados para serem analisados. Assinale a alternativa CORRETA: a) As sentenças I e IV estão corretas. b) Somente a sentença III está correta. c) Somente a sentença II está correta. d) Somente a sentença IV está correta. 4. Em um conjunto de dados, a organização dos dados deve ser um objetivo geral em função de facilitar nossa análise posterior. As propriedades dos dados organizados são as mesmas que a terceira forma normal de Codd, só que voltadas à linguagem estatística, e o foco está em um único conjunto de dados. Com relação às principais propriedades dos dados organizados, analise as sentenças a seguir: I- Cada valor pertence a uma variável e a uma observação (instância). II- Cada variável contém todos os valores de uma determinada propriedade medidos em todas as observações. III- Cada observação contém todos os valores das variáveis medidas para o respectivo caso. Assinale a alternativa CORRETA: a) As sentenças I, II e III estão corretas. b) Somente a sentença III está correta. c) Somente a sentença II está correta. d) Somente a sentença I está correta. 5. A organização SGB elencou alguns números para termos uma ideia melhor do volume de dados. "O volume de dados criado nos últimos anos é maior do que a quantidade produzida em toda a história." (SGB, 2019, s.p.). O estimado para o ano 2020 é que "[...] existirão cerca de 50 bilhões de dispositivos conectados desenvolvidos para a coleta, análise e compartilhamento de dados. A produção de dados dobra a cada dois anos e a previsão é de que em 2020 sejam gerados 350 zettabytes de dados ou 35 trilhões de gigabytes; a rede social Facebook gera mais de 500 terabytes de dados diariamente. O volume de dados no Brasil pode chegar a 1,6 bilhão de gigabytes em 2020" (SGB, 2019, s.p.). Nesse sentido, qual é o tamanho de um ZB? FONTE: SGB. O que você precisa entender sobre dados para se tornar uma organização Data Driven. 2019. Disponível em: http://socialgoodbrasil.org.br/2019/05/15/entenda-tudo-sobre-dados-para-se-tornar- uma-organizacao-data-driven/. Acesso em: 11 set. 2020. a) Equivale a um trilhão de bytes. b) Equivale a um trilhão de bits. c) Equivale a um trilhão de gigabytes. d) Equivale a um trilhão de megabytes. 6. Ao buscar uma solução de um determinado problema, os profissionais envolvidos fazem a identificação dos dados relacionados com ele. Esses dados podem ser internos e externos. Cabe destacar que essa identificação inicial será o ponto de partida para fazer a coleta dos dados e a integração em um conjunto de dados que será utilizado no projeto. Com relação aos tipos de dados identificados e suas fontes, analise as sentenças a seguir: I- Os dados estruturados são oriundos de bancos de dados relacionais da organização. II- Os dados não estruturados e semiestruturados podem ser provenientes das mais diversas fontes, como de arquivos de texto, imagem, áudio, vídeo, planilhas, além de pesquisas realizadas de mercado. III- As redes sociais e bases externas abertas não são relevantes no contexto da questão. Assinale a alternativa CORRETA: a) Somente a sentença I está correta. b) As sentenças I e II estão corretas. c) As sentenças I e III estão corretas. d) As sentenças II e III estão corretas. 7. Os valores do conjunto de dados precisam ser trabalhados para que estejam limpos. A boa estruturação dos dados facilita as análises. Frequentemente, os dados não são fornecidos em um formato tão organizado. Com relação aos cinco principais problemas encontrados em conjunto de dados, de acordo com Wickham (2014), analise as sentenças a seguir: I- Múltiplas variáveis são armazenadas em uma coluna. II- Cabeçalhos de coluna são valores, ou seja, são nomes de variáveis. III- Múltiplos tipos de observação são armazenados na mesma tabela. IV- As variáveis são armazenadas somente em linhas. V- Um único tipo de observação é armazenado em várias tabelas. Assinale a alternativa CORRETA: FONTE: WICKHAM, H. Tidy data. Journal of Statistical Software, v. 59, n. 10, p. 1-23, 2014. a) Somente a sentença IV está correta. b) As sentenças II e III estão corretas. c) As sentenças I e III estão corretas. d) As sentenças II, IV e V estão corretas. 8. Existe uma análise exploratória de dados que tem como objetivo substituir a dispersão de pontos por uma smooth curve. Cabe destacar que nesta técnica o efeito de suavização é meio drástico e ocorre uma sinalização. A curva resultante da suavização pode ser uma linha reta, na qual muitas vezes um ajuste de mínimos quadrados locais pode ser empregado nas curvas locais, y = f (x), um quadrático. O caractere local é frequentemente introduzido empregando um kernel. Um segundo kernel pode ser introduzido para tornar a operação robusta/resistente. Desta forma, se reduz o impacto de pontos com grandes resíduos. A qual técnica estamos nos referindo? a) Exibição por Outliers. b) Bag Plots. c) Smoother. d) Residual Plots. 9. A reexpression se refere a ter uma expressão de mesma informação por números diferentes. Podemos exemplificar usando logit = log (p/(1-p)) ao invés da proporção p. Com relação à reexpression, analise as sentenças a seguir: I- Ela pode ser utilizada para se trabalhar com tabelas bidirecionais. II- O objetivo pode ser substituir a dispersão de pontos por uma smooth curve. III- O objetivo pode ser tanto a aditividade quanto obter retidão ou simetria ou ainda tornar a variabilidade mais uniforme. Assinale a alternativa CORRETA: a) As sentenças I e II estão corretas. b) As sentenças II e III estão corretas. c) As sentenças I e III estão corretas. d) Somente a sentença I está correta. 10.Valores com informações ausentes surgem em quase todas as análises estatísticas sérias. Primeiramente, para podermos lidar com valores ausentes,é importante sabermos o motivo deles estarem ausentes. Referente a como a linguagem R trata essas questões, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Os valores ausentes são indicados pelos zeros e Nas. ( ) Os valores ausentes são indicados pelo Null. ( ) Os valores ausentes são indicados pelos Nas e Null. ( ) Os valores ausentes são indicados pelos Nas. Assinale a alternativa que apresenta a sequência CORRETA: a) F - F - V - F. b) F - F - F - V. c) F - V - V - V. d) V - F - V - V.
Compartilhar