Baixe o app para aproveitar ainda mais
Prévia do material em texto
Avaliação Final (Objetiva) - Individual FLEX (Cod.:680839) Código da prova: 37702714 Disciplina: Preparação e Análise Exploratória de Dados (19364) Período para responder: 02/10/2021 - 18/10/2021 Peso: 3,00 1 - Em computação, como reconhecimento de padrões, recuperação de informações, aprendizado de máquina, mineração de dados e inteligência na Web, é necessário preparar dados de qualidade, processando os dados brutos. Para Mashanovich (2017), pelo menos 70%, às vezes mais de 90% do tempo total do projeto é dedicado à preparação de dados: coleta de dados, combinar as diversas fontes de dados, agregações, transformações, limpeza de dados e "fatiar e cortar em cubos". Essa atividade ainda envolve examinar a amplitude e profundidade dos dados para obter um entendimento claro, além de transformar a quantidade de dados em qualidade de dados (MASHANOVICH, 2017). Com base na importância da preparação de dados adequada, assinale a alternativa CORRETA: FONTE: MASHANOVICH, N. Credit Scoping: Part 3 - Data Preparation and Exploratory Data Analysis. 2017. Disponível em: https://www. worldprogramming.com/blog/credit_scoring_pt3. Acesso em: 25 maio 2021. A ) O problema não precisa estar mapeado para fazer uso da preparação de dados. B ) A preparação de dados é a chave para resolver o problema em questão mesmo quando não se sabe qual problema se quer resolver. C ) A preparação de dados é tão crucial que acontece até antes mesmo de se mapear o problema em questão. D ) Após o problema mapeado a preparação de dados é a diferença entre o sucesso e o fracasso obtido. 2 - Algumas vezes, exibir somente as informações condensadas de um conjunto de dados é mais adequado do que mostrar todas as informações em uma tabela. Nesse caso, devemos usar uma exibição de caule e folhas. Referente à exibição de caule e folhas, classifique V para as sentenças verdadeiras e F para as falsas: ( ) A exibição de caule e folhas é o objeto mais simples da EDA. ( ) A exibição de caule e folhas serve simplesmente para organizar os dados de uma maneira conveniente. ( ) As folhas são números em uma haste. ( ) A haste é uma linha com um valor. Assinale a alternativa que apresenta a sequência CORRETA: A ) F - F - V - F. B ) F - F - V - V. C ) V - F - V - V. D ) F - V - F - V. 3 - O uso das técnicas de análise exploratória de dados objetiva procurar os dados para a estrutura ou a falta dela. Algumas das técnicas são o uso de tabelas, sumário de cinco números, exibição de caule e folhas, exibição de scatterplot matrix, exibição por outliers, entre outras técnicas. Referente às tabelas, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Uma tabela é o objeto mais complexo da EDA. ( ) Uma tabela consiste nos quartis maior, menor, mediano e superior e inferior. ( ) Uma tabela é o objeto mais simples da EDA. ( ) A tabela serve simplesmente para organizar os dados de uma maneira conveniente. Assinale a alternativa que apresenta a sequência CORRETA: A ) F - F - V - F. B ) F - F - V - V. C ) F - V - F - V. D ) V - F - V - V. 4 - A limpeza de dados diz respeito a todo e qualquer tipo de tratamento que se realize sobre os dados escolhidos de maneira que garanta a qualidade, ou seja, que se assegure a completude, veracidade e integridade dos fatos que aqueles dados representem. Nesse sentido, analise as sentenças a seguir: I- Informações ausentes, errôneas ou inconsistentes nas bases de dados devem ser corrigidas de forma a não comprometer a qualidade dos modelos de conhecimento a serem extraídos. II- Valores com informações ausentes dificilmente aparecem em análises estatísticas sérias. III- Um exemplo simples de limpeza de dados seria a definição de um intervalo de possíveis valores para um determinado atributo. Assinale a alternativa CORRETA: A ) As sentenças II e III estão corretas. B ) As sentenças I e III estão corretas. C ) As sentenças I e II estão corretas. D ) Somente a sentença I está correta. 5 - Os cientistas de dados avaliam a adequação e a qualidade, identificando se alguma melhoria pode ser feita no conjunto de dados os resultados necessários. Por exemplo, um cientista de dados pode descobrir que poucos pontos de dados influenciam o modelo de aprendizado de máquina em direção a um determinado resultado. Dados de baixa qualidade ou dados ruins custam, a uma organização, média de US$ 13,5 milhões por ano, o que é um custo alto demais para suportar. Dados ruins ou má qualidade dos dados podem alterar a precisão dos insights ou podem ocasionar insights incorretos, e é por isso que a preparação é de extrema importância, mesmo que consuma tempo e seja a tarefa menos agradável do processo de ciência de dados. Portanto, a preparação de dados é necessária devido à presença de dados não formatados do mundo real. Com base em como é composto a maioria dos dados do mundo real, classifique V para as sentenças verdadeiras e F para as sentenças falsas: ( ) A maioria dos dados do mundo real é composta por dados imprecisos (dados ausentes), por dados ruidosos e dados inconsistentes. ( ) Existem muitos motivos para os dados ausentes não serem coletados continuamente como erro na entrada de dados, problemas técnicos com biometria e muito mais. ( ) A presença de dados ruidosos (dados errôneos e outliers) se deve aos motivos que ocasionam a existência de duplicação de dados, entrada de dados humanos, contendo erros de códigos ou nomes, como violação de restrições de dados e muito mais. ( ) A presença de inconsistências se deve as razões para a existência de dados ruidosos podem ser um problema tecnológico de gadget que coleta dados, um erro humano durante a entrada de dados e muito mais. Assinale a alternativa que apresenta a sequência CORRETA: A ) F - F - V - F. B ) V - V - F - F. C ) F - V - V - V. D ) V - F - V - V. 6 - Um conjunto de dados é uma coleção de valores, geralmente números quando quantitativos ou sequências de caracteres se qualitativas. Os valores são organizados de duas maneiras, pertencendo a uma variável e a uma observação. A semântica dos dados é fundamental na organização dos dados. Sobre essa observação, assinale a alternativa CORRETA: A ) A estrutura dos dados se refere aos caracteres apresentados. B ) Os dados podem ser estruturados de diferentes formas, ou seja, os dados apresentados são os mesmos, contudo o layout é diferente. C ) A estrutura dos dados está relacionada com a coleção de seus valores. D ) A estrutura dos dados diz respeito aos números que apresentamos. 7 - Existe uma análise exploratória de dados que tem como objetivo substituir a dispersão de pontos por uma smooth curve. Cabe destacar que nesta técnica o efeito de suavização é meio drástico e ocorre uma sinalização. A curva resultante da suavização pode ser uma linha reta, na qual muitas vezes um ajuste de mínimos quadrados locais pode ser empregado nas curvas locais, y = f (x), um quadrático. O caractere local é frequentemente introduzido empregando um kernel. Um segundo kernel pode ser introduzido para tornar a operação robusta/resistente. Desta forma, se reduz o impacto de pontos com grandes resíduos. A qual técnica estamos nos referindo? A ) Smoother. B ) Residual Plots. C ) Bag Plots. D ) Exibição por Outliers. 8 - Dados organizados, ou seja, estruturados, proveem uma forma padronizada de vincular a estrutura de dados, isto é, seu layout físico, com sua semântica, ou seja, com seu significado. Ao termos um conjunto de dados organizados, conseguimos facilmente manipular, modelar e visualizar, possuindo uma estrutura específica. Portanto, é essencial compreendermos estrutura e a sua semântica. Analise as questões referentes à estrutura de dados e assinale a alternativa CORRETA: A ) Os dados podem ser estruturados de diferentes formas, ou seja, os dados apresentados são os mesmos, contudo o layout é diferente. B ) A estrutura dos dados diz respeito aos números que apresentamos. C ) A estrutura dos dados se refere aos caracteres apresentados. D ) A estrutura dos dados estárelacionada com a coleção de seus valores. 9 - Existe uma técnica da análise exploratória de dados que é uma maneira conveniente de estudar a dispersão dos dados bivariados. Na sua construção, é necessária uma mediana bivariada, análoga dos quartis e whiskers. Que técnica é essa? A ) Exibição Scatterplot Matrix. B ) Exibição por Outliers. C ) Residual Plots. D ) Bag Plots. 10 - Um gerente deseja conhecer o perfil dos clientes e dos possíveis clientes para criar campanhas de marketing direcionado. Os objetivos são aumentar a carteira de clientes da empresa e fidelizar os clientes existentes. Esse gerente não sabe como resolver o problema, porém, ele sabe que a área de TI da empresa pode o auxiliar. Digamos que o profissional de TI consiga identificar os dados relacionados com o problema que se referente aos dados estruturados, semiestruturados e não estruturados, bem como dados de redes sociais e de bases externas. Com base nos diferentes tipos de dados identificados e suas fontes, analise as sentenças a seguir: I- Somente as bases internas dizem respeito aos tipos de dados que são identificados no mapeamento do problema. II- Na identificação do problema, podemos nos deparar com dados estruturados, dados semiestruturados, dados não estruturados e também dados oriundos de redes sociais e de bases externas. III- Nesta identificação, os dados estruturados são oriundos de bancos de dados relacionais da organização. IV- Os dados não estruturados e semiestruturados podem ser provenientes das mais diversas fontes, como de arquivos de texto, imagem, áudio, vídeo, planilhas, além de pesquisas realizadas de mercado. Assinale a alternativa CORRETA: A ) Somente a sentença III está correta. B ) As sentenças I e IV estão corretas. C ) As sentenças I e II estão corretas. D ) As sentenças II, III e IV estão corretas.
Compartilhar