Baixe o app para aproveitar ainda mais
Prévia do material em texto
18/03/2024, 11:08 Avaliação I - Individual about:blank 1/6 Prova Impressa GABARITO | Avaliação I - Individual (Cod.:822555) Peso da Avaliação 1,50 Prova 63521001 Qtd. de Questões 10 Acertos/Erros 9/1 Nota 9,00 Os cientistas de dados avaliam a adequação e a qualidade, identificando se alguma melhoria pode ser feita no conjunto de dados os resultados necessários. Por exemplo, um cientista de dados pode descobrir que poucos pontos de dados influenciam o modelo de aprendizado de máquina em direção a um determinado resultado. Dados de baixa qualidade ou dados ruins custam, a uma organização, média de US$ 13,5 milhões por ano, o que é um custo alto demais para suportar. Dados ruins ou má qualidade dos dados podem alterar a precisão dos insights ou podem ocasionar insights incorretos, e é por isso que a preparação é de extrema importância, mesmo que consuma tempo e seja a tarefa menos agradável do processo de ciência de dados. Portanto, a preparação de dados é necessária devido à presença de dados não formatados do mundo real. Com base na maioria dos dados do mundo real, analise as sentenças a seguir: I- A maioria dos dados do mundo real é composta por dados imprecisos (dados ausentes), por dados ruidosos e dados inconsistentes. II- Existem muitos motivos para os dados ausentes não serem coletados continuamente como erro na entrada de dados, problemas técnicos com biometria e muito mais. III- A presença de dados ruidosos (dados errôneos e outliers) se deve aos motivos que ocasionam a existência de duplicação de dados, entrada de dados humanos, contendo erros de códigos ou nomes, como violação de restrições de dados e muito mais. IV- A presença de inconsistências se deve às razões para a existência de dados ruidosos podem ser um problema tecnológico de gadget que coleta dados, um erro humano durante a entrada de dados e muito mais. Assinale a alternativa CORRETA: A As sentenças II e III estão corretas. B As sentenças II e IV estão corretas. C As sentenças I e II estão corretas. D Somente a sentença IV está correta. VOLTAR A+ Alterar modo de visualização 1 18/03/2024, 11:08 Avaliação I - Individual about:blank 2/6 Os atributos contínuos são aqueles que assumem valores com casas decimais e que admitem que entre dois números há uma infinidade de números quebrados. Podemos exemplificar com o valor de Pi (3,1415), que fica entre 3,0 e 4,0. Pense em dados contínuos como dados que continuam indefinidamente. Esses dados podem ser divididos em unidades cada vez menores. Referente aos dados do tipo contínuo, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Os dados contínuos podem ser categorizados em dois tipos de escalas de medição: intervalo e proporção. ( ) Uma variável, ou atributo, é contínua se puder receber algum valor em um determinado intervalo. ( ) Exemplos de variáveis contínuas são pesos e alturas de pássaros, temperatura de um dia etc. Assinale a alternativa que apresenta a sequência CORRETA: A F - V - F. B V - V - V. C F - F - V. D F - V - V. A organização SGB elencou alguns números para termos uma ideia melhor do volume de dados. "O volume de dados criado nos últimos anos é maior do que a quantidade produzida em toda a história." (SGB, 2019, s.p.). O estimado para o ano 2020 é que "[...] existirão cerca de 50 bilhões de dispositivos conectados desenvolvidos para a coleta, análise e compartilhamento de dados. A produção de dados dobra a cada dois anos e a previsão é de que em 2020 sejam gerados 350 zettabytes de dados ou 35 trilhões de gigabytes; a rede social Facebook gera mais de 500 terabytes de dados diariamente. O volume de dados no Brasil pode chegar a 1,6 bilhão de gigabytes em 2020" (SGB, 2019, s.p.). Nesse sentido, qual é o tamanho de um ZB? FONTE: SGB. O que você precisa entender sobre dados para se tornar uma organização Data Driven. 2019. Disponível em: http://socialgoodbrasil.org.br/2019/05/15/entenda-tudo-sobre-dados-para-se-tornar-uma- organizacao-data-driven/. Acesso em: 11 set. 2020. A Equivale a um trilhão de bits. B Equivale a um trilhão de megabytes. C Equivale a um trilhão de gigabytes. D Equivale a um trilhão de bytes. A necessidade do pré-processamento dos dados decorre do fato dos dados no mundo real serem incompletos, ou seja, devido à ausência de atributos de interesse, dados agregados, ausência de valores; serem ruidosos, decorrentes de erros aleatórios; de valores aberrantes, também conhecidos como outliers; e pelas próprias inconsistências e discrepâncias nas codificações ou nos nomes. Nesse sentido, existem algumas etapas no processos de preparação dos dados. Referente às etapas envolvidas no processo, classifique V para as sentenças verdadeiras e F para as falsas: ( ) A Integração diz respeito a remover qualquer ruído dos dados, envolvendo a normalização, agregação e generalização. ( ) A transformação visa resolver conflitos de dados ocorridos na integração de dados, bem como tratar de manipular as redundâncias que podem existir. ( ) A redução visa reduzir o conjunto de dados por meio de estratégias, como de redução de 2 3 4 18/03/2024, 11:08 Avaliação I - Individual about:blank 3/6 dimensionalidade de requisitos, agregação de cubos de dados e redução de numerosidade. ( ) A discretização ajuda a reduzir o tamanho dos dados para análise, muitas vezes dividindo atributos contínuos em intervalos. Assinale a alternativa que apresenta a sequência CORRETA: A V - F - V - V. B F - F - V - V. C F - F - V - F. D F - V - F - V. Às vezes, o que pensamos ser um problema não é o problema real. Portanto, para chegar ao problema real, é necessário investigar. A análise de causa raiz é um método eficaz de análise: ajuda a identificar o que, como e por que algo aconteceu. Segundo Etman (2018), chegar a um problema claramente definido é uma ação orientada a descobertas. Comece com uma definição conceitual e, por meio da análise (causa, análise de impacto etc.), você forma e redefine o problema em termos de questões. Um problema se torna conhecido quando uma pessoa observa uma discrepância entre a maneira como as coisas são e como deveriam ser. Sobre como os problemas podem ser identificados, segundo Etamann (2018), analise as sentenças a seguir: I- Relatórios de desempenho visando futuras projeções da empresa, portanto, não precisa estar se pensando na identificação dos problemas. II- Estudos comparativos e benchmarking. III- Relatório de desempenho para avaliar o desempenho atual em relação às metas e objetivos. IV- Análise Strengths, Weaknesses, Opportunities e Threats (SWOT), que consiste em uma ferramenta para avaliar os pontos fortes, que são as Forças e Oportunidades, e os pontos fracos, que são Fraquezas e Ameaças (FOFA). Assinale a alternativa CORRETA: FONTE: ETMANN, Al. Big Data: The analytics life cycle. 2018. Disponível em: https://www.linkedin.com/pulse/big-datathe-analytics-life-cycle-alaa-etman/. Acesso em: 27 maio 2021. A As sentenças I e II estão corretas. B As sentenças I e IV estão corretas. 5 18/03/2024, 11:08 Avaliação I - Individual about:blank 4/6 C As sentenças I e III estão corretas. D As sentenças II, III e IV estão corretas. Um gerente deseja conhecer o perfil dos clientes e dos possíveis clientes para criar campanhas de marketing direcionado. Os objetivos são aumentar a carteira de clientes da empresa e fidelizar os clientes existentes. Esse gerente não sabe como resolver o problema, porém, ele sabe que a área de TI da empresa pode o auxiliar. Digamos que o profissional de TI consiga identificar os dados relacionados com o problema que se referente aos dados estruturados, semiestruturados e não estruturados, bem como dados de redes sociais e de bases externas. Com base nos diferentes tipos de dados identificados e suas fontes, classifique V para as sentenças verdadeiras e F para as sentenças falsas: ( ) Somente as bases internas dizem respeito aos tipos de dados que são identificados no mapeamentodo problema. ( ) Na identificação do problema, podemos nos deparar com dados estruturados, dados semiestruturados, dados não estruturados e também dados oriundos de redes sociais e de bases externas. ( ) Nesta identificação, os dados estruturados são oriundos de bancos de dados relacionais da organização. ( ) Os dados não estruturados e semiestruturados podem ser provenientes das mais diversas fontes, como de arquivos de texto, imagem, áudio, vídeo, planilhas, além de pesquisas realizadas de mercado. Assinale a alternativa que apresenta a sequência CORRETA: A F - V - V - F. B V - F - V - V. C F - F - V - F. D F - V - V - V. Percebe-se que as pessoas estão cada vez mais dependentes da tecnologia para executar suas atividades diárias, tanto profissionais, domésticas e de lazer. Para isso, as pessoas utilizam computadores, dispositivos móveis, armazenam os dados na nuvem, utilizam cartão de crédito, acessam redes sociais etc. Um conceito 6 7 18/03/2024, 11:08 Avaliação I - Individual about:blank 5/6 que representa esse cenário é o termo Big Data. O Big Data pode ser conceituado por volume, variedade e velocidade, formando os 3Vs. Essa definição é mais abrangente e quebra o mito de que o Big Data se refere apenas ao tamanho dos dados do armazenamento. Além disso, cada um dos 3Vs tem suas próprias ramificações para análises. Com relação a cada um dos 3Vs, avalie as sentenças a seguir: I- O V da Velocidade é referente a se exigir velocidade de processamento em tempo real. II- O V da Variedade é referente a se ter diferentes tipos de dados, sendo eles estruturados ou não estruturados. III- O V de Volume é oriundo do fato de se ter um grande volume de dados. IV- O V do Volume é porque são considerados apenas os dados estruturados que existem em grande quantidade. Assinale a alternativa CORRETA: A As sentenças III e IV estão corretas. B As sentenças II e IV estão corretas. C As sentenças I, III e IV estão corretas. D As sentenças I, II e III estão corretas. Ao buscar uma solução de um determinado problema, os profissionais envolvidos fazem a identificação dos dados relacionados com ele. Esses dados podem ser internos e externos. Cabe destacar que essa identificação inicial será o ponto de partida para fazer a coleta dos dados e a integração em um conjunto de dados que será utilizado no projeto. Com relação aos tipos de dados identificados e suas fontes, analise as sentenças a seguir: I- Os dados estruturados são oriundos de bancos de dados relacionais da organização. II- Os dados não estruturados e semiestruturados podem ser provenientes das mais diversas fontes, como de arquivos de texto, imagem, áudio, vídeo, planilhas, além de pesquisas realizadas de mercado. III- As redes sociais e bases externas abertas não são relevantes no contexto da questão. Assinale a alternativa CORRETA: A As sentenças I e II estão corretas. B As sentenças II e III estão corretas. C Somente a sentença I está correta. D As sentenças I e III estão corretas. Os dados são transformados de dados brutos para informação e o conhecimento será extraído da informação que foi construída ao longo da preparação de dados. "O conhecimento são informações contextualizadas e baseadas em fatos. Por exemplo: um conjunto de informações relacionadas evidencia um perfil de cliente" (CAETANO, 2018, s.p.). A sabedoria necessária para que as empresas possam tomar decisões é adquirida por meio do conhecimento. Nesse contexto de dados, informação, conhecimento e sabedoria, analise as sentenças a seguir: 8 9 18/03/2024, 11:08 Avaliação I - Individual about:blank 6/6 I- Sabedoria são informações contextualizadas e baseadas em fatos. II- Conhecimento é o dado já processado. III- Dado é a informação bruta, que ainda não passou por processo e/ou organização para ser utilizada. IV- Informações são dados confiáveis, relevantes e enriquecidos. Assinale a alternativa CORRETA: FONTE: CAETANO, J. A. Preparação de dados. 2018. Disponível em: https://rapido.igti.com.br/products/pdd-class. Acesso em: 11 set. 2020. A As sentenças III e IV estão corretas. B As sentenças I e III estão corretas. C As sentenças I e II estão corretas. D As sentenças II e IV estão corretas. A linguagem R é uma linguagem para manipulação de dados e análises estatísticas, de código aberto “[...] para computação estatística e construção de gráficos que pode ser baixada e distribuída gratuitamente, de acordo com a licença GNU. O R está disponível para as plataformas UNIX, Windows e MacOS” (LANDEIRO, 2011, sp). FONTE: LANDEIRO, Victor Lemes. Introdução ao uso do programa R. Manaus: Instituto Nacional de Pesquisas da Amazônia, 2011. Referente à Linguagem R, assinale a alternativa INCORRETA: A A linguagem R possui bibliotecas de manipulação e armazenamento de dados (arquivos de texto, bancos de dados etc.). B A linguagem R possibilita que sejam gerados gráficos, mas estes não podem ser exportados para relatórios. C A linguagem R também é um conjunto de facilitadores para manipulação de dados. D A Linguagem R possui um amplo conjunto de bibliotecas para análise e visualização de dados. 10 Imprimir
Compartilhar