Prévia do material em texto
1-Um conjunto de dados é composto por um ou mais atributos, que os definem e são chamados de descritores. Por exemplo, ao falarmos de imagens, há vários atributos genéricos que podem ser utilizados como descritores, ou seja, que podem ser aplicados em qualquer tipo de imagem, bem como podem ser definidos ao domínio da imagem usada. Os termos pixel e voxel são utilizados de forma intercambiável, representando a utilização de imagens 2D ou 3D. Sobre o termo pixel e a região de interesse, assinale a alternativa INCORRETA: A) O termo valor do pixel se refere à intensidade no caso de imagens representadas em tons de cinza. B) Uma região de interesse pode representar sempre uma imagem completa. X C) O termo valor do pixel se refere à intensidade no caso de imagens representadas com cor, no caso de imagens coloridas. D) Uma região de interesse pode representar uma parte de uma imagem ou mesmo uma imagem completa. 2-A reexpression se refere a ter uma expressão de mesma informação por números diferentes.Podemos exemplificar usando logit = log (p/(1-p)) ao invés da proporção p. Com relação à reexpression, analise as sentenças a seguir: I- Ela pode ser utilizada para se trabalhar com tabelas bidirecionais. II- O objetivo pode ser substituir a dispersão de pontos por uma smooth curve. III- O objetivo pode ser tanto a aditividade quanto obter retidão ou simetria ou ainda tornar a variabilidade mais uniforme. Assinale a alternativa CORRETA: A) Somente a sentença I está correta. B) As sentenças I e III estão corretas. X C) As sentenças II e III estão corretas. D) As sentenças I e II estão corretas. 3-A função de limpeza de inconsistências compreende identificar e eliminar valores inconsistentes em conjuntos de dados. Uma inconsistência pode estar relacionada a um único registro (tupla) ou se referir a um conjunto de registros. A inconsistência em apenas uma tupla acontece quando os valores dessa tupla forem divergentes. Também podem existir inconsistências causadas por integrações de dados, em que um atributo pode ter nomes distintos em seus bancos de dados. Consequentemente, podem existir dados redundantes. Nesse sentido, existem alguns métodos para tratar os valores inconsistentes. Referente ao método de correção de erros para tratar os valores inconsistentes,classifique V para as sentenças verdadeiras e F para as falsas: ( ) Esse método é muito rápido. ( ) Esse método consome muito tempo. ( ) Esse método consiste em substituir valores errôneos ou inconsistentes identificados no conjunto de dados. ( ) Esse método pode envolver desde a correção manual até a atualização desses valores em um lote predeterminado de registros, usando comandos de atualização de dados em ambientes relacionais. Assinale a alternativa que apresenta a sequência CORRETA: A)F - V - V - V. X B)F - F - F - V. C)V - F - V - V. D)F - F - V - F 4-Os principais gráficos para representar valores numéricos dizem respeito ao gráfico de pontos (ou de dispersão), ao gráfico de caixas, ao histograma, aos gráficos de densidade e ao gráfico violino. Referente ao gráfico de pontos ou de dispersão, analise as sentenças a seguir: I- No gráfico de dispersão, os dados são mostrados em linhas, sendo que cada linha traz o valor de uma variável. II- O gráfico de dispersão são representações de dados de duas ou mais variáveis que são organizadas em um gráfico. III- O gráfico de dispersão utiliza coordenadas cartesianas para exibir valores de um conjunto de dados. IV- No gráfico de dispersão, os dados são exibidos como uma coleção de pontos, cada um com o valor de uma variável determinando a posição no eixo horizontal e o valor da outra variável determinando a posição no eixo vertical, no caso de se ter duas variáveis. Assinale a alternativa CORRETA: A)As sentenças I, III e IV estão corretas. B)As sentenças I e II estão corretas. C)As sentenças II, III e IV estão corretas. X D)As sentenças I, II e III estão corretas. 5-Ter dados de diferentes tipos (variedade) é uma das características do Big Data. Esses dados podem ser tanto do tipo estruturado como do tipo não estruturado. Lembre-se: dado é tudo o que é observado ou conceituado. Em uma visão um tanto restrita, os dados são algo que pode ser medido. Diante do exposto, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Os dados representam fatos ou algo que realmente ocorreu, que foi observado e medido. ( ) Os dados podem resultar de observação passiva ou coleta ativa. ( ) Os dados são observados em cada unidade e armazenados em um dispositivo eletrônico. Assinale a alternativa que apresenta a sequência CORRETA: A)V - V - V. X B)F - F - V. C)F - V - F. D)V - F - V 6-Os dados quantitativos podem ser classificados quando é possível realizar operações aritméticas. Vamos exemplificar: quando é possível somar dois pesos ou duas temperaturas, peso e temperatura são quantitativos. Dentro dos dados quantitativos, também conhecidos como dados numéricos, existe um subnível de tipos de dados: dados discretos ou dados contínuos. Referente aos dados discretos, classifique V para as sentenças verdadeiras e F para as falsas: ( ) São aqueles dados que assumem valores com casas decimais e que admitem que entre dois números há uma infinidade de números quebrados. ( ) São dados que continuam indefinidamente. ( ) São dados quantitativos que não têm valores em casas decimais, como inteiros e naturais (1, 0,-5). ( ) São um número inteiro e não podem ser subdivididos em partes cada vez menores. Assinale a alternativa que apresenta a sequência CORRETA: A)V - F - V - V. B)F - V - F - V. C)F - F - V - V. X D)F - F - V - F. 7-A análise por componentes principais ajuda a identificar grupo com custo computacional baixo,podendo ser aplicada em qualquer conjunto de dados numéricos que tenha mais de duas dimensões.Na literatura, ela também é conhecida como Karhunen-Loeve ou Método K-L. Existem quatro procedimentos considerados básicos da análise por componentes principais. Com relação a esses quatro procedimentos, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Ao utilizar os componentes principais mais fracos com relação à variância, consegue-se realizar a reconstrução aproximando-se bem dos dados originais. ( ) Os dados de entrada são normalizados de maneira que os valores de todos os atributos fazem parte da mesma faixa de valores. ( ) Os c vetores ortonormais computados pela análise de componentes principais são unitários, norma igual a 1, em que o rumo é perpendicular referente aos demais ( ) Na redução dos componentes mais fracos, primeiramente, os componentes são ordenados de maneira decrescente relacionados à variância. O tamanho do conjunto de dados tem a possibilidade de ser reduzido a partir da eliminação dos componentes mais fracos, ou seja, daqueles que tiverem menor variância. Assinale a alternativa que apresenta a sequência CORRETA: A)V - F - V - V. B)F - V - V - V. X C)F - V - V - F. D)F - F - F - V. 8-Volume de dados não significa qualidade de dados. Uma expressão usada é "Garbage in,Garbage out", além de ser uma ameaça para o sucesso do projeto. Isso acontece pelo fato de a qualidade do insumo ser uma peça fundamental na qualidade do produto. Dessa forma, podemos dizer que a preparação de dados é: A)Afeta minimamente a análise exploratória de dados dentro do projeto, devido ser uma parte insignificante do projeto. B)Não afeta a análise exploratória de dados, apesar de fazer parte do projeto. C)Faz parte do processo da análise exploratória de dados, porém não é algo essencial para o projeto como um todo. D)Essencial para todo e qualquer projeto que envolve a análise exploratória de dados. X 9-Dados organizados, ou seja, estruturados, proveem uma forma padronizada de vincular a estrutura de dados, isto é, seu layout físico, com sua semântica, ou seja, com seu significado. Ao termos um conjunto de dados organizados, conseguimos facilmente manipular, modelar e visualizar,possuindo uma estrutura específica. Portanto, é essencial compreendermos a estrutura e a sua semântica. Analiseas questões referentes à estrutura de dados e assinale a alternativa CORRETA: A)A estrutura dos dados está relacionada com a coleção de seus valores. B)A estrutura dos dados diz respeito aos números que apresentamos. C)A estrutura dos dados se refere aos caracteres apresentados. D)Os dados podem ser estruturados de diferentes formas, ou seja, os dados apresentados são os mesmos, contudo o layout é diferente. X 10-Os principais gráficos para representar valores categóricos dizem respeito ao gráfico de balões, gráfico de mosaicos, mapa de calor, análise de série de dados temporais (ou time series), nuvem de palavras (word cloud), mapa em árvore (ou treemap), dentre outros. Com relação ao mapa em árvore, classifique V para as sentenças verdadeiras e F para as falsas: ( ) A tonalidade indicada no mapa de árvore se refere sempre ao maior valor relacionado ao grupo, representado pelo retângulo. ( ) O mapa de árvore também é conhecido como treemap. ( ) O mapa de árvore é útil para visualizar de várias maneiras os valores, pois é possível determinar os conjuntos com mais registros e os com menos registros apenas analisando o tamanho do retângulo. ( ) O mapa de árvore permite analisar uma terceira variável que é a tonalidade da cor do retângulo. Assinale a alternativa que apresenta a sequência CORRETA: A)F - F - V - F. B)V - V - V - F. C)F - V - V - V. X D)V - F - F - V 11-Algumas vezes, exibir somente as informações condensadas de um conjunto de dados é mais adequado do que mostrar todas as informações em uma tabela. Nesse caso, devemos usar uma exibição de caule e folhas. Referente à exibição de caule e folhas, classifique V para as sentenças verdadeiras e F para as falsas: ( ) A exibição de caule e folhas é o objeto mais simples da EDA. ( ) A exibição de caule e folhas serve simplesmente para organizar os dados de uma maneira conveniente. ( ) As folhas são números em uma haste. ( ) A haste é uma linha com um valor. Assinale a alternativa que apresenta a sequência CORRETA: a)F - V - F - V. b)F - F - V - F. c)F - F - V - V. X d)V - F - V - V. 12-Existe uma técnica da análise exploratória de dados que é uma maneira conveniente de estudar a dispersão dos dados bivariados. Na sua construção, é necessária uma mediana bivariada, análogados quartis e whiskers. Que técnica é essa? a)Exibição Scatterplot Matrix. b)Residual Plots. c)Exibição por Outliers. d)Bag Plots. X 13-Várias atividades precisam ser realizadas para transformar os dados brutos em informações relevantes para a tomada de decisão, ou seja, na sabedoria necessária para as organizações. Essas atividades dizem respeito à coleta, integração de dados, enriquecimento, entendimento do problema, limpeza de dados ausentes, tratamento de dados ausentes, análise de outliers, análise estatística, normalização e redução da dimensionalidade. Com relação à integração de dados, analise as sentenças a seguir: I- Envolve combinar dados de diversas fontes e tipos em um único conjunto de dados. II- É o processo de agregar valor aos dados existentes. III- Consiste em eliminar ruídos, inconsistências e resolver problemas estruturais IV- Entre 50% e 90% do tempo dos funcionários de Business Intelligence (BI) é gasto na preparação de dados para serem analisados. Assinale a alternativa CORRETA: a)As sentenças I e IV estão corretas. X b)Somente a sentença III está correta. c)Somente a sentença II está correta. d)Somente a sentença IV está correta. 14-Em um conjunto de dados, a organização dos dados deve ser um objetivo geral em função de facilitar nossa análise posterior. As propriedades dos dados organizados são as mesmas que a terceira forma normal de Codd, só que voltadas à linguagem estatística, e o foco está em um único conjunto de dados. Com relação às principais propriedades dos dados organizados, analise as sentenças a seguir: I- Cada valor pertence a uma variável e a uma observação (instância). II- Cada variável contém todos os valores de uma determinada propriedade medidos em todas as observações. III- Cada observação contém todos os valores das variáveis medidas para o respectivo caso. Assinale a alternativa CORRETA: a)As sentenças I, II e III estão corretas. X b)Somente a sentença III está correta. c)Somente a sentença II está correta. d)Somente a sentença I está correta. 15-A organização SGB elencou alguns números para termos uma ideia melhor do volume de dados. "O volume de dados criado nos últimos anos é maior do que a quantidade produzida em toda a história." (SGB, 2019, s.p.). O estimado para o ano 2020 é que "[...] existirão cerca de 50 bilhões de dispositivos conectados desenvolvidos para a coleta, análise e compartilhamento de dados. A produção de dados dobra a cada dois anos e a previsão é de que em 2020 sejam gerados 350 zettabytes de dados ou 35 trilhões de gigabytes; a rede social Facebook gera mais de 500 terabytes de dados diariamente. O volume de dados no Brasil pode chegar a 1,6 bilhão de gigabytes em 2020" (SGB, 2019, s.p.). Nesse sentido, qual é o tamanho de um ZB? FONTE: SGB. O que você precisa entender sobre dados para se tornar uma organização Data Driven. 2019. Disponível em: http://socialgoodbrasil.org.br/2019/05/15/entenda -tudo-sobre-dados-para-se-tornar-uma-organizacao-data-driven/. Acesso em: 11 set. 2020. a)Equivale a um trilhão de bytes. b)Equivale a um trilhão de bits. c)Equivale a um trilhão de gigabytes. X d)Equivale a um trilhão de megabytes. 16-Ao buscar uma solução de um determinado problema , os profissionais envolvidos fazem a identificação dos dados relacionados com ele. Esses dados podem ser internos e externos. Cabe destacar que essa identificação inicial será o ponto de partida para fazer a coleta dos dados e a integração em um conjunto de dados que será utilizado no projeto. Com relação aos tipos de dados identificados e suas fontes, analise as sentenças a seguir: I- Os dados estruturados são oriundos de bancos de dados relacionais da organização. II- Os dados não estruturados e semiestruturados podem ser provenientes das mais diversas fontes, como de arquivos de texto, imagem, áudio, vídeo, planilhas, além de pesquisas realizadas de mercado. III- As redes sociais e bases externas abertas não são relevantes no contexto da questão. Assinale a alternativa CORRETA: a)Somente a sentença I está correta. b)As sentenças I e II estão corretas. X c)As sentenças I e III estão corretas. d)As sentenças II e III estão corretas. 17-Os valores do conjunto de dados precisam ser trabalhados para que estejam limpos. A boa estruturação dos dados facilita as análises. Frequentemente, os dados não são fornecidos em um formato tão organizado. Com relação aos cinco principais problemas encontrados em conjunto de dados, de acordo com Wickham (2014), analise as sentenças a seguir: I- Múltiplas variáveis são armazenadas em uma coluna. II- Cabeçalhos de coluna são valores, ou seja, são nomes de variáveis. III- Múltiplos tipos de observação são armazenados na mesma tabela. IV- As variáveis são armazenadas somente em linhas. V- Um único tipo de observação é armazenado e m várias tabelas. Assinale a alternativa CORRETA: FONTE: WICKHAM, H. Tidy data. Journal of Statistical Software, v. 59, n. 10, p.1-23, 2014. a)Somente a sentença IV está correta. b)As sentenças II e III estão corretas. c)As sentenças I e III estão corretas. X d)As sentenças II, IV e V estão corretas 18-Existe uma análise exploratória de dados que tem como objetivo substituir a dispersão de pontos por uma smooth curve. Cabe destacar que nesta técnica o efeito de suavização é meio drástico e ocorre uma sinalização. A curva resultante da suavização pode ser uma linha reta, na qual muitas vezes um ajuste de mínimos quadrados locais pode ser empregado nas curvas locais, y = f (x), um quadrático. O caractere local é frequentemente introduzido empregando um kernel. Um segundo kernel pode ser introduzido para tornar a operação robusta/resistente. Desta forma, se reduz o impacto de pontos com grandes resíduos. A qual técnica estamos nos referindo? a)Exibição por Outliers. b)BagPlots. c)Smoother. X d)Residual Plots. 19. A reexpression se refere a ter uma expressão de mesma informação por números diferentes. Podemos exemplificar usando logit = log (p/(1-p)) ao proporção p. Com relação à reexpression, analise as sentenças a seguir: I- Ela pode ser utilizada para se trabalhar com tabelas bidirecionais. II- O objetivo pode ser substituir a dispersão de pontos por uma smooth curve. III- O objetivo pode ser tanto a aditividade quanto obter retidão ou simetria ou ainda tornar a variabilidade mais uniforme. Assinale a alternativa CORRETA: a) Somente a sentença I está correta. b) As sentenças II e III estão corretas. c) As sentenças I e III estão corretas. X d) As sentenças I e II estão corretas. 20-Valores com informações ausentes surgem em quase todas as análises estatísticas sérias. Primeiramente, para podermos lidar com valores ausentes, é importante sabermos o motivo deles estarem ausentes. Referente a como a linguagem R trata essas questões, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Os valores ausentes são indicados pelos zeros e Nas. ( ) Os valores ausentes são indicados pelo Null. ( ) Os valores ausentes são indicados pelos Nas e Null. ( ) Os valores ausentes são indicados pelos Nas. Assinale a alternativa que apresenta a sequência CORRETA: a)F - F - V - F. b)F - F - F - V. X c)F - V - V - V. d)V - F - V - V. 21-O uso das técnicas de análise exploratória de dados objetiva procurar os dados para a estrutura ou a falta dela. Algumas das técnicas são o uso de sumário de cinco números, exibição de caule e folhas, exibição de scatterplot matrix, exibição por outliers, entre outras técnicas. Referente às tabel classifique V para as sentenças verdadeiras e F para as falsas: () Uma tabela é o objeto mais complexo da EDA. () Uma tabela consiste nos quartis maior, menor, mediano e superior e inferior. () Uma tabela é o objeto mais simples da EDA. () A tabela serve simplesmente para organizar os dados de uma maneira conveniente. Assinale a alternativa que apresenta a sequência CORRETA: a) V - F - V - V. b) F - F - V - F. c) F - V - F - V. d) F - F - V - V X 22-Os atributos contínuos são aqueles que assumem valores com casas decimais e que admitem que entre dois números há uma infinidade de núme quebrados. Podemos exemplificar com o valor de Pi (3,1415), que fica entre 3,0 e 4,0. Pense em dados contínuos como dados que continuam indefinidamente. Esses dados podem ser divididos em unidades cada vez menores. Referente aos dados do tipo contínuo, classifique V para as sen verdadeiras e F para as falsas: () Os dados contínuos podem ser categorizados em dois tipos de escalas de medição: intervalo e proporção. () Uma variável, ou atributo, é contínua se puder receber algum valor em um determinado intervalo. () Exemplos de variáveis contínuas são pesos e alturas de pássaros, temperatura de um dia etc. Assinale a alternativa que apresenta a sequência CORRETA: a) V - V - V. X b) F - V - V. c) F - V - F. d) F - F - V 23-Em um conjunto de dados, a organização dos dados deve ser um objetivo geral em função de facilitar nossa análise posterior. As propriedades dos organizados são as mesmas que a terceira forma normal de Codd, só que voltadas à linguagem estatística, e o foco está em um único conjunto de Com relação às principais propriedades dos dados organizados, analise as sentenças a seguir: I- Cada valor pertence a uma variável e a uma observação (instância). II- Cada variável contém todos os valores de uma determinada propriedade medidos em todas as observações. III- Cada observação contém todos os valores das variáveis medidas para o respectivo caso. Assinale a alternativa CORRETA: a) Somente a sentença II está correta. b) Somente a sentença III está correta. c) Somente a sentença I está correta. X d) As sentenças I, II e III estão corretas 24-Ao buscar uma solução de um determinado problema, os profissionais envolvidos fazem a identificação dos dados relacionados com ele. Esses da podem ser internos e externos. Cabe destacar que essa identificação inicial será o ponto de partida para fazer a coleta dos dados e a integração em conjunto de dados que será utilizado no projeto. Com relação aos tipos de dados identificados e suas fontes, analise as sentenças a seguir: I- Os dados estruturados são oriundos de bancos de dados relacionais da organização. II- Os dados não estruturados e semiestruturados podem ser provenientes das mais diversas fontes, como de arquivos de texto, imagem, áudio, víd planilhas, além de pesquisas realizadas de mercado. III- As redes sociais e bases externas abertas não são relevantes no contexto da questão. Assinale a alternativa CORRETA: a) As sentenças I e III estão corretas. b) As sentenças II e III estão corretas. X c) As sentenças I e II estão corretas. d) Somente a sentença I está correta. 25-Segundo Biall ( 2021, s.p), "sabia que em 2020, a cada minuto, foram publicadas 347 mil novas Stories n o Instagram, 147 mil fotos no Facebook e 4,1 milhões de mensagens foram trocadas no WhatsApp ?" . Cabe destacar que mais d e 4,5 biliões de pessoas usam a internet, enquanto os utilizadores das redes sociais ultrapassam já os 3,8 bilhões com quase 60% da população mundial online . Estes números ilustram bem a quantidade de dado s que circulam no mundo, o que oferece imensas oportunidades e desafios às empresas que transformam estes dado s em valor para o negócio" (BI4ALL, 2021, s.p.). Com base no volume d e da do s não significa qualidade de dado s, analise as sentenças a seguir: I- A preparação de dados é essencial para todo e qualquer projeto que envolve a análise exploratória de dados. II- A qualidade d o insumo interfere diretamente na qualidade do produto. III- Quanto maior a quantidade de dados melhor será o produto final. IV- A qualidade do produto final está diretamente relacio nada a se ter o maior número possível de informação. Assinale a alternativa CORRETA: FONTE : BI4ALL. 2021: A Soberania dos dados. 2021 . Disponível em: https://w ww .bi4all.p t/n o ticias /blo g/20 21- a-soberania-dos-dado s/. Acesso em: 25 maio 2021. A) As sentenças I e II estão corretas. X B) As sentenças II e IV estão corretas . C) As sentenças I II e IV estão corretas. D) As sentenças I e III estão corretas 25- Os cientistas de da do s a valiam a adequação e a qualidade , identificando se alguma melhoria pode ser feita no conjunto de dados ou o s resultados necessários. Por exemplo, um cientista de dados pode descobrir que poucos pontos de dados influenciam o modelo de aprendizado de máquina em direção a um determinado resultado . Dados d e baixa qualidade ou dados ru in s custam a uma organização, média de US$ 1 3,5 milhões por ano, o que é u m custo alto demais para suportar. Dados ruins ou má qualidade dos dados podem alterar a precisão dos insights ou p od em ocasio nar insights incorretos, e é por isso que a preparação é de extrema importância, mesmo que consuma tempo e seja a tarefa menos agradável do processo de ciência de dados. Portanto , a preparação de dados é necessária devido à presença de dados não formatados do mundo real. Com base em como é com pos to a maioria dos dado s do mundo real, classifi qu e V para a s sentenças verdadeiras e F para as sen tenças falsas: ( ) A maioria dos dados do mundo real é composta por dados imprecisos (dados ausentes ), por dados ruidosos e dados inconsistentes. ( ) Existem muitos motivos para os dados ausentes não serem coletados continuamente como erro na entrada de dados, problemas técnicos com biometria e muito mais. ( ) A presença de dados ruidosos (dados errôneos e ou tiers) se deve aos motivos que ocasionam a existência de duplicação d e dados, entrada de da d o s humanos, contendo erros d e código s o u nomes, como violação de restrições de dado s e muito mais. ( ) A presença de inconsistências se deve às razões para a existência de dados ruidosos podem ser um problema tecnológico de gadget que coleta dados, um erro humano durante a entrada de dados e muito mais. Assinale a alternativa que apresentaa sequência CORRETA: A) V - F - V - V. B) F - V - V - V. C) V - V - F - F. X D) F - F - V - F. 26-Um gerente deseja conhecer o perfil dos clientes e dos possíveis clientes para criar campanhas de marketing direcionado. Os objetivos são aumentar a carteira de clientes da empresa e fidelizar os clientes existentes. Esse gerente não sabe como resolver o problema , porém, ele sabe que a área de TI da empresa pode o auxiliar . Digamos que o profissional de TI consiga identificar os dados relacionados os com o problema q u e se refere aos dados da estrutura do s, semiestruturados e não estruturados, bem como dados de redes sociais e de bases externas. Com base nos diferentes tipos de dados identificados e suas fontes, classifique V para as sentenças verdadeiras e F para as sentenças falsas. ( ) Somente as bases internas dizem respeito aos tipos de dados q u e são identificados n o mapeamento do problema. ( ) Na identificação do problema, podemos nos deparar com dados estruturados, dados semi estruturados, dados não estruturados e também dados oriundos de redes sociais e de bases externas. ( ) Nesta identificação, os dados estruturados são oriundos de bancos de dados relacionais da organização. ( ) Os dados não estruturados ou semi estruturados podem ser provenientes das mais diversas fontes, como de arquivos de texto, imagem , áudio , vídeo, p la n ilh as , além de pesquisas realizadas no mercado. Assinale a alternativa que apresenta a sequência CORRETA: A) F - V - V - V . X B) F - V - V - F. C) F - F - V - F. D) V - F - V - V 27-Várias atividades precisam ser realizadas para transformar os dados brutos em informações relevantes para a tomada de decisão, ou seja, na sabedoria necessária para as organizações. Essas atividades dizem respeito à coleta, integração de dados, enriquecimento, entendimento do problema, limpeza de dados ausentes, tratamento de dados ausentes, análise de outliers, análise estatística,normalização e redução da dimensionalidade . Com relação à integração de dados, analise as sentenças a seguir : I- Envolve combinar dados de diversas fontes e tipos em um único conjunto de dados. II- É o processo de agregar valor aos dados existentes. III- Consiste em eliminar ruídos , inconsistências e resolver problemas estruturais IV- Entre 50% e 90% do tempo dos funcionários de Business Intelligence (BI) é gasto na preparação de dados para serem analisados. Assinale a alternativa CORRETA: A) Somente a sentença III está correta. B) As sentenças I e IV estão corretas. X C) Somente a sentença II está correta. D) Somente a sentença IV está correta 28-Ao buscar uma solução de u m determinado problema, os profissionais envolvidos fazem a identificação dos dados relacionados com ele . Esses dados podem ser internos e externos. Cabe destacar que essa identificação inicial será o ponto de partida para fazer a coleta dos dados e a integração em u m conjunto de dados que será utilizado no projeto. Com relação aos tipo s de dados identificados e suas fontes, analise as sentenças a seguir: I- Os dados estruturados são oriundos de bancos d e dados relacionais da organização. II- Os dados não estruturados e semi estruturados podem ser provenientes das mais diversas fontes,como de arquivos de texto, imagem , áudio , vídeo, p la n ilh as , além de pesquisas realizadas no mercado. III- As redes sociais e bases externas abertas não são relevantes no contexto da questão. Assinale a alternativa CORRETA: A) As sentenças I e II estão corretas. X B) As sentenças I e III estão corretas. C) As sentenças II e III estão corretas. D) Somente a sentença I está correta. 29- Os dados quantitativos podem ser classificados quando é possível realizar operações aritméticas. Vamos exemplificar: quando é possível somar dois pesos e duas temperaturas , peso e temperatura são quantitativos. Dentro dos dados quantitativos, também conhecidos como dados numéricos, existe um subnível de tipos de dados : dados discretos ou dados contínuos. Referente ao s dado s discretos, classifique V para as sentenças verdadeiras e F para as falsas: ( ) São aqueles dados que assumem valores com casas decimais e que admitem que entre dois números há uma infinidade de números quebrados. ( ) São dados que continuam indefinidamente. ( ) São dados quantitativos os que não têm valores em casas decimais, como inteiros e naturais (1, 0, -5). ( ) São um número inteiro e não podem ser subdivididas em partes cada vez menores. Assinale a alternativa que apresenta a sequência CORRETA: A) V - F - V - V. B) F - F - V - F. C) F - V - F - V. D) F - F - V - V . X 30- Em computação , como reconhecimento de padrões, recuperação de informações, aprendizado de máquina, mineração de dados e inteligência na Web, é necessário preparar dados de qualidade,processando os dados brutos. Para Mashanovich (2017 ), pelo menos 70%, às vezes mai s de 90% do tempo total do projeto é dedicado à preparação o de dados: coleta de dados, combinar as diversasfontes d e dados , agregação e s, transformações, limpeza de dados e "fatiar e cortar em cubos". Essa atividades ainda envolve examinar a amplitude e profundidade dos dados para obter um entendimento claro , além de transformar a quantidade de dados em qual idade de dados (MASHANO VICH, 2017). Com base na importância d a preparação de dados, classifique V para as sentenças verdadeiras e F para as sentenças falsas. ( ) Após o problema mapeado é a diferença entre o sucesso e o fracasso obtido. ( ) O problema não precisa estar mapeado para fazer uso da preparação de dados. ( ) A preparação de dados é a chave para resolver o problema em questão mesmo quando não se sabe qual problema se quer resolver. ( ) A preparação de dados é um tópico crucial de pesquisa crucial após se mapear o problema em questão. Assinale a que apresenta a sequência CORRETA: FONT E: MASHA N OV ICH, N . Credit Sco pi n g: Part 3 - Data Preparation and Exploratory Data Analysis. 2017. Disponível em : https://w ww .worl dp r ogrammi ng.com/ b log/ credit scoring g_pt 3. Acesso em: 25 maio 2021. A) F - V - V - V. B) F - V - V - F. C) V - F - F - V. X D) V - F - V - V 31- Os atributos contêm informações sobre cada unidade de observação. Dependendo de quantos tipos diferentes d e informações são coletadas de cada um idade, os dados podem ser univariados, bivariados e multivariados. Diante do exposto, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Os atributos podem ter formas e estruturas variadas, mas em um crit é rio são todos iguais, ou seja,os dados contêm informações e características que separam uma unidade ou observação d a s outras. ( ) Os valores que um atributo pode assumir são separados em tipo de dados e escala de medição. ( ) Atributo é o recurso, variável ou campo, que é uma propriedade ou característica de um objeto . Assinale a alternativa que apresenta a sequência CORRETA: A) V - V - V. X B) F - F - V. C) V - F - V. D) F - V - F 32- A preparação de dados é a base da análise. A melhor maneira de acelerar o processo d e análise é reduzir o tempo de preparação de dados. Assim, pode-se dizer que, no contexto, a preparação de dados significa manipulação de dados em um formato adequado para análise e processamento. Nesse processo estão envolvidas etapas como de limpeza, integração , transformação, redução e discretizações. Referente à etapa da limpeza de dados, class i fique V para as sentenças verdadeiras e F para as falsas: ( ) O foco dessa etapa é resolver os conflitos de integração. ( ) Essa etapa visa reduzir o conjunto de dados por meio de estratégias , como de redução de dimensionalidade e requisitos . ( ) Essa etapa se trata de corrigir os dados inconsistentes, preencher valores ausentes e suavizar dados ruidosos. ( ) Nessa etapa, pode ocorrer de no conjunto de dados existirem muitas linhas que não possuam valor para atributos de interesse , dados inconsistentes, registros duplicados ou algum outro erro aleatório . Assinale a alternativa que apresenta a sequência CORRETA: A) F - V - F - V . B) F - F - V - F. C) F - F - V - V.X D) V - F - V - V. 33- A necessidade do pré-processamento dos dados decorre do fato dos dados no mundo real serem incompletos, ou seja, devido à ausência de atributos de interesse, dado s agregados, ausência de valore s; serem ruidosos, decorrente s de erros aleatórios ; de valor e s aberrantes, também conhecidos como outliers; e pelas próprias inconsistências e discrepâncias nas codificações ou nos nomes. Nesse sentido, existem algumas etapas no processo de preparação dos dados. Referente às etapas envolvidos as no processo, classifique V para as sentenças ver da deira s e F para as falsas: ( ) A Integração diz respeito a rem ove r qu al qu er ruído dos dados, envolvendo a normalização, agregação e generalização. ( ) A transformação visa resolver conflitos de dado s ocorridos n a integração de dado s, bem como tratar d e manipular as redundâncias que podem existir. ( ) A redução visa reduzir o conjunto de dados por meio de estratégias, como de redução de dimensionalidade de requisitos, agregação d e cubos de dados e redução de numerosidade. ( ) A discretização ajudar reduzir o tamanho dos dados para a aná lise, muitas vezes dividindo a tributos contínuo sem intervalo s. Assinale a alternativa que apresenta a sequência CORRETA: A) F - F - V - F. B) F - V - F - V. C) F - F - V - V. X D) V - F - V - V.