Buscar

Preparação e Análise Exploratória de Dados - A1

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Os cientistas de dados avaliam a adequação e a qualidade, identificando se alguma melhoria pode ser feita no conjunto de dados
os resultados necessários. Por exemplo, um cientista de dados pode descobrir que poucos pontos de dados influenciam o modelo de
aprendizado de máquina em direção a um determinado resultado. Dados de baixa qualidade ou dados ruins custam, a uma
organização, média de US$ 13,5 milhões por ano, o que é um custo alto demais para suportar. Dados ruins ou má qualidade dos
dados podem alterar a precisão dos insights ou podem ocasionar insights incorretos, e é por isso que a preparação é de extrema
importância, mesmo que consuma tempo e seja a tarefa menos agradável do processo de ciência de dados. Portanto, a preparação de
dados é necessária devido à presença de dados não formatados do mundo real. Com base em como é composto a maioria dos dados
do mundo real, analise as sentenças a seguir:
I- A maioria dos dados do mundo real é composta por dados imprecisos (dados ausentes), por dados ruidosos e dados
inconsistentes. 
II- Existem muitos motivos para os dados ausentes não serem coletados continuamente como erro na entrada de dados, problemas
técnicos com biometria e muito mais. 
III- A presença de dados ruidosos (dados errôneos e outliers) se deve aos motivos que ocasionam a existência de duplicação de
dados, entrada de dados humanos, contendo erros de códigos ou nomes, como violação de restrições de dados e muito mais. 
IV- A presença de inconsistências se deve as razões para a existência de dados ruidosos podem ser um problema tecnológico de
gadget que coleta dados, um erro humano durante a entrada de dados e muito mais. 
Assinale a alternativa CORRETA:
A As sentenças II e IV estão corretas.
B Somente a sentença IV está correta.
C As sentenças II e III estão corretas.
D As sentenças I e II estão corretas.
Em computação, como reconhecimento de padrões, recuperação de informações, aprendizado de máquina, mineração de dados
e inteligência na Web, é necessário preparar dados de qualidade, processando os dados brutos. Para Mashanovich (2017), pelo menos
70%, às vezes mais de 90% do tempo total do projeto é dedicado à preparação de dados: coleta de dados, combinar as diversas fontes
de dados, agregações, transformações, limpeza de dados e "fatiar e cortar em cubos". Essa atividade ainda envolve examinar a
amplitude e profundidade dos dados para obter um entendimento claro, além de transformar a quantidade de dados em qualidade de
dados (MASHANOVICH, 2017). Com base na importância da preparação de dados, analise as sentenças a seguir:
I- Após o problema mapeado é a diferença entre o sucesso e o fracasso obtido. 
II- O problema não precisa estar mapeado para fazer uso da preparação de dados. 
III- A preparação de dados é a chave para resolver o problema em questão mesmo quando não se sabe qual problema se quer
resolver. 
IV-A preparação de dados é um tópico de pesquisa crucial após se mapear o problema em questão. 
Assinale a alternativa CORRETA:
FONTE: MASHANOVICH, N. Credit Scoping: Part 3 - Data Preparation and Exploratory Data Analysis. 2017. Disponível em:
https://www.worldprogramming.com/blog/credit_scoring_pt3. Acesso em: 25 maio 2021.
A As sentenças I e IV estão corretas.
B As sentenças II e III estão corretas.
C As sentenças III e IV estão corretas.
D As sentenças I e II estão corretas.
Os dados quantitativos podem ser classificados quando é possível realizar operações aritméticas. Vamos exemplificar: quando é
possível somar dois pesos ou duas temperaturas, peso e temperatura são quantitativos. Dentro dos dados quantitativos, também
conhecidos como dados numéricos, existe um subnível de tipos de dados: dados discretos ou dados contínuos. Referente aos dados
discretos, classifique V para as sentenças verdadeiras e F para as falsas:
( ) São aqueles dados que assumem valores com casas decimais e que admitem que entre dois números há uma infinidade de
números quebrados.
( ) São dados que continuam indefinidamente.
( ) São dados quantitativos que não têm valores em casas decimais, como inteiros e naturais (1, 0, -5).
( ) São um número inteiro e não podem ser subdivididos em partes cada vez menores.
1
2
3
Assinale a alternativa que apresenta a sequência CORRETA:
A F - F - V - V.
B F - V - F - V.
C V - F - V - V.
D F - F - V - F.
A organização SGB elencou alguns números para termos uma ideia melhor do volume de dados. "O volume de dados criado
nos últimos anos é maior do que a quantidade produzida em toda a história." (SGB, 2019, s.p.). O estimado para o ano 2020 é que "
[...] existirão cerca de 50 bilhões de dispositivos conectados desenvolvidos para a coleta, análise e compartilhamento de dados. A
produção de dados dobra a cada dois anos e a previsão é de que em 2020 sejam gerados 350 zettabytes de dados ou 35 trilhões de
gigabytes; a rede social Facebook gera mais de 500 terabytes de dados diariamente. O volume de dados no Brasil pode chegar a 1,6
bilhão de gigabytes em 2020" (SGB, 2019, s.p.). Nesse sentido, qual é o tamanho de um ZB?
FONTE: SGB. O que você precisa entender sobre dados para se tornar uma organização Data Driven. 2019. Disponível em:
http://socialgoodbrasil.org.br/2019/05/15/entenda-tudo-sobre-dados-para-se-tornar-uma-organizacao-data-driven/. Acesso em: 11 set.
2020.
A Equivale a um trilhão de gigabytes.
B Equivale a um trilhão de megabytes.
C Equivale a um trilhão de bits.
D Equivale a um trilhão de bytes.
Um gerente deseja conhecer o perfil dos clientes e dos possíveis clientes para criar campanhas de marketing direcionado. Os
objetivos são aumentar a carteira de clientes da empresa e fidelizar os clientes existentes. Esse gerente não sabe como resolver o
problema, porém, ele sabe que a área de TI da empresa pode o auxiliar. Digamos que o profissional de TI consiga identificar os
dados relacionados com o problema que se referente aos dados estruturados, semiestruturados e não estruturados, bem como dados
de redes sociais e de bases externas. Com base nos diferentes tipos de dados identificados e suas fontes, classifique V para as
sentenças verdadeiras e F para as sentenças falsas. 
( ) Somente as bases internas dizem respeito aos tipos de dados que são identificados no mapeamento do problema. 
( ) Na identificação do problema, podemos nos deparar com dados estruturados, dados semiestruturados, dados não estruturados e
também dados oriundos de redes sociais e de bases externas. 
( ) Nesta identificação, os dados estruturados são oriundos de bancos de dados relacionais da organização. 
( ) Os dados não estruturados e semiestruturados podem ser provenientes das mais diversas fontes, como de arquivos de texto,
imagem, áudio, vídeo, planilhas, além de pesquisas realizadas de mercado. 
Assinale a alternativa que apresenta a sequência CORRETA:
A F - V - V - F.
B F - V - V - V.
C V - F - V - V.
D F - F - V - F.
Segundo Bi4all (2021, s.p), "sabia que em 2020, a cada minuto, foram publicadas 347 mil novas Stories no Instagram, 147 mil
fotos no Facebook e 41 milhões de mensagens foram trocadas no WhatsApp?". Cabe destacar "que mais de 4,5 biliões de pessoas
usam internet, enquanto os utilizadores das redes sociais ultrapassaram já os 3,8 biliões com quase 60% da população mundial
online. Estes números ilustram bem a quantidade de dados que circulam no mundo, o que oferece imensas oportunidades e desafios
às empresas que transformam estes dados em valor para o negócio" (BI4ALL, 2021, s.p.). Com base no volume de dados não
significa qualidade de dados, analise as sentenças a seguir:
I- A preparação de dados é essencial para todo e qualquer projeto que envolver a análise exploratória de dados. 
II- A qualidade do insumo interfere diretamente na qualidade do produto. 
III-Quanto maior a quantidade de dados melhor será o produto final. 
4
5
6
IV-A qualidade do produto final está diretamente relacionada a se ter o maior número possível de informação. 
Assinale a alternativa CORRETA:
FONTE: BI4ALL.2021: A Soberania dos dados. 2021. Disponível em: https://www.bi4all.pt/noticias/blog/2021-a-soberania-dos-
dados/. Acesso em: 25 maio 2021.
A As sentenças III e IV estão corretas.
B As sentenças II e IV estão corretas.
C As sentenças I e II estão corretas.
D As sentenças I e III estão corretas.
Volume de dados não significa qualidade de dados. Uma expressão usada é "Garbage in, Garbage out", além de ser uma ameaça
para o sucesso do projeto. Isso acontece pelo fato de a qualidade do insumo ser uma peça fundamental na qualidade do produto.
Dessa forma, podemos dizer que a preparação de dados é:
A Essencial para todo e qualquer projeto que envolve a análise exploratória de dados.
B Afeta minimamente a análise exploratória de dados dentro do projeto, devido ser uma parte insignificante do projeto.
C Faz parte do processo da análise exploratória de dados, porém não é algo essencial para o projeto como um todo.
D Não afeta a análise exploratória de dados, apesar de fazer parte do projeto.
Os atributos contêm informações sobre cada unidade de observação. Dependendo de quantos tipos diferentes de informações
são coletados de cada unidade, os dados podem ser univariados, bivariados ou multivariados. Diante do exposto, classifique V para
as sentenças verdadeiras e F para as falsas:
( ) Os atributos podem ter formas e estruturas variadas, mas em um critério são todos iguais, ou seja, os dados contêm informações
e características que separam uma unidade ou observação das outras.
( ) Os valores que um atributo pode assumir são separados em tipo de dados e escala de medição. 
( ) Atributo é o recurso, variável ou campo, que é uma propriedade ou característica de um objeto.
Assinale a alternativa que apresenta a sequência CORRETA:
A F - V - F.
B V - F - V.
C V - V - V.
D F - F - V.
A preparação de dados é a base da análise. A melhor maneira de acelerar o processo de análise é reduzir o tempo de preparação
de dados. Assim, pode-se dizer que, no contexto, a preparação de dados significa manipulação de dados em um formato adequado
para análise e processamento. Nesse processo estão envolvidas etapas como de limpeza, integração, transformação, redução e
discretização. Referente à etapa da limpeza de dados, classifique V para as sentenças verdadeiras e F para as falsas:
( ) O foco dessa etapa é resolver os conflitos de integração.
( ) Essa etapa visa reduzir o conjunto de dados por meio de estratégias, como de redução de dimensionalidade de requisitos.
( ) Essa etapa se trata de corrigir os dados inconsistentes, preencher valores ausentes e suavizar dados ruidosos.
( ) Nessa etapa, pode ocorrer de no conjunto de dados existirem muitas linhas que não possuam valor para atributos de interesse,
dados inconsistentes, registros duplicados ou algum outro erro aleatório.
Assinale a alternativa que apresenta a sequência CORRETA:
A V - F - V - V.
B F - F - V - V.
C F - F - V - F.
7
8
9
D F - V - F - V.
Ter dados de diferentes tipos (variedade) é uma das características do Big Data. Esses dados podem ser tanto do tipo
estruturado como do tipo não estruturado. Lembre-se: dado é tudo o que é observado ou conceituado. Em uma visão um tanto
restrita, os dados são algo que pode ser medido. Diante do exposto, classifique V para as sentenças verdadeiras e F para as falsas:
( ) Os dados representam fatos ou algo que realmente ocorreu, que foi observado e medido.
( ) Os dados podem resultar de observação passiva ou coleta ativa.
( ) Os dados são observados em cada unidade e armazenados em um dispositivo eletrônico. 
Assinale a alternativa que apresenta a sequência CORRETA:
A V - F - V.
B V - V - V.
C F - V - F.
D F - F - V.
10

Outros materiais