Avaliação Final (Objetiva) - Preparação e Análise Exploratória de Dados

•

Senai Sc Criciuma

1

0

Teixeira

30/06/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.841 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Avaliação Final (Objetiva) - Individual
1 Existem problemas na análise de dados em que o conjunto de dados é muito grande. Nesses casos,
a dimensão é justamente relacionada à quantidade de características existentes no conjunto de dados.
Pode-se dizer que quanto maior for o número de características, maior será a dimensão do problema.
Nesse sentido, temos a redução de dados.
Sobre a redução de dados, assinale a alternativa INCORRETA:
A) A redução de dados visa obter maiores custos computacionais.
B) As abordagens mais conhecidas para reduzir os dados são: Principal Component Analysis (PCA),
também conhecida como redução de dados vertical, e pela Seleção das Melhores Características.
C) A redução de dados visa reduzir os custos computacionais.
D) A redução de dados é uma transformação com o intuito de reduzir os tempos necessários para
realizar análises, facilitar tanto a manutenção dos dados quanto a análise dos dados.
2 Para um determinado conjunto de dados, na maioria das vezes, é fácil descobrir o que são
observações e o que são variáveis, porém, é complicado definir as variáveis e as observações de
maneira precisa. Por exemplo, se as colunas de uma tabela tivessem altura e largura, seria menos
claro, pois poderíamos pensar em altura e largura como valores de uma variável de dimensão. Agora,
se as colunas fossem telefones residencial e comercial, poderíamos tratá-las como duas variáveis. Já
em um ambiente de detecção de fraude, o uso de um número de telefone para várias pessoas pode
indicar fraude, dessa forma, podemos querer variáveis como número de telefone e tipo de número.
Sobre as relações funcionais entre as colunas, analise as sentenças a seguir:
I- É mais fácil fazer comparações entre grupos de observações do que entre grupo de colunas.
II- Em uma determinada análise podem existir vários níveis de observação.
III- É mais fácil descrever relações funcionais entre colunas do que entre linhas.
Assinale a alternativa CORRETA:
A) Somente a sentença III está correta.
B) As sentenças I, II e III estão corretas.
C) Somente a sentença I está correta.
D) Somente a sentença II está correta.
3 Os principais gráficos para representar valores categóricos dizem respeito ao gráfico de balões,
gráfico de mosaicos, mapa de calor, análise de série de dados temporais (ou time series), nuvem de
palavras (word cloud), mapa em árvore (ou treemap), entre outros. Sobre a exibição de nuvem de
palavras, analise as sentenças a seguir:
I- Quanto maior for incidência de determinadas palavras, menor será o tamanho da fonte da palavra.
II- A nuvem de palavras também é conhecida como word cloud.
III- A exibição da nuvem de palavras permite que seja realizado a identificação de maneira visual das
palavras mais frequentes em um determinado texto.
IV- Quanto maior for incidência de determinadas palavras, maior será o tamanho da fonte da palavra.
Assinale a alternativa CORRETA:
A) As sentenças I, III e IV estão corretas.
B) As sentenças I e II estão corretas.
C) As sentenças I, II e III estão corretas.
D) As sentenças II, III e IV estão corretas.
4 Percebe-se que as pessoas estão cada vez mais dependentes da tecnologia para executar suas
atividades diárias, tanto profissionais, domésticas e de lazer. Para isso, as pessoas utilizam
computadores, dispositivos móveis, armazenam os dados na nuvem, utilizam cartão de crédito,
acessam redes sociais etc. Um conceito que representa esse cenário é o termo Big Data. O Big Data
pode ser conceituado por volume, variedade e velocidade, formando os 3Vs. Essa definição é mais
abrangente e quebra o mito de que o Big Data se refere apenas ao tamanho dos dados do
armazenamento. Além disso, cada um dos 3Vs tem suas próprias ramificações para
análises. Referente a cada um dos 3Vs, classifique V para as sentenças verdadeiras e F para as falsas:
( ) O V da Velocidade é referente a se exigir velocidade de processamento em tempo real.
( ) O V da Variedade é referente a se ter diferentes tipos de dados, sendo eles estruturados ou não
estruturados.
( ) O V de Volume é oriundo do fato de se ter um grande volume de dados.
( ) O V do Volume é porque são considerados apenas os dados estruturados que existem em grande
quantidade.
Assinale a alternativa que apresenta a sequência CORRETA:
A) V - V - V - F.
B) F - V - V - F.
C) V - F - F - V.
D) V - V - F - F.
5 Os principais gráficos para representar valores categóricos dizem respeito ao gráfico de balões,
gráfico de mosaicos, mapa de calor, análise de série de dados temporais (ou time series), nuvem de
palavras (word cloud), mapa em árvore (ou treemap), entre outros.
Sobre o mapa em árvore, assinale a alternativa INCORRETA:
A) O mapa de árvore permite analisar uma terceira variável, que é a tonalidade da cor do retângulo.
B) O mapa de árvore é útil para visualizar de várias maneiras os valores, pois é possível determinar os
conjuntos com mais registros e os com menos registros apenas analisando o tamanho do retângulo.
C) O mapa de árvore também é conhecido como treemap.
D) A tonalidade indicada no mapa de árvore se refere sempre ao maior valor relacionado ao grupo,
representado pelo retângulo.
6 Os principais gráficos para representar valores numéricos dizem respeito ao gráfico de pontos (ou
de dispersão), ao gráfico de caixas, ao histograma, aos gráficos de densidade e ao gráfico
violino. Referente ao gráfico de pontos ou de dispersão, analise as sentenças a seguir:
I- No gráfico de dispersão, os dados são mostrados em linhas, sendo que cada linha traz o valor de
uma variável.
II- O gráfico de dispersão são representações de dados de duas ou mais variáveis que são organizadas
em um gráfico.
III- O gráfico de dispersão utiliza coordenadas cartesianas para exibir valores de um conjunto de
dados.
IV- No gráfico de dispersão, os dados são exibidos como uma coleção de pontos, cada um com o valor
de uma variável determinando a posição no eixo horizontal e o valor da outra variável determinando
a posição no eixo vertical, no caso de se ter duas variáveis.
Assinale a alternativa CORRETA:
A) As sentenças II, III e IV estão corretas.
B) As sentenças I e II estão corretas.
C) As sentenças I, III e IV estão corretas.
D) As sentenças I, II e III estão corretas.
7 Para um determinado conjunto de dados, na maioria das vezes, é fácil descobrir o que são
observações e o que são variáveis, porém, é complicado definir as variáveis e as observações de
maneira precisa. Por exemplo, se as colunas de uma tabela tivessem altura e largura, seria menos
claro, pois poderíamos pensar em altura e largura como valores de uma variável de dimensão. Agora,
se as colunas fossem telefones residencial e comercial, poderíamos tratá-las como duas variáveis. Já
em um ambiente de detecção de fraude, o uso de um número de telefone para várias pessoas pode
indicar fraude, dessa forma, podemos querer variáveis número de telefone e tipo de número.
Sobre as relações funcionais entre as colunas e as linhas, assinale a alternativa INCORRETA:
A) É mais fácil fazer comparações entre grupos de observações do que entre grupo de colunas.
B) É mais fácil descrever relações funcionais entre colunas do que entre linhas.
C) Em uma determinada análise podem existir vários níveis de observação.
D) É mais fácil descrever relações funcionais entre linhas do que entre colunas.
8 As abordagens de visualização de dados podem ser classificadas em vários grupos, começando com
a criação de gráficos e diagramas informativos, como os gráficos e infográficos estatísticos, até
métodos estatísticos avançados para visualizar tabelas multidimension. Com relação às colocações de
Priceonomics, analise as sentenças a seguir:
I- A visualização de dados está relacionada a como “digerimos” as informações.
II- Nas últimas décadas, houve uma explosão no uso de gráficos e um reconhecimento de como a
mente humana processa dados de maneira visual.
III- A ascensão da visualização coincidiu, provavelmente não por coincidência, com uma formalização
e uma consideração mais profunda do que funciona melhor ao tentartransmitir informações de
maneira gráfica.
Assinale a alternativa CORRETA:
A) As sentenças I, II e III estão corretas.
B) Somente a sentença III está correta.
C) Somente a sentença II está correta.
D) Somente a sentença I está correta.
9 A linguagem Python é uma linguagem de código aberto, possuindo compatibilidade multiplataforma
e sintaxe simples. Além disso, a linguagem Python é uma linguagem orientada a objetos, de alto nível,
e interpretada de script, servindo para diferentes fins, como de computação gráfica e estatística.
Tanto as funcionalidades da linguagem Python quanto as funcionalidades da linguagem R são
adicionadas por meio de bibliotecas (package). Com relação aos comandos e às bibliotecas ggplot2 e
pandas, analise as sentenças a seguir:
I- O comando <pip install pandas> instala a biblioteca pandas.
II- O comando <import pandas as pd> importa a biblioteca pandas e atribui o alias pd.
III- O comando <install.packages(“ggplot2)> importa a biblioteca ggplot2.
IV- O comando <library(ggplot2)> instala a biblioteca ggplot2.
Assinale a alternativa CORRETA:
A) Somente a sentença IV está correta.
B) Somente a sentença III está correta.
C) Somente a sentença II está correta.
D) As sentenças I, II, III e IV estão corretas.
10 Às vezes, o que pensamos ser um problema não é o problema real. Portanto, para chegar ao
problema real, é necessário investigar. A análise de causa raiz é um método eficaz de análise: ajuda a
identificar o que, como e por que algo aconteceu. Segundo Etmann (2018), chegar a um problema
claramente definido é uma ação orientada a descobertas. Comece com uma definição conceitual e,
por meio da análise (causa, análise de impacto etc.), você forma e redefine o problema em termos de
questões. Um problema se torna conhecido quando uma pessoa observa uma discrepância entre a
maneira como as coisas são e como deveriam ser.
FONTE: ETMANN, Al. Big Data: The analytics life cycle. 2018. Disponível
em: https://www.linkedin.com/pulse/big-datathe-analytics-life-cycle-alaa-etman/. Acesso em: 27
maio 2022.
Sobre como podem ser identificados os problemas segundo Etmann (2018), assinale a
alternativa INCORRETA:
A) Relatório de desempenho para avaliar o desempenho atual em relação às metas e objetivos.
B) Estudos comparativos e benchmarking.
C) Relatórios de desempenho visando futuras projeções da empresa, portanto, não precisa estar se
pensando na identificação dos problemas.
D) Análise Strengths, Weaknesses, Opportunities e Threats (SWOT), que consiste em uma ferramenta
para avaliar os pontos fortes, que são as Forças e Oportunidades, e os pontos fracos, que são
Fraquezas e Ameaças (FOFA).