BIG DATA ANALYTIC E A TOMADA DE DECISOES

•

UNIASSELVI

10

0

10

0

Antonio Giovani

21/11/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Fundamentos e Projeto de Big Data

808 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

CURTA MEU MATERIAL, ESTÁ 100% CORRETO
1
Apesar do grande crescimento, o Big Data é um conceito amplo que se refere à forma como lidamos com a grande quantidade de dados disponível para uso. Além disso, a empresa precisa construir uma infraestrutura para lidar com uma infinidade de fontes e processá-las em um tempo razoável.
Diante disso, em qual cenário uma empresa pode estar diante de um Big Data? A partir das alternativas abaixo, assinale a CORRETA:

· A) Em situações onde a infraestrutura de dados da empresa apresenta elevada taxa de latência e/ou inviabilidade para análises de dados de grande volume e em diferentes formatos e estruturas.

B) Quando a análise de dados tradicional não estiver mais trazendo real valor para a organização, o que poderia indicar a possibilidade de trazer inovação com novas formas de analisar os dados.

C) Em circunstâncias onde o volume de dados da organização aumente significativamente, tornando-se necessário comprar novos servidores, o que poderia elevar os custos com armazenamento.

D) Quando o conjunto de dados ultrapassar a casa dos 1PB e a empresa precise lidar com dados estruturados, semiestruturados e/ou não estruturados.
2
Grande parte do sucesso do Spark está relacionado à sua estrutura, que é composta por alguns componentes. O principal deles é o RDD.
Sobre este componente, classifique V para as sentenças verdadeiras e F para as falsas:
( ) É uma estrutura física do Spark que guarda informações dos objetos do Spark. Sua única limitação é não possuir um mecanismo para tratamento de falhas.
( ) Possui uma estrutura similar a uma tabela, conhecida como dataset que pode armazenar dados de diferentes tipos.
( ) Fornece suporte a dois tipos de operações: transformação e ação. Quando se aplica uma transformação um novo RDD é criado, mas o conjunto de dados só é alterado se for aplicada uma etapa de ação.
( ) Algumas operações de transformação são: SortByKey, FlatMap e GroupByKey enquanto que collect, count e CountByKey são operações de ação.
A partir das alternativas abaixo, assinale a CORRETA:

· A) F – V – V – V.

B) V – V – V – F.

C) F – F – V – V.

D) F – V – V – F.
3
A definição de uma arquitetura que atenda às necessidades é algo central em projetos de Big Data e pode ajudar diretamente gestores de negócio em suas tomadas de decisão.
Dessa forma, em termos de projetos: que requisitos e componentes principais uma arquitetura tradicional deve ter? A partir das alternativas abaixo, assinale a CORRETA:

· A) Capacidade para armazenar e processar grandes volumes de dados entregando a informação certa no tempo certo. Para isso é necessário definir uma camada de extração e ingestão de dados eficiente, política de armazenamento, definição do tipo de análise e uma camada para apresentação de resultados.

B) Lidar com dados de quaisquer naturezas obtidos a partir de diversas fontes (internas e externas). Implementação de estrutura que suporte armazenamento e processamento em larga escala tanto para dados em lote quanto em fluxo contínuo.

C) Forte mecanismo de integração de dados para entregar ao gestor de negócios informações de forma transparente e única. É necessário alto investimento em máquinas que possam suportar o armazenamento e processamento paralelo a fim de que seja possível analisar os dados e entregá-los à camada de apresentação.

D) Alto investimento em infraestrutura para suportar as demandas de Big Data. Implementação de um sólido mecanismo de coleta e armazenamento de dados no Hadoop para processar grandes volumes de dados em tempo real e uma camada de visualização que será útil para gestores de negócio extrair insights.
4
“O processo de Big Data Analytics é utilizado nos negócios para descobrir padrões. Encontrar as tendências de mercado e acompanhar o comportamento do consumidor ajuda os negócios em suas decisões estratégicas e de marketing”.
Disponível em: < https://marketingconteudo.com/big-data-analytics/ >
Em relação ao processo de Big Data, o que é possível afirmar?
A partir das alternativas abaixo, assinale a CORRETA:

A) É interativa e constituída de etapas similares à análise tradicional, com a diferença de que pode manipular grandes conjuntos de dados em nuvem.

· B) É interativo e constituído pelas etapas de extração, ingestão, transformação, limpeza, análise de dados e visualização de dados.

C) É interativo devido às etapas de todo o processo serem independentes umas das outras, além de apresentar escopo bem reduzido, simplificando a análise.

D) É considerado iterativo de baixa complexidade se comparado à análise de dados tradicional, com etapas bem definidas e dependentes entre si.
5
Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade de algoritmos. Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo:
I – Algoritmos DIANA, ROCK.
II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS.
V – Algoritmos STING, WAVECLUSTER.
( ) Métodos hierárquicos.
( ) Métodos baseados em grid.
( ) Métodos de particionamento.
( ) Métodos baseados em modelos.
( ) Métodos baseados em densidade.
Assinale a alternativa que apresenta a sequência CORRETA:

A) II – V – III – IV – I.

B) I – IV – V – II – III.

· C) I – V – IV – III – II.

D) III – IV – II – I – V.
6
A transição da Web representou um importante mecanismo para a revolução dos dados e expôs um novo cenário de explosão e novos formatos para análise de dados nos meios digitais.
Nesse sentido, dentre as três fases da web, qual destas representou a gênese para explosão dos dados?
A partir das alternativas abaixo, assinale a CORRETA:

A) Entre a Web 1.0 e Web 2.0 com o surgimento das primeiras redes sociais.

B) Na Web 3.0 a partir da geração de conteúdo por parte do usuário e a compreensão semântica de suas atividades na rede.

· C) Na Web 2.0 onde os usuários passaram a gerar conteúdo a partir de sistemas dinâmicos.

D) Na Web 1.0 que representou o primeiro contato dos usuários em relação à web.
7
A clusterização é uma técnica de aprendizagem não supervisionada que visa classificar um conjunto de dados semelhantes em um mesmo grupo.
No que se refere à clusterização é CORRETO afirmar que:

A) É útil para classificar um grupo de objetos com classes já definidas, por exemplo, prever a média de vendas de casas em uma determinada região.

B) Dados que fazem parte do mesmo grupo apresentam um grau de similaridade ou dissimilaridade elevado.

· C) É empregada em situações onde não há conhecimento prévio de uma classe. A classificação é feita mediante agrupamento através de alguma medida de distância.

D) Composto por várias medidas de distância, entre estas a distância Euclidiana que, devido à sua popularidade, pode se aplicar a praticamente todas as classes de problemas.
8
O Apache Hadoop contém uma série de componentes que podem ser integrados ao framework. Esses componentes podem ser úteis para as mais diversas finalidades, como armazenamento, transferência de grandes volumes de dados ou até mesmo aplicação de algoritmos preditivos.
A partir das opções abaixo, classifique V para as sentenças verdadeiras e F para as falsas:
( ) O Apache Hive é um componente que pode ser integrado ao Hadoop para coletar dados de fontes estruturadas.
( ) O Apache HBase é um banco de dados não relacional propício a ambientes Big Data, uma vez que suporta um grande volume de dados mantendo alto desempenho.
( ) O Apache Sqoop permite mover grandes volumes de dados das fontes para o HDFS.
( ) O Apache Mahout é um componente responsável por trabalhar diretamente com os dados da fonte: extraindo e coletando dados tanto para processamento em lote como em tempo real.
A partir das alternativas abaixo, assinale a CORRETA:

· A) V – V – V – F.

B) F – V – F – V.C) F – F – V – V.

D) V – V – F – F.
9
Nossa mente processa tudo por meio de imagens, sons e sensações, registrados internamente. Embora todos tenham os sistemas visual, auditivo e sinestésico, é comum que um deles seja mais desenvolvido do que os outros.
Compreendido isso, analise e associe os itens que seguem:
I – Predominância sensorial visual.
II – Predominância sensorial auditiva.
III – Predominância sensorial sinestésica.
( ) As pessoas com desta predominância dizem muito "E então eu disse... Daí ele falou... Eu sempre falo que...”, enquanto contam uma história, um fato ou uma lembrança.
( ) As pessoas desta predominância são capazes de falar durante meia hora sobre um almoço delicioso, contando sobre a beleza dos pratos, da louça e dos talheres.
( ) As pessoas desta predominância estão sempre dizendo "Eu sinto...", “Pressinto que...”. Geralmente são pessoas que gostam de tocar e abraçar as demais.
Assinale a alternativa que apresenta a sequência correta de respostas:

A) I – II – III.

B) III – I – II.

· C) II – I – III.

D) I – III – II.
10
O Apache Spark oferece não somente a capacidade de processamento, como também a possibilidade de realizar análises mais avançadas através de um conjunto de bibliotecas. Considerando isso, associe os itens, conforme o código abaixo:
I – Spark SQL.
II – Spark Streaming.
III – Spark MLlib.
IV – Spark GraphX.
( ) Contém um conjunto de algoritmos otimizados de Machine Learning projetados para trabalharem em paralelo.
( ) Projetadas para processar estruturas em rede de forma otimizada e com elevada eficiência.
( ) É possível realizar consultas e processar dados estruturados em ambiente Big Data de forma ágil.
( ) Útil para manipular e processar dados de tempo real, analisando microbacths de dados de tempos em tempos.
A partir das alternativas abaixo, assinale a CORRETA:

· A) III – IV – I – II.

B) III – II – I – IV.

C) II – III – IV – I.

D) IV – III – I – II.
11
Um processo de análise de dados pode ser representado em quatro etapas. Cada uma dessas etapas possui particularidades que vão desde a base para implementação de análise de dados nas empresas até profundos e sofisticados mecanismos de análise dentro das organizações.
Em se tratando dos tipos de análises existentes, qual a opção que descreve a análise prescritiva? A partir das alternativas abaixo, assinale a CORRETA:

A) É um tipo de análise voltado para responder apenas perguntas de situações que ainda não ocorreram, mas que provavelmente venham a ocorrer. Isso é obtido através da criação de modelos de aprendizagem de máquina avançados.

B) É um processo voltado para responder perguntas do passado para inferir situações que venham a ocorrer. Por isso, a participação humana é importante para fornecer suporte e aprimorar as decisões obtidas pelos algoritmos implementados.

· C) Etapa mais avançada da análise de dados que fornece apoio à tomada de decisão de forma automatizada com mínima intervenção humana. Isso é possível graças às experiências desenvolvidas que são aperfeiçoadas ao longo do tempo.

D) Análise prescritiva refere-se ao tipo de análise que é responsável por tomar as decisões com independência. Procura responder perguntas como: “Por que esse evento aconteceu?” e obtém respostas através de algoritmos de classificação.
12
Em épocas passadas as empresas conviviam com certas limitações, em termos de tecnologia, para que pudessem analisar seus dados.
Por outro lado, nos dias atuais, as tecnologias possibilitaram e estimularam a produção de conteúdo.
Tendo isso em mente, classifique V para as sentenças verdadeiras e F para as falsas:
( ) As empresas precisam lidar com o alto volume e variedade de dados digitais propondo soluções automáticas de análise a fim de se manterem competitivas.
( ) As empresas orientadas a dados têm à disposição uma massiva quantidade de dados, porém, em muitos casos não sabem como gerenciá-los.
( ) A elevada produção de conteúdo implica em um problema de sobrecarga de informação, evidenciando as limitações da ação humana para lidar com isso.
Assinale a alternativa correta:

A) F – V – V.

B) V – F – V.

C) V – F – F.

· D) V – V – V.
13
Uma das soluções mais empregadas em Big Data para armazenamento, processamento e análise de grandes volumes de dados é conhecida como Hadoop. É uma solução open-source da Apache que possui diversas bibliotecas ou módulos.
Que características do Apache Hadoop são consideradas centrais, tanto para termos de armazenamento como processamento? A partir das alternativas abaixo, assinale a CORRETA:

A) Armazenamento por meio de um sistema de arquivos distribuído e processamento computacional veloz e paralelo utilizando GPU para tornar o processo mais eficiente.

· B) Armazenamento por meio de um sistema de arquivos próprio que armazena grandes volumes de dados de forma distribuída e processamento distribuído por intermédio de um modelo simples e eficiente de programação.

C) Armazenamento por intermédio de um sistema de arquivos distribuído: NTFS para máquinas em Windows e Ext4 para sistemas Linux, o processamento é feito pelo Hadoop MapReduce que processa paralelamente os dados de forma eficiente.

D) Armazenamento por meio de um sistema de arquivos simples, robusto e escalável que pode ser gerenciado por uma única máquina além de processamento em GPU para ganho de performance.
14
As métricas de segmentação representam outra classe de medidas para análise de redes sociais.
Em relação a essas métricas, associe os itens, conforme o código abaixo:
I – Coeficiente de agrupamento.
II – Coesão.
III – Clique.
( ) É uma medida que representa o grau de ligação existente entre dois vértices.
( ) É uma medida que indica a probabilidade de formação de clusters entre os vértices.
( ) Quando um determinado vértice está diretamente conectado a todos os outros vértices.
A partir das alternativas abaixo, assinale a CORRETA:

A) I – II – III.

· B) II – I – III.

C) II – III – I.

D) III – II – I.
15
Comunicação é o processo de transmissão de informação de uma pessoa para outra e compartilhada por ambas.
Nesse sentido, assinale V para verdadeiro e F para falso acerca dos elementos que compõem o processo de comunicação:
( ) Emissor ou fonte: é a pessoa, coisa ou processo para o qual a mensagem é enviada.
( ) Mensagem: é o uso de SMS e mensagens de Whatsapp.
( ) Canal: espaço situado entre emissor e receptor.
( ) Destino ou destinatário: é a pessoa, coisa ou processo que emite a mensagem.
Assinale a alternativa que apresenta a sequência correta de respostas:

· A) F – F – V – F.

B) F – V – V – F.

C) V – F – F – F.

D) V – F – V – F.
16
Em métodos hierárquicos tradicionais a complexidade no espaço O(n²) e no tempo O(n³) é algo que limita o poder de ação dos algoritmos. E, em muitos casos, algumas circunstâncias tornam o processo de análise extremamente oneroso ou mesmo inviável. Essa limitação tem sido evidenciada por alguns fatores, quais destes é possível destacar?
A partir das alternativas abaixo, assinale a CORRETA:

· A) O volume intenso e variado de dados que estão sendo gerados e requeridos para análise.

B) O modelo de gestão de dados que impôs o uso de algoritmos distribuídos para ganhos de performance.

C) O crescente número de ferramentas voltadas para Big Data que substituem as formas de análise tradicionais.

D) A exigência cada vez mais recorrente de aplicações voltadas para detecção de eventos anômalos.
17
As técnicas de Multi Machine Clustering surgiram para otimizar e melhorar a escalabilidade e o desempenho das análises em cluster para atender às demandas do Big Data. Em relação às técnicas de Multi Machine Clustering, o que é possível afirmar?
A partir das alternativas abaixo, assinale a CORRETA:

A) É constituída pelas técnicas de clusterização paralela e baseada em MapReduce que tornam o processo de paralelização menos complexo parao desenvolvedor.

B) Apresentam como grande característica o alto poder de processamento com implementação de baixa complexidade e algoritmos como PAM, DBSCAN e PIRBICH.

· C) É composta pela clusterização paralela e pela clusterização baseada em MapReduce. A segunda, inclusive, torna o processo de paralelização mais transparente para o desenvolvedor.

D) São mais velozes que as abordagens tradicionais de agrupamento, no entanto, a alta complexidade de implementação inviabiliza projetos de análises mais amplos.
18
As limitações advindas de técnicas tradicionais de análise em cluster motivaram o surgimento de propostas, especialmente para melhoria de desempenho. Dentre essas propostas surgiram as novas técnicas de clusterização.
Tendo isso em mente, classifique V para as sentenças verdadeiras e F para as falsas:
( ) As técnicas de Single Machine Clustering (SMC) representaram uma das primeiras iniciativas para análise de dados de grande volume.
( ) As técnicas de Multi Machine Clustering (MMC) processam e analisam grandes conjuntos de dados de forma paralela e dessa forma são mais eficientes que técnicas de SMC.
( ) Embora as técnicas de MMC sejam mais eficientes que abordagens tradicionais, a complexidade do seu uso é um fator determinante para apostar em técnicas de SCM.
A partir das alternativas abaixo, assinale a CORRETA:

A) V – V – V

B) F – V – V.

· C) V – V – F.

D) V – F – F.
19
Apesar da possibilidade de aprender pelos sistemas auditivo, visual e sinestésico, de maneira combinada, a maioria das pessoas utilizam um deles de forma predominante.
Sobre os estilos de organização de acordo com a predominância sensorial, analise as sentenças que seguem:
I – Visual: a percepção é global, ou seja, percebe o todo e, se necessário, decompõe em partes menores a percepção inicial.
II – Sinestésico: depende de informações detalhadas e de instruções na forma de passo a passo.
III – Auditivo: organização gradual, criativa e divergente, que se caracteriza por conclusões diferentes da maioria.
Assinale a alternativa que apresenta a resposta correta:

· A) A sentença I está correta.

B) As sentenças I, II e III estão corretas.

C) As sentenças I e III estão corretas.

D) As sentenças II e III estão corretas.
20
Existem dois tipos de comunicação: a verbal e a não verbal. A verbal se utiliza de palavras para comunicar, como, por exemplo, a comunicação oral e a comunicação escrita. Já a comunicação não verbal, utiliza-se de outras ferramentas para transmitir as informações.
Nesse sentido, assinale V para verdadeiro e F para falso nas afirmações que seguem:
( ) Comunicação por mímica: são os gestos das mãos, do corpo e da face.
( ) Comunicação por expressões faciais: é o olhar, a forma dos lábios e a contração dos músculos da face.
( ) Comunicação pela postura: é o modo como sentamos, o corpo inclinado para trás ou para frente e até mesmo a posição dos pés.
( ) Comunicação por gestos: pode ser voluntária, como um beijo ou um cumprimento, mas também pode ser involuntária, como, por exemplo, mãos que não param de rabiscar ou de mexer em algo.
Assinale a alternativa que apresenta a sequência correta de respostas:

· A) V – V – V – V.

B) V – V – V – F.

C) F – V – V – V.

D) F – V – V – F.