Big Data Analytic e a Tomada de Decisões - prova

•

ESTÁCIO

47

0

47

0

4

Aline Carvalho Magalhaes

18/10/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Fundamentos e Projeto de Big Data

813 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Um processo de análise de dados pode ser representado em quatro etapas. Cada uma dessas etapas possui particularidades que vão desde a base para implementação de análise de dados nas empresas até profundos e sofisticados mecanismos de análise dentro das organizações.
Em se tratando dos tipos de análises existentes, qual a opção que descreve a análise prescritiva? A partir das alternativas abaixo, assinale a CORRETA:
A)
Etapa mais avançada da análise de dados que fornece apoio à tomada de decisão de forma automatizada com mínima intervenção humana. Isso é possível graças às experiências desenvolvidas que são aperfeiçoadas ao longo do tempo.
B)
Análise prescritiva refere-se ao tipo de análise que é responsável por tomar as decisões com independência. Procura responder perguntas como: “Por que esse evento aconteceu?” e obtém respostas através de algoritmos de classificação.
C)
É um processo voltado para responder perguntas do passado para inferir situações que venham a ocorrer. Por isso, a participação humana é importante para fornecer suporte e aprimorar as decisões obtidas pelos algoritmos implementados.
D)
É um tipo de análise voltado para responder apenas perguntas de situações que ainda não ocorreram, mas que provavelmente venham a ocorrer. Isso é obtido através da criação de modelos de aprendizagem de máquina avançados.
2.
A etapa de pré-processamento de dados é uma das etapas mais custosas do processo, especialmente em dados não estruturados, que são carregados de erros advindos da linguagem humana.
Com base nisso, classifique V para as sentenças verdadeiras e F para as falsas:
( ) O processo de Stemming visa extrair um conjunto de palavras-chave em uma sentença.
( ) A remoção de stopwords é necessária para eliminar termos que apenas fazem o elo de ligação entre os elementos do texto.
( ) Erros ortográficos precisam ser corrigidos para melhorar a qualidade dos dados e não penalizar a análise desses dados, é possível realizar essa correção manualmente.
( ) A remoção de números e espaços em branco ou caracteres especiais, muitas vezes, não é necessária, pois não comprometem a análise.
( ) A ‘tokenização’ é o processo de quebrar o texto em tokens e assim extrair termos que podem ser utilizados, por exemplo, para análise de frequência.
A partir das alternativas abaixo, assinale a CORRETA:
A)
V – F – V – V – F.
B)
F – V – V – V – V.
C)
F – F – F – V – V.
D)
F – V – V – F – V.
3 . Em épocas passadas as empresas conviviam com certas limitações, em termos de tecnologia, para que pudessem analisar seus dados.
Por outro lado, nos dias atuais, as tecnologias possibilitaram e estimularam a produção de conteúdo.
Tendo isso em mente, classifique V para as sentenças verdadeiras e F para as falsas:
( ) As empresas precisam lidar com o alto volume e variedade de dados digitais propondo soluções automáticas de análise a fim de se manterem competitivas.
( ) As empresas orientadas a dados têm à disposição uma massiva quantidade de dados, porém, em muitos casos não sabem como gerenciá-los.
( ) A elevada produção de conteúdo implica em um problema de sobrecarga de informação, evidenciando as limitações da ação humana para lidar com isso.
Assinale a alternativa correta:
A)
V – V – V.
B)
V – F – V.
C)
F – V – V.
D)
V – F – F.
4.
Existem diversos métodos tradicionais que podem ser empregados para análise em cluster e são potencialmente interessantes em cenários de baixa complexidade - com quantidade de dados reduzida.
Em relação aos métodos hierárquicos é CORRETO afirmar que:
A)
Apresenta como vantagem a simplicidade e o fato de ser eficiente, mesmo em situações onde o conjunto de dados é significativo.
B)
Divide o cluster através de níveis, onde os objetos alocados nos níveis superiores da árvore são mais próximos entre si.
C)
Define aleatoriamente um ponto de partida para o parâmetro K e assim tenta otimizar o resultado ao longo das iterações.
D)
Agrupa um conjunto de pontos de dados em uma estrutura de árvore (dendograma) e fornece boa capacidade para comunicação dos resultados.
5.
Apesar do grande crescimento, o Big Data é um conceito amplo que se refere à forma como lidamos com a grande quantidade de dados disponível para uso. Além disso, a empresa precisa construir uma infraestrutura para lidar com uma infinidade de fontes e processá-las em um tempo razoável.
Diante disso, em qual cenário uma empresa pode estar diante de um Big Data? A partir das alternativas abaixo, assinale a CORRETA:
A)
Quando o conjunto de dados ultrapassar a casa dos 1PB e a empresa precise lidar com dados estruturados, semiestruturados e/ou não estruturados.
B)
Em circunstâncias onde o volume de dados da organização aumente significativamente, tornando-se necessário comprar novos servidores, o que poderia elevar os custos com armazenamento.
C)
Quando a análise de dados tradicional não estiver mais trazendo real valor para a organização, o que poderia indicar a possibilidade de trazer inovação com novas formas de analisar os dados.
D)
Em situações onde a infraestrutura de dados da empresa apresenta elevada taxa de latência e/ou inviabilidade para análises de dados de grande volume e em diferentes formatos e estruturas.
6.
Em métodos hierárquicos tradicionais a complexidade no espaço O(n²) e no tempo O(n³) é algo que limita o poder de ação dos algoritmos. E, em muitos casos, algumas circunstâncias tornam o processo de análise extremamente oneroso ou mesmo inviável. Essa limitação tem sido evidenciada por alguns fatores, quais destes é possível destacar?
A partir das alternativas abaixo, assinale a CORRETA:
A)
O modelo de gestão de dados que impôs o uso de algoritmos distribuídos para ganhos de performance.
B)
A exigência cada vez mais recorrente de aplicações voltadas para detecção de eventos anômalos.
C)
O crescente número de ferramentas voltadas para Big Data que substituem as formas de análise tradicionais.
D)
O volume intenso e variado de dados que estão sendo gerados e requeridos para análise.
7.
Além da Internet das Coisas, as pesquisas apontam para o surgimento de diversas outras tendências para análise de Big Data.
A respeito disso, classifique V para as sentenças verdadeiras e F para as falsas:
( ) A forma de processamento tradicional dos computadores poderá dar espaço para os computadores quânticos, que prometem alto poder de armazenamento e processamento.
( ) A computação de borda (“Edge Computing”) poderá ou não substituir a computação em nuvem. A ideia é tratar e analisar dados tão logo sejam coletados das fontes, por isso o termo “borda”, ou seja, próximo a elas.
( ) A intensificação do uso de análise preditiva é algo que será percebido ao longo dos anos. A aposta é de que esse campo da Inteligência Artificial seja incorporado nas empresas e se tornará onipresente dentro de seus processos.
( ) A presença dos chatbots é uma outra forte tendência, porque à medida que mais dados chegam e são apresentados a estes robôs, maiores são as chances de aprendizado e automação de tarefas cotidianas.
A partir das alternativas abaixo, assinale a CORRETA:
A)
F – V – F – V.
B)
F – V – F – F.
C)
V – V – V – V.
D)
V – F – V – V.
8.
Uma das principais vantagens da clusterização baseada em MapReduce é, sem dúvida, a transparência de toda complexidade de implementação envolvida com a distribuição dos dados entre os clusters ou mesmo a capacidade para detectar e corrigir falhas que eventualmente possam ocorrer durante o processo.
Relacione as técnicas com os algoritmos que as compõem, associando os itens, conforme o código abaixo:
I – Clusterização Paralela.
II – Clusterização baseada em MapReduce.
( ) GPMR.
( ) PBIRCH.
( ) MR-DBSCAN.
( ) G-DBSCAN.
A partir das alternativas abaixo, assinale a CORRETA:
A)
II – I – II – I.
B)
I – II – II – I.
C)
I – II – I – II.
D)
II– I – I – II.
9.
As fontes de dados podem ser externas - quando se referem a fontes em que a organização não tem total controle – ou internas, quando a organização possui total controle. Ambas são úteis para análise em Big Data, visto que podem fornecer uma visão mais ampla de como o negócio está posicionado no mercado. Sobre a estrutura dos dados contidos nas fontes, é possível classificar em: dados estruturados, semiestruturados e não estruturados.
Com base nisso, associe os itens I,II e III com as descrições correspondentes abaixo:
I – Dados estruturados.
II – Dados semiestruturados.
III – Dados não estruturados.
( ) São dados que apresentam uma estrutura flexível e autodescritiva.
( ) São dados que apresentam uma estrutura bem definida com tamanho fixo.
( ) São dados que não apresentam uma estrutura e são descritos em linguagem natural.
Assinale a alternativa que apresenta a sequência CORRETA dos itens:
A)
I – II – III.
B)
II – I – III.
C)
I – III – II.
D)
II – III – I.

10.
Dados não estruturados ou desestruturados compreendem cerca de 80% de toda gama de dados disponíveis para extração e análise de dados.
Em relação a esses tipos de dados é correto afirmar que:
A)
São pouco percebidos pelas empresas por conta da complexidade em lidar com essas estruturas. São extremamente custosos se comparados ao formato estruturado e carecem de técnicas para melhorar o processo de análise.
B)
Apresentam formato livre e são produzidos pela linguagem humana. Para que seja possível realizar a análise existe a necessidade de transformá-los em um formato estruturado.
C)
São de vital importância para as empresas, porém, são pouco explorados e apresentam baixo poder de aplicabilidade. Google e IBM são algumas das poucas empresas que investem recursos em análise de dados textuais.
D)
São dados difíceis de serem decifrados ou compreendidos pela máquina, por conta da sua estrutura. A linguagem humana é incompreensível pela máquina, o que torna o processo de descoberta de conhecimento inviável.
11.
Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade de algoritmos.
Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo:
I – Algoritmos DIANA, ROCK.
II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS.
V – Algoritmos STING, WAVECLUSTER.
( ) Métodos hierárquicos.
( ) Métodos baseados em grid.
( ) Métodos de particionamento.
( ) Métodos baseados em modelos.
( ) Métodos baseados em densidade.
Assinale a alternativa que apresenta a sequência CORRETA:
A)
I – V – IV – III – II.
B)
II – V – III – IV – I.
C)
I – IV – V – II – III.
D)
III – IV – II – I – V.
12.
A transição da Web representou um importante mecanismo para a revolução dos dados e expôs um novo cenário de explosão e novos formatos para análise de dados nos meios digitais.
Nesse sentido, dentre as três fases da web, qual destas representou a gênese para explosão dos dados?
A partir das alternativas abaixo, assinale a CORRETA:
A)
Na Web 2.0 onde os usuários passaram a gerar conteúdo a partir de sistemas dinâmicos.
B)
Na Web 1.0 que representou o primeiro contato dos usuários em relação à web.
C)
Entre a Web 1.0 e Web 2.0 com o surgimento das primeiras redes sociais.
D)
Na Web 3.0 a partir da geração de conteúdo por parte do usuário e a compreensão semântica de suas atividades na rede.
13.
Empresas de muitos ramos têm investido em tecnologias e análise de dados para expandirem seus negócios. Em geral, que circunstâncias-chave tem incentivado empresas a investirem parte de seus recursos em análise de dados?
A partir das alternativas abaixo, assinale a CORRETA:
A)
Algoritmos cada vez mais inteligentes, redução de mão de obra e incremento tecnológico.
B)
Mensurar retorno de investimentos, incentivos governamentais e garantia de lucro.
C)
Melhoria dos processos de negócio, aumento de competitividade e o valor que pode ser obtido.
D)
Automatização de processos, incentivos fiscais e mão de obra barata.
14.
Os meios digitais consistem em um grande potencial para geração e análise dos dados. Nos dias de hoje as empresas têm investido nesses meios para compreender melhor como seus clientes atuam nestas redes.
Em relação à análise digital é correto afirmar que:
A)
Conhecida hoje como “Web Analytics” e compreende todas as páginas de um website. A análise de dados nos websites é feita observando as diferentes métricas de ferramentas como Google Analytics para avaliar o comportamento virtual do usuário dentro da página.
B)
Possui uma diversidade de APIs para acesso e exploração dos dados digitais. São dados como: origens do tráfego, sites mais visitados, registros de compras em um site de vendas e assim por diante. Apesar de todo o potencial, a complexidade e o custo para extrair esses dados impedem o amplo uso desses recursos digitais.
C)
Antigamente restringia-se apenas ao termo “web”, mas nos dias de hoje o termo digital expande a todos os dispositivos capazes de conectar a web. A base dessas análises está relacionada a indicadores ou métricas específicas, como: taxa de rejeição, usuários ativos por hora, informações demográficas, etc.
D)
Está relacionada a um conjunto de métricas e indicadores para avaliar o comportamento digital de um usuário, como cliques de mouse, posts nas redes sociais, tempo de sessão e assim por diante. Por ser uma área recente, ainda não possui ferramentas com recursos suficientes para análise de grande volume de dados.
15.
As limitações advindas de técnicas tradicionais de análise em cluster motivaram o surgimento de propostas, especialmente para melhoria de desempenho. Dentre essas propostas surgiram as novas técnicas de clusterização.
Tendo isso em mente, classifique V para as sentenças verdadeiras e F para as falsas:
( ) As técnicas de Single Machine Clustering (SMC) representaram uma das primeiras iniciativas para análise de dados de grande volume.
( ) As técnicas de Multi Machine Clustering (MMC) processam e analisam grandes conjuntos de dados de forma paralela e dessa forma são mais eficientes que técnicas de SMC.
( ) Embora as técnicas de MMC sejam mais eficientes que abordagens tradicionais, a complexidade do seu uso é um fator determinante para apostar em técnicas de SCM.
A partir das alternativas abaixo, assinale a CORRETA:
A)
F – V – V.
B)
V – V – V
C)
V – V – F.
D)
V – F – F.
16.
As técnicas de Multi Machine Clustering surgiram para otimizar e melhorar a escalabilidade e o desempenho das análises em cluster para atender às demandas do Big Data. Em relação às técnicas de Multi Machine Clustering, o que é possível afirmar?
A partir das alternativas abaixo, assinale a CORRETA:
A)
Apresentam como grande característica o alto poder de processamento com implementação de baixa complexidade e algoritmos como PAM, DBSCAN e PIRBICH.
B)
São mais velozes que as abordagens tradicionais de agrupamento, no entanto, a alta complexidade de implementação inviabiliza projetos de análises mais amplos.
C)
É composta pela clusterização paralela e pela clusterização baseada em MapReduce. A segunda, inclusive, torna o processo de paralelização mais transparente para o desenvolvedor.
D)
É constituída pelas técnicas de clusterização paralela e baseada em MapReduce que tornam o processo de paralelização menos complexo para o desenvolvedor.
17.
“Estruturas teóricas linguísticas como a Teoria Texto-Sentido (MTT) para a construção de modelos de linguagem natural têm permitido que computadores possam processar a linguagem natural e começar a compreender o significado sobre a linguagem humana.”
INBENTA. Disponível em: < https://www.inbenta.com/pt/tecnologia/tecnologia-de-linguagem-natural/ >.
“Ainda que o processamento delinguagem natural não seja uma ciência nova, essa tecnologia está avançando rapidamente graças ao interesse cada vez maior na comunicação homem-máquina, paralelamente à disponibilidade de big data, computação mais poderosa e algoritmos aprimorados.” SAS.
Disponível em: < https://www.sas.com/pt_br/insights/analytics/processamento-de-linguagem-natural.html >.
Os textos acima expõem conceitos relacionados ao Processamento de Linguagem Natural (PLN), em relação a esse conceito e suas aplicações é correto afirmar que:
A)
Basicamente, realiza a análise de texto em grandes volumes de dados, por exemplo, análise de posts no Facebook. A PLN é um campo definitivamente consolidado e, portanto, a comunicação homem-máquina é perfeitamente compreendida.
B)
Pode ser aplicada tanto em análise de dados estruturados como não estruturados e realiza algumas etapas, como a extração semântica no texto que observa padrões de escrita em uma frase.
C)
Um dos campos de aplicação é a análise de sentimentos, ao considerar a questão subjetiva extraindo emoções de um discurso. É um tipo de aplicação ainda pouco consolidada e não possui muitos cases, porém, apresenta grande potencial.
D)
Tem como fundamento compreender o contexto no qual um discurso foi empregado, por meio de análises léxicas, sintáticas, semânticas, etc., como é caso quando deseja-se converter voz em texto.
18.
O Apache Hadoop contém uma série de componentes que podem ser integrados ao framework. Esses componentes podem ser úteis para as mais diversas finalidades, como armazenamento, transferência de grandes volumes de dados ou até mesmo aplicação de algoritmos preditivos.
A partir das opções abaixo, classifique V para as sentenças verdadeiras e F para as falsas:
( ) O Apache Hive é um componente que pode ser integrado ao Hadoop para coletar dados de fontes estruturadas.
( ) O Apache HBase é um banco de dados não relacional propício a ambientes Big Data, uma vez que suporta um grande volume de dados mantendo alto desempenho.
( ) O Apache Sqoop permite mover grandes volumes de dados das fontes para o HDFS.
( ) O Apache Mahout é um componente responsável por trabalhar diretamente com os dados da fonte: extraindo e coletando dados tanto para processamento em lote como em tempo real.
A partir das alternativas abaixo, assinale a CORRETA:
A)
V – V – V – F.
B)
F – F – V – V.
C)
V – V – F – F.
D)
F – V – F – V.
19.
O Apache Spark oferece não somente a capacidade de processamento, como também a possibilidade de realizar análises mais avançadas através de um conjunto de bibliotecas. Considerando isso, associe os itens, conforme o código abaixo:
I – Spark SQL.
II – Spark Streaming.
III – Spark MLlib.
IV – Spark GraphX.
( ) Contém um conjunto de algoritmos otimizados de Machine Learning projetados para trabalharem em paralelo.
( ) Projetadas para processar estruturas em rede de forma otimizada e com elevada eficiência.
( ) É possível realizar consultas e processar dados estruturados em ambiente Big Data de forma ágil.
( ) Útil para manipular e processar dados de tempo real, analisando microbacths de dados de tempos em tempos.
A partir das alternativas abaixo, assinale a CORRETA:
A)
II – III – IV – I.
B)
IV – III – I – II.
C)
III – II – I – IV.
D)
III – IV – I – II.
20.
As métricas de segmentação representam outra classe de medidas para análise de redes sociais.
Em relação a essas métricas, associe os itens, conforme o código abaixo:
I – Coeficiente de agrupamento.
II – Coesão.
III – Clique.
( ) É uma medida que representa o grau de ligação existente entre dois vértices.
( ) É uma medida que indica a probabilidade de formação de clusters entre os vértices.
( ) Quando um determinado vértice está diretamente conectado a todos os outros vértices.
A partir das alternativas abaixo, assinale a CORRETA:
A)
II – I – III.
B)
II – III – I.
C)
III – II – I.
D)
I – II – III.
Aluno(a):
Disciplina: Big Data Analytic e a Tomada de Decisões
Avaliação: Avaliac?o da Disciplina (459288)
Nota: 10,00

01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
RESPOSTA ALUNO
A
D
A
D
D
D
C
A
B
B
A
A
C
C
C
C
D
A
D
A
Re
s
ponder e Avançar »