Buscar

Prova de Big Data Analytic e a Tomada de Decisões

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 9 páginas

Prévia do material em texto

11
Existem diversos métodos tradicionais que podem ser empregados para análise em cluster e são potencialmente interessantes em cenários de baixa complexidade - com quantidade de dados reduzida.
 
Em relação aos métodos hierárquicos é CORRETO afirmar que:
A
 Define aleatoriamente um ponto de partida para o parâmetro K e assim tenta otimizar o resultado ao longo das iterações.
B
 Apresenta como vantagem a simplicidade e o fato de ser eficiente, mesmo em situações onde o conjunto de dados é significativo.
C
 Agrupa um conjunto de pontos de dados em uma estrutura de árvore (dendograma) e fornece boa capacidade para comunicação dos resultados. 
D
 Divide o cluster através de níveis, onde os objetos alocados nos níveis superiores da árvore são mais próximos entre si. 
12
Em épocas passadas as empresas conviviam com certas limitações, em termos de tecnologia, para que pudessem analisar seus dados.
Por outro lado, nos dias atuais, as tecnologias possibilitaram e estimularam a produção de conteúdo.
Tendo isso em mente, classifique V para as sentenças verdadeiras e F para as falsas:
 
( ) As empresas precisam lidar com o alto volume e variedade de dados digitais propondo soluções automáticas de análise a fim de se manterem competitivas.
( ) As empresas orientadas a dados têm à disposição uma massiva quantidade de dados, porém, em muitos casos não sabem como gerenciá-los.
( ) A elevada produção de conteúdo implica em um problema de sobrecarga de informação, evidenciando as limitações da ação humana para lidar com isso.
 
Assinale a alternativa correta:
A
  V – V – V.
B
  V – F – V.
C
  F – V – V.
D
  V – F – F.
13
A etapa de pré-processamento de dados é uma das etapas mais custosas do processo, especialmente em dados não estruturados, que são carregados de erros advindos da linguagem humana.
 
Com base nisso, classifique V para as sentenças verdadeiras e F para as falsas:
 
( ) O processo de Stemming visa extrair um conjunto de palavras-chave em uma sentença.
 
( ) A remoção de stopwords é necessária para eliminar termos que apenas fazem o elo de ligação entre os elementos do texto.
 
( ) Erros ortográficos precisam ser corrigidos para melhorar a qualidade dos dados e não penalizar a análise desses dados, é possível realizar essa correção manualmente.
 
( ) A remoção de números e espaços em branco ou caracteres especiais, muitas vezes, não é necessária, pois não comprometem a análise.
 
( ) A ‘tokenização’ é o processo de quebrar o texto em tokens e assim extrair termos que podem ser utilizados, por exemplo, para análise de frequência.
 
A partir das alternativas abaixo, assinale a CORRETA: 
A
  V – F – V – V – F. 
B
 F – F – F – V – V.
C
 F – V – V – F – V. 
D
 F – V – V – V – V.
14
Os meios digitais consistem em um grande potencial para geração e análise dos dados. Nos dias de hoje as empresas têm investido nesses meios para compreender melhor como seus clientes atuam nestas redes.
 
Em relação à análise digital é correto afirmar que:
A
 Está relacionada a um conjunto de métricas e indicadores para avaliar o comportamento digital de um usuário, como cliques de mouse, posts nas redes sociais, tempo de sessão e assim por diante. Por ser uma área recente, ainda não possui ferramentas com recursos suficientes para análise de grande volume de dados.
B
 Conhecida hoje como “Web Analytics” e compreende todas as páginas de um website. A análise de dados nos websites é feita observando as diferentes métricas de ferramentas como Google Analytics para avaliar o comportamento virtual do usuário dentro da página.
C
 Possui uma diversidade de APIs para acesso e exploração dos dados digitais. São dados como: origens do tráfego, sites mais visitados, registros de compras em um site de vendas e assim por diante. Apesar de todo o potencial, a complexidade e o custo para extrair esses dados impedem o amplo uso desses recursos digitais.
D
 Antigamente restringia-se apenas ao termo “web”, mas nos dias de hoje o termo digital expande a todos os dispositivos capazes de conectar a web. A base dessas análises está relacionada a indicadores ou métricas específicas, como: taxa de rejeição, usuários ativos por hora, informações demográficas, etc. 
15
“O processo de Big Data Analytics é utilizado nos negócios para descobrir padrões. Encontrar as tendências de mercado e acompanhar o comportamento do consumidor ajuda os negócios em suas decisões estratégicas e de marketing”.
Disponível em: < https://marketingconteudo.com/big-data-analytics/ >
 
Em relação ao processo de Big Data, o que é possível afirmar?
A partir das alternativas abaixo, assinale a CORRETA:
A
 É interativa e constituída de etapas similares à análise tradicional, com a diferença de que pode manipular grandes conjuntos de dados em nuvem.
B
 É interativo devido às etapas de todo o processo serem independentes umas das outras, além de apresentar escopo bem reduzido, simplificando a análise. 
C
 É interativo e constituído pelas etapas de extração, ingestão, transformação, limpeza, análise de dados e visualização de dados. 
D
 É considerado iterativo de baixa complexidade se comparado à análise de dados tradicional, com etapas bem definidas e dependentes entre si.
16
As métricas de segmentação representam outra classe de medidas para análise de redes sociais.
 
Em relação a essas métricas, associe os itens, conforme o código abaixo:
 
I – Coeficiente de agrupamento.
 
II – Coesão.
 
III – Clique.
 
( ) É uma medida que representa o grau de ligação existente entre dois vértices.
 
( ) É uma medida que indica a probabilidade de formação de clusters entre os vértices.
 
( ) Quando um determinado vértice está diretamente conectado a todos os outros vértices.
 
A partir das alternativas abaixo, assinale a CORRETA: 
A
  I – II – III. 
B
 III – II – I.
C
 II – I – III. 
D
 II – III – I. 
17
As técnicas de Multi Machine Clustering surgiram para otimizar e melhorar a escalabilidade e o desempenho das análises em cluster para atender às demandas do Big Data. Em relação às técnicas de Multi Machine Clustering, o que é possível afirmar?
 
A partir das alternativas abaixo, assinale a CORRETA:
A
 São mais velozes que as abordagens tradicionais de agrupamento, no entanto, a alta complexidade de implementação inviabiliza projetos de análises mais amplos. 
B
 É composta pela clusterização paralela e pela clusterização baseada em MapReduce. A segunda, inclusive, torna o processo de paralelização mais transparente para o desenvolvedor. 
C
 É constituída pelas técnicas de clusterização paralela e baseada em MapReduce que tornam o processo de paralelização menos complexo para o desenvolvedor.
D
 Apresentam como grande característica o alto poder de processamento com implementação de baixa complexidade e algoritmos como PAM, DBSCAN e PIRBICH. 
18
As fontes de dados podem ser externas - quando se referem a fontes em que a organização não tem total controle – ou internas, quando a organização possui total controle. Ambas são úteis para análise em Big Data, visto que podem fornecer uma visão mais ampla de como o negócio está posicionado no mercado. Sobre a estrutura dos dados contidos nas fontes, é possível classificar em: dados estruturados, semiestruturados e não estruturados.
 
Com base nisso, associe os itens I,II e III com as descrições correspondentes abaixo:
I – Dados estruturados.
II – Dados semiestruturados.
III – Dados não estruturados.
( ) São dados que apresentam uma estrutura flexível e autodescritiva.
( ) São dados que apresentam uma estrutura bem definida com tamanho fixo.
( ) São dados que não apresentam uma estrutura e são descritos em linguagem natural.
 
Assinale a alternativa que apresenta a sequência CORRETA dos itens:
A
 I – III – II. 
B
 I – II – III. 
C
 II – III – I.
D
 II – I – III. 
19
Uma das principais vantagens da clusterização baseada em MapReduce é, sem dúvida, a transparência de toda complexidade de implementação envolvida com a distribuição dos dados entre os clusters ou mesmo a capacidade para detectar e corrigir falhas que eventualmente possam ocorrer duranteo processo.
 
Relacione as técnicas com os algoritmos que as compõem, associando os itens, conforme o código abaixo:
 
I – Clusterização Paralela.
 
II – Clusterização baseada em MapReduce.
 
( ) GPMR.
 
( ) PBIRCH.
 
( ) MR-DBSCAN.
 
( ) G-DBSCAN.
 
A partir das alternativas abaixo, assinale a CORRETA: 
A
  I – II – I – II. 
B
I – II – II – I.
C
  II – I – II – I. 
D
 II – I – I – II. 
20
A demanda por profissionais de análise de dados ampliou o escopo de exigências destes profissionais. As empresas estão interessadas em profissionais capacitados e que tenham habilidades em trabalhar com dados. Tendo isso em mente, quais são as principais habilidades requeridas para um profissional de dados?
A partir das alternativas abaixo, assinale a CORRETA:
A
 Capacidade para manipulação de dados, conhecimentos em estatística e aprendizado de máquina, habilidades com ferramentas e/ou linguagens de programação e capacidade para transmitir resultados.
B
 Domínio de técnicas de aprendizagem de máquina, amplo conhecimento em matemática, experiência com todos os tipos de dados ou banco de dados (extração e manipulação) e amplo conhecimento do negócio.
C
 Raciocínio lógico apurado, capacidade para extrair insights de dados não estruturados, experiência prévia em aprendizagem de máquina e pouco conhecimento do conceito de Big Data.
D
 Forte capacidade analítica, amplo conhecimento em ferramentas de visualização de dados e frameworks de Big Data como Apache Spark e PowerBI e domínio de bancos de dados não relacionais.

Continue navegando