Logo Passei Direto
Buscar

Avaliação da Disciplina Big Data Analytic e a Tomada de Decisões

Ferramentas de estudo

Questões resolvidas

As técnicas de Multi Machine Clustering surgiram para otimizar e melhorar a escalabilidade e o desempenho das análises em cluster para atender às demandas do Big Data. Em relação às técnicas de Multi Machine Clustering, o que é possível afirmar?
A partir das alternativas abaixo, assinale a CORRETA:
A São mais velozes que as abordagens tradicionais de agrupamento, no entanto, a alta complexidade de implementação inviabiliza projetos de análises mais amplos.
B É composta pela clusterização paralela e pela clusterização baseada em MapReduce. A segunda, inclusive, torna o processo de paralelização mais transparente para o desenvolvedor.
C É constituída pelas técnicas de clusterização paralela e baseada em MapReduce que tornam o processo de paralelização menos complexo para o desenvolvedor.
D Apresentam como grande característica o alto poder de processamento com implementação de baixa complexidade e algoritmos como PAM, DBSCAN e PIRBICH.

O HDFS é um sistema de arquivos do Hadoop que permite armazenar grandes volumes de dados e possui uma arquitetura que apresenta alguns componentes importantes.
Dentre os componentes principais da arquitetura do HDFS, assinale a alternativa CORRETA.
A) O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro é responsável por agendar e gerenciar as tarefas de armazenamento, enquanto que o segundo realiza as atividades diretamente nas máquinas destino.
B) O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro está relacionado ao armazenamento e processamento dos dados diretamente no cluster “pai”, enquanto que o segundo apenas obedece às instruções do pai e o notifica quando for o caso.
C) O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado vital, pois gerencia todos os dados que chegam ao sistema e notifica aos escravos (Data Node) em caso de falha. Estes apenas executam as tarefas solicitadas.
D) O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado mestre porque controla todas as atividades relacionadas ao armazenamento físico dos dados em cada nó, enquanto o segundo processa os dados e comunica ao mestre.

Em se tratando dos tipos de análises existentes, qual a opção que descreve a análise prescritiva?
A partir das alternativas abaixo, assinale a CORRETA:
A É um tipo de análise voltado para responder apenas perguntas de situações que ainda não ocorreram, mas que provavelmente venham a ocorrer. Isso é obtido através da criação de modelos de aprendizagem de máquina avançados.
B Análise prescritiva refere-se ao tipo de análise que é responsável por tomar as decisões com independência. Procura responder perguntas como: “Por que esse evento aconteceu?” e obtém respostas através de algoritmos de classificação.
C Etapa mais avançada da análise de dados que fornece apoio à tomada de decisão de forma automatizada com mínima intervenção humana. Isso é possível graças às experiências desenvolvidas que são aperfeiçoadas ao longo do tempo.
D É um processo voltado para responder perguntas do passado para inferir situações que venham a ocorrer. Por isso, a participação humana é importante para fornecer suporte e aprimorar as decisões obtidas pelos algoritmos implementados.

Uma das soluções mais empregadas em Big Data para armazenamento, processamento e análise de grandes volumes de dados é conhecida como Hadoop. É uma solução open-source da Apache que possui diversas bibliotecas ou módulos.
Que características do Apache Hadoop são consideradas centrais, tanto para termos de armazenamento como processamento? A partir das alternativas abaixo, assinale a CORRETA:
A) Armazenamento por meio de um sistema de arquivos simples, robusto e escalável que pode ser gerenciado por uma única máquina além de processamento em GPU para ganho de performance.
B) Armazenamento por intermédio de um sistema de arquivos distribuído: NTFS para máquinas em Windows e Ext4 para sistemas Linux, o processamento é feito pelo Hadoop MapReduce que processa paralelamente os dados de forma eficiente.
C) Armazenamento por meio de um sistema de arquivos próprio que armazena grandes volumes de dados de forma distribuída e processamento distribuído por intermédio de um modelo simples e eficiente de programação.
D) Armazenamento por meio de um sistema de arquivos distribuído e processamento computacional veloz e paralelo utilizando GPU para tornar o processo mais eficiente.

Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade de algoritmos. Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo:
Assinale a alternativa que apresenta a sequência CORRETA:
I – Algoritmos DIANA, ROCK.
II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS.
V – Algoritmos STING, WAVECLUSTER.
A I – IV – V – II – III.
B III – IV – II – I – V.

O Apache Hadoop contém uma série de componentes que podem ser integrados ao framework. Esses componentes podem ser úteis para as mais diversas finalidades, como armazenamento, transferência de grandes volumes de dados ou até mesmo aplicação de algoritmos preditivos.
A partir das opções abaixo, classifique V para as sentenças verdadeiras e F para as falsas:
( ) O Apache Hive é um componente que pode ser integrado ao Hadoop para coletar dados de fontes estruturadas.
( ) O Apache HBase é um banco de dados não relacional propício a ambientes Big Data, uma vez que suporta um grande volume de dados mantendo alto desempenho.
( ) O Apache Sqoop permite mover grandes volumes de dados das fontes para o HDFS.
( ) O Apache Mahout é um componente responsável por trabalhar diretamente com os dados da fonte: extraindo e coletando dados tanto para processamento em lote como em tempo real.
A) F – V – F – V.
B) F – F – V – V.
C) V – V – F – F.
D) V – V – V – F.

Existem diversos métodos tradicionais que podem ser empregados para análise em cluster e são potencialmente interessantes em cenários de baixa complexidade - com quantidade de dados reduzida.
Em relação aos métodos hierárquicos é CORRETO afirmar que:
A Define aleatoriamente um ponto de partida para o parâmetro K e assim tenta otimizar o resultado ao longo das iterações.
B Apresenta como vantagem a simplicidade e o fato de ser eficiente, mesmo em situações onde o conjunto de dados é significativo.
C Agrupa um conjunto de pontos de dados em uma estrutura de árvore (dendograma) e fornece boa capacidade para comunicação dos resultados.
D Divide o cluster através de níveis, onde os objetos alocados nos níveis superiores da árvore são mais próximos entre si.

Empresas de muitos ramos têm investido em tecnologias e análise de dados para expandirem seus negócios. Em geral, que circunstâncias-chave tem incentivado empresas a investirem parte de seus recursos em análise de dados?
A) Automatização de processos, incentivos fiscais e mão de obra barata.
B) Melhoria dos processos de negócio, aumento de competitividade e o valor que pode ser obtido.
C) Mensurar retorno de investimentos, incentivos governamentais e garantia de lucro.
D) Algoritmos cada vez mais inteligentes, redução de mão de obra e incremento tecnológico.

Uma das principais vantagens da clusterização baseada em MapReduce é, sem dúvida, a transparência de toda complexidade de implementação envolvida com a distribuição dos dados entre os clusters ou mesmo a capacidade para detectar e corrigir falhas que eventualmente possam ocorrer durante o processo.
Relacione as técnicas com os algoritmos que as compõem, associando os itens, conforme o código abaixo:
I – Clusterização Paralela.
II – Clusterização baseada em MapReduce.
( ) GPMR.
( ) PBIRCH.
( ) MR-DBSCAN.
( ) G-DBSCAN.

Grande parte do sucesso do Spark está relacionado à sua estrutura, que é composta por alguns componentes. O principal deles é o RDD.
Sobre este componente, classifique V para as sentenças verdadeiras e F para as falsas:
( ) É uma estrutura física do Spark que guarda informações dos objetos do Spark. Sua única limitação é não possuir um mecanismo para tratamento de falhas.
( ) Possui uma estrutura similar a uma tabela, conhecida como dataset que pode armazenar dados de diferentes tipos.
( ) Fornece suporte a dois tipos de operações: transformação e ação. Quando se aplica uma transformação um novo RDD é criado, mas o conjunto de dados só é alterado se for aplicada uma etapa de ação.
( ) Algumas operações de transformação são: SortByKey, FlatMap e GroupByKey enquanto que collect, count e CountByKey são operações de ação.
A) F – V – V – F.
B) V – V – V – F.
C) F – V – V – V.
D) F – F – V – V.

A clusterização é uma técnica de aprendizagem não supervisionada que visa classificar um conjunto de dados semelhantes em um mesmo grupo.
No que se refere à clusterização é CORRETO afirmar que:
A) Dados que fazem parte do mesmo grupo apresentam um grau de similaridade ou dissimilaridade elevado.
B) Composto por várias medidas de distância, entre estas a distância Euclidiana que, devido à sua popularidade, pode se aplicar a praticamente todas as classes de problemas.
C) É útil para classificar um grupo de objetos com classes já definidas, por exemplo, prever a média de vendas de casas em uma determinada região.
D) É empregada em situações onde não há conhecimento prévio de uma classe. A classificação é feita mediante agrupamento através de alguma medida de distância.

A etapa de pré-processamento de dados é uma das etapas mais custosas do processo, especialmente em dados não estruturados, que são carregados de erros advindos da linguagem humana.
Com base nisso, classifique V para as sentenças verdadeiras e F para as falsas:
( ) O processo de Stemming visa extrair um conjunto de palavras-chave em uma sentença.
( ) A remoção de stopwords é necessária para eliminar termos que apenas fazem o elo de ligação entre os elementos do texto.
( ) Erros ortográficos precisam ser corrigidos para melhorar a qualidade dos dados e não penalizar a análise desses dados, é possível realizar essa correção manualmente.
( ) A remoção de números e espaços em branco ou caracteres especiais, muitas vezes, não é necessária, pois não comprometem a análise.
( ) A ‘tokenização’ é o processo de quebrar o texto em tokens e assim extrair termos que podem ser utilizados, por exemplo, para análise de frequência.
A) F – V – V – F – V.
B) F – F – F – V – V.
C) V – F – V – V – F.
D) F – V – V – V – V.

Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo:
I – Algoritmos DIANA, ROCK.
II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS.
V – Algoritmos STING, WAVECLUSTER.
( ) Métodos hierárquicos.
( ) Métodos baseados em grid.
( ) Métodos de particionamento.
( ) Métodos baseados em modelos.
( ) Métodos baseados em densidade.
A I – IV – V – II – III.
B III – IV – II – I – V.
C II – V – III – IV – I.
D I – V – IV – III – II.

A demanda por profissionais de análise de dados ampliou o escopo de exigências destes profissionais. As empresas estão interessadas em profissionais capacitados e que tenham habilidades em trabalhar com dados.
Tendo isso em mente, quais são as principais habilidades requeridas para um profissional de dados?
A Capacidade para manipulação de dados, conhecimentos em estatística e aprendizado de máquina, habilidades com ferramentas e/ou linguagens de programação e capacidade para transmitir resultados.
B Domínio de técnicas de aprendizagem de máquina, amplo conhecimento em matemática, experiência com todos os tipos de dados ou banco de dados (extração e manipulação) e amplo conhecimento do negócio.
C Raciocínio lógico apurado, capacidade para extrair insights de dados não estruturados, experiência prévia em aprendizagem de máquina e pouco conhecimento do conceito de Big Data.
D Forte capacidade analítica, amplo conhecimento em ferramentas de visualização de dados e frameworks de Big Data como Apache Spark e PowerBI e domínio de bancos de dados não relacionais.

As limitações advindas de técnicas tradicionais de análise em cluster motivaram o surgimento de propostas, especialmente para melhoria de desempenho. Dentre essas propostas surgiram as novas técnicas de clusterização.
Tendo isso em mente, classifique V para as sentenças verdadeiras e F para as falsas:
( ) As técnicas de Single Machine Clustering (SMC) representaram uma das primeiras iniciativas para análise de dados de grande volume.
( ) As técnicas de Multi Machine Clustering (MMC) processam e analisam grandes conjuntos de dados de forma paralela e dessa forma são mais eficientes que técnicas de SMC.
( ) Embora as técnicas de MMC sejam mais eficientes que abordagens tradicionais, a complexidade do seu uso é um fator determinante para apostar em técnicas de SCM.
A) V – V – F.
B) V – F – F.
C) F – V – V.
D) V V V

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Questões resolvidas

As técnicas de Multi Machine Clustering surgiram para otimizar e melhorar a escalabilidade e o desempenho das análises em cluster para atender às demandas do Big Data. Em relação às técnicas de Multi Machine Clustering, o que é possível afirmar?
A partir das alternativas abaixo, assinale a CORRETA:
A São mais velozes que as abordagens tradicionais de agrupamento, no entanto, a alta complexidade de implementação inviabiliza projetos de análises mais amplos.
B É composta pela clusterização paralela e pela clusterização baseada em MapReduce. A segunda, inclusive, torna o processo de paralelização mais transparente para o desenvolvedor.
C É constituída pelas técnicas de clusterização paralela e baseada em MapReduce que tornam o processo de paralelização menos complexo para o desenvolvedor.
D Apresentam como grande característica o alto poder de processamento com implementação de baixa complexidade e algoritmos como PAM, DBSCAN e PIRBICH.

O HDFS é um sistema de arquivos do Hadoop que permite armazenar grandes volumes de dados e possui uma arquitetura que apresenta alguns componentes importantes.
Dentre os componentes principais da arquitetura do HDFS, assinale a alternativa CORRETA.
A) O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro é responsável por agendar e gerenciar as tarefas de armazenamento, enquanto que o segundo realiza as atividades diretamente nas máquinas destino.
B) O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro está relacionado ao armazenamento e processamento dos dados diretamente no cluster “pai”, enquanto que o segundo apenas obedece às instruções do pai e o notifica quando for o caso.
C) O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado vital, pois gerencia todos os dados que chegam ao sistema e notifica aos escravos (Data Node) em caso de falha. Estes apenas executam as tarefas solicitadas.
D) O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado mestre porque controla todas as atividades relacionadas ao armazenamento físico dos dados em cada nó, enquanto o segundo processa os dados e comunica ao mestre.

Em se tratando dos tipos de análises existentes, qual a opção que descreve a análise prescritiva?
A partir das alternativas abaixo, assinale a CORRETA:
A É um tipo de análise voltado para responder apenas perguntas de situações que ainda não ocorreram, mas que provavelmente venham a ocorrer. Isso é obtido através da criação de modelos de aprendizagem de máquina avançados.
B Análise prescritiva refere-se ao tipo de análise que é responsável por tomar as decisões com independência. Procura responder perguntas como: “Por que esse evento aconteceu?” e obtém respostas através de algoritmos de classificação.
C Etapa mais avançada da análise de dados que fornece apoio à tomada de decisão de forma automatizada com mínima intervenção humana. Isso é possível graças às experiências desenvolvidas que são aperfeiçoadas ao longo do tempo.
D É um processo voltado para responder perguntas do passado para inferir situações que venham a ocorrer. Por isso, a participação humana é importante para fornecer suporte e aprimorar as decisões obtidas pelos algoritmos implementados.

Uma das soluções mais empregadas em Big Data para armazenamento, processamento e análise de grandes volumes de dados é conhecida como Hadoop. É uma solução open-source da Apache que possui diversas bibliotecas ou módulos.
Que características do Apache Hadoop são consideradas centrais, tanto para termos de armazenamento como processamento? A partir das alternativas abaixo, assinale a CORRETA:
A) Armazenamento por meio de um sistema de arquivos simples, robusto e escalável que pode ser gerenciado por uma única máquina além de processamento em GPU para ganho de performance.
B) Armazenamento por intermédio de um sistema de arquivos distribuído: NTFS para máquinas em Windows e Ext4 para sistemas Linux, o processamento é feito pelo Hadoop MapReduce que processa paralelamente os dados de forma eficiente.
C) Armazenamento por meio de um sistema de arquivos próprio que armazena grandes volumes de dados de forma distribuída e processamento distribuído por intermédio de um modelo simples e eficiente de programação.
D) Armazenamento por meio de um sistema de arquivos distribuído e processamento computacional veloz e paralelo utilizando GPU para tornar o processo mais eficiente.

Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade de algoritmos. Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo:
Assinale a alternativa que apresenta a sequência CORRETA:
I – Algoritmos DIANA, ROCK.
II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS.
V – Algoritmos STING, WAVECLUSTER.
A I – IV – V – II – III.
B III – IV – II – I – V.

O Apache Hadoop contém uma série de componentes que podem ser integrados ao framework. Esses componentes podem ser úteis para as mais diversas finalidades, como armazenamento, transferência de grandes volumes de dados ou até mesmo aplicação de algoritmos preditivos.
A partir das opções abaixo, classifique V para as sentenças verdadeiras e F para as falsas:
( ) O Apache Hive é um componente que pode ser integrado ao Hadoop para coletar dados de fontes estruturadas.
( ) O Apache HBase é um banco de dados não relacional propício a ambientes Big Data, uma vez que suporta um grande volume de dados mantendo alto desempenho.
( ) O Apache Sqoop permite mover grandes volumes de dados das fontes para o HDFS.
( ) O Apache Mahout é um componente responsável por trabalhar diretamente com os dados da fonte: extraindo e coletando dados tanto para processamento em lote como em tempo real.
A) F – V – F – V.
B) F – F – V – V.
C) V – V – F – F.
D) V – V – V – F.

Existem diversos métodos tradicionais que podem ser empregados para análise em cluster e são potencialmente interessantes em cenários de baixa complexidade - com quantidade de dados reduzida.
Em relação aos métodos hierárquicos é CORRETO afirmar que:
A Define aleatoriamente um ponto de partida para o parâmetro K e assim tenta otimizar o resultado ao longo das iterações.
B Apresenta como vantagem a simplicidade e o fato de ser eficiente, mesmo em situações onde o conjunto de dados é significativo.
C Agrupa um conjunto de pontos de dados em uma estrutura de árvore (dendograma) e fornece boa capacidade para comunicação dos resultados.
D Divide o cluster através de níveis, onde os objetos alocados nos níveis superiores da árvore são mais próximos entre si.

Empresas de muitos ramos têm investido em tecnologias e análise de dados para expandirem seus negócios. Em geral, que circunstâncias-chave tem incentivado empresas a investirem parte de seus recursos em análise de dados?
A) Automatização de processos, incentivos fiscais e mão de obra barata.
B) Melhoria dos processos de negócio, aumento de competitividade e o valor que pode ser obtido.
C) Mensurar retorno de investimentos, incentivos governamentais e garantia de lucro.
D) Algoritmos cada vez mais inteligentes, redução de mão de obra e incremento tecnológico.

Uma das principais vantagens da clusterização baseada em MapReduce é, sem dúvida, a transparência de toda complexidade de implementação envolvida com a distribuição dos dados entre os clusters ou mesmo a capacidade para detectar e corrigir falhas que eventualmente possam ocorrer durante o processo.
Relacione as técnicas com os algoritmos que as compõem, associando os itens, conforme o código abaixo:
I – Clusterização Paralela.
II – Clusterização baseada em MapReduce.
( ) GPMR.
( ) PBIRCH.
( ) MR-DBSCAN.
( ) G-DBSCAN.

Grande parte do sucesso do Spark está relacionado à sua estrutura, que é composta por alguns componentes. O principal deles é o RDD.
Sobre este componente, classifique V para as sentenças verdadeiras e F para as falsas:
( ) É uma estrutura física do Spark que guarda informações dos objetos do Spark. Sua única limitação é não possuir um mecanismo para tratamento de falhas.
( ) Possui uma estrutura similar a uma tabela, conhecida como dataset que pode armazenar dados de diferentes tipos.
( ) Fornece suporte a dois tipos de operações: transformação e ação. Quando se aplica uma transformação um novo RDD é criado, mas o conjunto de dados só é alterado se for aplicada uma etapa de ação.
( ) Algumas operações de transformação são: SortByKey, FlatMap e GroupByKey enquanto que collect, count e CountByKey são operações de ação.
A) F – V – V – F.
B) V – V – V – F.
C) F – V – V – V.
D) F – F – V – V.

A clusterização é uma técnica de aprendizagem não supervisionada que visa classificar um conjunto de dados semelhantes em um mesmo grupo.
No que se refere à clusterização é CORRETO afirmar que:
A) Dados que fazem parte do mesmo grupo apresentam um grau de similaridade ou dissimilaridade elevado.
B) Composto por várias medidas de distância, entre estas a distância Euclidiana que, devido à sua popularidade, pode se aplicar a praticamente todas as classes de problemas.
C) É útil para classificar um grupo de objetos com classes já definidas, por exemplo, prever a média de vendas de casas em uma determinada região.
D) É empregada em situações onde não há conhecimento prévio de uma classe. A classificação é feita mediante agrupamento através de alguma medida de distância.

A etapa de pré-processamento de dados é uma das etapas mais custosas do processo, especialmente em dados não estruturados, que são carregados de erros advindos da linguagem humana.
Com base nisso, classifique V para as sentenças verdadeiras e F para as falsas:
( ) O processo de Stemming visa extrair um conjunto de palavras-chave em uma sentença.
( ) A remoção de stopwords é necessária para eliminar termos que apenas fazem o elo de ligação entre os elementos do texto.
( ) Erros ortográficos precisam ser corrigidos para melhorar a qualidade dos dados e não penalizar a análise desses dados, é possível realizar essa correção manualmente.
( ) A remoção de números e espaços em branco ou caracteres especiais, muitas vezes, não é necessária, pois não comprometem a análise.
( ) A ‘tokenização’ é o processo de quebrar o texto em tokens e assim extrair termos que podem ser utilizados, por exemplo, para análise de frequência.
A) F – V – V – F – V.
B) F – F – F – V – V.
C) V – F – V – V – F.
D) F – V – V – V – V.

Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo:
I – Algoritmos DIANA, ROCK.
II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS.
V – Algoritmos STING, WAVECLUSTER.
( ) Métodos hierárquicos.
( ) Métodos baseados em grid.
( ) Métodos de particionamento.
( ) Métodos baseados em modelos.
( ) Métodos baseados em densidade.
A I – IV – V – II – III.
B III – IV – II – I – V.
C II – V – III – IV – I.
D I – V – IV – III – II.

A demanda por profissionais de análise de dados ampliou o escopo de exigências destes profissionais. As empresas estão interessadas em profissionais capacitados e que tenham habilidades em trabalhar com dados.
Tendo isso em mente, quais são as principais habilidades requeridas para um profissional de dados?
A Capacidade para manipulação de dados, conhecimentos em estatística e aprendizado de máquina, habilidades com ferramentas e/ou linguagens de programação e capacidade para transmitir resultados.
B Domínio de técnicas de aprendizagem de máquina, amplo conhecimento em matemática, experiência com todos os tipos de dados ou banco de dados (extração e manipulação) e amplo conhecimento do negócio.
C Raciocínio lógico apurado, capacidade para extrair insights de dados não estruturados, experiência prévia em aprendizagem de máquina e pouco conhecimento do conceito de Big Data.
D Forte capacidade analítica, amplo conhecimento em ferramentas de visualização de dados e frameworks de Big Data como Apache Spark e PowerBI e domínio de bancos de dados não relacionais.

As limitações advindas de técnicas tradicionais de análise em cluster motivaram o surgimento de propostas, especialmente para melhoria de desempenho. Dentre essas propostas surgiram as novas técnicas de clusterização.
Tendo isso em mente, classifique V para as sentenças verdadeiras e F para as falsas:
( ) As técnicas de Single Machine Clustering (SMC) representaram uma das primeiras iniciativas para análise de dados de grande volume.
( ) As técnicas de Multi Machine Clustering (MMC) processam e analisam grandes conjuntos de dados de forma paralela e dessa forma são mais eficientes que técnicas de SMC.
( ) Embora as técnicas de MMC sejam mais eficientes que abordagens tradicionais, a complexidade do seu uso é um fator determinante para apostar em técnicas de SCM.
A) V – V – F.
B) V – F – F.
C) F – V – V.
D) V V V

Prévia do material em texto

19/09/2022 16:43 Avaliação da Disciplina
about:blank 1/8
Prova Impressa
GABARITO | Avaliação da Disciplina (Cod.:645387)
Peso da Avaliação 10,00
Prova 55300846
Qtd. de Questões 20
Nota 10,00
As técnicas de Multi Machine Clustering surgiram para otimizar e melhorar a escalabilidade e o 
desempenho das análises em cluster para atender às demandas do Big Data. Em relação às técnicas 
de Multi Machine Clustering, o que é possível afirmar?
 A partir das alternativas abaixo, assinale a CORRETA:
A É composta pela clusterização paralela e pela clusterização baseada em MapReduce. A segunda,
inclusive, torna o processo de paralelização mais transparente para o desenvolvedor. 
B São mais velozes que as abordagens tradicionais de agrupamento, no entanto, a alta
complexidade de implementação inviabiliza projetos de análises mais amplos. 
C É constituída pelas técnicas de clusterização paralela e baseada em MapReduce que tornam o
processo de paralelização menos complexo para o desenvolvedor.
D Apresentam como grande característica o alto poder de processamento com implementação de
baixa complexidade e algoritmos como PAM, DBSCAN e PIRBICH. 
O HDFS é um sistema de arquivos do Hadoop que permite armazenar grandes volumes de dados e 
possui uma arquitetura que apresenta alguns componentes importantes.
 Dentre os componentes principais da arquitetura do HDFS, assinale a alternativa CORRETA.
A
 O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro é responsável por agendar e
gerenciar as tarefas de armazenamento, enquanto que o segundo realiza as atividades diretamente
nas máquinas destino. 
B
 O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro está relacionado ao
armazenamento e processamento dos dados diretamente no cluster “pai”, enquanto que o segundo
apenas obedece às instruções do pai e o notifica quando for o caso. 
C
 O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado mestre porque
controla todas as atividades relacionadas ao armazenamento físico dos dados em cada nó,
enquanto o segundo processa os dados e comunica ao mestre. 
D
 O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado vital, pois gerencia
todos os dados que chegam ao sistema e notifica aos escravos (Data Node) em caso de falha.
Estes apenas executam as tarefas solicitadas.
Um processo de análise de dados pode ser representado em quatro etapas. Cada uma dessas etapas 
possui particularidades que vão desde a base para implementação de análise de dados nas empresas 
até profundos e sofisticados mecanismos de análise dentro das organizações.
 VOLTAR
A+ Alterar modo de visualização
1
2
3
19/09/2022 16:43 Avaliação da Disciplina
about:blank 2/8
 
Em se tratando dos tipos de análises existentes, qual a opção que descreve a análise prescritiva? A 
partir das alternativas abaixo, assinale a CORRETA:
A
 É um tipo de análise voltado para responder apenas perguntas de situações que ainda não
ocorreram, mas que provavelmente venham a ocorrer. Isso é obtido através da criação de modelos
de aprendizagem de máquina avançados.
B
 Análise prescritiva refere-se ao tipo de análise que é responsável por tomar as decisões com
independência. Procura responder perguntas como: “Por que esse evento aconteceu?” e obtém
respostas através de algoritmos de classificação.
C
 Etapa mais avançada da análise de dados que fornece apoio à tomada de decisão de forma
automatizada com mínima intervenção humana. Isso é possível graças às experiências
desenvolvidas que são aperfeiçoadas ao longo do tempo.
D
 É um processo voltado para responder perguntas do passado para inferir situações que venham a
ocorrer. Por isso, a participação humana é importante para fornecer suporte e aprimorar as
decisões obtidas pelos algoritmos implementados.
Uma das soluções mais empregadas em Big Data para armazenamento, processamento e análise de 
grandes volumes de dados é conhecida como Hadoop. É uma solução open-source da Apache que 
possui diversas bibliotecas ou módulos.
 
Que características do Apache Hadoop são consideradas centrais, tanto para termos de 
armazenamento como processamento? A partir das alternativas abaixo, assinale a CORRETA: 
A
 Armazenamento por meio de um sistema de arquivos próprio que armazena grandes volumes de
dados de forma distribuída e processamento distribuído por intermédio de um modelo simples e
eficiente de programação.
B
 Armazenamento por intermédio de um sistema de arquivos distribuído: NTFS para máquinas em
Windows e Ext4 para sistemas Linux, o processamento é feito pelo Hadoop MapReduce que
processa paralelamente os dados de forma eficiente.
C Armazenamento por meio de um sistema de arquivos simples, robusto e escalável que pode ser
gerenciado por uma única máquina além de processamento em GPU para ganho de performance. 
D Armazenamento por meio de um sistema de arquivos distribuído e processamento
computacional veloz e paralelo utilizando GPU para tornar o processo mais eficiente. 
Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade 
de algoritmos. Relacione a classe de algoritmos com os métodos, associando os itens, conforme o 
código abaixo:
 I – Algoritmos DIANA, ROCK. II – Algoritmos DBSCAN, OPTICS. 
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM) 
IV – Algoritmos K-Means, CLARANS. V – Algoritmos STING, WAVECLUSTER. 
( ) Métodos hierárquicos. ( ) Métodos baseados em grid. ( ) Métodos de particionamento. 
( ) Métodos baseados em modelos. ( ) Métodos baseados em densidade. 
Assinale a alternativa que apresenta a sequência CORRETA: 
A I – IV – V – II – III. 
B III – IV – II – I – V.
4
5
19/09/2022 16:43 Avaliação da Disciplina
about:blank 3/8
C II – V – III – IV – I. 
D I – V – IV – III – II. 
A inovação radical é um produto, processo ou serviço que apresenta características de desempenho 
sem precedentes.
Sabendo disso, assinale a alternativa que apresenta uma definição correta de inovação radical: 
A Trata-se da implementação de um produto, serviço, sistema de gestão ou método de produção,
que até então não existia no mercado.
B Trata-se da implementação de melhorias em um produto, serviço, sistema de gestão ou método
de produção existentes.
C Trata-se da melhoria de sistemas existentes, tornando-os mais baratos, melhores e mais rápidos.
D Trata-se da modificação, aperfeiçoamento, simplificação, consolidação e melhoria de sistemas
existentes.
A definição de uma arquitetura que atenda às necessidades é algo central em projetos de Big Data e 
pode ajudar diretamente gestores de negócio em suas tomadas de decisão.
 
Dessa forma, em termos de projetos: que requisitos e componentes principais uma arquitetura 
tradicional deve ter? A partir das alternativas abaixo, assinale a CORRETA: 
A
 Alto investimento em infraestrutura para suportar as demandas de Big Data. Implementação de
um sólido mecanismo de coleta e armazenamento de dados no Hadoop para processar grandes
volumes de dados em tempo real e uma camada de visualização que será útil para gestores de
negócio extrair insights.
B
 Capacidade para armazenar e processar grandes volumes de dados entregando a informação certa
no tempo certo. Para isso é necessário definir uma camada de extração e ingestão de dados
eficiente, política de armazenamento, definição do tipo de análise e uma camada para
apresentação de resultados. 
C
 Forte mecanismo de integração de dados para entregar ao gestor de negócios informações de
forma transparente e única. É necessário alto investimento em máquinas que possam suportar o
armazenamento e processamento paralelo a fim de que seja possível analisar os dados e entregá-
los à camada de apresentação.
D
 Lidar com dados de quaisquer naturezas obtidos a partir de diversas fontes (internas e externas).
Implementação de estrutura que suporte armazenamento e processamento em larga escala tanto
para dados em lote quanto em fluxo contínuo. 
O Apache Hadoop contém uma série de componentesque podem ser integrados ao framework. Esses 
componentes podem ser úteis para as mais diversas finalidades, como armazenamento, transferência 
de grandes volumes de dados ou até mesmo aplicação de algoritmos preditivos.
 A partir das opções abaixo, classifique V para as sentenças verdadeiras e F para as falsas: 
6
7
8
19/09/2022 16:43 Avaliação da Disciplina
about:blank 4/8
( ) O Apache Hive é um componente que pode ser integrado ao Hadoop para coletar dados de 
fontes estruturadas.
 
( ) O Apache HBase é um banco de dados não relacional propício a ambientes Big Data, uma vez 
que suporta um grande volume de dados mantendo alto desempenho.
 ( ) O Apache Sqoop permite mover grandes volumes de dados das fontes para o HDFS. 
( ) O Apache Mahout é um componente responsável por trabalhar diretamente com os dados da 
fonte: extraindo e coletando dados tanto para processamento em lote como em tempo real.
 A partir das alternativas abaixo, assinale a CORRETA: 
A V – V – V – F. 
B F – V – F – V.
C V – V – F – F. 
D F – F – V – V. 
Benchmarking é o processo contínuo de comparação de produtos, serviços e práticas empresariais 
similares que são executadas eficientemente em determinada organização.
Sabendo disso, assinale a alternativa que traduz corretamente as fases do processo Benchmarking: 
A Observar, planejar, entender, definir, pensar, ouvir, falar, testar, idealizar, sentir e coletar/analisar
informações externas.
B Planejamento, coleta/análise interna de informações, coleta/análise externa de informações,
melhoria do desempenho e melhoria contínua.
C Pensar, sentir, ouvir, ver, falar e fazer.
D Entender, observar, definir, idealizar, prototipar e testar.
Existem diversos métodos tradicionais que podem ser empregados para análise em cluster e são 
potencialmente interessantes em cenários de baixa complexidade - com quantidade de dados 
reduzida.
 Em relação aos métodos hierárquicos é CORRETO afirmar que:
A Define aleatoriamente um ponto de partida para o parâmetro K e assim tenta otimizar o
resultado ao longo das iterações.
B Agrupa um conjunto de pontos de dados em uma estrutura de árvore (dendograma) e fornece
boa capacidade para comunicação dos resultados. 
C Divide o cluster através de níveis, onde os objetos alocados nos níveis superiores da árvore são
mais próximos entre si. 
D Apresenta como vantagem a simplicidade e o fato de ser eficiente, mesmo em situações onde o
conjunto de dados é significativo.
9
10
19/09/2022 16:43 Avaliação da Disciplina
about:blank 5/8
Empresas de muitos ramos têm investido em tecnologias e análise de dados para expandirem seus 
negócios. Em geral, que circunstâncias-chave tem incentivado empresas a investirem parte de seus 
recursos em análise de dados?
 A partir das alternativas abaixo, assinale a CORRETA: 
A Automatização de processos, incentivos fiscais e mão de obra barata. 
B Mensurar retorno de investimentos, incentivos governamentais e garantia de lucro.
C Melhoria dos processos de negócio, aumento de competitividade e o valor que pode ser obtido. 
D Algoritmos cada vez mais inteligentes, redução de mão de obra e incremento tecnológico.
Uma das principais vantagens da clusterização baseada em MapReduce é, sem dúvida, a 
transparência de toda complexidade de implementação envolvida com a distribuição dos dados entre 
os clusters ou mesmo a capacidade para detectar e corrigir falhas que eventualmente possam ocorrer 
durante o processo.
 
Relacione as técnicas com os algoritmos que as compõem, associando os itens, conforme o código 
abaixo:
 I – Clusterização Paralela. II – Clusterização baseada em MapReduce. ( ) GPMR. ( ) PBIRCH. 
( ) MR-DBSCAN. ( ) G-DBSCAN. A partir das alternativas abaixo, assinale a CORRETA: 
A I – II – II – I.
B II – I – II – I. 
C II – I – I – II. 
D I – II – I – II. 
Grande parte do sucesso do Spark está relacionado à sua estrutura, que é composta por alguns 
componentes. O principal deles é o RDD.
 Sobre este componente, classifique V para as sentenças verdadeiras e F para as falsas:
( ) É uma estrutura física do Spark que guarda informações dos objetos do Spark. Sua única 
limitação é não possuir um mecanismo para tratamento de falhas.
( ) Possui uma estrutura similar a uma tabela, conhecida como dataset que pode armazenar dados de 
diferentes tipos.
( ) Fornece suporte a dois tipos de operações: transformação e ação. Quando se aplica uma 
transformação um novo RDD é criado, mas o conjunto de dados só é alterado se for aplicada uma 
etapa de ação.
( ) Algumas operações de transformação são: SortByKey, FlatMap e GroupByKey enquanto que 
collect, count e CountByKey são operações de ação.
 A partir das alternativas abaixo, assinale a CORRETA: 
A F – F – V – V.
11
12
13
19/09/2022 16:43 Avaliação da Disciplina
about:blank 6/8
B F – V – V – F.
C F – V – V – V. 
D V – V – V – F. 
O radar da inovação permite avaliar o grau de maturidade inovadora das empresas, uma vez que 
considera a inovação um elemento fundamental no âmbito competitivo.
Dito isso, assinale a alternativa que apresenta as treze dimensões que compõem a metodologia do 
radar da inovação: 
A Oferta, plataforma, marca, clientes, soluções, relacionamento, agregação de valor, processos,
organização, cadeia de fornecimento, presença, rede e ambiente inovador.
B Organização, gestão, cadeia de fornecedores, planilha, rede de investimentos, estratégia, design,
marca, serviços, tecnologia, conhecimento, diferencial e qualidade.
C Incremento, radical, parcial, gestão, comércio, serviços, financeiro, processos, marca,
colaboradores, sistemas, certificações e patentes.
D Venda, oferta, financeiro, clientes, alternativas, dimensão, radical, parcial, rede, processos,
produtos, serviços e incremento.
A clusterização é uma técnica de aprendizagem não supervisionada que visa classificar um conjunto 
de dados semelhantes em um mesmo grupo.
 No que se refere à clusterização é CORRETO afirmar que: 
A É útil para classificar um grupo de objetos com classes já definidas, por exemplo, prever a
média de vendas de casas em uma determinada região. 
B É empregada em situações onde não há conhecimento prévio de uma classe. A classificação é
feita mediante agrupamento através de alguma medida de distância. 
C Dados que fazem parte do mesmo grupo apresentam um grau de similaridade ou
dissimilaridade elevado. 
D Composto por várias medidas de distância, entre estas a distância Euclidiana que, devido à sua
popularidade, pode se aplicar a praticamente todas as classes de problemas.
A etapa de pré-processamento de dados é uma das etapas mais custosas do processo, especialmente 
em dados não estruturados, que são carregados de erros advindos da linguagem humana.
 Com base nisso, classifique V para as sentenças verdadeiras e F para as falsas: 
( ) O processo de Stemming visa extrair um conjunto de palavras-chave em uma sentença. 
( ) A remoção de stopwords é necessária para eliminar termos que apenas fazem o elo de ligação 
entre os elementos do texto.
 
( ) Erros ortográficos precisam ser corrigidos para melhorar a qualidade dos dados e não penalizar a 
análise desses dados, é possível realizar essa correção manualmente.
 
14
15
16
19/09/2022 16:43 Avaliação da Disciplina
about:blank 7/8
( ) A remoção de números e espaços em branco ou caracteres especiais, muitas vezes, não é 
necessária, pois não comprometem a análise.
 
( ) A ‘tokenização’ é o processo de quebrar o texto em tokens e assim extrair termos que podem ser 
utilizados, por exemplo, para análise de frequência.
 A partir das alternativas abaixo, assinale a CORRETA: 
A V – F – V – V – F. 
B F – V – V – V – V.
C F – F – F – V – V.
D F – V – V – F – V. 
Inovar significa buscar resultados por meio de novas estratégias, novas ideias e novas ações, 
gerenciando estas de forma sistemática e contínua.
 
SCHERER, F. O.; CARLOMAGNO S. M. A gestão da inovação na prática: como aplicar conceitos 
para alancara inovação. São Paulo: Atlas, 2009 (adaptado).
 Assinale a alternativa que corresponde ao conceito expresso no enunciado: 
A Gerenciamento de processos.
B Modelos de negócios inovadores.
C Business Model Canvas.
D Gestão da inovação.
Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade 
de algoritmos.
 Relacione a classe de algoritmos com os métodos, associando os itens, conforme o código abaixo: 
I – Algoritmos DIANA, ROCK.II – Algoritmos DBSCAN, OPTICS.
III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)
IV – Algoritmos K-Means, CLARANS.V – Algoritmos STING, WAVECLUSTER. 
( ) Métodos hierárquicos.( ) Métodos baseados em grid.( ) Métodos de particionamento.
( ) Métodos baseados em modelos.( ) Métodos baseados em densidade. 
Assinale a alternativa que apresenta a sequência CORRETA: 
A I – IV – V – II – III.
B III – IV – II – I – V.
C II – V – III – IV – I.
D I – V – IV – III – II. 
17
18
19/09/2022 16:43 Avaliação da Disciplina
about:blank 8/8
A demanda por profissionais de análise de dados ampliou o escopo de exigências destes profissionais. 
As empresas estão interessadas em profissionais capacitados e que tenham habilidades em trabalhar 
com dados. Tendo isso em mente, quais são as principais habilidades requeridas para um 
profissional de dados?
A partir das alternativas abaixo, assinale a CORRETA:
A
 Domínio de técnicas de aprendizagem de máquina, amplo conhecimento em matemática,
experiência com todos os tipos de dados ou banco de dados (extração e manipulação) e amplo
conhecimento do negócio.
B
 Capacidade para manipulação de dados, conhecimentos em estatística e aprendizado de máquina,
habilidades com ferramentas e/ou linguagens de programação e capacidade para transmitir
resultados.
C
 Forte capacidade analítica, amplo conhecimento em ferramentas de visualização de dados e
frameworks de Big Data como Apache Spark e PowerBI e domínio de bancos de dados não
relacionais.
D Raciocínio lógico apurado, capacidade para extrair insights de dados não estruturados,
experiência prévia em aprendizagem de máquina e pouco conhecimento do conceito de Big Data.
As limitações advindas de técnicas tradicionais de análise em cluster motivaram o surgimento de 
propostas, especialmente para melhoria de desempenho. Dentre essas propostas surgiram as novas 
técnicas de clusterização.
 Tendo isso em mente, classifique V para as sentenças verdadeiras e F para as falsas:
( ) As técnicas de Single Machine Clustering (SMC) representaram uma das primeiras iniciativas 
para análise de dados de grande volume.
( ) As técnicas de Multi Machine Clustering (MMC) processam e analisam grandes conjuntos de 
dados de forma paralela e dessa forma são mais eficientes que técnicas de SMC.
( ) Embora as técnicas de MMC sejam mais eficientes que abordagens tradicionais, a complexidade 
do seu uso é um fator determinante para apostar em técnicas de SCM.
 A partir das alternativas abaixo, assinale a CORRETA: 
A F – V – V.
B V – V – F. 
C V – F – F.
D V – V – V
19
20
Imprimir

Mais conteúdos dessa disciplina