TÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

0

Helena Oliveira

24/05/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Modelagem de Processos

1.886 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Disc.: TÓPICOS DE BIG DATA EM PYTHON
Aluno(a):

Acertos: 9,0 de 10,0
24/05/2023
1a
Questão
Acerto: 1,0 / 1,0

Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados.

volume
velocidade

valor

veracidade

variedade
Respondido em 24/05/2023 17:23:32

Explicação:
A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade diz respeito ao formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume significa a quantidade de dados disponíveis para tratamento e a veracidade diz respeito à confiabilidade da origem dos dados.

2a
Questão
Acerto: 1,0 / 1,0

Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta.

Garantir a qualidade dos dados através de ferramentas de controle que não aceitem qualquer inconsistência.
Garantir a consistência da informação através da ordenação dos dados.

Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados.

Dimensionar o projeto logo no início para evitar a necessidade de expansão posteriormente.

Usar algoritmos de criptografia nos dados para evitar o acesso indevido.
Respondido em 24/05/2023 17:24:05

Explicação:
Nas aplicações de streaming de dados, dificilmente não vai ocorrer alguma inconsistência, pois, normalmente, elas estão contextualizadas em ambientes dinâmicos. Portanto, deve-se ordenar os dados para manter a consistência dos dados e, além disso, o sistema deve ter uma tolerância a falhas sendo capaz de operar ainda que haja problemas, desde que estejam dentro de um patamar de qualidade pré-estabelecido.

3a
Questão
Acerto: 1,0 / 1,0

Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave.

Embaralhamento

Combinação

Gravação da saída

Redução

Agrupamento
Respondido em 24/05/2023 17:43:34

Explicação:
Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de redução, o que é realizado em paralelo com outras tarefas da fase de mapeamento.

4a
Questão
Acerto: 0,0 / 1,0

A respeito dos arquivos de configuração do Hadoop, selecione a opção correta com as tags que fornecem acesso aos parâmetros de configuração.

Respondido em 24/05/2023 17:46:28

Explicação:
As configurações dos arquivos do Hadoop são especificadas entre as tags configurations. As demais opções não representam tags corretas para parâmetros de configurações do Hadoop.

5a
Questão
Acerto: 1,0 / 1,0

Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spark.

map, filter e union.

map, take e reduce.

count, collect e take.

map, sample e collect.

reduce, first e map.
Respondido em 24/05/2023 17:46:48

Explicação:
Gabarito: map, filter e union.
Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap, mapPartitions e sample. As citadas transformações, denominadas de transformações estreitas, resultam da aplicação de funções de mapeamento e de filtragem, sendo que os dados se originam de uma única partição.

6a
Questão
Acerto: 1,0 / 1,0

Observe o trecho de código abaixo
query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor)
registros = spark.sql(query)
Selecione a opção correta a respeito dele.

É possível afirmar que a tabela_teste existe.
Trata-se de um exemplo de utilização do Spark SQL

A implementação do trecho de código está errada.

A execução do trecho de código vai funcionar corretamente.

É um exemplo de aplicação de GraphX.
Respondido em 24/05/2023 17:50:11

Explicação:
Gabarito: Trata-se de um exemplo de utilização do Spark SQL
Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não aparecem informações que permitam fazer afirmações sobre a execução.

7a
Questão
Acerto: 1,0 / 1,0

Sobre o Pandas DataFrame o que podemos afirmar?
I - É o coletivo de séries temporais pandas.Series
II - É a estrutura de dados que representa os dados em painel
III - É uma matriz conjunto de vetores
IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina.
Analise as frases listadas e assinale a alternativa correta.

Apenas as opções I, II, III.

Todas as opções I, II, III, IV.

Apenas as opções II, III.
Apenas as opções I, II, IV.

Apenas a opção III.
Respondido em 24/05/2023 17:51:33

Explicação:
A proposição I é correta, pois, assim como o conceito estatístico, o DataFrame no Python é um coletivo de objetos Pandas Series, que são séries temporais. A proposição II está correta pela definição estatística de dados em painel, que são conjuntos de séries temporais heterogêneas armazenadas e dispostas de forma tabular. A proposição III não é verdade, pois o DataFrame é um conjunto de Series, que por sua vez é muito diferente do objeto List do Python. A proposição IV está correta, pois atualmente em grande maioria esmagadora, os projetos modernos de análise de dados dependem muito dos DataFrames, uma vez que são muito cômodos e robustos para análise, principalmente em projetos de aprendizado de máquina.

8a
Questão
Acerto: 1,0 / 1,0

Dados categóricos são aqueles normalmente expressos por texto, que representam rótulos, nomes e símbolos. Qual tipo de visualização de dados abaixo é recomendado para dados categóricos?

Gráfico de Matriz de Dispersão.

Gráficos de Linha.

Gráfico de Estrela.

Gráfico de Faces de Chernoff.
Gráficos de Barra.
Respondido em 24/05/2023 17:53:53

Explicação:
O gráfico de barras mostra as proporções dos dados categóricos assim evidenciando os extratos da amostra. Lembrando que os dados categóricos não se encaixam nos gráficos de dados numéricos, como o de dispersão causando confusão na função de visualização ou quebrando a mesma dependendo da biblioteca escolhida.

9a
Questão
Acerto: 1,0 / 1,0

As redes neurais são implementadas em Python através de uma biblioteca de processamento de cálculos em paralelo baseada em grafos. Qual o nome desta biblioteca?

Tensorflow

Scipy

Plotly

Pandas

Numpy
Respondido em 24/05/2023 17:54:06

Explicação:
A biblioteca TensorFlow foi criada com a finalidade de processar cálculos de forma paralela, em estruturas de grafos a fim de otimizar estes tipos de processamento, mas, devido à natureza dos modelos conexionistas, tal biblioteca foi redefinida como a principal biblioteca para implementação de redes neurais.

10a
Questão
Acerto: 1,0 / 1,0

Qual o objetivo da inteligência artificial ao simular comportamentos humanos na máquina?

Fazer com que computadores acessem a internet mais rápido.

Melhorar a capacidade de processamento de dados do sistema.
Otimizar algoritmos para que eles se adaptem a contextos não previamente codificados.

Viabilizar a computação paralela.

Incrementar o uso da memória de longa duração do sistema.
Respondido em 24/05/2023 17:55:05

Explicação:
A razão por trás da existência da inteligência artificial é criar algoritmos e soluções capazes de se adaptara novas situações que não necessariamente foram pré-programadas, mas se adapte pela experiência passada com casos similares.