TÓPICOS DE BIG DATA EM PYTHON AVS1

•

ESTÁCIO

5

0

5

0

Norton Manfré

01/09/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.766 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1a
Questão
Acerto: 1,0 / 1,0
Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações de internet das coisas.
Camada de sessão
Camada de aplicação
Camada lógica
Camada de enlace de dados
Camada de transporte
Respondido em 01/09/2022 12:12:45
Explicação:
A camada de transporte é encarregada pela comunicação ponta a ponta entre as aplicações e oferece confiabilidade, além de garantir que os pacotes serão entregues da mesma forma que o usuário os enviou. Em relação às outras opções, a camada lógica simplesmente não existe. Já a camada de enlace de dados detecta erros e, quando necessário, os corrige. A camada de sessão trata dos processos responsáveis pela transferência de dados. Por fim, a camada de aplicação é responsável pela comunicação fim-a-fim entre processos.
2a
Questão
Acerto: 1,0 / 1,0
Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta.
UDP
MQTT
HTTP
TCP
CoAP
Respondido em 01/09/2022 12:12:59
Explicação:
O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por ser mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming, ele é muito lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no transporte de dados.
3a
Questão
Acerto: 1,0 / 1,0
A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas.
MapReduce
Camada de ingestão
Mrjob
HDFS
Task manager
Respondido em 01/09/2022 12:18:33
Explicação:
O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de rastreamento de tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais alternativas, embora tenham relação com o Hadoop, não possuem a funcionalidade de rastreamento de tarefas.
4a
Questão
Acerto: 0,0 / 1,0
Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta que define resumidamente o que é o Data Lake.
É um ambiente para tratamento e armazenamento apenas de dados relacionais.
É um repositório para tratamento dos dados.
É uma tecnologia de armazenamento e processamento de dados.
É um repositório centralizado para armazenamento de dados.
Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados.
Respondido em 01/09/2022 12:16:25
Explicação:
O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento.
5a
Questão
Acerto: 1,0 / 1,0
Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada.
sample
distinct
mapRandom
filter
random
Respondido em 01/09/2022 12:16:42
Explicação:
Gabarito: sample
Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada.
6a
Questão
Acerto: 1,0 / 1,0
O Spark é uma ferramenta computacional voltada para aplicações de Big Data. Selecione a opção correta a respeito do componente que pode ser tratado com o Spark SQL.
RDD
Work Node
DAG
Executor
Tasks
Respondido em 01/09/2022 12:17:01
Explicação:
Gabarito: RDD
Justificativa: O componente Spark SQL do ecossistema do Spark fornece suporte à linguagem SQL para manipular RDDs. DAGs correspondem a abstrações sobre as execuções dos processos. O Executor é responsável pela execução de tarefas individuais, enquanto o Work Node corresponde ao conjunto de máquinas que executam as tarefas que são as Tasks, ou seja, subdivisões do processo.
7a
Questão
Acerto: 1,0 / 1,0
A linguagem Python fornece para o cientista de dados uma grande variedade de funções e bibliotecas. Qual o método que faz a projeção do Dataframe orientado pelos rótulos das colunas do conjunto?
reset_index
sum
loc
iloc
shuffle
Respondido em 01/09/2022 12:17:10
Explicação:
Através do método loc, passando o nome da coluna ou colunas desejadas entre colchetes, é aplicada a operação de projeção do DataFrame, de acordo com o objetivo desejado. As demais alternativas não dizem respeito à projeção do DataFrame.
8a
Questão
Acerto: 1,0 / 1,0
Eduardo quer mostrar aos gestores da empresa como as ações da carteira de investimentos recomendada que ele e o time dele propuseram estão valorizando e gerando muitos dividendos aos clientes. Para isso, Eduardo construiu um gráfico de ______, pois está lidando com dados ________ e quer mostrar o quão bem as recomendações geradas por seu time estão evoluindo.
Respectivamente a resposta que completa as duas lacunas é:
Pizza; Numéricos
Linha; Numéricos
Pizza; Categóricos
Linha; Categóricos
Linha; Temporais
Respondido em 01/09/2022 12:17:35
Explicação:
O gráfico correto é o de linhas, pois os dados são temporais, uma vez que Eduardo quer mostrar cronologia para os acionistas e o gráfico de linha representa muito bem isto, e os dados em questão variam ao longo de meses ou anos. Gráficos de pizza não se aplicam a dados temporais. Os dados não são simplesmente numéricos pois, em essência, estamos lidando com a cronologia, logo são dados temporais. O tipo de dados em que números variam no tempo não pode ser classificado como tipo categórico.
9a
Questão
Acerto: 1,0 / 1,0
No modelo de aprendizado profundo, as camadas internas ocultas representam:
I - Abstrações de aspectos de dados complexos
II - Informação relevante dos dados de entrada
III - Pesos e Viéses
Apenas II e III
As alternativas I, II e III
Apenas I
Apenas III
Apenas I e III
Respondido em 01/09/2022 12:17:46
Explicação:
Os modelos de aprendizado profundo são modelos conexionistas que usam suas camadas internas para abstrair automaticamente abstrações de aspectos complexos dos dados, como uma linha reta ou uma curva, e até mesmo combinações de aspectos descobertos em camadas anteriores.
alternativa I - Abstrações de aspectos de dados complexos ¿ está correta pois os modelos de aprendizado profundo são modelos conexionistas que usam suas camadas internas para abstrair automaticamente abstrações de aspectos complexos dos dados, como uma linha reta ou uma curva, e até mesmo combinações de aspectos descobertos em camadas anteriores.
A alternativa II - Informação relevante dos dados de entrada - está incorreta por estar relacionada com o conceito de sistema de informação, que é uma coleção de partes que recebe dados como insumo, processa-os por meio de dinâmicas internas das partes e devolve informação relevante ao usuário final.
A alternativa III ¿ Pesos e Vieses ¿ está incorreta, pois o aprendizado profundo tenta modelar abstrações de alto nível de dados, sendo os grafos empregados nessa área as redes neurais artificiais, onde as camadas ocultas mapeiam de forma equivariante os pesos e os filtros para as camadas subsequentes.
10a
Questão
Acerto: 1,0 / 1,0
Dentre as inúmeras bibliotecas da linguagem Python qual destas é a que abstrai conceitos de engenharia de aprendizado de máquina e implementa modelos de ML?
Pandas
OS
BeautifulSoup
Numpy
Scikit-Learn
Respondido em 01/09/2022 12:17:56
Explicação:
O Python tem um conjunto quase sem fim de bibliotecas disponíveis que podem nos ajudar a modelar qualquer problema de ciência de dados, mas é com o scikit-learn principalmente que implementamos modelos de machine learningde forma facilitada.