BIG DATA EM PYTHON

•

ESTÁCIO EAD

0

Marcelino Donato

22/05/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Phyton

475 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1a Questão (Ref.: 202113508086)
Selecione a opção correta sobre o uso de Big Data.

Projetos de big de Big Data são uma forma de organizar tabelas normalizadas com grande volume de dados.

O volume e diversidade dos dados podem dar uma visão realística do que está sendo observado.

Grandes volumes de dados são úteis para testar a capacidade dos servidores de gerenciamento de dados.

É impossível não utilizar aplicações de Big Data para gerenciar projetos de internet das coisas.

Com projetos de Big Data é sempre possível detectar fraudes em operações financeiras.

2a Questão (Ref.: 202113508090)
Em relação às características do processamento de fluxo de dados, selecione a opção correta.

São invariáveis no tempo

O fluxo de dados é intermitente

São relacionados à aplicações de internet das coisas

Representam o estado de um sistema em um dado momento

Sempre são do mesmo tipo

3a Questão (Ref.: 202113526261)
O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da camada responsável por fazer a marcação dos dados do Data Lake.

Camada de Metadados

Camada de gerenciamento do ciclo de vida da informação

Camada de segurança

Camada de governança

Camada de gerenciamento de dados

4a Questão (Ref.: 202113517023)
Em relação à fase de mapeamento do Hadoop, selecione a opção correta que apresenta o responsável pela geração de fragmento para os componentes da fase de redução.

Redutor.

Leitor de registros.

Mapeador.

Combinador.

Particionador.

5a Questão (Ref.: 202113516892)
A biblioteca Pandas é amplamente utilizada para manipular dados heterogêneos, situação recorrente para aplicações de Big Data. Nesse sentido, selecione a opção que contém a estrutura de dados que possibilita o Cientista de dados atribuir nome para as colunas.

SQL

numpy.array

RDD

DataFrame

PySpark

6a Questão (Ref.: 202113516886)
Compreender os conceitos e princípios do framework Apache Spark é fundamental para o cientista de dados. Selecione a opção correta que contém o componente do ecossistema Spark responsável por dar suporte para tratar fluxo de dados típicos de aplicações de tempo real.

Spark SQL

Spark Streaming

Spark Core

RDDs

Spark Hadoop

7a Questão (Ref.: 202113517647)
A biblioteca pandas é poderosa e de grande valia para a vida de um cientista de dados. Sobre ela podemos afirmar que:
I - O nome Pandas se refere a dados em painel ou panel data
II - O DataFrame é o coletivo de listas (lists)
III - É possível criarmos DataFrames a partir de praticamente qualquer estrutura de dados, principalmente CSVs, Excels, e JSONsAnalise as frases listadas e assinale a alternativa correta.

Apenas I e III.

Apenas I.

Apenas II.

Apenas II e III.

Apenas I e II.

8a Questão (Ref.: 202113517729)
Os dados que, por alguma razão, normalmente interferência humana, não chegam com todos os atributos esperados durante a coleta de dados, são conhecidos como:

Nulos.

Enviesados.

Faltantes.

Embaralhados.

Corrompidos.

9a Questão (Ref.: 202113516714)
Qual o processo irmão do KDD que é utilizado comumente no âmbito industrial?

SIGM.

KDM.

KDD-DM.

CRISP-DM.

SIGKDD.

10a Questão (Ref.: 202113516713)
O boom da IA se deve ao surgimento de novas tecnologias e dispositivos que por estarem sempre conectados produzem uma quantidade enorme de dados. Estes dados que alimentam os modelos de aprendizado de máquina também são conhecidos como:

Informações.

Big Data.

Observações.

Dados Faltantes.

Conhecimento.