Buscar

Simulado - TÓPICOS DE BIG DATA EM PYTHON pdf


Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Continue navegando


Prévia do material em texto

15/10/2022 15:04 Estácio: Alunos 
https://simulado.estacio.br/alunos/ 1/4 
 
15/10/2022 15:04 Estácio: Alunos 
https://simulado.estacio.br/alunos/ 2/4 
 
Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela 
geração de pares intermediários de valor e chave. 
Agrupamento 
Redução 
Gravação da saída 
Combinação 
Embaralhamento 
Respondido em 15/10/2022 13:59:35 
 
 
Explicação: 
Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo 
MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de redução, 
o que é realizado em paralelo com outras tarefas da fase de mapeamento. 
 
O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da camada responsável 
por fazer a marcação dos dados do Data Lake. 
Camada de gerenciamento do ciclo de vida da informação 
Camada de segurança 
Camada de governança 
Camada de Metadados 
Camada de gerenciamento de dados 
Respondido em 15/10/2022 14:04:06 
 
Explicação: 
O Data Lake possui três camadas: a de governança e segurança de dados, a de metadados e a de 
gerenciamento do ciclo de vida da informação que tratam, respectivamente, da política de segurança de dados, 
da marcação e identificação dos dados e das regras de armazenamento. 
 
Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos 
dados de entrada. 
sample 
random 
mapRandom 
distinct filter 
Respondido em 15/10/2022 14:03:04 
 
 
 
Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma 
operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser 
necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de 
dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são 
funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada. 
 
Observe o trecho de código abaixo 
 
Acerto: 0 , 0 / 1 , 0 
 
 
Acerto: 1 , 0 / 1 , 0 
 
 
Acerto: 0 , 0 / 1 , 0 
 
Explicação: 
Gabarito: sample 
 
Acerto: 1 , 0 / 1 , 0 
 
 
 
 
 
 
15/10/2022 15:04 Estácio: Alunos 
https://simulado.estacio.br/alunos/ 3/4 
query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor) 
registros = spark.sql(query) 
Selecione a opção correta a respeito dele. 
Trata-se de um exemplo de utilização do Spark 
SQL É um exemplo de aplicação de GraphX. 
A implementação do trecho de código está errada. 
A execução do trecho de código vai funcionar corretamente. 
É possível afirmar que a tabela_teste existe. 
Respondido em 15/10/2022 14:02:29 
 
Explicação: 
Gabarito: Trata-se de um exemplo de utilização do Spark SQL 
Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a 
utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está 
codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não 
aparecem informações que permitam fazer afirmações sobre a execução. 
 
Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. 
Qual o método utilizado para fazer a junção entre DataFrames no pandas? 
 set_index 
merge 
reset_index 
sum 
values 
Respondido em 15/10/2022 14:02:03 
 
 
 
 
 
A visualização dos dados é fundamental no processo de análise e interpretação. Qual o tipo de visualização 
de dados mais indicada para dados temporais? 
Gráfico de Matriz de Dispersão. 
Gráfico de Faces de Chernoff. 
 Gráfico de Estrela. 
Gráfico de Linha. 
Gráfico de Barra. 
Respondido em 15/10/2022 14:00:44 
 
 
Explicação: 
O gráfico de linhas passa a visualização de cronologia, acompanhando a linha de vida do dado, mostrando 
através das inclinações ou gradientes, o crescimento ou decrescimento do dado. As demais alternativas indicam 
tipos de visualização inadequados para dados temporais. 
 
 
Acerto: 1 , 0 / 1 , 0 
 
Explicação: 
O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de indexes do mesmo nome, 
ou de indexes pré-definidos pelo cientista de dados. As demais alternativas não dizem respeito à operação de 
junção entre DataFrames. 
 
Acerto: 1 , 0 / 1 , 0 
 
 
 
 
15/10/2022 15:04 Estácio: Alunos 
https://simulado.estacio.br/alunos/ 4/4 
 
 
 
 
 
 
Dentre as inúmeras bibliotecas da linguagem Python qual destas é a que abstrai conceitos de engenharia 
de aprendizado de máquina e implementa modelos de ML? 
Scikit-Learn 
BeautifulSoup 
Pandas 
OS 
Numpy 
Respondido em 15/10/2022 13:59:55 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Acerto: 1 , 0 / 1 , 0 
Qual o objetivo da inteligência artificial ao simular comportamentos humanos na máquina? 
Melhorar a capacidade de processamento de dados do sistema. 
 Otimizar algoritmos para que eles se adaptem a contextos não previamente codificados. 
Incrementar o uso da memória de longa duração do sistema. 
Fazer com que computadores acessem a internet mais rápido. 
Viabilizar a computação paralela. 
Respondido em 15/10/2022 14:01:17 
 
 
Explicação: 
A razão por trás da existência da inteligência artificial é criar algoritmos e soluções capazes de se adaptar a 
novas situações que não necessariamente foram pré-programadas, mas se adapte pela experiência passada 
com casos similares. 
 
Acerto: 1 , 0 / 1 , 0 
 
Explicação: 
O Python tem um conjunto quase sem fim de bibliotecas disponíveis que podem nos ajudar a modelar qualquer 
problema de ciência de dados, mas é com o scikit-learn principalmente que implementamos modelos de 
machine learning de forma facilitada.