Buscar

BIG DATA EM PYTHON

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 6 páginas

Prévia do material em texto

1a
Questão
Acerto: 1,0 / 1,0
Em relação ao protocolo de transporte para transmissão de aplicações de streaming,
selecione a opção correta.
TCP
UDP
HTTP
CoAP
MQTT
Explicação:
O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de
streaming por ser mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de
aplicações de streaming, ele é muito lento inviabilizando a aplicação. Os protocolos HTTP,
MQTT e CoAP não se enquadram no transporte de dados.
2a
Questão
Acerto: 1,0 / 1,0
Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta.
Garantir a qualidade dos dados através de ferramentas de controle que não
aceitem qualquer inconsistência.
Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados.
Dimensionar o projeto logo no início para evitar a necessidade de expansão
posteriormente.
Usar algoritmos de criptografia nos dados para evitar o acesso indevido.
Garantir a consistência da informação através da ordenação dos dados.
Explicação:
Nas aplicações de streaming de dados, dificilmente não vai ocorrer alguma inconsistência,
pois, normalmente, elas estão contextualizadas em ambientes dinâmicos. Portanto, deve-
se ordenar os dados para manter a consistência dos dados e, além disso, o sistema deve
ter uma tolerância a falhas sendo capaz de operar ainda que haja problemas, desde que
estejam dentro de um patamar de qualidade pré-estabelecido.
3a
Questão
Acerto: 1,0 / 1,0
O Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste
sentido, selecione a alternativa correta que apresenta um grande desafio no processo
de configuração e gerenciamento do Hadoop.
Processos de extração, transformação e carregamento dos dados.
Gerenciamento do armazenamento de dados.
Mecanismo para melhorar o processamento dos dados.
Aplicar políticas de segurança.
Tratar dados não-estruturados.
Explicação:
O tratamento da segurança da informação é um grande desafio para o Hadoop, pois o
profissional responsável por essa etapa terá que configurar o sistema que, pela natureza
dos problemas de Big Data, é uma tarefa complexa.
4a
Questão
Acerto: 1,0 / 1,0
Em relação ao Hadoop, selecione a opção correta que trata da otimização da relação custo e
benefício a respeito da expansão de uma infraestrutura.
Tempo de resposta
Variedade dos dados
Flexibilidade
Volume de dados
Escalabilidade
Explicação:
A escalabilidade trata da expansão de um sistema. Essa situação é bastante comum em
projetos de Big Data. No caso do Hadoop, ele pode utilizar equipamentos comuns, como
computadores pessoais formando clusters de escalabilidade horizontal.
5a
Questão
Acerto: 1,0 / 1,0
Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a
opção correta que contenha apenas funções que podem ser categorizadas como
transformações no Spark.
reduce, first e map.
count, collect e take.
map, filter e union.
map, sample e collect.
map, take e reduce.
Explicação:
Gabarito: map, filter e union.
Justificativa: Algumas das funções de transformação no Spark são: map, filter, union,
flatMap, mapPartitions e sample. As citadas transformações, denominadas de
transformações estreitas, resultam da aplicação de funções de mapeamento e de
filtragem, sendo que os dados se originam de uma única partição.
6a
Questão
Acerto: 1,0 / 1,0
Observe o trecho de código abaixo
import numpy as npfrom pyspark import SparkContext
spark_contexto = SparkContext()
a = np.array([1, 5, 1, 6, 4, 7, 7])
teste = spark_contexto.parallelize(a)
Selecione a opção correta a respeito dele.
A variável "teste" corresponde a um RDD.
A execução do trecho de código vai gerar um erro.
A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar
o vetor "a".
A utilização do SparkContext é opcional.
O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do
vetor "a".
Explicação:
Gabarito: A variável "teste" corresponde a um RDD.
Justificativa: O trecho de código está sintaticamente correto. O objetivo é criar um RDD
que, no caso, é representado pela variável "teste" para isso é obrigatório utilizar o
"SparkContext". O pacote "numpy" foi utilizado por causa da variável vetor "a".
7a
Questão
Acerto: 1,0 / 1,0
No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é
fundamental para um cientista de dados. As notas que compõem o histórico escolar de um
aluno são classificadas como que tipo de dados?
Numéricos
Semi-Estruturados
Temporais
Atemporais
Categóricos
Explicação:
O correto é classificar como dados categóricos, pois a nota de um aluno mesmo que possa
ser operada por funções de soma, média etc., representa um conceito ou
extrato/proporção de aprendizado de um aluno, um 8 muitas das vezes significa que o
aluno aprendeu 80% da matéria por exemplo, ou implica na condição de apto, ou
reprovado. O tipo numérico seria correto se não tivesse o contexto implícito de categoria,
por isso devemos ter cuidado ao modelarmos nossos dados.
8a
Questão
Acerto: 1,0 / 1,0
Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte
código:
import pandas as pd
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]})
df1.merge(df2, left_on='lkey', right_on='rkey')
Qual destas alternativas descreve as saídas do código?
I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y
II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela
lkey e rkey.
Apenas a opção I está correta.
Apenas a opção III está correta.
Apenas as opções II e III estão corretas.
Apenas a opção II está correta.
Apenas as opções I e III estão corretas.
Explicação:
A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as
colunas valores acrescidas dos sufixos padrões, porquanto não há declaração explícita. A
afirmativa II é incorreta, por mais que seja uma boa prática definir os nomes dos sufixos
de suas junções, não sendo impeditivo à biblioteca executar a junção sem elas. A
afirmativa III é incorreta, pois o resultado de uma junção é um pd.DataFrame, uma vez
que estamos falando de operações fechadas assim como a álgebra que rege o bom
funcionamento de um sistema, i.e., como a entrada é de DataFrames, a saída
obrigatoriamente também tem que ser de DataFrames.
9a
Questão
Acerto: 1,0 / 1,0
No modelo de aprendizado profundo, as camadas internas ocultas representam:
I - Abstrações de aspectos de dados complexos
II - Informação relevante dos dados de entrada
III - Pesos e Viéses
Apenas II e III
Apenas I
Apenas III
As alternativas I, II e III
Apenas I e III
Explicação:
Os modelos de aprendizado profundo são modelos conexionistas que usam suas camadas
internas para abstrair automaticamente abstrações de aspectos complexos dos dados,
como uma linha reta ou uma curva, e até mesmo combinações de aspectos descobertos
em camadas anteriores.
alternativa I - Abstrações de aspectos de dados complexos ¿ está correta pois os modelos
de aprendizado profundo são modelos conexionistas que usam suas camadas internas
para abstrair automaticamente abstrações de aspectos complexos dos dados, como uma
linha reta ou uma curva, e até mesmo combinações de aspectos descobertos em camadas
anteriores.
A alternativa II - Informação relevante dos dados de entrada - está incorreta por estar
relacionada com o conceito de sistema de informação, que é uma coleção de partes que
recebe dados como insumo, processa-os por meio de dinâmicas internas das partes e
devolve informação relevante ao usuário final.
A alternativa III ¿ Pesos e Vieses ¿ está incorreta, pois o aprendizado profundo tenta
modelar abstrações de alto nível de dados, sendo os grafos empregados nessa área as
redes neurais artificiais, onde as camadas ocultas mapeiamde forma equivariante os
pesos e os filtros para as camadas subsequentes.
10a
Questão
Acerto: 1,0 / 1,0
Quais destas opções representam as diferenças entre o KDD e o CRISP-DM?
I - Etapas de Entendimento do Negócio, e Implantação do Artefato de ML
II - A etapa de Preparação de Dados substituindo as etapas de Seleção de Dados, Pré-
Processamento e Transformação de Dados
III - A obrigatoriedade da entrega de um artefato de ML
Apenas as opções I e III
As opções I, II, e III estão corretas
Apenas a opção II
Apenas as opções II e III
Apenas a opção I
Explicação:
O processo do CRISP-DM se diferencia do processo de KDD tradicional pela inclusão das
etapas de entendimento do negócio e entendimento dos dados, bem como a simplificação
de três etapas de preparação de dados para uma, e, finalmente, o comprometimento do
processo CRISP-DM de entregar um artefato de ML.

Continue navegando