Buscar

Prova - Python com Spark

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1) A organização e visualização dos dados pode ser usada no processo de tomada de decisão em empresas. Através de inspeção e análises visuais é possível identificar novos padrões ou anormalidades nos dados.
Sobre visualização de dados em Python, Matplotlib e Pandas, assinale a alternativa correta:
Alternativas:
· A API do Pandas contém funções para obter informações de páginas HTML.
· Objetos DataFrames e Series são as principais estruturas de dados da biblioteca Matplotlib.
· A função Matplotlib.pyplot.setProperties é responsável para alterar algumas propriedades do gráfico, tais como: cor e estilos das linhas, legendas ou eixos.
· Matplotlib.pyplot é uma coleção de funções com sintaxe parecida com a linguagem de programação MATLAB. O Matplotlib foi desenvolvido utilizando o MATLAB, portanto, é necessária a instalação do MATLAB e do Python.
· A API Pandas não tem suporte para a estrutura de dados dicionário do Python.
Código da questão: 48955
2) Além da criação manual de Dataframes através de listas é possível criar Dataframes importando dados de arquivos, como, por exemplo, arquivos CSV que são muito utilizados para armazenamento de dados em formato texto.
Assinale como verdadeira (V) ou falsa (F) as características mencionadas a seguir:
( V ) O comando read_csv importa dados de um arquivo para uma estrutura de um Dataframe.
( F ) A importação de dados exige que todas as colunas de dados sejam de um mesmo tipo.
( V ) É possível criar funções lambda para a formatação de colunas do Dataframe.
( V ) Após a utilização de um Dataframe é possível exportá-lo no formato CSV através do comando to_csv.
( V ) Além de comando para exportação CSV é possível exportar arquivos de formato de MS Excel.
Alternativas:
· V – F – V – V – V.
· F – V – V – V – V.
· F – V – F – V – F.
· F – F – V – V – F.
· V – V – V – V – F.
Código da questão: 48954
3)V I. O framework Apache Spark Streaming tem suporte para outras ferramentas de armazenamento de Big Data como o Cassandra e MongoDB e Apache Kafka.
V II. Os principais recursos do Apache Kafka são as mensagens. Cada mensagem em Kafka consiste em uma chave, um valor e data/hora. Todos os eventos podem ser resumidos em mensagens, sendo consumidas e produzidas através de tópicos.
III. O Elasticsearch é uma ferramenta de distribuição gratuita e utilizada para realização de buscas e análise de dados em grandes volumes de dados. Para sua instalação, é necessária a instalação de uma JVM (Java Virtual Machine).
IV. Para fazer a integração do Elasticsearch com Apache Spark, é necessário fazer o download do conector/adaptador chamado elasticsearch-hadoop, podendo ser feito via comando pip install elasticsearch-hadoop.
Assinale a alternativa correta.
Alternativas:
· I - IV.
· Apenas IV.
· I - II - III.
· Todas as afirmações estão corretas.
· I - III - IV.
Código da questão: 48979
4) O processamento de dados em tempo real (streaming) é um requisito essencial em muitas aplicações que utilizam Big Data.
Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua___________, uma das primeiras APIs a ativar processamento de streaming usando operadores funcionais de alto nível, como mapear (map) e reduzir (reduce). Na versão atual, Apache Spark Streaming fornece uma API com suporte para as linguagens de programação _________, Java e Python.
Atualmente muitas empresas usam Apache Spark Streaming na produção de aplicativos usando dados adquiridos em tempo real, geralmente processando terabytes de dados por hora. Muito parecido com a biblioteca de conjuntos de dados resilientes - __________________, no entanto, a API DStreams é baseada em operações de nível relativamente baixo em objetos _______ ou __________.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
· API DataSet; Java; Resilient Distributed Dataset (RDD); Java; Python.
· DataFrames; Scala; Resilient Distributed Dataset (RDD); R; Python.
· API DStreams; Scala; Resilient Distributed Dataset (RDD); Java; Python.
· API DataFrames; Java; DataSet; R; Scala.
· DStreams; R; Resilient Distributed Dataset (RDD); R; Python.
Código da questão: 48976
5) Os DataFrames são uma maneira de armazenar dados em formato de tabela de dados que podem ser facilmente visualizadas. Cada linha dessas tabelas corresponde a uma instância do dado, enquanto cada coluna é um vetor que contém dados para uma variável específica.
Com relação a essas características, podemos afirmar sobre Python:
I. DataFrames estão disponíveis na biblioteca Pandas.
II. DataFrames armazenam apenas um tipo de dado, independentemente da quantidade de colunas.
III. DataFrames são estruturas de dados rotuladas bidimensionais com colunas de tipos potencialmente diferentes.
IV. O DataFrame tem três componentes principais: dados, índice e colunas.
V. DataFrame não possibilita a exclusão de colunas.
São verdadeiras:
Alternativas:
· I - III - IV.
· V.
· I - III - IV - V.
· I - II.
· IV - V.
Código da questão: 48952
6) O Spark tem algumas características que podem ser citadas, como, por exemplo, o armazenamento é realizado primeiramente em memória e somente após o processamento passa a enviar os dados para memória, agilizando o processamento das informações.
Além dessas características, assinale como verdadeira ou falsa as outras mencionadas a seguir:
( ) Otimização de operações para grafos.
( ) Suporte para funções que vão além do Map e Reduce.
( ) Disponibiliza um Shell interativo para as linguagens Python e Scala.
( ) A avaliação de consultas para Big Data sob demanda, contribuindo para a otimização do fluxo do processamento de dados.
( ) O Spark não suporta armazenamento de dados distribuídos.
Alternativas:
· F – V – V – V – V.
· V – F – V – V – V.
· F – V – F – V – F.
· V – V – V – V – F.
· F – F – V – V – F.
Código da questão: 48947
7) Os modelos de aprendizado de máquina são algoritmos que automatizam tarefas de tomada de decisão, a partir de rótulos ou atributos pré-determinados. Nesta configuração, esse modelo é conhecido como ________________ , ou seja, o usuário fornece ao algoritmo entradas (atributos ou rótulos) ___________e saídas desejadas, e o algoritmo irá aprender a melhor maneira de produzir a saída solicitada. No aprendizado de máquinas _________________, apenas os dados de entrada são conhecidos e nenhuma informação sobre a saída é fornecida ao algoritmo. A biblioteca __________ contém uma grande variedade de eficientes ferramentas para mineração e análise de dados para computação científica em Python.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
· aprendizado não-supervisionado; não-rotuladas; supervisionado; scikit-learn.
· aprendizado supervisionado; não-rotuladas; não supervisionado; Matplotlib.
· aprendizado supervisionado; rotuladas; não supervisionado; scikit-learn.
· aprendizado não-supervisionado; não-rotuladas; supervisionado; Matplotlib.
· aprendizado não-supervisionado; não-rotuladas; não supervisionado; scikit-learn.
Código da questão: 48966
8) Sobre os conceitos de machine learning, considere as seguintes afirmações:
I. A aprendizagem de máquina supervisionada (Supervised Learning) é a tarefa de encontrar um resultado a partir de conjunto de dados. As informações de entrada não precisam estar rotuladas.
II. No aprendizado de máquinas não-supervisionado (Unsupervised Learning), apenas os dados de entrada são conhecidos e nenhum dado de saída conhecido é fornecido ao algoritmo.
III. O agrupamento é a tarefa de particionar o conjunto de dados (dataset) em 1 ou vários grupos, chamados clusters.
IV. O algoritmo k-Means Clustering gera 1-k agrupamentos a partir de um conjunto (dataset) de treinamento. A saída gerada é semelhante a diagrama de Voronoi, que é um particionamento do conjunto de dados com alguns pontos centrais conhecidos como centroides.
São verdadeiras:
Alternativas:
· II - III - IV.
· Apenas III.
· Todas as afirmações.
· I - III - IV.
· Apenas I.
Código da questão: 48967
9) A preparação de dados é um processo muito importante na área da Ciência de Dados, e tem por objetivoeliminar dados ruidosos e que possam alterar a análise no contexto geral.
No Python, quais as principais bibliotecas disponibilizadas para a limpeza desses dados?
Alternativas:
· PyTorch, Keras.
· Scikit Learn.
· Numpy, Scipy e Pandas.
· Matplotlib, Plotly.
· XGBoost, LightGBM, CatBoost.
Código da questão: 48949
10) Sobre os conceitos de machine learning, considere as seguintes afirmações:
( F ) Os primeiros estudos na área de machine learning surgiram por volta do ano 2000, devido à evolução dos computadores.
( F ) Python é a única linguagem de programação utilizada para o desenvolvimento de aplicações na área de ciência de dados, especialmente na área de machine learning.
( ) Construindo um algoritmo de machine learning uma tarefa fundamental é a organização dos dados fazendo separação do conjunto de dados em 2 subconjuntos: treinamento e teste. É difícil estipular a porcentagem que cada subconjunto vai ter, por exemplo: 70% dos dados para treinamento e 30% para testes. Essa análise deve levar em consideração o problema a ser resolvido e o modelo.
( ) Em aprendizado de máquina supervisionado, o principal desafio é encontrar o conjunto de atributos suficientes que se ajustem ao modelo e que possa prever rótulos desconhecidos no conjunto de teste.
( ) Reconhecimento de impressão digital; identificação de tumores a partir de uma imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de animais em fotos, podem ser resolvidos utilizando algoritmo de regressão.
Assinale a alternativa que contenha a sequência correta.
Alternativas:
· F – F – V – V – F.
· V – F – V – F – F.
· F – V – V – V – F.
· V – F – V – V – F.
· V – V – V – F – F.
Código da questão: 48968

Continue navegando