Linguagens de programação para ciência de dados (Python com Spark)

•

Anhanguera

FOGUETINHO

17/07/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Linguagens de Programação e Estrutura de Dados

673 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

17/07/2022 13:08 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2550662/3921591 1/4
1)
2)
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é compos
100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você
material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Os modelos de aprendizado de máquina são algoritmos que automatizam tarefas de tomada de decisão, a partir d
Nesta configuração, esse modelo é conhecido como ________________ , ou seja, o usuário fornece ao algoritmo entrada
desejadas, e o algoritmo irá aprender a melhor maneira de produzir a saída solicitada. No aprendizado de máquinas
entrada são conhecidos e nenhuma informação sobre a saída é fornecida ao algoritmo. A biblioteca __________ contém
ferramentas para mineração e análise de dados para computação científica em Python.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
aprendizado não-supervisionado; não-rotuladas; supervisionado; scikit-learn.
aprendizado não-supervisionado; não-rotuladas; não supervisionado; scikit-learn.
aprendizado supervisionado; não-rotuladas; não supervisionado; Matplotlib.
aprendizado supervisionado; rotuladas; não supervisionado; scikit-learn. check CORRETO
aprendizado não-supervisionado; não-rotuladas; supervisionado; Matplotlib.
Na aprendizagem de máquina supervisionada, o conjunto de dados de entrada devem ser obrigatoriamente rotulado
Uma biblioteca do Python bastante utilizada em machine learning é scikit-learn. O scikit-learn contém uma grande va
mineração e análise de dados.
Já a biblioteca matplotlib contém funções com foco na visualizações dos dados.
Código da questão: 48966
Estatística e probabilidade são extremamente importantes para trabalhar na área de ciência de dados, assim como
biológicas, psicologia, engenharia, computação etc.
Sobre Estatística, Probabilidade e Python, assinale a alternativa correta.
Alternativas:
O desvio padrão é usado quando queremos separar a metade maior e a metade menor de uma amostra, uma pop
probabilidade.
A estatística é uma área da matemática que estuda as chances de ocorrência de um determinado experimento ou
A biblioteca NumPy é bastante utilizada para realizar cálculos em arrays e matrizes multidimensionais e faz parte
sendo necessária sua instalação.
A estatística é a área responsável pela coleta, organização e interpretação de dados experimentais e pela extrapol
população. check CORRETO
A biblioteca Pandas é um módulo Python que fornece classes e funções para a estimativa de muitos modelos esta
testes e a exploração de dados estatísticos.
A mediana é usado quando queremos separar a metade maior e a metade menor de uma amostra, uma população o
portanto a alternativa b é falsa.
Resolução comentada:
Resolução comentada:
17/07/2022 13:08 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2550662/3921591 2/4
4)
de usuários de iPhone, teoricamente protegidos por políticas. (Fonte: KAUFMAN, Dora. A ética e a inteligência artifici
https://valor.globo.com/eu-e/noticia/2017/12/21/a-etica-e-a-inteligencia-artificial.ghtml. Acesso em: 13 nov. 2019).
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas.
Alternativas:
A primeira asserção está incorreta, a segunda é complemento para a primeira, a terceira é a contradição da prime
confirmação para a terceira.
A primeira asserção está correta, na segunda e quarta são citados exemplos para confirmação para a terceira.
A primeira asserção está incorreta, na segunda e na quarta são citados exemplos para confirmação para a terceira
A primeira asserção está correta, a segunda são exemplos de contradição para a primeira, a terceira é a confirmaç
exemplos para confirmação para a terceira.
A primeira asserção está correta, a segunda são exemplos para ajudar na confirmação para a primeira, a terceira é
são citados exemplos para confirmação para a terceira. check CORRETO
A primeira asserção está correta e explica a importância do aprendizado de máquina (machine learning) em diversas
exemplo de uma aplicação para confirmar a primeira asserção. Já a terceira asserção se contradiz com a primeira, exp
artificial, muitas vezes, são utilizadas sem se preocupar com problemas éticos e morais. Na quarta são citados dois ex
asserção.
Código da questão: 48969
A linguagem de programação Python foi criada em 1991, mas só recentemente vem sendo utilizada em grandes p
facilitações e otimizações que a linguagem proporciona no momento do desenvolvimento.
Com relação a essas características, podemos afirmar sobre Python:
I. Facilita a legibilidade.
II. A expressividade da linguagem dificulta no desenvolvimento de algoritmos complexos de Machine Learning.
III. Eficiência no gerenciamento de memória.
IV. Comunidade muito ativa contribuindo para melhoria de bibliotecas.
V. Possibilidade de vários paradigmas de programação.
São verdadeiras:
Alternativas:
IV - V.
I - II - IV.
V.
I - III - IV - V. check CORRETO
I - II.
Apenas a alternativa II está incorreta, pois o Python apresenta diversas vantagens, a expressividade da linguagem fac
mais complexos, sendo uma preocupação a menos para o desenvolvedor a dificuldade com a sintaxe da linguagem.
Código da questão: 48943
Resolução comentada:
Resolução comentada:
17/07/2022 13:08 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2550662/3921591 3/4
6)
7)
O histograma é uma representação da distribuição de frequências (ocorrências) dos dados. A representação gráfica p
de um conjunto de dados previamente tabulados e divididos em classes uniformes ou não uniformes.
Existem duas estruturas de dados principais na Biblioteca pandas: DataFrame e Series.
É possível exportar as plotagens (gráfico, diagrama, histograma) desenvolvidas em Matplotlib, utilizando a função sav
Código da questão: 48956
Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações:
( ) Os dados em Big Data são criados e armazenados em vários formatos, que podemos classificar em três grupos: Nã
estruturado.
( ) As propriedades do Spark controlam a maioria das configurações do aplicativo e são definidas separadamente par
podem ser definidas diretamente em um SparkConf. O SparkConf permite configurar algumas das propriedades atrav
( ) A arquitetura do Apache Spark é formada pelas seguintes bibliotecas: Spark SQL, Spark Streaming e Spark MLlib.
( ) Spark Streaming é uma biblioteca usada para processar dados de streaming em tempo real. Dessa forma, podemo
processamento de dados à medida que os dados chegam (em tempo real) e não em um processo em lote.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
V – F – F – V.
V – V – F– V. check CORRETO
V – V – F – F.
F – F – V – V.
V – F – F – F.
Código da questão: 48973
O processamento de dados em tempo real (streaming) é um requisito essencial em muitas aplicações que utilizam
Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua___________, uma das primeiras APIs a ativar p
operadores funcionais de alto nível, como mapear (map) e reduzir (reduce). Na versão atual, Apache Spark Streaming
linguagens de programação _________, Java e Python.
Atualmente muitas empresas usam Apache Spark Streaming na produção de aplicativos usando dados adquiridos em
terabytes de dados por hora. Muito parecido com a biblioteca de conjuntos de dados resilientes - __________________, n
operações de nível relativamente baixo em objetos _______ ou __________.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
API DataSet; Java; Resilient Distributed Dataset (RDD); Java; Python.
API DataFrames; Java; DataSet; R; Scala.
DStreams; R; Resilient Distributed Dataset (RDD); R; Python.
API DStreams; Scala; Resilient Distributed Dataset (RDD); Java; Python. check CORRETO
DataFrames; Scala; Resilient Distributed Dataset(RDD); R; Python.
Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua API DStreams e não DataFrames e DataSet.
A API Apache Spark Streaming tem suporte para linguagens Scala e não tem suporte para a linguagem de programaç
Resolução comentada:
17/07/2022 13:08 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2550662/3921591 4/4
9)
10)
Na correlação, se o valor da magnitude se aproxima de 1 ou -1, indica que temos uma correlação forte.
A biblioteca NumPy é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e ma
Código da questão: 48963
Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações:
I. O Apache Spark é um framework para análise e processamento de Big Data. Além da API principal do Apache Spark
para processamento de dados, SQL, grafos e aprendizado de máquina (machine learning) e processamento de image
II. Spark SQL é a biblioteca mais importante do framework Apache Spark. Através dela você pode executar consultas
estruturados. Tem suporte para linguagem em Java, Scala, Python e R.
III. Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que consiste em diversos algoritmo
supervisionado e não-supervisionado.
IV. A biblioteca Spark GraphX contém funções para trabalhar com grafos e processamento de imagem (segmentação
São verdadeiras:
Alternativas:
II - III.
Apenas I.
Apenas III. check CORRETO
Todas as afirmações.
II - III - IV.
Apache Spark não contém API para processamento de imagens, portanto a opção I e IV são falsas.
A API SQL Spark tem suporte para dados semiestruturados e estruturados, portanto a opção II também é falsa.
Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que consiste em diversos algoritmos d
supervisionado e não-supervisionado, portando a opção III é correta.
Código da questão: 48972
Big Data significa grande volume de dados. Esses dados são criados e armazenados pelas mídias sociais, aplicativ
vários outros domínios estão levando à formação de Big Data. O Apache Spark é um framework que fornece APIs par
Sobre Big Data e Apache Spark, assinale a alternativa correta.
Alternativas:
O Apache Spark é um framework para processamento Big Data e tem como suporte para diversos formatos de da
estruturado). check CORRETO
O Apache Spark é um framework para processamento Big Data e tem como principais características: velocidade n
dados tem suporte para diversos tipos de linguagem de programação como Python, Java, R, Scala e C.
Logs de servidores e aplicativos; imagens e vídeos gerados pela câmera de segurança são exemplos de dados sem
Os dados são classificados em semi-estruturados e estruturados e podemos extrair informações desses dados util
Velocidade é a principal característica do Big Data e refere-se à velocidade na distribuição dos dados.
Resolução comentada:
Resolução comentada:

Linguagens de programação para ciência de dados (Python com Spark)

Anhanguera

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Agora você pode testar o

Passei Direto grátis

Linguagens de Programação e Estrutura de Dados

Continue navegando

Outros materiais