Linguagens de programação para ciência de dados (Python com Spark)

Anhanguera

Alexandre Torre

em 12/01/2023

Questões resolvidas

Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações:
São verdadeiras:
I. O Apache Spark é um framework para análise e processamento de Big Data. Além da API principal do Apache Spark, existem diversas bibliotecas adicionais para processamento de dados, SQL, grafos e aprendizado de máquina (machine learning) e processamento de imagens.
II. Spark SQL é a biblioteca mais importante do framework Apache Spark. Através dela você pode executar consultas SQL nativas em apenas dados estruturados. Tem suporte para linguagem em Java, Scala, Python e R.
III. Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que consiste em diversos algoritmos de aprendizagem de máquina supervisionado e não-supervisionado.
IV. A biblioteca Spark GraphX contém funções para trabalhar com grafos e processamento de imagem (segmentação, filtragem e transformação geométrica).
II - III.
Apenas I.
Todas as afirmações.
Apenas III.
II - III - IV.

Sobre os conceitos de machine learning, considere as seguintes afirmações:
São verdadeiras:
I. A aprendizagem de máquina supervisionada (Supervised Learning) é a tarefa de encontrar um resultado a partir de conjunto de dados. As informações de entrada não precisam estar rotuladas.
II. No aprendizado de máquinas não-supervisionado (Unsupervised Learning), apenas os dados de entrada são conhecidos e nenhum dado de saída conhecido é fornecido ao algoritmo.
III. O agrupamento é a tarefa de particionar o conjunto de dados (dataset) em 1 ou vários grupos, chamados clusters.
IV. O algoritmo k-Means Clustering gera 1-k agrupamentos a partir de um conjunto (dataset) de treinamento. A saída gerada é semelhante a diagrama de Voronoi, que é um particionamento do conjunto de dados com alguns pontos centrais conhecidos como centroides.
Apenas I.
II - III - IV.
Todas as afirmações.
I - III - IV.
Apenas III.

A preparação de dados é um processo muito importante na área da Ciência de Dados, e tem por objetivo eliminar dados ruidosos e que possam alterar a análise no contexto geral.
No Python, quais as principais bibliotecas disponibilizadas para a limpeza desses dados?
Scikit Learn.
PyTorch, Keras.
Numpy, Scipy e Pandas.
Matplotlib, Plotly.
XGBoost, LightGBM, CatBoost.

Sobre os conceitos de visualização de dados em Python, Numpy, Matplotlib e Pandas, considere as seguintes afirmações: ( ) Utilizando algumas bibliotecas do Python como Numpy, Pandas e Matplotlib é possível criar e visualizar histogramas. ( ) O histograma de uma imagem digital (preto e branco) indica o número de pixels que a imagem tem em determinado nível de cinza, que varia de 0 a 255. ( ) Na versão atual do Matplotlib é possível somente criar plotagem em 3D. ( ) A biblioteca Pandas é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais. Assinale a alternativa que contenha a sequência correta.
V – F – F – V.
V – V – F – F.
V – V – F – V.
F – F – V – V.
F – V – V – F.

Os DataFrames são uma maneira de armazenar dados em formato de tabela de dados que podem ser facilmente visualizadas. Cada linha dessas tabelas corresponde a uma instância do dado, enquanto cada coluna é um vetor que contém dados para uma variável específica.
Com relação a essas características, podemos afirmar sobre Python:
I. DataFrames estão disponíveis na biblioteca Pandas.
II. DataFrames armazenam apenas um tipo de dado, independentemente da quantidade de colunas.
III. DataFrames são estruturas de dados rotuladas bidimensionais com colunas de tipos potencialmente diferentes.
IV. O DataFrame tem três componentes principais: dados, índice e colunas.
V. DataFrame não possibilita a exclusão de colunas.
V.
IV - V.
I - II.
I - III - IV.
I - III - IV - V.

Conteúdos escolhidos para você

6 pág.

Linguagens de programação para ciência de dados (Python com Spark)

Anhanguera

102 pág.

Tema 3 - Princípios de Desenvolvimento de Spark com Python

ESTÁCIO

80 pág.

Tecnologias Avançadas Tema 4 Princípios de desenvolvimento de Spark com Python

ESTÁCIO EAD

Perguntas dessa disciplina

A Segurança da Informação não é restrita somente a informações ou dados eletrônicos. Esse conceito pode ser ampliado a todo tipo de recursos que um...

UNIP

A Segurança da Informação não é restrita somente a informações ou dados eletrônicos. Esse conceito pode ser ampliado a todo tipo de recursos que uma o

A utilização de estatística e métodos de aprendizado de máquina em aplicações de Big Data é cada vez mais comum. Um dos fatores que influencia para...

Analise as informações a seguir: I. Apesar de o termo NoSQL ter surgido posteriormente ao aparecimento de boa parte dos bancos de dados considerad...

UNIFAVENI

Análise de Dados em Python com Pandas Desafio 1 Você está participando de um seminário sobre boas práticas em desenvolvimento de software, focado em g

ESTÁCIO

Material

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações:
São verdadeiras:
I. O Apache Spark é um framework para análise e processamento de Big Data. Além da API principal do Apache Spark, existem diversas bibliotecas adicionais para processamento de dados, SQL, grafos e aprendizado de máquina (machine learning) e processamento de imagens.
II. Spark SQL é a biblioteca mais importante do framework Apache Spark. Através dela você pode executar consultas SQL nativas em apenas dados estruturados. Tem suporte para linguagem em Java, Scala, Python e R.
III. Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que consiste em diversos algoritmos de aprendizagem de máquina supervisionado e não-supervisionado.
IV. A biblioteca Spark GraphX contém funções para trabalhar com grafos e processamento de imagem (segmentação, filtragem e transformação geométrica).
II - III.
Apenas I.
Todas as afirmações.
Apenas III.
II - III - IV.

Sobre os conceitos de machine learning, considere as seguintes afirmações:
São verdadeiras:
I. A aprendizagem de máquina supervisionada (Supervised Learning) é a tarefa de encontrar um resultado a partir de conjunto de dados. As informações de entrada não precisam estar rotuladas.
II. No aprendizado de máquinas não-supervisionado (Unsupervised Learning), apenas os dados de entrada são conhecidos e nenhum dado de saída conhecido é fornecido ao algoritmo.
III. O agrupamento é a tarefa de particionar o conjunto de dados (dataset) em 1 ou vários grupos, chamados clusters.
IV. O algoritmo k-Means Clustering gera 1-k agrupamentos a partir de um conjunto (dataset) de treinamento. A saída gerada é semelhante a diagrama de Voronoi, que é um particionamento do conjunto de dados com alguns pontos centrais conhecidos como centroides.
Apenas I.
II - III - IV.
Todas as afirmações.
I - III - IV.
Apenas III.

A preparação de dados é um processo muito importante na área da Ciência de Dados, e tem por objetivo eliminar dados ruidosos e que possam alterar a análise no contexto geral.
No Python, quais as principais bibliotecas disponibilizadas para a limpeza desses dados?
Scikit Learn.
PyTorch, Keras.
Numpy, Scipy e Pandas.
Matplotlib, Plotly.
XGBoost, LightGBM, CatBoost.

Sobre os conceitos de visualização de dados em Python, Numpy, Matplotlib e Pandas, considere as seguintes afirmações: ( ) Utilizando algumas bibliotecas do Python como Numpy, Pandas e Matplotlib é possível criar e visualizar histogramas. ( ) O histograma de uma imagem digital (preto e branco) indica o número de pixels que a imagem tem em determinado nível de cinza, que varia de 0 a 255. ( ) Na versão atual do Matplotlib é possível somente criar plotagem em 3D. ( ) A biblioteca Pandas é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais. Assinale a alternativa que contenha a sequência correta.
V – F – F – V.
V – V – F – F.
V – V – F – V.
F – F – V – V.
F – V – V – F.

Os DataFrames são uma maneira de armazenar dados em formato de tabela de dados que podem ser facilmente visualizadas. Cada linha dessas tabelas corresponde a uma instância do dado, enquanto cada coluna é um vetor que contém dados para uma variável específica.
Com relação a essas características, podemos afirmar sobre Python:
I. DataFrames estão disponíveis na biblioteca Pandas.
II. DataFrames armazenam apenas um tipo de dado, independentemente da quantidade de colunas.
III. DataFrames são estruturas de dados rotuladas bidimensionais com colunas de tipos potencialmente diferentes.
IV. O DataFrame tem três componentes principais: dados, índice e colunas.
V. DataFrame não possibilita a exclusão de colunas.
V.
IV - V.
I - II.
I - III - IV.
I - III - IV - V.

Conteúdos escolhidos para você

6 pág.

Linguagens de programação para ciência de dados (Python com Spark)

Anhanguera

102 pág.

Tema 3 - Princípios de Desenvolvimento de Spark com Python

ESTÁCIO

80 pág.

Tecnologias Avançadas Tema 4 Princípios de desenvolvimento de Spark com Python

ESTÁCIO EAD

Perguntas dessa disciplina

A Segurança da Informação não é restrita somente a informações ou dados eletrônicos. Esse conceito pode ser ampliado a todo tipo de recursos que um...

UNIP

A Segurança da Informação não é restrita somente a informações ou dados eletrônicos. Esse conceito pode ser ampliado a todo tipo de recursos que uma o

A utilização de estatística e métodos de aprendizado de máquina em aplicações de Big Data é cada vez mais comum. Um dos fatores que influencia para...

Analise as informações a seguir: I. Apesar de o termo NoSQL ter surgido posteriormente ao aparecimento de boa parte dos bancos de dados considerad...

UNIFAVENI

Análise de Dados em Python com Pandas Desafio 1 Você está participando de um seminário sobre boas práticas em desenvolvimento de software, focado em g

ESTÁCIO

Prévia do material em texto

Linguagens de programação para ciência de dados (Python com
Spark)
Professor(a): Yuri Vasconcelos de Almeida Sá (Especialização)
1)
2)
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. Ressaltamos que a nota para aprovação nesta
disciplina é 7,0 (sete) e será adquirida exclusivamente por meio da realização desta avaliação virtual. Seu certificado será emitido após a
aprovação em todas as disciplinas do curso.
Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações:
I. O Apache Spark é um framework para análise e processamento de Big Data. Além da API principal do Apache Spark, existem
diversas bibliotecas adicionais para processamento de dados, SQL, grafos e aprendizado de máquina (machine learning) e
processamento de imagens.
II. Spark SQL é a biblioteca mais importante do framework Apache Spark. Através dela você pode executar consultas SQL nativas em
apenas dados estruturados. Tem suporte para linguagem em Java, Scala, Python e R.
III. Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que consiste em diversos algoritmos de
aprendizagem de máquina supervisionado e não-supervisionado.
IV. A biblioteca Spark GraphX contém funções para trabalhar com grafos e processamento de imagem (segmentação, filtragem e
transformação geométrica).
São verdadeiras:
Alternativas:
II - III - IV.
Todas as afirmações.
II - III.
Apenas I.
Apenas III. CORRETO
Código da questão: 48972
A análise de dados em tempo real (Real Time Analytics) é referida ao processo de análise de grande volume de dados (Big Data) no
momento em que é produzido ou usado. Dos arquivos de logs de servidores e/ou dispositivos aos dados do sensor, os cientistas de
dados estão cada vez mais tendo que lidar com fluxos (streaming) de dados. Esses dados chegam em um fluxo constante, geralmente
de várias aplicações simultaneamente.
Sobre Big Data e Apache Spark Streaming, assinale a alternativa correta.
Alternativas:
Resilient Distributed Dataset (RDD) é considerado a estrutura de dados mais importantes no PySpark, e uma característica importante
dos RDDs é que eles não são objetos imutáveis.
A biblioteca Apache Spark Streaming pode ser usada para processar dados de streaming em tempo real de diferentes fontes, como
sensores, redes sociais e transações online, e os resultados gerados podem ser armazenados em software como Kafka, HDFS,
Cassandra e Elasticsearch. CORRETO
A API Apache Spark Streaming tem suporte para as linguagens de programação Java, Scala, Python e R.
No processamento em streaming ocorre a análise dos dados que já foram armazenados por um tempo. Esses dados geralmente
podem ser em arquivo ou banco de dados, entre outros.
Em Python, os DataFrames de streaming podem ser criados por meio da interface DataStreamReader retornada por
SparkSession.createStream().
Resolução comentada:
Apache Spark não contém API para processamento de imagens, portanto a opção I e IV são falsas.
A API SQL Spark tem suporte para dados semiestruturados e estruturados, portanto a opção II também é falsa.
Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que consiste em diversos algoritmos de
aprendizagem de máquina supervisionado e não-supervisionado, portando a opção III é correta.
Resolução comentada:
No processamento em batch ocorre a análise dos dados que já foram armazenados por um tempo, portanto a alternativa a. é
falsa.
Os objetos Resilient Distributed Dataset (RDD) são considerados a estrutura de dados mais importante no PySpark; uma
característica importante dos RDDs é que são objetos imutáveis, portanto a alternativa b. é falsa.
3)
4)
5)
Código da questão: 48975
Sobre os conceitos de machine learning, considere as seguintes afirmações:
I. A aprendizagem de máquina supervisionada (Supervised Learning) é a tarefa de encontrar um resultado a partir de conjunto de
dados. As informações de entrada não precisam estar rotuladas.
II. No aprendizado de máquinas não-supervisionado (Unsupervised Learning), apenas os dados de entrada são conhecidos e nenhum
dado de saída conhecido é fornecido ao algoritmo.
III. O agrupamento é a tarefa de particionar o conjunto de dados (dataset) em 1 ou vários grupos, chamados clusters.
IV. O algoritmo k-Means Clustering gera 1-k agrupamentos a partir de um conjunto (dataset) de treinamento. A saída gerada é
semelhante a diagrama de Voronoi, que é um particionamento do conjunto de dados com alguns pontos centrais conhecidos como
centroides.
São verdadeiras:
Alternativas:
Apenas I.
Todas as afirmações. INCORRETO
Apenas III.
II - III - IV.
I - III - IV.
Código da questão: 48967
A preparação de dados é um processo muito importante na área da Ciência de Dados, e tem por objetivo eliminar dados ruidosos e
que possam alterar a análise no contexto geral.
No Python, quais as principais bibliotecas disponibilizadas para a limpeza desses dados?
Alternativas:
Scikit Learn.
PyTorch, Keras.
Numpy, Scipy e Pandas. CORRETO
Matplotlib, Plotly.
XGBoost, LightGBM, CatBoost.
Código da questão: 48949
A __________ é o elemento que ocorre com mais frequência em uma amostra, população ou distribuição. Outra medida importante
na estatística é a __________ que é uma medida de dispersão e é usada também para expressar o quanto um conjunto de dados se
desvia da média. Já o __________ é uma medida que expressa o grau de dispersão de um conjunto de dados ou amostra. Em outras
palavras, indica o quanto um conjunto de dados é uniforme.
Na __________, os valores das medidas: moda, mediana e média são iguais.
Assinale a alternativa que completa adequadamente as lacunas acima:
A API Apache Spark Streaming não tem suporte para a linguagem de programação R, portanto a alternativa c. é falsa.
Em Python, os DataFrames de streaming podem ser criados por meio da interface DataStreamReader retornada por
SparkSession.readStream(), então a alternativa e. é falsa.
Resolução comentada:
A afirmação I é falsa, pois o aprendizado de máquina supervisionado (Supervised Learning) é a tarefa de encontrar um resultado
a partir de conjunto de dados e é obrigatório rotular o conjunto de dados de entrada.
Todas as demais afirmações são verdadeiras.
Resolução comentada:
As bibliotecas Numpy, Scipy e Pandas possuem vastas funcionalidades estatísticas e de manipulação de dados que permitem a
limpeza e organização dos dados antes de qualquer tarefa de processamento.
6)
7)
Alternativas:
Média; correlação; desvio padrão; distribuição negativa.
Moda; variância; desvio padrão; distribuição normal. CORRETO
Média; variância; desvio padrão; distribuição positiva.
Moda; correlação; desvio padrão; distribuição positiva.
Moda; variância; histograma; distribuição normal.
Código da questão: 48961
Os modelos de aprendizado de máquina são algoritmos que automatizam tarefas de tomada de decisão, a partir de rótulos ou
atributos pré-determinados. Nesta configuração, esse modelo é conhecido como ________________ , ou seja, o usuário fornece ao
algoritmo entradas (atributos ou rótulos) ___________e saídas desejadas, e o algoritmo irá aprender a melhor maneira de produzir a
saída solicitada. No aprendizado de máquinas _________________, apenas os dados de entrada são conhecidos e nenhuma informação
sobre a saída é fornecida ao algoritmo. A biblioteca __________ contém uma grande variedade de eficientes ferramentas para
mineração e análise de dados para computação científica em Python.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
aprendizado não-supervisionado; não-rotuladas; supervisionado; Matplotlib.
aprendizado supervisionado; não-rotuladas; não supervisionado; Matplotlib.
aprendizado supervisionado; rotuladas; não supervisionado; scikit-learn. CORRETO
aprendizado não-supervisionado; não-rotuladas; supervisionado; scikit-learn.
aprendizado não-supervisionado; não-rotuladas; não supervisionado; scikit-learn.
Código da questão: 48966
O __________ é uma representação da distribuição de frequências (ocorrências)de um determinado valor em um conjunto de dados.
Essa representação gráfica pode ser exibida por colunas ou em barras de um conjunto de dados previamente tabulados e divididos
em classes uniformes ou não uniformes.
Existem duas estruturas de dados principais na Biblioteca pandas: __________ e __________.
É possível exportar as plotagens (gráfico, diagrama, histograma) desenvolvidas em Matplotlib, utilizando a função __________.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
Histograma; DataFrame; Series; savefig. CORRETO
Gráfico; DataFrame; RDD; savefig.
Gráfico; DataFrame; Series; export.
diagrama; DataSet; RDD; saveplot.
Histograma; DataFrame; RDD; savefig.
Resolução comentada:
A moda é o elemento que ocorre com mais frequência em uma amostra, população ou distribuição. Já a variância é uma
medida de dispersão e é usada também para expressar o quanto um conjunto de dados se desvia da média.
O desvio padrão é uma medida que expressa o grau de dispersão de um conjunto de dados ou amostra. Em outras palavras,
indica o quanto um conjunto de dados é uniforme.
Na distribuição normal o valor da moda, mediana e média são iguais.
Resolução comentada:
Na aprendizagem de máquina supervisionada, o conjunto de dados de entrada devem ser obrigatoriamente rotulado.
Uma biblioteca do Python bastante utilizada em machine learning é scikit-learn. O scikit-learn contém uma grande variedade de
eficientes ferramentas para mineração e análise de dados.
Já a biblioteca matplotlib contém funções com foco na visualizações dos dados.
Resolução comentada:
O histograma é uma representação da distribuição de frequências (ocorrências) dos dados. A representação gráfica pode ser
8)
9)
Código da questão: 48956
I. O aprendizado de máquina (machine learning) é largamente utilizado para resolver problemas complexos em diversas áreas do
conhecimento (engenharia, psicologia, medicina e computação), que muitas vezes seria impossível de se resolver ou demoraria muito
tempo para serem resolvidos. Exemplo de aplicação bastante utilizada são sistemas para reconhecimento facial e aplicações para
segurança em diversos países.
II. Kyoto é um importante destino turístico que recebe mais de 8,7 milhões de visitantes por ano - um número impressionante, mesmo
para os padrões globais. A Prefeitura se juntou à companhia japonesa para desenvolver o projeto denominado "Criando espaços
públicos e cidades seguras". O sistema combina teoria criminal com dados sobre crimes cometidos em todas as áreas da cidade e
analisa esses dados para prever quando e onde certos tipos de crimes tendem a acontecer. (Fonte: NEC. Tecnologia de
reconhecimento facial movida a IA e machine learning. 06/03/2018. Disponível em: https://computerworld.com.br/brandpost
/tecnologia-de-reconhecimento-facial-movida-ia-e-machine-learning/. Acesso em: 13 nov. 2019).
III. Entretanto, algumas questões relacionadas com moralidade e ética precisam ser levadas em consideração antes do
desenvolvimento de aplicações que usam IA. Muitas vezes, nem percebemos que estamos sendo manipulados e monitorados o tempo
todo por aplicações desenvolvidas utilizando inteligência artificial.
IV. Um drone militar americano, em 2011, eliminou, por comportamento suspeito, um grupo de homens em Datta Khel, no Paquistão,
que estavam em assembleia para resolver um conflito local; o Google, em 2017, estava sendo processado na Inglaterra em uma ação
coletiva por coletar dados de 5,4 milhões de usuários de iPhone, teoricamente protegidos por políticas. (Fonte: KAUFMAN, Dora. A
ética e a inteligência artificial. Valor, 21/12/2017. Disponível em: https://valor.globo.com/eu-e/noticia/2017/12/21/a-etica-e-a-
inteligencia-artificial.ghtml. Acesso em: 13 nov. 2019).
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas.
Alternativas:
A primeira asserção está correta, a segunda são exemplos para ajudar na confirmação para a primeira, a terceira é a contradição da
primeira e na quarta são citados exemplos para confirmação para a terceira. CORRETO
A primeira asserção está correta, na segunda e quarta são citados exemplos para confirmação para a terceira.
A primeira asserção está correta, a segunda são exemplos de contradição para a primeira, a terceira é a confirmação da primeira e a
quarta são citados exemplos para confirmação para a terceira.
A primeira asserção está incorreta, na segunda e na quarta são citados exemplos para confirmação para a terceira.
A primeira asserção está incorreta, a segunda é complemento para a primeira, a terceira é a contradição da primeira e a quarta são
citados exemplos para confirmação para a terceira.
Código da questão: 48969
Sobre os conceitos de visualização de dados em Python, Numpy, Matplotlib e Pandas, considere as seguintes afirmações:
( ) Utilizando algumas bibliotecas do Python como Numpy, Pandas e Matplotlib é possível criar e visualizar histogramas.
( ) O histograma de uma imagem digital (preto e branco) indica o número de pixels que a imagem tem em determinado nível de cinza,
que varia de 0 a 255.
( ) Na versão atual do Matplotlib é possível somente criar plotagem em 3D.
( ) A biblioteca Pandas é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes
multidimensionais.
Assinale a alternativa que contenha a sequência correta.
Alternativas:
F – F – V – V.
V – F – F – V.
V – V – F – V. INCORRETO
exibida por colunas ou em barras de um conjunto de dados previamente tabulados e divididos em classes uniformes ou não
uniformes.
Existem duas estruturas de dados principais na Biblioteca pandas: DataFrame e Series.
É possível exportar as plotagens (gráfico, diagrama, histograma) desenvolvidas em Matplotlib, utilizando a função savefig().
Resolução comentada:
A primeira asserção está correta e explica a importância do aprendizado de máquina (machine learning) em diversas áreas. A
segunda asserção cita um exemplo de uma aplicação para confirmar a primeira asserção. Já a terceira asserção se contradiz com
a primeira, explicando que aplicações com inteligência artificial, muitas vezes, são utilizadas sem se preocupar com problemas
éticos e morais. Na quarta são citados dois exemplos para confirmação da terceira asserção.
10)
F – V – V – F.
V – V – F – F.
Código da questão: 60241
Os DataFrames são uma maneira de armazenar dados em formato de tabela de dados que podem ser facilmente visualizadas.
Cada linha dessas tabelas corresponde a uma instância do dado, enquanto cada coluna é um vetor que contém dados para uma
variável específica.
Com relação a essas características, podemos afirmar sobre Python:
I. DataFrames estão disponíveis na biblioteca Pandas.
II. DataFrames armazenam apenas um tipo de dado, independentemente da quantidade de colunas.
III. DataFrames são estruturas de dados rotuladas bidimensionais com colunas de tipos potencialmente diferentes.
IV. O DataFrame tem três componentes principais: dados, índice e colunas.
V. DataFrame não possibilita a exclusão de colunas.
São verdadeiras:
Alternativas:
V.
IV - V.
I - II.
I - III - IV. CORRETO
I - III - IV - V.
Código da questão: 48952
Resolução comentada:
Na versão atual do Matplotlib é possível criar plotagem em 2D e 3D. Portanto, a terceira afirmação é falsa.
A biblioteca NumPy é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes
multidimensionais. Portanto, a quarta afirmação é falsa. O Pandas é um pacote Python que fornece estruturas de dados rápidas,
flexíveis e expressivas, projetadas para facilitar o trabalho com dados relacionais.
Resolução comentada:
DataFrames estão contidos na biblioteca Pandas e são estruturas bidimensionais que possibilitam a inserção de dados
diferentes em cada uma de suas colunas. Além disso, é composto basicamente por três elementos que são: seus dados
armazenados, seus índices para acesso rápido e as colunas. Ele armazena dados de diferentes tipos.
Prazo de agendamento: 02/08/2021 - 31/01/2022
CódigoAvaliação: 21848616
Arquivos e Links

Linguagens de programação para ciência de dados (Python com Spark)

Anhanguera

Ferramentas de estudo

Conteúdos escolhidos para você

Linguagens de programação para ciência de dados (Python com Spark)

QUESTÕES

TÓPICOS DE BIG DATA EM PYTHON

Tema 3 - Princípios de Desenvolvimento de Spark com Python

Tecnologias Avançadas Tema 4 Princípios de desenvolvimento de Spark com Python

Perguntas dessa disciplina

A Segurança da Informação não é restrita somente a informações ou dados eletrônicos. Esse conceito pode ser ampliado a todo tipo de recursos que um...

A Segurança da Informação não é restrita somente a informações ou dados eletrônicos. Esse conceito pode ser ampliado a todo tipo de recursos que uma o

A utilização de estatística e métodos de aprendizado de máquina em aplicações de Big Data é cada vez mais comum. Um dos fatores que influencia para...

Analise as informações a seguir: I. Apesar de o termo NoSQL ter surgido posteriormente ao aparecimento de boa parte dos bancos de dados considerad...

Análise de Dados em Python com Pandas Desafio 1 Você está participando de um seminário sobre boas práticas em desenvolvimento de software, focado em g

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Conteúdos escolhidos para você

Linguagens de programação para ciência de dados (Python com Spark)

QUESTÕES

TÓPICOS DE BIG DATA EM PYTHON

Tema 3 - Princípios de Desenvolvimento de Spark com Python

Tecnologias Avançadas Tema 4 Princípios de desenvolvimento de Spark com Python

Perguntas dessa disciplina

A Segurança da Informação não é restrita somente a informações ou dados eletrônicos. Esse conceito pode ser ampliado a todo tipo de recursos que um...

A Segurança da Informação não é restrita somente a informações ou dados eletrônicos. Esse conceito pode ser ampliado a todo tipo de recursos que uma o

A utilização de estatística e métodos de aprendizado de máquina em aplicações de Big Data é cada vez mais comum. Um dos fatores que influencia para...

Analise as informações a seguir: I. Apesar de o termo NoSQL ter surgido posteriormente ao aparecimento de boa parte dos bancos de dados considerad...

Análise de Dados em Python com Pandas Desafio 1 Você está participando de um seminário sobre boas práticas em desenvolvimento de software, focado em g

Mais conteúdos dessa disciplina