Logo Passei Direto
Buscar

Prova 1 - Corrigida

Ferramentas de estudo

Questões resolvidas

Uma das principais estruturas que o Pandas disponibiliza para a utilização são os__________. Os __________ têm estruturas que trabalham de maneira__________. Sendo assim, eles são organizados em __________ e __________, onde cada linha é um registro e cada coluna um campo.
Assinale a alternativa que completa adequadamente as lacunas.
Dataframes; Dataframes; tabular; linhas; colunas.
Dataframes; Repositórios; tabular; X; Y.
Repositórios; Repositórios; linear; colunas; linhas.
Dataframes; Dataframes; linear; linhas; colunas.
Frames; Frames; organizada; x; y.

Sobre os conceitos de machine learning, considere as seguintes afirmacoes:
( ) Os primeiros estudos na área de machine learning surgiram por volta do ano 2000, devido à evolução dos computadores.
( ) Python é a única linguagem de programação utilizada para o desenvolvimento de aplicações na área de ciência de dados, especialmente na área de machine learning.
( ) Construindo um algoritmo de machine learning uma tarefa fundamental é a organização dos dados fazendo separação do conjunto de dados em 2 subconjuntos: treinamento e teste. É difícil estipular a porcentagem que cada subconjunto vai ter, por exemplo: 70% dos dados para treinamento e 30% para testes. Essa análise deve levar em consideração o problema a ser resolvido e o modelo.
( ) Em aprendizado de máquina supervisionado, o principal desafio é encontrar o conjunto de atributos suficientes que se ajustem ao modelo e que possa prever rótulos desconhecidos no conjunto de teste.

O Spark tem algumas características que podem ser citadas, como, por exemplo, o armazenamento é realizado primeiramente em memória e somente após o processamento passa a enviar os dados para memória, agilizando o processamento das informações.
Além dessas características, assinale como verdadeira ou falsa as outras mencionadas a seguir:
( ) Otimização de operações para grafos.
( ) Suporte para funções que vão além do Map e Reduce.
( ) Disponibiliza um Shell interativo para as linguagens Python e Scala.
( ) A avaliação de consultas para Big Data sob demanda, contribuindo para a otimização do fluxo do processamento de dados.
( ) O Spark não suporta armazenamento de dados distribuídos.

A __________ é o elemento que ocorre com mais frequência em uma amostra, população ou distribuição. Outra medida importante na estatística é a __________ que é uma medida de dispersão e é usada também para expressar o quanto um conjunto de dados se desvia da média. Já o __________ é uma medida que expressa o grau de dispersão de um conjunto de dados ou amostra. Em outras palavras, indica o quanto um conjunto de dados é uniforme. Na __________, os valores das medidas: moda, mediana e média são iguais. Assinale a alternativa que completa adequadamente as lacunas acima:
Moda; variância; histograma; distribuição normal.
Média; variância; desvio padrão; distribuição positiva.
Média; correlação; desvio padrão; distribuição negativa.
Moda; variância; desvio padrão; distribuição normal.
Moda; correlação; desvio padrão; distribuição positiva.

Os DataFrames são uma maneira de armazenar dados em formato de tabela de dados que podem ser facilmente visualizadas. Cada linha dessas tabelas corresponde a uma instância do dado, enquanto cada coluna é um vetor que contém dados para uma variável específica.
Com relação a essas características, podemos afirmar sobre Python:
I. DataFrames estão disponíveis na biblioteca Pandas.
II. DataFrames armazenam apenas um tipo de dado, independentemente da quantidade de colunas.
III. DataFrames são estruturas de dados rotuladas bidimensionais com colunas de tipos potencialmente diferentes.
IV. O DataFrame tem três componentes principais: dados, índice e colunas.
V. DataFrame não possibilita a exclusão de colunas.

I. O framework Apache Spark Streaming tem suporte para outras ferramentas de armazenamento de Big Data como o Cassandra e MongoDB e Apache Kafka. II. Os principais recursos do Apache Kafka são as mensagens. Cada mensagem em Kafka consiste em uma chave, um valor e data/hora. Todos os eventos podem ser resumidos em mensagens, sendo consumidas e produzidas através de tópicos. III. O Elasticsearch é uma ferramenta de distribuição gratuita e utilizada para realização de buscas e análise de dados em grandes volumes de dados. Para sua instalação, é necessária a instalação de uma JVM (Java Virtual Machine). IV. Para fazer a integração do Elasticsearch com Apache Spark, é necessário fazer o download do conector/adaptador chamado elasticsearch-hadoop, podendo ser feito via comando pip install elasticsearch-hadoop. Assinale a alternativa correta.

Sobre os conceitos de Estatística, Probabilidade e bibliotecas do Python, considere as seguintes afirmações:
( ) Utilizando algumas bibliotecas do Python como Numpy, pandas e Matplotlib é possível criar e visualizar histogramas.
( ) Na distribuição normal, o valor da média, moda e mediana são sempre iguais.
( ) Na correlação, se o valor da magnitude se aproxima de 1 ou -1, indica que temos uma correlação fraca.
( ) A biblioteca Pandas é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais.

O Spark vem ganhando grande notoriedade e aumento de sua utilização, isso acontece porque ele tem alta taxa de escalabilidade e desempenho.
Como o Spark agiliza a execução de tarefas sobre o mesmo conjunto de dados?

A linguagem de programação Python foi criada em 1991, mas só recentemente vem sendo utilizada em grandes proporções. Isso se deve por algumas facilitações e otimizações que a linguagem proporciona no momento do desenvolvimento.
Com relação a essas características, podemos afirmar sobre Python:
I. Facilita a legibilidade.
II. A expressividade da linguagem dificulta no desenvolvimento de algoritmos complexos de Machine Learning.
III. Eficiência no gerenciamento de memória.
IV. Comunidade muito ativa contribuindo para melhoria de bibliotecas.
V. Possibilidade de vários paradigmas de programação.

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Uma das principais estruturas que o Pandas disponibiliza para a utilização são os__________. Os __________ têm estruturas que trabalham de maneira__________. Sendo assim, eles são organizados em __________ e __________, onde cada linha é um registro e cada coluna um campo.
Assinale a alternativa que completa adequadamente as lacunas.
Dataframes; Dataframes; tabular; linhas; colunas.
Dataframes; Repositórios; tabular; X; Y.
Repositórios; Repositórios; linear; colunas; linhas.
Dataframes; Dataframes; linear; linhas; colunas.
Frames; Frames; organizada; x; y.

Sobre os conceitos de machine learning, considere as seguintes afirmacoes:
( ) Os primeiros estudos na área de machine learning surgiram por volta do ano 2000, devido à evolução dos computadores.
( ) Python é a única linguagem de programação utilizada para o desenvolvimento de aplicações na área de ciência de dados, especialmente na área de machine learning.
( ) Construindo um algoritmo de machine learning uma tarefa fundamental é a organização dos dados fazendo separação do conjunto de dados em 2 subconjuntos: treinamento e teste. É difícil estipular a porcentagem que cada subconjunto vai ter, por exemplo: 70% dos dados para treinamento e 30% para testes. Essa análise deve levar em consideração o problema a ser resolvido e o modelo.
( ) Em aprendizado de máquina supervisionado, o principal desafio é encontrar o conjunto de atributos suficientes que se ajustem ao modelo e que possa prever rótulos desconhecidos no conjunto de teste.

O Spark tem algumas características que podem ser citadas, como, por exemplo, o armazenamento é realizado primeiramente em memória e somente após o processamento passa a enviar os dados para memória, agilizando o processamento das informações.
Além dessas características, assinale como verdadeira ou falsa as outras mencionadas a seguir:
( ) Otimização de operações para grafos.
( ) Suporte para funções que vão além do Map e Reduce.
( ) Disponibiliza um Shell interativo para as linguagens Python e Scala.
( ) A avaliação de consultas para Big Data sob demanda, contribuindo para a otimização do fluxo do processamento de dados.
( ) O Spark não suporta armazenamento de dados distribuídos.

A __________ é o elemento que ocorre com mais frequência em uma amostra, população ou distribuição. Outra medida importante na estatística é a __________ que é uma medida de dispersão e é usada também para expressar o quanto um conjunto de dados se desvia da média. Já o __________ é uma medida que expressa o grau de dispersão de um conjunto de dados ou amostra. Em outras palavras, indica o quanto um conjunto de dados é uniforme. Na __________, os valores das medidas: moda, mediana e média são iguais. Assinale a alternativa que completa adequadamente as lacunas acima:
Moda; variância; histograma; distribuição normal.
Média; variância; desvio padrão; distribuição positiva.
Média; correlação; desvio padrão; distribuição negativa.
Moda; variância; desvio padrão; distribuição normal.
Moda; correlação; desvio padrão; distribuição positiva.

Os DataFrames são uma maneira de armazenar dados em formato de tabela de dados que podem ser facilmente visualizadas. Cada linha dessas tabelas corresponde a uma instância do dado, enquanto cada coluna é um vetor que contém dados para uma variável específica.
Com relação a essas características, podemos afirmar sobre Python:
I. DataFrames estão disponíveis na biblioteca Pandas.
II. DataFrames armazenam apenas um tipo de dado, independentemente da quantidade de colunas.
III. DataFrames são estruturas de dados rotuladas bidimensionais com colunas de tipos potencialmente diferentes.
IV. O DataFrame tem três componentes principais: dados, índice e colunas.
V. DataFrame não possibilita a exclusão de colunas.

I. O framework Apache Spark Streaming tem suporte para outras ferramentas de armazenamento de Big Data como o Cassandra e MongoDB e Apache Kafka. II. Os principais recursos do Apache Kafka são as mensagens. Cada mensagem em Kafka consiste em uma chave, um valor e data/hora. Todos os eventos podem ser resumidos em mensagens, sendo consumidas e produzidas através de tópicos. III. O Elasticsearch é uma ferramenta de distribuição gratuita e utilizada para realização de buscas e análise de dados em grandes volumes de dados. Para sua instalação, é necessária a instalação de uma JVM (Java Virtual Machine). IV. Para fazer a integração do Elasticsearch com Apache Spark, é necessário fazer o download do conector/adaptador chamado elasticsearch-hadoop, podendo ser feito via comando pip install elasticsearch-hadoop. Assinale a alternativa correta.

Sobre os conceitos de Estatística, Probabilidade e bibliotecas do Python, considere as seguintes afirmações:
( ) Utilizando algumas bibliotecas do Python como Numpy, pandas e Matplotlib é possível criar e visualizar histogramas.
( ) Na distribuição normal, o valor da média, moda e mediana são sempre iguais.
( ) Na correlação, se o valor da magnitude se aproxima de 1 ou -1, indica que temos uma correlação fraca.
( ) A biblioteca Pandas é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais.

O Spark vem ganhando grande notoriedade e aumento de sua utilização, isso acontece porque ele tem alta taxa de escalabilidade e desempenho.
Como o Spark agiliza a execução de tarefas sobre o mesmo conjunto de dados?

A linguagem de programação Python foi criada em 1991, mas só recentemente vem sendo utilizada em grandes proporções. Isso se deve por algumas facilitações e otimizações que a linguagem proporciona no momento do desenvolvimento.
Com relação a essas características, podemos afirmar sobre Python:
I. Facilita a legibilidade.
II. A expressividade da linguagem dificulta no desenvolvimento de algoritmos complexos de Machine Learning.
III. Eficiência no gerenciamento de memória.
IV. Comunidade muito ativa contribuindo para melhoria de bibliotecas.
V. Possibilidade de vários paradigmas de programação.

Mais conteúdos dessa disciplina