Data Science - AOL3

•

UNINASSAU

2

0

2

0

HP

23/11/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Science

2.214 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

29597 . 7 - Fundamentos em Data Science - 20202.B
Avaliação On-Line 3 (AOL 3) - Questionário
Avaliação On-Line 3 (AOL 3) - Questionário
Nota finalEnviado: 19/11/20 12:18 (BRT)
9/10
1. Pergunta 1
/1
Leia o trecho a seguir:
“No entanto, todos os procedimentos de mineração de dados têm tendência para sobreajuste, até certo ponto – alguns mais que outros. A ideia é que se olharmos com atenção suficiente, sempre vamos encontrar padrões em conjuntos de dados.”
Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016. p. 113. 
A partir dessas informações e do conteúdo estudado, analise as afirmativas a seguir a respeito de sobreajuste.
I. Sobreajuste é a capacidade positiva de generalizar.
II. Evitar o sobreajuste ajuda a gerar certezas.
III. Generalizar é a capacidade de usar um modelo para outros itens.
IV. Viés é uma solução para evitar sobreajuste.
Está correto apenas o que se afirma em:
Ocultar opções de resposta 
1. 
II e IV.
2. 
III e IV.
3. 
I e III.
4. 
II e III.
Resposta correta
5. 
I e II.
2. Pergunta 2
/1
Leia o trecho a seguir:                                    
“Por exemplo, um conceito fundamental é o de determinar a similaridade de duas entidades descritas pelos dados. Essa capacidade forma a base de várias tarefas específicas. Ela pode ser usada diretamente para encontrar clientes semelhantes em uma base de dados.”
Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016. p. XIV. 
A partir dessas informações e do conteúdo estudado a respeito das técnicas de similaridades para análises de dados, pode-se afirmar que:
Ocultar opções de resposta 
1. 
clusters e knn são a mesma coisa, ambos são cálculos que geram árvores de 
decisão.
2. 
dados distantes podem ser colocados no mesmo grupo de similaridade, desde 
que a análise seja feita com knn.
3. 
quanto mais baixo o resultado da distância euclidiana, mais similar é o dado.
Resposta correta
4. 
um dado similar tem vizinhos ímpares.
5. 
a distância euclidiana calcula valores similares nas árvores de regressão.
3. Pergunta 3
/1
Leia o trecho a seguir:
"NumPy é um pacote Python fundamental para computação científica, ele incluía capacidade de criar arrays multidimensionais, broadcasting, operações com álgebra linear, e ferramentas para integrar C / C ++ e código Fortran."
Fonte: BRESSERT, Eli. SciPy and NumPy. California: O Reilly Média, 2012. p. 5.
A partir do texto citado e dos conteúdos estudados, ordene os passos necessários para usar matplotlib com numpy:
( ) Digitar pip install numpy no cmd.
( ) Criar e mostrar os arrays.
( ) Escrever import numpy as np e import matplotlib.
( ) Abrir jupyter.
( ) Digitar pip install matplotlib no cmd.
Agora, assinale a alternativa que apresenta a sequência correta:
Ocultar opções de resposta 
1. 
1, 2, 4, 3, 5.
2. 
2, 4, 1, 5, 3.
3. 
1, 5, 4, 3, 2.
Resposta correta
4. 
3, 2, 4, 5, 1.
5. 
3, 4, 5, 2, 1.
4. Pergunta 4
/1
Leia o trecho a seguir:
Matplotlib é uma biblioteca versátil que gera visualizações de dados. Com variados tipos de desenhos e opções de estilos refinados, é um instrumento de trabalho bom para criar imagens profissionais e publicações científicas.
Fonte: YU, Allen; CHUNG, Claire; YIM, Aldrin. Matplotlib 2.x. Mumbai: Packt, 2017. p. 8.
Observe a seguir a sintaxe de uma matriz:
plt.plot(matriz1, c='blue', label='êxitos')
plt.title("comparação de vendas semestral em cinco meses")
plt.ylabel(u'Aquisições')
plt.legenda('lower right')
plt.xlabel(u'Tentativas')
plt.show()
Com base no texto e no conteúdo estudado, analise as afirmativas abaixo sobre a sintaxe da matriz apresentada:
I. “Aquisições” será digitado embaixo do gráfico.
II. “Tentativas” será digitado ao lado do gráfico.
III. “Plt.title” mostrará o nome do gráfico acima dele.
IV. “Blue” é a cor da linha.
Está correto apenas o que se afirma em:
Ocultar opções de resposta 
1. 
II e IV.
2. 
I e III.
3. 
I e IV.
4. 
III e IV.
Resposta correta
5. 
II e III.
5. Pergunta 5
/1
Leia o trecho a seguir.
“A abordagem da regressão aplica a pontuação de cada fator preditivo a uma equação para proporcionar uma estimativa ou projeção numérica do critério. No caso da vaga de vendedor de computadores, uma equação poderia prever as vendas por mês em unidade monetária. Os fatores preditivos para essa ocupação poderiam ser a nota média na faculdade e pontuações no exercício de comunicação.”
Fonte: SPECTOR, Paul. Psicologia nas organizações.São Paulo: Saraiva, 2009. p.165.
Considerando a citação apresentada e os conteúdos abordados na unidade, avalie as alternativas:
I. A regressão linear avalia probabilidade de correlação entre X e Y.
II. Um R igual a 0,20 representa média dependência.
III. A aba de estatísticas de SPSS é mais visual que a Plot. 
IV. Ascendência e descendência da linha com valor alto representam dependência de X e Y.
Está correto apenas o que se afirma em:
Ocultar opções de resposta 
1. 
I e III.
2. 
I e II.
3. 
II e IV.
4. 
III e IV.
5. 
I e IV.
Resposta correta
6. Pergunta 6
/1
Leia o trecho a seguir:
“Uma matriz de confusão separa as decisões tomadas pelo classificador, tornando explícito como uma classe está sendo confundida com outra. Desta forma, diferentes tipos de erros podem ser tratados separadamente.”
Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016. p. 189. 
A matriz de confusão pode ser explicada como:
I. Uma tabela com quatro opções, onde analisa-se quatro itens de um dataset.
II. TF sigifica que True (positivo) era a resposta certa. 
III. TP significa um acerto referente a um dado positivo, que pode ter uma doença por exemplo. 
IV. FN significa a ausência de erro naquela análise, ou seja, o modelo errou. 
Está correto o que se afirma em:
Ocultar opções de resposta 
1. 
I e III.
2. 
III e IV.         
Resposta correta
3. 
I e II.
4. 
II e IV.
5. 
II e III.
7. Pergunta 7
/1
Leia o trecho a seguir:
“No cabeçalho, o arquivo deve trazer o nome do conjunto de dados através do atributo relação. Este nome deve ser precedido pela marca @RELATION, não precisando ser o mesmo nome físico do arquivo. Em seguida o cabeçalho deve conter os atributos que compõem a relação na marca @ATTRIBUTE. Cada atributo deve ter um nome e um tipo de dado, que pode ser numérico, texto, data ou categórico. A área data do arquivo tem seu início definido pela marca @DATA, os dados são dispostos em linhas, separados por vírgula, na mesma ordem que foram estabelecidos os atributos.”
Fonte: AMARAL, Fernando. Aprenda Mineração de Dados: Teoria e prática. Rio de Janeiro: Alta Books, 2016. p.17.
 
A partir do texto e do conteúdo estudado sobre sensibilidade e especificidade, analise as alternativas a seguir:
I. Cada attribute contém valor interno, que serão chamados de @DATA.
II. O tipo de arquivo usado pelo Weka é arff, o qual contém @RELATION, @ATTRIBUTE e @DATA.
III. O arquivo Weka contém dados que poderiam estar em uma tabela.
IV. O programa Weka é um software pago, mas seu teste é gratuito com as utilidades @ATTRIBUTE e @DATA.
Está correto apenas o que se afirma em:
Ocultar opções de resposta 
1. Incorreta: 
I e II.
2. 
II e IV.
3. 
I e IV.
4. 
II e III.
Resposta correta
5. 
I e III.
8. Pergunta 8
/1
Leia trecho a seguir:
“Enquanto Matplotlib oferece instrumentos nativos de visualização GUI (gráfica), jupyter-notebook é uma boa opção para executar e organizar seus dados visando à exibição (output). No jupyer-notebook [...], códigos e caixas podem ser separados dentro de blocos para melhor organização.”
Fonte: YU, Allen; CHUNG, Claire; YIM, Aldrin. Matplotlib 2.x. Mumbai: Packt. 2017. p.19.
Com base no texto e no conteúdo estudado, analise as afirmações a seguir:
I. Netbeans é a IDE mais utilizada em Python.
II. Jupyter se mostra uma IDE muitopopular em Data Science.
III. Spyder é um programa famoso em Python.
IV. Notepad é um editor de texto muito utilizado em Python.
Está correto apenas o que se afirma em:   
Ocultar opções de resposta 
1. 
II e III.
Resposta correta
2. 
I e III.
3. 
III e V.
4. 
II e IV.
5. 
III e IV.
9. Pergunta 9
/1
Leia o trecho a seguir:
“Quando há a necessidade de trabalhar com duas ou mais condições ao mesmo tempo, são utilizados os operadores lógicos que são responsáveis pela formação de novas proposições compostas a partir de proposições lógicas simples.”
Fonte: HAYASHIDA, Daniel; REIS, José. Lógica de programação: Conhecendo Algoritmos e Criando Programas. São Paulo: Viena. 2015. p. 47.
A partir do texto e do conteúdo estudado, analise as afirmações a seguir sobre operadores:
I. Os operadores de diferente e de exponenciação são: ! e ^.
II. O operador lógico de negação e o operador de divisão inteira são: not e //.
III. Os operadores de igualdade e de divisão são: == e /.
IV. Os operadores de comparação são: >, >=, <, <=, ! e ==.
Está correto apenas o que se afirma em:
Ocultar opções de resposta 
1. 
III e IV.
Resposta correta
2. 
I e IV.
3. 
I e II.
4. 
II e IV.
5. 
II e III.
10. Pergunta 10
/1
Leia o trecho a seguir:
“A validação cruzada é um procedimento mais sofisticado de treinamento e teste de retenção. Gostaríamos não só de uma simples estimativa do desempenho de generalização, mas também de algumas estatísticas sobre o desempenho estimado, como a média e a variância, para que possamos entender como é esperado que o desempenho varie entre os conjuntos de dados.”
Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016. p. 126.
Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s).
I. ( ) A validação cruzada pode analisar 5, 7, 10 ou outra quantidade de linhas.
II. ( ) A validação cruzada analisa uma coluna e depois passa para outra.
III. ( ) K é o valor de dados no dataset.
IV. ( ) É recomendável usar k = 10.
Agora, assinale a alternativa que apresenta a sequência correta:
Ocultar opções de resposta 
1. 
F, V, F, V.
2. 
V, F, V, F.
3. 
V, F, F, V.
Resposta correta
4. 
V, V, F, F.
5. 
F, F, V, V
Ajuda para a página atual