AOL 2 - FUNDAMENTOS EM DATA SCIENCE

•

CEDERJ

0

Julio Mariano

07/12/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Science

2.211 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

AOL 2 - FUNDAMENTOS EM DATA SCIENCE
Pergunta 1
Leia o trecho a seguir:
“KNN é um método preguiçoso, no sentido de que nenhum modelo é aprendido com o
treinamento. A idéia do KNN é extremamente simples e efetiva em várias aplicações.”
Fonte: LIU, Bing. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Chicago:
Springer, 2008. p. 112.
Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir e
assinale V para a(s) verdadeira(s) e F para a(s) falsa(s).
I. ( ) KNN estuda vizinhos mais próximos desde que menor que 10.
II. ( ) O ideal é escolher K par.
III. ( ) É possível calcular o melhor KNN, usando distâncias como a euclidiana, por exemplo.
IV. ( ) A distância euclidiana mede a distância entre os valores dos dados.
Agora, assinale a alternativa que apresenta a sequência correta:

Pergunta 2
Leia o trecho a seguir
“Uma variável é algo que você quer que o computador lembre enquanto seu programa estiver
executando. Quando o Python se lembra de algo, é porque ele está armazenando esta
informação no computador.”
Fonte: PAINE, Bryson. Ensine seus filhos a formatar: Um guia amigável aos pais para a
programação Python. São Paulo: Novatec, 2015. p. 32.
As variáveis são “apelidos” que receberão algum valor. Ao referenciar esse apelido, o
programador chama o valor recebido. Porém, para criar esses apelidos, é necessário seguir
algumas regras. Analise as afirmações abaixo e assinale a alternativa correta.
I. Duas variáveis com os apelidos cliente1 e cliente 4 são válidas.
II. Uma variável com o apelido clienteespaco é válida.
III. Uma variável com o apelido 3casa é válida.
IV. Uma variável com o apelido cliente espaco3espaco é válida.
Está correto apenas o que se afirma em:

Pergunta 3
Leia o trecho a seguir:
“Por exemplo, um conceito fundamental é o de determinar a similaridade de duas entidades
descritas pelos dados. Essa capacidade forma a base de várias tarefas específicas. Ela pode
ser usada diretamente para encontrar clientes semelhantes em uma base de dados.”
Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa
saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks,
2016. p. XIV.
A partir dessas informações e do conteúdo estudado a respeito das técnicas de similaridades
para análises de dados, pode-se afirmar que:

Pergunta 4
Leia o trecho a seguir:
"Se o segundo trabalho for diferente do trabalho para o qual o teste se mostrou válido, o teste
no segundo caso pode ou não ser válido. A única maneira de saber ao certo seria conduzir
outro estudo de validação no segundo trabalho para verificar se o teste de fato prevê o critério."
Fonte: SPECTOR, Paul. Psicologia nas organizações.São Paulo: Saraiva, 2009. p.165.
A partir dessas informações e do conteúdo estudado a respeito de generalização, pode-se
afirmar que:

Pergunta 5
Leia trecho a seguir:
“É seu primeiro dia de trabalho na DataSciencester e o vice-presidente de Rede (networking)
está cheio de perguntas sobre seus usuários. Até agora, ele não teve ninguém para perguntar,
então ele está muito empolgado em ter você aqui. Particularmente, ele quer que você
identifique quem são os „conectores-chave‟ entre os cientistas de dados. Para isso, ele lhe dá
uma parte de toda a rede da DataSciencester. Na vida real, você geralmente não recebe os
dados de que precisa.”
Fonte: GRUS, Joel. Data Science do zero: primeiras regras com o Phyton. São Paulo: Alta
Books, 2018. p. 3.
A partir do exemplo apresentado e do conteúdo estudado a respeito de análises de variáveis e
listas diferentes, pode-se dizer que:

Pergunta 6
Leia o trecho a seguir:
“A validação cruzada é um procedimento mais sofisticado de treinamento e teste de retenção.
Gostaríamos não só de uma simples estimativa do desempenho de generalização, mas
também de algumas estatísticas sobre o desempenho estimado, como a média e a variância,
para que possamos entender como é esperado que o desempenho varie entre os conjuntos de
dados.”
Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa
saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks,
2016. p. 126.
Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir e
assinale V para a(s) verdadeira(s) e F para a(s) falsa(s).
I. ( ) A validação cruzada pode analisar 5, 7, 10 ou outra quantidade de linhas.
II. ( ) A validação cruzada analisa uma coluna e depois passa para outra.
III. ( ) K é o valor de dados no dataset.
IV. ( ) É recomendável usar k = 10.
Agora, assinale a alternativa que apresenta a sequência correta:

Pergunta 7
Leia trecho a seguir:
“O diretor da operação de controle de fraudes pode querer que os analistas se concentrem não
apenas nos casos com maior probabilidade de serem defraudados, mas nos casos que a maior
quantidade de dinheiro está em jogo, ou seja, contas em que se espera que a perda monetária
da empresa seja mais elevada. Para isso precisamos estimar a probabilidade real de fraude.
Felizmente [...], podemos produzir um modelo projetado para dar estimativas precisas de
probabilidade de classe. O procedimento mais comum para fazermos isso é chamado de
regressão logística.”
Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa
saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks,
2016. p. 97.
A partir do texto e do conteúdo estudado a respeito de regressão logística e SPSS, pode-se
dizer que:

Pergunta 8
Leia o trecho a seguir:
“No entanto, todos os procedimentos de mineração de dados têm tendência para sobreajuste,
até certo ponto – alguns mais que outros. A ideia é que se olharmos com atenção suficiente,
sempre vamos encontrar padrões em conjuntos de dados.”
Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa
saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks,
2016. p. 113.
A partir dessas informações e do conteúdo estudado, analise as afirmativas a seguir a respeito
de sobreajuste.
I. Sobreajuste é a capacidade positiva de generalizar.
II. Evitar o sobreajuste ajuda a gerar certezas.
III. Generalizar é a capacidade de usar um modelo para outros itens.
IV. Viés é uma solução para evitar sobreajuste.
Está correto apenas o que se afirma em:

Pergunta 9
Leia o trecho a seguir:
"NumPy é um pacote Python fundamental para computação científica, ele incluía capacidade
de criar arrays multidimensionais, broadcasting, operações com álgebra linear, e ferramentas
para integrar C / C ++ e código Fortran."
Fonte: BRESSERT, Eli. SciPy and NumPy. California: O Reilly Média, 2012. p. 5.
A partir do texto citado e dos conteúdos estudados, ordene os passos necessários para usar
matplotlib com numpy:
( ) Digitar pip install numpy no cmd.
( ) Criar e mostrar os arrays.
( ) Escrever import numpy as np e import matplotlib.
( ) Abrir jupyter.
( ) Digitar pip install matplotlib no cmd.
Agora, assinale a alternativa que apresenta a sequência correta:

Pergunta 10
Leia o trecho a seguir.
“A abordagem da regressão aplica a pontuação de cada fator preditivo a uma equação para
proporcionar uma estimativa ou projeção numérica do critério. No caso da vaga de vendedor de
computadores, uma equação poderia prever as vendas por mês em unidade monetária. Os
fatores preditivos para essa ocupação poderiam ser a nota média na faculdade e pontuações
no exercício de comunicação.”
Fonte: SPECTOR, Paul. Psicologia nas organizações.São Paulo: Saraiva, 2009. p.165.
Considerando a citação apresentada e os conteúdos abordados na unidade, avalie as
alternativas:
I. A regressão linear avalia probabilidade de correlação entre X e Y.
II. Um R igual a 0,20 representa média dependência.III. A aba de estatísticas de SPSS é mais visual que a Plot.
IV. Ascendência e descendência da linha com valor alto representam dependência de X e Y.
Está correto apenas o que se afirma em: