Buscar

AOL 2 - FUNDAMENTOS EM DATA SCIENCE

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

AOL 2 - FUNDAMENTOS EM DATA SCIENCE 
Pergunta 1 
Leia o trecho a seguir: 
“KNN é um método preguiçoso, no sentido de que nenhum modelo é aprendido com o 
treinamento. A idéia do KNN é extremamente simples e efetiva em várias aplicações.” 
Fonte: LIU, Bing. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Chicago: 
Springer, 2008. p. 112. 
Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir e 
assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). 
I. ( ) KNN estuda vizinhos mais próximos desde que menor que 10. 
II. ( ) O ideal é escolher K par. 
III. ( ) É possível calcular o melhor KNN, usando distâncias como a euclidiana, por exemplo. 
IV. ( ) A distância euclidiana mede a distância entre os valores dos dados. 
Agora, assinale a alternativa que apresenta a sequência correta: 
 
Pergunta 2 
Leia o trecho a seguir 
“Uma variável é algo que você quer que o computador lembre enquanto seu programa estiver 
executando. Quando o Python se lembra de algo, é porque ele está armazenando esta 
informação no computador.” 
Fonte: PAINE, Bryson. Ensine seus filhos a formatar: Um guia amigável aos pais para a 
programação Python. São Paulo: Novatec, 2015. p. 32. 
As variáveis são “apelidos” que receberão algum valor. Ao referenciar esse apelido, o 
programador chama o valor recebido. Porém, para criar esses apelidos, é necessário seguir 
algumas regras. Analise as afirmações abaixo e assinale a alternativa correta. 
I. Duas variáveis com os apelidos cliente1 e cliente 4 são válidas. 
II. Uma variável com o apelido clienteespaco é válida. 
III. Uma variável com o apelido 3casa é válida. 
IV. Uma variável com o apelido cliente espaco3espaco é válida. 
Está correto apenas o que se afirma em: 
 
Pergunta 3 
Leia o trecho a seguir: 
“Por exemplo, um conceito fundamental é o de determinar a similaridade de duas entidades 
descritas pelos dados. Essa capacidade forma a base de várias tarefas específicas. Ela pode 
ser usada diretamente para encontrar clientes semelhantes em uma base de dados.” 
Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa 
saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks, 
2016. p. XIV. 
A partir dessas informações e do conteúdo estudado a respeito das técnicas de similaridades 
para análises de dados, pode-se afirmar que: 
 
Pergunta 4 
Leia o trecho a seguir: 
"Se o segundo trabalho for diferente do trabalho para o qual o teste se mostrou válido, o teste 
no segundo caso pode ou não ser válido. A única maneira de saber ao certo seria conduzir 
outro estudo de validação no segundo trabalho para verificar se o teste de fato prevê o critério." 
Fonte: SPECTOR, Paul. Psicologia nas organizações.São Paulo: Saraiva, 2009. p.165. 
A partir dessas informações e do conteúdo estudado a respeito de generalização, pode-se 
afirmar que: 
 
 
 
 
Pergunta 5 
Leia trecho a seguir: 
“É seu primeiro dia de trabalho na DataSciencester e o vice-presidente de Rede (networking) 
está cheio de perguntas sobre seus usuários. Até agora, ele não teve ninguém para perguntar, 
então ele está muito empolgado em ter você aqui. Particularmente, ele quer que você 
identifique quem são os „conectores-chave‟ entre os cientistas de dados. Para isso, ele lhe dá 
uma parte de toda a rede da DataSciencester. Na vida real, você geralmente não recebe os 
dados de que precisa.” 
Fonte: GRUS, Joel. Data Science do zero: primeiras regras com o Phyton. São Paulo: Alta 
Books, 2018. p. 3. 
A partir do exemplo apresentado e do conteúdo estudado a respeito de análises de variáveis e 
listas diferentes, pode-se dizer que: 
 
Pergunta 6 
Leia o trecho a seguir: 
“A validação cruzada é um procedimento mais sofisticado de treinamento e teste de retenção. 
Gostaríamos não só de uma simples estimativa do desempenho de generalização, mas 
também de algumas estatísticas sobre o desempenho estimado, como a média e a variância, 
para que possamos entender como é esperado que o desempenho varie entre os conjuntos de 
dados.” 
Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa 
saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks, 
2016. p. 126. 
Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir e 
assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). 
I. ( ) A validação cruzada pode analisar 5, 7, 10 ou outra quantidade de linhas. 
II. ( ) A validação cruzada analisa uma coluna e depois passa para outra. 
III. ( ) K é o valor de dados no dataset. 
IV. ( ) É recomendável usar k = 10. 
Agora, assinale a alternativa que apresenta a sequência correta: 
 
Pergunta 7 
Leia trecho a seguir: 
“O diretor da operação de controle de fraudes pode querer que os analistas se concentrem não 
apenas nos casos com maior probabilidade de serem defraudados, mas nos casos que a maior 
quantidade de dinheiro está em jogo, ou seja, contas em que se espera que a perda monetária 
da empresa seja mais elevada. Para isso precisamos estimar a probabilidade real de fraude. 
Felizmente [...], podemos produzir um modelo projetado para dar estimativas precisas de 
probabilidade de classe. O procedimento mais comum para fazermos isso é chamado de 
regressão logística.” 
Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa 
saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks, 
2016. p. 97. 
A partir do texto e do conteúdo estudado a respeito de regressão logística e SPSS, pode-se 
dizer que: 
 
Pergunta 8 
Leia o trecho a seguir: 
“No entanto, todos os procedimentos de mineração de dados têm tendência para sobreajuste, 
até certo ponto – alguns mais que outros. A ideia é que se olharmos com atenção suficiente, 
sempre vamos encontrar padrões em conjuntos de dados.” 
Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa 
saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks, 
2016. p. 113. 
A partir dessas informações e do conteúdo estudado, analise as afirmativas a seguir a respeito 
de sobreajuste. 
I. Sobreajuste é a capacidade positiva de generalizar. 
II. Evitar o sobreajuste ajuda a gerar certezas. 
III. Generalizar é a capacidade de usar um modelo para outros itens. 
IV. Viés é uma solução para evitar sobreajuste. 
Está correto apenas o que se afirma em: 
 
 
Pergunta 9 
Leia o trecho a seguir: 
"NumPy é um pacote Python fundamental para computação científica, ele incluía capacidade 
de criar arrays multidimensionais, broadcasting, operações com álgebra linear, e ferramentas 
para integrar C / C ++ e código Fortran." 
Fonte: BRESSERT, Eli. SciPy and NumPy. California: O Reilly Média, 2012. p. 5. 
A partir do texto citado e dos conteúdos estudados, ordene os passos necessários para usar 
matplotlib com numpy: 
( ) Digitar pip install numpy no cmd. 
( ) Criar e mostrar os arrays. 
( ) Escrever import numpy as np e import matplotlib. 
( ) Abrir jupyter. 
( ) Digitar pip install matplotlib no cmd. 
Agora, assinale a alternativa que apresenta a sequência correta: 
 
Pergunta 10 
Leia o trecho a seguir. 
“A abordagem da regressão aplica a pontuação de cada fator preditivo a uma equação para 
proporcionar uma estimativa ou projeção numérica do critério. No caso da vaga de vendedor de 
computadores, uma equação poderia prever as vendas por mês em unidade monetária. Os 
fatores preditivos para essa ocupação poderiam ser a nota média na faculdade e pontuações 
no exercício de comunicação.” 
Fonte: SPECTOR, Paul. Psicologia nas organizações.São Paulo: Saraiva, 2009. p.165. 
Considerando a citação apresentada e os conteúdos abordados na unidade, avalie as 
alternativas: 
I. A regressão linear avalia probabilidade de correlação entre X e Y. 
II. Um R igual a 0,20 representa média dependência.III. A aba de estatísticas de SPSS é mais visual que a Plot. 
IV. Ascendência e descendência da linha com valor alto representam dependência de X e Y. 
Está correto apenas o que se afirma em:

Continue navegando