Baixe o app para aproveitar ainda mais
Prévia do material em texto
AOL 2 - FUNDAMENTOS EM DATA SCIENCE Pergunta 1 Leia o trecho a seguir: “KNN é um método preguiçoso, no sentido de que nenhum modelo é aprendido com o treinamento. A idéia do KNN é extremamente simples e efetiva em várias aplicações.” Fonte: LIU, Bing. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Chicago: Springer, 2008. p. 112. Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). I. ( ) KNN estuda vizinhos mais próximos desde que menor que 10. II. ( ) O ideal é escolher K par. III. ( ) É possível calcular o melhor KNN, usando distâncias como a euclidiana, por exemplo. IV. ( ) A distância euclidiana mede a distância entre os valores dos dados. Agora, assinale a alternativa que apresenta a sequência correta: Pergunta 2 Leia o trecho a seguir “Uma variável é algo que você quer que o computador lembre enquanto seu programa estiver executando. Quando o Python se lembra de algo, é porque ele está armazenando esta informação no computador.” Fonte: PAINE, Bryson. Ensine seus filhos a formatar: Um guia amigável aos pais para a programação Python. São Paulo: Novatec, 2015. p. 32. As variáveis são “apelidos” que receberão algum valor. Ao referenciar esse apelido, o programador chama o valor recebido. Porém, para criar esses apelidos, é necessário seguir algumas regras. Analise as afirmações abaixo e assinale a alternativa correta. I. Duas variáveis com os apelidos cliente1 e cliente 4 são válidas. II. Uma variável com o apelido clienteespaco é válida. III. Uma variável com o apelido 3casa é válida. IV. Uma variável com o apelido cliente espaco3espaco é válida. Está correto apenas o que se afirma em: Pergunta 3 Leia o trecho a seguir: “Por exemplo, um conceito fundamental é o de determinar a similaridade de duas entidades descritas pelos dados. Essa capacidade forma a base de várias tarefas específicas. Ela pode ser usada diretamente para encontrar clientes semelhantes em uma base de dados.” Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016. p. XIV. A partir dessas informações e do conteúdo estudado a respeito das técnicas de similaridades para análises de dados, pode-se afirmar que: Pergunta 4 Leia o trecho a seguir: "Se o segundo trabalho for diferente do trabalho para o qual o teste se mostrou válido, o teste no segundo caso pode ou não ser válido. A única maneira de saber ao certo seria conduzir outro estudo de validação no segundo trabalho para verificar se o teste de fato prevê o critério." Fonte: SPECTOR, Paul. Psicologia nas organizações.São Paulo: Saraiva, 2009. p.165. A partir dessas informações e do conteúdo estudado a respeito de generalização, pode-se afirmar que: Pergunta 5 Leia trecho a seguir: “É seu primeiro dia de trabalho na DataSciencester e o vice-presidente de Rede (networking) está cheio de perguntas sobre seus usuários. Até agora, ele não teve ninguém para perguntar, então ele está muito empolgado em ter você aqui. Particularmente, ele quer que você identifique quem são os „conectores-chave‟ entre os cientistas de dados. Para isso, ele lhe dá uma parte de toda a rede da DataSciencester. Na vida real, você geralmente não recebe os dados de que precisa.” Fonte: GRUS, Joel. Data Science do zero: primeiras regras com o Phyton. São Paulo: Alta Books, 2018. p. 3. A partir do exemplo apresentado e do conteúdo estudado a respeito de análises de variáveis e listas diferentes, pode-se dizer que: Pergunta 6 Leia o trecho a seguir: “A validação cruzada é um procedimento mais sofisticado de treinamento e teste de retenção. Gostaríamos não só de uma simples estimativa do desempenho de generalização, mas também de algumas estatísticas sobre o desempenho estimado, como a média e a variância, para que possamos entender como é esperado que o desempenho varie entre os conjuntos de dados.” Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016. p. 126. Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). I. ( ) A validação cruzada pode analisar 5, 7, 10 ou outra quantidade de linhas. II. ( ) A validação cruzada analisa uma coluna e depois passa para outra. III. ( ) K é o valor de dados no dataset. IV. ( ) É recomendável usar k = 10. Agora, assinale a alternativa que apresenta a sequência correta: Pergunta 7 Leia trecho a seguir: “O diretor da operação de controle de fraudes pode querer que os analistas se concentrem não apenas nos casos com maior probabilidade de serem defraudados, mas nos casos que a maior quantidade de dinheiro está em jogo, ou seja, contas em que se espera que a perda monetária da empresa seja mais elevada. Para isso precisamos estimar a probabilidade real de fraude. Felizmente [...], podemos produzir um modelo projetado para dar estimativas precisas de probabilidade de classe. O procedimento mais comum para fazermos isso é chamado de regressão logística.” Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016. p. 97. A partir do texto e do conteúdo estudado a respeito de regressão logística e SPSS, pode-se dizer que: Pergunta 8 Leia o trecho a seguir: “No entanto, todos os procedimentos de mineração de dados têm tendência para sobreajuste, até certo ponto – alguns mais que outros. A ideia é que se olharmos com atenção suficiente, sempre vamos encontrar padrões em conjuntos de dados.” Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016. p. 113. A partir dessas informações e do conteúdo estudado, analise as afirmativas a seguir a respeito de sobreajuste. I. Sobreajuste é a capacidade positiva de generalizar. II. Evitar o sobreajuste ajuda a gerar certezas. III. Generalizar é a capacidade de usar um modelo para outros itens. IV. Viés é uma solução para evitar sobreajuste. Está correto apenas o que se afirma em: Pergunta 9 Leia o trecho a seguir: "NumPy é um pacote Python fundamental para computação científica, ele incluía capacidade de criar arrays multidimensionais, broadcasting, operações com álgebra linear, e ferramentas para integrar C / C ++ e código Fortran." Fonte: BRESSERT, Eli. SciPy and NumPy. California: O Reilly Média, 2012. p. 5. A partir do texto citado e dos conteúdos estudados, ordene os passos necessários para usar matplotlib com numpy: ( ) Digitar pip install numpy no cmd. ( ) Criar e mostrar os arrays. ( ) Escrever import numpy as np e import matplotlib. ( ) Abrir jupyter. ( ) Digitar pip install matplotlib no cmd. Agora, assinale a alternativa que apresenta a sequência correta: Pergunta 10 Leia o trecho a seguir. “A abordagem da regressão aplica a pontuação de cada fator preditivo a uma equação para proporcionar uma estimativa ou projeção numérica do critério. No caso da vaga de vendedor de computadores, uma equação poderia prever as vendas por mês em unidade monetária. Os fatores preditivos para essa ocupação poderiam ser a nota média na faculdade e pontuações no exercício de comunicação.” Fonte: SPECTOR, Paul. Psicologia nas organizações.São Paulo: Saraiva, 2009. p.165. Considerando a citação apresentada e os conteúdos abordados na unidade, avalie as alternativas: I. A regressão linear avalia probabilidade de correlação entre X e Y. II. Um R igual a 0,20 representa média dependência.III. A aba de estatísticas de SPSS é mais visual que a Plot. IV. Ascendência e descendência da linha com valor alto representam dependência de X e Y. Está correto apenas o que se afirma em:
Compartilhar