Baixe o app para aproveitar ainda mais
Prévia do material em texto
Mineração de Dados AV2 Conteúdo do exercício 1. Pergunta 1 0,5/0,5 Leia o trecho abaixo: “Sendo assim, o problema descrito acima consiste em encontrar k centroides, ou médias dos grupos. Entre os principais algoritmos de agrupamento baseados em distância, podem ser citados K-meansm K-modes e Kmedoid. Algoritmos baseados em densidade consideram que grupos são regiões do espaço com concentrações atípicas de pontos.”Fonte: GOLDSHIMDIT, Ronaldo; BEZERRA, Eduardo; PASSOS, Emannuel. Data Mining: Conceitos, técnicas, algoritmos, orientações e aplicações. Rio de Janeiro: Elsiever. 2015. p. 97. De acordo com o texto e com o conteúdo, analise as afirmativas sobre k-means: I. É um cálculo baseado em média. II. Quanto mais grupos, menos variado é o conjunto. III. O centroide é o valor médio do grupo. IV. Utiliza-se cálculo de raiz e de multiplicação. Está correto apenas o que se afirma em: Ocultar opções de resposta 1. III e IV. 2. II e III. 3. Correta: I e III. Resposta correta 4. I e IV. 5. II e IV. 2. Pergunta 2 0,5/0,5 Leia o trecho a seguir: “Construir modelos é uma arte contínua. À medida que começamos a adicionar e a remover variáveis de nossos modelos, precisamos ter uma forma de compará-los e um modo consistente de avaliar o seu desempenho.” Fonte: CHEN, Daniel. Análise de dados com Python e Pandas. São Paulo: Pearson, 2018. p. 335. Com base no trecho e no conteúdo estudado, ao utilizar a sintaxe de série tabela.iloc[1], pode-se afirmar que: Ocultar opções de resposta 1. o valor máximo será armazenado. 2. será obtido o valor da média das linhas. 3. Correta: será mostrado o valor da segunda linha. Resposta correta 4. os dados apagarão o valor 1 da linha. 5. o valor mínimo será ignorado na linha. 3. Pergunta 3Crédito total dado 0,5/0,5 Leia o trecho a seguir: “As funções visam facilitar uma série de operações computacionais. Note que a linguagem Python opera com o uso de categorias de funções: • Funções internas existentes diretamente na linguagem; • Funções modulares dentro das bibliotecas.” Fonte: MANZANO, José. Introdução à linguagem Python. São Paulo: Novatec, 2018. Ebook. Com base no trecho e no conteúdo estudado, selecione a alternativa correta sobre dicionário em Python: Ocultar opções de resposta 1. Incorreta: Def representa o início e o fim da função declarada. 2. Funções com def são importadas em NumPy. 3. Funções armazenam somas e subtração, por exemplo. Resposta correta 4. Gráficos se valem de funções def para exibir dados. 5. Com a função é possível somar valores não declarados. 4. Pergunta 4 0,5/0,5 Leia trecho abaixo: “Enquanto Matplotlib oferece instrumentos nativos de visualização GUI (gráfica), jupyter-notebook é uma boa opção para executar e organizar seus dados visando a exibição (output). No jupyter- notebook, […] códigos e caixas podem ser separados dentro de blocos para melhor organização.” Fonte: YU, Allen; CHUNG, Claire; YIM, Aldrin. Matplotlib 2.x. Mumbai: Packt, 2017. p. 19. Considerando essas informações e o conteúdo estudado, analise as afirmativas abaixo: I. Eclipse é a IDE utilizada em Python. II. Jupyter é popular em Python. III. Notepad é outro IDE popular em Python. IV. Um site para baixar Jupyter chama-se Anaconda. Está correto apenas o que se afirma em: Ocultar opções de resposta 1. I e IV. 2. II e III. 3. I e III. 4. III e IV. 5. Correta: II e IV. Resposta correta 5. Pergunta 5 0,5/0,5 Leia o trecho abaixo: “Analisando o grau de inclusão de cada elemento para cada categoria, percebemos que cada elemento está associado a cada categoria com a mesma intensidade, ou seja, não se consegue distinguir em qual categoria está o elemento. Na implementação da 2º hipótese utilizamos o método k-means no Weka.”Fonte: BRAGA, Luis Paulo. Vieira. Introdução à mineração de dados. Rio de Janeiro: E-Paper. 2005. p. 49. De acordo com o texto e com o conteúdo estudado, ordene os passos para a execução de análise em k- means: ( ) Clicar em K-means clustering. ( ) Passar inputs Data para Selected Variables. ( ) Determinar número de clusters. ( ) Clicar em Data Mining; ( ) Clicar em Data Range e selecionar dados. Assinale a alternativa que apresenta a sequência correta. Ocultar opções de resposta 1. 4, 2, 1, 5, 3. 2. 2, 1, 4, 3, 5. 3. Correta: 4, 1, 5, 2, 3. Resposta correta 4. 1, 4, 2, 5, 3. 5. 3, 1, 2, 4, 5. 6. Pergunta 6 0/0,5 Leia o trecho abaixo: “A tarefa de regressão compreende, fundamentalmente, a busca por funções, lineares ou não, que mapeiam os registros de um conjunto de dados reais. Como exemplo de aplicações de regressão podemos citar: predição da soma da biomassa presente em uma floresta, probabilidade de um paciente sobreviver, predição do risco de um investimento.” Fonte: GOLDSHIMDIT, Ronaldo; BEZERRA, Eduardo; PASSOS, Emannuel. Data Mining: Conceitos, técnicas, algoritmos, orientações e aplicações. Rio de Janeiro: Elsiever. 2015. p. 92. De acordo com o texto e com o conteúdo estudado, pode-se dizer que regressão linear: Ocultar opções de resposta 1. Incorreta: elabora cálculos probabilísticos em cada saída. 2. analisa médias para realizar cluster k-means. 3. analisa a correlação de um fator sobre outro. Resposta correta 4. cria grupos de acordo com linhas de tabela. 5. calcula distância de manhattan em produtos. 7. Pergunta 7 0,5/0,5 Leia o trecho a seguir: “A computação numérica começou em 1995 e, depois disso, em 2006, evoluiu para a biblioteca NumPy, que foi a base para o objeto Series do Pandas. A biblioteca básica de plotagem é a Matplotlib.” Fonte: CHEN, Daniel y. Análise de dados com Python e Pandas. São Paulo: Pearson, 2018. p. 379. Agora, analise a sintaxe abaixo: escolhas = pd.Series(['Versão 1', 'Versão 2', 'Versão 1 e Versão 2', 'Versão 2', 'Versão 4]) escolhas.drop_duplicates() Com base no trecho e no conteúdo estudado, pode-se dizer que a sintaxe: Ocultar opções de resposta 1. importará o pd.Series juntamente com Pandas. 2. mostrará itens sempre no singular e que começam com letra. 3. mostrará dados com o comando drop e duplicará dados com o comando duplicate. 4. duplicará valores para quantidade maior que 1 pelo comando drop_duplicate. 5. Correta: mostrará “Versão 1, Versão 2, Versão 1 e Versão 2, Versão 4”. Resposta correta 8. Pergunta 8 0/0,5 Leia o trecho abaixo: “O algoritmo k–NN é o método de aprendizagem baseado em instâncias mais elementar. O algoritmo k–NN assume que todas as instâncias correspondem a pontos em um espaço n–dimensional. Os ‘vizinhos mais próximos’ de uma instância são definidos em termos da distância Euclidiana.”Fonte: KOERICH, Alessandro. Aprendizagem de Máquina. Paraná: UFPR, p.17. De acordo com o texto e com o conteúdo estudado, pode-se dizer que, em K-NN: Ocultar opções de resposta 1. primeiro deve-se fazer a raiz e depois a subtração de cada dado, para então somar. 2. o cálculo faz a raiz e por isso assemelha-se ao cálculo de relação de regressão linear. 3. primeiro deve-se elevar a 2 e depois deve-se fazer a raiz de cada dado da tabela. 4. Incorreta: o maior valor representa maior distância, logo deve ser descartado da análise. 5. o cálculo com raiz, subtração, soma e exponenciação compara dados antigos com novos. Resposta correta 9. Pergunta 9 0,5/0,5 Leia o trecho a seguir: “Em um modelo de regressão múltipla, a variável dependente (Y) será determinada por mais de uma variável independente (X). Genericamente, um modelo de regressão linear múltipla com ‘k’ variáveis independentes e ‘p’ parâmetros.”Fonte: MAIA, Alexandre Gori. Econometria: conceitos e aplicações. São Paulo: Saint Paul. 2019. E-book. De acordo com o texto e com o conteúdo estudado, ordene os passos para a execução de regressão múltipla em weka: ( ) Clicar em regressão. ( ) Clicar em Análise de Dados. ( ) Ativar ferramentas de análise. ( ) Selecionar saída a ser comparada. ( ) Selecionar dadosa serem comparados. Agora, assinale a alternativa que apresenta a sequência correta: Ocultar opções de resposta 1. 4, 2, 1, 5, 3. 2. 4, 3, 2, 1, 5. 3. Correta: 3, 2, 1, 5, 4. Resposta correta 4. 2, 1, 5, 3, 4. 5. 1, 4, 2, 5, 3. 10. Pergunta 10 0,5/0,5 Leia o trecho a seguir: “Variável: é a característica que vai ser observada, medida ou contada nos elementos da população ou da amostra e que pode variar, ou seja, assumir um valor diferente de elemento para elemento. Não basta identificar a variável a ser trabalhada, é necessário fazer-se distinção entre os tipos de variáveis: Variável qualitativa: é uma variável que assume como possíveis valores atributos ou qualidades. Também são denominadas variáveis categóricas. Variável quantitativa: é uma variável que assume como possíveis valores números.”Fonte: GUEDES Aparecida, et al. Estatística Descritiva: São Paulo: Each Usp. 2019. p. 2. De acordo com o texto e com o conteúdo estudado, pode-se dizer que, entre as classes de dados: Ocultar opções de resposta 1. intervalares são como partidos. 2. discretos são como nomes ou cidade. 3. ordinais são como altura e peso. 4. nominais são como número de filhos. 5. Correta: contínuos são como tempo de clientela. Resposta correta
Compartilhar