Mineração de Dados AV2 1

Ciência de Dados

•

UNAMA

1

0

1

0

Tecnologia da Informação

20/10/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Ciência de Dados

3.722 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Mineração de Dados AV2 
Conteúdo do exercício 
1. Pergunta 1 
0,5/0,5 
Leia o trecho abaixo: 
“Sendo assim, o problema descrito acima consiste em encontrar k centroides, ou médias dos grupos. 
Entre os principais algoritmos de agrupamento baseados em distância, podem ser citados K-meansm 
K-modes e Kmedoid. Algoritmos baseados em densidade consideram que grupos são regiões do espaço 
com concentrações atípicas de pontos.”Fonte: GOLDSHIMDIT, Ronaldo; BEZERRA, Eduardo; PASSOS, 
Emannuel. Data Mining: Conceitos, técnicas, algoritmos, orientações e aplicações. Rio de Janeiro: 
Elsiever. 2015. p. 97. 
De acordo com o texto e com o conteúdo, analise as afirmativas sobre k-means: 
I. É um cálculo baseado em média. 
II. Quanto mais grupos, menos variado é o conjunto. 
III. O centroide é o valor médio do grupo. 
IV. Utiliza-se cálculo de raiz e de multiplicação. 
Está correto apenas o que se afirma em: 
Ocultar opções de resposta 
1. III e IV. 
2. II e III. 
3. Correta: 
I e III. 
Resposta correta 
4. I e IV. 
5. II e IV. 
2. Pergunta 2 
0,5/0,5 
Leia o trecho a seguir: 
“Construir modelos é uma arte contínua. À medida que começamos a adicionar e a remover variáveis 
de nossos modelos, precisamos ter uma forma de compará-los e um modo consistente de avaliar o seu 
desempenho.” 
Fonte: CHEN, Daniel. Análise de dados com Python e Pandas. São Paulo: Pearson, 2018. p. 335. 
Com base no trecho e no conteúdo estudado, ao utilizar a sintaxe de série tabela.iloc[1], pode-se 
afirmar que: 
Ocultar opções de resposta 
1. o valor máximo será armazenado. 
2. será obtido o valor da média das linhas. 
3. Correta: 
será mostrado o valor da segunda linha. 
Resposta correta 
4. os dados apagarão o valor 1 da linha. 
5. o valor mínimo será ignorado na linha. 
3. Pergunta 3Crédito total dado 
0,5/0,5 
Leia o trecho a seguir: 
“As funções visam facilitar uma série de operações computacionais. 
Note que a linguagem Python opera com o uso de categorias de funções: 
• Funções internas existentes diretamente na linguagem; 
• Funções modulares dentro das bibliotecas.” 
Fonte: MANZANO, José. Introdução à linguagem Python. São Paulo: Novatec, 2018. Ebook. 
 
Com base no trecho e no conteúdo estudado, selecione a alternativa correta sobre dicionário em 
Python: 
Ocultar opções de resposta 
1. Incorreta: 
Def representa o início e o fim da função declarada. 
2. Funções com def são importadas em NumPy. 
3. Funções armazenam somas e subtração, por exemplo. 
Resposta correta 
4. Gráficos se valem de funções def para exibir dados. 
5. Com a função é possível somar valores não declarados. 
4. Pergunta 4 
0,5/0,5 
Leia trecho abaixo: 
“Enquanto Matplotlib oferece instrumentos nativos de visualização GUI (gráfica), jupyter-notebook é 
uma boa opção para executar e organizar seus dados visando a exibição (output). No jupyter-
notebook, […] códigos e caixas podem ser separados dentro de blocos para melhor organização.” 
Fonte: YU, Allen; CHUNG, Claire; YIM, Aldrin. Matplotlib 2.x. Mumbai: Packt, 2017. p. 19. 
Considerando essas informações e o conteúdo estudado, analise as afirmativas abaixo: 
 
I. Eclipse é a IDE utilizada em Python. 
II. Jupyter é popular em Python. 
III. Notepad é outro IDE popular em Python. 
IV. Um site para baixar Jupyter chama-se Anaconda. 
 
Está correto apenas o que se afirma em: 
Ocultar opções de resposta 
1. I e IV. 
2. II e III. 
3. I e III. 
4. III e IV. 
5. Correta: 
II e IV. 
Resposta correta 
5. Pergunta 5 
0,5/0,5 
Leia o trecho abaixo: 
“Analisando o grau de inclusão de cada elemento para cada categoria, percebemos que cada elemento 
está associado a cada categoria com a mesma intensidade, ou seja, não se consegue distinguir em qual 
categoria está o elemento. Na implementação da 2º hipótese utilizamos o método k-means no 
Weka.”Fonte: BRAGA, Luis Paulo. Vieira. Introdução à mineração de dados. Rio de Janeiro: E-Paper. 
2005. p. 49. 
De acordo com o texto e com o conteúdo estudado, ordene os passos para a execução de análise em k-
means: 
( ) Clicar em K-means clustering. 
( ) Passar inputs Data para Selected Variables. 
( ) Determinar número de clusters. 
( ) Clicar em Data Mining; 
( ) Clicar em Data Range e selecionar dados. 
Assinale a alternativa que apresenta a sequência correta. 
Ocultar opções de resposta 
1. 4, 2, 1, 5, 3. 
2. 2, 1, 4, 3, 5. 
3. Correta: 
4, 1, 5, 2, 3. 
Resposta correta 
4. 1, 4, 2, 5, 3. 
5. 3, 1, 2, 4, 5. 
6. Pergunta 6 
0/0,5 
Leia o trecho abaixo: 
“A tarefa de regressão compreende, fundamentalmente, a busca por funções, lineares ou não, que 
mapeiam os registros de um conjunto de dados reais. Como exemplo de aplicações de regressão 
podemos citar: predição da soma da biomassa presente em uma floresta, probabilidade de um 
paciente sobreviver, predição do risco de um investimento.” 
Fonte: GOLDSHIMDIT, Ronaldo; BEZERRA, Eduardo; PASSOS, Emannuel. Data Mining: Conceitos, 
técnicas, algoritmos, orientações e aplicações. Rio de Janeiro: Elsiever. 2015. p. 92. 
De acordo com o texto e com o conteúdo estudado, pode-se dizer que regressão linear: 
Ocultar opções de resposta 
1. Incorreta: 
elabora cálculos probabilísticos em cada saída. 
2. analisa médias para realizar cluster k-means. 
3. analisa a correlação de um fator sobre outro. 
Resposta correta 
4. cria grupos de acordo com linhas de tabela. 
5. calcula distância de manhattan em produtos. 
7. Pergunta 7 
0,5/0,5 
Leia o trecho a seguir: 
“A computação numérica começou em 1995 e, depois disso, em 2006, evoluiu para a biblioteca NumPy, 
que foi a base para o objeto Series do Pandas. A biblioteca básica de plotagem é a Matplotlib.” 
Fonte: CHEN, Daniel y. Análise de dados com Python e Pandas. São Paulo: Pearson, 2018. p. 379. 
Agora, analise a sintaxe abaixo: 
 
escolhas = pd.Series(['Versão 1', 'Versão 2', 'Versão 1 e Versão 2', 'Versão 2', 'Versão 4]) 
escolhas.drop_duplicates() 
 
Com base no trecho e no conteúdo estudado, pode-se dizer que a sintaxe: 
Ocultar opções de resposta 
1. importará o pd.Series juntamente com Pandas. 
2. mostrará itens sempre no singular e que começam com letra. 
3. mostrará dados com o comando drop e duplicará dados com o comando duplicate. 
4. duplicará valores para quantidade maior que 1 pelo comando drop_duplicate. 
5. Correta: 
mostrará “Versão 1, Versão 2, Versão 1 e Versão 2, Versão 4”. 
Resposta correta 
8. Pergunta 8 
0/0,5 
Leia o trecho abaixo: 
“O algoritmo k–NN é o método de aprendizagem baseado em instâncias mais elementar. O algoritmo 
k–NN assume que todas as instâncias correspondem a pontos em um espaço n–dimensional. Os 
‘vizinhos mais próximos’ de uma instância são definidos em termos da distância Euclidiana.”Fonte: 
KOERICH, Alessandro. Aprendizagem de Máquina. Paraná: UFPR, p.17. 
De acordo com o texto e com o conteúdo estudado, pode-se dizer que, em K-NN: 
Ocultar opções de resposta 
1. primeiro deve-se fazer a raiz e depois a subtração de cada dado, para então somar. 
2. o cálculo faz a raiz e por isso assemelha-se ao cálculo de relação de regressão linear. 
3. primeiro deve-se elevar a 2 e depois deve-se fazer a raiz de cada dado da tabela. 
4. Incorreta: 
o maior valor representa maior distância, logo deve ser descartado da análise. 
5. o cálculo com raiz, subtração, soma e exponenciação compara dados antigos com novos. 
Resposta correta 
9. Pergunta 9 
0,5/0,5 
Leia o trecho a seguir: 
“Em um modelo de regressão múltipla, a variável dependente (Y) será determinada por mais de uma 
variável independente (X). Genericamente, um modelo de regressão linear múltipla com ‘k’ variáveis 
independentes e ‘p’ parâmetros.”Fonte: MAIA, Alexandre Gori. Econometria: conceitos e aplicações. 
São Paulo: Saint Paul. 2019. E-book. 
De acordo com o texto e com o conteúdo estudado, ordene os passos para a execução de regressão 
múltipla em weka: 
( ) Clicar em regressão. 
( ) Clicar em Análise de Dados. 
( ) Ativar ferramentas de análise. 
( ) Selecionar saída a ser comparada. 
( ) Selecionar dadosa serem comparados. 
Agora, assinale a alternativa que apresenta a sequência correta: 
Ocultar opções de resposta 
1. 4, 2, 1, 5, 3. 
2. 4, 3, 2, 1, 5. 
3. Correta: 
3, 2, 1, 5, 4. 
Resposta correta 
4. 2, 1, 5, 3, 4. 
5. 1, 4, 2, 5, 3. 
10. Pergunta 10 
0,5/0,5 
Leia o trecho a seguir: 
“Variável: é a característica que vai ser observada, medida ou contada nos elementos da população ou 
da amostra e que pode variar, ou seja, assumir um valor diferente de elemento para elemento. Não 
basta identificar a variável a ser trabalhada, é necessário fazer-se distinção entre os tipos de variáveis: 
Variável qualitativa: é uma variável que assume como possíveis valores atributos ou qualidades. 
Também são denominadas variáveis categóricas. Variável quantitativa: é uma variável que assume 
como possíveis valores números.”Fonte: GUEDES Aparecida, et al. Estatística Descritiva: São Paulo: 
Each Usp. 2019. p. 2. 
De acordo com o texto e com o conteúdo estudado, pode-se dizer que, entre as classes de dados: 
Ocultar opções de resposta 
1. intervalares são como partidos. 
2. discretos são como nomes ou cidade. 
3. ordinais são como altura e peso. 
4. nominais são como número de filhos. 
5. Correta: 
contínuos são como tempo de clientela. 
Resposta correta