ATIVIDADE 2 - UNIDADE 2 - MINERAÇÃO DE DADOS - FMU

FMU

Leonardo Simon Rutzen

em 11/04/2020

Conteúdos escolhidos para você

27 pág.

Compilado fundamentos em Data science 1-3

UNINASSAU RECIFE

31 pág.

Questões - Modelos de análises quantitativos

23 pág.

Tipos de Gráficos e Distribuição de Frequências

UNIP

15 pág.

Atividades Avaliativas Ciência de Dados Cruzeiro do Sul (2023)

CSV

10 pág.

Perguntas dessa disciplina

Questão 1/10 - Bioestatística Ler em voz alta Leia o excerto de texto: “O processo de investigação passa por diferentes estádios, dos quais já salient

O pré-processamento de dados para a execução do algoritmo FP-Growth envolve a transformação da base transacional em uma estrutura de lista de listas,

Uniasselvi

AVALIAÇÃO PRESENCIAL – BIOESTATÍSTICA APLICADA À SAÚDE – 2° PERÍODO – TERAPIA OCUPACIONAL 2 A estatística pode ser definida como um ramo da matemática

Um processo de descoberta do conhecimento é constituído de tarefas ou estágios que são vitais para que os resultados de aquisição sejam eficientes. Al

Questão 4/5 Gerência de Riscos Fundamentos Matemáticos, Probabilidade, Confiabilidade e Inspeção de Segurança 40 Ler em VOZ alta A Análise do Modo de

Material

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Conteúdos escolhidos para você

27 pág.

Compilado fundamentos em Data science 1-3

UNINASSAU RECIFE

31 pág.

Questões - Modelos de análises quantitativos

23 pág.

Tipos de Gráficos e Distribuição de Frequências

UNIP

15 pág.

Atividades Avaliativas Ciência de Dados Cruzeiro do Sul (2023)

CSV

10 pág.

Perguntas dessa disciplina

Questão 1/10 - Bioestatística Ler em voz alta Leia o excerto de texto: “O processo de investigação passa por diferentes estádios, dos quais já salient

O pré-processamento de dados para a execução do algoritmo FP-Growth envolve a transformação da base transacional em uma estrutura de lista de listas,

Uniasselvi

AVALIAÇÃO PRESENCIAL – BIOESTATÍSTICA APLICADA À SAÚDE – 2° PERÍODO – TERAPIA OCUPACIONAL 2 A estatística pode ser definida como um ramo da matemática

Um processo de descoberta do conhecimento é constituído de tarefas ou estágios que são vitais para que os resultados de aquisição sejam eficientes. Al

Questão 4/5 Gerência de Riscos Fundamentos Matemáticos, Probabilidade, Confiabilidade e Inspeção de Segurança 40 Ler em VOZ alta A Análise do Modo de

Prévia do material em texto

Curso GRA1433 MINERAÇÃO DE DADOS I EST201 - 202010
Teste ATIVIDADE 2 (A2)
Iniciado
Enviado 10/04/20 21:07
Status Completada
Resultado da
tentativa
8 em 10 pontos
Tempo decorrido
Resultados exibidos Respostas enviadas, Respostas corretas, Comentários
• Pergunta 1
• 1 em 1 pontos
Com a obtenção dos padrões já filtrados e organizados, são utilizadas técnicas de visualização e algoritmos
de geração da base de conhecimento. Tais técnicas incluem construção de regras, árvores de decisão, entre
outros. Os algoritmos se dividem pela sua principal funcionalidade: classificação, associação e agrupamento.

Nesse sentido, assinale a alternativa correta:
Resposta
Selecionada:
Na avaliação de padrões, realizar a descrição de classes a partir de
dados fornecidos é denominado como classificação dos dados.
Resposta Correta:
Na avaliação de padrões, realizar a descrição de classes a partir de
dados fornecidos é denominado como classificação dos dados.
Feedback da
resposta:
Resposta correta. A alternativa está correta, pois, para obter de padrões que
deverão ser passados para os algoritmos de obtenção do modelo de
conhecimento, uma das etapas deve ser a classificação das classes, que é
uma das definições utilizadas referenciando a atributos que tenham um fim
semelhante.
• Pergunta 2
• 1 em 1 pontos
Definimos como séries temporais um conjunto de observações de fenômenos ordenados pelo tempo, como o
consumo de energia elétrica em uma residência, vendas de determinado produto registradas durante um ano
dentro do período de um mês em um estabelecimento varejista.

Levando em consideração tais características, é correto afirmar que:
Resposta
Selecionada:
São consideradas ações temporais, movimentos de tendências
indicando a motivação gerada no determinado período analisado.
Resposta Correta:
São consideradas ações temporais, movimentos de tendências
indicando a motivação gerada no determinado período analisado.
Feedback da
resposta:
Resposta correta. A alternativa está correta, pois são consideradas como
séries temporais movimentos cíclicos, situações que podem ou não ser
periódicas, não necessariamente em intervalos de tempos iguais,
movimentos sazonais, que ocorrem devido a eventos que se repetem de
tempos em tempos e movimentos irregulares, influenciados por eventos que
ocorrem aleatoriamente.
• Pergunta 3
• 1 em 1 pontos
A descoberta dos modelos de conhecimento nas bases de dados é o principal foco na mineração de dados.
Dentre várias técnicas utilizadas para formação de modelos de conhecimento, temos a Descoberta de
Conhecimento em Base de Dados (KDD) na qual podem ser verificadas técnicas de extração de informações
por meio de algoritmos.

Neste sentido, dentro da fase de pré-processamento dos dados, assinale a alternativa correta:
Resposta
Selecionada:
A limpeza de dados consiste na remoção de erros existentes nos
dados, falhas que podem afetar o resultado final.
Resposta Correta:
A limpeza de dados consiste na remoção de erros existentes nos
dados, falhas que podem afetar o resultado final.
Feedback da
resposta:
Resposta correta. A alternativa está correta, pois o processo de mineração
de dados é constituído de sete etapas: limpeza dos dados, integração dos
dados, seleção dos dados, transformação dos dados, aplicação do algoritmo
de mineração de dados, avaliação dos padrões e representação do
conhecimento adquirido.
• Pergunta 4
• 1 em 1 pontos
Consiste em um método popular de centralização de elementos por meio de um cluster que é dividido em N
pontos cuja distância é próxima ao seu centro. Faz parte dos algoritmos de mineração de dados onde sua
principal fundamentação é estatística. A quantidade de X partições é definida na entrada.

Nesse sentido, assinale a alternativa que indique qual é o método descrito:
Resposta Selecionada:
K-média.
Resposta Correta:
K-média.
Feedback da
resposta:
Resposta correta. A alternativa está correta, pois é um dos métodos mais
populares a se empregar na mineração de dados. Consiste basicamente em
pegar a definição, como parâmetro de entrada, de K pontos de dados
centrais dos clusters, em seguida cada registro do banco de dados é
atribuído ao cluster cuja distância deste ponto em relação ao centro consiste
na menor distância calculada entre os elementos.
• Pergunta 5
• 1 em 1 pontos
Regressão múltipla é uma coleção de técnicas estatísticas para construir modelos que descrevem de
maneira razoável as relações entre as variáveis explicativas de um determinado processo. Ela deve seguir
alguns procedimentos que são a definição de variáveis, desenho do gráfico de dispersão, montagem da
equação e substituição dos dados.

Levando em consideração a definição de variáveis e o desenho do gráfico de dispersão, analise as
afirmativas a seguir:

I. É importante verificar pesquisas semelhantes para a definição da variável dependente e das variáveis
dependentes.
II. Quanto maior a dispersão mais forte é a correlação, o que demonstra a necessidade da variável
independente.
III. O coeficiente de regressão está relacionado ao número de variáveis dependentes.
IV. Com as variáveis definidas, podemos gerar um gráfico demonstrando a dependência e a necessidade de
manter a variável independente.

Está correto o que se afirma em:
Resposta Selecionada:
I e IV, apenas.
Resposta Correta:
I e IV, apenas.
Feedback da
resposta:
Resposta correta. A alternativa está correta, pois em pesquisas deve-se
verificar o que dizem outros autores que trabalham com temas semelhantes
na mesma área do conhecimento e definir quais serão as variáveis ou
atributos analisados, então é preciso definir qual será a variável dependente
e quais serão as independentes. Com as variáveis definidas, podemos gerar
um gráfico demonstrando a dependência e a necessidade de manter a
variável independente.
• Pergunta 6
• 1 em 1 pontos
Sumarização consiste na identificação e classificação dos atributos do banco de dados, com base na
similaridade entre registros em um conjunto de dados. Com isso, formamos classes de agrupamento dos
dados pré-processados que ajudarão a mineração dos dados e, consequentemente, a formação do modelo
de conhecimento.

Nesse sentido, assinale a afirmativa que faz referência à sumarização:
Resposta
Selecionada:
A identificação para sumarização não é somente criar índices para os
dados envolvidos, mas sim agrupar elementos com características
concisas e compreensíveis.
Resposta Correta:
A identificação para sumarização não é somente criar índices para os
dados envolvidos, mas sim agrupar elementos com características
concisas e compreensíveis.
Feedback da
resposta:
Resposta correta. A alternativa está correta, pois a sumarização dos dados
não é simplesmente a enumeração dos dados, mas sim a busca por
geração das descrições que caracterizam resumidamente esses dados,
permitindo uma possível comparação discriminatória dessas informações.
• Pergunta 7
• 0 em 1 pontos
O principal objetivo encontrado na mineração de dados está em transformar a base de conhecimento KDD
em resposta para problemas fornecidos pelos analistas de negócio. Na mineração de dados em si, etapa que
vem após o pré-processamento dos dados, são utilizados algoritmos para resolver a problemática
apresentada, sendo que a escolha do que utilizar dependerá da necessidade em si. Dentro do KDD temos
uma função que vem para mapear os registros no banco de dados em um intervalo.

Nesse sentido, assinale a alternativa que indique essa função:
Resposta Selecionada:
Redes neurais.
Resposta Correta:
Regressão.
Feedback da
resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois as redes
neurais estão focadas em predição de resultados baseando-se em dados
históricos, gráfico de dispersão e uma parte da RLM; mas em si não é um
algoritmo como questionado, a discretização é a preparação dos dados para
mineração e o PCA também é uma preparação para a mineração.
• Pergunta 8
• 1 em 1 pontos
Leiao excerto a seguir:

“K-médias é um algoritmo de agrupamento de dados não-hierárquico que utiliza uma técnica iterativa para
particionar um conjunto de dados. Ele foi proposto num trabalho pioneiro de S. Lloyd em 1957, contudo, só
foi publicado no ano de 1982. Esse algoritmo busca minimizar a distância dos elementos de um conjunto de
dados com k centros de forma iterativa”.

PALMA, L. F. Agrupamento de dados : k-médias. Cruz das almas: Universidade Federal do Recôncavo da
Bahia, 2018. Disponível
em: http://www2.ufrb.edu.br/bcet/components/com_chronoforms5/chronoforms/
uploads/tcc/20190604200511_2018.2_TCC_Luann_Farias_Palma-
_Agrupamento_de_dados_-_K_medias.pdf . Acesso em: 17 dez. 2019.

Considerando o excerto apresentado, sobre o algoritmo K-média, analise as afirmativas a seguir:

I. Definimos como K (parâmetro de entrada) a quantidade máxima de divisões entre os grupos de elemento,
não sendo fixo.
II. K-média consiste em receber como parâmetro de entrada o número de K
partições, a definição dos pontos centrais a partir das distâncias de similaridade entre os pontos.
III. Os valores resultantes do algoritmo decrescem de forma que não se tenha diferenças significativas nos
valores de divisão de grupos de elementos.
IV. Uma das vantagens é a necessidade de estimar o número de grupos na inicialização, o que não permite
certa imunidade a ruídos ou dados mal distribuídos.

Está correto o que se afirma em:
Resposta Selecionada:
II e III, apenas.
Resposta Correta:
II e III, apenas.
Feedback da
resposta:
Resposta correta. A alternativa está correta, pois o único parâmetro de
entrada define a quantidade de divisões dos elementos, e os valores
resultantes decrescem de forma que não se tenha diferenças significativas
nos valores Ci entre duas iterações na sequência dentro do algoritmo.
• Pergunta 9
http://www2.ufrb.edu.br/bcet/components/com_chronoforms5/chronoforms/uploads/tcc/20190604200511_2018.2_TCC_Luann_Farias_Palma-_Agrupamento_de_dados_-_K_medias.pdf
http://www2.ufrb.edu.br/bcet/components/com_chronoforms5/chronoforms/uploads/tcc/20190604200511_2018.2_TCC_Luann_Farias_Palma-_Agrupamento_de_dados_-_K_medias.pdf
http://www2.ufrb.edu.br/bcet/components/com_chronoforms5/chronoforms/uploads/tcc/20190604200511_2018.2_TCC_Luann_Farias_Palma-_Agrupamento_de_dados_-_K_medias.pdf
• 0 em 1 pontos
Com a obtenção dos padrões já filtrados e organizados, são utilizadas técnicas de visualização e algoritmos
de geração da base de conhecimento. Tais técnicas incluem construção de regras, árvores de decisão, entre
outros. Tudo para que ocorra a separação daqueles elementos que realmente tragam interesse ao objetivo
traçado no processo.

Nesse sentido, assinale a alternativa que relacione às principais funcionalidades utilizadas nesses
algoritmos:
Resposta
Selecionada:
As duas principais vantagens em utilizar esses métodos estão na
possibilidade dos elementos trocarem de grupo e utilizar conjunto de
dados maiores.
Resposta Correta:
A classificação realiza a descrição de classes a partir dos dados que são
fornecidos e, por fim, referencia atributos que tenham semelhança.
Feedback da
resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois constitui a
associação entre atributos que ocorrem com frequência e possuem afinidade
na geração dos resultados, mesmo que tais atributos sejam distintos entre si.
Assim como é construído um número finito de grupos que são distribuídos
com base em sua similaridade, sendo objetos distintos separados em grupos
distintos. Por fim, no agrupamento avaliam-se os resultados esperados na
interpretação dos resultados para utilizar os algoritmos de forma eficiente.
• Pergunta 10
• 1 em 1 pontos
Em uma equação linear múltipla utilizamos os resultados para prever a probabilidade de ocorrer determinado
evento. Por exemplo, podemos prever a chuva para amanhã em milímetros com base na pressão
atmosférica e em resultados alcançados em outras ocasiões. Para isso, definimos o nível de acerto que
esperamos, que geralmente gira em torno de 95%.

Baseando-se nesse conceito, sobre a equação RLM, analise as afirmativas a seguir:

I - Deve-se definir o nível de confiança com peso 1, por exemplo, 95% seria calculado com 1 - 0,95 = 0,05,
que seria o nível de significância.
II - Caso o gráfico gerado seja uma reta, o percentual aceitável estaria disposto nas pontas.
III - O mínimo aceitável em relação ao nível de confiança é 50%, que seria o mínimo aceitável entre certo ou
errado.
IV - A partir do momento que é definido 90% de confiança no resultado, os 10% restantes se dividem entre
as extremidades com 5% composto de valores ignorados.

Está correto o que se afirma em:
Resposta Selecionada:
I e IV, apenas.
Resposta Correta:
I e IV, apenas.
Feedback da
resposta:
Resposta correta. A alternativa está correta, pois o valor máximo utilizado na
equação varia entre 0 e 1, ou seja, trabalhamos o percentual aceitável com
peso 1 e realizamos a conta 1 (um) menos a porcentagem peso 1 (um).
Assim, jogamos a diferença na cauda do gráfico, que por convenção sempre
formará uma curva, com cauda presente nas duas pontas, que possuem os
valores a serem ignorados.
Sexta-feira, 10 de Abril de 2020 21h07min20s BRT
Pergunta 1
Pergunta 2
Pergunta 3
Pergunta 4
Pergunta 5
Pergunta 6
Pergunta 7
Pergunta 8
Pergunta 9
Pergunta 10

ATIVIDADE 2 - UNIDADE 2 - MINERAÇÃO DE DADOS - FMU

FMU

Ferramentas de estudo

Conteúdos escolhidos para você

Compilado fundamentos em Data science 1-3

Questões - Modelos de análises quantitativos

Tipos de Gráficos e Distribuição de Frequências

Atividades Avaliativas Ciência de Dados Cruzeiro do Sul (2023)

Avaliação N2 - UAM

Perguntas dessa disciplina

Questão 1/10 - Bioestatística Ler em voz alta Leia o excerto de texto: “O processo de investigação passa por diferentes estádios, dos quais já salient

O pré-processamento de dados para a execução do algoritmo FP-Growth envolve a transformação da base transacional em uma estrutura de lista de listas,

AVALIAÇÃO PRESENCIAL – BIOESTATÍSTICA APLICADA À SAÚDE – 2° PERÍODO – TERAPIA OCUPACIONAL 2 A estatística pode ser definida como um ramo da matemática

Um processo de descoberta do conhecimento é constituído de tarefas ou estágios que são vitais para que os resultados de aquisição sejam eficientes. Al

Questão 4/5 Gerência de Riscos Fundamentos Matemáticos, Probabilidade, Confiabilidade e Inspeção de Segurança 40 Ler em VOZ alta A Análise do Modo de

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Conteúdos escolhidos para você

Compilado fundamentos em Data science 1-3

Questões - Modelos de análises quantitativos

Tipos de Gráficos e Distribuição de Frequências

Atividades Avaliativas Ciência de Dados Cruzeiro do Sul (2023)

Avaliação N2 - UAM

Perguntas dessa disciplina

Questão 1/10 - Bioestatística Ler em voz alta Leia o excerto de texto: “O processo de investigação passa por diferentes estádios, dos quais já salient

O pré-processamento de dados para a execução do algoritmo FP-Growth envolve a transformação da base transacional em uma estrutura de lista de listas,

AVALIAÇÃO PRESENCIAL – BIOESTATÍSTICA APLICADA À SAÚDE – 2° PERÍODO – TERAPIA OCUPACIONAL 2 A estatística pode ser definida como um ramo da matemática

Um processo de descoberta do conhecimento é constituído de tarefas ou estágios que são vitais para que os resultados de aquisição sejam eficientes. Al

Questão 4/5 Gerência de Riscos Fundamentos Matemáticos, Probabilidade, Confiabilidade e Inspeção de Segurança 40 Ler em VOZ alta A Análise do Modo de

Mais conteúdos dessa disciplina

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar