Buscar

Avaliação N2 - UAM

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

P01 - A descoberta de conhecimento em base de dados (KDD), formalizado em 1989, é 
dividida em três etapas que são responsáveis pela mineração dos dados e o alcance dos 
objetivos traçados pelo especialista de negócios, que são o pré-processamento, a mineração 
de dados e o pós-processamento. 
 
Nesse sentido, assinale a alternativa correta: 
 
 
O pré-processamento realiza a captação dos dados, faz o tratamento e organização 
para serem utilizados pelos algoritmos de mineração. 
 
 
P02 - Para que a mineração de dados ocorra de uma forma mais consistente, o KDD 
aplica uma diversidade de atividades correlacionadas ao seu contexto envolvendo 
desenvolvimento tecnológico, execução de algoritmos para mineração dos dados e aplicação 
dos seus resultados na formação do seu objetivo final. Nesse sentido, assinale a alternativa 
correta: 
 
Após obter os modelos de conhecimento a partir das bases de dados, a aplicação 
dos resultados gera nova estratégia nos negócios. 
 
 
P03 - Uma das ações de classificação tem como principal finalidade gerar modelos de 
aprendizagem que verifiquem a necessidade de ajustes para tornarem o modelo ainda mais 
eficiente. Para tanto é preciso identificar a raiz do modelo insatisfatório para que medidas 
corretivas sejam tomadas. 
 
Considerando o apresentado, é correto dizer que: 
 
Underfitting (sub ajuste) ocorre quando o modelo ajusta-se de forma pouco 
satisfatória aos dados de treinamento relacionando as entradas com suas devidas 
classes. 
 
 
P04 - As ações que podem ocorrer com a curva de aprendizado, conforme demonstrado na 
gráfico das hipóteses, são do tipo Underfitting (quando o modelo não se adapta bem nem com 
os dados do treinamento), Balanced (dados equilibrados que se adaptam bem e generalizam 
bem os novos dados) e Overfitting (Se adapta bem mas não generaliza bem para novos 
dados), onde o padrão que deve ser alcançado é o balanced. 
 
Dentre essas medidas, assinale a alternativa que descreva como chegar ao balanced: 
 
Caso ocorra um overfitting é necessário utilizar uma combinação de recursos para 
diminuir o n-grams e as classes numéricas. 
 
P05 - A LSI consiste em um método de extração e demonstração do significado semântico de 
palavras em determinado contexto, através de cálculos estatísticos aplicados a um volume 
grande de documentos textuais. Sobre a LSI, analise as afirmativas a seguir e assinale V para 
a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
1. ( ) O grupo de palavras a serem analisadas são distribuídas em matrizes vetorizadas. 
2. ( ) Esse método gera vetores com uma grande fração de palavras contando com uma 
grande quantidade de palavras que não tem importância. 
3. ( ) Matrizes esparsas também se tornam úteis pois não permitem a execução de 
cálculos mais rápidos, o que utiliza uma carga menor de memória. 
4. ( ) A LSI se utiliza da decomposição de valor singular (SVD), uma análise fatorial, a 
qual condensa uma grande matriz do tipo word-by-context. 
 
Assinale a alternativa que apresenta a sequência correta: 
 
V, F, F, V. 
 
P06 - Um sistema multiprocessado ao se aplicar um conjunto de tarefas de mineração de 
forma paralela, mantendo a homogeneidade e a total conexão entre os elementos, nesse caso 
temos um conjunto de tarefas alocadas a formar um único cluster com processamento dividido. 
 
Analisando a afirmativa é correto dizer que: 
 
A busca por um tempo menor para o total da execução de determinada aplicação é o 
objetivo de um processo multiprocessado. 
 
 
P07 - Os dados da organização, em que se aplica a ação da mineração de dados, se 
encontram em bases transacionais em constante atualização; com isso, recomenda-se que 
seja feita uma cópia dos dados para que o processo de KDD não interfira na rotina operacional. 
Nesse sentido, tratando-se do pré-processamento dos dados pelo KDD, assinale a alternativa 
correta: 
 
A junção dos dados ocorre de forma direta, na qual todos os atributos são incluídos 
na nova tabela. 
 
 
P08 - Regressão múltipla é uma coleção de técnicas estatísticas para construir modelos que 
descrevem de maneira razoável as relações entre as variáveis explicativas de um determinado 
processo. Ela deve seguir alguns procedimentos que são a definição de variáveis, desenho do 
gráfico de dispersão, montagem da equação e substituição dos dados. 
 
Levando em consideração a definição de variáveis e o desenho do gráfico de dispersão, 
analise as afirmativas a seguir: 
 
I. É importante verificar pesquisas semelhantes para a definição da variável dependente e das 
variáveis dependentes. 
II. Quanto maior a dispersão mais forte é a correlação, o que demonstra a necessidade da 
variável independente. 
III. O coeficiente de regressão está relacionado ao número de variáveis dependentes. 
IV. Com as variáveis definidas, podemos gerar um gráfico demonstrando a dependência e a 
necessidade de manter a variável independente. 
 
Está correto o que se afirma em: 
 
I e IV, apenas. 
 
 
P09 - Leia o excerto a seguir: 
 
“K-médias é um algoritmo de agrupamento de dados não-hierárquico que utiliza uma técnica 
iterativa para particionar um conjunto de dados. Ele foi proposto num trabalho pioneiro de S. 
Lloyd em 1957, contudo, só foi publicado no ano de 1982. Esse algoritmo busca minimizar a 
distância dos elementos de um conjunto de dados com k centros de forma iterativa”. 
 
PALMA, L. F. Agrupamento de dados: k-médias. Cruz das almas: Universidade Federal do 
Recôncavo da Bahia, 2018. Disponível 
em: http://www2.ufrb.edu.br/bcet/components/com_chronoforms5/chronoforms/uploads/tcc/201
90604200511_2018.2_TCC_Luann_Farias_Palma-_Agrupamento_de_dados_-_K_medias.pdf. 
Acesso em: 17 dez. 2019. 
 
Considerando o excerto apresentado, sobre o algoritmo K-média, analise as afirmativas a 
seguir: 
 
I. Definimos como K (parâmetro de entrada) a quantidade máxima de divisões entre os grupos 
de elemento, não sendo fixo. 
II. K-média consiste em receber como parâmetro de entrada o número de K 
partições, a definição dos pontos centrais a partir das distâncias de similaridade entre os 
pontos. 
III. Os valores resultantes do algoritmo decrescem de forma que não se tenha diferenças 
significativas nos valores de divisão de grupos de elementos. 
IV. Uma das vantagens é a necessidade de estimar o número de grupos na inicialização, o que 
não permite certa imunidade a ruídos ou dados mal distribuídos. 
 
Está correto o que se afirma em: 
 
II e III, apenas. 
 
 
P10 - O KDD é formado por várias etapas até a formação do modelo do conhecimento. Parte 
da base, que são os dados desconexos que formarão grupos de informações; esses grupos 
formarão, juntos, o modelo de conhecimentos esperado para se alcançar os objetivos traçados 
pelos especialistas de negócio. 
 
A respeito da descoberta de conhecimento em base de dados, analise as afirmativas a seguir e 
assinale V 
para a(s) verdadeira(s) e F para a(s) falsa(s). 
 
I. ( ) Os dados são a base para gerar o modelo de conhecimento, e devem receber o maior 
nível de atenção. 
II. ( ) A separação hierárquica entre conhecimento, informação e dados é essencial para uma 
melhor compreensão do processo. 
III. ( ) Um grande volume de dados é sempre útil, independentemente da forma como é 
processado e gera informações. 
IV. ( ) O conhecimento surge por meio da organização dos dados, e após a estruturação desse 
conhecimento temos a formação da informação útil ao modelo. 
 
Assinale a alternativa que apresenta a sequência correta: 
 
V, V, F, F. 
 
 
P11 - Leia o trecho a seguir: 
O KDD é uma das formas de organização dos dados, da mineração e da análise dos modelos 
de conhecimento; é gerado para que então os analistas de negócios tomem decisões 
condizentes. 
“As informações representam os dados processados, com significados e contextos bem 
definidos. Diversos recursos da Tecnologia da Informação são utilizados para facilmente 
processar dados e obter informações". 
 
GOLDSCHMIDT, R.; PASSOS, E. Data Mining: um guiaprático. São Paulo: Elsevier Editora 
Ltda, 2005. p. 3. 
 
Neste sentido, assinale a alternativa correta referente às fases do KDD: 
 
O modelo de conhecimento é composto pelo pré-processamento realizado nos 
dados, que geram informações então mineradas em estruturas que apoiem a 
decisão. 
 
 
P12 - A regressão é estudada a bastante tempo na área de estatística, sendo na mineração de 
dados ser menos abordado que outras técnicas. Porém, a regressão pode ser realizada 
através de funções, lineares ou não, mapeando registros do banco de dados com valores reais. 
A regressão logística consiste em uma forma estatística de modelar resultados binominais. 
 
A respeito da regressão, analise as afirmativas a seguir: 
 
1. Uma regressão logística substitui uma regressão linear quando a resposta que se 
procura é uma análise a longo prazo com resposta exata. 
2. Podemos utilizar uma regressão logística em determinadas situações como predição 
de risco em investimentos financeiros e outras situações afins. 
3. Podemos realizar a regressão logística através do modelo “Qual valor de uma casa 
pelas suas características”. 
4. A logística se mostra mais vantajosa que a regressão linear, principalmente quando 
falamos da normalidade e a linearidade. 
 
I, II e IV, apenas. 
 
 
P13 - O Teorema de Bayes está relacionado ao cálculo de probabilidade condicional e é 
aplicável em tarefas de classificação na mineração de dados. Sua aplicação se estende às 
áreas como finanças, saúde, desenvolvimento de jogos, entre outras. Por ser robusto, é uma 
ótima opção para resolução em tempo real. 
 
A respeito do contexto apresentado, analise as afirmativas a seguir e assinale V para a(s) 
verdadeira(s) e F para a(s) falsa(s). 
 
I. ( ) O classificador bayesiano traz a ideia de verificar, dentro do percentual positivo de um 
teste, o que realmente é válido e o que é um falso cognato. 
II. ( ) O classificador é frequentemente utilizado quando os atributos são dependentes entre si. 
III. ( ) O algoritmo tem sua usabilidade muito relacionada a números, tanto inteiros quanto 
reais. 
IV. ( ) Para a realização de um diagnóstico de imagens referente a tendências de posteriores 
surgimentos da doença, o melhor algoritmo seria o classificador bayesiano. 
 
Assinale a alternativa que apresenta a sequência correta: 
 
V, F, F, V. 
 
 
P14 - O KDD se divide em três etapas que precisam se desenvolver para a formação do 
conhecimento, que será importante na geração de um resultado consistente para a 
organização. A fase de pré-processamento, mineração dos dados e pós-processamento. Neste 
sentido, assinale a alternativa correta: 
 
O pré-processamento é uma etapa importante, pois todas as posteriores, assim 
como o resultado final e o tempo empregado, estão interligadas a ela. 
 
 
P15 - Com a obtenção dos padrões já filtrados e organizados, são utilizadas técnicas de 
visualização e algoritmos de geração da base de conhecimento. Tais técnicas incluem 
construção de regras, árvores de decisão, entre outros. Os algoritmos se dividem pela sua 
principal funcionalidade: classificação, associação e agrupamento. 
 
Nesse sentido, assinale a alternativa correta: 
 
Na avaliação de padrões, realizar a descrição de classes a partir de dados 
fornecidos é denominado como classificação dos dados. 
 
 
P16 - Leia o excerto a seguir: 
 
 “O diferencial deste algoritmo[apriori] está na criação dos itemsets candidatos usando a 
propriedade anti-monotonicity que garante que, se um conjunto de itens não for frequente, 
então todos os seus super conjuntos também não são frequentes. Assim, o algoritmo aumenta 
seu desempenho, já que não perde tempo varrendo e analisando esses super conjuntos. ” 
 
CASTRO, R.F.V.; Análise de desempenho dos algoritmos Apriori e Fuzzy Apriori na 
extração de regras de associação aplicados a um Sistema de Detecção de Intrusos. 
Dissertação para Mestrado. UERJ: Rio de Janeiro. 2014 
 
A partir do apresentado, analise as asserções a seguir e marque a opção correta. 
 
Na análise realizada pelo algoritmo um elemento N só pode ser considerado 
frequente se todos os seu N-1 forem frequentes 
 
 
P17 - A principal função da criação de uma regra para que ocorra a mineração de dados é que 
a mesma seja inteligível em alto nível, para guiar o pré-processamento dos dados e a 
organização sistêmica; em baixo nível, para verificar os algoritmos de mineração de dados que 
serão utilizados no processo. E até mesmo compreensão do objetivo principal pelos 
especialistas de negócio. 
 
A respeito das regras do modelo de aplicação do KDD, analise as afirmativas a seguir e 
assinale V 
para a(s) verdadeira(s) e F para a(s) falsa(s). 
 
I. ( ) Para que possamos avaliar a regra adotada, precisamos verificar seu nível de confiança 
ou precisão na apuração dos dados. 
II. ( ) A descoberta do conhecimento efetuado na base de dados deve ser compreendida de 
forma multidisciplinar. 
III. ( ) Os dados observados não necessariamente serão históricos, levando em consideração o 
volume de dados obtidos. 
 IV. ( ) O nível de confiança está ligado à origem dos dados, e o setor é onde se pretende gerar 
conhecimento. 
 
V, V, F, F. 
 
 
P18 - A análise de componentes principais 
(PCA) é responsável por diminuir a dimensionalidade dos dados. Podemos considerar, como 
os pontos no gráfico PCA, como sendo as linhas 
de uma matriz definida, com o conjunto de palavras utilizados no documento. 
 
Com base no apresentado, assinale a alternativa correta: 
 
Autovetor corresponde a um escalar λ como autovalor do operador linear A: V → V, 
se temos um vetor x diferente de 0 (zero) sendo que Ax = λx. 
 
 
P19 - Para que a mineração de dados ocorra de uma forma mais consistente, o KDD 
aplica uma diversidade de atividades correlacionadas ao seu contexto envolvendo 
desenvolvimento tecnológico, execução de algoritmos para mineração dos dados e aplicação 
dos seus resultados na formação do seu objetivo final. Nesse sentido, assinale a alternativa 
correta: 
 
Após obter os modelos de conhecimento a partir das bases de dados, a aplicação 
dos resultados gera nova estratégia nos negócios. 
 
 
 
P20 - Levando em consideração o modelo vetorial utilizado com conteúdo em linguagem 
natural, onde todos os documentos estão envolvidos na base de conhecimento, o que importa 
são as palavras envolvidas e não a estrutura textual, e dessa forma, gera métodos 
computacionais mais eficientes. 
A respeito do modelo LDA, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) 
e F para a(s) Falsa(s). 
( ) A proposta do LDA é de que a alta probabilidade de similaridade não seja notado somente 
aos documentos do modelo de negócio. 
( ) O algoritmo Latent Dirichlet Allocation (LDA) consiste em aprendizado não supervisionado 
ou semi supervisionado. 
( ) Sendo a distribuição à posteriori intratável para realizar inferências exatas, é necessário 
estimar os parâmetros da distribuição. 
( ) A LDA não consegue permitir inferências na relevância dos tópicos e com isso sumarizar os 
textos da estrutura dos documentos . 
 Assinale a alternativa que apresenta a sequência correta: 
 
V, F, V, F. 
 
 
P21 - Um modelo que deverá ser utilizado na mineração de dados corresponde ao 
processamento das informações de entradas que submetidas a determinadas condições e 
algoritmos devem retornar aquilo que foi definido como regras pelos analistas de negócio. Para 
que esse resultado seja conforme o esperado, protótipos que realizam testes exaustivos devem 
ser realizados. 
 Em se tratando desses protótipos é correto afirmar que: 
 
Dois tipos de modelos podem ser desenvolvidos, o preditivo e o descritivo, ambos com 
o propósito de analisar conceitos temporais 
 
 
P22 - O banco de dados de certa forma é uma coleção de informações distribuídas em 
diferentes tabelas para formar uma base de conhecimento. Ao utilizar das regras de associação 
na mineração de dados, temos por objetivo minimizaro volume de informações tentando deixá-
las mais ricas de dados que priorizem a regra de negócio traçada no início do processo. 
Nestse sentido, assinale a alternativa correta: 
 
Consiste em implicações advindas de conjuntos de itens de diferentes bases de 
dados que se integram à regra definida no início do processo. 
 
 
P23 - O modelo de conhecimento por vezes gerado na mineração de dados pode possuir um 
volume muito grande, o que pode ser complexo para o direcionamento dos especialistas de 
negócio. Para tanto, deve ocorrer uma simplificação do modelo de conhecimento para 
finalização das bases de conhecimento geradas. 
 
Considerando o excerto apresentado, sobre o modelo de conhecimento simplificado, analise as 
afirmativas a seguir: 
 
I - Uma análise dos atributos gerados deve ser definida por meio de uma apuração maior de 
precisão na regra de negócio. 
II - A precisão na regra do modelo de conhecimento deve ser analisada no pré-processamento 
para fazer sua adaptação. 
III - O especialista de KDD deve estabelecer limites de precisão e abrangência de forma a 
enxugar do modelo de conhecimento gerado. 
IV - A regra do KDD precisa ser refeita por completo, caso o pós-processamento constate 
algum excesso nos resultados. 
 
I e III, apenas. 
 
 
P24 - A árvore de decisão é um modelo preditivo representado numa estrutura semelhante a 
uma árvore. É formado por métodos de aprendizado de máquina que podem ser 
supervisionado, não supervisionado ou semi-supervisionado em estudos mais recentes, não 
parametrizado, muito utilizado para classificação e regressão. 
 
Sobre a árvore de decisão, assinale a alternativa correta: 
 
É uma técnica muito utilizada em classificação devido ao fato do conhecimento 
adquirido se definir em regras, que podem ser expressas na linguagem natural. 
 
 
P25 - Na fase de mineração dos dados pelo KDD (fase de descoberta do conhecimento) existe 
a composição de tarefas primárias que tem por objetivo a estruturação dos dados para a 
realização do processo de descoberta de conhecimento, que precisa ser potencialmente útil e 
compreensível. 
 
Neste sentido, assinale a alternativa que trate a respeito dessas etapas: 
 
No método PCA convertemos a um novo conjunto de dados menor que o original, 
para serem utilizados em outras técnicas de análise. 
 
 
P26 - Leia o excerto a seguir: 
“Dependendo dos objectivos e dos requisitos do processo de descoberta de conhecimento em 
bases de dados (KDD), analistas podem seleccionar, filtrar, agregar, retirar amostras, limpar ou 
transformar dados". A estruturação de dados é essencial para que alguns padrões possam ser 
definidos com os dados, a fim de serem direcionados para algoritmos específicos e gerarem os 
resultados esperados. 
 
PINTO, C. A. M.; VIEIRA, H. A. S.; BULHÕES, L. M. P. Data Mining em R. Azurém: 
Universidade do Minho. 2005. p. 9. 
 
Considerando o excerto apresentado, a respeito da fase de mineração dos dados, analise as 
afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). 
 
I. ( ) Espera-se, com a prévia de dados no KDD, que sejam geradas tarefas que auxiliem os 
especialistas de domínio da aplicação na formação dos modelos de conhecimento. 
II. ( ) Os algoritmos que geram o modelo de conhecimento são aplicados no pré-processo para 
que a organização dos dados seja facilitada na mineração de dados. 
III. ( ) Aproximação estatística não permite a geração de hipóteses ou modelos, pois não fazem 
parte do modelo de conhecimento. 
IV. ( ) O conhecimento é gerado por meio de modelos que devem ser considerados como 
compreensíveis e de possível interpretação pelo homem. 
 
Assinale a alternativa que apresenta a sequência correta: 
 
V, F, F, V. 
 
 
P27 - Sumarização consiste na identificação e classificação dos atributos do banco de 
dados, com base na similaridade entre registros em um conjunto de dados. Com isso, 
formamos classes de agrupamento dos dados pré-processados que ajudarão a mineração dos 
dados e, consequentemente, a formação do modelo de conhecimento. 
 
Nesse sentido, assinale a afirmativa que faz referência à sumarização: 
 
A identificação para sumarização não é somente criar índices para os dados 
envolvidos, mas sim agrupar elementos com características concisas e 
compreensíveis. 
 
 
P28 - Leia o excerto a seguir: 
 
“O algoritmo APRIORI basicamente se divide em duas etapas que são: 
I) Encontrar todos os conjuntos de itens frequentes (que satisfazem à condição 
de suporte mínimo). 
II) A partir do conjunto de itens frequentes, gerar as regras de associação (que 
satisfazem à condição de confiança mínima).” 
 
GOLDSCHMIDT, R.; PASSOS, E. Data Mining: um guia prático. Elsevier Editora Ltda:São 
Paulo, 2005. p.106 
A partir do apresentado, analise as alternativas a seguir e marque a opção correta: 
 
Os itens candidatos são definidos após a aceitação do suporte mínimo e o nível de 
confiança aceitável.

Outros materiais