Baixe o app para aproveitar ainda mais
Prévia do material em texto
P01 - A descoberta de conhecimento em base de dados (KDD), formalizado em 1989, é dividida em três etapas que são responsáveis pela mineração dos dados e o alcance dos objetivos traçados pelo especialista de negócios, que são o pré-processamento, a mineração de dados e o pós-processamento. Nesse sentido, assinale a alternativa correta: O pré-processamento realiza a captação dos dados, faz o tratamento e organização para serem utilizados pelos algoritmos de mineração. P02 - Para que a mineração de dados ocorra de uma forma mais consistente, o KDD aplica uma diversidade de atividades correlacionadas ao seu contexto envolvendo desenvolvimento tecnológico, execução de algoritmos para mineração dos dados e aplicação dos seus resultados na formação do seu objetivo final. Nesse sentido, assinale a alternativa correta: Após obter os modelos de conhecimento a partir das bases de dados, a aplicação dos resultados gera nova estratégia nos negócios. P03 - Uma das ações de classificação tem como principal finalidade gerar modelos de aprendizagem que verifiquem a necessidade de ajustes para tornarem o modelo ainda mais eficiente. Para tanto é preciso identificar a raiz do modelo insatisfatório para que medidas corretivas sejam tomadas. Considerando o apresentado, é correto dizer que: Underfitting (sub ajuste) ocorre quando o modelo ajusta-se de forma pouco satisfatória aos dados de treinamento relacionando as entradas com suas devidas classes. P04 - As ações que podem ocorrer com a curva de aprendizado, conforme demonstrado na gráfico das hipóteses, são do tipo Underfitting (quando o modelo não se adapta bem nem com os dados do treinamento), Balanced (dados equilibrados que se adaptam bem e generalizam bem os novos dados) e Overfitting (Se adapta bem mas não generaliza bem para novos dados), onde o padrão que deve ser alcançado é o balanced. Dentre essas medidas, assinale a alternativa que descreva como chegar ao balanced: Caso ocorra um overfitting é necessário utilizar uma combinação de recursos para diminuir o n-grams e as classes numéricas. P05 - A LSI consiste em um método de extração e demonstração do significado semântico de palavras em determinado contexto, através de cálculos estatísticos aplicados a um volume grande de documentos textuais. Sobre a LSI, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 1. ( ) O grupo de palavras a serem analisadas são distribuídas em matrizes vetorizadas. 2. ( ) Esse método gera vetores com uma grande fração de palavras contando com uma grande quantidade de palavras que não tem importância. 3. ( ) Matrizes esparsas também se tornam úteis pois não permitem a execução de cálculos mais rápidos, o que utiliza uma carga menor de memória. 4. ( ) A LSI se utiliza da decomposição de valor singular (SVD), uma análise fatorial, a qual condensa uma grande matriz do tipo word-by-context. Assinale a alternativa que apresenta a sequência correta: V, F, F, V. P06 - Um sistema multiprocessado ao se aplicar um conjunto de tarefas de mineração de forma paralela, mantendo a homogeneidade e a total conexão entre os elementos, nesse caso temos um conjunto de tarefas alocadas a formar um único cluster com processamento dividido. Analisando a afirmativa é correto dizer que: A busca por um tempo menor para o total da execução de determinada aplicação é o objetivo de um processo multiprocessado. P07 - Os dados da organização, em que se aplica a ação da mineração de dados, se encontram em bases transacionais em constante atualização; com isso, recomenda-se que seja feita uma cópia dos dados para que o processo de KDD não interfira na rotina operacional. Nesse sentido, tratando-se do pré-processamento dos dados pelo KDD, assinale a alternativa correta: A junção dos dados ocorre de forma direta, na qual todos os atributos são incluídos na nova tabela. P08 - Regressão múltipla é uma coleção de técnicas estatísticas para construir modelos que descrevem de maneira razoável as relações entre as variáveis explicativas de um determinado processo. Ela deve seguir alguns procedimentos que são a definição de variáveis, desenho do gráfico de dispersão, montagem da equação e substituição dos dados. Levando em consideração a definição de variáveis e o desenho do gráfico de dispersão, analise as afirmativas a seguir: I. É importante verificar pesquisas semelhantes para a definição da variável dependente e das variáveis dependentes. II. Quanto maior a dispersão mais forte é a correlação, o que demonstra a necessidade da variável independente. III. O coeficiente de regressão está relacionado ao número de variáveis dependentes. IV. Com as variáveis definidas, podemos gerar um gráfico demonstrando a dependência e a necessidade de manter a variável independente. Está correto o que se afirma em: I e IV, apenas. P09 - Leia o excerto a seguir: “K-médias é um algoritmo de agrupamento de dados não-hierárquico que utiliza uma técnica iterativa para particionar um conjunto de dados. Ele foi proposto num trabalho pioneiro de S. Lloyd em 1957, contudo, só foi publicado no ano de 1982. Esse algoritmo busca minimizar a distância dos elementos de um conjunto de dados com k centros de forma iterativa”. PALMA, L. F. Agrupamento de dados: k-médias. Cruz das almas: Universidade Federal do Recôncavo da Bahia, 2018. Disponível em: http://www2.ufrb.edu.br/bcet/components/com_chronoforms5/chronoforms/uploads/tcc/201 90604200511_2018.2_TCC_Luann_Farias_Palma-_Agrupamento_de_dados_-_K_medias.pdf. Acesso em: 17 dez. 2019. Considerando o excerto apresentado, sobre o algoritmo K-média, analise as afirmativas a seguir: I. Definimos como K (parâmetro de entrada) a quantidade máxima de divisões entre os grupos de elemento, não sendo fixo. II. K-média consiste em receber como parâmetro de entrada o número de K partições, a definição dos pontos centrais a partir das distâncias de similaridade entre os pontos. III. Os valores resultantes do algoritmo decrescem de forma que não se tenha diferenças significativas nos valores de divisão de grupos de elementos. IV. Uma das vantagens é a necessidade de estimar o número de grupos na inicialização, o que não permite certa imunidade a ruídos ou dados mal distribuídos. Está correto o que se afirma em: II e III, apenas. P10 - O KDD é formado por várias etapas até a formação do modelo do conhecimento. Parte da base, que são os dados desconexos que formarão grupos de informações; esses grupos formarão, juntos, o modelo de conhecimentos esperado para se alcançar os objetivos traçados pelos especialistas de negócio. A respeito da descoberta de conhecimento em base de dados, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). I. ( ) Os dados são a base para gerar o modelo de conhecimento, e devem receber o maior nível de atenção. II. ( ) A separação hierárquica entre conhecimento, informação e dados é essencial para uma melhor compreensão do processo. III. ( ) Um grande volume de dados é sempre útil, independentemente da forma como é processado e gera informações. IV. ( ) O conhecimento surge por meio da organização dos dados, e após a estruturação desse conhecimento temos a formação da informação útil ao modelo. Assinale a alternativa que apresenta a sequência correta: V, V, F, F. P11 - Leia o trecho a seguir: O KDD é uma das formas de organização dos dados, da mineração e da análise dos modelos de conhecimento; é gerado para que então os analistas de negócios tomem decisões condizentes. “As informações representam os dados processados, com significados e contextos bem definidos. Diversos recursos da Tecnologia da Informação são utilizados para facilmente processar dados e obter informações". GOLDSCHMIDT, R.; PASSOS, E. Data Mining: um guiaprático. São Paulo: Elsevier Editora Ltda, 2005. p. 3. Neste sentido, assinale a alternativa correta referente às fases do KDD: O modelo de conhecimento é composto pelo pré-processamento realizado nos dados, que geram informações então mineradas em estruturas que apoiem a decisão. P12 - A regressão é estudada a bastante tempo na área de estatística, sendo na mineração de dados ser menos abordado que outras técnicas. Porém, a regressão pode ser realizada através de funções, lineares ou não, mapeando registros do banco de dados com valores reais. A regressão logística consiste em uma forma estatística de modelar resultados binominais. A respeito da regressão, analise as afirmativas a seguir: 1. Uma regressão logística substitui uma regressão linear quando a resposta que se procura é uma análise a longo prazo com resposta exata. 2. Podemos utilizar uma regressão logística em determinadas situações como predição de risco em investimentos financeiros e outras situações afins. 3. Podemos realizar a regressão logística através do modelo “Qual valor de uma casa pelas suas características”. 4. A logística se mostra mais vantajosa que a regressão linear, principalmente quando falamos da normalidade e a linearidade. I, II e IV, apenas. P13 - O Teorema de Bayes está relacionado ao cálculo de probabilidade condicional e é aplicável em tarefas de classificação na mineração de dados. Sua aplicação se estende às áreas como finanças, saúde, desenvolvimento de jogos, entre outras. Por ser robusto, é uma ótima opção para resolução em tempo real. A respeito do contexto apresentado, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). I. ( ) O classificador bayesiano traz a ideia de verificar, dentro do percentual positivo de um teste, o que realmente é válido e o que é um falso cognato. II. ( ) O classificador é frequentemente utilizado quando os atributos são dependentes entre si. III. ( ) O algoritmo tem sua usabilidade muito relacionada a números, tanto inteiros quanto reais. IV. ( ) Para a realização de um diagnóstico de imagens referente a tendências de posteriores surgimentos da doença, o melhor algoritmo seria o classificador bayesiano. Assinale a alternativa que apresenta a sequência correta: V, F, F, V. P14 - O KDD se divide em três etapas que precisam se desenvolver para a formação do conhecimento, que será importante na geração de um resultado consistente para a organização. A fase de pré-processamento, mineração dos dados e pós-processamento. Neste sentido, assinale a alternativa correta: O pré-processamento é uma etapa importante, pois todas as posteriores, assim como o resultado final e o tempo empregado, estão interligadas a ela. P15 - Com a obtenção dos padrões já filtrados e organizados, são utilizadas técnicas de visualização e algoritmos de geração da base de conhecimento. Tais técnicas incluem construção de regras, árvores de decisão, entre outros. Os algoritmos se dividem pela sua principal funcionalidade: classificação, associação e agrupamento. Nesse sentido, assinale a alternativa correta: Na avaliação de padrões, realizar a descrição de classes a partir de dados fornecidos é denominado como classificação dos dados. P16 - Leia o excerto a seguir: “O diferencial deste algoritmo[apriori] está na criação dos itemsets candidatos usando a propriedade anti-monotonicity que garante que, se um conjunto de itens não for frequente, então todos os seus super conjuntos também não são frequentes. Assim, o algoritmo aumenta seu desempenho, já que não perde tempo varrendo e analisando esses super conjuntos. ” CASTRO, R.F.V.; Análise de desempenho dos algoritmos Apriori e Fuzzy Apriori na extração de regras de associação aplicados a um Sistema de Detecção de Intrusos. Dissertação para Mestrado. UERJ: Rio de Janeiro. 2014 A partir do apresentado, analise as asserções a seguir e marque a opção correta. Na análise realizada pelo algoritmo um elemento N só pode ser considerado frequente se todos os seu N-1 forem frequentes P17 - A principal função da criação de uma regra para que ocorra a mineração de dados é que a mesma seja inteligível em alto nível, para guiar o pré-processamento dos dados e a organização sistêmica; em baixo nível, para verificar os algoritmos de mineração de dados que serão utilizados no processo. E até mesmo compreensão do objetivo principal pelos especialistas de negócio. A respeito das regras do modelo de aplicação do KDD, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). I. ( ) Para que possamos avaliar a regra adotada, precisamos verificar seu nível de confiança ou precisão na apuração dos dados. II. ( ) A descoberta do conhecimento efetuado na base de dados deve ser compreendida de forma multidisciplinar. III. ( ) Os dados observados não necessariamente serão históricos, levando em consideração o volume de dados obtidos. IV. ( ) O nível de confiança está ligado à origem dos dados, e o setor é onde se pretende gerar conhecimento. V, V, F, F. P18 - A análise de componentes principais (PCA) é responsável por diminuir a dimensionalidade dos dados. Podemos considerar, como os pontos no gráfico PCA, como sendo as linhas de uma matriz definida, com o conjunto de palavras utilizados no documento. Com base no apresentado, assinale a alternativa correta: Autovetor corresponde a um escalar λ como autovalor do operador linear A: V → V, se temos um vetor x diferente de 0 (zero) sendo que Ax = λx. P19 - Para que a mineração de dados ocorra de uma forma mais consistente, o KDD aplica uma diversidade de atividades correlacionadas ao seu contexto envolvendo desenvolvimento tecnológico, execução de algoritmos para mineração dos dados e aplicação dos seus resultados na formação do seu objetivo final. Nesse sentido, assinale a alternativa correta: Após obter os modelos de conhecimento a partir das bases de dados, a aplicação dos resultados gera nova estratégia nos negócios. P20 - Levando em consideração o modelo vetorial utilizado com conteúdo em linguagem natural, onde todos os documentos estão envolvidos na base de conhecimento, o que importa são as palavras envolvidas e não a estrutura textual, e dessa forma, gera métodos computacionais mais eficientes. A respeito do modelo LDA, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). ( ) A proposta do LDA é de que a alta probabilidade de similaridade não seja notado somente aos documentos do modelo de negócio. ( ) O algoritmo Latent Dirichlet Allocation (LDA) consiste em aprendizado não supervisionado ou semi supervisionado. ( ) Sendo a distribuição à posteriori intratável para realizar inferências exatas, é necessário estimar os parâmetros da distribuição. ( ) A LDA não consegue permitir inferências na relevância dos tópicos e com isso sumarizar os textos da estrutura dos documentos . Assinale a alternativa que apresenta a sequência correta: V, F, V, F. P21 - Um modelo que deverá ser utilizado na mineração de dados corresponde ao processamento das informações de entradas que submetidas a determinadas condições e algoritmos devem retornar aquilo que foi definido como regras pelos analistas de negócio. Para que esse resultado seja conforme o esperado, protótipos que realizam testes exaustivos devem ser realizados. Em se tratando desses protótipos é correto afirmar que: Dois tipos de modelos podem ser desenvolvidos, o preditivo e o descritivo, ambos com o propósito de analisar conceitos temporais P22 - O banco de dados de certa forma é uma coleção de informações distribuídas em diferentes tabelas para formar uma base de conhecimento. Ao utilizar das regras de associação na mineração de dados, temos por objetivo minimizaro volume de informações tentando deixá- las mais ricas de dados que priorizem a regra de negócio traçada no início do processo. Nestse sentido, assinale a alternativa correta: Consiste em implicações advindas de conjuntos de itens de diferentes bases de dados que se integram à regra definida no início do processo. P23 - O modelo de conhecimento por vezes gerado na mineração de dados pode possuir um volume muito grande, o que pode ser complexo para o direcionamento dos especialistas de negócio. Para tanto, deve ocorrer uma simplificação do modelo de conhecimento para finalização das bases de conhecimento geradas. Considerando o excerto apresentado, sobre o modelo de conhecimento simplificado, analise as afirmativas a seguir: I - Uma análise dos atributos gerados deve ser definida por meio de uma apuração maior de precisão na regra de negócio. II - A precisão na regra do modelo de conhecimento deve ser analisada no pré-processamento para fazer sua adaptação. III - O especialista de KDD deve estabelecer limites de precisão e abrangência de forma a enxugar do modelo de conhecimento gerado. IV - A regra do KDD precisa ser refeita por completo, caso o pós-processamento constate algum excesso nos resultados. I e III, apenas. P24 - A árvore de decisão é um modelo preditivo representado numa estrutura semelhante a uma árvore. É formado por métodos de aprendizado de máquina que podem ser supervisionado, não supervisionado ou semi-supervisionado em estudos mais recentes, não parametrizado, muito utilizado para classificação e regressão. Sobre a árvore de decisão, assinale a alternativa correta: É uma técnica muito utilizada em classificação devido ao fato do conhecimento adquirido se definir em regras, que podem ser expressas na linguagem natural. P25 - Na fase de mineração dos dados pelo KDD (fase de descoberta do conhecimento) existe a composição de tarefas primárias que tem por objetivo a estruturação dos dados para a realização do processo de descoberta de conhecimento, que precisa ser potencialmente útil e compreensível. Neste sentido, assinale a alternativa que trate a respeito dessas etapas: No método PCA convertemos a um novo conjunto de dados menor que o original, para serem utilizados em outras técnicas de análise. P26 - Leia o excerto a seguir: “Dependendo dos objectivos e dos requisitos do processo de descoberta de conhecimento em bases de dados (KDD), analistas podem seleccionar, filtrar, agregar, retirar amostras, limpar ou transformar dados". A estruturação de dados é essencial para que alguns padrões possam ser definidos com os dados, a fim de serem direcionados para algoritmos específicos e gerarem os resultados esperados. PINTO, C. A. M.; VIEIRA, H. A. S.; BULHÕES, L. M. P. Data Mining em R. Azurém: Universidade do Minho. 2005. p. 9. Considerando o excerto apresentado, a respeito da fase de mineração dos dados, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). I. ( ) Espera-se, com a prévia de dados no KDD, que sejam geradas tarefas que auxiliem os especialistas de domínio da aplicação na formação dos modelos de conhecimento. II. ( ) Os algoritmos que geram o modelo de conhecimento são aplicados no pré-processo para que a organização dos dados seja facilitada na mineração de dados. III. ( ) Aproximação estatística não permite a geração de hipóteses ou modelos, pois não fazem parte do modelo de conhecimento. IV. ( ) O conhecimento é gerado por meio de modelos que devem ser considerados como compreensíveis e de possível interpretação pelo homem. Assinale a alternativa que apresenta a sequência correta: V, F, F, V. P27 - Sumarização consiste na identificação e classificação dos atributos do banco de dados, com base na similaridade entre registros em um conjunto de dados. Com isso, formamos classes de agrupamento dos dados pré-processados que ajudarão a mineração dos dados e, consequentemente, a formação do modelo de conhecimento. Nesse sentido, assinale a afirmativa que faz referência à sumarização: A identificação para sumarização não é somente criar índices para os dados envolvidos, mas sim agrupar elementos com características concisas e compreensíveis. P28 - Leia o excerto a seguir: “O algoritmo APRIORI basicamente se divide em duas etapas que são: I) Encontrar todos os conjuntos de itens frequentes (que satisfazem à condição de suporte mínimo). II) A partir do conjunto de itens frequentes, gerar as regras de associação (que satisfazem à condição de confiança mínima).” GOLDSCHMIDT, R.; PASSOS, E. Data Mining: um guia prático. Elsevier Editora Ltda:São Paulo, 2005. p.106 A partir do apresentado, analise as alternativas a seguir e marque a opção correta: Os itens candidatos são definidos após a aceitação do suporte mínimo e o nível de confiança aceitável.
Compartilhar