Prévia do material em texto
11/11/2021 22:41 PROVA ONLINE : 09. Machine Learning (2019) https://pucminas.instructure.com/courses/1765/quizzes/60824 1/10 PROVA ONLINE Entrega Sem prazo Pontos 60 Perguntas 10 Disponível depois 15 de mai de 2020 em 10:00 Limite de tempo 60 Minutos Tentativas permitidas Sem limite Instruções Histórico de tentativas Tentativa Tempo Pontuação MAIS RECENTE Tentativa 1 54 minutos 24 de 60 ATENÇÃO: Verifique em "Notas" se você não atingiu o aproveitamento necessário nesta disciplina. Caso você já tenha realizado uma prova anterior e opte por uma nova tentativa, será identificado como uma prova extra e resultará em pagamento de taxa extra. INSTRUÇÕES DA AVALIAÇÃO ON-LINE A prova tem a duração de 60 minutos. Ao clicar em PROVA ON-LINE, no menu “Testes” você iniciará a prova. A partir daí não será possível desistir de realizá-la. A prova é composta de 10 questões objetivas, cada uma no valor de 6 pontos. Ao final do teste não se esqueça de enviá-lo, clicando no botão “ENVIAR TESTE”. Só utilize esse botão quando tiver finalizado a avaliação. Se necessário, durante a prova, entre em contato pelo link “Atendimento”. ATENÇÃO: Todas as provas iniciadas e que não houverem sido submetidas serão automaticamente encerradas pelo sistema transcorridos os 60 minutos de duração. Boa Prova! Fazer o teste novamente https://pucminas.instructure.com/courses/1765/quizzes/60824/history?version=1 https://pucminas.instructure.com/courses/1765/quizzes/60824/take?user_id=46471 11/11/2021 22:41 PROVA ONLINE : 09. Machine Learning (2019) https://pucminas.instructure.com/courses/1765/quizzes/60824 2/10 Pontuação desta tentativa: 24 de 60 Enviado 11 nov em 22:41 Esta tentativa levou 54 minutos. 0 / 6 ptsPergunta 1 São formas de separação entre base de treinamento e base de testes, EXCETO: Amostragem com reposição. Resposta corretaResposta correta Percentage Split. Amostragem estratificada. Cross Validation. Você respondeuVocê respondeu Na amostragem com reposição, um elemento pode ser sorteado mais de uma vez. Isso permitiria que um mesmo elemento fosse selecionado para a base de treinamento e de teste simultaneamente, violando o princípio básico da avaliação de modelos de aprendizado supervisionado. 0 / 6 ptsPergunta 2 11/11/2021 22:41 PROVA ONLINE : 09. Machine Learning (2019) https://pucminas.instructure.com/courses/1765/quizzes/60824 3/10 Malwares são uma grande ameaça à segurança de dados. Uma forma de detectar esses softwares maliciosos consiste em utilizar códigos de Malwares já descobertos na construção de um modelo capaz de identificar novas versões desses trechos de software. O tipo de aprendizado que deve ser utilizado neste caso é: Aprendizado por reforço. Você respondeuVocê respondeu Aprendizado não supervisionado. Aprendizado supervisionado. Resposta corretaResposta correta Aprendizado conexionista. A detecção de malwares é uma tarefa de classificação, onde trechos de código são classificados entre código malicioso e não malicioso, por isso é uma tarefa de aprendizado supervisionado. O aprendizado conexionista é o baseado em redes neurais. Apesar das redes MLP realizarem aprendizado supervisionado, existem topologias de rede como o SOM (Self Organizing Maps), por exemplo, que realizam aprendizado não supervisionado. 0 / 6 ptsPergunta 3 Para se evitar o overfitting em um algoritmo de árvore de decisão, podemos: 11/11/2021 22:41 PROVA ONLINE : 09. Machine Learning (2019) https://pucminas.instructure.com/courses/1765/quizzes/60824 4/10 Permitir que atributos contínuos possam ser utilizados mais de uma vez. Aumentar o número mínimo de amostras por nó folha. Resposta corretaResposta correta Usar uma abordagem gulosa para seleção do melhor atributo. Você respondeuVocê respondeu Alterar a medida de seleção de atributos do Ganho da Informação para Taxa de Ganho. Ao aumentar o número mínimo de elementos em cada nó folha, será produzida uma ação de poda da árvore, caso um atributo gere nós com poucos registros. A medida de seleção de atributos pode alterar a estrutura da árvore, mas não se evita overfitting. Toda árvore de decisão adota uma abordagem gulosa para a escolha do melhor atributo. Para se produzir classificadores mais fracos, poderia se utilizar uma abordagem de amostragem de atributos, o que poderia produzir árvores com menor overfitting. Atributos contínuos já são utilizados mais de uma vez no algoritmo C4.5 ou J48. Entretanto, quando mais subdivisões são feitas em um mesmo atributo, maior a chance de overfitting. 0 / 6 ptsPergunta 4 Para definir precisamente o problema a ser atacado e identificar possibilidades de enriquecimento da base de conhecimento, podemos utilizar como ferramenta: Agregação de atributos. Análise exploratória de dados. Você respondeuVocê respondeu 11/11/2021 22:41 PROVA ONLINE : 09. Machine Learning (2019) https://pucminas.instructure.com/courses/1765/quizzes/60824 5/10 Análise de fatos e julgamentos. Resposta corretaResposta correta ETL – extract, transform, load. Análise de fatos e julgamentos é uma técnica para definição do problema de negócio a ser abordado, identificando uma pergunta orientada a dados. As demais opções representam diversas etapas do KDD e da ciência de dados. 6 / 6 ptsPergunta 5 Se você possui um problema com uma grande base de dados, em que o importante é a acurácia de classificação em detrimento da interpretabilidade do modelo, o algoritmo mais adequado para o problema é: Árvore de decisão. Rede Neural. Correto!Correto! A-priori. Naïve Bayes. 11/11/2021 22:41 PROVA ONLINE : 09. Machine Learning (2019) https://pucminas.instructure.com/courses/1765/quizzes/60824 6/10 A princípio a rede neural é o algoritmo mais adequado para se obter uma alta acurácia, mas seu modelo não é interpretável. A maior acurácia pode ser obtida aumentando-se o número de neurônios na camada oculta ou até mesmo o número de camadas ocultas. Entretanto, deve-se atentar para a possibilidade de overfitting. É importante que se tenha a quantidade de dados adequada para que o aprendizado possa convergir sem a necessidade de muitas épocas. O algoritmo de Naive Bayes por vezes se sai tão bem quanto uma rede neural, ou pode obter até mesmo uma acurácia superior à da rede neural, mas ele é muito sensível à distribuição dos dados e pode sofrer com variáveis condicionalmente dependentes. 6 / 6 ptsPergunta 6 Um atributo CONCEITO pode receber os valores: A, B, C, D e E, que representam o conceito que um aluno obteve ao cursar uma disciplina. Esse atributo é do tipo: Qualitativo ordinal. Correto!Correto! Quantitativo multivalorado. Quantitativo discreto. Qualitativo categórico. 11/11/2021 22:41 PROVA ONLINE : 09. Machine Learning (2019) https://pucminas.instructure.com/courses/1765/quizzes/60824 7/10 O conceito é um atributo polinominal, mas ele possui relação de ordem entre seus valores, uma vez que o conceito A > B > C > D > E, e por isso é considerado um dado ordinal. 6 / 6 ptsPergunta 7 É uma abordagem do aprendizado não supervisionado: Indução de regras. Agrupamento de dados por densidade. Correto!Correto! Mistura de dados rotulados e não rotulados. Receber feedback do ambiente. Agrupamento é uma tarefa típica de aprendizado não supervisionado. A indução de regras pode ser não supervisionada, como no caso de regras de associação, ou supervisionada, como no caso de árvore de decisão. A mistura de dados não rotulados com dados rotulados é chamado de aprendizado semi supervisionado. Receber feedback do ambiente é uma tarefa típica de aprendizado por reforço. 0 / 6 ptsPergunta 8 11/11/2021 22:41 PROVA ONLINE : 09. Machine Learning (2019) https://pucminas.instructure.com/courses/1765/quizzes/60824 8/10 Em aprendizado de máquina, dados são descritos a partir de análises estatísticas. modelos computacionais são construídos a partir de exemplos. Resposta corretaResposta correta algoritmos são construídos a partir de métodosde resolução de problema. Você respondeuVocê respondeu regras são construídas a partir do conhecimento de especialistas. A definição formal de aprendizado de máquina, conforme Tom Mitchel, é que o aprendizado de máquina consiste de algoritmos que aprendem com exemplos. A presença do especialista não é necessária caso seja feito aprendizado não supervisionado. Mesmo no aprendizado supervisionado, fatos podem representar o conhecimento do especialista. Apesar da análise estatística ser componente básico da maioria dos algoritmos de aprendizado de máquina, ela não é uma condição obrigatória para a existência dos algoritmos de aprendizado. No aprendizado de máquina o foco não é na construção de algoritmos, mas na indução de modelos, utilizando- se algoritmos de aprendizado já existentes. 6 / 6 ptsPergunta 9 Sobre medidas de distância, podemos afirmar que: 11/11/2021 22:41 PROVA ONLINE : 09. Machine Learning (2019) https://pucminas.instructure.com/courses/1765/quizzes/60824 9/10 Similaridade de cossenos é adequada para dados esparsos, com um elevado número de dimensões. Correto!Correto! O Rank pode ser utilizado para permitir a utilização de distância binárias em dados categóricos não ordinais. Distância de Jaccard é utilizada para variáveis binárias simétricas. Distância euclidiana é adequada para dados com elevada dimensão que não estejam normalizados. A distância de Jaccard é utilizada para dados assimétricos. A distância euclidiana sofre muito com a maldição da dimensionalidade e é sensível à normalização dos dados. O rank só pode ser utilizado para dados polinominais ordinais. 0 / 6 ptsPergunta 10 Segundo Joe Blitzstein e Hanspeler Plister, “Introduction to Data Science”, Harvard Data Science Course, as etapas do processo de ciência de dados são: Entender o negócio, preparar dados, modelar o problema, avaliar o modelo e fazer a distribuição do modelo. Amostrar dados, explorar dados, modificar dados, modelar dados e avaliar o modelo. Identificar as necessidades, selecionar, limpar e enriquecer dados, identificar padrões e descrever resultados. Você respondeuVocê respondeu Coletar dados, explorar dados, modelar dados, comunicar e visualizar resultados. Resposta corretaResposta correta 11/11/2021 22:41 PROVA ONLINE : 09. Machine Learning (2019) https://pucminas.instructure.com/courses/1765/quizzes/60824 10/10 A ciência de dados em sua visão clássica tem como princípio base a indução de modelos com a finalidade de comunicar e visualizar os resultados, sem o objetivo específico de distribuir os modelos para uso comercial. Por isso suas etapas são: "Coletar dados, explorar dados, modelar dados, comunicar e visualizar resultados". As etapas do CRIP-DM, usado no processo de mineração de dados são: "Entender o negócio, preparar dados, modelar o problema, avaliar o modelo e fazer a distribuição do modelo." Finalmente, o processo de KDD consiste em: "Identificar as necessidades, selecionar, limpar e enriquecer dados, identificar padrões e descrever resultados". Pontuação do teste: 24 de 60