Prévia do material em texto
Análise e modelagem preditiva Professor(a): Orlando da Silva Junior (Mestrado acadêmico) 1) 2) Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova! Para avaliar um modelo preditivo, devemos seguir três passos. O primeiro deles é determinar a _________ que será utilizada para avaliar o modelo. E, neste caso, podemos usar mais de uma ao mesmo tempo. Em seguida, devemos preparar os experimentos, particionando os dados em 80% para treinamento e 20% para _________. Por fim, vamos executar os algoritmos nos dados de _________ e coletar os resultados nos dados de _________ e _________. Assinale a alternativa que completa adequadamente as lacunas: Alternativas: Medida; treinamento; avaliação; teste; avaliação. Métrica; teste; treinamento; avaliação; teste. CORRETO Métrica; treinamento; treinamento; avaliação; teste. Medida; treinamento; avaliação; treinamento; teste. Métrica; teste; teste; treinamento; avaliação. Código da questão: 61702 Sobre o processo de avaliação de modelos preditivos, analise as afirmativas a seguir e assinale-as com V (verdadeiro) ou F (falso): ( ) A divisão da base de dados histórica deve ser feita em três subconjuntos disjuntos: treinamento, validação e teste. ( ) O treinamento deve ser realizado sobre os dados de teste e avaliados nos dados de validação. ( ) Os dados históricos são divididos para que as estimativas sejam menos otimistas sobre o desempenho do preditor. ( ) A estimação é realizada pelo algoritmo de aprendizagem sobre os dados de teste. Assinale a alternativa que contenha a sequência correta: Alternativas: V – F – V – F. CORRETO V – V – F – V. F – F – V – V. F – V – F – V. F – F – V – F. Código da questão: 61703 Resolução comentada: para avaliar um modelo preditivo, devemos seguir três passos. O primeiro deles é determinar a métrica que será utilizada para avaliar o modelo. E, neste caso, podemos usar mais de uma ao mesmo tempo. Em seguida, devemos preparar os experimentos, particionando os dados em 80% para treinamento e 20% para teste. Por fim, vamos executar os algoritmos nos dados de treinamento e coletar os resultados nos dados de avaliação e teste. Resolução comentada: o treinamento deve ser realizado sobre os dados de treinamento e avaliados nos dados de teste. A estimação é realizada pelo algoritmo preditor sobre os dados de teste. 3) 4) 5) A amostragem é um processo estatístico que visa obter pequenas partes de um conjunto de dados. Sobre as técnicas de reamostragem, podemos afirmar que: I. A amostragem holdout é um tipo de amostragem aleatória em que comumente mais de 60% dos dados são destinados a treinamento. II. Usamos k < 10 na validação cruzada com k partições apenas para grandes volumes de dados. III. Tanto holdout quanto a validação cruzada são computacionalmente eficientes em bases de dados pequenas. IV. A amostragem holdout é sempre preferível à validação cruzada para conjuntos de dados com menos de 10 mil objetos. São verdadeiras: Alternativas: II e III, apenas. I e II, apenas. I, apenas. CORRETO I, II e IV, apenas. II e IV, apenas. Código da questão: 61705 Analytics é uma disciplina focada em entender os porquês de um determinado fenômeno estar acontecendo e/ou o que vai acontecer com esse fenômeno no futuro. A respeito das aplicações analíticas, é correto afirmar que. Alternativas: Elas têm como propósito a compreensão atual do negócio e a construção de um arcabouço de conhecimentos para tomada de decisão. CORRETO O conhecimento construído pelos tomadores de decisão a partir dos dados permite que novas aplicações sejam desenvolvidas. INCORRETO Os ambientes organizacionais servem como local para construção e experimentação de protótipos de sistemas baseados em dados. As áreas de negócio dependem do arcabouço de conhecimentos construído pelas áreas de tecnologia para tomarem decisões. A tomada de decisão se origina com o uso eficiente dos dados, transformados em conhecimento e previamente pré-processados. Código da questão: 61694 A composição dos atributos é uma peça fundamental na modelagem preditiva. Em geral, eles descrevem as características do problema e indicam um possível caminho ao analista para encontrar a solução. Diante disso, responda: qual é o papel dos atributos na análise e modelagem preditiva? Resolução comentada: a afirmação I é verdadeira, pois holdout é comumente utilizado com mais de 60% dos dados para treinamento; a II é falsa, pois usaríamos k < 10 quanto menor fosse o conjunto de dados, e não maior; a III é falsa, pois holdout é mais custoso computacionalmente que a validação cruzada em bases de dados grandes. A IV também está errada, pois a validação cruzada é sempre preferível em conjuntos de dados pequenos. Resolução comentada: em ambientes organizacionais, o propósito de uma aplicação de Analytics é permitir que você compreenda a situação atual do negócio e forneça ao tomador de decisão um arcabouço de conhecimentos a partir das informações que são disponibilizadas a ele. 6) 7) Alternativas: Uma desvantagem da seleção de atributos é a necessidade de seleção manual das características que formatam o problema. A análise e modelagem preditiva dependem menos dos atributos do que dos algoritmos empregados na solução. O propósito da seleção de atributos na modelagem preditiva é otimizar o desempenho do estimador, especialmente dos classificadores. Os atributos devem ser selecionados de acordo com critérios que respondam ao negócio a fim de reduzir as incertezas sobre o problema. CORRETO Um atributo deve ser suficientemente explicativo em qualquer contexto de predição. Código da questão: 61708 Um modelo preditivo é construído a partir de um __________ formado por objetos únicos e __________ que representam a informação sobre um domínio particular. Ao modelar um problema, os atributos escolhidos deverão reduzir a __________ sobre o que desejamos descobrir. Quando um novo modelo é construído, ele é criado por um algoritmo em um processo de __________, que generalizará os dados particulares do conjunto de dados em uma regra geral. Em machine learning, essa regra consiste no algoritmo __________, aquele que é aplicado a novos casos. Assinale a alternativa que completa adequadamente as lacunas: Alternativas: Conjunto de dados; atributos; incerteza; indução; preditor. CORRETO Conjunto de dados; atributos; desconfiança; dedução; preditor. Base de dados; funções; certeza; indução; preditor. Conjunto de dados; variáveis; incerteza; dedução; indutor. Base de dados; funções; confiança; indução; indutor. Código da questão: 61709 Sobre as principais atividades realizadas durante o pré-processamento de dados visando a modelagem para Analytics, analise as afirmativas a seguir e assinale-as com V (verdadeiro) ou F (falso): ( ) Os atributos menos importantes são removidos durante a integração de dados entre conjuntos de dados diferentes. ( ) O desbalanceamento de objetos entre classes pode ser corrigido durante o processo de aprendizagem de algoritmos evolutivos. ( ) A inconsistência de dados reflete a qualidade e a distribuição multiplataforma dos dados. Assinale a alternativa que contenha a sequência correta: Alternativas: F – F – V. Resolução comentada: os atributos escolhidos para a modelagem devem reduzir a incerteza a respeito do problema que queremos solucionar. Resolução comentada: um modelo preditivo é construído a partir de um conjunto de dados formado por objetos únicos e atributos que representam a informação sobre um domínio particular. Ao modelar um problema, os atributos escolhidos deverão reduzir a incerteza sobre o que desejamos descobrir. Quando um novo modelo é construído, ele é criado por um algoritmo indutivoem um processo de indução, que generalizará os dados particulares do conjunto de dados em uma regra geral. Em machine learning, essa regra consiste no algoritmo preditor, aquele que é aplicado a novos casos. 8) 9) V – V – V. F – F – F. CORRETO V – V – F. F – V – V. Código da questão: 61696 Dados do tipo texto requerem extensos procedimentos de pré-processamento antes de serem aplicados à modelagem de dados. Sobre a preparação de dados textuais, podemos afirmar que: I. A geração de tokens promove a remoção de sinais como pontos, vírgulas, hífens e outros diacríticos durante a análise lexical. II. Na etapa de representação é realizado o mapeamento entre termos, documentos e corpus para dados numéricos, formando um conjunto de dados que será utilizado pelos algoritmos de aprendizagem de máquina. III. O processo de redução do termo ao radical tem como objetivo encontrar os sufixos de palavras semelhantes a fim de identificá-las como únicas. IV. Na eliminação de termos irrelevantes são removidas as palavras que não fazem parte do domínio da aplicação. São verdadeiras: Alternativas: II, III e IV, apenas. I e II, apenas. CORRETO II e IV, apenas. I, apenas. I, III e IV, apenas. Código da questão: 61719 A modelagem preditiva para Analytics compreende não apenas a construção de algoritmos estatísticos, mas também a avaliação de desempenho dos resultados gerados por eles. Diante disso, responda: como garantir que um modelo será construído corretamente? Alternativas: Aumentando a quantidade de dados experimentais. Avaliando a qualidade do código dos algoritmos implementados. Trabalhando com especialistas do negócio e de tecnologia. Por meio de experimentos usando análise ROC. Por meio de um processo de avaliação dos experimentos. CORRETO Resolução comentada: os atributos menos importantes são eliminados na atividade de remoção de atributos. O desbalanceamento de dados entre classes não pode ser corrigido durante o processo de aprendizagem por nenhum algoritmo de classificação. A inconsistência dos dados em soluções analíticas reflete a qualidade dos dados, mas não a distribuição deles entre plataformas. Resolução comentada: a afirmação I é verdadeira, porque o objetivo da análise lexical é converter sequências de caracteres em tokens, removendo sinais gráficos para formar o primeiro conjunto de termos; a II também é verdadeira, pois a fase de representação objetiva cria o conjunto de dados final para modelagem preditiva; a III é falsa, pois o sufixo não faz parte do radical das palavras; por fim, a IV também está incorreta, pois, na eliminação de termos irrelevantes, são removidas palavras comuns da língua que não agregam para o problema, como artigos, preposições e pronomes. 10) Código da questão: 61701 A respeito da avaliação de modelos preditivos, é correto afirmar que: Alternativas: Uma mesma medida de desempenho pode ser aplicada em problemas de regressão e classificação. A avaliação é realizada sobre os dados de treinamento em problemas de regressão. A avaliação é realizada sobre os dados de treinamento durante a otimização do modelo. Os dados históricos devem ser divididos em subconjuntos distintos para fins experimentais. CORRETO A estimação ou classificação sobre novos dados é realizada antes da etapa de treinamento. Código da questão: 61706 Resolução comentada: não existe uma única técnica capaz de resolver todos os problemas. Assim, métodos de diferentes paradigmas precisam ser experimentados, bem como diferentes algoritmos desses métodos. E, neste caso, também devem ser avaliados. Além disso, a melhor configuração de hiperparâmetros deve ser encontrada, exigindo também a experimentação. Resolução comentada: considerando o processo de avaliação de modelos, é correto dividir os dados históricos em subconjuntos distintos. Problemas de regressão e classificação utilizam medidas diferentes em razão do rótulo. A avaliação é sempre realizada sobre os dados não vistos no treinamento. A última etapa do processo de avaliação é a predição de novos valores. Arquivos e Links