Prévia do material em texto
Revisar envio do teste: QUESTIONÁRIO UNIDADE ICIÊNCIA DE DADOS CONTEÚDO Pergunta 1 Resposta Selecionada: c. Respostas: a. b. c. d. e. Comentário da resposta: Imagine uma empresa de varejo que vende produtos eletrônicos. Ela coleta dados de vendas ao longo do tempo, incluindo informações como datas de venda, tipos de produtos vendidos, preços, promoções, dados climáticos e feriados. O objetivo de um cientista de dados é utilizar técnicas para prever a demanda futura dos produtos. Isso ajudará a empresa a otimizar os níveis de estoque, planejar promoções e melhorar a e�ciência operacional. Dado o conhecimento das etapas da ciência de dados, indique qual é a etapa em que são desenvolvidos modelos de mineração de dados. Modelagem. Coleta de dados. Limpeza de dados. Modelagem. Avaliação. Comunicação dos resultados. Resposta: C Comentário: Na etapa de modelagem, os cientistas de dados desenvolvem modelos de mineração de dados, aplicando algoritmos de machine learning e outras técnicas para criar previsões, classi�cações ou insights a partir dos dados coletados e preparados. No contexto do exemplo dado, o cientista de dados desenvolveria modelos para prever a demanda futura dos produtos eletrônicos da empresa de varejo. Pergunta 2 Após o uso constante de um modelo para treinamento de máquina, o analista responsável começa a observar que mesmo ampliando a complexidade dos problemas, a máquina apresenta um desempenho insatisfatório em relação aos dados de treinamento. Ele acredita que isso se deve ao fato de que o modelo que está sendo testado é muito simples e, por isso, apresenta di�culdade de capturar padrões. Como podemos classi�car esse tipo de fenômeno? 0,5 em 0,5 pontos 0,5 em 0,5 pontos Ask http://company.blackboard.com/ https://ava.ead.unip.br/webapps/blackboard/execute/courseMain?course_id=_361988_1 https://ava.ead.unip.br/webapps/blackboard/content/listContent.jsp?course_id=_361988_1&content_id=_4135155_1&mode=reset https://ava.ead.unip.br/webapps/login/?action=logout Resposta Selecionada: b. Respostas: a. b. c. d. e. Comentário da resposta: Under�tting. Upper�tting. Under�tting. Over�tting. Hiper�tting. Down�tting. Resposta: B Comentário: Nesse cenário, o analista acredita que o modelo está muito simples para capturar a complexidade dos dados, resultando em um desempenho insatisfatório tanto em relação aos dados de treinamento quanto em relação aos dados de teste ou validação. Esse fenômeno é chamado de "under�tting", quando o modelo é muito simpli�cado para representar corretamente os padrões presentes nos dados. Pergunta 3 Resposta Selecionada: b. Respostas: a. b. c. d. Uma empresa de desenvolvimento de softwares, que inclui entre seus produtos um sistema de envio e recebimento de e-mails, optou por criar uma nova versão do sistema com melhorias nos �ltros de detecção de spam. Para esse propósito, a equipe de engenharia de software recebeu a tarefa de treinar o software. Considerando esse exemplo, analise as opções abaixo e indique aquela que explica o objetivo do treinamento de um modelo de aprendizado de máquina. Ajustar os parâmetros do modelo para minimizar a função de perda. Ajustar os parâmetros do modelo para maximizar a função de perda. Ajustar os parâmetros do modelo para minimizar a função de perda. Ajustar os parâmetros do modelo para maximizar a função de recompensa. Ajustar os parâmetros do modelo para minimizar a função de recompensa. 0,5 em 0,5 pontos e. Comentário da resposta: Ajustar os parâmetros do modelo para maximizar a precisão do modelo. Resposta: B Comentário: O objetivo do treinamento de um modelo de aprendizado de máquina é ajustar seus parâmetros de forma a minimizar a função de perda. Essa função de perda mede a discrepância entre as previsões do modelo e os valores reais no conjunto de treinamento. Ao minimizar a função de perda, o modelo se torna mais apto a fazer previsões precisas e generalizadas para novos dados. No caso do exemplo dado, a empresa busca melhorar a detecção de spam em e-mails. Pergunta 4 Resposta Selecionada: a. Respostas: a. b. c. d. e. Qual é a suposição feita pelos algoritmos de Naive Bayes? As variáveis são independentes umas das outras ao fazer suas previsões. As variáveis são independentes umas das outras ao fazer suas previsões. As variáveis são dependentes umas das outras ao fazer suas previsões. O relacionamento entre as variáveis é sempre linear. O relacionamento entre as variáveis é sempre não linear. O modelo deve ser treinado com dados rotulados. 0,5 em 0,5 pontos Comentário da resposta: Resposta: A Comentário: A suposição feita pelos algoritmos de Naive Bayes é que as variáveis (ou características) são independentes entre si, dada a classe (ou categoria) a que pertencem. Isso é conhecido como "suposição de independência condicional". Embora essa suposição possa ser simplista para muitos cenários da vida real, os algoritmos Naive Bayes frequentemente apresentam um bom desempenho em problemas de classi�cação, como a categorização de e-mails em spam ou não spam, devido à sua e�ciência e relativa simplicidade. Pergunta 5 Resposta Selecionada: e. Respostas: a. b. c. d. e. Comentário da resposta: Analise as opções abaixo e indique qual delas corresponde aos parâmetros necessários para se obter bons resultados na classi�cação. Selecionar cuidadosamente as características relevantes, escolher o algoritmo de classi�cação apropriado, ajustar os hiperparâmetros do modelo e realizar uma avaliação rigorosa. Ter um conjunto de dados representativo e su�cientemente grande para treinar o modelo de classi�cação, evitando vieses ou problemas de generalização. Compreender o contexto, identi�car as informações mais relevantes e comunicá-las de forma clara e concisa. Utilizar técnicas de segmentação de mercado e detecção de fraudes. Escolher entre sumarização automática e sumarização manual. Selecionar cuidadosamente as características relevantes, escolher o algoritmo de classi�cação apropriado, ajustar os hiperparâmetros do modelo e realizar uma avaliação rigorosa. Resposta: E Comentário: Para obter resultados satisfatórios na classi�cação, é essencial selecionar as características relevantes, optar pelo algoritmo de classi�cação adequado, ajustar os hiperparâmetros do modelo para otimizar o desempenho e conduzir uma avaliação rigorosa para garantir que o modelo generalize bem para novos dados. Essas etapas são cruciais para construir um modelo de classi�cação e�caz e bem ajustado. 0,5 em 0,5 pontos Pergunta 6 Resposta Selecionada: d. Respostas: a. b. c. d. e. Comentário da resposta: A sumarização na mineração de dados refere-se ao processo de extrair informações ou conhecimentos essenciais e concisos a partir de conjuntos de dados complexos e volumosos. O objetivo é reduzir a quantidade de dados sem perder informações críticas. Isso envolve identi�car padrões, tendências, características principais ou resumos estatísticos que capturem o signi�cado subjacente dos dados. Indique qual das alternativas abaixo apresenta de forma correta a diferença entre sumarização automática e sumarização manual. A sumarização automática é baseada em regras pré-de�nidas ou algoritmos, enquanto a sumarização manual é baseada na interpretação humana dos dados. A sumarização automática é realizada por humanos, enquanto a sumarização manual é realizada por algoritmos de aprendizado de máquina. A sumarização automática é mais precisa e con�ável do que a sumarização manual. A sumarização automática é mais rápida e e�ciente do que a sumarização manual. A sumarização automática é baseada em regras pré-de�nidas ou algoritmos, enquanto a sumarização manual é baseada na interpretação humana dos dados. A sumarização automática é mais cara e complexa do que a sumarização manual. Resposta: D Comentário: A diferença entre a sumarização automática e a sumarização manual reside no processo envolvido. A sumarização automática é realizada por meio dealgoritmos ou regras pré- de�nidas que extraem informações importantes dos dados de forma automatizada, sem intervenção humana direta. Por outro lado, a sumarização manual envolve a interpretação humana dos dados para identi�car e extrair informações relevantes e criar resumos de forma deliberada e subjetiva. Portanto, a alternativa “d” re�ete corretamente essa diferença. 0,5 em 0,5 pontos Pergunta 7 Resposta Selecionada: e. Respostas: a. b. c. d. e. Comentário da resposta: O que é necessário para avaliar o desempenho de um modelo de aprendizado de máquina? Dados de validação ou teste e métricas como acurácia, precisão, recall e F1-score. Dados de validação ou teste e a de�nição adequada das características e atributos relevantes. A escolha do modelo correto e a otimização dos parâmetros do modelo para minimizar o erro. A interpretação correta dos resultados e a seleção de recursos relevantes. A qualidade dos dados e a escolha de uma função de perda apropriada. Dados de validação ou teste e métricas como acurácia, precisão, recall e F1-score. Resposta: E Comentário: A avaliação do desempenho de um modelo de aprendizado de máquina requer o uso de dados de validação ou teste, que não foram usados durante o treinamento do modelo, para veri�car como o modelo se sai em dados não vistos. Além disso, é necessário usar métricas apropriadas para avaliar diferentes aspectos do desempenho do modelo. Métricas comuns incluem acurácia (taxa de previsões corretas), precisão (quantidade de verdadeiros positivos dividida pelo total de positivos previstos), recall (quantidade de verdadeiros positivos dividida pelo total de verdadeiros positivos reais) e F1-score (uma média harmônica entre precisão e recall). Essas métricas ajudam a entender o quão bem o modelo está funcionando e onde podem existir desequilíbrios ou problemas de desempenho. Pergunta 8 0,5 em 0,5 pontos 0,5 em 0,5 pontos Resposta Selecionada: c. Respostas: a. b. c. d. e. Comentário da resposta: Segundo Géron, A. (2017), "A preparação de dados para análise envolve várias etapas importantes para garantir que os dados estejam limpos, consistentes e prontos para serem usados em análises ou modelagens". Podemos citar como etapas dessa preparação a Coleta de Dados, a Limpeza de Dados, o Pré- processamento, a Redução de Dimensionalidade, o Tratamento de Outliers, a Codi�cação de Categorias e a Amostragem, entre outras. Com base nas colocações de Géron, indique qual das alternativas abaixo de�ne corretamente o pré- processamento de dados: Um processo de limpeza, transformação e redução de dados brutos para torná-los adequados para análise. Um conjunto de técnicas para a análise de dados. Um método para a visualização de dados complexos. Um processo de limpeza, transformação e redução de dados brutos para torná-los adequados para análise. Um conjunto de ferramentas para a coleta de dados. Um campo de estudo que se concentra na interpretação de dados. Resposta: C Comentário: O pré-processamento de dados envolve várias etapas, incluindo limpeza, transformação e redução de dados brutos para prepará-los para análises ou modelagens subsequentes. Essas etapas visam melhorar a qualidade, consistência e utilidade dos dados, garantindo que estejam em um formato apropriado para as próximas fases da análise ou modelagem. Portanto, a alternativa “c” de�ne corretamente o pré-processamento de dados de acordo com a colocação de Géron. Pergunta 9 Resposta Selecionada: d. Respostas: a. b. Segundo Laney (2001), Big Data são conjuntos de dados extremamente grandes e complexos que exigem tecnologias e métodos especí�cos para armazenamento, processamento e análise devido ao seu tamanho e complexidade. Das alternativas abaixo, qual corresponde às características de um Big Data, segundo Laney? Volume, Velocidade e Variedade. Intangibilidade, Granularidade e Estruturação. Gerar valor, Privacidade, Agrupável. 0,5 em 0,5 pontos Sábado, 14 de Dezembro de 2024 00h02min01s BRT c. d. e. Comentário da resposta: Estruturação, Privacidade, Volume. Volume, Velocidade e Variedade. Variedade, Granularidade e Agrupável. Resposta: D Comentário: Segundo o autor Doug Laney, em 2001, ele propôs a de�nição dos "3 Vs" para caracterizar Big Data: Volume (grande quantidade de dados), Velocidade (alta taxa de geração e processamento de dados) e Variedade (diversidade de tipos de dados, como estruturados, não estruturados e semiestruturados). Essas características destacam a complexidade dos conjuntos de dados que são considerados Big Data. Pergunta 10 Resposta Selecionada: b. Respostas: a. b. c. d. e. Comentário da resposta: A descrição a seguir se refere a qual tipo de modelo de machine learning? “É um modelo usado para problemas de classi�cação binária, em que a variável de saída é categórica com duas classes. Ele estima a probabilidade de um evento ocorrer, mapeando a entrada para uma função logística.” Regressão Logística. Regressão Linear. Regressão Logística. Árvores de Decisão. Máquinas de Vetores de Suporte (SVM). Redes Neurais Arti�ciais. Resposta: B Comentário: A descrição dada se encaixa no modelo de Regressão Logística. Embora o nome possa sugerir que seja usado para regressão, a Regressão Logística é frequentemente usada para problemas de classi�cação binária, em que a variável de saída é categórica com duas classes. Ela estima a probabilidade de um evento ocorrer usando uma função logística, que mapeia as entradas para uma probabilidade entre 0 e 1. ← OK 0,5 em 0,5 pontos