Baixe o app para aproveitar ainda mais
Prévia do material em texto
A1 1) Quais foram as variáveis estudadas? Variáveis: Máquina, Produção, Layout e Funcionários. 2) Qual o tipo de cada variável, quantitativa ou qualitativa? Se quantitativa, qual sua unidade de medida? Se qualitativa, que níveis ou classes podem assumir? Variáveis quantitativas: Máquinas (números) e Funcionários (números). Variáveis qualitativas: Otimização da Produção (retrofitting) e Layout (reformulação) 3) Como pode esse modelo de regressão linear múltipla ser usado para fazer predição de volume de produção de cada linha da fábrica? O objetivo do modelo de regressão linear múltipla é encontrar qual o melhor cenário onde sejam produzidas o maior número de peças por hora. Para isso as diversas variáveis são correlacionadas para fornecer o resultado do número de peças por hora. O que possibilita fazer simulações aumentando ou mantendo o mesmo número de funcionários, mudando a velocidade das máquinas e alterando o layout, a quem trabalhe com esse modelo de regressão linear múltipla. Com isso cada simulação irá fornecer resultados diferentes até que se chegue no cenário desejado a implantar. 4) Reflita sobre situações similares em que você poderia aplicar essa mesma técnica (regressão linear múltipla) para gerar conhecimento a partir de dados. Descreva brevemente uma dessas situações que você pensou, identifique cada uma das variáveis de entrada e a variável resposta, descreva o tipo de cada uma delas (se quantitativa ou qualitativa) e forneça suas unidades de medida (se quantitativas) ou seus níveis ou classes (se qualitativas). Em uma fábrica onde se utiliza uma caldeira sempre é buscado uma maior produção de vapor e essa produção pode ser melhorada de acordo com o combustível utilizado nela. Então para a produção de vapor em toneladas por hora de uma caldeira utilizei as seguintes variáveis: Variável Y - tonelada de vapor por hora (ton/h) - variável quantitativa; x1 - quantidade de combustível (ton) - variável quantitativa; x2 - umidade do combustível - variável qualitativa em que as classes seriam 0 = "<50% de umidade" e 1 = ">= 50% de umidade"; x3 - aditivo de combustível, uma variável qualitativa em que as classes seriam 1 = "uso de aditivo" e 0 = "sem aditivo". A3 1) Quais são as variáveis de entrada e qual é a variável resposta? E quais são os seus tipos? As variáveis de entrada são Processo A, B e C (quantitativa), Equipes (qualitativa), Movimentação diária (qualitativa) e a varíaveil resposta é conformidade dos contratos (qualitativa). 2)Que variável de entrada a árvore de decisão considerou como a mais importante? E qual a segunda variável mais importante? A variável de entrada considerada como mais importante foi Processo. E a segunda mais importante é a variável equipes. 3)Esta árvore, como modelo preditivo, considerou relevante o efeito do movimento alto ou baixo na produção de contratos não conformes? Não foi considerado relevante o efeito do movimento alto ou baixo na produção de contratos não conformes (NC) nessa árvore. 4)De acordo com as predições desta árvore, qual a melhor solução a ser empregada pela companhia de telefonia móvel? A melhor solução empregada pela companhia móvel é o processo B de emissão de contrato com a equipe de tamanho reduzido. A2 1) Vimos que há dois principais tipos de aprendizagem supervisionada: problema de regressão e problema de classificação. São os tipos de variáveis resposta dos dados em análise que distinguem esses dois tipos entre si. Relativamente a esses dois tipos, analise as afirmativas a seguir. II e III, apenas. 2) Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, uma jovem cientista de dados usou gráficos de dispersão. Como cientista de dados, ela sabia exatamente em que situações empregar gráficos de dispersão. E você, será que você também já sabe? Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). F,V,V,V. 3) Continuando com o mesmo caso da questão anterior, relativa à aprovação, pelos bancos, de crédito na forma de cartão de crédito, como se fazia, no passado, a aprovação da concessão de cartões de crédito pelos bancos? E, hoje em dia, como os bancos fazem essa aprovação? Reflita sobre essas perguntas e suas respostas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). V,V,V,V. 4) Os dados cedidos pelo gerente do banco estavam bem organizados e livres de erros. A nossa jovem cientista de dados não precisou, portanto, fazer uma limpeza e pré-tratamento dos dados e pode prosseguir imediatamente para uma análise descritiva deles antes do desenvolvimento do modelo. Tendo isso em vista, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). V,V,V,V. 5) O modelo de regressão logística simples desenvolvido por uma jovem cientista de dados para a predição da probabilidade de inadimplência com o cartão de crédito foi: 7% e 27%. 6) Estudamos algoritmos preditivos com base em (1) modelos de regressão linear e (2) modelos de regressão logística. Esses modelos são aplicados em situações bem distintas, que dependem, essencialmente, da natureza da variável resposta, também chamada de variável dependente. Com esses dois modelos em mente, analise as afirmativas a seguir. II,III,IV, apenas. 7) O ser humano tem enorme facilidade em agrupar, por similaridade, e classificar coisas, todos os tipos de coisas. Por conta disso, problemas de classificação são muito frequentes no mundo, mais frequentes que problemas de regressão. Fornecemos alguns exemplos de aplicação de métodos de classificação no mundo dos negócios. Dentre esses exemplos, encontramos: I, II, III, IV. 8) Dados podem aparecer na forma de textos, imagens, vídeos, sons, tabelas, listas, sequências, séries, etc. São muitos os dados que hoje coletamos de diferentes fontes, e muitas as formas de organizá-los e armazená-los. Uma dessas forma, talvez a mais importante delas, são os dados estruturados. Relativamente a esse assunto, analise as afirmativas a seguir. III e IV, apenas. 9) Ao longo das nossas discussões, demos foco a um classificador chamado de regressão logística que, apesar do nome regressão (esse nome por razões históricas e por conta de algumas de suas características), é usado como um classificador. Mas também vimos que existem outros tipos de classificadores. Relativamente a esse assunto de algoritmos de classificação, analise as afirmativas a seguir. II, III e IV, apenas. 10) Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, uma jovem cientista de dados usou boxplots (diagramas de caixas). Como cientista de dados, ela sabia exatamente em que situações empregar boxplots. E você, será que você também já sabe? Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). V,V,F,V. A4 1) Os métodos de aprendizagem estatística (statistical learning, em inglês) são divididos em métodos de aprendizagem supervisionada e métodos de aprendizagem não supervisionada. Para cada uma dessas diferentes abordagens, há uma coleção relativamente grande de diferentes métodos, cada um com seu próprio jeito de funcionamento. Assinale a alternativa que indica um problema de aprendizagem não supervisionada: Desejamos entender se há similaridade entre observações (indivíduos) de uma certa amostra de dados. 2) Na estatística ou, genericamente, na análise de dados, muito frequentemente analisamos dados ditos retangulares ou estruturados, onde as variáveis - quantitativas ou qualitativas - são dispostas nas colunas e as observações na linhas de uma tabela. Em algumas situações é vantajoso se fazer a padronização das variáveis quantitativas. Assinale a alternativa correta relativamente ao assunto de padronizaçãode variáveis quantitativas na estatística: Na padronização, se subtrai de cada variável sua média, e depois se divide o resultado pelo seu desvio padrão. 3) Quando os dados se referem a múltiplas variáveis quantitativas, é possível calcular a correlação entre pares dessas variáveis, duas a duas. No software estatístico R, isto pode ser feito com a função cor(). Adiante apresentamos um output típico da função cor() quando aplicada ao cálculo da correlação entre quatro variáveis quantitativas de um determinado conjunto de dados. V, V, V, F. 4) Quando acontece de haver várias variáveis quantitativas em uma determinada amostra de dados, é comum a realização da análise da (possível) relação entre essas variáveis por meio do cálculo de suas correlações. Neste caso, o cálculo de suas correlações sempre é feito de duas em duas variáveis. Comumente, também se apresenta a correlação de cada variável com ela mesma, o que sempre resulta em uma correlação perfeita, igual a 1. V, V, V, V. 5) Leia o excerto a seguir: “Exploração de dados é a arte de olhar os seus dados, rapidamente gerar hipóteses sobre eles, e rapidamente testar essas hipóteses. E repetir isso outra vez, outra vez, outra vez. O objetivo da exploração de dados é a geração de pistas sobre o que os dados nos revelam, pistas que você poderá explorar, mais tarde, em maior profundidade.” WICKHAM, Hadley; GROLEMUN, Garret. R for data science : import, tidy, transform, visualize, and model dada. Sebastopol (CA): O’Reilly Media, 2017, p.1. V, V, V, V. 6) Discutimos o que são aprendizagem supervisionada e não supervisionada. Vimos que é na forma como tratamos as variáveis estudadas que se dá a diferença entre esses dois tipos de aprendizagens, supervisionada e não supervisionada. Esses dois tipos são os mais importantes dentre os diversos tipos de aprendizagem. Relativamente a esse assunto, analise as afirmativas a seguir: I, II, III e IV. 7) A escolha de grupos formados por um algoritmo de agrupamento hierárquico pode ser feita por meio da leitura do dendrograma resultante. Escolhe-se a altura (Height) desejada, se traça uma linha horizontal a partir dessa altura, que cruzará com as linhas verticais dos grupos formados nesta altura. O cientista de dados decide se esses grupos são adequados para a sua análise. V, F, F, V. 8) O texto em referência explica que o processo de descoberta com a mineração de dados possui tanto um sentido romântico (um processo emocionante e prazeroso), quanto técnico (um estudo criterioso sobre dados). Também defende a ideia que é preciso conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera receber.. Ou seja, o que as pessoas necessitam e esperam receber.Lei I e II apenas; 9) O texto em referência apresenta como exemplo de agrupamento uma companhia de vendas online que deseja agrupar seus clientes com base em suas características comuns (renda, idade, número de filhos, estado civil, grau de educação, etc.). Com o resultado do agrupamento, eles definirão campanhas de marketing e de divulgação específicas para cada um dos diferentes grupos que vierem a ser definidos. F, F, F, F. 10) Na estatística, quanto duas variáveis quantitativas comportam-se uma em relação à outra de forma aproximadamente linear, é comum se calcular a correlação entre elas. Esse cálculo, entretanto, ao estudo da relação entre duas variáveis qualitativas, ou entre uma variável quantitativa e uma variável qualitativa. F,V,V,F.
Compartilhar