Prévia do material em texto
27/06/2022 22:39 N2 (A5): Revisão da tentativa https://ambienteacademico.com.br/mod/quiz/review.php?attempt=961051&cmid=343066 1/10 Minhas Disciplinas 221RGR0890A - ESTATISTICA APLICADA AO DATA SCIENCE PROVA N2 (A5) N2 (A5) Iniciado em segunda, 27 jun 2022, 20:26 Estado Finalizada Concluída em segunda, 27 jun 2022, 21:51 Tempo empregado 1 hora 24 minutos Avaliar 9,00 de um máximo de 10,00(90%) Questão 1 Completo Atingiu 1,00 de 1,00 Leia o excerto a seguir: “O quadro típico para uma análise em ciência de dados é um objeto de dados retangulares, como uma planilha ou tabela de banco de dados. Dado retangularé basicamente uma matriz bidimensional com linhas indicando registros (caso) e colunas indicando características (variáveis). Os dados nem sempre começam dessa forma: dados não estruturados (por exemplo, texto) devem ser processados e tratados de modo a serem representados como um conjunto de características nos dados retangulares.” BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019. p. 5–6. Tomando como base esse texto e o que já discutimos sobre dados estruturados, tabulares e retangulares, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) É impossível converter dados não estruturados em representações estruturadas, para que possam ser analisados pela ciência dos dados. II. ( ) Dados retangulares não são uma forma típica de organização de dados para análise em ciência dos dados. III. ( ) Textos são dados estruturados, pois sempre vêm em estruturas bem padronizadas, como aquelas que estudamos em gramática. IV. ( ) Dados retangulares, dados tabulares ou dados estruturados são termos usados como sinônimos na ciência dos dados. Assinale a alternativa que apresenta a sequência correta: a. F, F, V, F. b. F, F, F, F. c. F, F, V, V. d. F, F, F, V. e. F, V, F, V. NAP CPA Responsabilidade Socioambiental https://ambienteacademico.com.br/my/ https://ambienteacademico.com.br/course/view.php?id=12295 https://ambienteacademico.com.br/course/view.php?id=12295§ion=6 https://ambienteacademico.com.br/mod/quiz/view.php?id=343066 https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html https://portal.fmu.br/sustentabilidade 27/06/2022 22:39 N2 (A5): Revisão da tentativa https://ambienteacademico.com.br/mod/quiz/review.php?attempt=961051&cmid=343066 2/10 Questão 2 Completo Atingiu 0,00 de 1,00 Algoritmos de aprendizado de máquina nos permitem tratar de problemas que seriam difíceis de serem tratados por regras criadas por seres humanos, mas que, curiosamente, ficam relativamente fáceis de serem tratados por algoritmos criados por seres humanos. As formas de solução desses problemas são chamadas tarefas de aprendizado de máquina. Tomando como base esse texto e o que já discutimos sobre as tarefas de aprendizado de máquina, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Tarefas de regressão são capazes de predizer valores para variáveis resposta quantitativas e tarefas de classificação para variáveis resposta qualitativas. II. ( ) Tarefas de classificação com dados faltantes são tarefas de classificação aplicadas a situações em que alguns dados de entrada estão faltando. III. ( ) Transcrição é uma tarefa na qual se pede ao algoritmo que transcreva um conjunto de dados não tão bem estruturados em uma forma discreta bem estruturada. IV. ( ) Tradução é uma tarefa em que se pede ao algoritmo que converta uma sequência de símbolos escritos em uma linguagem para uma sequência de símbolos em outra linguagem. Assinale a alternativa que apresenta a sequência correta: a. F, V, F, V. b. F, F, V, V. c. F, V, V, F. d. V, V, V, V. e. F, F, F, F. NAP CPA Responsabilidade Socioambiental https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html https://portal.fmu.br/sustentabilidade 27/06/2022 22:39 N2 (A5): Revisão da tentativa https://ambienteacademico.com.br/mod/quiz/review.php?attempt=961051&cmid=343066 3/10 Questão 3 Completo Atingiu 1,00 de 1,00 Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, uma jovem cientista de dados usou boxplots (diagramas de caixas). Como cientista de dados, ela sabia exatamente em que situações empregar boxplots. E você, será que você também já sabe? Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Para examinar visualmente a relação entre duas variáveis, em que uma é quantitativa e a outra é qualitativa, não é possível a utilização de gráficos de dispersão. II. ( ) Boxplots são uma solução inteligente para a visualização da relação entre uma variável quantitativa e uma variável qualitativa, em que no eixo horizontal indicamos os níveis da variável qualitativa e no eixo vertical, a variação dos valores observados para a variável quantitativa. III. ( ) Para examinar visualmente a relação entre duas variáveis quantitativas, um dos gráficos preferidos é o diagrama de caixas, também conhecido como boxplot. IV. ( ) Na construção de um boxplot, podemos representar no eixo vertical os níveis da variável qualitativa e no eixo horizontal, os valores da variável quantitativa. Nesse caso, a visualização da variação dos dados da variável quantitativa é exibida horizontalmente, e os níveis (classes) da variável qualitativa são exibidos verticalmente. Assinale a alternativa que apresenta a sequência correta. a. F, V, V, F. b. V, V, F, F. c. V, F, F, V. d. F, F, V, V. e. V, V, F, V. NAP CPA Responsabilidade Socioambiental https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html https://portal.fmu.br/sustentabilidade 27/06/2022 22:39 N2 (A5): Revisão da tentativa https://ambienteacademico.com.br/mod/quiz/review.php?attempt=961051&cmid=343066 4/10 Questão 4 Completo Atingiu 1,00 de 1,00 Ao longo das nossas discussões, demos foco a um classificador chamado de regressão logística que, apesar do nome regressão (esse nome por razões históricas e por conta de algumas de suas características), é usado como um classificador. Mas também vimos que existem outros tipos de classificadores. Relativamente a esse assunto de algoritmos de classificação, analise as afirmativas a seguir. I. Regressão logística é o único método de aprendizagem supervisionada que é utilizado para classificação, todos outros métodos são métodos de regressão. II. Apesar do nome regressão logística, o que acaba sendo um pouco confuso para iniciantes, na verdade este é um dos vários métodos de aprendizagem supervisionada utilizado para classificação. III. Dentre os métodos utilizados para classificação se encontram regressão logística, análise discriminante linear (LDA = Linear Discriminant Analysis), árvores de decisão para classificação, máquinas de vetores de suporte (SVM = support vector machines) e k-vizinhos mais próximos (KNN = k-nearest neighbors). IV. Regressão linear não é um método de classificação, mas, sim, um dos métodos preditivos de aprendizagem supervisionada usados na predição de valores de variáveis respostas quantitativas. Está correto o que se afirma em: a. II, III e IV, apenas. b. III, apenas. c. I, III e IV, apenas. d. II, apenas. e. II e III, apenas. NAP CPA Responsabilidade Socioambiental https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html https://portal.fmu.br/sustentabilidade 27/06/2022 22:39 N2 (A5): Revisão da tentativa https://ambienteacademico.com.br/mod/quiz/review.php?attempt=961051&cmid=343066 5/10 Questão 5 Completo Atingiu1,00 de 1,00 O texto em referência apresenta como exemplo de agrupamento uma companhia de vendas online que deseja agrupar seus clientes com base em suas características comuns (renda, idade, número de filhos, estado civil, grau de educação, etc.). Com o resultado do agrupamento, eles definirão campanhas de marketing e de divulgação específicas para cada um dos diferentes grupos que vierem a ser definidos. DUHAM, Margareth H. Data mining: introductory and advanced topics. Upper Saddle River, NJ: Pearson Education, 2003, p.125. A respeito das fontes que originaram os contos de fadas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Algoritmos de agrupamento só conseguem lidar com variáveis quantitativas. Sendo assim, parte das variáveis disponíveis para esse caso são irrelevantes. II. ( ) Algoritmos de agrupamento são especializados no tratamento de conjuntos de dados exclusivamente qualitativos. III. ( ) Algoritmos de agrupamento podem ter as suas soluções verificadas por um supervisor e, dessa forma, saberemos se o resultado é bom ou ruim. IV. ( ) Seres humanos não possuem habilidade natural para agrupar e depois classificar, já que isso só pode ser realizado por meio de algoritmos. a. V, V, F, F. b. V, V, F, V. c. F, F, F, F. d. V, V, V, V. e. F, V, F, V. NAP CPA Responsabilidade Socioambiental https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html https://portal.fmu.br/sustentabilidade 27/06/2022 22:39 N2 (A5): Revisão da tentativa https://ambienteacademico.com.br/mod/quiz/review.php?attempt=961051&cmid=343066 6/10 Questão 6 Completo Atingiu 1,00 de 1,00 Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco estados americanos parte do famoso conjunto de dados USArrests, o qual possue 50 observações (50 estados americanos) de 4 variáveis (Murder, Assault, UrbanPop e Rape). Obteve o resultado exibido na figura exibida adiante: Figura - Dendrograma do agrupamento dos cinco estados Fonte: Elaborada pelo autor Relativamente à interpretação desta figura, assinale a alternativa correta: a. É um dendrograma, ou seja, um grá�co na forma de uma árvore, que representa os vários grupos formados em cada estágio do processo de agrupamento hierárquico. b. É um dendrograma, ou seja, um grá�co na forma de uma árvore, que lido de baixo para cima, na altura (height) 1,5 sugere a formação de 6 grupos. c. É um dendrograma, ou seja, um grá�co na forma de uma árvore, que lido de cima para baixo, na altura (height) 1,5 sugere a formação de 10 grupos. d. É um dendrograma, ou seja, um grá�co na forma de uma árvore, que sugere serem os estados New Mexico e Oklahoma os mais próximos em termos de violência urbana. e. É um dendrograma, ou seja, um grá�co na forma de uma árvore, que sugere serem os estados Texas e Arkansas os mais próximos em termos de violência urbana. NAP CPA Responsabilidade Socioambiental https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html https://portal.fmu.br/sustentabilidade 27/06/2022 22:39 N2 (A5): Revisão da tentativa https://ambienteacademico.com.br/mod/quiz/review.php?attempt=961051&cmid=343066 7/10 Questão 7 Completo Atingiu 1,00 de 1,00 Em uma análise de agrupamento examinamos os dados observados (as linhas da tabela com os dados) e procuramos identificar, através de algum critério de similaridade, aquelas que estão mais próximas entre si, e formamos grupos com essas observações similares. Quando são apenas 2 variáveis e poucas observações (tamanho da amostra pequeno), por exemplo 10, podemos tentar fazer o agrupamento visualmente. Analise a figura adiante e assinale a alternativa que indica a menor quantidade de grupos que você naturalmente formaria para este caso: Figura - Massa corporal (kg) versus comprimento (m) dos animais Fonte: Elaborada pelo autor a. Quatro grupos, um com 5 indivíduos, dois com 1 indivíduo cada, e um com 4 indivíduos. b. Dois grupos, um com 6 indivíduos e outro com 4 indivíduos. c. Dois grupos, um com 1 indivíduo e um com 9 indivíduos. d. Três grupos, um com 5 indivíduos, um com 1 indivíduo, e um com 4 indivíduos. e. Dois grupos com 5 indivíduos cada. NAP CPA Responsabilidade Socioambiental https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html https://portal.fmu.br/sustentabilidade 27/06/2022 22:39 N2 (A5): Revisão da tentativa https://ambienteacademico.com.br/mod/quiz/review.php?attempt=961051&cmid=343066 8/10 Questão 8 Completo Atingiu 1,00 de 1,00 Continuando com o mesmo caso da questão anterior, relativa à aprovação, pelos bancos, de crédito na forma de cartão de crédito, como se fazia, no passado, a aprovação da concessão de cartões de crédito pelos bancos? E, hoje em dia, como os bancos fazem essa aprovação? Reflita sobre essas perguntas e suas respostas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) No passado, os bancos faziam, e ainda fazem, ao menos em parte, a aprovação da concessão de cartões de crédito através da definição de regras que devem ser atendidas por cada cliente, tais como idade, emprego estável, renda fixa, dívidas pequenas, nome limpo e casa própria. II. ( ) Hoje em dia, dentre outras alternativas, uma que é frequentemente usada pelos bancos são algoritmos de aprendizagem supervisionada que classificam se o cliente é um potencial bom ou mau pagador. III. ( ) Para usarmos algoritmos de classificação com esse propósito de aprovar ou não cartões de crédito, precisamos de dados. Ensinamos ao algoritmo, com base nos dados que lhe são passados, a predizer clientes que são maus pagadores potenciais das faturas do cartão. Dessa forma, se o algoritmo, ao ser alimentado com os dados referentes a um novo cliente, classificar esse cliente como um mau pagador potencial, o banco não aprovará o cartão. IV. ( ) Para equipes de análise de crédito, poder contar com a ajuda de um software com a capacidade de recomendar a aprovação ou não da concessão do cartão é de grande valor. V. ( ) A recomendação feita pelo software poderá ser tratada ao lado de outras regras de crédito para uma decisão final sobre a concessão de cartão para o cliente. Assinale a alternativa que apresenta a sequência correta. a. V, V, F, F. b. F, F, F, F. c. V, V, V, V. d. F, V, F, V. e. V, V, F, V. NAP CPA Responsabilidade Socioambiental https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html https://portal.fmu.br/sustentabilidade 27/06/2022 22:39 N2 (A5): Revisão da tentativa https://ambienteacademico.com.br/mod/quiz/review.php?attempt=961051&cmid=343066 9/10 Questão 9 Completo Atingiu 1,00 de 1,00 Considere quatro apartamentos: o primeiro com 55 metros quadrados, no centro, no 4º andar; o segundo com 77 metros quadrados, no bairro, no 5º andar; o terceiro com 54 metros quadrados, no centro, no 9º andar; o quarto com 60 metros quadrados, no bairro, no 12º andar. Figura - Árvore de decisão ajustada aos valores dos imóveis Fonte: Elaborada pelo autor. Use a árvore que construímos para o caso dos imóveis (novamente exibida aqui) e assinale a alternativa que indica corretamente as estimativas de preço desses apartamentos: a. 319,20; 448,80; 366,50; 390,40 mil reais. b. 366,50; 319,20; 390,40; 448,80 mil reais. c. 319,20; 448,80; 366,50; 366,50 mil reais. d. 390,40; 366,50; 390,40; 448,80 mil reais. e. 319,20; 448,80; 390,40; 366,50 mil reais. NAP CPA Responsabilidade Socioambiental https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.htmlhttps://portal.fmu.br/sustentabilidade 27/06/2022 22:39 N2 (A5): Revisão da tentativa https://ambienteacademico.com.br/mod/quiz/review.php?attempt=961051&cmid=343066 10/10 Questão 10 Completo Atingiu 1,00 de 1,00 A análise descritiva dos dados é uma etapa muito importante no processo de descoberta de padrões em dados. Por vezes, ela se limita à análise descritiva, pois comumente já traz muitas descobertas. Em grande parte das vezes, é uma das etapas iniciais, seguida de etapas relacionadas à modelagem dos dados. Em relação às ferramentas usadas por um estatístico ou um cientista de dados para a análise descritiva de dados, analise as afirmativas a seguir: I. Gráficos são usados para a visualização de cada variável ou relação entre variáveis. II. Tabelas, sumários e gráficos são as ferramentas básicas da análise descritiva. III. Modelos preditivos são usados para a análise descritiva de dados. IV. Tabelas e sumários estatísticos são usados na análise descritiva de dados. Está correto o que se afirma em: a. II, III e IV, apenas. b. II e III, apenas. c. I, II e IV, apenas. d. I, II e III, apenas. e. I, III e IV, apenas. ◄ Atividade 4 (A4) Seguir para... Revisão Prova N2 (A5) ► NAP CPA Responsabilidade Socioambiental https://ambienteacademico.com.br/mod/quiz/view.php?id=343064&forceview=1 https://ambienteacademico.com.br/mod/quiz/view.php?id=343068&forceview=1 https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html https://portal.fmu.br/sustentabilidade