Baixe o app para aproveitar ainda mais
Prévia do material em texto
23/06/2022 20:20 N2 (A5): Revisão da tentativa https://ambienteacademico.com.br/mod/quiz/review.php?attempt=913301&cmid=343066 1/9 Minhas Disciplinas 221RGR0890A - ESTATISTICA APLICADA AO DATA SCIENCE PROVA N2 (A5) N2 (A5) Iniciado em quinta, 23 jun 2022, 19:43 Estado Finalizada Concluída em quinta, 23 jun 2022, 20:18 Tempo empregado 35 minutos 39 segundos Avaliar 9,00 de um máximo de 10,00(90%) Questão 1 Completo Atingiu 1,00 de 1,00 Muitos dos modelos ou algoritmos usados na estatística e na ciência dos dados são denominados modelos paramétricos, ou seja, que possuem parâmetros. Esses parâmetros devem ser determinados quando se treina (se ajusta) o modelo ou algoritmo aos dados amostrados. Na regressão linear simples ou múltipla, esses parâmetros são denominados coeficientes do modelo. A respeito dos coeficientes do modelo de regressão linear simples para o valor do imóvel em função da sua área, analise as afirmativas a seguir. I. O estatístico usou o software R e obteve, para os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua área, b0 = 27,22 e b1 = 5,15. II. Os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua área possuem unidades, que são, respectivamente, kR$ (mil reais) para b0 e kR$/m2 (mil reais dividido pela área do imóvel) para b1. III. O coeficiente b0 é a intersecção da reta do modelo com o eixo vertical y quanto x1 = 0. Não tem um significado “real” nesse caso, pois não há imóveis com área igual a zero. Deve ser entendido, nessa situação, apenas como um parâmetro de ajuste do modelo aos dados da amostra. IV. O coeficiente b1 indica quanto varia o valor esperado do imóvel para um aumento de 1 metro quadrado da sua área. Graficamente, esse coeficiente é a inclinação da reta que representa o modelo de regressão linear simples ajustado aos dados da amostra. Está correto o que se afirma em: a. I e II, apenas. b. II, III e IV, apenas. c. III e IV, apenas. d. II e III, apenas. e. I, II, III e IV. NAP CPA Responsabilidade Socioambiental https://ambienteacademico.com.br/my/ https://ambienteacademico.com.br/course/view.php?id=12295 https://ambienteacademico.com.br/course/view.php?id=12295§ion=6 https://ambienteacademico.com.br/mod/quiz/view.php?id=343066 https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html https://portal.fmu.br/sustentabilidade 23/06/2022 20:20 N2 (A5): Revisão da tentativa https://ambienteacademico.com.br/mod/quiz/review.php?attempt=913301&cmid=343066 2/9 Questão 2 Completo Atingiu 1,00 de 1,00 Vimos que há dois principais tipos de aprendizagem supervisionada: problema de regressão e problema de classificação. São os tipos de variáveis resposta dos dados em análise que distinguem esses dois tipos entre si. Relativamente a esses dois tipos, analise as afirmativas a seguir. I. Na aprendizagem supervisionada, um problema de regressão é um no qual a variável resposta é qualitativa. II. Na aprendizagem supervisionada, um problema de regressão é um no qual a variável resposta é quantitativa. III. Na aprendizagem supervisionada, um problema de classificação é um no qual a variável resposta é qualitativa. IV. Na aprendizagem supervisionada, um problema de classificação é um no qual a variável resposta é quantitativa. Está correto o que se afirma em: a. II e III, apenas. b. III e IV, apenas. c. II e IV, apenas. d. III, apenas. e. I e III, apenas. NAP CPA Responsabilidade Socioambiental https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html https://portal.fmu.br/sustentabilidade 23/06/2022 20:20 N2 (A5): Revisão da tentativa https://ambienteacademico.com.br/mod/quiz/review.php?attempt=913301&cmid=343066 3/9 Questão 3 Completo Atingiu 1,00 de 1,00 Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um modelo de regressão logística múltipla aos dados da amostra. Os resultados que encontrou foram muito ricos, sugerindo uma série de explicações, aprendidas pelo algoritmo com base nos dados fornecidos. Veja que dizemos “explicações sugeridas”, pois qualquer resultado de um algoritmo deve ser confrontado com especialistas da área em estudo. Contudo, vamos rever o que o modelo de regressão múltipla treinado pela jovem cientista de dados sugere. Para isso, analise as afirmativas a seguir. I. A probabilidade da inadimplência cresce com o aumento dos gastos médios com o cartão de crédito. Isto, que nos parece óbvio, foi o que os dados “contaram” para o algoritmo de regressão logística múltipla. II. A probabilidade da inadimplência cresce com o aumento da renda média mensal das pessoas. Isto não é tão óbvio e provavelmente não teríamos coragem de generalizar para outras situações, mas foi o que os dados da amostra do gerente do banco “contaram” para o algoritmo de regressão logística múltipla. III. Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal com cartão de crédito, a probabilidade de inadimplência com o cartão é maior para aquela sem emprego estável. Novamente, isto foi o que os dados amostrados “contaram” para o algoritmo de regressão logística múltipla. IV. O modelo de regressão logística múltipla, ajustado aos dados da amostra, consegue predizer os efeitos da renda mensal da pessoa, do seu gasto médio mensal com cartão de crédito e se ela tem ou não um emprego estável, na probabilidade de a pessoa ficar inadimplente com o cartão de crédito. Um algoritmo desse tipo pode ajudar no processo decisório de um banco quanto à aprovação de cartão de crédito, ao lado de outros critérios e ferramentas analíticas disponíveis para o banco. Está correto o que se afirma em: a. II, III e IV, apenas. b. I e II, apenas. c. I, II, III e IV. d. III e IV, apenas. e. II e III, apenas. NAP CPA Responsabilidade Socioambiental https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html https://portal.fmu.br/sustentabilidade 23/06/2022 20:20 N2 (A5): Revisão da tentativa https://ambienteacademico.com.br/mod/quiz/review.php?attempt=913301&cmid=343066 4/9 Questão 4 Completo Atingiu 1,00 de 1,00 Questão 5 Completo Atingiu 1,00 de 1,00 O texto em referência explica que o processo de descoberta com a mineração de dados possui tanto um sentido romântico (um processo emocionante e prazeroso), quanto técnico (um estudo criterioso sobre dados). Também defende a ideia que é preciso conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera receber.. Ou seja, o que as pessoas necessitam e esperam receber.Lei SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados: com aplicações em R. Rio de Janeiro: Elsevier, 2016, p.3. Considerando as ideias apresentadas acima e o que sabemos sobre ciência dos dados, mineração de dados e machine learning, analise as afirmativas a seguir: I. Machine learning são algoritmos desenvolvidos, principalmente, pela ciência da computação. São usados na estatística, na ciência de dados e na mineração de dados. II. O processo de descoberta de padrões e geração de conhecimento por meio de dados tem um sentido romântico, por ser emocionante e prazeroso, e um sentido técnico, pois demanda estudos técnicos criteriosos. III. A estatística, a ciência da computação e a ciência de dados são áreas relacionadas, mas a mineração de dados e ciência de dados são áreas independentes, sem nenhuma relação. IV. Não é importante conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera receber. Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s): a. I, II e III apenas; b. II, III e IV apenas; c. I e II apenas; d. I, II e IV apenas.e. II e III apenas; Os métodos de aprendizagem estatística (statistical learning, em inglês) são divididos em métodos de aprendizagem supervisionada e métodos de aprendizagem não supervisionada. Para cada uma dessas diferentes abordagens, há uma coleção relativamente grande de diferentes métodos, cada um com seu próprio jeito de funcionamento. Assinale a alternativa que indica um problema de aprendizagem não supervisionada: a. Pretendemos ter uma ideia do volume de vendas de um produto de varejo a partir de algumas características do ponto de venda. b. Gostaríamos de saber que pessoas �carão inadimplentes com o pagamento das faturas de seus cartões de crédito. c. Queremos estimar o valor de imóveis a partir das suas características, tais como sua área, seu andar e sua localização. d. Ajudaremos médicos se conseguirmos avaliar a gravidade de uma doença a partir de dados relativos às condições do paciente. e. Desejamos entender se há similaridade entre observações (indivíduos) de uma certa amostra de dados. NAP CPA Responsabilidade Socioambiental https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html https://portal.fmu.br/sustentabilidade 23/06/2022 20:20 N2 (A5): Revisão da tentativa https://ambienteacademico.com.br/mod/quiz/review.php?attempt=913301&cmid=343066 5/9 Questão 6 Completo Atingiu 1,00 de 1,00 Apresentamos o desenvolvimento de um algoritmo preditivo, com base em modelos de regressão linear, a partir de um caso envolvendo a interação entre uma corretora de imóveis e seu amigo estatístico. Relativamente a esse caso, analise as afirmativas a seguir. I. No estudo de caso discutido, a corretora não via razão para trabalhar com um algoritmo preditivo de valor de venda de imóveis, pois isso não a ajudaria no desenvolvimento do seu trabalho. II. A corretora de imóveis passou para seu amigo estatístico uma amostra de tamanho n = 90, contendo dados relativos a imóveis vendidos pela imobiliária onde trabalhava. III. As variáveis observadas na amostra são a área do imóvel, seu andar, sua localização e o valor pelo qual havia sido vendido. IV. Na amostra, a localização do imóvel foi dividida em cinco níveis (também denominados classes): centro, zona norte, zona sul, zona leste e zona oeste. Está correto o que se afirma em: a. IV, apenas. b. III e IV, apenas. c. I e III, apenas. d. III, apenas. e. II, apenas. NAP CPA Responsabilidade Socioambiental https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html https://portal.fmu.br/sustentabilidade 23/06/2022 20:20 N2 (A5): Revisão da tentativa https://ambienteacademico.com.br/mod/quiz/review.php?attempt=913301&cmid=343066 6/9 Questão 7 Completo Atingiu 1,00 de 1,00 Leia o excerto a seguir: “Uma rede neural artificial (ou rede neural) é um modelo preditivo motivado pelo forma como funciona o cérebro humano. Pense no cérebro como uma coleção de neurônios conectados. Cada neurônio olha para a saída dos outros neurônios que o alimentam, faz um cálculo e então ele dispara (se o cálculo exceder algum limite) ou não (se não exceder) [...] Redes neurais podem resolver uma variedade de problemas como reconhecimento de caligrafia e detecção facial, e elas são muito usadas em deep learning (aprendizado profundo), uma das subáreas mais populares de data science. Entretanto, a maioria das redes neurais são “caixas-pretas” - inspecionar seus detalhes não lhe fornece muito entendimento de como elas estão resolvendo um problema. E grandes redes neurais podem ser difíceis de treinar. Para a maioria dos problemas você encontrará como um cientista de dados, elas provavelmente não são a melhor solução [...]”. GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta Books, 2016. p. 213. Tomando como base esse texto sobre redes neurais artificiais, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Uma rede neural artificial, também chamada simplesmente de rede neural, é um modelo preditivo motivado pela forma como o cérebro funciona. II. ( ) Em uma rede neural artificial, há vários neurônios que se interconectam, e o resultado do cálculo de um alimenta a entrada de outros. III. ( ) Redes neurais, como são modelos preditivos que tomam como base o funcionamento do cérebro, são de muito fácil interpretação. IV. ( ) Redes neurais, como são modelos preditivos, podem ser usadas para tarefas tais como reconhecimento de caligrafia e detecção facial. Assinale a alternativa que apresenta a sequência correta: a. V, V, V, V. b. F, V, F, V. c. V, V, F, V. d. V, V, F, F. e. F, F, F, F. NAP CPA Responsabilidade Socioambiental https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html https://portal.fmu.br/sustentabilidade 23/06/2022 20:20 N2 (A5): Revisão da tentativa https://ambienteacademico.com.br/mod/quiz/review.php?attempt=913301&cmid=343066 7/9 Questão 8 Completo Atingiu 1,00 de 1,00 Estudamos algoritmos preditivos com base em (1) modelos de regressão linear e (2) modelos de regressão logística. Esses modelos são aplicados em situações bem distintas, que dependem, essencialmente, da natureza da variável resposta, também chamada de variável dependente. Com esses dois modelos em mente, analise as afirmativas a seguir. I. Modelos de regressão logística simples são usados na predição de uma variável resposta qualitativa quando há mais do que uma variável de entrada. II. Modelos de regressão linear simples são usados na predição de uma variável resposta qualitativa quando se considera apenas uma variável de entrada. III. Um possível modelo de regressão logística simples para a predição da probabilidade de inadimplência é: em que e são os coeficientes do modelo, , o gasto médio mensal da pessoa com cartão de crédito e , o valor esperado para a probabilidade de a pessoa ficar ou não inadimplente com o pagamento das faturas do cartão. IV. O método comumente usado para calcular os valores dos coeficientes e é o Método da Máxima Verossimilhança. Para isso, pode-se fazer uso do software estatístico R. Está correto o que se afirma em: a. III e IV, apenas. b. I e II, apenas. c. II, III e IV, apenas. d. I, II e IV, apenas. e. II e III, apenas. NAP CPA Responsabilidade Socioambiental https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html https://portal.fmu.br/sustentabilidade 23/06/2022 20:20 N2 (A5): Revisão da tentativa https://ambienteacademico.com.br/mod/quiz/review.php?attempt=913301&cmid=343066 8/9 Questão 9 Completo Atingiu 0,00 de 1,00 Na análise descritiva do volume de vendas da boneca falante, foram estudadas as variáveis relativas aos dados coletados pela gerente comercial do fabricante da boneca. Dentre elas, há a variável dos gastos do fabricante da boneca com publicidade, cuja relação com vendas altas ou baixas é exibida no gráfico adiante. Figura: Efeito dos gastos com publicidade nas vendas Fonte: Elaborada pelo autor. Quanto à relação entre gastos mensais com publicidade e o volume de vendas (vendas altas ou baixas), analise as afirmativas a seguir: I. Ao estudarmos este caso, percebemos que vendas altas ocorrem mesmo quando os gastos com publicidade são apenas ligeiramente maiores. II. Visualmente, podemos perceber que a mediana (linha sólida dentro da caixa) dos gastos com publicidade é da ordem de 20 mil reais por mês para vendas altas e da ordem de 8 mil reais por mês para vendas baixas. III. O gráfico de visualização da relação entre os gastos mensais com publicidade e o volume de vendas não mostra qualquer efeito dos gastoscom publicidade sobre o volume de vendas da boneca. IV. O gráfico de visualização da relação entre os gastos mensais com publicidade e o volume de vendas mostra que vendas altas ocorrem quando os gastos com publicidade são significativamente maiores. Está correto o que se afirma em: a. I, apenas. b. III e IV, apenas. c. III, apenas. d. II e IV, apenas. e. I e II, apenas. NAP CPA Responsabilidade Socioambiental https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html https://portal.fmu.br/sustentabilidade 23/06/2022 20:20 N2 (A5): Revisão da tentativa https://ambienteacademico.com.br/mod/quiz/review.php?attempt=913301&cmid=343066 9/9 Questão 10 Completo Atingiu 1,00 de 1,00 O texto em referência apresenta como exemplo de agrupamento uma companhia de vendas online que deseja agrupar seus clientes com base em suas características comuns (renda, idade, número de filhos, estado civil, grau de educação, etc.). Com o resultado do agrupamento, eles definirão campanhas de marketing e de divulgação específicas para cada um dos diferentes grupos que vierem a ser definidos. DUHAM, Margareth H. Data mining: introductory and advanced topics. Upper Saddle River, NJ: Pearson Education, 2003, p.125. A respeito das fontes que originaram os contos de fadas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Algoritmos de agrupamento só conseguem lidar com variáveis quantitativas. Sendo assim, parte das variáveis disponíveis para esse caso são irrelevantes. II. ( ) Algoritmos de agrupamento são especializados no tratamento de conjuntos de dados exclusivamente qualitativos. III. ( ) Algoritmos de agrupamento podem ter as suas soluções verificadas por um supervisor e, dessa forma, saberemos se o resultado é bom ou ruim. IV. ( ) Seres humanos não possuem habilidade natural para agrupar e depois classificar, já que isso só pode ser realizado por meio de algoritmos. a. F, V, F, V. b. V, V, F, V. c. V, V, V, V. d. F, F, F, F. e. V, V, F, F. ◄ Atividade 4 (A4) Seguir para... Revisão Prova N2 (A5) ► NAP CPA Responsabilidade Socioambiental https://ambienteacademico.com.br/mod/quiz/view.php?id=343064&forceview=1 https://ambienteacademico.com.br/mod/quiz/view.php?id=343068&forceview=1 https://codely-fmu-content.s3.amazonaws.com/Moodle/NAP/inicial/nap/fmu/index.html https://codely-fmu-content.s3.amazonaws.com/Moodle/CPA/landing_CPA/index.html https://portal.fmu.br/sustentabilidade
Compartilhar