Baixe o app para aproveitar ainda mais
Prévia do material em texto
Revisar envio do teste: 20202 - PROVA N2 (A5) 20202 - Estatística Aplicada Ao Data Science (ON) Prova N2 Revisar envio do teste: 20202 - PROVA N2 (A5) Usuário KEVIN MATTHIAS FRANCA FIALHO CERQUEIRA Curso 20202 - Estatística Aplicada Ao Data Science (ON) Teste 20202 - PROVA N2 (A5) Iniciado 07/12/20 22:59 Enviado 07/12/20 23:12 Status Completada Resultado da tentativa 8 em 10 pontos Tempo decorrido 13 minutos Instruções Resultados exibidos Respostas enviadas, Respostas corretas, Comentários Caso necessite a utilização do "EXCEL" clique no link ao lado -----------> excel.xlsx Pergunta 1 Resposta Selecionada: Resposta Correta: Comentário da resposta: Com o advento dos computadores, surgiu a necessidade de se estabelecer uma forma de comunicação dos seres humanos com eles, o que provocou a criação de linguagens de programação. Relativamente a esse assunto, analise as afirmativas a seguir. I. Linguagens de programação não são importantes para a estatística, mas só para a ciência dos dados. II. Uma das funções de linguagens de programação é viabilizar a comunicação dos seres humanos com máquinas e das máquinas entre si. III. São muitas as linguagens de programação que podem ser empregadas na estatística e na ciência dos dados, mas há uma preferência, atualmente, pelas linguagens R e Python. IV. O R base já vem com todas as funções estatísticas e gráficas das quais precisaremos em um curso introdutório de aplicações da estatística à ciência dos dados. Está correto o que se afirma em: II e III, apenas. II, III e IV, apenas. Sua resposta está incorreta. A alternativa está incorreta, pois as linguagens de programação são tão importantes para a estatística quanto para a ciência dos dados. Sabemos, também, que uma das funções de linguagens de programação é viabilizar a Minha Área 0 em 1 pontos ← OK Revisar envio do teste: 20202 - PROVA N2 (A5) – 20202 - ... https://unifacs.blackboard.com/webapps/assessment/review/review.jsp?... 1 of 8 11/01/2021 23:50 comunicação dos seres humanos com máquinas e das máquinas entre si; de fato, são muitas as linguagens de programação que podem ser empregadas na estatística e na ciência dos dados, mas há um preferência, atualmente, pelas linguagens R e Python; o R base já vem com todas as funções estatísticas e gráficas das quais precisaremos em um curso introdutório de aplicações da estatística à ciência dos dados. Pergunta 2 Resposta Selecionada: Resposta Correta: Comentário da resposta: Leia o excerto a seguir: “A ciência dos dados é uma fusão de múltiplas disciplinas, incluindo estatística, ciência da computação, tecnologia da informação e campos de domínios específicos. Consequentemente, podem-se utilizar de muitos termos diferentes para se referir a um dado conceito.” BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. xv. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes para se referir a um dado conceito. Pois II. A estatística usa, de forma profunda, a matemática como pilar do seu desenvolvimento. É considerada a ciência mais sutil, e a mais ampla, quanto o assunto são dados. É usada por todas áreas científicas. As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I. Sua resposta está incorreta, pois mesmo que algoritmos de agrupamento sejam parte dos métodos da aprendizagem não supervisionada, e não serem modelos preditivos, como afirmado na asserção II, depois que formamos e nomeamos os grupos (classificamos os grupos), podemos usar essas classes como variáveis respostas e, a partir desse ponto, executar tarefas preditivas com algoritmos de classificação. Ou seja, a asserção I é falsa. Pergunta 3 Considere dois pontos de venda da boneca falante com as seguintes características: primeiro ponto com local de exposição ruim da boneca, preço da boneca de 289,99 reais, gastos mensais com publicidade de 90 mil reais e idade média da população local de 39 anos. Segundo ponto com bom local de exposição da boneca e preço da boneca de 399,99 reais. 0 em 1 pontos 1 em 1 pontos Revisar envio do teste: 20202 - PROVA N2 (A5) – 20202 - ... https://unifacs.blackboard.com/webapps/assessment/review/review.jsp?... 2 of 8 11/01/2021 23:50 Resposta Selecionada: Resposta Correta: Comentário da resposta: Figura - Árvore de decisão ajustada às vendas do produto de varejo Fonte: Elaborada pelo autor. Use a árvore que construímos para o caso da boneca falante (novamente exibida aqui) e assinale a alternativa que indica corretamente a estimativa de vendas para esse ponto de venda: Vendas altas e baixas, respectivamente. Vendas altas e baixas, respectivamente. Resposta correta. A alternativa está correta, pois ao percorremos a árvore construída para a predição das vendas da boneca falante, se altas ou baixas, do nó inicial aos nós terminais, e usarmos passo a passo as características dos dois pontos de venda, comparando-as com os valores informados em cada nó, chegaremos às estimativas de vendas altas para o primeiro ponto e de vendas baixas para o segundo ponto. Pergunta 4 Leia o excerto a seguir: “Uma parte fundamental do kit de ferramentas do cientista de dados é a visualização de dados. Embora seja muito fácil criar visualizações é bem mais difícil produzir algumas boas. Existem dois usos primários para a visualização de dados: - Para explorar dados. - Para comunicar dados. Neste capítulo, nos concentraremos em construir habilidades das quais você precisará para começar a explorar seus próprios dados e produzir visualizações que usaremos no decorrer do livro. Como a maioria dos nossos tópicos do capítulo, a visualização de dados é uma rica área de estudos que merece seu próprio livro. Mas, mesmo assim, tentaremos mostrar o que é preciso e o que não é para uma boa visualização.” GRUS, J. Data science do zero: primeiras regras com Python. Rio de Janeiro: Alta Books, 2016. p. 37. Considerando o excerto apresentado, em relação à visualização de dados, analise as afirmativas a seguir: I. O autor do texto considera a visualização de dados uma parte acessória ao trabalho do cientista de dados. II. O autor considera fácil criar visualizações de dados, porém acha difícil criar boas visualizações de dados. III. O autor considera que, por ser fácil criar visualizações de dados, não há 1 em 1 pontos Revisar envio do teste: 20202 - PROVA N2 (A5) – 20202 - ... https://unifacs.blackboard.com/webapps/assessment/review/review.jsp?... 3 of 8 11/01/2021 23:50 Resposta Selecionada: Resposta Correta: Comentário da resposta: razão para merecer seu próprio livro. IV. O autor deixa claro que existem dois usos primários para a visualização de dados: explorar dados e comunicar dados. Está correto o que se afirma em: II e IV, apenas. II e IV, apenas. Resposta correta. A alternativa está correta, pois o autor do texto considera a visualização de dados uma parte fundamental, e não acessória, no trabalho do cientista de dados; acha fácil criar visualizações de dados, porém difícil criar boas visualizações de dados; considera que, por ser uma rica área de estudos, merece seu próprio livro; e deixa claro que existem dois usos primários para a visualização de dados: explorar dados e comunicar dados. Pergunta 5 Resposta Selecionada: Resposta Correta: Comentário da resposta: Em algumas situações, o cientista de dados pode decidir transformar dados quantitativos em dados qualitativos, o que chamamos discretização. Por exemplo, em vez de tratar idade como uma variável quantitativa contínua, podemos transformá-la em uma variável qualitativa com quatro níveis: criança, jovem, adulto, idoso. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. A discretização (transformação) de variáveisquantitativas em qualitativas é comum na estatística e na ciência dos dados. Pois: II. A discretização, em muitas situações, simplifica a análise e, principalmente, traz maior clareza à interpretação dos resultados. A seguir, assinale a alternativa correta: As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Resposta correta. A alternativa está correta. A asserção I é uma proposição verdadeira, pois a discretização de dados é muito comum na estatística e na ciência dos dados. A asserção II também é verdadeira e justifica a I, pois a discretização de dados é feita em razão de simplificar a análise e trazer maior clareza à interpretação dos resultados. Pergunta 6 Na análise descritiva do volume de vendas da boneca falante, foram estudadas as variáveis relativas aos dados coletados pela gerente comercial do fabricante da boneca. Entre elas, há a variável do preço da boneca praticado em cada ponto de venda, cuja relação com vendas altas ou baixas é exibida no gráfico adiante. 1 em 1 pontos 1 em 1 pontos Revisar envio do teste: 20202 - PROVA N2 (A5) – 20202 - ... https://unifacs.blackboard.com/webapps/assessment/review/review.jsp?... 4 of 8 11/01/2021 23:50 Resposta Selecionada: Resposta Correta: Comentário da resposta: Figura: Efeito do preço nas vendas Fonte: Elaborada pelo autor. Quanto a relação entre o preço da boneca e o volume de vendas (vendas altas ou baixas), analise as afirmativas a seguir: I. Ao estudarmos este caso, percebemos que não há qualquer efeito do preço da boneca falante sobre o volume de vendas em cada ponto (de venda). II. O gráfico de visualização da relação entre o preço de venda da boneca e o volume de vendas mostra que vendas altas ocorrem quando o preço da boneca é significativamente menor. III. O gráfico de visualização da relação entre o preço de venda da boneca e o volume de vendas mostra que vendas altas ocorrem mesmo quando o preço da boneca não é significativamente menor. IV. A asserção III é um indicativo que o efeito de outras variáveis sobre o volume de vendas da boneca pode ser tão relevante ou mesmo maior que o efeito da diferença de preço. Está correto o que se afirma em: III e IV, apenas. III e IV, apenas. Sua resposta está correta. A alternativa está correta, pois o gráfico de visualização da relação entre o preço de venda da boneca e o volume de vendas mostra que vendas altas ocorrem mesmo quando o preço da boneca não é significativamente menor, e isto é um indicativo que o efeito de outras variáveis sobre o volume de vendas da boneca pode ser tão relevante ou mesmo maior que o efeito da diferença de preço. Pergunta 7 Os modelos de regressão são de enorme importância na estatística e na ciência dos dados. Dentre os diversos modelos de regressão que existem, por exemplo, árvores de decisão para regressão, k-vizinhos mais próximos para regressão e outros (não vimos nenhum desses aqui, mas não se preocupe: o nosso curso é introdutório!), são justamente os modelos de regressão linear aqueles considerados os mais importantes e, sem dúvida, os mais difundidos, com aplicações nas mais diversas áreas. Desse modo, é sobre eles que queremos saber o que você já aprendeu. Para isso, analise as afirmativas a seguir. I. Modelos de regressão linear são usados como modelos preditivos para casos em que a variável resposta é quantitativa. As variáveis de entrada podem ser de qualquer tipo: quantitativas ou qualitativas. 1 em 1 pontos Revisar envio do teste: 20202 - PROVA N2 (A5) – 20202 - ... https://unifacs.blackboard.com/webapps/assessment/review/review.jsp?... 5 of 8 11/01/2021 23:50 Resposta Selecionada: Resposta Correta: Comentário da resposta: II. As variáveis de entrada também são denominadas variáveis regressoras, variáveis preditoras ou variáveis independentes. III. A variável resposta também pode ser denominada variável de saída ou variável dependente. IV. Modelos de regressão linear são usados como modelos preditivos para casos em que a variável resposta é qualitativa. As variáveis de entrada podem ser de qualquer tipo: quantitativas ou qualitativas. Está correto o que se afirma em: I, II e III, apenas. I, II e III, apenas. Resposta correta. A alternativa está correta, pois a única afirmativa falsa é a que expõe que modelos de regressão linear são usados como modelos preditivos para casos em que a variável resposta é qualitativa. Assim, é correto afirmar que modelos de regressão linear são usados como modelos preditivos para casos em que a variável resposta é quantitativa e as variáveis de entrada podem ser de qualquer tipo: quantitativas ou qualitativas. Pergunta 8 Resposta Selecionada: Resposta Correta: Comentário da resposta: Discutimos o que são aprendizagem supervisionada e não supervisionada. Vimos que é na forma como tratamos as variáveis estudadas que se dá a diferença entre esses dois tipos de aprendizagens, supervisionada e não supervisionada. Esses dois tipos são os mais importantes dentre os diversos tipos de aprendizagem. Relativamente a esse assunto, analise as afirmativas a seguir. Na aprendizagem supervisionada, definimos uma das variáveis estudadas como sendo a variável resposta, a qual responde em função dos valores assumidos pelas outras variáveis, as quais são chamadas de variáveis de entrada. Especificamente na aprendizagem supervisionada, também denominamos uma variável resposta de variável de saída ou variável dependente. Especificamente na aprendizagem supervisionada, também denominamos uma variável de entrada de variável regressora, variável preditora ou variável independente. Na aprendizagem não supervisionada, tratamos todas as variáveis estudadas da mesma forma, sem procurar explicar o comportamento de uma delas em função dos valores assumidos pelas outras. Está correto o que se afirma em: I, II, III e IV. I, II, III e IV. Resposta correta. Na aprendizagem supervisionada, definimos uma das variáveis estudadas como sendo a variável resposta, a qual responde em função dos valores assumidos pelas outras variáveis, as quais são chamadas de variáveis de entrada; na 1 em 1 pontos Revisar envio do teste: 20202 - PROVA N2 (A5) – 20202 - ... https://unifacs.blackboard.com/webapps/assessment/review/review.jsp?... 6 of 8 11/01/2021 23:50 aprendizagem supervisionada, também chamamos a variável resposta de variável de saída ou variável dependente e as variáveis de entrada, de variáveis regressoras, preditoras ou independentes. Na aprendizagem não supervisionada, tratamos todas as variáveis estudadas da mesma forma, sem procurar explicar o comportamento de uma delas em função dos valores assumidos pelas outras. Pergunta 9 Resposta Selecionada: Resposta Correta: Comentário da resposta: Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um modelo de regressão logística múltipla aos dados da amostra. Os resultados que encontrou foram muito ricos, sugerindo uma série de explicações, aprendidas pelo algoritmo com base nos dados fornecidos. Veja que dizemos “explicações sugeridas”, pois qualquer resultado de um algoritmo deve ser confrontado com especialistas da área em estudo. Contudo, vamos rever o que o modelo de regressão múltipla treinado pela jovem cientista de dados sugere. Para isso, analise as afirmativas a seguir. A probabilidade da inadimplência cresce com o aumento dos gastos médios com o cartão de crédito. Isto, que nos parece óbvio, foi o que os dados “contaram” para o algoritmo de regressão logística múltipla. A probabilidade da inadimplência cresce com o aumento da renda média mensal das pessoas. Isto não é tão óbvio e provavelmente não teríamos coragem de generalizar para outras situações, mas foi o que os dados da amostra do gerente do banco “contaram” para o algoritmo de regressão logística múltipla. Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal com cartão de crédito, a probabilidade de inadimplência com o cartão émaior para aquela sem emprego estável. Novamente, isto foi o que os dados amostrados “contaram” para o algoritmo de regressão logística múltipla. O modelo de regressão logística múltipla, ajustado aos dados da amostra, consegue predizer os efeitos da renda mensal da pessoa, do seu gasto médio mensal com cartão de crédito e se ela tem ou não um emprego estável, na probabilidade de a pessoa ficar inadimplente com o cartão de crédito. Um algoritmo desse tipo pode ajudar no processo decisório de um banco quanto à aprovação de cartão de crédito, ao lado de outros critérios e ferramentas analíticas disponíveis para o banco. Está correto o que se afirma em: I, II, III e IV. I, II, III e IV. Resposta correta. Todas as asserções desta questão são verdadeiras. Para os dados analisados, probabilidade da inadimplência cresce com o aumento dos gastos médios com o cartão de crédito e com o aumento da renda média mensal das pessoas. Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal com cartão de crédito, a probabilidade de inadimplência com o cartão é maior para aquela sem emprego estável. E o modelo de regressão logística múltipla é um modelo preditivo, um classificador probabilístico. 1 em 1 pontos Revisar envio do teste: 20202 - PROVA N2 (A5) – 20202 - ... https://unifacs.blackboard.com/webapps/assessment/review/review.jsp?... 7 of 8 11/01/2021 23:50 Segunda-feira, 11 de Janeiro de 2021 23h50min18s BRT Pergunta 10 Resposta Selecionada: Resposta Correta: Comentário da resposta: Usamos gráficos para a visualização do comportamento (a descoberta de padrões), tanto de cada variável individualmente quanto da relação entre variáveis (o comportamento de uma em relação à outra). Ambas visualizações, seja da variável individualmente, seja da sua possível relação com outra variável, são de grande utilidade. Quanto aos gráficos para a visualização da relação entre duas variáveis, analise as afirmativas a seguir: I. Gráficos de dispersão são usados para a visualização da relação entre duas variáveis quantitativas. II. Boxplots são usados para a visualização da relação entre uma variável quantitativa e uma variável qualitativa (ou os níveis de uma variável qualitativa). III. Mosaic plots são usados para a visualização entre duas variáveis qualitativas (ou, em outras palavras, entre os níveis de duas variáveis qualitativas). IV. Em qualquer uma das situações descritas acima, sempre exibiremos uma das variáveis no eixo horizontal e a outra no eixo vertical. Está correto o que se afirma em: I, II, III e IV. I, II, III e IV. Sua resposta está correta. A alternativa está correta, pois uma árvore faz partição recursiva das variáveis de entrada hierarquicamente; a cada estágio da construção da árvore, o nó inicial e depois os nós intermediários dividem o domínio da variável de entrada em questão, de onde bifurcam os seus ramos para a esquerda e para a direita; esses valores indicam como se deve ler a árvore, ao se caminhar pelos seus ramos; em cada nó intermediário ou no nó inicial há um valor quantitativo ou qualitativo, que é o valor escolhido pela árvore para fazer a partição da variável estágio; e em árvores de decisão de classificação ou regressão, os nós terminais exibem os valores estimados para a variável resposta. 1 em 1 pontos Revisar envio do teste: 20202 - PROVA N2 (A5) – 20202 - ... https://unifacs.blackboard.com/webapps/assessment/review/review.jsp?... 8 of 8 11/01/2021 23:50
Compartilhar