Baixe o app para aproveitar ainda mais
Prévia do material em texto
Curso GRA1561 ESTATÍSTICA APLICADA AO DATA SCIENCE GR0890211 - 202110.ead-29778852.06 Teste 20211 - PROVA N2 (A5) Iniciado 19/06/21 21:22 Enviado 24/06/21 00:52 Status Completada Resultado da tentativa 9 em 10 pontos Tempo decorrido 99 horas, 30 minutos Instruções Caso necessite a utilização do "EXCEL" clique no link ao lado -----------> excel.xlsx Resultados exibidos Respostas enviadas, Respostas corretas, Comentários Pergunta 1 1 em 1 pontos Em uma análise de agrupamento examinamos os dados observados (as linhas da tabela com os dados) e procuramos identificar, através de algum critério de similaridade, aquelas que estão mais próximas entre si, e formamos grupos com essas observações similares. Quando são apenas 2 variáveis e poucas observações (tamanho da amostra pequeno), por exemplo 10, podemos tentar fazer o agrupamento visualmente. Analise a figura adiante e assinale a alternativa que indica a menor quantidade de grupos que você naturalmente formaria para este caso: Figura - Massa corporal (kg) versus comprimento (m) dos animais Fonte: Elaborada pelo autor Resposta Selecionada: Dois grupos, um com 6 indivíduos e outro com 4 indivíduos. Resposta Correta: Dois grupos, um com 6 indivíduos e outro com 4 indivíduos. https://fmu.blackboard.com/bbcswebdav/pid-16175650-dt-content-rid-84766551_1/xid-84766551_1 Comentário da resposta: Resposta correta. A alternativa está correta. A questão solicita a alternativa com o menor número de grupos que você naturalmente formaria. Há três alternativas com dois grupos, porém aquela que parece ser a mais natural é a que agrupa 6 indivíduos do lado esquerdo do gráfico e 4 indivíduos do lado direito, pois as outras alternativas com dois grupos não são tão naturais quanto essa opção. Pergunta 2 1 em 1 pontos Vimos que a análise descritiva de dados se consiste em sumários estatísticos relativos aos dados analisados, o que também denominamos resumos estatísticos, e no emprego de gráficos que exibem o comportamento dos dados de uma forma visual, o que denominamos visualização dos dados. O estatístico produziu alguns sumários relativos à área dos imóveis da amostra que a corretora lhe passou. Em relação a esses sumários, analise as afirmativas a seguir. I. O valor max(x1) se refere ao valor máximo da área entre todos imóveis observados na amostra cedida pela corretora ao estatístico. II. O valor sd(x1) fornece uma indicação de quão grande é a dispersão da área dos imóveis na amostra analisada. III. O valor mean(x1) pode ser menor que o valor min(x1) ou maior que o valor max(x1), a depender da amostra analisada. IV. Em alguns casos especiais, min(x1) pode ser maior que max(x1), ou seja, o valor mínimo maior que o valor máximo. Está correto o que se afirma em: Resposta Selecionada: I e II, apenas. Resposta Correta: I e II, apenas. Comentário da resposta: Resposta correta. A alternativa está correta, pois max(x1) fornece o valor da maior área dentre os imóveis da amostra, e sd(x1), sendo o desvio-padrão da área dos imóveis da amostra, é uma indicação de quão grande é a dispersão ou variabilidade observada nesses dados. Já mean(x1) é o valor médio de x1, a área do imóvel, e o valor médio sempre estará entre o valor mínimo e o valor máximo. Finalmente, valores mínimos nunca serão maiores que valores máximos. Pergunta 3 1 em 1 pontos Tarefas de classificação são muitos comuns na estatística e na ciência dos dados, por serem muito comuns em todas atividades humanas, na ciência, na vida social ou nos negócios. Especificamente, discutimos aplicações de modelos preditivos de classificação baseados em modelos de regressão logística simples ou múltipla. Com isso em mente, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 1. Regressão logística pode ser empregada na predição do peso médio (massa corporal média) de uma pessoa em função de sua altura, idade e sexo. 2. Regressão logística pode ser empregada na predição do consumo médio de combustível de um carro em função da potência do seu motor e do seu peso. 3. Regressão logística pode ser empregada na predição da probabilidade de uma pessoa votar em um determinado candidato e não nos outros em função de sua escolaridade, idade, sexo e classe social. 4. Regressão logística pode ser empregada na predição da probabilidade de a pessoa ser diabética em função de um conjunto de sintomas clínicos que apresenta. Assinale a alternativa que apresenta a sequência correta. Resposta Selecionada: F, F, V, V. Resposta Correta: F, F, V, V. Comentário da resposta: Resposta correta. As duas primeiras situações se referem à predição de variáveis resposta quantitativas, o que não é possível com modelos de regressão logística; já as duas últimas situações são adequadas ao emprego de modelos de regressão logística. Pergunta 4 1 em 1 pontos Discutimos sobre classificadores determinísticos e probabilísticos. Demos, como exemplo, uma variável resposta qualitativa com dois níveis (classes), o indivíduo está infectado pelo vírus HIV ( ) ou não está infectado ( ), dado um conjunto de sintomas que ele apresenta. Reveja esse assunto e analise as afirmativas a seguir. 1. Um classificador determinístico vai dizer se o indivíduo está ou não está infectado, dados os sintomas que apresenta. 2. Um classificador probabilístico vai dizer qual é a probabilidade de o indivíduo estar ou não infectado, dados os sintomas que apresenta. 3. No jargão da estatística, escrever significa que a variável aleatória resultou no valor , em que é um dos possíveis valores que a variável aleatória pode assumir (ou seja, uma de suas classes, no caso, das variáveis qualitativas). 4. Nesse mesmo jargão, escrever significa a probabilidade de ser igual a um dos seus possíveis valores , quando a variável de entrada é igual a (dado que ). Está correto o que se afirma em: Resposta Selecionada: I, II, III e IV. Resposta Correta: I, II, III e IV. Comentário da resposta: Resposta correta. Um classificador determinístico vai dizer se o indivíduo está ou não está infectado, dados os sintomas que apresenta; já um classificador probabilístico vai dizer qual é a probabilidade de o indivíduo estar ou não infectado; no jargão da estatística, escrever significa que a variável aleatória resultou no valor , em que é um dos possíveis valores que a variável aleatória pode assumir (ou seja, uma de suas classes, no caso das variáveis qualitativas) e, nesse mesmo jargão, escrever significa a probabilidade de ser igual a um dos seus possíveis valores quando a variável de entrada é igual a (dizemos: dado que ). Pergunta 5 1 em 1 pontos No decorrer desta unidade, apresentamos uma série de exemplos de problemas de regressão e problemas de classificação. A diferença entre eles reside no tipo da variável resposta, se quantitativa ou qualitativa. Problemas de regressão são aqueles em que a variável resposta é quantitativa. As variáveis de entrada, também chamadas de regressoras ou preditoras, podem ser quantitativas ou qualitativas. Em relação a problemas de regressão, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) A predição da redução da massa corporal de uma pessoa, em quilos, em função do tipo de dieta alimentar e das horas semanais dedicadas à prática de atividades físicas, é um problema de regressão. II. ( ) A predição da resistência à tração de uma liga metálica, em Pascal (1 Pascal = 1 Newton/m 2 ), em um ensaio de tração, em função da sua composição, granulometria e condições gerais do processo de fabricação da liga, é um problema de regressão. III. ( ) A predição da taxa de mortalidade anual por melanoma maligno, em mortes a cada 100.000 habitantes,em função da latitude da região na qual habita a pessoa, é um problema de regressão. IV. ( ) A predição do consumo de combustível de um veículo, em litros de combustível por quilômetro rodado, em função do seu peso, do número de cilindros do seu motor, e do volume do seu motor, é um problema de regressão. Assinale a alternativa que apresenta a sequência correta: Resposta Selecionada: V, V, V, V. Resposta Correta: V, V, V, V. Comentário da resposta: Resposta correta. A sequência está correta. Em todos os exemplos dados, as variáveis resposta são quantitativas: redução de massa corporal em quilos, resistência à tração em Pascal (uma unidade quantitativa da física e da engenharia), a taxa de mortalidade em mortes a cada 100.000 habitantes e o consumo de combustível em litros por quilômetro rodado. Pergunta 6 1 em 1 pontos Na Unidade 2 estudamos os modelos preditivos de classificação com regressão logística múltipla, para a predição da probabilidade de inadimplência. Aqui, para a predição do volume de vendas de um produto de varejo (uma variável qualitativa com dois níveis, vendas altas ou baixas), usamos como classificador uma árvore de decisão. Figura: Árvore de decisão ajustada às vendas do produto de varejo Fonte: Elaborada pelo autor. A respeito deste modelo de árvore de decisão aplicado ao problema de predição do volume de vendas da boneca falante (replicado aqui, para sua conveniência), analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Se o local de exposição da boneca for ruim, porém seu preço menor que 241,25 reais, as vendas serão altas, independentemente dos gastos com publicidade e da idade média da população local. II. ( ) Se o local de exposição da boneca for ruim, seu preço igual ou maior que 241,25 reais, mas os gastos com publicidade forem menores que 78 mil reais, as vendas serão altas, independentemente da idade média da população. III. ( ) Se o local de exposição da boneca for bom, porém seu preço for igual ou maior que 356,25 reais, as vendas serão baixas, independentemente dos gastos com publicidade e da idade média da população. IV. ( ) Se o local de exposição da boneca for médio e seu preço for igual ou maior que 241,25 reais, mas os gastos com publicidade forem iguais ou maiores que 78 mil reais e a idade média da população for menor que 44 anos, as vendas serão altas. Assinale a alternativa que apresenta a sequência correta: Resposta Selecionada: V, F, V, V. Resposta Correta: V, F, V, V. Comentário da resposta: Resposta correta. A sequência está correta. Se o local de exposição da boneca for ruim, porém seu preço for menor que 241,25 reais, as vendas serão altas, independentemente dos gastos com publicidade e da idade média da população local. Se o local de exposição da boneca for bom, porém seu preço for igual ou maior que 356,25 reais, as vendas serão baixas, independentemente dos gastos com publicidade e da idade média da população. Se o local de exposição da boneca for médio e seu preço for igual ou maior que 241,25 reais, mas os gastos com publicidade forem iguais ou maiores que 78 mil reais e a idade média da população for menor que 44 anos, as vendas serão altas. Pergunta 7 1 em 1 pontos O Margareth H. Duham, em seu livro Data Mining - Introductory and Advanced Topics, informa que tarefas de agrupamento, ou clustering em inglês, vêm sendo aplicadas em muitos domínios, incluindo a biologia, a medicina, a antropologia, o marketing e a economia. DUHAM, Margareth H. Data mining : introductory and advanced topics. Upper Saddle River (NJ): Pearson Education, 2003, p.126. A respeito desses domínios de aplicação de tarefas de agrupamento, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Observar diferentes características de doenças em vários pacientes, e depois formar diferentes grupos de pacientes - por similaridade das características de suas doenças - é uma tarefa de agrupamento. II. ( ) Observar diferentes hábitos de consumo em várias milhares de pessoas, e depois formar grupos de pessoas - por similaridade de seus hábitos de consumo - é uma tarefa de agrupamento. III. ( ) Observar diferentes características das linguagens faladas por membros de aldeias remotas, e depois formar grupos de linguagens - por similaridades das características das linguagens - é uma tarefa de agrupamento. IV. ( ) Observar diferentes característica de insetos em diversos biomas, e depois formar grupos de insetos - por similaridade de suas características - é uma tarefa de agrupamento. Resposta Selecionada: V, V, V, V. Resposta Correta: V, V, V, V. Comentário da resposta: Resposta correta. A sequência está correta. Observar diferentes características de indivíduos, sejam estes indivíduos doenças que se manifestam em pacientes, hábitos de consumos que se manifestam em consumidores, línguas faladas por diferentes povos, ou insetos que habitam diferentes biomas, e depois, para cada um desses exemplos, agrupar as observações feitas em grupos menores por similaridade, são tarefas de agrupamento. Sendo assim, todos os exemplos descritos são tarefas de agrupamento. Pergunta 8 1 em 1 pontos Os métodos de aprendizagem estatística (statistical learning, em inglês) são divididos em métodos de aprendizagem supervisionada e métodos de aprendizagem não supervisionada. Para cada uma dessas diferentes abordagens, há uma coleção relativamente grande de diferentes métodos, cada um com seu próprio jeito de funcionamento. Assinale a alternativa que indica um problema de aprendizagem não supervisionada: Resposta Selecionada: Desejamos entender se há similaridade entre observações (indivíduos) de uma certa amostra de dados. Resposta Correta: Desejamos entender se há similaridade entre observações (indivíduos) de uma certa amostra de dados. Comentário da resposta: Resposta correta. A alternativa está correta, pois entender se há similaridade entre observações (indivíduos) de uma amostra é o mesmo que tentar agrupar os indivíduos similares, o que é um problema de aprendizagem não supervisionada. Todos os demais problemas propostos são problemas de aprendizagem supervisionada, em que há uma variável resposta supervisora, quantitativa ou qualitativa, para o treinamento do algoritmo preditivo. Pergunta 9 0 em 1 pontos Na análise descritiva do volume de vendas da boneca falante, foram estudadas as variáveis relativas aos dados coletados pela gerente comercial do fabricante da boneca. Dentre elas, há a variável dos gastos do fabricante da boneca com publicidade, cuja relação com vendas altas ou baixas é exibida no gráfico adiante. Figura: Efeito dos gastos com publicidade nas vendas Fonte: Elaborada pelo autor. Quanto à relação entre gastos mensais com publicidade e o volume de vendas (vendas altas ou baixas), analise as afirmativas a seguir: I. Ao estudarmos este caso, percebemos que vendas altas ocorrem mesmo quando os gastos com publicidade são apenas ligeiramente maiores. II. Visualmente, podemos perceber que a mediana (linha sólida dentro da caixa) dos gastos com publicidade é da ordem de 20 mil reais por mês para vendas altas e da ordem de 8 mil reais por mês para vendas baixas. III. O gráfico de visualização da relação entre os gastos mensais com publicidade e o volume de vendas não mostra qualquer efeito dos gastos com publicidade sobre o volume de vendas da boneca. IV. O gráfico de visualização da relação entre os gastos mensais com publicidade e o volume de vendas mostra que vendas altas ocorrem quando os gastos com publicidade são significativamente maiores. Está correto o que se afirma em: Resposta Selecionada: III e IV, apenas. Resposta Correta: II e IV, apenas. Comentário da resposta: Sua resposta está incorreta.A alternativa está incorreta, pois o gráfico de visualização da relação entre os gastos mensais com publicidade e o volume de vendas mostra que vendas altas ocorrem quando os gastos com publicidade são significativamente maiores, assim como mostra que há efeito dos gastos com publicidade sobre o volume de vendas da boneca. Pergunta 10 1 em 1 pontos Na estatística ou, genericamente, na análise de dados, muito frequentemente analisamos dados ditos retangulares ou estruturados, onde as variáveis - quantitativas ou qualitativas - são dispostas nas colunas e as observações na linhas de uma tabela. Em algumas situações é vantajoso se fazer a padronização das variáveis quantitativas. Assinale a alternativa correta relativamente ao assunto de padronização de variáveis quantitativas na estatística: Resposta Selecionada: Na padronização, se subtrai de cada variável sua média, e depois se divide o resultado pelo seu desvio padrão. Resposta Correta: Na padronização, se subtrai de cada variável sua média, e depois se divide o resultado pelo seu desvio padrão. Comentário da resposta: Resposta correta. A alternativa está correta. Na estatística, assim como nas suas ciências correlatas, como a ciência dos dados e a mineração de dados, a padronização de uma variável quantitativa é feita subtraindo-se dessa variável a sua média e depois dividindo-se o resultado pelo seu desvio padrão. Sábado, 26 de Junho de 2021 19h31min41s BRT Pergunta 1 Pergunta 2 Pergunta 3 Pergunta 4 Pergunta 5 Pergunta 6 Pergunta 7 Pergunta 8 Pergunta 9 Pergunta 10
Compartilhar