Prévia do material em texto
Curso 2020.1 ESTATÍSTICA APLICADA AO DATA SCIENCE [EAD20 - B2] Teste 2020-1S - CLIQUE AQUI PARA ACESSAR A PROVA N2 (A5) Resultado da tentativa8 em 10 pontos Pergunta 1 1 em 1 pontos Leia o excerto a seguir: “Normalização: É comum normalizar (padronizar) variáveis contínuas através da subtração da média e divisão pelo desvio-padrão, ou então as variáveis com grande escala dominarão o processo de agrupamento (veja Padronização (Normalização, Escores Z), no Capítulo 6).” BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 265. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. Sabemos que, na estatística ou na ciência dos dados, é comum normalizar (padronizar) variáveis quantitativas, ou variáveis contínuas, antes da realização de uma análise de agrupamento. Pois II. No conjunto de dados observados (a amostra de dados), podem existir variáveis que estão em uma escala muito maior que as outras, e a medida de distância entre observações dessas variáveis dominarão o resultado da análise de agrupamento, na formação dos grupos de observações similares entre si. Resposta Selecionada: Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Resposta Correta: Correta As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Feedback da resposta: Resposta correta. A alternativa está correta. Na estatística ou na ciência dos dados, é comum normalizar (padronizar) variáveis quantitativas, ou variáveis contínuas, antes da realização de uma análise de agrupamento, pois no conjunto de dados observados podem existir variáveis que estão em uma escala muito maior que as outras, e a medida de distância entre observações dessas variáveis dominarão o resultado final da análise de agrupamento se a padronização não for feita antes. Pergunta 2 1 em 1 pontos O Margareth H. Duham, em seu livro Data Mining - Introductory and Advanced Topics, informa que tarefas de agrupamento, ou clustering em inglês, vêm sendo aplicadas em muitos domínios, incluindo a biologia, a medicina, a antropologia, o marketing e a economia. DUHAM, Margareth H. Data mining : introductory and advanced topics. Upper Saddle River (NJ): Pearson Education, 2003, p.126. A respeito desses domínios de aplicação de tarefas de agrupamento, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Observar diferentes características de doenças em vários pacientes, e depois formar diferentes grupos de pacientes - por similaridade das características de suas doenças - é uma tarefa de agrupamento. II. ( ) Observar diferentes hábitos de consumo em várias milhares de pessoas, e depois formar grupos de pessoas - por similaridade de seus hábitos de consumo - é uma tarefa de agrupamento. III. ( ) Observar diferentes características das linguagens faladas por membros de aldeias remotas, e depois formar grupos de linguagens - por similaridades das características das linguagens - é uma tarefa de agrupamento. IV. ( ) Observar diferentes característica de insetos em diversos biomas, e depois formar grupos de insetos - por similaridade de suas características - é uma tarefa de agrupamento. Resposta Selecionada: Correta V, V, V, V. Resposta Correta: Correta V, V, V, V. Feedback da resposta: Resposta correta. A sequência está correta. Observar diferentes características de indivíduos, sejam estes indivíduos doenças que se manifestam em pacientes, hábitos de consumos que se manifestam em consumidores, línguas faladas por diferentes povos, ou insetos que habitam diferentes biomas, e depois, para cada um desses exemplos, agrupar as observações feitas em grupos menores por similaridade, são tarefas de agrupamento. Sendo assim, todos os exemplos descritos são tarefas de agrupamento. Pergunta 3 1 em 1 pontos Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, uma jovem cientista de dados usou boxplots (diagramas de caixas). Como cientista de dados, ela sabia exatamente em que situações empregar boxplots. E você, será que você também já sabe? Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Para examinar visualmente a relação entre duas variáveis, em que uma é quantitativa e a outra é qualitativa, não é possível a utilização de gráficos de dispersão. II. ( ) Boxplots são uma solução inteligente para a visualização da relação entre uma variável quantitativa e uma variável qualitativa, em que no eixo horizontal indicamos os níveis da variável qualitativa e no eixo vertical, a variação dos valores observados para a variável quantitativa. III. ( ) Para examinar visualmente a relação entre duas variáveis quantitativas, um dos gráficos preferidos é o diagrama de caixas, também conhecido como boxplot. IV. ( ) Na construção de um boxplot, podemos representar no eixo vertical os níveis da variável qualitativa e no eixo horizontal, os valores da variável quantitativa. Nesse caso, a visualização da variação dos dados da variável quantitativa é exibida horizontalmente, e os níveis (classes) da variável qualitativa são exibidos verticalmente. Assinale a alternativa que apresenta a sequência correta. Resposta Selecionada: Correta V, V, F, V. Resposta Correta: Correta V, V, F, V. Feedback da resposta: Resposta correta. A única asserção falsa é a que afirma que para examinar visualmente a relação entre duas variáveis quantitativas, um dos gráficos preferidos é o diagrama de caixas, também conhecido como boxplot. Para examinar visualmente a relação entre duas variáveis, em que uma é quantitativa e a outra é qualitativa, não é possível a utilização de gráficos de dispersão. Para isso, usamos boxplots, em que, no eixo horizontal, indicamos os níveis da variável qualitativa e, no eixo vertical, a variação dos valores observados para a variável quantitativa. Podemos inverter a posição desses eixos. Pergunta 4 1 em 1 pontos Naturalmente, dados ocupam uma posição central, tanto na estatística quanto na ciência dos dados. Entendê-los, saber da sua natureza, o que representam, é de suma importância, antes da realização de qualquer análise ou projeto. Os dados são divididos entre quantitativos e qualitativos, na estatística e na ciência dos dados. Relativamente aos qualitativos, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Dados qualitativos dicotômicos são dados observados de variáveis qualitativas que podem assumir apenas dois níveis (também chamados de classes) como seus valores, tais como sexo (feminino ou masculino), ocupação (empregado ou desempregado), localização (bairro ou centro), emprego estável (sim ou não), inadimplente (sim ou não). II. ( ) Dados qualitativos politômicos são aqueles oriundos de variáveis qualitativas que podem assumir três ou mais níveis como seus valores, tais como classe social (A, B, C, D e E), escolaridade (fundamental, médio, superior), gravidade da doença (baixa, média, alta). III. ( ) A função table() do R permite a contagem da frequência de cada nível assumido por uma variável qualitativa em uma dada amostra, e foi usada pela jovem cientista de dados para contar a frequência de pessoas com ou sem emprego estável e se ficaram ou não inadimplentes com o pagamento das faturas do cartão no período amostrado. IV. ( ) Um mosaicplot permite a visualização gráfica da relação entre duas variáveis qualitativas. Foi usado por uma jovem cientista de dados para examinar a possível relação entre duas variáveis qualitativas dicotômicas: pessoas com ou sem emprego estável e se ficaram ou não inadimplentes com o pagamento das faturas do cartão de crédito ao longo do período amostrado. Ela percebeu, ao ver o gráfico resultante (ver figura adiante), que parece haver um maior nível de inadimplência com o cartão entreaquelas que não têm emprego estável. image0185e2b20df.jpg Assinale a alternativa que apresenta a sequência correta. Resposta Selecionada: Correta V, V, V, V. Resposta Correta: Correta V, V, V, V. Feedback da resposta: Resposta correta. Todas asserções desta questão são verdadeiras. Dados qualitativos dicotômicos são dados observados de variáveis qualitativas que podem assumir apenas dois níveis. Dados qualitativos politômicos são aqueles oriundos de variáveis qualitativas que podem assumir três ou mais níveis como seus valores. A função table() do R permite a contagem da frequência de cada nível assumido por uma variável qualitativa em uma dada amostra. O mosaicplot permite a visualização gráfica da relação entre duas variáveis qualitativas. Pergunta 5 0 em 1 pontos A atividade de venda de produtos financeiros por bancos, tais como cartões de crédito, requer que se faça uma avaliação do cliente. São focos dessa avaliação aprovar ou não um cartão de crédito para o cliente e, se aprovado, definir o limite do cartão, ou seja, o valor do crédito a conceder. Com base nessa introdução, analise as afirmativas a seguir. I. O primeiro foco da avaliação é um problema de regressão: aprovar (sim ou não) o cartão de crédito, uma variável qualitativa dicotômica, com dois níveis (classes). II. O primeiro foco da avaliação é um problema de classificação: aprovar (sim ou não) o cartão de crédito, uma variável qualitativa dicotômica, com dois níveis (classes). III. O segundo foco da avaliação é um problema de classificação, predizer o valor do limite (do crédito) do cartão. IV. O segundo foco da avaliação é um problema de regressão, predizer o valor do limite (do crédito) do cartão. Está correto o que se afirma em: Resposta Selecionada: Incorreta II e IV, apenas. Resposta Correta: Correta II e IV, apenas. Feedback da resposta: Sua resposta está incorreta. O primeiro foco da avaliação é um problema de classificação, aprovar (sim ou não) o cartão de crédito, uma variável qualitativa dicotômica, com dois níveis (classes); o segundo foco da avaliação é um