Prévia do material em texto
GRA1561 ESTATISTICA APLICADA AO DATA SCIENCE ATIVIDADE 4 (A4) Pergunta 1 Em uma análise de agrupamento examinamos os dados observados (as linhas da tabela com os dados) e procuramos identificar, através de algum critério de similaridade, aquelas que estão mais próximas entre si, e formamos grupos com essas observações similares. Quando são apenas 2 variáveis e poucas observações (tamanho da amostra pequeno), por exemplo 10, podemos tentar fazer o agrupamento visualmente. Analise a figura adiante e assinale a alternativa que indica a menor quantidade de grupos que você naturalmente formaria para este caso: Figura - Massa corporal (kg) versus comprimento (m) dos animais Fonte: Elaborada pelo autor a) Dois grupos, um com 1 indivíduo e um com 9 indivíduos. b) Quatro grupos, um com 5 indivíduos, dois com 1 indivíduo cada, e um com 4 indivíduos. c) Dois grupos com 5 indivíduos cada. d) Dois grupos, um com 6 indivíduos e outro com 4 indivíduos. e) Três grupos, um com 5 indivíduos, um com 1 indivíduo, e um com 4 indivíduos. Pergunta 2 Na estatística ou, genericamente, na análise de dados, muito frequentemente analisamos dados ditos retangulares ou estruturados, onde as variáveis - quantitativas ou qualitativas - são dispostas nas colunas e as observações na linhas de uma tabela. Em algumas situações é vantajoso se fazer a padronização das variáveis quantitativas. Assinale a alternativa correta relativamente ao assunto de padronização de variáveis quantitativas na estatística: a) Na padronização, se subtrai de cada variável seu desvio padrão, e depois se divide o resultado pela média da variável. b) Na padronização, se subtrai de cada variável sua média, e depois se divide o resultado pelo seu desvio padrão. c) Na padronização, se subtrai de cada variável sua média, e não se faz nada com respeito ao seu desvio padrão. d) Na padronização, se subtrai de cada variável seu desvio padrão, e não se faz nada com respeito à sua média. e) Na padronização, se calcula a média geral entre todas variáveis e depois se subtrai este valor de cada uma das variáveis. Pergunta 3 Discutimos o que são aprendizagem supervisionada e não supervisionada. Vimos que é na forma como tratamos as variáveis estudadas que se dá a diferença entre esses dois tipos de aprendizagens, supervisionada e não supervisionada. Esses dois tipos são os mais importantes dentre os diversos tipos de aprendizagem. Relativamente a esse assunto, analise as afirmativas a seguir: I. Na aprendizagem supervisionada, definimos uma das variáveis estudadas como sendo a variável resposta, a qual responde em função dos valores assumidos pelas outras variáveis, as quais são chamadas de variáveis de entrada. II. Especificamente na aprendizagem supervisionada, também denominamos uma variável resposta de variável de saída ou variável dependente. III. Especificamente na aprendizagem supervisionada, também denominamos uma variável de entrada de variável regressora, variável preditora, variável explanatória ou variável independente. IV. Na aprendizagem não supervisionada, tratamos todas as variáveis estudadas da mesma forma, sem procurar explicar o comportamento de uma delas em função dos valores assumidos pelas outras. a) II e III, apenas. b) I, II e IV, apenas. c) II, III e IV, apenas. d) I, III e IV, apenas. e) I, II, III e IV. Pergunta 4 Quando os dados se referem a múltiplas variáveis quantitativas, é possível calcular a correlação entre pares dessas variáveis, duas a duas. No software estatístico R, isto pode ser feito com a função cor(). Adiante apresentamos um output típico da função cor() quando aplicada ao cálculo da correlação entre quatro variáveis quantitativas de um determinado conjunto de dados. A respeito deste output típico da função cor() do software estatístico R, para o cálculo da correlação entre múltiplas variáveis quantitativas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Todas correlações são positivas, o que indica que, para todas variáveis quantitativas dessa amostra, quando uma aumenta, a outra também aumenta. II. ( ) Uma correlação igual a 1 entre uma variável e ela mesma apenas indica uma correlação perfeita dela com ela mesma. III. ( ) A maior correlação positiva entre essas variáveis é aquela entre Murder e Assault, cujo valor é de 0,80. IV. ( ) A segunda maior correlação positiva entre essas variáveis é aquela entre Rape e Assault, cujo valor é de 0,67 e não de 0,56. a) F, V, F, V. b) F, F, V, V. c) V, V, V, F. d) F, V, V, F. e) F, V, V, V. Pergunta 5 Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco estados americanos parte do famoso conjunto de dados USArrests, o qual possue 50 observações (50 estados americanos) de 4 variáveis (Murder, Assault, UrbanPop e Rape). Obteve o resultado exibido na figura exibida adiante: Uma imagem contendo captura de telaDescrição gerada automaticamente Figura - Dendrograma do agrupamento dos cinco estados Fonte: Elaborada pelo autor Relativamente à interpretação desta figura, assinale a alternativa correta: a) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que sugere serem os estados New Mexico e Oklahoma os mais próximos em termos de violência urbana. b) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que lido de cima para baixo, na altura (height) 1,5 sugere a formação de 10 grupos. c) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que lido de baixo para cima, na altura (height) 1,5 sugere a formação de 6 grupos. d) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que sugere serem os estados Texas e Arkansas os mais próximos em termos de violência urbana. e) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que representa os vários grupos formados em cada estágio do processo de agrupamento hierárquico. Pergunta 6 Os métodos de aprendizagem estatística (statistical learning, em inglês) são divididos em métodos de aprendizagem supervisionada e métodos de aprendizagem não supervisionada. Para cada uma dessas diferentes abordagens, há uma coleção relativamente grande de diferentes métodos, cada um com seu próprio jeito de funcionamento. Assinale a alternativa que indica um problema de aprendizagem não supervisionada: a) Queremos estimar o valor de imóveis a partir das suas características, tais como sua área, seu andar e sua localização. b) Ajudaremos médicos se conseguirmos avaliar a gravidade de uma doença a partir de dados relativos às condições do paciente. c) Gostaríamos de saber que pessoas ficarão inadimplentes com o pagamento das faturas de seus cartões de crédito. d) Desejamos entender se há similaridade entre observações (indivíduos) de uma certa amostra de dados. e) Pretendemos ter uma ideia do volume de vendas de um produto de varejo a partir de algumas características do ponto de venda. Pergunta 7 Leia o excerto a seguir: “Exploração de dados é a arte de olhar os seus dados, rapidamente gerar hipóteses sobre eles, e rapidamente testar essas hipóteses. E repetir isso outra vez, outra vez, outra vez. O objetivo da exploração de dados é a geração de pistas sobre o que os dados nos revelam, pistas que você poderá explorar, mais tarde, em maior profundidade.” WICKHAM, Hadley; GROLEMUN, Garret. R for data science : import, tidy, transform, visualize, and model dada. Sebastopol (CA): O’Reilly Media, 2017, p.1. A respeito das fontes que originaram os contos de fadas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Análise estatística descritiva é parte da análise exploratória de dados, frequentemente entendida como a exploração inicial dos dados. II. ( ) Além dos métodos da estatística descritiva, algoritmos de agrupamento também são parte da análise exploratóriade dados. III. ( ) A análise exploratória dos dados permite a geração de hipóteses sobre os dados, para posterior investigação mais detalhada. IV. ( ) Gerar hipóteses sobre dados significa gerar afirmações sobre possíveis padrões e descobertas reveladas pelos dados, a serem melhor investigadas e comprovadas. a) V, V, F, V. b) F, F, F, F. c) F, V, F, V. d) V, V, F, F. e) V, V, V, V. Pergunta 8 O Margareth H. Duham, em seu livro Data Mining - Introductory and Advanced Topics, informa que tarefas de agrupamento, ou clustering em inglês, vêm sendo aplicadas em muitos domínios, incluindo a biologia, a medicina, a antropologia, o marketing e a economia. DUHAM, Margareth H. Data mining : introductory and advanced topics. Upper Saddle River (NJ): Pearson Education, 2003, p.126. A respeito desses domínios de aplicação de tarefas de agrupamento, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Observar diferentes características de doenças em vários pacientes, e depois formar diferentes grupos de pacientes - por similaridade das características de suas doenças - é uma tarefa de agrupamento. II. ( ) Observar diferentes hábitos de consumo em várias milhares de pessoas, e depois formar grupos de pessoas - por similaridade de seus hábitos de consumo - é uma tarefa de agrupamento. III. ( ) Observar diferentes características das linguagens faladas por membros de aldeias remotas, e depois formar grupos de linguagens - por similaridades das características das linguagens - é uma tarefa de agrupamento. IV. ( ) Observar diferentes característica de insetos em diversos biomas, e depois formar grupos de insetos - por similaridade de suas características - é uma tarefa de agrupamento. a) F, V, V, F. b) V, V, F, F. c) V, V, F, V. d) V, V, V, V. e) V, V, V, F. Pergunta 9 O texto em referência explica que o processo de descoberta com a mineração de dados possui tanto um sentido romântico (um processo emocionante e prazeroso), quanto técnico (um estudo criterioso sobre dados). Também defende a ideia que é preciso conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera receber.. Ou seja, o que as pessoas necessitam e esperam receber.Lei SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados : com aplicações em R. Rio de Janeiro: Elsevier, 2016, p.3. Considerando as ideias apresentadas acima e o que sabemos sobre ciência dos dados, mineração de dados e machine learning, analise as afirmativas a seguir: I. Machine learning são algoritmos desenvolvidos, principalmente, pela ciência da computação. São usados na estatística, na ciência de dados e na mineração de dados. II. O processo de descoberta de padrões e geração de conhecimento por meio de dados tem um sentido romântico, por ser emocionante e prazeroso, e um sentido técnico, pois demanda estudos técnicos criteriosos. III. A estatística, a ciência da computação e a ciência de dados são áreas relacionadas, mas a mineração de dados e ciência de dados são áreas independentes, sem nenhuma relação. IV. Não é importante conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera receber. Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s): a) I, II e III apenas; b) II e III apenas; c) II, III e IV apenas; d) I, II e IV apenas. e) I e II apenas; Pergunta 10 Leia o excerto a seguir: “Normalização: É comum normalizar (padronizar) variáveis contínuas através da subtração da média e divisão pelo desvio-padrão, ou então as variáveis com grande escala dominarão o processo de agrupamento (veja Padronização (Normalização, Escores Z), no Capítulo 6).” BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 265. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. Sabemos que, na estatística ou na ciência dos dados, é comum normalizar (padronizar) variáveis quantitativas, ou variáveis contínuas, antes da realização de uma análise de agrupamento. Pois II. No conjunto de dados observados (a amostra de dados), podem existir variáveis que estão em uma escala muito maior que as outras, e a medida de distância entre observações dessas variáveis dominarão o resultado da análise de agrupamento, na formação dos grupos de observações similares entre si. a) As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I. b) A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. c) As asserções I e II são proposições falsas. d) As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. e) A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.