Prévia do material em texto
Copyright 2022 222RGR0890A - ESTATÍSTICA APLICADA AO DATA SCIENCE Minhas Disciplinas 222RGR0890A - ESTATÍSTICA APLICADA AO DATA SCIENCE PROVA N2 (A5) N2 (A5) Questão 1 Completo Atingiu 0,00 de 1,00 Marcar questão Questão 2 Completo Atingiu 1,00 de 1,00 Marcar questão Questão 3 Completo Atingiu 1,00 de 1,00 Marcar questão Questão 4 Completo Atingiu 1,00 de 1,00 Marcar questão Questão 5 Completo Atingiu 1,00 de 1,00 Marcar questão Questão 6 Completo Atingiu 1,00 de 1,00 Marcar questão Questão 7 Completo Atingiu 1,00 de 1,00 Marcar questão Questão 8 Completo Atingiu 1,00 de 1,00 Marcar questão Questão 9 Completo Atingiu 1,00 de 1,00 Marcar questão Questão 10 Completo Atingiu 1,00 de 1,00 Marcar questão Iniciado em terça, 13 dez 2022, 23:39 Estado Finalizada Concluída em terça, 13 dez 2022, 23:51 Tempo empregado 11 minutos 44 segundos Avaliar 9,00 de um máximo de 10,00(90%) Terminar revisão O estatístico empregou gráficos clássicos, isto é, de emprego consagrado, para a visualização de dados quantitativos e qualitativos, que são histogramas e diagramas de barras. Diante do exposto, analise as afirmativas a seguir. I. O estatístico usou de histogramas para a visualização dos dados quantitativos das amostras, quais sejam: a área, o andar e o valor do imóvel. II. O estatístico usou de diagramas de barras para a visualização do único dado qualitativo da amostra: a localização do imóvel. III. Histogramas e diagramas de barra são formas tradicionais de visualização gráfica de dados quantitativos e qualitativos, respectivamente, na estatística e na ciência dos dados. IV. Gráficos de pizza são uma alternativa aos diagramas de barras para a representação visual de dados qualitativos. Está correto o que se afirma em: a. I e II, apenas. b. II e III, apenas. c. II, apenas. d. I, apenas. e. IV, apenas. O texto em referência explica que o processo de descoberta com a mineração de dados possui tanto um sentido romântico (um processo emocionante e prazeroso), quanto técnico (um estudo criterioso sobre dados). Também defende a ideia que é preciso conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera receber.. Ou seja, o que as pessoas necessitam e esperam receber.Lei SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados: com aplicações em R. Rio de Janeiro: Elsevier, 2016, p.3. Considerando as ideias apresentadas acima e o que sabemos sobre ciência dos dados, mineração de dados e machine learning, analise as afirmativas a seguir: I. Machine learning são algoritmos desenvolvidos, principalmente, pela ciência da computação. São usados na estatística, na ciência de dados e na mineração de dados. II. O processo de descoberta de padrões e geração de conhecimento por meio de dados tem um sentido romântico, por ser emocionante e prazeroso, e um sentido técnico, pois demanda estudos técnicos criteriosos. III. A estatística, a ciência da computação e a ciência de dados são áreas relacionadas, mas a mineração de dados e ciência de dados são áreas independentes, sem nenhuma relação. IV. Não é importante conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera receber. Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s): a. I, II e IV apenas. b. I, II e III apenas; c. I e II apenas; d. II e III apenas; e. II, III e IV apenas; Depois que formamos grupos de observações de um conjunto de dados (amostra), por meio de um algoritmo de agrupamento, podemos dar nomes aos mesmos, e cada indivíduo de cada grupo será classificado de acordo com esse nome. O ser humano faz isso com naturalidade, primeiro agrupar e, depois de formados os grupos, dar nomes aos grupos. Por exemplo, animais vertebrados ou invertebrados, carros ou aviões, homens ou mulheres. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. e assinale a alternativa correta: I. Ao usarmos de algoritmos de agrupamento, depois que formados e nomeados (classificados) os grupos de observações resultantes do algoritmo, não é possível usar essas classes como variáveis respostas e, a partir desse ponto, executar tarefas preditivas com algoritmos de classificação. Pois II. Algoritmos de agrupamento fazem parte dos métodos da chamada aprendizagem não supervisionada. Não são modelos preditivos. a. As asserções I e II são proposições verdadeiras, e a II é uma justi�cativa correta da I. b. A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. c. As asserções I e II são proposições verdadeiras, mas a II não é uma justi�cativa da I. d. A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa. e. As asserções I e II são proposições falsas. O Margareth H. Duham, em seu livro Data Mining - Introductory and Advanced Topics, informa que tarefas de agrupamento, ou clustering em inglês, vêm sendo aplicadas em muitos domínios, incluindo a biologia, a medicina, a antropologia, o marketing e a economia. DUHAM, Margareth H. Data mining: introductory and advanced topics. Upper Saddle River (NJ): Pearson Education, 2003, p.126. A respeito desses domínios de aplicação de tarefas de agrupamento, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Observar diferentes características de doenças em vários pacientes, e depois formar diferentes grupos de pacientes - por similaridade das características de suas doenças - é uma tarefa de agrupamento. II. ( ) Observar diferentes hábitos de consumo em várias milhares de pessoas, e depois formar grupos de pessoas - por similaridade de seus hábitos de consumo - é uma tarefa de agrupamento. III. ( ) Observar diferentes características das linguagens faladas por membros de aldeias remotas, e depois formar grupos de linguagens - por similaridades das características das linguagens - é uma tarefa de agrupamento. IV. ( ) Observar diferentes característica de insetos em diversos biomas, e depois formar grupos de insetos - por similaridade de suas características - é uma tarefa de agrupamento. a. V, V, F, V. b. V, V, V, F. c. V, V, F, F. d. V, V, V, V. e. F, V, V, F. Em algumas situações, o cientista de dados pode decidir transformar dados quantitativos em dados qualitativos, o que chamamos discretização. Por exemplo, em vez de tratar idade como uma variável quantitativa contínua, podemos transformá-la em uma variável qualitativa com quatro níveis: criança, jovem, adulto, idoso. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. A discretização (transformação) de variáveis quantitativas em qualitativas é comum na estatística e na ciência dos dados. Pois: II. A discretização, em muitas situações, simplifica a análise e, principalmente, traz maior clareza à interpretação dos resultados. A seguir, assinale a alternativa correta: a. A asserção I é uma proposição falsa e a II é uma proposição verdadeira. b. As asserções I e II são proposições falsas. c. A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa. d. As asserções I e II são proposições verdadeiras, e a II é uma justi�cativa correta da I. e. As asserções I e II são proposições verdadeiras, mas a II não é uma justi�cativa correta da I. Leia o excerto a seguir: “Uma rede neural artificial (ou rede neural) é um modelo preditivo motivado pelo forma como funciona o cérebro humano. Pense no cérebro como uma coleção de neurônios conectados. Cada neurônio olha para a saída dos outros neurônios que o alimentam, faz um cálculo e então ele dispara (se o cálculo exceder algum limite) ou não (se não exceder) [...] Redes neurais podem resolver uma variedade de problemas como reconhecimento de caligrafia e detecção facial, e elas são muito usadas em deep learning (aprendizado profundo), uma das subáreas mais populares de data science. Entretanto, a maioria das redes neurais são “caixas-pretas” -inspecionar seus detalhes não lhe fornece muito entendimento de como elas estão resolvendo um problema. E grandes redes neurais podem ser difíceis de treinar. Para a maioria dos problemas você encontrará como um cientista de dados, elas provavelmente não são a melhor solução [...]”. GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta Books, 2016. p. 213. Tomando como base esse texto sobre redes neurais artificiais, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Uma rede neural artificial, também chamada simplesmente de rede neural, é um modelo preditivo motivado pela forma como o cérebro funciona. II. ( ) Em uma rede neural artificial, há vários neurônios que se interconectam, e o resultado do cálculo de um alimenta a entrada de outros. III. ( ) Redes neurais, como são modelos preditivos que tomam como base o funcionamento do cérebro, são de muito fácil interpretação. IV. ( ) Redes neurais, como são modelos preditivos, podem ser usadas para tarefas tais como reconhecimento de caligrafia e detecção facial. Assinale a alternativa que apresenta a sequência correta: a. F, V, F, V. b. F, F, F, F. c. V, V, F, V. d. V, V, V, V. e. V, V, F, F. Leia o excerto a seguir: “Normalização: É comum normalizar (padronizar) variáveis contínuas através da subtração da média e divisão pelo desvio-padrão, ou então as variáveis com grande escala dominarão o processo de agrupamento (veja Padronização (Normalização, Escores Z), no Capítulo 6).” BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 265. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. Sabemos que, na estatística ou na ciência dos dados, é comum normalizar (padronizar) variáveis quantitativas, ou variáveis contínuas, antes da realização de uma análise de agrupamento. Pois II. No conjunto de dados observados (a amostra de dados), podem existir variáveis que estão em uma escala muito maior que as outras, e a medida de distância entre observações dessas variáveis dominarão o resultado da análise de agrupamento, na formação dos grupos de observações similares entre si. a. A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. b. As asserções I e II são proposições falsas. c. As asserções I e II são proposições verdadeiras, mas a II não é uma justi�cativa correta da I. d. As asserções I e II são proposições verdadeiras, e a II é uma justi�cativa correta da I. e. A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa. Na análise descritiva do volume de vendas da boneca falante, foram estudadas as variáveis relativas aos dados coletados pela gerente comercial do fabricante da boneca. Entre elas, há a variável do local de exposição da boneca (ruim, médio, bom) no ponto de venda, cuja relação com vendas altas ou baixas é exibida no gráfico adiante. Figura: Efeito do local de exposição nas vendas Fonte: Elaborada pelo autor. Quanto à relação entre o local de exposição da boneca (ruim, médio, bom) e o volume de vendas (vendas altas ou baixas), analise as afirmativas a seguir: I. Ao estudarmos este caso, percebemos que vendas altas ocorrem com mais frequência nos pontos de venda onde o local de exposição da boneca é bom. II. Ao estudarmos este caso, percebemos que não há qualquer efeito do local de exposição sobre o volume de vendas da boneca nos pontos de venda. III. O gráfico exibido acima mostra que a frequência de pontos com vendas altas é baixa quando o local de exposição da boneca é ruim. IV. O gráfico de visualização da relação entre o local de exposição da boneca no ponto de venda e o volume de vendas, por se tratarem ambas de variáveis qualitativas, é um gráfico do tipo mosaic plot, apropriado para esta situação. Está correto o que se afirma em: a. I, III e IV, apenas. b. III e IV, apenas. c. II e III, apenas. d. I, II e IV, apenas. e. I, II e III, apenas. Leia o excerto a seguir sobre as ideias-chave para agrupamento hierárquico: “Começa com todos os registros. Progressivamente, os grupos são unidos aos grupos próximos até que todos os registros pertençam a um único grupo. O histórico de aglomeração é retido e plotado, e o usuário pode visualizar o número e a estrutura dos grupos em diferentes estágios. As distâncias intergrupos são calculadas de jeitos diferentes, todas baseadas no conjunto de distância inter-registros.” BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 278. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. No agrupamento hierárquico, o usuário deve obrigatoriamente especificar o número de grupos que deseja ver o algoritmo formar. Pois II. O algoritmo começa com grupos formados por registros individuais e, progressivamente, os grupos são unidos aos grupos mais próximos, até que todos os registros pertençam a um único grupo. a. As asserções I e II são proposições verdadeiras, e a II é uma justi�cativa correta da I. b. A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa. c. As asserções I e II são proposições verdadeiras, mas a II não é uma justi�cativa da I. d. A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. e. As asserções I e II são proposições falsas. Iniciamos a nossa jornada, pelo mundo da “Estatística Aplicada à Ciência dos Dados”, com modelos preditivos denominados regressão linear, simples e múltipla. Vimos algumas coisas, mas não vimos outras, pois esta é apenas uma jornada inicial motivadora. O seu propósito foi o de apenas descortinar um pouquinho desse vasto mundo para você. Desse modo, tentaremos fazer um breve resumo dessa jornada aqui. Para isso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Dados e amostras. Vimos que podemos fazer análise descritiva de um processo apenas se tivermos dados sobre esse processo. Esses dados devem ser coletados do fenômeno ou processo estudado (população). Denominamos esses dados como amostra. II. ( ) Análise descritiva. Tendo em mãos uma amostra, a análise descritiva se refere a sumários (resumos) estatísticos calculados com base nessa amostra (mínimos, máximos, frequências, médias, medianas, desvios-padrões etc.) e visualizações produzidas por meio de gráficos. III. ( ) Visualização dos dados relativos a uma variável. Esses gráficos são divididos em duas grandes famílias. Uma delas são de gráficos que permitem a visualização do comportamento de dados quantitativos. Aqui, mostramos o histograma, que é o mais importante dentro dessa família. A outra família são de gráficos que permitem a visualização de dados qualitativos. Aqui, mostramos o diagrama de barras, que é o mais importante dentro dessa família. IV. ( ) Visualização da relação entre duas variáveis. Finalmente, também na análise descritiva do processo ou fenômeno observado, vimos gráficos que se aplicam à visualização da relação entre duas variáveis, a partir dos dados observados. Se as duas variáveis são quantitativas, usamos, aqui, o gráfico de dispersão. Por exemplo, o valor do imóvel versus sua área. Quando a relação é entre uma variável quantitativa e uma variável qualitativa, usamos, aqui, os boxplots (diagramas de caixas), cada boxplot referente a um determinado nível da variável qualitativa (bairro ou centro) e, dentro dele, como se comporta a variável quantitativa. V. ( ) Coisas que não vimos aqui. Há muitas coisas que não vimos aqui. São coisas sobre as quais você poderá ver, caso decida aprender mais sobre essas poderosas áreas do conhecimento humano, a estatística e a ciência dos dados, muito valorizadas pelo mercado de trabalho. Assinale a alternativa que apresenta a sequência correta. a. V, V, F, V, F. b. V, V, F, F, F. c. F, V, V, F, V. d. V, F, F, V, V. e. V, V, V, V, V. ◄ RevisãoAtividade 4 (A4) Seguir para... Revisão Prova N2 (A5) ► Navegação do questionário Terminar revisão 1 2 3 4 5 6 7 8 9 10 Guia Digital Carreiras e Internacionalização NAP CPA Responsabilidade Socioambiental Minhas Disciplinas Minhas Bibliotecas VINICIUS JESUS ROCHA