Baixe o app para aproveitar ainda mais
Prévia do material em texto
Usuário MARCO ANTONIO VIEIRA MORAIS Curso GRA1561 ESTATÍSTICA APLICADA AO DATA SCIENCE GR0890202 - 202020.ead-11306.01 Teste 20202 - PROVA N2 (A5) Iniciado 05/12/20 11:42 Enviado 05/12/20 12:18 Status Completada Resultado da tentativa 10 em 10 pontos Tempo decorrido 35 minutos Instruções Resultados exibidos Respostas enviadas, Respostas corretas, Comentários Caso necessite a utilização do "EXCEL" clique no link ao lado -----------> excel.xlsx Pergunta 1 Resposta Selecionada: Resposta Correta: Comentário da resposta: Leia o excerto a seguir sobre as ideias-chave para agrupamento hierárquico: “Começa com todos os registros. Progressivamente, os grupos são unidos aos grupos próximos até que todos os registros pertençam a um único grupo. O histórico de aglomeração é retido e plotado, e o usuário pode visualizar o número e a estrutura dos grupos em diferentes estágios. As distâncias intergrupos são calculadas de jeitos diferentes, todas baseadas no conjunto de distância inter-registros.” BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 278. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. No agrupamento hierárquico, o usuário deve obrigatoriamente especificar o número de grupos que deseja ver o algoritmo formar. Pois II. O algoritmo começa com grupos formados por registros individuais e, progressivamente, os grupos são unidos aos grupos mais próximos, até que todos os registros pertençam a um único grupo. A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. Resposta correta. A alternativa está correta, pois no agrupamento hierárquico, diferentemente do que se requer para o agrupamento por k-médias, o usuário não especifica o número de grupos que o algoritmo deve formar. Em estágios progressivos, se parte de tantos grupos quanto o número de registros (observações) do conjunto de dados, formam-se sequencialmente vários agrupamentos, por fusão entre grupos mais similares entre si, até se formar um único grupo ao final com todos os registro do conjunto de dados analisado Ao 1 em 1 pontos https://anhembi.blackboard.com/bbcswebdav/pid-14850383-dt-content-rid-84766551_1/xid-84766551_1 Pergunta 2 Resposta Selecionada: Resposta Correta: Comentário da resposta: Considere dois pontos de venda da boneca falante com as seguintes características: primeiro ponto com local de exposição ruim da boneca, preço da boneca de 289,99 reais, gastos mensais com publicidade de 90 mil reais e idade média da população local de 39 anos. Segundo ponto com bom local de exposição da boneca e preço da boneca de 399,99 reais. Figura - Árvore de decisão ajustada às vendas do produto de varejo Fonte: Elaborada pelo autor. Use a árvore que construímos para o caso da boneca falante (novamente exibida aqui) e assinale a alternativa que indica corretamente a estimativa de vendas para esse ponto de venda: Vendas altas e baixas, respectivamente. Vendas altas e baixas, respectivamente. Resposta correta. A alternativa está correta, pois ao percorremos a árvore construída para a predição das vendas da boneca falante, se altas ou baixas, do nó inicial aos nós terminais, e usarmos passo a passo as características dos dois pontos de venda, comparando-as com os valores informados em cada nó, chegaremos às estimativas de vendas altas para o primeiro ponto e de vendas baixas para o segundo ponto. Pergunta 3 A estatística, a ciência da computação, a mineração de dados e a ciência dos dados são áreas correlacionadas. Dentre essas, a mais antiga é a estatística, seguida da ciência da computação, depois da mineração de dados, e finalmente da ciência dos dados, a mais nova dessas quatro áreas de conhecimento. Com referência ao relacionamento entre essas quatro áreas de conhecimento 1 em 1 pontos 1 em 1 pontos Resposta Selecionada: Resposta Correta: Comentário da resposta: I. Algoritmos de machine learning nasceram na ciência da computação. Hoje são usados na estatística, na mineração de dados e na ciência dos dados. II. Dentre as diversas áreas citadas, é a estatística que possui os melhores fundamentos para a interpretação de fenômenos aleatórios. III. A estatística é considerada a mais sutil, e a mais ampla, quando nos referimos a análise de dados. É aplicada a todas áreas de atividade humana. IV. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes, herdados das outras áreas, para se referir a um mesmo conceito. I, II, III e IV. I, II, III e IV. Resposta correta. A alternativa está correta, pois algoritmos de machine learning nasceram na ciência da computação e hoje são usados na estatística, na mineração de dados e na ciência dos dados. De fato, é a estatística que possui os melhores fundamentos para a interpretação de fenômenos aleatórios, e é considerada a mais sutil, e a mais ampla, quando nos referimos a análise de dados. Já há muitos anos é aplicada a todas áreas de atividade humana. Por outro lado, também sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes, herdados das outras áreas, para se referir a um mesmo conceito. Pergunta 4 Resposta Selecionada: Resposta Correta: Comentário da resposta: Leia o excerto a seguir: “Normalização: É comum normalizar (padronizar) variáveis contínuas através da subtração da média e divisão pelo desvio-padrão, ou então as variáveis com grande escala dominarão o processo de agrupamento (veja Padronização (Normalização, Escores Z), no Capítulo 6).” BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 265. A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. I. Sabemos que, na estatística ou na ciência dos dados, é comum normalizar (padronizar) variáveis quantitativas, ou variáveis contínuas, antes da realização de uma análise de agrupamento. Pois II. No conjunto de dados observados (a amostra de dados), podem existir variáveis que estão em uma escala muito maior que as outras, e a medida de distância entre observações dessas variáveis dominarão o resultado da análise de agrupamento, na formação dos grupos de observações similares entre si. As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Resposta correta. A alternativa está correta. Na estatística ou na ciência dos dados, é comum normalizar (padronizar) variáveis quantitativas, ou variáveis contínuas, antes da realização de uma análise de agrupamento, pois no conjunto 1 em 1 pontos dominarão o resultado final da análise de agrupamento se a padronização não for feita antes. Pergunta 5 Resposta Selecionada: Resposta Correta: Comentário da resposta: Ao longo das nossas discussões, demos foco a um classificador chamado de regressão logística que, apesar do nome regressão (esse nome por razões históricas e por conta de algumas de suas características), é usado como um classificador. Mas também vimos que existem outros tipos de classificadores. Relativamente a esse assunto de algoritmos de classificação, analise as afirmativas a seguir. 1. Regressão logística é o único método de aprendizagem supervisionada que é utilizado para classificação, todos outros métodos são métodos de regressão. 2. Apesar do nome regressão logística, o que acaba sendo um pouco confuso para iniciantes, na verdade este é um dos vários métodos de aprendizagem supervisionada utilizado para classificação. 3. Dentre os métodos utilizados para classificação se encontram regressão logística, análise discriminante linear (LDA = Linear Discriminant Analysis), árvores de decisão para classificação, máquinas de vetores de suporte (SVM = support vector machines) e k-vizinhosmais próximos (KNN = k- nearest neighbors). 4. Regressão linear não é um método de classificação, mas, sim, um dos métodos preditivos de aprendizagem supervisionada usados na predição de valores de variáveis respostas quantitativas. Está correto o que se afirma em: II, III e IV, apenas. II, III e IV, apenas. Resposta correta. A única asserção incorreta desta questão é a primeira, que afirma que regressão logística é o único método de aprendizagem supervisionada que é utilizado para classificação, todos outros métodos são métodos de regressão. Pergunta 6 Modelos de regressão linear são os mais importantes modelos de regressão da estatística e da ciência dos dados. Eles são divididos em dois grupos: modelos de regressão linear simples e modelos de regressão linear múltipla. 1 em 1 pontos 1 em 1 pontos Resposta Selecionada: Resposta Correta: Comentário da resposta: da sua área e do seu andar, analise as afirmativas a seguir. I. O estatístico desenvolveu um modelo para o valor esperado de (valor do imóvel) em função de (área do imóvel) e (andar do imóvel), simultaneamente. Esse modelo ficou assim: II. Quando se faz o ajuste simultâneo do modelo para duas variáveis de entrada, é natural que os valores dos coeficientes para cada variável sejam diferentes do que os mesmos coeficientes para cada variável sozinha em uma regressão linear simples. Isso vale sempre que adicionamos variáveis de entrada ou eliminamos variáveis de entrada de um modelo de regressão linear. III. Os coeficientes b1 e b2 indicam, respectivamente, quanto varia o valor esperado para o apartamento com a variação unitária de sua área (em metros quadrados) e a variação unitária do seu andar (1 andar a mais). IV. Ao usar esse modelo preditivo, podemos estimar o valor esperado de um apartamento com 40 metros quadrados localizado no quinto andar em 433 mil reais (arredondando para mil reais). Está correto o que se afirma em: I, II e III, apenas. I, II e III, apenas. Resposta correta. A alternativa está correta. Ao substituirmos e por, respectivamente, 40 metros quadrados e andar 5, obtemos y = -2,59 + 5,12 x 40 + 6.34 x 5 = 233,91 que, arredondado para mil reais, resulta em 234 mil reais; o modelo é exatamente o informado; quando se faz o ajuste simultâneo do modelo para duas variáveis de entrada, é natural que os valores dos coeficientes para cada variável sejam diferentes do que os mesmos coeficientes para cada variável sozinha em uma regressão linear simples; já os coeficientes b1 e b2 indicam, respectivamente, quanto varia o valor esperado para o apartamento com a variação unitária de sua área (em metros quadrados) e a variação unitária do seu andar (1 andar a mais). Pergunta 7 Leia o excerto a seguir: “Uma rede neural artificial (ou rede neural) é um modelo preditivo motivado pelo forma como funciona o cérebro humano. Pense no cérebro como uma coleção de neurônios conectados. Cada neurônio olha para a saída dos outros neurônios que o alimentam, faz um cálculo e então ele dispara (se o cálculo exceder algum limite) ou não (se não exceder) [...] Redes neurais podem resolver uma variedade de problemas como reconhecimento de caligrafia e detecção facial, e elas são muito usadas em deep learning (aprendizado profundo), uma das subáreas mais populares de data science. Entretanto, a maioria das redes neurais são “caixas-pretas” - inspecionar seus detalhes não lhe fornece muito entendimento de como elas estão resolvendo um problema. E grandes redes neurais podem ser difíceis de treinar. Para a maioria dos problemas você encontrará como um cientista de dados, elas provavelmente não são a melhor solução [...]”. 1 em 1 pontos Resposta Selecionada: Resposta Correta: Comentário da resposta: Alta Books, 2016. p. 213. Tomando como base esse texto sobre redes neurais artificiais, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Uma rede neural artificial, também chamada simplesmente de rede neural, é um modelo preditivo motivado pela forma como o cérebro funciona. II. ( ) Em uma rede neural artificial, há vários neurônios que se interconectam, e o resultado do cálculo de um alimenta a entrada de outros. III. ( ) Redes neurais, como são modelos preditivos que tomam como base o funcionamento do cérebro, são de muito fácil interpretação. IV. ( ) Redes neurais, como são modelos preditivos, podem ser usadas para tarefas tais como reconhecimento de caligrafia e detecção facial. Assinale a alternativa que apresenta a sequência correta: V, V, F, V. V, V, F, V. Resposta correta. A sequência está correta. Uma rede neural artificial é um modelo preditivo motivado pela forma como o cérebro funciona, em que há vários neurônios que se interconectam, o resultado do cálculo de cada neurônio alimentando a entrada de outros. Pode ser usada para tarefas como reconhecimento de caligrafia e detecção de faces. Pergunta 8 Iniciamos a nossa jornada, pelo mundo da “Estatística Aplicada à Ciência dos Dados”, com modelos preditivos denominados regressão linear, simples e múltipla. Vimos algumas coisas, mas não vimos outras, pois esta é apenas uma jornada inicial motivadora. O seu propósito foi o de apenas descortinar um pouquinho desse vasto mundo para você. Desse modo, tentaremos fazer um breve resumo dessa jornada aqui. Para isso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Dados e amostras . Vimos que podemos fazer análise descritiva de um processo apenas se tivermos dados sobre esse processo. Esses dados devem ser coletados do fenômeno ou processo estudado (população). Denominamos esses dados como amostra. II. ( ) Análise descritiva . Tendo em mãos uma amostra, a análise descritiva se refere a sumários (resumos) estatísticos calculados com base nessa amostra (mínimos, máximos, frequências, médias, medianas, desvios-padrões etc.) e visualizações produzidas por meio de gráficos. III. ( ) Visualização dos dados relativos a uma variável . Esses gráficos são divididos em duas grandes famílias. Uma delas são de gráficos que permitem a visualização do comportamento de dados quantitativos. Aqui, mostramos o histograma, que é o mais importante dentro dessa família. A outra família são de gráficos que permitem a visualização de dados qualitativos. Aqui, mostramos o diagrama de barras, que é o mais importante dentro dessa família. IV. ( ) Visualização da relação entre duas variáveis . Finalmente, também na análise descritiva do processo ou fenômeno observado, vimos gráficos que se aplicam à visualização da relação entre duas variáveis, a partir dos dados b d S d iá i ã tit ti i áfi d 1 em 1 pontos Resposta Selecionada: Resposta Correta: Comentário da resposta: entre uma variável quantitativa e uma variável qualitativa, usamos, aqui, os boxplots (diagramas de caixas), cada boxplot referente a um determinado nível da variável qualitativa (bairro ou centro) e, dentro dele, como se comporta a variável quantitativa. V. ( ) Coisas que não vimos aqui . Há muitas coisas que não vimos aqui. São coisas sobre as quais você poderá ver, caso decida aprender mais sobre essas poderosas áreas do conhecimento humano, a estatística e a ciência dos dados, muito valorizadas pelo mercado de trabalho. Assinale a alternativa que apresenta a sequência correta. V, V, V, V, V. V, V, V, V, V. Resposta correta. A alternativa está correta, pois todas as afirmativas são verdadeiras. Somente podemos fazer uma análise descritiva de um fenômeno ou processo se tivermos dados sobre eles. A análise descritiva se refere a sumários estatísticos e gráficos, os quais permitem a interpretação e a visualização dos dados. A visualização de dados quantitativos é feita, principalmente, por meio de histogramas, e a de dados qualitativos, por meio de diagramas de barras. Já a visualização da relação entre dois dados quantitativos é feita por meio de gráficos de dispersão e, entre uma variável quantitativae uma qualitativa, por meio de boxplots. Finalmente, sendo esse um curso introdutório, há muitas coisas que não discutimos aqui. Pergunta 9 Modelos de regressão linear são os mais importantes modelos de regressão da estatística e da ciência dos dados. Eles são divididos em dois grupos: modelos de regressão linear simples e modelos de regressão linear múltipla. Referente ao modelo de regressão linear múltipla para o valor do imóvel em função da sua área, seu andar e sua localização, analise as afirmativas a seguir. I. O estatístico desenvolveu um modelo completo para o valor esperado de (valor do imóvel) em função de (área do imóvel), (andar do imóvel) e (localização do imóvel), simultaneamente. Esse modelo ficou assim: II. Os coeficientes b1 = 4,87, b3 = 6,36 e b3 = - 27,43 indicam, respectivamente, quanto varia o valor esperado para o apartamento com a variação unitária de sua área (em metros quadrados), a variação unitária do seu andar (1 andar a mais) e a sua localização (bairro = 0 ou centro = 1). III. Com base nesse modelo, foi possível verificar que, para apartamentos de mesma área e mesmo andar, porém um no bairro e outro no centro, o apartamento do centro tem um valor esperado menor que o do bairro em 27,43 mil reais (27 mil arredondando para mil reais). Isso é válido para aquele município e para aqueles dados da corretora. IV. Com base nesse modelo, foi possível verificar que um apartamento de 50 metros quadrados no 10º andar tem um valor esperado de 339,77 mil reais no bairro contra um valor esperado de 312,34 mil para um apartamento de mesma á d t 1 em 1 pontos Resposta Selecionada: Resposta Correta: Comentário da resposta: I, II, III e IV. I, II, III e IV. Resposta correta. A alternativa está correta, pois todas as afirmativas se apresentam de maneira adequada. O modelo é exatamente aquele informado, assim como a interpretação para os seus coeficientes. Também foi possível verificar que o valor esperado para um apartamento no centro é menor que o valor esperado para um apartamento no bairro em 27,43 mil reais e que a estimativa para o valor esperado de um apartamento de 50 metros quadrados no 10º andar é de 339,77 mil reais no bairro contra um valor esperado de 312,34 para um no centro de mesma área e andar. Pergunta 10 Resposta Selecionada: Resposta Correta: Comentário da resposta: Considere quatro apartamentos: o primeiro com 55 metros quadrados, no centro, no 4º andar; o segundo com 77 metros quadrados, no bairro, no 5º andar; o terceiro com 54 metros quadrados, no centro, no 9º andar; o quarto com 60 metros quadrados, no bairro, no 12º andar. Figura - Árvore de decisão ajustada aos valores dos imóveis Fonte: Elaborada pelo autor. Use a árvore que construímos para o caso dos imóveis (novamente exibida aqui) e assinale a alternativa que indica corretamente as estimativas de preço desses apartamentos: 319,20; 448,80; 366,50; 390,40 mil reais. 319,20; 448,80; 366,50; 390,40 mil reais. Resposta correta. A alternativa está correta, pois ao percorremos a árvore construída para a predição do valor dos imóveis, do nó inicial aos nós terminais, e usarmos passo a passo as características dos apartamentos, comparando-as com os valores informados em cada nó, chegaremos às estimativas de preços de 319 20 mil reais 448 80 mil reais 366 50 mil reais e 390 40 mil reais 1 em 1 pontos
Compartilhar