Baixe o app para aproveitar ainda mais
Prévia do material em texto
PERGUNTA 1 1. A análise descritiva dos dados é uma etapa muito importante no processo de descoberta de padrões em dados. Por vezes, ela se limita à análise descritiva, pois comumente já traz muitas descobertas. Em grande parte das vezes, é uma das etapas iniciais, seguida de etapas relacionadas à modelagem dos dados. Em relação às ferramentas usadas por um estatístico ou um cientista de dados para a análise descritiva de dados, analise as afirmativas a seguir: I. Gráficos são usados para a visualização de cada variável ou relação entre variáveis. II. Tabelas, sumários e gráficos são as ferramentas básicas da análise descritiva. III. Modelos preditivos são usados para a análise descritiva de dados. IV. Tabelas e sumários estatísticos são usados na análise descritiva de dados. Está correto o que se afirma em: I, III e IV, apenas. I, II e III, apenas. II, III e IV, apenas. II e III, apenas. I, II e IV, apenas. PERGUNTA 2 1. Leia o excerto a seguir: “Uma rede neural artificial (ou rede neural) é um modelo preditivo motivado pelo forma como funciona o cérebro humano. Pense no cérebro como uma coleção de neurônios conectados. Cada neurônio olha para a saída dos outros neurônios que o alimentam, faz um cálculo e então ele dispara (se o cálculo exceder algum limite) ou não (se não exceder) [...] Redes neurais podem resolver uma variedade de problemas como reconhecimento de caligrafia e detecção facial, e elas são muito usadas em deep learning (aprendizado profundo), uma das subáreas mais populares de data science. Entretanto, a maioria das redes neurais são “caixas-pretas” - inspecionar seus detalhes não lhe fornece muito entendimento de como elas estão resolvendo um problema. E grandes redes neurais podem ser difíceis de treinar. Para a maioria dos problemas você encontrará como um cientista de dados, elas provavelmente não são a melhor solução [...]”. GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta Books, 2016. p. 213. Tomando como base esse texto sobre redes neurais artificiais, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Uma rede neural artificial, também chamada simplesmente de rede neural, é um modelo preditivo motivado pela forma como o cérebro funciona. II. ( ) Em uma rede neural artificial, há vários neurônios que se interconectam, e o resultado do cálculo de um alimenta a entrada de outros. III. ( ) Redes neurais, como são modelos preditivos que tomam como base o funcionamento do cérebro, são de muito fácil interpretação. IV. ( ) Redes neurais, como são modelos preditivos, podem ser usadas para tarefas tais como reconhecimento de caligrafia e detecção facial. Assinale a alternativa que apresenta a sequência correta: V, V, F, F. V, V, V, V. F, F, F, F. V, V, F, V. F, V, F, V. PERGUNTA 3 Na Unidade 1, usamos um modelo de regressão múltipla para a predição do valor de imóveis. Aqui, para o mesmo problema, usamos como modelo uma árvore de decisão. Dizemos que este modelo é um modelo de árvore de decisão para regressão, já que a variável resposta, o valor do imóvel, é quantitativa. A respeito deste modelo de árvore de decisão aplicado ao problema de predição do valor dos imóveis (replicado aqui, para sua conveniência), analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) Se o apartamento tiver uma área menor que 73,6 metros quadrados e for localizado no bairro, a estimativa para seu valor é de 319,20 mil reais, se seu andar for menor ou igual ao 6º andar. II. ( ) Se o apartamento tiver uma área menor que 73,6 metros quadrados, for localizado no centro e seu andar for menor ou igual ao 6º andar, a estimativa para seu valor é de 366,50 mil reais. III. ( ) Se o apartamento tiver uma área maior que 73,6 metros quadrados, a estimativa para seu valor é de 448,80 mil reais, independentemente da sua localização, bairro ou centro, e do seu andar. IV. ( ) Se o apartamento tiver uma área menor que 73,7 metros quadrados, for localizado no centro e seu andar for igual ou maior que o 7º andar, a estimativa para seu valor é de 366,50 mil reais. Assinale a alternativa que apresenta a sequência correta: F, V, V, F. F, F, V, F. V, F, V, F. F, V, V, V. F, F, V, V. PERGUNTA 4 1. Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um modelo de regressão logística múltipla aos dados da amostra. Os resultados que encontrou foram muito ricos, sugerindo uma série de explicações, aprendidas pelo algoritmo com base nos dados fornecidos. Veja que dizemos “explicações sugeridas”, pois qualquer resultado de um algoritmo deve ser confrontado com especialistas da área em estudo. Contudo, vamos rever o que o modelo de regressão múltipla treinado pela jovem cientista de dados sugere. Para isso, analise as afirmativas a seguir. 1. A probabilidade da inadimplência cresce com o aumento dos gastos médios com o cartão de crédito. Isto, que nos parece óbvio, foi o que os dados “contaram” para o algoritmo de regressão logística múltipla. 2. A probabilidade da inadimplência cresce com o aumento da renda média mensal das pessoas. Isto não é tão óbvio e provavelmente não teríamos coragem de generalizar para outras situações, mas foi o que os dados da amostra do gerente do banco “contaram” para o algoritmo de regressão logística múltipla. 3. Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal com cartão de crédito, a probabilidade de inadimplência com o cartão é maior para aquela sem emprego estável. Novamente, isto foi o que os dados amostrados “contaram” para o algoritmo de regressão logística múltipla. 4. O modelo de regressão logística múltipla, ajustado aos dados da amostra, consegue predizer os efeitos da renda mensal da pessoa, do seu gasto médio mensal com cartão de crédito e se ela tem ou não um emprego estável, na probabilidade de a pessoa ficar inadimplente com o cartão de crédito. Um algoritmo desse tipo pode ajudar no processo decisório de um banco quanto à aprovação de cartão de crédito, ao lado de outros critérios e ferramentas analíticas disponíveis para o banco. Está correto o que se afirma em: II e III, apenas. III e IV, apenas. II, III e IV, apenas. I e II, apenas. I, II, III e IV. PERGUNTA 5 1. Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco estados americanos parte do famoso conjunto de dados USArrests, o qual possue 50 observações (50 estados americanos) de 4 variáveis (Murder, Assault, UrbanPop e Rape). Obteve o resultado exibido na figura exibida adiante: 2. Relativamente à interpretação desta figura, assinale a alternativa correta: É um dendrograma, ou seja, um gráfico na forma de uma árvore, que representa os vários grupos formados em cada estágio do processo de agrupamento hierárquico. É um dendrograma, ou seja, um gráfico na forma de uma árvore, que lido de cima para baixo, na altura (height) 1,5 sugere a formação de 10 grupos. É um dendrograma, ou seja, um gráfico na forma de uma árvore, que sugere serem os estados Texas e Arkansas os mais próximos em termos de violência urbana. É um dendrograma, ou seja, um gráfico na forma de uma árvore, que lido de baixo para cima, na altura (height) 1,5 sugere a formação de 6 grupos. É um dendrograma, ou seja, um gráfico na forma de uma árvore, que sugere serem os estados New Mexico e Oklahoma os mais próximos em termos de violência urbana. PERGUNTA 6 1. O ser humano tem enorme facilidade em agrupar, por similaridade, e classificar coisas, todos os tipos de coisas. Por conta disso, problemas de classificação são muito frequentesno mundo, mais frequentes que problemas de regressão. Fornecemos alguns exemplos de aplicação de métodos de classificação no mundo dos negócios. Dentre esses exemplos, encontramos: 1. a Netflix usa classificadores para recomendar filmes. Para a Netflix, o valor desse tipo de aplicação é que, quanto mais filmes assistirmos, maior será a sua receita; 2. o Facebook usa classificadores para recomendar novas amizades para a nossa rede de relacionamento. Para o Facebook, o valor desse tipo de aplicação é que, quanto maior nossa rede de relacionamento, maior será a sua receita; 3. um banco de varejo usa classificadores para detectar se uma operação com cartão de débito ou crédito é ou não uma operação fraudulenta. Para o banco, o valor dessa aplicação é que, quanto antes operações fraudulentas forem detectadas, mais rapidamente o banco pode agir para impedir perdas para seus clientes e para ele próprio; 4. uma concessionária de distribuição de energia elétrica usa classificadores para identificar casos potenciais de roubo de energia da rede, os famosos “gatos”. Para as concessionárias de distribuição de energia elétrica, o valor dessa aplicação é evitar prejuízo com o furto de energia da rede, além do relevante aspecto de prevenção de acidentes decorrentes de instalações clandestinas. Está correto o que se afirma em: I, II, III e IV. II e IV, apenas. III e IV, apenas. I e II, apenas. I e III, apenas. PERGUNTA 7 1. Quando os dados se referem a múltiplas variáveis quantitativas, é possível exibir múltiplos gráficos de dispersão entre pares dessas variáveis, duas a duas. No software estatístico R, isto pode ser feito com a função gráfica pairs(). Adiante apresentamos um output típico da função pairs() quando aplicada a quatro variáveis quantitativas de A respeito deste output típico da função gráfica pairs() do software estatístico R, para a exibição de múltiplos gráficos de dispersão entre variáveis quantitativas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) O gráfico de y = Murder versus x = Assault mostra uma tendência de aumento de Murder para um aumento de Assault. II. ( ) O gráfico de y = Murder versus x = UrbanPop mostra uma grande dispersão dos pontos sem uma tendência clara de subida ou descida. III. ( ) O gráfico de y = Murder versus x = Rape mostra uma tendência de aumento de Murder para um aumento de Assault, porém com uma dispersão dos pontos um pouco maior que para o caso de y = Murder versus x = Assault. IV. ( ) Como são quatro variáveis quantitativas (Murder, Assault, UrbanPop e Rape), então ao total são 12 gráficos de dispersão, de cada uma delas contra as outras três. 2. V, V, V, F. 3. F, V, V, V. 4. F, V, V, F. 5. V, V, V, V. 6. F, V, F, V. PERGUNTA 8 1. Estudamos algoritmos preditivos com base em (1) modelos de regressão linear e (2) modelos de regressão logística. Esses modelos são aplicados em situações bem distintas, que dependem, essencialmente, da natureza da variável resposta, também chamada de variável dependente. Com esses dois modelos em mente, analise as afirmativas a seguir. 1. Modelos de regressão logística simples são usados na predição de uma variável resposta qualitativa quando há mais do que uma variável de entrada. 2. Modelos de regressão linear simples são usados na predição de uma variável resposta qualitativa quando se considera apenas uma variável de entrada. 3. Um possível modelo de regressão logística simples para a predição da probabilidade de inadimplência é: em que e são os coeficientes do modelo, , o gasto médio mensal da pessoa com cartão de crédito e , o valor esperado para a probabilidade de a pessoa ficar ou não inadimplente com o pagamento das faturas do cartão. 4. O método comumente usado para calcular os valores dos coeficientes e é o Método da Máxima Verossimilhança. Para isso, pode-se fazer uso do software estatístico R. Está correto o que se afirma em: III e IV, apenas. II, III e IV, apenas. I, II e IV, apenas. I e II, apenas. II e III, apenas. PERGUNTA 9 Modelos de regressão linear são os mais importantes modelos de regressão da estatística e da ciência dos dados. Eles são divididos em dois grupos: modelos de regressão linear simples e modelos de regressão linear múltipla. Referente ao modelo de regressão linear múltipla para o valor do imóvel em função da sua área, seu andar e sua localização, analise as afirmativas a seguir. I. O estatístico desenvolveu um modelo completo para o valor esperado de (valor do imóvel) em função de (área do imóvel), (andar do imóvel) e (localização do imóvel), simultaneamente. Esse modelo ficou assim: II. Os coeficientes b1 = 4,87, b3 = 6,36 e b3 = - 27,43 indicam, respectivamente, quanto varia o valor esperado para o apartamento com a variação unitária de sua área (em metros quadrados), a variação unitária do seu andar (1 andar a mais) e a sua localização (bairro = 0 ou centro = 1). III. Com base nesse modelo, foi possível verificar que, para apartamentos de mesma área e mesmo andar, porém um no bairro e outro no centro, o apartamento do centro tem um valor esperado menor que o do bairro em 27,43 mil reais (27 mil arredondando para mil reais). Isso é válido para aquele município e para aqueles dados da corretora. IV. Com base nesse modelo, foi possível verificar que um apartamento de 50 metros quadrados no 10º andar tem um valor esperado de 339,77 mil reais no bairro contra um valor esperado de 312,34 mil para um apartamento de mesma área e andar no centro. Está correto o que se afirma em: I, II, III e IV. I e II, apenas. I, II e IV, apenas. I, II e III, apenas. II e III, apenas. PERGUNTA 10 1. Leia o excerto a seguir: “O quadro típico para uma análise em ciência de dados é um objeto de dados retangulares , como uma planilha ou tabela de banco de dados. Dado retangular é basicamente uma matriz bidimensional com linhas indicando registros (caso) e colunas indicando características (variáveis). Os dados nem sempre começam dessa forma: dados não estruturados (por exemplo, texto) devem ser processados e tratados de modo a serem representados como um conjunto de características nos dados retangulares.” BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019. p. 5–6. Tomando como base esse texto e o que já discutimos sobre dados estruturados, tabulares e retangulares, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. ( ) É impossível converter dados não estruturados em representações estruturadas, para que possam ser analisados pela ciência dos dados. II. ( ) Dados retangulares não são uma forma típica de organização de dados para análise em ciência dos dados. III. ( ) Textos são dados estruturados, pois sempre vêm em estruturas bem padronizadas, como aquelas que estudamos em gramática. IV. ( ) Dados retangulares, dados tabulares ou dados estruturados são termos usados como sinônimos na ciência dos dados. Assinale a alternativa que apresenta a sequência correta: F, F, F, F. F, F, V, V. F, F, V, F. F, F, F, V. F, V, F, V.
Compartilhar