Buscar

GRA1561 ESTATÍSTICA APLICADA AO DATA SCIENCE GR0890211 PROVA N2 -NOTA 9

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 9 páginas

Prévia do material em texto

PERGUNTA 1 
1. A análise descritiva dos dados é uma etapa muito importante no processo de 
descoberta de padrões em dados. Por vezes, ela se limita à análise descritiva, pois 
comumente já traz muitas descobertas. Em grande parte das vezes, é uma das etapas 
iniciais, seguida de etapas relacionadas à modelagem dos dados. 
 
Em relação às ferramentas usadas por um estatístico ou um cientista de dados para a 
análise descritiva de dados, analise as afirmativas a seguir: 
 
I. Gráficos são usados para a visualização de cada variável ou relação entre variáveis. 
II. Tabelas, sumários e gráficos são as ferramentas básicas da análise descritiva. 
III. Modelos preditivos são usados para a análise descritiva de dados. 
IV. Tabelas e sumários estatísticos são usados na análise descritiva de dados. 
 
Está correto o que se afirma em: 
 
 
I, III e IV, apenas. 
 
 
I, II e III, apenas. 
 
 
II, III e IV, apenas. 
 
 
II e III, apenas. 
 
 
I, II e IV, apenas. 
PERGUNTA 2 
1. Leia o excerto a seguir: 
 
“Uma rede neural artificial (ou rede neural) é um modelo preditivo motivado pelo 
forma como funciona o cérebro humano. Pense no cérebro como uma coleção de 
neurônios conectados. Cada neurônio olha para a saída dos outros neurônios que o 
alimentam, faz um cálculo e então ele dispara (se o cálculo exceder algum limite) ou 
não (se não exceder) [...] Redes neurais podem resolver uma variedade de problemas 
como reconhecimento de caligrafia e detecção facial, e elas são muito usadas em deep 
learning (aprendizado profundo), uma das subáreas mais populares de data science. 
Entretanto, a maioria das redes neurais são “caixas-pretas” - inspecionar seus detalhes 
não lhe fornece muito entendimento de como elas estão resolvendo um problema. E 
grandes redes neurais podem ser difíceis de treinar. Para a maioria dos problemas 
você encontrará como um cientista de dados, elas provavelmente não são a melhor 
solução [...]”. 
 
GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta 
Books, 2016. p. 213. 
 
Tomando como base esse texto sobre redes neurais artificiais, analise as afirmativas a 
seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Uma rede neural artificial, também chamada simplesmente de rede neural, é um 
modelo preditivo motivado pela forma como o cérebro funciona. 
II. ( ) Em uma rede neural artificial, há vários neurônios que se interconectam, e o 
resultado do cálculo de um alimenta a entrada de outros. 
III. ( ) Redes neurais, como são modelos preditivos que tomam como base o 
funcionamento do cérebro, são de muito fácil interpretação. 
IV. ( ) Redes neurais, como são modelos preditivos, podem ser usadas para tarefas tais 
como reconhecimento de caligrafia e detecção facial. 
 
Assinale a alternativa que apresenta a sequência correta: 
 
 
V, V, F, F. 
 
 
V, V, V, V. 
 
 
F, F, F, F. 
 
 
V, V, F, V. 
 
 
F, V, F, V. 
PERGUNTA 3 
Na Unidade 1, usamos um modelo de regressão múltipla para a predição do valor de imóveis. 
Aqui, para o mesmo problema, usamos como modelo uma árvore de decisão. Dizemos que 
este modelo é um modelo de árvore de decisão para regressão, já que a variável resposta, o 
valor do imóvel, é quantitativa. 
A respeito deste modelo de árvore de decisão aplicado ao problema de predição do valor dos 
imóveis (replicado aqui, para sua conveniência), analise as afirmativas a seguir e assinale V 
para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Se o apartamento tiver uma área menor que 73,6 metros quadrados e for localizado no 
bairro, a estimativa para seu valor é de 319,20 mil reais, se seu andar for menor ou igual ao 6º 
andar. 
II. ( ) Se o apartamento tiver uma área menor que 73,6 metros quadrados, for localizado no 
centro e seu andar for menor ou igual ao 6º andar, a estimativa para seu valor é de 366,50 mil 
reais. 
III. ( ) Se o apartamento tiver uma área maior que 73,6 metros quadrados, a estimativa para 
seu valor é de 448,80 mil reais, independentemente da sua localização, bairro ou centro, e do 
seu andar. 
IV. ( ) Se o apartamento tiver uma área menor que 73,7 metros quadrados, for localizado no 
centro e seu andar for igual ou maior que o 7º andar, a estimativa para seu valor é de 366,50 
mil reais. 
 
Assinale a alternativa que apresenta a sequência correta: 
 
 
F, V, V, F. 
 
 
F, F, V, F. 
 
 
V, F, V, F. 
 
 
F, V, V, V. 
 
 
F, F, V, V. 
 
PERGUNTA 4 
1. Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um modelo de 
regressão logística múltipla aos dados da amostra. Os resultados que encontrou foram 
muito ricos, sugerindo uma série de explicações, aprendidas pelo algoritmo com base 
nos dados fornecidos. Veja que dizemos “explicações sugeridas”, pois qualquer 
resultado de um algoritmo deve ser confrontado com especialistas da área em estudo. 
Contudo, vamos rever o que o modelo de regressão múltipla treinado pela jovem 
cientista de dados sugere. Para isso, analise as afirmativas a seguir. 
 
1. A probabilidade da inadimplência cresce com o aumento dos gastos médios 
com o cartão de crédito. Isto, que nos parece óbvio, foi o que os dados 
“contaram” para o algoritmo de regressão logística múltipla. 
2. A probabilidade da inadimplência cresce com o aumento da renda média 
mensal das pessoas. Isto não é tão óbvio e provavelmente não teríamos 
coragem de generalizar para outras situações, mas foi o que os dados da 
amostra do gerente do banco “contaram” para o algoritmo de regressão 
logística múltipla. 
3. Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal com 
cartão de crédito, a probabilidade de inadimplência com o cartão é maior para 
aquela sem emprego estável. Novamente, isto foi o que os dados amostrados 
“contaram” para o algoritmo de regressão logística múltipla. 
4. O modelo de regressão logística múltipla, ajustado aos dados da amostra, 
consegue predizer os efeitos da renda mensal da pessoa, do seu gasto médio 
mensal com cartão de crédito e se ela tem ou não um emprego estável, na 
probabilidade de a pessoa ficar inadimplente com o cartão de crédito. Um 
algoritmo desse tipo pode ajudar no processo decisório de um banco quanto à 
aprovação de cartão de crédito, ao lado de outros critérios e ferramentas 
analíticas disponíveis para o banco. 
 
 
Está correto o que se afirma em: 
 
 
 
 
II e III, apenas. 
 
 
III e IV, apenas. 
 
 
II, III e IV, apenas. 
 
 
I e II, apenas. 
 
 
I, II, III e IV. 
 
 
PERGUNTA 5 
1. Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco 
estados americanos parte do famoso conjunto de dados USArrests, o qual possue 50 
observações (50 estados americanos) de 4 variáveis (Murder, Assault, UrbanPop e 
Rape). 
 
Obteve o resultado exibido na figura exibida adiante: 
2. Relativamente à interpretação desta figura, assinale a alternativa 
correta: 
 
 
 
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que 
representa os vários grupos formados em cada estágio do processo de 
agrupamento hierárquico. 
 
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que 
lido de cima para baixo, na altura (height) 1,5 sugere a formação de 10 
grupos. 
 
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que 
sugere serem os estados Texas e Arkansas os mais próximos em 
termos de violência urbana. 
 
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que 
lido de baixo para cima, na altura (height) 1,5 sugere a formação de 6 
grupos. 
 
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que 
sugere serem os estados New Mexico e Oklahoma os mais próximos 
em termos de violência urbana. 
 
PERGUNTA 6 
1. O ser humano tem enorme facilidade em agrupar, por similaridade, e classificar coisas, 
todos os tipos de coisas. Por conta disso, problemas de classificação são muito 
frequentesno mundo, mais frequentes que problemas de regressão. Fornecemos 
alguns exemplos de aplicação de métodos de classificação no mundo dos negócios. 
Dentre esses exemplos, encontramos: 
 
1. a Netflix usa classificadores para recomendar filmes. Para a Netflix, o valor 
desse tipo de aplicação é que, quanto mais filmes assistirmos, maior será a sua 
receita; 
2. o Facebook usa classificadores para recomendar novas amizades para a nossa 
rede de relacionamento. Para o Facebook, o valor desse tipo de aplicação é 
que, quanto maior nossa rede de relacionamento, maior será a sua receita; 
3. um banco de varejo usa classificadores para detectar se uma operação com 
cartão de débito ou crédito é ou não uma operação fraudulenta. Para o banco, 
o valor dessa aplicação é que, quanto antes operações fraudulentas forem 
detectadas, mais rapidamente o banco pode agir para impedir perdas para 
seus clientes e para ele próprio; 
4. uma concessionária de distribuição de energia elétrica usa classificadores para 
identificar casos potenciais de roubo de energia da rede, os famosos “gatos”. 
Para as concessionárias de distribuição de energia elétrica, o valor dessa 
aplicação é evitar prejuízo com o furto de energia da rede, além do relevante 
aspecto de prevenção de acidentes decorrentes de instalações clandestinas. 
 
 
Está correto o que se afirma em: 
 
 
 
 
I, II, III e IV. 
 
 
II e IV, apenas. 
 
 
III e IV, apenas. 
 
 
I e II, apenas. 
 
 
I e III, apenas. 
 
 
 
PERGUNTA 7 
1. Quando os dados se referem a múltiplas variáveis quantitativas, é possível exibir 
múltiplos gráficos de dispersão entre pares dessas variáveis, duas a duas. No software 
estatístico R, isto pode ser feito com a função gráfica pairs(). Adiante apresentamos 
um output típico da função pairs() quando aplicada a quatro variáveis quantitativas de 
A respeito deste output típico da função gráfica pairs() do software estatístico R, para 
a exibição de múltiplos gráficos de dispersão entre variáveis quantitativas, analise as 
afirmativas a seguir e assinale V para a(s) Verdadeira(s) e 
F para a(s) Falsa(s). 
 
I. ( ) O gráfico de y = Murder versus x = Assault mostra uma tendência de aumento de 
Murder para um aumento de Assault. 
II. ( ) O gráfico de y = Murder versus x = UrbanPop mostra uma grande dispersão dos 
pontos sem uma tendência clara de subida ou descida. 
III. ( ) O gráfico de y = Murder versus x = Rape mostra uma tendência de aumento de 
Murder para um aumento de Assault, porém com uma dispersão dos pontos um 
pouco maior que para o caso de y = Murder versus x = Assault. 
IV. ( ) Como são quatro variáveis quantitativas (Murder, Assault, UrbanPop e Rape), 
então ao total são 12 gráficos de dispersão, de cada uma delas contra as outras três. 
 2. V, V, V, F. 
 3. F, V, V, V. 
 4. F, V, V, F. 
 5. 
V, V, V, V. 
 
 
 6. F, V, F, V. 
 
 
 
 
PERGUNTA 8 
1. Estudamos algoritmos preditivos com base em (1) modelos de regressão linear e (2) 
modelos de regressão logística. Esses modelos são aplicados em situações bem 
distintas, que dependem, essencialmente, da natureza da variável resposta, também 
chamada de variável dependente. 
 
Com esses dois modelos em mente, analise as afirmativas a seguir. 
 
1. Modelos de regressão logística simples são usados na predição de uma 
variável resposta qualitativa quando há mais do que uma variável de entrada. 
2. Modelos de regressão linear simples são usados na predição de uma variável 
resposta qualitativa quando se considera apenas uma variável de entrada. 
3. Um possível modelo de regressão logística simples para a predição da 
probabilidade de inadimplência é: 
 
 
 
 
em que e são os coeficientes do modelo, , o gasto médio mensal da pessoa 
com cartão de crédito e , o valor esperado para a probabilidade de a pessoa ficar ou não 
inadimplente com o pagamento das faturas do cartão. 
 
4. O método comumente usado para calcular os valores dos 
coeficientes e é o Método da Máxima Verossimilhança. Para isso, 
pode-se fazer uso do software estatístico R. 
 
 
Está correto o que se afirma em: 
 
 
 
 
III e IV, apenas. 
 
 
II, III e IV, apenas. 
 
 
I, II e IV, apenas. 
 
 
 
 
 
I e II, apenas. 
 
 
II e III, apenas. 
PERGUNTA 9 
Modelos de regressão linear são os mais importantes modelos de regressão da estatística e da 
ciência dos dados. Eles são divididos em dois grupos: modelos de regressão linear simples e 
modelos de regressão linear múltipla. 
 
Referente ao modelo de regressão linear múltipla para o valor do imóvel em função da sua 
área, seu andar e sua localização, analise as afirmativas a seguir. 
 
I. O estatístico desenvolveu um modelo completo para o valor esperado de (valor do 
imóvel) em função de (área do imóvel), (andar do imóvel) e (localização do 
imóvel), simultaneamente. Esse modelo ficou assim: 
 
 
 
II. Os coeficientes b1 = 4,87, b3 = 6,36 e b3 = - 27,43 indicam, respectivamente, quanto varia o 
valor esperado para o apartamento com a variação unitária de sua área (em metros 
quadrados), a variação unitária do seu andar (1 andar a mais) e a sua localização (bairro = 0 ou 
centro = 1). 
III. Com base nesse modelo, foi possível verificar que, para apartamentos de mesma área e 
mesmo andar, porém um no bairro e outro no centro, o apartamento do centro tem um valor 
esperado menor que o do bairro em 27,43 mil reais (27 mil arredondando para mil reais). Isso 
é válido para aquele município e para aqueles dados da corretora. 
IV. Com base nesse modelo, foi possível verificar que um apartamento de 50 metros 
quadrados no 10º andar tem um valor esperado de 339,77 mil reais no bairro contra um valor 
esperado de 312,34 mil para um apartamento de mesma área e andar no centro. 
Está correto o que se afirma em: 
 
 
I, II, III e IV. 
 
 
I e II, apenas. 
 
 
I, II e IV, apenas. 
 
 
I, II e III, apenas. 
 
 
II e III, apenas. 
 
PERGUNTA 10 
1. Leia o excerto a seguir: 
“O quadro típico para uma análise em ciência de dados é um objeto de dados 
retangulares , como uma planilha ou tabela de banco de dados. Dado retangular é 
basicamente uma matriz bidimensional com linhas indicando registros (caso) e colunas 
indicando características (variáveis). Os dados nem sempre começam dessa forma: 
dados não estruturados (por exemplo, texto) devem ser processados e tratados de 
modo a serem representados como um conjunto de características nos dados 
retangulares.” 
BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 conceitos iniciais. 
Rio de Janeiro: Alta Books, 2019. p. 5–6. 
Tomando como base esse texto e o que já discutimos sobre dados estruturados, 
tabulares e retangulares, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
I. ( ) É impossível converter dados não estruturados em representações estruturadas, 
para que possam ser analisados pela ciência dos dados. 
II. ( ) Dados retangulares não são uma forma típica de organização de dados para 
análise em ciência dos dados. 
III. ( ) Textos são dados estruturados, pois sempre vêm em estruturas bem 
padronizadas, como aquelas que estudamos em gramática. 
IV. ( ) Dados retangulares, dados tabulares ou dados estruturados são termos usados 
como sinônimos na ciência dos dados. 
 
Assinale a alternativa que apresenta a sequência correta: 
 
 
F, F, F, F. 
 
 
F, F, V, V. 
 
 
F, F, V, F. 
 
 
F, F, F, V. 
 
 
F, V, F, V.

Continue navegando