GRA1561 ESTATÍSTICA APLICADA AO DATA SCIENCE GR0890211 PROVA N2 -NOTA 9

•

UNP

19

0

19

0

1

Mateus Lima

21/06/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 9 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística Aplicada

24.049 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

PERGUNTA 1
1. A análise descritiva dos dados é uma etapa muito importante no processo de
descoberta de padrões em dados. Por vezes, ela se limita à análise descritiva, pois
comumente já traz muitas descobertas. Em grande parte das vezes, é uma das etapas
iniciais, seguida de etapas relacionadas à modelagem dos dados.

Em relação às ferramentas usadas por um estatístico ou um cientista de dados para a
análise descritiva de dados, analise as afirmativas a seguir:

I. Gráficos são usados para a visualização de cada variável ou relação entre variáveis.
II. Tabelas, sumários e gráficos são as ferramentas básicas da análise descritiva.
III. Modelos preditivos são usados para a análise descritiva de dados.
IV. Tabelas e sumários estatísticos são usados na análise descritiva de dados.

Está correto o que se afirma em:

I, III e IV, apenas.

I, II e III, apenas.

II, III e IV, apenas.

II e III, apenas.

I, II e IV, apenas.
PERGUNTA 2
1. Leia o excerto a seguir:

“Uma rede neural artificial (ou rede neural) é um modelo preditivo motivado pelo
forma como funciona o cérebro humano. Pense no cérebro como uma coleção de
neurônios conectados. Cada neurônio olha para a saída dos outros neurônios que o
alimentam, faz um cálculo e então ele dispara (se o cálculo exceder algum limite) ou
não (se não exceder) [...] Redes neurais podem resolver uma variedade de problemas
como reconhecimento de caligrafia e detecção facial, e elas são muito usadas em deep
learning (aprendizado profundo), uma das subáreas mais populares de data science.
Entretanto, a maioria das redes neurais são “caixas-pretas” - inspecionar seus detalhes
não lhe fornece muito entendimento de como elas estão resolvendo um problema. E
grandes redes neurais podem ser difíceis de treinar. Para a maioria dos problemas
você encontrará como um cientista de dados, elas provavelmente não são a melhor
solução [...]”.

GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta
Books, 2016. p. 213.

Tomando como base esse texto sobre redes neurais artificiais, analise as afirmativas a
seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Uma rede neural artificial, também chamada simplesmente de rede neural, é um
modelo preditivo motivado pela forma como o cérebro funciona.
II. ( ) Em uma rede neural artificial, há vários neurônios que se interconectam, e o
resultado do cálculo de um alimenta a entrada de outros.
III. ( ) Redes neurais, como são modelos preditivos que tomam como base o
funcionamento do cérebro, são de muito fácil interpretação.
IV. ( ) Redes neurais, como são modelos preditivos, podem ser usadas para tarefas tais
como reconhecimento de caligrafia e detecção facial.

Assinale a alternativa que apresenta a sequência correta:

V, V, F, F.

V, V, V, V.

F, F, F, F.

V, V, F, V.

F, V, F, V.
PERGUNTA 3
Na Unidade 1, usamos um modelo de regressão múltipla para a predição do valor de imóveis.
Aqui, para o mesmo problema, usamos como modelo uma árvore de decisão. Dizemos que
este modelo é um modelo de árvore de decisão para regressão, já que a variável resposta, o
valor do imóvel, é quantitativa.
A respeito deste modelo de árvore de decisão aplicado ao problema de predição do valor dos
imóveis (replicado aqui, para sua conveniência), analise as afirmativas a seguir e assinale V
para a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Se o apartamento tiver uma área menor que 73,6 metros quadrados e for localizado no
bairro, a estimativa para seu valor é de 319,20 mil reais, se seu andar for menor ou igual ao 6º
andar.
II. ( ) Se o apartamento tiver uma área menor que 73,6 metros quadrados, for localizado no
centro e seu andar for menor ou igual ao 6º andar, a estimativa para seu valor é de 366,50 mil
reais.
III. ( ) Se o apartamento tiver uma área maior que 73,6 metros quadrados, a estimativa para
seu valor é de 448,80 mil reais, independentemente da sua localização, bairro ou centro, e do
seu andar.
IV. ( ) Se o apartamento tiver uma área menor que 73,7 metros quadrados, for localizado no
centro e seu andar for igual ou maior que o 7º andar, a estimativa para seu valor é de 366,50
mil reais.

Assinale a alternativa que apresenta a sequência correta:

F, V, V, F.

F, F, V, F.

V, F, V, F.

F, V, V, V.

F, F, V, V.

PERGUNTA 4
1. Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um modelo de
regressão logística múltipla aos dados da amostra. Os resultados que encontrou foram
muito ricos, sugerindo uma série de explicações, aprendidas pelo algoritmo com base
nos dados fornecidos. Veja que dizemos “explicações sugeridas”, pois qualquer
resultado de um algoritmo deve ser confrontado com especialistas da área em estudo.
Contudo, vamos rever o que o modelo de regressão múltipla treinado pela jovem
cientista de dados sugere. Para isso, analise as afirmativas a seguir.

1. A probabilidade da inadimplência cresce com o aumento dos gastos médios
com o cartão de crédito. Isto, que nos parece óbvio, foi o que os dados
“contaram” para o algoritmo de regressão logística múltipla.
2. A probabilidade da inadimplência cresce com o aumento da renda média
mensal das pessoas. Isto não é tão óbvio e provavelmente não teríamos
coragem de generalizar para outras situações, mas foi o que os dados da
amostra do gerente do banco “contaram” para o algoritmo de regressão
logística múltipla.
3. Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal com
cartão de crédito, a probabilidade de inadimplência com o cartão é maior para
aquela sem emprego estável. Novamente, isto foi o que os dados amostrados
“contaram” para o algoritmo de regressão logística múltipla.
4. O modelo de regressão logística múltipla, ajustado aos dados da amostra,
consegue predizer os efeitos da renda mensal da pessoa, do seu gasto médio
mensal com cartão de crédito e se ela tem ou não um emprego estável, na
probabilidade de a pessoa ficar inadimplente com o cartão de crédito. Um
algoritmo desse tipo pode ajudar no processo decisório de um banco quanto à
aprovação de cartão de crédito, ao lado de outros critérios e ferramentas
analíticas disponíveis para o banco.

Está correto o que se afirma em:

II e III, apenas.

III e IV, apenas.

II, III e IV, apenas.

I e II, apenas.

I, II, III e IV.

PERGUNTA 5
1. Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco
estados americanos parte do famoso conjunto de dados USArrests, o qual possue 50
observações (50 estados americanos) de 4 variáveis (Murder, Assault, UrbanPop e
Rape).

Obteve o resultado exibido na figura exibida adiante:
2. Relativamente à interpretação desta figura, assinale a alternativa
correta:

É um dendrograma, ou seja, um gráfico na forma de uma árvore, que
representa os vários grupos formados em cada estágio do processo de
agrupamento hierárquico.

É um dendrograma, ou seja, um gráfico na forma de uma árvore, que
lido de cima para baixo, na altura (height) 1,5 sugere a formação de 10
grupos.

É um dendrograma, ou seja, um gráfico na forma de uma árvore, que
sugere serem os estados Texas e Arkansas os mais próximos em
termos de violência urbana.

É um dendrograma, ou seja, um gráfico na forma de uma árvore, que
lido de baixo para cima, na altura (height) 1,5 sugere a formação de 6
grupos.

É um dendrograma, ou seja, um gráfico na forma de uma árvore, que
sugere serem os estados New Mexico e Oklahoma os mais próximos
em termos de violência urbana.

PERGUNTA 6
1. O ser humano tem enorme facilidade em agrupar, por similaridade, e classificar coisas,
todos os tipos de coisas. Por conta disso, problemas de classificação são muito
frequentesno mundo, mais frequentes que problemas de regressão. Fornecemos
alguns exemplos de aplicação de métodos de classificação no mundo dos negócios.
Dentre esses exemplos, encontramos:

1. a Netflix usa classificadores para recomendar filmes. Para a Netflix, o valor
desse tipo de aplicação é que, quanto mais filmes assistirmos, maior será a sua
receita;
2. o Facebook usa classificadores para recomendar novas amizades para a nossa
rede de relacionamento. Para o Facebook, o valor desse tipo de aplicação é
que, quanto maior nossa rede de relacionamento, maior será a sua receita;
3. um banco de varejo usa classificadores para detectar se uma operação com
cartão de débito ou crédito é ou não uma operação fraudulenta. Para o banco,
o valor dessa aplicação é que, quanto antes operações fraudulentas forem
detectadas, mais rapidamente o banco pode agir para impedir perdas para
seus clientes e para ele próprio;
4. uma concessionária de distribuição de energia elétrica usa classificadores para
identificar casos potenciais de roubo de energia da rede, os famosos “gatos”.
Para as concessionárias de distribuição de energia elétrica, o valor dessa
aplicação é evitar prejuízo com o furto de energia da rede, além do relevante
aspecto de prevenção de acidentes decorrentes de instalações clandestinas.

Está correto o que se afirma em:

I, II, III e IV.

II e IV, apenas.

III e IV, apenas.

I e II, apenas.

I e III, apenas.

PERGUNTA 7
1. Quando os dados se referem a múltiplas variáveis quantitativas, é possível exibir
múltiplos gráficos de dispersão entre pares dessas variáveis, duas a duas. No software
estatístico R, isto pode ser feito com a função gráfica pairs(). Adiante apresentamos
um output típico da função pairs() quando aplicada a quatro variáveis quantitativas de
A respeito deste output típico da função gráfica pairs() do software estatístico R, para
a exibição de múltiplos gráficos de dispersão entre variáveis quantitativas, analise as
afirmativas a seguir e assinale V para a(s) Verdadeira(s) e
F para a(s) Falsa(s).

I. ( ) O gráfico de y = Murder versus x = Assault mostra uma tendência de aumento de
Murder para um aumento de Assault.
II. ( ) O gráfico de y = Murder versus x = UrbanPop mostra uma grande dispersão dos
pontos sem uma tendência clara de subida ou descida.
III. ( ) O gráfico de y = Murder versus x = Rape mostra uma tendência de aumento de
Murder para um aumento de Assault, porém com uma dispersão dos pontos um
pouco maior que para o caso de y = Murder versus x = Assault.
IV. ( ) Como são quatro variáveis quantitativas (Murder, Assault, UrbanPop e Rape),
então ao total são 12 gráficos de dispersão, de cada uma delas contra as outras três.
2. V, V, V, F.
3. F, V, V, V.
4. F, V, V, F.
5.
V, V, V, V.

6. F, V, F, V.

PERGUNTA 8
1. Estudamos algoritmos preditivos com base em (1) modelos de regressão linear e (2)
modelos de regressão logística. Esses modelos são aplicados em situações bem
distintas, que dependem, essencialmente, da natureza da variável resposta, também
chamada de variável dependente.

Com esses dois modelos em mente, analise as afirmativas a seguir.

1. Modelos de regressão logística simples são usados na predição de uma
variável resposta qualitativa quando há mais do que uma variável de entrada.
2. Modelos de regressão linear simples são usados na predição de uma variável
resposta qualitativa quando se considera apenas uma variável de entrada.
3. Um possível modelo de regressão logística simples para a predição da
probabilidade de inadimplência é:

em que e são os coeficientes do modelo, , o gasto médio mensal da pessoa
com cartão de crédito e , o valor esperado para a probabilidade de a pessoa ficar ou não
inadimplente com o pagamento das faturas do cartão.

4. O método comumente usado para calcular os valores dos
coeficientes e é o Método da Máxima Verossimilhança. Para isso,
pode-se fazer uso do software estatístico R.

Está correto o que se afirma em:

III e IV, apenas.

II, III e IV, apenas.

I, II e IV, apenas.

I e II, apenas.

II e III, apenas.
PERGUNTA 9
Modelos de regressão linear são os mais importantes modelos de regressão da estatística e da
ciência dos dados. Eles são divididos em dois grupos: modelos de regressão linear simples e
modelos de regressão linear múltipla.

Referente ao modelo de regressão linear múltipla para o valor do imóvel em função da sua
área, seu andar e sua localização, analise as afirmativas a seguir.

I. O estatístico desenvolveu um modelo completo para o valor esperado de (valor do
imóvel) em função de (área do imóvel), (andar do imóvel) e (localização do
imóvel), simultaneamente. Esse modelo ficou assim:

II. Os coeficientes b1 = 4,87, b3 = 6,36 e b3 = - 27,43 indicam, respectivamente, quanto varia o
valor esperado para o apartamento com a variação unitária de sua área (em metros
quadrados), a variação unitária do seu andar (1 andar a mais) e a sua localização (bairro = 0 ou
centro = 1).
III. Com base nesse modelo, foi possível verificar que, para apartamentos de mesma área e
mesmo andar, porém um no bairro e outro no centro, o apartamento do centro tem um valor
esperado menor que o do bairro em 27,43 mil reais (27 mil arredondando para mil reais). Isso
é válido para aquele município e para aqueles dados da corretora.
IV. Com base nesse modelo, foi possível verificar que um apartamento de 50 metros
quadrados no 10º andar tem um valor esperado de 339,77 mil reais no bairro contra um valor
esperado de 312,34 mil para um apartamento de mesma área e andar no centro.
Está correto o que se afirma em:

I, II, III e IV.

I e II, apenas.

I, II e IV, apenas.

I, II e III, apenas.

II e III, apenas.

PERGUNTA 10
1. Leia o excerto a seguir:
“O quadro típico para uma análise em ciência de dados é um objeto de dados
retangulares , como uma planilha ou tabela de banco de dados. Dado retangular é
basicamente uma matriz bidimensional com linhas indicando registros (caso) e colunas
indicando características (variáveis). Os dados nem sempre começam dessa forma:
dados não estruturados (por exemplo, texto) devem ser processados e tratados de
modo a serem representados como um conjunto de características nos dados
retangulares.”
BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 conceitos iniciais.
Rio de Janeiro: Alta Books, 2019. p. 5–6.
Tomando como base esse texto e o que já discutimos sobre dados estruturados,
tabulares e retangulares, analise as afirmativas a seguir e assinale V para a(s)
Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) É impossível converter dados não estruturados em representações estruturadas,
para que possam ser analisados pela ciência dos dados.
II. ( ) Dados retangulares não são uma forma típica de organização de dados para
análise em ciência dos dados.
III. ( ) Textos são dados estruturados, pois sempre vêm em estruturas bem
padronizadas, como aquelas que estudamos em gramática.
IV. ( ) Dados retangulares, dados tabulares ou dados estruturados são termos usados
como sinônimos na ciência dos dados.

Assinale a alternativa que apresenta a sequência correta:

F, F, F, F.

F, F, V, V.

F, F, V, F.

F, F, F, V.

F, V, F, V.