Buscar

PROVA N2GRA1561 ESTATÍSTICA APLICADA AO DATA SCIENCE

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

nota 9 na prova
PERGUNTA 1
1. Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um modelo de regressão logística múltipla aos dados da amostra. Os resultados que encontrou foram muito ricos, sugerindo uma série de explicações, aprendidas pelo algoritmo com base nos dados fornecidos. Veja que dizemos “explicações sugeridas”, pois qualquer resultado de um algoritmo deve ser confrontado com especialistas da área em estudo. Contudo, vamos rever o que o modelo de regressão múltipla treinado pela jovem cientista de dados sugere. Para isso, analise as afirmativas a seguir.
 
1. A probabilidade da inadimplência cresce com o aumento dos gastos médios com o cartão de crédito. Isto, que nos parece óbvio, foi o que os dados “contaram” para o algoritmo de regressão logística múltipla.
2. A probabilidade da inadimplência cresce com o aumento da renda média mensal das pessoas. Isto não é tão óbvio e provavelmente não teríamos coragem de generalizar para outras situações, mas foi o que os dados da amostra do gerente do banco “contaram” para o algoritmo de regressão logística múltipla.
3. Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal com cartão de crédito, a probabilidade de inadimplência com o cartão é maior para aquela sem emprego estável. Novamente, isto foi o que os dados amostrados “contaram” para o algoritmo de regressão logística múltipla.
4. O modelo de regressão logística múltipla, ajustado aos dados da amostra, consegue predizer os efeitos da renda mensal da pessoa, do seu gasto médio mensal com cartão de crédito e se ela tem ou não um emprego estável, na probabilidade de a pessoa ficar inadimplente com o cartão de crédito. Um algoritmo desse tipo pode ajudar no processo decisório de um banco quanto à aprovação de cartão de crédito, ao lado de outros critérios e ferramentas analíticas disponíveis para o banco.
 
Está correto o que se afirma em:
 
 
	
	
	II, III e IV, apenas.
	
	
	I, II, III e IV.
 
 
	
	
	II e III, apenas.
	
	
	III e IV, apenas.
	
	
	I e II, apenas.
1 pontos   
PERGUNTA 2
1. Vimos que a análise descritiva de dados se consiste em sumários estatísticos relativos aos dados analisados, o que também denominamos resumos estatísticos, e no emprego de gráficos que exibem o comportamento dos dados de uma forma visual, o que denominamos visualização dos dados. O estatístico produziu alguns sumários relativos à área dos imóveis da amostra que a corretora lhe passou.
 
Em relação a esses sumários, analise as afirmativas a seguir.
 
I. O valor max(x1) se refere ao valor máximo da área entre todos imóveis observados na amostra cedida pela corretora ao estatístico.
II. O valor sd(x1) fornece uma indicação de quão grande é a dispersão da área dos imóveis na amostra analisada.
III. O valor mean(x1) pode ser menor que o valor min(x1) ou maior que o valor max(x1), a depender da amostra analisada.
IV. Em alguns casos especiais, min(x1) pode ser maior que max(x1), ou seja, o valor mínimo maior que o valor máximo.
 
Está correto o que se afirma em:
 
 
	
	
	II e III, apenas.
	
	
	IV, apenas.
	
	
	I e II, apenas.
	
	
	I, II e III, apenas.
 
	
	
	I e III, apenas.
1 pontos   
PERGUNTA 3
1. Iniciamos a nossa jornada, pelo mundo da “Estatística Aplicada à Ciência dos Dados”, com modelos preditivos denominados regressão linear, simples e múltipla. Vimos algumas coisas, mas não vimos outras, pois esta é apenas uma jornada inicial motivadora. O seu propósito foi o de apenas descortinar um pouquinho desse vasto mundo para você. Desse modo, tentaremos fazer um breve resumo dessa jornada aqui.
 
Para isso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e
F para a(s) Falsa(s).
 
I. ( ) Dados e amostras . Vimos que podemos fazer análise descritiva de um processo apenas se tivermos dados sobre esse processo. Esses dados devem ser coletados do fenômeno ou processo estudado (população). Denominamos esses dados como amostra.
II. ( ) Análise descritiva . Tendo em mãos uma amostra, a análise descritiva se refere a sumários (resumos) estatísticos calculados com base nessa amostra (mínimos, máximos, frequências, médias, medianas, desvios-padrões etc.) e visualizações produzidas por meio de gráficos.
III. ( ) Visualização dos dados relativos a uma variável . Esses gráficos são divididos em duas grandes famílias. Uma delas são de gráficos que permitem a visualização do comportamento de dados quantitativos. Aqui, mostramos o histograma, que é o mais importante dentro dessa família. A outra família são de gráficos que permitem a visualização de dados qualitativos. Aqui, mostramos o diagrama de barras, que é o mais importante dentro dessa família.
IV. ( ) Visualização da relação entre duas variáveis . Finalmente, também na análise descritiva do processo ou fenômeno observado, vimos gráficos que se aplicam à visualização da relação entre duas variáveis, a partir dos dados observados. Se as duas variáveis são quantitativas, usamos, aqui, o gráfico de dispersão. Por exemplo, o valor do imóvel versus sua área. Quando a relação é entre uma variável quantitativa e uma variável qualitativa, usamos, aqui, os boxplots (diagramas de caixas), cada boxplot referente a um determinado nível da variável qualitativa (bairro ou centro) e, dentro dele, como se comporta a variável quantitativa.
V. (  ) Coisas que não vimos aqui . Há muitas coisas que não vimos aqui. São coisas sobre as quais você poderá ver, caso decida aprender mais sobre essas poderosas áreas do conhecimento humano, a estatística e a ciência dos dados, muito valorizadas pelo mercado de trabalho.
 
Assinale a alternativa que apresenta a sequência correta.
 
 
	
	
	F, V, V, F, V.
	
	
	V, V, V, V, V.
	
	
	V, F, F, V, V.
	
	
	V, V, F, V, F.
	
	
	V, V, F, F, F.
1 pontos   
PERGUNTA 4
1.  Depois que formamos grupos de observações de um conjunto de dados (amostra), por meio de um algoritmo de agrupamento, podemos dar nomes aos mesmos, e cada indivíduo de cada grupo será classificado de acordo com esse nome. O ser humano faz isso com naturalidade, primeiro agrupar e, depois de formados os grupos, dar nomes aos grupos. Por exemplo, animais vertebrados ou invertebrados, carros ou aviões, homens ou mulheres.
 
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. e assinale a alternativa correta:
 
I.  Ao usarmos de algoritmos de agrupamento, depois que formados e nomeados (classificados) os grupos de observações resultantes do algoritmo, não é possível usar essas classes como variáveis respostas e, a partir desse ponto, executar tarefas preditivas com algoritmos de classificação.
Pois
II. Algoritmos de agrupamento fazem parte dos métodos da chamada aprendizagem não supervisionada. Não são modelos preditivos.
 
	
	
	A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
	
	
	As asserções I e II são proposições falsas.
	
	
	As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
	
	
	A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.
	
	
	As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.
1 pontos   
PERGUNTA 5
1. Considere quatro apartamentos: o primeiro com 55 metros quadrados, no centro, no 4º andar; o segundo com 77 metros quadrados, no bairro, no 5º andar; o terceiro com 54 metros quadrados, no centro, no 9º andar; o quarto com 60 metros quadrados, no bairro, no 12º andar.
 
 
Figura - Árvore de decisão ajustada aos valores dos imóveis
Fonte: Elaborada pelo autor.
 
Use a árvore que construímos para o caso dos imóveis (novamente exibida aqui) e assinale a alternativa que indica corretamente as estimativas de preço desses apartamentos:
	
	
	390,40; 366,50; 390,40; 448,80 mil reais.
	
	
	366,50; 319,20; 390,40; 448,80 mil reais.
	
	
	319,20; 448,80; 366,50; 366,50 mil reais.
	
	
	319,20; 448,80; 366,50; 390,40 mil reais.
	
	
	319,20; 448,80; 390,40; 366,50 mil reais.
1 pontos   
PERGUNTA 6
1. Em uma análise de agrupamento examinamos os dados observados(as linhas da tabela com os dados) e procuramos identificar, através de algum critério de similaridade, aquelas que estão mais próximas entre si, e formamos grupos com essas observações similares. Quando são apenas 2 variáveis e poucas observações (tamanho da amostra pequeno), por exemplo 10, podemos tentar fazer o agrupamento visualmente.
 
Analise a figura adiante e assinale a alternativa que indica a menor quantidade de grupos que você naturalmente formaria para este caso:
  
Figura - Massa corporal (kg) versus comprimento (m) dos animais
Fonte: Elaborada pelo autor
 
	
	
	Três grupos, um com 5 indivíduos, um com 1 indivíduo, e um com 4 indivíduos.
	
	
	Dois grupos, um com 1 indivíduo e um com 9 indivíduos.
 
 
	
	
	Dois grupos, um com 6 indivíduos e outro com 4 indivíduos.
	
	
	Quatro grupos, um com 5 indivíduos, dois com 1 indivíduo cada, e um com 4 indivíduos.
	
	
	Dois grupos com 5 indivíduos cada.
1 pontos   
PERGUNTA 7
1. Apresentamos o desenvolvimento de um algoritmo preditivo, com base em modelos de regressão linear, a partir de um caso envolvendo a interação entre uma corretora de imóveis e seu amigo estatístico.
 
Relativamente a esse caso, analise as afirmativas a seguir.
 
I. No estudo de caso discutido, a corretora não via razão para trabalhar com um algoritmo preditivo de valor de venda de imóveis, pois isso não a ajudaria no desenvolvimento do seu trabalho.
II. A corretora de imóveis passou para seu amigo estatístico uma amostra de tamanho n = 90, contendo dados relativos a imóveis vendidos pela imobiliária onde trabalhava.
III. As variáveis observadas na amostra são a área do imóvel, seu andar, sua localização e o valor pelo qual havia sido vendido.
IV. Na amostra, a localização do imóvel foi dividida em cinco níveis (também denominados classes): centro, zona norte, zona sul, zona leste e zona oeste.
 
Está correto o que se afirma em:
 
 
	
	
	I e III, apenas.
	
	
	III e IV, apenas.
	
	
	III, apenas.
	
	
	IV, apenas.
 
	
	
	II, apenas.
1 pontos   
PERGUNTA 8
1. Considere dois pontos de venda da boneca falante com as seguintes características: primeiro ponto com local de exposição ruim da boneca, preço da boneca de 289,99 reais, gastos mensais com publicidade de 90 mil reais e idade média da população local de 39 anos. Segundo ponto com bom local de exposição da boneca e preço da boneca de 399,99 reais.
 
Figura - Árvore de decisão ajustada às vendas do produto de varejo
Fonte: Elaborada pelo autor.
 
 
Use a árvore que construímos para o caso da boneca falante (novamente exibida aqui) e assinale a alternativa que indica corretamente a estimativa de vendas para esse ponto de venda:
	
	
	Vendas baixas e baixas, respectivamente.
	
	
	Vendas altas, apenas.
	
	
	Vendas baixas e altas, respectivamente.
	
	
	Vendas altas e baixas, respectivamente.
	
	
	Vendas altas e altas, respectivamente.
1 pontos   
PERGUNTA 9
1. Na análise descritiva do volume de vendas da boneca falante, foram estudadas as variáveis relativas aos dados coletados pela gerente comercial do fabricante da boneca. Entre elas, há a variável do preço da boneca praticado em cada ponto de venda, cuja relação com vendas altas ou baixas é exibida no gráfico adiante.
 
 
Figura: Efeito do preço nas vendas
Fonte: Elaborada pelo autor.
 
Quanto a relação entre o preço da boneca e o volume de vendas (vendas altas ou baixas), analise as afirmativas a seguir:
I. Ao estudarmos este caso, percebemos que não há qualquer efeito do preço da boneca falante sobre o volume de vendas em cada ponto (de venda).
II. O gráfico de visualização da relação entre o preço de venda da boneca e o volume de vendas mostra que vendas altas ocorrem quando o preço da boneca é significativamente menor.
III. O gráfico de visualização da relação entre o preço de venda da boneca e o volume de vendas mostra que vendas altas ocorrem mesmo quando o preço da boneca não é significativamente menor.
IV. A asserção III é um indicativo que o efeito de outras variáveis sobre o volume de vendas da boneca pode ser tão relevante ou mesmo maior que o efeito da diferença de preço.
Está correto o que se afirma em:
	
	
	III e IV, apenas.
	
	
	I, III e IV, apenas.
	
	
	I e II, apenas.
	
	
	II e III, apenas.
	
	
	I e III, apenas.
1 pontos   
PERGUNTA 10
1. Leia o excerto a seguir:
“Normalização: É comum normalizar (padronizar) variáveis contínuas através da subtração da média e divisão pelo desvio-padrão, ou então as variáveis com grande escala dominarão o processo de agrupamento (veja Padronização (Normalização, Escores Z), no Capítulo 6).”
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 265.
 A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.
 
I.  Sabemos que, na estatística ou na ciência dos dados, é comum normalizar (padronizar) variáveis quantitativas, ou variáveis contínuas, antes da realização de uma análise de agrupamento.
Pois
II. No conjunto de dados observados (a amostra de dados), podem existir variáveis que estão em uma escala muito maior que as outras, e a medida de distância entre observações dessas variáveis dominarão o resultado da análise de agrupamento, na formação dos grupos de observações similares entre si.
	
	
	As asserções I e II são proposições falsas.
	
	
	A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.
	
	
	A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
	
	
	As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
	
	
	As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I.

Continue navegando