Buscar

Estatísticas aplicadas data science

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

09/12/2020 Fazer teste: 20202 - PROVA N2 (A5) – GRA1561 ESTATÍSTICA...
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller# 1/7
Informações do teste
Descrição
Instruções
Várias tentativas Não permitido. Este teste só pode ser feito uma vez.
Forçar conclusão Este teste pode ser salvo e retomado posteriormente.
Caso necessite a utilização do "EXCEL" clique no link ao lado -----------> excel.xlsx
PERGUNTA 1
Com os dados cedidos pela corretora em mãos, o estatístico aplicou a função cor(), do
software estatístico R, na análise da correlação entre o valor do imóvel e a sua área e
entre o valor do imóvel e o seu andar. 
  
Relativamente a esse assunto, analise as a�rmativas a seguir e assinale V para a(s)
Verdadeira(s) e F para a(s) Falsa(s). 
  
I. (  ) O resultado da correlação entre o valor do imóvel e a sua área, isto é, cor(y,x1) = 0,55,
indica uma correlação negativa moderada entre essas duas variáveis. 
II. (  ) O resultado da correlação entre o valor do imóvel e o seu andar, isto é, cor(y,x2) =
0,24, indica uma correlação negativa fraca entre essas duas variáveis. 
III. (  ) O resultado da correlação entre o valor do imóvel e a sua área, isto é, cor(y,x1) =
0,55, indica uma correlação positiva moderada entre essas duas variáveis. 
IV. (  ) O resultado da correlação entre o valor do imóvel e o seu andar, isto é, cor(y,x2) =
0,24, indica uma correlação positiva fraca entre essas duas variáveis. 
  
Assinale a alternativa que apresenta a sequência correta. 
  
 
F, V, V, F.
V, V, F, F.
F, F, V, V. 
 
V, F, V, F.
F, V, F, V.
1 pontos   Salva
PERGUNTA 2
O estatístico empregou grá�cos clássicos, isto é, de emprego consagrado, para a
visualização de dados quantitativos e qualitativos, que são histogramas e diagramas de
barras. 
  
Diante do exposto, analise as a�rmativas a seguir. 
  
I. O estatístico usou de histogramas para a visualização dos dados quantitativos das
amostras, quais sejam: a área, o andar e o valor do imóvel. 
II. O estatístico usou de diagramas de barras para a visualização do único dado qualitativo
da amostra: a localização do imóvel. 
III. Histogramas e diagramas de barra são formas tradicionais de visualização grá�ca de
dados quantitativos e qualitativos, respectivamente, na estatística e na ciência dos dados. 
IV. Grá�cos de pizza são uma alternativa aos diagramas de barras para a representação
visual de dados qualitativos. 
1 pontos   Salva
 Estado de Conclusão da Pergunt
1 2 3 4 5 6 7
Clique em Enviar para enviar. Clique em Salvar todas as respostas para salvar todas as respostas.
Salvar todas as re
https://anhembi.blackboard.com/bbcswebdav/pid-14850383-dt-content-rid-84766551_1/xid-84766551_1
09/12/2020 Fazer teste: 20202 - PROVA N2 (A5) – GRA1561 ESTATÍSTICA...
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller# 2/7
  
Está correto o que se a�rma em: 
  
 
I, apenas.
IV, apenas.
I e II, apenas.
II, apenas.
II e III, apenas. 
 
PERGUNTA 3
Na Unidade 2 estudamos os modelos preditivos de classi�cação com regressão logística
múltipla, para a predição da probabilidade de inadimplência. Aqui, para a predição do
volume de vendas de um produto de varejo (uma variável qualitativa com dois níveis,
vendas altas ou baixas), usamos como classi�cador uma árvore de decisão. 
  
Figura: Árvore de decisão ajustada às vendas do produto de varejo 
Fonte: Elaborada pelo autor. 
  
A respeito deste modelo de árvore de decisão aplicado ao problema de predição do
volume de vendas da boneca falante (replicado aqui, para sua conveniência), analise as
a�rmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
  
I. ( ) Se o local de exposição da boneca for ruim, porém seu preço menor que 241,25 reais,
as vendas serão altas, independentemente dos gastos com publicidade e da idade média
da população local. 
II. ( ) Se o local de exposição da boneca for ruim, seu preço igual ou maior que 241,25
reais, mas os gastos com publicidade forem menores que 78 mil reais, as vendas serão
altas, independentemente da idade média da população. 
III. ( ) Se o local de exposição da boneca for bom, porém seu preço for igual ou maior que
356,25 reais, as vendas serão baixas, independentemente dos gastos com publicidade e
da idade média da população. 
IV. ( ) Se o local de exposição da boneca for médio e seu preço for igual ou maior que
241,25 reais, mas os gastos com publicidade forem iguais ou maiores que 78 mil reais e a
idade média da população for menor que 44 anos, as vendas serão altas. 
  
Assinale a alternativa que apresenta a sequência correta:
F, F, V, V.
V, F, V, F.
F, F, V, F.
V, F, V, V.
1 pontos   Salva
 Estado de Conclusão da Pergunt
1 2 3 4 5 6 7
Clique em Enviar para enviar. Clique em Salvar todas as respostas para salvar todas as respostas.
Salvar todas as re
09/12/2020 Fazer teste: 20202 - PROVA N2 (A5) – GRA1561 ESTATÍSTICA...
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller# 3/7
F, V, V, F.
PERGUNTA 4
Algoritmos de aprendizado de máquina nos permitem tratar de problemas que seriam
difíceis de serem tratados por regras criadas por seres humanos, mas que, curiosamente,
�cam relativamente fáceis de serem tratados por algoritmos criados por seres humanos.
As formas de solução desses problemas são chamadas tarefas de aprendizado de
máquina. 
  
Tomando como base esse texto e o que já discutimos sobre as tarefas de aprendizado de
máquina, analise as a�rmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s)
Falsa(s). 
  
I. ( ) Tarefas de regressão são capazes de predizer valores para variáveis resposta
quantitativas e tarefas de classi�cação para variáveis resposta qualitativas. 
II. ( ) Tarefas de classi�cação com dados faltantes são tarefas de classi�cação aplicadas a
situações em que alguns dados de entrada estão faltando. 
III. ( ) Transcrição é uma tarefa na qual se pede ao algoritmo que transcreva um conjunto
de dados não tão bem estruturados em uma forma discreta bem estruturada. 
IV. ( ) Tradução é uma tarefa em que se pede ao algoritmo que converta uma sequência de
símbolos escritos em uma linguagem para uma sequência de símbolos em outra
linguagem. 
  
Assinale a alternativa que apresenta a sequência correta:
F, F, V, V.
V, V, V, V.
F, F, F, F.
F, V, V, F.
F, V, F, V.
1 pontos   Salva
PERGUNTA 5
Muitos dos modelos ou algoritmos usados na estatística e na ciência dos dados são
denominados modelos paramétricos, ou seja, que possuem parâmetros. Esses parâmetros
devem ser determinados quando se treina (se ajusta) o modelo ou algoritmo aos dados
amostrados. Na regressão linear simples ou múltipla, esses parâmetros são denominados
coe�cientes do modelo. 
  
A respeito dos coe�cientes do modelo de regressão linear simples para o valor do imóvel
em função da sua área, analise as a�rmativas a seguir. 
  
I. O estatístico usou o software R e obteve, para os coe�cientes do modelo de regressão
linear simples do valor do imóvel em função da sua área, b0 = 27,22  e b1 = 5,15. 
II. Os coe�cientes do modelo de regressão linear simples do valor do imóvel em função da
sua área possuem unidades, que são, respectivamente, kR$ (mil reais) para b0 e kR$/m2
(mil reais dividido pela área do imóvel) para b1. 
III. O coe�ciente b0 é a intersecção da reta do modelo com o eixo vertical y quanto x1 = 0.
Não tem um signi�cado “real” nesse caso, pois não há imóveis com área igual a zero. Deve
ser entendido, nessa situação, apenas como um parâmetro de ajuste do modelo aos dados
da amostra. 
IV. O coe�ciente b1 indica quanto varia o valor esperado do imóvel para um aumento de 1
metro quadrado da sua área. Gra�camente, esse coe�ciente é a inclinação da reta que
representa o modelo de regressão linear simples ajustado aos dados da amostra. 
Está correto o que se a�rma em: 
  
 
I e II, apenas.
I, II, III e IV. 
 
1 pontos   Salva
 Estado de Conclusão da Pergunt
1 2 3 4 5 6 7Clique em Enviar para enviar. Clique em Salvar todas as respostas para salvar todas as respostas.
Salvar todas as re
09/12/2020 Fazer teste: 20202 - PROVA N2 (A5) – GRA1561 ESTATÍSTICA...
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller# 4/7
II, III e IV, apenas.
II e III, apenas.
III e IV, apenas.
PERGUNTA 6
Leia o excerto a seguir sobre as ideias-chave para agrupamento hierárquico: 
  
“Começa com todos os registros. Progressivamente, os grupos são unidos aos grupos
próximos até que todos os registros pertençam a um único grupo. O histórico de
aglomeração é retido e plotado, e o usuário pode visualizar o número e a estrutura dos
grupos em diferentes estágios. As distâncias intergrupos são calculadas de jeitos
diferentes, todas baseadas no conjunto de distância inter-registros.” 
  
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados : 50 conceitos
iniciais. Rio de Janeiro: Alta Books, 2019, p. 278. 
 A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. 
  
I.  No agrupamento hierárquico, o usuário deve obrigatoriamente especi�car o número de
grupos que deseja ver o algoritmo formar. 
Pois 
II. O algoritmo começa com grupos formados por registros individuais e,
progressivamente, os grupos são unidos aos grupos mais próximos, até que todos os
registros pertençam a um único grupo. 
 
A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.
As asserções I e II são proposições verdadeiras, e a II é uma justi�cativa correta da I.
As asserções I e II são proposições falsas.
As asserções I e II são proposições verdadeiras, mas a II não é uma justi�cativa  da I.
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
1 pontos   Salva
PERGUNTA 7
Ao longo das nossas discussões, demos foco a um classi�cador chamado de regressão
logística que, apesar do nome regressão (esse nome por razões históricas e por conta de
algumas de suas características), é usado como um classi�cador. Mas também vimos que
existem outros tipos de classi�cadores. 
Relativamente a esse assunto de algoritmos de classi�cação, analise as a�rmativas a
seguir. 
 
1. Regressão logística é o único método de aprendizagem supervisionada que é
utilizado para classi�cação, todos outros métodos são métodos de regressão.
2. Apesar do nome regressão logística, o que acaba sendo um pouco confuso para
iniciantes, na verdade este é um dos vários métodos de aprendizagem
supervisionada utilizado para classi�cação.
3. Dentre os métodos utilizados para classi�cação se encontram regressão logística,
análise discriminante linear (LDA = Linear Discriminant Analysis), árvores de
decisão para classi�cação, máquinas de vetores de suporte (SVM = support vector
machines) e k-vizinhos mais próximos (KNN = k-nearest neighbors).
4. Regressão linear não é um método de classi�cação, mas, sim, um dos métodos
preditivos de aprendizagem supervisionada usados na predição de valores de
variáveis respostas quantitativas.
  
Está correto o que se a�rma em: 
1 pontos   Salva
 Estado de Conclusão da Pergunt
1 2 3 4 5 6 7
Clique em Enviar para enviar. Clique em Salvar todas as respostas para salvar todas as respostas.
Salvar todas as re
09/12/2020 Fazer teste: 20202 - PROVA N2 (A5) – GRA1561 ESTATÍSTICA...
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller# 5/7
  
 
I, III e IV, apenas.
II e III, apenas.
II, III e IV, apenas. 
  
  
 
III, apenas.
II, apenas.
PERGUNTA 8
Os dados cedidos pelo gerente do banco estavam bem organizados e livres de erros. A
nossa jovem cientista de dados não precisou, portanto, fazer uma limpeza e pré-
tratamento dos dados e pode prosseguir imediatamente para uma análise descritiva deles
antes do desenvolvimento do modelo. 
Tendo isso em vista, analise as a�rmativas a seguir e assinale V para a(s) Verdadeira(s) e F
para a(s) Falsa(s).   
 
1. ( ) Chamamos de análise descritiva dos dados seus sumários (ou resumos)
estatísticos dos mesmos e a sua visualização. Ambos, os sumários e as
visualizações, nos ajudam a entender o comportamento dos dados e, através deles,
do fenômeno ou processo estudado.
2. ( ) São quatro as variáveis estudadas pela cientista de dados: renda mensal da
pessoa, seus gastos médios com o cartão, se a pessoa tinha ou não um emprego
estável ao longo do período amostrado e se �cou ou não inadimplente ao longo do
deste período.
3. ( ) Para criar sumários estatísticos das variáveis quantitativas, a renda mensal da
pessoa e seus gastos com o cartão, a cientista de dados usou as funções min(),
mean() e max() do software estatístico R para calcular os valores mínimo, médio e
máximo dos dados observados para essas variáveis.
4. ( ) Para criar sumários estatísticos das variáveis qualitativas, se a pessoa tinha ou
não um emprego estável e se tinha ou não �cado inadimplente com o pagamento
das faturas do cartão ao longo do período amostrado, a cientista de dados usou a
função table() do software estatístico R para calcular a frequência com que os
níveis de cada uma dessas variáveis se manifestaram na amostra estudada.
  
Assinale a alternativa que apresenta a sequência correta. 
  
 
F, V, V, F.
V, V, F, F.
V, F, F, V.
V, V, V, V.
F, F, V, V. 
  
  
 
1 pontos   Salva
1
 Estado de Conclusão da Pergunt
1 2 3 4 5 6 7
Clique em Enviar para enviar. Clique em Salvar todas as respostas para salvar todas as respostas.
Salvar todas as re
09/12/2020 Fazer teste: 20202 - PROVA N2 (A5) – GRA1561 ESTATÍSTICA...
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller# 6/7
PERGUNTA 9
Na análise descritiva do volume de vendas da boneca falante, foram estudadas as
variáveis relativas aos dados coletados pela gerente comercial do fabricante da boneca.
Entre elas, há a variável do preço da boneca praticado em cada ponto de venda, cuja
relação com vendas altas ou baixas é exibida no grá�co adiante. 
  
  
Figura: Efeito do preço nas vendas 
Fonte: Elaborada pelo autor. 
  
Quanto a relação entre o preço da boneca e o volume de vendas (vendas altas ou baixas),
analise as a�rmativas a seguir: 
I. Ao estudarmos este caso, percebemos que não há qualquer efeito do preço da boneca
falante sobre o volume de vendas em cada ponto (de venda). 
II. O grá�co de visualização da relação entre o preço de venda da boneca e o volume de
vendas mostra que vendas altas ocorrem quando o preço da boneca é signi�cativamente
menor. 
III. O grá�co de visualização da relação entre o preço de venda da boneca e o volume de
vendas mostra que vendas altas ocorrem mesmo quando o preço da boneca não é
signi�cativamente menor. 
IV. A asserção III é um indicativo que o efeito de outras variáveis sobre o volume de
vendas da boneca pode ser tão relevante ou mesmo maior que o efeito da diferença de
preço. 
Está correto o que se a�rma em:
I e III, apenas.
I, III e IV, apenas.
III e IV, apenas.
II e III, apenas.
I e II, apenas.
1 pontos   Salva
PERGUNTA 10
Modelos de regressão linear são os mais importantes modelos de regressão da estatística
e da ciência dos dados. Eles são divididos em dois grupos: modelos de regressão linear
simples e modelos de regressão linear múltipla. 
  
Quanto à aplicação de modelos de regressão linear simples, analise as a�rmativas a
seguir. 
  
I. Modelos de regressão linear simples são usados na predição de uma variável resposta
quantitativa quando há mais do que uma variável de entrada. 
II. Modelos de regressão linear simples são usados na predição de uma variável resposta
quantitativa quando se considera apenas uma variável de entrada. 
III. O modelo de regressão linear simples que o estatístico escreveu para a predição do
valor do imóvel em função da sua área foi , em que e são os
1 pontos   Salva
 Estado de Conclusão da Pergunt
1 2 3 4 5 6 7
Clique em Enviar para enviar. Clique em Salvar todas as respostas para salvar todas as respostas.
Salvar todasas re
09/12/2020 Fazer teste: 20202 - PROVA N2 (A5) – GRA1561 ESTATÍSTICA...
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller# 7/7
valor do imóvel em função da sua área foi , em que  e  são os
coe�cientes do modelo, a área do imóvel e o valor esperado (estimativa do valor
médio) para o valor do imóvel. 
IV. O método que o estatístico usou para calcular os valores dos coe�cientes  e  foi o
Método dos Mínimos Quadrados. Para isso, ele lançou mão do software estatístico R. 
Está correto o que se a�rma em: 
  
  
  
 
II e III, apenas.
I e II, apenas.
I, II e IV, apenas. 
 
II, III e IV, apenas.
III e IV, apenas.
 Estado de Conclusão da Pergunt
1 2 3 4 5 6 7
Clique em Enviar para enviar. Clique em Salvar todas as respostas para salvar todas as respostas.
Salvar todas as re

Outros materiais