Buscar

PROVA N2 A5 ESTATÍSTICA APLICADA AO DATA SCIENCE

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Usuário EDUARDO OLIMPIO RAMOS
Curso GRA1561 ESTATÍSTICA APLICADA AO DATA SCIENCE GR0890211 - 202110.ead-14709.01
Teste 20211 - PROVA N2 (A5)
Iniciado 18/06/21 17:28
Enviado 18/06/21 17:53
Status Completada
Resultado da tentativa 9 em 10 pontos  
Tempo decorrido 24 minutos
Instruções
Resultados exibidos Respostas enviadas, Respostas corretas, Comentários
Caso necessite a utilização do "EXCEL" clique no link ao lado -----------> excel.xlsx
Pergunta 1
A escolha de grupos formados por um algoritmo de agrupamento hierárquico pode ser feita por meio da
leitura do dendrograma resultante. Escolhe-se a altura (Height) desejada, se traça uma linha horizontal a
partir dessa altura, que cruzará com as linhas verticais dos grupos formados nesta altura. O cientista de
dados decide se esses grupos são adequados para a sua análise. 
  
Veja, por exemplo, a figura abaixo. 
  
 
  
Figura - Dendrograma do agrupamento de oito estados 
Fonte: Elaborada pelo autor 
Com respeito da leitura deste dendrograma, analise as afirmativas a seguir e assinale V 
para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
  
I. ( ) A altura 4 cruza com duas linhas verticais, que indicam dois grupos, o primeiro deles formado pelos
estados {Connecticut, Delaware}, e o segundo deles formado pelos estados {Colorado, Arizona, California,
Alaska, Alabama, Arkansas}. 
II. ( ) A altura 4 cruza com três linhas verticais, que indicam três grupos, o primeiro deles formado pelos
estados {Connecticut, Delaware}, o segundo deles formado pelos estados {Colorado, Arizona, California}, e o
terceiro deles formado pelos estados {Alaska, Alabama, Arkansas}. 
III. ( ) A altura 3 cruza com duas linhas verticais, que indicam dois grupos, o primeiro deles formado pelos
estados {Connecticut, Delaware}, e o segundo deles formado pelos estados {Colorado, Arizona, California,
Alaska, Alabama, Arkansas}. 
IV. ( ) A altura 3 cruza com três linhas verticais, que indicam três grupos, o primeiro deles formado pelos
estados {Connecticut, Delaware}, o segundo deles formado pelos estados {Colorado, Arizona, California}, e o
1 em 1 pontos
https://anhembi.blackboard.com/bbcswebdav/pid-16175238-dt-content-rid-84766551_1/xid-84766551_1
Resposta Selecionada: 
Resposta Correta: 
Comentário
da
resposta:
terceiro deles formado pelos estados {Alaska, Alabama, Arkansas}. 
  
V, F, F, V.
V, F, F, V.
Resposta correta.  A sequência está correta. A altura 4 cruza com duas linhas verticais, que indicam dois
grupos, o primeiro deles formado pelos estados {Connecticut, Delaware}, e o segundo deles formado pelos
estados {Colorado, Arizona, California, Alaska, Alabama, Arkansas}. A altura 3 cruza com três linhas verticais,
que indicam três grupos, o primeiro deles formado pelos estados {Connecticut, Delaware}, o segundo deles
formado pelos estados {Colorado, Arizona, California}, e o terceiro deles formado pelos estados {Alaska,
Alabama, Arkansas}.
Pergunta 2
Resposta Selecionada: 
Resposta Correta: 
Comentário
da
resposta:
Na análise descritiva do volume de vendas da boneca falante, foram estudadas as variáveis relativas aos
dados coletados pela gerente comercial do fabricante da boneca. Entre elas, há a variável do preço da
boneca praticado em cada ponto de venda, cuja relação com vendas altas ou baixas é exibida no gráfico
adiante. 
  
  
 
Figura: Efeito do preço nas vendas 
Fonte: Elaborada pelo autor. 
  
Quanto a relação entre o preço da boneca e o volume de vendas (vendas altas ou baixas), analise as
afirmativas a seguir:
I. Ao estudarmos este caso, percebemos que não há qualquer efeito do preço da boneca falante sobre o
volume de vendas em cada ponto (de venda). 
II. O gráfico de visualização da relação entre o preço de venda da boneca e o volume de vendas mostra que
vendas altas ocorrem quando o preço da boneca é significativamente menor. 
III. O gráfico de visualização da relação entre o preço de venda da boneca e o volume de vendas mostra que
vendas altas ocorrem mesmo quando o preço da boneca não é significativamente menor. 
IV. A asserção III é um indicativo que o efeito de outras variáveis sobre o volume de vendas da boneca pode
ser tão relevante ou mesmo maior que o efeito da diferença de preço. 
Está correto o que se afirma em:
III e IV, apenas.
III e IV, apenas.
Sua resposta está correta. A alternativa está correta, pois o grá�co de visualização da relação entre o preço de
venda da boneca e o volume de vendas mostra que vendas altas ocorrem mesmo quando o preço da boneca
1 em 1 pontos
não é signi�cativamente menor, e isto é um indicativo que o efeito de outras variáveis sobre o volume de
vendas da boneca pode ser tão relevante ou mesmo maior que o efeito da diferença de preço.
Pergunta 3
Resposta Selecionada: 
Resposta Correta: 
Comentário
da
resposta:
Considere quatro apartamentos: o primeiro com 55 metros quadrados, no centro, no 4º andar; o segundo
com 77 metros quadrados, no bairro, no 5º andar; o terceiro com 54 metros quadrados, no centro, no 9º
andar; o quarto com 60 metros quadrados, no bairro, no 12º andar. 
  
  
 
Figura - Árvore de decisão ajustada aos valores dos imóveis 
Fonte: Elaborada pelo autor. 
  
Use a árvore que construímos para o caso dos imóveis (novamente exibida aqui) e assinale a alternativa que
indica corretamente as estimativas de preço desses apartamentos:
319,20; 448,80; 366,50; 390,40 mil reais.
319,20; 448,80; 366,50; 390,40 mil reais.
Resposta correta. A alternativa está correta, pois ao percorremos a árvore construída para a predição do valor
dos imóveis, do nó inicial aos nós terminais, e usarmos passo a passo as características dos apartamentos,
comparando-as com os valores informados em cada nó, chegaremos às estimativas de preços de 319,20 mil
reais, 448,80 mil reais, 366,50 mil reais e 390,40 mil reais, respectivamente, para cada um dos apartamentos
descritos no enunciado.
Pergunta 4
Leia o excerto a seguir: 
“Exploração de dados é a arte de olhar os seus dados, rapidamente gerar hipóteses sobre eles, e
rapidamente testar essas hipóteses. E repetir isso outra vez, outra vez, outra vez. O objetivo da exploração
de dados é a geração de pistas sobre o que os dados nos revelam, pistas que você poderá explorar, mais
tarde, em maior profundidade.” 
WICKHAM, Hadley; GROLEMUN, Garret. R for data science : import, tidy, transform, visualize, and model
dada. Sebastopol (CA): O’Reilly Media, 2017, p.1. 
  
A respeito das fontes que originaram os contos de fadas, analise as afirmativas a seguir e assinale V para
a(s) Verdadeira(s) e F para a(s) Falsa(s). 
  
I. ( ) Análise estatística descritiva é parte da análise exploratória de dados, frequentemente entendida como
a exploração inicial dos dados. 
1 em 1 pontos
1 em 1 pontos
Resposta Selecionada: 
Resposta Correta: 
Comentário
da
resposta:
II. ( ) Além dos métodos da estatística descritiva, algoritmos de agrupamento também são parte da análise
exploratória de dados. 
III. ( ) A análise exploratória dos dados permite a geração de hipóteses sobre os dados, para posterior
investigação mais detalhada. 
IV. ( ) Gerar hipóteses sobre dados significa gerar afirmações sobre possíveis padrões e descobertas
reveladas pelos dados, a serem melhor investigadas e comprovadas.
V, V, V, V.
V, V, V, V.
Resposta correta.  A sequência está correta. É correto a�rmar que a análise estatística descritiva é parte da
análise exploratória de dados, assim como dizer que algoritmos de agrupamento também o são. Também é
correto dizer que a análise exploratória dos dados permite a geração de hipóteses sobre os dados, que devem
ser melhor investigadas para comprovação posteriormente, e que gerar hipóteses sobre dados signi�ca gerar
a�rmações sobre possíveis padrões e descobertas reveladas pelos dados.
Pergunta 5
Resposta Selecionada: 
Resposta Correta: 
Comentário
da
resposta:
Considere dois pontos de venda da boneca falante com as seguintes características: primeiro ponto com
local de exposição ruim da boneca, preço da bonecade 289,99 reais, gastos mensais com publicidade de 90
mil reais e idade média da população local de 39 anos. Segundo ponto com bom local de exposição da
boneca e preço da boneca de 399,99 reais. 
  
 
Figura - Árvore de decisão ajustada às vendas do produto de varejo 
Fonte: Elaborada pelo autor. 
  
  
Use a árvore que construímos para o caso da boneca falante (novamente exibida aqui) e assinale a
alternativa que indica corretamente a estimativa de vendas para esse ponto de venda:
Vendas altas e baixas, respectivamente.
Vendas altas e baixas, respectivamente.
Resposta correta. A alternativa está correta, pois ao percorremos a árvore construída para a predição das
vendas da boneca falante, se altas ou baixas, do nó inicial aos nós terminais, e usarmos passo a passo as
características dos dois pontos de venda, comparando-as com os valores informados em cada nó,
chegaremos às estimativas de vendas altas para o primeiro ponto e de vendas baixas para o segundo ponto.
Pergunta 6
1 em 1 pontos
1 em 1 pontos
Resposta Selecionada: 
Resposta Correta: 
Comentário
da
resposta:
Leia o excerto a seguir sobre as ideias-chave para agrupamento hierárquico: 
  
“Começa com todos os registros. Progressivamente, os grupos são unidos aos grupos próximos até que
todos os registros pertençam a um único grupo. O histórico de aglomeração é retido e plotado, e o usuário
pode visualizar o número e a estrutura dos grupos em diferentes estágios. As distâncias intergrupos são
calculadas de jeitos diferentes, todas baseadas no conjunto de distância inter-registros.” 
  
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados : 50 conceitos iniciais. Rio
de Janeiro: Alta Books, 2019, p. 278. 
 A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. 
  
I.  No agrupamento hierárquico, o usuário deve obrigatoriamente especificar o número de grupos que deseja
ver o algoritmo formar. 
Pois 
II. O algoritmo começa com grupos formados por registros individuais e, progressivamente, os grupos são
unidos aos grupos mais próximos, até que todos os registros pertençam a um único grupo. 
  
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
Resposta correta. A alternativa está correta, pois no agrupamento hierárquico, diferentemente do que se
requer para o agrupamento por k-médias, o usuário não especi�ca o número de grupos que o algoritmo deve
formar. Em estágios progressivos, se parte de tantos grupos quanto o número de registros (observações) do
conjunto de dados, formam-se sequencialmente vários agrupamentos, por fusão entre grupos mais similares
entre si, até se formar um único grupo, ao �nal, com todos os registro do conjunto de dados analisado. Ao
usuário cabe examinar essa estrutura, e decidir que agrupamentos fazem mais sentido para a sua análise.
Pergunta 7
Quando acontece de haver várias variáveis quantitativas em uma determinada amostra de dados, é comum
a realização da análise da (possível) relação entre essas variáveis por meio do cálculo de suas correlações.
Neste caso, o cálculo de suas correlações sempre é feito de duas em duas variáveis. Comumente, também
se apresenta a correlação de cada variável com ela mesma, o  que sempre resulta em uma correlação
perfeita, igual a 1. 
  
A tabela adiante mostra o resultado do cálculo das correlações entre 5 variáveis quantitativas de uma
determinada amostra. 
  
  x1 x2 x3 x4 x5
x1 1,00 - 0,85 - 0,78 - 0,87 0,42
x2 - 0,85 1,00 0,79 0,89 - 0,43
x3 - 0,78 0,79 1,00 0,66 - 0,71
x4 - 0,87 0,89 0,66 1,00 - 0,17
x5 0,42 - 0,43 - 0,71 - 0,17 1,00
  
Quadro: Correlações cruzadas entre as variáveis quantitativas x1, x2, x3, x4 e x5 
Fonte: Elaborado pelo autor. 
  
Com respeito a essa tabela de correlações, analise as afirmativas a seguir e assinale V para a(s)
Verdadeira(s) e F para a(s) Falsa(s). 
  
I. ( ) Os valores 1,00 apenas indicam a correlação perfeita que existe entre uma variável e ela mesma, uma
informação de pouco valor prático. 
II. ( ) A maior correlação positiva é aquela entre as variáveis x2 e x4, no valor de 0,89, que indica uma forte
1 em 1 pontos
Resposta Selecionada: 
Resposta Correta: 
Comentário
da
resposta:
associação entre essas duas variáveis, e que uma aumenta com um aumento da outra. 
III. ( ) A maior (em valor absoluto) correlação negativa é aquela entre as variáveis x1 e x4, no valor de - 0,87,
que indica uma forte associação entre essas duas variáveis, e que uma diminui quanto a outra aumenta. 
IV. ( ) A menor (em valor absoluto) correlação negativa é aquela entre as variáveis x4 e x5, no valor de -
0,17, que indica uma fraca associação entre essas duas variáveis, e que uma diminui quando a outra
aumenta.
V, V, V, V.
V, V, V, V.
Resposta correta.  A sequência está correta. Os valores 1,00 apenas indicam a correlação perfeita que existe
entre uma variável e ela mesma. A maior correlação positiva é aquela entre as variáveis x2 e x4, indicando
uma forte associação entre essas duas variáveis, e que uma aumenta com um aumento da outra. A maior (em
valor absoluto) correlação negativa é aquela entre as variáveis x1 e x4, indicando uma forte associação entre
essas duas variáveis, e que uma diminui quanto a outra aumenta. A menor (em valor absoluto) correlação
negativa é aquela entre as variáveis x4 e x5, indicando uma fraca associação entre essas duas variáveis, e que
uma diminui quando a outra aumenta.
Pergunta 8
Resposta Selecionada: 
Resposta Correta: 
Comentário
da
resposta:
O Margareth H. Duham, em seu livro Data Mining - Introductory and Advanced Topics, informa que tarefas
de agrupamento, ou clustering em inglês, vêm sendo aplicadas em muitos domínios, incluindo a biologia, a
medicina, a antropologia, o marketing e a economia. 
  
DUHAM, Margareth H. Data mining : introductory and advanced topics. Upper Saddle River (NJ): Pearson
Education, 2003, p.126. 
  
A respeito desses domínios de aplicação de tarefas de agrupamento, analise as afirmativas a seguir e
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
  
I. ( ) Observar diferentes características de doenças em vários pacientes, e depois formar diferentes grupos
de pacientes - por similaridade das características de suas doenças - é uma tarefa de agrupamento. 
II. ( ) Observar diferentes hábitos de consumo em várias milhares de pessoas, e depois formar grupos de
pessoas - por similaridade de seus hábitos de consumo - é uma tarefa de agrupamento. 
III. ( ) Observar diferentes características das linguagens faladas por membros de aldeias remotas, e depois
formar grupos de linguagens - por similaridades das características das linguagens - é uma tarefa de
agrupamento. 
IV. ( ) Observar diferentes característica de insetos em diversos biomas, e depois formar grupos de insetos -
por similaridade de suas características - é uma tarefa de agrupamento. 
  
V, V, V, V.
V, V, V, V.
Resposta correta.  A sequência está correta. Observar diferentes características de indivíduos, sejam estes
indivíduos doenças que se manifestam em pacientes, hábitos de consumos que se manifestam em
consumidores, línguas faladas por diferentes povos, ou insetos que habitam diferentes biomas, e depois, para
cada um desses exemplos, agrupar as observações feitas em grupos menores por similaridade, são tarefas de
agrupamento. Sendo assim, todos os exemplos descritos são tarefas de agrupamento.
Pergunta 9
Usamos gráficos para a visualização do comportamento (a descoberta de padrões), tanto de cada variável
individualmente quanto da relação entre variáveis (o comportamento de uma em relação à outra). Ambas
visualizações, seja da variável individualmente, seja da sua possível relação com outra variável, são de
1 em 1 pontos
1 em 1 pontos
Resposta Selecionada: 
Resposta Correta: 
Comentário
da
resposta:
grande utilidade. 
  
Quanto aos gráficos para a visualização da relação entre duas variáveis, analise as afirmativasa seguir: 
I. Gráficos de dispersão são usados para a visualização da relação entre duas variáveis quantitativas. 
II. Boxplots são usados para a visualização da relação entre uma variável quantitativa e uma variável
qualitativa (ou os níveis de uma variável qualitativa). 
III. Mosaic plots são usados para a visualização entre duas variáveis qualitativas (ou, em outras palavras,
entre os níveis de duas variáveis qualitativas). 
IV. Em qualquer uma das situações descritas acima, sempre exibiremos uma das variáveis no eixo horizontal
e a outra no eixo vertical. 
Está correto o que se afirma em:
I, II, III e IV.
I, II, III e IV.
Sua resposta está correta. A alternativa está correta, pois uma árvore faz partição recursiva das variáveis de
entrada hierarquicamente; a cada estágio da construção da árvore, o nó inicial e depois os nós intermediários
dividem o domínio da variável de entrada em questão, de onde bifurcam os seus ramos para a esquerda e
para a direita; esses valores indicam como se deve ler a árvore, ao se caminhar pelos seus ramos; em cada nó
intermediário ou no nó inicial há um valor quantitativo ou qualitativo, que é o valor escolhido pela árvore para
fazer a partição da variável estágio; e em árvores de decisão de classi�cação ou regressão, os nós terminais
exibem os valores estimados para a variável resposta.
Pergunta 10
Resposta Selecionada: 
Resposta Correta: 
Comentário
da
resposta:
Leia o excerto a seguir: 
  
“Uma parte fundamental do kit de ferramentas do cientista de dados é a visualização de dados. Embora seja
muito fácil criar visualizações é bem mais difícil produzir algumas boas. Existem dois usos primários para a
visualização de dados: - Para explorar dados. - Para comunicar dados. Neste capítulo, nos concentraremos
em construir habilidades das quais você precisará para começar a explorar seus próprios dados e produzir
visualizações que usaremos no decorrer do livro. Como a maioria dos nossos tópicos do capítulo, a
visualização de dados é uma rica área de estudos que merece seu próprio livro. Mas, mesmo assim,
tentaremos mostrar o que é preciso e o que não é para uma boa visualização.” 
  
GRUS, J. Data science do zero: primeiras regras com Python. Rio de Janeiro: Alta Books, 2016. p. 37. 
  
Considerando o excerto apresentado, em relação à visualização de dados, analise as afirmativas a seguir: 
  
I. O autor do texto considera a visualização de dados uma parte acessória ao trabalho do cientista de dados. 
II. O autor considera fácil criar visualizações de dados, porém acha difícil criar boas visualizações de dados. 
III. O autor considera que, por ser fácil criar visualizações de dados, não há razão para merecer seu próprio
livro. 
IV. O autor deixa claro que existem dois usos primários para a visualização de dados: explorar dados e
comunicar dados. 
  
Está correto o que se afirma em:
I, II e III, apenas.
II e IV, apenas.
Sua resposta está incorreta. A alternativa está incorreta, pois o autor do texto considera a visualização de
dados uma parte fundamental, e não acessória, no trabalho do cientista de dados; acha fácil criar
visualizações de dados, porém difícil criar boas visualizações de dados; considera que, por ser uma rica área
de estudos, merece seu próprio livro; e deixa claro que existem dois usos primários para a visualização de
dados: explorar dados e comunicar dados.
0 em 1 pontos
Quarta-feira, 17 de Novembro de 2021 18h55min13s BRT

Continue navegando