GRA1561 ESTATÍSTICA APLICADA AO DATA SCIENCE _Prova_N2

•

UAM

5

0

5

0

Érico Cavalcanti

13/12/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística Aplicada

24.151 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

13/12/2021 05:38 Revisar envio do teste: 20212 - PROVA N2 (A5) – GRA1561 ...
https://anhembi.blackboard.com/webapps/late-course_engine_soap-BBLEARN/Controller?COURSE_ID=_750093_1 1/10
Usuário ERICO VINICIUS CAVALCANTI
Curso GRA1561 ESTATÍSTICA APLICADA AO DATA SCIENCE GR0890-212-3 -
202120.ead-19326.01
Teste 20212 - PROVA N2 (A5)
Iniciado 08/12/21 16:14
Enviado 08/12/21 16:34
Status Completada
Resultado da
tentativa
9 em 10 pontos
Tempo decorrido 19 minutos
Instruções
Resultados
exibidos
Respostas enviadas, Respostas corretas, Comentários
Caso necessite a utilização do "EXCEL" clique no link ao lado ----------->
excel.xlsx
Pergunta 1
Gráficos de dispersão têm emprego consagrado quando falamos a respeito de
visualização de dados. Eles são usados, porém, de uma forma bem específica, pois
não podem ser usados para a visualização de qualquer tipo de variável, nem em
qualquer situação.
A partir do exposto, analise as afirmativas a seguir e assinale V para a(s)
Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) Gráficos de dispersão, em inglês denominados scatter plots, só podem ser
usados para a visualização de uma única variável, a qual deve ser,
obrigatoriamente, uma variável qualitativa.
II. ( ) Gráficos de dispersão são usados para a visualização da relação entre duas
variáveis quantitativas, em que os dados das duas variáveis são plotados aos
pares. Permite, dessa forma, a verificação visual, pelo estatístico ou pelo cientista
de dados, se há uma tendência de uma variável aumentar quando a outra aumenta,
diminuir quando a outra diminui, ou se não há uma relação aparente entre as duas.
III. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o
valor do imóvel e a sua área. Esse tipo de gráfico é denominado, em inglês, scatter
plot.
IV. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o
valor do imóvel e o seu andar. Esse tipo de gráfico é denominado, em inglês,
scatter plot.
Assinale a alternativa que apresenta a sequência correta.
1 em 1 pontos
https://anhembi.blackboard.com/bbcswebdav/pid-19551880-dt-content-rid-84766551_1/xid-84766551_1
13/12/2021 05:38 Revisar envio do teste: 20212 - PROVA N2 (A5) – GRA1561 ...
https://anhembi.blackboard.com/webapps/late-course_engine_soap-BBLEARN/Controller?COURSE_ID=_750093_1 2/10
Resposta Selecionada:
Resposta Correta:
Comentário
da
resposta:
F, V, V, V.
F, V, V, V.
Resposta correta. A alternativa está correta, pois a única a�rmativa falsa é a
primeira. Grá�cos de dispersão sempre são usados para a visualização da
relação entre duas variáveis, as quais devem, obrigatoriamente, ser
quantitativas. Isso é justamente o que expõe a segunda a�rmativa, portanto
está correta. Quanto às duas últimas a�rmativas, um grá�co de dispersão foi
usado para exibir, em pares, a relação entre o valor do imóvel e a sua área, e o
outro grá�co de dispersão foi usado para exibir, em pares, a relação entre o
valor do imóvel e o seu andar; são denominados, em inglês, scatter plots.
Pergunta 2
Considere dois pontos de venda da boneca falante com as seguintes
características: primeiro ponto com local de exposição ruim da boneca, preço da
boneca de 289,99 reais, gastos mensais com publicidade de 90 mil reais e idade
média da população local de 39 anos. Segundo ponto com bom local de exposição
da boneca e preço da boneca de 399,99 reais.
Figura - Árvore de decisão ajustada às vendas do produto de varejo
Fonte: Elaborada pelo autor.
Use a árvore que construímos para o caso da boneca falante (novamente exibida
aqui) e assinale a alternativa que indica corretamente a estimativa de vendas para
esse ponto de venda:
1 em 1 pontos
13/12/2021 05:38 Revisar envio do teste: 20212 - PROVA N2 (A5) – GRA1561 ...
https://anhembi.blackboard.com/webapps/late-course_engine_soap-BBLEARN/Controller?COURSE_ID=_750093_1 3/10
Resposta Selecionada:
Resposta Correta:
Comentário
da
resposta:
Vendas altas e baixas, respectivamente.
Vendas altas e baixas, respectivamente.
Resposta correta. A alternativa está correta, pois ao percorremos a árvore
construída para a predição das vendas da boneca falante, se altas ou baixas, do
nó inicial aos nós terminais, e usarmos passo a passo as características dos dois
pontos de venda, comparando-as com os valores informados em cada nó,
chegaremos às estimativas de vendas altas para o primeiro ponto e de vendas
baixas para o segundo ponto.
Pergunta 3
Resposta
Selecionada:

Resposta Correta:
Em uma análise de agrupamento examinamos os dados observados (as linhas da
tabela com os dados) e procuramos identificar, através de algum critério de
similaridade, aquelas que estão mais próximas entre si, e formamos grupos com
essas observações similares. Quando são apenas 2 variáveis e poucas
observações (tamanho da amostra pequeno), por exemplo 10, podemos tentar
fazer o agrupamento visualmente.
Analise a figura adiante e assinale a alternativa que indica a menor quantidade de
grupos que você naturalmente formaria para este caso:
Figura - Massa corporal (kg) versus comprimento (m) dos animais
Fonte: Elaborada pelo autor
Dois grupos, um com 6 indivíduos e outro com 4 indivíduos.
1 em 1 pontos
13/12/2021 05:38 Revisar envio do teste: 20212 - PROVA N2 (A5) – GRA1561 ...
https://anhembi.blackboard.com/webapps/late-course_engine_soap-BBLEARN/Controller?COURSE_ID=_750093_1 4/10
Comentário
da
resposta:
Dois grupos, um com 6 indivíduos e outro com 4
indivíduos.
Resposta correta. A alternativa está correta. A questão solicita a alternativa com
o menor número de grupos que você naturalmente formaria. Há três
alternativas com dois grupos, porém aquela que parece ser a mais natural é a
que agrupa 6 indivíduos do lado esquerdo do grá�co e 4 indivíduos do lado
direito, pois as outras alternativas com dois grupos não são tão naturais quanto
essa opção.
Pergunta 4
Resposta
Selecionada:
Resposta
Correta:
Comentário
da
resposta:
Leia o excerto a seguir:
“A ciência dos dados é uma fusão de múltiplas disciplinas, incluindo estatística,
ciência da computação, tecnologia da informação e campos de domínios
específicos. Consequentemente, podem-se utilizar de muitos termos diferentes
para se referir a um dado conceito.”
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados :
50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. xv.
A partir do apresentado, analise as asserções a seguir e a relação proposta entre
elas.
I. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos
diferentes para se referir a um dado conceito.
Pois
II. A estatística usa, de forma profunda, a matemática como pilar do seu
desenvolvimento. É considerada a ciência mais sutil, e a mais ampla, quanto o
assunto são dados. É usada por todas áreas científicas.
As asserções I e II são proposições verdadeiras, mas a II não é uma
justi�cativa da I.
As asserções I e II são proposições verdadeiras, mas a II não é
uma justificativa da I.
Resposta correta. A alternativa está correta, pois mesmo que algoritmos de
agrupamento sejam parte dos métodos da aprendizagem não supervisionada, e
não serem modelos preditivos, como a�rmado na asserção II, depois que
formamos e nomeamos os grupos (classi�camos os grupos), podemos usar
essas classes como variáveis respostas e, a partir desse ponto, executar tarefas
preditivas com algoritmos de classi�cação. Ou seja, a asserção I é falsa.
1 em 1 pontos
1 em 1 pontos
13/12/2021 05:38 Revisar envio do teste: 20212 - PROVA N2 (A5) – GRA1561 ...
https://anhembi.blackboard.com/webapps/late-course_engine_soap-BBLEARN/Controller?COURSE_ID=_750093_1 5/10
Pergunta 5
Resposta Selecionada:
Resposta Correta:
Comentário
da
resposta:
O texto em referência explica que o processo de descoberta com a mineração de
dados possui tanto um sentido romântico (um processo emocionante e prazeroso),
quanto técnico (um estudo criterioso sobre dados). Também defende a ideia queé
preciso conhecer o ambiente em que os dados são produzidos e que tipo de
conhecimento esse ambiente necessita e espera receber.. Ou seja, o que as
pessoas necessitam e esperam receber.Lei
SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de
dados : com aplicações em R. Rio de Janeiro: Elsevier, 2016, p.3.
Considerando as ideias apresentadas acima e o que sabemos sobre ciência dos
dados, mineração de dados e machine learning, analise as afirmativas a seguir:
I. Machine learning são algoritmos desenvolvidos, principalmente, pela ciência da
computação. São usados na estatística, na ciência de dados e na mineração de
dados.
II. O processo de descoberta de padrões e geração de conhecimento por meio de
dados tem um sentido romântico, por ser emocionante e prazeroso, e um sentido
técnico, pois demanda estudos técnicos criteriosos.
III. A estatística, a ciência da computação e a ciência de dados são áreas
relacionadas, mas a mineração de dados e ciência de dados são áreas
independentes, sem nenhuma relação.
IV. Não é importante conhecer o ambiente em que os dados são produzidos e que
tipo de conhecimento esse ambiente necessita e espera receber.
Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s):
I e II apenas;
I e II apenas;
Resposta correta. A alternativa está correta, pois machine learning são
algoritmos desenvolvidos, principalmente, pela ciência da computação, e são
usados na estatística, na ciência de dados e na mineração de dados, e o
processo de descoberta de padrões e geração de conhecimento por meio de
dados tem um sentido romântico, por ser emocionante e prazeroso, e um
sentido técnico, pois demanda estudos técnicos criteriosos. Também sabemos
que a mineração de dados e ciência de dados são áreas relacionadas, e que é
importante conhecer o ambiente em que os dados são produzidos e que tipo de
conhecimento esse ambiente necessita e espera receber.
Pergunta 6
1 em 1 pontos
13/12/2021 05:38 Revisar envio do teste: 20212 - PROVA N2 (A5) – GRA1561 ...
https://anhembi.blackboard.com/webapps/late-course_engine_soap-BBLEARN/Controller?COURSE_ID=_750093_1 6/10
Resposta Selecionada:
Resposta Correta:
Comentário
da
resposta:
Usamos gráficos para a visualização do comportamento (a descoberta de
padrões), tanto de cada variável individualmente quanto da relação entre variáveis
(o comportamento de uma em relação à outra). Ambas visualizações, seja da
variável individualmente, seja da sua possível relação com outra variável, são de
grande utilidade.
Quanto aos gráficos para a visualização da relação entre duas variáveis, analise as
afirmativas a seguir:
I. Gráficos de dispersão são usados para a visualização da relação entre duas
variáveis quantitativas.
II. Boxplots são usados para a visualização da relação entre uma variável
quantitativa e uma variável qualitativa (ou os níveis de uma variável qualitativa).
III. Mosaic plots são usados para a visualização entre duas variáveis qualitativas
(ou, em outras palavras, entre os níveis de duas variáveis qualitativas).
IV. Em qualquer uma das situações descritas acima, sempre exibiremos uma das
variáveis no eixo horizontal e a outra no eixo vertical.
Está correto o que se afirma em:
I, II, III e IV.
I, II, III e IV.
Sua resposta está correta. A alternativa está correta, pois uma árvore faz
partição recursiva das variáveis de entrada hierarquicamente; a cada estágio da
construção da árvore, o nó inicial e depois os nós intermediários dividem o
domínio da variável de entrada em questão, de onde bifurcam os seus ramos
para a esquerda e para a direita; esses valores indicam como se deve ler a
árvore, ao se caminhar pelos seus ramos; em cada nó intermediário ou no nó
inicial há um valor quantitativo ou qualitativo, que é o valor escolhido pela
árvore para fazer a partição da variável estágio; e em árvores de decisão de
classi�cação ou regressão, os nós terminais exibem os valores estimados para a
variável resposta.
Pergunta 7
Estudamos algoritmos preditivos com base em (1) modelos de regressão linear e
(2) modelos de regressão logística. Esses modelos são aplicados em situações bem
distintas, que dependem, essencialmente, da natureza da variável resposta,
também chamada de variável dependente.
Com esses dois modelos em mente, analise as afirmativas a seguir.
Modelos de regressão logística simples são usados na predição de uma
variável resposta qualitativa quando há mais do que uma variável de entrada.
1 em 1 pontos
13/12/2021 05:38 Revisar envio do teste: 20212 - PROVA N2 (A5) – GRA1561 ...
https://anhembi.blackboard.com/webapps/late-course_engine_soap-BBLEARN/Controller?COURSE_ID=_750093_1 7/10
Resposta Selecionada:
Resposta Correta:
Comentário
da
resposta:
Modelos de regressão linear simples são usados na predição de uma variável
resposta qualitativa quando se considera apenas uma variável de entrada.
Um possível modelo de regressão logística simples para a predição da
probabilidade de inadimplência é:

em que e são os coeficientes do modelo, , o gasto médio mensal da
pessoa com cartão de crédito e , o valor esperado para a probabilidade de a
pessoa ficar ou não inadimplente com o pagamento das faturas do cartão.
O método comumente usado para calcular os valores dos coeficientes e
é o Método da Máxima Verossimilhança. Para isso, pode-se fazer uso do
software estatístico R.
Está correto o que se afirma em:
II, III e IV, apenas.
II, III e IV, apenas.
Resposta correta. Modelo de regressão logística é dito simples quanto se
considera apenas uma variável de entrada; o modelo exposto nesta questão é,
de fato, aquele adotado pela cientista de dados, e o método que ela usou para
determinar os coe�cientes do modelo foi o Método da Máxima Verossimilhança,
através do software estatístico R.
Pergunta 8
Leia o excerto a seguir:
“Uma parte fundamental do kit de ferramentas do cientista de dados é a
visualização de dados. Embora seja muito fácil criar visualizações é bem mais difícil
produzir algumas boas. Existem dois usos primários para a visualização de dados:
- Para explorar dados. - Para comunicar dados. Neste capítulo, nos
concentraremos em construir habilidades das quais você precisará para começar a
explorar seus próprios dados e produzir visualizações que usaremos no decorrer
do livro. Como a maioria dos nossos tópicos do capítulo, a visualização de dados é
uma rica área de estudos que merece seu próprio livro. Mas, mesmo assim,
0 em 1 pontos
13/12/2021 05:38 Revisar envio do teste: 20212 - PROVA N2 (A5) – GRA1561 ...
https://anhembi.blackboard.com/webapps/late-course_engine_soap-BBLEARN/Controller?COURSE_ID=_750093_1 8/10
Resposta Selecionada:
Resposta Correta:
Comentário
da
resposta:
tentaremos mostrar o que é preciso e o que não é para uma boa visualização.”
GRUS, J. Data science do zero: primeiras regras com Python. Rio de Janeiro: Alta
Books, 2016. p. 37.
Considerando o excerto apresentado, em relação à visualização de dados, analise
as afirmativas a seguir:
I. O autor do texto considera a visualização de dados uma parte acessória ao
trabalho do cientista de dados.
II. O autor considera fácil criar visualizações de dados, porém acha difícil criar boas
visualizações de dados.
III. O autor considera que, por ser fácil criar visualizações de dados, não há razão
para merecer seu próprio livro.
IV. O autor deixa claro que existem dois usos primários para a visualização de
dados: explorar dados e comunicar dados.
Está correto o que se afirma em:
I, II e IV, apenas.
II e IV, apenas.
Sua resposta está incorreta. A alternativa está incorreta, pois o autor do texto
considera a visualização de dados uma parte fundamental, e não acessória, no
trabalho do cientista de dados; acha fácil criar visualizações de dados, porém
difícil criar boas visualizações de dados; considera que, por ser uma rica área de
estudos, merece seu próprio livro; e deixa claro que existem dois usosprimários
para a visualização de dados: explorar dados e comunicar dados.
Pergunta 9
A estatística descritiva usa de métodos numéricos para resumir dados, também
chamados de sumários estatísticos, e de gráficos para a visualização dos dados. A
jovem cientista de dados usou algumas técnicas de visualização de dados para
analisar sua amostra, mas deixou outras de lado.
Analise as afirmativas a seguir e veja quais estão coerentes com sua análise
descritiva dos dados.
Na sua análise descritiva dos dados da amostra, a jovem cientista de dados
usou histogramas para a visualização dos dados quantitativos das amostras,
que são a renda mensal das pessoas e seus gastos médios com o cartão de
crédito.
1 em 1 pontos
13/12/2021 05:38 Revisar envio do teste: 20212 - PROVA N2 (A5) – GRA1561 ...
https://anhembi.blackboard.com/webapps/late-course_engine_soap-BBLEARN/Controller?COURSE_ID=_750093_1 9/10
Resposta Selecionada:
Resposta Correta:
Comentário
da
resposta:
Na sua análise descritiva dos dados da amostra, a jovem cientista de dados
usou diagramas de barras para a visualização dos dados quantitativos das
amostras, que são a renda mensal das pessoas e seus gastos médios com o
cartão de crédito.
Histogramas e diagramas de barras são formas tradicionais de visualização
gráfica de dados quantitativos e qualitativos, respectivamente, na estatística
e na ciência dos dados.
A jovem cientista de dados usou, para este caso, apenas histogramas, e
preferiu apenas lançar mão da função table() do software estatístico R, para
determinar a frequência com que os níveis das variáveis qualitativas se
manifestaram na amostra estudada, sem fazer uso de diagramas de barras, o
que poderia ter feito, se quisesse.
Está correto o que se afirma em:
I, III e IV apenas.
I, III e IV apenas.
Resposta correta. Histogramas e diagramas de barras são formas tradicionais de
visualização grá�ca de dados quantitativos e qualitativos, respectivamente, na
estatística e na ciência dos dados, e a jovem cientista de dados não lançou mão
de diagramas de barras. Neste caso, para visualizar os dados qualitativos,
poderia ter feito isso, se quisesse. Diagramas de barras são usados para a
visualização de dados qualitativos, não quantitativos.
Pergunta 10
Em algumas situações, o cientista de dados pode decidir transformar dados
quantitativos em dados qualitativos, o que chamamos discretização. Por exemplo,
em vez de tratar idade como uma variável quantitativa contínua, podemos
transformá-la em uma variável qualitativa com quatro níveis: criança, jovem, adulto,
idoso. A partir do apresentado, analise as asserções a seguir e a relação proposta
entre elas.
I. A discretização (transformação) de variáveis quantitativas em qualitativas é
comum na estatística e na ciência dos dados.
Pois:
1 em 1 pontos
13/12/2021 05:38 Revisar envio do teste: 20212 - PROVA N2 (A5) – GRA1561 ...
https://anhembi.blackboard.com/webapps/late-course_engine_soap-BBLEARN/Controller?COURSE_ID=_750093_1 10/10
Segunda-feira, 13 de Dezembro de 2021 05h38min24s BRT
Resposta
Selecionada:
Resposta
Correta:
Comentário
da
resposta:
II. A discretização, em muitas situações, simplifica a análise e, principalmente, traz
maior clareza à interpretação dos resultados.
A seguir, assinale a alternativa correta:
As asserções I e II são proposições verdadeiras, e a II é uma justi�cativa
correta da I.
As asserções I e II são proposições verdadeiras, e a II é uma
justificativa correta da I.
Resposta correta. A alternativa está correta. A asserção I é uma proposição
verdadeira, pois a discretização de dados é muito comum na estatística e na
ciência dos dados. A asserção II também é verdadeira e justi�ca a I, pois a
discretização de dados é feita em razão de simpli�car a análise e trazer maior
clareza à interpretação dos resultados.