PROVA N2 - ESTATÍSTICA APLICADA AO DATA SCIENCE - UNIFACS 20202

•

UNIFACS

10

0

10

0

kevin cerqueira

19/06/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Science

2.213 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Revisar envio do teste: 20202 - PROVA N2 (A5)
20202 - Estatística Aplicada Ao Data Science (ON) Prova N2
Revisar envio do teste: 20202 - PROVA N2 (A5)
Usuário KEVIN MATTHIAS FRANCA FIALHO CERQUEIRA
Curso 20202 - Estatística Aplicada Ao Data Science (ON)
Teste 20202 - PROVA N2 (A5)
Iniciado 07/12/20 22:59
Enviado 07/12/20 23:12
Status Completada
Resultado da
tentativa
8 em 10 pontos
Tempo decorrido 13 minutos
Instruções
Resultados exibidos Respostas enviadas, Respostas corretas, Comentários
Caso necessite a utilização do "EXCEL" clique no link ao lado ----------->
excel.xlsx
Pergunta 1
Resposta Selecionada:
Resposta Correta:
Comentário
da resposta:
Com o advento dos computadores, surgiu a necessidade de se estabelecer uma
forma de comunicação dos seres humanos com eles, o que provocou a criação
de linguagens de programação.
Relativamente a esse assunto, analise as afirmativas a seguir.
I. Linguagens de programação não são importantes para a estatística, mas só
para a ciência dos dados.
II. Uma das funções de linguagens de programação é viabilizar a comunicação
dos seres humanos com máquinas e das máquinas entre si.
III. São muitas as linguagens de programação que podem ser empregadas na
estatística e na ciência dos dados, mas há uma preferência, atualmente, pelas
linguagens R e Python.
IV. O R base já vem com todas as funções estatísticas e gráficas das quais
precisaremos em um curso introdutório de aplicações da estatística à ciência
dos dados.
Está correto o que se afirma em:
II e III, apenas.
II, III e IV, apenas.
Sua resposta está incorreta. A alternativa está incorreta, pois as
linguagens de programação são tão importantes para a
estatística quanto para a ciência dos dados. Sabemos, também,
que uma das funções de linguagens de programação é viabilizar a
Minha Área
0 em 1 pontos
← OK
Revisar envio do teste: 20202 - PROVA N2 (A5) – 20202 - ... https://unifacs.blackboard.com/webapps/assessment/review/review.jsp?...
1 of 8 11/01/2021 23:50
comunicação dos seres humanos com máquinas e das máquinas
entre si; de fato, são muitas as linguagens de programação que
podem ser empregadas na estatística e na ciência dos dados,
mas há um preferência, atualmente, pelas linguagens R e Python;
o R base já vem com todas as funções estatísticas e gráficas das
quais precisaremos em um curso introdutório de aplicações da
estatística à ciência dos dados.
Pergunta 2
Resposta
Selecionada:
Resposta Correta:
Comentário
da resposta:
Leia o excerto a seguir:
“A ciência dos dados é uma fusão de múltiplas disciplinas, incluindo estatística,
ciência da computação, tecnologia da informação e campos de domínios
específicos. Consequentemente, podem-se utilizar de muitos termos diferentes
para se referir a um dado conceito.”
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados :
50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. xv.
A partir do apresentado, analise as asserções a seguir e a relação proposta
entre elas.
I. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos
diferentes para se referir a um dado conceito.
Pois
II. A estatística usa, de forma profunda, a matemática como pilar do seu
desenvolvimento. É considerada a ciência mais sutil, e a mais ampla, quanto o
assunto são dados. É usada por todas áreas científicas.
As asserções I e II são proposições verdadeiras, e a II é
uma justificativa correta da I.
As asserções I e II são proposições verdadeiras, mas a II
não é uma justificativa da I.
Sua resposta está incorreta, pois mesmo que algoritmos de
agrupamento sejam parte dos métodos da aprendizagem não
supervisionada, e não serem modelos preditivos, como afirmado
na asserção II, depois que formamos e nomeamos os grupos
(classificamos os grupos), podemos usar essas classes como
variáveis respostas e, a partir desse ponto, executar tarefas
preditivas com algoritmos de classificação. Ou seja, a asserção I
é falsa.
Pergunta 3
Considere dois pontos de venda da boneca falante com as seguintes
características: primeiro ponto com local de exposição ruim da boneca, preço da
boneca de 289,99 reais, gastos mensais com publicidade de 90 mil reais e idade
média da população local de 39 anos. Segundo ponto com bom local de
exposição da boneca e preço da boneca de 399,99 reais.
0 em 1 pontos
1 em 1 pontos
Revisar envio do teste: 20202 - PROVA N2 (A5) – 20202 - ... https://unifacs.blackboard.com/webapps/assessment/review/review.jsp?...
2 of 8 11/01/2021 23:50
Resposta Selecionada:
Resposta Correta:
Comentário
da resposta:
Figura - Árvore de decisão ajustada às vendas do produto de varejo
Fonte: Elaborada pelo autor.
Use a árvore que construímos para o caso da boneca falante (novamente exibida
aqui) e assinale a alternativa que indica corretamente a estimativa de vendas
para esse ponto de venda:
Vendas altas e baixas, respectivamente.
Vendas altas e baixas, respectivamente.
Resposta correta. A alternativa está correta, pois ao
percorremos a árvore construída para a predição das vendas da
boneca falante, se altas ou baixas, do nó inicial aos nós
terminais, e usarmos passo a passo as características dos dois
pontos de venda, comparando-as com os valores informados em
cada nó, chegaremos às estimativas de vendas altas para o
primeiro ponto e de vendas baixas para o segundo ponto.
Pergunta 4
Leia o excerto a seguir:
“Uma parte fundamental do kit de ferramentas do cientista de dados é a
visualização de dados. Embora seja muito fácil criar visualizações é bem mais
difícil produzir algumas boas. Existem dois usos primários para a visualização de
dados: - Para explorar dados. - Para comunicar dados. Neste capítulo, nos
concentraremos em construir habilidades das quais você precisará para começar
a explorar seus próprios dados e produzir visualizações que usaremos no
decorrer do livro. Como a maioria dos nossos tópicos do capítulo, a visualização
de dados é uma rica área de estudos que merece seu próprio livro. Mas, mesmo
assim, tentaremos mostrar o que é preciso e o que não é para uma boa
visualização.”
GRUS, J. Data science do zero: primeiras regras com Python. Rio de Janeiro:
Alta Books, 2016. p. 37.
Considerando o excerto apresentado, em relação à visualização de dados,
analise as afirmativas a seguir:
I. O autor do texto considera a visualização de dados uma parte acessória ao
trabalho do cientista de dados.
II. O autor considera fácil criar visualizações de dados, porém acha difícil criar
boas visualizações de dados.
III. O autor considera que, por ser fácil criar visualizações de dados, não há
1 em 1 pontos
Revisar envio do teste: 20202 - PROVA N2 (A5) – 20202 - ... https://unifacs.blackboard.com/webapps/assessment/review/review.jsp?...
3 of 8 11/01/2021 23:50
Resposta Selecionada:
Resposta Correta:
Comentário
da resposta:
razão para merecer seu próprio livro.
IV. O autor deixa claro que existem dois usos primários para a visualização de
dados: explorar dados e comunicar dados.
Está correto o que se afirma em:
II e IV, apenas.
II e IV, apenas.
Resposta correta. A alternativa está correta, pois o autor do
texto considera a visualização de dados uma parte fundamental,
e não acessória, no trabalho do cientista de dados; acha fácil
criar visualizações de dados, porém difícil criar boas
visualizações de dados; considera que, por ser uma rica área de
estudos, merece seu próprio livro; e deixa claro que existem dois
usos primários para a visualização de dados: explorar dados e
comunicar dados.
Pergunta 5
Resposta
Selecionada:
Resposta Correta:
Comentário
da resposta:
Em algumas situações, o cientista de dados pode decidir transformar dados
quantitativos em dados qualitativos, o que chamamos discretização. Por exemplo,
em vez de tratar idade como uma variável quantitativa contínua, podemos
transformá-la em uma variável qualitativa com quatro níveis: criança, jovem,
adulto, idoso. A partir do apresentado, analise as asserções a seguir e a relação
proposta entre elas.
I. A discretização (transformação) de variáveisquantitativas em qualitativas é
comum na estatística e na ciência dos dados.
Pois:
II. A discretização, em muitas situações, simplifica a análise e, principalmente,
traz maior clareza à interpretação dos resultados.
A seguir, assinale a alternativa correta:
As asserções I e II são proposições verdadeiras, e a II é
uma justificativa correta da I.
As asserções I e II são proposições verdadeiras, e a II é
uma justificativa correta da I.
Resposta correta. A alternativa está correta. A asserção I é uma
proposição verdadeira, pois a discretização de dados é muito
comum na estatística e na ciência dos dados. A asserção II
também é verdadeira e justifica a I, pois a discretização de
dados é feita em razão de simplificar a análise e trazer maior
clareza à interpretação dos resultados.
Pergunta 6
Na análise descritiva do volume de vendas da boneca falante, foram estudadas
as variáveis relativas aos dados coletados pela gerente comercial do fabricante
da boneca. Entre elas, há a variável do preço da boneca praticado em cada
ponto de venda, cuja relação com vendas altas ou baixas é exibida no gráfico
adiante.
1 em 1 pontos
1 em 1 pontos
Revisar envio do teste: 20202 - PROVA N2 (A5) – 20202 - ... https://unifacs.blackboard.com/webapps/assessment/review/review.jsp?...
4 of 8 11/01/2021 23:50
Resposta Selecionada:
Resposta Correta:
Comentário
da resposta:
Figura: Efeito do preço nas vendas
Fonte: Elaborada pelo autor.
Quanto a relação entre o preço da boneca e o volume de vendas (vendas altas
ou baixas), analise as afirmativas a seguir:
I. Ao estudarmos este caso, percebemos que não há qualquer efeito do preço da
boneca falante sobre o volume de vendas em cada ponto (de venda).
II. O gráfico de visualização da relação entre o preço de venda da boneca e o
volume de vendas mostra que vendas altas ocorrem quando o preço da boneca é
significativamente menor.
III. O gráfico de visualização da relação entre o preço de venda da boneca e o
volume de vendas mostra que vendas altas ocorrem mesmo quando o preço da
boneca não é significativamente menor.
IV. A asserção III é um indicativo que o efeito de outras variáveis sobre o volume
de vendas da boneca pode ser tão relevante ou mesmo maior que o efeito da
diferença de preço.
Está correto o que se afirma em:
III e IV, apenas.
III e IV, apenas.
Sua resposta está correta. A alternativa está correta, pois o
gráfico de visualização da relação entre o preço de venda da
boneca e o volume de vendas mostra que vendas altas ocorrem
mesmo quando o preço da boneca não é significativamente
menor, e isto é um indicativo que o efeito de outras variáveis
sobre o volume de vendas da boneca pode ser tão relevante ou
mesmo maior que o efeito da diferença de preço.
Pergunta 7
Os modelos de regressão são de enorme importância na estatística e na ciência
dos dados. Dentre os diversos modelos de regressão que existem, por exemplo,
árvores de decisão para regressão, k-vizinhos mais próximos para regressão e
outros (não vimos nenhum desses aqui, mas não se preocupe: o nosso curso é
introdutório!), são justamente os modelos de regressão linear aqueles
considerados os mais importantes e, sem dúvida, os mais difundidos, com
aplicações nas mais diversas áreas.
Desse modo, é sobre eles que queremos saber o que você já aprendeu. Para
isso, analise as afirmativas a seguir.
I. Modelos de regressão linear são usados como modelos preditivos para casos
em que a variável resposta é quantitativa. As variáveis de entrada podem ser de
qualquer tipo: quantitativas ou qualitativas.
1 em 1 pontos
Revisar envio do teste: 20202 - PROVA N2 (A5) – 20202 - ... https://unifacs.blackboard.com/webapps/assessment/review/review.jsp?...
5 of 8 11/01/2021 23:50
Resposta Selecionada:
Resposta Correta:
Comentário
da resposta:
II. As variáveis de entrada também são denominadas variáveis regressoras,
variáveis preditoras ou variáveis independentes.
III. A variável resposta também pode ser denominada variável de saída ou
variável dependente.
IV. Modelos de regressão linear são usados como modelos preditivos para casos
em que a variável resposta é qualitativa. As variáveis de entrada podem ser de
qualquer tipo: quantitativas ou qualitativas.
Está correto o que se afirma em:
I, II e III, apenas.
I, II e III, apenas.
Resposta correta. A alternativa está correta, pois a única
afirmativa falsa é a que expõe que modelos de regressão linear
são usados como modelos preditivos para casos em que a
variável resposta é qualitativa. Assim, é correto afirmar que
modelos de regressão linear são usados como modelos
preditivos para casos em que a variável resposta é quantitativa e
as variáveis de entrada podem ser de qualquer tipo: quantitativas
ou qualitativas.
Pergunta 8
Resposta Selecionada:
Resposta Correta:
Comentário
da resposta:
Discutimos o que são aprendizagem supervisionada e não supervisionada. Vimos
que é na forma como tratamos as variáveis estudadas que se dá a diferença
entre esses dois tipos de aprendizagens, supervisionada e não supervisionada.
Esses dois tipos são os mais importantes dentre os diversos tipos de
aprendizagem.
Relativamente a esse assunto, analise as afirmativas a seguir.
Na aprendizagem supervisionada, definimos uma das variáveis estudadas
como sendo a variável resposta, a qual responde em função dos valores
assumidos pelas outras variáveis, as quais são chamadas de variáveis de
entrada.
Especificamente na aprendizagem supervisionada, também denominamos
uma variável resposta de variável de saída ou variável dependente.
Especificamente na aprendizagem supervisionada, também denominamos
uma variável de entrada de variável regressora, variável preditora ou
variável independente.
Na aprendizagem não supervisionada, tratamos todas as variáveis
estudadas da mesma forma, sem procurar explicar o comportamento de
uma delas em função dos valores assumidos pelas outras.
Está correto o que se afirma em:
I, II, III e IV.
I, II, III e IV.
Resposta correta. Na aprendizagem supervisionada, definimos
uma das variáveis estudadas como sendo a variável resposta, a
qual responde em função dos valores assumidos pelas outras
variáveis, as quais são chamadas de variáveis de entrada; na
1 em 1 pontos
Revisar envio do teste: 20202 - PROVA N2 (A5) – 20202 - ... https://unifacs.blackboard.com/webapps/assessment/review/review.jsp?...
6 of 8 11/01/2021 23:50
aprendizagem supervisionada, também chamamos a variável
resposta de variável de saída ou variável dependente e as
variáveis de entrada, de variáveis regressoras, preditoras ou
independentes. Na aprendizagem não supervisionada, tratamos
todas as variáveis estudadas da mesma forma, sem procurar
explicar o comportamento de uma delas em função dos valores
assumidos pelas outras.
Pergunta 9
Resposta Selecionada:
Resposta Correta:
Comentário
da resposta:
Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um modelo
de regressão logística múltipla aos dados da amostra. Os resultados que
encontrou foram muito ricos, sugerindo uma série de explicações, aprendidas
pelo algoritmo com base nos dados fornecidos. Veja que dizemos “explicações
sugeridas”, pois qualquer resultado de um algoritmo deve ser confrontado com
especialistas da área em estudo. Contudo, vamos rever o que o modelo de
regressão múltipla treinado pela jovem cientista de dados sugere. Para isso,
analise as afirmativas a seguir.
A probabilidade da inadimplência cresce com o aumento dos gastos
médios com o cartão de crédito. Isto, que nos parece óbvio, foi o que os
dados “contaram” para o algoritmo de regressão logística múltipla.
A probabilidade da inadimplência cresce com o aumento da renda média
mensal das pessoas. Isto não é tão óbvio e provavelmente não teríamos
coragem de generalizar para outras situações, mas foi o que os dados da
amostra do gerente do banco “contaram” para o algoritmo de regressão
logística múltipla.
Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal
com cartão de crédito, a probabilidade de inadimplência com o cartão émaior para aquela sem emprego estável. Novamente, isto foi o que os
dados amostrados “contaram” para o algoritmo de regressão logística
múltipla.
O modelo de regressão logística múltipla, ajustado aos dados da amostra,
consegue predizer os efeitos da renda mensal da pessoa, do seu gasto
médio mensal com cartão de crédito e se ela tem ou não um emprego
estável, na probabilidade de a pessoa ficar inadimplente com o cartão de
crédito. Um algoritmo desse tipo pode ajudar no processo decisório de um
banco quanto à aprovação de cartão de crédito, ao lado de outros
critérios e ferramentas analíticas disponíveis para o banco.
Está correto o que se afirma em:
I, II, III e IV.
I, II, III e IV.
Resposta correta. Todas as asserções desta questão são
verdadeiras. Para os dados analisados, probabilidade da
inadimplência cresce com o aumento dos gastos médios com o
cartão de crédito e com o aumento da renda média mensal das
pessoas. Para duas pessoas com a mesma renda mensal e o
mesmo gasto mensal com cartão de crédito, a probabilidade de
inadimplência com o cartão é maior para aquela sem emprego
estável. E o modelo de regressão logística múltipla é um modelo
preditivo, um classificador probabilístico.
1 em 1 pontos
Revisar envio do teste: 20202 - PROVA N2 (A5) – 20202 - ... https://unifacs.blackboard.com/webapps/assessment/review/review.jsp?...
7 of 8 11/01/2021 23:50
Segunda-feira, 11 de Janeiro de 2021 23h50min18s BRT
Pergunta 10
Resposta Selecionada:
Resposta Correta:
Comentário
da resposta:
Usamos gráficos para a visualização do comportamento (a descoberta de
padrões), tanto de cada variável individualmente quanto da relação entre
variáveis (o comportamento de uma em relação à outra). Ambas visualizações,
seja da variável individualmente, seja da sua possível relação com outra variável,
são de grande utilidade.
Quanto aos gráficos para a visualização da relação entre duas variáveis, analise
as afirmativas a seguir:
I. Gráficos de dispersão são usados para a visualização da relação entre duas
variáveis quantitativas.
II. Boxplots são usados para a visualização da relação entre uma variável
quantitativa e uma variável qualitativa (ou os níveis de uma variável qualitativa).
III. Mosaic plots são usados para a visualização entre duas variáveis qualitativas
(ou, em outras palavras, entre os níveis de duas variáveis qualitativas).
IV. Em qualquer uma das situações descritas acima, sempre exibiremos uma das
variáveis no eixo horizontal e a outra no eixo vertical.
Está correto o que se afirma em:
I, II, III e IV.
I, II, III e IV.
Sua resposta está correta. A alternativa está correta, pois uma
árvore faz partição recursiva das variáveis de entrada
hierarquicamente; a cada estágio da construção da árvore, o nó
inicial e depois os nós intermediários dividem o domínio da
variável de entrada em questão, de onde bifurcam os seus ramos
para a esquerda e para a direita; esses valores indicam como se
deve ler a árvore, ao se caminhar pelos seus ramos; em cada nó
intermediário ou no nó inicial há um valor quantitativo ou
qualitativo, que é o valor escolhido pela árvore para fazer a
partição da variável estágio; e em árvores de decisão de
classificação ou regressão, os nós terminais exibem os valores
estimados para a variável resposta.
1 em 1 pontos
Revisar envio do teste: 20202 - PROVA N2 (A5) – 20202 - ... https://unifacs.blackboard.com/webapps/assessment/review/review.jsp?...
8 of 8 11/01/2021 23:50