Buscar

221RGR0890A - ESTATISTICA APLICADA AO DATA SCIENCE - ATIVIDADE 2 (A2)

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

This content is Public. 
 
Iniciado em sexta, 
Estado Finalizada 
Concluída em sexta, 
Tempo empregado 
Avaliar 10,00 de um máximo de 10,00(100%) 
Questão 1 
Correto 
Atingiu 1,00 de 1,00 
Remover marcação 
Texto da questão 
A amostra relativa aos dados de inadimplência com cartões tinha 200 observações 
de 4 variáveis: a renda mensal da pessoa (R$), seu gasto médio com cartão de 
crédito (R$), se a pessoa tinha um emprego estável (Sim ou Não) e se a pessoa 
havia, ao longo do período pesquisado, ficado inadimplente com o pagamento de 
faturas do cartão ao menos uma vez (Sim ou Não). 
Reflita sobre esse caso, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
 
I. Todos os dados fornecidos pelo gerente do banco 
à jovem cientista de dados são dados relativos a 
variáveis quantitativas. 
II. Todos os dados fornecidos pelo gerente 
do banco à jovem cientista de dados são dados 
relativos a variáveis qualitativas. 
III. Dentre os dados fornecidos pelo gerente do banco 
à jovem cientista de dados, dois são relativos a uma 
variável quantitativa e dois são relativos a variáveis 
qualitativas. 
IV. Dentre os dados fornecidos pelo gerente do banco 
à jovem cientista de dados, um é relativo a uma variável 
quantitativa e os outros são relativos a variáveis 
qualitativas. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
a. 
F, V, V, V. 
 
b. 
 
 
This content is Public. 
F, V, F, V. 
 
c. 
V, V, F, F. 
 
d. 
V, V, F, V. 
 
e. 
F, F, V, F. 
 
 
 
Resposta correta. Dentre os dados fornecidos pelo gerente do banco à jovem 
cientista de dados, dois são quantitativos, a renda mensal da pessoa (R$) e seu 
gasto médio com cartão de crédito (R$), e dois são qualitativos, se a pessoa tinha 
emprego estável (Sim ou Não) e se a pessoa havia, ao longo do período 
pesquisado, ficado inadimplente com o pagamento de faturas do cartão ao menos 
uma vez (Sim ou Não). 
Feedback 
A resposta correta é: F, F, V, F. 
 
 
 
Questão 2 
Correto 
Atingiu 1,00 de 1,00 
Remover marcação 
Texto da questão 
Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, 
uma jovem cientista de dados usou gráficos de dispersão. Como cientista de 
dados, ela sabia exatamente em que situações empregar gráficos de dispersão. E 
você, será que você também já sabe? 
 
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) 
Falsa(s). 
 
I. Gráficos de dispersão, em inglês chamados de 
scatter plots, só podem ser usados para a visualização 
de uma única variável, a qual deve ser obrigatoriamente 
uma variável qualitativa. 
II. Gráficos de dispersão são usados para a 
visualização da relação entre duas variáveis 
quantitativas, em que os dados das duas variáveis são 
plotados aos pares. Permite, dessa forma, a verificação 
visual, pelo estatístico ou pelo cientista de dados, se há 
 
 
This content is Public. 
uma tendência de uma variável aumentar quando a 
outra aumenta, diminuir quando a outra diminui, ou se 
não há uma relação aparente entre as duas. 
III. Um gráfico de dispersão foi usado para exibir, em 
pares, a relação entre o valor do imóvel e a sua área. 
Esse tipo de gráfico é chamado, em inglês, de scatter 
plot. 
IV. Um gráfico de dispersão foi usado para exibir, em 
pares, a relação entre o valor do imóvel e o seu andar. 
Esse tipo de gráfico é chamado, em inglês, de scatter 
plot. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
a. 
F, V, F, V. 
 
b. 
V, V, F, F. 
 
c. 
F, F, V, V. 
 
 
 
 
d. 
V, V, F, V. 
 
e. 
F, V, V, V. 
Resposta correta. A única asserção falsa é a que afirma que gráficos de dispersão 
só podem ser usados para a visualização de uma única variável, a qual deve ser 
obrigatoriamente uma variável qualitativa. É correto dizer que são usados para a 
visualização da relação entre duas variáveis quantitativas, permitindo a verificação 
visual de tendência de uma variável aumentar quando a outra aumenta, diminuir 
quando a outra aumenta, ou se não há uma relação aparente entre as duas. 
Sendo assim, puderam ser usados para exibir, em pares, a relação entre o valor 
do imóvel e a sua área e o valor do imóvel e o seu andar. 
Feedback 
A resposta correta é: F, V, V, V. 
Questão 3 
Correto 
 
 
This content is Public. 
Atingiu 1,00 de 1,00 
Remover marcação 
Texto da questão 
A atividade de venda de produtos financeiros por bancos, tais como cartões de 
crédito, requer que se faça uma avaliação do cliente. São focos dessa avaliação 
aprovar ou não um cartão de crédito para o cliente e, se aprovado, definir o limite 
do cartão, ou seja, o valor do crédito a conceder. 
 
Com base nessa introdução, analise as afirmativas a seguir. 
 
I. O primeiro foco da avaliação é um problema de 
regressão: aprovar (sim ou não) o cartão de crédito, 
uma variável qualitativa dicotômica, com dois níveis 
(classes). 
II. O primeiro foco da avaliação é um problema de 
classificação: aprovar (sim ou não) o cartão de crédito, 
uma variável qualitativa dicotômica, com dois níveis 
(classes). 
III. O segundo foco da avaliação é um problema de 
classificação, predizer o valor do limite (do crédito) do 
cartão. 
IV. O segundo foco da avaliação é um problema de 
regressão, predizer o valor do limite (do crédito) do 
cartão. 
 
 
Está correto o que se afirma em: 
 
 
 
a. 
II, apenas. 
 
b. 
I, II e III, apenas. 
 
 
 
 
c. 
I e III, apenas. 
 
d. 
II e IV, apenas. 
Resposta correta. O primeiro foco da avaliação é um problema de classificação, 
aprovar (sim ou não) o cartão de crédito, uma variável qualitativa dicotômica, com 
 
 
This content is Public. 
dois níveis (classes); o segundo foco da avaliação é um problema de regressão, 
ou seja, predizer o valor do limite (de crédito) do cartão a ser concedido para o 
cliente. Esse valor é uma variável quantitativa, cuja predição é feita por algoritmos 
de regressão. 
 
e. 
II, III e IV, apenas. 
Feedback 
A resposta correta é: II e IV, apenas. 
Questão 4 
Correto 
Atingiu 1,00 de 1,00 
Remover marcação 
Texto da questão 
Discutimos sobre classificadores determinísticos e probabilísticos. Demos, como 
exemplo, uma variável resposta qualitativa com dois níveis (classes), o 
indivíduo está infectado pelo vírus HIV ( ) ou não está infectado ( ), dado 
um conjunto de sintomas que ele apresenta. 
 
Reveja esse assunto e analise as afirmativas a seguir. 
 
I. Um classificador determinístico vai dizer se o indivíduo 
está ou não está infectado, dados os sintomas que 
apresenta. 
II. Um classificador probabilístico vai dizer qual é a 
probabilidade de o indivíduo estar ou não infectado, 
dados os sintomas que apresenta. 
III. No jargão da estatística, escrever significa que a 
variável aleatória resultou no valor , em 
que é um dos possíveis valores que a variável 
aleatória pode assumir (ou seja, uma de suas 
classes, no caso, das variáveis qualitativas). 
IV. Nesse mesmo jargão, escrever significa a 
probabilidade de ser igual a um dos seus possíveis 
valores , quando a variável de entrada é igual 
a (dado que ). 
 
 
This content is Public. 
 
 
Está correto o que se afirma em: 
 
 
 
a. 
III e IV, apenas. 
 
b. 
I, II e III, apenas . 
 
c. 
I, II, III e IV. 
 
 
 
Resposta correta. Um classificador determinístico vai dizer se o indivíduo está ou 
não está infectado, dados os sintomas que apresenta; já um classificador 
probabilístico vai dizer qual é a probabilidade de o indivíduo estar ou não infectado; 
no jargão da estatística, escrever significa que a variável aleatória 
resultou no valor , em que é um dos possíveis valores que a variável 
aleatória pode assumir (ou seja, uma de suas classes, no caso das variáveis 
qualitativas) e, nesse mesmo jargão, escrever significa a probabilidade 
de ser igual a um dos seus possíveis valores quando a variável de 
entrada é igual a (dizemos: dado que ). 
 
d. 
I, II e
IV, apenas. 
 
e. 
II e III, apenas. 
Feedback 
A resposta correta é: I, II, III e IV. 
 
 
 
Questão 5 
Correto 
Atingiu 1,00 de 1,00 
Remover marcação 
Texto da questão 
 
 
This content is Public. 
Vimos que há dois principais tipos de aprendizagem supervisionada: problema de 
regressão e problema de classificação. São os tipos de variáveis resposta dos 
dados em análise que distinguem esses dois tipos entre si. 
 
Relativamente a esses dois tipos, analise as afirmativas a seguir. 
 
I. Na aprendizagem supervisionada, um problema de 
regressão é um no qual a variável resposta é 
qualitativa. 
II. Na aprendizagem supervisionada, um problema de 
regressão é um no qual a variável resposta é 
quantitativa. 
III. Na aprendizagem supervisionada, um problema de 
classificação é um no qual a variável resposta é 
qualitativa. 
IV. Na aprendizagem supervisionada, um problema de 
classificação é um no qual a variável resposta é 
quantitativa. 
 
 
Está correto o que se afirma em: 
 
a. 
II e IV, apenas. 
 
b. 
III, apenas. 
 
c. 
II e III, apenas. 
Resposta correta. Na aprendizagem supervisionada, um problema de regressão é 
um no qual a variável resposta é quantitativa e um problema de classificação é um 
no qual a variável resposta é qualitativa. 
 
d. 
I e III, apenas. 
 
 
e. 
III e IV, apenas. 
Feedback 
A resposta correta é: II e III, apenas. 
Questão 6 
Correto 
Atingiu 1,00 de 1,00 
Remover marcação 
 
 
This content is Public. 
Texto da questão 
O modelo de regressão logística simples desenvolvido por uma jovem cientista de 
dados para a predição da probabilidade de inadimplência com o cartão de crédito 
foi: 
 
 
 
Tomando como base esse modelo, que foi ajustado aos dados da amostra cedida 
pelo gerente, podemos estimar o valor esperado para a probabilidade de 
inadimplência com cartão de crédito das pessoas. Por exemplo, vamos considerar 
duas pessoas, uma com um gasto de médio mensal com o cartão de R$ 500,00, e 
a outra com um gasto médio mensal de R$ 1.000,00. Usando o modelo ajustado 
anterior, obtemos, respectivamente (assinale a alternativa correta): 
 
 
 
a. 
7% e 27%. 
 
 
 
 
Resposta correta. Esses valores são aqueles calculados pela simples substituição 
da variável de entrada pelos valores R$ 500,00 e R$ 1.000,00, 
respectivamente, na equação do modelo. 
 
b. 
17% e 27%. 
 
c. 
7% e 37% . 
 
d. 
27% e 7%. 
 
e. 
37% e 17%. 
Feedback 
A resposta correta é: 7% e 27%. 
 
 
 
 
Questão 7 
Correto 
Atingiu 1,00 de 1,00 
Remover marcação 
 
 
This content is Public. 
Texto da questão 
Tarefas de classificação são muitos comuns na estatística e na ciência dos dados, 
por serem muito comuns em todas atividades humanas, na ciência, na vida social 
ou nos negócios. 
Especificamente, discutimos aplicações de modelos preditivos de classificação 
baseados em modelos de regressão logística simples ou múltipla. 
Com isso em mente, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
 
I. Regressão logística pode ser empregada na predição 
do peso médio (massa corporal média) de uma pessoa 
em função de sua altura, idade e sexo. 
II. Regressão logística pode ser empregada na predição 
do consumo médio de combustível de um carro em 
função da potência do seu motor e do seu peso. 
III. Regressão logística pode ser empregada na predição 
da probabilidade de uma pessoa votar em um 
determinado candidato e não nos outros em função de 
sua escolaridade, idade, sexo e classe social. 
IV. Regressão logística pode ser empregada na predição 
da probabilidade de a pessoa ser diabética em função 
de um conjunto de sintomas clínicos que apresenta. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
a. 
V, V, V, V. 
 
b. 
F, F, V, V. 
Resposta correta. As duas primeiras situações se referem à predição de variáveis 
resposta quantitativas, o que não é possível com modelos de regressão logística; 
já as duas últimas situações são adequadas ao emprego de modelos de regressão 
logística. 
 
c. 
F, F, F, F. 
 
d. 
F, V, F, V. 
 
e. 
V, V, F, F. 
Feedback 
 
 
This content is Public. 
A resposta correta é: F, F, V, V. 
Questão 8 
Correto 
Atingiu 1,00 de 1,00 
Remover marcação 
Texto da questão 
Vimos que são muitos os algoritmos de classificação usados na estatística ou na 
ciência dos dados. Vimos também que podem ser divididos entre classificadores 
determinísticos ou probabilísticos, em que, dentre estes últimos, se encontra o 
modelo de regressão logística. Relativamente a modelos de regressão logística, 
que são aqui o nosso foco, analise as afirmativas a seguir. 
 
I. Modelos de regressão logística são usados como 
modelos preditivos para casos em que a variável 
resposta é qualitativa, preferencialmente qualitativa 
dicotômica. As variáveis de entrada podem ser de 
qualquer tipo, quantitativas ou qualitativas. 
II. Modelos de regressão logística são chamados de 
regressão logística simples, quando só há uma variável 
de entrada, também denominada de variável 
regressora, variável preditora ou variável independente. 
III. Modelos de regressão logística são chamados de 
regressão logística múltipla, quando há mais do que 
uma variável de entrada, também denominadas de 
variáveis regressoras, variáveis preditoras ou variáveis 
independentes. 
IV. Modelos de regressão logística são classificadores 
probabilísticos. Por exemplo, para dados sintomas de 
um certo paciente, um modelo de regressão logística, 
depois de adequadamente treinado, fará a predição da 
probabilidade deste paciente estar ou não infectado 
com o vírus HIV. 
 
 
Está correto o que se afirma em: 
 
 
 
a. 
I, II e III, apenas. 
 
b. 
IV, apenas. 
 
c. 
 
 
This content is Public. 
I, II, III e IV. 
 
 
Resposta correta. Modelos de regressão logística são usados quando a variável 
resposta é qualitativa, preferencialmente qualitativa dicotômica. Regressão 
logística simples e múltipla são, respectivamente, quanto só há uma ou há várias 
variáveis de entrada. Modelos de regressão logística são classificadores 
probabilísticos. Ou seja, todas as asserções são verdadeiras. 
 
d. 
II e III, apenas. 
 
e. 
I e III, apenas. 
Feedback 
A resposta correta é: I, II, III e IV. 
 
 
Questão 9 
Correto 
Atingiu 1,00 de 1,00 
Remover marcação 
Texto da questão 
Continuando com o mesmo caso da questão anterior, relativa à aprovação, pelos 
bancos, de crédito na forma de cartão de crédito, como se fazia, no passado, a 
aprovação da concessão de cartões de crédito pelos bancos? E, hoje em dia, 
como os bancos fazem essa aprovação? 
 
Reflita sobre essas perguntas e suas respostas, analise as afirmativas a seguir e 
assinale V 
para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
 
I. No passado, os bancos faziam, e ainda fazem, ao 
menos em parte, a aprovação da concessão de cartões 
de crédito através da definição de regras que devem 
ser atendidas por cada cliente, tais como idade, 
emprego estável, renda fixa, dívidas pequenas, nome 
limpo e casa própria. 
II. Hoje em dia, dentre outras alternativas, uma que é 
frequentemente usada pelos bancos são algoritmos de 
aprendizagem supervisionada que classificam se o 
cliente é um potencial bom ou mau pagador. 
III. Para usarmos algoritmos de classificação com 
esse propósito de aprovar ou não cartões de crédito, 
 
 
This content is Public. 
precisamos de dados. Ensinamos ao algoritmo, com 
base nos dados que lhe são passados, a predizer 
clientes que são maus pagadores potenciais das faturas 
do cartão. Dessa forma, se o algoritmo, ao ser 
alimentado com os dados referentes a um novo cliente, 
classificar esse cliente como um mau pagador 
potencial, o banco não aprovará o cartão. 
IV. Para equipes de análise de crédito, poder contar 
com a ajuda de um software com a capacidade de 
recomendar a aprovação ou não da concessão do 
cartão é de grande valor. 
V. A recomendação feita pelo software poderá ser 
tratada ao lado
de outras regras de crédito para uma 
decisão final sobre a concessão de cartão para o 
cliente. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
a. 
V, V, V, V. 
 
 
Resposta correta. No passado, os bancos faziam a aprovação da concessão de 
cartões de crédito através da definição de regras que deviam ser atendidas por 
cada cliente; hoje em dia, algoritmos de aprendizado de máquina classificam se o 
cliente é um potencial bom ou mau pagador. Para isso, dados são necessários. 
Poder contar com a ajuda de um software com a capacidade de recomendar a 
aprovação ou não da concessão do cartão é de grande valor para a equipe de 
análise de crédito. A recomendação feita pelo software poderá ser tratada ao lado 
de outras regras de crédito para uma decisão final sobre a concessão de cartão 
para o cliente. 
 
b. 
V, V, F, V. 
 
c. 
F, F, F, F. 
 
d. 
F, V, F, V. 
 
e. 
V, V, F, F. 
 
 
This content is Public. 
Feedback 
A resposta correta é: V, V, V, V. 
 
 
Questão 10 
Correto 
Atingiu 1,00 de 1,00 
Remover marcação 
Texto da questão 
Naturalmente, dados ocupam uma posição central, tanto na estatística quanto na 
ciência dos dados. Entendê-los, saber da sua natureza, o que representam, é de 
suma importância, antes da realização de qualquer análise ou projeto. Os dados 
são divididos entre quantitativos e qualitativos, na estatística e na ciência dos 
dados. Relativamente aos qualitativos, analise as afirmativas a seguir e 
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. Dados qualitativos dicotômicos são dados 
observados de variáveis qualitativas que podem 
assumir apenas dois níveis (também chamados de 
classes) como seus valores, tais como sexo (feminino 
ou masculino), ocupação (empregado ou 
desempregado), localização (bairro ou centro), emprego 
estável (sim ou não), inadimplente (sim ou não). 
II. Dados qualitativos politômicos são aqueles 
oriundos de variáveis qualitativas que podem assumir 
três ou mais níveis como seus valores, tais como classe 
social (A, B, C, D e E), escolaridade (fundamental, 
médio, superior), gravidade da doença (baixa, média, 
alta). 
III. A função table() do R permite a contagem da 
frequência de cada nível assumido por uma variável 
qualitativa em uma dada amostra, e foi usada pela 
jovem cientista de dados para contar a frequência de 
pessoas com ou sem emprego estável e se ficaram ou 
não inadimplentes com o pagamento das faturas do 
cartão no período amostrado. 
IV. Um mosaicplot permite a visualização gráfica da 
relação entre duas variáveis qualitativas. Foi usado por 
uma jovem cientista de dados para examinar a possível 
relação entre duas variáveis qualitativas dicotômicas: 
pessoas com ou sem emprego estável e se ficaram ou 
não inadimplentes com o pagamento das faturas do 
cartão de crédito ao longo do período amostrado. Ela 
percebeu, ao ver o gráfico resultante (ver figura 
adiante), que parece haver um maior nível de 
 
 
This content is Public. 
inadimplência com o cartão entre aquelas que não têm 
emprego estável. 
 
 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
a. 
F, F, F, F. 
 
b. 
F, V, F, V. 
 
c. 
V, V, F, V. 
 
d. 
V, V, F, F. 
 
e. 
V, V, V, V. 
Resposta correta. Todas asserções desta questão são verdadeiras. Dados 
qualitativos dicotômicos são dados observados de variáveis qualitativas que 
podem assumir apenas dois níveis. Dados qualitativos politômicos são aqueles 
oriundos de variáveis qualitativas que podem assumir três ou mais níveis como 
seus valores. A função table() do R permite a contagem da frequência de cada 
nível assumido por uma variável qualitativa em uma dada amostra. O mosaicplot 
permite a visualização gráfica da relação entre duas variáveis qualitativas. 
Feedback 
A resposta correta é: V, V, V, V.

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Continue navegando