ESTATISTICA APLICADA AO DATA SCIENCE ATIVIDADE 2

•

UNIFACS

2

0

2

0

João Paulo Nery

07/04/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística Aplicada

23.876 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Curso GRA1561 ESTATISTICA APLICADA AO DATA SCIENCE 
PTA - 202010.ead-3899.03 
Teste ATIVIDADE 2 (A2) 
Iniciado 06/04/20 17:16 
Enviado 06/04/20 17:24 
Status Completada 
Resultado da 
tentativa 
10 em 10 pontos 
Tempo decorrido 7 minutos 
Resultados 
exibidos 
Respostas enviadas, Respostas corretas, Comentários 
 Pergunta 1 
1 em 1 pontos 
 
Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um 
modelo de regressão logística múltipla aos dados da amostra. Os resultados 
que encontrou foram muito ricos, sugerindo uma série de explicações, 
aprendidas pelo algoritmo com base nos dados fornecidos. Veja que 
dizemos “explicações sugeridas”, pois qualquer resultado de um algoritmo 
deve ser confrontado com especialistas da área em estudo. Contudo, vamos 
rever o que o modelo de regressão múltipla treinado pela jovem cientista de 
dados sugere. Para isso, analise as afirmativas a seguir. 
 
I. A probabilidade da inadimplência cresce com o aumento dos gastos 
médios com o cartão de crédito. Isto, que nos parece óbvio, foi o que 
os dados “contaram” para o algoritmo de regressão logística múltipla. 
II. A probabilidade da inadimplência cresce com o aumento da renda 
média mensal das pessoas. Isto não é tão óbvio e provavelmente não 
teríamos coragem de generalizar para outras situações, mas foi o que 
os dados da amostra do gerente do banco “contaram” para o 
algoritmo de regressão logística múltipla. 
III. Para duas pessoas com a mesma renda mensal e o mesmo gasto 
mensal com cartão de crédito, a probabilidade de inadimplência com 
o cartão é maior para aquela sem emprego estável. Novamente, isto 
foi o que os dados amostrados “contaram” para o algoritmo de 
regressão logística múltipla. 
IV. O modelo de regressão logística múltipla, ajustado aos dados da 
amostra, consegue predizer os efeitos da renda mensal da pessoa, 
do seu gasto médio mensal com cartão de crédito e se ela tem ou 
não um emprego estável, na probabilidade de a pessoa ficar 
inadimplente com o cartão de crédito. Um algoritmo desse tipo pode 
ajudar no processo decisório de um banco quanto à aprovação de 
cartão de crédito, ao lado de outros critérios e ferramentas analíticas 
disponíveis para o banco. 
 
 
 
Está correto o que se afirma em: 
 
 
Resposta Selecionada: 
I, II, III e IV. 
 
 
Resposta Correta: 
I, II, III e IV. 
 
 
Feedback 
da 
resposta: 
Resposta correta. Todas as asserções desta questão são verdadeiras. 
Para os dados analisados, probabilidade da inadimplência cresce com 
o aumento dos gastos médios com o cartão de crédito e com o 
aumento da renda média mensal das pessoas. Para duas pessoas com a 
mesma renda mensal e o mesmo gasto mensal com cartão de crédito, 
a probabilidade de inadimplência com o cartão é maior para aquela 
sem emprego estável. E o modelo de regressão logística múltipla é 
um modelo preditivo, um classificador probabilístico. 
 
 
 Pergunta 2 
1 em 1 pontos 
 
Discutimos o que são aprendizagem supervisionada e não supervisionada. 
Vimos que é na forma como tratamos as variáveis estudadas que se dá a 
diferença entre esses dois tipos de aprendizagens, supervisionada e não 
supervisionada. Esses dois tipos são os mais importantes dentre os diversos 
tipos de aprendizagem. 
 
Relativamente a esse assunto, analise as afirmativas a seguir. 
 
I. Na aprendizagem supervisionada, definimos uma das variáveis 
estudadas como sendo a variável resposta, a qual responde em 
função dos valores assumidos pelas outras variáveis, as quais são 
chamadas de variáveis de entrada. 
II. Especificamente na aprendizagem supervisionada, também 
denominamos uma variável resposta de variável de saída ou variável 
dependente. 
III. Especificamente na aprendizagem supervisionada, também 
denominamos uma variável de entrada de variável regressora, 
variável preditora ou variável independente. 
 
IV. Na aprendizagem não supervisionada, tratamos todas as variáveis 
estudadas da mesma forma, sem procurar explicar o comportamento 
de uma delas em função dos valores assumidos pelas outras. 
 
 
 
Está correto o que se afirma em: 
 
Resposta Selecionada: 
I, II, III e IV. 
Resposta Correta: 
I, II, III e IV. 
Feedback 
da 
resposta: 
Resposta correta. Na aprendizagem supervisionada, definimos uma 
das variáveis estudadas como sendo a variável resposta, a qual 
responde em função dos valores assumidos pelas outras variáveis, as 
quais são chamadas de variáveis de entrada; na aprendizagem 
supervisionada, também chamamos a variável resposta de variável de 
saída ou variável dependente e as variáveis de entrada, de variáveis 
regressoras, preditoras ou independentes. Na aprendizagem não 
supervisionada, tratamos todas as variáveis estudadas da mesma 
forma, sem procurar explicar o comportamento de uma delas em 
função dos valores assumidos pelas outras. 
 
 
 Pergunta 3 
1 em 1 pontos 
 
A atividade de venda de produtos financeiros por bancos, tais como cartões 
de crédito, requer que se faça uma avaliação do cliente. São focos dessa 
avaliação aprovar ou não um cartão de crédito para o cliente e, se aprovado, 
definir o limite do cartão, ou seja, o valor do crédito a conceder. 
 
Com base nessa introdução, analise as afirmativas a seguir. 
 
I. O primeiro foco da avaliação é um problema de regressão: aprovar 
(sim ou não) o cartão de crédito, uma variável qualitativa dicotômica, 
com dois níveis (classes). 
II. O primeiro foco da avaliação é um problema de classificação: aprovar 
(sim ou não) o cartão de crédito, uma variável qualitativa dicotômica, 
com dois níveis (classes). 
III. O segundo foco da avaliação é um problema de classificação, 
predizer o valor do limite (do crédito) do cartão. 
IV. O segundo foco da avaliação é um problema de regressão, predizer o 
valor do limite (do crédito) do cartão. 
 
 
 
Está correto o que se afirma em: 
 
 
Resposta Selecionada: 
II e IV, apenas. 
Resposta Correta: 
II e IV, apenas. 
Feedback 
da 
resposta: 
Resposta correta. O primeiro foco da avaliação é um problema de 
classificação, aprovar (sim ou não) o cartão de crédito, uma variável 
qualitativa dicotômica, com dois níveis (classes); o segundo foco da 
avaliação é um problema de regressão, ou seja, predizer o valor do 
limite (de crédito) do cartão a ser concedido para o cliente. Esse valor 
é uma variável quantitativa, cuja predição é feita por algoritmos de 
regressão. 
 
 
 Pergunta 4 
1 em 1 pontos 
 
Continuando com o mesmo caso da questão anterior, relativa à aprovação, 
pelos bancos, de crédito na forma de cartão de crédito, como se fazia, no 
passado, a aprovação da concessão de cartões de crédito pelos bancos? E, 
hoje em dia, como os bancos fazem essa aprovação? 
 
Reflita sobre essas perguntas e suas respostas, analise as afirmativas a 
seguir e assinale V 
para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
 
I. ( ) No passado, os bancos faziam, e ainda fazem, ao menos em 
parte, a aprovação da concessão de cartões de crédito através da 
definição de regras que devem ser atendidas por cada cliente, tais 
como idade, emprego estável, renda fixa, dívidas pequenas, nome 
limpo e casa própria. 
II. ( ) Hoje em dia, dentre outras alternativas, uma que é frequentemente 
usada pelos bancos são algoritmos de aprendizagem supervisionada 
que classificam se o cliente é um potencial bom ou mau pagador. 
III. ( ) Para usarmos algoritmos de classificação com esse propósito de 
aprovar ou não cartões de crédito, precisamos de dados. Ensinamos 
ao algoritmo, com base nos dados que lhe são passados, a predizer 
clientes que são maus pagadores potenciais das faturas do cartão. 
Dessa forma, se o algoritmo, ao ser alimentado com os dados 
 
referentes a um novo cliente, classificar esse cliente como um mau 
pagador potencial, o banco não aprovará o cartão. 
IV. ( ) Para equipes de análise de crédito, poder contar coma ajuda de 
um software com a capacidade de recomendar a aprovação ou não 
da concessão do cartão é de grande valor. 
V. ( ) A recomendação feita pelo software poderá ser tratada ao lado de 
outras regras de crédito para uma decisão final sobre a concessão de 
cartão para o cliente. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
Resposta Selecionada: 
V, V, V, V. 
 
 
Resposta Correta: 
V, V, V, V. 
 
 
Feedback 
da 
resposta: 
Resposta correta. No passado, os bancos faziam a aprovação da 
concessão de cartões de crédito através da definição de regras que 
deviam ser atendidas por cada cliente; hoje em dia, algoritmos de 
aprendizado de máquina classificam se o cliente é um potencial bom 
ou mau pagador. Para isso, dados são necessários. Poder contar com a 
ajuda de um software com a capacidade de recomendar a aprovação 
ou não da concessão do cartão é de grande valor para a equipe de 
análise de crédito. A recomendação feita pelo software poderá ser 
tratada ao lado de outras regras de crédito para uma decisão final 
sobre a concessão de cartão para o cliente. 
 
 
 Pergunta 5 
1 em 1 pontos 
 
Dados podem aparecer na forma de textos, imagens, vídeos, sons, tabelas, 
listas, sequências, séries, etc. São muitos os dados que hoje coletamos de 
diferentes fontes, e muitas as formas de organizá-los e armazená-los. Uma 
dessas forma, talvez a mais importante delas, são os dados estruturados. 
 
Relativamente a esse assunto, analise as afirmativas a seguir. 
 
I. Dados estruturados são dados que não possuem uma estrutura 
regular e repetitiva, seguindo um padrão comum adotado pelas 
ciências da computação, estatística e ciência dos dados. 
 
II. A forma de organização básica dos dados, preferida na estatística e 
na ciência dos dados, é a forma tabular, na qual as variáveis são 
dispostas nas linhas e as observações são dispostas nas colunas. 
III. Dados estruturados são dados que possuem uma estrutura regular e 
repetitiva, seguindo um padrão comum adotado pelas ciência da 
computação, estatística e ciência dos dados. 
IV. A forma de organização básica dos dados, preferida na estatística e 
na ciência dos dados, é a forma tabular, na qual as variáveis são 
dispostas nas colunas e as observações são dispostas nas linhas. 
 
 
Está correto o que se afirma em: 
 
Resposta Selecionada: 
III e IV, apenas. 
Resposta Correta: 
III e IV, apenas. 
Feedback 
da 
resposta: 
Resposta correta. Dados estruturados são dados que possuem uma 
estrutura regular e repetitiva, seguindo um padrão comum adotado 
pelas ciência da computação, estatística e ciência dos dados. Também 
está correto dizer que a forma de organização básica dos dados, 
preferida na estatística e na ciência dos dados, é a forma tabular, na 
qual as variáveis são dispostas nas colunas e as observações são 
dispostas nas linhas. 
 
 
 Pergunta 6 
1 em 1 pontos 
 
A jovem cientista de dados, tendo em mãos os dados que lhe foram 
passados pelo gerente do banco, precisou denominá-los corretamente para 
a fase de treino (ajuste) do algoritmo preditivo. Ela escolheu a regressão 
logística como seu algoritmo preditivo, para classificar o potencial (a 
probabilidade) de uma pessoa ficar ou não inadimplente com o pagamento 
das faturas do cartão de crédito. 
 
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para 
a(s) Falsa(s). 
 
I. ( ) A jovem cientista de dados escolheu como variável resposta a 
renda mensal da pessoa, e tratou as demais variáveis como variáveis 
de entrada. 
II. ( ) A jovem cientista de dados escolheu o gasto médio mensal da 
pessoa com cartão de crédito como a variável resposta, e tratou as 
demais como variáveis de entrada. 
 
III. ( ) A jovem cientista de dados não definiu qualquer das quatro 
variáveis como a variável resposta, e decidiu realizar uma análise 
baseada em aprendizagem não supervisionada. 
IV. ( ) A jovem cientista de dados escolheu como variável resposta se a 
pessoa havia, ao longo do período pesquisado, ficado inadimplente 
com o pagamento das faturas do cartão ao menos uma vez (Sim ou 
Não), e tratou as demais variáveis como variáveis de entrada. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
Resposta Selecionada: 
F, F, F, V. 
Resposta Correta: 
F, F, F, V. 
Feedback 
da resposta: 
Resposta correta. A jovem cientista de dados escolheu como variável 
resposta se a pessoa havia, ao longo do período pesquisado, ficado 
inadimplente com o pagamento das faturas do cartão ao menos uma 
vez (Sim ou Não), e tratou as demais variáveis como variáveis de 
entrada. 
 
 
 Pergunta 7 
1 em 1 pontos 
 
A amostra relativa aos dados de inadimplência com cartões tinha 200 
observações de 4 variáveis: a renda mensal da pessoa (R$), seu gasto 
médio com cartão de crédito (R$), se a pessoa tinha um emprego estável 
(Sim ou Não) e se a pessoa havia, ao longo do período pesquisado, ficado 
inadimplente com o pagamento de faturas do cartão ao menos uma vez 
(Sim ou Não). 
Reflita sobre esse caso, analise as afirmativas a seguir e assinale V para 
a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Todos os dados fornecidos pelo gerente do banco à jovem 
cientista de dados são dados relativos a variáveis quantitativas. 
II. ( ) Todos os dados fornecidos pelo gerente do banco à jovem 
cientista de dados são dados relativos a variáveis qualitativas. 
III. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem 
cientista de dados, dois são relativos a uma variável quantitativa e 
dois são relativos a variáveis qualitativas. 
IV. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem 
cientista de dados, um é relativo a uma variável quantitativa e os 
outros são relativos a variáveis qualitativas. 
 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
Resposta Selecionada: 
F, F, V, F. 
 
 
 
Resposta Correta: 
F, F, V, F. 
 
 
 
Feedback 
da 
resposta: 
Resposta correta. Dentre os dados fornecidos pelo gerente do banco à 
jovem cientista de dados, dois são quantitativos, a renda mensal da 
pessoa (R$) e seu gasto médio com cartão de crédito (R$), e dois são 
qualitativos, se a pessoa tinha emprego estável (Sim ou Não) e se a 
pessoa havia, ao longo do período pesquisado, ficado inadimplente 
com o pagamento de faturas do cartão ao menos uma vez (Sim ou 
Não). 
 
 
 Pergunta 8 
1 em 1 pontos 
 
O modelo de regressão logística simples desenvolvido por uma jovem 
cientista de dados para a predição da probabilidade de inadimplência com o 
cartão de crédito foi: 
 
 
 
Tomando como base esse modelo, que foi ajustado aos dados da amostra 
cedida pelo gerente, podemos estimar o valor esperado para a 
probabilidade de inadimplência com cartão de crédito das pessoas. Por 
exemplo, vamos considerar duas pessoas, uma com um gasto de médio 
mensal com o cartão de R$ 500,00, e a outra com um gasto médio mensal 
de R$ 1.000,00. Usando o modelo ajustado anterior, obtemos, 
respectivamente (assinale a alternativa correta): 
 
 
 
Resposta Selecionada: 
7% e 27%. 
 
 
 
 
Resposta Correta: 
7% e 27%. 
 
 
 
Feedback da 
resposta: 
Resposta correta. Esses valores são aqueles calculados pela simples 
substituição da variável de entrada pelos valores R$ 500,00 e 
R$ 1.000,00, respectivamente, na equação do modelo. 
 
 Pergunta 9 
1 em 1 pontos 
 
O ser humano tem enorme facilidade em agrupar, por similaridade, e 
classificar coisas, todos os tipos de coisas. Por conta disso, problemas de 
classificação são muito frequentes no mundo, mais frequentes que 
problemas de regressão. Fornecemos alguns exemplos de aplicação de 
métodos de classificação no mundo dos negócios. Dentre esses exemplos, 
encontramos: 
 
I. a Netflix usa classificadores para recomendar filmes. Para a Netflix, o 
valor desse tipode aplicação é que, quanto mais filmes assistirmos, 
maior será a sua receita; 
II. o Facebook usa classificadores para recomendar novas amizades 
para a nossa rede de relacionamento. Para o Facebook, o valor 
desse tipo de aplicação é que, quanto maior nossa rede de 
relacionamento, maior será a sua receita; 
III. um banco de varejo usa classificadores para detectar se uma 
operação com cartão de débito ou crédito é ou não uma operação 
fraudulenta. Para o banco, o valor dessa aplicação é que, quanto 
antes operações fraudulentas forem detectadas, mais rapidamente o 
banco pode agir para impedir perdas para seus clientes e para ele 
próprio; 
IV. uma concessionária de distribuição de energia elétrica usa 
classificadores para identificar casos potenciais de roubo de energia 
da rede, os famosos “gatos”. Para as concessionárias de distribuição 
de energia elétrica, o valor dessa aplicação é evitar prejuízo com o 
furto de energia da rede, além do relevante aspecto de prevenção de 
acidentes decorrentes de instalações clandestinas. 
 
 
Está correto o que se afirma em: 
 
 
 
Resposta Selecionada: 
I, II, III e IV. 
Resposta Correta: 
I, II, III e IV. 
Feedback 
da resposta: 
Resposta correta. Todos os exemplos listados nesta questão são 
problemas de classificação, os quais, como dissemos no enunciado, 
são muito frequentes no mundo. Em todos eles, a variável resposta é 
uma variável qualitativa, ou dicotômica, ou politômica. 
 
 
 Pergunta 10 
1 em 1 pontos 
 
Tarefas de classificação são muitos comuns na estatística e na ciência dos 
dados, por serem muito comuns em todas atividades humanas, na ciência, 
na vida social ou nos negócios. 
Especificamente, discutimos aplicações de modelos preditivos de 
classificação baseados em modelos de regressão logística simples ou 
múltipla. 
Com isso em mente, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
 
I. Regressão logística pode ser empregada na predição do peso médio 
(massa corporal média) de uma pessoa em função de sua altura, 
idade e sexo. 
II. Regressão logística pode ser empregada na predição do consumo 
médio de combustível de um carro em função da potência do seu 
motor e do seu peso. 
III. Regressão logística pode ser empregada na predição da 
probabilidade de uma pessoa votar em um determinado candidato e 
não nos outros em função de sua escolaridade, idade, sexo e classe 
social. 
IV. Regressão logística pode ser empregada na predição da 
probabilidade de a pessoa ser diabética em função de um conjunto 
de sintomas clínicos que apresenta. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
Resposta Selecionada: 
F, F, V, V. 
 
Resposta Correta: 
F, F, V, V. 
Feedback 
da resposta: 
Resposta correta. As duas primeiras situações se referem à predição 
de variáveis resposta quantitativas, o que não é possível com 
modelos de regressão logística; já as duas últimas situações são 
adequadas ao emprego de modelos de regressão logística. 
 
Segunda-feira, 6 de Abril de 2020 17h24min25s BRT 
 
	 Pergunta 1
	 Pergunta 2
	 Pergunta 3
	 Pergunta 4
	 Pergunta 5
	 Pergunta 6
	 Pergunta 7
	 Pergunta 8
	 Pergunta 9
	 Pergunta 10