estatisticas aplicadas ao data science atividade 2

•

UNIRITTER

22

0

22

0

Bruno Cauan

19/06/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Science

2.214 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Pergunta 1 
1 em 1 pontos 
 
 A atividade de venda de produtos financeiros por bancos, tais como 
cartões de crédito, requer que se faça uma avaliação do cliente. São
focos dessa avaliação aprovar ou não um cartão de crédito para o 
cliente e, se aprovado, definir o limite do cartão, ou seja, o valor do 
crédito a conceder. 
 
Com base nessa introdução, analise as afirmativas a seguir. 
 
● O primeiro foco da avaliação é um problema de regressão: 
aprovar (sim ou não) o cartão de crédito, uma variável 
qualitativa dicotômica, com dois níveis (classes). 
● O primeiro foco da avaliação é um problema de 
classificação: aprovar (sim ou não) o cartão de crédito, uma 
variável qualitativa dicotômica, com dois níveis (classes). 
● O segundo foco da avaliação é um problema de 
classificação, predizer o valor do limite (do crédito) do 
cartão. 
● O segundo foco da avaliação é um problema de regressão, 
predizer o valor do limite (do crédito) do cartão. 
 
 
 
Está correto o que se afirma em: 
 
 
 
 
Resposta Selecionada: 
II e IV, apenas. 
Resposta Correta: 
II e IV, apenas. 
 
Feedback
da 
respo
sta: 
Resposta correta. O primeiro foco da avaliação é 
um problema de classificação, aprovar (sim 
ou não) o cartão de crédito, uma variável 
qualitativa dicotômica, com dois níveis 
(classes); o segundo foco da avaliação é um 
problema de regressão, ou seja, predizer o 
valor do limite (de crédito) do cartão a ser 
concedido para o cliente. Esse valor é uma 
 
variável quantitativa, cuja predição é feita por 
algoritmos de regressão. 
 
Pergunta 2 
1 em 1 pontos 
 
 Os dados cedidos pelo gerente do banco estavam bem organizados e 
livres de erros. A nossa jovem cientista de dados não precisou, 
portanto, fazer uma limpeza e pré-tratamento dos dados e pode 
prosseguir imediatamente para uma análise descritiva deles antes 
do desenvolvimento do modelo. 
Tendo isso em vista, analise as afirmativas a seguir e assinale V para 
a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
● ( ) Chamamos de análise descritiva dos dados seus 
sumários (ou resumos) estatísticos dos mesmos e a sua 
visualização. Ambos, os sumários e as visualizações, nos 
ajudam a entender o comportamento dos dados e, através 
deles, do fenômeno ou processo estudado. 
● ( ) São quatro as variáveis estudadas pela cientista de 
dados: renda mensal da pessoa, seus gastos médios com o 
cartão, se a pessoa tinha ou não um emprego estável ao 
longo do período amostrado e se ficou ou não inadimplente 
ao longo do deste período. 
● ( ) Para criar sumários estatísticos das variáveis 
quantitativas, a renda mensal da pessoa e seus gastos com 
o cartão, a cientista de dados usou as funções min(), mean()
e max() do software estatístico R para calcular os valores 
mínimo, médio e máximo dos dados observados para essas
variáveis. 
● ( ) Para criar sumários estatísticos das variáveis qualitativas,
se a pessoa tinha ou não um emprego estável e se tinha ou 
não ficado inadimplente com o pagamento das faturas do 
cartão ao longo do período amostrado, a cientista de dados 
usou a função table() do software estatístico R para calcular 
a frequência com que os níveis de cada uma dessas 
variáveis se manifestaram na amostra estudada. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
 
Resposta Selecionada: V, V, V, 
V. 
Resposta Correta: V, V, V, V.
 
Feedback
da 
respo
sta: 
Resposta correta. Chamamos de análise 
descritiva dos dados seus sumários (ou 
resumos) e a sua visualização por meio 
de gráficos. São quatro as variáveis 
estudadas pela cientista de dados. Para 
criar sumários estatísticos das variáveis 
quantitativas, a cientista de dados usou 
as funções min(), mean() e max() do 
software estatístico R, e para os sumários
estatísticos das variáveis qualitativas, 
usou a função table() do mesmo software,
e assim calculou a frequência com que os
níveis de cada uma dessas variáveis se 
manifestaram na amostra analisada. 
 
 
Pergunta 3 
1 em 1 pontos 
 
 Ao longo das nossas discussões, demos foco a um classificador 
chamado de regressão logística que, apesar do nome regressão 
(esse nome por razões históricas e por conta de algumas de suas 
características), é usado como um classificador. Mas também vimos
que existem outros tipos de classificadores. 
Relativamente a esse assunto de algoritmos de classificação, analise as 
afirmativas a seguir. 
 
● Regressão logística é o único método de aprendizagem 
supervisionada que é utilizado para classificação, todos 
outros métodos são métodos de regressão. 
● Apesar do nome regressão logística, o que acaba sendo um
pouco confuso para iniciantes, na verdade este é um dos 
vários métodos de aprendizagem supervisionada utilizado 
para classificação. 
● Dentre os métodos utilizados para classificação se 
encontram regressão logística, análise discriminante linear 
(LDA = Linear Discriminant Analysis), árvores de decisão 
para classificação, máquinas de vetores de suporte (SVM = 
support vector machines) e k-vizinhos mais próximos (KNN 
= k-nearest neighbors). 
● Regressão linear não é um método de classificação, mas, 
sim, um dos métodos preditivos de aprendizagem 
supervisionada usados na predição de valores de variáveis 
respostas quantitativas. 
 
 
Está correto o que se afirma em: 
 
 
 
 
Resposta Selecionada: II, III e IV, 
apenas. 
 
 
 
Resposta Correta: II, III e IV, apenas.
 
 
 
 
Feedback
da 
respo
sta: 
Resposta correta. A única asserção incorreta 
desta questão é a primeira, que afirma 
que regressão logística é o único método 
de aprendizagem supervisionada que é 
 
utilizado para classificação, todos outros 
métodos são métodos de regressão. 
 
Pergunta 4 
1 em 1 pontos 
 
 Continuando com o mesmo caso da questão anterior, relativa à 
aprovação, pelos bancos, de crédito na forma de cartão de crédito, 
como se fazia, no passado, a aprovação da concessão de cartões 
de crédito pelos bancos? E, hoje em dia, como os bancos fazem 
essa aprovação? 
 
Reflita sobre essas perguntas e suas respostas, analise as afirmativas a 
seguir e assinale V 
para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
 
● ( ) No passado, os bancos faziam, e ainda fazem, ao menos
em parte, a aprovação da concessão de cartões de crédito 
através da definição de regras que devem ser atendidas por
cada cliente, tais como idade, emprego estável, renda fixa, 
dívidas pequenas, nome limpo e casa própria. 
● ( ) Hoje em dia, dentre outras alternativas, uma que é 
frequentemente usada pelos bancos são algoritmos de 
aprendizagem supervisionada que classificam se o cliente é 
um potencial bom ou mau pagador. 
● ( ) Para usarmos algoritmos de classificação com esse 
propósito de aprovar ou não cartões de crédito, precisamos 
de dados. Ensinamos ao algoritmo, com base nos dados 
que lhe são passados, a predizer clientes que são maus 
pagadores potenciais das faturas do cartão. Dessa forma, 
se o algoritmo, ao ser alimentado com os dados referentes a
um novo cliente, classificar esse cliente como um mau 
pagador potencial, o banco não aprovará o cartão. 
● ( ) Para equipes de análise de crédito, poder contar com a 
ajuda de um software com a capacidade de recomendar a 
aprovação ou não da concessão do cartão é de grande 
valor. 
● ( ) A recomendação feita pelo software poderá ser tratada 
ao lado de outras regras de crédito para uma decisão final 
sobre a concessão de cartão para o cliente. 
 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
Resposta Selecionada: V, V, V, 
V. 
 
 
Resposta Correta: V, V, V, V.
 
 
 
Feedback
da 
respo
sta: 
Resposta correta. No passado, os bancos 
faziam a aprovação da concessão de 
cartões de crédito através da definição de
regras que deviam ser atendidas por cada
cliente; hoje em dia, algoritmos de 
aprendizado de máquina classificam se o 
cliente é um potencial bom ou mau 
pagador. Para isso, dados são 
necessários.Poder contar com a ajuda de
um software com a capacidade de 
recomendar a aprovação ou não da 
concessão do cartão é de grande valor 
para a equipe de análise de crédito. A 
recomendação feita pelo software poderá 
ser tratada ao lado de outras regras de 
crédito para uma decisão final sobre a 
concessão de cartão para o cliente. 
 
 
Pergunta 5 
1 em 1 pontos 
 
 Dados podem aparecer na forma de textos, imagens, vídeos, sons, 
tabelas, listas, sequências, séries, etc. São muitos os dados que 
hoje coletamos de diferentes fontes, e muitas as formas de 
organizá-los e armazená-los. Uma dessas forma, talvez a mais 
importante delas, são os dados estruturados. 
 
Relativamente a esse assunto, analise as afirmativas a seguir. 
 
● Dados estruturados são dados que não possuem uma 
estrutura regular e repetitiva, seguindo um padrão comum 
adotado pelas ciências da computação, estatística e ciência 
dos dados. 
● A forma de organização básica dos dados, preferida na 
estatística e na ciência dos dados, é a forma tabular, na qua
as variáveis são dispostas nas linhas e as observações são 
dispostas nas colunas. 
● Dados estruturados são dados que possuem uma estrutura 
regular e repetitiva, seguindo um padrão comum adotado 
pelas ciência da computação, estatística e ciência dos 
dados. 
● A forma de organização básica dos dados, preferida na 
estatística e na ciência dos dados, é a forma tabular, na qua
as variáveis são dispostas nas colunas e as observações 
são dispostas nas linhas. 
 
 
Está correto o que se afirma em: 
 
 
 
Resposta Selecionada: III e IV, 
apenas. 
Resposta Correta: III e IV, apenas. 
 
Feedback
da 
respo
sta: 
Resposta correta. Dados estruturados são 
dados que possuem uma estrutura 
regular e repetitiva, seguindo um padrão 
comum adotado pelas ciência da 
computação, estatística e ciência dos 
dados. Também está correto dizer que a 
forma de organização básica dos dados, 
preferida na estatística e na ciência dos 
dados, é a forma tabular, na qual as 
variáveis são dispostas nas colunas e as 
observações são dispostas nas linhas. 
 
 
Pergunta 6 
1 em 1 pontos 
 
 A estatística descritiva usa de métodos numéricos para resumir dados, 
também chamados de sumários estatísticos, e de gráficos para a 
visualização dos dados. A jovem cientista de dados usou algumas 
técnicas de visualização de dados para analisar sua amostra, mas 
deixou outras de lado. 
 
Analise as afirmativas a seguir e veja quais estão coerentes com sua 
análise descritiva dos dados. 
 
● Na sua análise descritiva dos dados da amostra, a jovem 
cientista de dados usou histogramas para a visualização dos
dados quantitativos das amostras, que são a renda mensal 
das pessoas e seus gastos médios com o cartão de crédito. 
● Na sua análise descritiva dos dados da amostra, a jovem 
cientista de dados usou diagramas de barras para a 
visualização dos dados quantitativos das amostras, que são 
a renda mensal das pessoas e seus gastos médios com o 
cartão de crédito. 
 
 
 
● Histogramas e diagramas de barras são formas tradicionais 
de visualização gráfica de dados quantitativos e qualitativos,
respectivamente, na estatística e na ciência dos dados. 
● A jovem cientista de dados usou, para este caso, apenas 
histogramas, e preferiu apenas lançar mão da função table()
do software estatístico R, para determinar a frequência com 
que os níveis das variáveis qualitativas se manifestaram na 
amostra estudada, sem fazer uso de diagramas de barras, o
que poderia ter feito, se quisesse. 
 
 
Está correto o que se afirma em: 
 
 
 
 
Resposta Selecionada: I, III e IV 
apenas. 
Resposta Correta: I, III e IV apenas. 
 
Feedback
da 
respo
sta: 
Resposta correta. Histogramas e diagramas 
de barras são formas tradicionais de 
visualização gráfica de dados 
quantitativos e qualitativos, 
respectivamente, na estatística e na 
ciência dos dados, e a jovem cientista de 
dados não lançou mão de diagramas de 
barras. Neste caso, para visualizar os 
dados qualitativos, poderia ter feito isso, 
se quisesse. Diagramas de barras são 
usados para a visualização de dados 
qualitativos, não quantitativos. 
 
 
Pergunta 7 
1 em 1 pontos 
 
 Entre as técnicas das quais lançou mão para a visualização dos dados 
da amostra, uma jovem cientista de dados usou gráficos de 
dispersão. Como cientista de dados, ela sabia exatamente em que 
situações empregar gráficos de dispersão. E você, será que você 
também já sabe? 
 
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F 
para a(s) Falsa(s). 
 
● ( ) Gráficos de dispersão, em inglês chamados de scatter 
plots, só podem ser usados para a visualização de uma 
única variável, a qual deve ser obrigatoriamente uma 
variável qualitativa. 
● ( ) Gráficos de dispersão são usados para a visualização da 
relação entre duas variáveis quantitativas, em que os dados 
das duas variáveis são plotados aos pares. Permite, dessa 
forma, a verificação visual, pelo estatístico ou pelo cientista 
de dados, se há uma tendência de uma variável aumentar 
quando a outra aumenta, diminuir quando a outra diminui, 
ou se não há uma relação aparente entre as duas. 
● ( ) Um gráfico de dispersão foi usado para exibir, em pares, 
a relação entre o valor do imóvel e a sua área. Esse tipo de 
gráfico é chamado, em inglês, de scatter plot. 
● ( ) Um gráfico de dispersão foi usado para exibir, em pares, 
a relação entre o valor do imóvel e o seu andar. Esse tipo de
gráfico é chamado, em inglês, de scatter plot. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
 
Resposta Selecionada: F, V, V, 
V. 
Resposta Correta: F, V, V, V.
 
Feedback
da 
respo
sta: 
Resposta correta. A única asserção falsa é a 
que afirma que gráficos de dispersão só 
podem ser usados para a visualização de 
uma única variável, a qual deve ser 
obrigatoriamente uma variável qualitativa.
É correto dizer que são usados para a 
visualização da relação entre duas 
variáveis quantitativas, permitindo a 
verificação visual de tendência de uma 
 
variável aumentar quando a outra 
aumenta, diminuir quando a outra 
aumenta, ou se não há uma relação 
aparente entre as duas. Sendo assim, 
puderam ser usados para exibir, em 
pares, a relação entre o valor do imóvel e 
a sua área e o valor do imóvel e o seu 
andar. 
 
Pergunta 8 
1 em 1 pontos 
 
 
 A jovem cientista de dados, tendo em mãos os dados que lhe foram 
passados pelo gerente do banco, precisou denominá-los 
corretamente para a fase de treino (ajuste) do algoritmo preditivo. 
Ela escolheu a regressão logística como seu algoritmo preditivo, 
para classificar o potencial (a probabilidade) de uma pessoa ficar ou 
não inadimplente com o pagamento das faturas do cartão de crédito
 
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F 
para a(s) Falsa(s). 
 
● ( ) A jovem cientista de dados escolheu como variável 
resposta a renda mensal da pessoa, e tratou as demais 
variáveis como variáveis de entrada. 
● ( ) A jovem cientista de dados escolheu o gasto médio 
mensal da pessoa com cartão de crédito como a variável 
resposta, e tratou as demais como variáveis de entrada. 
● ( ) A jovem cientista de dados não definiu qualquer das 
quatro variáveis como a variável resposta, e decidiu realizar 
uma análise baseada em aprendizagem não 
supervisionada. 
● ( ) A jovem cientista de dados escolheu como variável 
resposta se a pessoa havia, ao longo do período 
pesquisado, ficado inadimplente com o pagamento das 
faturas do cartão ao menos uma vez (Sim ou Não), e tratou 
as demais variáveis como variáveis de entrada. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
 
Resposta Selecionada: F, F, F, 
V. 
Resposta Correta: F, F, F, V
 
Feedback
da 
respo
sta: 
Resposta correta. A jovem cientista de dados
escolheu como variável resposta se a 
pessoa havia, ao longo do período 
pesquisado, ficado inadimplentecom o 
pagamento das faturas do cartão ao 
menos uma vez (Sim ou Não), e tratou as
demais variáveis como variáveis de 
entrada. 
 
 
Pergunta 9 
1 em 1 pontos 
 
 Naturalmente, dados ocupam uma posição central, tanto na estatística 
quanto na ciência dos dados. Entendê-los, saber da sua natureza, o 
que representam, é de suma importância, antes da realização de 
qualquer análise ou projeto. Os dados são divididos entre 
quantitativos e qualitativos, na estatística e na ciência dos dados. 
Relativamente aos qualitativos, analise as afirmativas a seguir e 
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
● ( ) Dados qualitativos dicotômicos são dados observados de
variáveis qualitativas que podem assumir apenas dois níveis
(também chamados de classes) como seus valores, tais 
como sexo (feminino ou masculino), ocupação (empregado 
ou desempregado), localização (bairro ou centro), emprego 
estável (sim ou não), inadimplente (sim ou não). 
● ( ) Dados qualitativos politômicos são aqueles oriundos de 
variáveis qualitativas que podem assumir três ou mais níveis
como seus valores, tais como classe social (A, B, C, D e E), 
escolaridade (fundamental, médio, superior), gravidade da 
doença (baixa, média, alta). 
● ( ) A função table() do R permite a contagem da frequência 
de cada nível assumido por uma variável qualitativa em uma
dada amostra, e foi usada pela jovem cientista de dados 
para contar a frequência de pessoas com ou sem emprego 
estável e se ficaram ou não inadimplentes com o pagamento
das faturas do cartão no período amostrado. 
● ( ) Um mosaicplot permite a visualização gráfica da relação 
entre duas variáveis qualitativas. Foi usado por uma jovem 
cientista de dados para examinar a possível relação entre 
duas variáveis qualitativas dicotômicas: pessoas com ou 
sem emprego estável e se ficaram ou não inadimplentes 
com o pagamento das faturas do cartão de crédito ao longo 
do período amostrado. Ela percebeu, ao ver o gráfico 
resultante (ver figura adiante), que parece haver um maior 
nível de inadimplência com o cartão entre aquelas que não 
têm emprego estável. 
 
 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
 
Resposta Selecionada: V, V, V, 
V. 
Resposta Correta: V, V, V, V.
 
Feedback
da 
respo
sta: 
Resposta correta. Todas asserções desta 
questão são verdadeiras. Dados 
qualitativos dicotômicos são dados 
observados de variáveis qualitativas que 
podem assumir apenas dois níveis. 
Dados qualitativos politômicos são 
aqueles oriundos de variáveis qualitativas
que podem assumir três ou mais níveis 
como seus valores. A função table() do R 
permite a contagem da frequência de 
cada nível assumido por uma variável 
qualitativa em uma dada amostra. O 
mosaicplot permite a visualização gráfica 
da relação entre duas variáveis 
qualitativas. 
 
 
Pergunta 10 
1 em 1 pontos 
 
 Estudamos algoritmos preditivos com base em (1) modelos de 
regressão linear e (2) modelos de regressão logística. Esses 
modelos são aplicados em situações bem distintas, que dependem,
essencialmente, da natureza da variável resposta, também 
chamada de variável dependente. 
 
Com esses dois modelos em mente, analise as afirmativas a seguir. 
 
● Modelos de regressão logística simples são usados na 
predição de uma variável resposta qualitativa quando há 
mais do que uma variável de entrada. 
● Modelos de regressão linear simples são usados na 
predição de uma variável resposta qualitativa quando se 
considera apenas uma variável de entrada. 
● Um possível modelo de regressão logística simples para a 
predição da probabilidade de inadimplência é: 
 
 
 
 
em que  e  são os coeficientes do modelo,
 , o gasto médio mensal da pessoa com cartão de 
crédito e , o valor esperado para a probabilidade de a 
pessoa ficar ou não inadimplente com o pagamento das faturas do 
cartão. 
 
O método comumente usado para calcular os valores dos coeficientes 
 e é o Método da Máxima Verossimilhança. Para 
isso, pode-se fazer uso do software estatístico R. 
 
 
Está correto o que se afirma em: 
 
 
 
 
Resposta Selecionada: II, III e IV, 
apenas. 
Resposta Correta: II, III e IV, apenas.
 
Feedback
da 
respo
sta: 
Resposta correta. Modelo de regressão 
logística é dito simples quanto se 
considera apenas uma variável de 
entrada; o modelo exposto nesta 
questão é, de fato, aquele adotado pela 
cientista de dados, e o método que ela 
usou para determinar os coeficientes do 
modelo foi o Método da Máxima 
Verossimilhança, através do software 
estatístico R.