221RGR0890A - ESTATISTICA APLICADA AO DATA SCIENCE - ATIVIDADE 2 (A2)

•

FMU

0

Samuel Veiga

22/06/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Science

2.202 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

ESTATISTICA APLICADA AO DATA 
SCIENCE 
Vimos que há dois principais tipos de aprendizagem supervisionada: problema de 
regressão e problema de classificação. São os tipos de variáveis resposta dos 
dados em análise que distinguem esses dois tipos entre si. 
 
Relativamente a esses dois tipos, analise as afirmativas a seguir. 
 
I. Na aprendizagem supervisionada, um problema de regressão é um no qual 
a variável resposta é qualitativa. 
II. Na aprendizagem supervisionada, um problema de regressão é um no qual 
a variável resposta é quantitativa. 
III. Na aprendizagem supervisionada, um problema de classificação é um no 
qual a variável resposta é qualitativa. 
IV. Na aprendizagem supervisionada, um problema de classificação é um no 
qual a variável resposta é quantitativa. 
 
 
Está correto o que se afirma em: 
 
a. 
II e III, apenas. <<<<<< 
 
b. 
III, apenas. 
 
c. 
I e III, apenas. 
 
 
d. 
II e IV, apenas. 
 
e. 
III e IV, apenas. 
 
A atividade de venda de produtos financeiros por bancos, tais como cartões de 
crédito, requer que se faça uma avaliação do cliente. São focos dessa avaliação 
aprovar ou não um cartão de crédito para o cliente e, se aprovado, definir o limite 
do cartão, ou seja, o valor do crédito a conceder. 
 
Com base nessa introdução, analise as afirmativas a seguir. 
 
I. O primeiro foco da avaliação é um problema de regressão: aprovar (sim ou 
não) o cartão de crédito, uma variável qualitativa dicotômica, com dois 
níveis (classes). 
II. O primeiro foco da avaliação é um problema de classificação: aprovar (sim 
ou não) o cartão de crédito, uma variável qualitativa dicotômica, com dois 
níveis (classes). 
III. O segundo foco da avaliação é um problema de classificação, predizer o 
valor do limite (do crédito) do cartão. 
IV. O segundo foco da avaliação é um problema de regressão, predizer o valor 
do limite (do crédito) do cartão. 
 
 
Está correto o que se afirma em: 
 
 
 
a. 
I, II e III, apenas. 
 
 
 
 
b. 
II, apenas. 
 
c. 
I e III, apenas. 
 
d. 
II, III e IV, apenas. 
 
e. 
II e IV, apenas. <<<<<< 
 
Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, 
uma jovem cientista de dados usou boxplots (diagramas de caixas). Como cientista 
de dados, ela sabia exatamente em que situações empregar boxplots. E você, será 
que você também já sabe? 
 
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) 
Falsa(s). 
 
I. ( ) Para examinar visualmente a relação entre duas variáveis, em que uma 
é quantitativa e a outra é qualitativa, não é possível a utilização de gráficos 
de dispersão. 
II. ( ) Boxplots são uma solução inteligente para a visualização da relação 
entre uma variável quantitativa e uma variável qualitativa, em que no eixo 
horizontal indicamos os níveis da variável qualitativa e no eixo vertical, a 
variação dos valores observados para a variável quantitativa. 
III. ( ) Para examinar visualmente a relação entre duas variáveis quantitativas, 
um dos gráficos preferidos é o diagrama de caixas, também conhecido 
como boxplot. 
IV. ( ) Na construção de um boxplot, podemos representar no eixo vertical os 
níveis da variável qualitativa e no eixo horizontal, os valores da variável 
quantitativa. Nesse caso, a visualização da variação dos dados da variável 
quantitativa é exibida horizontalmente, e os níveis (classes) da variável 
qualitativa são exibidos verticalmente. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
a. 
F, F, V, V. 
 
 
 
 
b. 
V, F, F, V. 
 
c. 
V, V, F, V. <<<<<<<<<<<< 
 
d. 
V, V, F, F. 
 
e. 
F, V, V, F. 
 
Estudamos algoritmos preditivos com base em (1) modelos de regressão linear e 
(2) modelos de regressão logística. Esses modelos são aplicados em situações 
bem distintas, que dependem, essencialmente, da natureza da variável resposta, 
também chamada de variável dependente. 
 
Com esses dois modelos em mente, analise as afirmativas a seguir. 
 
I. Modelos de regressão logística simples são usados na predição de uma 
variável resposta qualitativa quando há mais do que uma variável de 
entrada. 
II. Modelos de regressão linear simples são usados na predição de uma 
variável resposta qualitativa quando se considera apenas uma variável de 
entrada. 
III. Um possível modelo de regressão logística simples para a predição da 
probabilidade de inadimplência é: 
 
 
 
 
em que e são os coeficientes do modelo, , o gasto médio mensal 
da pessoa com cartão de crédito e , o valor esperado para a probabilidade de 
a pessoa ficar ou não inadimplente com o pagamento das faturas do cartão. 
 
IV. O método comumente usado para calcular os valores dos 
coeficientes e é o Método da Máxima Verossimilhança. Para 
isso, pode-se fazer uso do software estatístico R. 
 
 
Está correto o que se afirma em: 
 
 
 
a. 
III e IV, apenas. 
 
b. 
II, III e IV, apenas. <<<<<<<<<<<< 
 
c. 
I e II, apenas. 
 
d. 
I, II e IV, apenas. 
 
 
 
 
e. 
II e III, apenas. 
 
 
A estatística descritiva usa de métodos numéricos para resumir dados, também 
chamados de sumários estatísticos, e de gráficos para a visualização dos dados. A 
jovem cientista de dados usou algumas técnicas de visualização de dados para 
analisar sua amostra, mas deixou outras de lado. 
 
Analise as afirmativas a seguir e veja quais estão coerentes com sua análise 
descritiva dos dados. 
 
I. Na sua análise descritiva dos dados da amostra, a jovem cientista de dados 
usou histogramas para a visualização dos dados quantitativos das 
amostras, que são a renda mensal das pessoas e seus gastos médios com 
o cartão de crédito. 
II. Na sua análise descritiva dos dados da amostra, a jovem cientista de dados 
usou diagramas de barras para a visualização dos dados quantitativos das 
amostras, que são a renda mensal das pessoas e seus gastos médios com 
o cartão de crédito. 
 
 
 
III. Histogramas e diagramas de barras são formas tradicionais de visualização 
gráfica de dados quantitativos e qualitativos, respectivamente, na estatística 
e na ciência dos dados. 
IV. A jovem cientista de dados usou, para este caso, apenas histogramas, e 
preferiu apenas lançar mão da função table() do software estatístico R, para 
determinar a frequência com que os níveis das variáveis qualitativas se 
manifestaram na amostra estudada, sem fazer uso de diagramas de barras, 
o que poderia ter feito, se quisesse. 
 
 
Está correto o que se afirma em: 
 
 
 
a. 
IV, apenas. 
 
b. 
II e III, apenas. 
 
c. 
I, III e IV apenas. <<<<<<<<<<<< 
 
d. 
I e IV, apenas. 
 
e. 
I e II, apenas. 
 
 
Tarefas de classificação são muitos comuns na estatística e na ciência dos dados, 
por serem muito comuns em todas atividades humanas, na ciência, na vida social 
ou nos negócios. 
Especificamente, discutimos aplicações de modelos preditivos de classificação 
baseados em modelos de regressão logística simples ou múltipla. 
Com isso em mente, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
 
I. Regressão logística pode ser empregada na predição do peso médio 
(massa corporal média) de uma pessoa em função de sua altura, idade e 
sexo. 
II. Regressão logística pode ser empregada na predição do consumo médio 
de combustível de um carro em função da potência do seu motor e do seu 
peso. 
III. Regressão logística pode ser empregada na predição da probabilidade de 
uma pessoa votar em um determinado candidato e não nos outros em 
função de sua escolaridade, idade, sexo e classe social. 
IV. Regressão logística pode ser empregada na predição da probabilidade de a 
pessoa ser diabética em função de um conjunto de sintomas clínicos que 
apresenta. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
a. 
F, F, V, V. <<<<<<<<<<<< 
 
b. 
F, V, F, V. 
 
c. 
V, V, V, V. 
 
d. 
F, F, F, F. 
 
e. 
V, V, F, F. 
 
 
Continuando com o mesmo caso da questãoanterior, relativa à aprovação, pelos 
bancos, de crédito na forma de cartão de crédito, como se fazia, no passado, a 
aprovação da concessão de cartões de crédito pelos bancos? E, hoje em dia, 
como os bancos fazem essa aprovação? 
 
Reflita sobre essas perguntas e suas respostas, analise as afirmativas a seguir e 
assinale V 
para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
 
I. ( ) No passado, os bancos faziam, e ainda fazem, ao menos em parte, a 
aprovação da concessão de cartões de crédito através da definição de 
regras que devem ser atendidas por cada cliente, tais como idade, emprego 
estável, renda fixa, dívidas pequenas, nome limpo e casa própria. 
II. ( ) Hoje em dia, dentre outras alternativas, uma que é frequentemente 
usada pelos bancos são algoritmos de aprendizagem supervisionada que 
classificam se o cliente é um potencial bom ou mau pagador. 
III. ( ) Para usarmos algoritmos de classificação com esse propósito de aprovar 
ou não cartões de crédito, precisamos de dados. Ensinamos ao algoritmo, 
com base nos dados que lhe são passados, a predizer clientes que são 
maus pagadores potenciais das faturas do cartão. Dessa forma, se o 
algoritmo, ao ser alimentado com os dados referentes a um novo cliente, 
classificar esse cliente como um mau pagador potencial, o banco não 
aprovará o cartão. 
IV. ( ) Para equipes de análise de crédito, poder contar com a ajuda de um 
software com a capacidade de recomendar a aprovação ou não da 
concessão do cartão é de grande valor. 
V. ( ) A recomendação feita pelo software poderá ser tratada ao lado de outras 
regras de crédito para uma decisão final sobre a concessão de cartão para 
o cliente. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
a. 
F, F, F, F. 
 
b. 
F, V, F, V. 
 
c. 
V, V, F, F. 
 
d. 
V, V, F, V. 
 
e. 
V, V, V, V. <<<<<<<<<<<< 
 
Vimos que são muitos os algoritmos de classificação usados na estatística ou na 
ciência dos dados. Vimos também que podem ser divididos entre classificadores 
determinísticos ou probabilísticos, em que, dentre estes últimos, se encontra o 
modelo de regressão logística. Relativamente a modelos de regressão logística, 
que são aqui o nosso foco, analise as afirmativas a seguir. 
 
I. Modelos de regressão logística são usados como modelos preditivos para 
casos em que a variável resposta é qualitativa, preferencialmente 
qualitativa dicotômica. As variáveis de entrada podem ser de qualquer tipo, 
quantitativas ou qualitativas. 
II. Modelos de regressão logística são chamados de regressão logística 
simples, quando só há uma variável de entrada, também denominada de 
variável regressora, variável preditora ou variável independente. 
III. Modelos de regressão logística são chamados de regressão logística 
múltipla, quando há mais do que uma variável de entrada, também 
denominadas de variáveis regressoras, variáveis preditoras ou variáveis 
independentes. 
IV. Modelos de regressão logística são classificadores probabilísticos. Por 
exemplo, para dados sintomas de um certo paciente, um modelo de 
regressão logística, depois de adequadamente treinado, fará a predição da 
probabilidade deste paciente estar ou não infectado com o vírus HIV. 
 
 
Está correto o que se afirma em: 
 
 
 
a. 
I, II e III, apenas. 
 
b. 
IV, apenas. 
 
c. 
I e III, apenas. 
 
d. 
II e III, apenas. 
 
e. 
I, II, III e IV. <<<<<<<<<<<< 
 
Naturalmente, dados ocupam uma posição central, tanto na estatística quanto na 
ciência dos dados. Entendê-los, saber da sua natureza, o que representam, é de 
suma importância, antes da realização de qualquer análise ou projeto. Os dados 
são divididos entre quantitativos e qualitativos, na estatística e na ciência dos 
dados. Relativamente aos qualitativos, analise as afirmativas a seguir e 
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Dados qualitativos dicotômicos são dados observados de variáveis 
qualitativas que podem assumir apenas dois níveis (também chamados de 
classes) como seus valores, tais como sexo (feminino ou masculino), 
ocupação (empregado ou desempregado), localização (bairro ou centro), 
emprego estável (sim ou não), inadimplente (sim ou não). 
II. ( ) Dados qualitativos politômicos são aqueles oriundos de variáveis 
qualitativas que podem assumir três ou mais níveis como seus valores, tais 
como classe social (A, B, C, D e E), escolaridade (fundamental, médio, 
superior), gravidade da doença (baixa, média, alta). 
III. ( ) A função table() do R permite a contagem da frequência de cada nível 
assumido por uma variável qualitativa em uma dada amostra, e foi usada 
pela jovem cientista de dados para contar a frequência de pessoas com ou 
sem emprego estável e se ficaram ou não inadimplentes com o pagamento 
das faturas do cartão no período amostrado. 
IV. ( ) Um mosaicplot permite a visualização gráfica da relação entre duas 
variáveis qualitativas. Foi usado por uma jovem cientista de dados para 
examinar a possível relação entre duas variáveis qualitativas dicotômicas: 
pessoas com ou sem emprego estável e se ficaram ou não inadimplentes 
com o pagamento das faturas do cartão de crédito ao longo do período 
amostrado. Ela percebeu, ao ver o gráfico resultante (ver figura adiante), 
que parece haver um maior nível de inadimplência com o cartão entre 
aquelas que não têm emprego estável. 
 
 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
a. 
V, V, V, V. <<<<<<<<<<<< 
 
b. 
V, V, F, V. 
 
c. 
F, F, F, F. 
 
d. 
V, V, F, F. 
 
e. 
F, V, F, V. 
 
 
 
O ser humano tem enorme facilidade em agrupar, por similaridade, e classificar 
coisas, todos os tipos de coisas. Por conta disso, problemas de classificação são 
muito frequentes no mundo, mais frequentes que problemas de regressão. 
Fornecemos alguns exemplos de aplicação de métodos de classificação no mundo 
dos negócios. Dentre esses exemplos, encontramos: 
 
I. a Netflix usa classificadores para recomendar filmes. Para a Netflix, o valor 
desse tipo de aplicação é que, quanto mais filmes assistirmos, maior será a 
sua receita; 
II. o Facebook usa classificadores para recomendar novas amizades para a 
nossa rede de relacionamento. Para o Facebook, o valor desse tipo de 
aplicação é que, quanto maior nossa rede de relacionamento, maior será a 
sua receita; 
III. um banco de varejo usa classificadores para detectar se uma operação 
com cartão de débito ou crédito é ou não uma operação fraudulenta. Para o 
banco, o valor dessa aplicação é que, quanto antes operações fraudulentas 
forem detectadas, mais rapidamente o banco pode agir para impedir perdas 
para seus clientes e para ele próprio; 
IV. uma concessionária de distribuição de energia elétrica usa classificadores 
para identificar casos potenciais de roubo de energia da rede, os famosos 
“gatos”. Para as concessionárias de distribuição de energia elétrica, o valor 
dessa aplicação é evitar prejuízo com o furto de energia da rede, além do 
relevante aspecto de prevenção de acidentes decorrentes de instalações 
clandestinas. 
 
 
Está correto o que se afirma em: 
 
 
 
a. 
I e II, apenas. 
 
b. 
II e IV, apenas. 
 
c. 
I, II, III e IV. <<<<<<<<<<<< 
 
d. 
III e IV, apenas. 
 
e. 
I e III, apenas.