A2 - ESTATÍSTICA APLICADA AO DATA SCIENCE

•

UAM

15

0

15

0

wallace Sullivan

16/06/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Science

2.213 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Discutimos o que são aprendizagem supervisionada e não supervisionada. 
Vimos que é na forma como tratamos as variáveis estudadas que se dá a 
diferença entre esses dois tipos de aprendizagens, supervisionada e não 
supervisionada. Esses dois tipos são os mais importantes dentre os diversos 
tipos de aprendizagem. 
 
Relativamente a esse assunto, analise as afirmativas a seguir. 
 
1. Na aprendizagem supervisionada, definimos uma das variáveis 
estudadas como sendo a variável resposta, a qual responde em função 
dos valores assumidos pelas outras variáveis, as quais são chamadas 
de variáveis de entrada. 
2. Especificamente na aprendizagem supervisionada, também 
denominamos uma variável resposta de variável de saída ou variável 
dependente. 
3. Especificamente na aprendizagem supervisionada, também 
denominamos uma variável de entrada de variável regressora, variável 
preditora ou variável independente. 
4. Na aprendizagem não supervisionada, tratamos todas as variáveis 
estudadas da mesma forma, sem procurar explicar o comportamento de 
uma delas em função dos valores assumidos pelas outras. 
 
 
 
Está correto o que se afirma em: 
 
 
 
Entre as técnicas das quais lançou mão para a visualização dos dados da 
amostra, uma jovem cientista de dados usou boxplots (diagramas de caixas). 
Como cientista de dados, ela sabia exatamente em que situações empregar 
boxplots. E você, será que você também já sabe? 
 
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para 
a(s) Falsa(s). 
 
1. ( ) Para examinar visualmente a relação entre duas variáveis, em que 
uma é quantitativa e a outra é qualitativa, não é possível a utilização de 
gráficos de dispersão. 
2. ( ) Boxplots são uma solução inteligente para a visualização da relação 
entre uma variável quantitativa e uma variável qualitativa, em que no 
eixo horizontal indicamos os níveis da variável qualitativa e no eixo 
vertical, a variação dos valores observados para a variável quantitativa. 
3. ( ) Para examinar visualmente a relação entre duas variáveis 
quantitativas, um dos gráficos preferidos é o diagrama de caixas, 
também conhecido como boxplot. 
4. ( ) Na construção de um boxplot, podemos representar no eixo vertical 
os níveis da variável qualitativa e no eixo horizontal, os valores da 
variável quantitativa. Nesse caso, a visualização da variação dos dados 
da variável quantitativa é exibida horizontalmente, e os níveis (classes) 
da variável qualitativa são exibidos verticalmente. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
 
A amostra relativa aos dados de inadimplência com cartões tinha 200 
observações de 4 variáveis: a renda mensal da pessoa (R$), seu gasto médio 
com cartão de crédito (R$), se a pessoa tinha um emprego estável (Sim ou 
Não) e se a pessoa havia, ao longo do período pesquisado, ficado inadimplente 
com o pagamento de faturas do cartão ao menos uma vez (Sim ou Não). 
Reflita sobre esse caso, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
 
1. ( ) Todos os dados fornecidos pelo gerente do banco à jovem cientista 
de dados são dados relativos a variáveis quantitativas. 
2. ( ) Todos os dados fornecidos pelo gerente do banco à jovem cientista 
de dados são dados relativos a variáveis qualitativas. 
3. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista 
de dados, dois são relativos a uma variável quantitativa e dois são 
relativos a variáveis qualitativas. 
4. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista 
de dados, um é relativo a uma variável quantitativa e os outros são 
relativos a variáveis qualitativas. 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
 
 
 
 
 
 
 
Vimos que há dois principais tipos de aprendizagem supervisionada: problema 
de regressão e problema de classificação. São os tipos de variáveis resposta 
dos dados em análise que distinguem esses dois tipos entre si. 
 
Relativamente a esses dois tipos, analise as afirmativas a seguir. 
 
1. Na aprendizagem supervisionada, um problema de regressão é um no 
qual a variável resposta é qualitativa. 
2. Na aprendizagem supervisionada, um problema de regressão é um no 
qual a variável resposta é quantitativa. 
3. Na aprendizagem supervisionada, um problema de classificação é um 
no qual a variável resposta é qualitativa. 
4. Na aprendizagem supervisionada, um problema de classificação é um 
no qual a variável resposta é quantitativa. 
 
 
Está correto o que se afirma em: 
 
 
 
 
 
 
 
 
 
 
 
 
Tarefas de classificação são muitos comuns na estatística e na ciência dos 
dados, por serem muito comuns em todas atividades humanas, na ciência, na 
vida social ou nos negócios. 
Especificamente, discutimos aplicações de modelos preditivos de classificação 
baseados em modelos de regressão logística simples ou múltipla. 
Com isso em mente, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
 
1. Regressão logística pode ser empregada na predição do peso médio 
(massa corporal média) de uma pessoa em função de sua altura, idade 
e sexo. 
2. Regressão logística pode ser empregada na predição do consumo 
médio de combustível de um carro em função da potência do seu motor 
e do seu peso. 
3. Regressão logística pode ser empregada na predição da probabilidade 
de uma pessoa votar em um determinado candidato e não nos outros 
em função de sua escolaridade, idade, sexo e classe social. 
4. Regressão logística pode ser empregada na predição da probabilidade 
de a pessoa ser diabética em função de um conjunto de sintomas 
clínicos que apresenta. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
 
 
O ser humano tem enorme facilidade em agrupar, por similaridade, e classificar 
coisas, todos os tipos de coisas. Por conta disso, problemas de classificação 
são muito frequentes no mundo, mais frequentes que problemas de regressão. 
Fornecemos alguns exemplos de aplicação de métodos de classificação no 
mundo dos negócios. Dentre esses exemplos, encontramos: 
 
1. a Netflix usa classificadores para recomendar filmes. Para a Netflix, o 
valor desse tipo de aplicação é que, quanto mais filmes assistirmos, 
maior será a sua receita; 
2. o Facebook usa classificadores para recomendar novas amizades para 
a nossa rede de relacionamento. Para o Facebook, o valor desse tipo de 
aplicação é que, quanto maior nossa rede de relacionamento, maior será 
a sua receita; 
3. um banco de varejo usa classificadores para detectar se uma operação 
com cartão de débito ou crédito é ou não uma operação fraudulenta. 
Para o banco, o valor dessa aplicação é que, quanto antes operações 
fraudulentas forem detectadas, mais rapidamente o banco pode agir 
para impedir perdas para seus clientes e para ele próprio; 
4. uma concessionária de distribuição de energia elétrica usa 
classificadores para identificar casos potenciais de roubo de energia da 
rede, os famosos “gatos”. Para as concessionárias de distribuição de 
energia elétrica, o valor dessa aplicação é evitar prejuízo com o furto de 
energia da rede, além do relevante aspecto de prevenção de acidentes 
decorrentes de instalações clandestinas. 
 
 
Está correto o que se afirma em: 
 
 
 
 
Os dados cedidos pelo gerente do banco estavam bem organizados e livres de 
erros. A nossa jovem cientista de dados não precisou, portanto, fazer uma 
limpeza e pré-tratamento dos dados e pode prosseguir imediatamente para 
uma análise descritiva deles antes do desenvolvimento do modelo. 
Tendo isso em vista, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
 
1. ( ) Chamamos de análise descritiva dos dados seus sumários (ou 
resumos) estatísticos dos mesmos e a sua visualização. Ambos, os 
sumários e as visualizações, nos ajudam a entender o comportamento 
dos dados e, através deles, dofenômeno ou processo estudado. 
2. ( ) São quatro as variáveis estudadas pela cientista de dados: renda 
mensal da pessoa, seus gastos médios com o cartão, se a pessoa tinha 
ou não um emprego estável ao longo do período amostrado e se ficou 
ou não inadimplente ao longo do deste período. 
3. ( ) Para criar sumários estatísticos das variáveis quantitativas, a renda 
mensal da pessoa e seus gastos com o cartão, a cientista de dados 
usou as funções min(), mean() e max() do software estatístico R para 
calcular os valores mínimo, médio e máximo dos dados observados para 
essas variáveis. 
4. ( ) Para criar sumários estatísticos das variáveis qualitativas, se a 
pessoa tinha ou não um emprego estável e se tinha ou não ficado 
inadimplente com o pagamento das faturas do cartão ao longo do 
período amostrado, a cientista de dados usou a função table() do 
software estatístico R para calcular a frequência com que os níveis de 
cada uma dessas variáveis se manifestaram na amostra estudada. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
A estatística descritiva usa de métodos numéricos para resumir dados, também 
chamados de sumários estatísticos, e de gráficos para a visualização dos 
dados. A jovem cientista de dados usou algumas técnicas de visualização de 
dados para analisar sua amostra, mas deixou outras de lado. 
 
Analise as afirmativas a seguir e veja quais estão coerentes com sua análise 
descritiva dos dados. 
1. Na sua análise descritiva dos dados da amostra, a jovem cientista de 
dados usou histogramas para a visualização dos dados quantitativos das 
amostras, que são a renda mensal das pessoas e seus gastos médios 
com o cartão de crédito. 
2. Na sua análise descritiva dos dados da amostra, a jovem cientista de 
dados usou diagramas de barras para a visualização dos dados 
quantitativos das amostras, que são a renda mensal das pessoas e seus 
gastos médios com o cartão de crédito. 
3. Histogramas e diagramas de barras são formas tradicionais de 
visualização gráfica de dados quantitativos e qualitativos, 
respectivamente, na estatística e na ciência dos dados. 
4. A jovem cientista de dados usou, para este caso, apenas histogramas, e 
preferiu apenas lançar mão da função table() do software estatístico R, 
para determinar a frequência com que os níveis das variáveis 
qualitativas se manifestaram na amostra estudada, sem fazer uso de 
diagramas de barras, o que poderia ter feito, se quisesse. 
 
Está correto o que se afirma em: 
 
 
 
 
 
 
Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um 
modelo de regressão logística múltipla aos dados da amostra. Os resultados 
que encontrou foram muito ricos, sugerindo uma série de explicações, 
aprendidas pelo algoritmo com base nos dados fornecidos. Veja que dizemos 
“explicações sugeridas”, pois qualquer resultado de um algoritmo deve ser 
confrontado com especialistas da área em estudo. Contudo, vamos rever o que 
o modelo de regressão múltipla treinado pela jovem cientista de dados sugere. 
Para isso, analise as afirmativas a seguir. 
1. A probabilidade da inadimplência cresce com o aumento dos gastos 
médios com o cartão de crédito. Isto, que nos parece óbvio, foi o que os 
dados “contaram” para o algoritmo de regressão logística múltipla. 
2. A probabilidade da inadimplência cresce com o aumento da renda média 
mensal das pessoas. Isto não é tão óbvio e provavelmente não teríamos 
coragem de generalizar para outras situações, mas foi o que os dados 
da amostra do gerente do banco “contaram” para o algoritmo de 
regressão logística múltipla. 
3. Para duas pessoas com a mesma renda mensal e o mesmo gasto 
mensal com cartão de crédito, a probabilidade de inadimplência com o 
cartão é maior para aquela sem emprego estável. Novamente, isto foi o 
que os dados amostrados “contaram” para o algoritmo de regressão 
logística múltipla. 
4. O modelo de regressão logística múltipla, ajustado aos dados da 
amostra, consegue predizer os efeitos da renda mensal da pessoa, do 
seu gasto médio mensal com cartão de crédito e se ela tem ou não um 
emprego estável, na probabilidade de a pessoa ficar inadimplente com o 
cartão de crédito. Um algoritmo desse tipo pode ajudar no processo 
decisório de um banco quanto à aprovação de cartão de crédito, ao lado 
de outros critérios e ferramentas analíticas disponíveis para o banco. 
 
Está correto o que se afirma em: 
 
 
 
 
 
A atividade de venda de produtos financeiros por bancos, tais como cartões de 
crédito, requer que se faça uma avaliação do cliente. São focos dessa 
avaliação aprovar ou não um cartão de crédito para o cliente e, se aprovado, 
definir o limite do cartão, ou seja, o valor do crédito a conceder. 
 
Com base nessa introdução, analise as afirmativas a seguir. 
 
1. O primeiro foco da avaliação é um problema de regressão: aprovar (sim 
ou não) o cartão de crédito, uma variável qualitativa dicotômica, com 
dois níveis (classes). 
2. O primeiro foco da avaliação é um problema de classificação: aprovar 
(sim ou não) o cartão de crédito, uma variável qualitativa dicotômica, 
com dois níveis (classes). 
3. O segundo foco da avaliação é um problema de classificação, predizer o 
valor do limite (do crédito) do cartão. 
4. O segundo foco da avaliação é um problema de regressão, predizer o 
valor do limite (do crédito) do cartão. 
 
Está correto o que se afirma em: