Buscar

ATIVIDADE A2 - Estatística Aplicada ao Data Science

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

ATIVIDADE A2 – ESTATÍSTICA APLICADA AO DATA SCIENCE 
QUESTÃO 01 
Vimos que há dois principais tipos de aprendizagem supervisionada: problema de regressão e problema de 
classificação. São os tipos de variáveis resposta dos dados em análise que distinguem esses dois tipos entre si. 
 
Relativamente a esses dois tipos, analise as afirmativas a seguir. 
 
1. Na aprendizagem supervisionada, um problema de regressão é um no qual a variável 
resposta é qualitativa. 
2. Na aprendizagem supervisionada, um problema de regressão é um no qual a variável 
resposta é quantitativa. 
3. Na aprendizagem supervisionada, um problema de classificação é um no qual a variável 
resposta é qualitativa. 
4. Na aprendizagem supervisionada, um problema de classificação é um no qual a variável 
resposta é quantitativa. 
Está correto o que se afirma em: 
 
 
QUESTÃO 02 
A jovem cientista de dados, tendo em mãos os dados que lhe foram passados pelo gerente do banco, precisou 
denominá-los corretamente para a fase de treino (ajuste) do algoritmo preditivo. Ela escolheu a regressão logística 
como seu algoritmo preditivo, para classificar o potencial (a probabilidade) de uma pessoa ficar ou não inadimplente 
com o pagamento das faturas do cartão de crédito. 
 
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
1. ( ) A jovem cientista de dados escolheu como variável resposta a renda mensal da pessoa, e tratou as 
demais variáveis como variáveis de entrada. 
2. ( ) A jovem cientista de dados escolheu o gasto médio mensal da pessoa com cartão de crédito como a 
variável resposta, e tratou as demais como variáveis de entrada. 
3. ( ) A jovem cientista de dados não definiu qualquer das quatro variáveis como a variável resposta, e decidiu 
realizar uma análise baseada em aprendizagem não supervisionada. 
4. ( ) A jovem cientista de dados escolheu como variável resposta se a pessoa havia, ao longo do período 
pesquisado, ficado inadimplente com o pagamento das faturas do cartão ao menos uma vez (Sim ou Não), e tratou 
as demais variáveis como variáveis de entrada. 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
 QUESTÃO 03 
A amostra relativa aos dados de inadimplência com cartões tinha 200 observações de 4 variáveis: a renda mensal 
da pessoa (R$), seu gasto médio com cartão de crédito (R$), se a pessoa tinha um emprego estável (Sim ou Não) 
e se a pessoa havia, ao longo do período pesquisado, ficado inadimplente com o pagamento de faturas do cartão 
ao menos uma vez (Sim ou Não). 
Reflita sobre esse caso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
1. ( ) Todos os dados fornecidos pelo gerente do banco à jovem cientista de dados são dados relativos a 
variáveis quantitativas. 
2. ( ) Todos os dados fornecidos pelo gerente do banco à jovem cientista de dados são dados relativos a 
variáveis qualitativas. 
3. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista de dados, dois são relativos a uma 
variável quantitativa e dois são relativos a variáveis qualitativas. 
4. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista de dados, um é relativo a uma 
variável quantitativa e os outros são relativos a variáveis qualitativas. 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
QUESTÃO 04 
Continuando com o mesmo caso da questão anterior, relativa à aprovação, pelos bancos, de crédito na forma de 
cartão de crédito, como se fazia, no passado, a aprovação da concessão de cartões de crédito pelos bancos? E, 
hoje em dia, como os bancos fazem essa aprovação? 
 
Reflita sobre essas perguntas e suas respostas, analise as afirmativas a seguir e assinale V 
para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
 
1. ( ) No passado, os bancos faziam, e ainda fazem, ao menos em parte, a aprovação da concessão de 
cartões de crédito através da definição de regras que devem ser atendidas por cada cliente, tais como idade, 
emprego estável, renda fixa, dívidas pequenas, nome limpo e casa própria. 
2. ( ) Hoje em dia, dentre outras alternativas, uma que é frequentemente usada pelos bancos são algoritmos de 
aprendizagem supervisionada que classificam se o cliente é um potencial bom ou mau pagador. 
3. ( ) Para usarmos algoritmos de classificação com esse propósito de aprovar ou não cartões de crédito, 
precisamos de dados. Ensinamos ao algoritmo, com base nos dados que lhe são passados, a predizer clientes que 
são maus pagadores potenciais das faturas do cartão. Dessa forma, se o algoritmo, ao ser alimentado com os 
dados referentes a um novo cliente, classificar esse cliente como um mau pagador potencial, o banco não aprovará 
o cartão. 
4. ( ) Para equipes de análise de crédito, poder contar com a ajuda de um software com a capacidade de 
recomendar a aprovação ou não da concessão do cartão é de grande valor. 
5. ( ) A recomendação feita pelo software poderá ser tratada ao lado de outras regras de crédito para uma 
decisão final sobre a concessão de cartão para o cliente. 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
QUESTÃO 05 
Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, uma jovem cientista de dados 
usou gráficos de dispersão. Como cientista de dados, ela sabia exatamente em que situações empregar gráficos de 
dispersão. E você, será que você também já sabe? 
 
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
1. ( ) Gráficos de dispersão, em inglês chamados de scatter plots, só podem ser usados para a visualização de 
uma única variável, a qual deve ser obrigatoriamente uma variável qualitativa. 
2. ( ) Gráficos de dispersão são usados para a visualização da relação entre duas variáveis quantitativas, em 
que os dados das duas variáveis são plotados aos pares. Permite, dessa forma, a verificação visual, pelo estatístico 
ou pelo cientista de dados, se há uma tendência de uma variável aumentar quando a outra aumenta, diminuir 
quando a outra diminui, ou se não há uma relação aparente entre as duas. 
3. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do imóvel e a sua área. 
Esse tipo de gráfico é chamado, em inglês, de scatter plot. 
4. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do imóvel e o seu andar. 
Esse tipo de gráfico é chamado, em inglês, de scatter plot. 
Assinale a alternativa que apresenta a sequência correta. 
 
 
QUESTÃO 06 
A atividade de venda de produtos financeiros por bancos, tais como cartões de crédito, requer que se faça uma 
avaliação do cliente. São focos dessa avaliação aprovar ou não um cartão de crédito para o cliente e, se aprovado, 
definir o limite do cartão, ou seja, o valor do crédito a conceder. 
 
Com base nessa introdução, analise as afirmativas a seguir. 
 
1. O primeiro foco da avaliação é um problema de regressão: aprovar (sim ou não) o cartão de crédito, uma 
variável qualitativa dicotômica, com dois níveis (classes). 
2. O primeiro foco da avaliação é um problema de classificação: aprovar (sim ou não) o cartão de crédito, uma 
variável qualitativa dicotômica, com dois níveis (classes). 
3. O segundo foco da avaliação é um problema de classificação, predizer o valor do limite (do crédito) do 
cartão. 
4. O segundo foco da avaliação é um problema de regressão, predizer o valor do limite (do crédito) do cartão. 
Está correto o que se afirma em: 
 
 
 
 QUESTÃO 07 
Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um modelo de regressão logística múltipla aos 
dados da amostra. Os resultados que encontrou foram muito ricos, sugerindo uma série de explicações, aprendidas 
pelo algoritmo com base nos dados fornecidos. Veja que dizemos “explicações sugeridas”, pois qualquer resultado 
de um algoritmo deve ser confrontado com especialistas da área em estudo. Contudo, vamos rever o que o modelode regressão múltipla treinado pela jovem cientista de dados sugere. Para isso, analise as afirmativas a seguir. 
 
1. A probabilidade da inadimplência cresce com o aumento dos gastos médios com o cartão de crédito. Isto, 
que nos parece óbvio, foi o que os dados “contaram” para o algoritmo de regressão logística múltipla. 
2. A probabilidade da inadimplência cresce com o aumento da renda média mensal das pessoas. Isto não é 
tão óbvio e provavelmente não teríamos coragem de generalizar para outras situações, mas foi o que os dados da 
amostra do gerente do banco “contaram” para o algoritmo de regressão logística múltipla. 
3. Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal com cartão de crédito, a 
probabilidade de inadimplência com o cartão é maior para aquela sem emprego estável. Novamente, isto foi o que 
os dados amostrados “contaram” para o algoritmo de regressão logística múltipla. 
4. O modelo de regressão logística múltipla, ajustado aos dados da amostra, consegue predizer os efeitos da 
renda mensal da pessoa, do seu gasto médio mensal com cartão de crédito e se ela tem ou não um emprego 
estável, na probabilidade de a pessoa ficar inadimplente com o cartão de crédito. Um algoritmo desse tipo pode 
ajudar no processo decisório de um banco quanto à aprovação de cartão de crédito, ao lado de outros critérios e 
ferramentas analíticas disponíveis para o banco. 
Está correto o que se afirma em: 
 
 
 
QUESTÃO 08 
Os dados cedidos pelo gerente do banco estavam bem organizados e livres de erros. A nossa jovem cientista de 
dados não precisou, portanto, fazer uma limpeza e pré-tratamento dos dados e pode prosseguir imediatamente 
para uma análise descritiva deles antes do desenvolvimento do modelo. 
Tendo isso em vista, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
1. ( ) Chamamos de análise descritiva dos dados seus sumários (ou resumos) estatísticos dos mesmos e a sua 
visualização. Ambos, os sumários e as visualizações, nos ajudam a entender o comportamento dos dados e, 
através deles, do fenômeno ou processo estudado. 
2. ( ) São quatro as variáveis estudadas pela cientista de dados: renda mensal da pessoa, seus gastos médios 
com o cartão, se a pessoa tinha ou não um emprego estável ao longo do período amostrado e se ficou ou não 
inadimplente ao longo do deste período. 
3. ( ) Para criar sumários estatísticos das variáveis quantitativas, a renda mensal da pessoa e seus gastos com 
o cartão, a cientista de dados usou as funções min(), mean() e max() do software estatístico R para calcular os 
valores mínimo, médio e máximo dos dados observados para essas variáveis. 
4. ( ) Para criar sumários estatísticos das variáveis qualitativas, se a pessoa tinha ou não um emprego estável 
e se tinha ou não ficado inadimplente com o pagamento das faturas do cartão ao longo do período amostrado, a 
cientista de dados usou a função table() do software estatístico R para calcular a frequência com que os níveis de 
cada uma dessas variáveis se manifestaram na amostra estudada. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
 QUESTÃO 09 
O ser humano tem enorme facilidade em agrupar, por similaridade, e classificar coisas, todos os tipos de coisas. 
Por conta disso, problemas de classificação são muito frequentes no mundo, mais frequentes que problemas de 
regressão. Fornecemos alguns exemplos de aplicação de métodos de classificação no mundo dos negócios. Dentre 
esses exemplos, encontramos: 
 
1. a Netflix usa classificadores para recomendar filmes. Para a Netflix, o valor desse tipo de aplicação é que, 
quanto mais filmes assistirmos, maior será a sua receita; 
2. o Facebook usa classificadores para recomendar novas amizades para a nossa rede de relacionamento. 
Para o Facebook, o valor desse tipo de aplicação é que, quanto maior nossa rede de relacionamento, maior será a 
sua receita; 
3. um banco de varejo usa classificadores para detectar se uma operação com cartão de débito ou crédito é ou 
não uma operação fraudulenta. Para o banco, o valor dessa aplicação é que, quanto antes operações fraudulentas 
forem detectadas, mais rapidamente o banco pode agir para impedir perdas para seus clientes e para ele próprio; 
4. uma concessionária de distribuição de energia elétrica usa classificadores para identificar casos potenciais 
de roubo de energia da rede, os famosos “gatos”. Para as concessionárias de distribuição de energia elétrica, o 
valor dessa aplicação é evitar prejuízo com o furto de energia da rede, além do relevante aspecto de prevenção de 
acidentes decorrentes de instalações clandestinas. 
Está correto o que se afirma em: 
 
 
 
QUESTÃO 10 
Discutimos sobre classificadores determinísticos e probabilísticos. Demos, como exemplo, uma variável resposta 
qualitativa com dois níveis (classes), o indivíduo está infectado pelo vírus HIV ( ) ou não está infectado (
), dado um conjunto de sintomas que ele apresenta. 
 
Reveja esse assunto e analise as afirmativas a seguir. 
 
1. Um classificador determinístico vai dizer se o indivíduo está ou não está infectado, dados os sintomas que 
apresenta. 
2. Um classificador probabilístico vai dizer qual é a probabilidade de o indivíduo estar ou não infectado, dados 
os sintomas que apresenta. 
3. No jargão da estatística, escrever significa que a variável aleatória resultou no valor , em que é 
um dos possíveis valores que a variável aleatória pode assumir (ou seja, uma de suas classes, no caso, das 
variáveis qualitativas). 
4. Nesse mesmo jargão, escrever significa a probabilidade de ser igual a um dos seus 
possíveis valores , quando a variável de entrada é igual a (dado que ). 
 
 
Está correto o que se afirma em:

Continue navegando