Buscar

Prévia do material em texto

Revisar envio do teste: ATIVIDADE 2 (A2)
AIM1836 ESTATISTICA APLICADA AO DATA SCIENCE EAD - 202020.115237.05 Unidade 2
Revisar envio do teste: ATIVIDADE 2 (A2) 
Usuário FABIO ROBERTO LEMOS
Curso AIM1836 ESTATISTICA APLICADA AO DATA SCIENCE EAD - 202020.115237.05
Teste ATIVIDADE 2 (A2)
Iniciado 27/10/20 09:28
Enviado 12/11/20 22:44
Status Completada
Resultado da tentativa 10 em 10 pontos 
Tempo decorrido 397 horas, 15 minutos
Resultados exibidos Respostas enviadas, Respostas corretas, Comentários
Pergunta 1
Resposta Selecionada:
 
Resposta Correta:
 
Feedback
da
resposta:
Ao longo das nossas discussões, demos foco a um classificador chamado de regressão logística
que, apesar do nome regressão (esse nome por razões históricas e por conta de algumas de suas
características), é usado como um classificador. Mas também vimos que existem outros tipos de
classificadores. 
Relativamente a esse assunto de algoritmos de classificação, analise as afirmativas a seguir. 
 
Regressão logística é o único método de aprendizagem supervisionada que é utilizado para
classificação, todos outros métodos são métodos de regressão.
Apesar do nome regressão logística, o que acaba sendo um pouco confuso para iniciantes,
na verdade este é um dos vários métodos de aprendizagem supervisionada utilizado para
classificação.
Dentre os métodos utilizados para classificação se encontram regressão logística, análise
discriminante linear (LDA = Linear Discriminant Analysis), árvores de decisão para
classificação, máquinas de vetores de suporte (SVM = support vector machines) e k-
vizinhos mais próximos (KNN = k-nearest neighbors).
Regressão linear não é um método de classificação, mas, sim, um dos métodos preditivos
de aprendizagem supervisionada usados na predição de valores de variáveis respostas
quantitativas.
 
Está correto o que se afirma em: 
 
 
II, III e IV, apenas. 
 
 
 
II, III e IV, apenas. 
 
 
 
Resposta correta. A única asserção incorreta desta questão é a primeira, que afirma
que regressão logística é o único método de aprendizagem supervisionada que é
utilizado para classificação, todos outros métodos são métodos de regressão.
Minha Área
1 em 1 pontos
FABIO ROBERTO LEMOS
http://uniritter.blackboard.com/
https://uniritter.blackboard.com/webapps/blackboard/execute/courseMain?course_id=_645711_1
https://uniritter.blackboard.com/webapps/blackboard/content/listContent.jsp?course_id=_645711_1&content_id=_14357127_1&mode=reset
https://uniritter.blackboard.com/webapps/portal/execute/tabs/tabAction?tab_tab_group_id=_375_1
https://uniritter.blackboard.com/webapps/login/?action=logout
Pergunta 2
Resposta Selecionada: 
Resposta Correta: 
Feedback
da
resposta:
Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, uma jovem
cientista de dados usou boxplots (diagramas de caixas). Como cientista de dados, ela sabia
exatamente em que situações empregar boxplots. E você, será que você também já sabe? 
 
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
( ) Para examinar visualmente a relação entre duas variáveis, em que uma é quantitativa e a
outra é qualitativa, não é possível a utilização de gráficos de dispersão.
( ) Boxplots são uma solução inteligente para a visualização da relação entre uma variável
quantitativa e uma variável qualitativa, em que no eixo horizontal indicamos os níveis da
variável qualitativa e no eixo vertical, a variação dos valores observados para a variável
quantitativa.
( ) Para examinar visualmente a relação entre duas variáveis quantitativas, um dos gráficos
preferidos é o diagrama de caixas, também conhecido como boxplot.
( ) Na construção de um boxplot, podemos representar no eixo vertical os níveis da variável
qualitativa e no eixo horizontal, os valores da variável quantitativa. Nesse caso, a
visualização da variação dos dados da variável quantitativa é exibida horizontalmente, e os
níveis (classes) da variável qualitativa são exibidos verticalmente.
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
V, V, F, V.
V, V, F, V.
Resposta correta. A única asserção falsa é a que afirma que para examinar
visualmente a relação entre duas variáveis quantitativas, um dos gráficos preferidos é
o diagrama de caixas, também conhecido como boxplot. Para examinar visualmente
a relação entre duas variáveis, em que uma é quantitativa e a outra é qualitativa, não
é possível a utilização de gráficos de dispersão. Para isso, usamos boxplots, em que,
no eixo horizontal, indicamos os níveis da variável qualitativa e, no eixo vertical, a
variação dos valores observados para a variável quantitativa. Podemos inverter a
posição desses eixos.
Pergunta 3
Continuando com o mesmo caso da questão anterior, relativa à aprovação, pelos bancos, de
crédito na forma de cartão de crédito, como se fazia, no passado, a aprovação da concessão de
cartões de crédito pelos bancos? E, hoje em dia, como os bancos fazem essa aprovação? 
 
Reflita sobre essas perguntas e suas respostas, analise as afirmativas a seguir e assinale V 
para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
 
( ) No passado, os bancos faziam, e ainda fazem, ao menos em parte, a aprovação da
concessão de cartões de crédito através da definição de regras que devem ser atendidas
por cada cliente, tais como idade, emprego estável, renda fixa, dívidas pequenas, nome
limpo e casa própria.
( ) Hoje em dia, dentre outras alternativas, uma que é frequentemente usada pelos bancos
são algoritmos de aprendizagem supervisionada que classificam se o cliente é um potencial
bom ou mau pagador.
( ) Para usarmos algoritmos de classificação com esse propósito de aprovar ou não cartões
de crédito, precisamos de dados. Ensinamos ao algoritmo, com base nos dados que lhe são
passados, a predizer clientes que são maus pagadores potenciais das faturas do cartão.
Dessa forma, se o algoritmo, ao ser alimentado com os dados referentes a um novo cliente,
classificar esse cliente como um mau pagador potencial, o banco não aprovará o cartão.
( ) Para equipes de análise de crédito, poder contar com a ajuda de um software com a
capacidade de recomendar a aprovação ou não da concessão do cartão é de grande valor.
( ) A recomendação feita pelo software poderá ser tratada ao lado de outras regras de
crédito para uma decisão final sobre a concessão de cartão para o cliente.
 
1 em 1 pontos
1 em 1 pontos
Resposta Selecionada:
 
Resposta Correta:
 
Feedback
da
resposta:
Assinale a alternativa que apresenta a sequência correta. 
 
 
V, V, V, V. 
 
 
V, V, V, V. 
 
 
Resposta correta. No passado, os bancos faziam a aprovação da concessão de
cartões de crédito através da definição de regras que deviam ser atendidas por cada
cliente; hoje em dia, algoritmos de aprendizado de máquina classificam se o cliente é
um potencial bom ou mau pagador. Para isso, dados são necessários. Poder contar
com a ajuda de um software com a capacidade de recomendar a aprovação ou não
da concessão do cartão é de grande valor para a equipe de análise de crédito. A
recomendação feita pelo software poderá ser tratada ao lado de outras regras de
crédito para uma decisão final sobre a concessão de cartão para o cliente.
Pergunta 4
Resposta Selecionada: 
Resposta Correta: 
Feedback
da
resposta:
O primeiro foco da avaliação é um problema de regressão: aprovar (sim ou não) o cartão de
crédito, uma variável qualitativa dicotômica, com dois níveis (classes).
O primeiro foco da avaliação é um problema de classificação: aprovar (sim ou não) o cartão
de crédito, uma variável qualitativa dicotômica, com dois níveis (classes).
O segundo foco da avaliação é um problema de classificação, predizer o valor do limite (do
crédito) do cartão.
O segundo foco da avaliação é um problema de regressão, predizer o valor do limite (do
crédito) do cartão.
A atividade de venda de produtos financeiros por bancos, tais como cartões de crédito, requer que
se faça uma avaliação do cliente. São focos dessaavaliação aprovar ou não um cartão de crédito
para o cliente e, se aprovado, definir o limite do cartão, ou seja, o valor do crédito a conceder. 
 
Com base nessa introdução, analise as afirmativas a seguir. 
 
 
Está correto o que se afirma em: 
 
 
II e IV, apenas.
II e IV, apenas.
Resposta correta. O primeiro foco da avaliação é um problema de classificação,
aprovar (sim ou não) o cartão de crédito, uma variável qualitativa dicotômica, com
dois níveis (classes); o segundo foco da avaliação é um problema de regressão, ou
seja, predizer o valor do limite (de crédito) do cartão a ser concedido para o cliente.
Esse valor é uma variável quantitativa, cuja predição é feita por algoritmos de
regressão.
Pergunta 5
Os dados cedidos pelo gerente do banco estavam bem organizados e livres de erros. A nossa
jovem cientista de dados não precisou, portanto, fazer uma limpeza e pré-tratamento dos dados e
pode prosseguir imediatamente para uma análise descritiva deles antes do desenvolvimento do
modelo. 
Tendo isso em vista, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para
a(s) Falsa(s). 
 
( ) Chamamos de análise descritiva dos dados seus sumários (ou resumos) estatísticos dos
mesmos e a sua visualização. Ambos, os sumários e as visualizações, nos ajudam a
1 em 1 pontos
1 em 1 pontos
Resposta Selecionada: 
Resposta Correta: 
Feedback
da
resposta:
entender o comportamento dos dados e, através deles, do fenômeno ou processo
estudado.
( ) São quatro as variáveis estudadas pela cientista de dados: renda mensal da pessoa,
seus gastos médios com o cartão, se a pessoa tinha ou não um emprego estável ao longo
do período amostrado e se ficou ou não inadimplente ao longo do deste período.
( ) Para criar sumários estatísticos das variáveis quantitativas, a renda mensal da pessoa e
seus gastos com o cartão, a cientista de dados usou as funções min(), mean() e max() do
software estatístico R para calcular os valores mínimo, médio e máximo dos dados
observados para essas variáveis.
( ) Para criar sumários estatísticos das variáveis qualitativas, se a pessoa tinha ou não um
emprego estável e se tinha ou não ficado inadimplente com o pagamento das faturas do
cartão ao longo do período amostrado, a cientista de dados usou a função table() do
software estatístico R para calcular a frequência com que os níveis de cada uma dessas
variáveis se manifestaram na amostra estudada.
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
V, V, V, V.
V, V, V, V.
Resposta correta. Chamamos de análise descritiva dos dados seus sumários (ou
resumos) e a sua visualização por meio de gráficos. São quatro as variáveis
estudadas pela cientista de dados. Para criar sumários estatísticos das variáveis
quantitativas, a cientista de dados usou as funções min(), mean() e max() do software
estatístico R, e para os sumários estatísticos das variáveis qualitativas, usou a função
table() do mesmo software, e assim calculou a frequência com que os níveis de cada
uma dessas variáveis se manifestaram na amostra analisada.
Pergunta 6
Resposta Selecionada: 
Resposta Correta: 
Feedback
da
resposta:
A jovem cientista de dados, tendo em mãos os dados que lhe foram passados pelo gerente do
banco, precisou denominá-los corretamente para a fase de treino (ajuste) do algoritmo preditivo.
Ela escolheu a regressão logística como seu algoritmo preditivo, para classificar o potencial (a
probabilidade) de uma pessoa ficar ou não inadimplente com o pagamento das faturas do cartão
de crédito. 
 
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
( ) A jovem cientista de dados escolheu como variável resposta a renda mensal da pessoa,
e tratou as demais variáveis como variáveis de entrada.
( ) A jovem cientista de dados escolheu o gasto médio mensal da pessoa com cartão de
crédito como a variável resposta, e tratou as demais como variáveis de entrada.
( ) A jovem cientista de dados não definiu qualquer das quatro variáveis como a variável
resposta, e decidiu realizar uma análise baseada em aprendizagem não supervisionada.
( ) A jovem cientista de dados escolheu como variável resposta se a pessoa havia, ao longo
do período pesquisado, ficado inadimplente com o pagamento das faturas do cartão ao
menos uma vez (Sim ou Não), e tratou as demais variáveis como variáveis de entrada.
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
F, F, F, V.
F, F, F, V.
Resposta correta. A jovem cientista de dados escolheu como variável resposta se a
pessoa havia, ao longo do período pesquisado, ficado inadimplente com o
pagamento das faturas do cartão ao menos uma vez (Sim ou Não), e tratou as
demais variáveis como variáveis de entrada.
Pergunta 7
1 em 1 pontos
1 em 1 pontos
Resposta Selecionada: 
Resposta Correta: 
Feedback
da
resposta:
Estudamos algoritmos preditivos com base em (1) modelos de regressão linear e (2) modelos de
regressão logística. Esses modelos são aplicados em situações bem distintas, que dependem,
essencialmente, da natureza da variável resposta, também chamada de variável dependente. 
 
Com esses dois modelos em mente, analise as afirmativas a seguir. 
 
Modelos de regressão logística simples são usados na predição de uma variável resposta
qualitativa quando há mais do que uma variável de entrada.
Modelos de regressão linear simples são usados na predição de uma variável resposta
qualitativa quando se considera apenas uma variável de entrada.
Um possível modelo de regressão logística simples para a predição da probabilidade de
inadimplência é:
 
 
 
em que e são os coeficientes do modelo, , o gasto médio mensal da pessoa com cartão
de crédito e , o valor esperado para a probabilidade de a pessoa ficar ou não inadimplente
com o pagamento das faturas do cartão. 
 
O método comumente usado para calcular os valores dos coeficientes e é o Método
da Máxima Verossimilhança. Para isso, pode-se fazer uso do software estatístico R.
 
Está correto o que se afirma em: 
 
 
II, III e IV, apenas.
II, III e IV, apenas.
Resposta correta. Modelo de regressão logística é dito simples quanto se considera
apenas uma variável de entrada; o modelo exposto nesta questão é, de fato, aquele
adotado pela cientista de dados, e o método que ela usou para determinar os
coeficientes do modelo foi o Método da Máxima Verossimilhança, através do software
estatístico R.
Pergunta 8
Resposta Selecionada: 
O ser humano tem enorme facilidade em agrupar, por similaridade, e classificar coisas, todos os
tipos de coisas. Por conta disso, problemas de classificação são muito frequentes no mundo, mais
frequentes que problemas de regressão. Fornecemos alguns exemplos de aplicação de métodos
de classificação no mundo dos negócios. Dentre esses exemplos, encontramos: 
 
a Netflix usa classificadores para recomendar filmes. Para a Netflix, o valor desse tipo de
aplicação é que, quanto mais filmes assistirmos, maior será a sua receita;
o Facebook usa classificadores para recomendar novas amizades para a nossa rede de
relacionamento. Para o Facebook, o valor desse tipo de aplicação é que, quanto maior
nossa rede de relacionamento, maior será a sua receita;
um banco de varejo usa classificadores para detectar se uma operação com cartão de
débito ou crédito é ou não uma operação fraudulenta. Para o banco, o valor dessa
aplicação é que, quanto antes operações fraudulentas forem detectadas, mais rapidamente
o banco pode agir para impedir perdas para seus clientes e para ele próprio;
uma concessionária de distribuição de energia elétrica usa classificadores para identificar
casos potenciais de roubo de energia da rede, os famosos “gatos”. Para as concessionárias
de distribuição de energia elétrica, o valor dessa aplicação é evitar prejuízo com o furto de
energia da rede, além do relevante aspecto de prevenção de acidentes decorrentes de
instalações clandestinas.
 
Está correto o que se afirma em: 
 
 
I, II, III e IV.
1 em 1 pontos
RespostaCorreta: 
Feedback
da
resposta:
I, II, III e IV.
Resposta correta. Todos os exemplos listados nesta questão são problemas de
classificação, os quais, como dissemos no enunciado, são muito frequentes no
mundo. Em todos eles, a variável resposta é uma variável qualitativa, ou dicotômica,
ou politômica.
Pergunta 9
Resposta Selecionada: 
Resposta Correta: 
Feedback
da
resposta:
A estatística descritiva usa de métodos numéricos para resumir dados, também chamados de
sumários estatísticos, e de gráficos para a visualização dos dados. A jovem cientista de dados
usou algumas técnicas de visualização de dados para analisar sua amostra, mas deixou outras de
lado. 
 
Analise as afirmativas a seguir e veja quais estão coerentes com sua análise descritiva dos dados. 
 
Na sua análise descritiva dos dados da amostra, a jovem cientista de dados usou
histogramas para a visualização dos dados quantitativos das amostras, que são a renda
mensal das pessoas e seus gastos médios com o cartão de crédito.
Na sua análise descritiva dos dados da amostra, a jovem cientista de dados usou
diagramas de barras para a visualização dos dados quantitativos das amostras, que são a
renda mensal das pessoas e seus gastos médios com o cartão de crédito.
 
 
Histogramas e diagramas de barras são formas tradicionais de visualização gráfica de
dados quantitativos e qualitativos, respectivamente, na estatística e na ciência dos dados.
A jovem cientista de dados usou, para este caso, apenas histogramas, e preferiu apenas
lançar mão da função table() do software estatístico R, para determinar a frequência com
que os níveis das variáveis qualitativas se manifestaram na amostra estudada, sem fazer
uso de diagramas de barras, o que poderia ter feito, se quisesse.
 
Está correto o que se afirma em: 
 
 
I, III e IV apenas.
I, III e IV apenas.
Resposta correta. Histogramas e diagramas de barras são formas tradicionais de
visualização gráfica de dados quantitativos e qualitativos, respectivamente, na
estatística e na ciência dos dados, e a jovem cientista de dados não lançou mão de
diagramas de barras. Neste caso, para visualizar os dados qualitativos, poderia ter
feito isso, se quisesse. Diagramas de barras são usados para a visualização de
dados qualitativos, não quantitativos.
Pergunta 10
A amostra relativa aos dados de inadimplência com cartões tinha 200 observações de 4 variáveis:
a renda mensal da pessoa (R$), seu gasto médio com cartão de crédito (R$), se a pessoa tinha um
emprego estável (Sim ou Não) e se a pessoa havia, ao longo do período pesquisado, ficado
inadimplente com o pagamento de faturas do cartão ao menos uma vez (Sim ou Não). 
Reflita sobre esse caso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F
para a(s) Falsa(s). 
 
( ) Todos os dados fornecidos pelo gerente do banco à jovem cientista de dados são dados
relativos a variáveis quantitativas.
( ) Todos os dados fornecidos pelo gerente do banco à jovem cientista de dados são dados
relativos a variáveis qualitativas.
( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista de dados, dois são
relativos a uma variável quantitativa e dois são relativos a variáveis qualitativas.
( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista de dados, um é
relativo a uma variável quantitativa e os outros são relativos a variáveis qualitativas.
1 em 1 pontos
1 em 1 pontos
Domingo, 22 de Novembro de 2020 13h25min48s BRT
Resposta Selecionada:
 
Resposta Correta:
 
Feedback
da
resposta:
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
F, F, V, F. 
 
 
 
F, F, V, F. 
 
 
 
Resposta correta. Dentre os dados fornecidos pelo gerente do banco à jovem
cientista de dados, dois são quantitativos, a renda mensal da pessoa (R$) e seu
gasto médio com cartão de crédito (R$), e dois são qualitativos, se a pessoa tinha
emprego estável (Sim ou Não) e se a pessoa havia, ao longo do período pesquisado,
ficado inadimplente com o pagamento de faturas do cartão ao menos uma vez (Sim
ou Não).
← OK
javascript:launch('/webapps/gradebook/do/student/viewAttempts?course_id=_645711_1&method=list&nolaunch_after_review=true');