Buscar

Estatística aplicada ao Data Science

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Pergunta 1 
1 em 1 pontos 
 
 O ser humano tem enorme facilidade 
em agrupar, por similaridade, e 
classificar coisas, todos os tipos de 
coisas. Por conta disso, problemas de 
classificação são muito frequentes no 
mundo, mais frequentes que problemas 
de regressão. Fornecemos alguns 
exemplos de aplicação de métodos de 
classificação no mundo dos negócios. 
Dentre esses exemplos, encontramos: 
 
1. a Netflix usa 
classificadores para 
recomendar filmes. Para a 
Netflix, o valor desse tipo 
de aplicação é que, 
quanto mais filmes 
assistirmos, maior será a 
sua receita; 
2. o Facebook usa 
classificadores para 
recomendar novas 
amizades para a nossa 
rede de relacionamento. 
Para o Facebook, o valor 
desse tipo de aplicação é 
que, quanto maior nossa 
rede de relacionamento, 
maior será a sua receita; 
3. um banco de varejo usa 
classificadores para 
detectar se uma operação 
com cartão de débito ou 
crédito é ou não uma 
operação fraudulenta. 
Para o banco, o valor 
dessa aplicação é que, 
quanto antes operações 
fraudulentas forem 
detectadas, mais 
rapidamente o banco 
pode agir para impedir 
perdas para seus clientes 
e para ele próprio; 
4. uma concessionária de 
distribuição de energia 
elétrica usa 
classificadores para 
identificar casos 
potenciais de roubo de 
energia da rede, os 
famosos “gatos”. Para as 
concessionárias de 
distribuição de energia 
elétrica, o valor dessa 
aplicação é evitar prejuízo 
com o furto de energia da 
rede, além do relevante 
aspecto de prevenção de 
acidentes decorrentes de 
instalações clandestinas. 
2. 
 
Está correto o que se afirma em: 
 
 
Resposta 
Selecionada: 
I, II, III e IV. 
Resposta Correta: 
I, II, III e IV. 
Comentário da 
resposta: 
Resposta correta. 
Todos os exemplos 
listados nesta 
questão são 
problemas de 
classificação, os 
quais, como 
dissemos no 
enunciado, são 
muito frequentes 
no mundo. Em 
todos eles, a 
variável resposta é 
uma variável 
qualitativa, ou 
dicotômica, ou 
politômica. 
 
Pergunta 2 
1 em 1 pontos 
 
 Naturalmente, dados ocupam uma 
posição central, tanto na estatística 
quanto na ciência dos dados. Entendê-
los, saber da sua natureza, o que 
representam, é de suma importância, 
antes da realização de qualquer análise 
ou projeto. Os dados são divididos 
entre quantitativos e qualitativos, na 
estatística e na ciência dos dados. 
Relativamente aos qualitativos, analise 
as afirmativas a seguir e assinale V 
para a(s) Verdadeira(s) e F para a(s) 
Falsa(s). 
 
1. ( ) Dados qualitativos 
dicotômicos são dados 
observados de variáveis 
qualitativas que podem 
assumir apenas dois 
níveis (também chamados 
de classes) como seus 
valores, tais como sexo 
(feminino ou masculino), 
ocupação (empregado ou 
desempregado), 
localização (bairro ou 
centro), emprego estável 
(sim ou não), inadimplente 
(sim ou não). 
2. ( ) Dados qualitativos 
politômicos são aqueles 
oriundos de variáveis 
qualitativas que podem 
assumir três ou mais 
níveis como seus valores, 
tais como classe social (A, 
B, C, D e E), escolaridade 
(fundamental, médio, 
superior), gravidade da 
doença (baixa, média, 
alta). 
3. ( ) A função table() do R 
permite a contagem da 
frequência de cada nível 
assumido por uma 
variável qualitativa em 
uma dada amostra, e foi 
usada pela jovem cientista 
de dados para contar a 
frequência de pessoas 
com ou sem emprego 
estável e se ficaram ou 
não inadimplentes com o 
pagamento das faturas do 
cartão no período 
amostrado. 
4. ( ) Um mosaicplot permite 
a visualização gráfica da 
relação entre duas 
variáveis qualitativas. Foi 
usado por uma jovem 
cientista de dados para 
examinar a possível 
relação entre duas 
variáveis qualitativas 
dicotômicas: pessoas com 
ou sem emprego estável e 
se ficaram ou não 
inadimplentes com o 
pagamento das faturas do 
cartão de crédito ao longo 
do período amostrado. Ela 
percebeu, ao ver o gráfico 
resultante (ver figura 
adiante), que parece 
haver um maior nível de 
inadimplência com o 
cartão entre aquelas que 
não têm emprego estável. 
3. 
 
 
 
Assinale a alternativa que 
apresenta a sequência correta. 
 
 
Resposta 
Selecionada: 
V, V, V, V. 
Resposta Correta: 
 
V, V, V, V. 
Comentário da 
resposta: 
Resposta 
correta. Todas 
asserções desta 
questão são 
verdadeiras. 
Dados 
qualitativos 
dicotômicos são 
dados 
observados de 
variáveis 
qualitativas que 
podem assumir 
apenas dois 
níveis. Dados 
qualitativos 
politômicos são 
aqueles 
oriundos de 
variáveis 
qualitativas que 
podem assumir 
três ou mais 
níveis como seus 
valores. A função 
table() do R 
permite a 
contagem da 
frequência de 
cada nível 
assumido por 
uma variável 
qualitativa em 
uma dada 
amostra. O 
mosaicplot 
permite a 
visualização 
gráfica da 
relação entre 
duas variáveis 
qualitativas. 
 
Pergunta 3 
1 em 1 pontos 
 
 Discutimos o que são aprendizagem 
supervisionada e não supervisionada. 
Vimos que é na forma como tratamos 
as variáveis estudadas que se dá a 
diferença entre esses dois tipos de 
aprendizagens, supervisionada e não 
supervisionada. Esses dois tipos são os 
mais importantes dentre os diversos 
tipos de aprendizagem. 
 
Relativamente a esse assunto, analise 
as afirmativas a seguir. 
 
1. Na aprendizagem 
supervisionada, definimos 
uma das variáveis 
estudadas como sendo a 
variável resposta, a qual 
responde em função dos 
valores assumidos pelas 
outras variáveis, as quais 
são chamadas de 
variáveis de entrada. 
2. Especificamente na 
aprendizagem 
supervisionada, também 
denominamos uma 
variável resposta de 
variável de saída ou 
variável dependente. 
3. Especificamente na 
aprendizagem 
supervisionada, também 
denominamos uma 
variável de entrada de 
variável regressora, 
variável preditora ou 
variável independente. 
4. Na aprendizagem não 
supervisionada, tratamos 
todas as variáveis 
estudadas da mesma 
forma, sem procurar 
explicar o comportamento 
de uma delas em função 
dos valores assumidos 
pelas outras. 
4. 
 
 
Está correto o que se afirma em: 
 
Resposta 
Selecionada: 
 
I, II, III e IV. 
Resposta Correta: 
 
I, II, III e IV. 
Comentário da 
resposta: 
Resposta 
correta. Na 
aprendizagem 
supervisionada, 
definimos uma 
das variáveis 
estudadas como 
sendo a variável 
resposta, a qual 
responde em 
função dos 
valores 
assumidos pelas 
outras variáveis, 
as quais são 
chamadas de 
variáveis de 
entrada; na 
aprendizagem 
supervisionada, 
também 
chamamos a 
variável resposta 
de variável de 
saída ou variável 
dependente e as 
variáveis de 
entrada, de 
variáveis 
regressoras, 
preditoras ou 
independentes. 
Na 
aprendizagem 
não 
supervisionada, 
tratamos todas 
as variáveis 
estudadas da 
mesma forma, 
sem procurar 
explicar o 
comportamento 
de uma delas em 
função dos 
valores 
assumidos pelas 
outras. 
 
Pergunta 4 
1 em 1 pontos 
 
 Vimos que há dois principais tipos de 
aprendizagem supervisionada: 
problema de regressão e problema de 
classificação. São os tipos de variáveis 
resposta dos dados em análise que 
distinguem esses dois tipos entre si. 
 
Relativamente a esses dois tipos, 
analise as afirmativas a seguir. 
 
1. Na aprendizagem 
supervisionada, um 
problema de regressão é 
um no qual a variável 
resposta é qualitativa. 
2. Na aprendizagem 
supervisionada, um 
problema de regressão é 
um no qual a variável 
resposta é quantitativa. 
3. Na aprendizagem 
supervisionada, um 
problema de classificação 
é um no qual a variável 
resposta é qualitativa. 
4. Na aprendizagem 
supervisionada, um 
problema de classificação 
é um no qual a variável 
resposta é quantitativa. 
5. 
 
Está correto o que se afirma em: 
Resposta 
Selecionada: 
 
II e III, apenas. 
Resposta Correta: 
 
II e III, apenas. 
Comentário da 
resposta: 
Resposta 
correta. Na 
aprendizagem 
supervisionada, 
um problema de 
regressão é um 
no qual a 
variável resposta 
é quantitativae 
um problema de 
classificação é 
um no qual a 
variável resposta 
é qualitativa. 
 
Pergunta 5 
1 em 1 pontos 
 
 Os dados cedidos pelo gerente do 
banco estavam bem organizados e 
livres de erros. A nossa jovem cientista 
de dados não precisou, portanto, fazer 
uma limpeza e pré-tratamento dos 
dados e pode prosseguir imediatamente 
para uma análise descritiva deles antes 
do desenvolvimento do modelo. 
Tendo isso em vista, analise as 
afirmativas a seguir e assinale V para 
a(s) Verdadeira(s) e F para a(s) 
Falsa(s). 
 
1. ( ) Chamamos de análise 
descritiva dos dados seus 
sumários (ou resumos) 
estatísticos dos mesmos e 
a sua visualização. 
Ambos, os sumários e as 
visualizações, nos ajudam 
a entender o 
comportamento dos dados 
e, através deles, do 
fenômeno ou processo 
estudado. 
2. ( ) São quatro as variáveis 
estudadas pela cientista 
de dados: renda mensal 
da pessoa, seus gastos 
médios com o cartão, se a 
pessoa tinha ou não um 
emprego estável ao longo 
do período amostrado e 
se ficou ou não 
inadimplente ao longo do 
deste período. 
3. ( ) Para criar sumários 
estatísticos das variáveis 
quantitativas, a renda 
mensal da pessoa e seus 
gastos com o cartão, a 
cientista de dados usou as 
funções min(), mean() e 
max() do software 
estatístico R para calcular 
os valores mínimo, médio 
e máximo dos dados 
observados para essas 
variáveis. 
4. ( ) Para criar sumários 
estatísticos das variáveis 
qualitativas, se a pessoa 
tinha ou não um emprego 
estável e se tinha ou não 
ficado inadimplente com o 
pagamento das faturas do 
cartão ao longo do 
período amostrado, a 
cientista de dados usou a 
função table() do software 
estatístico R para calcular 
a frequência com que os 
níveis de cada uma 
dessas variáveis se 
manifestaram na amostra 
estudada. 
6. 
 
Assinale a alternativa que 
apresenta a sequência correta. 
 
 
Resposta 
Selecionada: 
V, V, V, V. 
Resposta Correta: 
V, V, V, V. 
Comentário da 
resposta: 
Resposta 
correta. 
Chamamos de 
análise descritiva 
dos dados seus 
sumários (ou 
resumos) e a sua 
visualização por 
meio de gráficos. 
São quatro as 
variáveis 
estudadas pela 
cientista de 
dados. Para criar 
sumários 
estatísticos das 
variáveis 
quantitativas, a 
cientista de 
dados usou as 
funções min(), 
mean() e max() 
do software 
estatístico R, e 
para os 
sumários 
estatísticos das 
variáveis 
qualitativas, 
usou a função 
table() do 
mesmo 
software, e 
assim calculou a 
frequência com 
que os níveis de 
cada uma dessas 
variáveis se 
manifestaram na 
amostra 
analisada. 
 
Pergunta 6 
1 em 1 pontos 
 
 A atividade de venda de produtos 
financeiros por bancos, tais como 
cartões de crédito, requer que se faça 
uma avaliação do cliente. São focos 
dessa avaliação aprovar ou não um 
cartão de crédito para o cliente e, se 
aprovado, definir o limite do cartão, ou 
seja, o valor do crédito a conceder. 
 
Com base nessa introdução, analise as 
afirmativas a seguir. 
 
1. O primeiro foco da 
avaliação é um problema 
de regressão: aprovar 
(sim ou não) o cartão de 
crédito, uma variável 
qualitativa dicotômica, 
com dois níveis (classes). 
2. O primeiro foco da 
avaliação é um problema 
de classificação: aprovar 
(sim ou não) o cartão de 
crédito, uma variável 
qualitativa dicotômica, 
com dois níveis (classes). 
3. O segundo foco da 
avaliação é um problema 
de classificação, predizer 
o valor do limite (do 
crédito) do cartão. 
4. O segundo foco da 
avaliação é um problema 
de regressão, predizer o 
valor do limite (do crédito) 
do cartão. 
7. 
 
Está correto o que se afirma em: 
 
 
Resposta 
Selecionada: 
II e IV, apenas. 
Resposta Correta: 
 
II e IV, apenas. 
Comentário da 
resposta: 
Resposta correta. 
O primeiro foco 
da avaliação é um 
problema de 
classificação, 
aprovar (sim ou 
não) o cartão de 
crédito, uma 
variável 
qualitativa 
dicotômica, com 
dois níveis 
(classes); o 
segundo foco da 
avaliação é um 
problema de 
regressão, ou 
seja, predizer o 
valor do limite 
(de crédito) do 
cartão a ser 
concedido para o 
cliente. Esse 
valor é uma 
variável 
quantitativa, cuja 
predição é feita 
por algoritmos de 
regressão. 
 
Pergunta 7 
1 em 1 pontos 
 
 Tarefas de classificação são muitos 
comuns na estatística e na ciência dos 
dados, por serem muito comuns em 
todas atividades humanas, na ciência, 
na vida social ou nos negócios. 
Especificamente, discutimos aplicações 
de modelos preditivos de classificação 
baseados em modelos de regressão 
logística simples ou múltipla. 
Com isso em mente, analise as 
afirmativas a seguir e assinale V para 
a(s) Verdadeira(s) e F para a(s) 
Falsa(s). 
 
1. Regressão logística pode 
ser empregada na 
predição do peso médio 
(massa corporal média) 
de uma pessoa em função 
de sua altura, idade e 
sexo. 
2. Regressão logística pode 
ser empregada na 
predição do consumo 
médio de combustível de 
um carro em função da 
potência do seu motor e 
do seu peso. 
3. Regressão logística pode 
ser empregada na 
predição da probabilidade 
de uma pessoa votar em 
um determinado candidato 
e não nos outros em 
função de sua 
escolaridade, idade, sexo 
e classe social. 
4. Regressão logística pode 
ser empregada na 
predição da probabilidade 
de a pessoa ser diabética 
em função de um conjunto 
de sintomas clínicos que 
apresenta. 
8. 
 
Assinale a alternativa que 
apresenta a sequência correta. 
 
 
Resposta 
Selecionada: 
F, F, V, V. 
Resposta Correta: 
 
F, F, V, V. 
Comentário da 
resposta: 
Resposta 
correta. As duas 
primeiras 
situações se 
referem à 
predição de 
variáveis 
resposta 
quantitativas, o 
que não é 
possível com 
modelos de 
regressão 
logística; já as 
duas últimas 
situações são 
adequadas ao 
emprego de 
modelos de 
regressão 
logística. 
 
Pergunta 8 
1 em 1 pontos 
 
 Vimos que uma jovem cientista de 
dados realizou o treino (ajuste) de um 
modelo de regressão logística múltipla 
aos dados da amostra. Os resultados 
que encontrou foram muito ricos, 
sugerindo uma série de explicações, 
aprendidas pelo algoritmo com base 
nos dados fornecidos. Veja que 
dizemos “explicações sugeridas”, pois 
qualquer resultado de um algoritmo 
deve ser confrontado com especialistas 
da área em estudo. Contudo, vamos 
rever o que o modelo de regressão 
múltipla treinado pela jovem cientista de 
dados sugere. Para isso, analise as 
afirmativas a seguir. 
 
1. A probabilidade da 
inadimplência cresce com 
o aumento dos gastos 
médios com o cartão de 
crédito. Isto, que nos 
parece óbvio, foi o que os 
dados “contaram” para o 
algoritmo de regressão 
logística múltipla. 
2. A probabilidade da 
inadimplência cresce com 
o aumento da renda 
média mensal das 
pessoas. Isto não é tão 
óbvio e provavelmente 
não teríamos coragem de 
generalizar para outras 
situações, mas foi o que 
os dados da amostra do 
gerente do banco 
“contaram” para o 
algoritmo de regressão 
logística múltipla. 
3. Para duas pessoas com a 
mesma renda mensal e o 
mesmo gasto mensal com 
cartão de crédito, a 
probabilidade de 
inadimplência com o 
cartão é maior para 
aquela sem emprego 
estável. Novamente, isto 
foi o que os dados 
amostrados “contaram” 
para o algoritmo de 
regressão logística 
múltipla. 
4. O modelo de regressão 
logística múltipla, ajustado 
aos dados da amostra, 
consegue predizer os 
efeitos da renda mensal 
da pessoa, do seu gasto 
médio mensal com cartão 
de crédito e se ela tem ou 
não um emprego estável, 
na probabilidade de a 
pessoa ficar inadimplente 
com o cartão de crédito. 
Um algoritmo desse tipo 
pode ajudar no processo 
decisório de um banco 
quanto à aprovação de 
cartão de crédito, ao lado 
de outros critérios e 
ferramentas analíticas 
disponíveis para o banco. 
9. 
 
Está correto o que se afirma em: 
 
 
Resposta 
Selecionada: 
 
I, II, III e IV. 
 
 
Resposta Correta: 
 
I, II, III e IV. 
 
 
Comentário da 
resposta: 
Respostacorreta. Todas as 
asserções desta 
questão são 
verdadeiras. 
Para os dados 
analisados, 
probabilidade da 
inadimplência 
cresce com o 
aumento dos 
gastos médios 
com o cartão de 
crédito e com o 
aumento da 
renda média 
mensal das 
pessoas. Para 
duas pessoas 
com a mesma 
renda mensal e 
o mesmo gasto 
mensal com 
cartão de 
crédito, a 
probabilidade de 
inadimplência 
com o cartão é 
maior para 
aquela sem 
emprego estável. 
E o modelo de 
regressão 
logística múltipla 
é um modelo 
preditivo, um 
classificador 
probabilístico. 
 
Pergunta 9 
1 em 1 pontos 
 
 O modelo de regressão logística 
simples desenvolvido por uma jovem 
cientista de dados para a predição da 
probabilidade de inadimplência com o 
cartão de crédito foi: 
 
 
 
Tomando como base esse modelo, que 
foi ajustado aos dados da amostra 
cedida pelo gerente, podemos estimar o 
valor esperado para a probabilidade de 
inadimplência com cartão de crédito 
das pessoas. Por exemplo, vamos 
considerar duas pessoas, uma com um 
gasto de médio mensal com o cartão de 
R$ 500,00, e a outra com um gasto 
médio mensal de R$ 1.000,00. Usando 
o modelo ajustado anterior, obtemos, 
respectivamente (assinale a alternativa 
correta): 
 
 
Resposta 
Selecionada: 
7% e 27%. 
 
 
 
 
Resposta Correta: 
 
7% e 27%. 
 
 
 
 
Comentário da 
resposta: 
Resposta 
correta. Esses 
valores são 
aqueles 
calculados pela 
simples 
substituição da 
variável de 
entrada 
pelos valores R$ 
500,00 e R$ 
1.000,00, 
respectivamente, 
na equação do 
modelo. 
 
Pergunta 10 
1 em 1 pontos 
 
 Dados podem aparecer na forma de 
textos, imagens, vídeos, sons, tabelas, 
listas, sequências, séries, etc. São 
muitos os dados que hoje coletamos de 
diferentes fontes, e muitas as formas de 
organizá-los e armazená-los. Uma 
dessas forma, talvez a mais importante 
delas, são os dados estruturados. 
 
Relativamente a esse assunto, analise 
as afirmativas a seguir. 
 
1. Dados estruturados são 
dados que não possuem 
uma estrutura regular e 
repetitiva, seguindo um 
padrão comum adotado 
pelas ciências da 
computação, estatística e 
ciência dos dados. 
2. A forma de organização 
básica dos dados, 
preferida na estatística e 
na ciência dos dados, é a 
forma tabular, na qual as 
variáveis são dispostas 
nas linhas e as 
observações são 
dispostas nas colunas. 
3. Dados estruturados são 
dados que possuem uma 
estrutura regular e 
repetitiva, seguindo um 
padrão comum adotado 
pelas ciência da 
computação, estatística e 
ciência dos dados. 
4. A forma de organização 
básica dos dados, 
preferida na estatística e 
na ciência dos dados, é a 
forma tabular, na qual as 
variáveis são dispostas 
nas colunas e as 
observações são 
dispostas nas linhas. 
10. 
 
Está correto o que se afirma em: 
 
Resposta 
Selecionada: 
III e IV, apenas. 
Resposta Correta: 
 
III e IV, apenas. 
Comentário da 
resposta: 
Resposta 
correta. Dados 
estruturados são 
dados que 
possuem uma 
estrutura regular 
e repetitiva, 
seguindo um 
padrão comum 
adotado pelas 
ciência da 
computação, 
estatística e 
ciência dos 
dados. Também 
está correto 
dizer que a 
forma de 
organização 
básica dos 
dados, preferida 
na estatística e 
na ciência dos 
dados, é a forma 
tabular, na qual 
as variáveis são 
dispostas nas 
colunas e as 
observações são 
dispostas nas 
linhas. 
 
 
	Pergunta 1
	Pergunta 2
	Pergunta 3
	Pergunta 4
	Pergunta 5
	Pergunta 6
	Pergunta 7
	Pergunta 8
	Pergunta 9
	Pergunta 10

Continue navegando