Buscar

Atividade (2) ESTATÍSTICA APLICADA AO DATA SCIENCE

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Usuário 
 
Curso ESTATÍSTICA APLICADA AO DATA SCIENCE 
Teste ATIVIDADE 2 (A2) 
Iniciado 21/04/21 10:18 
Enviado 21/04/21 11:13 
Status Completada 
Resultado da tentativa 10 em 10 pontos 
Tempo decorrido 54 minutos 
Resultados exibidos Respostas enviadas, Respostas corretas, Comentários 
 Pergunta 1 
1 em 1 pontos 
 
Discutimos sobre classificadores determinísticos e probabilísticos. Demos, 
como exemplo, uma variável resposta qualitativa com dois níveis 
(classes), o indivíduo está infectado pelo vírus HIV ( ) ou não está 
infectado ( ), dado um conjunto de sintomas que ele apresenta. 
 
Reveja esse assunto e analise as afirmativas a seguir. 
 
1. Um classificador determinístico vai dizer se o indivíduo está ou não está 
infectado, dados os sintomas que apresenta. 
2. Um classificador probabilístico vai dizer qual é a probabilidade de o 
indivíduo estar ou não infectado, dados os sintomas que apresenta. 
3. No jargão da estatística, escrever significa que a variável aleatória 
resultou no valor , em que é um dos possíveis valores que a 
variável aleatória pode assumir (ou seja, uma de suas classes, no caso, 
das variáveis qualitativas). 
4. Nesse mesmo jargão, escrever significa a probabilidade de ser 
igual a um dos seus possíveis valores , quando a variável de 
entrada é igual a (dado que ). 
 
 
Está correto o que se afirma em: 
 
 
 
Resposta Selecionada: 
I, II, III e IV. 
 
 
 
 
Resposta Correta: 
I, II, III e IV. 
 
 
 
Comentário 
da resposta: 
Resposta correta. Um classificador determinístico vai dizer se 
o indivíduo está ou não está infectado, dados os sintomas 
que apresenta; já um classificador probabilístico vai dizer 
qual é a probabilidade de o indivíduo estar ou não infectado; 
no jargão da estatística, escrever significa que a 
variável aleatória resultou no valor , em que é 
um dos possíveis valores que a variável aleatória pode 
assumir (ou seja, uma de suas classes, no caso das 
variáveis qualitativas) e, nesse mesmo jargão, 
escrever significa a probabilidade de ser igual a um 
dos seus possíveis valores quando a variável de 
entrada é igual a (dizemos: dado que ). 
 
 Pergunta 2 
1 em 1 pontos 
 
A amostra relativa aos dados de inadimplência com cartões tinha 200 
observações de 4 variáveis: a renda mensal da pessoa (R$), seu gasto 
médio com cartão de crédito (R$), se a pessoa tinha um emprego estável 
(Sim ou Não) e se a pessoa havia, ao longo do período pesquisado, ficado 
inadimplente com o pagamento de faturas do cartão ao menos uma vez 
(Sim ou Não). 
Reflita sobre esse caso, analise as afirmativas a seguir e assinale V para 
a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
1. ( ) Todos os dados fornecidos pelo gerente do banco à jovem cientista de 
dados são dados relativos a variáveis quantitativas. 
2. ( ) Todos os dados fornecidos pelo gerente do banco à jovem cientista de 
dados são dados relativos a variáveis qualitativas. 
3. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista de 
dados, dois são relativos a uma variável quantitativa e dois são relativos a 
variáveis qualitativas. 
4. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista de 
dados, um é relativo a uma variável quantitativa e os outros são relativos a 
variáveis qualitativas. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
Resposta Selecionada: 
F, F, V, F. 
 
 
 
Resposta Correta: 
F, F, V, F. 
 
 
 
Comentário 
da resposta: 
Resposta correta. Dentre os dados fornecidos pelo gerente 
do banco à jovem cientista de dados, dois são quantitativos, 
a renda mensal da pessoa (R$) e seu gasto médio com 
cartão de crédito (R$), e dois são qualitativos, se a pessoa 
tinha emprego estável (Sim ou Não) e se a pessoa havia, ao 
longo do período pesquisado, ficado inadimplente com o 
pagamento de faturas do cartão ao menos uma vez (Sim ou 
Não). 
 
 
 Pergunta 3 
1 em 1 pontos 
 
Naturalmente, dados ocupam uma posição central, tanto na estatística 
quanto na ciência dos dados. Entendê-los, saber da sua natureza, o que 
representam, é de suma importância, antes da realização de qualquer 
análise ou projeto. Os dados são divididos entre quantitativos e qualitativos, 
na estatística e na ciência dos dados. Relativamente aos qualitativos, 
analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para 
a(s) Falsa(s). 
 
1. ( ) Dados qualitativos dicotômicos são dados observados de variáveis 
qualitativas que podem assumir apenas dois níveis (também chamados de 
classes) como seus valores, tais como sexo (feminino ou masculino), 
ocupação (empregado ou desempregado), localização (bairro ou centro), 
emprego estável (sim ou não), inadimplente (sim ou não). 
2. ( ) Dados qualitativos politômicos são aqueles oriundos de variáveis 
qualitativas que podem assumir três ou mais níveis como seus valores, tais 
como classe social (A, B, C, D e E), escolaridade (fundamental, médio, 
superior), gravidade da doença (baixa, média, alta). 
3. ( ) A função table() do R permite a contagem da frequência de cada nível 
assumido por uma variável qualitativa em uma dada amostra, e foi usada 
pela jovem cientista de dados para contar a frequência de pessoas com ou 
sem emprego estável e se ficaram ou não inadimplentes com o pagamento 
das faturas do cartão no período amostrado. 
4. ( ) Um mosaicplot permite a visualização gráfica da relação entre duas 
variáveis qualitativas. Foi usado por uma jovem cientista de dados para 
examinar a possível relação entre duas variáveis qualitativas dicotômicas: 
pessoas com ou sem emprego estável e se ficaram ou não inadimplentes 
com o pagamento das faturas do cartão de crédito ao longo do período 
amostrado. Ela percebeu, ao ver o gráfico resultante (ver figura adiante), 
 
que parece haver um maior nível de inadimplência com o cartão entre 
aquelas que não têm emprego estável. 
 
 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
Resposta Selecionada: 
V, V, V, V. 
Resposta Correta: 
V, V, V, V. 
Comentário 
da resposta: 
Resposta correta. Todas asserções desta questão são 
verdadeiras. Dados qualitativos dicotômicos são dados 
observados de variáveis qualitativas que podem assumir 
apenas dois níveis. Dados qualitativos politômicos são 
aqueles oriundos de variáveis qualitativas que podem 
assumir três ou mais níveis como seus valores. A função 
table() do R permite a contagem da frequência de cada nível 
assumido por uma variável qualitativa em uma dada 
amostra. O mosaicplot permite a visualização gráfica da 
relação entre duas variáveis qualitativas. 
 
 
 Pergunta 4 
1 em 1 pontos 
 
A jovem cientista de dados, tendo em mãos os dados que lhe foram 
passados pelo gerente do banco, precisou denominá-los corretamente para 
a fase de treino (ajuste) do algoritmo preditivo. Ela escolheu a regressão 
logística como seu algoritmo preditivo, para classificar o potencial (a 
probabilidade) de uma pessoa ficar ou não inadimplente com o pagamento 
das faturas do cartão de crédito. 
 
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para 
a(s) Falsa(s). 
 
1. ( ) A jovem cientista de dados escolheu como variável resposta a renda 
mensal da pessoa, e tratou as demais variáveis como variáveis de entrada. 
2. ( ) A jovem cientista de dados escolheu o gasto médio mensal da pessoa 
com cartão de crédito como a variável resposta, e tratou as demais como 
variáveis de entrada. 
3. ( ) A jovem cientista de dados não definiu qualquer das quatro variáveis 
como a variável resposta, e decidiu realizar uma análise baseada em 
aprendizagem não supervisionada. 
4. ( ) A jovem cientista de dados escolheu como variável resposta se a pessoa 
havia, ao longo do período pesquisado, ficado inadimplente com o 
pagamento das faturas do cartão ao menos uma vez (Sim ou Não), e tratou 
as demais variáveis como variáveis de entrada. 
 
 
 
Assinale a alternativaque apresenta a sequência correta. 
 
 
Resposta Selecionada: 
F, F, F, V. 
Resposta Correta: 
F, F, F, V. 
Comentário 
da resposta: 
Resposta correta. A jovem cientista de dados escolheu como 
variável resposta se a pessoa havia, ao longo do período 
pesquisado, ficado inadimplente com o pagamento das 
faturas do cartão ao menos uma vez (Sim ou Não), e tratou 
as demais variáveis como variáveis de entrada. 
 
 
 Pergunta 5 
1 em 1 pontos 
 
A estatística descritiva usa de métodos numéricos para resumir dados, 
também chamados de sumários estatísticos, e de gráficos para a 
visualização dos dados. A jovem cientista de dados usou algumas técnicas 
de visualização de dados para analisar sua amostra, mas deixou outras de 
lado. 
 
Analise as afirmativas a seguir e veja quais estão coerentes com sua análise 
descritiva dos dados. 
 
1. Na sua análise descritiva dos dados da amostra, a jovem cientista de dados 
usou histogramas para a visualização dos dados quantitativos das amostras, 
que são a renda mensal das pessoas e seus gastos médios com o cartão de 
crédito. 
2. Na sua análise descritiva dos dados da amostra, a jovem cientista de dados 
usou diagramas de barras para a visualização dos dados quantitativos das 
amostras, que são a renda mensal das pessoas e seus gastos médios com 
o cartão de crédito. 
 
 
 
3. Histogramas e diagramas de barras são formas tradicionais de visualização 
gráfica de dados quantitativos e qualitativos, respectivamente, na estatística 
e na ciência dos dados. 
4. A jovem cientista de dados usou, para este caso, apenas histogramas, e 
preferiu apenas lançar mão da função table() do software estatístico R, para 
determinar a frequência com que os níveis das variáveis qualitativas se 
manifestaram na amostra estudada, sem fazer uso de diagramas de barras, 
o que poderia ter feito, se quisesse. 
 
 
Está correto o que se afirma em: 
 
 
 
Resposta Selecionada: 
I, III e IV apenas. 
Resposta Correta: 
I, III e IV apenas. 
Comentário 
da resposta: 
Resposta correta. Histogramas e diagramas de barras são 
formas tradicionais de visualização gráfica de dados 
quantitativos e qualitativos, respectivamente, na estatística e 
na ciência dos dados, e a jovem cientista de dados não 
lançou mão de diagramas de barras. Neste caso, para 
visualizar os dados qualitativos, poderia ter feito isso, se 
quisesse. Diagramas de barras são usados para a 
visualização de dados qualitativos, não quantitativos. 
 
 
 Pergunta 6 
1 em 1 pontos 
 
Entre as técnicas das quais lançou mão para a visualização dos dados da 
amostra, uma jovem cientista de dados usou boxplots (diagramas de 
caixas). Como cientista de dados, ela sabia exatamente em que situações 
empregar boxplots. E você, será que você também já sabe? 
 
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para 
a(s) Falsa(s). 
 
3. ( ) Para examinar visualmente a relação entre duas variáveis, em que uma é 
quantitativa e a outra é qualitativa, não é possível a utilização de gráficos de 
dispersão. 
4. ( ) Boxplots são uma solução inteligente para a visualização da relação entre 
uma variável quantitativa e uma variável qualitativa, em que no eixo 
horizontal indicamos os níveis da variável qualitativa e no eixo vertical, a 
variação dos valores observados para a variável quantitativa. 
5. ( ) Para examinar visualmente a relação entre duas variáveis quantitativas, 
um dos gráficos preferidos é o diagrama de caixas, também conhecido 
como boxplot. 
6. ( ) Na construção de um boxplot, podemos representar no eixo vertical os 
níveis da variável qualitativa e no eixo horizontal, os valores da variável 
quantitativa. Nesse caso, a visualização da variação dos dados da variável 
quantitativa é exibida horizontalmente, e os níveis (classes) da variável 
qualitativa são exibidos verticalmente. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
Resposta Selecionada: 
V, V, F, V. 
 
Resposta Correta: 
V, V, F, V. 
Comentário 
da resposta: 
Resposta correta. A única asserção falsa é a que afirma que 
para examinar visualmente a relação entre duas variáveis 
quantitativas, um dos gráficos preferidos é o diagrama de 
caixas, também conhecido como boxplot. Para examinar 
visualmente a relação entre duas variáveis, em que uma é 
quantitativa e a outra é qualitativa, não é possível a utilização 
de gráficos de dispersão. Para isso, usamos boxplots, em 
que, no eixo horizontal, indicamos os níveis da variável 
qualitativa e, no eixo vertical, a variação dos valores 
observados para a variável quantitativa. Podemos inverter a 
posição desses eixos. 
 
 Pergunta 7 
1 em 1 pontos 
 
O modelo de regressão logística simples desenvolvido por uma jovem 
cientista de dados para a predição da probabilidade de inadimplência com o 
cartão de crédito foi: 
 
 
 
Tomando como base esse modelo, que foi ajustado aos dados da amostra 
cedida pelo gerente, podemos estimar o valor esperado para a 
probabilidade de inadimplência com cartão de crédito das pessoas. Por 
exemplo, vamos considerar duas pessoas, uma com um gasto de médio 
mensal com o cartão de R$ 500,00, e a outra com um gasto médio mensal 
de R$ 1.000,00. Usando o modelo ajustado anterior, obtemos, 
respectivamente (assinale a alternativa correta): 
 
 
 
Resposta Selecionada: 
7% e 27%. 
 
 
 
 
Resposta Correta: 
7% e 27%. 
 
 
 
 
Comentário 
da resposta: 
Resposta correta. Esses valores são aqueles calculados 
pela simples substituição da variável de 
 
entrada pelos valores R$ 500,00 e R$ 1.000,00, 
respectivamente, na equação do modelo. 
 
 Pergunta 8 
1 em 1 pontos 
 
Os dados cedidos pelo gerente do banco estavam bem organizados e livres 
de erros. A nossa jovem cientista de dados não precisou, portanto, fazer 
uma limpeza e pré-tratamento dos dados e pode prosseguir imediatamente 
para uma análise descritiva deles antes do desenvolvimento do modelo. 
Tendo isso em vista, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
 
0. ( ) Chamamos de análise descritiva dos dados seus sumários (ou resumos) 
estatísticos dos mesmos e a sua visualização. Ambos, os sumários e as 
visualizações, nos ajudam a entender o comportamento dos dados e, 
através deles, do fenômeno ou processo estudado. 
1. ( ) São quatro as variáveis estudadas pela cientista de dados: renda mensal 
da pessoa, seus gastos médios com o cartão, se a pessoa tinha ou não um 
emprego estável ao longo do período amostrado e se ficou ou não 
inadimplente ao longo do deste período. 
2. ( ) Para criar sumários estatísticos das variáveis quantitativas, a renda 
mensal da pessoa e seus gastos com o cartão, a cientista de dados usou as 
funções min(), mean() e max() do software estatístico R para calcular os 
valores mínimo, médio e máximo dos dados observados para essas 
variáveis. 
3. ( ) Para criar sumários estatísticos das variáveis qualitativas, se a pessoa 
tinha ou não um emprego estável e se tinha ou não ficado inadimplente com 
o pagamento das faturas do cartão ao longo do período amostrado, a 
cientista de dados usou a função table() do software estatístico R para 
calcular a frequência com que os níveis de cada uma dessas variáveis se 
manifestaram na amostra estudada. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
Resposta Selecionada: 
V, V, V, V. 
Resposta Correta: 
V, V, V, V. 
Comentário 
da resposta: 
Resposta correta. Chamamos de análise descritiva dos 
dados seus sumários (ou resumos) e a sua visualização por 
meio de gráficos. São quatro as variáveis estudadas pela 
cientista de dados. Para criar sumários estatísticos das 
variáveis quantitativas, a cientista de dados usou as funções 
min(), mean() e max() do software estatístico R, e para os 
sumários estatísticos das variáveis qualitativas, usou a 
 
função table() do mesmo software, e assim calculou a 
frequência com que os níveis decada uma dessas variáveis 
se manifestaram na amostra analisada. 
 
 Pergunta 9 
1 em 1 pontos 
 
O ser humano tem enorme facilidade em agrupar, por similaridade, e 
classificar coisas, todos os tipos de coisas. Por conta disso, problemas de 
classificação são muito frequentes no mundo, mais frequentes que 
problemas de regressão. Fornecemos alguns exemplos de aplicação de 
métodos de classificação no mundo dos negócios. Dentre esses exemplos, 
encontramos: 
 
0. a Netflix usa classificadores para recomendar filmes. Para a Netflix, o valor 
desse tipo de aplicação é que, quanto mais filmes assistirmos, maior será a 
sua receita; 
1. o Facebook usa classificadores para recomendar novas amizades para a 
nossa rede de relacionamento. Para o Facebook, o valor desse tipo de 
aplicação é que, quanto maior nossa rede de relacionamento, maior será a 
sua receita; 
2. um banco de varejo usa classificadores para detectar se uma operação com 
cartão de débito ou crédito é ou não uma operação fraudulenta. Para o 
banco, o valor dessa aplicação é que, quanto antes operações fraudulentas 
forem detectadas, mais rapidamente o banco pode agir para impedir perdas 
para seus clientes e para ele próprio; 
3. uma concessionária de distribuição de energia elétrica usa classificadores 
para identificar casos potenciais de roubo de energia da rede, os famosos 
“gatos”. Para as concessionárias de distribuição de energia elétrica, o valor 
dessa aplicação é evitar prejuízo com o furto de energia da rede, além do 
relevante aspecto de prevenção de acidentes decorrentes de instalações 
clandestinas. 
 
 
Está correto o que se afirma em: 
 
 
 
Resposta Selecionada: 
I, II, III e IV. 
Resposta Correta: 
I, II, III e IV. 
Comentário 
da resposta: 
Resposta correta. Todos os exemplos listados nesta questão 
são problemas de classificação, os quais, como dissemos no 
enunciado, são muito frequentes no mundo. Em todos eles, 
a variável resposta é uma variável qualitativa, ou dicotômica, 
ou politômica. 
 
 
 Pergunta 10 
1 em 1 pontos 
 
Entre as técnicas das quais lançou mão para a visualização dos dados da 
amostra, uma jovem cientista de dados usou gráficos de dispersão. Como 
cientista de dados, ela sabia exatamente em que situações empregar 
gráficos de dispersão. E você, será que você também já sabe? 
 
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para 
a(s) Falsa(s). 
 
0. ( ) Gráficos de dispersão, em inglês chamados de scatter plots, só podem 
ser usados para a visualização de uma única variável, a qual deve ser 
obrigatoriamente uma variável qualitativa. 
1. ( ) Gráficos de dispersão são usados para a visualização da relação entre 
duas variáveis quantitativas, em que os dados das duas variáveis são 
plotados aos pares. Permite, dessa forma, a verificação visual, pelo 
estatístico ou pelo cientista de dados, se há uma tendência de uma variável 
aumentar quando a outra aumenta, diminuir quando a outra diminui, ou se 
não há uma relação aparente entre as duas. 
2. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre 
o valor do imóvel e a sua área. Esse tipo de gráfico é chamado, em inglês, 
de scatter plot. 
3. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre 
o valor do imóvel e o seu andar. Esse tipo de gráfico é chamado, em inglês, 
de scatter plot. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
Resposta Selecionada: 
F, V, V, V. 
Resposta Correta: 
F, V, V, V. 
Comentário 
da resposta: 
Resposta correta. A única asserção falsa é a que afirma que 
gráficos de dispersão só podem ser usados para a 
visualização de uma única variável, a qual deve ser 
obrigatoriamente uma variável qualitativa. É correto dizer que 
são usados para a visualização da relação entre duas 
variáveis quantitativas, permitindo a verificação visual de 
tendência de uma variável aumentar quando a outra 
aumenta, diminuir quando a outra aumenta, ou se não há 
uma relação aparente entre as duas. Sendo assim, 
puderam ser usados para exibir, em pares, a relação entre 
o valor do imóvel e a sua área e o valor do imóvel e o seu 
andar. 
 
 
Quarta-feira, 21 de Abril de 2021 11h13min38s BRT

Outros materiais