ATIVIDADE 2 - ESTATISTICA APLICADA AO DATA SCIENCE

•

Ifpb - Campus Avancado Joao Pessoa Mangabeira

5

1

5

1

0

Erika Alves

06/05/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

57.378 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Pergunta 1 
Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um modelo 
de regressão logística múltipla aos dados da amostra. Os resultados que 
encontrou foram muito ricos, sugerindo uma série de explicações, aprendidas pelo 
algoritmo com base nos dados fornecidos. Veja que dizemos “explicações 
sugeridas”, pois qualquer resultado de um algoritmo deve ser confrontado com 
especialistas da área em estudo. Contudo, vamos rever o que o modelo de 
regressão múltipla treinado pela jovem cientista de dados sugere. Para isso, 
analise as afirmativas a seguir. 
A probabilidade da inadimplência cresce com o aumento dos gastos 
médios com o cartão de crédito. Isto, que nos parece óbvio, foi o que os 
dados “contaram” para o algoritmo de regressão logística múltipla. 
A probabilidade da inadimplência cresce com o aumento da renda média 
mensal das pessoas. Isto não é tão óbvio e provavelmente não teríamos 
coragem de generalizar para outras situações, mas foi o que os dados da 
amostra do gerente do banco “contaram” para o algoritmo de regressão 
logística múltipla. 
Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal 
com cartão de crédito, a probabilidade de inadimplência com o cartão é 
maior para aquela sem emprego estável. Novamente, isto foi o que os 
dados amostrados “contaram” para o algoritmo de regressão logística 
múltipla. 
O modelo de regressão logística múltipla, ajustado aos dados da amostra, 
consegue predizer os efeitos da renda mensal da pessoa, do seu gasto 
médio mensal com cartão de crédito e se ela tem ou não um emprego 
estável, na probabilidade de a pessoa ficar inadimplente com o cartão de 
crédito. Um algoritmo desse tipo pode ajudar no processo decisório de um 
banco quanto à aprovação de cartão de crédito, ao lado de outros critérios 
e ferramentas analíticas disponíveis para o banco. 
1 em 1 pontos 
Resposta Selecionada: 
Resposta Correta: 
Feedback 
da 
resposta: 
Está correto o que se afirma em: 
I, II, III e IV. 
I, II, III e IV. 
Resposta correta. Todas as asserções desta questão são 
verdadeiras. Para os dados analisados, probabilidade da 
inadimplência cresce com o aumento dos gastos médios com o 
cartão de crédito e com o aumento da renda média mensal das 
pessoas. Para duas pessoas com a mesma renda mensal e o 
mesmo gasto mensal com cartão de crédito, a probabilidade de 
inadimplência com o cartão é maior para aquela sem emprego 
estável. E o modelo de regressão logística múltipla é um modelo 
preditivo, um classificador probabilístico. 
Pergunta 2 
Resposta Selecionada: 
Resposta Correta: 
Feedback da 
resposta: 
Vimos que há dois principais tipos de aprendizagem supervisionada: problema de 
regressão e problema de classificação. São os tipos de variáveis resposta dos 
dados em análise que distinguem esses dois tipos entre si. 
Relativamente a esses dois tipos, analise as afirmativas a seguir. 
Na aprendizagem supervisionada, um problema de regressão é um no qual 
a variável resposta é qualitativa. 
Na aprendizagem supervisionada, um problema de regressão é um no qual 
a variável resposta é quantitativa. 
Na aprendizagem supervisionada, um problema de classificação é um no 
qual a variável resposta é qualitativa. 
Na aprendizagem supervisionada, um problema de classificação é um no 
qual a variável resposta é quantitativa. 
Está correto o que se afirma em: 
II e III, apenas. 
II e III, apenas. 
Resposta correta. Na aprendizagem supervisionada, um 
problema de regressão é um no qual a variável resposta é 
quantitativa e um problema de classificação é um no qual a 
variável resposta é qualitativa. 
Pergunta 3 
Discutimos sobre classificadores determinísticos e probabilísticos. Demos, como 
exemplo, uma variável resposta qualitativa com dois níveis (classes), o indivíduo 
está infectado pelo vírus HIV ( ) ou não está infectado ( ), dado um 
conjunto de sintomas que ele apresenta. 
Reveja esse assunto e analise as afirmativas a seguir. 
1 em 1 pontos 
1 em 1 pontos 
Resposta Selecionada: 
Resposta Correta: 
Feedback 
da 
resposta: 
Um classificador determinístico vai dizer se o indivíduo está ou não está 
infectado, dados os sintomas que apresenta. 
Um classificador probabilístico vai dizer qual é a probabilidade de o 
indivíduo estar ou não infectado, dados os sintomas que apresenta. 
No jargão da estatística, escrever significa que a variável aleatória 
resultou no valor , em que é um dos possíveis valores que a variável 
aleatória pode assumir (ou seja, uma de suas classes, no caso, das 
variáveis qualitativas). 
Nesse mesmo jargão, escrever significa a probabilidade 
de ser igual a um dos seus possíveis valores , quando a variável de 
entrada é igual a (dado que ). 
Está correto o que se afirma em: 
I, II, III e IV. 
I, II, III e IV. 
Resposta correta. Um classificador determinístico vai dizer se o 
indivíduo está ou não está infectado, dados os sintomas que 
apresenta; já um classificador probabilístico vai dizer qual é a 
probabilidade de o indivíduo estar ou não infectado; no jargão da 
estatística, escrever significa que a variável aleatória 
resultou no valor , em que é um dos possíveis valores que a 
variável aleatória pode assumir (ou seja, uma de suas classes, no 
caso das variáveis qualitativas) e, nesse mesmo jargão, escrever 
significa a probabilidade de ser igual a um dos 
seus possíveis valores quando a variável de entrada é igual a 
(dizemos: dado que ). 
Pergunta 4 
O modelo de regressão logística simples desenvolvido por uma jovem cientista de 
dados para a predição da probabilidade de inadimplência com o cartão de crédito 
foi: 
Tomando como base esse modelo, que foi ajustado aos dados da amostra cedida 
pelo gerente, podemos estimar o valor esperado para a probabilidade de 
inadimplência com cartão de crédito das pessoas. Por exemplo, vamos considerar 
duas pessoas, uma com um gasto de médio mensal com o cartão de R$ 500,00, e 
a outra com um gasto médio mensal de R$ 1.000,00. Usando o modelo ajustado 
anterior, obtemos, respectivamente (assinale a alternativa correta): 
1 em 1 pontos 
Resposta Selecionada: 
Resposta Correta: 
Feedback da 
resposta: 
7% e 27%. 
7% e 27%. 
Resposta correta. Esses valores são aqueles calculados pela 
simples substituição da variável de entrada pelos valores R$ 
500,00 e R$ 1.000,00, respectivamente, na equação do modelo. 
Pergunta 5 
Resposta Selecionada: 
Resposta Correta: 
Feedback 
da resposta: 
Ao longo das nossas discussões, demos foco a um classificador chamado de 
regressão logística que, apesar do nome regressão (esse nome por razões 
históricas e por conta de algumas de suas características), é usado como um 
classificador. Mas também vimos que existem outros tipos de classificadores. 
Relativamente a esse assunto de algoritmos de classificação, analise as 
afirmativas a seguir. 
Regressão logística é o único método de aprendizagem supervisionada que 
é utilizado para classificação, todos outros métodos são métodos de 
regressão. 
Apesar do nome regressão logística, o que acaba sendo um pouco confuso 
para iniciantes, na verdade este é um dos vários métodos de aprendizagem 
supervisionada utilizado para classificação. 
Dentre os métodos utilizados para classificação se encontram regressão 
logística, análise discriminante linear (LDA = Linear Discriminant Analysis), 
árvores de decisão para classificação, máquinas de vetores de suporte 
(SVM = support vector machines) e k-vizinhos mais próximos (KNN = 
k-nearest neighbors). 
Regressão linear não é um método de classificação, mas, sim, um dos 
métodos preditivos de aprendizagem supervisionada usados na predição 
de valores de variáveis respostas quantitativas. 
Está correto o que se afirma em: 
II, III e IV, apenas. 
II, III e IV, apenas. 
Resposta correta. A única asserção incorreta desta questão é a 
primeira, que afirma que regressão logística é o único métodode 
aprendizagem supervisionada que é utilizado para classificação, 
todos outros métodos são métodos de regressão. 
1 em 1 pontos 
Pergunta 6 
Resposta Selecionada: 
Resposta Correta: 
Feedback 
da 
resposta: 
Dados podem aparecer na forma de textos, imagens, vídeos, sons, tabelas, listas, 
sequências, séries, etc. São muitos os dados que hoje coletamos de diferentes 
fontes, e muitas as formas de organizá-los e armazená-los. Uma dessas forma, 
talvez a mais importante delas, são os dados estruturados. 
Relativamente a esse assunto, analise as afirmativas a seguir. 
Dados estruturados são dados que não possuem uma estrutura regular e 
repetitiva, seguindo um padrão comum adotado pelas ciências da 
computação, estatística e ciência dos dados. 
A forma de organização básica dos dados, preferida na estatística e na 
ciência dos dados, é a forma tabular, na qual as variáveis são dispostas 
nas linhas e as observações são dispostas nas colunas. 
Dados estruturados são dados que possuem uma estrutura regular e 
repetitiva, seguindo um padrão comum adotado pelas ciência da 
computação, estatística e ciência dos dados. 
A forma de organização básica dos dados, preferida na estatística e na 
ciência dos dados, é a forma tabular, na qual as variáveis são dispostas 
nas colunas e as observações são dispostas nas linhas. 
Está correto o que se afirma em: 
III e IV, apenas. 
III e IV, apenas. 
Resposta correta. Dados estruturados são dados que possuem 
uma estrutura regular e repetitiva, seguindo um padrão comum 
adotado pelas ciência da computação, estatística e ciência dos 
dados. Também está correto dizer que a forma de organização 
básica dos dados, preferida na estatística e na ciência dos dados, é 
a forma tabular, na qual as variáveis são dispostas nas colunas e 
as observações são dispostas nas linhas. 
Pergunta 7 
Discutimos o que são aprendizagem supervisionada e não supervisionada. Vimos 
que é na forma como tratamos as variáveis estudadas que se dá a diferença entre 
esses dois tipos de aprendizagens, supervisionada e não supervisionada. Esses 
dois tipos são os mais importantes dentre os diversos tipos de aprendizagem. 
Relativamente a esse assunto, analise as afirmativas a seguir. 
Na aprendizagem supervisionada, definimos uma das variáveis estudadas 
como sendo a variável resposta, a qual responde em função dos valores 
assumidos pelas outras variáveis, as quais são chamadas de variáveis de 
entrada. 
Especificamente na aprendizagem supervisionada, também denominamos 
uma variável resposta de variável de saída ou variável dependente. 
Especificamente na aprendizagem supervisionada, também denominamos 
uma variável de entrada de variável regressora, variável preditora ou 
variável independente. 
Na aprendizagem não supervisionada, tratamos todas as variáveis 
estudadas da mesma forma, sem procurar explicar o comportamento de 
uma delas em função dos valores assumidos pelas outras. 
1 em 1 pontos 
1 em 1 pontos 
Resposta Selecionada: 
Resposta Correta: 
Feedback 
da 
resposta: 
Está correto o que se afirma em: 
I, II, III e IV. 
I, II, III e IV. 
Resposta correta. Na aprendizagem supervisionada, definimos uma 
das variáveis estudadas como sendo a variável resposta, a qual 
responde em função dos valores assumidos pelas outras variáveis, 
as quais são chamadas de variáveis de entrada; na aprendizagem 
supervisionada, também chamamos a variável resposta de variável 
de saída ou variável dependente e as variáveis de entrada, de 
variáveis regressoras, preditoras ou independentes. Na 
aprendizagem não supervisionada, tratamos todas as variáveis 
estudadas da mesma forma, sem procurar explicar o 
comportamento de uma delas em função dos valores assumidos 
pelas outras. 
Pergunta 8 
Resposta Selecionada: 
Resposta Correta: 
Feedback 
da 
resposta: 
Entre as técnicas das quais lançou mão para a visualização dos dados da 
amostra, uma jovem cientista de dados usou boxplots (diagramas de caixas). 
Como cientista de dados, ela sabia exatamente em que situações empregar 
boxplots. E você, será que você também já sabe? 
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) 
Falsa(s). 
( ) Para examinar visualmente a relação entre duas variáveis, em que uma 
é quantitativa e a outra é qualitativa, não é possível a utilização de gráficos 
de dispersão. 
( ) Boxplots são uma solução inteligente para a visualização da relação 
entre uma variável quantitativa e uma variável qualitativa, em que no eixo 
horizontal indicamos os níveis da variável qualitativa e no eixo vertical, a 
variação dos valores observados para a variável quantitativa. 
( ) Para examinar visualmente a relação entre duas variáveis quantitativas, 
um dos gráficos preferidos é o diagrama de caixas, também conhecido 
como boxplot. 
( ) Na construção de um boxplot, podemos representar no eixo vertical os 
níveis da variável qualitativa e no eixo horizontal, os valores da variável 
quantitativa. Nesse caso, a visualização da variação dos dados da variável 
quantitativa é exibida horizontalmente, e os níveis (classes) da variável 
qualitativa são exibidos verticalmente. 
Assinale a alternativa que apresenta a sequência correta. 
V, V, F, V. 
V, V, F, V. 
Resposta correta. A única asserção falsa é a que afirma que para 
examinar visualmente a relação entre duas variáveis quantitativas, 
um dos gráficos preferidos é o diagrama de caixas, também 
conhecido como boxplot. Para examinar visualmente a relação entre 
duas variáveis, em que uma é quantitativa e a outra é qualitativa, 
não é possível a utilização de gráficos de dispersão. Para isso, 
1 em 1 pontos 
usamos boxplots, em que, no eixo horizontal, indicamos os níveis 
da variável qualitativa e, no eixo vertical, a variação dos valores 
observados para a variável quantitativa. Podemos inverter a posição 
desses eixos. 
Pergunta 9 
Resposta Selecionada: 
Resposta Correta: 
Feedback 
da resposta: 
Tarefas de classificação são muitos comuns na estatística e na ciência dos 
dados, por serem muito comuns em todas atividades humanas, na ciência, na 
vida social ou nos negócios. 
Especificamente, discutimos aplicações de modelos preditivos de 
classificação baseados em modelos de regressão logística simples ou 
múltipla. 
Com isso em mente, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
Regressão logística pode ser empregada na predição do peso médio 
(massa corporal média) de uma pessoa em função de sua altura, 
idade e sexo. 
Regressão logística pode ser empregada na predição do consumo 
médio de combustível de um carro em função da potência do seu 
motor e do seu peso. 
Regressão logística pode ser empregada na predição da probabilidade 
de uma pessoa votar em um determinado candidato e não nos outros 
em função de sua escolaridade, idade, sexo e classe social. 
Regressão logística pode ser empregada na predição da probabilidade 
de a pessoa ser diabética em função de um conjunto de sintomas 
clínicos que apresenta. 
Assinale a alternativa que apresenta a sequência correta. 
F, F, V, V. 
F, F, V, V. 
Resposta correta. As duas primeiras situações se referem à 
predição de variáveis resposta quantitativas, o que não é 
possível com modelos de regressão logística; já as duas 
últimas situações são adequadas ao emprego de modelos de 
regressão logística. 
Pergunta 10 
A amostra relativa aos dados de inadimplência com cartões tinha 200 
observações de 4 variáveis: a renda mensal da pessoa (R$), seu gasto médio 
com cartão de crédito (R$), se a pessoa tinha um emprego estável (Sim ou 
Não) e se a pessoa havia, ao longo do período pesquisado, ficado 
inadimplente com o pagamento de faturas do cartão ao menos uma vez (Sim 
ou Não). 
Reflita sobre esse caso, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
( ) Todos os dadosfornecidos pelo gerente do banco à jovem cientista 
de dados são dados relativos a variáveis quantitativas. 
( ) Todos os dados fornecidos pelo gerente do banco à jovem 
cientista de dados são dados relativos a variáveis qualitativas. 
1 em 1 pontos 
1 em 1 pontos 
Resposta Selecionada: 
Resposta Correta: 
Feedback 
da 
resposta: 
( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista 
de dados, dois são relativos a uma variável quantitativa e dois são 
relativos a variáveis qualitativas. 
( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista 
de dados, um é relativo a uma variável quantitativa e os outros são 
relativos a variáveis qualitativas. 
Assinale a alternativa que apresenta a sequência correta. 
F, F, V, F. 
F, F, V, F. 
Resposta correta. Dentre os dados fornecidos pelo gerente do 
banco à jovem cientista de dados, dois são quantitativos, a 
renda mensal da pessoa (R$) e seu gasto médio com cartão 
de crédito (R$), e dois são qualitativos, se a pessoa tinha 
emprego estável (Sim ou Não) e se a pessoa havia, ao longo 
do período pesquisado, ficado inadimplente com o pagamento 
de faturas do cartão ao menos uma vez (Sim ou Não).