Prova N2

•

UNP

Francisco Jardel P Cavalcante

27/06/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística 1 Exploratory Data Analysis

11 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Pergunta 1
Resposta
Selecionada:
Resposta
Correta:
Comentário
da
resposta:
Um jovem cientista de dados realizou uma análise de agrupamento de apenas
cinco estados americanos parte do famoso conjunto de dados USArrests, o qual
possue 50 observações (50 estados americanos) de 4 variáveis (Murder, Assault,
UrbanPop e Rape).

Obteve o resultado exibido na figura exibida adiante:

Figura - Dendrograma do agrupamento dos cinco estados
Fonte: Elaborada pelo autor

Relativamente à interpretação desta figura, assinale a alternativa correta:
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que representa
os vários grupos formados em cada estágio do processo de agrupamento
hierárquico.
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que
representa os vários grupos formados em cada estágio do processo de
agrupamento hierárquico.
Resposta correta. A alternativa está correta. O dendrograma resultante de uma
análise de agrupamento hierárquico representa todos os agrupamentos
possíveis, desde os grupos formados por observações individuais (no exemplo,
cada um dos cinco estados) até o topo com um único grupo formado por todas
as observações (no exemplo, um único grupo com os cinco estados). Cabe ao
cientista de dados escolher o agrupamento que faz mais sentido para a sua
análise. As demais alternativas estão erradas, como se pode verificar de uma
leitura direta do próprio dendrograma.
1 em 1 pontos
1 em 1 pontos
Pergunta 2
Resposta Selecionada:
Resposta Correta:
Comentário
da
resposta:
Os dados cedidos pelo gerente do banco estavam bem organizados e livres de
erros. A nossa jovem cientista de dados não precisou, portanto, fazer uma limpeza
e pré-tratamento dos dados e pode prosseguir imediatamente para uma análise
descritiva deles antes do desenvolvimento do modelo.
Tendo isso em vista, analise as afirmativas a seguir e assinale V para a(s)
Verdadeira(s) e F para a(s) Falsa(s).

1. ( ) Chamamos de análise descritiva dos dados seus sumários (ou resumos)
estatísticos dos mesmos e a sua visualização. Ambos, os sumários e as
visualizações, nos ajudam a entender o comportamento dos dados e, através
deles, do fenômeno ou processo estudado.
2. ( ) São quatro as variáveis estudadas pela cientista de dados: renda mensal
da pessoa, seus gastos médios com o cartão, se a pessoa tinha ou não um
emprego estável ao longo do período amostrado e se ficou ou não
inadimplente ao longo do deste período.
3. ( ) Para criar sumários estatísticos das variáveis quantitativas, a renda
mensal da pessoa e seus gastos com o cartão, a cientista de dados usou as
funções min(), mean() e max() do software estatístico R para calcular os
valores mínimo, médio e máximo dos dados observados para essas
variáveis.
4. ( ) Para criar sumários estatísticos das variáveis qualitativas, se a pessoa
tinha ou não um emprego estável e se tinha ou não ficado inadimplente com
o pagamento das faturas do cartão ao longo do período amostrado, a
cientista de dados usou a função table() do software estatístico R para
calcular a frequência com que os níveis de cada uma dessas variáveis se
manifestaram na amostra estudada.

Assinale a alternativa que apresenta a sequência correta.
V, V, V, V.
V, V, V, V.
Resposta correta. Chamamos de análise descritiva dos dados seus sumários (ou
resumos) e a sua visualização por meio de gráficos. São quatro as variáveis
estudadas pela cientista de dados. Para criar sumários estatísticos das variáveis
quantitativas, a cientista de dados usou as funções min(), mean() e max() do
software estatístico R, e para os sumários estatísticos das variáveis qualitativas,
usou a função table() do mesmo software, e assim calculou a frequência com que
os níveis de cada uma dessas variáveis se manifestaram na amostra analisada.
Pergunta 3
Leia o excerto a seguir:
“Os modelos de árvores, também chamados de Árvores de Classificação e
1 em 1 pontos
Resposta Selecionada:
Resposta Correta:
Comentário
da
resposta:
Regressão, árvores de decisão ou apenas árvores , são um método de
classificação (e regressão) efetivo e popular, inicialmente desenvolvido por Leo
Breiman e outros em 1984. Os modelos de árvores e seus descendentes mais
potentes, florestas aleatórias e boosting , formam a base das ferramentas de
modelagem preditiva mais potentes e amplamente usadas na ciência de dados
tanto para regressão quanto para classificação.”
BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 conceitos
iniciais. Rio de Janeiro: Alta Books, 2019. p. 226.
Quanto às árvores de decisão para classificação e regressão, analise as
afirmativas a seguir:
I. Uma árvore faz partição recursiva das variáveis de entrada, selecionando uma de
cada vez, de forma hierárquica, das mais importante às menos importantes, a
cada estágio da sua construção, até chegar aos nós terminais, suas folhas, em
que exibe os valores estimados para a variável resposta.
II. A cada estágio da construção da árvore, o nó inicial e depois os nós
intermediários dividem o domínio da variável de entrada em questão, de onde
bifurcam os seus ramos para a esquerda e para a direita. Os valores exibidos no
nó indicam como se deve ler a árvore, ao se caminhar pelos ramos à esquerda ou
à direita do nó em questão.
III. Em cada um dos nós intermediários, assim como no nó inicial, há um valor
quantitativo ou qualitativo, que representa o valor escolhido pela árvore para fazer
a partição da variável tratada naquele estágio da construção da árvore.
IV. Em árvores de decisão de classificação ou regressão, folha é um termo que
designa os nós terminais das árvores, nos quais são exibidos os valores
estimados para a variável resposta do modelo preditivo. Cada caminho da árvore
indica, dessa forma, o valor a estimar para os valores das variáveis de entrada,
informadas no caminho do nó inicial até a folha.
Está correto o que se afirma em:
I, II, III e IV.
I, II, III e IV.
Sua resposta está correta, pois uma árvore faz partição recursiva das variáveis de
entrada hierarquicamente; a cada estágio da construção da árvore, o nó inicial e
depois os nós intermediários dividem o domínio da variável de entrada em
questão, de onde bifurcam os seus ramos para a esquerda e para a direita. Esses
valores indicam como se deve ler a árvore, ao se caminhar pelos seus ramos; em
cada nó intermediário ou no nó inicial, há um valor quantitativo ou qualitativo,
que é o valor escolhido pela árvore para fazer a partição da variável estágio. Em
árvores de decisão de classificação ou regressão, os nós terminais exibem os
valores estimados para a variável resposta.
Pergunta 4
Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um modelo
de regressão logística múltipla aos dados da amostra. Os resultados que
encontrou foram muito ricos, sugerindo uma série de explicações, aprendidas pelo
algoritmo com base nos dados fornecidos. Veja que dizemos “explicações
sugeridas”, pois qualquer resultado de um algoritmo deve ser confrontado com
especialistas da área em estudo. Contudo, vamos rever o que o modelo de
regressão múltipla treinado pela jovem cientista de dados sugere. Para isso,
analise as afirmativas a seguir.

1 em 1 pontos
Resposta Selecionada:
Resposta Correta:
Comentário
da
resposta:
1. A probabilidade da inadimplência cresce com o aumento dos gastos médios
com o cartão de crédito. Isto, que nos parece óbvio, foi o que os dados
“contaram” para o algoritmo de regressão logística múltipla.
2. A probabilidade da inadimplência cresce com o aumento da renda média
mensal das pessoas. Isto não é tão óbvio e provavelmente não teríamos
coragem de generalizar para outras situações, mas foi o que os dados da
amostra do gerente do banco “contaram” para o algoritmo de regressão
logística múltipla.
3. Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal
com cartão de crédito, a probabilidade de inadimplência com o cartão é
maior para aquela sem emprego estável. Novamente, isto foi o que os dados
amostrados “contaram”para o algoritmo de regressão logística múltipla.
4. O modelo de regressão logística múltipla, ajustado aos dados da amostra,
consegue predizer os efeitos da renda mensal da pessoa, do seu gasto
médio mensal com cartão de crédito e se ela tem ou não um emprego
estável, na probabilidade de a pessoa ficar inadimplente com o cartão de
crédito. Um algoritmo desse tipo pode ajudar no processo decisório de um
banco quanto à aprovação de cartão de crédito, ao lado de outros critérios e
ferramentas analíticas disponíveis para o banco.

Está correto o que se afirma em:

I, II, III e IV.
I, II, III e IV.
Resposta correta. Todas as asserções desta questão são verdadeiras. Para os
dados analisados, probabilidade da inadimplência cresce com o aumento dos
gastos médios com o cartão de crédito e com o aumento da renda média mensal
das pessoas. Para duas pessoas com a mesma renda mensal e o mesmo gasto
mensal com cartão de crédito, a probabilidade de inadimplência com o cartão é
maior para aquela sem emprego estável. E o modelo de regressão logística
múltipla é um modelo preditivo, um classificador probabilístico.
Pergunta 5
Com o advento dos computadores, surgiu a necessidade de se estabelecer uma
forma de comunicação dos seres humanos com eles, o que provocou a criação de
linguagens de programação.

Relativamente a esse assunto, analise as afirmativas a seguir.

I. Linguagens de programação não são importantes para a estatística, mas só para
a ciência dos dados.
II. Uma das funções de linguagens de programação é viabilizar a comunicação dos
1 em 1 pontos
Resposta Selecionada:
Resposta Correta:
Comentário
da
resposta:
seres humanos com máquinas e das máquinas entre si.
III. São muitas as linguagens de programação que podem ser empregadas na
estatística e na ciência dos dados, mas há uma preferência, atualmente, pelas
linguagens R e Python.
IV. O R base já vem com todas as funções estatísticas e gráficas das quais
precisaremos em um curso introdutório de aplicações da estatística à ciência dos
dados.

Está correto o que se afirma em:

II, III e IV, apenas.
II, III e IV, apenas.
Resposta correta. A alternativa está correta, pois as Linguagens de programação
são tão importantes para a estatística quanto para a ciência dos dados. Sabemos,
também, que uma das funções de linguagens de programação é viabilizar a
comunicação dos seres humanos com máquinas e das máquinas entre si; de fato,
são muitas as linguagens de programação que podem ser empregadas na
estatística e na ciência dos dados, mas há um preferência, atualmente, pelas
linguagens R e Python; o R base já vem com todas as funções estatísticas e
gráficas das quais precisaremos em um curso introdutório de aplicações da
estatística à ciência dos dados.
Pergunta 6
Estudamos algoritmos preditivos com base em (1) modelos de regressão linear e
(2) modelos de regressão logística. Esses modelos são aplicados em situações
bem distintas, que dependem, essencialmente, da natureza da variável resposta,
também chamada de variável dependente.

Com esses dois modelos em mente, analise as afirmativas a seguir.

1. Modelos de regressão logística simples são usados na predição de uma
variável resposta qualitativa quando há mais do que uma variável de entrada.
2. Modelos de regressão linear simples são usados na predição de uma
variável resposta qualitativa quando se considera apenas uma variável de
entrada.
3. Um possível modelo de regressão logística simples para a predição da
probabilidade de inadimplência é:

em que e são os coeficientes do modelo, , o gasto médio mensal da
pessoa com cartão de crédito e , o valor esperado para a probabilidade de a
pessoa ficar ou não inadimplente com o pagamento das faturas do cartão.

1 em 1 pontos
Resposta Selecionada:
Resposta Correta:
Comentário
da
resposta:
4. O método comumente usado para calcular os valores dos coeficientes e
é o Método da Máxima Verossimilhança. Para isso, pode-se fazer uso do
software estatístico R.

Está correto o que se afirma em:
II, III e IV, apenas.
II, III e IV, apenas.
Resposta correta. Modelo de regressão logística é dito simples quanto se
considera apenas uma variável de entrada; o modelo exposto nesta questão é, de
fato, aquele adotado pela cientista de dados, e o método que ela usou para
determinar os coeficientes do modelo foi o Método da Máxima Verossimilhança,
através do software estatístico R.
Pergunta 7
Naturalmente, dados ocupam uma posição central, tanto na estatística quanto na
ciência dos dados. Entendê-los, saber da sua natureza, o que representam, é de
suma importância, antes da realização de qualquer análise ou projeto. Os dados
são divididos entre quantitativos e qualitativos, na estatística e na ciência dos
dados. Relativamente aos qualitativos, analise as afirmativas a seguir e
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

1. ( ) Dados qualitativos dicotômicos são dados observados de variáveis
qualitativas que podem assumir apenas dois níveis (também chamados de
classes) como seus valores, tais como sexo (feminino ou masculino),
ocupação (empregado ou desempregado), localização (bairro ou centro),
emprego estável (sim ou não), inadimplente (sim ou não).
2. ( ) Dados qualitativos politômicos são aqueles oriundos de variáveis
qualitativas que podem assumir três ou mais níveis como seus valores, tais
como classe social (A, B, C, D e E), escolaridade (fundamental, médio,
superior), gravidade da doença (baixa, média, alta).
3. ( ) A função table() do R permite a contagem da frequência de cada nível
assumido por uma variável qualitativa em uma dada amostra, e foi usada
pela jovem cientista de dados para contar a frequência de pessoas com ou
sem emprego estável e se ficaram ou não inadimplentes com o pagamento
das faturas do cartão no período amostrado.
4. ( ) Um mosaicplot permite a visualização gráfica da relação entre duas
variáveis qualitativas. Foi usado por uma jovem cientista de dados para
examinar a possível relação entre duas variáveis qualitativas dicotômicas:
pessoas com ou sem emprego estável e se ficaram ou não inadimplentes
com o pagamento das faturas do cartão de crédito ao longo do período
amostrado. Ela percebeu, ao ver o gráfico resultante (ver figura adiante), que
parece haver um maior nível de inadimplência com o cartão entre aquelas
que não têm emprego estável.
1 em 1 pontos
Resposta Selecionada:
Resposta Correta:
Comentário
da
resposta:

Assinale a alternativa que apresenta a sequência correta.
V, V, V, V.
V, V, V, V.
Resposta correta. Todas asserções desta questão são verdadeiras. Dados
qualitativos dicotômicos são dados observados de variáveis qualitativas que
podem assumir apenas dois níveis. Dados qualitativos politômicos são aqueles
oriundos de variáveis qualitativas que podem assumir três ou mais níveis como
seus valores. A função table() do R permite a contagem da frequência de cada
nível assumido por uma variável qualitativa em uma dada amostra. O mosaicplot
permite a visualização gráfica da relação entre duas variáveis qualitativas.
Pergunta 8
Há diferentes formas de descrever as principais etapas de desenvolvimento de um
algoritmo preditivo, mas sempre encontraremos muitas similaridades entre essas
diferentes formas. Aqui, apresentamos uma que divide o desenvolvimento de um
algoritmo preditivo em 10 etapas.

Em relação a esse assunto, analise as afirmativas a seguir.

I. Nas coletas de dados, não é importante evitar vícios de amostragens, pois os
modelos e algoritmos preditivos são imunes a dados viciados.
II. A análise descritiva dos dados sempre vem depois das etapas de treino (ajuste)
e teste do modelo (algoritmo) aos dados coletados.
III. A etapa de feedback do cliente (ou do usuário) do modelo preditivo é muito
importante, pois só assim saberemos se atingiu o propósito para o qual foi
desenvolvido. Com base no feedback do cliente, podemos produzir
melhoramentos no modelo.
IV. A etapa de teste de um modelo (algoritmo) preditivoé realizada para verificar a
sua performance preditiva.

0 em 1 pontos
Resposta Selecionada:
Resposta Correta:
Comentário
da
resposta:
Está correto o que se afirma em:

II e III, apenas.
III e IV, apenas.
Sua resposta está incorreta. A alternativa está incorreta, pois evitar vícios de
amostragem é muito importante e a etapa de análise descritiva dos dados
sempre vem antes das etapas de treino e de teste do algoritmo. Por outro lado, a
etapa de feedback do cliente (ou do usuário) do modelo preditivo é muito
importante, pois só assim saberemos se atingiu o propósito para o qual foi
desenvolvido; é com base no feedback do cliente que poderemos produzir
melhoramentos no modelo; assim, é correto afirmar que a etapa de teste de um
modelo (algoritmo) preditivo é realizada para verificar a sua performance
preditiva.
Pergunta 9
Quando os dados se referem a múltiplas variáveis quantitativas, é possível exibir
múltiplos gráficos de dispersão entre pares dessas variáveis, duas a duas. No
software estatístico R, isto pode ser feito com a função gráfica pairs(). Adiante
apresentamos um output típico da função pairs() quando aplicada a quatro
variáveis quantitativas de um determinado conjunto de dados.

Figura 4: Múltiplos gráficos de dispersão entre as variáveis de USArrest
Fonte: Elaborada pelo autor.

A respeito deste output típico da função gráfica pairs() do software estatístico R,
para a exibição de múltiplos gráficos de dispersão entre variáveis quantitativas,
analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e
F para a(s) Falsa(s).

I. ( ) O gráfico de y = Murder versus x = Assault mostra uma tendência de aumento
de Murder para um aumento de Assault.
1 em 1 pontos
Resposta Selecionada:
Resposta Correta:
Comentário
da
resposta:
II. ( ) O gráfico de y = Murder versus x = UrbanPop mostra uma grande dispersão
dos pontos sem uma tendência clara de subida ou descida.
III. ( ) O gráfico de y = Murder versus x = Rape mostra uma tendência de aumento
de Murder para um aumento de Assault, porém com uma dispersão dos pontos
um pouco maior que para o caso de y = Murder versus x = Assault.
IV. ( ) Como são quatro variáveis quantitativas (Murder, Assault, UrbanPop e Rape),
então ao total são 12 gráficos de dispersão, de cada uma delas contra as outras
três.
V, V, V, V.

V, V, V, V.

Resposta correta. A sequência está correta. O gráfico de y = Murder versus x =
Assault de fato mostra uma tendência de aumento de Murder para um aumento
de Assault, assim como gráfico de y = Murder versus x = UrbanPop mostra uma
grande dispersão dos pontos sem uma tendência clara de subida ou descida. O
gráfico de y = Murder versus x = Rape mostra uma tendência de aumento de
Murder para um aumento de Assault, porém com uma dispersão dos pontos um
pouco maior que para o caso de y = Murder versus x = Assault e, como são quatro
variáveis quantitativas, então ao total são 12 gráficos de dispersão, de cada uma
delas contra as outras três.
Pergunta 10
Resposta Selecionada:
Quando os dados se referem a múltiplas variáveis quantitativas, é possível calcular
a correlação entre pares dessas variáveis, duas a duas. No software estatístico R,
isto pode ser feito com a função cor(). Adiante apresentamos um output típico da
função cor() quando aplicada ao cálculo da correlação entre quatro variáveis
quantitativas de um determinado conjunto de dados.
Murder Assault UrbanPop Rape
Murder 1.00 0.80 0.07 0.56
Assault 0.80 1.00 0.26 0.67
UrbanPop 0.07 0.26 1.00 0.41
Rape 0.56 0.67 0.41 1.00

A respeito deste output típico da função cor() do software estatístico R, para o
cálculo da correlação entre múltiplas variáveis quantitativas, analise as afirmativas
a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Todas correlações são positivas, o que indica que, para todas variáveis
quantitativas dessa amostra, quando uma aumenta, a outra também aumenta.
II. ( ) Uma correlação igual a 1 entre uma variável e ela mesma apenas indica uma
correlação perfeita dela com ela mesma.
III. ( ) A maior correlação positiva entre essas variáveis é aquela entre Murder e
Assault, cujo valor é de 0,80.
IV. ( ) A segunda maior correlação positiva entre essas variáveis é aquela entre
Rape e Assault, cujo valor é de 0,67 e não de 0,56.
V, V, V, F.
1 em 1 pontos
Resposta Correta:
Comentário
da
resposta:
V, V, V, F.
Resposta correta. A sequência está correta. Todas correlações são positivas,
indicando que, para todas variáveis quantitativas dessa amostra, quando uma
aumenta, a outra também aumenta. Uma correlação igual a 1 entre uma variável
e ela mesma apenas indica uma correlação perfeita dela com ela mesma. A maior
correlação positiva entre essas variáveis é aquela entre Murder e Assault, cujo
valor é de 0,80. E, finalmente, a segunda maior correlação positiva entre essas
variáveis é aquela entre Rape e Assault, mas o valor é 0,67 e não 0,56, que se
refere à correlação entre as variáveis Murder e Rape.