Prova - Estatística Aplicada ao Data Science

•

UAM

3

0

3

0

Thiago Marcondes Paulo

19/06/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Science

2.215 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

NOTA 9

PERGUNTA 1
1. Os dados cedidos pelo gerente do banco estavam bem organizados e
livres de erros. A nossa jovem cientista de dados não precisou, portanto,
fazer uma limpeza e pré-tratamento dos dados e pode prosseguir
imediatamente para uma análise descritiva deles antes do
desenvolvimento do modelo.
Tendo isso em vista, analise as afirmativas a seguir e assinale V para
a(s) Verdadeira(s) e F para a(s) Falsa(s).

1. ( ) Chamamos de análise descritiva dos dados seus sumários (ou
resumos) estatísticos dos mesmos e a sua visualização. Ambos,
os sumários e as visualizações, nos ajudam a entender o
comportamento dos dados e, através deles, do fenômeno ou
processo estudado.
2. ( ) São quatro as variáveis estudadas pela cientista de dados:
renda mensal da pessoa, seus gastos médios com o cartão, se a
pessoa tinha ou não um emprego estável ao longo do período
amostrado e se ficou ou não inadimplente ao longo do deste
período.
3. ( ) Para criar sumários estatísticos das variáveis quantitativas, a
renda mensal da pessoa e seus gastos com o cartão, a cientista
de dados usou as funções min(), mean() e max() do software
estatístico R para calcular os valores mínimo, médio e máximo
dos dados observados para essas variáveis.
4. ( ) Para criar sumários estatísticos das variáveis qualitativas, se a
pessoa tinha ou não um emprego estável e se tinha ou não ficado
inadimplente com o pagamento das faturas do cartão ao longo do
período amostrado, a cientista de dados usou a função table() do
software estatístico R para calcular a frequência com que os
níveis de cada uma dessas variáveis se manifestaram na amostra
estudada.

Assinale a alternativa que apresenta a sequência correta.

F, F, V, V.

F, V, V, F.

V, V, V, V.

V, F, F, V.

V, V, F, F.
1 pontos
PERGUNTA 2
1. Leia o excerto a seguir:
“Normalização: É comum normalizar (padronizar) variáveis contínuas
através da subtração da média e divisão pelo desvio-padrão, ou então
as variáveis com grande escala dominarão o processo de agrupamento
(veja Padronização (Normalização, Escores Z), no Capítulo 6).”

BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas
de dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p.
265.
A partir do apresentado, analise as asserções a seguir e a relação
proposta entre elas.

I. Sabemos que, na estatística ou na ciência dos dados, é comum
normalizar (padronizar) variáveis quantitativas, ou variáveis contínuas,
antes da realização de uma análise de agrupamento.
Pois
II. No conjunto de dados observados (a amostra de dados), podem
existir variáveis que estão em uma escala muito maior que as outras, e a
medida de distância entre observações dessas variáveis dominarão o
resultado da análise de agrupamento, na formação dos grupos de
observações similares entre si.

As asserções I e II são proposições verdadeiras, e a II é uma
justificativa correta da I.

As asserções I e II são proposições falsas.

As asserções I e II são proposições verdadeiras, mas a II não é
uma justificativa correta da I.

A asserção I é uma proposição verdadeira e a asserção II é uma
proposição falsa.

A asserção I é uma proposição falsa, e a II é uma proposição
verdadeira.
1 pontos
PERGUNTA 3
1. Leia o excerto a seguir:
“A ciência dos dados é uma fusão de múltiplas disciplinas, incluindo
estatística, ciência da computação, tecnologia da informação e campos
de domínios específicos. Consequentemente, podem-se utilizar de
muitos termos diferentes para se referir a um dado conceito.”

BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas
de dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. xv.
A partir do apresentado, analise as asserções a seguir e a relação
proposta entre elas.

I. Sabemos que, na ciência dos dados, podem-se utilizar de muitos
termos diferentes para se referir a um dado conceito.
Pois
II. A estatística usa, de forma profunda, a matemática como pilar do seu
desenvolvimento. É considerada a ciência mais sutil, e a mais ampla,
quanto o assunto são dados. É usada por todas áreas científicas.

A asserção I é uma proposição falsa, e a II é uma proposição
verdadeira.

As asserções I e II são proposições verdadeiras, mas a II não é
uma justificativa da I.

A asserção I é uma proposição verdadeira e a asserção II é uma
proposição falsa.

As asserções I e II são proposições verdadeiras, e a II é uma
justificativa correta da I.

As asserções I e II são proposições falsas.
1 pontos
PERGUNTA 4
1. Os métodos de aprendizagem estatística (statistical learning, em inglês)
são divididos em métodos de aprendizagem supervisionada e métodos
de aprendizagem não supervisionada. Para cada uma dessas diferentes
abordagens, há uma coleção relativamente grande de diferentes
métodos, cada um com seu próprio jeito de funcionamento.

Assinale a alternativa que indica um problema de aprendizagem não
supervisionada:

Desejamos entender se há similaridade entre observações
(indivíduos) de uma certa amostra de dados.

Gostaríamos de saber que pessoas ficarão inadimplentes com o
pagamento das faturas de seus cartões de crédito.

Ajudaremos médicos se conseguirmos avaliar a gravidade de
uma doença a partir de dados relativos às condições do
paciente.

Queremos estimar o valor de imóveis a partir das suas
características, tais como sua área, seu andar e sua localização.

Pretendemos ter uma ideia do volume de vendas de um produto
de varejo a partir de algumas características do ponto de venda.
1 pontos
PERGUNTA 5
1. Vimos que dados podem ser classificados em dados estruturados e
dados não estruturados. Atribuímos um foco aos dados estruturados, de
enorme importância para a estatística e para a ciência dos dados.
Ademais, há, na estatística e na ciência dos dados, uma forma básica
preferida de organização dos dados.

Com base no exposto, analise as afirmativas a seguir.

I. Dados retangulares são dados organizados na forma de tabelas, em
que as variáveis são dispostas nas colunas e as observações são
dispostas nas linhas.
II. Os dados cedidos pela corretora ao seu amigo estatístico foram
organizados na forma de uma tabela, porém essa tabela não é um
exemplo de dados retangulares, pois as variáveis estão dispostas nas
linhas e as observações nas colunas.
III. No R, as estruturas de dados organizados em tabelas, com as
variáveis dispostas nas colunas e as observações nas linhas, são
denominadas data-frames. Esse conceito é copiado no Python por meio
da sua biblioteca “Pandas”.
IV. Na estatística, ou na ciência de dados, não há preferência por dados
estruturados na forma de data-frames, já que estatísticos e cientistas de
dados podem trabalhar com dados organizados em qualquer tipo de
estrutura.

Está correto o que se afirma em:

II e III, apenas.

III e IV, apenas.

I e III, apenas.

I e II, apenas

II e IV, apenas.
1 pontos
PERGUNTA 6
1. Leia o excerto a seguir:

“Uma parte fundamental do kit de ferramentas do cientista de dados é a
visualização de dados. Embora seja muito fácil criar visualizações é bem
mais difícil produzir algumas boas. Existem dois usos primários para a
visualização de dados: - Para explorar dados. - Para comunicar dados.
Neste capítulo, nos concentraremos em construir habilidades das quais
você precisará para começar a explorar seus próprios dados e produzir
visualizações que usaremos no decorrer do livro. Como a maioria dos
nossos tópicos do capítulo, a visualização de dados é uma rica área de
estudos que merece seu próprio livro. Mas, mesmo assim, tentaremos
mostrar o que é preciso e o que não é para uma boa visualização.”

GRUS, J. Data science do zero: primeiras regras com Python. Rio de
Janeiro: Alta Books, 2016. p. 37.Considerando o excerto apresentado, em relação à visualização de
dados, analise as afirmativas a seguir:

I. O autor do texto considera a visualização de dados uma parte
acessória ao trabalho do cientista de dados.
II. O autor considera fácil criar visualizações de dados, porém acha difícil
criar boas visualizações de dados.
III. O autor considera que, por ser fácil criar visualizações de dados, não
há razão para merecer seu próprio livro.
IV. O autor deixa claro que existem dois usos primários para a
visualização de dados: explorar dados e comunicar dados.

Está correto o que se afirma em:

II e III, apenas.

I, II e IV, apenas.

II e IV, apenas.

I, II e III, apenas.

II, III e IV, apenas.
1 pontos
PERGUNTA 7
1. Quando os dados se referem a múltiplas variáveis quantitativas, é
possível calcular a correlação entre pares dessas variáveis, duas a
duas. No software estatístico R, isto pode ser feito com a função cor().
Adiante apresentamos um output típico da função cor() quando aplicada
ao cálculo da correlação entre quatro variáveis quantitativas de um
determinado conjunto de dados.
Murder Assault UrbanPop Rape
Murder 1.00 0.80 0.07 0.56
Assault 0.80 1.00 0.26 0.67
UrbanPop 0.07 0.26 1.00 0.41
Rape 0.56 0.67 0.41 1.00
2.

A respeito deste output típico da função cor() do software estatístico R,
para o cálculo da correlação entre múltiplas variáveis quantitativas,
analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s)
e F para a(s) Falsa(s).

I. ( ) Todas correlações são positivas, o que indica que, para todas
variáveis quantitativas dessa amostra, quando uma aumenta, a outra
também aumenta.
II. ( ) Uma correlação igual a 1 entre uma variável e ela mesma apenas
indica uma correlação perfeita dela com ela mesma.
III. ( ) A maior correlação positiva entre essas variáveis é aquela entre
Murder e Assault, cujo valor é de 0,80.
IV. ( ) A segunda maior correlação positiva entre essas variáveis é
aquela entre Rape e Assault, cujo valor é de 0,67 e não de 0,56.

F, F, V, V.

F, V, V, F.

V, V, V, F.

F, V, V, V.

F, V, F, V.
1 pontos
PERGUNTA 8
1. Tarefas de classificação são muitos comuns na estatística e na ciência
dos dados, por serem muito comuns em todas atividades humanas, na
ciência, na vida social ou nos negócios.
Especificamente, discutimos aplicações de modelos preditivos de
classificação baseados em modelos de regressão logística simples ou
múltipla.
Com isso em mente, analise as afirmativas a seguir e assinale V para
a(s) Verdadeira(s) e F para a(s) Falsa(s).

1. Regressão logística pode ser empregada na predição do peso
médio (massa corporal média) de uma pessoa em função de sua
altura, idade e sexo.
2. Regressão logística pode ser empregada na predição do
consumo médio de combustível de um carro em função da
potência do seu motor e do seu peso.
3. Regressão logística pode ser empregada na predição da
probabilidade de uma pessoa votar em um determinado candidato
e não nos outros em função de sua escolaridade, idade, sexo e
classe social.
4. Regressão logística pode ser empregada na predição da
probabilidade de a pessoa ser diabética em função de um
conjunto de sintomas clínicos que apresenta.

Assinale a alternativa que apresenta a sequência correta.

F, F, F, F.

F, F, V, V.

V, V, V, V.

V, V, F, F.

F, V, F, V.
1 pontos
PERGUNTA 9
1. Gráficos de dispersão têm emprego consagrado quando falamos a
respeito de visualização de dados. Eles são usados, porém, de uma
forma bem específica, pois não podem ser usados para a visualização
de qualquer tipo de variável, nem em qualquer situação.

A partir do exposto, analise as afirmativas a seguir e assinale V para a(s)
Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Gráficos de dispersão, em inglês denominados scatter plots, só
podem ser usados para a visualização de uma única variável, a qual
deve ser, obrigatoriamente, uma variável qualitativa.
II. ( ) Gráficos de dispersão são usados para a visualização da relação
entre duas variáveis quantitativas, em que os dados das duas variáveis
são plotados aos pares. Permite, dessa forma, a verificação visual, pelo
estatístico ou pelo cientista de dados, se há uma tendência de uma
variável aumentar quando a outra aumenta, diminuir quando a outra
diminui, ou se não há uma relação aparente entre as duas.
III. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação
entre o valor do imóvel e a sua área. Esse tipo de gráfico é denominado,
em inglês, scatter plot.
IV. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação
entre o valor do imóvel e o seu andar. Esse tipo de gráfico é
denominado, em inglês, scatter plot.

Assinale a alternativa que apresenta a sequência correta.

V, V, F, F.

F, V, F, V.

F, V, V, V.

F, F, V, V.

V, V, F, V.
1 pontos
PERGUNTA 10
1. A visualização da relação entre duas variáveis é, habitualmente, feita por
meio de gráficos de dispersão, de boxplots (diagramas de caixas) ou de
mosaic plots, este último ainda não visto aqui. Mas o emprego dessas
modalidades de gráficos segue regras bem precisas, especificamente a
que duas variáveis eles podem representar de forma visual.

Referente ao exposto, analise as afirmativas a seguir e assinale V para
a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Para examinar visualmente a relação entre duas variáveis, em que
uma é quantitativa e a outra é qualitativa, não é possível a utilização de
gráficos de dispersão.
II. ( ) Boxplots são uma solução inteligente para a visualização da
relação entre uma variável quantitativa e uma variável qualitativa, em
que, no eixo horizontal, indicamos os níveis da variável qualitativa e, no
eixo vertical, a variação dos valores observados para a variável
quantitativa.
III. ( ) Para examinar visualmente a relação entre duas variáveis
quantitativas, um dos gráficos preferidos é o diagrama de caixas,
também conhecido como boxplot.
IV. ( ) Na construção de um boxplot, podemos representar, no eixo
vertical, os níveis da variável qualitativa e, no eixo horizontal, os valores
da variável quantitativa. Nesse caso, a visualização da variação dos
dados da variável quantitativa é exibida horizontalmente e os níveis
(classes) da variável qualitativa são exibidos verticalmente.

Assinale a alternativa que apresenta a sequência correta.

V, V, F, F.

V, F, F, V.

F, V, V, F.

F, F, V, V.

V, V, F, V.