Buscar

Prova - Estatística Aplicada ao Data Science

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

NOTA 9 
 
PERGUNTA 1 
1. Os dados cedidos pelo gerente do banco estavam bem organizados e 
livres de erros. A nossa jovem cientista de dados não precisou, portanto, 
fazer uma limpeza e pré-tratamento dos dados e pode prosseguir 
imediatamente para uma análise descritiva deles antes do 
desenvolvimento do modelo. 
Tendo isso em vista, analise as afirmativas a seguir e assinale V para 
a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
1. ( ) Chamamos de análise descritiva dos dados seus sumários (ou 
resumos) estatísticos dos mesmos e a sua visualização. Ambos, 
os sumários e as visualizações, nos ajudam a entender o 
comportamento dos dados e, através deles, do fenômeno ou 
processo estudado. 
2. ( ) São quatro as variáveis estudadas pela cientista de dados: 
renda mensal da pessoa, seus gastos médios com o cartão, se a 
pessoa tinha ou não um emprego estável ao longo do período 
amostrado e se ficou ou não inadimplente ao longo do deste 
período. 
3. ( ) Para criar sumários estatísticos das variáveis quantitativas, a 
renda mensal da pessoa e seus gastos com o cartão, a cientista 
de dados usou as funções min(), mean() e max() do software 
estatístico R para calcular os valores mínimo, médio e máximo 
dos dados observados para essas variáveis. 
4. ( ) Para criar sumários estatísticos das variáveis qualitativas, se a 
pessoa tinha ou não um emprego estável e se tinha ou não ficado 
inadimplente com o pagamento das faturas do cartão ao longo do 
período amostrado, a cientista de dados usou a função table() do 
software estatístico R para calcular a frequência com que os 
níveis de cada uma dessas variáveis se manifestaram na amostra 
estudada. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
 
F, F, V, V. 
 
 
 
 
 F, V, V, F. 
 
 V, V, V, V. 
 
 V, F, F, V. 
 
 V, V, F, F. 
1 pontos 
PERGUNTA 2 
1. Leia o excerto a seguir: 
“Normalização: É comum normalizar (padronizar) variáveis contínuas 
através da subtração da média e divisão pelo desvio-padrão, ou então 
as variáveis com grande escala dominarão o processo de agrupamento 
(veja Padronização (Normalização, Escores Z), no Capítulo 6).” 
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas 
de dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 
265. 
 A partir do apresentado, analise as asserções a seguir e a relação 
proposta entre elas. 
 
I. Sabemos que, na estatística ou na ciência dos dados, é comum 
normalizar (padronizar) variáveis quantitativas, ou variáveis contínuas, 
antes da realização de uma análise de agrupamento. 
Pois 
II. No conjunto de dados observados (a amostra de dados), podem 
existir variáveis que estão em uma escala muito maior que as outras, e a 
medida de distância entre observações dessas variáveis dominarão o 
resultado da análise de agrupamento, na formação dos grupos de 
observações similares entre si. 
 
 As asserções I e II são proposições verdadeiras, e a II é uma 
justificativa correta da I. 
 
 As asserções I e II são proposições falsas. 
 
 As asserções I e II são proposições verdadeiras, mas a II não é 
uma justificativa correta da I. 
 
 A asserção I é uma proposição verdadeira e a asserção II é uma 
proposição falsa. 
 
 A asserção I é uma proposição falsa, e a II é uma proposição 
verdadeira. 
1 pontos 
PERGUNTA 3 
1. Leia o excerto a seguir: 
“A ciência dos dados é uma fusão de múltiplas disciplinas, incluindo 
estatística, ciência da computação, tecnologia da informação e campos 
de domínios específicos. Consequentemente, podem-se utilizar de 
muitos termos diferentes para se referir a um dado conceito.” 
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas 
de dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. xv. 
 A partir do apresentado, analise as asserções a seguir e a relação 
proposta entre elas. 
 
I. Sabemos que, na ciência dos dados, podem-se utilizar de muitos 
termos diferentes para se referir a um dado conceito. 
Pois 
II. A estatística usa, de forma profunda, a matemática como pilar do seu 
desenvolvimento. É considerada a ciência mais sutil, e a mais ampla, 
quanto o assunto são dados. É usada por todas áreas científicas. 
 
 A asserção I é uma proposição falsa, e a II é uma proposição 
verdadeira. 
 
 As asserções I e II são proposições verdadeiras, mas a II não é 
uma justificativa da I. 
 
 A asserção I é uma proposição verdadeira e a asserção II é uma 
proposição falsa. 
 
 As asserções I e II são proposições verdadeiras, e a II é uma 
justificativa correta da I. 
 
 As asserções I e II são proposições falsas. 
1 pontos 
PERGUNTA 4 
1. Os métodos de aprendizagem estatística (statistical learning, em inglês) 
são divididos em métodos de aprendizagem supervisionada e métodos 
de aprendizagem não supervisionada. Para cada uma dessas diferentes 
abordagens, há uma coleção relativamente grande de diferentes 
métodos, cada um com seu próprio jeito de funcionamento. 
 
Assinale a alternativa que indica um problema de aprendizagem não 
supervisionada: 
 
 
 
 Desejamos entender se há similaridade entre observações 
(indivíduos) de uma certa amostra de dados. 
 
 Gostaríamos de saber que pessoas ficarão inadimplentes com o 
pagamento das faturas de seus cartões de crédito. 
 
 
Ajudaremos médicos se conseguirmos avaliar a gravidade de 
uma doença a partir de dados relativos às condições do 
paciente. 
 
 
 
 Queremos estimar o valor de imóveis a partir das suas 
características, tais como sua área, seu andar e sua localização. 
 
 Pretendemos ter uma ideia do volume de vendas de um produto 
de varejo a partir de algumas características do ponto de venda. 
1 pontos 
PERGUNTA 5 
1. Vimos que dados podem ser classificados em dados estruturados e 
dados não estruturados. Atribuímos um foco aos dados estruturados, de 
enorme importância para a estatística e para a ciência dos dados. 
Ademais, há, na estatística e na ciência dos dados, uma forma básica 
preferida de organização dos dados. 
 
Com base no exposto, analise as afirmativas a seguir. 
 
I. Dados retangulares são dados organizados na forma de tabelas, em 
que as variáveis são dispostas nas colunas e as observações são 
dispostas nas linhas. 
II. Os dados cedidos pela corretora ao seu amigo estatístico foram 
organizados na forma de uma tabela, porém essa tabela não é um 
exemplo de dados retangulares, pois as variáveis estão dispostas nas 
linhas e as observações nas colunas. 
III. No R, as estruturas de dados organizados em tabelas, com as 
variáveis dispostas nas colunas e as observações nas linhas, são 
denominadas data-frames. Esse conceito é copiado no Python por meio 
da sua biblioteca “Pandas”. 
IV. Na estatística, ou na ciência de dados, não há preferência por dados 
estruturados na forma de data-frames, já que estatísticos e cientistas de 
dados podem trabalhar com dados organizados em qualquer tipo de 
estrutura. 
 
Está correto o que se afirma em: 
 
 
 
 II e III, apenas. 
 
 III e IV, apenas. 
 
 I e III, apenas. 
 
 
 I e II, apenas 
 
 II e IV, apenas. 
1 pontos 
PERGUNTA 6 
1. Leia o excerto a seguir: 
 
“Uma parte fundamental do kit de ferramentas do cientista de dados é a 
visualização de dados. Embora seja muito fácil criar visualizações é bem 
mais difícil produzir algumas boas. Existem dois usos primários para a 
visualização de dados: - Para explorar dados. - Para comunicar dados. 
Neste capítulo, nos concentraremos em construir habilidades das quais 
você precisará para começar a explorar seus próprios dados e produzir 
visualizações que usaremos no decorrer do livro. Como a maioria dos 
nossos tópicos do capítulo, a visualização de dados é uma rica área de 
estudos que merece seu próprio livro. Mas, mesmo assim, tentaremos 
mostrar o que é preciso e o que não é para uma boa visualização.” 
 
GRUS, J. Data science do zero: primeiras regras com Python. Rio de 
Janeiro: Alta Books, 2016. p. 37.Considerando o excerto apresentado, em relação à visualização de 
dados, analise as afirmativas a seguir: 
 
I. O autor do texto considera a visualização de dados uma parte 
acessória ao trabalho do cientista de dados. 
II. O autor considera fácil criar visualizações de dados, porém acha difícil 
criar boas visualizações de dados. 
III. O autor considera que, por ser fácil criar visualizações de dados, não 
há razão para merecer seu próprio livro. 
IV. O autor deixa claro que existem dois usos primários para a 
visualização de dados: explorar dados e comunicar dados. 
 
Está correto o que se afirma em: 
 
 II e III, apenas. 
 
 I, II e IV, apenas. 
 
 II e IV, apenas. 
 
 I, II e III, apenas. 
 
 II, III e IV, apenas. 
1 pontos 
PERGUNTA 7 
1. Quando os dados se referem a múltiplas variáveis quantitativas, é 
possível calcular a correlação entre pares dessas variáveis, duas a 
duas. No software estatístico R, isto pode ser feito com a função cor(). 
Adiante apresentamos um output típico da função cor() quando aplicada 
ao cálculo da correlação entre quatro variáveis quantitativas de um 
determinado conjunto de dados. 
 Murder Assault UrbanPop Rape 
Murder 1.00 0.80 0.07 0.56 
Assault 0.80 1.00 0.26 0.67 
UrbanPop 0.07 0.26 1.00 0.41 
Rape 0.56 0.67 0.41 1.00 
2. 
 
A respeito deste output típico da função cor() do software estatístico R, 
para o cálculo da correlação entre múltiplas variáveis quantitativas, 
analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) 
e F para a(s) Falsa(s). 
 
I. ( ) Todas correlações são positivas, o que indica que, para todas 
variáveis quantitativas dessa amostra, quando uma aumenta, a outra 
também aumenta. 
II. ( ) Uma correlação igual a 1 entre uma variável e ela mesma apenas 
indica uma correlação perfeita dela com ela mesma. 
III. ( ) A maior correlação positiva entre essas variáveis é aquela entre 
Murder e Assault, cujo valor é de 0,80. 
IV. ( ) A segunda maior correlação positiva entre essas variáveis é 
aquela entre Rape e Assault, cujo valor é de 0,67 e não de 0,56. 
 
 F, F, V, V. 
 
 
 F, V, V, F. 
 
 V, V, V, F. 
 
 F, V, V, V. 
 
 F, V, F, V. 
1 pontos 
PERGUNTA 8 
1. Tarefas de classificação são muitos comuns na estatística e na ciência 
dos dados, por serem muito comuns em todas atividades humanas, na 
ciência, na vida social ou nos negócios. 
Especificamente, discutimos aplicações de modelos preditivos de 
classificação baseados em modelos de regressão logística simples ou 
múltipla. 
Com isso em mente, analise as afirmativas a seguir e assinale V para 
a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
1. Regressão logística pode ser empregada na predição do peso 
médio (massa corporal média) de uma pessoa em função de sua 
altura, idade e sexo. 
2. Regressão logística pode ser empregada na predição do 
consumo médio de combustível de um carro em função da 
potência do seu motor e do seu peso. 
3. Regressão logística pode ser empregada na predição da 
probabilidade de uma pessoa votar em um determinado candidato 
e não nos outros em função de sua escolaridade, idade, sexo e 
classe social. 
4. Regressão logística pode ser empregada na predição da 
probabilidade de a pessoa ser diabética em função de um 
conjunto de sintomas clínicos que apresenta. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
 F, F, F, F. 
 
 F, F, V, V. 
 
 V, V, V, V. 
 
 V, V, F, F. 
 
 F, V, F, V. 
1 pontos 
PERGUNTA 9 
1. Gráficos de dispersão têm emprego consagrado quando falamos a 
respeito de visualização de dados. Eles são usados, porém, de uma 
forma bem específica, pois não podem ser usados para a visualização 
de qualquer tipo de variável, nem em qualquer situação. 
 
A partir do exposto, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Gráficos de dispersão, em inglês denominados scatter plots, só 
podem ser usados para a visualização de uma única variável, a qual 
deve ser, obrigatoriamente, uma variável qualitativa. 
II. ( ) Gráficos de dispersão são usados para a visualização da relação 
entre duas variáveis quantitativas, em que os dados das duas variáveis 
são plotados aos pares. Permite, dessa forma, a verificação visual, pelo 
estatístico ou pelo cientista de dados, se há uma tendência de uma 
variável aumentar quando a outra aumenta, diminuir quando a outra 
diminui, ou se não há uma relação aparente entre as duas. 
III. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação 
entre o valor do imóvel e a sua área. Esse tipo de gráfico é denominado, 
em inglês, scatter plot. 
IV. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação 
entre o valor do imóvel e o seu andar. Esse tipo de gráfico é 
denominado, em inglês, scatter plot. 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
 V, V, F, F. 
 
 F, V, F, V. 
 
 F, V, V, V. 
 
 F, F, V, V. 
 
 V, V, F, V. 
1 pontos 
PERGUNTA 10 
1. A visualização da relação entre duas variáveis é, habitualmente, feita por 
meio de gráficos de dispersão, de boxplots (diagramas de caixas) ou de 
mosaic plots, este último ainda não visto aqui. Mas o emprego dessas 
modalidades de gráficos segue regras bem precisas, especificamente a 
que duas variáveis eles podem representar de forma visual. 
 
Referente ao exposto, analise as afirmativas a seguir e assinale V para 
a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Para examinar visualmente a relação entre duas variáveis, em que 
uma é quantitativa e a outra é qualitativa, não é possível a utilização de 
gráficos de dispersão. 
II. ( ) Boxplots são uma solução inteligente para a visualização da 
relação entre uma variável quantitativa e uma variável qualitativa, em 
que, no eixo horizontal, indicamos os níveis da variável qualitativa e, no 
eixo vertical, a variação dos valores observados para a variável 
quantitativa. 
III. ( ) Para examinar visualmente a relação entre duas variáveis 
quantitativas, um dos gráficos preferidos é o diagrama de caixas, 
também conhecido como boxplot. 
IV. ( ) Na construção de um boxplot, podemos representar, no eixo 
vertical, os níveis da variável qualitativa e, no eixo horizontal, os valores 
da variável quantitativa. Nesse caso, a visualização da variação dos 
dados da variável quantitativa é exibida horizontalmente e os níveis 
(classes) da variável qualitativa são exibidos verticalmente. 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
 V, V, F, F. 
 
 V, F, F, V. 
 
 F, V, V, F. 
 
 F, F, V, V. 
 
 
 V, V, F, V.

Continue navegando