Buscar

ESTATÍSTICA APLICADA AO DATA SCIENCE - Prova N2

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Os dados cedidos pelo gerente do banco estavam bem organizados e livres de erros. A nossa jovem cientista de dados não precisou, portanto, fazer uma limpeza e pré-tratamento dos dados e pode prosseguir imediatamente para uma análise descritiva deles antes do desenvolvimento do modelo.
Tendo isso em vista, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).  
 
1. ( ) Chamamos de análise descritiva dos dados seus sumários (ou resumos) estatísticos dos mesmos e a sua visualização. Ambos, os sumários e as visualizações, nos ajudam a entender o comportamento dos dados e, através deles, do fenômeno ou processo estudado.
2. ( ) São quatro as variáveis estudadas pela cientista de dados: renda mensal da pessoa, seus gastos médios com o cartão, se a pessoa tinha ou não um emprego estável ao longo do período amostrado e se ficou ou não inadimplente ao longo do deste período.
3. ( ) Para criar sumários estatísticos das variáveis quantitativas, a renda mensal da pessoa e seus gastos com o cartão, a cientista de dados usou as funções min(), mean() e max() do software estatístico R para calcular os valores mínimo, médio e máximo dos dados observados para essas variáveis.
4. ( ) Para criar sumários estatísticos das variáveis qualitativas, se a pessoa tinha ou não um emprego estável e se tinha ou não ficado inadimplente com o pagamento das faturas do cartão ao longo do período amostrado, a cientista de dados usou a função table() do software estatístico R para calcular a frequência com que os níveis de cada uma dessas variáveis se manifestaram na amostra estudada.
5. 
V, V, F, F.
6. 
F, V, V, F.
7. 
F, F, V, V.
 
 
 
8. 
V, F, F, V.
9. Resposta correta
V, V, V, V.
Leia o excerto a seguir:
“A ciência dos dados é uma fusão de múltiplas disciplinas, incluindo estatística, ciência da computação, tecnologia da informação e campos de domínios específicos. Consequentemente, podem-se utilizar de muitos termos diferentes para se referir a um dado conceito.”
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. xv.
 A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.
 
I.  Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes para se referir a um dado conceito.
Pois
II. A estatística usa, de forma profunda, a matemática como pilar do seu desenvolvimento. É considerada a ciência mais sutil, e a mais ampla, quanto o assunto são dados. É usada por todas áreas científicas.
· 
As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
· 
As asserções I e II são proposições falsas.
· Resposta correta
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa  da I.
· 
A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.
· 
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
Os métodos de aprendizagem estatística (statistical learning, em inglês) são divididos em métodos de aprendizagem supervisionada e métodos de aprendizagem não supervisionada. Para cada uma dessas diferentes abordagens, há uma coleção relativamente grande de diferentes métodos, cada um com seu próprio jeito de funcionamento.
 
Assinale a alternativa que indica um problema de aprendizagem não supervisionada:
· 
Pretendemos ter uma ideia do volume de vendas de um produto de varejo a partir de algumas características do ponto de venda.
· 
Gostaríamos de saber que pessoas ficarão inadimplentes com o pagamento das faturas de seus cartões de crédito.
· 
Queremos estimar o valor de imóveis a partir das suas características, tais como sua área, seu andar e sua localização.
· Resposta correta
Desejamos entender se há similaridade entre observações (indivíduos) de uma certa amostra de dados.
· 
Ajudaremos médicos se conseguirmos avaliar a gravidade de uma doença a partir de dados relativos às condições do paciente.
A amostra relativa aos dados de inadimplência com cartões tinha 200 observações de 4 variáveis: a renda mensal da pessoa (R$), seu gasto médio com cartão de crédito (R$), se a pessoa tinha um emprego estável (Sim ou Não) e se a pessoa havia, ao longo do período pesquisado, ficado inadimplente com o pagamento de faturas do cartão ao menos uma vez (Sim ou Não).
Reflita sobre esse caso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
 
1. ( ) Todos os dados fornecidos pelo gerente do  banco à jovem cientista de dados são dados relativos a variáveis quantitativas.
2. ( ) Todos os dados fornecidos pelo  gerente do  banco à jovem cientista de dados são dados relativos a variáveis qualitativas.
3. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista de dados, dois são relativos a uma variável quantitativa e dois são relativos a variáveis qualitativas.
4. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista de dados, um é relativo a uma variável quantitativa e os outros são relativos a variáveis qualitativas.
 
Assinale a alternativa que apresenta a sequência correta.
· 
F, V, V, V.
· 
F, V, F, V.
· Resposta correta
F, F, V, F.
 
 
 
· 
V, V, F, F.
· 
V, V, F, V.
Usamos gráficos para a visualização do comportamento (a descoberta de padrões), tanto de cada variável individualmente quanto da relação entre variáveis (o comportamento de uma em relação à outra). Ambas visualizações, seja da variável individualmente, seja da sua possível relação com outra variável, são de grande utilidade.
 
Quanto aos gráficos para a visualização da relação entre duas variáveis, analise as afirmativas a seguir:
I. Gráficos de dispersão são usados para a visualização da relação entre duas variáveis quantitativas.
II. Boxplots são usados para a visualização da relação entre uma variável quantitativa e uma variável qualitativa (ou os níveis de uma variável qualitativa).
III. Mosaic plots são usados para a visualização entre duas variáveis qualitativas (ou, em outras palavras, entre os níveis de duas variáveis qualitativas).
IV. Em qualquer uma das situações descritas acima, sempre exibiremos uma das variáveis no eixo horizontal e a outra no eixo vertical.
Está correto o que se afirma em:
· Resposta correta
I, II, III e IV.
· 
I, II e III, apenas.
· 
II, III e IV, apenas.
· 
I e IV, apenas.
· 
II e III, apenas.
Considere quatro apartamentos: o primeiro com 55 metros quadrados, no centro, no 4º andar; o segundo com 77 metros quadrados, no bairro, no 5º andar; o terceiro com 54 metros quadrados, no centro, no 9º andar; o quarto com 60 metros quadrados, no bairro, no 12º andar.
 
 
Figura - Árvore de decisão ajustada aos valores dos imóveis
· 
366,50; 319,20; 390,40; 448,80 mil reais.
· 
390,40; 366,50; 390,40; 448,80 mil reais.
· 
319,20; 448,80; 366,50; 366,50 mil reais.
· 
319,20; 448,80; 390,40; 366,50 mil reais.
· Resposta correta
319,20; 448,80; 366,50; 390,40 mil reais.
Leia o excerto a seguir:
“O quadro típico para uma análise em ciência de dados é um objeto de dados retangulares, como uma planilha ou tabela de banco de dados. Dado retangular é basicamente uma matriz bidimensional com linhas indicando registros (caso) e colunas indicando características (variáveis). Os dados nem sempre começam dessa forma: dados não estruturados (por exemplo, texto) devem ser processados e tratados de modo a serem representados como um conjunto de características nos dados retangulares.”
BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019. p. 5-6.
Tomando como base esse texto e o que já discutimos sobre dados estruturados, tabulares e retangulares, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) É impossível converter dados não estruturados em representações estruturadas, para que possam ser analisados pela ciência dos dados.
II. ( ) Dados retangulares não são uma forma típica de organização de dadospara análise em ciência dos dados.
III. ( ) Textos são dados estruturados, pois sempre vêm em estruturas bem padronizadas, como aquelas que estudamos em gramática.
IV. ( ) Dados retangulares, dados tabulares ou dados estruturados são termos usados como sinônimos na ciência dos dados.
 
Assinale a alternativa que apresenta a sequência correta:
· 
F, F, V, V.
· 
F, F, F, F.
· Resposta correta
F, F, F, V.
· 
F, V, F, V.
· 
F, F, V, F.
Na Unidade 1, usamos um modelo de regressão múltipla para a predição do valor de imóveis. Aqui, para o mesmo problema, usamos como modelo uma árvore de decisão. Dizemos que este modelo é um modelo de árvore de decisão para regressão, já que a variável resposta, o valor do imóvel, é quantitativa.
 
 
Figura: Árvore de decisão ajustada aos valores dos imóveis
· 
V, F, V, F.
· 
F, V, V, V.
· Resposta correta
F, F, V, V.
· 
F, V, V, F.
· 
F, F, V, F.
Vimos que dados podem ser classificados em dados estruturados e dados não estruturados. Atribuímos um foco aos dados estruturados, de enorme importância para a estatística e para a ciência dos dados. Ademais, há, na estatística e na ciência dos dados, uma forma básica preferida de organização dos dados.
 
Com base no exposto, analise as afirmativas a seguir.
 
I. Dados retangulares são dados organizados na forma de tabelas, em que as variáveis são dispostas nas colunas e as observações são dispostas nas linhas.
II. Os dados cedidos pela corretora ao seu amigo estatístico foram organizados na forma de uma tabela, porém essa tabela não é um exemplo de dados retangulares, pois as variáveis estão dispostas nas linhas e as observações nas colunas.
III. No R, as estruturas de dados organizados em tabelas, com as variáveis dispostas nas colunas e as observações nas linhas, são denominadas data-frames. Esse conceito é copiado no Python por meio da sua biblioteca “Pandas”.
IV. Na estatística, ou na ciência de dados, não há preferência por dados estruturados na forma de data-frames, já que estatísticos e cientistas de dados podem trabalhar com dados organizados em qualquer tipo de estrutura.
 
Está correto o que se afirma em:
· 
II e III, apenas.
· 
II e IV, apenas.
· 
I e II, apenas
· 
III e IV, apenas.
· Resposta correta
I e III, apenas.
Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco estados americanos parte do famoso conjunto de dados USArrests, o qual possue 50 observações (50 estados americanos) de 4 variáveis (Murder, Assault, UrbanPop e Rape).
 
Obteve o resultado exibido na figura exibida adiante:
 
Figura - Dendrograma do agrupamento dos cinco estados
Fonte: Elaborada pelo autor
 
Relativamente à interpretação desta figura, assinale a alternativa correta:
· É um dendrograma, ou seja, um gráfico na forma de uma árvore, que sugere serem os estados Texas e Arkansas os mais próximos em termos de violência urbana.
· Resposta correta
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que representa os vários grupos formados em cada estágio do processo de agrupamento hierárquico.
· 
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que sugere serem os estados New Mexico e Oklahoma os mais próximos em termos de violência urbana.
· 
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que lido de cima para baixo, na altura (height) 1,5 sugere a formação de 10 grupos.
· 
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que lido de baixo para cima, na altura (height) 1,5 sugere a formação de 6 grupos.

Continue navegando