Buscar

PROVA - DISCIPLINA ESTATÍSTICA APLICADA AO DATA SCIENCE - CURSO JOGOS DIGITAIS

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

QUESTÃO 1
Discutimos o que são aprendizagem supervisionada e não supervisionada. Vimos que é na forma como tratamos as variáveis estudadas que se dá a diferença entre esses dois tipos de aprendizagens, supervisionada e não supervisionada. Esses dois tipos são os mais importantes dentre os diversos tipos de aprendizagem.
 
Relativamente a esse assunto, analise as afirmativas a seguir.
 
1. Na aprendizagem supervisionada, definimos uma das variáveis estudadas como sendo a variável resposta, a qual responde em função dos valores assumidos pelas outras variáveis, as quais são chamadas de variáveis de entrada.
2. Especificamente na aprendizagem supervisionada, também denominamos uma variável resposta de variável de saída ou variável dependente.
3. Especificamente na aprendizagem supervisionada, também denominamos uma variável de entrada de variável regressora, variável preditora ou variável independente.
4. Na aprendizagem não supervisionada, tratamos todas as variáveis estudadas da mesma forma, sem procurar explicar o comportamento de uma delas em função dos valores assumidos pelas outras.
Está correto o que se afirma em:
· I, II e IV, apenas. 
· II e III, apenas.
· RESPOSTA CORRRETA: I, II, III e IV.
· II, III e IV, apenas.
· I, III e IV, apenas.
QUESTÃO 2
Modelos de regressão linear são os mais importantes modelos de regressão da estatística e da ciência dos dados. Eles são divididos em dois grupos: modelos de regressão linear simples e modelos de regressão linear múltipla.
 
Quanto ao modelo de regressão linear múltipla para o valor do imóvel em função da sua área e do seu andar, analise as afirmativas a seguir.
 
I. O estatístico desenvolveu um modelo para o valor esperado de  (valor do imóvel) em função de  (área do imóvel) e  (andar do imóvel), simultaneamente. Esse modelo ficou assim:
 
 
II. Quando se faz o ajuste simultâneo do modelo para duas variáveis de entrada, é natural que os valores dos coeficientes para cada variável sejam diferentes do que os mesmos coeficientes para cada variável sozinha em uma regressão linear simples. Isso vale sempre que adicionamos variáveis de entrada ou eliminamos variáveis de entrada de um modelo de regressão linear.
III. Os coeficientes b1 e b2 indicam, respectivamente, quanto varia o valor esperado para o apartamento com a variação unitária de sua área (em metros quadrados) e a variação unitária do seu andar (1 andar a mais).
IV. Ao usar esse modelo preditivo, podemos estimar o valor esperado de um apartamento com 40 metros quadrados localizado no quinto andar em 433 mil reais (arredondando para mil reais).
Está correto o que se afirma em:
· I e II, apenas.
· III e IV, apenas.
· II e III, apenas.
· RESPOSTA CORRRETA: I, II e III, apenas.
· I, II, III e IV. 
QUESTÃO 3
 Depois que formamos grupos de observações de um conjunto de dados (amostra), por meio de um algoritmo de agrupamento, podemos dar nomes aos mesmos, e cada indivíduo de cada grupo será classificado de acordo com esse nome. O ser humano faz isso com naturalidade, primeiro agrupar e, depois de formados os grupos, dar nomes aos grupos. Por exemplo, animais vertebrados ou invertebrados, carros ou aviões, homens ou mulheres.
 
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. e assinale a alternativa correta:
 
I.  Ao usarmos de algoritmos de agrupamento, depois que formados e nomeados (classificados) os grupos de observações resultantes do algoritmo, não é possível usar essas classes como variáveis respostas e, a partir desse ponto, executar tarefas preditivas com algoritmos de classificação.
Pois
II. Algoritmos de agrupamento fazem parte dos métodos da chamada aprendizagem não supervisionada. Não são modelos preditivos.
· As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da I.
· As asserções I e II são proposições falsas.
· A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.
· RESPOSTA CORRRETA: A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
· As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
QUESTÃO 4
Iniciamos a nossa jornada, pelo mundo da “Estatística Aplicada à Ciência dos Dados”, com modelos preditivos denominados regressão linear, simples e múltipla. Vimos algumas coisas, mas não vimos outras, pois esta é apenas uma jornada inicial motivadora. O seu propósito foi o de apenas descortinar um pouquinho desse vasto mundo para você. Desse modo, tentaremos fazer um breve resumo dessa jornada aqui.
 
Para isso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e
F para a(s) Falsa(s).
 
I. ( ) Dados e amostras. Vimos que podemos fazer análise descritiva de um processo apenas se tivermos dados sobre esse processo. Esses dados devem ser coletados do fenômeno ou processo estudado (população). Denominamos esses dados como amostra.
II. ( ) Análise descritiva. Tendo em mãos uma amostra, a análise descritiva se refere a sumários (resumos) estatísticos calculados com base nessa amostra (mínimos, máximos, frequências, médias, medianas, desvios-padrões etc.) e visualizações produzidas por meio de gráficos.
III. ( ) Visualização dos dados relativos a uma variável. Esses gráficos são divididos em duas grandes famílias. Uma delas são de gráficos que permitem a visualização do comportamento de dados quantitativos. Aqui, mostramos o histograma, que é o mais importante dentro dessa família. A outra família são de gráficos que permitem a visualização de dados qualitativos. Aqui, mostramos o diagrama de barras, que é o mais importante dentro dessa família.
IV. ( ) Visualização da relação entre duas variáveis. Finalmente, também na análise descritiva do processo ou fenômeno observado, vimos gráficos que se aplicam à visualização da relação entre duas variáveis, a partir dos dados observados. Se as duas variáveis são quantitativas, usamos, aqui, o gráfico de dispersão. Por exemplo, o valor do imóvel versus sua área. Quando a relação é entre uma variável quantitativa e uma variável qualitativa, usamos, aqui, os boxplots (diagramas de caixas), cada boxplot referente a um determinado nível da variável qualitativa (bairro ou centro) e, dentro dele, como se comporta a variável quantitativa.
V. (  ) Coisas que não vimos aqui. Há muitas coisas que não vimos aqui. São coisas sobre as quais você poderá ver, caso decida aprender mais sobre essas poderosas áreas do conhecimento humano, a estatística e a ciência dos dados, muito valorizadas pelo mercado de trabalho.
 
Assinale a alternativa que apresenta a sequência correta.
· V, V, F, V, F.
· V, F, F, V, V.
· RESPOSTA CORRRETA: V, V, V, V, V.
· F, V, V, F, V.
· V, V, F, F, F.
QUESTÃO 5
A análise descritiva dos dados é uma etapa muito importante no processo de descoberta de padrões em dados. Por vezes, ela se limita à análise descritiva, pois comumente já traz muitas descobertas. Em grande parte das vezes, é uma das etapas iniciais, seguida de etapas relacionadas à modelagem dos dados.
 
Em relação às ferramentas usadas por um estatístico ou um cientista de dados para a análise descritiva de dados, analise as afirmativas a seguir:
 
I. Gráficos são usados para a visualização de cada variável ou relação entre variáveis.
II. Tabelas, sumários e gráficos são as ferramentas básicas da análise descritiva.
III. Modelos preditivos são usados para a análise descritiva de dados.
IV. Tabelas e sumários estatísticos são usados na análise descritiva de dados.
 
Está correto o que se afirma em:
· RESPOSTA CORRRETA: I, II e IV, apenas.
· I, II e III, apenas.
· I, III e IV, apenas.
· II e III, apenas.
· II, III e IV, apenas.
QUESTÃO 6
Naturalmente, dados ocupam uma posição central, tanto na estatística quanto na ciência dos dados. Entendê-los, saber da sua natureza, o que representam, é de suma importância, antes da realização de qualquer análise ou projeto. Os dados são divididos entre quantitativos e qualitativos, na estatística e na ciência dos dados. Relativamente aos qualitativos, analise as afirmativasa seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
 
1. ( ) Dados qualitativos dicotômicos são dados observados de variáveis qualitativas que podem assumir apenas dois níveis (também chamados de classes) como seus valores, tais como sexo (feminino ou masculino), ocupação (empregado ou desempregado), localização (bairro ou centro), emprego estável (sim ou não), inadimplente (sim ou não).
2. ( ) Dados qualitativos politômicos são aqueles oriundos de variáveis qualitativas que podem assumir três ou mais níveis como seus valores, tais como classe social (A, B, C, D e E), escolaridade (fundamental, médio, superior), gravidade da doença (baixa, média, alta).
3. ( ) A função table() do R permite a contagem da frequência de cada nível assumido por uma variável qualitativa em uma dada amostra, e foi usada pela jovem cientista de dados para contar a frequência de pessoas com ou sem emprego estável e se ficaram ou não inadimplentes com o pagamento das faturas do cartão no período amostrado.
4. ( ) Um mosaicplot permite a visualização gráfica da relação entre duas variáveis qualitativas. Foi usado por uma jovem cientista de dados para examinar a possível relação entre duas variáveis qualitativas dicotômicas: pessoas com ou sem emprego estável e se ficaram ou não inadimplentes com o pagamento das faturas do cartão de crédito ao longo do período amostrado. Ela percebeu, ao ver o gráfico resultante (ver figura adiante), que parece haver um maior nível de inadimplência com o cartão entre aquelas que não têm emprego estável.
 
 
Assinale a alternativa que apresenta a sequência correta.
 
· F, V, F, V.
· V, V, F, V.
· V, V, F, F.
· F, F, F, F.
· RESPOSTA CORRRETA: V, V, V, V.
QUESTÃO 7
Na análise descritiva do volume de vendas da boneca falante, foram estudadas as variáveis relativas aos dados coletados pela gerente comercial do fabricante da boneca. Entre elas, há a variável do local de exposição da boneca (ruim, médio, bom) no ponto de venda, cuja relação com vendas altas ou baixas é exibida no gráfico adiante.
 
Figura: Efeito do local de exposição nas vendas
Fonte: Elaborada pelo autor.
Quanto à relação entre o local de exposição da boneca (ruim, médio, bom) e o volume de vendas (vendas altas ou baixas), analise as afirmativas a seguir:
I. Ao estudarmos este caso, percebemos que vendas altas ocorrem com mais frequência nos pontos de venda onde o local de exposição da boneca é bom.
II. Ao estudarmos este caso, percebemos que não há qualquer efeito do local de exposição sobre o volume de vendas da boneca nos pontos de venda.
III. O gráfico exibido acima mostra que a frequência de pontos com vendas altas é baixa quando o local de exposição da boneca é ruim.
IV. O gráfico de visualização da relação entre o local de exposição da boneca no ponto de venda e o volume de vendas, por se tratarem ambas de variáveis qualitativas, é um gráfico do tipo mosaic plot, apropriado para esta situação.
Está correto o que se afirma em:
· I, II e III, apenas.
· RESPOSTA CORRRETA: I, III e IV, apenas.
· I, II e IV, apenas.
· II e III, apenas.
· III e IV, apenas.
QUESTÃO 8
Leia o excerto a seguir:
“A ciência dos dados é uma fusão de múltiplas disciplinas, incluindo estatística, ciência da computação, tecnologia da informação e campos de domínios específicos. Consequentemente, podem-se utilizar de muitos termos diferentes para se referir a um dado conceito.”
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. xv.
 A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.
 
I.  Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes para se referir a um dado conceito.
Pois
II. A estatística usa, de forma profunda, a matemática como pilar do seu desenvolvimento. É considerada a ciência mais sutil, e a mais ampla, quanto o assunto são dados. É usada por todas áreas científicas.
· A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.
· As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
· As asserções I e II são proposições falsas.
· A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
· RESPOSTA CORRRETA: As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa  da I.
QUESTÃO 9
Na Unidade 2 estudamos os modelos preditivos de classificação com regressão logística múltipla, para a predição da probabilidade de inadimplência. Aqui, para a predição do volume de vendas de um produto de varejo (uma variável qualitativa com dois níveis, vendas altas ou baixas), usamos como classificador uma árvore de decisão.
 
Figura: Árvore de decisão ajustada às vendas do produto de varejo
Fonte: Elaborada pelo autor.
 
A respeito deste modelo de árvore de decisão aplicado ao problema de predição do volume de vendas da boneca falante (replicado aqui, para sua conveniência), analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
 
I. ( ) Se o local de exposição da boneca for ruim, porém seu preço menor que 241,25 reais, as vendas serão altas, independentemente dos gastos com publicidade e da idade média da população local.
II. ( ) Se o local de exposição da boneca for ruim, seu preço igual ou maior que 241,25 reais, mas os gastos com publicidade forem menores que 78 mil reais, as vendas serão altas, independentemente da idade média da população.
III. ( ) Se o local de exposição da boneca for bom, porém seu preço for igual ou maior que 356,25 reais, as vendas serão baixas, independentemente dos gastos com publicidade e da idade média da população.
IV. ( ) Se o local de exposição da boneca for médio e seu preço for igual ou maior que 241,25 reais, mas os gastos com publicidade forem iguais ou maiores que 78 mil reais e a idade média da população for menor que 44 anos, as vendas serão altas.
 
Assinale a alternativa que apresenta a sequência correta:
· V, F, V, F.
· F, F, V, F.
· F, V, V, F.
· RESPOSTA CORRRETA: V, F, V, V.
· F, F, V, V.
QUESTÃO 10
Em uma análise de agrupamento examinamos os dados observados (as linhas da tabela com os dados) e procuramos identificar, através de algum critério de similaridade, aquelas que estão mais próximas entre si, e formamos grupos com essas observações similares. Quando são apenas 2 variáveis e poucas observações (tamanho da amostra pequeno), por exemplo 10, podemos tentar fazer o agrupamento visualmente.
 
Analise a figura adiante e assinale a alternativa que indica a menor quantidade de grupos que você naturalmente formaria para este caso:
 
Figura - Massa corporal (kg) versus comprimento (m) dos animais
Fonte: Elaborada pelo autor
· Dois grupos, um com 1 indivíduo e um com 9 indivíduos. 
· Três grupos, um com 5 indivíduos, um com 1 indivíduo, e um com 4 indivíduos.
· RESPOSTA CORRRETA: Dois grupos, um com 6 indivíduos e outro com 4 indivíduos.
· Dois grupos com 5 indivíduos cada.
· Quatro grupos, um com 5 indivíduos, dois com 1 indivíduo cada, e um com 4 indivíduos.

Continue navegando