Buscar

Prova - Estatística DS

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 9 páginas

Prévia do material em texto

PERGUN PERGUNTA 1 
1. Leia o excerto a seguir: 
 
“Uma parte fundamental do kit de ferramentas do cientista de dados é a 
visualização de dados. Embora seja muito fácil criar visualizações é bem mais 
difícil produzir algumas boas. Existem dois usos primários para a visualização 
de dados: - Para explorar dados. - Para comunicar dados. Neste capítulo, nos 
concentraremos em construir habilidades das quais você precisará para 
começar a explorar seus próprios dados e produzir visualizações que usaremos 
no decorrer do livro. Como a maioria dos nossos tópicos do capítulo, a 
visualização de dados é uma rica área de estudos que merece seu próprio 
livro. Mas, mesmo assim, tentaremos mostrar o que é preciso e o que não é 
para uma boa visualização.” 
 
GRUS, J. Data science do zero: primeiras regras com Python. Rio de Janeiro: 
Alta Books, 2016. p. 37. 
 
Considerando o excerto apresentado, em relação à visualização de dados, 
analise as afirmativas a seguir: 
 
I. O autor do texto considera a visualização de dados uma parte acessória ao 
trabalho do cientista de dados. 
II. O autor considera fácil criar visualizações de dados, porém acha difícil criar 
boas visualizações de dados. 
III. O autor considera que, por ser fácil criar visualizações de dados, não há 
razão para merecer seu próprio livro. 
IV. O autor deixa claro que existem dois usos primários para a visualização de 
dados: explorar dados e comunicar dados. 
 
Está correto o que se afirma em: 
 
 II, III e IV, apenas. 
 
 I, II e IV, apenas. 
 
 II e IV, apenas. 
 
 II e III, apenas. 
 
 I, II e III, apenas. 
1 pontos 
PERGUNTA 2 
1. Leia o excerto a seguir sobre as ideias-chave para agrupamento hierárquico: 
 
“Começa com todos os registros. Progressivamente, os grupos são unidos aos 
grupos próximos até que todos os registros pertençam a um único grupo. O 
histórico de aglomeração é retido e plotado, e o usuário pode visualizar o 
número e a estrutura dos grupos em diferentes estágios. As distâncias 
intergrupos são calculadas de jeitos diferentes, todas baseadas no conjunto de 
distância inter-registros.” 
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de 
dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 278. 
 A partir do apresentado, analise as asserções a seguir e a relação proposta 
entre elas. 
 
I. No agrupamento hierárquico, o usuário deve obrigatoriamente especificar o 
número de grupos que deseja ver o algoritmo formar. 
Pois 
II. O algoritmo começa com grupos formados por registros individuais e, 
progressivamente, os grupos são unidos aos grupos mais próximos, até que 
todos os registros pertençam a um único grupo. 
 
 
 A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. 
 
 As asserções I e II são proposições falsas. 
 
 As asserções I e II são proposições verdadeiras, e a II é uma justificativa 
correta da I. 
 
 As asserções I e II são proposições verdadeiras, mas a II não é uma 
justificativa da I. 
 
 A asserção I é uma proposição verdadeira e a asserção II é uma 
proposição falsa. 
1 pontos 
PERGUNTA 3 
1. Iniciamos a nossa jornada, pelo mundo da “Estatística Aplicada à Ciência dos 
Dados”, com modelos preditivos denominados regressão linear, simples e 
múltipla. Vimos algumas coisas, mas não vimos outras, pois esta é apenas 
uma jornada inicial motivadora. O seu propósito foi o de apenas descortinar um 
pouquinho desse vasto mundo para você. Desse modo, tentaremos fazer um 
breve resumo dessa jornada aqui. 
 
Para isso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e 
F para a(s) Falsa(s). 
 
I. ( ) Dados e amostras . Vimos que podemos fazer análise descritiva de um 
processo apenas se tivermos dados sobre esse processo. Esses dados devem 
ser coletados do fenômeno ou processo estudado (população). Denominamos 
esses dados como amostra. 
II. ( ) Análise descritiva . Tendo em mãos uma amostra, a análise descritiva se 
refere a sumários (resumos) estatísticos calculados com base nessa amostra 
(mínimos, máximos, frequências, médias, medianas, desvios-padrões etc.) e 
visualizações produzidas por meio de gráficos. 
III. ( ) Visualização dos dados relativos a uma variável . Esses gráficos são 
divididos em duas grandes famílias. Uma delas são de gráficos que permitem a 
visualização do comportamento de dados quantitativos. Aqui, mostramos o 
histograma, que é o mais importante dentro dessa família. A outra família são 
de gráficos que permitem a visualização de dados qualitativos. Aqui, 
mostramos o diagrama de barras, que é o mais importante dentro dessa 
família. 
IV. ( ) Visualização da relação entre duas variáveis . Finalmente, também na 
análise descritiva do processo ou fenômeno observado, vimos gráficos que se 
aplicam à visualização da relação entre duas variáveis, a partir dos dados 
observados. Se as duas variáveis são quantitativas, usamos, aqui, o gráfico de 
dispersão. Por exemplo, o valor do imóvel versus sua área. Quando a relação é 
entre uma variável quantitativa e uma variável qualitativa, usamos, aqui, os 
boxplots (diagramas de caixas), cada boxplot referente a um determinado nível 
da variável qualitativa (bairro ou centro) e, dentro dele, como se comporta a 
variável quantitativa. 
V. ( ) Coisas que não vimos aqui . Há muitas coisas que não vimos aqui. São 
coisas sobre as quais você poderá ver, caso decida aprender mais sobre essas 
poderosas áreas do conhecimento humano, a estatística e a ciência dos dados, 
muito valorizadas pelo mercado de trabalho. 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
 V, F, F, V, V. 
 
 V, V, V, V, V. 
 
 V, V, F, V, F. 
 
 F, V, V, F, V. 
 
 V, V, F, F, F. 
1 pontos 
PERGUNTA 4 
1. Na análise descritiva do volume de vendas da boneca falante, foram estudadas 
as variáveis relativas aos dados coletados pela gerente comercial do fabricante 
da boneca. Entre elas, há a variável do preço da boneca praticado em cada 
ponto de venda, cuja relação com vendas altas ou baixas é exibida no gráfico 
adiante. 
 
 
 
Figura: Efeito do preço nas vendas 
Fonte: Elaborada pelo autor. 
 
Quanto a relação entre o preço da boneca e o volume de vendas (vendas altas 
ou baixas), analise as afirmativas a seguir: 
I. Ao estudarmos este caso, percebemos que não há qualquer efeito do preço 
da boneca falante sobre o volume de vendas em cada ponto (de venda). 
II. O gráfico de visualização da relação entre o preço de venda da boneca e o 
volume de vendas mostra que vendas altas ocorrem quando o preço da boneca 
é significativamente menor. 
III. O gráfico de visualização da relação entre o preço de venda da boneca e o 
volume de vendas mostra que vendas altas ocorrem mesmo quando o preço da 
boneca não é significativamente menor. 
IV. A asserção III é um indicativo que o efeito de outras variáveis sobre o 
volume de vendas da boneca pode ser tão relevante ou mesmo maior que o 
efeito da diferença de preço. 
Está correto o que se afirma em: 
 
 I, III e IV, apenas. 
 
 I e III, apenas. 
 
 I e II, apenas. 
 
 III e IV, apenas. 
 
 II e III, apenas. 
1 pontos 
PERGUNTA 5 
1. A estatística descritiva usa de métodos numéricos para resumir dados, também 
chamados de sumários estatísticos, e de gráficos para a visualização dos 
dados. A jovem cientista de dados usou algumas técnicas de visualização de 
dados para analisar sua amostra, mas deixou outras de lado. 
 
Analise as afirmativas a seguir e veja quais estão coerentes com sua análise 
descritiva dos dados. 
 
1. Na sua análise descritiva dos dados da amostra, a jovem cientista de dados 
usou histogramas para a visualização dos dados quantitativos das amostras, 
que são a renda mensal das pessoas e seus gastos médios com o cartão de 
crédito. 
2. Na sua análise descritiva dos dados da amostra, a jovem cientista de dados 
usou diagramas de barras para a visualização dos dados quantitativos das 
amostras, que são a renda mensal das pessoas e seus gastos médios com ocartão de crédito. 
 
 
 
3. Histogramas e diagramas de barras são formas tradicionais de visualização 
gráfica de dados quantitativos e qualitativos, respectivamente, na estatística e 
na ciência dos dados. 
4. A jovem cientista de dados usou, para este caso, apenas histogramas, e 
preferiu apenas lançar mão da função table() do software estatístico R, para 
determinar a frequência com que os níveis das variáveis qualitativas se 
manifestaram na amostra estudada, sem fazer uso de diagramas de barras, o 
que poderia ter feito, se quisesse. 
 
 
Está correto o que se afirma em: 
 
 
 
 
I e IV, apenas. 
 
 
 
 
 
 II e III, apenas. 
 
 I, III e IV apenas. 
 
 IV, apenas. 
 
 I e II, apenas. 
1 pontos 
PERGUNTA 6 
1. Quando acontece de haver várias variáveis quantitativas em uma determinada 
amostra de dados, é comum a realização da análise da (possível) relação entre 
essas variáveis por meio do cálculo de suas correlações. Neste caso, o cálculo 
de suas correlações sempre é feito de duas em duas variáveis. Comumente, 
também se apresenta a correlação de cada variável com ela mesma, o que 
sempre resulta em uma correlação perfeita, igual a 1. 
 
A tabela adiante mostra o resultado do cálculo das correlações entre 5 
variáveis quantitativas de uma determinada amostra. 
 
 x1 x2 x3 x4 x5 
x1 1,00 - 0,85 - 0,78 - 0,87 0,42 
x2 - 0,85 1,00 0,79 0,89 - 0,43 
x3 - 0,78 0,79 1,00 0,66 - 0,71 
x4 - 0,87 0,89 0,66 1,00 - 0,17 
x5 0,42 - 0,43 - 0,71 - 0,17 1,00 
2. 
 
Quadro: Correlações cruzadas entre as variáveis quantitativas x1, x2, x3, x4 e 
x5 
Fonte: Elaborado pelo autor. 
 
Com respeito a essa tabela de correlações, analise as afirmativas a seguir e 
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Os valores 1,00 apenas indicam a correlação perfeita que existe entre uma 
variável e ela mesma, uma informação de pouco valor prático. 
II. ( ) A maior correlação positiva é aquela entre as variáveis x2 e x4, no valor 
de 0,89, que indica uma forte associação entre essas duas variáveis, e que 
uma aumenta com um aumento da outra. 
III. ( ) A maior (em valor absoluto) correlação negativa é aquela entre as 
variáveis x1 e x4, no valor de - 0,87, que indica uma forte associação entre 
essas duas variáveis, e que uma diminui quanto a outra aumenta. 
IV. ( ) A menor (em valor absoluto) correlação negativa é aquela entre as 
variáveis x4 e x5, no valor de - 0,17, que indica uma fraca associação entre 
essas duas variáveis, e que uma diminui quando a outra aumenta. 
 
 V, V, V, V. 
 
 F, F, F, F. 
 
 F, V, V, F. 
 
 F, F, V, V. 
 
 V, F, F, V. 
1 pontos 
PERGUNTA 7 
1. Leia o excerto a seguir: 
“Os modelos de árvores, também chamados de Árvores de Classificação e 
Regressão , árvores de decisão ou apenas árvores , são um método de 
classificação (e regressão) efetivo e popular, inicialmente desenvolvido por Leo 
Breiman e outros em 1984. Os modelos de árvores e seus descendentes mais 
potentes, florestas aleatórias e boosting , formam a base das ferramentas de 
modelagem preditiva mais potentes e amplamente usadas na ciência de dados 
tanto para regressão quanto para classificação.” 
BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 
conceitos iniciais. Rio de Janeiro: Alta Books, 2019. p. 226. 
Quanto às árvores de decisão para classificação e regressão, analise as 
afirmativas a seguir: 
I. Uma árvore faz partição recursiva das variáveis de entrada, selecionando 
uma de cada vez, de forma hierárquica, das mais importante às menos 
importantes, a cada estágio da sua construção, até chegar aos nós terminais, 
suas folhas, em que exibe os valores estimados para a variável resposta. 
II. A cada estágio da construção da árvore, o nó inicial e depois os nós 
intermediários dividem o domínio da variável de entrada em questão, de onde 
bifurcam os seus ramos para a esquerda e para a direita. Os valores exibidos 
no nó indicam como se deve ler a árvore, ao se caminhar pelos ramos à 
esquerda ou à direita do nó em questão. 
III. Em cada um dos nós intermediários, assim como no nó inicial, há um valor 
quantitativo ou qualitativo, que representa o valor escolhido pela árvore para 
fazer a partição da variável tratada naquele estágio da construção da árvore. 
IV. Em árvores de decisão de classificação ou regressão, folha é um termo que 
designa os nós terminais das árvores, nos quais são exibidos os valores 
estimados para a variável resposta do modelo preditivo. Cada caminho da 
árvore indica, dessa forma, o valor a estimar para os valores das variáveis de 
entrada, informadas no caminho do nó inicial até a folha. 
Está correto o que se afirma em: 
 
 II, III e IV, apenas. 
 
 II e III, apenas. 
 
 I e IV, apenas. 
 
 I, II, III e IV. 
 
 I, II e III, apenas. 
1 pontos 
PERGUNTA 8 
1. Muitos dos modelos ou algoritmos usados na estatística e na ciência dos dados 
são denominados modelos paramétricos, ou seja, que possuem parâmetros. 
Esses parâmetros devem ser determinados quando se treina (se ajusta) o 
modelo ou algoritmo aos dados amostrados. Na regressão linear simples ou 
múltipla, esses parâmetros são denominados coeficientes do modelo. 
 
A respeito dos coeficientes do modelo de regressão linear simples para o valor 
do imóvel em função da sua área, analise as afirmativas a seguir. 
 
I. O estatístico usou o software R e obteve, para os coeficientes do modelo de 
regressão linear simples do valor do imóvel em função da sua área, b0 = 
27,22 e b1 = 5,15. 
II. Os coeficientes do modelo de regressão linear simples do valor do imóvel 
em função da sua área possuem unidades, que são, respectivamente, kR$ (mil 
reais) para b0 e kR$/m2 (mil reais dividido pela área do imóvel) para b1. 
III. O coeficiente b0 é a intersecção da reta do modelo com o eixo vertical y 
quanto x1 = 0. Não tem um significado “real” nesse caso, pois não há imóveis 
com área igual a zero. Deve ser entendido, nessa situação, apenas como um 
parâmetro de ajuste do modelo aos dados da amostra. 
IV. O coeficiente b1 indica quanto varia o valor esperado do imóvel para um 
aumento de 1 metro quadrado da sua área. Graficamente, esse coeficiente é a 
inclinação da reta que representa o modelo de regressão linear simples 
ajustado aos dados da amostra. 
Está correto o que se afirma em: 
 
 
 
 II e III, apenas. 
 
 I, II, III e IV. 
 
 
 I e II, apenas. 
 
 II, III e IV, apenas. 
 
 III e IV, apenas. 
1 pontos 
PERGUNTA 9 
1. A análise descritiva dos dados é uma etapa muito importante no processo de 
descoberta de padrões em dados. Por vezes, ela se limita à análise descritiva, 
pois comumente já traz muitas descobertas. Em grande parte das vezes, é uma 
das etapas iniciais, seguida de etapas relacionadas à modelagem dos dados. 
 
Em relação às ferramentas usadas por um estatístico ou um cientista de dados 
para a análise descritiva de dados, analise as afirmativas a seguir: 
 
I. Gráficos são usados para a visualização de cada variável ou relação entre 
variáveis. 
II. Tabelas, sumários e gráficos são as ferramentas básicas da análise 
descritiva. 
III. Modelos preditivos são usados para a análise descritiva de dados. 
IV. Tabelas e sumários estatísticos são usados na análise descritiva de dados. 
 
Está correto o que se afirma em: 
 
 II e III, apenas. 
 
 I, III e IV, apenas. 
 
 II, III e IV, apenas. 
 
 I, II e III, apenas. 
 
 I, II e IV, apenas. 
1 pontos 
PERGUNTA 10 
1. Naturalmente, dados ocupam uma posição central, tanto na estatística quanto 
na ciência dos dados. Entendê-los, saber da sua natureza, o que representam, 
é de suma importância, antes da realização de qualquer análise ou projeto. Os 
dados são divididos entre quantitativos e qualitativos, na estatística e na ciência 
dos dados. Relativamente aos qualitativos, analise as afirmativas a seguir e 
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
1. ( ) Dados qualitativos dicotômicos são dados observados de variáveis 
qualitativasque podem assumir apenas dois níveis (também chamados de 
classes) como seus valores, tais como sexo (feminino ou masculino), ocupação 
(empregado ou desempregado), localização (bairro ou centro), emprego 
estável (sim ou não), inadimplente (sim ou não). 
2. ( ) Dados qualitativos politômicos são aqueles oriundos de variáveis qualitativas 
que podem assumir três ou mais níveis como seus valores, tais como classe 
social (A, B, C, D e E), escolaridade (fundamental, médio, superior), gravidade 
da doença (baixa, média, alta). 
3. ( ) A função table() do R permite a contagem da frequência de cada nível 
assumido por uma variável qualitativa em uma dada amostra, e foi usada pela 
jovem cientista de dados para contar a frequência de pessoas com ou sem 
emprego estável e se ficaram ou não inadimplentes com o pagamento das 
faturas do cartão no período amostrado. 
4. ( ) Um mosaicplot permite a visualização gráfica da relação entre duas 
variáveis qualitativas. Foi usado por uma jovem cientista de dados para 
examinar a possível relação entre duas variáveis qualitativas dicotômicas: 
pessoas com ou sem emprego estável e se ficaram ou não inadimplentes com 
o pagamento das faturas do cartão de crédito ao longo do período amostrado. 
Ela percebeu, ao ver o gráfico resultante (ver figura adiante), que parece haver 
um maior nível de inadimplência com o cartão entre aquelas que não têm 
emprego estável. 
 
 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
 V, V, V, V. 
 
 F, F, F, F. 
 
 F, V, F, V. 
 
 V, V, F, F. 
 
 V, V, F, V.

Outros materiais