N2 (08-10) - Estatística Aplicada ao Data Science-convertido

•

PUC-SP

17

0

17

0

Mercali Gustavo

18/02/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística Aplicada

24.031 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Pergunta 1 
1. Considere dois pontos de venda da boneca falante com as seguintes 
características: primeiro ponto com local de exposição ruim da boneca, 
preço da boneca de 289,99 reais, gastos mensais com publicidade de 90 
mil reais e idade média da população local de 39 anos. Segundo ponto 
com bom local de exposição da boneca e preço da boneca de 399,99 
reais. 
 
 
Figura - Árvore de decisão ajustada às vendas do produto de varejo 
Fonte: Elaborada pelo autor. 
 
 
Use a árvore que construímos para o caso da boneca falante 
(novamente exibida aqui) e assinale a alternativa que indica 
corretamente a estimativa de vendas para esse ponto de venda: 
 
 
Vendas altas e baixas, respectivamente. 
 
 
Vendas altas e altas, respectivamente. 
 
 
Vendas altas, apenas. 
 
 
Vendas baixas e altas, respectivamente. 
 
 
Vendas baixas e baixas, respectivamente. 
1 pontos 
Pergunta 2 
1. Os modelos de regressão são de enorme importância na estatística e na 
ciência dos dados. Dentre os diversos modelos de regressão que 
existem, são justamente os modelos de regressão linear aqueles 
considerados os mais importantes e, sem dúvida, os mais difundidos, 
com aplicações nas mais diversas áreas. 
 
Considerando as técnicas discutidas de desenvolvimento de modelos 
preditivos pautados em modelos de regressão linear simples ou 
múltipla, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Modelos de regressão linear podem ser empregados na predição do 
peso médio (massa corporal média) de uma pessoa em função da sua 
altura, idade e sexo. 
II. ( ) Modelos de regressão linear podem ser empregados na predição 
do consumo médio de combustível de um carro em função da potência 
do seu motor e do seu peso. 
III. ( ) Modelos de regressão linear podem ser empregados na predição 
da renda média mensal de uma pessoa em função da sua escolaridade, 
idade, sexo e classe social. 
IV. ( ) Modelos de regressão linear podem ser empregados na predição 
da classe social de uma pessoa em função da sua renda média mensal, 
escolaridade, idade e sexo. 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
 
V, V, V, V. 
 
 
F, V, F, V. 
 
 
V, V, V, F. 
 
 
V, V, F, F. 
 
 
F, F, F, F. 
1 pontos 
Pergunta 3 
1. A atividade de venda de produtos financeiros por bancos, tais como 
cartões de crédito, requer que se faça uma avaliação do cliente. São 
focos dessa avaliação aprovar ou não um cartão de crédito para o 
cliente e, se aprovado, definir o limite do cartão, ou seja, o valor do 
crédito a conceder. 
 
Com base nessa introdução, analise as afirmativas a seguir. 
 
I. O primeiro foco da avaliação é um problema de regressão: 
aprovar (sim ou não) o cartão de crédito, uma variável qualitativa 
dicotômica, com dois níveis (classes). 
II. O primeiro foco da avaliação é um problema de classificação: 
aprovar (sim ou não) o cartão de crédito, uma variável qualitativa 
dicotômica, com dois níveis (classes). 
III. O segundo foco da avaliação é um problema de classificação, 
predizer o valor do limite (do crédito) do cartão. 
IV. O segundo foco da avaliação é um problema de regressão, 
predizer o valor do limite (do crédito) do cartão. 
 
 
Está correto o que se afirma em: 
 
 
 
 
II e IV, apenas. 
 
 
II e IV, apenas. 
 
 
II, III e IV, apenas. 
 
 
I e III, apenas. 
 
 
I, II e III, apenas. 
 
 
 
1 pontos 
Pergunta 4 
1. Modelos de regressão linear são os mais importantes modelos de 
regressão da estatística e da ciência dos dados. Eles são divididos em 
dois grupos: modelos de regressão linear simples e modelos de 
regressão linear múltipla. 
 
Quanto à aplicação de modelos de regressão linear simples, analise as 
afirmativas a seguir. 
 
I. Modelos de regressão linear simples são usados na predição de uma 
variável resposta quantitativa quando há mais do que uma variável de 
entrada. 
II. Modelos de regressão linear simples são usados na predição de uma 
variável resposta quantitativa quando se considera apenas uma variável 
de entrada. 
III. O modelo de regressão linear simples que o estatístico escreveu para 
a predição do valor do imóvel em função da sua área foi , em que 
 e são os coeficientes do modelo, a área do imóvel e 
o valor esperado (estimativa do valor médio) para o valor do imóvel. 
IV. O método que o estatístico usou para calcular os valores dos 
coeficientes e foi o Método dos Mínimos Quadrados. Para 
isso, ele lançou mão do software estatístico R. 
Está correto o que se afirma em: 
 
 
 
 
 
 
II e III, apenas. 
 
 
II, III e IV, apenas. 
 
 
I e II, apenas. 
 
 
III e IV, apenas. 
 
 
I, II e IV, apenas. 
 
1 pontos 
Pergunta 5 
1. Na estatística ou, genericamente, na análise de dados, muito 
frequentemente analisamos dados ditos retangulares ou estruturados, 
onde as variáveis - quantitativas ou qualitativas - são dispostas nas 
colunas e as observações na linhas de uma tabela. Em algumas 
situações é vantajoso se fazer a padronização das variáveis 
quantitativas. 
 
Assinale a alternativa correta relativamente ao assunto de padronização 
de variáveis quantitativas na estatística: 
 
 
 
 
Na padronização, se subtrai de cada variável seu desvio padrão, e não se 
faz nada com respeito à sua média. 
 
 
Na padronização, se subtrai de cada variável sua média, e não se faz nada 
com respeito ao seu desvio padrão. 
 
 
Na padronização, se subtrai de cada variável sua média, e depois se divide 
o resultado pelo seu desvio padrão. 
 
 
Na padronização, se calcula a média geral entre todas variáveis e 
depois se subtrai este valor de cada uma das variáveis. 
 
 
 
Na padronização, se subtrai de cada variável seu desvio padrão, e depois 
se divide o resultado pela média da variável. 
1 pontos 
Pergunta 6 
1. Discutimos o que são aprendizagem supervisionada e não 
supervisionada. Vimos que é na forma como tratamos as variáveis 
estudadas que se dá a diferença entre esses dois tipos de 
aprendizagens, supervisionada e não supervisionada. Esses dois tipos 
são os mais importantes dentre os diversos tipos de aprendizagem. 
 
Relativamente a esse assunto, analise as afirmativas a seguir. 
 
I. Na aprendizagem supervisionada, definimos uma das variáveis 
estudadas como sendo a variável resposta, a qual responde em 
função dos valores assumidos pelas outras variáveis, as quais 
são chamadas de variáveis de entrada. 
II. Especificamente na aprendizagem supervisionada, também 
denominamos uma variável resposta de variável de saída ou 
variável dependente. 
III. Especificamente na aprendizagem supervisionada, também 
denominamos uma variável de entrada de variável regressora, 
variável preditora ou variável independente. 
IV. Na aprendizagem não supervisionada, tratamos todas as 
variáveis estudadas da mesma forma, sem procurar explicar o 
comportamento de uma delas em função dos valores assumidos 
pelas outras. 
 
 
 
Está correto o que se afirma em: 
 
 
 
I, III e IV, apenas. 
 
 
II, III e IV, apenas. 
 
 
I, II, III e IV. 
 
 
II e III, apenas. 
 
 
I, II e IV, apenas. 
 
 
1 pontos 
Pergunta 7 
1. Usamos gráficos para a visualização do comportamento (a descoberta 
de padrões), tanto de cada variável individualmente quanto da relação 
entre variáveis (o comportamento de uma em relação à outra). Ambas 
visualizações, seja da variável individualmente, seja da sua possível 
relação com outra variável, são de grande utilidade. 
 
Quanto aos gráficos para a visualização da relação entre duas variáveis, 
analise as afirmativas a seguir: 
I. Gráficos de dispersão são usados para a visualização da relação entre 
duas variáveis quantitativas. 
II. Boxplots são usados para a visualização da relação entre uma 
variável quantitativa e uma variável qualitativa (ou os níveis de uma 
variável qualitativa). 
III. Mosaic plots são usados para a visualizaçãoentre duas variáveis 
qualitativas (ou, em outras palavras, entre os níveis de duas variáveis 
qualitativas). 
IV. Em qualquer uma das situações descritas acima, sempre exibiremos 
uma das variáveis no eixo horizontal e a outra no eixo vertical. 
Está correto o que se afirma em: 
 
 
II, III e IV, apenas. 
 
 
I, II e III, apenas. 
 
 
I, II, III e IV. 
 
 
I e IV, apenas. 
 
 
II e III, apenas. 
1 pontos 
Pergunta 8 
1. O texto em referência apresenta como exemplo de agrupamento uma 
companhia de vendas online que deseja agrupar seus clientes com base 
em suas características comuns (renda, idade, número de filhos, estado 
civil, grau de educação, etc.). Com o resultado do agrupamento, eles 
definirão campanhas de marketing e de divulgação específicas para 
cada um dos diferentes grupos que vierem a ser definidos. 
 
DUHAM, Margareth H. Data mining : introductory and advanced topics. 
Upper Saddle River, NJ: Pearson Education, 2003, p.125. 
A respeito das fontes que originaram os contos de fadas, analise as 
afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) 
Falsa(s). 
 
I. ( ) Algoritmos de agrupamento só conseguem lidar com variáveis 
quantitativas. Sendo assim, parte das variáveis disponíveis para esse 
caso são irrelevantes. 
II. ( ) Algoritmos de agrupamento são especializados no tratamento de 
conjuntos de dados exclusivamente qualitativos. 
III. ( ) Algoritmos de agrupamento podem ter as suas soluções 
verificadas por um supervisor e, dessa forma, saberemos se o resultado 
é bom ou ruim. 
IV. ( ) Seres humanos não possuem habilidade natural para agrupar e 
depois classificar, já que isso só pode ser realizado por meio de 
algoritmos. 
 
 
V, V, F, F. 
 
 
V, V, F, V. 
 
 
F, F, F, F. 
 
 
V, V, V, V. 
 
 
F, V, F, V. 
1 pontos 
Pergunta 9 
1. Modelos de regressão linear são os mais importantes modelos de 
regressão da estatística e da ciência dos dados. Eles são divididos em 
dois grupos: modelos de regressão linear simples e modelos de 
regressão linear múltipla. 
 
Referente ao modelo de regressão linear múltipla para o valor do imóvel 
em função da sua área, seu andar e sua localização, analise as 
afirmativas a seguir. 
 
I. O estatístico desenvolveu um modelo completo para o valor esperado 
de (valor do imóvel) em função de (área do imóvel), 
 (andar do imóvel) e (localização do imóvel), simultaneamente. 
Esse modelo ficou assim: 
 
 
 
II. Os coeficientes b1 = 4,87, b3 = 6,36 e b3 = - 27,43 indicam, 
respectivamente, quanto varia o valor esperado para o apartamento com 
a variação unitária de sua área (em metros quadrados), a variação 
unitária do seu andar (1 andar a mais) e a sua localização (bairro = 0 ou 
centro = 1). 
III. Com base nesse modelo, foi possível verificar que, para 
apartamentos de mesma área e mesmo andar, porém um no bairro e 
outro no centro, o apartamento do centro tem um valor esperado menor 
que o do bairro em 27,43 mil reais (27 mil arredondando para mil reais). 
Isso é válido para aquele município e para aqueles dados da corretora. 
IV. Com base nesse modelo, foi possível verificar que um apartamento 
de 50 metros quadrados no 10º andar tem um valor esperado de 339,77 
mil reais no bairro contra um valor esperado de 312,34 mil para um 
apartamento de mesma área e andar no centro. 
Está correto o que se afirma em: 
 
 
 
 
II e III, apenas. 
 
 
I, II e IV, apenas. 
 
 
I, II e III, apenas. 
 
 
I, II, III e IV. 
 
 
I e II, apenas. 
1 pontos 
Pergunta 10 
1. Leia o excerto a seguir: 
“O quadro típico para uma análise em ciência de dados é um objeto de 
dados retangulares , como uma planilha ou tabela de banco de dados. 
Dado retangular é basicamente uma matriz bidimensional com linhas 
indicando registros (caso) e colunas indicando características 
(variáveis). Os dados nem sempre começam dessa forma: dados não 
estruturados (por exemplo, texto) devem ser processados e tratados de 
modo a serem representados como um conjunto de características nos 
dados retangulares.” 
BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 
conceitos iniciais. Rio de Janeiro: Alta Books, 2019. p. 5–6. 
Tomando como base esse texto e o que já discutimos sobre dados 
estruturados, tabulares e retangulares, analise as afirmativas a seguir e 
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
I. ( ) É impossível converter dados não estruturados em representações 
estruturadas, para que possam ser analisados pela ciência dos dados. 
II. ( ) Dados retangulares não são uma forma típica de organização de 
dados para análise em ciência dos dados. 
III. ( ) Textos são dados estruturados, pois sempre vêm em estruturas 
bem padronizadas, como aquelas que estudamos em gramática. 
IV. ( ) Dados retangulares, dados tabulares ou dados estruturados são 
termos usados como sinônimos na ciência dos dados. 
 
Assinale a alternativa que apresenta a sequência correta: 
 
 
F, F, V, V. 
 
 
F, F, F, F. 
 
 
F, V, F, V. 
 
 
F, F, V, F. 
 
 
F, F, F, V.