Buscar

N2 - Estística Bayesiana

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 9 páginas

Prévia do material em texto

Usuário MARCO ANTONIO VIEIRA MORAIS
Curso GRA1561 ESTATÍSTICA APLICADA AO DATA SCIENCE GR0890202 -
202020.ead-11306.01
Teste 20202 - PROVA N2 (A5)
Iniciado 05/12/20 11:42
Enviado 05/12/20 12:18
Status Completada
Resultado da
tentativa
10 em 10 pontos 
Tempo decorrido 35 minutos
Instruções
Resultados
exibidos
Respostas enviadas, Respostas corretas, Comentários
Caso necessite a utilização do "EXCEL" clique no link ao lado -----------> excel.xlsx
Pergunta 1
Resposta
Selecionada:
 
Resposta Correta: 
Comentário
da resposta:
Leia o excerto a seguir sobre as ideias-chave para agrupamento hierárquico:
 
“Começa com todos os registros. Progressivamente, os grupos são unidos aos
grupos próximos até que todos os registros pertençam a um único grupo. O
histórico de aglomeração é retido e plotado, e o usuário pode visualizar o
número e a estrutura dos grupos em diferentes estágios. As distâncias
intergrupos são calculadas de jeitos diferentes, todas baseadas no conjunto de
distância inter-registros.”
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados :
50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 278.
 A partir do apresentado, analise as asserções a seguir e a relação proposta
entre elas.
 
I. No agrupamento hierárquico, o usuário deve obrigatoriamente especificar o
número de grupos que deseja ver o algoritmo formar.
Pois
II. O algoritmo começa com grupos formados por registros individuais e,
progressivamente, os grupos são unidos aos grupos mais próximos, até que
todos os registros pertençam a um único grupo.
 
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
A asserção I é uma proposição falsa, e a II é uma proposição
verdadeira.
Resposta correta. A alternativa está correta, pois no agrupamento hierárquico,
diferentemente do que se requer para o agrupamento por k-médias, o usuário não
especifica o número de grupos que o algoritmo deve formar. Em estágios
progressivos, se parte de tantos grupos quanto o número de registros
(observações) do conjunto de dados, formam-se sequencialmente vários
agrupamentos, por fusão entre grupos mais similares entre si, até se formar um
único grupo ao final com todos os registro do conjunto de dados analisado Ao
1 em 1 pontos
https://anhembi.blackboard.com/bbcswebdav/pid-14850383-dt-content-rid-84766551_1/xid-84766551_1
Pergunta 2
Resposta Selecionada: 
Resposta Correta: 
Comentário
da resposta:
Considere dois pontos de venda da boneca falante com as seguintes
características: primeiro ponto com local de exposição ruim da boneca, preço da
boneca de 289,99 reais, gastos mensais com publicidade de 90 mil reais e idade
média da população local de 39 anos. Segundo ponto com bom local de
exposição da boneca e preço da boneca de 399,99 reais.
 
Figura - Árvore de decisão ajustada às vendas do produto de varejo
 Fonte: Elaborada pelo autor.
 
 
 Use a árvore que construímos para o caso da boneca falante (novamente
exibida aqui) e assinale a alternativa que indica corretamente a estimativa de
vendas para esse ponto de venda:
Vendas altas e baixas, respectivamente.
Vendas altas e baixas, respectivamente.
Resposta correta. A alternativa está correta, pois ao percorremos a árvore
construída para a predição das vendas da boneca falante, se altas ou baixas, do
nó inicial aos nós terminais, e usarmos passo a passo as características dos dois
pontos de venda, comparando-as com os valores informados em cada nó,
chegaremos às estimativas de vendas altas para o primeiro ponto e de vendas
baixas para o segundo ponto.
Pergunta 3
A estatística, a ciência da computação, a mineração de dados e a ciência dos
dados são áreas correlacionadas. Dentre essas, a mais antiga é a estatística,
seguida da ciência da computação, depois da mineração de dados, e finalmente
da ciência dos dados, a mais nova dessas quatro áreas de conhecimento.
 
Com referência ao relacionamento entre essas quatro áreas de conhecimento
1 em 1 pontos
1 em 1 pontos
Resposta Selecionada: 
Resposta Correta: 
Comentário
da resposta:
I. Algoritmos de machine learning nasceram na ciência da computação. Hoje são
usados na estatística, na mineração de dados e na ciência dos dados.
II. Dentre as diversas áreas citadas, é a estatística que possui os melhores
fundamentos para a interpretação de fenômenos aleatórios.
III. A estatística é considerada a mais sutil, e a mais ampla, quando nos
referimos a análise de dados. É aplicada a todas áreas de atividade humana.
IV. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos
diferentes, herdados das outras áreas, para se referir a um mesmo conceito.
 
 
I, II, III e IV.
I, II, III e IV.
Resposta correta. A alternativa está correta, pois algoritmos de machine learning
nasceram na ciência da computação e hoje são usados na estatística, na
mineração de dados e na ciência dos dados. De fato, é a estatística que possui os
melhores fundamentos para a interpretação de fenômenos aleatórios, e é
considerada a mais sutil, e a mais ampla, quando nos referimos a análise de
dados. Já há muitos anos é aplicada a todas áreas de atividade humana. Por outro
lado, também sabemos que, na ciência dos dados, podem-se utilizar de muitos
termos diferentes, herdados das outras áreas, para se referir a um mesmo
conceito.
Pergunta 4
Resposta
Selecionada:
 
Resposta
Correta:
 
Comentário
da resposta:
Leia o excerto a seguir:
“Normalização: É comum normalizar (padronizar) variáveis contínuas através da
subtração da média e divisão pelo desvio-padrão, ou então as variáveis com
grande escala dominarão o processo de agrupamento (veja Padronização
(Normalização, Escores Z), no Capítulo 6).”
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados :
50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 265.
 A partir do apresentado, analise as asserções a seguir e a relação proposta
entre elas.
 
I. Sabemos que, na estatística ou na ciência dos dados, é comum normalizar
(padronizar) variáveis quantitativas, ou variáveis contínuas, antes da realização
de uma análise de agrupamento.
Pois
II. No conjunto de dados observados (a amostra de dados), podem existir
variáveis que estão em uma escala muito maior que as outras, e a medida de
distância entre observações dessas variáveis dominarão o resultado da análise
de agrupamento, na formação dos grupos de observações similares entre si.
As asserções I e II são proposições verdadeiras, e a II é uma justificativa
correta da I.
As asserções I e II são proposições verdadeiras, e a II é uma
justificativa correta da I.
Resposta correta. A alternativa está correta. Na estatística ou na ciência dos
dados, é comum normalizar (padronizar) variáveis quantitativas, ou variáveis
contínuas, antes da realização de uma análise de agrupamento, pois no conjunto
1 em 1 pontos
dominarão o resultado final da análise de agrupamento se a padronização não for
feita antes.
Pergunta 5
Resposta Selecionada:
 
Resposta Correta:
 
Comentário
da resposta:
Ao longo das nossas discussões, demos foco a um classificador chamado de
regressão logística que, apesar do nome regressão (esse nome por razões
históricas e por conta de algumas de suas características), é usado como um
classificador. Mas também vimos que existem outros tipos de classificadores.
Relativamente a esse assunto de algoritmos de classificação, analise as
afirmativas a seguir.
 
1. Regressão logística é o único método de aprendizagem supervisionada
que é utilizado para classificação, todos outros métodos são métodos de
regressão.
2. Apesar do nome regressão logística, o que acaba sendo um pouco
confuso para iniciantes, na verdade este é um dos vários métodos de
aprendizagem supervisionada utilizado para classificação.
3. Dentre os métodos utilizados para classificação se encontram regressão
logística, análise discriminante linear (LDA = Linear Discriminant Analysis),
árvores de decisão para classificação, máquinas de vetores de suporte
(SVM = support vector machines) e k-vizinhosmais próximos (KNN = k-
nearest neighbors).
4. Regressão linear não é um método de classificação, mas, sim, um dos
métodos preditivos de aprendizagem supervisionada usados na predição
de valores de variáveis respostas quantitativas.
 
Está correto o que se afirma em:
 
 
II, III e IV, apenas.
 
 
 
II, III e IV, apenas.
 
 
 
Resposta correta. A única asserção incorreta desta questão é a primeira, que
afirma que regressão logística é o único método de aprendizagem supervisionada
que é utilizado para classificação, todos outros métodos são métodos de
regressão.
Pergunta 6
Modelos de regressão linear são os mais importantes modelos de regressão da
estatística e da ciência dos dados. Eles são divididos em dois grupos: modelos
de regressão linear simples e modelos de regressão linear múltipla.
1 em 1 pontos
1 em 1 pontos
Resposta Selecionada: 
Resposta Correta: 
Comentário
da resposta:
da sua área e do seu andar, analise as afirmativas a seguir.
 
I. O estatístico desenvolveu um modelo para o valor esperado de (valor do
imóvel) em função de (área do imóvel) e (andar do imóvel),
simultaneamente. Esse modelo ficou assim:
 
 
 
 II. Quando se faz o ajuste simultâneo do modelo para duas variáveis de entrada,
é natural que os valores dos coeficientes para cada variável sejam diferentes do
que os mesmos coeficientes para cada variável sozinha em uma regressão
linear simples. Isso vale sempre que adicionamos variáveis de entrada ou
eliminamos variáveis de entrada de um modelo de regressão linear.
 III. Os coeficientes b1 e b2 indicam, respectivamente, quanto varia o valor
esperado para o apartamento com a variação unitária de sua área (em metros
quadrados) e a variação unitária do seu andar (1 andar a mais).
 IV. Ao usar esse modelo preditivo, podemos estimar o valor esperado de um
apartamento com 40 metros quadrados localizado no quinto andar em 433 mil
reais (arredondando para mil reais).
 Está correto o que se afirma em:
 
 
I, II e III, apenas.
I, II e III, apenas.
Resposta correta. A alternativa está correta. Ao substituirmos e por,
respectivamente, 40 metros quadrados e andar 5, obtemos y = -2,59 + 5,12 x 40 +
6.34 x 5 = 233,91 que, arredondado para mil reais, resulta em 234 mil reais; o
modelo é exatamente o informado; quando se faz o ajuste simultâneo do modelo
para duas variáveis de entrada, é natural que os valores dos coeficientes para
cada variável sejam diferentes do que os mesmos coeficientes para cada variável
sozinha em uma regressão linear simples; já os coeficientes b1 e b2 indicam,
respectivamente, quanto varia o valor esperado para o apartamento com a
variação unitária de sua área (em metros quadrados) e a variação unitária do seu
andar (1 andar a mais).
Pergunta 7
Leia o excerto a seguir:
 
“Uma rede neural artificial (ou rede neural) é um modelo preditivo motivado pelo
forma como funciona o cérebro humano. Pense no cérebro como uma coleção
de neurônios conectados. Cada neurônio olha para a saída dos outros neurônios
que o alimentam, faz um cálculo e então ele dispara (se o cálculo exceder algum
limite) ou não (se não exceder) [...] Redes neurais podem resolver uma
variedade de problemas como reconhecimento de caligrafia e detecção facial, e
elas são muito usadas em deep learning (aprendizado profundo), uma das
subáreas mais populares de data science. Entretanto, a maioria das redes
neurais são “caixas-pretas” - inspecionar seus detalhes não lhe fornece muito
entendimento de como elas estão resolvendo um problema. E grandes redes
neurais podem ser difíceis de treinar. Para a maioria dos problemas você
encontrará como um cientista de dados, elas provavelmente não são a melhor
solução [...]”.
1 em 1 pontos
Resposta Selecionada: 
Resposta Correta: 
Comentário
da resposta:
Alta Books, 2016. p. 213.
 
Tomando como base esse texto sobre redes neurais artificiais, analise as
afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
 
I. ( ) Uma rede neural artificial, também chamada simplesmente de rede neural,
é um modelo preditivo motivado pela forma como o cérebro funciona.
II. ( ) Em uma rede neural artificial, há vários neurônios que se interconectam, e
o resultado do cálculo de um alimenta a entrada de outros.
III. ( ) Redes neurais, como são modelos preditivos que tomam como base o
funcionamento do cérebro, são de muito fácil interpretação.
IV. ( ) Redes neurais, como são modelos preditivos, podem ser usadas para
tarefas tais como reconhecimento de caligrafia e detecção facial.
 
Assinale a alternativa que apresenta a sequência correta:
V, V, F, V.
V, V, F, V.
Resposta correta. A sequência está correta. Uma rede neural artificial é um
modelo preditivo motivado pela forma como o cérebro funciona, em que há vários
neurônios que se interconectam, o resultado do cálculo de cada neurônio
alimentando a entrada de outros. Pode ser usada para tarefas como
reconhecimento de caligrafia e detecção de faces.
Pergunta 8
Iniciamos a nossa jornada, pelo mundo da “Estatística Aplicada à Ciência dos
Dados”, com modelos preditivos denominados regressão linear, simples e
múltipla. Vimos algumas coisas, mas não vimos outras, pois esta é apenas uma
jornada inicial motivadora. O seu propósito foi o de apenas descortinar um
pouquinho desse vasto mundo para você. Desse modo, tentaremos fazer um
breve resumo dessa jornada aqui.
 
Para isso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e
F para a(s) Falsa(s).
 
I. ( ) Dados e amostras . Vimos que podemos fazer análise descritiva de um
processo apenas se tivermos dados sobre esse processo. Esses dados devem
ser coletados do fenômeno ou processo estudado (população). Denominamos
esses dados como amostra.
II. ( ) Análise descritiva . Tendo em mãos uma amostra, a análise descritiva se
refere a sumários (resumos) estatísticos calculados com base nessa amostra
(mínimos, máximos, frequências, médias, medianas, desvios-padrões etc.) e
visualizações produzidas por meio de gráficos.
III. ( ) Visualização dos dados relativos a uma variável . Esses gráficos são
divididos em duas grandes famílias. Uma delas são de gráficos que permitem a
visualização do comportamento de dados quantitativos. Aqui, mostramos o
histograma, que é o mais importante dentro dessa família. A outra família são de
gráficos que permitem a visualização de dados qualitativos. Aqui, mostramos o
diagrama de barras, que é o mais importante dentro dessa família.
IV. ( ) Visualização da relação entre duas variáveis . Finalmente, também na
análise descritiva do processo ou fenômeno observado, vimos gráficos que se
aplicam à visualização da relação entre duas variáveis, a partir dos dados
b d S d iá i ã tit ti i áfi d
1 em 1 pontos
Resposta Selecionada: 
Resposta Correta: 
Comentário
da resposta:
entre uma variável quantitativa e uma variável qualitativa, usamos, aqui, os
boxplots (diagramas de caixas), cada boxplot referente a um determinado nível
da variável qualitativa (bairro ou centro) e, dentro dele, como se comporta a
variável quantitativa.
V. ( ) Coisas que não vimos aqui . Há muitas coisas que não vimos aqui. São
coisas sobre as quais você poderá ver, caso decida aprender mais sobre essas
poderosas áreas do conhecimento humano, a estatística e a ciência dos dados,
muito valorizadas pelo mercado de trabalho.
 
Assinale a alternativa que apresenta a sequência correta.
 
 
V, V, V, V, V.
V, V, V, V, V.
Resposta correta. A alternativa está correta, pois todas as afirmativas são
verdadeiras. Somente podemos fazer uma análise descritiva de um fenômeno ou
processo se tivermos dados sobre eles. A análise descritiva se refere a sumários
estatísticos e gráficos, os quais permitem a interpretação e a visualização dos
dados. A visualização de dados quantitativos é feita, principalmente, por meio de
histogramas, e a de dados qualitativos, por meio de diagramas de barras. Já a
visualização da relação entre dois dados quantitativos é feita por meio de gráficos
de dispersão e, entre uma variável quantitativae uma qualitativa, por meio de
boxplots. Finalmente, sendo esse um curso introdutório, há muitas coisas que não
discutimos aqui.
Pergunta 9
Modelos de regressão linear são os mais importantes modelos de regressão da
estatística e da ciência dos dados. Eles são divididos em dois grupos: modelos
de regressão linear simples e modelos de regressão linear múltipla.
 
Referente ao modelo de regressão linear múltipla para o valor do imóvel em
função da sua área, seu andar e sua localização, analise as afirmativas a seguir.
 
I. O estatístico desenvolveu um modelo completo para o valor esperado de 
 (valor do imóvel) em função de (área do imóvel), (andar do imóvel) e 
 (localização do imóvel), simultaneamente. Esse modelo ficou assim:
 
 
 
 II. Os coeficientes b1 = 4,87, b3 = 6,36 e b3 = - 27,43 indicam, respectivamente,
quanto varia o valor esperado para o apartamento com a variação unitária de
sua área (em metros quadrados), a variação unitária do seu andar (1 andar a
mais) e a sua localização (bairro = 0 ou centro = 1).
 III. Com base nesse modelo, foi possível verificar que, para apartamentos de
mesma área e mesmo andar, porém um no bairro e outro no centro, o
apartamento do centro tem um valor esperado menor que o do bairro em 27,43
mil reais (27 mil arredondando para mil reais). Isso é válido para aquele
município e para aqueles dados da corretora.
 IV. Com base nesse modelo, foi possível verificar que um apartamento de 50
metros quadrados no 10º andar tem um valor esperado de 339,77 mil reais no
bairro contra um valor esperado de 312,34 mil para um apartamento de mesma
á d t
1 em 1 pontos
Resposta Selecionada: 
Resposta Correta: 
Comentário
da resposta:
 
 
I, II, III e IV.
I, II, III e IV.
Resposta correta. A alternativa está correta, pois todas as afirmativas se
apresentam de maneira adequada. O modelo é exatamente aquele informado,
assim como a interpretação para os seus coeficientes. Também foi possível
verificar que o valor esperado para um apartamento no centro é menor que o valor
esperado para um apartamento no bairro em 27,43 mil reais e que a estimativa
para o valor esperado de um apartamento de 50 metros quadrados no 10º andar é
de 339,77 mil reais no bairro contra um valor esperado de 312,34 para um no
centro de mesma área e andar.
Pergunta 10
Resposta Selecionada: 
Resposta Correta: 
Comentário
da resposta:
Considere quatro apartamentos: o primeiro com 55 metros quadrados, no centro,
no 4º andar; o segundo com 77 metros quadrados, no bairro, no 5º andar; o
terceiro com 54 metros quadrados, no centro, no 9º andar; o quarto com 60
metros quadrados, no bairro, no 12º andar.
 
 
Figura - Árvore de decisão ajustada aos valores dos imóveis
 Fonte: Elaborada pelo autor.
 
 Use a árvore que construímos para o caso dos imóveis (novamente exibida aqui)
e assinale a alternativa que indica corretamente as estimativas de preço desses
apartamentos:
319,20; 448,80; 366,50; 390,40 mil reais.
319,20; 448,80; 366,50; 390,40 mil reais.
Resposta correta. A alternativa está correta, pois ao percorremos a árvore
construída para a predição do valor dos imóveis, do nó inicial aos nós terminais, e
usarmos passo a passo as características dos apartamentos, comparando-as com
os valores informados em cada nó, chegaremos às estimativas de preços de
319 20 mil reais 448 80 mil reais 366 50 mil reais e 390 40 mil reais
1 em 1 pontos

Continue navegando