PROVA N2 ESTATÍSTICA APLICADA AO DATA SCIENCE

•

FMU

9

0

9

0

David Maik

26/06/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística Aplicada

23.977 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Curso GRA1561 ESTATÍSTICA APLICADA AO DATA SCIENCE GR0890211 - 202110.ead-29778852.06
Teste 20211 - PROVA N2 (A5)
Iniciado 19/06/21 21:22
Enviado 24/06/21 00:52
Status Completada
Resultado da tentativa 9 em 10 pontos
Tempo decorrido 99 horas, 30 minutos
Instruções Caso necessite a utilização do "EXCEL" clique no link ao lado -----------> excel.xlsx
Resultados exibidos Respostas enviadas, Respostas corretas, Comentários
 Pergunta 1
1 em 1 pontos

Em uma análise de agrupamento examinamos os dados observados (as linhas da tabela com os dados) e procuramos
identificar, através de algum critério de similaridade, aquelas que estão mais próximas entre si, e formamos grupos com essas
observações similares. Quando são apenas 2 variáveis e poucas observações (tamanho da amostra pequeno), por exemplo 10,
podemos tentar fazer o agrupamento visualmente.

Analise a figura adiante e assinale a alternativa que indica a menor quantidade de grupos que você naturalmente formaria para
este caso:

Figura - Massa corporal (kg) versus comprimento (m) dos animais
Fonte: Elaborada pelo autor

Resposta Selecionada:
Dois grupos, um com 6 indivíduos e outro com 4 indivíduos.
Resposta Correta:
Dois grupos, um com 6 indivíduos e outro com 4 indivíduos.

https://fmu.blackboard.com/bbcswebdav/pid-16175650-dt-content-rid-84766551_1/xid-84766551_1
Comentário da
resposta:
Resposta correta. A alternativa está correta. A questão solicita a alternativa com o menor número de grupos
que você naturalmente formaria. Há três alternativas com dois grupos, porém aquela que parece ser a mais
natural é a que agrupa 6 indivíduos do lado esquerdo do gráfico e 4 indivíduos do lado direito, pois as outras
alternativas com dois grupos não são tão naturais quanto essa opção.

 Pergunta 2
1 em 1 pontos

Vimos que a análise descritiva de dados se consiste em sumários estatísticos relativos aos dados analisados, o que também
denominamos resumos estatísticos, e no emprego de gráficos que exibem o comportamento dos dados de uma forma visual, o
que denominamos visualização dos dados. O estatístico produziu alguns sumários relativos à área dos imóveis da amostra que
a corretora lhe passou.

Em relação a esses sumários, analise as afirmativas a seguir.

I. O valor max(x1) se refere ao valor máximo da área entre todos imóveis observados na amostra cedida pela corretora ao
estatístico.
II. O valor sd(x1) fornece uma indicação de quão grande é a dispersão da área dos imóveis na amostra analisada.
III. O valor mean(x1) pode ser menor que o valor min(x1) ou maior que o valor max(x1), a depender da amostra analisada.
IV. Em alguns casos especiais, min(x1) pode ser maior que max(x1), ou seja, o valor mínimo maior que o valor máximo.

Está correto o que se afirma em:

Resposta Selecionada:
I e II, apenas.
Resposta Correta:
I e II, apenas.

Comentário da
resposta:
Resposta correta. A alternativa está correta, pois max(x1) fornece o valor da maior área dentre os imóveis da
amostra, e sd(x1), sendo o desvio-padrão da área dos imóveis da amostra, é uma indicação de quão grande é
a dispersão ou variabilidade observada nesses dados. Já mean(x1) é o valor médio de x1, a área do imóvel, e
o valor médio sempre estará entre o valor mínimo e o valor máximo. Finalmente, valores mínimos nunca serão
maiores que valores máximos.

 Pergunta 3
1 em 1 pontos

Tarefas de classificação são muitos comuns na estatística e na ciência dos dados, por serem muito comuns em todas
atividades humanas, na ciência, na vida social ou nos negócios.
Especificamente, discutimos aplicações de modelos preditivos de classificação baseados em modelos de regressão logística
simples ou múltipla.
Com isso em mente, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

1. Regressão logística pode ser empregada na predição do peso médio (massa corporal média) de uma pessoa em função de sua
altura, idade e sexo.
2. Regressão logística pode ser empregada na predição do consumo médio de combustível de um carro em função da potência do
seu motor e do seu peso.
3. Regressão logística pode ser empregada na predição da probabilidade de uma pessoa votar em um determinado candidato e
não nos outros em função de sua escolaridade, idade, sexo e classe social.
4. Regressão logística pode ser empregada na predição da probabilidade de a pessoa ser diabética em função de um conjunto de
sintomas clínicos que apresenta.

Assinale a alternativa que apresenta a sequência correta.

Resposta Selecionada:
F, F, V, V.

Resposta Correta:
F, F, V, V.
Comentário da
resposta:
Resposta correta. As duas primeiras situações se referem à predição de variáveis resposta quantitativas, o
que não é possível com modelos de regressão logística; já as duas últimas situações são adequadas ao
emprego de modelos de regressão logística.

 Pergunta 4
1 em 1 pontos

Discutimos sobre classificadores determinísticos e probabilísticos. Demos, como exemplo, uma variável resposta
qualitativa com dois níveis (classes), o indivíduo está infectado pelo vírus HIV ( ) ou não está infectado ( ), dado
um conjunto de sintomas que ele apresenta.

Reveja esse assunto e analise as afirmativas a seguir.

1. Um classificador determinístico vai dizer se o indivíduo está ou não está infectado, dados os sintomas que apresenta.
2. Um classificador probabilístico vai dizer qual é a probabilidade de o indivíduo estar ou não infectado, dados os sintomas que
apresenta.
3. No jargão da estatística, escrever significa que a variável aleatória resultou no valor , em que é um dos
possíveis valores que a variável aleatória pode assumir (ou seja, uma de suas classes, no caso, das variáveis qualitativas).
4. Nesse mesmo jargão, escrever significa a probabilidade de ser igual a um dos seus possíveis valores , quando a
variável de entrada é igual a (dado que ).

Está correto o que se afirma em:

Resposta Selecionada:
I, II, III e IV.

Resposta Correta:
I, II, III e IV.

Comentário da
resposta:
Resposta correta. Um classificador determinístico vai dizer se o indivíduo está ou não está infectado, dados os
sintomas que apresenta; já um classificador probabilístico vai dizer qual é a probabilidade de o indivíduo estar
ou não infectado; no jargão da estatística, escrever significa que a variável aleatória resultou no
valor , em que é um dos possíveis valores que a variável aleatória pode assumir (ou seja, uma
de suas classes, no caso das variáveis qualitativas) e, nesse mesmo jargão, escrever significa a
probabilidade de ser igual a um dos seus possíveis valores quando a variável de entrada é igual
a (dizemos: dado que ).

 Pergunta 5
1 em 1 pontos

No decorrer desta unidade, apresentamos uma série de exemplos de problemas de regressão e problemas de classificação. A
diferença entre eles reside no tipo da variável resposta, se quantitativa ou qualitativa. Problemas de regressão são aqueles em

que a variável resposta é quantitativa. As variáveis de entrada, também chamadas de regressoras ou preditoras, podem ser
quantitativas ou qualitativas.

Em relação a problemas de regressão, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s)
Falsa(s).

I. ( ) A predição da redução da massa corporal de uma pessoa, em quilos, em função do tipo de dieta alimentar e das horas
semanais dedicadas à prática de atividades físicas, é um problema de regressão.
II. ( ) A predição da resistência à tração de uma liga metálica, em Pascal (1 Pascal = 1 Newton/m 2 ), em um ensaio de tração,
em função da sua composição, granulometria e condições gerais do processo de fabricação da liga, é um problema de
regressão.
III. ( ) A predição da taxa de mortalidade anual por melanoma maligno, em mortes a cada 100.000 habitantes,em função da
latitude da região na qual habita a pessoa, é um problema de regressão.
IV. ( ) A predição do consumo de combustível de um veículo, em litros de combustível por quilômetro rodado, em função do seu
peso, do número de cilindros do seu motor, e do volume do seu motor, é um problema de regressão.

Assinale a alternativa que apresenta a sequência correta:
Resposta Selecionada:
V, V, V, V.
Resposta Correta:
V, V, V, V.
Comentário da
resposta:
Resposta correta. A sequência está correta. Em todos os exemplos dados, as variáveis resposta são
quantitativas: redução de massa corporal em quilos, resistência à tração em Pascal (uma unidade quantitativa
da física e da engenharia), a taxa de mortalidade em mortes a cada 100.000 habitantes e o consumo de
combustível em litros por quilômetro rodado.

 Pergunta 6
1 em 1 pontos

Na Unidade 2 estudamos os modelos preditivos de classificação com regressão logística múltipla, para a predição da
probabilidade de inadimplência. Aqui, para a predição do volume de vendas de um produto de varejo (uma variável qualitativa
com dois níveis, vendas altas ou baixas), usamos como classificador uma árvore de decisão.

Figura: Árvore de decisão ajustada às vendas do produto de varejo
Fonte: Elaborada pelo autor.

A respeito deste modelo de árvore de decisão aplicado ao problema de predição do volume de vendas da boneca falante
(replicado aqui, para sua conveniência), analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s)
Falsa(s).

I. ( ) Se o local de exposição da boneca for ruim, porém seu preço menor que 241,25 reais, as vendas serão altas,
independentemente dos gastos com publicidade e da idade média da população local.
II. ( ) Se o local de exposição da boneca for ruim, seu preço igual ou maior que 241,25 reais, mas os gastos com publicidade
forem menores que 78 mil reais, as vendas serão altas, independentemente da idade média da população.
III. ( ) Se o local de exposição da boneca for bom, porém seu preço for igual ou maior que 356,25 reais, as vendas serão baixas,
independentemente dos gastos com publicidade e da idade média da população.
IV. ( ) Se o local de exposição da boneca for médio e seu preço for igual ou maior que 241,25 reais, mas os gastos com
publicidade forem iguais ou maiores que 78 mil reais e a idade média da população for menor que 44 anos, as vendas serão
altas.

Assinale a alternativa que apresenta a sequência correta:

Resposta Selecionada:
V, F, V, V.
Resposta Correta:
V, F, V, V.

Comentário da
resposta:
Resposta correta. A sequência está correta. Se o local de exposição da boneca for ruim, porém seu preço for
menor que 241,25 reais, as vendas serão altas, independentemente dos gastos com publicidade e da idade
média da população local. Se o local de exposição da boneca for bom, porém seu preço for igual ou maior que
356,25 reais, as vendas serão baixas, independentemente dos gastos com publicidade e da idade média da
população. Se o local de exposição da boneca for médio e seu preço for igual ou maior que 241,25 reais, mas
os gastos com publicidade forem iguais ou maiores que 78 mil reais e a idade média da população for menor
que 44 anos, as vendas serão altas.

 Pergunta 7
1 em 1 pontos

O Margareth H. Duham, em seu livro Data Mining - Introductory and Advanced Topics, informa que tarefas de agrupamento, ou
clustering em inglês, vêm sendo aplicadas em muitos domínios, incluindo a biologia, a medicina, a antropologia, o marketing e a
economia.

DUHAM, Margareth H. Data mining : introductory and advanced topics. Upper Saddle River (NJ): Pearson Education, 2003,
p.126.

A respeito desses domínios de aplicação de tarefas de agrupamento, analise as afirmativas a seguir e assinale V para a(s)
Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Observar diferentes características de doenças em vários pacientes, e depois formar diferentes grupos de pacientes - por
similaridade das características de suas doenças - é uma tarefa de agrupamento.
II. ( ) Observar diferentes hábitos de consumo em várias milhares de pessoas, e depois formar grupos de pessoas - por
similaridade de seus hábitos de consumo - é uma tarefa de agrupamento.
III. ( ) Observar diferentes características das linguagens faladas por membros de aldeias remotas, e depois formar grupos de
linguagens - por similaridades das características das linguagens - é uma tarefa de agrupamento.
IV. ( ) Observar diferentes característica de insetos em diversos biomas, e depois formar grupos de insetos - por similaridade de
suas características - é uma tarefa de agrupamento.

Resposta Selecionada:
V, V, V, V.
Resposta Correta:
V, V, V, V.
Comentário da
resposta:
Resposta correta. A sequência está correta. Observar diferentes características de indivíduos, sejam estes
indivíduos doenças que se manifestam em pacientes, hábitos de consumos que se manifestam em
consumidores, línguas faladas por diferentes povos, ou insetos que habitam diferentes biomas, e depois, para
cada um desses exemplos, agrupar as observações feitas em grupos menores por similaridade, são tarefas de
agrupamento. Sendo assim, todos os exemplos descritos são tarefas de agrupamento.

 Pergunta 8
1 em 1 pontos

Os métodos de aprendizagem estatística (statistical learning, em inglês) são divididos em métodos de aprendizagem
supervisionada e métodos de aprendizagem não supervisionada. Para cada uma dessas diferentes abordagens, há uma
coleção relativamente grande de diferentes métodos, cada um com seu próprio jeito de funcionamento.

Assinale a alternativa que indica um problema de aprendizagem não supervisionada:

Resposta Selecionada:
Desejamos entender se há similaridade entre observações (indivíduos) de uma certa amostra de dados.
Resposta Correta:
Desejamos entender se há similaridade entre observações (indivíduos) de uma certa amostra de dados.
Comentário da
resposta:
Resposta correta. A alternativa está correta, pois entender se há similaridade entre observações (indivíduos)
de uma amostra é o mesmo que tentar agrupar os indivíduos similares, o que é um problema de aprendizagem
não supervisionada. Todos os demais problemas propostos são problemas de aprendizagem supervisionada,

em que há uma variável resposta supervisora, quantitativa ou qualitativa, para o treinamento do algoritmo
preditivo.

 Pergunta 9
0 em 1 pontos

Na análise descritiva do volume de vendas da boneca falante, foram estudadas as variáveis relativas aos dados coletados pela
gerente comercial do fabricante da boneca. Dentre elas, há a variável dos gastos do fabricante da boneca com publicidade, cuja
relação com vendas altas ou baixas é exibida no gráfico adiante.

Figura: Efeito dos gastos com publicidade nas vendas
Fonte: Elaborada pelo autor.

Quanto à relação entre gastos mensais com publicidade e o volume de vendas (vendas altas ou baixas), analise as afirmativas
a seguir:
I. Ao estudarmos este caso, percebemos que vendas altas ocorrem mesmo quando os gastos com publicidade são apenas
ligeiramente maiores.
II. Visualmente, podemos perceber que a mediana (linha sólida dentro da caixa) dos gastos com publicidade é da ordem de 20
mil reais por mês para vendas altas e da ordem de 8 mil reais por mês para vendas baixas.
III. O gráfico de visualização da relação entre os gastos mensais com publicidade e o volume de vendas não mostra qualquer
efeito dos gastos com publicidade sobre o volume de vendas da boneca.
IV. O gráfico de visualização da relação entre os gastos mensais com publicidade e o volume de vendas mostra que vendas
altas ocorrem quando os gastos com publicidade são significativamente maiores.
Está correto o que se afirma em:

Resposta Selecionada:
III e IV, apenas.
Resposta Correta:
II e IV, apenas.

Comentário da
resposta:
Sua resposta está incorreta.A alternativa está incorreta, pois o gráfico de visualização da relação entre os
gastos mensais com publicidade e o volume de vendas mostra que vendas altas ocorrem quando os gastos
com publicidade são significativamente maiores, assim como mostra que há efeito dos gastos com publicidade
sobre o volume de vendas da boneca.

 Pergunta 10
1 em 1 pontos

Na estatística ou, genericamente, na análise de dados, muito frequentemente analisamos dados ditos retangulares ou
estruturados, onde as variáveis - quantitativas ou qualitativas - são dispostas nas colunas e as observações na linhas de uma
tabela. Em algumas situações é vantajoso se fazer a padronização das variáveis quantitativas.

Assinale a alternativa correta relativamente ao assunto de padronização de variáveis quantitativas na estatística:

Resposta
Selecionada:

Na padronização, se subtrai de cada variável sua média, e depois se divide o resultado pelo seu desvio
padrão.
Resposta Correta:
Na padronização, se subtrai de cada variável sua média, e depois se divide o resultado pelo seu desvio
padrão.
Comentário da
resposta:
Resposta correta. A alternativa está correta. Na estatística, assim como nas suas ciências correlatas, como a
ciência dos dados e a mineração de dados, a padronização de uma variável quantitativa é feita subtraindo-se
dessa variável a sua média e depois dividindo-se o resultado pelo seu desvio padrão.

Sábado, 26 de Junho de 2021 19h31min41s BRT

 Pergunta 1
 Pergunta 2
 Pergunta 3
 Pergunta 4
 Pergunta 5
 Pergunta 6
 Pergunta 7
 Pergunta 8
 Pergunta 9
 Pergunta 10