Buscar

PROVA N2 ESTATÍSTICA APLICADA AO DATA SCIENCE

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Curso GRA1561 ESTATÍSTICA APLICADA AO DATA SCIENCE GR0890211 - 202110.ead-29778852.06 
Teste 20211 - PROVA N2 (A5) 
Iniciado 19/06/21 21:22 
Enviado 24/06/21 00:52 
Status Completada 
Resultado da tentativa 9 em 10 pontos 
Tempo decorrido 99 horas, 30 minutos 
Instruções Caso necessite a utilização do "EXCEL" clique no link ao lado -----------> excel.xlsx 
Resultados exibidos Respostas enviadas, Respostas corretas, Comentários 
 Pergunta 1 
1 em 1 pontos 
 
Em uma análise de agrupamento examinamos os dados observados (as linhas da tabela com os dados) e procuramos 
identificar, através de algum critério de similaridade, aquelas que estão mais próximas entre si, e formamos grupos com essas 
observações similares. Quando são apenas 2 variáveis e poucas observações (tamanho da amostra pequeno), por exemplo 10, 
podemos tentar fazer o agrupamento visualmente. 
 
Analise a figura adiante e assinale a alternativa que indica a menor quantidade de grupos que você naturalmente formaria para 
este caso: 
 
Figura - Massa corporal (kg) versus comprimento (m) dos animais 
Fonte: Elaborada pelo autor 
 
 
Resposta Selecionada: 
Dois grupos, um com 6 indivíduos e outro com 4 indivíduos. 
Resposta Correta: 
Dois grupos, um com 6 indivíduos e outro com 4 indivíduos. 
 
https://fmu.blackboard.com/bbcswebdav/pid-16175650-dt-content-rid-84766551_1/xid-84766551_1
Comentário da 
resposta: 
Resposta correta. A alternativa está correta. A questão solicita a alternativa com o menor número de grupos 
que você naturalmente formaria. Há três alternativas com dois grupos, porém aquela que parece ser a mais 
natural é a que agrupa 6 indivíduos do lado esquerdo do gráfico e 4 indivíduos do lado direito, pois as outras 
alternativas com dois grupos não são tão naturais quanto essa opção. 
 
 Pergunta 2 
1 em 1 pontos 
 
Vimos que a análise descritiva de dados se consiste em sumários estatísticos relativos aos dados analisados, o que também 
denominamos resumos estatísticos, e no emprego de gráficos que exibem o comportamento dos dados de uma forma visual, o 
que denominamos visualização dos dados. O estatístico produziu alguns sumários relativos à área dos imóveis da amostra que 
a corretora lhe passou. 
 
Em relação a esses sumários, analise as afirmativas a seguir. 
 
I. O valor max(x1) se refere ao valor máximo da área entre todos imóveis observados na amostra cedida pela corretora ao 
estatístico. 
II. O valor sd(x1) fornece uma indicação de quão grande é a dispersão da área dos imóveis na amostra analisada. 
III. O valor mean(x1) pode ser menor que o valor min(x1) ou maior que o valor max(x1), a depender da amostra analisada. 
IV. Em alguns casos especiais, min(x1) pode ser maior que max(x1), ou seja, o valor mínimo maior que o valor máximo. 
 
Está correto o que se afirma em: 
 
 
 
Resposta Selecionada: 
I e II, apenas. 
Resposta Correta: 
I e II, apenas. 
 
Comentário da 
resposta: 
Resposta correta. A alternativa está correta, pois max(x1) fornece o valor da maior área dentre os imóveis da 
amostra, e sd(x1), sendo o desvio-padrão da área dos imóveis da amostra, é uma indicação de quão grande é 
a dispersão ou variabilidade observada nesses dados. Já mean(x1) é o valor médio de x1, a área do imóvel, e 
o valor médio sempre estará entre o valor mínimo e o valor máximo. Finalmente, valores mínimos nunca serão 
maiores que valores máximos. 
 
 Pergunta 3 
1 em 1 pontos 
 
Tarefas de classificação são muitos comuns na estatística e na ciência dos dados, por serem muito comuns em todas 
atividades humanas, na ciência, na vida social ou nos negócios. 
Especificamente, discutimos aplicações de modelos preditivos de classificação baseados em modelos de regressão logística 
simples ou múltipla. 
Com isso em mente, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
1. Regressão logística pode ser empregada na predição do peso médio (massa corporal média) de uma pessoa em função de sua 
altura, idade e sexo. 
2. Regressão logística pode ser empregada na predição do consumo médio de combustível de um carro em função da potência do 
seu motor e do seu peso. 
3. Regressão logística pode ser empregada na predição da probabilidade de uma pessoa votar em um determinado candidato e 
não nos outros em função de sua escolaridade, idade, sexo e classe social. 
4. Regressão logística pode ser empregada na predição da probabilidade de a pessoa ser diabética em função de um conjunto de 
sintomas clínicos que apresenta. 
 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
 
Resposta Selecionada: 
F, F, V, V. 
 
Resposta Correta: 
F, F, V, V. 
Comentário da 
resposta: 
Resposta correta. As duas primeiras situações se referem à predição de variáveis resposta quantitativas, o 
que não é possível com modelos de regressão logística; já as duas últimas situações são adequadas ao 
emprego de modelos de regressão logística. 
 
 Pergunta 4 
1 em 1 pontos 
 
Discutimos sobre classificadores determinísticos e probabilísticos. Demos, como exemplo, uma variável resposta 
qualitativa com dois níveis (classes), o indivíduo está infectado pelo vírus HIV ( ) ou não está infectado ( ), dado 
um conjunto de sintomas que ele apresenta. 
 
Reveja esse assunto e analise as afirmativas a seguir. 
 
1. Um classificador determinístico vai dizer se o indivíduo está ou não está infectado, dados os sintomas que apresenta. 
2. Um classificador probabilístico vai dizer qual é a probabilidade de o indivíduo estar ou não infectado, dados os sintomas que 
apresenta. 
3. No jargão da estatística, escrever significa que a variável aleatória resultou no valor , em que é um dos 
possíveis valores que a variável aleatória pode assumir (ou seja, uma de suas classes, no caso, das variáveis qualitativas). 
4. Nesse mesmo jargão, escrever significa a probabilidade de ser igual a um dos seus possíveis valores , quando a 
variável de entrada é igual a (dado que ). 
 
 
Está correto o que se afirma em: 
 
 
 
Resposta Selecionada: 
I, II, III e IV. 
 
 
 
Resposta Correta: 
I, II, III e IV. 
 
 
 
Comentário da 
resposta: 
Resposta correta. Um classificador determinístico vai dizer se o indivíduo está ou não está infectado, dados os 
sintomas que apresenta; já um classificador probabilístico vai dizer qual é a probabilidade de o indivíduo estar 
ou não infectado; no jargão da estatística, escrever significa que a variável aleatória resultou no 
valor , em que é um dos possíveis valores que a variável aleatória pode assumir (ou seja, uma 
de suas classes, no caso das variáveis qualitativas) e, nesse mesmo jargão, escrever significa a 
probabilidade de ser igual a um dos seus possíveis valores quando a variável de entrada é igual 
a (dizemos: dado que ). 
 
 
 Pergunta 5 
1 em 1 pontos 
 
No decorrer desta unidade, apresentamos uma série de exemplos de problemas de regressão e problemas de classificação. A 
diferença entre eles reside no tipo da variável resposta, se quantitativa ou qualitativa. Problemas de regressão são aqueles em 
 
que a variável resposta é quantitativa. As variáveis de entrada, também chamadas de regressoras ou preditoras, podem ser 
quantitativas ou qualitativas. 
 
Em relação a problemas de regressão, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) 
Falsa(s). 
 
I. ( ) A predição da redução da massa corporal de uma pessoa, em quilos, em função do tipo de dieta alimentar e das horas 
semanais dedicadas à prática de atividades físicas, é um problema de regressão. 
II. ( ) A predição da resistência à tração de uma liga metálica, em Pascal (1 Pascal = 1 Newton/m 2 ), em um ensaio de tração, 
em função da sua composição, granulometria e condições gerais do processo de fabricação da liga, é um problema de 
regressão. 
III. ( ) A predição da taxa de mortalidade anual por melanoma maligno, em mortes a cada 100.000 habitantes,em função da 
latitude da região na qual habita a pessoa, é um problema de regressão. 
IV. ( ) A predição do consumo de combustível de um veículo, em litros de combustível por quilômetro rodado, em função do seu 
peso, do número de cilindros do seu motor, e do volume do seu motor, é um problema de regressão. 
 
Assinale a alternativa que apresenta a sequência correta: 
Resposta Selecionada: 
V, V, V, V. 
Resposta Correta: 
V, V, V, V. 
Comentário da 
resposta: 
Resposta correta. A sequência está correta. Em todos os exemplos dados, as variáveis resposta são 
quantitativas: redução de massa corporal em quilos, resistência à tração em Pascal (uma unidade quantitativa 
da física e da engenharia), a taxa de mortalidade em mortes a cada 100.000 habitantes e o consumo de 
combustível em litros por quilômetro rodado. 
 
 
 Pergunta 6 
1 em 1 pontos 
 
Na Unidade 2 estudamos os modelos preditivos de classificação com regressão logística múltipla, para a predição da 
probabilidade de inadimplência. Aqui, para a predição do volume de vendas de um produto de varejo (uma variável qualitativa 
com dois níveis, vendas altas ou baixas), usamos como classificador uma árvore de decisão. 
 
 
Figura: Árvore de decisão ajustada às vendas do produto de varejo 
Fonte: Elaborada pelo autor. 
 
A respeito deste modelo de árvore de decisão aplicado ao problema de predição do volume de vendas da boneca falante 
(replicado aqui, para sua conveniência), analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) 
Falsa(s). 
 
I. ( ) Se o local de exposição da boneca for ruim, porém seu preço menor que 241,25 reais, as vendas serão altas, 
independentemente dos gastos com publicidade e da idade média da população local. 
II. ( ) Se o local de exposição da boneca for ruim, seu preço igual ou maior que 241,25 reais, mas os gastos com publicidade 
forem menores que 78 mil reais, as vendas serão altas, independentemente da idade média da população. 
III. ( ) Se o local de exposição da boneca for bom, porém seu preço for igual ou maior que 356,25 reais, as vendas serão baixas, 
independentemente dos gastos com publicidade e da idade média da população. 
IV. ( ) Se o local de exposição da boneca for médio e seu preço for igual ou maior que 241,25 reais, mas os gastos com 
publicidade forem iguais ou maiores que 78 mil reais e a idade média da população for menor que 44 anos, as vendas serão 
altas. 
 
Assinale a alternativa que apresenta a sequência correta: 
 
Resposta Selecionada: 
V, F, V, V. 
Resposta Correta: 
V, F, V, V. 
 
Comentário da 
resposta: 
Resposta correta. A sequência está correta. Se o local de exposição da boneca for ruim, porém seu preço for 
menor que 241,25 reais, as vendas serão altas, independentemente dos gastos com publicidade e da idade 
média da população local. Se o local de exposição da boneca for bom, porém seu preço for igual ou maior que 
356,25 reais, as vendas serão baixas, independentemente dos gastos com publicidade e da idade média da 
população. Se o local de exposição da boneca for médio e seu preço for igual ou maior que 241,25 reais, mas 
os gastos com publicidade forem iguais ou maiores que 78 mil reais e a idade média da população for menor 
que 44 anos, as vendas serão altas. 
 
 Pergunta 7 
1 em 1 pontos 
 
O Margareth H. Duham, em seu livro Data Mining - Introductory and Advanced Topics, informa que tarefas de agrupamento, ou 
clustering em inglês, vêm sendo aplicadas em muitos domínios, incluindo a biologia, a medicina, a antropologia, o marketing e a 
economia. 
 
DUHAM, Margareth H. Data mining : introductory and advanced topics. Upper Saddle River (NJ): Pearson Education, 2003, 
p.126. 
 
A respeito desses domínios de aplicação de tarefas de agrupamento, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Observar diferentes características de doenças em vários pacientes, e depois formar diferentes grupos de pacientes - por 
similaridade das características de suas doenças - é uma tarefa de agrupamento. 
II. ( ) Observar diferentes hábitos de consumo em várias milhares de pessoas, e depois formar grupos de pessoas - por 
similaridade de seus hábitos de consumo - é uma tarefa de agrupamento. 
III. ( ) Observar diferentes características das linguagens faladas por membros de aldeias remotas, e depois formar grupos de 
linguagens - por similaridades das características das linguagens - é uma tarefa de agrupamento. 
IV. ( ) Observar diferentes característica de insetos em diversos biomas, e depois formar grupos de insetos - por similaridade de 
suas características - é uma tarefa de agrupamento. 
 
 
Resposta Selecionada: 
V, V, V, V. 
Resposta Correta: 
V, V, V, V. 
Comentário da 
resposta: 
Resposta correta. A sequência está correta. Observar diferentes características de indivíduos, sejam estes 
indivíduos doenças que se manifestam em pacientes, hábitos de consumos que se manifestam em 
consumidores, línguas faladas por diferentes povos, ou insetos que habitam diferentes biomas, e depois, para 
cada um desses exemplos, agrupar as observações feitas em grupos menores por similaridade, são tarefas de 
agrupamento. Sendo assim, todos os exemplos descritos são tarefas de agrupamento. 
 
 
 Pergunta 8 
1 em 1 pontos 
 
Os métodos de aprendizagem estatística (statistical learning, em inglês) são divididos em métodos de aprendizagem 
supervisionada e métodos de aprendizagem não supervisionada. Para cada uma dessas diferentes abordagens, há uma 
coleção relativamente grande de diferentes métodos, cada um com seu próprio jeito de funcionamento. 
 
Assinale a alternativa que indica um problema de aprendizagem não supervisionada: 
 
 
 
Resposta Selecionada: 
Desejamos entender se há similaridade entre observações (indivíduos) de uma certa amostra de dados. 
Resposta Correta: 
Desejamos entender se há similaridade entre observações (indivíduos) de uma certa amostra de dados. 
Comentário da 
resposta: 
Resposta correta. A alternativa está correta, pois entender se há similaridade entre observações (indivíduos) 
de uma amostra é o mesmo que tentar agrupar os indivíduos similares, o que é um problema de aprendizagem 
não supervisionada. Todos os demais problemas propostos são problemas de aprendizagem supervisionada, 
 
em que há uma variável resposta supervisora, quantitativa ou qualitativa, para o treinamento do algoritmo 
preditivo. 
 
 Pergunta 9 
0 em 1 pontos 
 
Na análise descritiva do volume de vendas da boneca falante, foram estudadas as variáveis relativas aos dados coletados pela 
gerente comercial do fabricante da boneca. Dentre elas, há a variável dos gastos do fabricante da boneca com publicidade, cuja 
relação com vendas altas ou baixas é exibida no gráfico adiante. 
 
 
 Figura: Efeito dos gastos com publicidade nas vendas 
Fonte: Elaborada pelo autor. 
 
Quanto à relação entre gastos mensais com publicidade e o volume de vendas (vendas altas ou baixas), analise as afirmativas 
a seguir: 
I. Ao estudarmos este caso, percebemos que vendas altas ocorrem mesmo quando os gastos com publicidade são apenas 
ligeiramente maiores. 
II. Visualmente, podemos perceber que a mediana (linha sólida dentro da caixa) dos gastos com publicidade é da ordem de 20 
mil reais por mês para vendas altas e da ordem de 8 mil reais por mês para vendas baixas. 
III. O gráfico de visualização da relação entre os gastos mensais com publicidade e o volume de vendas não mostra qualquer 
efeito dos gastos com publicidade sobre o volume de vendas da boneca. 
IV. O gráfico de visualização da relação entre os gastos mensais com publicidade e o volume de vendas mostra que vendas 
altas ocorrem quando os gastos com publicidade são significativamente maiores. 
Está correto o que se afirma em: 
 
Resposta Selecionada: 
III e IV, apenas. 
Resposta Correta: 
II e IV, apenas. 
 
Comentário da 
resposta: 
Sua resposta está incorreta.A alternativa está incorreta, pois o gráfico de visualização da relação entre os 
gastos mensais com publicidade e o volume de vendas mostra que vendas altas ocorrem quando os gastos 
com publicidade são significativamente maiores, assim como mostra que há efeito dos gastos com publicidade 
sobre o volume de vendas da boneca. 
 
 Pergunta 10 
1 em 1 pontos 
 
Na estatística ou, genericamente, na análise de dados, muito frequentemente analisamos dados ditos retangulares ou 
estruturados, onde as variáveis - quantitativas ou qualitativas - são dispostas nas colunas e as observações na linhas de uma 
tabela. Em algumas situações é vantajoso se fazer a padronização das variáveis quantitativas. 
 
Assinale a alternativa correta relativamente ao assunto de padronização de variáveis quantitativas na estatística: 
 
 
 
Resposta 
Selecionada: 
 
Na padronização, se subtrai de cada variável sua média, e depois se divide o resultado pelo seu desvio 
padrão. 
Resposta Correta: 
Na padronização, se subtrai de cada variável sua média, e depois se divide o resultado pelo seu desvio 
padrão. 
Comentário da 
resposta: 
Resposta correta. A alternativa está correta. Na estatística, assim como nas suas ciências correlatas, como a 
ciência dos dados e a mineração de dados, a padronização de uma variável quantitativa é feita subtraindo-se 
dessa variável a sua média e depois dividindo-se o resultado pelo seu desvio padrão. 
 
 
Sábado, 26 de Junho de 2021 19h31min41s BRT 
 
	 Pergunta 1
	 Pergunta 2
	 Pergunta 3
	 Pergunta 4
	 Pergunta 5
	 Pergunta 6
	 Pergunta 7
	 Pergunta 8
	 Pergunta 9
	 Pergunta 10

Continue navegando