PROVA_N2_RESPOSTAS - - Anhembi Morumbi - Estatistica Aplicada ao DataScience

•

UAM

Dedicado Sempre

10/12/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Statística

165 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Informações do teste
Descrição
Instruções
Várias tentativas Não permitido. Este teste só pode ser feito uma vez.
Forçar conclusão Este teste pode ser salvo e retomado posteriormente.
Caso necessite a utilização do "EXCEL" clique no link ao lado -----------> excel.xlsx
PERGUNTA 1
Em algumas situações, o cientista de dados pode decidir transformar dados quantitativos em dados qualitativos, o que
chamamos discretização. Por exemplo, em vez de tratar idade como uma variável quantitativa contínua, podemos
transformá-la em uma variável qualitativa com quatro níveis: criança, jovem, adulto, idoso. A partir do apresentado, analise
as asserções a seguir e a relação proposta entre elas.
I. A discretização (transformação) de variáveis quantitativas em qualitativas é comum na estatística e na ciência dos dados.
Pois:
II. A discretização, em muitas situações, simpli�ca a análise e, principalmente, traz maior clareza à interpretação dos
resultados.
A seguir, assinale a alternativa correta:
As asserções I e II são proposições verdadeiras, e a II é uma justi�cativa correta da I.
A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.
As asserções I e II são proposições verdadeiras, mas a II não é uma justi�cativa correta da I.
A asserção I é uma proposição falsa e a II é uma proposição verdadeira.
As asserções I e II são proposições falsas.
1 pontos Salva
PERGUNTA 2
A visualização da relação entre duas variáveis é, habitualmente, feita por meio de grá�cos de dispersão, de boxplots
(diagramas de caixas) ou de mosaic plots, este último ainda não visto aqui. Mas o emprego dessas modalidades de grá�cos
segue regras bem precisas, especi�camente a que duas variáveis eles podem representar de forma visual.
Referente ao exposto, analise as a�rmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) Para examinar visualmente a relação entre duas variáveis, em que uma é quantitativa e a outra é qualitativa, não é
possível a utilização de grá�cos de dispersão.
II. ( ) Boxplots são uma solução inteligente para a visualização da relação entre uma variável quantitativa e uma variável
qualitativa, em que, no eixo horizontal, indicamos os níveis da variável qualitativa e, no eixo vertical, a variação dos valores
observados para a variável quantitativa.
III. ( ) Para examinar visualmente a relação entre duas variáveis quantitativas, um dos grá�cos preferidos é o diagrama de
caixas, também conhecido como boxplot.
IV. ( ) Na construção de um boxplot, podemos representar, no eixo vertical, os níveis da variável qualitativa e, no eixo
horizontal, os valores da variável quantitativa. Nesse caso, a visualização da variação dos dados da variável quantitativa é
exibida horizontalmente e os níveis (classes) da variável qualitativa são exibidos verticalmente.
Assinale a alternativa que apresenta a sequência correta.
F, V, V, F.
F, F, V, V.
V, V, F, V.
V, V, F, F.
V, F, F, V.
1 pontos Salva
PERGUNTA 3
Os modelos de regressão são de enorme importância na estatística e na ciência dos dados. Dentre os diversos modelos de
regressão que existem, por exemplo, árvores de decisão para regressão, k-vizinhos mais próximos para regressão e outros
(não vimos nenhum desses aqui, mas não se preocupe: o nosso curso é introdutório!), são justamente os modelos de
regressão linear aqueles considerados os mais importantes e, sem dúvida, os mais difundidos, com aplicações nas mais
diversas áreas.
Desse modo, é sobre eles que queremos saber o que você já aprendeu. Para isso, analise as a�rmativas a seguir.
I. Modelos de regressão linear são usados como modelos preditivos para casos em que a variável resposta é quantitativa. As
variáveis de entrada podem ser de qualquer tipo: quantitativas ou qualitativas.
II. As variáveis de entrada também são denominadas variáveis regressoras, variáveis preditoras ou variáveis independentes.
III. A variável resposta também pode ser denominada variável de saída ou variável dependente.
IV. Modelos de regressão linear são usados como modelos preditivos para casos em que a variável resposta é qualitativa. As
variáveis de entrada podem ser de qualquer tipo: quantitativas ou qualitativas.
Está correto o que se a�rma em:
1 pontos Salva
Estado de Conclusão da Pergunta:
Clique em Enviar para enviar. Clique em Salvar todas as respostas para salvar todas as respostas.
Salvar todas as respostas Fechar janela Enviar
ESTAS RESPOSTA LHES GARANTIRAO 9.0 ptos
https://anhembi.blackboard.com/bbcswebdav/pid-14850383-dt-content-rid-84766551_1/xid-84766551_1
Está correto o que se a�rma em:
I e III, apenas.
II e III, apenas.
I e II, apenas.
I, II e III, apenas.
IV, apenas.
PERGUNTA 4
Leia o excerto a seguir:
“O quadro típico para uma análise em ciência de dados é um objeto de dados retangulares , como uma planilha ou tabela de
banco de dados. Dado retangular é basicamente uma matriz bidimensional com linhas indicando registros (caso) e colunas
indicando características (variáveis). Os dados nem sempre começam dessa forma: dados não estruturados (por exemplo,
texto) devem ser processados e tratados de modo a serem representados como um conjunto de características nos dados
retangulares.”
BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019. p.
5–6.
Tomando como base esse texto e o que já discutimos sobre dados estruturados, tabulares e retangulares, analise as
a�rmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) É impossível converter dados não estruturados em representações estruturadas, para que possam ser analisados pela
ciência dos dados.
II. ( ) Dados retangulares não são uma forma típica de organização de dados para análise em ciência dos dados.
III. ( ) Textos são dados estruturados, pois sempre vêm em estruturas bem padronizadas, como aquelas que estudamos em
gramática.
IV. ( ) Dados retangulares, dados tabulares ou dados estruturados são termos usados como sinônimos na ciência dos dados.
Assinale a alternativa que apresenta a sequência correta:
F, V, F, V.
F, F, F, V.
F, F, F, F.
F, F, V, V.
F, F, V, F.
1 pontos Salva
PERGUNTA 5
Na estatística ou, genericamente, na análise de dados, muito frequentemente analisamos dados ditos retangulares ou
estruturados, onde as variáveis - quantitativas ou qualitativas - são dispostas nas colunas e as observações na linhas de uma
tabela. Em algumas situações é vantajoso se fazer a padronização das variáveis quantitativas.
Assinale a alternativa correta relativamente ao assunto de padronização de variáveis quantitativas na estatística:
Na padronização, se calcula a média geral entre todas variáveis e depois se subtrai este valor de cada uma das variáveis.
Na padronização, se subtrai de cada variável seu desvio padrão, e não se faz nada com respeito à sua média.
Na padronização, se subtrai de cada variável sua média, e não se faz nada com respeito ao seu desvio padrão.
Na padronização, se subtrai de cada variável seu desvio padrão, e depois se divide o resultado pela média da variável.
Na padronização, se subtrai de cada variável sua média, e depois se divide o resultado pelo seu desvio padrão.
1 pontos Salva
PERGUNTA 6
Há diferentes formas de descrever as principais etapas de desenvolvimento de um algoritmo preditivo, mas sempre
encontraremos muitas similaridades entre essas diferentes formas. Aqui, apresentamos uma que divide o desenvolvimento
de um algoritmo preditivo em 10 etapas.
Em relação a esse assunto, analise as a�rmativas a seguir.
I. Nas coletas de dados, não é importante evitar vícios de amostragens, pois os modelos e algoritmos preditivos são imunes a
dados viciados.
II. A análise descritiva dos dados sempre vem depois das etapas de treino (ajuste) e teste do modelo (algoritmo) aos dados
coletados.
III. A etapa de feedback do cliente (ou do usuário) do modelo preditivo é muito importante, pois só assimsaberemos se
atingiu o propósito para o qual foi desenvolvido. Com base no feedback do cliente, podemos produzir melhoramentos no
modelo.
IV. A etapa de teste de um modelo (algoritmo) preditivo é realizada para veri�car a sua performance preditiva.
Está correto o que se a�rma em:
III e IV, apenas.
IV, apenas.
I e III, apenas.
II e III apenas
1 pontos Salva
Estado de Conclusão da Pergunta:
Clique em Enviar para enviar. Clique em Salvar todas as respostas para salvar todas as respostas.
Salvar todas as respostas Fechar janela Enviar
II e III, apenas.
III, apenas.
PERGUNTA 7
Leia o excerto a seguir:
“Exploração de dados é a arte de olhar os seus dados, rapidamente gerar hipóteses sobre eles, e rapidamente testar essas
hipóteses. E repetir isso outra vez, outra vez, outra vez. O objetivo da exploração de dados é a geração de pistas sobre o que
os dados nos revelam, pistas que você poderá explorar, mais tarde, em maior profundidade.”
WICKHAM, Hadley; GROLEMUN, Garret. R for data science : import, tidy, transform, visualize, and model dada. Sebastopol
(CA): O’Reilly Media, 2017, p.1.
A respeito das fontes que originaram os contos de fadas, analise as a�rmativas a seguir e assinale V para a(s) Verdadeira(s) e
F para a(s) Falsa(s).
I. ( ) Análise estatística descritiva é parte da análise exploratória de dados, frequentemente entendida como a exploração
inicial dos dados.
II. ( ) Além dos métodos da estatística descritiva, algoritmos de agrupamento também são parte da análise exploratória de
dados.
III. ( ) A análise exploratória dos dados permite a geração de hipóteses sobre os dados, para posterior investigação mais
detalhada.
IV. ( ) Gerar hipóteses sobre dados signi�ca gerar a�rmações sobre possíveis padrões e descobertas reveladas pelos dados, a
serem melhor investigadas e comprovadas.
F, V, F, V.
V, V, F, F.
F, F, F, F.
V, V, V, V.
V, V, F, V.
1 pontos Salva
PERGUNTA 8
Com o advento dos computadores, surgiu a necessidade de se estabelecer uma forma de comunicação dos seres humanos
com eles, o que provocou a criação de linguagens de programação.
Relativamente a esse assunto, analise as a�rmativas a seguir.
I. Linguagens de programação não são importantes para a estatística, mas só para a ciência dos dados.
II. Uma das funções de linguagens de programação é viabilizar a comunicação dos seres humanos com máquinas e das
máquinas entre si.
III. São muitas as linguagens de programação que podem ser empregadas na estatística e na ciência dos dados, mas há uma
preferência, atualmente, pelas linguagens R e Python.
IV. O R base já vem com todas as funções estatísticas e grá�cas das quais precisaremos em um curso introdutório de
aplicações da estatística à ciência dos dados.
Está correto o que se a�rma em:
II, III e IV, apenas.
II e IV, apenas.
II e III, apenas.
I, II e III, apenas.
I, III e IV, apenas.
1 pontos Salva
PERGUNTA 9
Na Unidade 2 estudamos os modelos preditivos de classi�cação com regressão logística múltipla, para a predição da
probabilidade de inadimplência. Aqui, para a predição do volume de vendas de um produto de varejo (uma variável
qualitativa com dois níveis, vendas altas ou baixas), usamos como classi�cador uma árvore de decisão.

1 pontos Salva
Estado de Conclusão da Pergunta:
Clique em Enviar para enviar. Clique em Salvar todas as respostas para salvar todas as respostas.
Salvar todas as respostas Fechar janela Enviar
Figura: Árvore de decisão ajustada às vendas do produto de varejo
Fonte: Elaborada pelo autor.
A respeito deste modelo de árvore de decisão aplicado ao problema de predição do volume de vendas da boneca falante
(replicado aqui, para sua conveniência), analise as a�rmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s)
Falsa(s).
I. ( ) Se o local de exposição da boneca for ruim, porém seu preço menor que 241,25 reais, as vendas serão altas,
independentemente dos gastos com publicidade e da idade média da população local.
II. ( ) Se o local de exposição da boneca for ruim, seu preço igual ou maior que 241,25 reais, mas os gastos com publicidade
forem menores que 78 mil reais, as vendas serão altas, independentemente da idade média da população.
III. ( ) Se o local de exposição da boneca for bom, porém seu preço for igual ou maior que 356,25 reais, as vendas serão
baixas, independentemente dos gastos com publicidade e da idade média da população.
IV. ( ) Se o local de exposição da boneca for médio e seu preço for igual ou maior que 241,25 reais, mas os gastos com
publicidade forem iguais ou maiores que 78 mil reais e a idade média da população for menor que 44 anos, as vendas serão
altas.
Assinale a alternativa que apresenta a sequência correta:
V, F, V, F.
F, F, V, F.
V, F, V, V.
F, F, V, V.
F, V, V, F.
PERGUNTA 10
Muitos dos modelos ou algoritmos usados na estatística e na ciência dos dados são denominados modelos paramétricos, ou
seja, que possuem parâmetros. Esses parâmetros devem ser determinados quando se treina (se ajusta) o modelo ou
algoritmo aos dados amostrados. Na regressão linear simples ou múltipla, esses parâmetros são denominados coe�cientes
do modelo.
A respeito dos coe�cientes do modelo de regressão linear simples para o valor do imóvel em função da sua área, analise as
a�rmativas a seguir.
I. O estatístico usou o software R e obteve, para os coe�cientes do modelo de regressão linear simples do valor do imóvel
em função da sua área, b0 = 27,22 e b1 = 5,15.
II. Os coe�cientes do modelo de regressão linear simples do valor do imóvel em função da sua área possuem unidades, que
são, respectivamente, kR$ (mil reais) para b0 e kR$/m2 (mil reais dividido pela área do imóvel) para b1.
III. O coe�ciente b0 é a intersecção da reta do modelo com o eixo vertical y quanto x1 = 0. Não tem um signi�cado “real”
nesse caso, pois não há imóveis com área igual a zero. Deve ser entendido, nessa situação, apenas como um parâmetro de
ajuste do modelo aos dados da amostra.
IV. O coe�ciente b1 indica quanto varia o valor esperado do imóvel para um aumento de 1 metro quadrado da sua área.
Gra�camente, esse coe�ciente é a inclinação da reta que representa o modelo de regressão linear simples ajustado aos
dados da amostra.
Está correto o que se a�rma em:
I e II, apenas.
III e IV, apenas.
II e III, apenas.
II, III e IV, apenas.
I, II, III e IV.
1 pontos Salva
Estado de Conclusão da Pergunta:
Clique em Enviar para enviar. Clique em Salvar todas as respostas para salvar todas as respostas.
Salvar todas as respostas Fechar janela Enviar