Buscar

Prova A5 (N2) ESTATÍSTICA APLICADA AO DATA SCIENCE

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

ESTATÍSTICA APLICADA AO DATA SCIENCE
Se foi útil para você deixe um joinha 
Pergunta 1)
Discutimos o que são aprendizagem supervisionada e não supervisionada. Vimos que é na forma como tratamos as variáveis estudadas que se dá a diferença entre esses dois tipos de aprendizagens, supervisionada e não supervisionada. Esses dois tipos são os mais importantes dentre os diversos tipos de aprendizagem.
 
Relativamente a esse assunto, analise as afirmativas a seguir:
 
I. Na aprendizagem supervisionada, definimos uma das variáveis estudadas como sendo a variável resposta, a qual responde em função dos valores assumidos pelas outras variáveis, as quais são chamadas de variáveis de entrada.
II. Especificamente na aprendizagem supervisionada, também denominamos uma variável resposta de variável de saída ou variável dependente.
III. Especificamente na aprendizagem supervisionada, também denominamos uma variável de entrada de variável regressora, variável preditora, variável explanatória  ou variável independente.
IV. Na aprendizagem não supervisionada, tratamos todas as variáveis estudadas da mesma forma, sem procurar explicar o comportamento de uma delas em função dos valores assumidos pelas outras.
Resposta: 
I, II, III e IV.
Pergunta 2)
A atividade de venda de produtos financeiros por bancos, tais como cartões de crédito, requer que se faça uma avaliação do cliente. São focos dessa avaliação aprovar ou não um cartão de crédito para o cliente e, se aprovado, definir o limite do cartão, ou seja, o valor do crédito a conceder.
 
Com base nessa introdução, analise as afirmativas a seguir.
 
	O primeiro foco da avaliação é um problema de regressão: aprovar (sim ou não) o cartão de crédito, uma variável qualitativa dicotômica, com dois níveis (classes).
	O primeiro foco da avaliação é um problema de classificação: aprovar (sim ou não) o cartão de crédito, uma variável qualitativa dicotômica, com dois níveis (classes).
	O segundo foco da avaliação é um problema de classificação, predizer o valor do limite (do crédito) do cartão.
	O segundo foco da avaliação é um problema de regressão, predizer o valor do limite (do crédito) do cartão.
 
Está correto o que se afirma em:
Resposta: 
II e IV, apenas.
	
Pergunta 3)
A escolha de grupos formados por um algoritmo de agrupamento hierárquico pode ser feita por meio da leitura do dendrograma resultante. Escolhe-se a altura (Height) desejada, se traça uma linha horizontal a partir dessa altura, que cruzará com as linhas verticais dos grupos formados nesta altura. O cientista de dados decide se esses grupos são adequados para a sua análise.
 
Veja, por exemplo, a figura abaixo.
 
image0045e3c9ee3_20211113002211.jpg
 
Figura - Dendrograma do agrupamento de oito estados
Fonte: Elaborada pelo autor
Com respeito da leitura deste dendrograma, analise as afirmativas a seguir e assinale V
para a(s) Verdadeira(s) e F para a(s) Falsa(s).
 
I. ( ) A altura 4 cruza com duas linhas verticais, que indicam dois grupos, o primeiro deles formado pelos estados {Connecticut, Delaware}, e o segundo deles formado pelos estados {Colorado, Arizona, California, Alaska, Alabama, Arkansas}.
II. ( ) A altura 4 cruza com três linhas verticais, que indicam três grupos, o primeiro deles formado pelos estados {Connecticut, Delaware}, o segundo deles formado pelos estados {Colorado, Arizona, California}, e o terceiro deles formado pelos estados {Alaska, Alabama, Arkansas}.
III. ( ) A altura 3 cruza com duas linhas verticais, que indicam dois grupos, o primeiro deles formado pelos estados {Connecticut, Delaware}, e o segundo deles formado pelos estados {Colorado, Arizona, California, Alaska, Alabama, Arkansas}.
IV. ( ) A altura 3 cruza com três linhas verticais, que indicam três grupos, o primeiro deles formado pelos estados {Connecticut, Delaware}, o segundo deles formado pelos estados {Colorado, Arizona, California}, e o terceiro deles formado pelos estados {Alaska, Alabama, Arkansas}.
Resposta: 
V, F, F, V.
Pergunta 4)
Leia o excerto a seguir:
“Exploração de dados é a arte de olhar os seus dados, rapidamente gerar hipóteses sobre eles, e rapidamente testar essas hipóteses. E repetir isso outra vez, outra vez, outra vez. O objetivo da exploração de dados é a geração de pistas sobre o que os dados nos revelam, pistas que você poderá explorar, mais tarde, em maior profundidade.”
WICKHAM, Hadley; GROLEMUN, Garret. R for data science: import, tidy, transform, visualize, and model dada. Sebastopol (CA): O’Reilly Media, 2017, p.1.
 
A respeito das fontes que originaram os contos de fadas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
 
I. ( ) Análise estatística descritiva é parte da análise exploratória de dados, frequentemente entendida como a exploração inicial dos dados.
II. ( ) Além dos métodos da estatística descritiva, algoritmos de agrupamento também são parte da análise exploratória de dados.
III. ( ) A análise exploratória dos dados permite a geração de hipóteses sobre os dados, para posterior investigação mais detalhada.
IV. ( ) Gerar hipóteses sobre dados significa gerar afirmações sobre possíveis padrões e descobertas reveladas pelos dados, a serem melhor investigadas e comprovadas.
Resposta: 
V, V, V, V.
Pergunta 5)
Na Unidade 2 estudamos os modelos preditivos de classificação com regressão logística múltipla, para a predição da probabilidade de inadimplência. Aqui, para a predição do volume de vendas de um produto de varejo (uma variável qualitativa com dois níveis, vendas altas ou baixas), usamos como classificador uma árvore de decisão.
 
image0075e346c01_20211113002211.jpg
Figura: Árvore de decisão ajustada às vendas do produto de varejo
Fonte: Elaborada pelo autor.
 
A respeito deste modelo de árvore de decisão aplicado ao problema de predição do volume de vendas da boneca falante (replicado aqui, para sua conveniência), analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
 
I. ( ) Se o local de exposição da boneca for ruim, porém seu preço menor que 241,25 reais, as vendas serão altas, independentemente dos gastos com publicidade e da idade média da população local.
II. ( ) Se o local de exposição da boneca for ruim, seu preço igual ou maior que 241,25 reais, mas os gastos com publicidade forem menores que 78 mil reais, as vendas serão altas, independentemente da idade média da população.
III. ( ) Se o local de exposição da boneca for bom, porém seu preço for igual ou maior que 356,25 reais, as vendas serão baixas, independentemente dos gastos com publicidade e da idade média da população.
IV. ( ) Se o local de exposição da boneca for médio e seu preço for igual ou maior que 241,25 reais, mas os gastos com publicidade forem iguais ou maiores que 78 mil reais e a idade média da população for menor que 44 anos, as vendas serão altas.
 
Assinale a alternativa que apresenta a sequência correta:
Resposta: 
V, F, V, V.
Pergunta 6)
Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco estados americanos parte do famoso conjunto de dados USArrests, o qual possue 50 observações (50 estados americanos) de 4 variáveis (Murder, Assault, UrbanPop e Rape).
 
Obteve o resultado exibido na figura exibida adiante:
 
image0035e3c9ee3_20211113002212.jpg
Figura - Dendrograma do agrupamento dos cinco estados
Fonte: Elaborada pelo autor
 
Relativamente à interpretação desta figura, assinale a alternativa correta:
Resposta: 
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que representa os vários grupos formados em cada estágio do processo de agrupamento hierárquico.
Pergunta 7)
Dados podem aparecer na forma de textos, imagens, vídeos, sons, tabelas, listas, sequências, séries, etc. São muitos os dados que hoje coletamos de diferentes fontes, e muitas as formas de organizá-los e armazená-los. Uma dessas forma, talvez a mais importante delas, são os dados estruturados.
 
Relativamente a esse assunto, analise as afirmativas a seguir.
 
	Dados estruturadossão dados que não possuem uma estrutura regular e repetitiva, seguindo um padrão comum adotado pelas ciências da computação, estatística e ciência dos dados.
	A forma de organização básica dos dados, preferida na estatística e na ciência dos dados, é a forma tabular, na qual as variáveis são dispostas nas linhas e as observações são dispostas nas colunas.
	Dados estruturados são dados que possuem uma estrutura regular e repetitiva, seguindo um padrão comum adotado pelas ciência da computação, estatística e ciência dos dados.
	A forma de organização básica dos dados, preferida na estatística e na ciência dos dados, é a forma tabular, na qual as variáveis são dispostas nas colunas e as observações são dispostas nas linhas.
 
Está correto o que se afirma em:
 
Resposta: 
III e IV, apenas.
Pergunta 8)
Gráficos de dispersão têm emprego consagrado quando falamos a respeito de visualização de dados. Eles são usados, porém, de uma forma bem específica, pois não podem ser usados para a visualização de qualquer tipo de variável, nem em qualquer situação.
 
A partir do exposto, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
 
I. ( ) Gráficos de dispersão, em inglês denominados scatter plots, só podem ser usados para a visualização de uma única variável, a qual deve ser, obrigatoriamente, uma variável qualitativa.
II. ( ) Gráficos de dispersão são usados para a visualização da relação entre duas variáveis quantitativas, em que os dados das duas variáveis são plotados aos pares. Permite, dessa forma, a verificação visual, pelo estatístico ou pelo cientista de dados, se há uma tendência de uma variável aumentar quando a outra aumenta, diminuir quando a outra diminui, ou se não há uma relação aparente entre as duas.
III. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do imóvel e a sua área. Esse tipo de gráfico é denominado, em inglês, scatter plot.
IV. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor do imóvel e o seu andar. Esse tipo de gráfico é denominado, em inglês, scatter plot.
 
Assinale a alternativa que apresenta a sequência correta.
 
Resposta: 
F, V, V, V.
Pergunta 9)
Apresentamos o desenvolvimento de um algoritmo preditivo, com base em modelos de regressão linear, a partir de um caso envolvendo a interação entre uma corretora de imóveis e seu amigo estatístico.
 
Relativamente a esse caso, analise as afirmativas a seguir.
 
I. No estudo de caso discutido, a corretora não via razão para trabalhar com um algoritmo preditivo de valor de venda de imóveis, pois isso não a ajudaria no desenvolvimento do seu trabalho.
II. A corretora de imóveis passou para seu amigo estatístico uma amostra de tamanho n = 90, contendo dados relativos a imóveis vendidos pela imobiliária onde trabalhava.
III. As variáveis observadas na amostra são a área do imóvel, seu andar, sua localização e o valor pelo qual havia sido vendido.
IV. Na amostra, a localização do imóvel foi dividida em cinco níveis (também denominados classes): centro, zona norte, zona sul, zona leste e zona oeste.
 
Está correto o que se afirma em:
Resposta: 
III, apenas.
Pergunta 10)
Os modelos de regressão são de enorme importância na estatística e na ciência dos dados. Dentre os diversos modelos de regressão que existem, são justamente os modelos de regressão linear aqueles considerados os mais importantes e, sem dúvida, os mais difundidos, com aplicações nas mais diversas áreas.
 
Considerando as técnicas discutidas de desenvolvimento de modelos preditivos pautados em modelos de regressão linear simples ou múltipla,  analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
 
I. ( ) Modelos de regressão linear podem ser empregados na predição do peso médio (massa corporal média) de uma pessoa em função da sua altura, idade e sexo.
II. ( ) Modelos de regressão linear podem ser empregados na predição do consumo médio de combustível de um carro em função da potência do seu motor e do seu peso.
III. ( ) Modelos de regressão linear podem ser empregados na predição da renda média mensal de uma pessoa em função da sua escolaridade, idade, sexo e classe social.
IV. ( ) Modelos de regressão linear podem ser empregados na predição da classe social de uma pessoa em função da sua renda média mensal, escolaridade, idade e sexo.
 
Assinale a alternativa que apresenta a sequência correta.
 
Resposta: V V V F

Continue navegando