Buscar

ESTATÍSTICA APLICADA AO DATA SCIENCE

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Usuário
	YUNARA KAREM FELIX RESENDE CAMARA
	Curso
	2020.1 ESTATÍSTICA APLICADA AO DATA SCIENCE [EAD20 - B2]
	Teste
	2020-1S - CLIQUE AQUI PARA ACESSAR A PROVA N2 (A5)
	Iniciado
	09/06/20 17:48
	Enviado
	09/06/20 18:59
	Status
	Completada
	Resultado da tentativa
	9 em 10 pontos  
	Tempo decorrido
	1 hora, 11 minutos
	Instruções
	Caso necessite a utilização do "EXCEL" clique no link ao lado -----------> excel.xlsx
	Resultados exibidos
	Respostas enviadas, Respostas corretas, Comentários
· Pergunta 1
1 em 1 pontos
	
	
	
	Discutimos o que são aprendizagem supervisionada e não supervisionada. Vimos que é na forma como tratamos as variáveis estudadas que se dá a diferença entre esses dois tipos de aprendizagens, supervisionada e não supervisionada. Esses dois tipos são os mais importantes dentre os diversos tipos de aprendizagem.
 
Relativamente a esse assunto, analise as afirmativas a seguir.
 
1. Na aprendizagem supervisionada, definimos uma das variáveis estudadas como sendo a variável resposta, a qual responde em função dos valores assumidos pelas outras variáveis, as quais são chamadas de variáveis de entrada.
2. Especificamente na aprendizagem supervisionada, também denominamos uma variável resposta de variável de saída ou variável dependente.
3. Especificamente na aprendizagem supervisionada, também denominamos uma variável de entrada de variável regressora, variável preditora ou variável independente.
4. Na aprendizagem não supervisionada, tratamos todas as variáveis estudadas da mesma forma, sem procurar explicar o comportamento de uma delas em função dos valores assumidos pelas outras.
 
 
Está correto o que se afirma em:
 
	
	
	
	
		Resposta Selecionada:
	 
I, II, III e IV.
	Resposta Correta:
	 
I, II, III e IV.
	Feedback da resposta:
	Resposta correta. Na aprendizagem supervisionada, definimos uma das variáveis estudadas como sendo a variável resposta, a qual responde em função dos valores assumidos pelas outras variáveis, as quais são chamadas de variáveis de entrada; na aprendizagem supervisionada, também chamamos a variável resposta de variável de saída ou variável dependente e as variáveis de entrada, de variáveis regressoras, preditoras ou independentes. Na aprendizagem não supervisionada, tratamos todas as variáveis estudadas da mesma forma, sem procurar explicar o comportamento de uma delas em função dos valores assumidos pelas outras.
	
	
	
· Pergunta 2
0 em 1 pontos
	
	
	
	A atividade de venda de produtos financeiros por bancos, tais como cartões de crédito, requer que se faça uma avaliação do cliente. São focos dessa avaliação aprovar ou não um cartão de crédito para o cliente e, se aprovado, definir o limite do cartão, ou seja, o valor do crédito a conceder.
 
Com base nessa introdução, analise as afirmativas a seguir.
 
1. O primeiro foco da avaliação é um problema de regressão: aprovar (sim ou não) o cartão de crédito, uma variável qualitativa dicotômica, com dois níveis (classes).
2. O primeiro foco da avaliação é um problema de classificação: aprovar (sim ou não) o cartão de crédito, uma variável qualitativa dicotômica, com dois níveis (classes).
3. O segundo foco da avaliação é um problema de classificação, predizer o valor do limite (do crédito) do cartão.
4. O segundo foco da avaliação é um problema de regressão, predizer o valor do limite (do crédito) do cartão.
 
Está correto o que se afirma em:
 
 
	
	
	
	
		Resposta Selecionada:
	 
II e IV, apenas.
	Resposta Correta:
	 
II e IV, apenas.
	Feedback da resposta:
	Sua resposta está incorreta. O primeiro foco da avaliação é um problema de classificação, aprovar (sim ou não) o cartão de crédito, uma variável qualitativa dicotômica, com dois níveis (classes); o segundo foco da avaliação é um problema de regressão, ou seja, predizer o valor do limite (de crédito) do cartão a ser concedido para o cliente. Esse valor é uma variável quantitativa, cuja predição é feita por algoritmos de regressão.
 
	
	
	
· Pergunta 3
1 em 1 pontos
	
	
	
	Na análise descritiva do volume de vendas da boneca falante, foram estudadas as variáveis relativas aos dados coletados pela gerente comercial do fabricante da boneca. Entre elas, há a variável do preço da boneca praticado em cada ponto de venda, cuja relação com vendas altas ou baixas é exibida no gráfico adiante.
 
 
Figura: Efeito do preço nas vendas
Fonte: Elaborada pelo autor.
 
Quanto a relação entre o preço da boneca e o volume de vendas (vendas altas ou baixas), analise as afirmativas a seguir:
I. Ao estudarmos este caso, percebemos que não há qualquer efeito do preço da boneca falante sobre o volume de vendas em cada ponto (de venda).
II. O gráfico de visualização da relação entre o preço de venda da boneca e o volume de vendas mostra que vendas altas ocorrem quando o preço da boneca é significativamente menor.
III. O gráfico de visualização da relação entre o preço de venda da boneca e o volume de vendas mostra que vendas altas ocorrem mesmo quando o preço da boneca não é significativamente menor.
IV. A asserção III é um indicativo que o efeito de outras variáveis sobre o volume de vendas da boneca pode ser tão relevante ou mesmo maior que o efeito da diferença de preço.
Está correto o que se afirma em:
	
	
	
	
		Resposta Selecionada:
	 
III e IV, apenas.
	Resposta Correta:
	 
III e IV, apenas.
	Feedback da resposta:
	Sua resposta está correta. A alternativa está correta, pois o gráfico de visualização da relação entre o preço de venda da boneca e o volume de vendas mostra que vendas altas ocorrem mesmo quando o preço da boneca não é significativamente menor, e isto é um indicativo que o efeito de outras variáveis sobre o volume de vendas da boneca pode ser tão relevante ou mesmo maior que o efeito da diferença de preço.
	
	
	
· Pergunta 4
1 em 1 pontos
	
	
	
	Em uma análise de agrupamento examinamos os dados observados (as linhas da tabela com os dados) e procuramos identificar, através de algum critério de similaridade, aquelas que estão mais próximas entre si, e formamos grupos com essas observações similares. Quando são apenas 2 variáveis e poucas observações (tamanho da amostra pequeno), por exemplo 10, podemos tentar fazer o agrupamento visualmente.
 
Analise a figura adiante e assinale a alternativa que indica a menor quantidade de grupos que você naturalmente formaria para este caso:
  
Figura - Massa corporal (kg) versus comprimento (m) dos animais
Fonte: Elaborada pelo autor
 
	
	
	
	
		Resposta Selecionada:
	 
Dois grupos, um com 6 indivíduos e outro com 4 indivíduos.
	Resposta Correta:
	 
Dois grupos, um com 6 indivíduos e outro com 4 indivíduos.
	Feedback da resposta:
	Resposta correta. A alternativa está correta. A questão solicita a alternativa com o menor número de grupos que você naturalmente formaria. Há três alternativas com dois grupos, porém aquela que parece ser a mais natural é a que agrupa 6 indivíduos do lado esquerdo do gráfico e 4 indivíduos do lado direito, pois as outras alternativas com dois grupos não são tão naturais quanto essa opção.
	
	
	
· Pergunta 5
1 em 1 pontos
	
	
	
	Leia o excerto a seguir:
“O vice-presidente de Talentos da DataSciencester entrevistou um número de candidatos para emprego do site, com níveis de sucesso variados. Ele coletou um conjunto de dados com vários atributos (qualitativos) de cada candidato, bem como se o candidato se saiu bem ou mal na entrevista. Você poderia usar esses dados para construir um modelo identificando quais candidatos farão boas entrevistas, para que ele não precise perder tempo fazendo entrevistas? [...] Isso parece perfeito para uma árvore de decisão, outra ferramenta de modelagem de previsão no kit de um cientista de dados.”
 
GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta Books, 2016. p. 201.
 
Tomando como base esse texto e o conteúdo apresentado sobre árvores de decisão, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
 
I. ( ) A resposta à pergunta “Você poderia usardados para construir um modelo identificando quais candidatos farão boas entrevistas, para que o vice-presidente não precise perder tempo entrevistando-os?” é “não”.
II. ( ) Uma árvore de decisão pode ser desenvolvida para o processo de seleção de candidatos, em que as variáveis de entrada seriam um conjunto de dados com vários atributos (qualitativos) de cada candidato.
III. ( ) O autor do texto imagina poder usar uma árvore de decisão para o processo de seleção de candidatos, em que a variável de saída é qualitativa dicotômica — se o candidato se sairá bem ou mal na entrevista.
IV. ( ) Neste caso, em particular, pode-se aplicar uma árvore de decisão de classificação para o processo de seleção, pois a variável resposta é qualitativa, porém árvores de decisão também podem ser usadas para problemas de regressão.
 
Assinale a alternativa que apresenta a sequência correta:
	
	
	
	
		Resposta Selecionada:
	 
F, V, V, V.
	Resposta Correta:
	 
F, V, V, V.
	Feedback da resposta:
	Resposta correta. A sequência está correta. Podemos usar uma árvore para o processo de seleção de candidato, em que as variáveis de entrada seriam um conjunto de dados atributos de cada candidato e a variável de saída é dicotômica (se o candidato se sairá bem ou mal na entrevista). Formulado assim, este é um problema de classificação, mas árvores também podem ser usadas em problemas de regressão.
	
	
	
· Pergunta 6
1 em 1 pontos
	
	
	
	No decorrer desta unidade, apresentamos uma série de exemplos de problemas de regressão e de classificação. A diferença entre eles reside no tipo da variável resposta, se quantitativa ou qualitativa. Problemas de classificação são aqueles em que a variável resposta é qualitativa. As variáveis de entrada, também chamadas de regressoras ou preditoras, podem ser quantitativas ou qualitativas.
 
Em relação a problemas de classificação, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
 
I. ( ) A predição de se a pessoa é diabética em função de dados gerais sobre seu quadro clínico, seu histórico médico e dados sobre casos de diabetes na sua família é um problema de classificação.
II. ( ) A predição da falha de um componente estrutural em função das suas características químicas e físicas, da sua geometria e das condições de carga ao qual é submetido é um problema de classificação.
III. ( ) A predição de se um e-mail que chega à sua caixa de entrada é ou não um spam , em função das características gerais do e-mail e do seu texto (sua origem e palavras utilizadas no texto), é um problema de classificação.
IV. ( ) A predição de se o dólar vai subir ou não, em função do tipo de notícias políticas e econômicas divulgadas na tarde do dia anterior, tanto no âmbito nacional quanto internacional, é um problema de classificação.
 
Assinale a alternativa que apresenta a sequência correta:
	
	
	
	
		Resposta Selecionada:
	 
V, V, V, V.
	Resposta Correta:
	 
V, V, V, V.
	Feedback da resposta:
	Resposta correta. A sequência está correta. Em todos os exemplos dados, a variável resposta é qualitativa: se a pessoa é diabética ou não; se haverá ou não falha de um componente estrutural; se um e-mail que chega à sua caixa de entrada é ou não um spam; se o dólar vai subir ou não. Isso caracteriza, em modelos preditivos, um problema de classificação.
	
	
	
· Pergunta 7
1 em 1 pontos
	
	
	
	Discutimos sobre classificadores determinísticos e probabilísticos. Demos, como exemplo, uma variável resposta qualitativa  com dois níveis (classes), o indivíduo está infectado pelo vírus HIV (  ) ou não está infectado (  ), dado um conjunto de sintomas   que ele apresenta.
 
Reveja esse assunto e analise as afirmativas a seguir.
 
1. Um classificador determinístico vai dizer se o indivíduo está ou não está infectado, dados os sintomas que apresenta.
2. Um classificador probabilístico vai dizer qual é a probabilidade de o indivíduo estar ou não infectado, dados os sintomas que apresenta.
3. No jargão da estatística, escrever  significa que a variável aleatória resultou no valor , em que  é um dos possíveis valores que a variável aleatória pode assumir (ou seja, uma de suas classes, no caso, das variáveis qualitativas).
4. Nesse mesmo jargão, escrever  significa a probabilidade de ser igual a um dos seus possíveis valores , quando a variável de entrada  é igual a  (dado que ).
 
Está correto o que se afirma em:
 
 
	
	
	
	
		Resposta Selecionada:
	 
I, II, III e IV.
 
 
 
	Resposta Correta:
	 
I, II, III e IV.
 
 
 
	Feedback da resposta:
	Resposta correta. Um classificador determinístico vai dizer se o indivíduo está ou não está infectado, dados os sintomas que apresenta; já um classificador probabilístico vai dizer qual é a probabilidade de o indivíduo estar ou não infectado; no jargão da estatística, escrever  significa que a variável aleatória resultou no valor , em que  é um dos possíveis valores que a variável aleatória pode assumir (ou seja, uma de suas classes, no caso das variáveis qualitativas) e, nesse mesmo jargão, escrever  significa a probabilidade de ser igual a um dos seus possíveis valores  quando a variável de entrada  é igual a  (dizemos: dado que ).
	
	
	
· Pergunta 8
1 em 1 pontos
	
	
	
	Considere dois pontos de venda da boneca falante com as seguintes características: primeiro ponto com local de exposição ruim da boneca, preço da boneca de 289,99 reais, gastos mensais com publicidade de 90 mil reais e idade média da população local de 39 anos. Segundo ponto com bom local de exposição da boneca e preço da boneca de 399,99 reais.
 
Figura - Árvore de decisão ajustada às vendas do produto de varejo
Fonte: Elaborada pelo autor.
 
 
Use a árvore que construímos para o caso da boneca falante (novamente exibida aqui) e assinale a alternativa que indica corretamente a estimativa de vendas para esse ponto de venda:
	
	
	
	
		Resposta Selecionada:
	 
Vendas altas e baixas, respectivamente.
	Resposta Correta:
	 
Vendas altas e baixas, respectivamente.
	Feedback da resposta:
	Resposta correta. A alternativa está correta, pois ao percorremos a árvore construída para a predição das vendas da boneca falante, se altas ou baixas, do nó inicial aos nós terminais, e usarmos passo a passo as características dos dois pontos de venda, comparando-as com os valores informados em cada nó, chegaremos às estimativas de vendas altas para o primeiro ponto e de vendas baixas para o segundo ponto.
	
	
	
· Pergunta 9
1 em 1 pontos
	
	
	
	A estatística, a ciência da computação e a ciência dos dados são mutuamente relacionadas. Todas elas fazem proveito de desenvolvimentos realizados pelas outras, fazendo-as ainda mais vigorosas do que se funcionando de forma isolada umas das outras.
 
Quanto a esse assunto, analise as afirmativas a seguir.
 
I. A ciência da computação tem uma relação direta com a ciência dos dados, pois derivam dela os métodos de análise estatística que são aplicados à ciência dos dados.
II. A estatística é a mais antiga, se comparada com a ciência da computação e a ciência dos dados.
III. A ciência dos dados faz proveito simultâneo de métodos da estatística e de algoritmos de machine learning da ciência da computação.
IV. Machine learning, ou seja, aprendizagem de máquina, concerne a algoritmos que tiveram a sua origem na ciência da computação e são, atualmente, muito usados, tanto na estatística quanto na ciência dos dados.
 
Está correto o que se afirma em:
	
	
	
	
		Resposta Selecionada:
	 
II, III e IV, apenas.
	Resposta Correta:
	 
II, III e IV, apenas.
	Feedback da resposta:
	Resposta correta. A alternativa está correta, pois os métodos de análise estatística que são aplicados à ciência dos dados derivam da própria estatística. Além disso, a estatística é a mais antiga dessas ciências, quando comparada com a ciência da computação e a ciência dos dados; a ciência dos dados faz proveito simultâneo de métodos da estatística e de algoritmos de machine learning da ciência da computação; e, finalmente, machine learning concerne a algoritmosque tiveram a sua origem na ciência da computação e são, atualmente, muito usados, tanto na estatística quanto na ciência dos dados.
	
	
	
· Pergunta 10
1 em 1 pontos
	
	
	
	O texto em referência apresenta como exemplo de agrupamento uma companhia de vendas online que deseja agrupar seus clientes com base em suas características comuns (renda, idade, número de filhos, estado civil, grau de educação, etc.). Com o resultado do agrupamento, eles definirão campanhas de marketing e de divulgação específicas para cada um dos diferentes grupos que vierem a ser definidos.
 
DUHAM, Margareth H. Data mining : introductory and advanced topics. Upper Saddle River, NJ: Pearson Education, 2003, p.125.
A respeito das fontes que originaram os contos de fadas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
 
I. ( ) Algoritmos de agrupamento só conseguem lidar com variáveis quantitativas. Sendo assim, parte das variáveis disponíveis para esse caso são irrelevantes.
II. ( ) Algoritmos de agrupamento são especializados no tratamento de conjuntos de dados exclusivamente qualitativos.
III. ( ) Algoritmos de agrupamento podem ter as suas soluções verificadas por um supervisor e, dessa forma, saberemos se o resultado é bom ou ruim.
IV. ( ) Seres humanos não possuem habilidade natural para agrupar e depois classificar, já que isso só pode ser realizado por meio de algoritmos.
	
	
	
	
		Resposta Selecionada:
	 
F, F, F, F.
	Resposta Correta:
	 
F, F, F, F.
	Feedback da resposta:
	Resposta correta.  A sequência está correta. Há algoritmos de agrupamento que lidam variáveis quantitativas, ou qualitativas, ou mistas. Portanto, as asserções I e II são falsas.  Algoritmos de agrupamento não podem ter as suas soluções verificadas por um supervisor, pois fazem parte dos métodos de aprendizagem não supervisionada. E seres humanos possuem habilidade natural para agrupar e depois classificar. Portanto, as asserções III e IV também são falsas.

Outros materiais