Buscar

A1 estatistica aplicada ao data science

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

A1 
 
1) Quais foram as variáveis estudadas? 
 
Variáveis: Máquina, Produção, Layout e Funcionários. 
 
2) Qual o tipo de cada variável, quantitativa ou qualitativa? Se quantitativa, qual sua 
unidade de medida? Se qualitativa, que níveis ou classes podem assumir? 
 
Variáveis quantitativas: Máquinas (números) e Funcionários (números). 
Variáveis qualitativas: Otimização da Produção (retrofitting) e Layout (reformulação) 
 
3) Como pode esse modelo de regressão linear múltipla ser usado para fazer predição 
de volume de produção de cada linha da fábrica? 
 
O objetivo do modelo de regressão linear múltipla é encontrar qual o melhor cenário onde 
sejam produzidas o maior número de peças por hora. Para isso as diversas variáveis são 
correlacionadas para fornecer o resultado do número de peças por hora. O que possibilita 
fazer simulações aumentando ou mantendo o mesmo número de funcionários, mudando a 
velocidade das máquinas e alterando o layout, a quem trabalhe com esse modelo de 
regressão linear múltipla. Com isso cada simulação irá fornecer resultados diferentes até 
que se chegue no cenário desejado a implantar. 
 
4) Reflita sobre situações similares em que você poderia aplicar essa mesma técnica 
(regressão linear múltipla) para gerar conhecimento a partir de dados. Descreva 
brevemente uma dessas situações que você pensou, identifique cada uma das 
variáveis de entrada e a variável resposta, descreva o tipo de cada uma delas (se 
quantitativa ou qualitativa) e forneça suas unidades de medida (se quantitativas) ou 
seus níveis ou classes (se qualitativas). 
 
Em uma fábrica onde se utiliza uma caldeira sempre é buscado uma maior produção de 
vapor e essa produção pode ser melhorada de acordo com o combustível utilizado nela. 
Então para a produção de vapor em toneladas por hora de uma caldeira utilizei as seguintes 
variáveis: 
Variável Y - tonelada de vapor por hora (ton/h) - variável quantitativa; 
x1 - quantidade de combustível (ton) - variável quantitativa; 
x2 - umidade do combustível - variável qualitativa em que as classes seriam 0 = "<50% de 
umidade" e 1 = ">= 50% de umidade"; 
x3 - aditivo de combustível, uma variável qualitativa em que as classes seriam 1 = "uso de 
aditivo" e 0 = "sem aditivo". 
A3 
 
1) Quais são as variáveis de entrada e qual é a variável resposta? E quais são os seus 
tipos? 
 
As variáveis de entrada são Processo A, B e C (quantitativa), Equipes (qualitativa), 
Movimentação diária (qualitativa) e a varíaveil resposta é conformidade dos contratos 
(qualitativa). 
 
2)Que variável de entrada a árvore de decisão considerou como a mais importante? E 
qual a segunda variável mais importante? 
 
A variável de entrada considerada como mais importante foi Processo. E a segunda mais 
importante é a variável equipes. 
 
3)Esta árvore, como modelo preditivo, considerou relevante o efeito do movimento 
alto ou baixo na produção de contratos não conformes? 
 
Não foi considerado relevante o efeito do movimento alto ou baixo na produção de contratos 
não conformes (NC) nessa árvore. 
 
4)De acordo com as predições desta árvore, qual a melhor solução a ser empregada 
pela companhia de telefonia móvel? 
 
A melhor solução empregada pela companhia móvel é o processo B de emissão de contrato 
com a equipe de tamanho reduzido. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
A2 
 
1) Vimos que há dois principais tipos de aprendizagem supervisionada: problema de regressão e 
problema de classificação. São os tipos de variáveis resposta dos dados em análise que distinguem 
esses dois tipos entre si. 
Relativamente a esses dois tipos, analise as afirmativas a seguir. 
 
II e III, apenas. 
 
 
2) ​Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, uma 
jovem cientista de dados usou gráficos de dispersão. Como cientista de dados, ela sabia 
exatamente em que situações empregar gráficos de dispersão. E você, será que você 
também já sabe? 
Analise as afirmativas a seguir e assinale ​V​ para a(s) Verdadeira(s) e ​F ​para a(s) Falsa(s). 
 
F,V,V,V​. 
 
 
3) Continuando com o mesmo caso da questão anterior, relativa à aprovação, pelos bancos, 
de crédito na forma de cartão de crédito, como se fazia, no passado, a aprovação da 
concessão de cartões de crédito pelos bancos? E, hoje em dia, como os bancos fazem essa 
aprovação? 
Reflita sobre essas perguntas e suas respostas, analise as afirmativas a seguir e assinale ​V 
para a(s) Verdadeira(s) e ​F ​para a(s) Falsa(s). 
 
V,V,V,V. 
 
4) Os dados cedidos pelo gerente do banco estavam bem organizados e livres de erros. A 
nossa jovem cientista de dados não precisou, portanto, fazer uma limpeza e pré-tratamento 
dos dados e pode prosseguir imediatamente para uma análise descritiva deles antes do 
desenvolvimento do modelo. 
Tendo isso em vista, analise as afirmativas a seguir e assinale ​V​ para a(s) Verdadeira(s) e ​F 
para a(s) Falsa(s). 
 
V,V,V,V. 
 
5) O modelo de regressão logística simples desenvolvido por uma jovem cientista de dados 
para a predição da probabilidade de inadimplência com o cartão de crédito foi: 
 
7% e 27%. 
6) Estudamos algoritmos preditivos com base em (1) modelos de regressão linear e (2) 
modelos de regressão logística. Esses modelos são aplicados em situações bem distintas, 
que dependem, essencialmente, da natureza da variável resposta, também chamada de 
variável dependente. 
 Com esses dois modelos em mente, analise as afirmativas a seguir. 
 
II,III,IV, apenas​. 
 
7) ​O ser humano tem enorme facilidade em agrupar, por similaridade, e classificar coisas, todos os 
tipos de coisas. Por conta disso, problemas de classificação são muito frequentes no mundo, mais 
frequentes que problemas de regressão. Fornecemos alguns exemplos de aplicação de métodos de 
classificação no mundo dos negócios. Dentre esses exemplos, encontramos: 
 
I, II, III, IV. 
 
8) Dados podem aparecer na forma de textos, imagens, vídeos, sons, tabelas, listas, sequências, 
séries, etc. São muitos os dados que hoje coletamos de diferentes fontes, e muitas as formas de 
organizá-los e armazená-los. Uma dessas forma, talvez a mais importante delas, são os dados 
estruturados. 
Relativamente a esse assunto, analise as afirmativas a seguir. 
 
III e IV, apenas. 
 
9) Ao longo das nossas discussões, demos foco a um classificador chamado de regressão logística 
que, apesar do nome regressão (esse nome por razões históricas e por conta de algumas de suas 
características), é usado como um classificador. Mas também vimos que existem outros tipos de 
classificadores. 
Relativamente a esse assunto de algoritmos de classificação, analise as afirmativas a seguir. 
 
II, III e IV, apenas​. 
 
10) ​Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, uma 
jovem cientista de dados usou boxplots (diagramas de caixas). Como cientista de dados, ela 
sabia exatamente em que situações empregar boxplots. E você, será que você também já 
sabe? 
Analise as afirmativas a seguir e assinale ​V​ para a(s) Verdadeira(s) e ​F ​para a(s) Falsa(s). 
 
V,V,F,V. 
 
 
 
 
A4 
 
1) ​Os métodos de aprendizagem estatística (statistical learning, em inglês) são divididos em métodos 
de aprendizagem supervisionada e métodos de aprendizagem não supervisionada. Para cada uma 
dessas diferentes abordagens, há uma coleção relativamente grande de diferentes métodos, cada 
um com seu próprio jeito de funcionamento. 
Assinale a alternativa que indica um problema de aprendizagem não supervisionada: 
 
Desejamos entender se há similaridade entre observações (indivíduos) de uma certa amostra 
de dados. 
 
2) Na estatística ou, genericamente, na análise de dados, muito frequentemente analisamos dados 
ditos retangulares ou estruturados, onde as variáveis - quantitativas ou qualitativas - são dispostas 
nas colunas e as observações na linhas de uma tabela. Em algumas situações é vantajoso se fazer a 
padronização das variáveis quantitativas. Assinale a alternativa correta relativamente ao assunto de 
padronizaçãode variáveis quantitativas na estatística: 
 
Na padronização, se subtrai de cada variável sua média, e depois se divide o resultado pelo 
seu desvio padrão. 
 
3) ​Quando os dados se referem a múltiplas variáveis quantitativas, é possível calcular a 
correlação entre pares dessas variáveis, duas a duas. No software estatístico R, isto pode 
ser feito com a função cor(). Adiante apresentamos um output típico da função cor() quando 
aplicada ao cálculo da correlação entre quatro variáveis quantitativas de um determinado 
conjunto de dados. 
 
V, V, V, F. 
 
4) Quando acontece de haver várias variáveis quantitativas em uma determinada amostra de dados, 
é comum a realização da análise da (possível) relação entre essas variáveis por meio do cálculo de 
suas correlações. Neste caso, o cálculo de suas correlações sempre é feito de duas em duas 
variáveis. Comumente, também se apresenta a correlação de cada variável com ela mesma, o que 
sempre resulta em uma correlação perfeita, igual a 1. 
 
V, V, V, V. 
 
5) ​Leia o excerto a seguir: 
“Exploração de dados é a arte de olhar os seus dados, rapidamente gerar hipóteses sobre 
eles, e rapidamente testar essas hipóteses. E repetir isso outra vez, outra vez, outra vez. O 
objetivo da exploração de dados é a geração de pistas sobre o que os dados nos revelam, 
pistas que você poderá explorar, mais tarde, em maior profundidade.” 
WICKHAM, Hadley; GROLEMUN, Garret. R for data science : import, tidy, transform, 
visualize, and model dada. Sebastopol (CA): O’Reilly Media, 2017, p.1. 
 
V, V, V, V. 
 
6) Discutimos o que são aprendizagem supervisionada e não supervisionada. Vimos que é na forma 
como tratamos as variáveis estudadas que se dá a diferença entre esses dois tipos de 
aprendizagens, supervisionada e não supervisionada. Esses dois tipos são os mais importantes 
dentre os diversos tipos de aprendizagem. 
Relativamente a esse assunto, analise as afirmativas a seguir: 
 
I, II, III e IV. 
 
7) A escolha de grupos formados por um algoritmo de agrupamento hierárquico pode ser feita por 
meio da leitura do dendrograma resultante. Escolhe-se a altura (Height) desejada, se traça uma linha 
horizontal a partir dessa altura, que cruzará com as linhas verticais dos grupos formados nesta altura. 
O cientista de dados decide se esses grupos são adequados para a sua análise. 
 
V, F, F, V. 
 
8) O texto em referência explica que o processo de descoberta com a mineração de dados possui 
tanto um sentido romântico (um processo emocionante e prazeroso), quanto técnico (um estudo 
criterioso sobre dados). Também defende a ideia que é preciso conhecer o ambiente em que os 
dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera receber.. Ou 
seja, o que as pessoas necessitam e esperam receber.Lei 
 
I e II apenas; 
 
9) O texto em referência apresenta como exemplo de agrupamento uma companhia de vendas online 
que deseja agrupar seus clientes com base em suas características comuns (renda, idade, número 
de filhos, estado civil, grau de educação, etc.). Com o resultado do agrupamento, eles definirão 
campanhas de marketing e de divulgação específicas para cada um dos diferentes grupos que 
vierem a ser definidos. 
 
F, F, F, F. 
 
10) Na estatística, quanto duas variáveis quantitativas comportam-se uma em relação à outra de 
forma aproximadamente linear, é comum se calcular a correlação entre elas. Esse cálculo, 
entretanto, ao estudo da relação entre duas variáveis qualitativas, ou entre uma variável quantitativa 
e uma variável qualitativa. 
 
F,V,V,F.

Continue navegando

Outros materiais