A1 estatistica aplicada ao data science

0

Filipe Illanes

09/12/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Science

2.269 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

A1

1) Quais foram as variáveis estudadas?

Variáveis: Máquina, Produção, Layout e Funcionários.

2) Qual o tipo de cada variável, quantitativa ou qualitativa? Se quantitativa, qual sua
unidade de medida? Se qualitativa, que níveis ou classes podem assumir?

Variáveis quantitativas: Máquinas (números) e Funcionários (números).
Variáveis qualitativas: Otimização da Produção (retrofitting) e Layout (reformulação)

3) Como pode esse modelo de regressão linear múltipla ser usado para fazer predição
de volume de produção de cada linha da fábrica?

O objetivo do modelo de regressão linear múltipla é encontrar qual o melhor cenário onde
sejam produzidas o maior número de peças por hora. Para isso as diversas variáveis são
correlacionadas para fornecer o resultado do número de peças por hora. O que possibilita
fazer simulações aumentando ou mantendo o mesmo número de funcionários, mudando a
velocidade das máquinas e alterando o layout, a quem trabalhe com esse modelo de
regressão linear múltipla. Com isso cada simulação irá fornecer resultados diferentes até
que se chegue no cenário desejado a implantar.

4) Reflita sobre situações similares em que você poderia aplicar essa mesma técnica
(regressão linear múltipla) para gerar conhecimento a partir de dados. Descreva
brevemente uma dessas situações que você pensou, identifique cada uma das
variáveis de entrada e a variável resposta, descreva o tipo de cada uma delas (se
quantitativa ou qualitativa) e forneça suas unidades de medida (se quantitativas) ou
seus níveis ou classes (se qualitativas).

Em uma fábrica onde se utiliza uma caldeira sempre é buscado uma maior produção de
vapor e essa produção pode ser melhorada de acordo com o combustível utilizado nela.
Então para a produção de vapor em toneladas por hora de uma caldeira utilizei as seguintes
variáveis:
Variável Y - tonelada de vapor por hora (ton/h) - variável quantitativa;
x1 - quantidade de combustível (ton) - variável quantitativa;
x2 - umidade do combustível - variável qualitativa em que as classes seriam 0 = "<50% de
umidade" e 1 = ">= 50% de umidade";
x3 - aditivo de combustível, uma variável qualitativa em que as classes seriam 1 = "uso de
aditivo" e 0 = "sem aditivo".
A3

1) Quais são as variáveis de entrada e qual é a variável resposta? E quais são os seus
tipos?

As variáveis de entrada são Processo A, B e C (quantitativa), Equipes (qualitativa),
Movimentação diária (qualitativa) e a varíaveil resposta é conformidade dos contratos
(qualitativa).

2)Que variável de entrada a árvore de decisão considerou como a mais importante? E
qual a segunda variável mais importante?

A variável de entrada considerada como mais importante foi Processo. E a segunda mais
importante é a variável equipes.

3)Esta árvore, como modelo preditivo, considerou relevante o efeito do movimento
alto ou baixo na produção de contratos não conformes?

Não foi considerado relevante o efeito do movimento alto ou baixo na produção de contratos
não conformes (NC) nessa árvore.

4)De acordo com as predições desta árvore, qual a melhor solução a ser empregada
pela companhia de telefonia móvel?

A melhor solução empregada pela companhia móvel é o processo B de emissão de contrato
com a equipe de tamanho reduzido.

A2

1) Vimos que há dois principais tipos de aprendizagem supervisionada: problema de regressão e
problema de classificação. São os tipos de variáveis resposta dos dados em análise que distinguem
esses dois tipos entre si.
Relativamente a esses dois tipos, analise as afirmativas a seguir.

II e III, apenas.

2) Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, uma
jovem cientista de dados usou gráficos de dispersão. Como cientista de dados, ela sabia
exatamente em que situações empregar gráficos de dispersão. E você, será que você
também já sabe?
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

F,V,V,V.

3) Continuando com o mesmo caso da questão anterior, relativa à aprovação, pelos bancos,
de crédito na forma de cartão de crédito, como se fazia, no passado, a aprovação da
concessão de cartões de crédito pelos bancos? E, hoje em dia, como os bancos fazem essa
aprovação?
Reflita sobre essas perguntas e suas respostas, analise as afirmativas a seguir e assinale V
para a(s) Verdadeira(s) e F para a(s) Falsa(s).

V,V,V,V.

4) Os dados cedidos pelo gerente do banco estavam bem organizados e livres de erros. A
nossa jovem cientista de dados não precisou, portanto, fazer uma limpeza e pré-tratamento
dos dados e pode prosseguir imediatamente para uma análise descritiva deles antes do
desenvolvimento do modelo.
Tendo isso em vista, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F
para a(s) Falsa(s).

V,V,V,V.

5) O modelo de regressão logística simples desenvolvido por uma jovem cientista de dados
para a predição da probabilidade de inadimplência com o cartão de crédito foi:

7% e 27%.
6) Estudamos algoritmos preditivos com base em (1) modelos de regressão linear e (2)
modelos de regressão logística. Esses modelos são aplicados em situações bem distintas,
que dependem, essencialmente, da natureza da variável resposta, também chamada de
variável dependente.
Com esses dois modelos em mente, analise as afirmativas a seguir.

II,III,IV, apenas.

7) O ser humano tem enorme facilidade em agrupar, por similaridade, e classificar coisas, todos os
tipos de coisas. Por conta disso, problemas de classificação são muito frequentes no mundo, mais
frequentes que problemas de regressão. Fornecemos alguns exemplos de aplicação de métodos de
classificação no mundo dos negócios. Dentre esses exemplos, encontramos:

I, II, III, IV.

8) Dados podem aparecer na forma de textos, imagens, vídeos, sons, tabelas, listas, sequências,
séries, etc. São muitos os dados que hoje coletamos de diferentes fontes, e muitas as formas de
organizá-los e armazená-los. Uma dessas forma, talvez a mais importante delas, são os dados
estruturados.
Relativamente a esse assunto, analise as afirmativas a seguir.

III e IV, apenas.

9) Ao longo das nossas discussões, demos foco a um classificador chamado de regressão logística
que, apesar do nome regressão (esse nome por razões históricas e por conta de algumas de suas
características), é usado como um classificador. Mas também vimos que existem outros tipos de
classificadores.
Relativamente a esse assunto de algoritmos de classificação, analise as afirmativas a seguir.

II, III e IV, apenas.

10) Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, uma
jovem cientista de dados usou boxplots (diagramas de caixas). Como cientista de dados, ela
sabia exatamente em que situações empregar boxplots. E você, será que você também já
sabe?
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

V,V,F,V.

A4

1) Os métodos de aprendizagem estatística (statistical learning, em inglês) são divididos em métodos
de aprendizagem supervisionada e métodos de aprendizagem não supervisionada. Para cada uma
dessas diferentes abordagens, há uma coleção relativamente grande de diferentes métodos, cada
um com seu próprio jeito de funcionamento.
Assinale a alternativa que indica um problema de aprendizagem não supervisionada:

Desejamos entender se há similaridade entre observações (indivíduos) de uma certa amostra
de dados.

2) Na estatística ou, genericamente, na análise de dados, muito frequentemente analisamos dados
ditos retangulares ou estruturados, onde as variáveis - quantitativas ou qualitativas - são dispostas
nas colunas e as observações na linhas de uma tabela. Em algumas situações é vantajoso se fazer a
padronização das variáveis quantitativas. Assinale a alternativa correta relativamente ao assunto de
padronizaçãode variáveis quantitativas na estatística:

Na padronização, se subtrai de cada variável sua média, e depois se divide o resultado pelo
seu desvio padrão.

3) Quando os dados se referem a múltiplas variáveis quantitativas, é possível calcular a
correlação entre pares dessas variáveis, duas a duas. No software estatístico R, isto pode
ser feito com a função cor(). Adiante apresentamos um output típico da função cor() quando
aplicada ao cálculo da correlação entre quatro variáveis quantitativas de um determinado
conjunto de dados.

V, V, V, F.

4) Quando acontece de haver várias variáveis quantitativas em uma determinada amostra de dados,
é comum a realização da análise da (possível) relação entre essas variáveis por meio do cálculo de
suas correlações. Neste caso, o cálculo de suas correlações sempre é feito de duas em duas
variáveis. Comumente, também se apresenta a correlação de cada variável com ela mesma, o que
sempre resulta em uma correlação perfeita, igual a 1.

V, V, V, V.

5) Leia o excerto a seguir:
“Exploração de dados é a arte de olhar os seus dados, rapidamente gerar hipóteses sobre
eles, e rapidamente testar essas hipóteses. E repetir isso outra vez, outra vez, outra vez. O
objetivo da exploração de dados é a geração de pistas sobre o que os dados nos revelam,
pistas que você poderá explorar, mais tarde, em maior profundidade.”
WICKHAM, Hadley; GROLEMUN, Garret. R for data science : import, tidy, transform,
visualize, and model dada. Sebastopol (CA): O’Reilly Media, 2017, p.1.

V, V, V, V.

6) Discutimos o que são aprendizagem supervisionada e não supervisionada. Vimos que é na forma
como tratamos as variáveis estudadas que se dá a diferença entre esses dois tipos de
aprendizagens, supervisionada e não supervisionada. Esses dois tipos são os mais importantes
dentre os diversos tipos de aprendizagem.
Relativamente a esse assunto, analise as afirmativas a seguir:

I, II, III e IV.

7) A escolha de grupos formados por um algoritmo de agrupamento hierárquico pode ser feita por
meio da leitura do dendrograma resultante. Escolhe-se a altura (Height) desejada, se traça uma linha
horizontal a partir dessa altura, que cruzará com as linhas verticais dos grupos formados nesta altura.
O cientista de dados decide se esses grupos são adequados para a sua análise.

V, F, F, V.

8) O texto em referência explica que o processo de descoberta com a mineração de dados possui
tanto um sentido romântico (um processo emocionante e prazeroso), quanto técnico (um estudo
criterioso sobre dados). Também defende a ideia que é preciso conhecer o ambiente em que os
dados são produzidos e que tipo de conhecimento esse ambiente necessita e espera receber.. Ou
seja, o que as pessoas necessitam e esperam receber.Lei

I e II apenas;

9) O texto em referência apresenta como exemplo de agrupamento uma companhia de vendas online
que deseja agrupar seus clientes com base em suas características comuns (renda, idade, número
de filhos, estado civil, grau de educação, etc.). Com o resultado do agrupamento, eles definirão
campanhas de marketing e de divulgação específicas para cada um dos diferentes grupos que
vierem a ser definidos.

F, F, F, F.

10) Na estatística, quanto duas variáveis quantitativas comportam-se uma em relação à outra de
forma aproximadamente linear, é comum se calcular a correlação entre elas. Esse cálculo,
entretanto, ao estudo da relação entre duas variáveis qualitativas, ou entre uma variável quantitativa
e uma variável qualitativa.

F,V,V,F.