Buscar

GRA1561 - ESTATISTICA APLICADA AO DATA SCIENCE - ATIVIDADE 4 (A4)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Continue navegando


Prévia do material em texto

GRA1561 
ESTATISTICA APLICADA AO DATA SCIENCE 
ATIVIDADE 4 (A4) 
 
Pergunta 1 
 
Em uma análise de agrupamento examinamos os dados observados (as linhas da tabela 
com os dados) e procuramos identificar, através de algum critério de similaridade, 
aquelas que estão mais próximas entre si, e formamos grupos com essas observações 
similares. Quando são apenas 2 variáveis e poucas observações (tamanho da amostra 
pequeno), por exemplo 10, podemos tentar fazer o agrupamento visualmente. 
 
Analise a figura adiante e assinale a alternativa que indica a menor quantidade de grupos 
que você naturalmente formaria para este caso: 
 
Figura - Massa corporal (kg) versus comprimento (m) dos animais 
Fonte: Elaborada pelo autor 
 
a) Dois grupos, um com 1 indivíduo e um com 9 indivíduos. 
b) Quatro grupos, um com 5 indivíduos, dois com 1 indivíduo cada, e um com 4 
indivíduos. 
c) Dois grupos com 5 indivíduos cada. 
d) Dois grupos, um com 6 indivíduos e outro com 4 indivíduos. 
e) Três grupos, um com 5 indivíduos, um com 1 indivíduo, e um com 4 indivíduos. 
 
Pergunta 2 
 
Na estatística ou, genericamente, na análise de dados, muito frequentemente 
analisamos dados ditos retangulares ou estruturados, onde as variáveis - quantitativas 
ou qualitativas - são dispostas nas colunas e as observações na linhas de uma tabela. Em 
algumas situações é vantajoso se fazer a padronização das variáveis quantitativas. 
 
Assinale a alternativa correta relativamente ao assunto de padronização de variáveis 
quantitativas na estatística: 
 
a) Na padronização, se subtrai de cada variável seu desvio padrão, e depois se 
divide o resultado pela média da variável. 
b) Na padronização, se subtrai de cada variável sua média, e depois se divide o 
resultado pelo seu desvio padrão. 
c) Na padronização, se subtrai de cada variável sua média, e não se faz nada com 
respeito ao seu desvio padrão. 
d) Na padronização, se subtrai de cada variável seu desvio padrão, e não se faz nada 
com respeito à sua média. 
e) Na padronização, se calcula a média geral entre todas variáveis e depois se 
subtrai este valor de cada uma das variáveis. 
 
Pergunta 3 
 
Discutimos o que são aprendizagem supervisionada e não supervisionada. Vimos que é 
na forma como tratamos as variáveis estudadas que se dá a diferença entre esses dois 
tipos de aprendizagens, supervisionada e não supervisionada. Esses dois tipos são os 
mais importantes dentre os diversos tipos de aprendizagem. 
 
Relativamente a esse assunto, analise as afirmativas a seguir: 
 
I. Na aprendizagem supervisionada, definimos uma das variáveis estudadas como 
sendo a variável resposta, a qual responde em função dos valores assumidos 
pelas outras variáveis, as quais são chamadas de variáveis de entrada. 
II. Especificamente na aprendizagem supervisionada, também denominamos uma 
variável resposta de variável de saída ou variável dependente. 
III. Especificamente na aprendizagem supervisionada, também denominamos uma 
variável de entrada de variável regressora, variável preditora, variável 
explanatória ou variável independente. 
IV. Na aprendizagem não supervisionada, tratamos todas as variáveis estudadas da 
mesma forma, sem procurar explicar o comportamento de uma delas em função 
dos valores assumidos pelas outras. 
 
a) II e III, apenas. 
b) I, II e IV, apenas. 
c) II, III e IV, apenas. 
d) I, III e IV, apenas. 
e) I, II, III e IV. 
 
Pergunta 4 
 
Quando os dados se referem a múltiplas variáveis quantitativas, é possível calcular a 
correlação entre pares dessas variáveis, duas a duas. No software estatístico R, isto pode 
ser feito com a função cor(). Adiante apresentamos um output típico da função cor() 
quando aplicada ao cálculo da correlação entre quatro variáveis quantitativas de um 
determinado conjunto de dados. 
 
A respeito deste output típico da função cor() do software estatístico R, para o cálculo 
da correlação entre múltiplas variáveis quantitativas, analise as afirmativas a seguir e 
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Todas correlações são positivas, o que indica que, para todas variáveis 
quantitativas dessa amostra, quando uma aumenta, a outra também aumenta. 
II. ( ) Uma correlação igual a 1 entre uma variável e ela mesma apenas indica uma 
correlação perfeita dela com ela mesma. 
III. ( ) A maior correlação positiva entre essas variáveis é aquela entre Murder e 
Assault, cujo valor é de 0,80. 
IV. ( ) A segunda maior correlação positiva entre essas variáveis é aquela entre Rape 
e Assault, cujo valor é de 0,67 e não de 0,56. 
 
a) F, V, F, V. 
b) F, F, V, V. 
c) V, V, V, F. 
d) F, V, V, F. 
e) F, V, V, V. 
 
Pergunta 5 
 
Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco 
estados americanos parte do famoso conjunto de dados USArrests, o qual possue 50 
observações (50 estados americanos) de 4 variáveis (Murder, Assault, UrbanPop e 
Rape). 
 
Obteve o resultado exibido na figura exibida adiante: 
 
Uma imagem contendo captura de telaDescrição gerada automaticamente 
Figura - Dendrograma do agrupamento dos cinco estados 
Fonte: Elaborada pelo autor 
 
Relativamente à interpretação desta figura, assinale a alternativa correta: 
 
a) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que sugere 
serem os estados New Mexico e Oklahoma os mais próximos em termos de 
violência urbana. 
b) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que lido de 
cima para baixo, na altura (height) 1,5 sugere a formação de 10 grupos. 
c) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que lido de 
baixo para cima, na altura (height) 1,5 sugere a formação de 6 grupos. 
d) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que sugere 
serem os estados Texas e Arkansas os mais próximos em termos de violência 
urbana. 
e) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que representa 
os vários grupos formados em cada estágio do processo de agrupamento 
hierárquico. 
 
Pergunta 6 
 
Os métodos de aprendizagem estatística (statistical learning, em inglês) são divididos 
em métodos de aprendizagem supervisionada e métodos de aprendizagem não 
supervisionada. Para cada uma dessas diferentes abordagens, há uma coleção 
relativamente grande de diferentes métodos, cada um com seu próprio jeito de 
funcionamento. 
 
Assinale a alternativa que indica um problema de aprendizagem não supervisionada: 
 
a) Queremos estimar o valor de imóveis a partir das suas características, tais como 
sua área, seu andar e sua localização. 
b) Ajudaremos médicos se conseguirmos avaliar a gravidade de uma doença a 
partir de dados relativos às condições do paciente. 
c) Gostaríamos de saber que pessoas ficarão inadimplentes com o pagamento das 
faturas de seus cartões de crédito. 
d) Desejamos entender se há similaridade entre observações (indivíduos) de uma 
certa amostra de dados. 
e) Pretendemos ter uma ideia do volume de vendas de um produto de varejo a 
partir de algumas características do ponto de venda. 
 
Pergunta 7 
 
Leia o excerto a seguir: 
“Exploração de dados é a arte de olhar os seus dados, rapidamente gerar hipóteses 
sobre eles, e rapidamente testar essas hipóteses. E repetir isso outra vez, outra vez, 
outra vez. O objetivo da exploração de dados é a geração de pistas sobre o que os dados 
nos revelam, pistas que você poderá explorar, mais tarde, em maior profundidade.” 
WICKHAM, Hadley; GROLEMUN, Garret. R for data science : import, tidy, transform, 
visualize, and model dada. Sebastopol (CA): O’Reilly Media, 2017, p.1. 
 
A respeito das fontes que originaram os contos de fadas, analise as afirmativas a seguir 
e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Análise estatística descritiva é parte da análise exploratória de dados, 
frequentemente entendida como a exploração inicial dos dados. 
II. ( ) Além dos métodos da estatística descritiva, algoritmos de agrupamento 
também são parte da análise exploratóriade dados. 
III. ( ) A análise exploratória dos dados permite a geração de hipóteses sobre os 
dados, para posterior investigação mais detalhada. 
IV. ( ) Gerar hipóteses sobre dados significa gerar afirmações sobre possíveis 
padrões e descobertas reveladas pelos dados, a serem melhor investigadas 
e comprovadas. 
 
a) V, V, F, V. 
b) F, F, F, F. 
c) F, V, F, V. 
d) V, V, F, F. 
e) V, V, V, V. 
 
Pergunta 8 
 
O Margareth H. Duham, em seu livro Data Mining - Introductory and Advanced Topics, 
informa que tarefas de agrupamento, ou clustering em inglês, vêm sendo aplicadas em 
muitos domínios, incluindo a biologia, a medicina, a antropologia, o marketing e a 
economia. DUHAM, Margareth H. Data mining : introductory and advanced topics. 
Upper Saddle River (NJ): Pearson Education, 2003, p.126. 
 
A respeito desses domínios de aplicação de tarefas de agrupamento, analise as 
afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Observar diferentes características de doenças em vários pacientes, e 
depois formar diferentes grupos de pacientes - por similaridade das 
características de suas doenças - é uma tarefa de agrupamento. 
II. ( ) Observar diferentes hábitos de consumo em várias milhares de pessoas, e 
depois formar grupos de pessoas - por similaridade de seus hábitos de 
consumo - é uma tarefa de agrupamento. 
III. ( ) Observar diferentes características das linguagens faladas por membros 
de aldeias remotas, e depois formar grupos de linguagens - por similaridades 
das características das linguagens - é uma tarefa de agrupamento. 
IV. ( ) Observar diferentes característica de insetos em diversos biomas, e depois 
formar grupos de insetos - por similaridade de suas características - é uma 
tarefa de agrupamento. 
 
a) F, V, V, F. 
b) V, V, F, F. 
c) V, V, F, V. 
d) V, V, V, V. 
e) V, V, V, F. 
 
Pergunta 9 
 
O texto em referência explica que o processo de descoberta com a mineração de dados 
possui tanto um sentido romântico (um processo emocionante e prazeroso), quanto 
técnico (um estudo criterioso sobre dados). Também defende a ideia que é preciso 
conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse 
ambiente necessita e espera receber.. Ou seja, o que as pessoas necessitam e esperam 
receber.Lei SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de 
dados : com aplicações em R. Rio de Janeiro: Elsevier, 2016, p.3. 
 
Considerando as ideias apresentadas acima e o que sabemos sobre ciência dos dados, 
mineração de dados e machine learning, analise as afirmativas a seguir: 
 
I. Machine learning são algoritmos desenvolvidos, principalmente, pela ciência 
da computação. São usados na estatística, na ciência de dados e na 
mineração de dados. 
II. O processo de descoberta de padrões e geração de conhecimento por meio 
de dados tem um sentido romântico, por ser emocionante e prazeroso, e um 
sentido técnico, pois demanda estudos técnicos criteriosos. 
III. A estatística, a ciência da computação e a ciência de dados são áreas 
relacionadas, mas a mineração de dados e ciência de dados são áreas 
independentes, sem nenhuma relação. 
IV. Não é importante conhecer o ambiente em que os dados são produzidos e 
que tipo de conhecimento esse ambiente necessita e espera receber. 
 
Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s): 
a) I, II e III apenas; 
b) II e III apenas; 
c) II, III e IV apenas; 
d) I, II e IV apenas. 
e) I e II apenas; 
 
Pergunta 10 
 
Leia o excerto a seguir: 
“Normalização: É comum normalizar (padronizar) variáveis contínuas através da 
subtração da média e divisão pelo desvio-padrão, ou então as variáveis com grande 
escala dominarão o processo de agrupamento (veja Padronização (Normalização, 
Escores Z), no Capítulo 6).” BRUCE, Peter; BRUCE, Andrew. Estatística prática para 
cientistas de dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 265. 
 
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. 
 
I. Sabemos que, na estatística ou na ciência dos dados, é comum normalizar 
(padronizar) variáveis quantitativas, ou variáveis contínuas, antes da realização 
de uma análise de agrupamento. 
Pois 
II. No conjunto de dados observados (a amostra de dados), podem existir variáveis 
que estão em uma escala muito maior que as outras, e a medida de distância 
entre observações dessas variáveis dominarão o resultado da análise de 
agrupamento, na formação dos grupos de observações similares entre si. 
 
a) As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa 
correta da I. 
b) A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. 
c) As asserções I e II são proposições falsas. 
d) As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta 
da I. 
e) A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.