GRA1561 - ESTATISTICA APLICADA AO DATA SCIENCE - ATIVIDADE 4 (A4)

•

UAM

Thiago Arreguy

05/12/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

GRA1561
ESTATISTICA APLICADA AO DATA SCIENCE
ATIVIDADE 4 (A4)

Pergunta 1

Em uma análise de agrupamento examinamos os dados observados (as linhas da tabela
com os dados) e procuramos identificar, através de algum critério de similaridade,
aquelas que estão mais próximas entre si, e formamos grupos com essas observações
similares. Quando são apenas 2 variáveis e poucas observações (tamanho da amostra
pequeno), por exemplo 10, podemos tentar fazer o agrupamento visualmente.

Analise a figura adiante e assinale a alternativa que indica a menor quantidade de grupos
que você naturalmente formaria para este caso:

Figura - Massa corporal (kg) versus comprimento (m) dos animais
Fonte: Elaborada pelo autor

a) Dois grupos, um com 1 indivíduo e um com 9 indivíduos.
b) Quatro grupos, um com 5 indivíduos, dois com 1 indivíduo cada, e um com 4
indivíduos.
c) Dois grupos com 5 indivíduos cada.
d) Dois grupos, um com 6 indivíduos e outro com 4 indivíduos.
e) Três grupos, um com 5 indivíduos, um com 1 indivíduo, e um com 4 indivíduos.

Pergunta 2

Na estatística ou, genericamente, na análise de dados, muito frequentemente
analisamos dados ditos retangulares ou estruturados, onde as variáveis - quantitativas
ou qualitativas - são dispostas nas colunas e as observações na linhas de uma tabela. Em
algumas situações é vantajoso se fazer a padronização das variáveis quantitativas.

Assinale a alternativa correta relativamente ao assunto de padronização de variáveis
quantitativas na estatística:

a) Na padronização, se subtrai de cada variável seu desvio padrão, e depois se
divide o resultado pela média da variável.
b) Na padronização, se subtrai de cada variável sua média, e depois se divide o
resultado pelo seu desvio padrão.
c) Na padronização, se subtrai de cada variável sua média, e não se faz nada com
respeito ao seu desvio padrão.
d) Na padronização, se subtrai de cada variável seu desvio padrão, e não se faz nada
com respeito à sua média.
e) Na padronização, se calcula a média geral entre todas variáveis e depois se
subtrai este valor de cada uma das variáveis.

Pergunta 3

Discutimos o que são aprendizagem supervisionada e não supervisionada. Vimos que é
na forma como tratamos as variáveis estudadas que se dá a diferença entre esses dois
tipos de aprendizagens, supervisionada e não supervisionada. Esses dois tipos são os
mais importantes dentre os diversos tipos de aprendizagem.

Relativamente a esse assunto, analise as afirmativas a seguir:

I. Na aprendizagem supervisionada, definimos uma das variáveis estudadas como
sendo a variável resposta, a qual responde em função dos valores assumidos
pelas outras variáveis, as quais são chamadas de variáveis de entrada.
II. Especificamente na aprendizagem supervisionada, também denominamos uma
variável resposta de variável de saída ou variável dependente.
III. Especificamente na aprendizagem supervisionada, também denominamos uma
variável de entrada de variável regressora, variável preditora, variável
explanatória ou variável independente.
IV. Na aprendizagem não supervisionada, tratamos todas as variáveis estudadas da
mesma forma, sem procurar explicar o comportamento de uma delas em função
dos valores assumidos pelas outras.

a) II e III, apenas.
b) I, II e IV, apenas.
c) II, III e IV, apenas.
d) I, III e IV, apenas.
e) I, II, III e IV.

Pergunta 4

Quando os dados se referem a múltiplas variáveis quantitativas, é possível calcular a
correlação entre pares dessas variáveis, duas a duas. No software estatístico R, isto pode
ser feito com a função cor(). Adiante apresentamos um output típico da função cor()
quando aplicada ao cálculo da correlação entre quatro variáveis quantitativas de um
determinado conjunto de dados.

A respeito deste output típico da função cor() do software estatístico R, para o cálculo
da correlação entre múltiplas variáveis quantitativas, analise as afirmativas a seguir e
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Todas correlações são positivas, o que indica que, para todas variáveis
quantitativas dessa amostra, quando uma aumenta, a outra também aumenta.
II. ( ) Uma correlação igual a 1 entre uma variável e ela mesma apenas indica uma
correlação perfeita dela com ela mesma.
III. ( ) A maior correlação positiva entre essas variáveis é aquela entre Murder e
Assault, cujo valor é de 0,80.
IV. ( ) A segunda maior correlação positiva entre essas variáveis é aquela entre Rape
e Assault, cujo valor é de 0,67 e não de 0,56.

a) F, V, F, V.
b) F, F, V, V.
c) V, V, V, F.
d) F, V, V, F.
e) F, V, V, V.

Pergunta 5

Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco
estados americanos parte do famoso conjunto de dados USArrests, o qual possue 50
observações (50 estados americanos) de 4 variáveis (Murder, Assault, UrbanPop e
Rape).

Obteve o resultado exibido na figura exibida adiante:

Uma imagem contendo captura de telaDescrição gerada automaticamente
Figura - Dendrograma do agrupamento dos cinco estados
Fonte: Elaborada pelo autor

Relativamente à interpretação desta figura, assinale a alternativa correta:

a) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que sugere
serem os estados New Mexico e Oklahoma os mais próximos em termos de
violência urbana.
b) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que lido de
cima para baixo, na altura (height) 1,5 sugere a formação de 10 grupos.
c) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que lido de
baixo para cima, na altura (height) 1,5 sugere a formação de 6 grupos.
d) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que sugere
serem os estados Texas e Arkansas os mais próximos em termos de violência
urbana.
e) É um dendrograma, ou seja, um gráfico na forma de uma árvore, que representa
os vários grupos formados em cada estágio do processo de agrupamento
hierárquico.

Pergunta 6

Os métodos de aprendizagem estatística (statistical learning, em inglês) são divididos
em métodos de aprendizagem supervisionada e métodos de aprendizagem não
supervisionada. Para cada uma dessas diferentes abordagens, há uma coleção
relativamente grande de diferentes métodos, cada um com seu próprio jeito de
funcionamento.

Assinale a alternativa que indica um problema de aprendizagem não supervisionada:

a) Queremos estimar o valor de imóveis a partir das suas características, tais como
sua área, seu andar e sua localização.
b) Ajudaremos médicos se conseguirmos avaliar a gravidade de uma doença a
partir de dados relativos às condições do paciente.
c) Gostaríamos de saber que pessoas ficarão inadimplentes com o pagamento das
faturas de seus cartões de crédito.
d) Desejamos entender se há similaridade entre observações (indivíduos) de uma
certa amostra de dados.
e) Pretendemos ter uma ideia do volume de vendas de um produto de varejo a
partir de algumas características do ponto de venda.

Pergunta 7

Leia o excerto a seguir:
“Exploração de dados é a arte de olhar os seus dados, rapidamente gerar hipóteses
sobre eles, e rapidamente testar essas hipóteses. E repetir isso outra vez, outra vez,
outra vez. O objetivo da exploração de dados é a geração de pistas sobre o que os dados
nos revelam, pistas que você poderá explorar, mais tarde, em maior profundidade.”
WICKHAM, Hadley; GROLEMUN, Garret. R for data science : import, tidy, transform,
visualize, and model dada. Sebastopol (CA): O’Reilly Media, 2017, p.1.

A respeito das fontes que originaram os contos de fadas, analise as afirmativas a seguir
e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Análise estatística descritiva é parte da análise exploratória de dados,
frequentemente entendida como a exploração inicial dos dados.
II. ( ) Além dos métodos da estatística descritiva, algoritmos de agrupamento
também são parte da análise exploratóriade dados.
III. ( ) A análise exploratória dos dados permite a geração de hipóteses sobre os
dados, para posterior investigação mais detalhada.
IV. ( ) Gerar hipóteses sobre dados significa gerar afirmações sobre possíveis
padrões e descobertas reveladas pelos dados, a serem melhor investigadas
e comprovadas.

a) V, V, F, V.
b) F, F, F, F.
c) F, V, F, V.
d) V, V, F, F.
e) V, V, V, V.

Pergunta 8

O Margareth H. Duham, em seu livro Data Mining - Introductory and Advanced Topics,
informa que tarefas de agrupamento, ou clustering em inglês, vêm sendo aplicadas em
muitos domínios, incluindo a biologia, a medicina, a antropologia, o marketing e a
economia. DUHAM, Margareth H. Data mining : introductory and advanced topics.
Upper Saddle River (NJ): Pearson Education, 2003, p.126.

A respeito desses domínios de aplicação de tarefas de agrupamento, analise as
afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Observar diferentes características de doenças em vários pacientes, e
depois formar diferentes grupos de pacientes - por similaridade das
características de suas doenças - é uma tarefa de agrupamento.
II. ( ) Observar diferentes hábitos de consumo em várias milhares de pessoas, e
depois formar grupos de pessoas - por similaridade de seus hábitos de
consumo - é uma tarefa de agrupamento.
III. ( ) Observar diferentes características das linguagens faladas por membros
de aldeias remotas, e depois formar grupos de linguagens - por similaridades
das características das linguagens - é uma tarefa de agrupamento.
IV. ( ) Observar diferentes característica de insetos em diversos biomas, e depois
formar grupos de insetos - por similaridade de suas características - é uma
tarefa de agrupamento.

a) F, V, V, F.
b) V, V, F, F.
c) V, V, F, V.
d) V, V, V, V.
e) V, V, V, F.

Pergunta 9

O texto em referência explica que o processo de descoberta com a mineração de dados
possui tanto um sentido romântico (um processo emocionante e prazeroso), quanto
técnico (um estudo criterioso sobre dados). Também defende a ideia que é preciso
conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse
ambiente necessita e espera receber.. Ou seja, o que as pessoas necessitam e esperam
receber.Lei SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de
dados : com aplicações em R. Rio de Janeiro: Elsevier, 2016, p.3.

Considerando as ideias apresentadas acima e o que sabemos sobre ciência dos dados,
mineração de dados e machine learning, analise as afirmativas a seguir:

I. Machine learning são algoritmos desenvolvidos, principalmente, pela ciência
da computação. São usados na estatística, na ciência de dados e na
mineração de dados.
II. O processo de descoberta de padrões e geração de conhecimento por meio
de dados tem um sentido romântico, por ser emocionante e prazeroso, e um
sentido técnico, pois demanda estudos técnicos criteriosos.
III. A estatística, a ciência da computação e a ciência de dados são áreas
relacionadas, mas a mineração de dados e ciência de dados são áreas
independentes, sem nenhuma relação.
IV. Não é importante conhecer o ambiente em que os dados são produzidos e
que tipo de conhecimento esse ambiente necessita e espera receber.

Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s):
a) I, II e III apenas;
b) II e III apenas;
c) II, III e IV apenas;
d) I, II e IV apenas.
e) I e II apenas;

Pergunta 10

Leia o excerto a seguir:
“Normalização: É comum normalizar (padronizar) variáveis contínuas através da
subtração da média e divisão pelo desvio-padrão, ou então as variáveis com grande
escala dominarão o processo de agrupamento (veja Padronização (Normalização,
Escores Z), no Capítulo 6).” BRUCE, Peter; BRUCE, Andrew. Estatística prática para
cientistas de dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 265.

A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.

I. Sabemos que, na estatística ou na ciência dos dados, é comum normalizar
(padronizar) variáveis quantitativas, ou variáveis contínuas, antes da realização
de uma análise de agrupamento.
Pois
II. No conjunto de dados observados (a amostra de dados), podem existir variáveis
que estão em uma escala muito maior que as outras, e a medida de distância
entre observações dessas variáveis dominarão o resultado da análise de
agrupamento, na formação dos grupos de observações similares entre si.

a) As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa
correta da I.
b) A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
c) As asserções I e II são proposições falsas.
d) As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta
da I.
e) A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.