Buscar

Atividade 4 A4 - ESTATÍSTICA APLICADA AO DATA SCIENCE

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

Curso GRA1561 ESTATÍSTICA APLICADA AO DATA SCIENCE 
GR0890-212-3 - 202120.ead-19326.01 
Teste ATIVIDADE 4 (A4) 
Status Completada 
Resultado da 
tentativa 
9 em 10 pontos 
Resultados 
exibidos 
Respostas enviadas, Respostas corretas, Comentários 
• Pergunta 1 
1 em 1 pontos 
 
Na estatística, quanto duas variáveis quantitativas comportam-se uma em 
relação à outra de forma aproximadamente linear, é comum se calcular a 
correlação entre elas. Esse cálculo, entretanto, ao estudo da relação entre 
duas variáveis qualitativas, ou entre uma variável quantitativa e uma variável 
qualitativa. 
 
A respeito do cálculo da correlação entre duas variáveis quantitativas, 
analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para 
a(s) Falsa(s). 
 
I. ( ) Uma correlação positiva indica que quando uma das variáveis aumenta 
a outra variável diminui. 
II. ( ) Uma correlação positiva indica que quando uma das variáveis aumenta 
a outra variável também aumenta. 
III. ( ) Uma correlação negativa indica que quando uma das variáveis 
aumenta a outra variável diminui. 
IV. ( ) Uma correlação negativa indica que quando uma das variáveis diminui 
a outra também diminui. 
 
 
Resposta Selecionada: 
F, V, V, F. 
Resposta Correta: 
F, V, V, F. 
Comentário 
da resposta: 
Resposta correta. A sequência está correta. É correto 
afirmar que uma correlação positiva indica que quando 
uma das variáveis aumenta a outra variável também 
aumenta, e que uma correlação negativa indica que 
quando uma das variáveis aumenta a outra variável 
diminui. É incorreto afirmar que uma correlação positiva 
indica que quando uma das variáveis aumenta a outra 
variável diminui, ou que uma correlação negativa indica 
 
que quando uma das variáveis diminui a outra também 
diminui. 
 
• Pergunta 2 
1 em 1 pontos 
 
O texto em referência apresenta como exemplo de agrupamento uma 
companhia de vendas online que deseja agrupar seus clientes com base em 
suas características comuns (renda, idade, número de filhos, estado civil, 
grau de educação, etc.). Com o resultado do agrupamento, eles definirão 
campanhas de marketing e de divulgação específicas para cada um dos 
diferentes grupos que vierem a ser definidos. 
 
DUHAM, Margareth H. Data mining : introductory and advanced topics. 
Upper Saddle River, NJ: Pearson Education, 2003, p.125. 
A respeito das fontes que originaram os contos de fadas, analise as 
afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) 
Falsa(s). 
 
I. ( ) Algoritmos de agrupamento só conseguem lidar com variáveis 
quantitativas. Sendo assim, parte das variáveis disponíveis para esse caso 
são irrelevantes. 
II. ( ) Algoritmos de agrupamento são especializados no tratamento de 
conjuntos de dados exclusivamente qualitativos. 
III. ( ) Algoritmos de agrupamento podem ter as suas soluções verificadas 
por um supervisor e, dessa forma, saberemos se o resultado é bom ou ruim. 
IV. ( ) Seres humanos não possuem habilidade natural para agrupar e 
depois classificar, já que isso só pode ser realizado por meio de algoritmos. 
 
Resposta Selecionada: 
F, F, F, F. 
Resposta Correta: 
F, F, F, F. 
Comentário 
da resposta: 
Resposta correta. A sequência está correta. Há 
algoritmos de agrupamento que lidam variáveis 
quantitativas, ou qualitativas, ou mistas. Portanto, as 
asserções I e II são falsas. Algoritmos de agrupamento 
não podem ter as suas soluções verificadas por um 
supervisor, pois fazem parte dos métodos de 
aprendizagem não supervisionada. E seres humanos 
possuem habilidade natural para agrupar e depois 
classificar. Portanto, as asserções III e IV também são 
falsas. 
 
 
• Pergunta 3 
1 em 1 pontos 
 
Na estatística ou, genericamente, na análise de dados, muito 
frequentemente analisamos dados ditos retangulares ou estruturados, onde 
as variáveis - quantitativas ou qualitativas - são dispostas nas colunas e as 
observações na linhas de uma tabela. Em algumas situações é vantajoso se 
fazer a padronização das variáveis quantitativas. 
 
Assinale a alternativa correta relativamente ao assunto de padronização de 
variáveis quantitativas na estatística: 
 
 
 
Resposta 
Selecionada: 
 
Na padronização, se subtrai de cada variável sua 
média, e depois se divide o resultado pelo seu desvio 
padrão. 
Resposta 
Correta: 
 
Na padronização, se subtrai de cada variável sua 
média, e depois se divide o resultado pelo seu desvio 
padrão. 
Comentário 
da resposta: 
Resposta correta. A alternativa está correta. Na 
estatística, assim como nas suas ciências correlatas, 
como a ciência dos dados e a mineração de dados, a 
padronização de uma variável quantitativa é feita 
subtraindo-se dessa variável a sua média e depois 
dividindo-se o resultado pelo seu desvio padrão. 
 
 
• Pergunta 4 
0 em 1 pontos 
 
Leia o excerto a seguir: 
“A ciência dos dados é uma fusão de múltiplas disciplinas, incluindo 
estatística, ciência da computação, tecnologia da informação e campos de 
domínios específicos. Consequentemente, podem-se utilizar de muitos 
termos diferentes para se referir a um dado conceito.” 
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de 
dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. xv. 
 A partir do apresentado, analise as asserções a seguir e a relação proposta 
entre elas. 
 
I. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos 
diferentes para se referir a um dado conceito. 
Pois 
II. A estatística usa, de forma profunda, a matemática como pilar do seu 
desenvolvimento. É considerada a ciência mais sutil, e a mais ampla, quanto 
o assunto são dados. É usada por todas áreas científicas. 
 
Resposta 
Selecionada: 
 
As asserções I e II são proposições verdadeiras, e a II 
é uma justificativa correta da I. 
Resposta Correta: 
As asserções I e II são proposições verdadeiras, mas 
a II não é uma justificativa da I. 
Comentário 
da resposta: 
Sua resposta está incorreta, pois mesmo que algoritmos 
de agrupamento sejam parte dos métodos da 
aprendizagem não supervisionada, e não serem modelos 
preditivos, como afirmado na asserção II, depois que 
formamos e nomeamos os grupos (classificamos os 
grupos), podemos usar essas classes como variáveis 
respostas e, a partir desse ponto, executar tarefas 
preditivas com algoritmos de classificação. Ou seja, a 
asserção I é falsa. 
 
 
 
• Pergunta 5 
1 em 1 pontos 
 
Leia o excerto a seguir sobre as ideias-chave para agrupamento hierárquico: 
 
“Começa com todos os registros. Progressivamente, os grupos são unidos 
aos grupos próximos até que todos os registros pertençam a um único 
grupo. O histórico de aglomeração é retido e plotado, e o usuário pode 
visualizar o número e a estrutura dos grupos em diferentes estágios. As 
distâncias intergrupos são calculadas de jeitos diferentes, todas baseadas 
no conjunto de distância inter-registros.” 
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de 
dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 278. 
 A partir do apresentado, analise as asserções a seguir e a relação proposta 
entre elas. 
 
I. No agrupamento hierárquico, o usuário deve obrigatoriamente especificar 
o número de grupos que deseja ver o algoritmo formar. 
Pois 
II. O algoritmo começa com grupos formados por registros individuais e, 
progressivamente, os grupos são unidos aos grupos mais próximos, até que 
todos os registros pertençam a um único grupo. 
 
 
Resposta 
Selecionada: 
 
A asserção I é uma proposição falsa, e a II é uma 
proposição verdadeira. 
 
Resposta Correta: 
A asserção I é uma proposição falsa, e a II é uma 
proposição verdadeira. 
Comentário 
da resposta: 
Resposta correta. A alternativa está correta, pois no 
agrupamento hierárquico, diferentemente do que se 
requer para o agrupamento por k-médias, o usuário não 
especifica o número de grupos que o algoritmodeve 
formar. Em estágios progressivos, se parte de tantos 
grupos quanto o número de registros (observações) do 
conjunto de dados, formam-se sequencialmente vários 
agrupamentos, por fusão entre grupos mais similares 
entre si, até se formar um único grupo, ao final, com 
todos os registro do conjunto de dados analisado. Ao 
usuário cabe examinar essa estrutura, e decidir que 
agrupamentos fazem mais sentido para a sua análise. 
 
• Pergunta 6 
1 em 1 pontos 
 
O texto em referência fornece os seguintes exemplos de agrupamento: 
análise de perfil de usuários e perfil de itens para sistemas de 
recomendação; análise de padrões de comportamento de multidões; 
identificação de grupos de risco para empresas seguradoras; análise de 
emoções em redes sociais; reconhecimento de padrões em imagens de 
satélites ou imagens médicas; análise de padrões em cliques em páginas da 
internet, etc. 
 
SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à 
mineração de dados : com aplicações em R. Rio de Janeiro: Elsevier, 
2016, p.146. 
A respeito dos campos de aplicação da análise de agrupamento, analise as 
afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) 
Falsa(s). 
 
I. ( ) A análise de emoções por meio de agrupamento pode servir ao 
propósito de averiguar o índice de aceitação de um candidato a um cargo 
eletivo público por região. 
II. ( ) O reconhecimento de padrões em imagens de satélites pode servir ao 
propósito de averiguar regiões com processos acelerados de desertificação. 
III. ( ) A identificação de grupos de risco para empresas seguradoras pode 
servir ao propósito de precificação correta do valor do seguro para cada 
grupo de risco. 
IV. ( ) A análise de padrões em cliques em páginas da internet pode servir 
ao propósito de identificar a procura de páginas da web por cada bairro de 
um município. 
 
Resposta Selecionada: 
V, V, V, V. 
Resposta Correta: 
V, V, V, V. 
Comentário 
da resposta: 
Resposta correta. A sequência está correta. Todos 
exemplos citados são propósitos válidos para a 
realização da análise de agrupamento. Como explicado 
no texto em referência, a quantidade de domínios de 
aplicação da análise de agrupamento é muito vasta. 
 
• Pergunta 7 
1 em 1 pontos 
 
Leia o excerto a seguir: 
“Normalização: É comum normalizar (padronizar) variáveis contínuas 
através da subtração da média e divisão pelo desvio-padrão, ou então as 
variáveis com grande escala dominarão o processo de agrupamento (veja 
Padronização (Normalização, Escores Z), no Capítulo 6).” 
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de 
dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 265. 
 A partir do apresentado, analise as asserções a seguir e a relação proposta 
entre elas. 
 
I. Sabemos que, na estatística ou na ciência dos dados, é comum 
normalizar (padronizar) variáveis quantitativas, ou variáveis contínuas, antes 
da realização de uma análise de agrupamento. 
Pois 
II. No conjunto de dados observados (a amostra de dados), podem existir 
variáveis que estão em uma escala muito maior que as outras, e a medida 
de distância entre observações dessas variáveis dominarão o resultado da 
análise de agrupamento, na formação dos grupos de observações similares 
entre si. 
 
Resposta 
Selecionada: 
 
As asserções I e II são proposições verdadeiras, e a II 
é uma justificativa correta da I. 
Resposta Correta: 
As asserções I e II são proposições verdadeiras, e a II 
é uma justificativa correta da I. 
Comentário 
da resposta: 
Resposta correta. A alternativa está correta. Na 
estatística ou na ciência dos dados, é comum normalizar 
(padronizar) variáveis quantitativas, ou variáveis 
contínuas, antes da realização de uma análise de 
agrupamento, pois no conjunto de dados observados 
podem existir variáveis que estão em uma escala muito 
 
maior que as outras, e a medida de distância entre 
observações dessas variáveis dominarão o resultado 
final da análise de agrupamento se a padronização não 
for feita antes. 
 
• Pergunta 8 
1 em 1 pontos 
 
Quando acontece de haver várias variáveis quantitativas em uma 
determinada amostra de dados, é comum a realização da análise da 
(possível) relação entre essas variáveis por meio do cálculo de suas 
correlações. Neste caso, o cálculo de suas correlações sempre é feito de 
duas em duas variáveis. Comumente, também se apresenta a correlação de 
cada variável com ela mesma, o que sempre resulta em uma correlação 
perfeita, igual a 1. 
 
A tabela adiante mostra o resultado do cálculo das correlações entre 5 
variáveis quantitativas de uma determinada amostra. 
 
 x1 x2 x3 x4 x5 
x1 1,00 - 0,85 - 0,78 - 0,87 0,42 
x2 - 0,85 1,00 0,79 0,89 - 0,43 
x3 - 0,78 0,79 1,00 0,66 - 0,71 
x4 - 0,87 0,89 0,66 1,00 - 0,17 
x5 0,42 - 0,43 - 0,71 - 0,17 1,00 
 
 
Quadro: Correlações cruzadas entre as variáveis quantitativas x1, x2, x3, x4 
e x5 
Fonte: Elaborado pelo autor. 
 
Com respeito a essa tabela de correlações, analise as afirmativas a seguir e 
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Os valores 1,00 apenas indicam a correlação perfeita que existe entre 
uma variável e ela mesma, uma informação de pouco valor prático. 
II. ( ) A maior correlação positiva é aquela entre as variáveis x2 e x4, no 
valor de 0,89, que indica uma forte associação entre essas duas variáveis, e 
que uma aumenta com um aumento da outra. 
III. ( ) A maior (em valor absoluto) correlação negativa é aquela entre as 
variáveis x1 e x4, no valor de - 0,87, que indica uma forte associação entre 
essas duas variáveis, e que uma diminui quanto a outra aumenta. 
IV. ( ) A menor (em valor absoluto) correlação negativa é aquela entre as 
variáveis x4 e x5, no valor de - 0,17, que indica uma fraca associação entre 
essas duas variáveis, e que uma diminui quando a outra aumenta. 
 
Resposta Selecionada: 
V, V, V, V. 
 
Resposta Correta: 
V, V, V, V. 
Comentário 
da resposta: 
Resposta correta. A sequência está correta. Os valores 
1,00 apenas indicam a correlação perfeita que existe 
entre uma variável e ela mesma. A maior correlação 
positiva é aquela entre as variáveis x2 e x4, indicando 
uma forte associação entre essas duas variáveis, e que 
uma aumenta com um aumento da outra. A maior (em 
valor absoluto) correlação negativa é aquela entre as 
variáveis x1 e x4, indicando uma forte associação entre 
essas duas variáveis, e que uma diminui quanto a outra 
aumenta. A menor (em valor absoluto) correlação 
negativa é aquela entre as variáveis x4 e x5, indicando 
uma fraca associação entre essas duas variáveis, e que 
uma diminui quando a outra aumenta. 
 
• Pergunta 9 
1 em 1 pontos 
 
O Margareth H. Duham, em seu livro Data Mining - Introductory and 
Advanced Topics, informa que tarefas de agrupamento, ou clustering em 
inglês, vêm sendo aplicadas em muitos domínios, incluindo a biologia, a 
medicina, a antropologia, o marketing e a economia. 
 
DUHAM, Margareth H. Data mining : introductory and advanced topics. 
Upper Saddle River (NJ): Pearson Education, 2003, p.126. 
 
A respeito desses domínios de aplicação de tarefas de agrupamento, 
analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para 
a(s) Falsa(s). 
 
I. ( ) Observar diferentes características de doenças em vários pacientes, e 
depois formar diferentes grupos de pacientes - por similaridade das 
características de suas doenças - é uma tarefa de agrupamento. 
II. ( ) Observar diferentes hábitos de consumo em várias milhares de 
pessoas, e depois formar grupos de pessoas - por similaridade de seus 
hábitos de consumo - é uma tarefa de agrupamento. 
III. ( ) Observar diferentes características das linguagens faladas por 
membros de aldeias remotas, e depois formar grupos de linguagens - por 
similaridades das características das linguagens - é uma tarefa de 
agrupamento. 
IV. ( ) Observar diferentes característica de insetos emdiversos biomas, e 
depois formar grupos de insetos - por similaridade de suas características - 
é uma tarefa de agrupamento. 
 
 
Resposta Selecionada: 
V, V, V, V. 
Resposta Correta: 
V, V, V, V. 
Comentário 
da resposta: 
Resposta correta. A sequência está correta. Observar 
diferentes características de indivíduos, sejam estes 
indivíduos doenças que se manifestam em pacientes, 
hábitos de consumos que se manifestam em 
consumidores, línguas faladas por diferentes povos, ou 
insetos que habitam diferentes biomas, e depois, para 
cada um desses exemplos, agrupar as observações feitas 
em grupos menores por similaridade, são tarefas de 
agrupamento. Sendo assim, todos os exemplos descritos 
são tarefas de agrupamento. 
 
• Pergunta 10 
1 em 1 pontos 
 
A escolha de grupos formados por um algoritmo de agrupamento 
hierárquico pode ser feita por meio da leitura do dendrograma resultante. 
Escolhe-se a altura (Height) desejada, se traça uma linha horizontal a partir 
dessa altura, que cruzará com as linhas verticais dos grupos formados nesta 
altura. O cientista de dados decide se esses grupos são adequados para a 
sua análise. 
 
Veja, por exemplo, a figura abaixo. 
 
 
 
Figura - Dendrograma do agrupamento de oito estados 
Fonte: Elaborada pelo autor 
Com respeito da leitura deste dendrograma, analise as afirmativas a seguir 
e assinale V 
para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) A altura 4 cruza com duas linhas verticais, que indicam dois grupos, o 
primeiro deles formado pelos estados {Connecticut, Delaware}, e o segundo 
deles formado pelos estados {Colorado, Arizona, California, Alaska, 
Alabama, Arkansas}. 
II. ( ) A altura 4 cruza com três linhas verticais, que indicam três grupos, o 
primeiro deles formado pelos estados {Connecticut, Delaware}, o segundo 
deles formado pelos estados {Colorado, Arizona, California}, e o terceiro 
deles formado pelos estados {Alaska, Alabama, Arkansas}. 
III. ( ) A altura 3 cruza com duas linhas verticais, que indicam dois grupos, o 
primeiro deles formado pelos estados {Connecticut, Delaware}, e o segundo 
deles formado pelos estados {Colorado, Arizona, California, Alaska, 
Alabama, Arkansas}. 
 
IV. ( ) A altura 3 cruza com três linhas verticais, que indicam três grupos, o 
primeiro deles formado pelos estados {Connecticut, Delaware}, o segundo 
deles formado pelos estados {Colorado, Arizona, California}, e o terceiro 
deles formado pelos estados {Alaska, Alabama, Arkansas}. 
 
Resposta Selecionada: 
V, F, F, V. 
Resposta Correta: 
V, F, F, V. 
Comentário 
da resposta: 
Resposta correta. A sequência está correta. A altura 4 
cruza com duas linhas verticais, que indicam dois grupos, 
o primeiro deles formado pelos estados {Connecticut, 
Delaware}, e o segundo deles formado pelos estados 
{Colorado, Arizona, California, Alaska, Alabama, 
Arkansas}. A altura 3 cruza com três linhas verticais, que 
indicam três grupos, o primeiro deles formado pelos 
estados {Connecticut, Delaware}, o segundo deles 
formado pelos estados {Colorado, Arizona, California}, e 
o terceiro deles formado pelos estados {Alaska, Alabama, 
Arkansas}.

Outros materiais