Buscar

ESTATÍSTICA APLICADA AO DATA SCIENCE

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 9 páginas

Prévia do material em texto

ESTATÍSTICA APLICADA AO DATA SCIENCE 
ATIVIDADE 4 
 
Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco 
estados americanos parte do famoso conjunto de dados USArrests, o qual possue 50 
observações (50 estados americanos) de 4 variáveis (Murder, Assault, UrbanPop e Rape). 
 
Obteve o resultado exibido na figura exibida adiante: 
 
 
Figura - Dendrograma do agrupamento dos cinco estados 
Fonte: Elaborada pelo autor 
 
Relativamente à interpretação desta figura, assinale a alternativa correta: 
 
RESPOSTA CORRETA 
• É um dendrograma, ou seja, um gráfico na forma de uma árvore, que representa os 
vários grupos formados em cada estágio do processo de agrupamento hierárquico. 
 
 
Na estatística, quanto duas variáveis quantitativas comportam-se uma em relação à 
outra de forma aproximadamente linear, é comum se calcular a correlação entre elas. Esse 
cálculo, entretanto, ao estudo da relação entre duas variáveis qualitativas, ou entre uma 
variável quantitativa e uma variável qualitativa. 
 
A respeito do cálculo da correlação entre duas variáveis quantitativas, analise as afirmativas 
a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Uma correlação positiva indica que quando uma das variáveis aumenta a outra variável 
diminui. 
II. ( ) Uma correlação positiva indica que quando uma das variáveis aumenta a outra variável 
também aumenta. 
III. ( ) Uma correlação negativa indica que quando uma das variáveis aumenta a outra variável 
diminui. 
IV. ( ) Uma correlação negativa indica que quando uma das variáveis diminui a outra também 
diminui. 
 
RESPOSTA CORRETA 
• F, V, V, F. 
 
 
O texto em referência fornece os seguintes exemplos de agrupamento: análise de perfil 
de usuários e perfil de itens para sistemas de recomendação; análise de padrões de 
comportamento de multidões; identificação de grupos de risco para empresas seguradoras; 
análise de emoções em redes sociais; reconhecimento de padrões em imagens de satélites 
ou imagens médicas; análise de padrões em cliques em páginas da internet, etc. 
 
SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados: com 
aplicações em R. Rio de Janeiro: Elsevier, 2016, p.146. 
A respeito dos campos de aplicação da análise de agrupamento, analise as afirmativas a 
seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) A análise de emoções por meio de agrupamento pode servir ao propósito de averiguar o 
índice de aceitação de um candidato a um cargo eletivo público por região. 
II. ( ) O reconhecimento de padrões em imagens de satélites pode servir ao propósito de 
averiguar regiões com processos acelerados de desertificação. 
III. ( ) A identificação de grupos de risco para empresas seguradoras pode servir ao propósito 
de precificação correta do valor do seguro para cada grupo de risco. 
IV. ( ) A análise de padrões em cliques em páginas da internet pode servir ao propósito de 
identificar a procura de páginas da web por cada bairro de um município. 
 
RESPOSTA CORRETA 
• V, V, V, V. 
 
 
Quando os dados se referem a múltiplas variáveis quantitativas, é possível exibir 
múltiplos gráficos de dispersão entre pares dessas variáveis, duas a duas. No software 
estatístico R, isto pode ser feito com a função gráfica pairs(). Adiante apresentamos um output 
típico da função pairs() quando aplicada a quatro variáveis quantitativas de um determinado 
conjunto de dados. 
 
 
 
Figura 4: Múltiplos gráficos de dispersão entre as variáveis de USArrest 
Fonte: Elaborada pelo autor. 
 
A respeito deste output típico da função gráfica pairs() do software estatístico R, para a 
exibição de múltiplos gráficos de dispersão entre variáveis quantitativas, analise as afirmativas 
a seguir e assinale V para a(s) Verdadeira(s) e 
F para a(s) Falsa(s). 
 
I. ( ) O gráfico de y = Murder versus x = Assault mostra uma tendência de aumento de Murder 
para um aumento de Assault. 
II. ( ) O gráfico de y = Murder versus x = UrbanPop mostra uma grande dispersão dos pontos 
sem uma tendência clara de subida ou descida. 
III. ( ) O gráfico de y = Murder versus x = Rape mostra uma tendência de aumento de Murder 
para um aumento de Assault, porém com uma dispersão dos pontos um pouco maior que 
para o caso de y = Murder versus x = Assault. 
IV. ( ) Como são quatro variáveis quantitativas (Murder, Assault, UrbanPop e Rape), então ao 
total são 12 gráficos de dispersão, de cada uma delas contra as outras três. 
 
RESPOSTA CORRETA 
• V, V, V, V. 
 
 
Leia o excerto a seguir: 
“Normalização: É comum normalizar (padronizar) variáveis contínuas através da subtração da 
média e divisão pelo desvio-padrão, ou então as variáveis com grande escala dominarão o 
processo de agrupamento (veja Padronização (Normalização, Escores Z), no Capítulo 6).” 
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados: 50 conceitos 
iniciais. Rio de Janeiro: Alta Books, 2019, p. 265. 
 A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. 
 
I. Sabemos que, na estatística ou na ciência dos dados, é comum normalizar (padronizar) 
variáveis quantitativas, ou variáveis contínuas, antes da realização de uma análise de 
agrupamento. 
Pois 
II. No conjunto de dados observados (a amostra de dados), podem existir variáveis que estão 
em uma escala muito maior que as outras, e a medida de distância entre observações dessas 
variáveis dominarão o resultado da análise de agrupamento, na formação dos grupos de 
observações similares entre si. 
 
RESPOSTA CORRETA 
• As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da 
I. 
 
 
 Depois que formamos grupos de observações de um conjunto de dados (amostra), 
por meio de um algoritmo de agrupamento, podemos dar nomes aos mesmos, e cada 
indivíduo de cada grupo será classificado de acordo com esse nome. O ser humano faz isso 
com naturalidade, primeiro agrupar e, depois de formados os grupos, dar nomes aos grupos. 
Por exemplo, animais vertebrados ou invertebrados, carros ou aviões, homens ou mulheres. 
 
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. e 
assinale a alternativa correta: 
 
I. Ao usarmos de algoritmos de agrupamento, depois que formados e nomeados 
(classificados) os grupos de observações resultantes do algoritmo, não é possível usar essas 
classes como variáveis respostas e, a partir desse ponto, executar tarefas preditivas com 
algoritmos de classificação. 
Pois 
II. Algoritmos de agrupamento fazem parte dos métodos da chamada aprendizagem não 
supervisionada. Não são modelos preditivos. 
 
RESPOSTA CORRETA 
• A asserção I é uma proposição falsa, e a II é uma proposição verdadeira. 
 
 
O texto em referência explica que o processo de descoberta com a mineração de 
dados possui tanto um sentido romântico (um processo emocionante e prazeroso), quanto 
técnico (um estudo criterioso sobre dados). Também defende a ideia que é preciso conhecer 
o ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente 
necessita e espera receber.. Ou seja, o que as pessoas necessitam e esperam receber.Lei 
 
SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados: com 
aplicações em R. Rio de Janeiro: Elsevier, 2016, p.3. 
 
Considerando as ideias apresentadas acima e o que sabemos sobre ciência dos dados, 
mineração de dados e machine learning, analise as afirmativas a seguir: 
 
I. Machine learning são algoritmos desenvolvidos, principalmente, pela ciência da 
computação. São usados na estatística, na ciência de dados e na mineração de dados. 
II. O processo de descoberta de padrões e geração de conhecimento por meio de dados tem 
um sentido romântico, por ser emocionante e prazeroso, e um sentido técnico, pois demandaestudos técnicos criteriosos. 
III. A estatística, a ciência da computação e a ciência de dados são áreas relacionadas, mas 
a mineração de dados e ciência de dados são áreas independentes, sem nenhuma relação. 
IV. Não é importante conhecer o ambiente em que os dados são produzidos e que tipo de 
conhecimento esse ambiente necessita e espera receber. 
 
Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s): 
 
RESPOSTA CORRETA 
• I e II apenas; 
 
 
 
Leia o excerto a seguir: 
“Exploração de dados é a arte de olhar os seus dados, rapidamente gerar hipóteses sobre 
eles, e rapidamente testar essas hipóteses. E repetir isso outra vez, outra vez, outra vez. O 
objetivo da exploração de dados é a geração de pistas sobre o que os dados nos revelam, 
pistas que você poderá explorar, mais tarde, em maior profundidade.” 
WICKHAM, Hadley; GROLEMUN, Garret. R for data science: import, tidy, transform, visualize, 
and model dada. Sebastopol (CA): O’Reilly Media, 2017, p.1. 
 
A respeito das fontes que originaram os contos de fadas, analise as afirmativas a seguir e 
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Análise estatística descritiva é parte da análise exploratória de dados, frequentemente 
entendida como a exploração inicial dos dados. 
II. ( ) Além dos métodos da estatística descritiva, algoritmos de agrupamento também são 
parte da análise exploratória de dados. 
III. ( ) A análise exploratória dos dados permite a geração de hipóteses sobre os dados, para 
posterior investigação mais detalhada. 
IV. ( ) Gerar hipóteses sobre dados significa gerar afirmações sobre possíveis padrões e 
descobertas reveladas pelos dados, a serem melhor investigadas e comprovadas. 
RESPOSTA CORRETA 
• V, V, V, V. 
 
 
 
Na estatística ou, genericamente, na análise de dados, muito frequentemente 
analisamos dados ditos retangulares ou estruturados, onde as variáveis - quantitativas ou 
qualitativas - são dispostas nas colunas e as observações na linhas de uma tabela. Em 
algumas situações é vantajoso se fazer a padronização das variáveis quantitativas. 
 
Assinale a alternativa correta relativamente ao assunto de padronização de variáveis 
quantitativas na estatística: 
 
 
RESPOSTA CORRETA 
• Na padronização, se subtrai de cada variável sua média, e depois se divide o 
resultado pelo seu desvio padrão. 
 
 
 
Leia o excerto a seguir: 
“A ciência dos dados é uma fusão de múltiplas disciplinas, incluindo estatística, ciência da 
computação, tecnologia da informação e campos de domínios específicos. 
Consequentemente, podem-se utilizar de muitos termos diferentes para se referir a um dado 
conceito.” 
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados: 50 conceitos 
iniciais. Rio de Janeiro: Alta Books, 2019, p. xv. 
 A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. 
 
I. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes para se 
referir a um dado conceito. 
Pois 
II. A estatística usa, de forma profunda, a matemática como pilar do seu desenvolvimento. É 
considerada a ciência mais sutil, e a mais ampla, quanto o assunto são dados. É usada por 
todas áreas científicas. 
 
 
RESPOSTA CORRETA 
• As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da 
I.

Continue navegando