Buscar

ATIVIDADE A4 - Estatística Aplicada ao Data Science

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 6 páginas

Prévia do material em texto

ATIVIDADE A4 - Esta s ca Aplicada ao Data Science 
QUESTÃO 01 
Os métodos de aprendizagem estatística (statistical learning, em inglês) são divididos em métodos de 
aprendizagem supervisionada e métodos de aprendizagem não supervisionada. Para cada uma dessas diferentes 
abordagens, há uma coleção relativamente grande de diferentes métodos, cada um com seu próprio jeito de 
funcionamento. 
 
Assinale a alternativa que indica um problema de aprendizagem não supervisionada: 
 
 
QUESTÃO 02 
Leia o excerto a seguir: 
“A ciência dos dados é uma fusão de múltiplas disciplinas, incluindo estatística, ciência da computação, tecnologia 
da informação e campos de domínios específicos. Consequentemente, podem-se utilizar de muitos termos 
diferentes para se referir a um dado conceito.” 
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados: 50 conceitos iniciais. Rio de 
Janeiro: Alta Books, 2019, p. xv. 
 A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. 
 
I. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes para se referir a um dado 
conceito. 
Pois 
II. A estatística usa, de forma profunda, a matemática como pilar do seu desenvolvimento. É considerada a ciência 
mais sutil, e a mais ampla, quanto o assunto são dados. É usada por todas áreas científicas. 
 
 
 QUESTÃO 03 
Na estatística, quanto duas variáveis quantitativas comportam-se uma em relação à outra de forma 
aproximadamente linear, é comum se calcular a correlação entre elas. Esse cálculo, entretanto, ao estudo da 
relação entre duas variáveis qualitativas, ou entre uma variável quantitativa e uma variável qualitativa. 
 
A respeito do cálculo da correlação entre duas variáveis quantitativas, analise as afirmativas a seguir e 
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Uma correlação positiva indica que quando uma das variáveis aumenta a outra variável diminui. 
II. ( ) Uma correlação positiva indica que quando uma das variáveis aumenta a outra variável também aumenta. 
III. ( ) Uma correlação negativa indica que quando uma das variáveis aumenta a outra variável diminui. 
IV. ( ) Uma correlação negativa indica que quando uma das variáveis diminui a outra também diminui. 
 
 
 
QUESTÃO 04 
O texto em referência explica que o processo de descoberta com a mineração de dados possui tanto um sentido 
romântico (um processo emocionante e prazeroso), quanto técnico (um estudo criterioso sobre dados). Também 
defende a ideia que é preciso conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento 
esse ambiente necessita e espera receber.. Ou seja, o que as pessoas necessitam e esperam receber.Lei 
 
SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados: com aplicações em R. Rio de 
Janeiro: Elsevier, 2016, p.3. 
 
Considerando as ideias apresentadas acima e o que sabemos sobre ciência dos dados, mineração de dados e 
machine learning, analise as afirmativas a seguir: 
 
I. Machine learning são algoritmos desenvolvidos, principalmente, pela ciência da computação. São usados na 
estatística, na ciência de dados e na mineração de dados. 
II. O processo de descoberta de padrões e geração de conhecimento por meio de dados tem um sentido romântico, 
por ser emocionante e prazeroso, e um sentido técnico, pois demanda estudos técnicos criteriosos. 
III. A estatística, a ciência da computação e a ciência de dados são áreas relacionadas, mas a mineração de dados 
e ciência de dados são áreas independentes, sem nenhuma relação. 
IV. Não é importante conhecer o ambiente em que os dados são produzidos e que tipo de conhecimento esse 
ambiente necessita e espera receber. 
 
Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s): 
 
 
QUESTÃO 05 
Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco estados americanos parte do 
famoso conjunto de dados USArrests, o qual possue 50 observações (50 estados americanos) de 4 variáveis 
(Murder, Assault, UrbanPop e Rape). 
 
Obteve o resultado exibido na figura exibida adiante: 
 
 
Figura - Dendrograma do agrupamento dos cinco estados 
Fonte: Elaborada pelo autor 
 
Relativamente à interpretação desta figura, assinale a alternativa correta: 
 
 
QUESTÃO 06 
Quando os dados se referem a múltiplas variáveis quantitativas, é possível calcular a correlação entre pares dessas 
variáveis, duas a duas. No software estatístico R, isto pode ser feito com a função cor(). Adiante apresentamos um 
output típico da função cor() quando aplicada ao cálculo da correlação entre quatro variáveis quantitativas de um 
determinado conjunto de dados. 
 Murder Assault UrbanPop Rape 
Murder 1.00 0.80 0.07 0.56 
Assault 0.80 1.00 0.26 0.67 
UrbanPop 0.07 0.26 1.00 0.41 
Rape 0.56 0.67 0.41 1.00 
 
 
A respeito deste output típico da função cor() do software estatístico R, para o cálculo da correlação 
entre múltiplas variáveis quantitativas, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Todas correlações são positivas, o que indica que, para todas variáveis quantitativas dessa 
amostra, quando uma aumenta, a outra também aumenta. 
II. ( ) Uma correlação igual a 1 entre uma variável e ela mesma apenas indica uma correlação 
perfeita dela com ela mesma. 
III. ( ) A maior correlação positiva entre essas variáveis é aquela entre Murder e Assault, cujo valor é 
de 0,80. 
IV. ( ) A segunda maior correlação positiva entre essas variáveis é aquela entre Rape e Assault, cujo 
valor é de 0,67 e não de 0,56. 
 
 
 
 QUESTÃO 07 
Em uma análise de agrupamento examinamos os dados observados (as linhas da tabela com os dados) e 
procuramos identificar, através de algum critério de similaridade, aquelas que estão mais próximas entre si, e 
formamos grupos com essas observações similares. Quando são apenas 2 variáveis e poucas observações 
(tamanho da amostra pequeno), por exemplo 10, podemos tentar fazer o agrupamento visualmente. 
 
Analise a figura adiante e assinale a alternativa que indica a menor quantidade de grupos que você naturalmente 
formaria para este caso: 
 
Figura - Massa corporal (kg) versus comprimento (m) dos animais 
Fonte: Elaborada pelo autor 
 
 
 
 
QUESTÃO 08 
O Margareth H. Duham, em seu livro Data Mining - Introductory and Advanced Topics, informa que tarefas de 
agrupamento, ou clustering em inglês, vêm sendo aplicadas em muitos domínios, incluindo a biologia, a medicina, a 
antropologia, o marketing e a economia. 
 
DUHAM, Margareth H. Data mining: introductory and advanced topics. Upper Saddle River (NJ): Pearson 
Education, 2003, p.126. 
 
A respeito desses domínios de aplicação de tarefas de agrupamento, analise as afirmativas a seguir e 
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Observar diferentes características de doenças em vários pacientes, e depois formar diferentes grupos de 
pacientes - por similaridade das características de suas doenças - é uma tarefa de agrupamento. 
II. ( ) Observar diferentes hábitos de consumo em várias milhares de pessoas, e depois formar grupos de pessoas - 
por similaridade de seus hábitos de consumo - é uma tarefa de agrupamento. 
III. ( ) Observar diferentes características das linguagens faladas por membros de aldeias remotas, e depois formar 
grupos de linguagens - por similaridades das características das linguagens - é uma tarefa de agrupamento. 
IV. ( ) Observar diferentes característica de insetos em diversos biomas, e depois formar grupos de insetos - por 
similaridade de suas características - é uma tarefa de agrupamento. 
 
 
 
 QUESTÃO 09 
O texto em referência fornece os seguintes exemplos de agrupamento: análise de perfil de usuários e perfil de itens 
para sistemas de recomendação; análise de padrões de comportamento de multidões; identificação de grupos de 
risco para empresas seguradoras;análise de emoções em redes sociais; reconhecimento de padrões em imagens 
de satélites ou imagens médicas; análise de padrões em cliques em páginas da internet, etc. 
 
SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados: com aplicações em R. Rio de 
Janeiro: Elsevier, 2016, p.146. 
A respeito dos campos de aplicação da análise de agrupamento, analise as afirmativas a seguir e assinale V para 
a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) A análise de emoções por meio de agrupamento pode servir ao propósito de averiguar o índice de aceitação de 
um candidato a um cargo eletivo público por região. 
II. ( ) O reconhecimento de padrões em imagens de satélites pode servir ao propósito de averiguar regiões com 
processos acelerados de desertificação. 
III. ( ) A identificação de grupos de risco para empresas seguradoras pode servir ao propósito de precificação 
correta do valor do seguro para cada grupo de risco. 
IV. ( ) A análise de padrões em cliques em páginas da internet pode servir ao propósito de identificar a procura de 
páginas da web por cada bairro de um município. 
 
 
 
QUESTÃO 10 
Leia o excerto a seguir: 
“Exploração de dados é a arte de olhar os seus dados, rapidamente gerar hipóteses sobre eles, e rapidamente 
testar essas hipóteses. E repetir isso outra vez, outra vez, outra vez. O objetivo da exploração de dados é a 
geração de pistas sobre o que os dados nos revelam, pistas que você poderá explorar, mais tarde, em maior 
profundidade.” 
WICKHAM, Hadley; GROLEMUN, Garret. R for data science: import, tidy, transform, visualize, and model dada. 
Sebastopol (CA): O’Reilly Media, 2017, p.1. 
 
A respeito das fontes que originaram os contos de fadas, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Análise estatística descritiva é parte da análise exploratória de dados, frequentemente entendida como a 
exploração inicial dos dados. 
II. ( ) Além dos métodos da estatística descritiva, algoritmos de agrupamento também são parte da análise 
exploratória de dados. 
III. ( ) A análise exploratória dos dados permite a geração de hipóteses sobre os dados, para posterior investigação 
mais detalhada. 
IV. ( ) Gerar hipóteses sobre dados significa gerar afirmações sobre possíveis padrões e descobertas reveladas 
pelos dados, a serem melhor investigadas e comprovadas.

Outros materiais