Logo Passei Direto
Buscar

ESTATÍSTICA APLICADA AO DATA SCIENCE - ATIVIDADE N1 - 01 2025

Ferramentas de estudo

Questões resolvidas

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Prévia do material em texto

ESTATÍSTICA APLICADA AO DATA SCIENCE 
ATIVIDADE N1 - 1º SEMESTRE DE 2025 
 
—-------------------------- 
 
Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco 
estados americanos parte do famoso conjunto de dados USArrests, o qual possue 50 
observações (50 estados americanos) de 4 variáveis (Murder, Assault, UrbanPop e Rape). 
 
Obteve o resultado exibido na figura exibida adiante: 
 
 
 
—-------------------------- 
 
Leia o excerto a seguir: 
“A ciência dos dados é uma fusão de múltiplas disciplinas, incluindo estatística, ciência da 
computação, tecnologia da informação e campos de domínios específicos. 
Consequentemente, podem-se utilizar de muitos termos diferentes para se referir a um dado 
conceito.” 
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados: 50 conceitos 
iniciais. Rio de Janeiro: Alta Books, 2019, p. xv. 
 A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. 
 
I. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes para 
se referir a um dado conceito. 
Pois 
II. A estatística usa, de forma profunda, a matemática como pilar do seu desenvolvimento. É 
considerada a ciência mais sutil, e a mais ampla, quanto o assunto são dados. É usada por 
todas áreas científicas. 
 
 
 
—-------------------------- 
 
O texto em referência explica que o processo de descoberta com a mineração de dados 
possui tanto um sentido romântico (um processo emocionante e prazeroso), quanto técnico 
(um estudo criterioso sobre dados). Também defende a ideia que é preciso conhecer o 
ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente 
necessita e espera receber.. Ou seja, o que as pessoas necessitam e esperam receber.Lei 
 
SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados: com 
aplicações em R. Rio de Janeiro: Elsevier, 2016, p.3. 
 
Considerando as ideias apresentadas acima e o que sabemos sobre ciência dos dados, 
mineração de dados e machine learning, analise as afirmativas a seguir: 
 
I. Machine learning são algoritmos desenvolvidos, principalmente, pela ciência da 
computação. São usados na estatística, na ciência de dados e na mineração de dados. 
II. O processo de descoberta de padrões e geração de conhecimento por meio de dados 
tem um sentido romântico, por ser emocionante e prazeroso, e um sentido técnico, pois 
demanda estudos técnicos criteriosos. 
III. A estatística, a ciência da computação e a ciência de dados são áreas relacionadas, mas 
a mineração de dados e ciência de dados são áreas independentes, sem nenhuma relação. 
IV. Não é importante conhecer o ambiente em que os dados são produzidos e que tipo de 
conhecimento esse ambiente necessita e espera receber. 
 
Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s): 
 
 
 
—-------------------------- 
 
O texto em referência apresenta como exemplo de agrupamento uma companhia de vendas 
online que deseja agrupar seus clientes com base em suas características comuns (renda, 
idade, número de filhos, estado civil, grau de educação, etc.). Com o resultado do 
agrupamento, eles definirão campanhas de marketing e de divulgação específicas para 
cada um dos diferentes grupos que vierem a ser definidos. 
 
DUHAM, Margareth H. Data mining: introductory and advanced topics. Upper Saddle River, 
NJ: Pearson Education, 2003, p.125. 
A respeito das fontes que originaram os contos de fadas, analise as afirmativas a seguir e 
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Algoritmos de agrupamento só conseguem lidar com variáveis quantitativas. Sendo 
assim, parte das variáveis disponíveis para esse caso são irrelevantes. 
II. ( ) Algoritmos de agrupamento são especializados no tratamento de conjuntos de dados 
exclusivamente qualitativos. 
III. ( ) Algoritmos de agrupamento podem ter as suas soluções verificadas por um supervisor 
e, dessa forma, saberemos se o resultado é bom ou ruim. 
IV. ( ) Seres humanos não possuem habilidade natural para agrupar e depois classificar, já 
que isso só pode ser realizado por meio de algoritmos. 
 
 
 
—-------------------------- 
 
Na estatística ou, genericamente, na análise de dados, muito frequentemente analisamos 
dados ditos retangulares ou estruturados, onde as variáveis - quantitativas ou qualitativas - 
são dispostas nas colunas e as observações na linhas de uma tabela. Em algumas 
situações é vantajoso se fazer a padronização das variáveis quantitativas. 
 
Assinale a alternativa correta relativamente ao assunto de padronização de variáveis 
quantitativas na estatística: 
 
 
 
—-------------------------- 
 
O Margareth H. Duham, em seu livro Data Mining - Introductory and Advanced Topics, 
informa que tarefas de agrupamento, ou clustering em inglês, vêm sendo aplicadas em 
muitos domínios, incluindo a biologia, a medicina, a antropologia, o marketing e a economia. 
 
DUHAM, Margareth H. Data mining: introductory and advanced topics. Upper Saddle River 
(NJ): Pearson Education, 2003, p.126. 
 
A respeito desses domínios de aplicação de tarefas de agrupamento, analise as afirmativas 
a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Observar diferentes características de doenças em vários pacientes, e depois formar 
diferentes grupos de pacientes - por similaridade das características de suas doenças - é 
uma tarefa de agrupamento. 
II. ( ) Observar diferentes hábitos de consumo em várias milhares de pessoas, e depois 
formar grupos de pessoas - por similaridade de seus hábitos de consumo - é uma tarefa de 
agrupamento. 
III. ( ) Observar diferentes características das linguagens faladas por membros de aldeias 
remotas, e depois formar grupos de linguagens - por similaridades das características das 
linguagens - é uma tarefa de agrupamento. 
IV. ( ) Observar diferentes característica de insetos em diversos biomas, e depois formar 
grupos de insetos - por similaridade de suas características - é uma tarefa de agrupamento. 
 
 
 
—-------------------------- 
 
 Depois que formamos grupos de observações de um conjunto de dados (amostra), por 
meio de um algoritmo de agrupamento, podemos dar nomes aos mesmos, e cada indivíduo 
de cada grupo será classificado de acordo com esse nome. O ser humano faz isso com 
naturalidade, primeiro agrupar e, depois de formados os grupos, dar nomes aos grupos. Por 
exemplo, animais vertebrados ou invertebrados, carros ou aviões, homens ou mulheres. 
 
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. e 
assinale a alternativa correta: 
 
I. Ao usarmos de algoritmos de agrupamento, depois que formados e nomeados 
(classificados) os grupos de observações resultantes do algoritmo, não é possível usar 
essas classes como variáveis respostas e, a partir desse ponto, executar tarefas preditivas 
com algoritmos de classificação. 
Pois 
II. Algoritmos de agrupamento fazem parte dos métodos da chamada aprendizagem não 
supervisionada. Não são modelos preditivos. 
 
 
 
—-------------------------- 
 
Quando os dados se referem a múltiplas variáveis quantitativas, é possível calcular a 
correlação entre pares dessas variáveis, duas a duas. No software estatístico R, isto pode 
ser feito com a função cor(). Adiante apresentamos um output típico da função cor() quando 
aplicada ao cálculo da correlação entre quatro variáveis quantitativas de um determinado 
conjunto de dados. 
 Murder Assault UrbanPop Rape 
Murder 1.00 0.80 0.07 0.56 
Assault 0.80 1.00 0.26 0.67 
UrbanPop 0.07 0.26 1.00 0.41 
Rape 0.56 0.67 0.41 1.00 
 
 
A respeito deste output típico da função cor() do software estatístico R, para o cálculo da 
correlação entre múltiplas variáveis quantitativas, analise as afirmativas a seguir e assinale 
V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
I. ( ) Todas correlações são positivas, o que indica que, para todas variáveisquantitativas 
dessa amostra, quando uma aumenta, a outra também aumenta. 
II. ( ) Uma correlação igual a 1 entre uma variável e ela mesma apenas indica uma 
correlação perfeita dela com ela mesma. 
III. ( ) A maior correlação positiva entre essas variáveis é aquela entre Murder e Assault, 
cujo valor é de 0,80. 
IV. ( ) A segunda maior correlação positiva entre essas variáveis é aquela entre Rape e 
Assault, cujo valor é de 0,67 e não de 0,56. 
 
 
 
—-------------------------- 
 
A estatística, a ciência da computação, a mineração de dados e a ciência dos dados são 
áreas correlacionadas. Dentre essas, a mais antiga é a estatística, seguida da ciência da 
computação, depois da mineração de dados, e finalmente da ciência dos dados, a mais 
nova dessas quatro áreas de conhecimento. 
 
Com referência ao relacionamento entre essas quatro áreas de conhecimento humano, 
analise as afirmativas a seguir: 
 
I. Algoritmos de machine learning nasceram na ciência da computação. Hoje são usados na 
estatística, na mineração de dados e na ciência dos dados. 
II. Dentre as diversas áreas citadas, é a estatística que possui os melhores fundamentos 
para a interpretação de fenômenos aleatórios. 
III. A estatística é considerada a mais sutil, e a mais ampla, quando nos referimos a análise 
de dados. É aplicada a todas áreas de atividade humana. 
IV. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes, 
herdados das outras áreas, para se referir a um mesmo conceito. 
 
 
 
—-------------------------- 
 
Leia o excerto a seguir: 
“Normalização: É comum normalizar (padronizar) variáveis contínuas através da subtração 
da média e divisão pelo desvio-padrão, ou então as variáveis com grande escala dominarão 
o processo de agrupamento (veja Padronização (Normalização, Escores Z), no Capítulo 6).” 
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados: 50 conceitos 
iniciais. Rio de Janeiro: Alta Books, 2019, p. 265. 
 A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. 
 
I. Sabemos que, na estatística ou na ciência dos dados, é comum normalizar (padronizar) 
variáveis quantitativas, ou variáveis contínuas, antes da realização de uma análise de 
agrupamento. 
Pois 
II. No conjunto de dados observados (a amostra de dados), podem existir variáveis que 
estão em uma escala muito maior que as outras, e a medida de distância entre observações 
dessas variáveis dominarão o resultado da análise de agrupamento, na formação dos 
grupos de observações similares entre si. 
 
 
 
—--------------------------

Mais conteúdos dessa disciplina