ESTATÍSTICA APLICADA AO DATA SCIENCE

•

UAM

1

0

1

0

Bruno Francisco

23/11/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 9 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Science

2.222 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

ESTATÍSTICA APLICADA AO DATA SCIENCE
ATIVIDADE 4

Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco
estados americanos parte do famoso conjunto de dados USArrests, o qual possue 50
observações (50 estados americanos) de 4 variáveis (Murder, Assault, UrbanPop e Rape).

Obteve o resultado exibido na figura exibida adiante:

Figura - Dendrograma do agrupamento dos cinco estados
Fonte: Elaborada pelo autor

Relativamente à interpretação desta figura, assinale a alternativa correta:

RESPOSTA CORRETA
• É um dendrograma, ou seja, um gráfico na forma de uma árvore, que representa os
vários grupos formados em cada estágio do processo de agrupamento hierárquico.

Na estatística, quanto duas variáveis quantitativas comportam-se uma em relação à
outra de forma aproximadamente linear, é comum se calcular a correlação entre elas. Esse
cálculo, entretanto, ao estudo da relação entre duas variáveis qualitativas, ou entre uma
variável quantitativa e uma variável qualitativa.

A respeito do cálculo da correlação entre duas variáveis quantitativas, analise as afirmativas
a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Uma correlação positiva indica que quando uma das variáveis aumenta a outra variável
diminui.
II. ( ) Uma correlação positiva indica que quando uma das variáveis aumenta a outra variável
também aumenta.
III. ( ) Uma correlação negativa indica que quando uma das variáveis aumenta a outra variável
diminui.
IV. ( ) Uma correlação negativa indica que quando uma das variáveis diminui a outra também
diminui.

RESPOSTA CORRETA
• F, V, V, F.

O texto em referência fornece os seguintes exemplos de agrupamento: análise de perfil
de usuários e perfil de itens para sistemas de recomendação; análise de padrões de
comportamento de multidões; identificação de grupos de risco para empresas seguradoras;
análise de emoções em redes sociais; reconhecimento de padrões em imagens de satélites
ou imagens médicas; análise de padrões em cliques em páginas da internet, etc.

SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados: com
aplicações em R. Rio de Janeiro: Elsevier, 2016, p.146.
A respeito dos campos de aplicação da análise de agrupamento, analise as afirmativas a
seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) A análise de emoções por meio de agrupamento pode servir ao propósito de averiguar o
índice de aceitação de um candidato a um cargo eletivo público por região.
II. ( ) O reconhecimento de padrões em imagens de satélites pode servir ao propósito de
averiguar regiões com processos acelerados de desertificação.
III. ( ) A identificação de grupos de risco para empresas seguradoras pode servir ao propósito
de precificação correta do valor do seguro para cada grupo de risco.
IV. ( ) A análise de padrões em cliques em páginas da internet pode servir ao propósito de
identificar a procura de páginas da web por cada bairro de um município.

RESPOSTA CORRETA
• V, V, V, V.

Quando os dados se referem a múltiplas variáveis quantitativas, é possível exibir
múltiplos gráficos de dispersão entre pares dessas variáveis, duas a duas. No software
estatístico R, isto pode ser feito com a função gráfica pairs(). Adiante apresentamos um output
típico da função pairs() quando aplicada a quatro variáveis quantitativas de um determinado
conjunto de dados.

Figura 4: Múltiplos gráficos de dispersão entre as variáveis de USArrest
Fonte: Elaborada pelo autor.

A respeito deste output típico da função gráfica pairs() do software estatístico R, para a
exibição de múltiplos gráficos de dispersão entre variáveis quantitativas, analise as afirmativas
a seguir e assinale V para a(s) Verdadeira(s) e
F para a(s) Falsa(s).

I. ( ) O gráfico de y = Murder versus x = Assault mostra uma tendência de aumento de Murder
para um aumento de Assault.
II. ( ) O gráfico de y = Murder versus x = UrbanPop mostra uma grande dispersão dos pontos
sem uma tendência clara de subida ou descida.
III. ( ) O gráfico de y = Murder versus x = Rape mostra uma tendência de aumento de Murder
para um aumento de Assault, porém com uma dispersão dos pontos um pouco maior que
para o caso de y = Murder versus x = Assault.
IV. ( ) Como são quatro variáveis quantitativas (Murder, Assault, UrbanPop e Rape), então ao
total são 12 gráficos de dispersão, de cada uma delas contra as outras três.

RESPOSTA CORRETA
• V, V, V, V.

Leia o excerto a seguir:
“Normalização: É comum normalizar (padronizar) variáveis contínuas através da subtração da
média e divisão pelo desvio-padrão, ou então as variáveis com grande escala dominarão o
processo de agrupamento (veja Padronização (Normalização, Escores Z), no Capítulo 6).”

BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados: 50 conceitos
iniciais. Rio de Janeiro: Alta Books, 2019, p. 265.
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.

I. Sabemos que, na estatística ou na ciência dos dados, é comum normalizar (padronizar)
variáveis quantitativas, ou variáveis contínuas, antes da realização de uma análise de
agrupamento.
Pois
II. No conjunto de dados observados (a amostra de dados), podem existir variáveis que estão
em uma escala muito maior que as outras, e a medida de distância entre observações dessas
variáveis dominarão o resultado da análise de agrupamento, na formação dos grupos de
observações similares entre si.

RESPOSTA CORRETA
• As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da
I.

Depois que formamos grupos de observações de um conjunto de dados (amostra),
por meio de um algoritmo de agrupamento, podemos dar nomes aos mesmos, e cada
indivíduo de cada grupo será classificado de acordo com esse nome. O ser humano faz isso
com naturalidade, primeiro agrupar e, depois de formados os grupos, dar nomes aos grupos.
Por exemplo, animais vertebrados ou invertebrados, carros ou aviões, homens ou mulheres.

A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. e
assinale a alternativa correta:

I. Ao usarmos de algoritmos de agrupamento, depois que formados e nomeados
(classificados) os grupos de observações resultantes do algoritmo, não é possível usar essas
classes como variáveis respostas e, a partir desse ponto, executar tarefas preditivas com
algoritmos de classificação.
Pois
II. Algoritmos de agrupamento fazem parte dos métodos da chamada aprendizagem não
supervisionada. Não são modelos preditivos.

RESPOSTA CORRETA
• A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.

O texto em referência explica que o processo de descoberta com a mineração de
dados possui tanto um sentido romântico (um processo emocionante e prazeroso), quanto
técnico (um estudo criterioso sobre dados). Também defende a ideia que é preciso conhecer
o ambiente em que os dados são produzidos e que tipo de conhecimento esse ambiente
necessita e espera receber.. Ou seja, o que as pessoas necessitam e esperam receber.Lei

SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados: com
aplicações em R. Rio de Janeiro: Elsevier, 2016, p.3.

Considerando as ideias apresentadas acima e o que sabemos sobre ciência dos dados,
mineração de dados e machine learning, analise as afirmativas a seguir:

I. Machine learning são algoritmos desenvolvidos, principalmente, pela ciência da
computação. São usados na estatística, na ciência de dados e na mineração de dados.
II. O processo de descoberta de padrões e geração de conhecimento por meio de dados tem
um sentido romântico, por ser emocionante e prazeroso, e um sentido técnico, pois demandaestudos técnicos criteriosos.
III. A estatística, a ciência da computação e a ciência de dados são áreas relacionadas, mas
a mineração de dados e ciência de dados são áreas independentes, sem nenhuma relação.
IV. Não é importante conhecer o ambiente em que os dados são produzidos e que tipo de
conhecimento esse ambiente necessita e espera receber.

Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s):

RESPOSTA CORRETA
• I e II apenas;

Leia o excerto a seguir:
“Exploração de dados é a arte de olhar os seus dados, rapidamente gerar hipóteses sobre
eles, e rapidamente testar essas hipóteses. E repetir isso outra vez, outra vez, outra vez. O
objetivo da exploração de dados é a geração de pistas sobre o que os dados nos revelam,
pistas que você poderá explorar, mais tarde, em maior profundidade.”
WICKHAM, Hadley; GROLEMUN, Garret. R for data science: import, tidy, transform, visualize,
and model dada. Sebastopol (CA): O’Reilly Media, 2017, p.1.

A respeito das fontes que originaram os contos de fadas, analise as afirmativas a seguir e
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Análise estatística descritiva é parte da análise exploratória de dados, frequentemente
entendida como a exploração inicial dos dados.
II. ( ) Além dos métodos da estatística descritiva, algoritmos de agrupamento também são
parte da análise exploratória de dados.
III. ( ) A análise exploratória dos dados permite a geração de hipóteses sobre os dados, para
posterior investigação mais detalhada.
IV. ( ) Gerar hipóteses sobre dados significa gerar afirmações sobre possíveis padrões e
descobertas reveladas pelos dados, a serem melhor investigadas e comprovadas.
RESPOSTA CORRETA
• V, V, V, V.

Na estatística ou, genericamente, na análise de dados, muito frequentemente
analisamos dados ditos retangulares ou estruturados, onde as variáveis - quantitativas ou
qualitativas - são dispostas nas colunas e as observações na linhas de uma tabela. Em
algumas situações é vantajoso se fazer a padronização das variáveis quantitativas.

Assinale a alternativa correta relativamente ao assunto de padronização de variáveis
quantitativas na estatística:

RESPOSTA CORRETA
• Na padronização, se subtrai de cada variável sua média, e depois se divide o
resultado pelo seu desvio padrão.

Leia o excerto a seguir:
“A ciência dos dados é uma fusão de múltiplas disciplinas, incluindo estatística, ciência da
computação, tecnologia da informação e campos de domínios específicos.
Consequentemente, podem-se utilizar de muitos termos diferentes para se referir a um dado
conceito.”

BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados: 50 conceitos
iniciais. Rio de Janeiro: Alta Books, 2019, p. xv.
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.

I. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes para se
referir a um dado conceito.
Pois
II. A estatística usa, de forma profunda, a matemática como pilar do seu desenvolvimento. É
considerada a ciência mais sutil, e a mais ampla, quanto o assunto são dados. É usada por
todas áreas científicas.

RESPOSTA CORRETA
• As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa da
I.