Prova - Atividade 4 - ESTATÍSTICA APLICADA AO DATA SCIENCE

•

UAM

1

0

1

0

BetoTech Informatica

10/11/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Science

2.211 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Universidade Anhembi Morumbi – EAD

Prova atividade 4 - ESTATÍSTICA APLICADA AO DATA SCIENCE
1. A escolha de grupos formados por um algoritmo de agrupamento
hierárquico pode ser feita por meio da leitura do dendrograma resultante.
Escolhe-se a altura (Height) desejada, se traça uma linha horizontal a
partir dessa altura, que cruzará com as linhas verticais dos grupos
formados nesta altura. O cientista de dados decide se esses grupos são
adequados para a sua análise.

Veja, por exemplo, a figura abaixo.

Figura - Dendrograma do agrupamento de oito estados
Fonte: Elaborada pelo autor
Com respeito da leitura deste dendrograma, analise as afirmativas a
seguir e assinale V
para a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) A altura 4 cruza com duas linhas verticais, que indicam dois grupos,
o primeiro deles formado pelos estados {Connecticut, Delaware}, e o
segundo deles formado pelos estados {Colorado, Arizona, California,
Alaska, Alabama, Arkansas}.
II. ( ) A altura 4 cruza com três linhas verticais, que indicam três grupos, o
primeiro deles formado pelos estados {Connecticut, Delaware}, o
segundo deles formado pelos estados {Colorado, Arizona, California}, e o
terceiro deles formado pelos estados {Alaska, Alabama, Arkansas}.
III. ( ) A altura 3 cruza com duas linhas verticais, que indicam dois grupos,
o primeiro deles formado pelos estados {Connecticut, Delaware}, e o
segundo deles formado pelos estados {Colorado, Arizona, California,
Alaska, Alabama, Arkansas}.
IV. ( ) A altura 3 cruza com três linhas verticais, que indicam três grupos,
o primeiro deles formado pelos estados {Connecticut, Delaware}, o
segundo deles formado pelos estados {Colorado, Arizona, California}, e o
terceiro deles formado pelos estados {Alaska, Alabama, Arkansas}.
RESPOSTA: V, F, F, V
Resposta correta. A sequência está correta. A altura 4 cruza com duas linhas
verticais, que indicam dois grupos, o primeiro deles formado pelos estados
{Connecticut, Delaware}, e o segundo deles formado pelos estados {Colorado,
Arizona, California, Alaska, Alabama, Arkansas}. A altura 3 cruza com três
linhas verticais, que indicam três grupos, o primeiro deles formado pelos
estados {Connecticut, Delaware}, o segundo deles formado pelos estados
{Colorado, Arizona, California}, e o terceiro deles formado pelos estados
{Alaska, Alabama, Arkansas}.
2. Leia o excerto a seguir:
“Normalização: É comum normalizar (padronizar) variáveis contínuas
através da subtração da média e divisão pelo desvio-padrão, ou então as
variáveis com grande escala dominarão o processo de agrupamento (veja
Padronização (Normalização, Escores Z), no Capítulo 6).”

BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados:
50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 265.
A partir do apresentado, analise as asserções a seguir e a relação
proposta entre elas.

I. Sabemos que, na estatística ou na ciência dos dados, é comum
normalizar (padronizar) variáveis quantitativas, ou variáveis contínuas,
antes da realização de uma análise de agrupamento.
Pois
II. No conjunto de dados observados (a amostra de dados), podem existir
variáveis que estão em uma escala muito maior que as outras, e a medida
de distância entre observações dessas variáveis dominarão o resultado
da análise de agrupamento, na formação dos grupos de observações
similares entre si.
RESPOSTA: As asserções I e II são proposições verdadeiras, e a II é uma
justificativa correta da I.
Resposta correta. A alternativa está correta. Na estatística ou na ciência dos
dados, é comum normalizar (padronizar) variáveis quantitativas, ou variáveis
contínuas, antes da realização de uma análise de agrupamento, pois no
conjunto de dados observados podem existir variáveis que estão em uma
escala muito maior que as outras, e a medida de distância entre observações
dessas variáveis dominarão o resultado final da análise de agrupamento se a
padronização não for feita antes.
3. Na estatística, quanto duas variáveis quantitativas comportam-se uma em
relação à outra de forma aproximadamente linear, é comum se calcular a
correlação entre elas. Esse cálculo, entretanto, ao estudo da relação entre
duas variáveis qualitativas, ou entre uma variável quantitativa e uma
variável qualitativa.

A respeito do cálculo da correlação entre duas variáveis quantitativas,
analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s)
e F para a(s) Falsa(s).

I. ( ) Uma correlação positiva indica que quando uma das variáveis
aumenta a outra variável diminui.
II. ( ) Uma correlação positiva indica que quando uma das variáveis
aumenta a outra variável também aumenta.
III. ( ) Uma correlação negativa indica que quando uma das variáveis
aumenta a outra variável diminui.
IV. ( ) Uma correlação negativa indica que quando uma das variáveis
diminui a outra também diminui.
RESPOSTA: F, V, V, F
Resposta correta. A sequência está correta. É correto afirmar que uma
correlação positiva indica que quando uma das variáveis aumenta a outra
variável também aumenta, e que uma correlação negativa indica que quando
uma das variáveis aumenta a outra variável diminui. É incorreto afirmar que
uma correlação positiva indica que quando uma das variáveis aumenta a outra
variável diminui, ou que uma correlação negativa indica que quando uma das
variáveis diminui a outra também diminui.
4. Um jovem cientista de dados realizou uma análise de agrupamento de
apenas cinco estados americanos parte do famoso conjunto de dados
USArrests, o qual possue 50 observações (50 estados americanos) de 4
variáveis (Murder, Assault, UrbanPop e Rape).

Obteve o resultado exibido na figura exibida adiante:

Figura - Dendrograma do agrupamento dos cinco estados
Fonte: Elaborada pelo autor

Relativamente à interpretação desta figura, assinale a alternativa correta:
RESPOSTA: É um dendrograma, ou seja, um gráfico na forma de uma
árvore, que representa os vários grupos formados em cada estágio do
processo de agrupamento hierárquico.
Resposta correta. A alternativa está correta. O dendrograma resultante de uma
análise de agrupamento hierárquico representa todos os agrupamentos
possíveis, desde os grupos formados por observações individuais (no exemplo,
cada um dos cinco estados) até o topo com um único grupo formado por todas
as observações (no exemplo, um único grupo com os cinco estados). Cabe ao
cientista de dados escolher o agrupamento que faz mais sentido para a sua
análise. As demais alternativas estão erradas, como se pode verificar de uma
leitura direta do próprio dendrograma.
5. O texto em referência apresenta como exemplo de agrupamento uma
companhia de vendas online que deseja agrupar seus clientes com base
em suas características comuns (renda, idade, número de filhos, estado
civil, grau de educação, etc.). Com o resultado do agrupamento, eles
definirão campanhas de marketing e de divulgação específicas para cada
um dos diferentes grupos que vierem a ser definidos.

DUHAM, Margareth H. Data mining: introductory and advanced topics.
Upper Saddle River, NJ: Pearson Education, 2003, p.125.
A respeito das fontes que originaram os contos de fadas, analise as
afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s)
Falsa(s).

I. ( ) Algoritmos de agrupamento só conseguem lidar com variáveis
quantitativas. Sendo assim, parte das variáveis disponíveis para esse
caso são irrelevantes.
II. ( ) Algoritmos de agrupamento são especializados no tratamento de
conjuntos de dados exclusivamente qualitativos.
III. ( ) Algoritmos de agrupamento podem ter as suas soluções verificadas
por um supervisor e, dessa forma, saberemos se o resultado é bom ou
ruim.
IV. ( ) Seres humanos não possuem habilidade natural para agrupar e
depois classificar, já que isso só pode ser realizado por meio de
algoritmos.
RESPOSTA: F,F,F,F
Resposta correta. A sequência está correta. Há algoritmos deagrupamento
que lidam variáveis quantitativas, ou qualitativas, ou mistas. Portanto, as
asserções I e II são falsas. Algoritmos de agrupamento não podem ter as suas
soluções verificadas por um supervisor, pois fazem parte dos métodos de
aprendizagem não supervisionada. E seres humanos possuem habilidade
natural para agrupar e depois classificar. Portanto, as asserções III e IV
também são falsas.
6. Leia o excerto a seguir:
“Exploração de dados é a arte de olhar os seus dados, rapidamente gerar
hipóteses sobre eles, e rapidamente testar essas hipóteses. E repetir isso
outra vez, outra vez, outra vez. O objetivo da exploração de dados é a
geração de pistas sobre o que os dados nos revelam, pistas que você
poderá explorar, mais tarde, em maior profundidade.”
WICKHAM, Hadley; GROLEMUN, Garret. R for data science: import, tidy,
transform, visualize, and model dada. Sebastopol (CA): O’Reilly Media,
2017, p.1.

A respeito das fontes que originaram os contos de fadas, analise as
afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s)
Falsa(s).

I. ( ) Análise estatística descritiva é parte da análise exploratória de dados,
frequentemente entendida como a exploração inicial dos dados.
II. ( ) Além dos métodos da estatística descritiva, algoritmos de
agrupamento também são parte da análise exploratória de dados.
III. ( ) A análise exploratória dos dados permite a geração de hipóteses
sobre os dados, para posterior investigação mais detalhada.
IV. ( ) Gerar hipóteses sobre dados significa gerar afirmações sobre
possíveis padrões e descobertas reveladas pelos dados, a serem melhor
investigadas e comprovadas.
RESPSOTA:V,V,V,V
Resposta correta. A sequência está correta. É correto afirmar que a análise
estatística descritiva é parte da análise exploratória de dados, assim como
dizer que algoritmos de agrupamento também o são. Também é correto dizer
que a análise exploratória dos dados permite a geração de hipóteses sobre os
dados, que devem ser melhor investigadas para comprovação posteriormente,
e que gerar hipóteses sobre dados significa gerar afirmações sobre possíveis
padrões e descobertas reveladas pelos dados.
7. Na estatística ou, genericamente, na análise de dados, muito
frequentemente analisamos dados ditos retangulares ou estruturados,
onde as variáveis - quantitativas ou qualitativas - são dispostas nas
colunas e as observações nas linhas de uma tabela. Em algumas
situações é vantajoso se fazer a padronização das variáveis quantitativas.

Assinale a alternativa correta relativamente ao assunto de padronização
de variáveis quantitativas na estatística:
RESPOSTA: Na padronização, se subtrai de cada variável sua média, e
depois se divide o resultado pelo seu desvio padrão.
Resposta correta. A alternativa está correta. Na estatística, assim como nas
suas ciências correlatas, como a ciência dos dados e a mineração de dados, a
padronização de uma variável quantitativa é feita subtraindo-se dessa variável
a sua média e depois dividindo-se o resultado pelo seu desvio padrão.

8. O texto em referência explica que o processo de descoberta com a
mineração de dados possui tanto um sentido romântico (um processo
emocionante e prazeroso), quanto técnico (um estudo criterioso sobre
dados). Também defende a ideia que é preciso conhecer o ambiente em
que os dados são produzidos e que tipo de conhecimento esse ambiente
necessita e espera receber.. Ou seja, o que as pessoas necessitam e
esperam receber.Lei

SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de
dados: com aplicações em R. Rio de Janeiro: Elsevier, 2016, p.3.

Considerando as ideias apresentadas acima e o que sabemos sobre
ciência dos dados, mineração de dados e machine learning, analise as
afirmativas a seguir:

I. Machine learning são algoritmos desenvolvidos, principalmente, pela
ciência da computação. São usados na estatística, na ciência de dados e
na mineração de dados.
II. O processo de descoberta de padrões e geração de conhecimento por
meio de dados tem um sentido romântico, por ser emocionante e
prazeroso, e um sentido técnico, pois demanda estudos técnicos
criteriosos.
III. A estatística, a ciência da computação e a ciência de dados são áreas
relacionadas, mas a mineração de dados e ciência de dados são áreas
independentes, sem nenhuma relação.
IV. Não é importante conhecer o ambiente em que os dados são
produzidos e que tipo de conhecimento esse ambiente necessita e espera
receber.

Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s):
RESPOSTA: I e II apenas
Resposta correta. A alternativa está correta, pois machine learning são
algoritmos desenvolvidos, principalmente, pela ciência da computação, e são
usados na estatística, na ciência de dados e na mineração de dados, e o
processo de descoberta de padrões e geração de conhecimento por meio de
dados tem um sentido romântico, por ser emocionante e prazeroso, e um
sentido técnico, pois demanda estudos técnicos criteriosos. Também sabemos
que a mineração de dados e ciência de dados são áreas relacionadas, e que é
importante conhecer o ambiente em que os dados são produzidos e que tipo
de conhecimento esse ambiente necessita e espera receber.
9. Discutimos o que são aprendizagem supervisionada e não
supervisionada. Vimos que é na forma como tratamos as variáveis
estudadas que se dá a diferença entre esses dois tipos de aprendizagens,
supervisionada e não supervisionada. Esses dois tipos são os mais
importantes dentre os diversos tipos de aprendizagem.

Relativamente a esse assunto, analise as afirmativas a seguir:

I. Na aprendizagem supervisionada, definimos uma das variáveis
estudadas como sendo a variável resposta, a qual responde em função
dos valores assumidos pelas outras variáveis, as quais são chamadas de
variáveis de entrada.
II. Especificamente na aprendizagem supervisionada, também
denominamos uma variável resposta de variável de saída ou variável
dependente.
III. Especificamente na aprendizagem supervisionada, também
denominamos uma variável de entrada de variável regressora, variável
preditora, variável explanatória ou variável independente.
IV. Na aprendizagem não supervisionada, tratamos todas as variáveis
estudadas da mesma forma, sem procurar explicar o comportamento de
uma delas em função dos valores assumidos pelas outras.
RESPOSTA: I, II, III e IV.
Resposta correta. Na aprendizagem supervisionada, definimos uma das
variáveis estudadas como sendo a variável resposta, a qual responde em
função dos valores assumidos pelas outras variáveis, as quais são chamadas
de variáveis de entrada; na aprendizagem supervisionada, também chamamos
a variável resposta de variável de saída ou variável dependente e as variáveis
de entrada, de variáveis regressoras, preditoras ou independentes. Na
aprendizagem não supervisionada, tratamos todas as variáveis estudadas da
mesma forma, sem procurar explicar o comportamento de uma delas em
função dos valores assumidos pelas outras.
10. Depois que formamos grupos de observações de um conjunto de dados
(amostra), por meio de um algoritmo de agrupamento, podemos dar
nomes aos mesmos, e cada indivíduo de cada grupo será classificado de
acordo com esse nome. O ser humano faz isso com naturalidade,
primeiro agrupar e, depois de formados os grupos, dar nomes aos
grupos. Por exemplo, animais vertebrados ou invertebrados, carros ou
aviões, homens ou mulheres.

A partir do apresentado, analise as asserções a seguir e a relação
proposta entre elas. e assinale a alternativa correta:

I. Ao usarmos de algoritmos de agrupamento, depois que formados e
nomeados (classificados) os grupos de observações resultantes do
algoritmo, não é possível usar essas classes como variáveis respostas e,
a partir desse ponto, executar tarefas preditivas com algoritmos de
classificação.
Pois
II. Algoritmos de agrupamento fazem parte dos métodos da chamada
aprendizagem nãosupervisionada. Não são modelos preditivos.
RESPOSTA: A asserção I é uma proposição falsa, e a II é uma proposição
verdadeira.
Resposta correta. A alternativa está correta, pois mesmo que algoritmos de
agrupamento sejam parte dos métodos da aprendizagem não supervisionada,
e não serem modelos preditivos, como afirmado na asserção II, depois que
formamos e nomeamos os grupos (classificamos os grupos), podemos usar
essas classes como variáveis respostas e, a partir desse ponto, executar
tarefas preditivas com algoritmos de classificação. Ou seja, a asserção I é
falsa.

Universidade Anhembi Morumbi – EAD Prova atividade 4 - ESTATÍSTICA APLICADA AO DATA SCIENCE
1. A escolha de grupos formados por um algoritmo de agrupamento hierárquico pode ser feita por meio da leitura do dendrograma resultante. Escolhe-se a altura (Height) desejada, se traça uma linha horizontal a partir dessa altura, que cruzará com as li...
2. Leia o excerto a seguir: “Normalização: É comum normalizar (padronizar) variáveis contínuas através da subtração da média e divisão pelo desvio-padrão, ou então as variáveis com grande escala dominarão o processo de agrupamento (veja Padronização (...
3. Na estatística, quanto duas variáveis quantitativas comportam-se uma em relação à outra de forma aproximadamente linear, é comum se calcular a correlação entre elas. Esse cálculo, entretanto, ao estudo da relação entre duas variáveis qualitativas, ...
4. Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco estados americanos parte do famoso conjunto de dados USArrests, o qual possue 50 observações (50 estados americanos) de 4 variáveis (Murder, Assault, UrbanPop e Rape). ...
5. O texto em referência apresenta como exemplo de agrupamento uma companhia de vendas online que deseja agrupar seus clientes com base em suas características comuns (renda, idade, número de filhos, estado civil, grau de educação, etc.). Com o result...
6. Leia o excerto a seguir: “Exploração de dados é a arte de olhar os seus dados, rapidamente gerar hipóteses sobre eles, e rapidamente testar essas hipóteses. E repetir isso outra vez, outra vez, outra vez. O objetivo da exploração de dados é a geraç...
7. Na estatística ou, genericamente, na análise de dados, muito frequentemente analisamos dados ditos retangulares ou estruturados, onde as variáveis - quantitativas ou qualitativas - são dispostas nas colunas e as observações nas linhas de uma tabela...
8. O texto em referência explica que o processo de descoberta com a mineração de dados possui tanto um sentido romântico (um processo emocionante e prazeroso), quanto técnico (um estudo criterioso sobre dados). Também defende a ideia que é preciso con...
9. Discutimos o que são aprendizagem supervisionada e não supervisionada. Vimos que é na forma como tratamos as variáveis estudadas que se dá a diferença entre esses dois tipos de aprendizagens, supervisionada e não supervisionada. Esses dois tipos sã...
10. Depois que formamos grupos de observações de um conjunto de dados (amostra), por meio de um algoritmo de agrupamento, podemos dar nomes aos mesmos, e cada indivíduo de cada grupo será classificado de acordo com esse nome. O ser humano faz isso com...