Buscar

Prova - Atividade 4 - ESTATÍSTICA APLICADA AO DATA SCIENCE

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Universidade Anhembi Morumbi – EAD 
 
Prova atividade 4 - ESTATÍSTICA APLICADA AO DATA SCIENCE 
1. A escolha de grupos formados por um algoritmo de agrupamento 
hierárquico pode ser feita por meio da leitura do dendrograma resultante. 
Escolhe-se a altura (Height) desejada, se traça uma linha horizontal a 
partir dessa altura, que cruzará com as linhas verticais dos grupos 
formados nesta altura. O cientista de dados decide se esses grupos são 
adequados para a sua análise. 
 
Veja, por exemplo, a figura abaixo. 
 
 
 
Figura - Dendrograma do agrupamento de oito estados 
Fonte: Elaborada pelo autor 
Com respeito da leitura deste dendrograma, analise as afirmativas a 
seguir e assinale V 
para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) A altura 4 cruza com duas linhas verticais, que indicam dois grupos, 
o primeiro deles formado pelos estados {Connecticut, Delaware}, e o 
segundo deles formado pelos estados {Colorado, Arizona, California, 
Alaska, Alabama, Arkansas}. 
II. ( ) A altura 4 cruza com três linhas verticais, que indicam três grupos, o 
primeiro deles formado pelos estados {Connecticut, Delaware}, o 
segundo deles formado pelos estados {Colorado, Arizona, California}, e o 
terceiro deles formado pelos estados {Alaska, Alabama, Arkansas}. 
III. ( ) A altura 3 cruza com duas linhas verticais, que indicam dois grupos, 
o primeiro deles formado pelos estados {Connecticut, Delaware}, e o 
segundo deles formado pelos estados {Colorado, Arizona, California, 
Alaska, Alabama, Arkansas}. 
IV. ( ) A altura 3 cruza com três linhas verticais, que indicam três grupos, 
o primeiro deles formado pelos estados {Connecticut, Delaware}, o 
segundo deles formado pelos estados {Colorado, Arizona, California}, e o 
terceiro deles formado pelos estados {Alaska, Alabama, Arkansas}. 
RESPOSTA: V, F, F, V 
Resposta correta. A sequência está correta. A altura 4 cruza com duas linhas 
verticais, que indicam dois grupos, o primeiro deles formado pelos estados 
{Connecticut, Delaware}, e o segundo deles formado pelos estados {Colorado, 
Arizona, California, Alaska, Alabama, Arkansas}. A altura 3 cruza com três 
linhas verticais, que indicam três grupos, o primeiro deles formado pelos 
estados {Connecticut, Delaware}, o segundo deles formado pelos estados 
{Colorado, Arizona, California}, e o terceiro deles formado pelos estados 
{Alaska, Alabama, Arkansas}. 
2. Leia o excerto a seguir: 
“Normalização: É comum normalizar (padronizar) variáveis contínuas 
através da subtração da média e divisão pelo desvio-padrão, ou então as 
variáveis com grande escala dominarão o processo de agrupamento (veja 
Padronização (Normalização, Escores Z), no Capítulo 6).” 
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados: 
50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 265. 
 A partir do apresentado, analise as asserções a seguir e a relação 
proposta entre elas. 
 
I. Sabemos que, na estatística ou na ciência dos dados, é comum 
normalizar (padronizar) variáveis quantitativas, ou variáveis contínuas, 
antes da realização de uma análise de agrupamento. 
Pois 
II. No conjunto de dados observados (a amostra de dados), podem existir 
variáveis que estão em uma escala muito maior que as outras, e a medida 
de distância entre observações dessas variáveis dominarão o resultado 
da análise de agrupamento, na formação dos grupos de observações 
similares entre si. 
RESPOSTA: As asserções I e II são proposições verdadeiras, e a II é uma 
justificativa correta da I. 
Resposta correta. A alternativa está correta. Na estatística ou na ciência dos 
dados, é comum normalizar (padronizar) variáveis quantitativas, ou variáveis 
contínuas, antes da realização de uma análise de agrupamento, pois no 
conjunto de dados observados podem existir variáveis que estão em uma 
escala muito maior que as outras, e a medida de distância entre observações 
dessas variáveis dominarão o resultado final da análise de agrupamento se a 
padronização não for feita antes. 
3. Na estatística, quanto duas variáveis quantitativas comportam-se uma em 
relação à outra de forma aproximadamente linear, é comum se calcular a 
correlação entre elas. Esse cálculo, entretanto, ao estudo da relação entre 
duas variáveis qualitativas, ou entre uma variável quantitativa e uma 
variável qualitativa. 
 
A respeito do cálculo da correlação entre duas variáveis quantitativas, 
analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) 
e F para a(s) Falsa(s). 
 
I. ( ) Uma correlação positiva indica que quando uma das variáveis 
aumenta a outra variável diminui. 
II. ( ) Uma correlação positiva indica que quando uma das variáveis 
aumenta a outra variável também aumenta. 
III. ( ) Uma correlação negativa indica que quando uma das variáveis 
aumenta a outra variável diminui. 
IV. ( ) Uma correlação negativa indica que quando uma das variáveis 
diminui a outra também diminui. 
RESPOSTA: F, V, V, F 
Resposta correta. A sequência está correta. É correto afirmar que uma 
correlação positiva indica que quando uma das variáveis aumenta a outra 
variável também aumenta, e que uma correlação negativa indica que quando 
uma das variáveis aumenta a outra variável diminui. É incorreto afirmar que 
uma correlação positiva indica que quando uma das variáveis aumenta a outra 
variável diminui, ou que uma correlação negativa indica que quando uma das 
variáveis diminui a outra também diminui. 
4. Um jovem cientista de dados realizou uma análise de agrupamento de 
apenas cinco estados americanos parte do famoso conjunto de dados 
USArrests, o qual possue 50 observações (50 estados americanos) de 4 
variáveis (Murder, Assault, UrbanPop e Rape). 
 
Obteve o resultado exibido na figura exibida adiante: 
 
 
Figura - Dendrograma do agrupamento dos cinco estados 
Fonte: Elaborada pelo autor 
 
Relativamente à interpretação desta figura, assinale a alternativa correta: 
RESPOSTA: É um dendrograma, ou seja, um gráfico na forma de uma 
árvore, que representa os vários grupos formados em cada estágio do 
processo de agrupamento hierárquico. 
Resposta correta. A alternativa está correta. O dendrograma resultante de uma 
análise de agrupamento hierárquico representa todos os agrupamentos 
possíveis, desde os grupos formados por observações individuais (no exemplo, 
cada um dos cinco estados) até o topo com um único grupo formado por todas 
as observações (no exemplo, um único grupo com os cinco estados). Cabe ao 
cientista de dados escolher o agrupamento que faz mais sentido para a sua 
análise. As demais alternativas estão erradas, como se pode verificar de uma 
leitura direta do próprio dendrograma. 
5. O texto em referência apresenta como exemplo de agrupamento uma 
companhia de vendas online que deseja agrupar seus clientes com base 
em suas características comuns (renda, idade, número de filhos, estado 
civil, grau de educação, etc.). Com o resultado do agrupamento, eles 
definirão campanhas de marketing e de divulgação específicas para cada 
um dos diferentes grupos que vierem a ser definidos. 
 
DUHAM, Margareth H. Data mining: introductory and advanced topics. 
Upper Saddle River, NJ: Pearson Education, 2003, p.125. 
A respeito das fontes que originaram os contos de fadas, analise as 
afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) 
Falsa(s). 
 
I. ( ) Algoritmos de agrupamento só conseguem lidar com variáveis 
quantitativas. Sendo assim, parte das variáveis disponíveis para esse 
caso são irrelevantes. 
II. ( ) Algoritmos de agrupamento são especializados no tratamento de 
conjuntos de dados exclusivamente qualitativos. 
III. ( ) Algoritmos de agrupamento podem ter as suas soluções verificadas 
por um supervisor e, dessa forma, saberemos se o resultado é bom ou 
ruim. 
IV. ( ) Seres humanos não possuem habilidade natural para agrupar e 
depois classificar, já que isso só pode ser realizado por meio de 
algoritmos. 
RESPOSTA: F,F,F,F 
Resposta correta. A sequência está correta. Há algoritmos deagrupamento 
que lidam variáveis quantitativas, ou qualitativas, ou mistas. Portanto, as 
asserções I e II são falsas. Algoritmos de agrupamento não podem ter as suas 
soluções verificadas por um supervisor, pois fazem parte dos métodos de 
aprendizagem não supervisionada. E seres humanos possuem habilidade 
natural para agrupar e depois classificar. Portanto, as asserções III e IV 
também são falsas. 
6. Leia o excerto a seguir: 
“Exploração de dados é a arte de olhar os seus dados, rapidamente gerar 
hipóteses sobre eles, e rapidamente testar essas hipóteses. E repetir isso 
outra vez, outra vez, outra vez. O objetivo da exploração de dados é a 
geração de pistas sobre o que os dados nos revelam, pistas que você 
poderá explorar, mais tarde, em maior profundidade.” 
WICKHAM, Hadley; GROLEMUN, Garret. R for data science: import, tidy, 
transform, visualize, and model dada. Sebastopol (CA): O’Reilly Media, 
2017, p.1. 
 
A respeito das fontes que originaram os contos de fadas, analise as 
afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) 
Falsa(s). 
 
I. ( ) Análise estatística descritiva é parte da análise exploratória de dados, 
frequentemente entendida como a exploração inicial dos dados. 
II. ( ) Além dos métodos da estatística descritiva, algoritmos de 
agrupamento também são parte da análise exploratória de dados. 
III. ( ) A análise exploratória dos dados permite a geração de hipóteses 
sobre os dados, para posterior investigação mais detalhada. 
IV. ( ) Gerar hipóteses sobre dados significa gerar afirmações sobre 
possíveis padrões e descobertas reveladas pelos dados, a serem melhor 
investigadas e comprovadas. 
RESPSOTA:V,V,V,V 
Resposta correta. A sequência está correta. É correto afirmar que a análise 
estatística descritiva é parte da análise exploratória de dados, assim como 
dizer que algoritmos de agrupamento também o são. Também é correto dizer 
que a análise exploratória dos dados permite a geração de hipóteses sobre os 
dados, que devem ser melhor investigadas para comprovação posteriormente, 
e que gerar hipóteses sobre dados significa gerar afirmações sobre possíveis 
padrões e descobertas reveladas pelos dados. 
7. Na estatística ou, genericamente, na análise de dados, muito 
frequentemente analisamos dados ditos retangulares ou estruturados, 
onde as variáveis - quantitativas ou qualitativas - são dispostas nas 
colunas e as observações nas linhas de uma tabela. Em algumas 
situações é vantajoso se fazer a padronização das variáveis quantitativas. 
 
Assinale a alternativa correta relativamente ao assunto de padronização 
de variáveis quantitativas na estatística: 
RESPOSTA: Na padronização, se subtrai de cada variável sua média, e 
depois se divide o resultado pelo seu desvio padrão. 
Resposta correta. A alternativa está correta. Na estatística, assim como nas 
suas ciências correlatas, como a ciência dos dados e a mineração de dados, a 
padronização de uma variável quantitativa é feita subtraindo-se dessa variável 
a sua média e depois dividindo-se o resultado pelo seu desvio padrão. 
 
8. O texto em referência explica que o processo de descoberta com a 
mineração de dados possui tanto um sentido romântico (um processo 
emocionante e prazeroso), quanto técnico (um estudo criterioso sobre 
dados). Também defende a ideia que é preciso conhecer o ambiente em 
que os dados são produzidos e que tipo de conhecimento esse ambiente 
necessita e espera receber.. Ou seja, o que as pessoas necessitam e 
esperam receber.Lei 
 
SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de 
dados: com aplicações em R. Rio de Janeiro: Elsevier, 2016, p.3. 
 
Considerando as ideias apresentadas acima e o que sabemos sobre 
ciência dos dados, mineração de dados e machine learning, analise as 
afirmativas a seguir: 
 
I. Machine learning são algoritmos desenvolvidos, principalmente, pela 
ciência da computação. São usados na estatística, na ciência de dados e 
na mineração de dados. 
II. O processo de descoberta de padrões e geração de conhecimento por 
meio de dados tem um sentido romântico, por ser emocionante e 
prazeroso, e um sentido técnico, pois demanda estudos técnicos 
criteriosos. 
III. A estatística, a ciência da computação e a ciência de dados são áreas 
relacionadas, mas a mineração de dados e ciência de dados são áreas 
independentes, sem nenhuma relação. 
IV. Não é importante conhecer o ambiente em que os dados são 
produzidos e que tipo de conhecimento esse ambiente necessita e espera 
receber. 
 
Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s): 
RESPOSTA: I e II apenas 
Resposta correta. A alternativa está correta, pois machine learning são 
algoritmos desenvolvidos, principalmente, pela ciência da computação, e são 
usados na estatística, na ciência de dados e na mineração de dados, e o 
processo de descoberta de padrões e geração de conhecimento por meio de 
dados tem um sentido romântico, por ser emocionante e prazeroso, e um 
sentido técnico, pois demanda estudos técnicos criteriosos. Também sabemos 
que a mineração de dados e ciência de dados são áreas relacionadas, e que é 
importante conhecer o ambiente em que os dados são produzidos e que tipo 
de conhecimento esse ambiente necessita e espera receber. 
9. Discutimos o que são aprendizagem supervisionada e não 
supervisionada. Vimos que é na forma como tratamos as variáveis 
estudadas que se dá a diferença entre esses dois tipos de aprendizagens, 
supervisionada e não supervisionada. Esses dois tipos são os mais 
importantes dentre os diversos tipos de aprendizagem. 
 
Relativamente a esse assunto, analise as afirmativas a seguir: 
 
I. Na aprendizagem supervisionada, definimos uma das variáveis 
estudadas como sendo a variável resposta, a qual responde em função 
dos valores assumidos pelas outras variáveis, as quais são chamadas de 
variáveis de entrada. 
II. Especificamente na aprendizagem supervisionada, também 
denominamos uma variável resposta de variável de saída ou variável 
dependente. 
III. Especificamente na aprendizagem supervisionada, também 
denominamos uma variável de entrada de variável regressora, variável 
preditora, variável explanatória ou variável independente. 
IV. Na aprendizagem não supervisionada, tratamos todas as variáveis 
estudadas da mesma forma, sem procurar explicar o comportamento de 
uma delas em função dos valores assumidos pelas outras. 
RESPOSTA: I, II, III e IV. 
Resposta correta. Na aprendizagem supervisionada, definimos uma das 
variáveis estudadas como sendo a variável resposta, a qual responde em 
função dos valores assumidos pelas outras variáveis, as quais são chamadas 
de variáveis de entrada; na aprendizagem supervisionada, também chamamos 
a variável resposta de variável de saída ou variável dependente e as variáveis 
de entrada, de variáveis regressoras, preditoras ou independentes. Na 
aprendizagem não supervisionada, tratamos todas as variáveis estudadas da 
mesma forma, sem procurar explicar o comportamento de uma delas em 
função dos valores assumidos pelas outras. 
10. Depois que formamos grupos de observações de um conjunto de dados 
(amostra), por meio de um algoritmo de agrupamento, podemos dar 
nomes aos mesmos, e cada indivíduo de cada grupo será classificado de 
acordo com esse nome. O ser humano faz isso com naturalidade, 
primeiro agrupar e, depois de formados os grupos, dar nomes aos 
grupos. Por exemplo, animais vertebrados ou invertebrados, carros ou 
aviões, homens ou mulheres. 
 
A partir do apresentado, analise as asserções a seguir e a relação 
proposta entre elas. e assinale a alternativa correta: 
 
I. Ao usarmos de algoritmos de agrupamento, depois que formados e 
nomeados (classificados) os grupos de observações resultantes do 
algoritmo, não é possível usar essas classes como variáveis respostas e, 
a partir desse ponto, executar tarefas preditivas com algoritmos de 
classificação. 
Pois 
II. Algoritmos de agrupamento fazem parte dos métodos da chamada 
aprendizagem nãosupervisionada. Não são modelos preditivos. 
RESPOSTA: A asserção I é uma proposição falsa, e a II é uma proposição 
verdadeira. 
Resposta correta. A alternativa está correta, pois mesmo que algoritmos de 
agrupamento sejam parte dos métodos da aprendizagem não supervisionada, 
e não serem modelos preditivos, como afirmado na asserção II, depois que 
formamos e nomeamos os grupos (classificamos os grupos), podemos usar 
essas classes como variáveis respostas e, a partir desse ponto, executar 
tarefas preditivas com algoritmos de classificação. Ou seja, a asserção I é 
falsa. 
 
	Universidade Anhembi Morumbi – EAD Prova atividade 4 - ESTATÍSTICA APLICADA AO DATA SCIENCE
	1. A escolha de grupos formados por um algoritmo de agrupamento hierárquico pode ser feita por meio da leitura do dendrograma resultante. Escolhe-se a altura (Height) desejada, se traça uma linha horizontal a partir dessa altura, que cruzará com as li...
	2. Leia o excerto a seguir: “Normalização: É comum normalizar (padronizar) variáveis contínuas através da subtração da média e divisão pelo desvio-padrão, ou então as variáveis com grande escala dominarão o processo de agrupamento (veja Padronização (...
	3. Na estatística, quanto duas variáveis quantitativas comportam-se uma em relação à outra de forma aproximadamente linear, é comum se calcular a correlação entre elas. Esse cálculo, entretanto, ao estudo da relação entre duas variáveis qualitativas, ...
	4. Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco estados americanos parte do famoso conjunto de dados USArrests, o qual possue 50 observações (50 estados americanos) de 4 variáveis (Murder, Assault, UrbanPop e Rape). ...
	5. O texto em referência apresenta como exemplo de agrupamento uma companhia de vendas online que deseja agrupar seus clientes com base em suas características comuns (renda, idade, número de filhos, estado civil, grau de educação, etc.). Com o result...
	6. Leia o excerto a seguir: “Exploração de dados é a arte de olhar os seus dados, rapidamente gerar hipóteses sobre eles, e rapidamente testar essas hipóteses. E repetir isso outra vez, outra vez, outra vez. O objetivo da exploração de dados é a geraç...
	7. Na estatística ou, genericamente, na análise de dados, muito frequentemente analisamos dados ditos retangulares ou estruturados, onde as variáveis - quantitativas ou qualitativas - são dispostas nas colunas e as observações nas linhas de uma tabela...
	8. O texto em referência explica que o processo de descoberta com a mineração de dados possui tanto um sentido romântico (um processo emocionante e prazeroso), quanto técnico (um estudo criterioso sobre dados). Também defende a ideia que é preciso con...
	9. Discutimos o que são aprendizagem supervisionada e não supervisionada. Vimos que é na forma como tratamos as variáveis estudadas que se dá a diferença entre esses dois tipos de aprendizagens, supervisionada e não supervisionada. Esses dois tipos sã...
	10. Depois que formamos grupos de observações de um conjunto de dados (amostra), por meio de um algoritmo de agrupamento, podemos dar nomes aos mesmos, e cada indivíduo de cada grupo será classificado de acordo com esse nome. O ser humano faz isso com...

Continue navegando