ESTATISTICA APLICADA AO DATA SCIENCE ATIVIDADE 4 (A4)

•

FMU

9

0

9

0

Juliana Fernandes Bertoli

13/04/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística Aplicada

24.049 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

13/04/2021 Blackboard Learn
https://fmu.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_679947_1&PA… 1/8
Usuário JULIANA FERNANDES BERTOLI
Curso ESTATISTICA APLICADA AO DATA SCIENC - (EAD_20) - 202110.FMU-
91754.06
Teste ATIVIDADE 4 (A4)
Iniciado 13/04/21 13:48
Enviado 13/04/21 15:32
Status Completada
Resultado da
tentativa
10 em 10 pontos
Tempo decorrido 1 hora, 44 minutos
Resultados exibidos Respostas enviadas, Respostas corretas, Comentários
Pergunta 1
Resposta
Selecionada:
Resposta Correta:
Comentário
da resposta:
Leia o excerto a seguir sobre as ideias-chave para agrupamento hierárquico:

“Começa com todos os registros. Progressivamente, os grupos são unidos aos
grupos próximos até que todos os registros pertençam a um único grupo. O
histórico de aglomeração é retido e plotado, e o usuário pode visualizar o
número e a estrutura dos grupos em diferentes estágios. As distâncias
intergrupos são calculadas de jeitos diferentes, todas baseadas no conjunto de
distância inter-registros.”

BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados :
50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 278.
A partir do apresentado, analise as asserções a seguir e a relação proposta
entre elas.

I. No agrupamento hierárquico, o usuário deve obrigatoriamente especificar o
número de grupos que deseja ver o algoritmo formar.
Pois
II. O algoritmo começa com grupos formados por registros individuais e,
progressivamente, os grupos são unidos aos grupos mais próximos, até que
todos os registros pertençam a um único grupo.

A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
A asserção I é uma proposição falsa, e a II é uma proposição
verdadeira.
Resposta correta. A alternativa está correta, pois no agrupamento hierárquico,
diferentemente do que se requer para o agrupamento por k-médias, o usuário não
especifica o número de grupos que o algoritmo deve formar. Em estágios
progressivos, se parte de tantos grupos quanto o número de registros
(observações) do conjunto de dados, formam-se sequencialmente vários
agrupamentos, por fusão entre grupos mais similares entre si, até se formar um
único grupo, ao final, com todos os registro do conjunto de dados analisado. Ao
usuário cabe examinar essa estrutura, e decidir que agrupamentos fazem mais
sentido para a sua análise.
1 em 1 pontos
1 em 1 pontos
13/04/2021 Blackboard Learn
https://fmu.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_679947_1&PA… 2/8
Pergunta 2
Resposta Selecionada:
Resposta Correta:
Comentário
da resposta:
Leia o excerto a seguir:
“Exploração de dados é a arte de olhar os seus dados, rapidamente gerar
hipóteses sobre eles, e rapidamente testar essas hipóteses. E repetir isso outra
vez, outra vez, outra vez. O objetivo da exploração de dados é a geração de
pistas sobre o que os dados nos revelam, pistas que você poderá explorar, mais
tarde, em maior profundidade.”
WICKHAM, Hadley; GROLEMUN, Garret. R for data science : import, tidy,
transform, visualize, and model dada. Sebastopol (CA): O’Reilly Media, 2017,
p.1.

A respeito das fontes que originaram os contos de fadas, analise as afirmativas
a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Análise estatística descritiva é parte da análise exploratória de dados,
frequentemente entendida como a exploração inicial dos dados.
II. ( ) Além dos métodos da estatística descritiva, algoritmos de agrupamento
também são parte da análise exploratória de dados.
III. ( ) A análise exploratória dos dados permite a geração de hipóteses sobre os
dados, para posterior investigação mais detalhada.
IV. ( ) Gerar hipóteses sobre dados significa gerar afirmações sobre possíveis
padrões e descobertas reveladas pelos dados, a serem melhor investigadas e
comprovadas.
V, V, V, V.
V, V, V, V.
Resposta correta. A sequência está correta. É correto afirmar que a análise
estatística descritiva é parte da análise exploratória de dados, assim como dizer
que algoritmos de agrupamento também o são. Também é correto dizer que a
análise exploratória dos dados permite a geração de hipóteses sobre os dados,
que devem ser melhor investigadas para comprovação posteriormente, e que
gerar hipóteses sobre dados significa gerar afirmações sobre possíveis padrões e
descobertas reveladas pelos dados.
Pergunta 3
O Margareth H. Duham, em seu livro Data Mining - Introductory and Advanced
Topics, informa que tarefas de agrupamento, ou clustering em inglês, vêm sendo
aplicadas em muitos domínios, incluindo a biologia, a medicina, a antropologia, o
marketing e a economia.

DUHAM, Margareth H. Data mining : introductory and advanced topics. Upper
Saddle River (NJ): Pearson Education, 2003, p.126.

A respeito desses domínios de aplicação de tarefas de agrupamento, analise as
afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Observar diferentes características de doenças em vários pacientes, e
depois formar diferentes grupos de pacientes - por similaridade das
características de suas doenças - é uma tarefa de agrupamento.
II. ( ) Observar diferentes hábitos de consumo em várias milhares de pessoas, e
depois formar grupos de pessoas - por similaridade de seus hábitos de consumo
- é uma tarefa de agrupamento.
III. ( ) Observar diferentes características das linguagens faladas por membros
1 em 1 pontos
13/04/2021 Blackboard Learn
https://fmu.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_679947_1&PA… 3/8
Resposta Selecionada:
Resposta Correta:
Comentário
da resposta:
de aldeias remotas, e depois formar grupos de linguagens - por similaridades
das características das linguagens - é uma tarefa de agrupamento.
IV. ( ) Observar diferentes característica de insetos em diversos biomas, e depois
formar grupos de insetos - por similaridade de suas características - é uma
tarefa de agrupamento.

V, V, V, V.
V, V, V, V.
Resposta correta. A sequência está correta. Observar diferentes características
de indivíduos, sejam estes indivíduos doenças que se manifestam em pacientes,
hábitos de consumos que se manifestam em consumidores, línguas faladas por
diferentes povos, ou insetos que habitam diferentes biomas, e depois, para cada
um desses exemplos, agrupar as observações feitas em grupos menores por
similaridade, são tarefas de agrupamento. Sendo assim, todos os exemplos
descritos são tarefas de agrupamento.
Pergunta 4
Resposta Selecionada:
Resposta Correta:
Comentário
da resposta:
Discutimos o que são aprendizagem supervisionada e não supervisionada.
Vimos que é na forma como tratamos as variáveis estudadas que se dá a
diferença entre esses dois tipos de aprendizagens, supervisionada e não
supervisionada. Esses dois tipos são os mais importantes dentre os diversos
tipos de aprendizagem.

Relativamente a esse assunto, analise as afirmativas a seguir:

I. Na aprendizagem supervisionada, definimos uma das variáveis estudadas
como sendo a variável resposta, a qual responde em função dos valores
assumidos pelas outras variáveis, as quais são chamadas de variáveis de
entrada.
II. Especificamente na aprendizagem supervisionada, também denominamos
uma variável resposta de variável de saída ou variável dependente.
III. Especificamente na aprendizagem supervisionada, também denominamos
uma variável de entrada de variável regressora, variável preditora, variável
explanatória ou variável independente.
IV. Na aprendizagem não supervisionada, tratamos todas as variáveis estudadas
da mesma forma, sem procurar explicar o comportamento de uma delas em
função dos valores assumidos pelas outras.

I, II, III e IV.
I, II, III e IV.
Resposta correta. Na aprendizagem supervisionada, definimos uma das variáveis
estudadas como sendo a variável resposta, a qual responde em função dos
valores assumidos pelas outras variáveis, as quais são chamadasde variáveis de
entrada; na aprendizagem supervisionada, também chamamos a variável resposta
de variável de saída ou variável dependente e as variáveis de entrada, de
variáveis regressoras, preditoras ou independentes. Na aprendizagem não
supervisionada, tratamos todas as variáveis estudadas da mesma forma, sem
procurar explicar o comportamento de uma delas em função dos valores
assumidos pelas outras.
1 em 1 pontos
13/04/2021 Blackboard Learn
https://fmu.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_679947_1&PA… 4/8
Pergunta 5
Resposta Selecionada:
Resposta Correta:
Comentário
da resposta:
O texto em referência apresenta como exemplo de agrupamento uma
companhia de vendas online que deseja agrupar seus clientes com base em
suas características comuns (renda, idade, número de filhos, estado civil, grau
de educação, etc.). Com o resultado do agrupamento, eles definirão campanhas
de marketing e de divulgação específicas para cada um dos diferentes grupos
que vierem a ser definidos.

DUHAM, Margareth H. Data mining : introductory and advanced topics. Upper
Saddle River, NJ: Pearson Education, 2003, p.125.
A respeito das fontes que originaram os contos de fadas, analise as afirmativas
a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Algoritmos de agrupamento só conseguem lidar com variáveis quantitativas.
Sendo assim, parte das variáveis disponíveis para esse caso são irrelevantes.
II. ( ) Algoritmos de agrupamento são especializados no tratamento de conjuntos
de dados exclusivamente qualitativos.
III. ( ) Algoritmos de agrupamento podem ter as suas soluções verificadas por
um supervisor e, dessa forma, saberemos se o resultado é bom ou ruim.
IV. ( ) Seres humanos não possuem habilidade natural para agrupar e depois
classificar, já que isso só pode ser realizado por meio de algoritmos.
F, F, F, F.
F, F, F, F.
Resposta correta. A sequência está correta. Há algoritmos de agrupamento que
lidam variáveis quantitativas, ou qualitativas, ou mistas. Portanto, as asserções I e
II são falsas. Algoritmos de agrupamento não podem ter as suas soluções
verificadas por um supervisor, pois fazem parte dos métodos de aprendizagem não
supervisionada. E seres humanos possuem habilidade natural para agrupar e
depois classificar. Portanto, as asserções III e IV também são falsas.
Pergunta 6
Quando os dados se referem a múltiplas variáveis quantitativas, é possível exibir
múltiplos gráficos de dispersão entre pares dessas variáveis, duas a duas. No
software estatístico R, isto pode ser feito com a função gráfica pairs(). Adiante
apresentamos um output típico da função pairs() quando aplicada a quatro
variáveis quantitativas de um determinado conjunto de dados.

1 em 1 pontos
1 em 1 pontos
13/04/2021 Blackboard Learn
https://fmu.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_679947_1&PA… 5/8
Resposta Selecionada:

Resposta Correta:

Comentário
da resposta:

Figura 4: Múltiplos gráficos de dispersão entre as variáveis de USArrest
Fonte: Elaborada pelo autor.

A respeito deste output típico da função gráfica pairs() do software estatístico R,
para a exibição de múltiplos gráficos de dispersão entre variáveis quantitativas,
analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e
F para a(s) Falsa(s).

I. ( ) O gráfico de y = Murder versus x = Assault mostra uma tendência de
aumento de Murder para um aumento de Assault.
II. ( ) O gráfico de y = Murder versus x = UrbanPop mostra uma grande
dispersão dos pontos sem uma tendência clara de subida ou descida.
III. ( ) O gráfico de y = Murder versus x = Rape mostra uma tendência de
aumento de Murder para um aumento de Assault, porém com uma dispersão
dos pontos um pouco maior que para o caso de y = Murder versus x = Assault.
IV. ( ) Como são quatro variáveis quantitativas (Murder, Assault, UrbanPop e
Rape), então ao total são 12 gráficos de dispersão, de cada uma delas contra as
outras três.
V, V, V, V.

V, V, V, V.

Resposta correta. A sequência está correta. O gráfico de y = Murder versus x =
Assault de fato mostra uma tendência de aumento de Murder para um aumento de
Assault, assim como gráfico de y = Murder versus x = UrbanPop mostra uma
grande dispersão dos pontos sem uma tendência clara de subida ou descida. O
gráfico de y = Murder versus x = Rape mostra uma tendência de aumento de
Murder para um aumento de Assault, porém com uma dispersão dos pontos um
pouco maior que para o caso de y = Murder versus x = Assault e, como são quatro
variáveis quantitativas, então ao total são 12 gráficos de dispersão, de cada uma
delas contra as outras três.
Pergunta 7
A estatística, a ciência da computação, a mineração de dados e a ciência dos
dados são áreas correlacionadas. Dentre essas, a mais antiga é a estatística,
1 em 1 pontos
13/04/2021 Blackboard Learn
https://fmu.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_679947_1&PA… 6/8
Resposta Selecionada:
Resposta Correta:
Comentário
da resposta:
seguida da ciência da computação, depois da mineração de dados, e finalmente
da ciência dos dados, a mais nova dessas quatro áreas de conhecimento.

Com referência ao relacionamento entre essas quatro áreas de conhecimento
humano, analise as afirmativas a seguir:

I. Algoritmos de machine learning nasceram na ciência da computação. Hoje são
usados na estatística, na mineração de dados e na ciência dos dados.
II. Dentre as diversas áreas citadas, é a estatística que possui os melhores
fundamentos para a interpretação de fenômenos aleatórios.
III. A estatística é considerada a mais sutil, e a mais ampla, quando nos
referimos a análise de dados. É aplicada a todas áreas de atividade humana.
IV. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos
diferentes, herdados das outras áreas, para se referir a um mesmo conceito.

I, II, III e IV.
I, II, III e IV.
Resposta correta. A alternativa está correta, pois algoritmos de machine learning
nasceram na ciência da computação e hoje são usados na estatística, na
mineração de dados e na ciência dos dados. De fato, é a estatística que possui os
melhores fundamentos para a interpretação de fenômenos aleatórios, e é
considerada a mais sutil, e a mais ampla, quando nos referimos a análise de
dados. Já há muitos anos é aplicada a todas áreas de atividade humana. Por outro
lado, também sabemos que, na ciência dos dados, podem-se utilizar de muitos
termos diferentes, herdados das outras áreas, para se referir a um mesmo
conceito.
Pergunta 8
Resposta
Selecionada:
Resposta
Correta:
Comentário
da resposta:
Na estatística ou, genericamente, na análise de dados, muito frequentemente
analisamos dados ditos retangulares ou estruturados, onde as variáveis -
quantitativas ou qualitativas - são dispostas nas colunas e as observações na
linhas de uma tabela. Em algumas situações é vantajoso se fazer a
padronização das variáveis quantitativas.

Assinale a alternativa correta relativamente ao assunto de padronização de
variáveis quantitativas na estatística:

Na padronização, se subtrai de cada variável sua média, e depois se divide o
resultado pelo seu desvio padrão.
Na padronização, se subtrai de cada variável sua média, e depois se
divide o resultado pelo seu desvio padrão.
Resposta correta. A alternativa está correta. Na estatística, assim como nas suas
ciências correlatas, como a ciência dos dados e a mineração de dados, a
padronização de uma variável quantitativa é feita subtraindo-se dessa variável a
sua média e depois dividindo-se o resultado pelo seu desvio padrão.
Pergunta 9
1 em 1 pontos
1 em 1 pontos
13/04/2021 Blackboard Learn
https://fmu.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_679947_1&PA… 7/8
Resposta
Selecionada:
Resposta
Correta:
Comentário
da resposta:
Leia o excerto a seguir:
“Normalização:É comum normalizar (padronizar) variáveis contínuas através da
subtração da média e divisão pelo desvio-padrão, ou então as variáveis com
grande escala dominarão o processo de agrupamento (veja Padronização
(Normalização, Escores Z), no Capítulo 6).”

BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados :
50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 265.
A partir do apresentado, analise as asserções a seguir e a relação proposta
entre elas.

I. Sabemos que, na estatística ou na ciência dos dados, é comum normalizar
(padronizar) variáveis quantitativas, ou variáveis contínuas, antes da realização
de uma análise de agrupamento.
Pois
II. No conjunto de dados observados (a amostra de dados), podem existir
variáveis que estão em uma escala muito maior que as outras, e a medida de
distância entre observações dessas variáveis dominarão o resultado da análise
de agrupamento, na formação dos grupos de observações similares entre si.
As asserções I e II são proposições verdadeiras, e a II é uma justificativa
correta da I.
As asserções I e II são proposições verdadeiras, e a II é uma
justificativa correta da I.
Resposta correta. A alternativa está correta. Na estatística ou na ciência dos
dados, é comum normalizar (padronizar) variáveis quantitativas, ou variáveis
contínuas, antes da realização de uma análise de agrupamento, pois no conjunto
de dados observados podem existir variáveis que estão em uma escala muito
maior que as outras, e a medida de distância entre observações dessas variáveis
dominarão o resultado final da análise de agrupamento se a padronização não for
feita antes.
Pergunta 10
Resposta Selecionada:
Resposta Correta:
Na estatística, quanto duas variáveis quantitativas comportam-se uma em
relação à outra de forma aproximadamente linear, é comum se calcular a
correlação entre elas. Esse cálculo, entretanto, ao estudo da relação entre duas
variáveis qualitativas, ou entre uma variável quantitativa e uma variável
qualitativa.

A respeito do cálculo da correlação entre duas variáveis quantitativas, analise as
afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Uma correlação positiva indica que quando uma das variáveis aumenta a
outra variável diminui.
II. ( ) Uma correlação positiva indica que quando uma das variáveis aumenta a
outra variável também aumenta.
III. ( ) Uma correlação negativa indica que quando uma das variáveis aumenta a
outra variável diminui.
IV. ( ) Uma correlação negativa indica que quando uma das variáveis diminui a
outra também diminui.

F, V, V, F.
1 em 1 pontos
13/04/2021 Blackboard Learn
https://fmu.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_679947_1&PA… 8/8
Terça-feira, 13 de Abril de 2021 15h32min44s BRT

Comentário
da resposta:
F, V, V, F.
Resposta correta. A sequência está correta. É correto afirmar que uma correlação
positiva indica que quando uma das variáveis aumenta a outra variável também
aumenta, e que uma correlação negativa indica que quando uma das variáveis
aumenta a outra variável diminui. É incorreto afirmar que uma correlação positiva
indica que quando uma das variáveis aumenta a outra variável diminui, ou que
uma correlação negativa indica que quando uma das variáveis diminui a outra
também diminui.