Buscar

ESTATÍSTICA APLICADA AO DATA SCIENCE - ATIVIDADE 4

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Continue navegando


Prévia do material em texto

Revisar envio do teste: ATIVIDADE 4 (A4)
GRA1561 ESTATÍSTICA APLICADA AO DATA SCIENCE GR0890211 - 202110.ead-8033.11 Material de Aula Unidade 4
Revisar envio do teste: ATIVIDADE 4 (A4) 
Usuário RENAN LOPES LIMA
Curso GRA1561 ESTATÍSTICA APLICADA AO DATA SCIENCE GR0890211 - 202110.ead-8033.11
Teste ATIVIDADE 4 (A4)
Iniciado 11/05/21 13:21
Enviado 11/05/21 17:10
Status Completada
Resultado da tentativa 10 em 10 pontos  
Tempo decorrido 3 horas, 49 minutos
Resultados exibidos Respostas enviadas, Respostas corretas, Comentários
Pergunta 1
Na estatística, quanto duas variáveis quantitativas comportam-se uma em relação à outra de forma aproximadamente linear, é comum
se calcular a correlação entre elas. Esse cálculo, entretanto, ao estudo da relação entre duas variáveis qualitativas, ou entre uma variável
quantitativa e uma variável qualitativa. 
  
A respeito do cálculo da correlação entre duas variáveis quantitativas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s)
Minhas Disciplinas Extracurriculares Comunidades Minhas Bibliotecas Central de Ajuda
1 em 1 pontos
RENAN LOPES LIMA
http://company.blackboard.com/
https://fadergsead.blackboard.com/webapps/blackboard/execute/courseMain?course_id=_669404_1
https://fadergsead.blackboard.com/webapps/blackboard/content/listContent.jsp?course_id=_669404_1&content_id=_16175952_1&mode=reset
https://fadergsead.blackboard.com/webapps/blackboard/content/listContent.jsp?course_id=_669404_1&content_id=_16175957_1&mode=reset
https://fadergsead.blackboard.com/webapps/portal/execute/tabs/tabAction?tab_tab_group_id=_413_1
https://fadergsead.blackboard.com/webapps/portal/execute/tabs/tabAction?tab_tab_group_id=_410_1
https://fadergsead.blackboard.com/webapps/portal/execute/tabs/tabAction?tab_tab_group_id=_409_1
https://fadergsead.blackboard.com/webapps/portal/execute/tabs/tabAction?tab_tab_group_id=_411_1
https://fadergsead.blackboard.com/webapps/portal/execute/tabs/tabAction?tab_tab_group_id=_436_1
https://fadergsead.blackboard.com/webapps/login/?action=logout
Resposta Selecionada: 
Resposta Correta: 
Comentário
da
resposta:
e F para a(s) Falsa(s). 
  
I. ( ) Uma correlação positiva indica que quando uma das variáveis aumenta a outra variável diminui. 
II. ( ) Uma correlação positiva indica que quando uma das variáveis aumenta a outra variável também aumenta. 
III. ( ) Uma correlação negativa indica que quando uma das variáveis aumenta a outra variável diminui. 
IV. ( ) Uma correlação negativa indica que quando uma das variáveis diminui a outra também diminui. 
  
F, V, V, F.
F, V, V, F.
Resposta correta.  A sequência está correta. É correto a�rmar que uma correlação positiva indica que quando uma das variáveis aumenta a
outra variável também aumenta, e que uma correlação negativa indica que quando uma das variáveis aumenta a outra variável diminui. É
incorreto a�rmar que uma correlação positiva indica que quando uma das variáveis aumenta a outra variável diminui, ou que uma correlação
negativa indica que quando uma das variáveis diminui a outra também diminui.
Pergunta 2
A escolha de grupos formados por um algoritmo de agrupamento hierárquico pode ser feita por meio da leitura do dendrograma
resultante. Escolhe-se a altura (Height) desejada, se traça uma linha horizontal a partir dessa altura, que cruzará com as linhas verticais
dos grupos formados nesta altura. O cientista de dados decide se esses grupos são adequados para a sua análise. 
  
Veja, por exemplo, a figura abaixo. 
  
1 em 1 pontos
Resposta Selecionada: 
 
  
Figura - Dendrograma do agrupamento de oito estados 
Fonte: Elaborada pelo autor 
Com respeito da leitura deste dendrograma, analise as afirmativas a seguir e assinale V 
para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
  
I. ( ) A altura 4 cruza com duas linhas verticais, que indicam dois grupos, o primeiro deles formado pelos estados {Connecticut,
Delaware}, e o segundo deles formado pelos estados {Colorado, Arizona, California, Alaska, Alabama, Arkansas}. 
II. ( ) A altura 4 cruza com três linhas verticais, que indicam três grupos, o primeiro deles formado pelos estados {Connecticut,
Delaware}, o segundo deles formado pelos estados {Colorado, Arizona, California}, e o terceiro deles formado pelos estados {Alaska,
Alabama, Arkansas}. 
III. ( ) A altura 3 cruza com duas linhas verticais, que indicam dois grupos, o primeiro deles formado pelos estados {Connecticut,
Delaware}, e o segundo deles formado pelos estados {Colorado, Arizona, California, Alaska, Alabama, Arkansas}. 
IV. ( ) A altura 3 cruza com três linhas verticais, que indicam três grupos, o primeiro deles formado pelos estados {Connecticut,
Delaware}, o segundo deles formado pelos estados {Colorado, Arizona, California}, e o terceiro deles formado pelos estados {Alaska,
Alabama, Arkansas}. 
  
V, F, F, V.
Resposta Correta: 
Comentário
da
resposta:
V, F, F, V.
Resposta correta.  A sequência está correta. A altura 4 cruza com duas linhas verticais, que indicam dois grupos, o primeiro deles formado
pelos estados {Connecticut, Delaware}, e o segundo deles formado pelos estados {Colorado, Arizona, California, Alaska, Alabama, Arkansas}. A
altura 3 cruza com três linhas verticais, que indicam três grupos, o primeiro deles formado pelos estados {Connecticut, Delaware}, o segundo
deles formado pelos estados {Colorado, Arizona, California}, e o terceiro deles formado pelos estados {Alaska, Alabama, Arkansas}.
Pergunta 3
Resposta Selecionada: 
Resposta Correta: 
Comentário
da resposta:
O texto em referência fornece os seguintes exemplos de agrupamento: análise de perfil de usuários e perfil de itens para sistemas de
recomendação; análise de padrões de comportamento de multidões; identificação de grupos de risco para empresas seguradoras;
análise de emoções em redes sociais; reconhecimento de padrões em imagens de satélites ou imagens médicas; análise de padrões em
cliques em páginas da internet, etc. 
  
SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à mineração de dados : com aplicações em R. Rio de Janeiro: Elsevier,
2016, p.146. 
A respeito dos campos de aplicação da análise de agrupamento, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F
para a(s) Falsa(s). 
  
I. ( ) A análise de emoções por meio de agrupamento pode servir ao propósito de averiguar o índice de aceitação de um candidato a um
cargo eletivo público por região. 
II. ( ) O reconhecimento de padrões em imagens de satélites pode servir ao propósito de averiguar regiões com processos acelerados de
desertificação. 
III. ( ) A identificação de grupos de risco para empresas seguradoras pode servir ao propósito de precificação correta do valor do seguro
para cada grupo de risco. 
IV. ( ) A análise de padrões em cliques em páginas da internet pode servir ao propósito de identificar a procura de páginas da web por
cada bairro de um município.
V, V, V, V.
V, V, V, V.
Resposta correta.  A sequência está correta. Todos exemplos citados são propósitos válidos para a realização da análise de agrupamento.
Como explicado no texto em referência, a quantidade de domínios de aplicação da análise de agrupamento é muito vasta.
1 em 1 pontos
Pergunta 4
Resposta Selecionada: 
Resposta Correta: 
Comentário
da
resposta:
O Margareth H. Duham, em seu livro Data Mining - Introductory and Advanced Topics, informa que tarefas de agrupamento, ou
clustering em inglês, vêm sendo aplicadas em muitos domínios, incluindo a biologia, a medicina, a antropologia, o marketing e a
economia. 
  
DUHAM, Margareth H. Data mining : introductory and advanced topics. Upper Saddle River (NJ): Pearson Education, 2003, p.126. 
  
A respeito desses domínios de aplicação de tarefas de agrupamento, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s)
e F para a(s) Falsa(s). 
  
I. ( ) Observar diferentes características de doenças em vários pacientes, e depois formar diferentes grupos de pacientes - por
similaridade das características desuas doenças - é uma tarefa de agrupamento. 
II. ( ) Observar diferentes hábitos de consumo em várias milhares de pessoas, e depois formar grupos de pessoas - por similaridade de
seus hábitos de consumo - é uma tarefa de agrupamento. 
III. ( ) Observar diferentes características das linguagens faladas por membros de aldeias remotas, e depois formar grupos de linguagens
- por similaridades das características das linguagens - é uma tarefa de agrupamento. 
IV. ( ) Observar diferentes característica de insetos em diversos biomas, e depois formar grupos de insetos - por similaridade de suas
características - é uma tarefa de agrupamento. 
  
V, V, V, V.
V, V, V, V.
Resposta correta.  A sequência está correta. Observar diferentes características de indivíduos, sejam estes indivíduos doenças que se
manifestam em pacientes, hábitos de consumos que se manifestam em consumidores, línguas faladas por diferentes povos, ou insetos que
habitam diferentes biomas, e depois, para cada um desses exemplos, agrupar as observações feitas em grupos menores por similaridade, são
tarefas de agrupamento. Sendo assim, todos os exemplos descritos são tarefas de agrupamento.
Pergunta 5
 Depois que formamos grupos de observações de um conjunto de dados (amostra), por meio de um algoritmo de agrupamento,
1 em 1 pontos
1 em 1 pontos
Resposta Selecionada: 
Resposta Correta: 
Comentário
da
resposta:
podemos dar nomes aos mesmos, e cada indivíduo de cada grupo será classificado de acordo com esse nome. O ser humano faz isso
com naturalidade, primeiro agrupar e, depois de formados os grupos, dar nomes aos grupos. Por exemplo, animais vertebrados ou
invertebrados, carros ou aviões, homens ou mulheres. 
  
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas. e assinale a alternativa correta: 
  
I.  Ao usarmos de algoritmos de agrupamento, depois que formados e nomeados (classificados) os grupos de observações resultantes
do algoritmo, não é possível usar essas classes como variáveis respostas e, a partir desse ponto, executar tarefas preditivas com
algoritmos de classificação. 
Pois 
II. Algoritmos de agrupamento fazem parte dos métodos da chamada aprendizagem não supervisionada. Não são modelos preditivos. 
  
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
Resposta correta. A alternativa está correta, pois mesmo que algoritmos de agrupamento sejam parte dos métodos da aprendizagem não
supervisionada, e não serem modelos preditivos, como a�rmado na asserção II, depois que formamos e nomeamos os grupos (classi�camos
os grupos), podemos usar essas classes como variáveis respostas e, a partir desse ponto, executar tarefas preditivas com algoritmos de
classi�cação. Ou seja, a asserção I é falsa.
Pergunta 6
Resposta
Selecionada:
 
Na estatística ou, genericamente, na análise de dados, muito frequentemente analisamos dados ditos retangulares ou estruturados,
onde as variáveis - quantitativas ou qualitativas - são dispostas nas colunas e as observações na linhas de uma tabela. Em algumas
situações é vantajoso se fazer a padronização das variáveis quantitativas. 
  
Assinale a alternativa correta relativamente ao assunto de padronização de variáveis quantitativas na estatística:
  
  
Na padronização, se subtrai de cada variável sua média, e depois se divide o resultado pelo seu desvio padrão.
1 em 1 pontos
Resposta Correta:
Comentário
da
resposta:
Na padronização, se subtrai de cada variável sua média, e depois se divide o resultado pelo seu desvio padrão.
Resposta correta. A alternativa está correta. Na estatística, assim como nas suas ciências correlatas, como a ciência dos dados e a mineração
de dados, a padronização de uma variável quantitativa é feita subtraindo-se dessa variável a sua média e depois dividindo-se o resultado pelo
seu desvio padrão.
Pergunta 7
Quando os dados se referem a múltiplas variáveis quantitativas, é possível exibir múltiplos gráficos de dispersão entre pares dessas
variáveis, duas a duas. No software estatístico R, isto pode ser feito com a função gráfica pairs(). Adiante apresentamos um output
típico da função pairs() quando aplicada a quatro variáveis quantitativas de um determinado conjunto de dados. 
  
 
  
Figura 4: Múltiplos gráficos de dispersão entre as variáveis de USArrest 
Fonte: Elaborada pelo autor. 
  
A respeito deste output típico da função gráfica pairs() do software estatístico R, para a exibição de múltiplos gráficos de dispersão
1 em 1 pontos
Resposta Selecionada:
 
Resposta Correta:
 
Comentário
da
resposta:
entre variáveis quantitativas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e 
F para a(s) Falsa(s). 
  
I. ( ) O gráfico de y = Murder versus x = Assault mostra uma tendência de aumento de Murder para um aumento de Assault. 
II. ( ) O gráfico de y = Murder versus x = UrbanPop mostra uma grande dispersão dos pontos sem uma tendência clara de subida ou
descida. 
III. ( ) O gráfico de y = Murder versus x = Rape mostra uma tendência de aumento de Murder para um aumento  de Assault, porém com
uma dispersão dos pontos um pouco maior que para o caso de y = Murder versus x = Assault. 
IV. ( ) Como são quatro variáveis quantitativas (Murder, Assault, UrbanPop e Rape), então ao total são 12 gráficos de dispersão, de cada
uma delas contra as outras três.
V, V, V, V.
  
V, V, V, V.
  
Resposta correta.  A sequência está correta. O grá�co de y = Murder versus x = Assault de fato mostra uma tendência de aumento de Murder
para um aumento de Assault, assim como grá�co de y = Murder versus x = UrbanPop mostra uma grande dispersão dos pontos sem uma
tendência clara de subida ou descida. O grá�co de y = Murder versus x = Rape mostra uma tendência de aumento de Murder para um
aumento  de Assault, porém com uma dispersão dos pontos um pouco maior que para o caso de y = Murder versus x = Assault e, como são
quatro variáveis quantitativas, então ao total são 12 grá�cos de dispersão, de cada uma delas contra as outras três.
Pergunta 8
Discutimos o que são aprendizagem supervisionada e não supervisionada. Vimos que é na forma como tratamos as variáveis estudadas
que se dá a diferença entre esses dois tipos de aprendizagens, supervisionada e não supervisionada. Esses dois tipos são os mais
importantes dentre os diversos tipos de aprendizagem. 
  
Relativamente a esse assunto, analise as afirmativas a seguir: 
  
I. Na aprendizagem supervisionada, definimos uma das variáveis estudadas como sendo a variável resposta, a qual responde em função
dos valores assumidos pelas outras variáveis, as quais são chamadas de variáveis de entrada. 
II. Especificamente na aprendizagem supervisionada, também denominamos uma variável resposta de variável de saída ou variável
1 em 1 pontos
Resposta Selecionada: 
Resposta Correta: 
Comentário
da
resposta:
dependente. 
III. Especificamente na aprendizagem supervisionada, também denominamos uma variável de entrada de variável regressora, variável
preditora, variável explanatória  ou variável independente. 
IV. Na aprendizagem não supervisionada, tratamos todas as variáveis estudadas da mesma forma, sem procurar explicar o
comportamento de uma delas em função dos valores assumidos pelas outras. 
  
  
I, II, III e IV.
I, II, III e IV.
Resposta correta. Na aprendizagem supervisionada, de�nimos uma das variáveis estudadas como sendo a variável resposta, a qual responde
em função dos valores assumidos pelas outras variáveis, as quais são chamadas de variáveis de entrada; na aprendizagem supervisionada,
também chamamos a variável resposta de variável de saída ou variável dependente e as variáveis de entrada, de variáveis regressoras,
preditoras ou independentes. Na aprendizagem não supervisionada, tratamos todas as variáveis estudadas da mesma forma, sem procurar
explicar o comportamento de uma delas em função dos valores assumidos pelas outras.Pergunta 9
Leia o excerto a seguir: 
“Exploração de dados é a arte de olhar os seus dados, rapidamente gerar hipóteses sobre eles, e rapidamente testar essas hipóteses. E
repetir isso outra vez, outra vez, outra vez. O objetivo da exploração de dados é a geração de pistas sobre o que os dados nos revelam,
pistas que você poderá explorar, mais tarde, em maior profundidade.” 
WICKHAM, Hadley; GROLEMUN, Garret. R for data science : import, tidy, transform, visualize, and model dada. Sebastopol (CA):
O’Reilly Media, 2017, p.1. 
  
A respeito das fontes que originaram os contos de fadas, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s)
Falsa(s). 
  
I. ( ) Análise estatística descritiva é parte da análise exploratória de dados, frequentemente entendida como a exploração inicial dos
dados. 
II. ( ) Além dos métodos da estatística descritiva, algoritmos de agrupamento também são parte da análise exploratória de dados. 
1 em 1 pontos
Resposta Selecionada: 
Resposta Correta: 
Comentário
da
resposta:
III. ( ) A análise exploratória dos dados permite a geração de hipóteses sobre os dados, para posterior investigação mais detalhada. 
IV. ( ) Gerar hipóteses sobre dados significa gerar afirmações sobre possíveis padrões e descobertas reveladas pelos dados, a serem
melhor investigadas e comprovadas.
V, V, V, V.
V, V, V, V.
Resposta correta.  A sequência está correta. É correto a�rmar que a análise estatística descritiva é parte da análise exploratória de dados,
assim como dizer que algoritmos de agrupamento também o são. Também é correto dizer que a análise exploratória dos dados permite a
geração de hipóteses sobre os dados, que devem ser melhor investigadas para comprovação posteriormente, e que gerar hipóteses sobre
dados signi�ca gerar a�rmações sobre possíveis padrões e descobertas reveladas pelos dados.
Pergunta 10
Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco estados americanos parte do famoso conjunto de
dados USArrests, o qual possue 50 observações (50 estados americanos) de 4 variáveis (Murder, Assault, UrbanPop e Rape). 
  
Obteve o resultado exibido na figura exibida adiante: 
  
 
1 em 1 pontos
Terça-feira, 18 de Maio de 2021 13h48min15s BRT
Resposta
Selecionada:
Resposta
Correta:
Comentário
da
resposta:
Figura - Dendrograma do agrupamento dos cinco estados 
Fonte: Elaborada pelo autor 
  
Relativamente à interpretação desta figura, assinale a alternativa correta: 
  
  
É um dendrograma, ou seja, um grá�co na forma de uma árvore, que representa os vários grupos formados em cada estágio do processo
de agrupamento hierárquico.
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que representa os vários grupos formados em cada
estágio do processo de agrupamento hierárquico.
Resposta correta. A alternativa está correta. O dendrograma resultante de uma análise de agrupamento hierárquico representa todos os
agrupamentos possíveis, desde os grupos formados por observações individuais (no exemplo, cada um dos cinco estados) até o topo com um
único grupo formado por todas as observações (no exemplo, um único grupo com os cinco estados). Cabe ao cientista de dados escolher o
agrupamento que faz mais sentido para a sua análise. As demais alternativas estão erradas, como se pode veri�car de uma leitura direta do
próprio dendrograma.
← OK
javascript:launch('/webapps/gradebook/do/student/viewAttempts?course_id=_669404_1&method=list&nolaunch_after_review=true');