Buscar

Prova_ ESTATÍSTICA APLICADA AO DATA SCIENCE 04

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Pergunta 1
1 em 1 pontos
a
O texto em referência explica que o processo de descoberta com a
mineração de dados possui tanto um sentido romântico (um processo
emocionante e prazeroso), quanto técnico (um estudo criterioso sobre
dados). Também defende a ideia que é preciso conhecer o ambiente em
que os dados são produzidos e que tipo de conhecimento esse
ambiente necessita e espera receber.. Ou seja, o que as pessoas
necessitam e esperam receber.Lei
SILVA, L. A. da; PERES, S. M.; BOSCARIOLI, C. Introdução à
mineração de dados : com aplicações em R. Rio de Janeiro: Elsevier,
2016, p.3.
Considerando as ideias apresentadas acima e o que sabemos sobre
ciência dos dados, mineração de dados e machine learning, analise as
afirmativas a seguir:
I. Machine learning são algoritmos desenvolvidos, principalmente, pela
ciência da computação. São usados na estatística, na ciência de dados
e na mineração de dados.
II. O processo de descoberta de padrões e geração de conhecimento
por meio de dados tem um sentido romântico, por ser emocionante e
prazeroso, e um sentido técnico, pois demanda estudos técnicos
criteriosos.
III. A estatística, a ciência da computação e a ciência de dados são
áreas relacionadas, mas a mineração de dados e ciência de dados são
áreas independentes, sem nenhuma relação.
IV. Não é importante conhecer o ambiente em que os dados são
produzidos e que tipo de conhecimento esse ambiente necessita e
espera receber.
Assinale a alternativa que apresenta a(s) afirmativa(s) correta(s):
Resposta Selecionada:
I e II apenas;
Resposta Correta:
I e II apenas;
Feedback da resposta:
Resposta correta. A alternativa está correta, pois machine learning são
algoritmos desenvolvidos, principalmente, pela ciência da computação,
e são usados na estatística, na ciência de dados e na mineração de
dados, e o processo de descoberta de padrões e geração de
conhecimento por meio de dados tem um sentido romântico, por ser
emocionante e prazeroso, e um sentido técnico, pois demanda estudos
técnicos criteriosos. Também sabemos que a mineração de dados e
ciência de dados são áreas relacionadas, e que é importante conhecer o
ambiente em que os dados são produzidos e que tipo de conhecimento
esse ambiente necessita e espera receber.
Pergunta 2
1 em 1 pontos
Um jovem cientista de dados realizou uma análise de agrupamento de
apenas cinco estados americanos parte do famoso conjunto de dados
USArrests, o qual possue 50 observações (50 estados americanos) de 4
variáveis (Murder, Assault, UrbanPop e Rape).
Obteve o resultado exibido na figura exibida adiante:
Figura - Dendrograma do agrupamento dos cinco estados
Fonte: Elaborada pelo autor
Relativamente à interpretação desta figura, assinale a alternativa
correta:
Resposta Selecionada:
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que
representa os vários grupos formados em cada estágio do processo de
agrupamento hierárquico.
Resposta Correta:
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que
representa os vários grupos formados em cada estágio do processo de
agrupamento hierárquico.
Feedback da resposta:
Resposta correta. A alternativa está correta. O dendrograma resultante
de uma análise de agrupamento hierárquico representa todos os
agrupamentos possíveis, desde os grupos formados por observações
individuais (no exemplo, cada um dos cinco estados) até o topo com um
único grupo formado por todas as observações (no exemplo, um único
grupo com os cinco estados). Cabe ao cientista de dados escolher o
agrupamento que faz mais sentido para a sua análise. As demais
alternativas estão erradas, como se pode verificar de uma leitura direta
do próprio dendrograma.
Pergunta 3
1 em 1 pontos
Quando os dados se referem a múltiplas variáveis quantitativas, é
possível exibir múltiplos gráficos de dispersão entre pares dessas
variáveis, duas a duas. No software estatístico R, isto pode ser feito com
a função gráfica pairs(). Adiante apresentamos um output típico da
função pairs() quando aplicada a quatro variáveis quantitativas de um
determinado conjunto de dados.
Figura 4: Múltiplos gráficos de dispersão entre as variáveis de USArrest
Fonte: Elaborada pelo autor.
A respeito deste output típico da função gráfica pairs() do software
estatístico R, para a exibição de múltiplos gráficos de dispersão entre
variáveis quantitativas, analise as afirmativas a seguir e assinale V para
a(s) Verdadeira(s) e
F para a(s) Falsa(s).
I. ( ) O gráfico de y = Murder versus x = Assault mostra uma tendência
de aumento de Murder para um aumento de Assault.
II. ( ) O gráfico de y = Murder versus x = UrbanPop mostra uma grande
dispersão dos pontos sem uma tendência clara de subida ou descida.
III. ( ) O gráfico de y = Murder versus x = Rape mostra uma tendência de
aumento de Murder para um aumento de Assault, porém com uma
dispersão dos pontos um pouco maior que para o caso de y = Murder
versus x = Assault.
IV. ( ) Como são quatro variáveis quantitativas (Murder, Assault,
UrbanPop e Rape), então ao total são 12 gráficos de dispersão, de cada
uma delas contra as outras três.
Resposta Selecionada:
V, V, V, V.
Resposta Correta:
V, V, V, V.
Feedback da resposta:
Resposta correta. A sequência está correta. O gráfico de y = Murder
versus x = Assault de fato mostra uma tendência de aumento de Murder
para um aumento de Assault, assim como gráfico de y = Murder versus
x = UrbanPop mostra uma grande dispersão dos pontos sem uma
tendência clara de subida ou descida. O gráfico de y = Murder versus x
= Rape mostra uma tendência de aumento de Murder para um aumento
de Assault, porém com uma dispersão dos pontos um pouco maior que
para o caso de y = Murder versus x = Assault e, como são quatro
variáveis quantitativas, então ao total são 12 gráficos de dispersão, de
cada uma delas contra as outras três.
Pergunta 4
1 em 1 pontos
O texto em referência apresenta como exemplo de agrupamento uma
companhia de vendas online que deseja agrupar seus clientes com
base em suas características comuns (renda, idade, número de filhos,
estado civil, grau de educação, etc.). Com o resultado do agrupamento,
eles definirão campanhas de marketing e de divulgação específicas
para cada um dos diferentes grupos que vierem a ser definidos.
DUHAM, Margareth H. Data mining : introductory and advanced topics.
Upper Saddle River, NJ: Pearson Education, 2003, p.125.
A respeito das fontes que originaram os contos de fadas, analise as
afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s)
Falsa(s).
I. ( ) Algoritmos de agrupamento só conseguem lidar com variáveis
quantitativas. Sendo assim, parte das variáveis disponíveis para esse
caso são irrelevantes.
II. ( ) Algoritmos de agrupamento são especializados no tratamento de
conjuntos de dados exclusivamente qualitativos.
III. ( ) Algoritmos de agrupamento podem ter as suas soluções
verificadas por um supervisor e, dessa forma, saberemos se o resultado
é bom ou ruim.
IV. ( ) Seres humanos não possuem habilidade natural para agrupar e
depois classificar, já que isso só pode ser realizado por meio de
algoritmos.
Resposta Selecionada:
F, F, F, F.
Resposta Correta:
F, F, F, F.
Feedback da resposta:
Resposta correta. A sequência está correta. Há algoritmos de
agrupamento que lidam variáveis quantitativas, ou qualitativas, ou
mistas. Portanto, as asserções I e II são falsas. Algoritmos de
agrupamento não podem ter as suas soluções verificadas por um
supervisor, pois fazem parte dos métodos de aprendizagem não
supervisionada. E seres humanos possuem habilidade natural para
agrupar e depois classificar. Portanto, as asserções III e IV também são
falsas.
Pergunta 5
1 em 1 pontos
Quando os dados se referem a múltiplas variáveis quantitativas, é
possível calcular a correlação entre pares dessas variáveis, duas a
duas. No software estatístico R, isto pode ser feito com a função cor().
Adiante apresentamos um output típico da função cor() quando aplicada
ao cálculo da correlação entre quatro variáveis quantitativas de um
determinado conjuntode dados.
Murder
Assault
UrbanPop
Rape
Murder
1.00
0.80
0.07
0.56
Assault
0.80
1.00
0.26
0.67
UrbanPop
0.07
0.26
1.00
0.41
Rape
0.56
0.67
0.41
1.00
A respeito deste output típico da função cor() do software estatístico R,
para o cálculo da correlação entre múltiplas variáveis quantitativas,
analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F
para a(s) Falsa(s).
I. ( ) Todas correlações são positivas, o que indica que, para todas
variáveis quantitativas dessa amostra, quando uma aumenta, a outra
também aumenta.
II. ( ) Uma correlação igual a 1 entre uma variável e ela mesma apenas
indica uma correlação perfeita dela com ela mesma.
III. ( ) A maior correlação positiva entre essas variáveis é aquela entre
Murder e Assault, cujo valor é de 0,80.
IV. ( ) A segunda maior correlação positiva entre essas variáveis é
aquela entre Rape e Assault, cujo valor é de 0,67 e não de 0,56.
Resposta Selecionada:
V, V, V, F.
Resposta Correta:
V, V, V, F.
Feedback da resposta:
Resposta correta. A sequência está correta. Todas correlações são
positivas, indicando que, para todas variáveis quantitativas dessa
amostra, quando uma aumenta, a outra também aumenta. Uma
correlação igual a 1 entre uma variável e ela mesma apenas indica uma
correlação perfeita dela com ela mesma. A maior correlação positiva
entre essas variáveis é aquela entre Murder e Assault, cujo valor é de
0,80. E, finalmente, a segunda maior correlação positiva entre essas
variáveis é aquela entre Rape e Assault, mas o valor é 0,67 e não 0,56,
que se refere à correlação entre as variáveis Murder e Rape.
Pergunta 6
1 em 1 pontos
Leia o excerto a seguir:
“Normalização: É comum normalizar (padronizar) variáveis contínuas
através da subtração da média e divisão pelo desvio-padrão, ou então
as variáveis com grande escala dominarão o processo de agrupamento
(veja Padronização (Normalização, Escores Z), no Capítulo 6).”
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de
dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 265.
A partir do apresentado, analise as asserções a seguir e a relação
proposta entre elas.
I. Sabemos que, na estatística ou na ciência dos dados, é comum
normalizar (padronizar) variáveis quantitativas, ou variáveis contínuas,
antes da realização de uma análise de agrupamento.
Pois
II. No conjunto de dados observados (a amostra de dados), podem
existir variáveis que estão em uma escala muito maior que as outras, e
a medida de distância entre observações dessas variáveis dominarão o
resultado da análise de agrupamento, na formação dos grupos de
observações similares entre si.
Resposta Selecionada:
As asserções I e II são proposições verdadeiras, e a II é uma
justificativa correta da I.
Resposta Correta:
As asserções I e II são proposições verdadeiras, e a II é uma
justificativa correta da I.
Feedback da resposta:
Resposta correta. A alternativa está correta. Na estatística ou na ciência
dos dados, é comum normalizar (padronizar) variáveis quantitativas, ou
variáveis contínuas, antes da realização de uma análise de
agrupamento, pois no conjunto de dados observados podem existir
variáveis que estão em uma escala muito maior que as outras, e a
medida de distância entre observações dessas variáveis dominarão o
resultado final da análise de agrupamento se a padronização não for
feita antes.
Pergunta 7
1 em 1 pontos
Na estatística ou, genericamente, na análise de dados, muito
frequentemente analisamos dados ditos retangulares ou estruturados,
onde as variáveis - quantitativas ou qualitativas - são dispostas nas
colunas e as observações na linhas de uma tabela. Em algumas
situações é vantajoso se fazer a padronização das variáveis
quantitativas.
Assinale a alternativa correta relativamente ao assunto de padronização
de variáveis quantitativas na estatística:
Resposta Selecionada:
Na padronização, se subtrai de cada variável sua média, e depois se
divide o resultado pelo seu desvio padrão.
Resposta Correta:
Na padronização, se subtrai de cada variável sua média, e depois se
divide o resultado pelo seu desvio padrão.
Feedback da resposta:
Resposta correta. A alternativa está correta. Na estatística, assim como
nas suas ciências correlatas, como a ciência dos dados e a mineração
de dados, a padronização de uma variável quantitativa é feita
subtraindo-se dessa variável a sua média e depois dividindo-se o
resultado pelo seu desvio padrão.
Pergunta 8
1 em 1 pontos
Na estatística, quanto duas variáveis quantitativas comportam-se uma
em relação à outra de forma aproximadamente linear, é comum se
calcular a correlação entre elas. Esse cálculo, entretanto, ao estudo da
relação entre duas variáveis qualitativas, ou entre uma variável
quantitativa e uma variável qualitativa.
A respeito do cálculo da correlação entre duas variáveis quantitativas,
analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F
para a(s) Falsa(s).
I. ( ) Uma correlação positiva indica que quando uma das variáveis
aumenta a outra variável diminui.
II. ( ) Uma correlação positiva indica que quando uma das variáveis
aumenta a outra variável também aumenta.
III. ( ) Uma correlação negativa indica que quando uma das variáveis
aumenta a outra variável diminui.
IV. ( ) Uma correlação negativa indica que quando uma das variáveis
diminui a outra também diminui.
Resposta Selecionada:
F, V, V, F.
Resposta Correta:
F, V, V, F.
Feedback da resposta:
Resposta correta. A sequência está correta. É correto afirmar que uma
correlação positiva indica que quando uma das variáveis aumenta a
outra variável também aumenta, e que uma correlação negativa indica
que quando uma das variáveis aumenta a outra variável diminui. É
incorreto afirmar que uma correlação positiva indica que quando uma
das variáveis aumenta a outra variável diminui, ou que uma correlação
negativa indica que quando uma das variáveis diminui a outra também
diminui.
Pergunta 9
1 em 1 pontos
Leia o excerto a seguir:
“Exploração de dados é a arte de olhar os seus dados, rapidamente
gerar hipóteses sobre eles, e rapidamente testar essas hipóteses. E
repetir isso outra vez, outra vez, outra vez. O objetivo da exploração de
dados é a geração de pistas sobre o que os dados nos revelam, pistas
que você poderá explorar, mais tarde, em maior profundidade.”
WICKHAM, Hadley; GROLEMUN, Garret. R for data science : import,
tidy, transform, visualize, and model dada. Sebastopol (CA): O’Reilly
Media, 2017, p.1.
A respeito das fontes que originaram os contos de fadas, analise as
afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s)
Falsa(s).
I. ( ) Análise estatística descritiva é parte da análise exploratória de
dados, frequentemente entendida como a exploração inicial dos dados.
II. ( ) Além dos métodos da estatística descritiva, algoritmos de
agrupamento também são parte da análise exploratória de dados.
III. ( ) A análise exploratória dos dados permite a geração de hipóteses
sobre os dados, para posterior investigação mais detalhada.
IV. ( ) Gerar hipóteses sobre dados significa gerar afirmações sobre
possíveis padrões e descobertas reveladas pelos dados, a serem
melhor investigadas e comprovadas.
Resposta Selecionada:
V, V, V, V.
Resposta Correta:
V, V, V, V.
Feedback da resposta:
Resposta correta. A sequência está correta. É correto afirmar que a
análise estatística descritiva é parte da análise exploratória de dados,
assim como dizer que algoritmos de agrupamento também o são.
Também é correto dizer que a análise exploratória dos dados permite a
geração de hipóteses sobre os dados, que devem ser melhor
investigadas para comprovação posteriormente, e que gerar hipóteses
sobre dados significa gerar afirmações sobre possíveis padrões e
descobertas reveladas pelos dados.
Pergunta 10
1 em 1 pontos
Discutimos o que são aprendizagem supervisionada e não
supervisionada. Vimos que é na forma como tratamos as variáveis
estudadas que se dá a diferença entre esses dois tipos de
aprendizagens, supervisionada e não supervisionada.Esses dois tipos
são os mais importantes dentre os diversos tipos de aprendizagem.
Relativamente a esse assunto, analise as afirmativas a seguir:
I. Na aprendizagem supervisionada, definimos uma das variáveis
estudadas como sendo a variável resposta, a qual responde em função
dos valores assumidos pelas outras variáveis, as quais são chamadas
de variáveis de entrada.
II. Especificamente na aprendizagem supervisionada, também
denominamos uma variável resposta de variável de saída ou variável
dependente.
III. Especificamente na aprendizagem supervisionada, também
denominamos uma variável de entrada de variável regressora, variável
preditora, variável explanatória ou variável independente.
IV. Na aprendizagem não supervisionada, tratamos todas as variáveis
estudadas da mesma forma, sem procurar explicar o comportamento de
uma delas em função dos valores assumidos pelas outras.
Resposta Selecionada:
I, II, III e IV.
Resposta Correta:
I, II, III e IV.
Feedback da resposta:
Resposta correta. Na aprendizagem supervisionada, definimos uma das
variáveis estudadas como sendo a variável resposta, a qual responde
em função dos valores assumidos pelas outras variáveis, as quais são
chamadas de variáveis de entrada; na aprendizagem supervisionada,
também chamamos a variável resposta de variável de saída ou variável
dependente e as variáveis de entrada, de variáveis regressoras,
preditoras ou independentes. Na aprendizagem não supervisionada,
tratamos todas as variáveis estudadas da mesma forma, sem procurar
explicar o comportamento de uma delas em função dos valores
assumidos pelas outras.

Continue navegando