Buscar

A5 ESTATÍSTICA APLICADA AO DATA SCIENCE nota 9

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

PERGUNTA 1
Leia o excerto a seguir:
“Normalização: É comum normalizar (padronizar) variáveis contínuas através da
subtração da média e divisão pelo desvio-padrão, ou então as variáveis com grande
escala dominarão o processo de agrupamento (veja Padronização (Normalização,
Escores Z), no Capítulo 6).” 
 
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados : 50
conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 265.
 A partir do apresentado, analise as asserções a seguir e a relação proposta entre
elas. 
 
I. Sabemos que, na estatística ou na ciência dos dados, é comum normalizar
(padronizar) variáveis quantitativas, ou variáveis contínuas, antes da realização de
uma análise de agrupamento. 
Pois
II. No conjunto de dados observados (a amostra de dados), podem existir variáveis
que estão em uma escala muito maior que as outras, e a medida de distância entre
observações dessas variáveis dominarão o resultado da análise de agrupamento, na
formação dos grupos de observações similares entre si.
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I.
As asserções I e II são proposições falsas.
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.
As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.
1 pontos SalvaSalva
PERGUNTA 2
Iniciamos a nossa jornada, pelo mundo da “Estatística Aplicada à Ciência dos Dados”,
com modelos preditivos denominados regressão linear, simples e múltipla. Vimos
algumas coisas, mas não vimos outras, pois esta é apenas uma jornada inicial
motivadora. O seu propósito foi o de apenas descortinar um pouquinho desse vasto
mundo para você. Desse modo, tentaremos fazer um breve resumo dessa jornada
aqui.
 
Para isso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e
F para a(s) Falsa(s). 
 
I. ( ) Dados e amostras . Vimos que podemos fazer análise descritiva de um processo
apenas se tivermos dados sobre esse processo. Esses dados devem ser coletados do
fenômeno ou processo estudado (população). Denominamos esses dados como
amostra.
II. ( ) Análise descritiva . Tendo em mãos uma amostra, a análise descritiva se refere a
sumários (resumos) estatísticos calculados com base nessa amostra (mínimos,
máximos, frequências, médias, medianas, desvios-padrões etc.) e visualizações
produzidas por meio de gráficos.
III. ( ) Visualização dos dados relativos a uma variável . Esses gráficos são divididos
em duas grandes famílias. Uma delas são de gráficos que permitem a visualização do
comportamento de dados quantitativos. Aqui, mostramos o histograma, que é o mais
importante dentro dessa família. A outra família são de gráficos que permitem a
visualização de dados qualitativos. Aqui, mostramos o diagrama de barras, que é o
mais importante dentro dessa família. 
1 pontos SalvaSalva
1 pontos SalvaSalva
IV. ( ) Visualização da relação entre duas variáveis . Finalmente, também na análise
descritiva do processo ou fenômeno observado, vimos gráficos que se aplicam à
visualização da relação entre duas variáveis, a partir dos dados observados. Se as
duas variáveis são quantitativas, usamos, aqui, o gráfico de dispersão. Por exemplo, o
valor do imóvel versus sua área. Quando a relação é entre uma variável quantitativa e
uma variável qualitativa, usamos, aqui, os boxplots (diagramas de caixas), cada
boxplot referente a um determinado nível da variável qualitativa (bairro ou centro) e,
dentro dele, como se comporta a variável quantitativa. 
V. ( ) Coisas que não vimos aqui . Há muitas coisas que não vimos aqui. São coisas
sobre as quais você poderá ver, caso decida aprender mais sobre essas poderosas
áreas do conhecimento humano, a estatística e a ciência dos dados, muito valorizadas
pelo mercado de trabalho.
 
Assinale a alternativa que apresenta a sequência correta.
 
 
V, V, F, F, F.
V, V, F, V, F.
V, F, F, V, V.
V, V, V, V, V.
F, V, V, F, V.
PERGUNTA 3
Entre as técnicas das quais lançou mão para a visualização dos dados da amostra,
uma jovem cientista de dados usou gráficos de dispersão. Como cientista de dados,
ela sabia exatamente em que situações empregar gráficos de dispersão. E você, será
que você também já sabe?
 
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s)
Falsa(s). 
 
1. ( ) Gráficos de dispersão, em inglês chamados de scatter plots, só podem ser
usados para a visualização de uma única variável, a qual deve ser
obrigatoriamente uma variável qualitativa.
2. ( ) Gráficos de dispersão são usados para a visualização da relação entre duas
variáveis quantitativas, em que os dados das duas variáveis são plotados aos
pares. Permite, dessa forma, a verificação visual, pelo estatístico ou pelo
cientista de dados, se há uma tendência de uma variável aumentar quando a
outra aumenta, diminuir quando a outra diminui, ou se não há uma relação
aparente entre as duas.
3. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o
valor do imóvel e a sua área. Esse tipo de gráfico é chamado, em inglês, de
scatter plot.
4. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o
valor do imóvel e o seu andar. Esse tipo de gráfico é chamado, em inglês, de
scatter plot.
 
Assinale a alternativa que apresenta a sequência correta.
1 pontos SalvaSalva
cs314397
Realce
 
 
F, F, V, V.
 
 
 
F, V, V, V.
F, V, F, V.
V, V, F, F.
V, V, F, V.
PERGUNTA 4
Já sabemos o que são resumos ou sumários estatísticos, que fazem parte da análise
descritiva dos dados, ao lado das técnicas gráficas para a visualização dos dados.
Nesta unidade, usamos pela primeira vez a função summary() do software estatístico
R. 
 
Em relação ao output dessa função, aplicada a dados quantitativos, analise as
afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) A ordem do output é valor máximo, terceiro quartil, mediana, média, segundo
quartil e valor mínimo observado.
II. ( ) A ordem do output é valor mínimo, segundo quartil, mediana, média, terceiro
quartil e valor máximo observado.
III. ( ) O segundo quartil informa o valor da variável, acima do qual se encontram 25%
dos dados observados.
IV. ( ) A mediana informa o valor da variável, abaixo do qual se encontram 50% dos
dados observados.
 
Assinale a alternativa que apresenta a sequência correta:
F, F, F, F.
F, V, V, F.
F, F, V, V.
V, V, V, V.
F, V, F, V.
PERGUNTA 5
Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um modelo de
regressão logística múltipla aos dados da amostra. Os resultados que encontrou foram
muito ricos, sugerindo uma série de explicações, aprendidas pelo algoritmo com base
nos dados fornecidos. Veja que dizemos “explicações sugeridas”, pois qualquer
resultado de um algoritmo deve ser confrontado com especialistas da área em estudo.
Contudo, vamos rever o que o modelo de regressão múltipla treinado pela jovem
cientista de dados sugere. Para isso, analise as afirmativas a seguir.
 
1. A probabilidade da inadimplência cresce com o aumento dos gastos médios com
o cartão de crédito. Isto, que nos parece óbvio, foi o que os dados “contaram”
para o algoritmo de regressão logística múltipla.
2. A probabilidade da inadimplência cresce com o aumento da renda média mensal
das pessoas. Isto não é tão óbvio e provavelmente não teríamos coragem de
1 pontos SalvaSalva
1 pontos SalvaSalva
cs314397
Realce
cs314397
Realce
generalizar para outras situações, mas foi o que os dados da amostra do gerente
do banco “contaram” para o algoritmo de regressão logística múltipla.
3. Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal com
cartão de crédito, a probabilidade de inadimplência com o cartão é maior para
aquela sem emprego estável. Novamente, isto foi o que os dados amostrados
“contaram” para o algoritmo de regressão logística múltipla.
4. O modelo de regressão logística múltipla,ajustado aos dados da amostra,
consegue predizer os efeitos da renda mensal da pessoa, do seu gasto médio
mensal com cartão de crédito e se ela tem ou não um emprego estável, na
probabilidade de a pessoa ficar inadimplente com o cartão de crédito. Um
algoritmo desse tipo pode ajudar no processo decisório de um banco quanto à
aprovação de cartão de crédito, ao lado de outros critérios e ferramentas
analíticas disponíveis para o banco.
 
Está correto o que se afirma em:
 
 
III e IV, apenas.
II e III, apenas.
I e II, apenas.
II, III e IV, apenas.
I, II, III e IV.
 
 
PERGUNTA 6
Com o advento dos computadores, surgiu a necessidade de se estabelecer uma forma
de comunicação dos seres humanos com eles, o que provocou a criação de
linguagens de programação. 
 
Relativamente a esse assunto, analise as afirmativas a seguir.
 
I. Linguagens de programação não são importantes para a estatística, mas só para a
ciência dos dados. 
II. Uma das funções de linguagens de programação é viabilizar a comunicação dos
seres humanos com máquinas e das máquinas entre si.
III. São muitas as linguagens de programação que podem ser empregadas na
estatística e na ciência dos dados, mas há uma preferência, atualmente, pelas
linguagens R e Python.
IV. O R base já vem com todas as funções estatísticas e gráficas das quais
precisaremos em um curso introdutório de aplicações da estatística à ciência dos
dados.
 
Está correto o que se afirma em:
 
 
II e III, apenas.
I, II e III, apenas.
II e IV, apenas.
I, III e IV, apenas.
1 pontos SalvaSalva
cs314397
Realce
II, III e IV, apenas.
PERGUNTA 7
A visualização da relação entre duas variáveis é, habitualmente, feita por meio de
gráficos de dispersão, de boxplots (diagramas de caixas) ou de mosaic plots, este
último ainda não visto aqui. Mas o emprego dessas modalidades de gráficos segue
regras bem precisas, especificamente a que duas variáveis eles podem representar de
forma visual. 
 
Referente ao exposto, analise as afirmativas a seguir e assinale V para a(s)
Verdadeira(s) e F para a(s) Falsa(s). 
 
I. ( ) Para examinar visualmente a relação entre duas variáveis, em que uma é
quantitativa e a outra é qualitativa, não é possível a utilização de gráficos de
dispersão.
II. ( ) Boxplots são uma solução inteligente para a visualização da relação entre uma
variável quantitativa e uma variável qualitativa, em que, no eixo horizontal, indicamos
os níveis da variável qualitativa e, no eixo vertical, a variação dos valores observados
para a variável quantitativa.
III. ( ) Para examinar visualmente a relação entre duas variáveis quantitativas, um dos
gráficos preferidos é o diagrama de caixas, também conhecido como boxplot.
IV. ( ) Na construção de um boxplot, podemos representar, no eixo vertical, os níveis
da variável qualitativa e, no eixo horizontal, os valores da variável quantitativa. Nesse
caso, a visualização da variação dos dados da variável quantitativa é exibida
horizontalmente e os níveis (classes) da variável qualitativa são exibidos
verticalmente.
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
V, V, F, F.
F, F, V, V.
 
V, F, F, V.
F, V, V, F.
V, V, F, V.
PERGUNTA 8
Um jovem cientista de dados realizou uma análise de agrupamento de apenas cinco
estados americanos parte do famoso conjunto de dados USArrests, o qual possue 50
observações (50 estados americanos) de 4 variáveis (Murder, Assault, UrbanPop e
Rape). 
 
Obteve o resultado exibido na figura exibida adiante:
 
1 pontos SalvaSalva
1 pontos SalvaSalva
cs314397
Realce
cs314397
Realce
 
 
Figura - Dendrograma do agrupamento dos cinco estados
Fonte: Elaborada pelo autor
 
Relativamente à interpretação desta figura, assinale a alternativa correta:
 
 
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que sugere serem os
estados Texas e Arkansas os mais próximos em termos de violência urbana.
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que lido de cima para
baixo, na altura (height) 1,5 sugere a formação de 10 grupos.
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que representa os vários
grupos formados em cada estágio do processo de agrupamento hierárquico.
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que sugere serem os
estados New Mexico e Oklahoma os mais próximos em termos de violência urbana.
É um dendrograma, ou seja, um gráfico na forma de uma árvore, que lido de baixo para
cima, na altura (height) 1,5 sugere a formação de 6 grupos.
PERGUNTA 9
A estatística, a ciência da computação, a mineração de dados e a ciência dos dados
são áreas correlacionadas. Dentre essas, a mais antiga é a estatística, seguida da
ciência da computação, depois da mineração de dados, e finalmente da ciência dos
dados, a mais nova dessas quatro áreas de conhecimento. 
 
Com referência ao relacionamento entre essas quatro áreas de conhecimento
humano, analise as afirmativas a seguir:
 
I. Algoritmos de machine learning nasceram na ciência da computação. Hoje são
usados na estatística, na mineração de dados e na ciência dos dados.
II. Dentre as diversas áreas citadas, é a estatística que possui os melhores
fundamentos para a interpretação de fenômenos aleatórios.
III. A estatística é considerada a mais sutil, e a mais ampla, quando nos referimos a
análise de dados. É aplicada a todas áreas de atividade humana.
IV. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes,
herdados das outras áreas, para se referir a um mesmo conceito.
 
 
cs314397
Realce
I, III e IV apenas.
I, II e IV apenas.
I, II, III e IV.
II e III apenas.
I, II e III apenas.
PERGUNTA 10
O ser humano tem enorme facilidade em agrupar, por similaridade, e classificar coisas,
todos os tipos de coisas. Por conta disso, problemas de classificação são muito
frequentes no mundo, mais frequentes que problemas de regressão. Fornecemos
alguns exemplos de aplicação de métodos de classificação no mundo dos negócios.
Dentre esses exemplos, encontramos:
 
1. a Netflix usa classificadores para recomendar filmes. Para a Netflix, o valor
desse tipo de aplicação é que, quanto mais filmes assistirmos, maior será a sua
receita;
2. o Facebook usa classificadores para recomendar novas amizades para a nossa
rede de relacionamento. Para o Facebook, o valor desse tipo de aplicação é que,
quanto maior nossa rede de relacionamento, maior será a sua receita;
3. um banco de varejo usa classificadores para detectar se uma operação com
cartão de débito ou crédito é ou não uma operação fraudulenta. Para o banco, o
valor dessa aplicação é que, quanto antes operações fraudulentas forem
detectadas, mais rapidamente o banco pode agir para impedir perdas para seus
clientes e para ele próprio;
4. uma concessionária de distribuição de energia elétrica usa classificadores para
identificar casos potenciais de roubo de energia da rede, os famosos “gatos”.
Para as concessionárias de distribuição de energia elétrica, o valor dessa
aplicação é evitar prejuízo com o furto de energia da rede, além do relevante
aspecto de prevenção de acidentes decorrentes de instalações clandestinas.
 
Está correto o que se afirma em:
 
 
I e III, apenas.
 
 
 
I, II, III e IV.
I e II, apenas.
III e IV, apenas.
II e IV, apenas.
cs314397
Realce
cs314397
Realce

Continue navegando