Buscar

N2 Estatística Aplicada ao Data Science

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

O estatístico empregou gráficos clássicos, isto é, de emprego consagrado, para a
visualização de dados quantitativos e qualitativos, que são histogramas e diagramas de
barras.
Diante do exposto, analise as afirmativas a seguir.
I. O estatístico usou de histogramas para a visualização dos dados quantitativos das
amostras, quais sejam: a área, o andar e o valor do imóvel.
II. O estatístico usou de diagramas de barras para a visualização do único dado qualitativo
da amostra: a localização do imóvel.
III. Histogramas e diagramas de barra são formas tradicionais de visualização gráfica de
dados quantitativos e qualitativos, respectivamente, na estatística e na ciência dos dados.
IV. Gráficos de pizza são uma alternativa aos diagramas de barras para a representação
visual de dados qualitativos.
Está correto o que se afirma em:
II e III, apenas
A estatística, a ciência da computação, a mineração de dados e a ciência dos dados são
áreas correlacionadas. Dentre essas, a mais antiga é a estatística, seguida da ciência da
computação, depois da mineração de dados, e finalmente da ciência dos dados, a mais
nova dessas quatro áreas de conhecimento.
Com referência ao relacionamento entre essas quatro áreas de conhecimento humano,
analise as afirmativas a seguir:
I. Algoritmos de machine learning nasceram na ciência da computação. Hoje são usados
na estatística, na mineração de dados e na ciência dos dados.
II. Dentre as diversas áreas citadas, é a estatística que possui os melhores fundamentos
para a interpretação de fenômenos aleatórios.
III. A estatística é considerada a mais sutil, e a mais ampla, quando nos referimos a
análise de dados. É aplicada a todas áreas de atividade humana.
IV. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes,
herdados das outras áreas, para se referir a um mesmo conceito.
I, II, III e IV
Entre as técnicas das quais lançou mão para a visualização dos dados da amostra, uma
jovem cientista de dados usou gráficos de dispersão. Como cientista de dados, ela sabia
exatamente em que situações empregar gráficos de dispersão. E você, será que você
também já sabe?
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
1. ( ) Gráficos de dispersão, em inglês chamados de scatter plots, só podem ser
usados para a visualização de uma única variável, a qual deve ser
obrigatoriamente uma variável qualitativa.
2. ( ) Gráficos de dispersão são usados para a visualização da relação entre duas
variáveis quantitativas, em que os dados das duas variáveis são plotados aos
pares. Permite, dessa forma, a verificação visual, pelo estatístico ou pelo cientista
de dados, se há uma tendência de uma variável aumentar quando a outra
aumenta, diminuir quando a outra diminui, ou se não há uma relação aparente
entre as duas.
3. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor
do imóvel e a sua área. Esse tipo de gráfico é chamado, em inglês, de scatter plot.
4. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o valor
do imóvel e o seu andar. Esse tipo de gráfico é chamado, em inglês, de scatter
plot.
Assinale a alternativa que apresenta a sequência correta.
F V V V
Apresentamos o desenvolvimento de um algoritmo preditivo, com base em modelos de
regressão linear, a partir de um caso envolvendo a interação entre uma corretora de
imóveis e seu amigo estatístico.
Relativamente a esse caso, analise as afirmativas a seguir.
I. No estudo de caso discutido, a corretora não via razão para trabalhar com um algoritmo
preditivo de valor de venda de imóveis, pois isso não a ajudaria no desenvolvimento do
seu trabalho.
II. A corretora de imóveis passou para seu amigo estatístico uma amostra de tamanho n =
90, contendo dados relativos a imóveis vendidos pela imobiliária onde trabalhava.
III. As variáveis observadas na amostra são a área do imóvel, seu andar, sua localização e
o valor pelo qual havia sido vendido.
IV. Na amostra, a localização do imóvel foi dividida em cinco níveis (também denominados
classes): centro, zona norte, zona sul, zona leste e zona oeste.
Está correto o que se afirma em:
III, apenas
Vimos que dados podem ser classificados em dados estruturados e dados não
estruturados. Atribuímos um foco aos dados estruturados, de enorme importância para a
estatística e para a ciência dos dados. Ademais, há, na estatística e na ciência dos dados,
uma forma básica preferida de organização dos dados.
Com base no exposto, analise as afirmativas a seguir.
I. Dados retangulares são dados organizados na forma de tabelas, em que as variáveis
são dispostas nas colunas e as observações são dispostas nas linhas.
II. Os dados cedidos pela corretora ao seu amigo estatístico foram organizados na forma
de uma tabela, porém essa tabela não é um exemplo de dados retangulares, pois as
variáveis estão dispostas nas linhas e as observações nas colunas.
III. No R, as estruturas de dados organizados em tabelas, com as variáveis dispostas nas
colunas e as observações nas linhas, são denominadas data-frames. Esse conceito é
copiado no Python por meio da sua biblioteca “Pandas”.
IV. Na estatística, ou na ciência de dados, não há preferência por dados estruturados na
forma de data-frames, já que estatísticos e cientistas de dados podem trabalhar com
dados organizados em qualquer tipo de estrutura.
Está correto o que se afirma em:
I e III, apenas
A amostra relativa aos dados de inadimplência com cartões tinha 200 observações de 4
variáveis: a renda mensal da pessoa (R$), seu gasto médio com cartão de crédito (R$), se
a pessoa tinha um emprego estável (Sim ou Não) e se a pessoa havia, ao longo do
período pesquisado, ficado inadimplente com o pagamento de faturas do cartão ao menos
uma vez (Sim ou Não).
Reflita sobre esse caso, analise as afirmativas a seguir e assinale V para a(s)
Verdadeira(s) e F para a(s) Falsa(s).
1. ( ) Todos os dados fornecidos pelo gerente do banco à jovem cientista de dados
são dados relativos a variáveis quantitativas.
2. ( ) Todos os dados fornecidos pelo gerente do banco à jovem cientista de dados
são dados relativos a variáveis qualitativas.
3. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista de dados,
dois são relativos a uma variável quantitativa e dois são relativos a variáveis
qualitativas.
4. ( ) Dentre os dados fornecidos pelo gerente do banco à jovem cientista de dados,
um é relativo a uma variável quantitativa e os outros são relativos a variáveis
qualitativas.
Assinale a alternativa que apresenta a sequência correta.
F F V F
A atividade de venda de produtos financeiros por bancos, tais como cartões de crédito,
requer que se faça uma avaliação do cliente. São focos dessa avaliação aprovar ou não
um cartão de crédito para o cliente e, se aprovado, definir o limite do cartão, ou seja, o
valor do crédito a conceder.
Com base nessa introdução, analise as afirmativas a seguir.
1. O primeiro foco da avaliação é um problema de regressão: aprovar (sim ou não) o
cartão de crédito, uma variável qualitativa dicotômica, com dois níveis (classes).
2. O primeiro foco da avaliação é um problema de classificação: aprovar (sim ou não)
o cartão de crédito, uma variável qualitativa dicotômica, com dois níveis (classes).
3. O segundo foco da avaliação é um problema de classificação, predizer o valor do
limite (do crédito) do cartão.
4. O segundo foco da avaliação é um problema de regressão, predizer o valor do
limite (do crédito) do cartão.
Está correto o que se afirma em:
II e IV, apenas
Leia o excerto a seguir:
“O quadro típico para uma análise em ciência de dados é um objeto de dados
retangulares, como uma planilha ou tabela de banco de dados. Dado retangular é
basicamente uma matriz bidimensional com linhas indicando registros (caso) e colunas
indicando características (variáveis). Os dados nem sempre começam dessa forma: dados
não estruturados (por exemplo, texto) devem ser processados e tratados de modo a
serem representadoscomo um conjunto de características nos dados retangulares.”
BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 conceitos iniciais.
Rio de Janeiro: Alta Books, 2019. p. 5-6.
Tomando como base esse texto e o que já discutimos sobre dados estruturados, tabulares
e retangulares, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F
para a(s) Falsa(s).
I. ( ) É impossível converter dados não estruturados em representações estruturadas, para
que possam ser analisados pela ciência dos dados.
II. ( ) Dados retangulares não são uma forma típica de organização de dados para análise
em ciência dos dados.
III. ( ) Textos são dados estruturados, pois sempre vêm em estruturas bem padronizadas,
como aquelas que estudamos em gramática.
IV. ( ) Dados retangulares, dados tabulares ou dados estruturados são termos usados
como sinônimos na ciência dos dados.
Assinale a alternativa que apresenta a sequência correta:
F F F V
Leia o excerto a seguir:
“Uma parte fundamental do kit de ferramentas do cientista de dados é a visualização de
dados. Embora seja muito fácil criar visualizações é bem mais difícil produzir algumas
boas. Existem dois usos primários para a visualização de dados: - Para explorar dados. -
Para comunicar dados. Neste capítulo, nos concentraremos em construir habilidades das
quais você precisará para começar a explorar seus próprios dados e produzir
visualizações que usaremos no decorrer do livro. Como a maioria dos nossos tópicos do
capítulo, a visualização de dados é uma rica área de estudos que merece seu próprio
livro. Mas, mesmo assim, tentaremos mostrar o que é preciso e o que não é para uma boa
visualização.”
GRUS, J. Data science do zero: primeiras regras com Python. Rio de Janeiro: Alta Books,
2016. p. 37.
Considerando o excerto apresentado, em relação à visualização de dados, analise as
afirmativas a seguir:
I. O autor do texto considera a visualização de dados uma parte acessória ao trabalho do
cientista de dados.
II. O autor considera fácil criar visualizações de dados, porém acha difícil criar boas
visualizações de dados.
III. O autor considera que, por ser fácil criar visualizações de dados, não há razão para
merecer seu próprio livro.
IV. O autor deixa claro que existem dois usos primários para a visualização de dados:
explorar dados e comunicar dados.
Está correto o que se afirma em:
II e IV, apenas
Na estatística ou, genericamente, na análise de dados, muito frequentemente analisamos
dados ditos retangulares ou estruturados, onde as variáveis - quantitativas ou qualitativas
- são dispostas nas colunas e as observações na linhas de uma tabela. Em algumas
situações é vantajoso se fazer a padronização das variáveis quantitativas.
Assinale a alternativa correta relativamente ao assunto de padronização de variáveis
quantitativas na estatística:
Na padronização, se subtrai de cada variável sua média, e depois se divide o resultado
pelo seu desvio padrão.

Outros materiais