N2 - ESTATÍSTICA APLICADA AO DATA SCIENCE

•

UNIRITTER

13

3

13

3

0

Tatiane Alves

07/12/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Science

2.230 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

N2 – ESTATÍSTICA APLICADA AO DATA SCIENCE 
 
PERGUNTA 1 
Há diferentes formas de descrever as principais etapas de desenvolvimento de 
um algoritmo preditivo, mas sempre encontraremos muitas similaridades entre 
essas diferentes formas. Aqui, apresentamos uma que divide o desenvolvimento 
de um algoritmo preditivo em 10 etapas. 
 
Em relação a esse assunto, analise as afirmativas a seguir. 
 
I. Nas coletas de dados, não é importante evitar vícios de amostragens, pois os 
modelos e algoritmos preditivos são imunes a dados viciados. 
II. A análise descritiva dos dados sempre vem depois das etapas de treino 
(ajuste) e teste do modelo (algoritmo) aos dados coletados. 
III. A etapa de feedback do cliente (ou do usuário) do modelo preditivo é muito 
importante, pois só assim saberemos se atingiu o propósito para o qual foi 
desenvolvido. Com base no feedback do cliente, podemos produzir 
melhoramentos no modelo. 
IV. A etapa de teste de um modelo (algoritmo) preditivo é realizada para verificar 
a sua performance preditiva. 
 
Está correto o que se afirma em: 
 III e IV, apenas. 
 III, apenas. 
 IV, apenas. 
 II e III, apenas. 
 I e III, apenas 
 
PERGUNTA 2 
A estatística descritiva usa de métodos numéricos para resumir dados, também 
chamados de sumários estatísticos, e de gráficos para a visualização dos dados. 
A jovem cientista de dados usou algumas técnicas de visualização de dados para 
analisar sua amostra, mas deixou outras de lado. 
 
Analise as afirmativas a seguir e veja quais estão coerentes com sua análise 
descritiva dos dados. 
 
1. Na sua análise descritiva dos dados da amostra, a jovem cientista de dados usou 
histogramas para a visualização dos dados quantitativos das amostras, que são 
a renda mensal das pessoas e seus gastos médios com o cartão de crédito. 
2. Na sua análise descritiva dos dados da amostra, a jovem cientista de dados usou 
diagramas de barras para a visualização dos dados quantitativos das amostras, 
que são a renda mensal das pessoas e seus gastos médios com o cartão de 
crédito. 
3. Histogramas e diagramas de barras são formas tradicionais de visualização 
gráfica de dados quantitativos e qualitativos, respectivamente, na estatística e 
na ciência dos dados. 
4. A jovem cientista de dados usou, para este caso, apenas histogramas, e preferiu 
apenas lançar mão da função table() do software estatístico R, para determinar 
a frequência com que os níveis das variáveis qualitativas se manifestaram na 
amostra estudada, sem fazer uso de diagramas de barras, o que poderia ter feito, 
se quisesse. 
 
Está correto o que se afirma em: 
 
 
I e IV, apenas. 
 
 
II e III, apenas. 
 
 
IV, apenas. 
 
 
I e II, apenas. 
 
 
I, III e IV apenas. 
 
PERGUNTA 3 
Leia o excerto a seguir: 
 
“Os modelos de árvores, também chamados de Árvores de Classificação e 
Regressão , árvores de decisão ou apenas árvores , são um método de 
classificação (e regressão) efetivo e popular, inicialmente desenvolvido por Leo 
Breiman e outros em 1984. Os modelos de árvores e seus descendentes mais 
potentes, florestas aleatórias e boosting , formam a base das ferramentas de 
modelagem preditiva mais potentes e amplamente usadas na ciência de dados 
tanto para regressão quanto para classificação.” 
 
BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados: 50 conceitos 
iniciais. Rio de Janeiro: Alta Books, 2019. p. 226. 
 
Quanto às árvores de decisão para classificação e regressão, analise as 
afirmativas a seguir: 
 
I. Uma árvore faz partição recursiva das variáveis de entrada, selecionando uma 
de cada vez, de forma hierárquica, das mais importante às menos importantes, 
a cada estágio da sua construção, até chegar aos nós terminais, suas folhas, em 
que exibe os valores estimados para a variável resposta. 
II. A cada estágio da construção da árvore, o nó inicial e depois os nós 
intermediários dividem o domínio da variável de entrada em questão, de onde 
bifurcam os seus ramos para a esquerda e para a direita. Os valores exibidos no 
nó indicam como se deve ler a árvore, ao se caminhar pelos ramos à esquerda 
ou à direita do nó em questão. 
III. Em cada um dos nós intermediários, assim como no nó inicial, há um valor 
quantitativo ou qualitativo, que representa o valor escolhido pela árvore para 
fazer a partição da variável tratada naquele estágio da construção da árvore. 
IV. Em árvores de decisão de classificação ou regressão, folha é um termo que 
designa os nós terminais das árvores, nos quais são exibidos os valores 
estimados para a variável resposta do modelo preditivo. Cada caminho da árvore 
indica, dessa forma, o valor a estimar para os valores das variáveis de entrada, 
informadas no caminho do nó inicial até a folha. 
 
Está correto o que se afirma em: 
 
 
I, II e III, apenas. 
 
 
I e IV, apenas. 
 
 
II, III e IV, apenas. 
 
 
II e III, apenas. 
 
 
I, II, III e IV. 
 
PERGUNTA 4 
Muitos dos modelos ou algoritmos usados na estatística e na ciência dos dados 
são denominados modelos paramétricos, ou seja, que possuem parâmetros. 
Esses parâmetros devem ser determinados quando se treina (se ajusta) o 
modelo ou algoritmo aos dados amostrados. Na regressão linear simples ou 
múltipla, esses parâmetros são denominados coeficientes do modelo. 
 
A respeito dos coeficientes do modelo de regressão linear simples para o valor 
do imóvel em função da sua área, analise as afirmativas a seguir. 
 
I. O estatístico usou o software R e obteve, para os coeficientes do modelo de 
regressão linear simples do valor do imóvel em função da sua área, b0 = 27,22 e 
b1 = 5,15. 
II. Os coeficientes do modelo de regressão linear simples do valor do imóvel em 
função da sua área possuem unidades, que são, respectivamente, kR$ (mil 
reais) para b0 e kR$/m2 (mil reais dividido pela área do imóvel) para b1. 
III. O coeficiente b0 é a intersecção da reta do modelo com o eixo vertical y 
quanto x1 = 0. Não tem um significado “real” nesse caso, pois não há imóveis 
com área igual a zero. Deve ser entendido, nessa situação, apenas como um 
parâmetro de ajuste do modelo aos dados da amostra. 
IV. O coeficiente b1 indica quanto varia o valor esperado do imóvel para um 
aumento de 1 metro quadrado da sua área. Graficamente, esse coeficiente é a 
inclinação da reta que representa o modelo de regressão linear simples ajustado 
aos dados da amostra. 
 
Está correto o que se afirma em: 
 
 
I, II, III e IV 
 
 
II, III e IV, apenas. 
 
 
III e IV, apenas. 
 
 
II e III, apenas. 
 
 
I e II, apenas. 
 
 
 
PERGUNTA 5 
Iniciamos a nossa jornada, pelo mundo da “Estatística Aplicada à Ciência dos 
Dados”, com modelos preditivos denominados regressão linear, simples e 
múltipla. Vimos algumas coisas, mas não vimos outras, pois esta é apenas uma 
jornada inicial motivadora. O seu propósito foi o de apenas descortinar um 
pouquinho desse vasto mundo para você. Desse modo, tentaremos fazer um 
breve resumo dessa jornada aqui. 
 
Para isso, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e 
F para a(s) Falsa(s). 
 
I. ( ) Dados e amostras . Vimos que podemos fazer análise descritiva de um 
processo apenas se tivermos dados sobre esse processo. Esses dados devem 
ser coletados do fenômeno ou processo estudado (população). Denominamos 
esses dados como amostra. 
II. ( ) Análise descritiva . Tendo em mãos uma amostra, a análise descritiva se 
refere a sumários (resumos) estatísticos calculados com base nessa amostra 
(mínimos, máximos, frequências, médias, medianas, desvios-padrões etc.) e 
visualizações produzidas por meio de gráficos. 
III. ( ) Visualização dos dados relativos a uma variável . Esses gráficos são 
divididos em duas grandes famílias. Uma delas são de gráficos que permitem a 
visualização do comportamento de dados quantitativos. Aqui, mostramos o 
histograma, que é o mais importante dentro dessa família. A outra família são de 
gráficos que permitem a visualização de dados qualitativos. Aqui,mostramos o 
diagrama de barras, que é o mais importante dentro dessa família. 
IV. ( ) Visualização da relação entre duas variáveis . Finalmente, também na 
análise descritiva do processo ou fenômeno observado, vimos gráficos que se 
aplicam à visualização da relação entre duas variáveis, a partir dos dados 
observados. Se as duas variáveis são quantitativas, usamos, aqui, o gráfico de 
dispersão. Por exemplo, o valor do imóvel versus sua área. Quando a relação é 
entre uma variável quantitativa e uma variável qualitativa, usamos, aqui, os 
boxplots (diagramas de caixas), cada boxplot referente a um determinado nível 
da variável qualitativa (bairro ou centro) e, dentro dele, como se comporta a 
variável quantitativa. 
V. ( ) Coisas que não vimos aqui . Há muitas coisas que não vimos aqui. São 
coisas sobre as quais você poderá ver, caso decida aprender mais sobre essas 
poderosas áreas do conhecimento humano, a estatística e a ciência dos dados, 
muito valorizadas pelo mercado de trabalho. 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
V, V, V, V, V. 
 
 
V, V, F, F, F. 
 
 
V, F, F, V, V. 
 
 
V, V, F, V, F. 
 
 
F, V, V, F, V. 
 
 
PERGUNTA 6 
Entre as técnicas das quais lançou mão para a visualização dos dados da 
amostra, uma jovem cientista de dados usou boxplots (diagramas de caixas). 
Como cientista de dados, ela sabia exatamente em que situações empregar 
boxplots. E você, será que você também já sabe? 
 
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) 
Falsa(s). 
 
1. ( ) Para examinar visualmente a relação entre duas variáveis, em que uma é 
quantitativa e a outra é qualitativa, não é possível a utilização de gráficos de 
dispersão. 
2. ( ) Boxplots são uma solução inteligente para a visualização da relação entre 
uma variável quantitativa e uma variável qualitativa, em que no eixo horizontal 
indicamos os níveis da variável qualitativa e no eixo vertical, a variação dos 
valores observados para a variável quantitativa. 
3. ( ) Para examinar visualmente a relação entre duas variáveis quantitativas, um 
dos gráficos preferidos é o diagrama de caixas, também conhecido como 
boxplot. 
4. ( ) Na construção de um boxplot, podemos representar no eixo vertical os níveis 
da variável qualitativa e no eixo horizontal, os valores da variável quantitativa. 
Nesse caso, a visualização da variação dos dados da variável quantitativa é 
exibida horizontalmente, e os níveis (classes) da variável qualitativa são exibidos 
verticalmente. 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
V, F, F, V. 
 
 
V, V, F, V. 
 
 
V, V, F, F. 
 
 
F, V, V, F. 
 
 
F, F, V, V. 
 
 
PERGUNTA 7 
Entre as técnicas das quais lançou mão para a visualização dos dados da 
amostra, uma jovem cientista de dados usou gráficos de dispersão. Como 
cientista de dados, ela sabia exatamente em que situações empregar gráficos 
de dispersão. E você, será que você também já sabe? 
 
Analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) 
Falsa(s). 
 
1. ( ) Gráficos de dispersão, em inglês chamados de scatter plots, só podem ser 
usados para a visualização de uma única variável, a qual deve ser 
obrigatoriamente uma variável qualitativa. 
2. ( ) Gráficos de dispersão são usados para a visualização da relação entre duas 
variáveis quantitativas, em que os dados das duas variáveis são plotados aos 
pares. Permite, dessa forma, a verificação visual, pelo estatístico ou pelo 
cientista de dados, se há uma tendência de uma variável aumentar quando a 
outra aumenta, diminuir quando a outra diminui, ou se não há uma relação 
aparente entre as duas. 
3. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o 
valor do imóvel e a sua área. Esse tipo de gráfico é chamado, em inglês, de 
scatter plot. 
4. ( ) Um gráfico de dispersão foi usado para exibir, em pares, a relação entre o 
valor do imóvel e o seu andar. Esse tipo de gráfico é chamado, em inglês, de 
scatter plot. 
 
Assinale a alternativa que apresenta a sequência correta. 
 
 
V, V, F, V. 
 
 
V, V, F, F. 
 
 
F, F, V, V. 
 
 
F, V, V, V. 
 
 
F, V, F, V. 
 
PERGUNTA 8 
Modelos de regressão linear são os mais importantes modelos de regressão da 
estatística e da ciência dos dados. Eles são divididos em dois grupos: modelos 
de regressão linear simples e modelos de regressão linear múltipla. 
 
Quanto ao modelo de regressão linear múltipla para o valor do imóvel em função 
da sua área e do seu andar, analise as afirmativas a seguir. 
 
I. O estatístico desenvolveu um modelo para o valor esperado de y (valor do 
imóvel) em função de x1 (área do imóvel) e x2 (andar do imóvel), 
simultaneamente. Esse modelo ficou assim: y= – 2,59 + 5,12 x1 + 6,34 x2 
II. Quando se faz o ajuste simultâneo do modelo para duas variáveis de entrada, 
é natural que os valores dos coeficientes para cada variável sejam diferentes do 
que os mesmos coeficientes para cada variável sozinha em uma regressão linear 
simples. Isso vale sempre que adicionamos variáveis de entrada ou eliminamos 
variáveis de entrada de um modelo de regressão linear. 
III. Os coeficientes b1 e b2 indicam, respectivamente, quanto varia o valor 
esperado para o apartamento com a variação unitária de sua área (em metros 
quadrados) e a variação unitária do seu andar (1 andar a mais). 
IV. Ao usar esse modelo preditivo, podemos estimar o valor esperado de um 
apartamento com 40 metros quadrados localizado no quinto andar em 433 mil 
reais (arredondando para mil reais). 
Está correto o que se afirma em: 
 
 
I e II, apenas. 
 
 
I, II e III, apenas. 
 
 
I, II, III e IV. 
 
 
III e IV, apenas. 
 
 
II e III, apenas. 
 
PERGUNTA 9 
O modelo de regressão logística simples desenvolvido por uma jovem cientista 
de dados para a predição da probabilidade de inadimplência com o cartão de 
crédito foi: 
 
P(x2) = [ exp(– 4,16 + 0,0314x2) ] / [ 1 + exp(– 4,16 + 0,00314x2) ] 
 
Tomando como base esse modelo, que foi ajustado aos dados da amostra 
cedida pelo gerente, podemos estimar o valor esperado para a probabilidade de 
inadimplência com cartão de crédito das pessoas. Por exemplo, vamos 
considerar duas pessoas, uma com um gasto de médio mensal com o cartão de 
R$ 500,00, e a outra com um gasto médio mensal de R$ 1.000,00. Usando o 
modelo ajustado anterior, obtemos, respectivamente (assinale a alternativa 
correta): 
 
 
 
7% e 27%. 
 
 
37% e 17%. 
 
 
17% e 27%. 
 
 
27% e 7%. 
 
 
7% e 37% . 
 
PERGUNTA 10 
A estatística, a ciência da computação, a mineração de dados e a ciência dos 
dados são áreas correlacionadas. Dentre essas, a mais antiga é a estatística, 
seguida da ciência da computação, depois da mineração de dados, e finalmente 
da ciência dos dados, a mais nova dessas quatro áreas de conhecimento. 
 
Com referência ao relacionamento entre essas quatro áreas de conhecimento 
humano, analise as afirmativas a seguir: 
 
I. Algoritmos de machine learning nasceram na ciência da computação. Hoje são 
usados na estatística, na mineração de dados e na ciência dos dados. 
II. Dentre as diversas áreas citadas, é a estatística que possui os melhores 
fundamentos para a interpretação de fenômenos aleatórios. 
III. A estatística é considerada a mais sutil, e a mais ampla, quando nos referimos 
a análise de dados. É aplicada a todas áreas de atividade humana. 
IV. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos 
diferentes, herdados das outras áreas, para se referir a um mesmo conceito. 
 
 
 
II e III apenas. 
 
 
I, II e IV apenas. 
 
 
I, II e III apenas. 
 
 
I, III e IV apenas. 
 
 
I, II, III e IV.