Probabilidade e Estatistica A5

•

UNIFACS

8

28

8

28

1

Moisés Amaral

13/06/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Probabilidade e Estatística

29.661 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

PERGUNTA 1
1. Usamos gráficos para a visualização do comportamento (a descoberta de padrões), tanto de cada variável individualmente quanto da relação entre variáveis (o comportamento de uma em relação à outra). Ambas visualizações, seja da variável individualmente, seja da sua possível relação com outra variável, são de grande utilidade.
Quanto aos gráficos para a visualização da relação entre duas variáveis, analise as afirmativas a seguir:
I. Gráficos de dispersão são usados para a visualização da relação entre duas variáveis quantitativas.
II. Boxplots são usados para a visualização da relação entre uma variável quantitativa e uma variável qualitativa (ou os níveis de uma variável qualitativa).
III. Mosaic plots são usados para a visualização entre duas variáveis qualitativas (ou, em outras palavras, entre os níveis de duas variáveis qualitativas).
IV. Em qualquer uma das situações descritas acima, sempre exibiremos uma das variáveis no eixo horizontal e a outra no eixo vertical.
Está correto o que se afirma em:

I e IV, apenas.

I, II, III e IV.

I, II e III, apenas.

II e III, apenas.

II, III e IV, apenas.
1 pontos
PERGUNTA 2
1. Leia o excerto a seguir:
“Uma rede neural artificial (ou rede neural) é um modelo preditivo motivado pelo forma como funciona o cérebro humano. Pense no cérebro como uma coleção de neurônios conectados. Cada neurônio olha para a saída dos outros neurônios que o alimentam, faz um cálculo e então ele dispara (se o cálculo exceder algum limite) ou não (se não exceder) [...] Redes neurais podem resolver uma variedade de problemas como reconhecimento de caligrafia e detecção facial, e elas são muito usadas em deep learning (aprendizado profundo), uma das subáreas mais populares de data science. Entretanto, a maioria das redes neurais são “caixas-pretas” - inspecionar seus detalhes não lhe fornece muito entendimento de como elas estão resolvendo um problema. E grandes redes neurais podem ser difíceis de treinar. Para a maioria dos problemas você encontrará como um cientista de dados, elas provavelmente não são a melhor solução [...]”.
GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta Books, 2016. p. 213.
Tomando como base esse texto sobre redes neurais artificiais, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) Uma rede neural artificial, também chamada simplesmente de rede neural, é um modelo preditivo motivado pela forma como o cérebro funciona.
II. ( ) Em uma rede neural artificial, há vários neurônios que se interconectam, e o resultado do cálculo de um alimenta a entrada de outros.
III. ( ) Redes neurais, como são modelos preditivos que tomam como base o funcionamento do cérebro, são de muito fácil interpretação.
IV. ( ) Redes neurais, como são modelos preditivos, podem ser usadas para tarefas tais como reconhecimento de caligrafia e detecção facial.
Assinale a alternativa que apresenta a sequência correta:

V, V, F, V.

F, V, F, V.

V, V, V, V.

V, V, F, F.

F, F, F, F.
1 pontos
PERGUNTA 3
1. Os dados cedidos pelo gerente do banco estavam bem organizados e livres de erros. A nossa jovem cientista de dados não precisou, portanto, fazer uma limpeza e pré-tratamento dos dados e pode prosseguir imediatamente para uma análise descritiva deles antes do desenvolvimento do modelo.
Tendo isso em vista, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
1. ( ) Chamamos de análise descritiva dos dados seus sumários (ou resumos) estatísticos dos mesmos e a sua visualização. Ambos, os sumários e as visualizações, nos ajudam a entender o comportamento dos dados e, através deles, do fenômeno ou processo estudado.
2. ( ) São quatro as variáveis estudadas pela cientista de dados: renda mensal da pessoa, seus gastos médios com o cartão, se a pessoa tinha ou não um emprego estável ao longo do período amostrado e se ficou ou não inadimplente ao longo do deste período.
3. ( ) Para criar sumários estatísticos das variáveis quantitativas, a renda mensal da pessoa e seus gastos com o cartão, a cientista de dados usou as funções min(), mean() e max() do software estatístico R para calcular os valores mínimo, médio e máximo dos dados observados para essas variáveis.
4. ( ) Para criar sumários estatísticos das variáveis qualitativas, se a pessoa tinha ou não um emprego estável e se tinha ou não ficado inadimplente com o pagamento das faturas do cartão ao longo do período amostrado, a cientista de dados usou a função table() do software estatístico R para calcular a frequência com que os níveis de cada uma dessas variáveis se manifestaram na amostra estudada.
Assinale a alternativa que apresenta a sequência correta.

F, F, V, V.

V, V, F, F.

V, V, V, V.

V, F, F, V.

F, V, V, F.
1 pontos
PERGUNTA 4
1. Muitos dos modelos ou algoritmos usados na estatística e na ciência dos dados são denominados modelos paramétricos, ou seja, que possuem parâmetros. Esses parâmetros devem ser determinados quando se treina (se ajusta) o modelo ou algoritmo aos dados amostrados. Na regressão linear simples ou múltipla, esses parâmetros são denominados coeficientes do modelo.
A respeito dos coeficientes do modelo de regressão linear simples para o valor do imóvel em função da sua área, analise as afirmativas a seguir.
I. O estatístico usou o software R e obteve, para os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua área, b0 = 27,22 e b1 = 5,15.
II. Os coeficientes do modelo de regressão linear simples do valor do imóvel em função da sua área possuem unidades, que são, respectivamente, kR$ (mil reais) para b0 e kR$/m2 (mil reais dividido pela área do imóvel) para b1.
III. O coeficiente b0 é a intersecção da reta do modelo com o eixo vertical y quanto x1 = 0. Não tem um significado “real” nesse caso, pois não há imóveis com área igual a zero. Deve ser entendido, nessa situação, apenas como um parâmetro de ajuste do modelo aos dados da amostra.
IV. O coeficiente b1 indica quanto varia o valor esperado do imóvel para um aumento de 1 metro quadrado da sua área. Graficamente, esse coeficiente é a inclinação da reta que representa o modelo de regressão linear simples ajustado aos dados da amostra.
Está correto o que se afirma em:

I, II, III e IV.

II, III e IV, apenas.

III e IV, apenas.

II e III, apenas.

I e II, apenas.
1 pontos
PERGUNTA 5
1. A estatística, a ciência da computação, a mineração de dados e a ciência dos dados são áreas correlacionadas. Dentre essas, a mais antiga é a estatística, seguida da ciência da computação, depois da mineração de dados, e finalmente da ciência dos dados, a mais nova dessas quatro áreas de conhecimento.
Com referência ao relacionamento entre essas quatro áreas de conhecimento humano, analise as afirmativas a seguir:
I. Algoritmos de machine learning nasceram na ciência da computação. Hoje são usados na estatística, na mineração de dados e na ciência dos dados.
II. Dentre as diversas áreas citadas, é a estatística que possui os melhores fundamentos para a interpretação de fenômenos aleatórios.
III. A estatística é considerada a mais sutil, e a mais ampla, quando nos referimos a análise de dados. É aplicada a todas áreas de atividade humana.
IV. Sabemos que, na ciência dos dados, podem-se utilizar de muitos termos diferentes, herdados das outras áreas, para se referir a um mesmo conceito.

II e III apenas.

I, II, III e IV.

I, II e III apenas.

I, II e IV apenas.

I, III e IV apenas.
1 pontos
PERGUNTA 6
1. Vimos que uma jovem cientista de dados realizou o treino (ajuste) de um modelo de regressão logística múltipla aos dados da amostra. Os resultados que encontrou foram muito ricos, sugerindo uma série de explicações, aprendidas pelo algoritmo com base nos dados fornecidos. Veja que dizemos “explicações sugeridas”,pois qualquer resultado de um algoritmo deve ser confrontado com especialistas da área em estudo. Contudo, vamos rever o que o modelo de regressão múltipla treinado pela jovem cientista de dados sugere. Para isso, analise as afirmativas a seguir.
1. A probabilidade da inadimplência cresce com o aumento dos gastos médios com o cartão de crédito. Isto, que nos parece óbvio, foi o que os dados “contaram” para o algoritmo de regressão logística múltipla.
2. A probabilidade da inadimplência cresce com o aumento da renda média mensal das pessoas. Isto não é tão óbvio e provavelmente não teríamos coragem de generalizar para outras situações, mas foi o que os dados da amostra do gerente do banco “contaram” para o algoritmo de regressão logística múltipla.
3. Para duas pessoas com a mesma renda mensal e o mesmo gasto mensal com cartão de crédito, a probabilidade de inadimplência com o cartão é maior para aquela sem emprego estável. Novamente, isto foi o que os dados amostrados “contaram” para o algoritmo de regressão logística múltipla.
4. O modelo de regressão logística múltipla, ajustado aos dados da amostra, consegue predizer os efeitos da renda mensal da pessoa, do seu gasto médio mensal com cartão de crédito e se ela tem ou não um emprego estável, na probabilidade de a pessoa ficar inadimplente com o cartão de crédito. Um algoritmo desse tipo pode ajudar no processo decisório de um banco quanto à aprovação de cartão de crédito, ao lado de outros critérios e ferramentas analíticas disponíveis para o banco.
Está correto o que se afirma em:

II e III, apenas.

I, II, III e IV.

II, III e IV, apenas.

I e II, apenas.

III e IV, apenas.
1 pontos
PERGUNTA 7
1. A estatística descritiva usa de métodos numéricos para resumir dados, também chamados de sumários estatísticos, e de gráficos para a visualização dos dados. A jovem cientista de dados usou algumas técnicas de visualização de dados para analisar sua amostra, mas deixou outras de lado.
Analise as afirmativas a seguir e veja quais estão coerentes com sua análise descritiva dos dados.
1. Na sua análise descritiva dos dados da amostra, a jovem cientista de dados usou histogramas para a visualização dos dados quantitativos das amostras, que são a renda mensal das pessoas e seus gastos médios com o cartão de crédito.
2. Na sua análise descritiva dos dados da amostra, a jovem cientista de dados usou diagramas de barras para a visualização dos dados quantitativos das amostras, que são a renda mensal das pessoas e seus gastos médios com o cartão de crédito.
1. Histogramas e diagramas de barras são formas tradicionais de visualização gráfica de dados quantitativos e qualitativos, respectivamente, na estatística e na ciência dos dados.
1. A jovem cientista de dados usou, para este caso, apenas histogramas, e preferiu apenas lançar mão da função table() do software estatístico R, para determinar a frequência com que os níveis das variáveis qualitativas se manifestaram na amostra estudada, sem fazer uso de diagramas de barras, o que poderia ter feito, se quisesse.
Está correto o que se afirma em:

I e II, apenas.

I, III e IV apenas.

IV, apenas.

II e III, apenas.

I e IV, apenas.
1 pontos
PERGUNTA 8
1. Leia o excerto a seguir:
“Normalização: É comum normalizar (padronizar) variáveis contínuas através da subtração da média e divisão pelo desvio-padrão, ou então as variáveis com grande escala dominarão o processo de agrupamento (veja Padronização (Normalização, Escores Z), no Capítulo 6).”
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados : 50 conceitos iniciais. Rio de Janeiro: Alta Books, 2019, p. 265.
A partir do apresentado, analise as asserções a seguir e a relação proposta entre elas.
I. Sabemos que, na estatística ou na ciência dos dados, é comum normalizar (padronizar) variáveis quantitativas, ou variáveis contínuas, antes da realização de uma análise de agrupamento.
Pois
II. No conjunto de dados observados (a amostra de dados), podem existir variáveis que estão em uma escala muito maior que as outras, e a medida de distância entre observações dessas variáveis dominarão o resultado da análise de agrupamento, na formação dos grupos de observações similares entre si.

A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.

A asserção I é uma proposição verdadeira e a asserção II é uma proposição falsa.

As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.

As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I.

As asserções I e II são proposições falsas.
1 pontos
PERGUNTA 9
1. Já sabemos o que são resumos ou sumários estatísticos, que fazem parte da análise descritiva dos dados, ao lado das técnicas gráficas para a visualização dos dados. Nesta unidade, usamos pela primeira vez a função summary() dosoftware estatístico R.
Em relação ao output dessa função, aplicada a dados quantitativos, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) A ordem do output é valor máximo, terceiro quartil, mediana, média, segundo quartil e valor mínimo observado.
II. ( ) A ordem do output é valor mínimo, segundo quartil, mediana, média, terceiro quartil e valor máximo observado.
III. ( ) O segundo quartil informa o valor da variável, acima do qual se encontram 25% dos dados observados.
IV. ( ) A mediana informa o valor da variável, abaixo do qual se encontram 50% dos dados observados.
Assinale a alternativa que apresenta a sequência correta:

F, V, F, V.

V, V, V, V.

F, F, F, F.

F, F, V, V.

F, V, V, F.
1 pontos
PERGUNTA 10
1. Leia o excerto a seguir:
“O vice-presidente de Talentos da DataSciencester entrevistou um número de candidatos para emprego do site, com níveis de sucesso variados. Ele coletou um conjunto de dados com vários atributos (qualitativos) de cada candidato, bem como se o candidato se saiu bem ou mal na entrevista. Você poderia usar esses dados para construir um modelo identificando quais candidatos farão boas entrevistas, para que ele não precise perder tempo fazendo entrevistas? [...] Isso parece perfeito para uma árvore de decisão, outra ferramenta de modelagem de previsão no kit de um cientista de dados.”
GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta Books, 2016. p. 201.
Tomando como base esse texto e o conteúdo apresentado sobre árvores de decisão, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) A resposta à pergunta “Você poderia usar dados para construir um modelo identificando quais candidatos farão boas entrevistas, para que o vice-presidente não precise perder tempo entrevistando-os?” é “não”.
II. ( ) Uma árvore de decisão pode ser desenvolvida para o processo de seleção de candidatos, em que as variáveis de entrada seriam um conjunto de dados com vários atributos (qualitativos) de cada candidato.
III. ( ) O autor do texto imagina poder usar uma árvore de decisão para o processo de seleção de candidatos, em que a variável de saída é qualitativa dicotômica — se o candidato se sairá bem ou mal na entrevista.
IV. ( ) Neste caso, em particular, pode-se aplicar uma árvore de decisão de classificação para o processo de seleção, pois a variável resposta é qualitativa, porém árvores de decisão também podem ser usadas para problemas de regressão.
Assinale a alternativa que apresenta a sequência correta:

F, V, F, V.

V, V, V, F.

F, V, V, F.

V, V, F, V.

F, V, V, V.
PERGUNTA 1

1.

Usamos

gráficos

para

a

visualização

do

comportamento

(a

descoberta

de

padrões),

tanto

de

cada

variável

individualmente

quanto

da

relação

entre

variáveis

(o

comportamento

de

uma

em

relação

à

outra).Ambas

visualizações,

se
ja

da

variável

individualmente,

seja

da

sua

possível

relação

com

outra

variável,

são

de

grande

utilidade.

Quanto

aos

gráficos

para

a

visualização

da

relação

entre

duas

variáveis,

analise

as

afirmativas

a

seguir:

I.

Gráficos

de

dispersão

são

usados

para

a

visualização

da

relação

entre

duas

variáveis

quantitativas.

II.

Boxplots

são

usados

para

a

visualização

da

relação

entre

uma

variável

quantitativa

e

uma

variável

qualitativa

(ou

os

níveis

de

uma

variável

qualitativa).

III.

Mosaic

plots

são

usados

para

a

visualização

entre

duas

variáveis

qualitativas

(ou,

em

outras

palavras,

entre

os

níveis

de

duas

variáveis

qualitativas).

IV.

Em

qualquer

uma

das

situações

descritas

acima,

sempre

exibiremos

uma

das

variáveis

no

eixo

horizontal

e

a

outra

no

eixo

vertical.

Está

correto

o

que

se

afirma

em:

I e IV, apenas.

I, II, III e IV.

I, II e III, apenas.

II e III, apenas.

II, III e IV, apenas.

1

pontos

PERGUNTA 2

1.

Leia

o

excerto

a

seguir:

“Uma

rede

neural

artificial

(ou

rede

neural)

é

um

modelo

preditivo

motivado

pelo

forma

como

funciona

o

cérebro

humano.

Pense

no

cérebro

como

uma

coleção

de

neurônios

conectados.

Cada

neurônio

olha

para

a

saída

dos

outros

neurônios

que

o

alimentam,

faz

um

cálculo

e

então

ele

dispara

(se

o

cálculo

exceder

algum

limite)

ou

não

(se

não

exceder)

[...]

Redes

neurais

podem

resolver

uma

variedade

de

pr
oblemas

como

reconhecimento

de

caligrafia

e

detecção

facial,

e

elas

são

muito

usadas

em

deep

learning

(aprendizado

profundo),

uma

das

subáreas

mais

populares

de

data

science.

Entretanto,

a

maioria

das

redes

neurais

são

“caixas
-
pretas”

-

inspecionar

seus

de
talhes

não

lhe

fornece

muito

entendimento

de

como

elas

estão

resolvendo

um

problema.

E

grandes

redes

neurais

podem

ser

difíceis

de

treinar.

Para

a

maioria

dos

problemas

você

encontrará

como

um

cientista

de

dados,

elas

provavelmente

não

são

a

melhor

solução

[...]”.

GRUS,

J.

Data

science

do

zero:

primeiras

regras

com

o

Python.

Rio

de

Janeiro:

Alta

Books,

2016.

p.

213.

Tomando

como

base

esse

texto

sobre

redes

neurais

artificiais,

analise

as

afirmativas

a

seguir

e

assinale

V

para

a(s)

Verdadeira(s)

e

F

para

a(s)

Falsa(s).

I.

(

)

Uma

rede

neural

artificial,

também

chamada

simplesmente

de

rede

neural,

é

um

modelo

preditivo

motivado

pela

forma

como

o

cérebro

funciona.

II.

(

)

Em

uma

rede

neural

artificial,

há

vários

neurônios

que

se

interconectam,

e

o

result
ado

do

cálculo

de

um

alimenta

a

entrada

de

outros.

III.

(

)

Redes

neurais,

como

são

modelos

preditivos

que

tomam

como

base

o

funcionamento

do

cérebro,

são

de

muito

fácil

interpretação.

IV.

(

)

Redes

neurais,

como

são

modelos

preditivos,

podem

ser

usadas

p
ara

tarefas

tais

como

reconhecimento

de

caligrafia

e

detecção

facial.

Assinale

a

alternativa

que

apresenta

a

sequência

correta:

PERGUNTA 1
1. Usamos gráficos para a visualização do comportamento (a descoberta de padrões), tanto de
cada variável individualmente quanto da relação entre variáveis (o comportamento de uma em
relação à outra). Ambas visualizações, seja da variável individualmente, seja da sua possível
relação com outra variável, são de grande utilidade.

Quanto aos gráficos para a visualização da relação entre duas variáveis, analise as afirmativas
a seguir:
I. Gráficos de dispersão são usados para a visualização da relação entre duas variáveis
quantitativas.
II. Boxplots são usados para a visualização da relação entre uma variável quantitativa e uma
variável qualitativa (ou os níveis de uma variável qualitativa).
III. Mosaic plots são usados para a visualização entre duas variáveis qualitativas (ou, em outras
palavras, entre os níveis de duas variáveis qualitativas).
IV. Em qualquer uma das situações descritas acima, sempre exibiremos uma das variáveis no
eixo horizontal e a outra no eixo vertical.
Está correto o que se afirma em:

I e IV, apenas.

I, II, III e IV.

I, II e III, apenas.

II e III, apenas.

II, III e IV, apenas.
1 pontos
PERGUNTA 2
1. Leia o excerto a seguir:

“Uma rede neural artificial (ou rede neural) é um modelo preditivo motivado pelo forma como
funciona o cérebro humano. Pense no cérebro como uma coleção de neurônios conectados.
Cada neurônio olha para a saída dos outros neurônios que o alimentam, faz um cálculo e então
ele dispara (se o cálculo exceder algum limite) ou não (se não exceder) [...] Redes neurais
podem resolver uma variedade de problemas como reconhecimento de caligrafia e detecção
facial, e elas são muito usadas em deep learning (aprendizado profundo), uma das subáreas
mais populares de data science. Entretanto, a maioria das redes neurais são “caixas-pretas” -
inspecionar seus detalhes não lhe fornece muito entendimento de como elas estão resolvendo
um problema. E grandes redes neurais podem ser difíceis de treinar. Para a maioria dos
problemas você encontrará como um cientista de dados, elas provavelmente não são a melhor
solução [...]”.

GRUS, J. Data science do zero: primeiras regras com o Python. Rio de Janeiro: Alta Books,
2016. p. 213.

Tomando como base esse texto sobre redes neurais artificiais, analise as afirmativas a seguir e
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. ( ) Uma rede neural artificial, também chamada simplesmente de rede neural, é um modelo
preditivo motivado pela forma como o cérebro funciona.
II. ( ) Em uma rede neural artificial, há vários neurônios que se interconectam, e o resultado do
cálculo de um alimenta a entrada de outros.
III. ( ) Redes neurais, como são modelos preditivos que tomam como base o funcionamento do
cérebro, são de muito fácil interpretação.
IV. ( ) Redes neurais, como são modelos preditivos, podem ser usadas para tarefas tais como
reconhecimento de caligrafia e detecção facial.

Assinale a alternativa que apresenta a sequência correta: