Buscar

Slide de Probabilidade Estatística

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

Probabilidade e Estatística 
Prof. Dr. Jhames Sampaio
pesquisas	
sobre	
fumo
“Meu	tio	fuma	duas	
carteiras	por	dia	e	está	
em	perfeitas	condições	
de	saúde"
pesquisas	
sobre	
fumo
“Meu	tio	fuma	duas	
carteiras	por	dia	e	está	
em	perfeitas	condições	
de	saúde"
pesquisas	
sobre	
fumo
evidência	
anedótica
“Meu	tio	fuma	duas	
carteiras	por	dia	e	está	
em	perfeitas	condições	
de	saúde"
pesquisas	
sobre	
fumo
evidência	
anedótica
“fumar	é	um	
comportamento	humano	
complexo,	por	natureza	
di=ícil	de	estudar,	
confundido	pela	natureza	
humana"
populações	
e		
amostras
pesquisa
Os	consumidores	
de	uma	certa	
marca	de	bebidas	
tem	maior	
probabilidade	de	
parar	na	
emergência	com	
contusões?
populações	
e		
amostras
pesquisa
Os	consumidores	
de	uma	certa	
marca	de	bebidas	
tem	maior	
probabilidade	de	
parar	na	
emergência	com	
contusões?
populações	
e		
amostras
população
Todo	
mundo
amostrapesquisa
Os	consumidores	
de	uma	certa	
marca	de	bebidas	
tem	maior	
probabilidade	de	
parar	na	
emergência	com	
contusões?
populações	
e		
amostras
população
Todo	
mundo
Estudantes	
matriculados	
em	PE	na	
Turma	E
amostrapesquisa
Os	consumidores	
de	uma	certa	
marca	de	bebidas	
tem	maior	
probabilidade	de	
parar	na	
emergência	com	
contusões?
populações	
e		
amostras
população
Todo	
mundo
generalizar	
para
Estudantes	
da	UnB
Estudantes	
matriculados	
em	PE	na	
Turma	E
amostrapesquisa
Os	consumidores	
de	uma	certa	
marca	de	bebidas	
tem	maior	
probabilidade	de	
parar	na	
emergência	com	
contusões?
populações	
e		
amostras
população
Todo	
mundo
População
Conjunto de todos os 
elementos de interesse
População
Indivíduo
População Amostra
Subconjunto finito da 
população
Análise de 
dados
População Amostra
Coleta, organização e 
descrição dos dados
Cálculo de 
Probabilidades
Análise de 
dados
População Amostra
Estudo das incertezas
Cálculo de 
Probabilidades
Análise de 
dados
População Amostra
Erro
Inferência 
Estatística
Cálculo de 
Probabilidades
Análise de 
dados
População Amostra
Erro
Análise e interpretação 
dos dados
Variável
Características dos elementos observados e/ou 
medidos em uma população ou amostra sob as 
mesmas condições
Atributos
Qualitativa
Variável
Atributos
Qualitativa Quantitativa
Numerário
Variável
Qualitativa Quantitativa
Numerário
Ordinal Nominal
Ordem Nomes
Variável
Qualitativa Quantitativa
Numerário
Ordinal Nominal
Ordem Nomes
Excelente
Bom
Péssimo
Variável
Qualitativa Quantitativa
Numerário
Ordinal Nominal
Ordem Nomes
Excelente
Bom
Péssimo
Sexo
Cor
Naturalidade
Variável
Qualitativa Quantitativa
Ordinal Nominal
Ordem Nomes
Excelente
Bom
Péssimo
Sexo
Cor
Naturalidade
Discreta Contínua
Contável Não contável
Variável
Qualitativa Quantitativa
Ordinal Nominal
Ordem Nomes
Excelente
Bom
Péssimo
Sexo
Cor
Naturalidade
Discreta Contínua
Contável Não contável
Chutes a gol
Cliques numa página
Jogos da mega-sena
Variável
Qualitativa Quantitativa
Ordinal Nominal
Ordem Nomes
Excelente
Bom
Péssimo
Sexo
Cor
Naturalidade
Discreta Contínua
Contável Não contável
Chutes a gol
Cliques numa página
Jogos da mega-sena
Altura
Peso
Preço de uma ação
Variável
pais re_cto re_cump du_cr du_cump … hemisferio idh 
ARG	 21 100 134 32 … sul muito	alto
AUS 10 40 361 73 … sul muito	alto
BEL <10 100 90 67 … norte muito	alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito	alto
 Dados de solicitação de remoção de 
conteúdo do Google
pais re_cto re_cump du_cr du_cump … hemisferio idh 
ARG	 21 100 134 32 … sul muito	alto
AUS 10 40 361 73 … sul muito	alto
BEL <10 100 90 67 … norte muito	alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito	alto
 Dados de solicitação de remoção de 
conteúdo do Google
pais: Nome dos países
pais re_cto re_cump du_cr du_cump … hemisferio idh 
ARG	 21 100 134 32 … sul muito	alto
AUS 10 40 361 73 … sul muito	alto
BEL <10 100 90 67 … norte muito	alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito	alto
 Dados de solicitação de remoção de 
conteúdo do Google
re_cto: Número de solicitações de remoção de conteúdo feitas ao Google 
pais re_cto re_cump du_cr du_cump … hemisferio idh 
ARG	 21 100 134 32 … sul muito	alto
AUS 10 40 361 73 … sul muito	alto
BEL <10 100 90 67 … norte muito	alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito	alto
 Dados de solicitação de remoção de 
conteúdo do Google
re_cto: Número de solicitações de remoção de conteúdo feitas ao Google 
quantitativa	
discreta
pais re_cto re_cump du_cr du_cump … hemisferio idh 
ARG	 21 100 134 32 … sul muito	alto
AUS 10 40 361 73 … sul muito	alto
BEL <10 100 90 67 … norte muito	alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito	alto
 Dados de solicitação de remoção de 
conteúdo do Google
re_cump: Percentual de solicitações de remoção de conteúdo cumpridas pelo Google 
pais re_cto re_cump du_cr du_cump … hemisferio idh 
ARG	 21 100 134 32 … sul muito	alto
AUS 10 40 361 73 … sul muito	alto
BEL <10 100 90 67 … norte muito	alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito	alto
 Dados de solicitação de remoção de 
conteúdo do Google
re_cump: Percentual de solicitações de remoção de conteúdo cumpridas pelo Google 
quantitativa	
contínua
pais re_cto re_cump du_cr du_cump … hemisferio idh 
ARG	 21 100 134 32 … sul muito	alto
AUS 10 40 361 73 … sul muito	alto
BEL <10 100 90 67 … norte muito	alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito	alto
 Dados de solicitação de remoção de 
conteúdo do Google
du_cr: Número de solicitações de dados de usuários investigados criminalmente
pais re_cto re_cump du_cr du_cump … hemisferio idh 
ARG	 21 100 134 32 … sul muito	alto
AUS 10 40 361 73 … sul muito	alto
BEL <10 100 90 67 … norte muito	alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito	alto
 Dados de solicitação de remoção de 
conteúdo do Google
du_cr: Número de solicitações de dados de usuários investigados criminalmente
quantitativa	
discreta
pais re_cto re_cump du_cr du_cump … hemisferio idh 
ARG	 21 100 134 32 … sul muito	alto
AUS 10 40 361 73 … sul muito	alto
BEL <10 100 90 67 … norte muito	alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito	alto
 Dados de solicitação de remoção de 
conteúdo do Google
du_cr: Percentual de solicitações de dados de usuários investigados criminalmente cumpridas pelo Google
pais re_cto re_cump du_cr du_cump … hemisferio idh 
ARG	 21 100 134 32 … sul muito	alto
AUS 10 40 361 73 … sul muito	alto
BEL <10 100 90 67 … norte muito	alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito	alto
 Dados de solicitação de remoção de 
conteúdo do Google
du_cr: Percentual de solicitações de dados de usuários investigados criminalmente cumpridas pelo Google
quantitativa	
contínua
pais re_cto re_cump du_cr du_cump … hemisferio idh 
ARG	 21 100 134 32 … sul muito	alto
AUS 10 40 361 73 … sul muito	alto
BEL <10 100 90 67 … norte muito	alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito	alto
 Dados de solicitação de remoção de 
conteúdo do Google
hemisferio:
Hemisfério no qual o país está localizado
(norte, sul)
pais re_cto re_cump du_cr du_cump … hemisferio idh 
ARG	 21 100 134 32 … sul muito	alto
AUS 10 40 361 73 … sul muito	alto
BEL <10 100 90 67 … norte muito	alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito	alto
 Dados de solicitação de remoção de 
conteúdo do Google
hemisferio: Hemisfério no qual o país está localizado
(norte, sul)
qualitativa	
nominal
pais re_cto re_cump du_cr du_cump … hemisferio idh 
ARG	 21 100 134 32 … sul muito	alto
AUS 10 40 361 73 … sul muito	alto
BEL <10 100 90 67 … norte muito	alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito	alto
 Dados de solicitação de remoção de 
conteúdo do Google
idh: Índice de Desenvolvimento Humano
(muito alto, alto, medio, baixo)
pais re_cto re_cump du_cr du_cump … hemisferio idh 
ARG	 21 100 134 32 … sul muito	alto
AUS 10 40 361 73 … sul muito	alto
BEL <10 100 90 67 … norte muito	alto
BRA 224 67 703 82 … sul alto
… … … … … … … …
EUA 92 63 5950 93 … norte muito	alto
 Dados de solicitação de remoção de 
conteúdo do Google
idh: Índice de Desenvolvimento Humano
(muito alto, alto, medio, baixo)
qualitativa	
ordinal
Variáveis qualitativas 
Conjunto de dados
Cor declarada antes do julgamento
Branco Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros
Branco Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros
Branco Branco Branco Branco Branco Branco Negro Negro Negro Pardo Pardo Outros
Branco Branco Branco Branco Branco Branco Negro Negro Negro Pardo Pardo Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Pardo Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Variáveis qualitativas
A ideia é contar o número de ocorrências em cada categoria da 
variável 
Por exemplo, vamos considerar o conjunto de dados relativo à 
composição de um juri em um julgamento realizado no Brasil 
★ Os elementos do juri declaram sua cor antes do julgamento 
✓ 74 brancos 
✓ 26 negros 
✓ 25 pardos 
✓ 19 outros
Variáveis qualitativas 
Distribuição de Frequências
É interessante facilitarmos a visualização das informações
Isso pode ser feito construindo uma tabela de contingência 
ou, popularmente falando, distribuição de frequências:
cor frequência
frequência 
relativa
branco 74 0,5139
negro 26 0,1806
pardo 25 0,1319
outros 19 0,1736
Total 144 1,0000
Variáveis qualitativas 
Gráficos
0
20
40
60
branco negro outros pardo
Cor
Ob
se
rv
aç
õe
s
Gráfico em Barras da Cor
branco 51%
negro 18%
outro 13%
pardo 17%
Gráfico em Pizza da Cor
cor frequência
frequência 
relativa
branco 74 0,5139
negro 26 0,1806
pardo 25 0,1319
outros 19 0,1736
Total 144 1,0000
Variáveis quantitativas discretas 
Conjunto de dados
Numero de filhos dos funcionários
- 1 2 - - 0
- - 1 - 2 -
- 3 0 - 1 2
- - 1 - - 0
2 2 - 0 5 2
- 1 3 - 2 3
Considere uma amostra de 20 funcionários de uma empresa que 
responderam a uma questão sobre o número de filhos que possuem: 
✓ 4 funcionários não possuem filhos 
✓ 5 funcionários possuem 1 filho 
✓ 7 funcionários possuem 2 filhos 
✓ 3 funcionários possuem 3 filhos 
✓ 1 funcionário possui 5 filhos
Aqui também faz sentido contarmos o número de ocorrências em 
cada categoria
Variáveis quantitativas discretas
Variáveis quantitativas discretas 
Distribuição de Frequências
• Podemos construir uma tabela de contingência para 
melhor observarmos os dados:
filhos frequência frequência 
relativa
0 4 0,20
1 5 0,25
2 7 0,35
3 3 0,15
5 1 0,05
Total 20 1,00
Variáveis quantitativas discretas 
Gráficos
0 2 4
Filhos
Número de filhos dos funcionários
0
2
4
6
0 1 2 3 4 5
Filhos
Ob
se
rv
aç
õe
s
Número de filhos dos funcionários
filhos frequência frequência 
relativa
0 4 0,20
1 5 0,25
2 7 0,35
3 3 0,15
5 1 0,05
Total 20 1,00
Variáveis quantitativas discretas 
Gráficos
Se um determinado conjunto de dados possuir uma 
quant idade mui to grande de informaçõe s, pode ser 
impraticável construirmos uma tabela de contingência;
Nesse sentido, os gráficos se tornam ainda mais importantes 
para uma rápida visualização;
Vamos tomar agora uma base de dados obtida ao entrevistar 
alunos de uma universidade. Eles responderam sobre o 
primeiro beijo e o número de vezes que visitam o Facebook em 
um dia.
Variáveis quantitativas discretas 
Gráficos
0 5 10 15 20
Primeiro beijo
Com quantos anos deu seu primeiro beijo?
0 50 100 150 200
Visitas ao Facebook por dia
Quantas vezes você visita o Facebook por dia?
Variáveis quantitativas contínuas 
Conjunto de dados
Salários dos funcionários (x salário mínimo)
4,00 4,56 5,25 5,73 6,26 6,66
6,86 7,39 7,59 7,44 8,12 8,46
8,74 8,95 9,13 9,35 9,77 9,80
10,53 10,76 11,06 11,59 12,00 12,79
13,23 13,60 13,85 14,69 14,71 15,99
16,22 16,61 17,26 18,75 19,40 23,30
Vamos tomar, novamente, os dados relativos aos 36 funcionários 
de uma empresa e olhar para os salários destes funcionários 
Como a variável é contínua, não faz sentido pensarmos em cada 
valor registrado separadamente. Isso seria ainda pior se a base de 
dados fosse muito extensa
Variáveis quantitativas contínuas
Apesar de não sermos capazes de contar o número de elementos 
num conjunto contínuo, podemos separá-lo em intervalos que 
possamos contabilizar
Variáveis quantitativas contínuas 
Distribuição de Frequências
• Podemos construir uma tabela de contingência para 
melhor observarmos os dados:
salários frequência frequência 
relativa
04	|—	08 10 0,2778
08	|—	12 12 0,3333
12	|—	16 8 0,2222
16	|—	20 5 0,1389
20	|—24 1 0,0278
Total 36 1,0000
Variáveis quantitativas contínuas 
Distribuição de Frequências
• Podemos construir uma tabela de contingência para 
melhor observarmos os dados:
salários frequência frequência 
relativa
04	|—	08 10 0,2778
08	|—	12 12 0,3333
12	|—	16 8 0,2222
16	|—	20 5 0,1389
20	|—24 1 0,0278
Total 36 1,0000
Classes
Variáveis quantitativas contínuas 
Distribuição de Frequências
• Podemos construir uma tabela de contingência para 
melhor observarmos os dados:
salários frequência frequência 
relativa
04	|—	08 10 0,2778
08	|—	12 12 0,3333
12	|—	16 8 0,2222
16	|—	20 5 0,1389
20	|—24 1 0,0278
Total 36 1,0000
Classes
a	|—	b	
Simboliza o intervalo 
(a,b)
Variáveis quantitativas contínuas 
Distribuição de Frequências
• Podemos construir uma tabela de contingência para 
melhor observarmos os dados:
salários frequência frequência 
relativa
04	|—	08 10 0,2778
08	|—	12 12 0,3333
12	|—	16 8 0,2222
16	|—	20 5 0,1389
20	|—24 1 0,0278
Total 36 1,0000
Classes
a	|—	b	
Simboliza o intervalo 
(a,b)
Limite inferior 
da classe i 
Limite superior 
da classe i 
Para cada classe i temos 
[LIi , L
S
i )
Variáveis quantitativas contínuas 
Distribuição de Frequências
• Podemos construir uma tabela de contingência para 
melhor observarmos os dados:
salários frequência frequência 
relativa
04	|—	08 10 0,2778
08	|—	12 12 0,3333
12	|—	16 8 0,2222
16	|—	20 5 0,1389
20	|—24 1 0,0278
Total 36 1,0000
Classes
a	|—	b	
Simboliza o intervalo 
[a,b)
Para cada classe i temos 
Limite inferior 
da classe i 
Limite superior 
da classe i 
Amplitude da classe iAi = LSi � LIi
[LIi , L
S
i )
Variáveis quantitativas contínuas 
Gráfico
• O gráfico adequado a esse tipo de dados 
é o histograma
salários frequência frequência 
relativa
04	|—	08 10 0,2778
08	|—	12 12 0,3333
12	|—	16 8 0,2222
16	|—	20 5 0,1389
20	|—24 1 0,0278
Total 36 1,0000
• Nós utilizamos cada classe como base de 
um re tângulo com altura dada pe la 
frequência
0.0
2.5
5.0
7.5
10.0
12.5
4 8 12 16 20 24
Salários
Fr
eq
uê
nc
ia
Salários dos funcionários
Variáveis quantitativas contínuas 
Gráfico
• O gráfico adequado a esse tipo de dados 
é o histograma
salários frequência frequência 
relativa
04	|—	08 10 0,2778
08	|—	12 12 0,3333
12	|—	16 8 0,2222
16	|—	20 5 0,1389
20	|—24 1 0,0278
Total 36 1,0000
• Nós utilizamos cada classe como base de 
um retângulo cuja área é dada pela 
frequência relativa
0.00
0.02
0.04
0.06
0.08
4 8 12 16 20 24
Salários
Al
tu
ra
Salário dos funcionários altura
0,0694
0,0833
0,0556
0,0347
0,0069
Altura = Frequência relativa / Amplitude da classe 
Variáveis quantitativas contínuas 
Gráfico
• Uma alternativa interessante para 
visualizarmos melhor a distribuição 
dos dados é alterar a amplitude dos 
intervalos à partir da frequência ou 
frequência relativa
salários frequência frequência 
relativa
04	|—	06 4 0,1111
06	|—	08 6 0,1667
08	|—	10 8 0,2222
10	|—	12 4 0,1111
12	|—	14 5 0,1389
14	|—	16 3 0,0833
16	|—	18 3 0,0833
18	|—	20 2 0,0556
20	|—	22 0 0,0000
22	|—	24 1 0,0278
Total 36 1,0000
0
2
4
6
8
4 6 8 10 12 14 16 18 20 22 24
Salários
Fr
eq
uê
nc
ia
Salários dos funcionários
Variáveis quantitativas contínuas 
Gráfico
• Uma alternativa interessante para 
visualizarmos melhor a distribuição 
dos dados é alterar a amplitude dos 
intervalos à partir da frequência ou 
frequência relativa
salários frequência frequência 
relativa
04	|—	06 4 0,1111
06	|—	08 6 0,1667
08	|—	10 8 0,2222
10	|—	12 4 0,1111
12	|—	14 5 0,1389
14	|—	16 3 0,0833
16	|—	18 3 0,0833
18	|—	20 2 0,0556
20	|—	22 0 0,0000
22	|—	24 1 0,0278
Total 36 1,0000
0.00
0.03
0.06
0.09
4 8 12 16 20 24
Salários
Al
tu
ra
Salário dos funcionários altura
0,0556
0,0833
0,1111
0,0556
0,0694
0,0417
0,0417
0,0278
0,0000
0,0139
Variáveis quantitativas contínuas 
Gráfico
• Quanto mais dados estiverem disponíveis em relação a uma variável, melhor poderemos aproximar a 
distribuição destes e poderemos vê-los segundo uma curva que fornece a distribuição de acordo com a área 
abaixo dela
0.00
0.02
0.04
0.06
0.08
4 6 8 10 12 14 16 18 20 22 24
Salários
Al
tu
ra
Salário dos funcionários
0.00
0.03
0.06
0.09
4 6 8 10 12 14 16 18 20 22 24
Salários
Al
tu
ra
Salário dos funcionários
Variáveis quantitativas 
Formas - Simetria
• O histograma pode nos revelar importantes características da distribuição de um conjunto de dados
0
500
1000
1500
−6 −4 −2 0
0
250
500
750
1000
−2.5 0.0 2.5
0
500
1000
1500
0 1 2 3 4 5
Assimétrica à esquerda Assimétrica à direitaSimétrica
Variáveis quantitativas 
Formas - Simetria
• O histograma pode nos revelar importantes características da distribuição de um conjunto de dados
0
500
1000
1500
−6 −4 −2 0
0
250
500
750
1000
−2.5 0.0 2.5
0
500
1000
1500
0 1 2 3 4 5
Assimétrica à esquerda Assimétrica à direitaSimétrica
Variáveis quantitativas 
Formas - Modalidade
0
100
200
300
400
0 10 20 30
0
250
500
750
1000
−2.5 0.0 2.5
Uniforme Unimodal
Variáveis quantitativas 
Formas - Modalidade
0
100
200
300
400
0 10 20 30
0
250
500
750
1000
−2.5 0.0 2.5
Uniforme Unimodal
Variáveis quantitativas 
Formas - Modalidade
0
250
500
750
−1 0 1 2
0
500
1000
1500
2000
−1 0 1 2
Bimodal Multimodal
Variáveis quantitativas 
Formas - Modalidade
0
250
500
750
−1 0 1 2
0
500
1000
1500
2000
−1 0 1 2
Bimodal Multimodal
Variáveis quantitativas 
Formas - Modalidade
0
250
500
750
−1 0 1 2
0
500
1000
1500
2000
−1 0 1 2
Bimodal Multimodal
Altura dos alunos
Altura dos professores

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Continue navegando