Prévia do material em texto
1
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
1
2
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
2
Sumário
CAPÍTULO 1 ............................................................................................................................... 5
1.1 Arredondamento de dados ............................................................................................................. 5
1.2 Razão e proporção ........................................................................................................................ 5
1.3 Regra de três ................................................................................................................................. 7
1.4 Valores relativos ............................................................................................................................ 8
CAPÍTULO 2 .......................................................................................................................... 10
2.1 Curso de Estatística ..................................................................................................................... 10
2.1.1 - Estatística Descritiva ........................................................................................................ 10
2.1.2- Estatística Indutiva ............................................................................................................ 11
2.1.3 Probabilidades ................................................................................................................... 11
2.2 Processo Estatístico .................................................................................................................... 12
2.3 Técnicas de Descrição Gráfica .................................................................................................... 12
2.4 Rol (ordenação sequencial) ......................................................................................................... 16
2.5 Tabelas de Distribuição de Frequências ..................................................................................... 17
2.6 Histograma ................................................................................................................................... 18
2.7 Medidas de Posição ...................................................................................................................... 20
2.7.1 Média Aritmética ................................................................................................................ 20
2.7.2 Mediana ............................................................................................................................. 21
2.7.3 Moda .................................................................................................................................. 22
2.8 Dados agrupados ......................................................................................................................... 22
2.9 Dados agrupados em classes ..................................................................................................... 22
2.9.1 Média aritmética pelo Ponto Médio de Classe (PMC) ....................................................... 23
2.9.2 Cálculo da mediana – variável contínua ........................................................................... 24
2.9.3 Cálculo da Moda ................................................................................................................ 25
CAPÍTULO 3 ............................................................................................................................. 30
3.1 Medidas de Dispersão .................................................................................................................. 30
3.1.1 Amplitude Total .................................................................................................................. 30
3.1.3 Variância ............................................................................................................................. 30
3.1.4 Desvio-Padrão ................................................................................................................... 31
3.1.5 Interpretando o desvio-padrão .......................................................................................... 31
3.2 Teorema de Tchebycheff ou Tchebychev ................................................................................... 31
3.3 Coeficiente de Variação de Karl Pearson .................................................................................... 31
3.4 Cálculo do desvio-padrão, para dados agrupados em classes. .................................................. 32
3.5 Separatrizes da Mediana ............................................................................................................. 33
3.6 Gráfico Box-Plot ........................................................................................................................... 36
3.7 Medidas de Assimetria e Curtose ................................................................................................ 40
3.7.1 - Assimetria ......................................................................................................................... 40
3.7.2 - Análise gráfica da Assimetria. .......................................................................................... 40
3.7.3 Métodos de Comparação das medidas de tendência central. .......................................... 41
3.9 Curtose......................................................................................................................................... 45
3.9.1 Análise gráfica da Curtose ................................................................................................ 45
3.10 Coeficiente Percentílico de Curtose ........................................................................................... 46
CAPÍTULO 4 .......................................................................................................................... 51
4.1 Análise Combinátoria .................................................................................................................... 51
4.1.1 Possibilidades ou Princípio Fundamental da Contagem ................................................... 51
4.1.3 Combinações ..................................................................................................................... 51
4.2 Probabilidades ............................................................................................................................. 52
4.3 Três origens da probabilidade. ..................................................................................................... 52
4.3.1 O Método subjetivo ............................................................................................................ 52
4.3.2 O Método clássico (Objetivo) ............................................................................................ 52
4.3.3 O Método relativo .............................................................................................................. 52
4.4 Probabilidade da ocorrência de um evento ................................................................................. 53
4.4.1 Probabilidade de não ocorrência ou Evento Complentar de A ......................................... 53
4.6 Atribuição de probabilidades (Frequência relativa) ..................................................................... 53
4.7 Lei dos grandes números ............................................................................................................ 54
4.8 Tipos de experimentos ................................................................................................................. 55
4.8.1 Experimentosdeterminísticos ........................................................................................... 55
4.8.2 Experimentos aleatórios ..................................................................................................... 55
3
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
3
4.8.3 Espaço amostral ................................................................................................................ 55
4.8.4 Experimentos em etapas múltiplas .................................................................................... 55
4.9 Probabilidade total ....................................................................................................................... 55
4.9.1 Evento certo ....................................................................................................................... 56
4.9.2 Evento nulo ........................................................................................................................ 56
4.9.3 Evento união ...................................................................................................................... 56
4.9.4 Evento intersecção ............................................................................................................ 56
4.9.5 Eventos mutuamente exclusivos ....................................................................................... 56
4.9.6 Eventos não mutuamente exclusivos ................................................................................ 57
4.9.7 Eventos equiprováveis ...................................................................................................... 57
4.9.8 Eventos compostos ........................................................................................................... 58
4.9.9 Eventos independentes ..................................................................................................... 58
4.10 Lei da multiplicação (Independência estática) ........................................................................... 59
4.11 Probabilidade condicional .......................................................................................................... 59
4.12 Teorema da probabilidade total ................................................................................................. 60
4.13 Distribuições de Probabilidades ................................................................................................ 63
4.14 Distribuição de Probabilidades Discretas ................................................................................... 64
4.15 Distribuição de Bernoulli (Jacob I). ............................................................................................ 65
4.17 Distribuição de Poisson ............................................................................................................. 68
4.18 Distribuição de probabilidades contínuas .................................................................................. 69
4.19 Distribuição exponencial ............................................................................................................ 69
4.20 Distribuição Normal .................................................................................................................... 70
CAPÍTULO 5 .......................................................................................................................... 76
5.1 Tipos de Amostragem .................................................................................................................. 76
5.2 Amostragem Probabilística .......................................................................................................... 76
5.3 Amostragem Aleatória Simples ................................................................................................... 76
5.4 Amostragem Sistemática ............................................................................................................. 76
5.5 Viés de Seleção ........................................................................................................................... 77
5.6 Amostragem Estratificada ............................................................................................................ 77
5.7 Amostragem por Conglomerados ................................................................................................ 78
5.8 Amostragem não-Probabilística ................................................................................................... 78
5.9 Amostragem por Conveniência ................................................................................................... 78
5.10 Amostragem Intencional ............................................................................................................ 79
5.11 Amostragem por Quotas ............................................................................................................ 79
5.12 Amostragem Bola de Neve ........................................................................................................ 79
CAPÍTULO 6 .......................................................................................................................... 81
6.1 Estimação .................................................................................................................................... 81
6.1.1 Propriedades dos estimadores ........................................................................................... 81
6.1.2 Não-tendencioso................................................................................................................. 81
6.1.4 Eficiência ........................................................................................................................... 81
6.1.5 Suficiência ......................................................................................................................... 81
6.1.7 Estimação por Intervalo ...................................................................................................... 81
6.2 Distribuição Amostral dos Estimadores ....................................................................................... 82
6.2.1 Distribuição amostral da Média ......................................................................................... 82
6.3 Teorema Central do Limite .......................................................................................................... 83
6.4 Distribuição amostral da Variância .............................................................................................. 83
6.5 Dimensionamento das Amostras ................................................................................................. 84
6.6 Tamanho da Amostra para estimar a Média populacional. ......................................................... 84
6.6.1 Populações Infinitas .......................................................................................................... 84
6.6.2 Populações Finitas ............................................................................................................ 84
6.7 - Tamanho da Amostra para estimar a Proporção populacional. ................................................. 85
6.7.1 Populações Infinitas .......................................................................................................... 85
6.7.2 Populações Finitas ............................................................................................................ 85
6.8 Intervalos de Confiança para Proporções ................................................................................... 85
6.9 Intervalo de Confiança para Médias ............................................................................................. 86
6.9.1 - Populações de tamanho desconhecido (Populações Infinitas) .......................................87
6.9.2 - Populações de tamanho conhecido (Populações Finitas) .............................................. 88
6.9.3 Intervalos de Confiança para médias populacionais com variância conhecida. ................ 88
6.9.4 Intervalos de Confiança para médias populacionais com variância desconhecida .......... 90
CAPÍTULO 7 .......................................................................................................................... 95
4
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
4
7.1 Nível de significância ................................................................................................................ 96
7.2 Poder de um Teste ...................................................................................................................... 96
7.3 Valor Crítico de um teste ............................................................................................................. 97
7.3.1 Valor Crítico para testes Unilaterais. ................................................................................. 97
7.3.2 Valor Crítico para teste Bilaterais ...................................................................................... 97
7.4 Valor de comparação testeZ ...................................................................................................... 97
7.5 Erros de decisão .......................................................................................................................... 98
7.6 Utilização das tabelas de distribuição de probabilidades ............................................................ 98
7.7 Testes de significância à Esquerda para Médias Populacionais................................................. 98
7.8 Testes de significância à Direita para Médias populacionais com desvio-padrão desconhecido.
........................................................................................................................................... 100
7.9 Sensibilidade dos Testes de Hipóteses ..................................................................................... 101
7.10 Testes Bilaterais para Médias Populacionais com desvio-padrão conhecido ......................... 102
CAPÍTULO 8 ........................................................................................................................ 104
8.1 Teste T para amostras dependentes (Emparelhadas) .............................................................. 104
8.2 Testando a correlação entre as variáveis .................................................................................. 104
8.2.1 Tabelas de contingências ................................................................................................ 105
82.2 A estatística Qui-quadrado ( 2) ............................................................................................... 106
8.3 Graus de liberdade e valor crítico de
2 .......................................................................... 107
CAPÍTULO 9 ........................................................................................................................... 114
9.1 Correlação positiva ..................................................................................................................... 114
9.2 Correlação Negativa .................................................................................................................. 114
9.3 Correlação Nula ......................................................................................................................... 115
9.4 Medindo o grau de Correlação entre duas variáveis. ................................................................ 115
9.5 Coeficiente de Correlação de Pearson. ..................................................................................... 115
9.6 Variância .................................................................................................................................... 117
9.7 Desvio-padrão ............................................................................................................................ 117
9.8 Covariância ................................................................................................................................ 118
CAPÍTULO 10 ...................................................................................................................... 121
10.1 Regressão – representação gráfica. ......................................................................................... 121
10.2 Regressão Linear Simples ........................................................................................................ 122
10.3 Variação Explicada ................................................................................................................... 123
10.4 Variação Não-Explicada ........................................................................................................... 124
10.5 Método dos Mínimos Quadrados .............................................................................................. 124
10.6 - Ajustamento pela equação da Reta. ...................................................................................... 124
10.7 Ajustamento pela equação da Parábola .................................................................................. 126
10.8 Ajustamento pela equação exponencial .................................................................................. 127
Apêndice ................................................................................................................................. 134
1 Tabela Z normal padronizada .............................................................................................. 134
2 Tabela t-student ............................................................................................................................. 135
RERÊNCIAS BIBLIOGRÁFICAS ............................................................................................ 136
5
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
5
CAPÍTULO 1
VALORES RELATIVAS
1.1 Arredondamento de dados
Em conformidade com a Resolução nº 886/66 da Fundação IBGE, o arredondamento de dados é
efetuado da seguinte maneira:
Condições
do Número x
Procedimentos
Exemplos: arredondamento
com duas casas decimais
x < 5
O último algarismo a permanecer fica
inalterado.
13,241 passa 13,24
45,98298 passa 45,98
78,5612 passa 78,56
x > 5
Aumenta-se de uma unidade o último
algarismo a permanecer.
12,487 passa 12,49
25,5081 passa a 25,51
53,78999 passa a 53,79
x = 5
Se ao 5 seguir, em qualquer casa,
houver um algarismo diferente de zero,
aumenta-se uma unidade no último
algarismo a permanecer.
2,4352 passa a 2,44
85,36501 passa a 85,37
81,1150002 passa a 81,12
x = 5
Se o 5 for o último algarismo, ou se ao
5 só seguirem zeros, o último
algarismo, a permanecer, somente será
aumentado de uma unidade se for
ímpar.
46,875 passa a 46,88
124,265 passa a 124,26
14,77500 passa a 14,78
99,36500 passa a 99,36
Tabela 1.1 – Regra para arredondamento de dados, segundo Resolução nº 886/66 do IBGE.
Para nosso estudo, utilizaremos sempre duas casas decimais para uniformizarmos ao máximo os
valores e diminuirmos as diferenças com aproximações. Com exceção dos exercícios que explicitem uma
quantidade de casas decimais diferentes.
1.2 Razão e proporção
A definição de razão entre dois números reais a e b (b diferente de zero) é o quociente exato de a
por b, que pode ser escrito como a/b (a esta para b), onde a é chamado de antecedente e b é o
consequente.
Razão de duas grandezas é o quociente exato dos números que expressam essas grandezas.
As grandezas serão diretamente proporcionais se ambas aumentam ou diminuem
simultaneamente, ou seja, aumentando ou diminuindo uma,a outra, também, aumenta ou diminui na mesma
proporção.
As grandezas serão inversamente proporcionais quando aumentando ou diminuindo uma, a outra
diminui ou aumenta respectivamente, na mesma proporção.
Exercícios resolvidos
1) Em um curso há 36 rapazes e 48 moças. Com base nessa informação, calcule os itens a seguir:
a) Qual a razão entre o número de moças para o número de rapazes?
3
4
36
48
, logo a razão é 4 : 3 ou 1,33
b) Qual a razão entre o número de moças para o número total de alunos?
7
4
84
48
, logo a razão é 4 : 7 ou 0,57
6
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
6
2) Em uma sala de aula a razão entre o número de alunas para o número de alunos é de 3 para 1.
Sabendo-se que o total de alunos é igual a 48, qual o número de alunas dessa sala?
Resolução:
Temos que 48 corresponde a soma das partes da razão: 4, logo:
Alunos proporção
48 4
x 3 (parte correspondente a proporção das alunas)
4.x = 3. 48
x = 36
Resposta: Temos 36 alunas, nessa sala de aula.
Exercício propostos
1) Numa balada há 45 rapazes e 90 moças. Com base nessas informações, responda:
a) Qual a razão entre o número de rapazes e o número de moças?
b) Qual a razão entre o número de rapazes e o total de jovens?
2) Um lote de terreno tem 240 m² de área total e 80 m² de área construída.
a) Qual a razão entre a medida da área construída em relação a área total do terreno?
b) Qual a razão entre a medida da área construída em relação a área livre?
3) Escreva as seguintes sentenças sob a forma de razão:
a) 10 rapazes para 18 moças.
b) 3 professores para 135 alunos.
c) 65 candidatos para 13 vagas.
4) Numa viagem de 1 200 Km, dois motoristas dividiram o percurso. O primeiro percorreu 480 km. Qual a
razão entre a distância que irá percorrer o segundo motorista e o total do percurso?
5) A razão entre minha idade e a idade do meu pai é 2:5. Juntos temos 56 anos, qual a idade do meu pai?
6) Dois amigos ganham, em um sorteio, um pedaço de 30 kg de carne. Dividindo-o em duas partes, cuja
razão é 2 para 3. Quanto será o peso do pedaço de cada um?
7) Um pai dividiu R$ 3 500,00 entre dois filhos, na razão 4/3. Quanto recebeu cada filho?
8) Dois amigos jogaram na loteria, sendo que o primeiro entrou com R$ 25,00 e o segundo com R$ 35,00.
Ganharam um prêmio de R$ 53 400,00. Como deve ser dividido o prêmio, de forma diretamente proporcional,
para que, cada um, receba o que tem direito?
9) Dois objetos de mesmo custo foram vendidos, respectivamente, com lucro de 20% e 30%. Sabendo-se
que a soma dos dois proporcionou um faturamento de R$ 200,00. Por quanto foi vendido cada objeto?
7
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
7
1.3 Regra de três
Exercícios resolvidos
3) Uma roda completa 60 voltas em 15 minutos. Quantas voltas serão completadas em 24 minutos?
As bolinhas do mesmo lado indica que as grandezas são diretamente proporcionais, assim:
246015
24
1560
x
x
96
15
1440
x
x
Resposta: Serão completadas, em 24 minutos, 96 voltas.
4) Com 8 eletricistas podemos fazer a instalação de uma casa em 3 dias. Em quantos dias 6 eletricistas
fariam o mesmo trabalho?
As bolinhas de lados opostos indica que as grandezas são inversamente proporcionais, assim,
primeiro invertemos uma das variáveis e, a seguir, concluímos a operação resolvendo a regra de três.
4
6
24
3.86
3
8
6
xxx
x
Resposta: Oito eletricistas fariam a instalação em 4 dias.
Exercícios propostos
10) Em uma fábrica são produzidos 300 sapatos em 6 horas. Em quantas horas poderão ser produzidos 400
sapatos?
11) Com 4 marceneiros podemos produzir uma cozinha planejada em 8 dias. Quantos dias gastarão 2
marceneiros para produzir a mesma cozinha?
12) Quatro pintores finalizaram uma obra em 18 dias. Em quantos dias 9 pintores realizariam a mesma
tarefa?
13) Trinta operários constroem uma casa em 80 dias. Em quantos dias 20 operários construiriam essa casa?
14) Uma torneira despeja, em um tanque, 50 litros de água em 20 minutos. Quantas horas são necessárias
para essa torneira despejar 600 litros de água?
15) Um tanque possui cinco torneiras de igual vazão. Com uma torneira totalmente aberta esse tanque ficará
cheio em 240 minutos. Em quanto tempo o tanque irá encher, com as cinco torneiras totalmente abertas?
8
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
8
1.4 Valores relativos
O trabalho com valores relativos é fundamental em estatística, pois na maioria das situações o
trabalho é feito com amostras, o que prejudica o trabalho com valores absolutos.
Exercício resolvido
5) Consideremos, em uma classe de 80 alunos, as notas da primeira avaliação, indicado na tabela 1.2.
Vamos calcular o valor relativo de participação das notas em relação ao total.
Tabela 1.2 – Notas dos 80 alunos da classe.
A seguir, na tabela 1.3, temos a indicação dos valores relativos por 1 e por 100.
NOTAS Nº DE ALUNOS
RELATIVO POR
1
RELATIVO POR
100(%)
1,0 02 0,0250 2,50
2,0 03 0,0375 3,75
3,0 08 0,1000 10,00
4,0 11 0,1375 13,75
5,0 22 0,2750 27,50
6,0 16 0,2000 20,00
7,0 10 0,1250 12,50
8,0 05 0,0625 6,25
9,0 01 0,0125 1,25
10,0 02 0,0250 2,50
= 80 1,0000 100,00
Tabela 1.3 – Valores relativos por 1 e por 100
EXERCÍCIOS PROPOSTOS
16) De acordo com os dados oficiais (IBGE) a população estimada do Estado de São Paulo, em 2015, era de
44 396 484 habitantes e a sua área é de 242 222,362 km 2, com base nesses dados responda:
a) Qual a densidade demográfica do estado de São Paulo?
b) A densidade demográfica representa uma taxa, um índice ou um coeficiente?
17) Considere a série estatística, referente aos alunos de um curso na faculdade X:
SÉRIES ALUNOS MATRICULADOS %
1ª 846
2ª 628
3ª 470
4ª 330
Total 2 274
Complete-a, determinando as participações percentuais dos alunos de cada série, em relação ao total.
9
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
9
18) Uma Faculdade apresentava, no final do ano, o seguinte quadro:
MATRÍCULAS
SÉRIE MARÇO NOVEMBRO
1ª 4800 4250
2ª 3580 3360
3ª 2360 2300
4ª 1204 1190
Total 11 944 11 100
a) Calcule a taxa de evasão por série.
b) Calcule a taxa de evasão da faculdade.
19) Considere a tabela a seguir: (use quatro casas decimais)
EVOLUÇÃO DAS RECEITAS DA EMPRESA CRIANÇA FELIZ SET./DEZ. – 2014
MESES VALOR (R$) a) b) c)
Setembro 330 200,00
Outubro 540 100,00
Novembro 424 500,00
Dezembro 525 900,00
Total 1 820 700,00
Fonte: Dados fictícios
Complete-a com uma coluna:
a) de taxas percentuais em relação ao total;
b) apontando o índice de desenvolvimento da receita de um mês, tomando como base o anterior.
c) com o índice de desenvolvimento das receitas, tomando como base o mês de setembro.
10
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
10
CAPÍTULO 2
MEDIDAS DE POSIÇÃO
Objetivos
Mostrar as metodologias básicas para obtenção das medidas de posição. Mostrar como analisar e
interpretar estas estatísticas, por meio de gráficos e tabelas de distribuição de frequências.
Definir a sequência lógica do processo estatístico.
Conceituar e esclarecer as diferenças entre variáveis discretas e contínuas.
Introdução
Se quisermos fazer uma representação gráfica do campo de estudo, pelo qual caminharemos e
desenvolveremos nosso senso crítico, teríamos o seguinte diagrama, que pode ser considerado, também,
como um esquema geral, para um curso de estatística:
Figura 2.1 - Teorias Estatísticas.
Neste capítulo, serão introduzidos osconceitos necessários e a nomenclatura que será utilizada
durante todo curso e que será a base, para o entendimento dos tópicos que serão apresentados.
2.1 Curso de Estatística
Nosso curso estará balizado pelas seguintes fundamentações teóricas da Estatística.
2.1.1 - Estatística Descritiva
A Estatística Descritiva, como já se falou anteriormente, trabalha com informações referentes aos
conjuntos de elementos observados.
População
População (ou Universo) é um conjunto de elementos, com pelo menos uma característica em
comum, que deverá identificar claramente quais membros pertencem, ou não, a esse universo.
Ao definirmos a população a ser estudada devemos, também, definir quais características queremos
estudar, por exemplo, a idade das pessoas.
Amostra
Amostra é uma parte significativa da População que continua possuindo as mesmas características.
É, portanto, um subconjunto da População.
Neste capítulo trataremos apenas de variáveis unidimensionais, ou seja, quando apenas uma
característica for associada a cada elemento da amostra estudada.
11
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
11
2.1.2- Estatística Indutiva
O objetivo da Estatística Indutiva é o de tirar conclusões sobre populações a partir do estudo dos
resultados obtidos com testes estatísticos aplicados sobre amostras, delas retiradas.
Esse método de raciocínio, chamado de “indução”, é o termo que dá o nome a este ramo da
Estatística (indutiva), ou seja, tirar conclusões do todo conhecendo apenas uma pequena parte dele.
2.1.3 Probabilidades
Utilizando-se do Ramo da Matemática que trata do Cálculo de Probabilidades, a Estatística Indutiva
irá nos permitir mensurar o grau de certeza de nossas induções e, portanto, de nossas conclusões.
Variáveis
Variáveis são os dados que representam ou quantificam os fenômenos observados. Estes dados
podem ser, ou não, de mesma natureza, pois podem estar medindo fenômenos diferentes. Elas podem diferir
em sua natureza, e também quantificar corretamente o fenômeno observado. Podemos classificar as
variáveis em duas espécies: Qualitativas e Quantitativas.
As variáveis Qualitativas podem, ainda, ser identificadas em duas subcategorias: nominal ou
ordinal, as nominais são aquelas que não podem estabelecer uma relação de ordem ou hierarquia, por
exemplo: cor dos olhos. As ordinais ordenam os fenômenos em seu maior ou menor grau, por exemplo: grau
de satisfação em relação ao atendimento, ótimo, bom, regular, ruim ou péssimo. E, finalmente, as variáveis
quantitativas são as que possibilitam quantificar e comparar a magnitude dos intervalos observados.
Variável qualitativa
A variável será qualitativa quando resultar de uma classificação por tipos ou atributos.
Exemplos:
a) População: moradores de uma cidade.
Variável: cor dos olhos.
b) População: peças defeituosas produzidas por máquina.
Variável: qualidade (perfeita ou defeituosa).
Variável quantitativa
A variável será quantitativa quando seus valores forem expressos em números e puderem ser
subdivididas em quantitativas discretas ou quantitativas contínuas.
As variáveis quantitativas discretas são aquelas em que os valores estão contidos num conjunto
finito ou enumerável, exemplo:
a) População: casais residentes em uma cidade.
Variável: número de filhos.
b) População: jogadas possíveis de um dado.
Variável: ponto obtido em cada jogada.
As variáveis quantitativas contínuas são aquelas cujos valores pertencentem a um intervalo real.
a) População: pessoas residentes em um bairro.
Variável: idade.
b) População: sabonetes da marca X.
Variável: peso líquido.
Estudaremos, mais adiante, as distribuições de frequência de dados não agrupados (variável
discreta) e de dados agrupados em classes (variável contínua).
Trataremos, na maior parte deste curso, das técnicas de organização e da análise prévia dos dados.
12
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
12
2.2 Processo Estatístico
O processo estatístico é um processo lógico de análise e, como todo processo, deve ter uma
abordagem, um cronograma e um resultado para tomada de decisão.
Podemos subdividir um processo estatístico em 5 fases, a saber:
1 – Organização
Determinar o procedimento estatístico necessário (técnicas unidimensionais ou multidimensionais),
que dados deverão ser obtidos, como obtê-los, custo destes dados, credibilidade da fonte, tempo de
obtenção dos dados, etc.
2 – Coleta dos dados
Na maioria das vezes, o pesquisador tem as variáveis na própria empresa, pois o problema a ser
estudado a ela pertence, entretanto, caso este não tenha, pode-se recorrer a empresas especializadas em
pesquisa de campo, a organizações como Prefeituras, Bibliotecas, Jornais, Organizações de Classe ou
Sindicatos, ou pesquisas nas redes globais.
3 – Apuração dos dados
Tratamento dos dados obtidos, ordenamento, estudo das relações entre eles (média aritmética,
mediana, moda, desvio-padrão, análise de variância e covariância), exclusão dos dados muito discrepantes,
ou não significativos, por meio de métodos estatísticos apropriados. Além disso, pode-se fazer o estudo
estatístico de pertinência, probabilidade de erro, grau de significância dos resultados, etc.
4 – Apresentação dos dados
Normalmente, na apresentação, o uso de gráficos e tabelas simplifica, resume e torna prático o
entendimento do estudo realizado. Esta deve ser o mais objetivo possível e resumir ao máximo o resultado
obtido para que os leitores e/ou interessados tenham clareza da situação apresentada.
5 – Análise e interpretação dos resultados
Verificação dos resultados e tomada de decisão. Normalmente ficará sob a responsabilidade de um
alto escalão que, muitas vezes, não participou da realização da pesquisa, portanto, a apresentação deve ser
clara, cuidadosa e criteriosa.
2.3 Técnicas de Descrição Gráfica
Gráficos tem primordial importância em Estatística. Eles ilustram os fatos representados pelas
variáveis em estudo. Um gráfico bem feito é uma rápida referência de muito valor e ajuda para o analista tirar
conclusões instantaneamente. Com o avanço da tecnologia ficou muito prático a apresentação de diversos
gráficos, portanto, não ficaremos discutindo a exaustão este tópico, por termos fácil acesso a este elemento,
a qualquer momento, em programas simples de informática, por exemplo.
Estudo de caso
Um corretor de títulos (investimentos em ações) quer gerenciar uma pequena carteira de investidores
e, para isto, compara por meio de representações gráficas, os níveis de investimentos individuais e perfis de
seus clientes, para o mês de janeiro.
13
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
13
Investidores Característica Investimentos em reaisx (R$ 1 000)
NOME SEXO PERFIL JAN FEV MAR ABR MAI JUN
Adriano Campos Masculino Agressivo 18 22 23 25 20 23
Aristides Campos Masculino Moderado 14 15 14 13 12 11
Ana Campos Feminino Conservador 9 8 10 9 8 5
Beatriz Bik Feminino Moderado 5 6 8 4 6 5
Bel Carvalho Feminino Moderado 9 8 7 4 5 8
Beltier Feltrim Masculino Agressivo 12 11 10 8 9 12
Carlos Silva Masculino Agressivo 14 15 14 13 12 15
Carlos Martim Masculino Agressivo 16 17 18 16 15 14
Claudia Can Feminino Agressivo 12 14 18 17 15 16
Claudia Vert Feminino Conservador 8 9 10 12 11 10
Tabela 2.1 – Investidores pelo perfil
Figura 2.2 - Gráfico dos investidores no mês de janeiro (x R$ 1 000,00)
Observe, que rapidamente pode-se ter ideia de quem investe e do valor investido no mês em
questão. Outro detalhe, que pode ser ilustrado por um gráfico, é a frequência com a qual certo evento se
repete. Um gráfico por gênero de investidor pode ser construído, no caso Masculino ou Feminino.
14
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES14
Figura 2.3 – Gráfico de investidores por gênero
No caso, pode-se observar que a carteira é composta por 5 homens e 5 mulheres. Se preferir, pode-
se analisar detalhes a respeito do número de investidores em cada perfil.
Figura 2.4 – Perfil dos investidores
Por outro lado, existe uma grande disparidade de valores investidos, o que pode sugerir uma
diferença de disponibilidades de cada investidor, ou ainda, uma diferença no perfil destes, que pode ser
definida mediante correta pesquisa e classificação das variáveis em estudo.
Neste caso, temos cinco clientes com perfil agressivo para os investimentos, três com perfil
moderado e 2 com perfil conservador.
Deixando todas as opções feitas até agora, neste exemplo, de gerenciamento e trocando a variável
para perfil teremos:
Figura 2.5 – gráfico de acordo com o perfil
Mas, observe que, apesar de termos esclarecidos muitos pontos, ainda não se sabe quais deles tem
este ou aquele perfil.
Caso preferir um gráfico que relacione cada caso com o perfil desse investidor, poderá fazê-lo
usando um gráfico de linhas.
15
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
15
Figura-2.6 – Gráfico de linhas relacionando o perfil dos investidores
Se preferir, remova a linha que liga os pontos, afinal, não tem significado neste exemplo, já que a
observação é pontual.
Figura 2.7 - Gráfico de pontos relacionando o perfil dos investidores
Com o gráfico acima fica claro, agora, qual dos investidores tem esse ou aquele tipo de perfil para os
investimentos.
Note o leitor que, quase sempre, o eixo das abscissas (Ox) ilustra o evento de estudo, enquanto que
o eixo das ordenadas (Oy) ilustra a magnitude do evento ou uma característica qualitativa.
16
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
16
A magnitude do evento, quase sempre, é expressa em termos da frequência com a qual o evento em
questão se verifica. Nas notações teóricas que se seguirão neste livro, escreveremos que i indica o número
da classe de qualquer um dos valores observados, xi o valor observado e fi será a sua frequência (número de
vezes que o valor xi for observado).
O primeiro cuidado para se descrever graficamente um conjunto de dados é observar a frequência
(número de vezes que cada variável é observada) dos diversos valores da variável em questão.
Chamaremos a somatória das frequências fi, dos valores observados de n (i variando de 1 a k elementos).
Perfil do Cliente p/
investimentos
Números Porcentagens
Quantidade (fi) Frequência relativa (fri)
Agressivo 5 5/10 = 0,5 =50%
Moderado 3 3/10 = 0,3 = 30%
Conservador 2 2/10 = 0,2 = 20 %
Total 10 1,00 ou 100,0%
Tabela 2.2- Frequência Simples (fi) e Frequência Relativa Simples (fri)
Observe a tabela 2.3, de bancos credenciados em alguns Estados
Bancos
Credenciados
Número de
Estabelecimentos
Frequência
Relativa
Estado (xi) Unidades (fi) (fri ) por 1 (fri) por 100
São Paulo 38 0,32 32
Alagoas 30 0,25 25
Rio Grande do Sul 35 0,30 30
Minas Gerais 15 0,13 13
Total (n) 118 1,00 100
Tabela 2.3- Frequência Simples (fi) e Relativa Simples (fri)
Daí fica claro que:
n
f
fri i pode ser descrita como o quociente entre o número de vezes que
determinada variável é notada, dividido pelo número total de eventos e que, a somatória das frequências
relativas simples (fri) será sempre igual a 1 ou 100%(em porcentagem).
Analisando-se, agora, a questão da frequência (em porcentagem) de cada evento, pode-se notar no
gráfico, em setores, a participação dos bancos credenciados por Estado, citados na pesquisa :
32%
25%
30%
13%
São Paulo
Alagoas
Rio Grande do Sul
Minas Gerais
Figura 2.8- Bancos Credenciados por Estado.
2.4 Rol (ordenação sequencial)
O ROL é uma técnica de classificação das variáveis aleatórias que tem por finalidade visualizar
detalhes das variáveis e facilitar a construção das tabelas de distribuição de frequências.
Suponha que uma pesquisa em manufaturas de artesanato, do Estado de Alagoas, quer determinar
qual o grau de mecanização destas unidades. Chegou-se a seguinte tabulação:
{5,5,6,6,5,4,4,5,6,4,5,6,8,6,7,5,3,4,2,8,7,3,4,6,5,8,7,6,2,3,4,5,1,2,3,4,5,6,7,8,9,8,7,6,5,1,2,3,4,0}.
17
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
17
Para melhorar o aspecto da pesquisa e tentar dar algum significado às variáveis, pode-se empregar
uma técnica chamada Steam and Leaf (caule e folha).
0 0 0
1,1
2,2,2,2
3,3,3,3,3
4,4,4,4,4,4,4,4
5,5,5,5,5,5,5,5,5,5
6,6,6,6,6,6,6,6,6
7,7,7,7,7
8,8,8,8,8
9
Figura 2.9 – Organização dos dados por meio da técnica Caule e folha
Desta forma, fica mais fácil ver que existem duas empresas com 1 máquina, uma empresa com 0
(zero) máquinas e, ainda, uma empresa com 9 máquinas.
O caule é o número zero que colocado a esquerda não altera o valor, pois não é significativo.
Enquanto que, o número significativo faz parte da “folha “.
Assim, pode-se montar uma tabela de distribuição de frequência com mais facilidade, como na tabela
2.4 a seguir:
Tabela 2.4 - Distribuição de Frequências
A partir dessa tabela, pode-se então construir o Histograma. Esse processo será visto mais adiante.
2.5 Tabelas de Distribuição de Frequências
Para representar, de forma clara, essas observações, deve-se recorrer à construção de Tabelas de
Distribuição de Frequências, que representarão a observação (xi) e também quantas vezes, ou com que
frequência, aquela observação específica se repete (fi) dentro do cenário estudado.
Para exemplificar, com valores mais simples, e facilitar o entendimento, suponham-se as
quantidades de determinada peça em um almoxarifado da empresa.
xi fi Fi fri Fri
0 1 1 1/50=0,02 0,02
1 2 3 2/50=0,04 0,06
2 4 7 4/50=0,08 0,14
3 5 12 5/50=0,10 0,24
4 8 20 8/50=0,16 0,40
5 10 30 10/50=0,20 0,60
6 9 39 9/50=0,18 0,78
7 5 44 5/50=0,10 0,88
8 5 49 5/50=0,10 0,98
9 1 50 1/50=0,02 1,00
Totais 50 ------ 1,00
18
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
18
xi fi
0 5
1 8
2 15
3 17
4 26
Tabela 2.5 - Número de Peças
Onde o xi representa a codificação da peça, (ex: peça 1, ponta de eixo, peça 2, cubo de roda e assim
por diante), e o fi representa a quantidade existente de cada peça em estoque.
Observa-se que, nesse caso, temos 5 tipos de peças diferentes num total de 71 peças.
Pode ser interessante ao observador querer saber quanto cada item representa em valor percentual
do total do estoque (frequência relativa) e o acúmulo destes após a contagem de cada item (frequência
relativa acumulada). Para isso, deve-se complementar a tabela com mais três colunas.
xi Fi Fi fri Fri
0 5 5 0,0704 0,0704
1 8 13 0,1127 0,1831
2 15 28 0,2113 0,3944
3 17 45 0,2394 0,6338
4 26 71 0,3662 1,0000
Total 71 1,0000
Tabela 2.6 - Percentual de peças em estoque
Para que possamos entender o gráfico de frequências (Histograma), devemos olhar para a tabela 2.6
e verificar que, por exemplo, a presença da peça de código 3 foi observada (frequência) 17 vezes.
Representa-se, ainda por Fi as frequências absolutas acumuladas, por fri as frequências relativas simples e
por Fri as frequências relativas acumuladas.
2.6 Histograma
O histograma é um tipo de gráfico especial que relaciona o valor da variável com a respectiva
frequência observada. A idealizadora deste tipo de gráfico foi a Sra. Florence Nightingale pesquisadora
Italiana (filha de Ingleses) que, na guerra da Criméia, observou que os óbitos de batalha decresciam na
medida em que se aumentava a frequência da lavagem das roupas de cama dos feridos. Hoje essa técnica,
acompanhada do Teorema da probabilidade à posteriori (teorema de Bayes) é responsável pela ferramentamais utilizada em pesquisa de Marketing.
Figura 2.10 – Histograma referente ao percentual de peças da tabela 2.6
19
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
19
Bloco Frequência % cumulativo Bloco frequência % cumulativo
0 5 7,04% 4 26 36,62%
1 8 18,31% 3 17 60,56%
2 15 39,44% 2 15 81,69%
3 17 63,38% 1 8 92,96%
4 26 100,00% 0 5 100,00%
Total 71 100,00% Total 71 100,00%
Tabela 2.7 - Frequências simples e acumuladas
Para interpretá-los é necessário notar que, as planilhas eletrônicas ordenam as variáveis da maior
para a menor magnitude, e reflete a frequência com que cada variável aparece na amostra (lado esquerdo
com o seu respectivo acumulo percentual do lado direito do gráfico).Obviamente a soma é 100%.
Exercício resolvido
1-) Uma empresa X mantém contas em oito agências de publicidade para seus dez produtos,
conforme tabela de gastos indicada abaixo:
PROD/AGEN. MACCA MARKE FACET GEGT FISK KONT JUNG SINTEL
PRODUTO A 12 15 14 11 12 13 14 17
PRODUTO B 16 15 14 13 12 11 10 14
PRODUTO C 18 19 20 21 17 18 17 21
PRODUTO D 05 06 07 8 9 12 15 13
PRODUTO E 02 05 06 8 9 4 1 1
PRODUTO F 08 05 06 7 1 3 5 7
PRODUTO G 12 14 15 12 11 10 18 15
PRODUTO H 16 09 10 8 10 9 10 11
PRODUTO I 10 09 08 7 16 15 14 11
PRODUTO J 18 17 15 14 19 5 14 12
Tabela 2.8 – Tabela de gastos com publicidade (gastos em milhões de reais)
Pode-se, ainda, ter uma ideia, em termos percentuais, deste Histograma ou ainda encontrar o
Polígono de frequências acumuladas.
Outra possibilidade é a de saber qual foi o gasto para a propaganda de cada produto, numa
determinada agência de publicidade.
PROD/AGEN. SINTEL(milhões)
PRODUTO A 17
PRODUTO B 14
PRODUTO C 21
PRODUTO D 13
PRODUTO E 1
PRODUTO F 7
PRODUTO G 15
PRODUTO H 11
PRODUTO I 11
PRODUTO J 12
Tabela 2.9 – Tabela de gastos com publicidade da Agência Sintel
20
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
20
Figura 2. 11 - Histograma dos gastos, em milhões de reais, com publicidade, da agência Sintel
2.7 Medidas de Posição
A classificação dos dados observados vai além das representações gráficas. As medidas de posição
identificam a concentração dos dados observados. Servem, portanto, para o cálculo da variabilidade dos
dados observados.
Existem três medidas de posição que ajudam a compreender, inicialmente, a maioria dos eventos
estudados.
2.7.1 Média Aritmética
A média aritmética é uma medida de posição, de tendência central, ela é a medida que resume uma
distribuição. É, normalmente, o cálculo mais instintivo no pesquisador e, também, nos profissionais. Quando
nos deparamos com a necessidade de analisarmos dados em períodos
Na verdade, a média é a medida estatística mais elementar, e em nada difere do que já fazemos
diariamente. Por exemplo, quando calculamos a nota média de um aluno: somamos todas as notas e as
dividimos pelo número de avaliações, com sua devida ponderação.
Tomemos como exemplo a média do número de acidentes em uma determinada avenida, onde
foram anotados os acidentes nos meses do ano de 2013: 20, 24, 30, 26, 22, 50, 20, 20, 22, 30, 32, 40.
O cálculo da média será 28
12
336
.
Portanto, temos em 2013 uma média de 28 acidentes por mês, nessa avenida.
A notação a seguir simplifica este cálculo por definir a observação (número de acidente) e a sua
respectiva frequência (quantas vezes ela se repete). Assim, se uma observação aparecer 3 vezes dizer-se-á
que ela tem frequência igual a 3, se apararecer 2 vezes, frequência 2, e assim por diante.
A média de uma sequência de observações é representada por: µ, para uma população e x , para
uma amostra, e define-se por:
i
ii
f
xf
x
)(
,onde:
ix
iésima observação (primeira, segunda, terceira observação, ...)
if
frequência simples de cada observação (quantas vezes cada observação aparece), sendo que, a
sua somatória é igual ao total de itens observados. Sendo assim, no exemplo abaixo, a média será:
7,5
10
57)(
i
ii
f
xf
21
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
21
Tabela 2.10 - Cálculo da média aritmética
2.7.2 Mediana
É outra medida de posição que define o centro geométrico das observações. Tem como
característica “dividir” ao meio o número de observações, ou seja, deixa para trás de si um número de
observações igual ao existente a frente desta.
Vejamos um exemplo com 11 observações de um determinado fenômeno {14, 15, 20, 16, 15, 16, 16,
25, 16, 15, 14}, anotado na tabela a seguir. Como o número de elementos é ímpar, segue o procedimento:
Primeiro colocamos os valores em ordem crescente:
Ordem ix
1º 14
2º 14
3º 15
4º 15
5º 15
6º 16
7º 16
8º 16
9º 16
10º 20
11º 25
Tabela 2.13 - Mediana para número ímpar de elementos
Então, a Posição da Mediana da distribuição será:
2
1
n
PM d , ou seja
º6
2
12
2
111
dPM .(PMd = posição da mediana)
Desta forma a observação que define a mediana sera o 6º elemento da distribuição, ou seja, o valor
da mediana é 16.
Para dados simples (não agrupados em classes), quando o número de observações n é “par”, a
posição da mediana é calculada por:
2
n
PMd
Ordem ix
1º 14
2º 14
3º 15
4º 15
5º 15
6º 16
7º 16
8º 16
9º 16
10º 20
ix if ii xf
5 3 15
4 2 8
10 1 10
6 4 24
Totais 10 57
22
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
22
Tabela 2.14 - Mediana para número par de elementos
Ou seja, no nosso exemplo, 5
2
n
, então a mediana seria o elemento que está na 5º posição.
Entretanto, isso contraria a definição por não deixar um número igual de elementos de cada lado da
distribuição. Neste caso, a Mediana será o valor da posição intermediária, entre o 5º e o 6º elemento, ou seja,
a Média aritmética entre os dois valores centrais, 15 e 16, então:
5,15
2
1615
dM .
2.7.3 Moda
A moda de uma distribuição de frequências é o elemento observado com maior frequência, ou seja,
aquele que se repete mais vezes.
No nosso exemplo, a moda é a observação 16, pois essa se repetiu 4 vezes, sendo que nenhuma
outra observação ocorreu em maior número. Entretanto, alerta-se que existe a possibilidade das distribuições
de frequências terem mais de uma moda, ou mesmo, não existir a moda.
2.8 Dados agrupados
Supondo que no exemplo anterior a amostra tenha 30 elementos, como: {12, 12, 13, 13, 13, 13, 13,
14, 14, 14, 15, 15, 15, 16, 16, 16, 16, 16, 16, 16, 16, 16, 16, 18, 18, 18, 18, 18, 20, 20}. Observe que é
evidente a dificuldade de usar o método anterior, essa amostra poderia ter 40, 50 ou mais elementos,
portanto, verificamos a necessidade de usar outra forma para encontrar a mediana. Vejamos o cálculo para
dados agrupados sem intervalos de classe.
Primeiro construiremos a tabela de distribuição de frequências e encontramos a PMd, a seguir a
frequência acumulada (Fi), a classe mediana é a que tem a Fi imediatamente superior a posição mediana:
15
2
30
PMd
Xi fi Fi
12 2 2
13 5 7
14 3 10
15 3 13
16 10 23 Classe Mediana
18 5 28
20 2 30
Total 30
Logo a Fi, imediatamente superior a 15 é 23, portanto, Md = 16.
Caso a PMd coincidir com Fi, devemos calcular a média aritmética entre variável correspondente a
essa classe e o elemento imediatamento superior.
2.9 Dados agrupados em classes
Nos exemplos do capítulo anterior, as variáveis pesquisadas (variáveis aleatórias discretas) não
necessitavam de tratamento especial para sua classificação, ou seja, as próprias variáveis já explicavam o
fenômeno observado. Entretanto, existem observações que requerem um tratamento diferenciado.
Consideremos que, uma comissão de engenheiros, com especialização em construção de usinas
elevatórias de eletricidade,precisassem fazer uma pesquisa em determinada região para saber qual o
consumo de eletricidade esperado e, com isto, decidir pelos equipamentos a serem comprados para construir
a tal usina. Dificilmente, durante o levantamento de dados, encontrariam duas casas com o mesmo consumo
de energia elétrica.
23
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
23
Seja a tabela a seguir o resultado do levantamento do consumo, em KW/h de eletricidade, de 50
estabelecimentos de uma certa região:
102 110 76 86 90 82 96 90 98 92
84 86 104 78 116 82 80 114 104 108
86 92 76 80 102 78 108 76 88 80
76 88 94 70 88 125 94 86 72 76
110 72 94 88 76 106 78 90 84 82
Tabela 2.15 – Leitura do consumo de energia elétrica em KW/h/mês.
Ao tentarmos obter a distribuição de frequências, com base nos dados descritos, obteríamos uma
tabela um pouco extensa e sem muita eficiência. Para agrupar estas observações em classes, devemos
definir primeiro o número de classes, e posteriormente, a amplitude das classes.
Determinação do número de classes para dados agrupados (k).
O primeiro método é denominado método da Raiz.
Determina-se o número de observações (no exemplo acima = 50), daí então, o número de classes “k”
será: 750 nk , teremos, portanto, sete classes.
O segundo método é denominado, Método de Sturges e calcula-se da seguinte forma:
nlk og 22,31
No exemplo acima, teríamos: 647,669897,122,315022,31 oglk
Qualquer um dos métodos proporciona o rigor necessário para validar a condução das pesquisas.
O método da Raiz será utilizado no presente curso, pois proporciona um cálculo mais rápido, por não
ser necessário recorrer a tabelas de logaritmos, nem calculadoras sofisticadas.
Determinação da amplitude de classe (h).
Dessa forma, uma vez fixado o número de classes, calcula-se a amplitude delas, que deverá ser
rigorosamente igual para todas as classes da distribuição.
886,7
7
70125__
k
mínimaobservaçãomáximaobservação
h
Então teremos 7 classes, com amplitude 8 em cada uma delas. (O arredondamento para a amplitude
de classes será sempre para o número significativo, imediatamente superior ao quociente encontrado).
xi =
2
Lili
2.9.1 Média aritmética pelo Ponto Médio de Classe (PMC)
Deve-se partir dos limites reais e seus pontos médios de classe (PMC). O ponto médio de classe é a
média aritmética entre o “limite superior” e o “limite inferior” de cada classe. (iremos considerar que PMC =
xi), Como se segue:
Tabela 2.16 – Cálculo da média do consumo das 50 residências
Classes xi if iF ii xf
70 78 74 9 9 666
78 86 82 11 20 902
86 94 90 13 33 1 170
94 102 98 5 38 490
102 110 106 7 45 742
110 118 114 4 49 456
118 126 122 1 50 122
50 4 548
24
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
24
A primeira classe é composta pelo intervalo 70 78, que indica intervalo fechado à esquerda e
aberto a direita, ou seja, o valor 70 pertence a primeira classe, mas o 78 pertence a segunda. A segunda
classe é composta pelo intervalo 78 86, que indica fechado à esquerda e aberto a direita, e assim por
diante. O cálculo dos pontos médios será feito,como se segue:
74
2
7870
2
1
x
Lili
xi , e assim por diante.
A Média será dada por: 96,90
50
4548)(
i
ii
f
xf
x .
2.9.2 Cálculo da mediana – variável contínua
Determinação do Valor da Mediana para dados agrupados em classes.
A classe Mediana caracteriza o centro geométrico do conjunto de dados, ou seja, colocando os
valores observados em ordem crescente de classes, e obtendo-se o Histograma desta distribuição, a
Mediana é o valor que a divide ao meio (duas áreas de 50% de cada lado).
Pela definição, admite-se que, os dados agrupados em classes distribuam-se uniformemente
(variável aleatória contínua), e também, que existe apenas um valor de Mediana, definido pelo elemento de
ordem, identificado também pela frequência relativa acumulada.
Identificada a Classe Mediana, determinamos as frequências acumuladas iF . Observe o exemplo:
Tabela 2.17 – Frequência simples e acumulada.
1º Passo: Calcula-se a posição mediana. não se preocupe se n é par ou ímpar.
2º Passo: Pela Fi identifica-se a classe que contém a mediana (classe Md). É a classe que contém a
frequência acumulada imediatamente superior ao valor da posição mediana n/2.
3º Passo: Utiliza-se a fórmula:
*
*_
2
*
i
i
i
f
hantFi
n
lmd
O asterisco (*) indica a classe mediana.
li * = limite inferior da classe mediana.
fi = tamanho da amostra ou número de elementos.
Fi_ant* = soma das frequências anteriores à classe Md.
hi* = amplitude da classe Md.
fi* = frequência simples da classe Md.
Classes fi Fi
70 78 9 9
78 86 11 20
86 94 13 33
94 102 5 38
102 110 7 45
110 118 4 49
118 126 1 50
Total 50
25
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
25
Cálculo da mediana da distribuição apresentada na tabela 2.17
Encontramos a posição mediana: 25
2
50
2
n , portanto, a classe mediana é a que tem a
frequência acumulada (Fi) imediatamente superior a razão
2
n .
Verificamos que a classe mediana é a 3ª, cujo Fi, é 33.
Tabela 2.18 – Indicação da classe mediana
Desta forma, teremos:
hKwMd /08,898
13
20
2
50
86
Então, a mediana será igual a 89,08 kw/h.
2.9.3 Cálculo da Moda
Pelo método simples: a Classe Modal, será aquela cuja frequência for maior, basta encontrar a média
aritmética da classe com maior frequência.
Mo = 90
2
9486
Cálculo da Moda (método de Czuber)
a Moda será então:
hi
dd
d
lM io
21
1 onde:
il limite inferior da Classe Modal (classe com maior frequência).
1d diferença entre a frequência simples da classe modal e a da classe anterior.
2d diferença entre a frequência simples da classe modal e a da classe posterior.
hi amplitude de classe (igual para todas as classes).
21113
mod_1
anteriorfreqfreqd alclasse
8513mod_2 posterioralclasse freqfreqd
No nosso exemplo, teremos: 6,87
82
2
886
Mo , ou seja, pelo método de Czuber o valor
da moda é 87,6 kw/h.
Classes fi Fi
70 78 9 9
78 86 11 20
86 94 13 33
94 102 5 38
102 110 7 45
110 118 4 49
118 126 1 50
Total 50
26
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
26
O HISTOGRAMA, POLÍGONO DE FREQUÊNCIAS e o POLÍGONO DE FREQUÊNCIAS
ACUMULADAS dessa distribuição serão apresentadas a seguir:
Figura 2.12 – Histograma da Leitura do consumo de energia elétrica em KW/h/mês.
Figura 2.13 – Histograma e polígono de Frequências
2.14 – Polígono de Frequências
27
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
27
2.15 – Polígono de Frequências acumuladas
EXERCÍCIOS PROPOSTOS
1) Determine a média aritmética, a moda e a mediana dos seguintes conjuntos de valores:
a) 13, 13, 15, 11, 14, 12, 14, 10, 20, 15 b) 8, 5, 12, 16, 3, 12, 10, 18
c) 15, 18, 20, 16, 17, 19, 18 d) 23, 25, 22, 21, 23, 24, 26, 29, 23
2) A distribuição a seguir, relaciona o número de vendas de determinado produto em uma loja de acessórios.
Determine a média aritmética, a moda e a mediana do número de vendas efetivadas desse produto.
40 – 44 – 46 – 57 – 40 – 44 – 48 – 62 – 54 – 57 – 40 – 30
3) O quadro abaixo mostra o número de filhos dos funcionários de uma empresa . Determine a média
aritmética, a mediana e a moda dessa distribuição.
Nº de filhos 0 1 2 3
Nº de funcionários 15 29 38 184) Determine a média aritmética, a mediana e a moda para a idade dos bebês consultados em um
determinado posto de saúde, conforme tabela.
5) Determine a média, a mediana e a moda para a tabela referente às alturas dos animais num pet-shop.
Alturas (cm) Frequência
20 40 3
40 60 6
60 80 2
80 100 5
Total
Idades (em anos) 0 1 2 3
Frequência 45 20 15 20
28
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
28
6) Determine a média aritmética, a mediana e a moda da tabela abaixo referentes ao peso de um doce
mineiro vendido na loja “Quetrembom”.
7) Determine a média aritmética, a mediana e a moda dos pesos de um grupo de indivíduos que passam
férias em um sítio, conforme a tabela:
Peso (Kgf) Frequência
20 40 5
40 60 7
60 80 10
80 100 12
100 120 6
Total
8) Determine a média aritmética, a mediana e a moda, dos salários dos funcionários de uma empresa
conforme dados abaixo:
9) Um curso, de iniciação ao Raciocínio Lógico, apresentou a seguinte distribuição dos pontos dos
alunos(sendo possíveis no máximo 30), segundo o sexo, indicada pelo gráfico seguinte.
Com base nos dados do gráfico, encontre:
a) a média de pontos de meninos, e a média do pontos das meninas.
b) a mediana do total de pontos dos alunos.
c) a moda do total de pontos dos alunos.
10) Uma pesquisa realizada com 1 200 pessoas às vésperas do feriado de natal tinha como pergunta
principal: “O que você pretende fazer nesse próximo feriado de natal?” Os resultados são dados no gráfico
seguinte:
Potes (ml) Frequência
50 150 15
150 250 20
250 350 10
350 450 25
450 550 30
Total
Salário (R$) Frequência
1450 1550 10
1550 1650 30
1650 1750 40
1750 1850 30
1850 1950 20
Total
29
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
29
“O que você pretende fazer nesse próximo feriado de natal”
15%
32%
26%
18%
9%
Distribuição das opções dos entrevistados
descansar em casa
viajar
ir ao cinema
trabalhar
outros
Com base no gráfico responda:
a) Quantas pessoas pretendem viajar?
b) Quantas pessoas não pretendem descansar?
c) Qual a média esperada de pessoas que pretendem trabalhar?
30
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
30
CAPÍTULO 3
MEDIDAS DE DISPERSÃO E ASSIMETRIA
Considerações iniciais
A interpretação das estatísticas usando a média aritmética, a moda e a mediana, apesar de
importante, em muitas oportunidades não é suficiente para o entendimento do fenômeno, dentro do contesto
estudado. Para melhor entendendimento as medidas de dispersão são fundamentais, pois torna mais
claro o comportamento da distribuição.
Objetivos
Mostrar as metodologias básicas para obtenção das medidas de dispersão e assimetria.
Mostrar como analisar e interpretar estas estatísticas com situações práticas.
Definir a sequência lógica do processo estatístico para análise da dispersão e comportamento das
distribuições.
Mostrar que outras medidas de posição (Separatrizes da mediana) nos ajudam a comparar índices
individuais de empresas com médias setoriais de indústrias.
3.1 Medidas de Dispersão
Em muitos casos, o simples cálculo da média aritmética não proporciona uma visão do que
realmente acontece com o comportamento dos dados observados, portanto, não proporciona informações
suficientes para a tomada de decisão.
Estudo de caso
1) Um casal resolveu que iria fazer uma dieta que consistia em comer, durante cada mês todo, a
maior quantidade de frangos, como prato principal. Ao final de 5 meses, temos a seguinte tabela:
Mês / participante Nº de frangos(Mulher) Nº de frangos(Homem) Média
Janeiro 4 4 4
Fevereiro 3 5 4
Março 2 6 4
Abril 1 7 4
Maio 0 8 4
Observe que a média é sempre a mesma: 4. Mas, ao longo dos meses, a diferença entre a
quantidade que cada um comeu fica cada vez maior. A média, embora seja uma medida importantíssima,
sozinha, muitas vezes, esconde distorções no conjunto de dados.
3.1.1 Amplitude Total
É a diferença entre o maior e o menor valor da série. No caso do exemplo anterior, a Amplitude Total
do mês de maio será: AT = 8 – 0 = 8, o que já ajuda na análise da distribuição, pois percebe-se que a
amplitude é o dobro da média, tendo a distribuição, apenas 2 elementos, indica uma dispersão significativa.
O problema da amplitude total está no fato de que se a distribuição contém 2 ou 50 elementos ela será a
mesma, ou seja, não há influência dos termos entre os extremos, mas, com certeza, o comportamento será
diferente, portanto, a sua utilidade fica restrita.
3.1.3 Variância
A variância é definida como, a média dos quadrados dos afastamentos de todas as observações, em
relação à média aritmética.
Ela nos proporciona uma medida de amplitude média, dos afastamentos das variáveis em relação à
média elevado ao quadrado. Em algumas oportunidades, chega a coincidir com a amplitude total dos dados
observados, mas isso não é uma regra. Note-se que, a amplitude total consegue apenas propiciar uma noção
31
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
31
da compactação total dos dados em relação à média. Ela não nos oferece sensibilidade maior que isto. O
cálculo da variância é dada pela fórmula
i
ii
f
xxf
2
2 .
Em muitos casos chega a não fazer sentido, pois se estivermos medindo salários, a variância seria
uma medida de amplitude expressa em salários elevados ao quadrado, o que não faz sentido dentro do
contexto estudado. Portanto, em função disso, usamos com mais frequência o desvio-padrão.
3.1.4 Desvio-Padrão
O desvio-padrão é definido como a “raiz quadrada da média do quadrado dos desvios dos dados
observados, em relação à média da distribuição destes”.
O desvio-padrão populacional é calculado por meio da fórmula:
i
ii
f
xxf
2
Note que, quando os dados considerados representarem toda a População, o denominador da
expressão acima será o número de observações, nf i .
Mas, quando os dados observados forem uma “amostra” da população, é aconselhável a utilização
de 11 nfi (mais adiante comentaremos sobre isso), daí a fórmula para calcular o desvio-padrão da
amostra, será:
1
)( 2
i
ii
f
xxf
S
Desta forma, o desvio-padrão identifica o valor médio dos afastamentos das observações em relação
à média da distribuição.
3.1.5 Interpretando o desvio-padrão
O desvio-padrão, ao contrário da variância, nos proporciona uma medida de concentração para cada
módulo de sua medida.
Vejamos, por exemplo, a regra empírica citada por (Martins, Atlas 2004):
Para qualquer distribuição amostral com média x e desvio-padrão s, tem-se:
Entre 60% e 80% das variáveis estudadas estarão entre ± 1 desvio-padrão.
95% das variáveis estudadas estarão entre ± 2 desvios.
100% das variáveis estudadas estarão entre ± 3 desvios.
3.2 Teorema de Tchebycheff ou Tchebychev
(Pafnuti Lvovich Chebychev , Matemático Russo +1882)
Para qualquer distribuição amostral, com média x e desvio-padrão s, tem-se:
No mínimo 75% das variáveis estudadas estarão entre ± 2s.
No mínimo 89% das variáveis estudadas estarão entre ± 3s.
Note-se que, com este teorema, é possível obter uma visão mais específica a respeito da
concentração das variáveis estudadas, pois 75% delas estarão entre os valores da média com ± 2s.
3.3 Coeficiente de Variação de Karl Pearson
É uma medida relativa de dispersão. Mede o valor relativo que o desvio-padrão é, em relação à
média da distribuição de frequências. Esta medida, aliada ao teorema de Tchebycheff, propicia uma
avaliação da amplitude do desvio-padrão em relação à média. Quanto maior for esta dispersão relativa,
menos concentrados em tornoda média estarão as variáveis estudadas.
x
s
Cv
Exemplo resolvido
2) Para exemplificarmos de maneira prática a utilização e o significado do desvio-padrão, considere os
seguintes índices de Liquidez Geral de dois grupos, constituídos por 5 empresas cada um, do mesmo
setor industrial, mas de regiões diferentes do país.
O índice de Liquidez Geral é definido por
ELPPC
RLPAC
LG
, onde:
32
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
32
AC = Valor do Ativo Circulante Total
RLP = Valor do Realizável de Longo Prazo
PC = Valor do Passivo Circulante
ELP = Valor do Exigível de Longo Prazo
E representa quantas unidades monetárias (quantos reais) a empresa tem para pagar cada
Unidade monetária da dívida que possui. Obviamente, quanto mais alto o valor dos ativos e menor os
valores dos passivos, a empresa apresentará um Índice de Liquidez Geral maior.
Grupo de Empresas Índice de Liquidez Geral x
A 1,4 1,5 1,6 1,7 1,8 1,6
B 1,2 1,4 1,6 1,8 2 1,6
Tabela 3.2 – Comparação de duas amostras pela média.
Como podemos perceber, a média dos índices de liquidez geral dos dois grupos, A e B, das
empresas são iguais.
A comprovação vem com cálculo do desvio-padrão.
Considerando que, estamos lidando com duas amostras, portanto, o denominador da fórmula do
desvio-padrão será igual a n – 1.
Como a frequência das observações, dentro de cada grupo, é igual a 1 (pois não há dois índices
iguais dentro de cada grupo), teremos, então:
158114,0
15
)6,18,1()6,17,1()6,16,1()6,15,1()6,14,1( 22222
AS
316228,0
15
)6,12()6,18,1()6,16,1()6,14,1()6,12,1( 22222
BS
Nota-se, claramente, que o desvio-padrão das empresas do grupo B é duas vezes superior ao das
empresas do grupo A.
Dessa forma, pode-se dizer que o desempenho das empresas do grupo A é mais consistente do
que o das empresas do grupo B, pois apresentam um menor desvio, em relação à média.
Exemplo resolvido
3) Admita que os mesmos resultados de desvio-padrão, anteriores descritos, tivessem, por origem, os
rendimentos de duas carteiras de ativos financeiros.
As duas carteiras tiveram a mesma média de rendimento ao longo de 5 períodos, porém, a carteira
de ativos B apresentou maior dispersão em relação à média. Ora rendeu muito (2), ora rendeu pouco
(1,2). Já a carteira A teve rendimentos mais próximos, mesmo que, de menor magnitude.
Entende-se que “dispersão ou afastamento, em relação à média, significa risco”.
3.4 Cálculo do desvio-padrão, para dados agrupados em classes.
Exemplo: Tendo como referência a tabela a seguir, pede-se calcular o desvio-padrão.
Classe fi ix ii xf
2xxf ii
70 78 9 74 666 2 588,77
78 86 11 82 902 883,10
86 94 13 90 1 170 11,98
94 102 5 98 490 247,81
102 110 7 106 742 1 583,41
110 118 4 114 456 2 123,37
118 126 1 122 122 963,48
= 50 4 548 8 401,92
Tabela 3.3 – Elementos para o cálculo do desvio-padrão com dados agrupados.
Sendo a Média dada por: 98,90
50
4548)(
i
ii
f
fx
x
33
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
33
Cálculo do desvio-padrão:
96,1204,168
50
92,8401)(
2
i
ii
f
xxf
S
3.5 Separatrizes da Mediana
Como já visto anteriormente, a Mediana é uma medida de posição central dos dados observados.
Assim como a mediana, existem outras medidas de posição com concepção semelhante, embora
não sejam medidas de tendência central. A mediana divide a distribuição das observações em duas partes
iguais (50% dos dados antes, e 50% depois dela).
Os Quartis, dividem a distribuição em 4 partes iguais, portanto, cada Quartil deixa atrás de si 1/4 das
observações:
4
i
i
fi
Q
, i = 1,2,3,4.
Os Decis, dividem a distribuição em 10 partes iguais, portanto, cada Decil deixa atrás de si 1/10 das
observações:
10
i
i
fi
D
i = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
Os Percentis, dividem a distribuição em 100 partes iguais, portanto, cada Percentil deixa atrás de si
1/100 das observações:
100
i
i
fi
P
i = 1, 2, 3, ..., 99, 100.
Representa-se abaixo a Curva Normal com a divisão em Quartis e Percentis
O segundo quartil corresponde ao quinquagésimo percentil, que correspondem à mediana.
Exercício resolvido
4) Suponha que uma empresa deseja determinar o consumo diário de determinado produto químico em suas
células de fabricação. Essas informações servirão, posteriormente, para a verificação de custos de produção,
vendas, CMV e determinação de ponto de pedido de matéria prima.
Para tanto, a gerência financeira solicitou que fosse feito um levantamento de consumo desse
produto por dia, durante um prazo de 80 dias, em todas as células de produção, e obtiveram-se os valores
desse consumo em quilogramas (Kg) por unidade, tabulando-os, a seguir, por faixas (classes) de
consumo como a seguir:
Consumo de produto
químico (Kg)
xi if ii
xf
iF
5 25 15 4 60 4
25 45 35 6 210 10
45 65 55 14 770 24
65 85 75 26 1 950 50
85 105 95 14 1 330 64
105 125 115 8 920 72
125 145 135 6 810 78
145 165 155 2 310 80
Total 80 6 360
Tabela 3.4 – Consumo do produto químico em Kg/dia.
Pede-se determinar:
a) a média de consumo no período;
34
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
34
b) a Classe Mediana e o seu valor;
c) a Moda;
d) o trigésimo percentil, o terceiro decil, o quinto decil e o nono decil de consumos.
Cálculo da Média pela Fórmula:
diaKg
f
xf
x
i
ii /50,79
80
6360)(
Cálculo da Classe Mediana e o seu valor
Calcula-se PMd = ,ª40
2
80
2
observação
n
portanto, a mediana deixa atrás de si a mesma
quantidade de elementos que fica a sua frente. Como a Posição Mediana é a 40ª observação de
consumo, logo, percorrendo-se a tabela, a Fi (Frequência Acumulada) imediatamente superior é 50 e,
portanto, a classe mediana é a quarta: 65 85.
Cálculo do valor da Mediana
*
*
*_
2
* hi
fi
Fi
n
liM
ant
d
=
diaKg /31,7730,126520
26
24
2
80
65
Cálculo da Moda pela Fórmula de Czuber
Primeiro, devemos determinar a Classe Modal, que é aquela com maior frequência, neste caso, 26
observações. Essa classe, cuja frequência simples é 26 observações, coincide, excepcionalmente, com a
classe mediana, mas, alertamos que isso não é regra.
Método de Czuber
anteriorfreqfreqd alclasse mod_1
posterioralclasse freqfreqd mod_2
a Moda será, então:
hi
dd
d
lM io
21
1
, onde:
il limite inferior da Classe Modal (classe com maior frequência).
1d diferença entre a frequência simples da classe modal e a da classe anterior.
2d diferença entre a frequência simples da classe modal e a da classe posterior.
hi amplitude de classe (igual para todas as classes).
121426
mod_1
anteriorfreqfreqd alclasse
121426mod_2 posterioralclasse freqfreqd
No nosso exemplo teremos diaKgMo /751065
1212
12
2065
, ou seja, o consumo mais
verificado durante todo o processo de observação foi 75 Kg/dia.
Cálculo da moda simples
Mo = 75
2
8565
Cálculo dos Elementos Separatrizes
Trigésimo percentil
35
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
35
elementoEP
fi
EPi i º24
100
2400
100
8030
100
30
O Trigésimo percentil, é o elemento que deixa atrás de si 24 termos do conjunto ordenado de dados
observados.
Pela coluna de Frequência Acumulada, localiza-se a classe com valor imediatamente superior a 24,
verificando-se que o mesmo está na 3ª classe, correspondente ao intervalo 45 65.
Como esse valor coincide com a frequência acumulada até a 3ª classe, pode-se dizer que, o
Trigésimo Percentil tem o valor de consumo do produto 65 Kg/dia.
A interpretação, portanto, é que 30% das observações (dias observados), apresentaram umconsumo do produto químico de até 65 Kg.
Aplicando a Fórmula:
i
ant
ii
f
hiFposição
lE
il Limite inferior da Classe Separatriz que contém o Elemento estudado.
h Amplitude de classe (igual para todas, desde a definição do número de classes).
antFi _ Frequência Acumulada da classe ANTERIOR a posição da mediana.
if Frequência simples da Classe que contém a mediana, desta forma:
652045
14
20)1024(
45
)_(
30
P
f
hantFiPosição
lE
i
i
ii
Portanto, está verificado empiricamente que, quando o elemento coincide com a frequência
acumulada até a classe onde este se encontra, então, ele assume o valor do limite superior da classe que,
no nosso caso, é 65.
O terceiro decil D30 coincide com o trigésimo percentil, portanto, terá o mesmo valor = 65 Kg / dia.
3
3 80 240
24
10 10 10
ºi
i f
Posição PosiçãoD elemento
diakgD
fD
hantFiED
lPosição
i
ii
i /65205
14
20)1024(
45
)_(
3
O 5º decil pode ser calculado pela mesma fórmula
5
5 80 400
40
10 10 10
ºi
i f
Posição PosiçãoD elemento
diaKg
D
f
hantFiPosição
lE
i
i
ii
/31,773,1265
26
20)2440(
65
)_(
5
Ou seja, o Quinto decil, o quinquagésimo percentil coincidem com a Mediana e deixa para trás de si
50% das observações, assim como para frente. Portanto, pode-se dizer que 50% dos dias tiveram um
consumo de até 77,31Kg/dia de produto químico e outros 50% tiveram consumos superiores.
O 9º decil pode ser calculado usando o mesmo raciocínio.
9
9 80 720
72
10 10 10
ºi
i f
Posição D elemento
O septuagésimo segundo elemento se encontra na 6ª classe no intervalo 105 125.
Daí podemos calcular o seu valor por meio da fórmula:
diakg
D
f
hantFiPosição
lE
i
i
ii
/12520105
8
20)6472(
105
)_(
9
Novamente, como 72 coincide com a frequência acumulada da classe, então, o consumo coincidirá
com o limite superior desta, 125.
36
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
36
3.6 Gráfico Box-Plot
Uma representação gráfica importante, envolvendo as separatrizes, especificamente os quartis, é o
Box-plot. Este gráfico é definido como uma “caixa” com nível superior dado pelo terceiro quartil e o nível
inferior dado pelo primeiro quartil. O segundo quartil, ou seja, a mediana, é representada por um traço no
interior da caixa, e segmentos de reta são colocados da caixa até os valores máximo e mínimo da
distribuição, que não sejam observações discrepantes (o critério para decidir se uma observação é
discrepante não será discutido aqui, mas, em geral, envolve a diferença entre o terceiro e o primeiro quartis).
O próximo exemplo ilustra a construção do box-plot para uma variável quantitativa discreta:
a)
Idade(xi) fi Fi xifi. 2)( xxifi
17 9 9 153 45,16
18 15 24 270 23,06
19 7 31 133 0,40
20 6 37 120 3,47
21 5 42 105 15,49
22 4 46 88 30,47
23 3 49 69 42,41
24 1 50 24 22,66
∑= 50 962 183,12
Tabela 3.5 - Idade dos alunos da sala 55 da Faculdade Todosjavenceram
24,19
50
962)(
i
ii
f
xf
x
66,3
50
12,183)(
2
2
n
xxifi
cv = %93,9100
24,19
91,1
181 Q ; 192 Q ; 213 Q
Figura 3.2 – Gráfico Box-Plot das separatrizes das idades dos alunos
da sala 55.
91,166,3
50
12,183)( 2
i
i
f
xxfi
37
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
37
Observe que a distância maior entre o 2º e 3º Quartil indica que os valores maiores que o 2º quartil
são mais dispersos que os menores.
b-)
Peso (kg) fi ix Fi xifi
2xxf ii
0 3 7 1,5 7 10,5 227,43
3 6 17 4,5 24 76,5 123,93
6 9 11 7,5 35 82,5 0,99
9 12 7 10,5 42 73,5 76,23
12 15 5 13,5 47 67,5 198,45
15 18 3 16.5 50 49,5 259,47
=50 360 886,50
Tabela 3.6 – Pesos dos 50 filhotes do canil Cãolivre
2,7
50
360)(
i
ii
f
xf
x
73,17
50
5,886)(
2
2
n
xxifi
21,473,17
50
5,886)(
2
i
i
f
xxfi
cv = %47,58100
2,7
21,4
97,3
17
3)75,12(
31
Q 27,6
11
3)2425(
62
Q
07,10
7
3)355,37(
93
Q
Figura 3.3 Gráfico box-plot dos pesos dos 50 filhotes do canil Cãolivre
O gráfico box-plot indica que os valores entre o 2º e 3º Quartis são mais dispersos que os elementos
entre o 1º e 2º, ele também pode ser usado para comparar variáveis em amostras estratificadas, onde grupos
tem comportamentos heterogêneos, de acordo com suas especificidades. Por exemplo, se quisermos
38
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
38
calcular a estatura média dos alunos de uma sala, o comportamento das variáveis dependerão do sexo do
alunos, os rapazes tendem a apresentar estatura superior às das moças.
d) Gráfico box-plot comparando a estatura dos alunos de uma classe X, considerando os estratos: masculino
e feminino.
Figura 3.4 – Comparativo entre as estaturas dos alunos da classe 506 da
faculdade X, separados por estratos.
A estatura dos meninos é superior que a das meninas, e observamos maior dispersão das maiores
estaturas dos meninos, pela análise do gráfico.
EXERCÍCIOS PROPOSTOS
1) Dada a amostra, abaixo:
a) agrupar os elementos em classes, inicie pelo elemento 15;
b) construir a tabela de distribuição de frequências;
c) calcular a média aritmética; a mediana; a variância e o desvio-padrão.
28 33 27 30 31 30 33 30 33 29
27 33 31 27 31 28 27 29 31 24
31 33 30 32 30 33 27 33 31 33
23 29 30 24 28 34 30 30 18 17
18 15 16 17 17 18 19 19 20 29
2) Num Teste aplicado a 20 alunos, obteve-se a seguinte distribuição:
Pontos 35| 45 45| 55 55 | 65 65 | 75 75 | 85 85 | 95
Nº de alunos 1 3 8 3 3 2
a) calcular a variância;
c) calcular o desvio-padrão;
d) calcular o coeficiente de variação;
e) Construa o gráfico box-plot.
3) Dada a amostra de 60 rendas (em milhares) de certa região geográfica:
39
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
39
1 2 3 4 6 8 9 10 13 14
1 3 3 4 6 8 9 11 13 15
1 3 4 5 6 8 9 11 13 15
2 3 4 5 6 8 10 12 14 15
2 3 4 5 7 8 10 12 14 16
2 3 4 5 7 9 10 13 14 16
a) Agrupe em classes, sendo K = 6, h = 3 e o limite inferior da 1ª classe igual a 0.
b) calcular a mediana;
c) calcular o desvio médio;
d) determinar a variância;
e) determinar o desvio-padrão;
f) Construa o gráfico box-plot.
4) Dada a distribuições a seguir, encontre:
a) a média aritmética;
b) o desvio médio;
c) a variância;
d) o desvio padrão;
e) o coeficiente de variação;
f) 3º decil;
g) 3º quartil;
h) 65º percentil.
Idade fi
17 9
18 15
19 7
20 6
21 5
22 4
23 3
24 1
∑= 50
5) Dada a distribuições a seguir, encontre:
a) a média aritmética;
c) a variância;
d) o desvio padrão;
e) o coeficiente de variação;
f) 3º decil;
g) 3º quartil;
h) 65º percentil.
Peso fi
40⊢50 8
50⊢60 22
60⊢70 8
70⊢80 6
80⊢90 5
90⊢100 1
∑ = 50
6) Dada a distribuições a seguir, encontre:
a) a média aritmética;
c) a variância;
d) o desvio padrão;
e) o coeficiente de variação;
f) 3º decil;
g) 3º quartil;
h) 65º percentil.
Classes Nº de ocorrências(fi)
1⊢4 18
4⊢7 108
7⊢10 270
10⊢13 150
13⊢16 54
TOTAL ∑ = 600
7) Uma empresa de locação de máquinas elaborou uma pesquisa, identificando a durabilidade de seus
equipamentos, segundo o tempo, para saber após quanto tempo as máquinas precisavam de reparos,
excetuando-se manutenção preventiva, o resultado encontra-se na tabela a seguir:
40
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
40
Tempo (meses) Nº de máquinas
05 02
07 08
10 21
12 2016 23
20 26
Com base na tabela, calcule:
a) a média aritmética;
c) a variância;
d) o desvio padrão;
e) o coeficiente de variação.
8) Uma empresa, com grandes dificuldades financeiras resolveu fazer um levantamento sobre os salários dos
funcionários para tomada de decisão sobre medidas de ajustes. Para facilitar o trabalho montou a tabela a
seguir e dividiu os salários em 4 categorias. Determine a partir de que valor está classificado cada
funcionário, usando o gráfico box-plot como ferramenta estatística.
Faixa salarial em reais Número de funcionários
800 ⊢ 1000 10
1000 ⊢ 1200 30
1200 ⊢ 1400 40
1400 ⊢ 1600 30
1600 ⊢ 1800 25
1800 ⊢2000 15
Total 150
3.7 Medidas de Assimetria e Curtose
Para completarmos o estudo da Estatística Descritiva e de suas ferramentas básicas, portanto, falta
definir as Medidas de Assimetria e de Curtose.
3.7.1 - Assimetria
Assimetria, como o próprio nome indica, significa falta de simetria em relação à Mediana da
distribuição de frequências.
3.7.2 - Análise gráfica da Assimetria.
Se quisermos analisar, graficamente, a distribuição de frequências estudada, devemos construir um
Histograma. Este poderá revelar situações como as a seguir.
Uma curva de frequências simétrica apresenta o seguinte aspecto:
0
5
10
15
20
25
30
2 6 10 14 18 22 26 30 34 38 42 46
F
re
q
ü
ê
n
c
ia
Variável
Simetria
Figura 3.5 - Distribuição Simétrica
Uma distribuição simétrica apresenta a seguinte característica, Od MMx , a Média é igual à
Mediana e também igual à Moda.
41
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
41
Uma curva de frequências com Assimetria Positiva (cauda assimétrica à direita) tem o seguinte
aspecto:
0
5
10
15
20
25
30
2 6 10 14 18 22 26 30 34 38 42 46
F
re
q
ü
ê
n
c
ia
Variáv el
Assimetria Positiva
Figura 3.6 - Distribuição com Assimetria Positiva
Essa distribuição apresenta a seguinte característica,
Od MMx a Média é maior que a
Mediana que por sua vez é maior que a Moda.
Por último, uma curva de frequências com Assimetria Negativa (cauda assimétrica à esquerda) tem o
seguinte aspecto:
Figura 3.7 - Distribuição com Assimetria Negativa
E a seguinte característica:
Od MMx , a Média é menor que a Mediana, que por sua vez é
menor que a Moda.
3.7.3 Métodos de Comparação das medidas de tendência central.
Karl Pearson foi um grande estudioso das relações entre variáveis. Estudando o comportamento das
diversas distribuições de frequências, chegou a conclusão da existência de uma relação entre a Média, a
Mediana e a Moda. Por meio de muito estudo, chegou à seguinte fórmula:
)(3)( dO MxMx
Ou seja, a diferença entre a medida da Média aritmética de uma distribuição, e sua Moda é,
aproximadamente, igual à três vezes a diferença entre a Média e a Mediana.
Partindo desta fórmula, com um simples trabalho matemático, chega-se às seguintes relações:
Média aritmética
)(3)( dO MxMx
dOdO MMxMxMx 3233)( . Daí,
2
3 od MMx
Mediana
)(3)( dO MxMx
dOdO MMxMxMx 3233)( . Daí,
42
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
42
3
2xM
M Od
Moda
)(3)( dO MxMx
dOdO MxMMxxM 3233 . Daí,
xMM dO 23
Desta forma, pode-se estimar, rapidamente, a terceira medida de tendência central, uma vez
conhecidas duas delas.
Exemplo resolvido
5) Considere a distribuição de frequências contínua (dados agrupados em classes) a seguir, calcule os
dois coeficientes de assimetria de Pearson e informe que tipo de assimetria possui.
Primeiro, devemos calcular a Média, a Moda, a Mediana e o desvio-padrão para os dados
agrupados em classes.
Classes if ix iF ii xf xxi
2)( xxi
2)( xxf ii
0⊢4 1 2 1 2 -24,38 594,38 594,38
4⊢8 4 6 5 24 -20,38 415,34 1 661,36
8⊢12 6 10 11 60 -16,38 268,30 1 609,80
12⊢16 10 14 21 140 -12,38 153,26 1 532,60
16⊢20 12 18 33 216 -8,38 70,22 842,64
20⊢24 14 22 47 308 -4,38 19,18 268,52
24⊢28 18 26 65 468 -0,38 0,14 2,52
28⊢32 20 30 85 600 3,62 13,10 262
32⊢36 24 34 109 816 7,62 58,06 1 393,44
36⊢40 12 38 121 456 11,62 135,02 1 620,24
40⊢44 4 42 125 168 15,62 243,98 975,92
44⊢48 2 46 127 92 19,62 384,94 769,92
Total 127 3350 11 533,34
Tabela 3.7 - Cálculo do Primeiro Coeficiente de Assimetria de Pearson
Cálculo da Média
38,26
127
3350)(
i
ii
f
fx
Cálculo da Mediana
Identificação da classe mediana:
PMd 5,63
2
127
2
n
,
Logo, a classe mediana será a 7ª, ou seja, a classe de 24 a 28.
Esta classe possui frequência simples 18if e Fi_ant.= 47. Note, também, que a amplitude
de classe é constante, 4h , logo:
67,274
18
47
2
127
24*
*
_
2*
hi
fi
antFi
n
liM d
43
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
43
Cálculo da Moda1 (Método de Czuber)
A classe Modal é aquela que possui maior número de observações (frequência simples), ou seja, a
classe de 32 a 36.
420241 anteriorlclasseModa ffd
33
124
4
432
21
1
dd
d
hlM O
Cálculo do Desvio-padrão
5296,9
127
34,533.11)(
2
i
ii
f
fxx
Pela simples análise destas Estatísticas, verifica-se que, 3367,2738,26 e, portanto, a
distribuição de frequências possui uma assimetria negativa.
Exemplo resolvido
7) Calcular o primeiro e o segundo coeficiente de assimetria de Pearson, para a distribuição de
frequências abaixo, e determinar o tipo de assimetria ou simetria.
Classes if ix iF ii xf xxi
2)( xxi
2)( xxf ii
0⊢4 2 2 2 4 - 22 484 968
4⊢8 4 6 6 24 - 18 324 1 296
8⊢12 6 10 12 60 - 14 196 1 176
12⊢16 14 14 26 196 -10 100 1 400
16⊢20 20 18 46 360 -6 36 720
20⊢24 24 22 70 528 -2 4 96
24⊢28 24 26 94 624 2 4 96
28⊢32 20 30 114 600 6 36 720
32⊢36 14 34 128 476 10 100 1 400
36⊢40 6 38 134 228 14 196 1 176
40⊢44 4 42 138 168 18 324 1 296
44⊢48 2 46 140 92 22 484 968
Total 140
3 360 11 312
Tabela 3.8 - Coeficientes de assimetria para dados agrupados em classes
Cálculo da Média
24
140
3360)(
i
ii
f
fx
x
Cálculo da Mediana
Começamos com a identificação da classe mediana,
70
2
140
2
__
n
MedianadaPosição , a classe mediana será a que contiver a Fi (frequência
acumulada) imediatamente superior a 70. Guiando-se pela coluna das Frequências Acumuladas
iF ,
constata-se que a mediana está na 6ª classe no intervalo de 20 a 24.
1 CUIDADO: Neste exemplo nota-se que pelo fato do Excel não possuir uma ferramenta específica para cálculos de dados agrupados
em classes, o Ponto Médio de Classe PMC é neste caso igual a 34 e o Excel indicaria este valor como Moda o que não corresponderia
ao cálculo de Czuber.
1212242 posteriorlclasseModa ffd
44
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
44
Esta classe possui frequência simples 24if e 46_ antFi . Notar, também, que a
amplitude de classe é constante 4h .
244
24
46
2
140
20*
*
*_
2*
hi
f
antFi
n
liM d
Cálculo da Moda (Czuber)
A classe Modal é aquela que possui maior número de observações (frequência simples), ou seja,
a classe de 20 a 24.
420241 anteriorlclasseModa ffd 2 24 24 0classeModal posteriord f f
1
1 2
4
20 4 24
4 0
O
d
M l h
d d
Caso o analista tivesse optado pela outra classe, de mesma frequência simples, (classe de 24 a
28) para definir o valor da Moda, o valor obtido seria o mesmo, como se demonstra a seguir:
024241 anteriorlclasseModa ffd420242 posteriorlclasseModa ffd
24
40
0
424
21
1
dd
d
hlM iO
Cálculo do Desvio-padrão
99,8
140
11312)(
2
i
ii
f
fxx
s
Pela análise destas Estatísticas, verifica-se que a Od MMx , e portanto, a distribuição de
frequências é SIMÉTRICA. .
Exemplo resolvido
8) Calcular o primeiro e o segundo coeficiente de assimetria de Pearson, para a distribuição de
frequências a seguir, e determinar o tipo de assimetria.
Classes
if ix iF ii xf )( xxi
2)( xxi
2)( xxf ii
00 |— 04 2 2 2 4 -19,62 384,94 769,88
04 |— 08 4 6 6 24 -15,62 243,98 975,92
08 |— 12 12 10 18 120 -11,62 135,02 1 620,24
12 |— 16 24 14 42 336 -7,62 58,06 1 393,44
16 |— 20 20 18 62 360 -3,62 13,10 262,00
20 |— 24 18 22 80 396 0,38 0,14 2,52
24 |— 28 14 26 94 364 4,38 19,18 268,52
28 |— 32 12 30 106 360 8,38 70,22 842,64
32 |— 36 10 34 116 340 12,38 153,26 1 532,60
36 |— 40 6 38 122 228 16,38 268,30 1 609,80
40 |— 44 4 42 126 168 20,38 415,34 1 661,36
44 |— 48 1 46 127 46 24,38 594,38 594,38
127 2746 11 533,30
Tabela 3.9 - Coeficiente de Assimetria exemplo resolvido
45
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
45
Cálculo da Média
62,21
127
2746)(
i
ii
f
fx
x
Cálculo da Mediana
Identificação da classe mediana, 5,63
2
127
2
_
n
MedianaPosição , a classe mediana será a
que contiver a Fi, imediatamente superior a posição mediana (63,5). Guiando-se pela coluna das
Frequências Acumuladas
iF , constata-se que a mediana está na 6ª classe.
Esta classe possui frequência simples 18if e Fi_ant = 62. Note, também, que a amplitude
de classe é constante , 4h
33,204
18
62
2
127
20*
*
*_
2*
hi
f
antFi
n
liM d
Cálculo da Moda
A classe Modal é aquela que possui maior número de observações (frequência simples), ou seja,
a classe de 12 a 16.
1212241 anteriorlclasseModa ffd
420242 posteriorlclasseModa ffd
15
412
12
412
21
1
dd
d
hlM O
Cálculo do Desvio-padrão
5296,9
127
30,11533)(
2
i
ii
f
fxx
s
Novamente, analisando estas Estatísticas, verifica-se que 21 62 20 33 15, , , ou seja,
Od MMx e, portanto, a distribuição de frequências possui uma ASSIMETRIA POSITIVA.
3.9 Curtose
A Curtose é uma medida estatística que identifica o grau de achatamento de uma distribuição de
frequências. Curtose significa que a curva possui um achatamento derivado da presença de mais de uma
moda (muitas frequências iguais e seguidas).
3.9.1 Análise gráfica da Curtose
Da mesma forma que a assimetria, pode-se avaliar a Curtose de uma distribuição de frequências, por
meio da análise gráfica.
A curva será denominada Mesocúrtica quando tiver comportamento semelhante à curva normal e,
portanto, simétrica.
46
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
46
Figura 3.8
Quando for achatada, devido às observações centrais, constituírem mais de uma moda, denominar-
se-a Platicúrtica.
Figura 3.9
Quando a distribuição de frequências apresentar um desvio-padrão pequeno e, portanto, existir um
agrupamento das variáveis em torno da média, a curva será mais pontiaguda que a curva normal e daí
chamar-se-á Leptocúrtica.
Figura 3.10
3.10 Coeficiente Percentílico de Curtose
Existem vários coeficientes de Curtose. São coeficientes centrados na média, ou na origem da
distribuição de frequências, ou ainda centrados nos chamados “momentos de Curtose”. Normalmente, estes
coeficientes são centrados nos momentos de terceira e de quarta ordem.
O coeficiente aqui estudado será o coeficiente percentílico de curtose.
Para o cálculo deste coeficiente é necessário calcular os seguintes elementos:
Q3, o valor da observação que define o terceiro quartil.
Q1, o valor da observação que define o primeiro quartil.
P90, o valor da observação que define o nonagésimo percentil.
P10, o valor da observação que define o décimo percentil.
47
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
47
A fórmula do coeficiente percentílico de curtose é:
1090
13
2
PP
QQ
K
A indicação do grau de achatamento da curva vem da análise do resultado empírico desta fórmula:
Quando, 263,0K , a curva será dita Mesocúrtica
Quando, 263,0K , a curva será dita Platicúrtica.
Quando, 263,0K , a curva será dita Leptocúrtica.
Exemplo resolvido
9) Calcular o coeficiente Percentílico de Curtose na distribuição abaixo, justificando seu tipo.
Classes
if ix iF
00 |— 04 2 2 2
04 |— 08 4 6 6
08 |— 12 12 10 18
12 |— 16 24 14 42
16 |— 20 20 18 62
20 |— 24 18 22 80
24 |— 28 14 26 94
28 |— 32 12 30 106
32 |— 36 10 34 116
36 |— 40 6 38 122
40 |— 44 4 42 126
44 |— 48 1 46 127
127
Tabela 3.10 - Cálculo do coeficiente Percentílico de Curtose
Elemento
Ordem
ou
Posição
Localização
Classe
Aplicação da Fórmula
i
orAcumAnteri
i
i
f
F
ou
fi
hl 1004
Q1 75,31
4
1271
12 a 16 29,14
24
1875,31
412
Q3 25,95
4
1273
28 a 32 42,28
12
9425,95
428
P10 70,12
100
12710
8 a 12 23,10
12
670,12
48
P90 30,114
100
12790
32 a 36 32,35
10
10630,114
432
Tabela 3.11 - Cálculo de Q1, Q3, P10 e P90
Aplicando-se a fórmula do coeficiente percentílico temos:
2816,0
09,25
065,7
23,1032,35
2
29,1442,28
2
1090
13
PP
QQ
K
A indicação do grau de achatamento da curva vem da análise do resultado empírico desta fórmula
e como 263,0K , a curva será dita Platicúrtica.
48
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
48
EXERCÍCIOS PROPOSTOS
9) A tabela a seguir mostra as classes de renda de famílias (em número de salários mínimos) que
frequentaram a loja MacVendas Ltda. Calcular todos os elementos de estatística descritiva e os coeficientes
de assimetria e percentílico de curtose.
CLASSES fi
00 |— 08 02
08 |— 16 04
16 |— 24 06
24 |— 32 14
32 |— 40 17
40 |— 48 24
48 |— 56 24
TOTAL
Qual seu parecer a respeito do público que frequenta essa loja?
10) Sejam as observações de fluxos de caixa (em R$ x 1000) de 50 dias, aleatoriamente colhidos, do
primeiro semestre de 2002, na tabela a seguir.
2 3 4 6 7 8 9 10 9 8
5 4 3 4 3 2 1 6 7 11
6 8 6 9 9 11 2 3 5 6
7 8 9 5 4 3 2 4 4 8
3 4 7 8 5 4 3 2 1 4
Pede-se:
a) Montar o Rol.
b) Calcular o número de classes pelo método da raiz e a amplitude de classe.
c) Agrupar os dados em classes.
d) Calcular a Média, a Moda, a Mediana e o Desvio-padrão.
e) Montar o Histograma.
f) Com base no Histograma proceder a uma análise gráfica e emitir seu parecer.
g) Calcular o Coeficiente percentílico de Assimetria e o Coeficiente de Curtose.
11) Utilizando a distribuição de frequências da tabela a seguir e os gráficos de probabilidades, pede-se
posicionar analiticamente e graficamente as seguintes separatrizes:EP94; EP76; EP88; EP42
Consumo (Kg) fi xi fi. xi Fi
05 |— 25 04 15 60 04
25 |— 45 06 35 210 10
45 |— 65 14 55 770 24
65 |— 85 26 75 1 950 50
85 |— 105 14 95 1 330 64
105 |— 125 08 115 920 72
125 |— 145 06 135 810 78
145 |— 165 02 155 310 80
TOTAL 80 6 360
49
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
49
12) Dado o consumo de energia em Kw/h (variável contínua) de uma pequena cidade, onde deve ser
ampliada a rede de distribuição de energia.
Consumo em KW/ h fi
05 |— 20 04
20|— 35 06
35 |— 50 14
50 |— 65 26
65 |— 80 12
80 |— 95 08
95 |— 110 06
110 |— 125 04
TOTAL 80
Pede-se:
a) Calcular o valor da Mediana.
b) Calcular o valor da Moda.
c) O Histograma de custos.
d) O desvio-padrão.
e) O Q1, Q3, D6 e o D9.
f) Determinar graficamente a Mediana, usando a construção do polígono de frequências acumuladas.
13) Apuram-se os últimos 40 resultados de três investimentos em ações: AA, BB e CC. Calcularam-se sua
média, moda e desvio-padrão. Os resultados foram os seguintes:
Investimento AA BB CC
Média 5,3 5,3 5,8
Moda 4,7 4,9 4,8
Desvio-padrão 3,6 8,5 3,7
Com base nos resultados acima, assinale as afirmações como VERDADEIRAS ou FALSAS:
O investimento mais vantajoso é o BB
Como a média do investimento CC é maior, então, o risco é menor
Por possuírem Modas semelhantes AA, BB e CC não tem risco.
O desvio-padrão de BB assegura a sua alta rentabilidade.
O desvio-padrão de CC o torna mais seguro que BB.
A moda de AA determina que ele é melhor do que BB
Maior desvio-padrão significa maior risco.
Por possuírem médias iguais, AA e BB tem a mesma rentabilidade.
O desvio-padrão de AA identifica-o como o menos arriscado.
O desvio-padrão de BB determina seu maior risco.
( )
( )
( )
( )
( )
( )
( )
( )
( )
( )
50
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
50
14) Considerando-se a distribuição de frequências da questão 15, pede-se completar a tabela indicando os
cálculos efetuados. Determine o valor do consumo nas posições indicadas e interpretar os resultados:
Elemento Ordem ou
Posição
100,10,4
ni
Classe de
localização
Aplicação da fórmula
Pi, Qi, Di =
i
i
i
f
FantE
hl
Interpretação
P40
D7
Q3
15) Considerande a distribuição de frequências indicada a seguir:
Dados Fi xi
ii xf
Fi
2)( xxf ii
0 |— 3 4
3 |— 6 3
6 |— 9 2
9 |— 12 5
12 |— 15 7
15 |— 18 8
18 |— 21 3
Total
a) Calcular o primeiro e o segundo coeficientes de assimetria de Pearson.
b) O coeficiente Percentílico de Curtose.
16) A partir das idades de 40 alunos do primeiro ano da Faculdade X, construa uma tabela de distribuição de
frequência, o Histograma e o Polígono de frequências acumuladas.
17 18 18 19 19 20 21 22
17 18 18 19 19 20 21 22
17 18 18 19 20 20 21 22
18 18 19 19 20 21 21 23
18 18 19 19 20 21 22 24
51
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
51
CAPÍTULO 4
PROBABILIDADES
Considerações iniciais
Neste capítulo o leitor poderá recordar alguns princípios de probabilidades importantes para a
compreensão das técnicas que serão apresentadas nos capítulos posteriores.
Juntamente com a Teoria Básica de Probabilidades e a Teoria da Curva Normal, o estudante será
desafiado a analisar de forma gráfica (por meio da construção da curva de Gauss) as variáveis em estudo.
Objetivos
Mostrar a origem matemática do estudo de probabilidades, familiarizando o leitor com os
métodos básicos desta teoria.
Mostrar as distribuições de probabilidades discretas e contínuas mais importantes.
Induzir à análise de índices financeiros a partir da comparação dos elementos, média e desvio-
padrão de indústrias com índices individuais de empresas.
4.1 Análise Combinátoria
4.1.1 Possibilidades ou Princípio Fundamental da Contagem
Suponha que uma pessoa possua 2 calças e 3 camisas. Pergunta-se: De quantas maneiras
diferentes essa pessoa pode vestir-se com esses elementos?
Aproveitamos este exemplo para introduzir o conceito de Árvore de decisão, que será utilizado mais
adiante.
Resolução
Figura 3.1 – Diagrama da árvore
Seja n o número de calças e m o número de camisas, então n X m = 2 X 3 = 6.
Portanto, pode vestir-se de 6 formas diferentes.
Este princípio é conhecido como Princípio Fundamental da Contagem
4.1.3 Combinações
Considerando-se um conjunto de n elementos, define-se combinação de n elementos, tomados k a
k, todos os subconjuntos deste, formado por k elementos. O número total de combinações é dado por:
)!(!
!
,
knk
n
C kn
, sendo n k.
Exercício resolvido
2-) Seja o conjunto X = {0, 1, 2, 3, 4}, pede-se formar todas as combinações de dois elementos.
Neste caso, temos que o conjunto tem 5 elementos e desejamos combinar esses elementos
entre si, de maneira a formar todos os subconjuntos possíveis de 2 elementos. Então n = 5 e k = 2.
Note que, para efeito de Combinações, {0,1} é igual a {1,0}, então temos:
10
2
20
12
45
!3!2
!345
!3!2
!5
)!25(!2
!5
2,5
C combinações.
De fato {0,1}, {0,2}, {0,3}, {0,4}, {1,2}, {1,3}, {1,4}, {2,3}, {2,4}, {3,4}
52
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
52
4.2 Probabilidades
Significado
A ciência utiliza a “indução” (raciocínio que parte da observação de eventos individuais, para depois
enunciar leis de comportamento geral daquele tipo de evento) e define, assim, a estrutura científica de
abordagem dos problemas.
A definição mais comum e que perdura no tempo, desde os primórdios destes estudos com Fermat e
Pascal, é enunciado como sendo: “se o resultado de um evento pode manifestar-se de n maneiras
equiprováveis das quais s delas são reconhecidas como sucesso, a probabilidade de sucesso é dada, então,
pelo quociente”:
n
s
P s )(
4.3 Três origens da probabilidade.
4.3.1 O Método subjetivo
A probabilidade subjetiva é uma avaliação pessoal do grau de viabilidade de um evento.
A probabilidade subjetiva é o resultado de um esforço para quantificar nossa crença a respeito de
algo. Advogados, médicos e administradores utilizam esse processo com razoável êxito, com quanto ele
possa apresentar certas desvantagens. Entre elas, podemos mencionar:
1) As estimativas subjetivas são, em geral, difíceis de defender, quando postas em dúvidas.
2) A tendenciosidade pode ser um fator. Não só noções preconcebidas sobre o que deveria ocorrer,
como também o desejo de que ocorra determinado evento, podem distorcer a objetividade. E não raro é
difícil eliminar essa tendenciosidade, porque, em geral, ela é subconsciente.
A essência da análise estatística é confrontar as hipóteses de uma distribuição de probabilidades
com as especificações de determinado problema.
4.3.2 O Método clássico (Objetivo)
O método clássico aplica-se a situações que têm resultados igualmente prováveis. Por exemplo, os
jogos de azar. A característica mais significativa do método clássico, entretanto, é que ele constitui a base
para a amostragem aleatória – conceito fundamental na teoria da inferência estatística. Decorre que o termo
“amostra aleatória” implica que todos os elementos de uma população têm a mesma possibilidade de serem
incluídos na amostra. Pensando no método clássico, a probabilidade de você ganhar na loteria, em qualquer
uma delas, em princípio é de 50%, porque se você jogar só pode acontecer duas coisas ou você ganha ou
não ganha. Da mesma forma, se você for viajar de avião, em princípio, após subir, ou ele cai ou ele pousa.
Claro que na realidade não é isso que acontece, devemos relativizar quantas são as possibilidades de sorteio
do jogo da loteria, assim como quantos vôos são realizados por ano e desses quantos tem sucesso (pouso) e
fracasso (cai), etc. Estudaremos esses fenômenos na Probabilidade relativa.
4.3.3 O Método relativo
Podemos usar a regra de Laplace para conceituar a probabilidade relativa.
Um exemplo clássico é o subconjunto de resultados do lançamento de dados, que iremos abordar no
tópico: Distribuição de Probabilidades Discretas.
Se um evento A puder acontecerde X maneiras diferentes num total de Y possibilidades, diz-se que
A tem
y
x
probabilidades de ocorrências e escreve-se:
totalpossívelnúmero
eventodosocorrênciadenúmero
Y
X
AP
__
____
)(
Esta definição, proveniente da Escola Clássica ou Objetivista, foi por muito tempo adotada como
sendo a definição clássica de probabilidade, é também, conhecida como regra de Laplace.
53
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
53
Se a probabilidade de um evento acontecer (sucesso) é,
5
2
)( IP , então a probabilidade do
mesmo evento não acontecer (complementar ao evento sucesso) será,
5
3
IP .
Exemplo: a probabilidade de acontecer o evento A = número 5 numa única jogada de um dado é;
uma em seis, ou 1/6 e se diz que P(A) = 1/6.
Assim sendo, diz-se que a probabilidade de não ocorrer o evento A é 1 – P(A).
A representação mais usual do evento complementar é P( A ), então, escreve-se:
6
5
6
1
1)( AP , que é a própria probabilidade de não ocorrer o evento A.
4.4 Probabilidade da ocorrência de um evento
Se considerarmos a probabilidade de ocorrer o evento A, como sendo P(A), podemos escrever que:
P(A) = 1 – P( A ), esta relação mostra que, sendo o total das possibilidades do espaço amostral P(S)
= 1, ou 100%, logo,a possibilidade de ocorrer o evento A terá sempre resultados entre 0 e 1.
4.4.1 Probabilidade de não ocorrência ou Evento Complentar de A
Sendo assim, podemos afirmar que se P(A) é a probabilidade do evento A ocorrer, sua probabilidade
de não ocorrer será dada pela diferença entre a probabilidade máxima, ou espaço amostral que é igual a 1,
menos a probabilidade de ocorrer o evento, e escreve-se: 1 – P(A).
Figura 4.2 – Representação gráfica do Espaço Amostral
4.6 Atribuição de probabilidades (Frequência relativa)
A aplicação da regra de Laplace atribui probabilidades de ocorrência de um evento.
Exercício resolvido
3-) Uma sala de controle de um reator nuclear detecta em 50 dias, os seguintes números de alarmes por
dia, dados na tabela. Complete a tabela com frequências relativas desse período.
Nº de alarmes dia Nº de dias Cálculo Frequência
relativa
1 12 12/50 0,24
2 6 6/50 0,12
3 4 4/50 0,08
4 8 8/50 0,16
5 7 7/50 0,14
6 4 4/50 0,08
7 3 3/50 0,06
8 3 3/50 0,06
9 2 2/50 0,04
10 1 1/50 0,02
TOTAL 50 1,00
Tabela 4.1 – Transformando a frequência simples e relativa
A probabilidade de termos 5 alarmes em um dia é
50
7
, 0,14 = 14%.
O método da frequência relativa resume-se como:
54
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
54
P(A)=
sobservaçõedetotalnúmero
Adeocorrênciadenúmero
Por exemplo: Os arquivos de uma concessionária revelam que, num período de 20 dias, a frequência
de carros vendidos, por dia, foi de:
Número de carros
vendidos
Número de dias
02 4
03 8
04 5
07 3
Total 20
Assim, de acordo com a conceituação de frequência de probabilidade, imaginamos uma recorrência
desse mesmo conjunto de condições, e procuramos responder à pergunta: “Que porcentagem das vezes
ocorreu o evento em questão?” Por exemplo: Três carros foram vendidos em 8 dos 20 dias, de modo que
nossa estimativa da probabilidade de tal ocorrência seria:
5
2
20
8
, ou 40%.
Analogamente, poderemos estimar em
4
1
20
5
, ou 25% a probabilidade de vender quatro carros num
dia. Vemos então que, do ponto de vista empírico, a probabilidade pode ser encarada como uma proporção,
ou uma frequência relativa, com que ocorre um evento.
Ao adotarmos o método empírico, é importante reconhecer os seguintes pontos:
1) A probabilidade assim determinada é apenas uma estimativa do verdadeiro valor.
2) Quanto maior a amostra, melhor a estimativa da probabilidade.
3) A probabilidade só é válida para um conjunto de condições idênticas àquelas sob as quais se
originaram os dados.
4.7 Lei dos grandes números
Jacob Bernoulli (Jacob I) em 1 689 enunciou o que, desde então, é conhecido como “a lei dos
grandes números” que, frequentemente, é chamada de “lei das médias”.
A fundamentação de Bernoulli é que se, num evento, aumentarmos em muito o número de tentativas,
a frequência relativa dos sucessos tenderá a se igualar a probabilidade deste sucesso.
Por exemplo, se jogarmos uma moeda ao ar e obtivermos uma série longa de “caras”, isto não
significará que o evento “coroa” aparecerá logo a seguir, também na mesma quantidade, devido a “lei dos
grandes números”.
Suponha-se que joguemos uma moeda 100 vezes ao ar e obtenhamos 28 caras (um número muito
menor que os 50 esperados pela probabilidade), desta forma a frequência desta amostragem de 100
tentativas é 28/100 = 0,28 ou 28%. Suponhamos que a seguir seja feita uma série de 100 lançamentos e
obtenhamos 39 caras (também menor que o esperado 50).
A frequência relativa, do evento cara, aumentaria dos originais 28% para 335,0
100100
3928
, ou
seja, 33,5%.
Numa terceira série de outras 100 jogadas poderíamos obter 44 caras, o que faria o evento ter a
seguinte frequência relativa; 37,0
100100100
443928
, ou seja, 37%, e assim por diante. Em algumas séries
de 100 lançamentos teríamos menos caras ou mais, até que o número de amostras crescesse tanto que a
tendência da frequência relativa seria a de igualar a probabilidade de ocorrência do evento, que é de 50%
para ambas, cara ou coroa. É exatamente isso que a lei dos grandes números prevê.
55
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
55
4.8 Tipos de experimentos
4.8.1 Experimentos determinísticos
São experimentos que em condições normais acontecerão, por exemplo, se soltarmos uma pedra de
cima de uma mesa ela, em condições normais, certamente cairá.
4.8.2 Experimentos aleatórios
Se entendermos a probabilidade de um evento ocorrer, como sendo um número real que representa
o resultado de um evento, dever-se-á entender o experimento aleatório, como sendo um tipo de
experimento que pode fornecer resultados diferentes a cada vez que for repetido. Normalmente, quando se
fala de um evento, fala-se de um campo onde o resultado possa ocorrer. O resultado do experimento não
pode ser conhecido a priori, porém, podem-se conhecer todos os resultados possíveis.
4.8.3 Espaço amostral
Espaço amostral é o conjunto de todos os resultados, ou de todas as possibilidades de um evento.
Exercícios resolvidos
4-) Resultado do lançamento de um dado.
S = {1,2,3,4,5,6}, todos os resultados possíveis do evento.
5-) Lançamento de uma moeda.
S = {Cara, Coroa}, todos os resultados possíveis do evento (saída binária).
4.8.4 Experimentos em etapas múltiplas
São experimentos onde o evento está subdividido em etapas. Uma forma eficiente para resolver este
tipo de experimento é por meio da árvore de decisão.
A árvore de decisão pode ser entendida como uma ferramenta de análise que subdivide um evento
em estudo em duas ou mais etapas múltiplas (saídas binárias).
Ex: No lançamento de uma moeda, por duas vezes consecutivas, (duas etapas), quantos são os
resultados possíveis?
Figura 4.3 – Resolução com o auxílio da Árvore de decisão.
Note que, para cada resultado, fica configurada uma saída binária, onde n x m = 4 resultados
possíveis.
4.9 Probabilidade total
Podemos escrever que a soma da probabilidade de ocorrência de um evento (A), com seu
complementar ( A ), será sempre igual a 1, de tal forma que: P(A) + P( A ) = 1, de fato:
11
Y
X
Y
X
56
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
56
4.9.1 Evento certo
Evento certo, ou probabilidade 100%, é aquele evento cujo resultado coincide com a totalidade do
espaço amostral, portanto, acontecerá sem nenhuma possibilidade do contrário. Considerando o lançamento
de um dado, qual a probabilidade do número obtido ser menor que 7.
Como S = {1, 2, 3, 4, 5, 6}, certamente o númeroobtido será menor que 7. Dizemos que esse é um
evento certo.
4.9.2 Evento nulo
Também dito vazio ou impossível, é aquele resultado que nunca poderá ocorrer a partir do espaço
amostral considerado.
Considerando-se dois conjuntos a seguir, pergunta-se qual será a probabilidade de ocorrer um
número maior que 9 no conjunto A.
Conjunto A = {4,5,6,7,8,9} e conjunto B = {10,11,16,22,38,49}
Diz-se então que a probabilidade de ocorrer um número maior que nove, no conjunto A, é vazia ou
nula.
4.9.3 Evento união
A partir do exemplo anterior, de dois conjuntos, A ={4,5,6,7,8,9} e B = {10,11,16,22,28,49}, o conjunto
resultante da união (também chamada de reunião) de A com B, será o conjunto de todos os elementos que
pertencem a A ou pertencem a B.
A B = {4,5,6,7,8,9,10,11,16,22,38,49}
4.9.4 Evento intersecção
Observando dois novos subconjuntos formados pelos elementos:
A = {2,4,6,8} e B = {6,8,10,12} então, a intersecção dos dois conjuntos será um novo conjunto C,
formado pelos resultados (eventos) C = {6,8}.
Figura 4.4 – Diagrama da Interseção dos conjuntos A e B
E escreve-se: C = A B = {6,8}
4.9.5 Eventos mutuamente exclusivos
Dois ou mais eventos serão ditos mutuamente exclusivos quando a ocorrência de um deles excluir a
possibilidade da ocorrência do outro.
Exemplos
Ao jogarmos um dado, só podemos obter uma face por vez, ou seja, não existe a possibilidade de
sair a face 1 e a face 5 ao mesmo tempo, se lançarmos uma moeda, o resultado nunca será cara e coroa ao
mesmo tempo; um teste cuja resposta só pode ser verdadeiro ou falso (gravidez, por exemplo) nunca poderá
ter os dois resultados ao mesmo tempo.
Desta forma, enunciamos a lei da adição, ou seja, a probabilidade de obter-se uma face 1 ou 5 em
uma jogada de um dado será a adição das duas probabilidades:
3
1
6
2
6
1
6
1
)5()1()( PPBAP
Suponha ainda que, num espaço amostral formado por empresas boas e falidas, queiramos sortear,
ao acaso, uma dentre elas. O resultado será, ou uma empresa boa ou uma falida. Não há como sortear uma
empresa que esteja em boas condições financeiras e falida ao mesmo tempo. Portanto, os resultados boas
condições financeiras e falida são ditos eventos mutuamente exclusivos.
Se isto acontece, então, a intersecção dos dois eventos é nula.
57
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
57
Figura 4.5 – Diagrama de dois conjuntos mutuamente exclusivos
4.9.6 Eventos não mutuamente exclusivos
São aqueles eventos que podem acontecer ao mesmo tempo.
Pergunte-se qual a probabilidade de chover ou fazer frio, num certo dia de julho na cidade de
Curitiba, por exemplo. Se a probabilidade A de chover num certo dia é de 75% e a B, fazer frio é 40%, isto
não significa que a probabilidade de chover ou de fazer frio seja a adição dos dois eventos, pois, assim
teríamos 115%, e como sabemos, não existe probabilidade maior que 100%.
Para se calcular a probabilidade de um dos eventos, temos apenas que adicionar uma informação:
qual é a probabilidade de ocorrer frio e chuva ao mesmo tempo, pois num período como o anterior pode,
muito bem, acontecer as duas coisas ao mesmo tempo. Suponha que esta probabilidade seja 25%.
Então, teremos que a probabilidade de fazer frio ou chover será a soma das probabilidades de
acontecerem individualmente os eventos, subtraída a probabilidade de ocorrerem os dois ao mesmo tempo.
Escreve-se, P (A ou B) = P(A) + P(B) – P (A e B)
P (A ou B) = 0,75 + 0,40 – 0,25 = 0,90 ou 90%
4.9.7 Eventos equiprováveis
Dois ou mais eventos são ditos equiprováveis quando, além de serem mutuamente exclusivos, cada
um destes tiver a mesma probabilidade de ocorrer.
Exemplo: um lançamento de uma moeda tem probabilidade de 50% de ocorrer ou cara ou coroa.
P(cara) + P(coroa) = 1
2
1
2
1
Ou como no lançamento de um dado, onde cada uma das 6 faces tem exatamente a mesma
probabilidade de ocorrer, ou seja, 1/6,
assim: 1
6
6
6
1
6
1
6
1
6
1
6
1
6
1
)6()5()4()3()2()1( PPPPPP .
Lembrando que: a ocorrência de um dos resultados exclui a possibilidade de ocorrência dos outros.
Entretanto, nem todos os eventos são equiprováveis.
Laplace, ao enunciar seu princípio da indiferença disse que: “se não houver nenhuma razão pela
qual um evento deva ser considerado mais provável do que outro, então devem ser ditos equiprováveis”.
Esta conclusão é de difícil utilização em certos casos, podendo levar a conclusões equivocadas.
Por exemplo: suponha que três urnas contenham: na primeira, duas bolas de igual tamanho e peso,
uma AZUL e outra VERMELHA; na segunda urna duas bolas AZUIS e na terceira duas bolas VERMELHAS.
Vamos determinar a probabilidade de sortearmos uma bola AZUL ou VERMELHA e que, a outra
deixada na urna, também seja da mesma cor que a sorteada.
Utilizando-se a árvore de decisão como ferramenta de análise tem-se que a probabilidade total de
sortearmos uma bola e deixarmos a outra de mesma cor na urna é:
58
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
58
Figura 4.6 – Diagrama de eventos não equiprováveis
O resultado correto é 2/3. Ao contrário do que poderiam pensar algumas pessoas, temos apenas dois
tipos de cores, ou ainda, por ser a segunda bola deixada na urna ou VERMELHA ou AZUL, a probabilidade
deveria ser 1/2.
Desta forma, não se pode afirmar que certos eventos, por ter apenas dois resultados possíveis,
possuam ou devam ser entendidos como equiprováveis.
4.9.8 Eventos compostos
Como observamos, no exemplo anterior, existem experimentos que decorrem de eventos
complementares.
Suponha que, um processo de análise de crédito leve em conta índices financeiros entre um número
igual de empresas em boas condições financeiras e em más condições financeiras.
E ainda, que a concessão deste crédito tenha que ser decidida por meio de um único índice (LG
Liquidez Geral) cujo valor, se maior que 1, o crédito é atribuído.
Das empresas em boas condições financeiras, 90% delas tem LG > 1 e 10% tem LG < 1; das
empresas em más condições financeiras 15% tem LG > 1 e 85% tem LG < 1. Pede-se determinar qual a
probabilidade de conceder-se crédito a uma empresa em más condições financeiras.
Solucionaremos este problema com a ajuda da técnica da árvore de decisão.
Figura 4.7 – Diagrama de eventos compostos
Logo, a probabilidade de se atribuir crédito a uma empresa em más condições financeiras é de 7,5%.
O evento anterior é dito composto, pois a característica estudada se encontra nos dois conjuntos
que, neste exemplo, não podem ser considerados mutuamente exclusivos.
4.9.9 Eventos independentes
Na natureza, torna-se difícil encontrar exemplos de eventos independentes porque a maioria das
ocorrências em estudo depende, sempre, de que algo já tenha acontecido ou que condições estáveis
anteriores tenham sido mantidas. Por exemplo, a probabilidade de uma pessoa se afogar, dependerá se ela
59
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
59
sabe nadar e se estava no mar, na piscina, num rio, lago ou noutro local com estas características. Dessa
forma pode-se dizer que a maioria dos eventos é dependente de algum outro.
Por exemplo, se a probabilidade de uma pessoa ser atropelada é de 3%, obviamente admite-se que
esta tenha se exposto ao risco, saindo a pé pelas ruas de uma certa cidade. Caso não o faça, ou esteja no
topo de uma montanha ou no meio de um deserto, esta probabilidade não existirá.
No exemplo das empresas, nota-se que a probabilidade de escolher-se uma empresa em boas
condições financeiras (evento A) e com LG > 1 (evento B) será dado por: P (A e B) = P(A) X P(B) = 0,5 X 0,9
= 0,45 e lê-se a probabilidade de acontecer o evento B e o evento A.
4.10 Lei da multiplicação (Independência estática)
Dois eventos serão ditos independentes quando a ocorrência de um deles não afeta a dooutro.
Ex: Qual a probabilidade de em duas jogadas sucessivas de uma moeda, obter-se uma cara (K) e
uma coroa (C), nessa ordem.
P (K; C) = P(K) X P(C) = 0,5 X 0,5 = 0,25
Ex: Qual a probabilidade de jogarmos um dado e logo em seguida uma moeda e obtermos os
resultados de face 3 no dado e Coroa (C) na moeda?
P (3; C) = P (3) X P(C) = 0833,0
12
1
2
1
6
1
Um comerciante sabe que 85% de seus clientes compram com cartões de crédito. Qual a
probabilidade de que os próximos dois clientes comprem com cartão de crédito?
P (A e B) = P(A) X P(B) = 0,85 X 0,85 = 0,7225 ou 72,25%.
Qual a probabilidade de que os próximos três clientes comprem com cartões de crédito?
P (A B C) = P(A) X P(B) X P(C) = 0,85 X 0,85 X 0,85 = 0,6141 ou 61,41%.
4.11 Probabilidade condicional
A probabilidade condicional é, frequentemente, confundida com a probabilidade de ocorrência de
eventos dependentes.
A diferença é que nos eventos dependentes estuda-se a probabilidade de ocorrências de ambos e os
eventos são mutuamente exclusivos, como no exemplo anterior.
A probabilidade condicional também estuda a ocorrência de ambos os eventos, mas desta feita,
desde que um deles já tenha ocorrido.
)(
)(
BP
BAP
B
A
P
e lê-se a probabilidade do evento A acontecer, se o evento B já tiver ocorrido.
Outra forma de se pensar estes tipos de eventos.
Exemplo: Um estudante estima sua probabilidade de passar no exame de Matemática em 60%
(evento A) e de passar em Física em 80% (evento B), podendo, nesta fase, serem pensados como
independentes, pois passar em um é independente da aprovação no outro. Pede-se a probabilidade de
passar em ambos.
É lícito pensar que a probabilidade de passar em Física depende, ou é fortemente condicionada pela
habilidade em Matemática, sendo esta última condicionante da primeira, pois se admite que um aluno tem
maiores possibilidades de passar em Física caso tenha boa habilidade em Matemática.
Assim, a probabilidade de passar em ambas as disciplinas não será P(A e B) = P(A) X P(B) = 0,6 x
0,8 = 0,6 x 0,8 = 0,48, pois devemos questionar, ainda, a probabilidade de passar em Física, caso já tenha
passado em Matemática. De posse desta nova informação, e supondo que esta probabilidade seja 90%,
pode-se calcular a probabilidade de passar em ambas as disciplinas como: a probabilidade de passar em
Física antes passando em Matemática (evento PA(B)) multiplicado pela propriedade de passar em Física
(evento B), PA (B) x P(B) = 0,9 x 0,8 = 0,72
Segue a este, outro exemplo de probabilidade condicional que servirá como introdução às Tabelas
de Contingências.
Ex. depois do exame final de um curso de Ensino Médio, revelaram-se os seguintes resultados,
reportados na tabela a seguir:
60
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
60
SEXO APROVADOS REPROVADOS TOTAL
Homens 80 80/200 40 40/200 120 120/200
Mulheres 60 60/200 20 20/200 80 80/200
Total 140 140/200 60 60/200 200 200/200
As probabilidades na parte sombreada da tabela são denominadas “probabilidades associadas”, as
outras, nas margens inferiores e á direita, são denominadas “probabilidades marginais”.
Se selecionarmos um candidato, daqueles aprovados, qual a probabilidade de que este seja uma
mulher?
4285,0
140
60
200
140
200
60
)( AMP
Um aluno aprovado é selecionado ao acaso, qual a probabilidade de que seja homem?
5715,0
140
80
200
140
200
80
)( AHP
Outro aluno é selecionado, dos reprovados, qual a probabilidade de que seja homem?
6667,0
60
40
200
60
200
40
)( RHP
Um aluno é selecionado ao acaso, daqueles reprovados, qual a probabilidade de que seja mulher?
3333,0
60
20
200
60
200
20
)( RMP
4.12 Teorema da probabilidade total
O teorema da probabilidade total deve ser entendido como uma ferramenta que possibilita o estudo
de um evento equiprovável (50% / 50% de probabilidade de acontecer) e que dentro deste evento existem
outras possibilidades, desta feita, não equiprováveis (probabilidades diferentes de acontecerem).
É mais facilmente compreensível através da utilização dos “diagramas da árvore”.
Para efeitos didáticos utilizaremos a formulação de extração de bolas de duas urnas (eventos
equiprováveis) e dentro de cada uma dessas urnas existem quantidades diferentes de bolas, que por sua
vez, possuem duas cores diferentes.
Exmplo resolvido
7-) A primeira urna contém 2 bolas azuis e 3 bolas brancas.
Uma segunda urna contém 2 bolas azuis e 4 bolas brancas.
Escolhe-se, ao acaso, uma das urnas e dela retira-se, também ao acaso, uma bola. Qual a
probabilidade de que esta bola seja branca?
61
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
61
Figura 4.8 – Urnas I e II
Por serem equiprováveis, diz-se que a probabilidade de escolhermos uma das urnas é de 50% ou
1/2 e escreve-se: probabilidade do evento I ocorrer é 1/2.
2
1
)( IP
2
1
)( IIP
Analisando o evento que se quer estudar, a probabilidade de retirarmos uma bola BRANCA de qualquer
uma das urnas, dadas as quantidades acima, será a probabilidade de retirarmos uma bola branca da urna I
que é diferente da probabilidade de retirarmos uma bola branca da urna II escreve-se:
5
3
)/( IBP E(B/II) =
3
2
O teorema da probabilidade total prova que a probabilidade de tirarmos uma bola branca de
qualquer uma das urnas será a soma das probabilidades de ocorrer uma bola branca no sorteio de cada
urna, multiplicando pela probabilidade de se escolher cada uma das urnas. Em notação matemática.
(B) = (B I) (B II)
P(B) = P( B I) P(B II)
P(B) = P(I) x P(B/I) + P(II)X (B/II)
Repetindo: a soma das probabilidades de ocorrer uma bola branca no sorteio de cada urna,
multiplicando pela probabilidade de se escolher cada uma das urnas, daí então:
P(B) = P(I) x P(B/I) + P(II) X P(B/II)
P(B) =
30
19
30
109
6
2
10
3
3
2
2
1
5
3
2
1
Utilizando-se o diagrama de árvore, também conhecido como árvore de decisão, largamente
utilizado em análise de risco e programação linear, teremos:
Figura 4.9 – Diagrama das probabilidades das urnas I e II
Note que a soma de todas as probabilidades (3/10 + 1/5 + 1/3 + 1/6) é igual a 1 ou 100%, que
represente a soma das probabilidades de ocorrência de todos os eventos.
A probabilidade de ocorrer uma bola branca, seja qual for a urna escolhida, é a soma das
probabilidades de ocorrer uma bola branca no sorteio de cada urna, multiplicado pela
probabilidade de se escolher cada uma das urnas, ou seja, 63,33%.
A probabilidade de ocorrer uma BOLA AZUL é definida como evento complementar do
evento anterior, ou seja, a probabilidade de ocorrência de todos os eventos, menos a probabilidade de
ocorrer o evento BOLA BRANCA: P(A) = 1 – P(B),
P(A) = 1 – 0,633 = 0,3667 ou 36,67%.
62
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
62
EXERCÍCIOS PROPOSTOS
1) Numa sacola há 6 bolas azuis, 5 verdes, 3 pretas, 5 brancas, 4 laranjas e 5 roxas. Ao retirar uma bola, ao
acaso, qual a probabilidade de sair uma bola cuja cor:
a) é azul;
b) é verde;
c) é preta;
d) é laranja.
2) Usando o enunciado do exercício 1, supondo a retirada de duas bolas, sem reposição, qual a
probabilidade de sair:
a) duas laranjas;
b) uma preta e outra azul;
c) duas que não sejam verdes;
d) pelo menos uma branca.
Para os exercícios de 3 a 6 considere dois dados lançados simultaneamente.
3) Qual a probabilidade da soma ser menor que 4?
4) Qual a probabilidade do primeiro resultado ser maior que o segundo?
5) Qual a probabilidade da soma ser menor ou igual a 5?
6) Qual a probabilidade de se obterem a soma maior que 10?
7) Numa sala com 80 alunos, 48 alunos gostam de Matemática, 36 alunos gostam Física e 12alunos gostam
ambos as disciplinas. Qual a probabilidade de escolher um aluno ao acaso:
a) que goste somente Física;
b) que goste somente Matemática;
c) que não goste de Matemática, nem de Física;
d) que gosta de Matemática ou Física;
e) que goste de Matemática e Física.
8) Numa pesquisa com 1 000 pessoas sobre os melhores refrigerantes, verificou-se que 370 pessoas
escolheram o refrigerante A, 100 escolheram somente o refrigerante B, 480 pessoas escolheram o
refrigerante C, 150 pessoas não escolheram nenhum dos refrigerantes, 50 escolheram os três refrigerantes,
100 pessoas escolheram o refrigerante A e C, 50 escolheram os refrigerantes A e B e 100 escolheram os
refrigerantes B e C como os melhores.
Qual a probabilidade de escolher aleatoriamente uma pessoa que:
a) prefere somente o refrigerante A;
b) prefere o refrigerante B;
c) prefere o refrigerante A ou B;
d) prefere o refrigerante B ou C;
e) prefere ou o refrigerante B ou o refrigerante C.
9) Em uma caixa com 10 frutas, 4 estão estragadas. Sendo retiradas aleatoriamente 2 frutas, calcule:
a) a probabilidade de ambas estarem estragadas;
b) a probabilidade de ambas não estarem estragadas;
c) a probabilidade de ao menos uma estar estragada.
10) Realizou-se uma pesquisa com 60 estudantes cuja pergunta central era: “Se você tivesse que comprar
um celular, qual marca compraria: A, B ou C?”. Analisando as respostas, constatou-se que:
- 15 pessoas comprariam a marca A;
- 18 a B;
- 21 a C;
- 3 comprariam A e C;
- 6 comprariam A e B;
- 4 comprariam B e C;
- 1 compraria as três marcas;
- 18 pessoas não comprariam nenhuma dessas três marcas.
Pergunta-se, escolhendo um estudante ao acaso:
a) Qual a probabilidade de comprar somente a marca C?
63
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
63
b) Qual a probabilidade de comprar somente A e C?
c) Qual a probabilidade de comprar a marca C e não comprar A?
d) Qual a probabilidade de comprar a marca A ou B ou C?
11) Uma moeda é lançada três vezes. Calcule a probabilidade de obtermos pelo menos uma cara.
12) Considere o lançamento de uma moeda duas vezes:
a) Qual a probabilidade de ocorrer cara na primeira jogada?
b) Qual a probabilidade de não ocorrer cara nenhuma vez?
c) Qual probabilidade de ocorrer cara na primeira ou segunda jogada?
13) Uma loja dispõe de 12 celulares do mesmo tipo dos quais quatro apresentam defeitos.
a) Se um freguês vai comprar um celular, qual probabilidade de levar um defeituoso?
b) Se um freguês vai comprar dois celulares, qual probabilidade de levar dois defeituosos?
c) Se um freguês comprar dois celulares, qual probabilidade de levar pelo menos um defeituoso?
14) Zé, Mané e Lelé fazem aniversário no mesmo dia. Qual a probabilidade de que os três, nos próximos 2
anos façam aniversário no final de semana?
4.13 Distribuições de Probabilidades
É o conjunto de valores possíveis de serem assumidos por uma variável, dentro de um processo de
escolha probabilística.
Dependendo das características de ocorrência destes eventos, sua distribuição de probabilidades
será dita:
Distribuição de probabilidades discreta.
Distribuição de probabilidades contínua.
As teorias mais importantes, que tratam dos tipos de distribuição discretas, são denominadas:
Distribuição de Bernoulli.
Distribuição Binomial.
Distribuição de Poisson.
As distribuições contínuas mais importantes são: a exponencial e, principalmente, a Distribuição
Normal.
Os estudos no campo de finanças podem ser contínuos ou discretos, e para isso, nos apoiamos
nestas principais distribuições. Por exemplo, um índice financeiro é uma variável discreta, pois, só pode
assumir um único valor dentro do balanço da mesma empresa, sendo que este não é retirado da análise
após ser colhido.
Os eventos em finanças e contabilidade podem ser tratados, indiferentemente, por ambas as
metodologias sem prejuízos significativos em relação à tomada de decisão. Deixa-se claro que este enfoque
destina-se à maioria das aplicações, no campo contábil e financeiro, sendo que, sua generalização, para
pesquisas, em outros campos dependerá da experiência do analista.
Exemplo teórico: Vamos estudar a probabilidade de quebras em três máquinas:
Entre as três máquinas, podemos ter os seguintes números de quebras: 0, 1, 2 ou 3.
Chamemos as quebras de Q , ao contrário quando as máquinas não quebram de B.
Quando houver o
número de quebras
O evento (estado) correspondente para as
três máquinas será
0 (B,B,B)
1 (Q,B,B) ; (B,Q,B) ; (B,B,Q)
2 (Q,Q,B) ; (Q,B,Q) ; (B,Q,Q)
3 (Q,Q,Q)
Existem, portanto, 8 possibilidades de representação (associação da probabilidade aos eventos).
Assim o evento 0 máquinas quebradas pode ocorrer 1 em 8 possibilidades = 1/8.
O evento 1 máquina quebrada pode ocorrer de três maneiras diferentes em 8 possibilidades = 3/8.
64
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
64
O evento 2 máquinas quebradas pode ocorrer de três maneiras diferentes em 8 possibilidades = 3/8.
O evento 3 máquinas quebradas pode ocorrer de uma maneira em 8 possibilidades = 1/8.
Assim temos que 1/8 + 3/8 + 3/8 + 1/8 = 8/8 = 1 ou 100%:
xi Fi ProbabilidadeSimples Probabilidade acumulada
0 1 1/8 1/8
1 3 3/8 4/8
2 3 3/8 7/8
3 1 1/8 8/8
O gráfico da função probabilidade (densidade de probabilidades) ficará representado pelas colunas,
para este evento, e a função probabilidade acumulada pela linha.
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0 1 2 3
0
0,2
0,4
0,6
0,8
1
1,2
Função Probabilidade Função Repartição
Figura 4.10
4.14 Distribuição de Probabilidades Discretas
São distribuições cujas variáveis só podem assumir valores determinados pela forma como o evento
pode acontecer. Por exemplo, um lançamento de dois dados cujo evento (resultado), a ser estudado, seja a
soma dos pontos obtidos.
Como da definição de probabilidades, as possibilidades de arranjos são todas determináveis.
Cada dado tem 6 números e, portanto, o total de arranjos possíveis entre as 6 faces de cada dados
será 6 x 6 = 36.
Desta forma, a soma possível dos dois dados será. 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12.
Para que cada evento anterior seja possível, teremos os seguintes arranjos.
Tabela 4.2- Distribuição de Probabilidade das somas das faces de dois dados.
Existem, portanto, 36 combinações possíveis, de tal forma que a soma das duas faces dos dois
dados produzirá o resultado esperado, que neste caso variará de 2 a 12.
Por exemplo, note o leitor que, para se obter o resultado soma = 5 será necessário que: se o Dado 1
apresente a face com valor 1, o Dado 2 apresente a face com valor 4, daí 1+ 4 = 5.
Os arranjos para que ocorra o resultado 5 serão: (1, 4), (2, 3), (3, 2) e (4, 1).
Portanto, o evento desejado, resultado igual a 5, poderá acontecer de 4 formas diferentes.
Soma 2 3 4 5 6 7 8 9 10 11 12
Dado 1 1 1; 2 1; 2; 3 1;2;3; 4 1;2;3;4;5 1;2;3;4;5;6 2;3;4;5;6 3;4;5;6 4;5;6 5; 6 6
Dado 2 1 2; 1 3; 2; 1 4;3;2;1 5;4;3;2;1 6;5;4;3;2;1 6;5;4;3;2 6;5;4;3 6;5;4 6; 5 6
Probabilidade 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
65
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
65
Lembrando a definição de Laplace, para probabilidade de ocorrência,
Y
X
EP )( , sendo 4, o
número de vezes que o resultado 5 pode ocorrer, e 36 o total de formas que este experimento pode
acontecer, dir-se-á então que o evento, a soma 5, terá probabilidade de acontecer
36
4
)( EP ou 11,11%.
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
2 3 4 5 6 7 8 9 10 11 12
P
ro
b
a
b
il
id
a
d
e
Resultado
Lançamento de 2 dados
Figura 4.11 Distribuição de probabilidades da soma das faces de dois dados.
Note o leitor que a figura obtida é simétrica dos dois lados, e se passarmos uma linha sobre o topo
de cada coluna, obteremos uma forma semelhantea curva Normal ou curva de Gauss, que será estudada
mais adiante.
4.15 Distribuição de Bernoulli (Jacob I).
A aplicação da distribuição de Bernoulli explica eventos cujo resultado pode ser apenas sucesso
(resultado que interessa ao pesquisador) ou fracasso (resultado que não interessa). Como por exemplo, a
probabilidade de sucesso ou fracasso em determinado processo cirúrgico.
Outras distribuições de probabilidades apoiam-se na teoria da Distribuição de Bernoulli como, por
exemplo, a Binomial. Assim, a distribuição de Bernoulli é estudada para o entendimento e a geração de
outras distribuições de probabilidades.
Seja p a probabilidade de ocorrer um sucesso, 1 – p será a probabilidade (evento complementar) de
ocorrer o fracasso (ou de não ocorrer o sucesso).
O evento complementar, neste caso, também é denominado de 1 – p = q.
Sua função de probabilidade será:
01
10
10
1
)(
x
x
pqx
px
XP
A probabilidade será então: xx qpXP 11
A média da distribuição de Bernoulli será, então: pXE e sua variância será
qpppX 12
Jacob Bernoulli estabelece, assim, uma maneira de pensar os eventos mutuamente exclusivos, pois
se um deles ocorre, o outro não poderá ocorrer.
Daí, x = 1 representa o sucesso, enquanto x = 0, o fracasso, não se definindo a função para valores
diferentes destes. Esta abordagem estará presente nas distribuições de probabilidades seguintes.
Exemplos resolvidos
8-) Uma urna tem 40 bolas azuis e 15 bolas amarelas. Retira-se uma bola X. Qual a probabilidade
de que seja amarela?
66
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
66
O total do número de bolas é 55. Atribuindo probabilidade de ocorrência a cada evento teremos:
55
15
1 Amarelapsucessop ,
55
40
0 azuisqfracassoq
%27,272727,0
11
3
55
15
1
55
40
55
15
1
0111
1
ouXP
qpXP xx
R: A probabilidade de que a bola seja amarela é de 27,27%.
9-) Uma empresa tem 30 funcionários contentes com o novo refeitório e 12 descontentes. Qual a
probabilidade de um trabalhador, sorteado ao acaso, estar descontente (evento sucesso)?
42
12
1 edescontentpsucessop ,
42
30
0 contenteqfracassoq
%57,282857,0
42
12
1
42
30
42
12
1
0111
1
ouXP
qpXP xx
Sua Esperança (média) será então a própria probabilidade de sucesso:
42
12
pXE ou 0,2857
Sua variância será
qpppX 12
204082,0
1764
360
42
30
42
122 X
.
10-) Numa ala de um hospital, para a mesma patologia clínica, existem 24 pacientes que reagem e
16 que não reagem ao tratamento. Qual a probabilidade de que um paciente, sorteado ao acaso, não esteja
reagindo ao tratamento?
,
40
16
_1 reagenãopsucessop ;
40
24
0 reageqfracassoq
%4040,0
40
16
1;
40
24
40
16
1
0111
1 ouXPqpXP xx
4.16 Distribuição Binomial
A distribuição Binomial é um tipo de distribuição de probabilidade que apoia-se na teoria da
distribuição de Bernoulli, mas quer calcular a probabilidade de ocorrer o evento sucesso restringindo a n
tentativas, ou seja a distribuição Binomial, explica qual a probabilidade de se obter k sucessos em n
tentativas.
Se em n provas independentes o resultado só puder ser p = sucesso ou q = fracasso e, a
probabilidade de sucesso e de fracasso forem constantes (por exemplo, a probabilidade de sucesso 65% e a
de fracasso 35%), nestas condições, provou Bernoulli, que a probabilidade da Variável aleatória X ser k =
número de sucessos, nas n provas realizadas será de:
knk qp
k
n
kXP
)( Lê-se: a probabilidade da variável aleatória X ser k = sucessos (K
variando de 0,1,2,3...,n) depende da combinação dos n elementos, tomados k a k.
A fórmula da Binomial é: knk pp
k
n
kXP
1 onde,
k é o número de sucessos desejados a serem obtidos no experimento;
n é o número de repetições do experimento;
p é a probabilidade do evento ocorrer (conhecida à priori);
(1 – p) = q é a probabilidade do evento não ocorrer (ou probabilidade complementar);
67
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
67
!!
!
,
knk
n
C
k
n
kn
,sendo kn , é a combinação de n elementos tomados k a k.
A fórmula acima nos dará a probabilidade de se obter o número de sucessos desejados, ex: 1
sucesso, 2 sucessos, mais que 3 sucessos, menos do que 4 sucessos, etc.
Aplicando-se a fórmula da Binomial, quer-se analisar eventos com as seguintes características:
Realizam-se n provas independentes.
Cada prova é uma prova de Bernoulli, ou seja, só pode levar ao sucesso ou fracasso.
A probabilidade p de ocorrência do evento sucesso é constante.
A probabilidade complementar q = (1 – p) de não-ocorrência do evento, ou evento fracasso,
também é constante.
Assim, pode-se escrever a fórmula da Binomial de maneira completa:
knk qp
knk
n
kXP
)(
)!(!
!
)(
A distribuição Binomial tem, ainda, as seguintes características:
- a média (Esperança), pnkE e
- a variância , qpnk 2 e
- o desvio-padrão qpnk
Exemplos resolvidos
11-) Suponha-se o espaço amostral de 8 possibilidades, por exemplo, atirar uma moeda ao ar 8 vezes.
Pergunta-se qual a probabilidade de se obter quatro caras e quatro coroas?
A probabilidade de obtermos sucesso em cada tipo de resultado (cara ou coroa) é conhecida a
priori, sendo p = 0,5 e q = 0,5 ou 50% para cada um dos eventos. Daí obter k sucessos = 4, em 8
tentativas = n, significa:
knk qp
knk
n
kXP
!!
!
2734,000391,07000391,0
!48!4
!45678
5,015,0
!48!4
!8
4
484
XP
ou 27,34%.
12-) Um produtor de velas de ignição para motores a combustão, vende no atacado pacotes com 20
velas cada. Os pacotes que apresentarem mais de 1 vela com defeito de fabricação são passíveis de
indenização. Sabe-se, entretanto, que a probabilidade de uma vela de ignição não apresentar defeito de
fabricação é de 98%.
Qual probabilidade de um pacote não ser indenizado?
A probabilidade total de não ocorrer indenização fica assim limitada à soma das probabilidades
de que ocorram zero ou, no máximo, 1 defeito; em outras palavras, só não ocorrerá a indenização se
houver no máximo 1 defeito. Daí existe a probabilidade de não ocorrer defeito p = 0,98 e a de ocorrer
defeito p=0,02.
knk qp
knk
n
kP
!!
!
6676,098,01
!20!0
!20
98,002,0
!020!0
!20
0 20
200
P , ou 66,76%
2725,06812,002,0
!19!1
!20
98,002,0
!120!1
!20
1
191
P ou 27,25%
A probabilidade de não ocorrer indenização será então 66,76 + 27,24 = 94,01%. A empresa corre
o risco de 5,99% de indenizar cada pacote.
13-) Num processo de fabricação, 10% das peças são defeituosas. Sabendo-se que as peças são
embaladas em caixas com 5 unidades, determinar a probabilidade de que uma caixa contenha
exatamente 3 peças defeituosas.
0081,081,0001,0
!2!3
!345
1,011,0
!35!3
!5
3
353
XP ou 0,81%.
R: A probabilidade de ter exatamente 3 peças defeituosas em uma caixa é de 0,81%.
68
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
68
4.17 Distribuição de Poisson
Da mesma forma, Poisson estudou as distribuições de probabilidade e complementou o estudo de
Bernoulli. O enunciado de Poisson parte da seguinte problemática: se a probabilidade p de sucesso tender a
zero, isto é, for decrescente, e o número de experimentos tender a infinito, mantendo-se a média como
constante, no limite a expressão de Bernoulli será:
!x
e
kXP
X
e, neste caso, a média será igual à Variância, onde:
média do evento procurado, no período pesquisado.
t
= média dos eventos, historicamente conhecida.
t = período analisado.
e = 2,7182818....
X= número de eventos pesquisados.
A distribuição de Poisson é também conhecida como a distribuição de frequência dos eventos raros.
Ex: ruptura na fabricação de cabos de transmissão como fibra ótica ou cabos elétricos e falhas ou rupturas
em geral em situações de fadiga de materiais. Existe, nesses casos, uma variável que condiciona a
ocorrência do evento: a média proporcional esperada para o evento.
A média (Esperança Matemática) é afetada pela decorrência de tempo entre um sucesso e outro.
tXE )(
A variância, conforme demonstrado por Fadigas Torres (1967:IV-28), é também, igual à esperança
matemática, ou seja:
tXE = 2
Ilustrar-se-á um exemplo, em que, na operação de uma usina e também de uma máquina.
Exemplo resolvido
14-) Uma Usina Hidrelétrica apresentou 16 defeitos que a fizeram parar nos últimos 500 dias.
Admitindo-se que estes defeitos se distribuam segundo Poisson, calcular a probabilidade que:
a-) Nos próximos 2 dias não ocorra nenhum defeito que a faça parar.
%80,93938,0
!0
064,07182818,2
!
0
064,02
500
16
0
2
500
16
0064,0
X
e
XP
x
t
X
R: Existe 93,80% de probabilidade que não ocorra nenhum defeito.
b-) Nos próximos 50 dias ocorram pelo menos 2 defeitos que a façam parar.
A probabilidade de que ocorram pelo menos 2 defeitos (2 ou mais defeitos 2X ) é igual a
probabilidade total de ocorrerem defeitos (1 ou 100%) menos a probabilidade de ocorrerem um número
menor que 2 defeitos 2X .
475,032303,02019,01
!1
6,1
!0
6,1
12
718281828,2
101212
2
50
500
16
16,106,1
ee
XP
e
XPXPXPXP
x
t
Resposta: Existe a probabilidade de 47,5% de ocorrer pelo menos dois defeitos, nos próximos 50 dias.
69
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
69
15-) Uma máquina apresentou nos últimos 90 dias, 15 defeitos. Admitindo-se que estes defeitos se
distribuam segundo Poisson, pede-se calcular a probabilidade que nos próximos 3 dias não ocorra
nenhum defeito.
%65,606065,0
!0
5,07182818,2
!
0
5,03
90
15
0
3
90
15
05,0
ou
X
e
XP
x
t
X
Resposta: A probabilidade de que não ocorra nenhum defeito nos próximos 3 dias é de 60,65%.
EXERCÍCIOS PROPOSTOS
15) Qual probabilidade de obtermos exatamente três caras em seis lances de uma moeda?
16) No lançamento de 7 moedas, determine a probabilidade de ocorrerem no máximo duas caras?
17) Jogando-se um dado seis vezes, determine a probabilidade de se obter um múltiplo de 5, exatamente
duas vezes?
18) A probabilidade de um atirador acertar um alvo é 4/5. Se ele atirar cinco vezes, qual a probabilidade de
acertar, exatamente três tiros?
19) Feito um estudo em uma loja de eletroeletrônicos constatou-se que, de cada 16 produtos vendidos, 4
eram Televisores, Qual é a probabilidade de que as próximas cinco vendas sejam todas de aparelhos de TV,
sabendo que a distribuição de probabilidades é Binomial?
20) Os defeitos em um corte de pano está para a razão de 0,5 defeito/metro, e a distribuição dos defeitos
esta aproximada a uma distribuição de Poisson. Determine a probabilidade de 4 metros de tecido conter dois
ou mais defeitos.
21) Os defeitos em rolos de filme colorido ocorrem à razão de 0,2 defeito/rolo, e a distribuição dos defeitos é
a de Poisson. Determine a probabilidade de três rolos em particular conter dois ou mais defeitos.
22) Supondo que o metrô chegue em determinada estação à razão de uma composição a cada três minutos,
e que essa razão seja bem aproximada por um processo de Poisson. Observando o processo durante um
período de dez minutos (t = 10), determine a probabilidade de chegar, no máximo, 2 composições.
23) Jogando-se um dado cinco vezes, determine a probabilidade de se obter um múltiplo de 3, pelo menos,
duas vezes.
24) A probabilidade de um atirador acertar o alvo é 2/5. Se ele atirar cinco vezes, qual a probabilidade de
acertar, exatamente, três tiros?
4.18 Distribuição de probabilidades contínuas
As distribuições de probabilidades contínuas são aquelas em que, a variável aleatória x, pode
assumir qualquer valor dentro de um intervalo do espaço amostral considerado com qualquer frequência.
4.19 Distribuição exponencial
A distribuição exponencial envolve probabilidades ao longo do tempo ou da distância entre
ocorrências num intervalo de tempo contínuo. Por exemplo, a exponencial é usada como modelo do tempo
entre falhas de equipamentos elétricos, tempo entre a chegada de clientes a um supermercado, tempo entre
chamadas telefônicas, etc.
As probabilidades exponenciais se exprimem em termos de tempo ou distância, até que um evento
ou ocorrência se verifique. Podemos, por exemplo, querer determinar a probabilidade de não existir
chamadas num período de 2 horas (t = 2) se a taxa média () é 1,5 chamadas/hora. Podemos usar a fórmula:
P(T > t) = e - t
70
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
70
Figura 4.12
Os resultados se exprimem em termos da probabilidade de uma ocorrência antes, ou após,
determinado ponto t. Com o emprego desta fórmula, podemos calcular a probabilidade de que o espaço (ou
tempo), antes da primeira ocorrência, seja maior que um dado (ou tempo) t.
A probabilidade de uma ocorrência em até t é dada por: P(T t) = 1 – e -t
Exemplos
16-) Suponha que o tempo médio entre o pedido e o atendimento num grande restaurante seja de
10 minutos. Suponha ainda que esse tempo tenha distribuição exponencial.
a) Determine a probabilidade de espera superior a 10 minutos.
b) Determine a probabilidade de espera não superior a 10 minutos.
c) Determine a probabilidade de espera não superior a 3 minutos.
d) Determine a probabilidade de espera igual a 10 minutos.
=
10
1
= 0,1 por minuto.
a) P(T > 10) = e - t = e – 0,1(10) = e -1 = 0,3679 ou 36,79%
b) P(T 10) = 1 – e - t = 1 – e -1 = 1 – 0,3679 = 0,6321 ou 63,21%
c) P(T 3) = 1 – e - t = 1 – e – 0,1(3) = 1 – e – 0,3 = 1 – 0,7408 = 0,2592 ou 25,92%
d) P(T=10) = 0
17-) Aplicação importante da distribuição exponencial é aos problemas de confiabilidade. Suponha que uma
máquina falhe, em média, uma vez cada dois anos (1/ = 2, de modo que = 0,5). Determine a probabilidade
de a máquina não falhar durante o próximo ano.
Solução:
Extraindo o valor de e – 0,5 na tabela F, temos:
P(T > 1) = e - t = e – 0,5(1) = e- 0,5 = 0,6065, ou seja 60,65%
4.20 Distribuição Normal
Uma distribuição de probabilidades de uma variável aleatória contínua x, é dita normal se suas
características forem:
O ponto máximo de f(x) é o ponto, )(médiax .
Os pontos de inflexão da função são, x e x .
A curva é simétrica em relação a, )(média .
A variável aleatória X terá distribuição Normal de probabilidades se sua função for definida por
)
2
)(
(
2
2
2
1
)(
x
exf
71
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
71
Para exemplificarmos, foi reproduzida uma curva normal de Média 50 e desvio-padrão 20 (gráfico
com a linha sólida) e outra com Média 50, mas, desvio-padrão 15 (gráfico com a linha tracejada). Com um
menor desvio-padrão, significa que os dados estão mais agrupados em torno da média da distribuição, isto
faz resultar numa curva mais alta.
Figura 4.13- Efeito do desvio-padrão sobre a curva normal.
A padronização consiste em identificar o elemento desejado, a partir da distância em que este se
afasta da média em quantidade de desvios-padrão.A variável Z, também chamada de ESCORE REDUZIDO,
indicará quantos desvios-padrão a variável aleatória X, que será comparada, está afastada da média. A
representação gráfica desta variável pode ser feita em porcentagem ou em quantidade de desvios-padrão.
Para efeitos deste exemplo, usaremos a notação 2: ( ; )X N e verifica-se que para cada X ao longo da
curva F(X) corresponderá um valor de escore reduzido Z, tal que;
X
Z
Sendo os dados abaixo pertencentes a uma distribuição Normal de Média 28 e desvio-padrão 2.
Média =28 Desvio-Padrão
Xi
xx
Z ii
Zi ZX
20
2
2820
1
Z -4 420
22
2
2822
1
Z -3 322
24
2
2824
1
Z -2 224
26
2
2826
1
Z -1 126
28
2
2828
1
Z 0 28
30
2
2830
1
Z +1 130
32
2
2832
1
Z +2 232
34
2
2834
1
Z +3 334
36
2
2836
1
Z +4 436
Tabela 4.3- Cálculo dos afastamentos em desvios-padrão.
Exemplo resolvido
18-) Seja uma amostra de índices de Participação de Capitais de Terceiros na Indústria, à qual
pertence uma empresa, a ser analisada.
É conhecido desta amostra da Indústria, a média desse índice analisado 100)( médiax e o
seu desvio-padrão, 5 , e portanto, a sua Variância será 252 .
Suponha, agora, que o leitor deseje posicionar ou comparar o desempenho da sua empresa (que
pertence a esta Indústria) neste item (participação de capitais de terceiros).
O leitor conhece o índice de participação da sua empresa que é 106.
Então, podemos escrever que,
72
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
72
Seja );(: 2NX )25;100(: NX , calcular a área debaixo da curva Normal, tal que:
)106100( XP com 5 e 100 , teremos então:
X
Z
0
5
100100
100
X
Z
2,1
5
100106
X
Z
Figura 4.14 - Capitais de terceiros
Então, consultando-se a tabela de Escore Reduzido para Z = 1,2 obtém-se uma área de
0,384930, e pode-se escrever que 384930,0)2,10()106100( ZPXP ou 38,4930%, debaixo
da curva Normal, está acima da média da amostra analisada. Como o resultado é positivo significa que o
mesmo se encontra acima da média (50%) então 50 + 38,49 = 88,49%.
Podemos dizer que, a empresa analisada, deixa atrás de si 88,49% das empresas do setor, ou
seja, tem um comprometimento com Capitais de Terceiros maior que a média do setor e se encontra
numa posição, em relação à amostra das empresas do setor, onde somente 11,51% das empresas
estariam mais comprometidas com capitais de terceiros do que ela.
19-) Suponha uma amostra de 50 empresas do setor de calçados.
Foi levantado o índice da Estrutura de Capitais, Imobilização do Patrimônio Líquido.
LíquidoPatrimônio
PermanenteAtivo
PL
_
_
e os resultados foram tabulados por classes, na tabela a seguir.
Tabela 4.4 - Índices de Imobilização do PL agrupados em classes
4,54
50
2720
i
ii
f
fx
x e
49,2188,461
49
22632
1
2
i
ii
f
fxx
S
Significa que a média de Imobilização de Patrimônio Líquido do Setor é de 54,4%, com um desvio
padrão de 21,49%. Desta forma, podemos comparar empresas, do mesmo setor, de atividade
econômica, com o resto da sua indústria, por meio da média e do desvio padrão de cada uma delas.
20-) Suponha, agora, que o leitor queira comparar 3 empresas, com a amostra acima. A primeira
delas apresenta um índice de imobilização do PL de 60%, a segunda de 70% e a terceira de 50%.
Para 2606,0
49,21
4,5460
%60
Z desvio-padrão; consultando-se a tabela de escore reduzido,
verifica-se que para Z = 0,2606 , corresponde uma área de 0,1026 ou 10,26% acima da média, pois o
Imob. do PL em %
ix if ii xf
xxi 2xxi
2
xxf ii
00⊢20 10 03 30 -44,4 1 971,36 5 914,08
20⊢40 30 09 270 -24,4 595,36 5 358,24
40⊢60 50 18 900 -4,4 19,36 48,48
60⊢80 70 14 980 15,6 243,36 3 407,04
80⊢100 90 06 540 35,6 1 267,36 7 604,16
2 720 22 632,00
73
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
73
valor obtido é positivo. Isso significa que a Imobilização do Patrimônio Líquido desta empresa é superior
a (50 +10,26) 60,26% das empresas, ou seja, 0,6026 x 50 = 30 empresas apresentam um índice de
Imobilização menor ou igual a X = 60%, que foi a variável do PL
analisada, verifique na figura 4.15 a disposição gráfica.
Figura 4.15 - Imobilização do PL 60%
Para 7259,0
49,21
4,5470
%70
Z desvio-padrão; consultando-se a tabela de escore reduzido,
verifica-se que para Z = 0,73 , corresponde a uma área de 0,2673 ou 26,73%, acima da média, pois o
valor obtido é positivo. Isto significa que a Imobilização do Patrimônio Líquido desta empresa é superior a
(50 + 26,73) 76,73% do PL das empresas, ou seja, 0,7673 x 50 = 38 empresas apresentam um índice de
Imobilização menor ou igual a X = 70%, que foi a variável (porcentagem de imobilização do PL analisada),
e 12 empresas apresentam um índice superior a este, veja figura 4.16.
Figura 4.16 – Imobilização do PL 70%.
Para 2047,0
49,21
4,5450
%50
Z desvio-padrão; consultando-se a tabela de escore reduzido,
verifica-se que para Z = 0,2047 , corresponde a uma área de 0,07936 ou 7,93% abaixo da média, pois, o
valor obtido a princípio é negativo. Isto significa que a Imobilização do Patrimônio Líquido, desta
empresa, é inferior ao das empresas do setor, ou seja, 50 – 7,93 = 42,07% das empresas (0,4207 x 50 =
21 empresas) apresentam um índice de Imobilização menor ou igual a 50%, sendo que 29 apresentam
uma imobilização do Patrimônio Líquido inferior a 50%, que foi o percentual analisado.
Figura 4.17 - Imobilização do PL 50%
0
0,002
0,004
0,006
0,008
0,01
0,012
0,014
0,016
0,018
0,02
-2,56 -2,09 -1,62 -1,15 -0,68 -0,21 0,26 0,73 1,20 1,67 2,14
60,25
0,263
0
0,002
0,004
0,006
0,008
0,01
0,012
0,014
0,016
0,018
0,02
-0,204742,07
74
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
74
Assim, pode-se, utilizar esta ferramenta para estimar a posição de um elemento observado em
relação a amostra à qual pertence ou com a qual se quer compará-lo, bastando para isso conhecer a
média e o desvio-padrão da amostra de comparação.
Exemplo resolvido
21-) Outra possibilidade é de poder situar a observação entre dois limites. Suponha, no exemplo
anterior, que o leitor quisesse, agora, verificar quantas empresas desta amostra, tem um índice de
Imobilização de Patrimônio Líquido entre 36% e 68%, limites estes, por algum motivo, de interesse do
observador, ou julgado por este como aceitáveis para este índice financeiro, para o momento econômico
da Indústria em questão.
Escrevendo-se em linguagem matemática, o que se procura então é
);(: 2NX )41,452;.4,54(: NX calcular a área debaixo da curva Normal tal que )6836( XP
com 49,21 e 4,54 , teremos então
X
Z
%78,3087,0
49,21
4,5436
36
X
Z
%57,2363,0
49,21
4,5468
68
X
Z
empresasZZ 2750%35,54%57,23%78,306836
Graficamente temos:
Figura 4.18 - Número de empresas entre limites
EXERCÍCIOS PROPOSTOS
25) Em uma fábrica os defeitos em fios de náilon têm distribuição de Poisson com média igual a 1
defeito/metro. Determine a probabilidade de um intervalo de, ao menos 3 metros, entre ocorrências.
26) O tempo de atendimento numa oficina é bem aproximado por uma distribuição exponencial, com média
de 4 minutos. Qual é a probabilidade de espera:
a) superior a 4 minutos;
b) inferior a 4 minutos;
c) exatamente 4 minutos.
27) Sabe-se que as chamadas sobre reclamações, em determinado setor de uma empresa de vendas pela
internet seguem um padrão exponencial com tempo médio de 1 hora, entreas chamadas.
a) Determine a probabilidade de um período de 2 horas, sem chamadas.
b) Determine a probabilidade de um período de 3 horas, sem chamadas.
28) Suponha que o tempo médio de duração, em uso contínuo, de um aparelho seja de 6 horas, suponha,
ainda, que esse tempo tenha distribuição exponencial. Qual a probabilidade de que um aparelho desses dure
menos de 8 horas?
0
0,002
0,004
0,006
0,008
0,01
0,012
0,014
0,016
0,018
0,02
-2,56 -2,23 -1,90 -1,57 -1,24 -0,91 -0,58 -0,25 0,03 0,36 0,69 1,02 1,34 1,67 2,00
Z=-0,87=30,78%
Z=0,6329=23,57
30,78% 23,57%
75
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
75
29) Suponha que o tempo médio entre o pedido e o atendimento numa lanchonete seja de 2 minutos.
Suponha, ainda, que esse tempo tenha distribuição exponencial, e que a lanchonete dará um lanche grátis
cada vez que a espera ultrapassar 3 minutos. Determine a probabilidade de uma pessoa, em um pedido,
ganhar um lanche nessa promoção.
30) Trace uma curva normal e sombreie a área desejada, obtendo a porcentagem correspondente.
a) a área à direita de z = 1,25;
b) a área à esquerda de z = 1,25;
c) a área entre z = 0 e z = 1,75;
d) a área entre z = 0 e z = - 2,38;
e) a área entre z = - 1,59 e z = -0,80;
f) a área entre z = - 0,73 e z = 0,73;
g) a área entre z = 2,15 e z = 2,48.
31) Dado que uma população com média 25 e desvio padrão 2, tem distribuição normal, determine os valores
de z para os seguintes valores da população.
a) 23,0 b) 23,5 c) 25,2 d) 25,5
32) Uma população normal tem média 35 e desvio padrão 3. Determine os valores correspondentes aos
seguintes valores de z:
a) 0,10 b) 2,00 c) 0,75 d) – 2,53 e) – 3,00
33) Uma distribuição normal tem média 48 e desvio padrão 5. Que percentagem da população está em cada
um dos intervalos seguintes.
a) de 48 a 50 b) de 56 a 60 c) de 40 a 60 d) de 45 a 55
34) Encontre o valor da área delimitada na região:
a) à direita de z = 1,19 b) entre z = 1,15 e z = 2,21
35) Encontre a probabilidade correspondente ao valor da área delimitada em cada região:
a) à esquerda de z = 1,43 b) entre z = 1,43 e z = – 0,65
36) Os pãezinhos produzidos em determinada padaria seguem um padrão de acordo com a distribuição
normal, com um peso médio de 50 gramas e com desvio-padrão de 3,5 gramas. Calcule a porcentagem de
pães produzidos com peso:
a) Maiores que 50 gramas;
b) Entre 50 e 53,5 gramas;
c) Entre 46,5 e 53,5 gramas;
d) Menores que 53,5 gramas;
e) Entre 43 e 57 gramas;
f) Maiores que 57 gramas;
g) Menores que 57 gramas.
76
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
76
CAPÍTULO 5
PRINCÍPIOS DE AMOSTRAGEM
Objetivos
Conceituar o significado prático de Amostragem.
Mostrar as técnicas básicas de amostragem e sua aplicação na determinação do número de
elementos, adequados em uma amostra.
Identificar e calcular amostras proporcionais estratificadas.
5.1 Tipos de Amostragem
Ilustraram-se quatro conceitos que são determinantes para a teoria de amostragem, assim como as
definições do que é população e amostra.
O tamanho de uma amostra tem relação com o erro-padrão de estimativa que o analista está
disposto a correr. Por sua vez o erro-padrão de estimativa tem relação com o nível de significância (alfa) e
com o nível de certeza que o analista pretende (1 – alfa), como é definido na teoria dos Intervalos de
Confiança.
5.2 Amostragem Probabilística
Amostragem probabilística é aquela onde cada unidade amostral tem uma possibilidade zero de
não pertencer à amostra, pois todas as variáveis fazem parte da população não havendo, portanto, variáveis
que não sejam deste universo.
Neste caso a probabilidade de cada unidade (observação ou elemento) a ser escolhida obedece à
definição clássica de probabilidade de Laplace ou seja 1/N.
Se o tamanho da população for N = 40 cada uma das observações terá probabilidade 1/40 de ser
escolhida para integrar a amostra probabilística.
Dentro da amostragem probabilística, existe ainda a possibilidade de que a amostra seja
estabelecida com ou sem reposição na população de origem dos elementos retirados para formar cada
amostra.
Assim, na amostra com reposição, um mesmo elemento tem a possibilidade de ser sorteado mais
de uma vez, enquanto que na amostra sem reposição um elemento só poderá ser sorteado uma única vez.
Normalmente, em pesquisas de mercado, não faz sentido perguntar duas vezes à mesma pessoa o
quesito em análise.
5.3 Amostragem Aleatória Simples
Esse tipo de amostragem pressupõe que, todos os membros tenham a característica procurada na
pesquisa, e que todos tenham igual possibilidade de serem selecionados e/ou indagados.
É essencialmente a definição de amostragem probabilística.
Os elementos são classificados por números e após, sorteados, aleatoriamente, em número
desejado pelo analista para que seja constituída a amostra de análise e generalização de resultados.
Outra forma de se escolherem os elementos, que irão compor a amostra aleatória simples, é fazer a
escolha por meio de tabelas de números aleatórios.
5.4 Amostragem Sistemática
Esse tipo de amostragem supõe que haja um critério pré-determinado para a escolha dos elementos
que irão compor a amostra.
A esta sistematização denomina-se fator de sistematização.
Suponhamos uma população de clientes de uma rede de lojas onde 219N , e suponha que o
analista queira retirar dela uma amostra sistemática de tamanho 20n .
Define-se como fator de sistematização à relação:
n
N
s , assim no nosso exemplo, o fator de
sistematização seria 11
20
219
s .
Escolhe-se, então, um número que esteja entre 1 e o valor 11 encontrado, por exemplo, 6.
Perceba que, neste caso, a escolha é induzida pelo método em todos os novos casos e o analista
escolherá desta forma.
77
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
77
Assim, o 1º elemento da amostra dos valores médios de compras será, por exemplo o 6º elemento
da população, o 2º elemento da amostra será o 17º elemento da população, o terceiro 28º e assim por diante
até que tenhamos os 20 elementos desejados. O último será o 215º elemento.
5.5 Viés de Seleção
O Viés de Seleção decorre do fato de que haja a possibilidade de que alguma variável não pertença
realmente à população considerada, o que não ocorre, como já dissemos.
Define Morettin (2000: p.2) que “A amostragem probabilística é isenta de viés”. Este fato é devido a
probabilidade igual de escolha para todos os membros da população, assim, se todos tem a mesma
probabilidade de serem selecionados, não há viés (distorção ou manipulação).
5.6 Amostragem Estratificada
O princípio deste tipo de amostragem é o de verificar, dentro do evento a ser estudado, quantos
estratos (característica dentro da população) existem.
Se um analista pretende estudar a satisfação de um grupo de consumidores em relação a um
produto, uma marca ou um serviço, e desse grupo sabe que existem consumidores fiéis à marca e outros
esporádicos, pode optar por estratificar a pesquisa.
Uma pesquisa de satisfação de políticas empresariais, com funcionários da própria empresa, pode
ser estratificada por faixas salariais e assim estudarem quais decisões empresariais tem impacto positivo, em
cada faixa de salário e quais têm impacto positivo ou negativo, em todas as faixas salariais.
Numa pesquisa social sobre a satisfação com a política governamental de ensino fundamental
público, pode-se estar buscando qual motivo da evasão escolar e assim, querer estratificar a amostra por
número de anos de estudo dos pais dos alunos. Estar-se-ia buscando, então, determinar se as causas da
satisfação, ou não, é devida à importância dada pelospais ao estudo dos filhos.
Note que a estratificação não abandona a coleta aleatória para a formação da amostra final de
análise.
A amostra Estratificada pode, ainda, ser proporcional ou inversamente proporcional.
Em qualquer um dos casos, há que se determinar qual o tamanho da amostra.
Se uma população de 400 pesquisados foi estratificada em 5 níveis, e quisermos ter uma amostra de
80 elementos, deveremos, então, tomar 20% de cada estrato, não levando em consideração o número
individual de integrantes destes. A este tipo de estratificação denomina-se estratificação proporcional. Uma
vez determinado o número de elementos a serem selecionados em cada estrato, estes são colhidos de
maneira aleatória ou por tabela de números aleatórios.
Extrato Tamanho do grupo % Extrato diretamente proporcional
A 250 20 50
B 100 20 20
C 50 2 10
TOTAL 400 20 80
Quando, ao invés, se quiser uma amostra estratificada inversamente proporcional, uma vez
estabelecida a porcentagem a ser retirada de cada estrato, estas porcentagens são invertidas entre estes.
O cálculo para se obter o número de cada estrato é feito conforme indicado nos comentários acima.
78
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
78
5.7 Amostragem por Conglomerados
Em pesquisas mercadológicas a opção por amostragem, por conglomerados (grupos) é preferida
pelo seu baixo custo e pela consequente rapidez na execução da pesquisa.
A população a ser estudada é delimitada numa região geográfica de escolhidos, por exemplo, ruas
ou quarteirões dentro de um mesmo bairro ou município. Serão entrevistados os pais de família com ensino
superior completo.
O conglomerado tem uma desvantagem peculiar, e esta é a sua imprecisão, devido ao fato que a
formação de grupos incorre em redundância de opiniões e homogeneidade, o que em termos de pesquisa
pode ser considerado um viés que distorce o resultado.
Suponha que, no nosso banco de dados original, se queira uma amostra de pais de família com
ensino superior, supondo que a delimitação houvesse sido o ingresso na loja.
Essa limitação é devida ao fato de que, não se dispõe no banco de dados das informações dos
clientes de uma mesma rua ou bairro.
Supondo que, no nosso banco de dados, tivéssemos a identificação da rua que cada cliente reside,
poderíamos selecionar por essa variável e obteríamos um conglomerado de interesse.
Estes tipos de amostragens são desenvolvidos para atender, principalmente, estudos sobre as
características de consumo de famílias por região de moradia e outros cujas diferenças principais possam ser
detectadas por meio destas amostras.
Parte-se de amostras por conglomerados. Exemplo: Se a pesquisa for nacional, parte-se dos
conglomerados Estados, que seria construído proporcionalmente em relação ao tamanho deste ou à sua
importância econômica, se a pesquisa assim o determinar. O próximo conglomerado seria o das cidades
desses estados, que também seria construído proporcionalmente em relação ao número de habitantes ou
importância social ou econômica. O próximo seria o conglomerado dos bairros que também seria construído
de forma proporcional ao número de casas destes.
Assim, construídos os conglomerados por múltiplos estágios, cada residência teria igual
probabilidade de ser selecionada para a pesquisa de opinião ou de característica de consumo, ou de hábitos
culturais, etc.
Em nosso banco de dados poderíamos escolher por Estado, por canal de venda, por grau de
instrução e por idade, obtendo assim uma amostra de múltiplos estágios.
5.8 Amostragem não-Probabilística
Amostragem não-probabilística é aquela onde existe uma probabilidade, diferente de zero, de uma
variável, daquelas consideradas, não pertencer à amostra.
Em outras palavras, existe uma manipulação a priori da população e extrai-se desta somente os
elementos com uma ou mais características.
Segundo Torres (2000), como há uma escolha deliberada dos elementos da amostra, não se pode
generalizar os resultados das pesquisas para a população, pois a amostra não garante a representatividade
da população. E ainda, a utilização desta técnica é recomendada quando as consequências dos possíveis
erros não ocasionar graves danos às conclusões e à tomada de decisão inerente.
Ao contrário das amostras probabilísticas, as não-probabilísticas são amostras utilizadas para
pesquisas de caráter exploratório, onde os resultados são considerados como preliminares e servem apenas
para se ter uma ideia mais precisa de diversas possibilidades.
Deste modo, formam-se amostras retiradas de espaços amostrais, previamente estabelecidos ou
identificados. Exemplos de pesquisas em ambientes de compras limitados (Shoppings) são características de
amostragens não-probabilísticas, pois restringem o campo de amostragem.
A identificação prévia da localidade pressupõe certo poder aquisitivo dos moradores da região,
apesar de que, esse centro de compras, possa ser visitado por moradores de outras localidades.
5.9 Amostragem por Conveniência
Estes tipos de amostras são levantados em ambientes como shoppings, igrejas, clubes, cidades
turísticas polos, como as litorâneas ou de montanha, para onde determinado tipo de público se dirige em
certas ocasiões ou épocas do ano.
Por exemplo, se um pesquisador quer determinar a possibilidade de consumo de um produto novo,
numa população de renda média-alta, deverá escolher locais, como os shoppings centers das regiões mais
ricas da cidade. Ainda, poderá pesquisar em cidades ou em Hotéis turísticos em estâncias de frequência de
seu público alvo.
79
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
79
5.10 Amostragem Intencional
É parecida com a anterior, pois a amostra é levantada após ser escolhido o local, e, portanto já existe
aqui uma intenção.
Assim, dentro do ambiente, são selecionados os respondentes que atendem critérios visuais ou
subjetivos do pesquisador. Esses critérios são previamente estabelecidos no projeto de pesquisa, e sofrem
ainda alterações, por ação da subjetividade do pesquisador de campo que identifica essas características,
mediante suas impressões pessoais.
Pesquisas que envolvem mudanças de produtos e/ou serviços, normalmente se utilizam de
amostragens intencionais.
Por exemplo, se uma empresa de aviação civil pretender alterar algum item de seu serviço de bordo,
que julgue de vital importância, normalmente perguntará aos executivos que mais se utilizam de seus aviões
e aos viajantes frequentes, que estejam listados nos seus planos de fidelidade.
A intenção aqui é clara. Se os clientes habituais se manifestarem contra esta alteração, significa que
a empresa poderá perder uma fatia significativa de seu mercado, por conta da mudança que pretende
introduzir.
Se acontecer ao contrário, significa que poderá, ainda, contar com seu público alvo mais fiel.
Não seria significativo executar-se este tipo de pesquisa, caso os viajantes ou clientes frequentes da
empresa sejam em número reduzido, pois daí a resposta não será significativa, e a empresa arrisca perder o
restante de seu público, por ter perguntado o que não devia para uma amostra não-representativa ou não
formadora de opinião.
O mesmo pode ocorrer com os compradores de veículos de alto luxo ou esportivos.
Imaginemos, por um momento, que uma empresa de automóveis, de alto luxo, para executivos,
decida excluir itens como telefone a bordo, freios ABS e ar condicionado. Mesmo que os clientes
continuassem a comprar veículos com esses itens, encomendando-os separadamente à montadora, a
imagem da empresa poderia ficar arranhada, pois os consumidores poderiam achar uma atitude
inapropriada, dada a categoria do veículo.
5.11 Amostragem por Quotas
Este tipo de amostragem se apoia no critério intencional, mas estabelece um número mínimo de
cada subgrupo pesquisado.
Neste caso, poder-se-ia pensar em pesquisas de opinião de consumidoresde um público
intencionalmente escolhido, mas que, por razões subjetivas, se o pesquisador quisesse ainda estabelecer
quotas por critérios como idade, nível de renda, classe social, ou região de residência.
Como exemplo vamos supor uma pesquisa de aceitação de modificação de itens de esportividade
num veículo esportivo de altíssimo desempenho.
São convidados pais e filhos de famílias abastadas, que possam adquiri-lo ou que já possuam
veículos com características semelhantes e que tenham probabilidade significativa de trocá-lo.
Por motivos subjetivos são selecionadas quotas de pais e de filhos em tamanhos diferentes em
relação à idade e ocupação.
Suponha que 35% dos pesquisados são pais cujos filhos não trabalham, em razão destes arcarem
com seus custos, e os outros 65% compostos por pais cujos filhos tem, também, sua renda própria, ou
trabalhem com os pais, identificando, assim, um duplo potencial de vendas.
5.12 Amostragem Bola de Neve
São amostras intencionais, onde um entrevistado indica um ou mais amigos seus, que tenham as
mesmas características ou gostos que ele.
Normalmente, se utiliza este tipo de amostragem para pesquisas de produtos que atinjam um público
especializado como dentistas, médicos, engenheiros por especialidade, proprietários de certas marcas de
veículos, pessoas que pertençam ou que pratiquem o mesmo tipo de esporte ou atividade de lazer.
Este tipo de amostragem é intuitiva, pois, imaginemos uma pesquisa de opinião sobre a utilização de
certo tipo de aditivo antiaderente para esquis, logicamente não adiantaria pesquisar entre pessoas que não
pratiquem este esporte de maneira esportiva.
Uma pesquisa sobre utilização de porcelana de secagem rápida seria mais efetiva se pesquisada
entre dentistas, e assim por diante.
Para facilitar a formação da amostra, o pesquisador, caso não tenha um banco de dados com os
nomes e contatos desses grupos específicos, poderá, então, pedir indicação de um amigo ao próximo
entrevistado. Normalmente será bem sucedido.
80
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
80
EXERCÍCIOS PROPOSTOS
1) Uma população é formada por alunos das três séries do Ensino Médio Regular com, respectivamente, 1º
ano = 300, 2º ano = 180 e 3º ano = 90 alunos. Determine o número total de alunos de uma amostra
proporcional estratificada retirada dessa população, sabendo que do 3º ano, foram retirados uma amostra de
15 alunos.
2) Em uma escola existem 466 alunos, conforme indicada na tabela a seguir. Obtenha uma amostra
proporcional estratificada de 70 alunos.
ANOS POPULAÇÃO CÁLCULO PROPORCIONAL AMOSTRA
1º 75
466
70
75 11,3
11
2º 64
3º 55
4º 48
5º 43
6º 58
7º 57
8º 35
9º 31
Total 466
3) Em uma escola temos 520 meninas e 380 meninos, encontre uma amostra proporcional estratificada de
18% desses alunos.
4) Um curso de uma faculdade X, apresenta o seguinte quadro relativo às séries.
ANOS POPULAÇÃO CÁLCULO PROPORCIONAL AMOSTRA
1ºA 120
1ºB 110
1ºC 108
2ºA 95
2ºB 98
3ºA 83
3ºB 81
4ºA 75
4ºB 70
Total 840
Obtenha uma amostra proporcional estratificada de 100 alunos.
81
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
81
CAPÍTULO 6
TEORIA DA ESTIMAÇÃO
Objetivos
Conceituar o significado prático de Estimação de Parâmetros.
Esclarecer quais os métodos adequados para o dimensionamento de Amostras
Diferenciar a Estimação Intervalar para grandes e pequenas amostras, bem como sua aplicação,
para estimação de médias e proporções populacionais.
Esclarecer quais as tabelas apropriadas e as condições teóricas mínimas, necessárias para uma
estimação tecnicamente correta.
6.1 Estimação
O estimador é uma variável aleatória que possui uma distribuição de probabilidades com
características próprias. O estimador, portanto, é uma estatística.
A estimativa é o valor assumido pelo parâmetro a ser determinado.
A teoria da estimação ajuda a identificar qual estimador (estatística da amostra) é o mais apropriado,
para poder ser considerado como válido, na tarefa de encontrar o parâmetro desejado da população.
Exemplo: a média das médias x de n amostras, retiradas de uma população, é muito próxima da
média da população. Portanto, pode-se dizer que, o estimador x “média das médias amostrais” é uma
estatística válida para se determinar o ”parâmetro” média populacional.
O estimador x da amostra é a estimativa (valor) da média populacional .
6.1.1 Propriedades dos estimadores
6.1.2 Não-tendencioso
Um estimador é dito justo, ou não-tendencioso, quando a sua média for a estimativa (valor) do
próprio parâmetro que se quer estimar.
Como visto acima, a média das médias amostrais, é um estimador justo, para a estimativa do
parâmetro média populacional.
6.1.4 Eficiência
Quando for possível utilizar dois estimadores justos no processo de estimação de um parâmetro, dir-
se-á que um deles é mais eficiente que o outro quando a variância de um deles for menor que sua variância.
6.1.5 Suficiência
Um estimador é suficiente quando sua estatística for obtida por meio de um número máximo de
informações do parâmetro que ele pretende estimar.
De forma resumida, podemos escrever algumas constatações já demonstradas:
A média das médias de n amostras é um estimador válido para a média da população.
A variância (quadrado do desvio-padrão) é igual a variância populacional dividida pelo número de
elementos da amostra.
Se multiplicarmos os valores das variáveis aleatórias por uma constante, a média ficará multiplicada
por essa constante.
A média de uma soma de variáveis aleatórias é igual à soma das médias dessas variáveis.
Multiplicando-se os valores de uma variável aleatória por uma constante, a variância ficará
multiplicada por essa constante.
A variância de uma soma de variáveis aleatórias independentes é igual à soma das variâncias.
A estimação de parâmetros populacionais pode ainda ser calculada “por ponto” ou “por intervalo”.
6.1.7 Estimação por Intervalo
Para que seja possível a estimação por intervalo, a suposição inicial é que a distribuição amostral do
estimador x (média da amostra) é normal. Isto ocorrerá se a distribuição de probabilidades da população for
normal, ou se a amostra for suficientemente grande.
82
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
82
Deve-se construir um intervalo em torno da média amostral x , de tal forma que esse intervalo
contenha o valor da estimativa (parâmetro a ser estimado) com um nível de confiança de (1 – α)%.
A forma como o intervalo de confiança é construído será vista dentro deste capítulo, um pouco mais
adiante.
6.2 Distribuição Amostral dos Estimadores
Em resumo, estuda-se a distribuição amostral dos estimadores para inferir quão próxima da
estatística do estimador estudado, estará a mesma estatística da população.
Para efeito deste trabalho, serão estudados a distribuição amostral da Média e a distribuição
amostral da Variância para populações infinitas (número total não conhecido) e finitas (número total da
população é conhecido). Deduções baseadas em outros estimadores serão feitas, apenas, mencionando-as
como postulado, entretanto, sem demonstração.
6.2.1 Distribuição amostral da Média
Como visto, estatísticas são os valores calculados a partir dos elementos de uma amostra. A
distribuição de probabilidades de uma estatística é chamada de distribuição amostral.
Podemos ter a distribuição amostral da média, do desvio padrão ou da variância.
As notações abaixo serão utilizadas para identifica-las
- Média populacional
x - Média amostral
2 - Variância populacional
2s - Variância amostral
- Desvio-padrão populacional
s - Desvio-padrão amostral
Uma das propriedades mais importantesda distribuição amostral da média é que; quando inúmeras
amostras são extraídas de uma população infinita ou muito grande, podem ser consideradas contendo a
mesma distribuição de probabilidades da população e, portanto, com a mesma média e variância; em outras
palavras: a média das médias amostrais se iguala à média da população.
Considerar a distribuição de frequências das várias populações estudadas como Normais implica em
admitir que a população é extremamente grande ou infinita.
As formulações e postulados para populações finitas, na prática, também são válidos para
populações infinitas.
Do cálculo de probabilidades sabe-se que:
Multiplicando os valores de uma variável aleatória por uma constante, a média fica multiplicada
por essa constante.
A média de uma soma de variáveis aleatórias é igual à soma das médias dessas variáveis.
Graficamente é intuitivo afirmar que a média da população é a mesma da amostra ou de qualquer
amostra, desde que a população seja infinita ou extremamente grande e a amostra seja constituída com
reposição dos elementos retirados para a amostra.
Figura 6.1 Comparação da Média Amostral e Populacional.
A média da população é a média soma das médias amostrais (média das médias das amostras):
83
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
83
n
xxxx
n
x
x n
n
i
i
.............3211
Entretanto, a média das médias amostrais (média da amostra 1 + média da amostra 2 + média da
enésima amostra n.....dividida pelo número de amostras) é dada por:
n
xxxx
x n
.............321
ou seja, a fórmula acima é na verdade n vezes a média da população dividida pelo número de
amostras que no final é a própria média da população.
n
n
x , portanto, a média das médias amostrais é igual a média da população.
6.3 Teorema Central do Limite
Diversos autores consultados expressam, de maneira matemática, o enunciado deste teorema.
Expressamos a essência dele sem ter a pretensão de modificá-lo:
A média amostral é igual ou muito próxima à média populacional. Em outras palavras, a média
das médias de todas as possíveis amostras retiradas de uma população é igual ou muito próxima à
média populacional.
Exemplo:
Seja uma população de variáveis X={14,16,18,20,22} , cuja média é 18x .
Formando-se amostras de tamanho 2n teremos:
Amostras (14;16) (14;18) (14;20) (14;22) (16;18) (16;20) (16;22) (18;20) (18;22) (20;22)
Média x 15 16 17 18 17 18 19 19 20 21
Tabela 6.1 - Amostras de tamanho 2
Como existem 10 combinações possíveis 10n , e cada uma delas possui a sua média, a
distribuição amostral das médias será dada pela probabilidade de cada uma ex.: 1,0
10
1
ou , 2,0
10
2
Média X 15 16 17 18 19 20 21
if 1 1 2 2 2 1 1
Distribuição
X
0,1 0,1 0,2 0,2 0,2 0,1 0,1
Tabela 6.2 - Combinações possíveis.
A média Amostral (média das médias das amostras) será dada por:
Média
amostral
x
(15x0,1)
(16 x
0,1)
(17x0,2)
(18 x
0,2)
(19
x0,2)
(20x0,1) (21x0,1)
1,5 1,6 3,4 3,6 3,8 2,0 2,1
Tabela 6.3- Cálculo da Média Amostral.
Portanto, somando-se os valores indicados, a média amostral será: 18x .
Isto nos dá a liberdade de utilizarmos na fórmula do IC (Intervalo de Confiança) que será vista mais
adiante, a própria média da população como sendo a média da amostra.
Este conceito será amplamente utilizado posteriormente, quando será necessário construir um
Intervalo de Confiança em torno da média populacional e, sendo esta desconhecida, poderemos utilizar a
média da amostra como um estimador válido.
6.4 Distribuição amostral da Variância
O mesmo ocorre com a variância (para populações infinitas ou muito grandes):
A média das variâncias das amostras (média da Variância amostral) é dada por:
2
2
3
2
2
2
1
2
2 )(.............)()()()(
n
xxxx
x n
Mas como a média das variâncias amostrais tende à própria variância da população:
84
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
84
nn
n
x
2
2
2222
2 ].............[)(
Então
n
x
2
2 )(
, ou seja, a Variância amostral é a média da Variância Populacional dividida
pelo número de amostras. A variância amostral é n vezes menor que a populacional.
Por conseguinte, temos que, o desvio-padrão amostral )(x é a Média do desvio-padrão das
amostras
x
:
n
x
x
)( .
Quando, entretanto, a população é finita deve-se introduzir nesta fórmula o fator de correção para
populações finitas que é:
1
N
nN e, portanto, a variância da média amostral ficará assim representada:
1
)(
N
nN
n
x
x
Vale enfatizar que a Variância Amostral é um estimador válido para o parâmetro Variância
Populacional. Entretanto, o desvio-padrão amostral só será um estimador válido para o desvio-padrão
populacional se a amostra for maior que 30 elementos e a população pelo menos o dobro deste valor.
6.5 Dimensionamento das Amostras
O tamanho da amostra tem influência direta na precisão ou aproximação dos resultados de uma
pesquisa. Normalmente, quanto maior é a amostra, mais nos aproximaremos dos resultados que obteríamos,
utilizando a população toda (senso).
Obviamente, isto não é possível na maioria dos casos, e, assim, a amostragem assume maior
importância dentro da pesquisa, pois generalizar características, a partir de uma amostra mal formada,
significa condicionar a pesquisa ao erro e as subsequentes decisões erradas.
Conforme demonstrado, a média amostral é igual à média populacional, a variância amostral é n
vezes menor que a variância populacional, e as populações suficientemente grandes podem ser tratadas
como tendo comportamento normal, e assim condicionam suas amostras.
A seguir, reproduziremos as fórmulas para obtenção dos tamanhos das amostras para os tipos de
amostragens mais utilizadas em pesquisas considerando-se as possibilidades de conhecer (finita) ou
desconhecer (infinita) o tamanho da população.
6.6 Tamanho da Amostra para estimar a Média populacional.
6.6.1 Populações Infinitas
2
2
1
x
Z
n
n tamanho da amostra necessária para reduzir o erro de estimação.
2
1 Z nível de confiança da abscissa da distribuição normal reduzida, quase sempre (95%).
desvio-padrão populacional. Se desconhecido pode-se utilizar o desvio-padrão amostral.
e = x erro-padrão de estimativa estipulado pelo analista. Diferença modular entre a média
populacional e a da amostra.
6.6.2 Populações Finitas
2
2
2
1
2
2
2
2
1
1
ZNx
NZ
n
n tamanho da amostra necessária para reduzir o erro de estimação.
N tamanho da população.
85
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
85
2
1 Z nível de confiança da abscissa da distribuição normal, (quase sempre 95%).
desvio-padrão populacional, se desconhecido pode-se utilizar o desvio-padrão amostral.
e = x erro-padrão de estimativa estipulado pelo analista. Diferença modular entre a média
populacional e da amostra.
6.7 - Tamanho da Amostra para estimar a Proporção populacional.
6.7.1 Populações Infinitas
2
2
2
1
1
e
pp
Zn
n tamanho da amostra necessária para reduzir o erro de estimação.
2
1 Z nível de confiança da abscissa da distribuição normal reduzida, quase sempre (95%).
p proporção da característica em estudo, encontrado na amostra.
p1 proporção complementar (dos elementos que não possuem a característica desejada).
2e erro-padrão de estimativa elevado ao quadrado. Diferença modular entre a proporção
populacional estimada e a verificada na amostra com a característicadesejada, expressa em
decimais.
6.7.2 Populações Finitas
ppZNe
NppZ
n
11
1
2
2
1
2
2
2
1
n tamanho da amostra necessária para reduzir o erro de estimação ao nível indicado pelo erro-
padrão.
N tamanho da população.
2
1 Z nível de confiança da abscissa da distribuição normal, (quase sempre 95%).
pp 1 = variância = proporção da característica em estudo multiplicado pela proporção
complementar.
2e erro-padrão de estimativa estipulado pelo analista.
6.8 Intervalos de Confiança para Proporções
O objetivo desta teoria de inferência é estimar qual a proporção de variáveis de uma população terá a
característica “X”, que está sendo estudada em uma de suas amostras.
Suponha que, de uma população com característica Normais e muito grande, foi extraída uma
amostra n > 30 para garantir que a amostra tenha, também, um comportamento Normal, ou muito próximo.
Nesta amostra foi identificada uma proporção “p” e, quer estudar-se uma certa característica X”.
A inferência estatística para proporções responderá à seguinte pergunta: “Qual será a proporção “”
de elementos da população que contém a característica “X”, alvo de estudo na amostra?”.
Chamemos de "" p a probabilidade do elemento da amostra que apresentar a característica “X”; por
conseguinte, a proporção de elementos que não apresentam a característica alvo do estudo será dada por
)"1(" p . Desta forma 1)1( pp ou 100% dos dados, e por “” a proporção da população.
86
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
86
Figura 6.2 - Significado gráfico do Intervalo de Confiança.
= média da população
x = média da amostra
= desvio-padrão da população
x
= desvio-padrão da média amostral ,
nn
x
2
n = tamanho da amostra
= nível de significância procurado
1 = Intervalo de confiança ou probabilidade do intervalo conter o parâmetro procurado.
Desta forma, a média da população, estará contida no intervalo procurado:
)1(
2
1
2
1
xx ZxZxIC
Mas, como
nn
x
2
, então podemos escrever que:
)1(
2
1
2
1
n
Zx
n
ZxIC
6.9 Intervalo de Confiança para Médias
Estudaremos, em seguida, os passos necessários para estabelecermos um Intervalo de confiança
para Médias de Populações, a partir de estimadores válidos para tanto.
A estimação da média será estudada em duas situações:
Quando for conhecida a variância populacional e,
Quando a variância populacional não for conhecida.
O Intervalo de Confiança para Médias é dado por:
%95)()(
2
1
2
1
n
Zx
n
ZxIC
Ou seja, devemos construir em torno da média da população um intervalo para a média da amostra,
que contenha a média amostral com um percentual de 95% de certeza.
Como é o desvio padrão da população, mas pode ser considerado como sendo o desvio-padrão
s da amostra, então, podemos substituir um valor pelo outro na fórmula anterior, e, em seguida,
construiremos o intervalo de confiança para a média da população. Deveremos ajustar, entretanto, a
“confiança de acerto” desejada que influenciará os valores de
2
1 Z .
87
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
87
Para isto, devemos apenas calcular a média e o desvio padrão de uma amostra, seja para
populações com variâncias conhecidas, ou não.
Quando a variância da população for conhecida bastará calcular a raiz quadrada desta para se obter
o desvio-padrão.
Entretanto, quando a variância da população não for conhecida, deve-se tomar um cuidado adicional.
Se a amostra for grande, maior que 30 observações, então podemos utilizar o desvio-padrão da
amostra como sendo um estimador válido para o desvio-padrão da população e, portanto, de seu intervalo de
confiança.
Se a amostra for pequena, até 30 observações, a priori, não se pode utilizar o desvio padrão da
amostra como sendo o da população, pois, demonstra-se, matematicamente, que o desvio-padrão da
amostra é um estimador “enviesado” do desvio-padrão populacional e, portanto, não é válido para tal
finalidade. Entretanto, serão raros os casos onde se queira inferir resultados populacionais a partir de
amostras que tenham menos de 30 elementos.
6.9.1 - Populações de tamanho desconhecido (Populações Infinitas)
Exemplos resolvidos
1) Uma empresa, fabricante de refrigerantes populares, deseja estimar a média de consumo, per
capita, de seu produto em famílias com renda até 5 salários mínimos.
Anteriormente, havia entrevistado 280 famílias que revelam um consumo médio, per capita, de 6
litros por mês, com um desvio-padrão de 3,5 litros. Com estes dados estimou um Intervalo de Confiança
para a média de consumo populacional (das famílias daquela classe de renda) ao nível de 95%.
O Intervalo de Confiança é definido por:
)1(
2
1
2
1
xx ZxZxIC
Mas, como 2092,0
280
5,3
n
s
x
(pois o desvio-padrão amostral é n vezes menor que
o desvio-padrão da população) a abscissa normal reduzida, para o nível de confiança de 95%,
96,1475,0
2
95,0
2
1 ZZZ
Então, podemos escrever que:
%952092,096,162092,096,16 IC
Daí, o Intervalo de confiança para a média de consumo das famílias consideradas estará entre:
%952092,096,16 IC
Note que o valor do erro-padrão de estimativa é:
4100,02092,096,1 litros
Qual deverá ser o tamanho da amostra para diminuir o erro-padrão de estimativa para 0,2 litros per
capita?
1176
2,0
5,396,1
2
2
2
1
x
Z
n
O analista deverá entrevistar 1 176 famílias.
2) Suponha que, numa amostra de 680 faturas originadas pela compra de materiais, existam 140 delas
com valor superior a R$ 1 000,00 (característica a ser estudada). Considerando-se que deseja-se ter uma
certeza de 95%, qual será a proporção de faturas com valores superiores a R$ 1 000,00, na população
total de faturas, de onde foi extraída a amostra?
A probabilidade p da ocorrência de faturas, com valores superiores a R$ 1 000,00 será dada por:
2059,0
680
140
p ou 20,59% e, portanto, a probabilidade de faturas abaixo de R$ 1 000,00 será:
7941,02059,01)1( p ou 79,41%.
Para calcularmos a proporção do total das faturas, desta população, que terá valores superiores a
R$1 000,00 com 95% de confiança ou certeza, devemos calcular o desvio-padrão da amostra e estimar
que este tenha o mesmo valor ou muito próximo da população.
A princípio, o desvio-padrão não pode ser considerado como um estimador válido para estimarmos
o desvio padrão da população. Mas, como visto anteriormente, ele passa a ser válido quando a amostra
tiver um número de elementos superior a 30, como neste caso.
88
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
88
Portanto, o desvio padrão da média amostral é dado por:
0155,0
680
7941,02059,0)1(
n
pp
x
Dada então, uma amostra com 680 elementos e um desvio-padrão da média amostral de 0,0155,
qual será a proporção da população de faturas com valores acima de R$ 1 000,00, levando-se em
consideração 95% de certeza.
Esta probabilidade depende, portanto, de 2059,0p , de 96,1475,0
2
1 ZZ e de
0155,0
x
.
Substituindo-se esses valores na fórmula abaixo, o valor do Intervalo de Confiança ao nível de
confiança de 95% para esta proporção será dado por:
%95
2
1
2
1
xx ZpZpIC
%95)0155,096,1(2059,0)0155,096,1(2059,0 IC
Portanto, podemos escrever que:
%952363,01755,0 IC
Ou seja, teremos 95% de confiança que a proporção do total de faturas da população com valores
superiores a R$ 1 000,00 estará entre 17,55% e 23,63% ou corre-se o risco de 5% que esta proporção
esteja abaixo de 17,55% ou acima de 23,63%.
6.9.2 - Populações de tamanho conhecido (Populações Finitas)
A estimação do Intervalo de Confiança para Populações Finitas (quando o número total da
População é conhecido), tem procedimento semelhante àquele para Populações Infinitas.
Devemos, apenas, estimar o desvio-padrão amostral com um fator de correção, para populações
Finitas.
O desvio-padrão da média amostral, então, ficará assim representado:
1
)1(
)(
N
nN
n
pp
x
x
3)No exemplo anterior, para a mesma amostra de 680 faturas, sendo que 140 delas com valor acima
de R$ 1 000,00, caso o número total de faturas seja, por exemplo, de 2 340 então teremos que aplicar o fator
de correção:
,
1
)1(
)(
N
nN
n
pp
x
x
então:
01306,08423,001550,0
12340
6802340
680
7942,02059,0
)(
x
x
Logo, o Intervalo de Confiança será dado por
%95)0131,096,1(2059,0)0131,096,1(2059,0 IC
e, portanto, %952316,01802,0 P
Logo, o número de faturas com valor acima de R$ 1 000,00 estará entre:
2 340 x 18,02% = 422 faturas e, 2 340 x 23,16% = 542 faturas.
Nota-se um pequeno ajuste, em relação ao intervalo de confiança, para o mesmo exemplo, quando
não se conhecia o número total da População.
6.9.3 Intervalos de Confiança para médias populacionais com variância conhecida.
Exemplo resolvido
4-) De uma população normal X, com
2 conhecida e igual a 36, tiramos uma amostra de 40
observações, tendo obtido 640 ii xf . Pede-se, determinar um Intervalo de Confiança, para a média
populacional , com um nível de confiança de 95%.
%95)()(
2
1
2
1
xx ZpZpIC
89
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
89
Obtém-se a média da amostra: 16
40
640
x
O desvio-padrão amostral será dado por: 9487,0
40
362
nx
e 96,1475,0
2
05,01
2
1 ZZZ
Figura 6.3 - Intervalo de Confiança ao nível 95%.
%95)()(
2
1
2
1
n
Zx
n
ZxIC
%959487,096,1(16)9487,096,1(16 IC
Portanto, podemos escrever que %9585,1714,14 P .
Podemos afirmar, com 95% de confiança, que a média da população está entre 14,14 e 17,86 ou
corremos o risco de 5% que a verdadeira média esteja abaixo de 14,14 ou acima de 17,86.
Exemplo resolvido
5-) Uma instituição financeira tem a informação que, um determinado setor da economia opera com um
Índice de Liquidez Geral médio de 1,17 e com desvio-padrão de 0,35. Encontre o Intervalo de Confiança
para a probabilidade que uma empresa escolhida, ao acaso, tenha:
a-) Um índice de LG menor que 1,28
b-) Um índice de LG entre 0,97 e 1,21 e determinar, também, que porcentagem de empresas
operam entre estes níveis de LG.
Resolução
a-)Determina-se o afastamento do índice observado a partir da média do índice de liquidez do
setor, em número de desvios-padrão.
35,0
17,1
:
LGX , portanto, 3143,0
35,0
17,128,128,1
28,128,1
ZZ
desvio-padrão.
A probabilidade de termos uma empresa X, com índice menor que 1,28, escreve-se 28,1XP ,
será a probabilidade 3143,028,1 ZP de que um outro índice se posicione aquém da posição ocupada
por 28,1Z ,ou seja, a posição que o outro índice deverá ocupar, estará entre o valor médio de LG (com
zero desvios-padrão), e a posição 0,3143 desvio-padrão afastada da média e, portanto,
3143,00 28,1 ZP .
Consultando-se a tabela Z, de Escore Reduzido, constata-se que a posição da Empresa que
possui um Índice de Liquidez Geral igual a 1,28 corresponde uma área de 12,1720% e, portanto, deixa
atrás de si 50% + 12,1720% = 62,1720% das empresas do setor.
90
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
90
Figura 6.4 - Porcentagem de empresas com LG menor que 1,28.
b-) Para posicionar os afastamentos dos índices LG 0,97 e 1,21 procede-se da mesma forma que no
item anterior, ou seja, determina-se o afastamento do índice observado a partir da média do índice de
liquidez do setor, em número de desvios-padrão.
35,0
17,1
:
LGX , portanto, 5714,0
35,0
17,197,097,0
97,097,0
ZZ
desvio-padrão.
11,0
35,0
17,121,121,1
21,121,1
ZZ
desvio-padrão
A probabilidade de termos uma empresa X, com índice entre 0,97 e 1,21 escreve-se
)11,05714,0(21,197,0 XICZXZIC .
Consultando-se a tabela Z, de Escore Reduzido, constata-se que a posição do Índice de Liquidez
Geral igual a 0,97 correspondente ao afastamento –0,5714, equivale a área de 21,57% aquém da
média. Por sua vez a posição do Índice de Liquidez geral igual a 1,21 corresponde uma área de 4,38%,
acima da média.
Portanto, a área total ocupada pelas empresas, possuidoras de índices de LG entre 0,97 e 1,21,
será igual a soma das duas áreas 21,57% + 4,38% = 25,95%.
Graficamente, teremos:
Figura 6.5 - Porcentagem de empresas com LG entre 0,97 e 1,21.
De forma análoga, podemos proceder a análise com qualquer outro índice financeiro, de maneira
que, o resultado final tenha o significado que o analista procura.
6.9.4 Intervalos de Confiança para médias populacionais com variância desconhecida
Exercício resolvido
6) Seja, portanto, uma população NORMAL de parâmetros desconhecidos, da qual tiramos uma amostra
de tamanho 60, sobre a qual, aplicando-se as metodologias de agrupamento em classes para cálculo da
Média e desvio-padrão, obteve-se:
Média = 15,46x e desvio-padrão 31,23
Estimar o IC (Intervalo de confiança) para a média da População, com nível de certeza de 93%.
91
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
91
Figura 6.6 - Intervalo de Confiança para Média, ao nível de 93%.
Note-se que a área 1 , correspondente ao intervalo debaixo da curva normal, é 93% (46,5 x 2)
e o desvio-padrão da média amostral é dado por:
01,3
60
31,23
60
)31,23( 22
nx
Para determinar a posição de
2
1 Z deve-se considerar que 1 corresponde a área de 93%
(probabilidade do intervalo conter o parâmetro procurado) e, que, portanto, teremos %5,46
2
1
de
área debaixo da curva Normal de cada lado. Consultando-se a tabela de Escore reduzido, tem-se que
82,1465,0 Z
como )1(
2
1
2
1
xx ZxZxIC
,
Pode-se escrever que: 93,001,382,115,4601,382,115,46 IC .
Portanto, o Intervalo de Confiança, para a Média , da População com um nível de confiança
de 93%, será:
93,063,5167,40 P
Então, em notação matemática, pode-se escrever que 63,51;67,40%)93;( IC , ou seja, o
Intervalo de Confiança ao nível de 93%, para a Média , da População é 63,51;67,40 .
A seguir, temos um exemplo que utiliza as ferramentas de estatística indutiva, estudadas até
agora.
Exemplo resolvido
7-)Um analista financeiro deseja estimar, com 95% de probabilidade (confiança), qual foi a média
dos saldos de caixa do ano anterior, no fechamento diário das operações (com aproximação de 4 casas
decimais). Resolve colher uma amostra de 48 observações (uma para cada dia de cada semana do ano
anterior). O contador seguiu as etapas seguintes:
Agrupou as observações em classes, por tratar-se de uma amostra grande (superior a 30
observações).
Calculou a Média amostral e o desvio-padrão.
Construiu um Intervalo de Confiança de 95%, ou seja, 1 = 95% eportanto %5
As observações de saldos de caixa foram as seguintes ( em R$ x 100 ):
0,4 0,95 1,47 1,95 2,15 2,3 3,3 3,9
0,45 1,0 1,6 2,0 2,16 2,61 3,4 4,3
0,7 1,0 1,67 2,0 2,2 2,75 3,8 4,7
0,74 1,27 1,7 2,1 2,2 2,8 3,81 5,0
0,85 1,29 1,7 2,1 2,3 3,0 3,82 5,2
0,9 1,32 1,9 2,13 2,3 3,1 3,83 5,2
Tabela 6.4 - Saldos de Caixa dados brutos
92
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
92
Determinou-se o número de classes necessárias, e sua amplitude, para agrupar os dados,
utilizando-se o método da Raiz. 748 nK e a amplitude será então
7,0
7
4,02,5min
k
máx
h .
Classes ix if )( ii xf )( xxi
2)( xxi
2)( xxf ii
0,4 1,1 0,75 9 6,75 -1,59 2,5281 22,7529
1,1 1,8 1,45 8 11,6 -0,89 0,7921 6,3368
1,8 2,5 2,15 14 30,1 -0,19 0,0361 0,5054
2,5 3,2 2,85 5 14,25 0,51 0,2601 1,3005
3,2 3,9 3,55 6 21,3 1,21 1,4641 8,7846
3,9 4,6 4,25 2 8,5 1,91 3,6481 7,2962
4,6 5,3 4,95 4 19,8 2,61 6,8121 27,2484
48 112,3 74,2248
Tabela 6.5 - Saldos de Caixa, dados agrupados em classes
A média da amostra será então, 34,2
)(
i
ii
f
xf
x e o desvio-padrão da amostra será,
2567,1
148
2248,74
1
)(
2
i
ii
f
xxf
Temos, portanto, os seguintes estimadores.
%5,2
2
ou %5 ; 34,2x ; 2567,1 e, portanto, 18143,0
48
2567,1
x
96,1475,0
2
1 ZZ
, consultando-se a tabela Z, de Escore reduzido, como,
)1(
2
1
2
1
xx ZxZxIC
,então
95,01814,096,134,21814,096,134,2 IC
IC[2,34 – 0,3555 µ ≤ 2,34 + 0,3555] = 0,95
portanto, 95,06955,29845,1 IC
Pode-se dizer, então, que a média da população dos saldos de caixa, do ano anterior, estará
contida entre os valores 1,9845 e 2,6955, com um grau de confiabilidade de 95%, ou corre-se o risco de
erro de 5%, que a média populacional seja um valor abaixo de 1,9845 ou acima de 2,6955 ( R$ x 100).
Outra pergunta de interesse poderia ser: “Qual o erro de Estimação ao nível de 5%”?
O erro amostral é dado pela diferença entre a média da amostra e a média da população:
xe ,
Mas, como
x
x
Z
, então xZ
x
. Assim, o erro amostral fica definido por
x
Ze .
No exemplo anterior o erro, ao nível de 5%, será 3555,01814,096,1 e , ou R$ 35,55.
Mais uma pergunta que pode ser feita: “qual deveria ser o tamanho da amostra, para que o erro
amostral não fosse maior do que vinte unidades monetárias (R$20,00)”, ao nível de 95% de certeza?
No nosso exemplo as unidades monetárias foram divididas por 100, portanto
95,0)20,0( eP
Como já calculado 96,1475,0
2
1 ZZ com 20,0e
Daí
x
Ze 20,0
n
Z
20,0
2567,1
96,1
n
93
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
93
n 20,01814,096,1 , então 32,12
20,0
2567,196,1
nn portanto, n = 152.
Ou seja, o analista financeiro deverá obter uma amostra de 152 saldos de caixa para obter um
erro inferior a vinte unidades monetárias.
Exercícios propostos (Usar 4 casas decimais)
1) Um candidato A, concorrente a um cargo público, afirma ter 65% dos votos válidos dos eleitores de seu
município. Para comprovar esta afirmação o partido, contrário ao candidato A, encomenda uma pesquisa
eleitoral. São entrevistados 1 680 eleitores, dos quais 758 declaram-se a favor do candidato A. Estimar um
intervalo de Confiança de 95%, para a proporção populacional de eleitores no município, que serão
favoráveis ao candidato. Qual o erro padrão da pesquisa?
2) Uma empresa metalúrgica, recebe lotes de peças, para montagem de veículos agrícolas. Certo tipo de
peça foi selecionado para verificação da qualidade, e numa amostra de 1 350 eixos, foram verificados que
327 estavam fora das especificações do projeto. Estimar um Intervalo de Confiança de 94%, para a
proporção de peças defeituosas na população de peças recebidas. Qual o erro amostral da pesquisa?
3) Num município brasileiro de 8 570 moradores, adultos, entrevistaram-se 758 e destes, 127 afirmaram não
terem concluído o primeiro grau. Estimar um Intervalo de Confiança de 95%, para proporção populacional
dos moradores do município, com a mesma característica estudada na amostra. Qual o erro amostral da
estimativa?
4) Um administrador financeiro quer estimar, com 95% de certeza um IC, para a média de horas de serviço
dos funcionários no ano em curso. Para isto, colheu uma amostra aleatória das horas trabalhadas de 48
funcionários, tendo tabulado os resultados a seguir:
15 24 25 27 29 31 35 36
17 24 26 28 29 31 35 37
19 24 26 28 30 33 35 38
21 24 26 28 30 34 35 38
23 24 27 28 31 34 36 41
24 24 27 29 31 35 36 46
Pede-se:
a) agrupar as variáveis por classe (método da raiz);
b) calcular a média e o desvio padrão amostral;
c) construir um IC ao nível de 95% para a média de horas na população;
d) qual erro amostral da estimativa.
94
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
94
5) Uma máquina, de empacotar leite em pó, executa o comando sendo que, em 100 empacotamentos, 21
resultam fora da especificação de peso médio. Estimar um IC para a proporção populacional de pacotes fora
da especificação média, ao nível de 93%.
6) Um auditor, de uma grande consultoria internacional, deseja estimar qual o número populacional de
faturas, emitidas em não conformidade com a alíquotas deste. Colhe uma amostra de 687 faturas, onde
encontra 87 em não conformidade. Pede-se estimar um IC com 95% de certeza para a verdadeira proporção
populacional de faturas com erro na alíquota do imposto. Caso este limite ultrapasse 15%, de faturas em não
conformidade, pedirá para que todas as faturas, do período, sejam refeitas. Qual o tamanho da amostra, para
reduzir o erro padrão de estimativa para 2%?
7) Num processo de ordenha, uma amostra da quantidade de leite de 15 animais revelou média de 30 litros,
com desvio padrão de 4,3 litros. Pede-se estimar um IC com 95% de certeza, para a média de produção
populacional da fazenda.
8) Uma fábrica de bombons de chocolate quer estimar o peso médio populacional de seus produtos, que são
fabricados de forma artesanal. Para isto, colhe uma amostra de 10 caixas e obtém peso médio de 436
gramas com desvio-padrão de 58 gramas. Pede-se estimar um IC ao nível de certeza de 95%.
9) Uma central de despachos aduaneiros, localizada num porto brasileiro, deseja estimar a possibilidade de
trocar, o sistema atual de carregamento de navios por um outro, informatizado, com esteiras e guindastes
hidráulicos. Uma amostra de 60 carregamentos, dentre os 180 possíveis no período, revelou média de 45
horas, por carregamento, com desvio-padrão de 16 horas. A nova empresa afirma que suas máquinas
podem executar o mesmo carregamento em tempo médio de 28 horas, com variabilidade quase zero. Pede-
se construir um IC para determinar qual o ganho percentual em relação ao tempo mínimo, de carregamento,
pelo sistema atual, ao nível de 95%.
10) Uma grande rede de hotéis quer estimar o tempo médio para a limpeza dos 246 quartos, que possui em
uma das suas unidade. Para isso, colhe uma amostra do tempo gasto, com a arrumação e limpeza de 48
quartos e, obtém, 43 minutos de média, com desvio-padrão de 12 minutos. Pede-se estimar ao nível de 95 %
de certeza:
a) a média de tempo gasto para a limpeza dos quartos;
b) se a média de mão de obra variável é R$ 120,00 por hora, estimar o custo total diário mínimo e
máximo despendidos.
11) O candidato de um município de 23 400 eleitores quer estimar, o percentual de votos que poderá auferir
na próxima campanha eleitoral, para vereador municipal. Para isto, encomenda uma pesquisa de opinião a
qual aponta que entre os 848 pesquisados 123 se pronunciaram favoráveis ao candidato. Estimar com 95%de certeza:
a) Qual porcentagem de votos favoráveis na população eleitoral;
b) Supondo que se estime em 21,5% o mínimo de votos válidos necessários, para ser eleito, o que você
diria ao candidato?
95
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
95
CAPÍTULO 7
TESTES DE HIPÓTESES
Considerações iniciais
É comum no nosso dia-a-dia, observarmos, em conversas diversas, as pessoas fezerem afirmações
o tempo todo. Estas, porém, deveriam, sempre, vir acompanhadas de bases que às justificassem.
Os testes de Hipóteses verificam a validade, ou não, de afirmações feitas a respeito de parâmetros
populacionais, justificando-as com base em ferramentas estatísticas reconhecidas.
Aprenderemos como testar afirmações que comumente são feitas no dia-a-dia e que, muitas vezes,
não encontram bases científicas de comprovação. Iniciar frases com “acho que” revela, no mínimo, a
incerteza que, por já estar presente no campo da Administração e em outros tantos, não precisa de reforços
para se descartar essa informação.
Objetivos deste capítulo
Conceituar a significância estatística.
Testar afirmações, por meio de dados estatísticos.
Calcular a probabilidade de que a população tenha o mesmo valor da estatística de interesse
na amostra.
Testar afirmações sobre médias e proporções que, com frequência, são feitas sem a base
teórica necessária.
Comparar médias de uma amostra e entre duas amostras.
Aplicar os testes t para pequenas amostras.
Mostrar a ligação entre esta teoria e outras áreas das empresas, como o marketing, recursos
humanos, etc....
Introdução
Nos problemas de Estimação, queriam-se estimar os parâmetros populacionais dentro de Intervalos
de Confiança.
Agora, nos testes de Hipóteses, admitir-se-á que exista uma Hipótese inicial Ho, a respeito do
parâmetro populacional que deverá ser testada e, assim, manter-se a hipótese inicialmente tida como válida
ou rejeitá-la, em favor de uma Hipótese alternativa H1.
Por meio dos Testes de Hipóteses, testa-se uma hipótese existente, Ho, inicialmente tida como
verdadeira e daí, a partir de uma amostra válida, colhida dentro da população de teste, tentar-se-á provar se
a hipótese inicial é verdadeira, para a população ou abandonar-se-á esta, substituindo-a pela hipótese
alternativa, H1.
Em outras palavras, o teste ocorre, a princípio, a partir da comparação de um tipo de evento ou
variável de cada amostra selecionada e, portanto, trata-se de hipóteses sobre observações que possam ser
controladas e comprovadas.
As hipóteses sobre fatos controláveis, por sua vez, devem ser traduzidas em hipóteses válidas em
estatística, as quais dizem respeito a parâmetros populacionais.
O objetivo do teste pode ser resumido por meio de um exemplo genérico, onde a partir da dúvida, se
de duas determinadas amostras, existe, ou não, uma média presumida. Neste caso, colhe-se uma amostra,
verificando-se nesta a média e o desvio-padrão amostral. Da teoria de Estimação, devemos recordar que a
média amostral é um bom estimador da média populacional, enquanto que o desvio-padrão só o é, se a
amostra tiver mais do que 30 observações.
Assim, podemos abordar um caso genérico, onde foram calculados a média e o desvio-padrão de
duas amostras de índices financeiros, extraídos da mesma população e deseja-se ter certeza da
verdadeira média populacional. Estaremos, portanto, recorrendo a Teoria de Probabilidades, para resolver
esta dúvida.
Sejam, portanto, as duas amostras, cuja distribuição de frequências está indicada a seguir, com as
respectivas médias.
O teste de Hipótese é assim indicado:
Ho: a verdadeira média é 0 .
H1: a verdadeira média é 1
96
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
96
0 1
Figura 7.1
Note-se que uma variável em estudo, estando entre os valores aproximados de 15 a 17, a princípio,
pela análise gráfica, pode pertencer ao grupo da esquerda (média 14) ou ao grupo da direita ( média 18).
7.1 Nível de significância
Também chamada de probabilidade de rejeitar-se H0, sendo esta escolhida pelo observador analista.
Sua representação gráfica é dada por:
1
Figura 7.3
7.2 Poder de um Teste
O poder de um teste é, também, chamada de probabilidade 1– β e representa-se graficamente:
1 b1
b
Figura 7.4
Quanto menor for o nível de significância α(alfa), maior será o de β (Beta) e assim, menor será a área
1 – β, o que diminui o poder do teste.
Ao contrário, quanto maior for o nível de significância (alfa), menor será o de (Beta), e
consequentemente, maior será a área 1 – β, que denomina-se poder do teste .
Isto significa que se aumentarmos o grau de significância, aumentando Alfa (de 1% para 5% ou até
mesmo para 10%), e se com isto H0 não for rejeitada, isto é, se ainda assim, a hipótese H0 estiver contida na
área (1 – α) e não na área de rejeição, teremos a certeza de que a variável em estudo pertence ao grupo de
H0 e não pertence ao grupo de H1, o que aumenta o poder do teste.
97
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
97
7.3 Valor Crítico de um teste
Supondo H0 como verdadeira, o pesquisador deverá fixar a probabilidade de rejeitá-la.
Como visto, a esta probabilidade, chamamos de nível de significância. Nas diversas situações de
pesquisas, costuma-se utilizar os níveis 0,1%,1%, 5% e 10% , sendo que a maioria dos programas adota, por
padrão, o nível 5%, nada impedindo que o observador utilize outro. Explicaremos, mais adiante, como a
determinação do poder de um teste pode influenciar esta decisão.
À probabilidade de rejeitar a Hipótese inicial H0, associa-se um valor crítico, relacionado à distribuição
de frequências estudada.
Este valor crítico, é definido pelo nível de significância adotado e, pela consequente consulta à tabela
da função de densidade respectiva que podem ser, Z normal, de Escore Reduzido, como nos nossos
exemplos, ou T-Student e F-Snedecor, caso se queiram testar, médias ou desvios-padrão de amostras
grandes ou pequenas, conforme o caso.
7.3.1 Valor Crítico para testes Unilaterais.
Suponha, então, a probabilidade de rejeição de 5%, o valor crítico de corte, denominado xc, será
dado por: 64,145,0%5%50
2
1
ZZZ
, dependendo se o teste unilateral for a direita (positivo) ou a
esquerda (negativo).
+ 1,64
%5
Figura 7.5
7.3.2 Valor Crítico para teste Bilaterais
Supondo-se o mesmo nível de significância de 5%, o valor crítico de corte denominado xc será dado:
96,1475,0
2
%95
2
1 ZZZ
Para cada lado da curva de densidade de probabilidade.
+ 1,96
%5,2 %5,2
- 1,96
Figura 7.6
7.4 Valor de comparação testeZ
O valor de comparação testeZ é expresso pelo quociente da diferença entre a média amostral, x e a
média populacional 0 , da hipótese 0H , que está sendo testada, e o desvio padrão da média amostral ,
n
. Sua fórmula será então:
n
x
Z teste
0
98
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
98
Quando | testeZ | for maior que | cx |, escreve-se )( cteste xZP , então testeZ estará na área de rejeição,
dada pelo nível de significância e, portanto, devemos rejeitar a hipótese inicial 0H .
Quando um teste for significante, ao nível 5%, isto não quer dizer, necessariamente, que deva ser
significante nos outros níveis 1% e 0,1%.
7.5 Erros de decisão
Nas diversas hipóteses que podem ser formuladas, erros são sempre possíveis de acontecer, ou por
estabelecimento errôneo de uma hipótese ou por má interpretação de resultados.
Admita-se que existam quatro possibilidades, duas corretas e duas incorretas:
Aceitar Ho quando esta for verdadeira (correta), representa-se por 1 .
Rejeitar Ho quando esta for falsa (correta), representa-se por b1 .
Rejeitar Ho quandoesta for verdadeira (erro Tipo I), representa-se por .
Aceitar Ho quando esta for falsa (erro Tipo II), representa-se por b .
A aceitação de Ho leva, automaticamente, à rejeição da hipótese alternativa H1 e vice-versa, a
aceitação de H1 leva a rejeição de Ho.
Define-se, portanto, Região Crítica, como sendo um intervalo de valores que a variável testada pode
assumir, e que leve à rejeição da hipótese, inicialmente testada Ho.
Pode-se, determinar a área de rejeição, normalmente apresentado nos programas estatísticos, como
sendo o nível de significância 5%, 1% ou outro.
7.6 Utilização das tabelas de distribuição de probabilidades
Ilustra-se, esquematicamente, a utilização do modelo teórico nos testes de hipóteses, para estimação
da média populacional, quando esta tiver comportamento normal ou próximo da normalidade.
Variância Populacional
σ2
Amostra n Estatística de teste
Se o valor de σ
éconhecido
Use o estimador σ
n > 30 elementos
n
x
Z
n ≤ 30 elementos
Se o valor de σ é
desconhecido
Use o estimador s como
aproximação de σ
n > 30 elementos
n
s
x
Z
n ≤ 30 elementos
x
t
s
n
Em casos onde a amostra não for suficientemente grande (n > 30) e ao mesmo tempo a população
não possuir comportamento normal, aconselha-se a aumentar a amostra para mais de 30 elementos.
7.7 Testes de significância à Esquerda para Médias Populacionais.
Ilustraremos, esta teoria, por meio de exemplos, para grandes e pequenas amostras, para que o
leitor possa compreender sua aplicação prática e verificar que a aplicação, destas metodologias depende do
conhecimento prévio da variância populacional e do tamanho da amostra.
Exemplo resolvido (grandes amostras), com desvio-padrão populacional conhecido.
1) Uma empresa metalúrgica fabricante de peças automotivas afirma que seus anéis, para pistões de
motores a combustão interna, quando instalados, tem diâmetro médio de 13 cm (Ho, média = 13 cm) com
desvio-padrão de 0,17cm. Numa amostra de 138 anéis de pistão, constatou-se que o diâmetro médio era de
12,97cm. Verificar se a afirmação é verdadeira, ao nível de significância 5%.
Devemos supor que o teste é unilateral a esquerda, pois a Hipótese inicial Ho afirma que os anéis de
pistão, tem 13cm, enquanto que a verificação desse diâmetro, na amostra, apontou para um valor menor, ou
seja, 12,97cm, que deverá ser tomado como sendo a Hipótese alternativa H1.
Hipótese inicial a ser testada Ho : média = 13 cm
Hipótese alternativa H1 : média < 13cm
99
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
99
64,145,0%45 ZZ
Variância Populacional σ2 Amostra n Estatística de teste
Se o valor de σ é conhecido
Use o estimador σ
N > 30 elementos
n
x
Z
-1,64
Figura 7.7
Cálculo do Valor de Teste:
07,2
138
17,0
1397,120
n
x
Z teste
Como o valor crítico de teste é menor que –1,64, conclui-se que está dentro da área de rejeição da
Hipótese inicial Ho. Portanto, a Hipótese inicial deverá ser rejeitada, ou seja, não se pode afirmar que os
anéis de pistão, uma vez instalados, atendam as especificações demandadas pela fábrica de motores.
Exemplo resolvido (pequenas amostras)
2-) Suponha que em um experimento, análogo ao anterior, a população tivesse revelado a mesma
média de diâmetro de 13 cm e desvio-padrão populacional igual a 0,177. Numa amostra de 15 anéis de
pistão constatou-se que o diâmetro médio era de 12,93cm. Verificar se a afirmação do fabricante é
verdadeira, ao nível de significância 5%.
Já que a amostra tem menos que 30 elementos, mas conhecemos o desvio-padrão populacional,
podemos utilizar a tabela Z.
Hipótese inicial a ser testada Ho : média = 13 cm
Hipótese alternativa H1 : média < 13 cm
64,145,0%45 ZZ
Variância Populacional σ2 Amostra n
Estatística de
teste
Se o valor de σ é conhecido
Use o estimador σ
n ≤ 30 elementos
n
x
Z
-1,64
Figura 7.8
100
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
100
Cálculo do Valor de Teste:
53,1
15
177,0
1393,120
n
x
Z teste
Como o valor crítico de teste é maior que –1,64, conclui-se que está na área de aceitação da
Hipótese inicial Ho. Portanto, a Hipótese inicial deverá ser aceita, ou seja, podemos afirmar que os anéis de
pistão, uma vez instalados, atendem as especificações demandadas pela fábrica de motores.
Se, por acaso, o valor da média verificada na amostra fosse maior que a média populacional, os
testes que executamos anteriormente seriam unilaterais à direita. Todo o restante do procedimento ficaria
inalterado, incluindo o nível de significância e os valores críticos de teste, que, neste caso, seriam positivos.
7.8 Testes de significância à Direita para Médias populacionais com desvio-padrão desconhecido.
Para exemplificarmos os testes de significância, à direita, assumiremos que o desvio-padrão
populacional seja desconhecido.
Exemplo resolvido (grandes amostras)
3) Uma empresa de tintas quer testar se a reclamação de alguns clientes, quanto à secagem prematura
de um de seus produtos, é devido à variabilidade de um componente químico, adicionado ao produto,
durante o processo de mistura. O químico responsável afirma que são misturados, a cada 500 litros de
tinta, 23 Kg do produto necessário, segundo especificação aprovada. Uma amostragem aleatória simples,
de 40 processos de mistura, revelou que a média do componente adicionado foi de 23,04 Kg com desvio-
padrão de 0,16 Kg. Verificar se a afirmação do fabricante é verdadeira, ao nível de significância 5%.
Sendo assim, devemos conduzir um teste unilateral à direita, pois a amostra revelou um valor
médio, superior ao especificado para o processo.
Hipótese inicial a ser testada Ho : média = 23 kg
Hipótese alternativa H1 : média > 23 kg
64,145,0 Z
Variância Populacional σ2 Amostra n
Estatística de
teste
Se o valor de σ é
desconhecido
Use o estimador s como
aproximação de σ
n > 30 elementos
n
s
x
Z
Figura 7.9
Cálculo do Valor de Teste: 5810,1
40
16,0
2304,230
n
x
Z teste
Como o valor crítico de teste é menor que +1,64, conclui-se que ele está dentro da área de
aceitação da Hipótese inicial Ho. Portanto, a Hipótese inicial deverá ser aceita, ou seja, a secagem
prematura não se deve à variabilidade da quantidade misturada desse produto.
Exemplo resolvido (pequenas amostras)
4-) Uma empresa farmacêutica quer estimar a possibilidade de precisar destruir um lote de medicamentos,
devido ao excesso de um dos componentes, que tem originado reclamações de náuseas por parte dos
pacientes que o utilizam de forma continuada. A especificação padrão do medicamento impõe que a média
do componente, por comprimido, seja 4,3 mg. Para tal verificação colhe uma amostra de 25 comprimidos,
+1,64
101
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
101
obtém média de 4,39 mg e desvio-padrão de 0,23 mg. Verificar se a empresa terá de destruir o lote, devido à
afirmação dos clientes, ao nível de significância de 5%.
Hipótese inicial a ser testada Ho : média = 4,3 mg
Hipótese alternativa H1 : média > 4,3 mg
Variância Populacional σ2 Amostra n
Estatística de
teste
Se o valor de σ é
desconhecido
Use o estimador s como
aproximação de σ
N ≤ 30 elementos
x
t
s
n
Figura 7.10
Como não conhecemos o desvio-padrão populacional, podemos considerar o desvio-padrão
amostral como sendo um bom estimador deste, substituir σ por s e utilizar a tabela t ao invés da tabela Z.
Logo, o valor de teste ficaria, assim representado:
Cálculo do Valor de Teste:
9565,1
25
23,0
3,439,40
n
s
x
tteste
Consultando-se a tabela t-Sudent,para n – 1 = 24 graus de liberdade e 0,05 de significância,
temos que o valor de t crítico = + 1,7109
Como o valor t teste + 1,956 é maior que o valor de t crítico 1,7109, conclui-se que está dentro da
área de rejeição da Hipótese inicial Ho.
Portanto, podemos afirmar que a empresa deverá aceitar a reclamação dos clientes e destruir o
lote de medicamentos, pois tudo se comporta como se a verdadeira média, do componente químico do
remédio, seja maior que a especificação técnica de segurança.
7.9 Sensibilidade dos Testes de Hipóteses
Suponha que no exemplo anterior a amostra tivesse revelado um peso médio de 4,37mg ao invés de
4,39mg, e ainda que o desvio-padrão tivesse sido o mesmo.
Testar, portanto, ao nível de significância de 5%, a afirmação dos clientes.
Cálculo do Valor de Teste.
+1,641,7613
102
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
102
5217,1
25
23,0
3,437,40
n
s
x
tteste
Este valor tteste +1,521 estaria na área de ACEITAÇÃO da Hipótese inicial, pois seria menor que o
valor crítico +1,7108.
A pequena diferença entre as médias dos dois testes 4,39mg e 4,37mg (0,02 mg), mesmo mantendo-
se a constatação do desvio-padrão amostral, fez com que o teste que inicialmente sugeriria a destruição do
lote, no segundo teste sugere que não seja destruído.
Este fato revela que, os testes de significância devem ser conduzidos com muita parcimônia, pelo
analista.
As medições técnicas, nestes casos, devem ser conduzidas com muita precisão, pois em se tratando
de peças, lotes de remédios, produtos químicos, utilizados em processos industriais de precisão, ou qualquer
outro tipo de medição, que exija precisão na terceira ou quarta casa decimal, produtos ou processos
poderiam ser rejeitados, gerando grandes prejuízos, para as partes envolvidas.
7.10 Testes Bilaterais para Médias Populacionais com desvio-padrão conhecido
Uma situação típica de aplicação dos testes bilaterais acontece quando da população pudermos
extrair, apenas, a informação sobre a variância da amostra, e com n conhecido tivermos somente a média e
a afirmação a ser testada não tiver nenhum embasamento empírico.
Outras situações de aplicação são aquelas em que haja discrepância, acentuada, da média obtida
em amostragens sucessivas.
Exemplo resolvido
5-) Uma empresa de alimentos sabe que o desvio-padrão populacional, na adição de certa
vitamina, a um tipo de suco é 45 unidades p/litro. Uma amostra aleatória de 100 litros forneceu uma média
de 127,3 unidades/litro. Será que, a partir destas informações, podemos afirmar que a média de adição de
vitamina é menor que 138 unidades/litro, nível máximo aceitável para essa vitamina, se considerarmos o
nível de significância de 5%?
Note o leitor que, não temos certeza se a média é maior ou menor que 138 unidades/litro. Desta
forma temos que supor que ela é “diferente” de 138 unidades/litro. Portanto, o teste é do tipo bilateral.
Hipótese inicial a ser testada: Ho : média = 138 unidades litro
Hipótese alternativa: H1 : média < ou > que 138 unidades/litro
96,1475,0
2
%95
2
1 ZZZ
Variância Populacional σ2 Amostra n
Estatística de
teste
Se o valor de σ é conhecido
Use o estimador σ
n > 30 elementos
n
x
Z
+ 1,96
%5,2 %5,2
- 1,96
Figura 7.11
Cálculo do Valor de Teste:
3778,2
100
45
1383,1270
n
x
Z teste
103
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
103
Como o valor crítico de teste – 2,3778 é menor que –1,96 conclui-se que ele está dentro da área
de rejeição da Hipótese inicial Ho. Portanto, a Hipótese inicial deverá ser rejeitada, ou seja, não se pode
afirmar que a média é 138 unidades/litro, mas podemos afirmar que, a média, é menor que esse valor e,
portanto, esta dentro das especificações do padrão de qualidade da empresa e dos órgãos públicos
responsáveis.
EXERCÍCIOS PROPOSTOS
1) Uma empresa afirma que fabrica peças, cujo diâmetro se distribui normalmente, com valor μ = 14 mm e
desvio padrão σ = 0,15mm. Uma amostra de 30 peças foi levantada e apresentou um diâmetro médio de
14,05mm. Faça um teste para verificar se a afirmação é verdadeira, ao nível de significância de 5%.
2) Um gerente de banco afirma que em sua agência, o tempo de espera média na fila para os caixas é de 10
minutos. Uma amostra de 20 clientes revelou média de 12 minutos com desvio-padrão de 3 minutos. Pede-se
testar a afirmação do gerente ao nível de significância de 5%.
3) O administrador de um Hospital afirma que, numa das alas de patologia, o tempo médio de utilização dos
quartos é de 8 dias. Uma amostra de 15 quartos levantada revela uma média de utilização de 7 dias, com
desvio-padrão de 2 dias. Pede-se testar a afirmação do Administrador ao nível de 5% de significância.
4) Um gerente de marketing afirma que seu produto alcançou, no mercado, uma média de venda entre 46 e
47 unidades por ponto de venda. Uma amostra de 30 dias num ponto de venda revelou uma média de
vendas de 46,7 unidades com desvio padrão de 3, 8 unidades. Pede-se testar, ao nível de 5% de
significância, a afirmação do gerente.
5) Levantou-se uma amostra de coeficientes de rentabilidade do Patrimônio Líquido de 10 empresas em um
setor de atividade econômica, obtendo-se as seguintes observações:
xi (%) 100 130 150 160
Fi 2 3 4 1
Testar a afirmação, ao nível de significância de 5%, feita pelo economista, chefe do banco Fa-ahal-
lydo, de que o setor opera com rentabilidade média de 145%.
6) De uma população, com comportamento Normal, retira-se a amostra {12, 16, 15, 14, 17, 10, 9, 15, 13, 16}.
Testar a afirmação de que a verdadeira média populacional seja 15, ao nível de significância de 5%.
7) Um analista financeiro afirma que sua carteira de investimento possui TIR de 21%. Uma amostra dos
últimos 40 resultados revelou a seguinte tabela de probabilidade de ocorrências:
xi (TIR) 18 20 22 24
fri 0,2 0,4 0,25 0,15
Testar a afirmação do analista, ao nível de significância de 5%.
8) O salário médio dos trabalhadores da construção civil, de um estado brasileiro, segundo afirma a
associação de classe, é 4 salários mínimos. Uma amostra de 25 trabalhadores de uma empresa apresentou
média de 4,5 salários mínimos e desvio-padrão de 1,2. Testar a afirmação do representante da categoria, de
que a empresa não ofereceu aumento aos seus trabalhadores ao nível de significância de 5%.
9) Uma amostra de 12 elementos, retirados de uma população normal, representou média 100 e desvio-
padrão de 5. Testar, ao nível de significância de 5%, a hipótese de que a verdadeira média populacional seja
102.
10) De uma população de lançamentos de ingressos de caixa, com média 59 e desvio-padrão 3, retira-se
uma amostra de 40 lançamentos, que apresentaram média de 60. Testar, ao nível de significância de 5%, se
realmente a média populacional é a declarada.
104
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
104
CAPÍTULO 8
ANÁLISE DA VARIÂNCIA - ANOVA
Introdução
O teste ANOVA é, também, considerado como um teste de significância estatística. Esta ferramenta
serve para testar se duas amostras tem origem em populações com médias diferentes. Em termos práticos,
deve-se utilizar esta ferramenta quando se quer comparar a média entre duas amostras.
Por exemplo, no campo médico uma pesquisa que envolva tempo de reação a um dado
medicamento, em dois grupos de pacientes, com moléstias similares. Outro exemplo, poderia ser, a
comparação de produtividade entre dois tipos de grãos cultiváveis, submetidos a dois tipos diferentes de
adubos.
Uma pergunta pode ser feita pelo leitor, a respeito do nome desta ferramenta, “Por que análise da
variância?” que, aparentemente, nada tem a ver com comparação entre médias de duas amostras.
Acontece que para se comparar o afastamentoentre médias, recorre-se ao conceito de desvio-
padrão de cada amostra, o qual, elevado ao quadrado resulta na Variância. Então, a análise desta estatística
resulta na verificação da diferença entre as medidas das amostras.
De maneira geral, se pensarmos em duas amostras de variáveis de um mesmo evento, e tendo como
objetivo discriminar-se por suas características, quais variáveis pertençam a qual grupo, deve-se recorrer a
análise multivariada discriminante, mas a sobreposição das variâncias dos dois grupos pode indicar que o
problema de discriminação terá maior ou menor grau de dificuldade para a análise.
Em disciplinas como Marketing, por exemplo, a necessidade de se comparar médias de desempenho
entre equipes (produção de vendas), incentivos, comissões pagas ou produtividade em geral, sob uma ou
mais condições de variações mercadológicas (comissões, preço, produção) é fundamental no processo
administrativo da empresa.
Nos capítulos sobre intervalos de Confiança e Testes de Hipóteses pudemos estudar; qual o
procedimento para comparar duas amostras, e inferir quais seriam as médias ou proporções das respectivas
características, estudadas nas suas populações de origem.
A análise da variância é uma ferramenta semelhante, porém, mais abrangente, já que pode comparar
mais de duas amostras e testar se há ou não igualdade entre as médias das populações, de onde essas
amostras foram retiradas. O propósito desta ferramenta é testar, se existe diferença significativa entre as
médias populacionais, de onde as amostras foram retiradas.
Esta ferramenta consegue comparar médias de mais de duas populações, por meio de suas
amostras, tomando por base apenas uma variável dependente (ANOVA) ou mais de uma variável
dependente (MANOVA).
8.1 Teste T para amostras dependentes (Emparelhadas)
Exemplificamos esta teoria com a pesquisa efetuada por Dale et alii sobre o efeito da Endorfina-Beta
(substância fabricada pelo organismo humano e que proporciona sensação de bem estar) em 11 atletas,
antes e depois de terem corrido a meia maratona. A suposição dos pesquisadores era de que o maratonista
continuava a correr mesmo sentindo dores e desconforto devido ao efeito da substância produzia pelo
organismo.
O problema de pesquisa envolve a comprovação se os níveis de Endorfina-Beta aumentavam ou não
durante a corrida. A hipótese inicial, de igualdade das médias das duas amostras (antes e depois), aponta
para a suspeita do analista de que o nível desta substância sanguínea não se alteraria com a corrida da meia
maratona. Desta forma, o fato do maratonista continuar correndo seria devido à outra causa.
Se isto fosse verdade, a média das diferenças das medidas antes e depois deveriam ser zero.
Pressupostos para a aplicação
A distribuição das diferenças das medidas é Normal, ou a amostra ser grande o suficiente, para
nos apoiarmos no Teorema Central do Limite.
Neste caso, a amostra era constituída de 11 elementos, então, devemos conduzir um teste de
normalidade da amostra.
8.2 Testando a correlação entre as variáveis
105
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
105
8.2.1 Tabelas de contingências
As tabelas de contingências são as formas mais gerais das tabelas de frequências, vistas
anteriormente, só que para casos onde existem várias alternativas de classificação, para as duas variáveis
estudadas.
Assim, suponha-se uma tabela de duas variáveis (X) Classe Social e (Y) Motivação, em compras,
que podem ser subdivididas em diversas categorias conforme tabela abaixo.
As frequências observadas poderão, assim, ser representadas por qualquer posição genérica, dentro
da tabela identificada por ni,j, onde as linhas de referência serão identificadas por “i”, e as colunas por “j”.
Desta maneira, a frequência esperada de qualquer célula poderá ser calculada e identificada como:
n
injn
e ji
).().(
,
Esta forma de cálculo já foi representada no exemplo do item anterior, e agora, está sendo
apresentada de maneira genérica.
Visando agora a apresentação do método do 2 (qui-quadrado), apresentaremos um exemplo,
voltado a um aspecto mercadológico.
Estudo de caso
1-) Uma empresa, fabricante de eletrodomésticos, deseja verificar a relação existente entre a cor de
seus produtos e o tipo de superfície externa destes. A empresa quer verificar se algum tipo de superfície
associado à cor do produto é responsável pela escolha do comprador.
Para tanto, colhe uma amostra das vendas efetuadas e verifica as frequências, conforme
demonstrado a seguir:
Frequências Verificadas 1) Qual sua cor favorita no aparelho?
Vermelho Azul Verde Total de
linhas
2) Qual a
superfície do
material de
sua
preferência?
Lisa (Freq.
verificada)
17 33 19 69
Rugosa (freq.
verificada)
30 15 16 61
Bolhas (freq..
verificada)
14 15 26 55
Total da Coluna 61 63 61 185
Cálculos das frequências esperadas
Frequências Verificadas 1) Qual sua cor favorita no aparelho?
Vermelho Azul Verde Total de
linhas
2) Qual a
superfície do
material de
sua
preferência?
Lisa (Freq.
verificada)
Freq. Esperada
17
22,751
33
23,497
19
22,751
69
Rugosa(freq.verificad
a)
Freq. Esperada
30
20,114
15
20,773
16
20,114
61
Bolhas
(freq.verificada)
Freq. Esperada
14
18,135
15
18,730
26
18,135
55
Total da Coluna 61 63 61 185
106
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
106
Exemplificando: Lembrando a fórmula genérica
n
injn
e ji
).()(
,
751,22
185
)69()61(
1,1
e
114,20
185
)61()61(
1,2
e
135,18
185
)55()61(
1,3
e
, e assim por adiante
82.2 A estatística Qui-quadrado ( 2)
Existe, entretanto, a possibilidade de utilização do teste 2 qui-quadrado, que em pesquisa
mercadológica, é uma das ferramentas analíticas de “base”.
O teste 2 qui-quadrado apresenta evidências de relação entre as variáveis estudadas, como
veremos mais adiante.
Estima-se que em Marketing, análises relacionadas com uma variável, apenas, somadas aquelas
que envolvem tabelas de tabulação cruzada, representam 90% de todos os tipos de análises nesse campo.
As tabelas de tabulação cruzada são também conhecidas como Tabelas de Contingência, são
utilizadas para analisar variáveis provenientes de escalas nominais de medidas, isto é, número e
porcentagens de respondentes a determinado quesito e suas frequências que são normalmente descritos,
nas células das tabelas de análise.
As tabelas de tabulação cruzada fornecem um grande número de informações a respeito do
fenômeno mercadológico que tentamos solucionar, evidenciando as relações entre as variáveis em análise.
As tabelas de tabulação cruzada tem sua própria linguagem: colunas, linhas, valores esperados de
frequências e valor (qui-quadrado).
Para elucidar melhor a utilização desta importante ferramenta, simulou-se um problema simples de
marketing, descrito a seguir.
Tabulação Cruzada 1) Qual sua cor favorita no aparelho?
Vermelho Azul Verde Total de linhas
2) Qual a
superfície do
material de
sua
preferência?
Lisa (Freq. verificada)
Freq. Esperada
2
17
22,751
1,454
33
23,497
3,843
19
22,751
0,618
69
Rugosa(freq.verificada)
Freq. Esperada
2
30
20,114
4,860
15
20,773
1,604
16
20,114
0,842
61
Bolhas (freq.verificada)
Freq. Esperada
2
14
18,135
0,943
15
18,730
0,743
26
18,135
3,411
55
Total da Coluna 61 63 61 185
A estatística 2 (qui-quadrado) é calculada por meio da fórmula:
ij
ijij
e
en
2
2
Ou seja, a estatística 2 (qui-quadrado) é a somatória do quadrado das diferenças entre a
frequência verificada e a esperada
2)( ijij en dividido pela frequência esperada ije .
Então cada resultado parcial da estatística
2 (qui-quadrado) será calculado por:
ij
ijij
e
en 2)(
, ou seja, 454,1
751,22
)751,2217(22
1,1
860,4
114,20
)114,2030( 22
1,2
943,0
135,18
)135,1814( 22
1,3
, e assim por diante.
A estatística 2 (qui-quadrado) também pode ser obtida de forma tabular, com o Excel:
107
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
107
verificadaij fn esperadaij fe esperadaverificada ff
2
esperadaverificada ff
esperada
esperadaverificada
f
ff
2
17 22,751 - 5,751 33,074001 1,453738341
33 23,497 9,503 90,307009 3,843342086
19 22,751 - 3,751 14,070001 0,618434398
30 20,114 9,886 97,732996 4,858953764
15 20,773 - 5,773 33,327529 1,604367641
16 20,114 - 4,114 16,924996 0,841453515
14 18,135 - 4,135 17,098225 0,942830163
15 18,73 - 3,73 13,9129 0,742813668
26 18,135 7,865 61,858225 3,410985663
= 18,31691924
O valor encontrado, 18,3169, ou com aproximação para 18,317.
Para testar se a hipótese inicial H0, é válida, ou seja, de que as variáveis não são relacionadas,
deve-se utilizar a distribuição de probabilidade do qui-quadrado. Valores muito altos de 2 devem ser
interpretados como a ocorrência de uma grande discrepância, entre as frequências verificadas e as
esperadas.
Sendo assim, deve-se rejeitar a hipótese inicial de que as variáveis não são relacionadas, se o
valor obtido na tabela de contingência exceder o valor crítico de 2 , a certo nível de significância (escolhido
pelo analista), por exemplo, 5%, ou 2%, que estabelecem um valor crítico de 2 e pode ser lido na tabela do
qui-quadrado.
8.3 Graus de liberdade e valor crítico de
2
Numa tabela 3 x 3 como a anterior considerada, os graus de liberdade (gl) dependem do número de
colunas e linhas.
gl = (X – 1) x (Y – 1) = (3 – 1) x ( 3 – 1) = 4 graus de liberdade, no nosso exemplo.
Se fosse numa tabela 5 x 4 o cálculo do número de graus de liberdade seria; ( 5 – 1) x ( 4 – 1) = 4 x 3
= 12 graus de liberdade.
Para testar a hipótese inicial H0, de que as variáveis não tenham relação entre si, devemos comparar
o valor de teste do qui-quadrado encontrado com o valor crítico.
Como já falamos, valores muito altos de 2 indicam uma altíssima discrepância entre as frequências
observadas e aquelas esperadas. Nestes casos, devemos rejeitar a hipótese inicial, de que as variáveis não
estejam relacionadas, pois, certamente o valor de teste de qui-quadrado excederá o valor crítico da tabela.
Em outras palavras, se assim acontecer, deve-se supor que exista uma relação importante, entre
as variáveis estudadas.
Figura 8.5
108
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
108
Em nosso caso, o observador, tendo 4 graus de liberdade, optou por um nível de significância (risco)
de 2%, obtemos o valor crítico de 11,668 e sendo o valor
2 de teste obtido (18,317), maior que o valor
crítico, deve-se REJEITAR a Hipótese inicial, de que as variáveis cor e tipo de superfície não sejam
relacionadas.
Ao contrário, a probabilidade de independência (que as variáveis não estejam relacionadas) das duas
variáveis, neste caso, é de apenas 0,1069%, o que mais uma vez sugere, que as variáveis têm relação
importante.
Esta é a probabilidade de que as duas variáveis, neste exemplo, não estejam relacionadas, ou seja,
nenhuma possibilidade de que as variáveis, cor e tipo de superfície, não tenham nenhuma relação entre si e
que, portanto, não sejam elas, as responsáveis por induzir o cliente à compra do produto.
Mas, se por outro lado, as frequências verificadas tivessem sido como no quadro abaixo, note que as
únicas frequências, Lisa com vermelho para 28 e Bolhas com verde para 16. Desta forma, veríamos:
Frequência Verificadas 1) Qual sua cor favorita no aparelho?
Vermelho Azul Verde Total de linhas
2) Qual a
superfície do
material de
sua
preferência?
Lisa (Freq.
verificada)
Freq. Esperada
28
33
19 80
Rugosa(freq.verifica
da)
Freq. Esperada
30 15
16
61
Bolhas
(freq.verificada)
Freq. Esperada
14
15
16
45
Total da Coluna 72 63 51 186
Obteríamos valores totalmente diferentes, como demonstrado a seguir.
Cálculo das frequências esperadas.
Tabulação Cruzada 1) Qual sua cor favorita no aparelho?
Vermelho Azul Verde Total de linhas
2) Qual a
superfície do
material de
sua
preferência?
Lisa (Freq.
verificada)
Freq. Esperada
28
30,968
33
27,097
19
21,935
80
Rugosa(freq.verifica
da)
Freq. Esperada
30
23,613
15
20,661
16
16,726
61
Bolhas
(freq.verificada)
Freq. Esperada
14
17,419
15
15,242
16
12,339
45
Total da Coluna 72 63 51 186
109
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
109
Exemplificando: Lembrando a fórmula genérica
n
nijn
e ji
)().(
,
968,30
186
)8072(
1,1
e ; 613,23
186
)6172(
1,2
e , 419,17
186
)45()72(
1,3
e , etc.
A Estatística qui-quadrado seria, então:
Tabulação Cruzada 1) Qual sua cor favorita no aparelho?
Vermelho Azul Verde Total de linhas
2) Qual a
superfície do
material de
sua
preferência?
Lisa (Freq.
verificada)
Freq. Esperada
2 (qui-quadrado)
28
30,968
0,284
33
27,097
1,286
19
21,935
0,393
80
Rugosa(freq.verifica
da)
Freq. Esperada
2 (qui-quadrado)
30
23,613
1,728
15
20,661
1,551
16
16,726
0,031
61
Bolhas
(freq.verificada)
Freq. Esperada
2 (qui-quadrado)
14
17,419
0,671
15
15,242
0,004
16
12,339
1,086
45
Total da Coluna 72 63 51 186
A estatística
2 (qui-quadrado) é calculada através da fórmula:
ij
ijij
e
en
2
2
Ou seja, a estatística
2 (qui-quadrado) é a somatória do quadrado das diferenças entre a
frequência verificada (nij – ej) 2 ,dividido pela frequência esperada ije :
Então, cada resultado parcial da estatística
2 (qui-quadrado) será calculado por:
ij
ijij
e
en 2)(
, ou seja, 2844,0
968,30
)968,3028( 22
1,1
728,1
613,23
)613,2330( 22
1,2
671,0
419,17
)419,1714( 22
1,3
, e assim por diante.
A Estatística
2 (qui-quadrado) obtida de forma tabular:
verificadaij fn esperadaij fe esperadaverificada ff 2esperadaverificada ff
esperada
esperadaverificada
f
ff
2
28 30,968 - 2,968 8,809024 0,284455696
33 27,097 5,903 34,845409 1,285950806
19 21,935 - 2,935 8,614225 0,392715979
30 23,613 6,387 40,793769 1,727597891
15 20,661 - 5,661 32,046921 1,551082765
16 16,726 - 0,726 0,527076 0,031512376
14 17,419 - 3,419 11,689561 0,671081061
15 14,242 - 0,242 0,058564 0,003842278
16 12,339 3,661 13,402921 1,086224248
= 7,0344631
Neste caso, o observador continua com 4 graus de liberdade, sendo que, se continuar a optar por um
nível de significância de 2%, obterá o valor de 11,668. Assim sendo, o valor
2 de teste obtido é MENOR
(7,034) que o valor crítico, logo deve-se ACEITAR a Hipótese inicial de que as variáveis cor e tipo de
superfície não sejam relacionadas, e que, portanto, com os números obtidos na pesquisa, estas duas
variáveis não condicionam a escolha e não induzem o cliente a compra.
110
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
110
Já que o valor de teste é menor que o valor crítico e que se aceitou a hipótese inicial de que as
varáveis não estão relacionadas, seguindo-se os mesmos passos, obtêm-se que esta probabilidade será
de 0,134 (13,40%).
Alerta-se que alguns analistas podem achar esta probabilidade pequena demais para se aceitar o
não-relacionamento entre as variáveis, cor e tipo de superfície.
A experiência mostra que devemos, então, solicitar uma nova amostragem, até que evidências
empíricas indiquem mais confiança, para o grau de relacionamento entre as variáveis estudadas.
Exercícios propostos
1) Um instituto de pesquisa foi incumbido de verificar se o nível da audiência de um de seus programaspossui dependência com as regiões do município. Os resultados estão no quadro abaixo. Faça o teste com
5% de significância e emita seu parecer.
Freq.
Observada
Audiência Total
Linha Sempre Às vezes Nunca
R
e
g
iã
o
Norte 130 75 36
Freq.
Esperada
2
célula da
Sudeste 106 62 28
Freq.
Esperada
2
célula da
Sul 85 42 14
Freq.
Esperada
2
célula da
Total Coluna
2) Um instituto de pesquisa foi encarregado, pelo governo federal, de estudar a relação existente entre nível
salarial e grau de instrução, em quatro regiões brasileiras distintas. Os resultados foram tabulados abaixo.
Pede-se testar todos ao nível de 5%, para verificar se existe independência entre essas variáveis nas regiões
designadas.
Região Norte
Freq.
Observada
Salário Total
Linha Alto Médio Baixo
G
ra
u
I
n
s
tr
u
ç
ã
o
Superior 30 25 6
Freq.
Esperada
2
célula da
2º Grau 16 22 8
Freq.
Esperada
2
célula da
1º Grau 15 12 14
Freq.
Esperada
2
célula da
Total Coluna
111
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
111
Região Sul
Freq. Observada
Salário Total
Linha Alto Médio Baixo
G
ra
u
I
n
s
tr
u
ç
ã
o
Superior 28 17 10
Freq.
Esperada
2
célula da
2º Grau 15 19 22
Freq.
Esperada
2
célula da
1º Grau 6 12 39
Freq.
Esperada
2
célula da
Total Coluna
Região Sudeste
Freq.
Observada
Salário Total
Linha Alto Médio Baixo
G
ra
u
I
n
s
tr
u
ç
ã
o
Superior 19 17 12
Freq.
Esperada
2
célula da
2º Grau 15 9 16
Freq.
Esperada
2
célula da
1º Grau 8 15 18
Freq.
Esperada
2
célula da
Total Coluna
112
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
112
Região Nordeste
Freq.
Observada
Salário Total
Linha Alto Médio Baixo
G
ra
u
I
n
s
tr
u
ç
ã
o
Superior 19 19 12
Freq.
Esperada
2
célula da
2º Grau 11 9 13
Freq.
Esperada
2
célula da
1º Grau 8 16 18
Freq.
Esperada
2
célula da
Total Coluna
3) Verifique, por meio da estatística qui-quadrado com 5% de significância, se as variáveis, anos de
estudo e satisfação com o trabalho, estão relacionadas.
Freq.
Observada
Satisfação trabalho Total
Linha Alta Média Baixa
A
n
o
s
d
e
E
s
tu
d
o
Superior 25 12 6
Freq.
Esperada
2
célula da
2º Grau 16 22 8
Freq.
Esperada
2
célula da
1º Grau 5 7 30
Freq.
Esperada
2
célula da
Total Coluna
113
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
113
4) Verifique, por meio da estatística qui-quadrado com 5% de significância, se as variáveis, anos de estudo e
número de filhos, estão relacionadas.
Freq.
Observada
Número de filhos
Total
Linha
Mais
que 4
3 ou 4 1 ou 2
A
n
o
s
d
e
E
s
tu
d
o
Superior 6 9 16
Freq.
Esperada
2
célula da
2º Grau 19 22 29
Freq.
Esperada
2
célula da
1º Grau 30 18 6
Freq.
Esperada
2
célula da
Total Coluna
5) Verifique, por meio da estatística qui-quadrado, se as variáveis, anos de estudo e satisfação no
casamento, estão relacionadas.
Freq.
Observada
Satisfação no
Casamento
Total
Linha
Alta Média Baixa
A
n
o
s
d
e
E
s
tu
d
o
Superior 25 8 3
Freq.
Esperada
2
célula da
2º Grau 15 14 12
Freq.
Esperada
2
célula da
1º Grau 10 18 25
Freq.
Esperada
2
célula da
Total Coluna
114
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
114
CAPÍTULO 9
CORRELAÇÃO
Considerações iniciais
Neste capítulo estudaremos o significado de Correlação, Variância e Covariância.
Existem variáveis que se movem a partir de estímulos econômicos, financeiros, etc..., provocados em
outras variáveis.
Em economia encontramos inúmeras situações, por exemplo, o caso de bens substitutos e dos bens
complementares que denotam entre si, relações inversas para, os primeiros e para os segundos.
Fenômenos financeiros também necessitam, largamente, de bases estatísticas para cálculo de risco,
para determinar a probabilidade do capital aplicado não retornar e, também, para orçamento de capital.
A correlação e a covariância subsidiam o cálculo do Beta (risco de uma ação ou carteira) de
investimentos, daí uma das necessidades desta conceituação.
Objetivos
Conceituar a diferença entre Correlação e Covariância, mostrando a importância da análise das
relações, entre grupos de variáveis.
Mostrar de que maneira podem ser utilizadas para análise de discrepâncias de rendimentos
individuais de ativos financeiros, em relação à carteira de que fazem parte.
Calcular o Índice de Correlação, com a ajuda da Covariância, entre os retornos de duas séries
de ativos financeiros.
9.1 Correlação positiva
O estudo do comportamento das variáveis poderá revelar a existência de uma correlação positiva.
Sendo o resultado da aplicação da fórmula de Pearson maior que zero, a correlação será dita
positiva, e o será chamada de “perfeitamente positiva” quando o resultado da aplicação da fórmula de
Pearson, for igual a 1.
Deve-se entender que a correlação positiva significa que uma variável se move no mesmo sentido da
outra, não necessariamente, porém, na mesma proporção.
Por exemplo, suponha que um aumento no nível pluviométrico de uma determinada região tenha
ocasionado um aumento da produção de cereais, e, com isto, um aumento na oferta de empregos. Pode-se
dizer que existe uma correlação positiva entre o aumento da oferta de empregos devido ao aumento da
produção.
A correlação estudada, neste capítulo, será entre duas variáveis por vez. Existem, porém, a
possibilidade de calcularmos a correlação múltipla, entre mais de duas variáveis.
A seguir, ilustra-se um exemplo gráfico de correlação positiva entre duas variáveis.
0
2
4
6
8
10
12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Y
X
Correlação perfeitamente Positiva
Variável 1
Variável 2
Figura 8.1 - Representação gráfica da Correlação Positiva
9.2 Correlação Negativa
Por outro lado, o estudo do comportamento das variáveis poderá revelar a existência de uma
correlação negativa.
115
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
115
Sendo o resultado da aplicação da fórmula de Pearson menor que zero, a correlação será dita
negativa, e o será chamada de “perfeitamente negativa” quando o resultado da aplicação da fórmula de
Pearson, for igual a –1.
Deve-se entender que, a correlação negativa significa que uma variável se move em sentido
contrário da outra, mas como a correlação positiva, não necessariamente, na mesma proporção.
Por exemplo, suponha a existência de duas variáveis, Preço e Demanda, por um produto alimentício
de necessidade secundária e de fácil substituição como, por exemplo, a carne bovina.
É obvio que, um aumento de preços ao consumidor acarretará diminuição na outra variável, o
consumo, ou seja, um movimento no sentido inverso.
O mesmo pode-se dizer em relação a outras variáveis como, por exemplo, o aumento da cotação do
dólar e as viagens internacionais.
Figura 9.2 - Representação gráfica da Correlação Negativa.
9.3 Correlação Nula
Pode ocorrer que duas variáveis não se modifiquem entre si. Por exemplo, certos produtos
comportam-se como inelásticos quanto à variável preço como o sal e a insulina.
Um aumento no preço da insulina não fará diminuir o seu consumo, pois, trata-se de um produtovital
para aqueles que o necessitam. Por outro lado uma diminuição no preço do sal não fará aumentar o
consumo deste, pois, nenhuma pessoa come apenas sal.
Desta forma, o aumento de uma variável afeta pouco ou quase nada o comportamento da outra e,
portanto, a resultante reta de tendência tende a ser paralela ao eixo das abscissas (X).
Figura 9.3 - Representação gráfica da correlação Nula
9.4 Medindo o grau de Correlação entre duas variáveis.
Como já mencionado, o estudo da correlação tem por finalidade expressar em um único número, o
grau da relação existente entre duas variáveis.
Karl Pearson contribuiu para a estatística com diversos estudos matemáticos dos quais destacamos
o desvio-padrão, os testes de hipóteses, os testes de qui-quadrado e os testes de erros de decisão. Em
1896, aproximadamente, determinou o algoritmo que quantifica o grau de correlação simples entre duas
variáveis.
9.5 Coeficiente de Correlação de Pearson.
A fórmula determinante do grau de correlação é a seguinte:
n
Y
Y
n
X
X
n
YX
YX
r yx
2
2
2
2
,
Onde:
n número de variáveis observadas
116
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
116
)( YX somatória dos resultados das multiplicações dos valores da variável X pela respectiva
variável Y.
YX soma dos valores da variável X multiplicado pela soma dos valores da variável Y.
2X
somatória dos quadrados dos valores de cada variável X.
2
X quadrado da somatória dos valores da variável X.
2Y somatória dos quadrados dos valores de cada variável Y.
2
Y quadrado da somatória dos valores da variável Y.
Pearson verificou ainda que, independentemente das variáveis estudadas, o grau de correlação,
denominado como, coeficiente de correlação, estará sempre contido entre dois valores:
11 , yxr
Desta maneira, se 1, yxr , dir-se-á que existe uma correlação perfeitamente negativa. De outra
forma se 1, yxr , dir-se-á que existe uma correlação perfeitamente positiva. Ainda, se 0, yxr , dir-se-á
que a correlação é perfeitamente nula, ou não existente.
Se 0,6 < r < 1 existe correlação significativa entre as variáveis.
Se 0,3 < r < 0,6 existe uma correlação fraca entre as variáveis
Se 0 < r < 0,3 não existe uma correlação entre as variáveis.
Exemplo resolvido
1-) Suponham-se duas variáveis. Uma X, que quantifica os Retornos totais em reais de uma carteira de
ações por pregão, e outra Y, que quantifica os retornos individuais de uma das ações desta carteira.
O objetivo é estudar se esta ação, individualmente, contribui de maneira positiva para o sucesso
desta carteira de ativos financeiros, pois, em alguns momentos, o investidor teve a impressão de que o
baixo rendimento da carteira, foi devido ao desempenho da ação Y.
Será que o investidor está certo ou equivocado?
Pregão Carteira X Ação Y yx 2x
2y
1 500 300 150 000 250 000 90 000
2 890 200 178 000 792 100 40 000
3 820 400 328 000 672 400 160 000
4 470 350 164 500 220 900 122 500
5 640 270 172 800 409 600 72 900
6 680 410 278 800 462 400 168 100
7 790 310 244 900 624 100 96 100
8 930 240 223 200 864 900 57 600
9 980 180 176 400 960 400 32 400
10 870 310 269 700 756 900 96 100
7570 2970 2 186 300 6 013 700 935 700
Tabela 9.1 - Rendimentos da Carteira X e da Ação individual Y.
57304900)7570( 22 X ; 8820900)2970( 2
2
Y
Assim, o cálculo do coeficiente de Correlação de Pearson será dado por:
50309,0
10
8820900
935700
10
57304900
6013700
10
29707570
2186300
,
yxr
Portanto, há uma correlação negativa, logo o investidor tem razão em afirmar que a ação influencia o
rendimentos da carteira de ações, de forma inversa.
O coeficiente de correlação é um dos componentes do cálculo do coeficiente Beta, que representa
a volatilidade de uma ação perante a carteira de referência no mercado.
117
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
117
9.6 Variância
A Variância, já definida como uma medida de dispersão, é o quadrado do desvio-padrão e mede a
amplitude (média do quadrado dos afastamentos) das variáveis observadas em relação à média da
distribuição de frequências, da qual esta faz parte.
Uma variável aleatória pode estar presente mais de uma vez no fenômeno analisado e, com isto,
aumentará a probabilidade de concentração (esperança matemática) desta variável em torno da média.
A Variância busca, portanto, explicar o “comportamento interno da distribuição de frequência” das
variáveis, em relação à média, da distribuição e considerando a “frequência relativa simples” de cada
variável.
A Variância é:
n
i
ii frxxxVAR
1
2)()( , onde ifr é a frequência relativa simples de cada
variável.
Exemplo resolvido
2-) Suponha a existência de uma máquina cujo intervalo, em horas, de operação, antes de cada
quebra, foi computado em 10 observações a seguir: {410, 390, 450, 510, 385, 410, 621, 305, 270, 390}.
Pede-se calcular, e interpretar, a Variância das variáveis apresentadas.
Tabela 9.2 - Cálculo da Variância do número de horas de operação.
Tempo
Operação
iX
if ii xf ifr xxi
2)( xxi frixxi
2)(
410 2 820 0,2 -4,1 16,81 3,362
390 2 780 0,2 -24,1 580,81 116,162
450 1 450 0,1 35,9 1 288,81 128,881
510 1 510 0,1 95,9 9 196,81 919,681
385 1 385 0,1 -29,1 846,81 84,681
621 1 621 0,1 206,9 42 807,61 4 280,761
305 1 305 0,1 -109,1 11 902,81 1 190,281
270 1 270 0,1 -144,1 20 764,81 2 076,481
10 4 141 1 87 405,28 8 800,29
Chama-se à atenção para os seguintes conceitos:
Cálculo da média aritmética 10,414
10
4141
i
ii
f
xf
A Esperança Matemática, de cada variável, é sempre igual à frequência relativa simples da
variável, multiplicada pelo número de vezes que cada observação aparece; no nosso exemplo,
as variáveis 410 e 390 aparecem 2 vezes cada, portanto, tem probabilidade (esperança
matemática) de 20% (0,20), todas as demais, neste exemplo, tem probabilidade 10% (0,10).
A coluna rii fxx
22 , nos dá o valor da Variância Populacional, que é igual a 8
800,29 horas2 (horas ao quadrado), que é de difícil interpretação, pois representa a média dos
afastamentos ao quadrado de todas as variáveis, em relação à média aritmética. A variância
oferece, portanto, uma medida de dispersão, porém, de uso restrito.
9.7 Desvio-padrão
Em virtude de dificuldades de interpretação, da unidade expressa pela variável em análise, decorre a
definição de desvio-padrão, que é a raiz quadrada da variância e vice-versa a variância é o quadrado do
desvio-padrão.
No nosso exemplo o desvio-padrão populacional é:
81,9392,8800 Variância horas.
A interpretação, e seu sentido prático, fica mais fácil lançando-se mão do Teorema de Tchebycheff e
de Gauss, já vistos anteriormente: a máquina quebra em, média, a cada 414,1 horas de operação com um
desvio de +93,81 horas ou –93,81 horas. De outra forma, utilizando-se Gauss, admitindo-se a normalidade
das variáveis, pode-se dizer que 68% das vezes a máquina quebra entre 320,29 e 507,91 horas de
operação.
No nosso exemplo, as observações foram consideradas como sendo o total de observações, ou seja,
a população.
118
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
118
9.8 Covariância
A Covariância é decorrente da Variância, pois trata de estabelecer a correlação entre as médias de
duas distribuições de frequências estudadas.
Em palavras simples, é uma estatística que representa como uma distribuição de frequências “reage”
(co-variação) quando ocorrem mudanças na outra distribuição, e para isto, toma por base as mudanças que
ocorrem nas respectivas médias das distribuições.
Sejam, portanto, duas populaçõescujas variáveis são:
),,.........,,,,( 54321 nXXXXXXX e ),,.........,,,,( 54321 nYYYYYYY , onde a fórmula da covariância
será expressa por:
n
i
iiYX YYXX
n
COV
1
,
1
Relembrando que, quando se tratar de duas séries constituídas por amostras de variáveis, deverá
ser utilizado:
n
i
iiYX YYXX
n
COV
1
,
1
1
Portanto, a covariância é a média dos produtos dos desvios entre duas séries de variáveis e suas
respectivas médias.
Para comprovarmos esta afirmação, voltaremos ao exemplo da Ação Y e da Carteira de Mercado X,
da tabela de cálculo do Coeficiente de Correlação.
Abaixo, na tabela 9.3, ilustram-se os dados para calcularmos a Correlação, por meio da Covariância.
Pregão Ação X Ação Y )( XX )( YY )()( YYXX
1 500 300 -257 3 -771
2 890 200 133 -97 -12 901
3 820 400 63 103 6 489
4 470 350 -287 53 -15 211
5 640 270 -117 -27 3 159
6 680 410 -77 113 -8 701
7 790 310 33 13 429
8 930 240 173 -57 -9 861
9 980 180 223 -117 -26 091
10 870 310 113 13 1 469
Somas 7 570 2 970 0 0 -61 990
Médias 757 297 COV -6 199
Tabela 9.3 - Elementos para o cálculo da Covariância
)( XX 2XXfi )( YY 2YYfi
-257 66 049 3 9
133 17 689 -97 9 409
63 3 969 103 10 609
-287 82 369 53 2 809
-117 13 689 -27 729
-77 5 929 113 12 769
33 1 089 13 169
173 29 929 -57 3 249
223 49 729 -117 13 689
113 12 769 13 169
283 210 53 610
x 168,2884 y 73,21885
119
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
119
Tabela 9.4 - Elementos para cálculo dos desvios-padrão populacionais
Aplicando-se a fórmula,
6199
0 50309
168 2884 73 21885
,
, ,
, ,
X Y
X Y
X Y
COV
r
, confirmamos o mesmo valor,
conforme cálculo anterior.
Acredita-se assim, que ficou esclarecida a natureza e os significados de Correlação, Variância e
Covariância como técnicas que procuram encontrar relações entre as variáveis analisadas.
Exercícios propostos
1) Visando identificar possíveis “gargalos” no fluxo financeiro, foi solicitada uma pesquisada sobre a possível
correlação, entre o ciclo financeiro e o ciclo operacional, durante seis meses. Cada ciclo foi medido em dias,
e as variáveis encontradas, foram tabuladas a seguir:
Operacional: 15,14,12,17,16,12,16,14
Financeiro: 26,35,29,30,27,28,31,32
Pede-se, calcular o coeficiente de correlação de Pearson e identificar se, a demora nas efetivações
financeiras, reside na influência do ciclo operacional sobre o financeiro, na empresa X.
2) A área operacional verificou, durante oportunidade, falta de matéria-prima para prosseguir a fabricação de
equipamentos, segundo o cronograma estabelecido inicialmente. Para identificar o problema, pediu-se um
levantamento da duração do processo de fabricação até o produto estar acabado, e da demora entre o
pedido de matéria-prima e a chegada desta. As variáveis foram tabuladas abaixo:
Produção (dias): 32, 45, 53, 27, 29, 31, 28, 45, 47, 48
Chegada matéria-prima (dias): 37, 35, 39, 39, 43, 45, 40, 42, 44, 45
Pede-se ,calcular o coeficiente de correlação de Pearson para verificar a possibilidade de ajuste nos
prazos anteriores. Emitir um relatório à diretoria com recomendações.
3) Certa empresa, estudando a variação de demanda de seu produto em diversos pontos de venda, em
relação à variação de preço de venda, obteve a tabela.
PREÇO (X) DEMANDA (Y) X.Y X 2 Y 2
3,80 350
4,20 325
5,00 297
5,60 270
5,90 256
6,30 246
7,00 238
8,00 223
9,50 215
11,00 208
= = = = =
Determine o coeficiente de correlação, e indique se há correlação entre as variáveis que
indique alguma influência.
4) Certa empresa, estudando a variação de demanda de seu produto, em relação à variação de preço de
venda, obteve a tabela.
PREÇO (x) DEMANDA (y) XY X 2 Y 2
46,00 121
28,00 118
28,0 95
39,00 109
46,00 95
48,00 100
59,00 81
70,00 68
70,00 88
74,00 76
= = = = =
120
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
120
a) Determine o coeficiente de correlação de Pearson.
5) Calcule o coeficiente de correlação das quantidades de produtos similares que são vendidos em
determinados Supermercados.
X Y X.Y x 2 Y 2
4 12
6 10
8 8
10 12
12 14
6) Feito um levantamento sobre o número de produtos, vendidos em 7 unidades de venda, em uma
feira, para verificar a projeção do produto B em função do produto A, obteve-se a tabela:
PROD. A PROD. B X.Y X 2 Y 2
18 10
30 23
42 33
62 60
73 91
97 98
120 159
Calcular o coeficiente de correlação.
7) Utilizando-se dos dados do exercício 1, calcule a covariância entre as duas médias amostrais.
8) Calcular o coeficiente de correlação do exercício 2 por meio do coeficiente de covariância entre as
amostras e os respectivos desvios-padrão.
121
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
121
CAPÍTULO 10
REGRESSÃO
Considerações iniciais
Esta teoria é a base do que se chama comumente de métodos de projeção.
O nome Regressão pode parecer a princípio o inverso, mas acontece que, para que se possa
equacionar o comportamento de pares de variáveis num plano cartesiano, é necessário regredi-los para se
estabelecer a equação desse comportamento.
Sistemas integrados como o ERP e o SAP mantem, em seus módulos de projeção de vendas e
custos, esta metodologia no seu estado mais básico (a linear).
Neste capítulo, estudaremos tal teoria, de maneira univariada e bivariada, como por exemplo, um lote
de ações da mesma empresa em relação ao rendimento da carteira de ações da qual esta faz parte, para
que o estudante enfoque, de forma crítica, a relação existente entre variáveis em estudo.
Na teoria de Regressão simples estudar-se-ão três tipos: a Linear, a Quadrática e a Exponencial,
propiciando bases teóricas, para o estudo do comportamento passado das variáveis estudadas (custos,
vendas, comissões, etc...) de forma bivariada, visando a previsão deste mesmo comportamento no futuro
próximo, e com isto, exercitar a correta estimativa de vendas e orçamentos de capital, fatores muito
importantes, dentro da administração financeira.
Objetivos
Mostrar, de forma prática, como as técnicas de Regressão podem ajudar na previsão de
vendas, definição e acompanhamento das contas de orçamentos das empresas.
Exemplificar como a técnica de Regressão associa uma função matemática com a série de
variáveis estudadas.
Explicar como a Regressão verifica o comportamento passado e projeta aproximações
futuras das variáveis estudadas, por meio do método dos mínimos quadrados.
10.1 Regressão – representação gráfica.
Suponha o leitor dois conjuntos de variáveis, cujo gráfico de dispersão é representado a seguir:
Figura 10.1- Representação gráfica de duas variáveis dependentes.
Para cada valor de Custo, variável X (eixo das abscissas), corresponde um valor de Venda, variável
Y (eixo das ordenadas):
).,(),.......,,(),,(),,( 332211 nn YXYXYXYX
Desta forma, pode-se determinar a equação que explicará o comportamento das variáveis
observadas. A esta equação, chamaremos de Curva de Ajustamento.
As curvas de ajustamento podem ser, Linear, Quadrática, Exponencial, Hiperbólica, Logarítmica,
entre outras.
Para o propósito deste curso, de estatística, mostrar-se-ão as três primeiras, por serem aquelas que
conseguem explicar a maioria dos fenômenos de natureza simples, e por isto, as mais utilizadas.
Com o auxílio do Excel, podemos adicionar a curva de tendência às variáveis do gráfico de dispersão
anterior. Para o caso em que os cálculos de regressão apontarem que o melhor ajuste seja o linear, o
aspecto gráfico seriao seguinte:
122
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
122
Figura 10.2 - Ajuste pela equação da Reta.
No caso em que, os cálculos de regressão apontar que o melhor ajuste seja o polinomial de segundo
grau (parábola), o aspecto seria o seguinte:
Figura 10.3 - Ajuste pela equação da Parábola
Por outro lado, no caso que os cálculos de regressão apontarem para o ajuste exponencial, o
aspecto será semelhante ao da reta, como apresenta na figura 10.4:
,
Figura 10.4- Ajuste pela equação Exponencial.
Note que, em todos os casos, as curvas de tendência obtidas com a ajuda do Excel, apontam para
uma tendência (correlação) negativa, ou seja, a medida que os custos tendem a aumentar, as vendas não
aumentam, ao contrário, tendem a diminuir.
Este fato, entretanto, não nos fornece ainda uma equação que descreva o comportamento das
variáveis estudadas, isso será visto a seguir.
Pode-se notar que qualquer método consegue traçar uma equação, para o comportamento das
variáveis, entretanto, fica claro que deve existir um método, empírico, para a escolha daquela equação que
melhor descreverá este comportamento.
A resposta vem do Método dos Mínimos Quadrados, estudado por Gauss e Legendre, entre outros.
10.2 Regressão Linear Simples
O estudo do Coeficiente de Correlação de Pearson revela, como já visto, o grau e associação entre
duas variáveis. Entretanto, o simples estudo do grau de associação, não permite que se determine uma
equação para o comportamento dessa relação.
0
5
10
15
20
25
30
0 2 4 6 8 10 12
V
e
n
d
a
s
Custos
Custos x Vendas
123
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
123
Em outras palavras, todo gráfico cartesiano, onde são relacionadas as abscissas e as ordenadas,
cada uma delas representadas por uma variável, tem matematicamente uma equação que explica essa
relação.
Uma delas será sempre uma variável dependente e a outra independente.
Por exemplo, ao estudarmos qual seria a equação que explique as variações entre os valores de
Custo de Mercadorias Vendidas a cada mês, a variável dependente será a variável temporal do mês, pois, o
CMV irá variar a cada mês, apurados os resultados do período.
Nada impede, porém, que outro estudo, por exemplo, entre o CMV e o valor da venda, deixe ao
pesquisador, a tarefa de fixar qual das duas componentes deverá ser a variável dependente ou
independente.
Esta teoria pode explicar o comportamento de uma variável e sua projeção no tempo futuro.
Quando a variável dependente é temporal, deve-se converte-la numa variável fictícia crescente.
Esta variável fictícia será relacionada com o número de observações n.
Quando n for ímpar, a variável temporal Mediana assume o valor zero, afastando-se de forma
unitária, negativamente e positivamente em 1 unidade. Neste exemplo n = 7.
Mês X
JAN -3
FEV -2
MAR -1
ABR 0
MAI 1
JUN 2
JUL 3
Tabela 10.1- Tratamento numérico para variável Temporal (n = ímpar)
Quando n for par as variáveis temporais Centrais assumem o valor –1 e 1, afastando-se de duas em
duas unidades, negativamente e positivamente. Neste exemplo n = 8.
Tabela 10.6 - Tratamento numérico para variável Temporal (n = par ).
Entretanto, quando a variável dependente não for temporal relacionam-se as duas variáveis,
normalmente, uma ao lado da outra.
Esta teoria foi estudada por Karl Pearson, que verificou ser possível descrever, por meio de
equações matemáticas, essas relações, baseando-se no comportamento passado, podendo, assim, estimar
o comportamento futuro dessas mesmas variáveis. Como veremos dentro deste capítulo, também é possível,
por meio desta teoria, calcular o coeficiente de Variação e o método dos mínimos quadrados que ajudam a
escolher qual a melhor equação de ajuste.
10.3 Variação Explicada
A Variação Explicada é o quadrado da diferença entre o Valor das Vendas Projetadas pela equação
de regressão (reta, parábola ou exponencial) e o Valor Médio das Vendas Y . 2' YY
Mês X
JAN -7
FEV -5
MAR -3
ABR -1
MAI 1
JUN 3
JUL 5
AGO 7
124
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
124
Figura 10.5 - Visualização gráfica da Variação Explicada
10.4 Variação Não-Explicada
A Variação Não Explicada é o quadrado da diferença entre o Valor atual das Vendas e o Valor das
Vendas Projetadas 'Y , pela equação de regressão. 2'YY
Figura 10.6- Visualização gráfica da Variação não-explicada.
É sempre bom notar que, a Variação explicada e a Não Explicada, podem ambas estarem abaixo ou
acima da linha de Vendas Médias. O conceito, entretanto, não se altera.
10.5 Método dos Mínimos Quadrados
A essência do método já foi vista nos itens anteriores, ou seja, o método dos mínimos quadrados
consiste em medir, e comparar, o quadrado das Variações Não-Explicadas de cada equação de ajuste.
O melhor ajuste, ou seja, a equação que melhor explica o comportamento dos dados, por meio da
Correlação de suas variáveis, é aquele que produz a menor das Variações Não-Explicadas, o que
obviamente produzirá o maior Coeficiente de Variação.
Em alguns estudos, dependendo da característica das variáveis, o ajuste linear produz a menor
variação não-explicada. Em outros é a parábola ou a exponencial. Entretanto, alertamos que não existem
apenas estes três tipos de ajustes. Porém, julgamos que estes sejam os mais utilizados no campo de
Finanças, Contabilidade, Administração, entre outros.
O método que produzir a menor das variações não explicadas é, obviamente, aquele cuja função
(equação), melhor descreve a trajetória do comportamento das variáveis observadas.
Se as variáveis estudadas forem “custo”, seja ele de que natureza for, então a equação poderá
ajudar a estimar o comportamento dos custos no período seguinte. Se as variáveis estudadas forem as
vendas, por período, o raciocínio será o mesmo.
Alerta-se que, algumas variáveis são condicionadas por valores altos ou baixos, em determinados
períodos, devido à atividade industrial. Desta forma, sugere-se que o analista colha as variáveis numa
amplitude maior de tempo, para que sejam representadas todas as possíveis variações estacionais.
Veremos, mais adiante, um exemplo de projeção de Vendas e outro de determinação da equação de Custos.
10.6 - Ajustamento pela equação da Reta.
Chama-se de ajustamento de variáveis aleatórias à uma determinada equação, à tendência
comportamental de uma série histórica de observações, descritas por uma determinada equação
matemática.
No caso da Função Reta, teremos um sistema de equações, formados por resultados obtidos a partir
das variáveis estudadas:
Função Equação Literal Ajustamento
Reta bXcY '
2)( XbXcYX
XbcnY
125
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
125
Tabela 10.3 - Elementos para o cálculo do ajustamento pela equação da reta
Exemplo Resolvido
1) Suponha que se queira determinar uma equação, para definir o comportamento das vendas de
uma empresa. Para efeitos didáticos construir-se-á a equação a partir de uma amostra de 7 meses. É
conveniente notar que quanto maior for a série histórica dessa variável, mais precisa será a equação,
admitindo-se que não ocorram variações econômicas, não possíveis de prever.
Outro fato importante, de ser notado, é que sendo uma das variáveis, a dependente, o
componente temporal mês, isso requer um tratamento especial para que possa ter um significado
quantitativo.
Com base no sistema de equação que determinará a equação de ajuste, deve-se buscar os
elementos necessários.
Mês x y (Vendas x 1 000) yx 2x
JAN -3 8 -24 9
FEV -2 10 -20 4
MAR -1 15 -15 1
ABR 0 12 0 0
MAI 1 14 14 1
JUN 2 19 38 4
JUL 3 16 48 9
0 94 41 28
Tabela 10.4 - Cálculo do ajustamento linear
Ao procedermosassim, determinar-se-ão todos os elementos necessários para substituir no
sistema que determinará a equação da Reta. Note que, neste exemplo, temos n = 7, ou seja, sete
variáveis dependentes, às quais foi atribuído um valor, cuja somatória não altera a outra variável, valor
das vendas.
Monta-se, então, o sistema de equações:
28041
0794
)( 2 bc
bc
XbXcYX
XbcnY
Resolvendo-se o sistema de equações, teremos:
43,13
7
94
794 ccc e 46,1
28
41
2841 bbb
Substituindo-se os valores encontrados, na equação literal, temos:
bxcY ' xY 46,143,13'
Uma vez determinada a equação, que tenta descrever o comportamento das variáveis, deve-se
calcular o valor dos afastamentos entre a variável individual em análise (Y = valor das vendas de cada
mês) e o valor da média das vendas, dado por:
43,13
7
94
i
i
f
X
Y
Elevando-se cada um dos valores encontrados ao quadrado e somando-os, teremos o valor total
positivo dos afastamentos (de forma análoga ao procedimento do desvio-padrão). Este valor é
denominado VARIAÇÃO TOTAL, ou seja, é a somatória dos quadrados das diferenças individuais entre
cada valor mensal das vendas e a média do período considerado. 2YY
O passo seguinte é calcular qual é o valor de vendas projetado, por meio da reta de regressão,
para aquele respectivo mês. Para isto, substitui-se o valor de cada ix no lugar da variável x , da
equação de regressão. Obteremos, então, os valores das vendas projetadas na coluna 'Y .
A seguir, calculam-se os afastamentos entre as vendas reais do mês Y e as vendas projetadas Y´.
Elevam-se estes valores, encontrados, ao quadrado, que agora, se denominam Variações Não-
Explicadas. Da mesma forma, calculam-se os afastamentos entre as vendas projetadas para o mês 'Y
126
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
126
e a média das vendas Y . Elevam-se estes valores, encontrados, ao quadrado, que agora denominam-
se Variações Explicadas. Procede-se como a seguir:
Mês
X
Y
(Vend
as
x
1000)
YX
2X
2)( YY
Variaçã
o Total
'Y
Projeção
2)'( YY
Variação
Não
Explicada
2)'( YY
Variação
Explicada
JAN -3 8 -24 9 48,29
)43,138( 2
05,9
43,13
)3.(46,1
10,1
)05,98( 2
18,19
)43,1305,9( 2
FEV -2 10 -20 4 11,76 10,51 0,26 8,53
MAR -1 15 -15 1 2,46 11,97 9,18 2,13
ABR 0 12 0 0 2,04 13,43 2,04 0
MAI 1 14 14 1 0,32 14,89 0,79 2,13
JUN 2 19 38 4 31,02 16,35 7,02 8,53
JUL 3 16 48 9 6,60 17,81 3,28 19,18
0 94 41 28 83,68 23,67 59,68
Tabela 10.5 - Cálculo das Variações : Explicada e Não-Explicada para o ajuste linear
A variação total é, aproximadamente, a soma das variações explicadas e não-explicadas:
68,5967,2368,83 , uma possível diferença entre a igualdade será consequência de trabalharmos com
valores aproximados.
10.7 Ajustamento pela equação da Parábola
A partir do mesmo exemplo, aplica-se a equação de ajustamento da parábola, mostrada a seguir.
Função Equação Literal Ajustamento
Parábola 2' aXbXcY
Tabela 10.6 - Elementos para o cálculo do ajuste pela Parábola
A tabela de cálculo deve, portanto, fornecer os dados especificados pela fórmula.
Mês
X
Y
Vend
as
x
1000
YX
2X 3X 4X
YX 2
2)( YY
Variaçã
o Total
'Y
Projeção
2)'( YY
Variaçã
o Não
Explicad
a
2)'( YY
Variação
Explicad
a
JAN -3 8 -24 9 -27 81 72
48,29
)43,138( 2
1430,8
14,14)3.(4643,1
)3.(1786,0 2
02,0
)14,88( 2
98,27
)43,1314,8( 2
FEV -2 10 -20 4 -8 16 40 11,76 10,50 0,25 8,58
MAR -1 15 -15 1 -1 1 15 2,46 12,50 6,25 0,86
ABR 0 12 0 0 0 0 0 2,04 14,14 4,58 0,50
MAI 1 14 14 1 1 1 14 0,32 15,43 2,04 4,00
JUN 2 19 38 4 8 16 76 31,02 16,36 6,97 8,58
JUL 3 16 48 9 27 81 144 6,60 16,93 0,86 12,25
0 94 41 28 0 196 361 83,68 ********** 20,97 62,75
Tabela 10.7 - Cálculo da equação de ajustamento quadrático
127
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
127
Note-se que o valor, da variação total, assume valores próximos ao do ajuste pela Reta, porém, o
ajustamento pela equação da Parábola, produziu, neste exemplo, um valor da Variação Não-Explicada
menor (20,97) que aquele obtido pela equação da Reta (23,67). Mais adiante explicar-se-á como isto afeta
a escolha da equação de ajustamento.
4322
32
2
XaXbXcYX
XaXbXcYX
XaXbcnY
196028361
028041
280794
abc
abc
abc
Logo, pode-se escrever que: 4643,1
28
41
b
Entre a primeira e a segunda equação teremos os valores de a e c logo, multiplicando-se a primeira
equação por – 4 e, resolvendo-se o sistema de equações do primeiro grau, pelo método da adição de
equações.
1786,08415
19628361
112283764
)2(196028361
)1(280794
aa
ac
ac
abc
abc
Substituindo-se os valores na primeira equação teremos:
143,14
997
57948,028794
c
c
cc
Desta forma, a equação da parábola, para descrever o comportamento dos dados, será escrita como,
1430,144643,11786,0´ 2 xxy
10.8 Ajustamento pela equação exponencial
No caso do ajuste, pela função exponencial, a estrutura do ajustamento transforma-se como a seguir:
Função Equação literal Ajustamento
Exponencial xbcY '
2
lnln)ln(
ln)(ln)(ln
XbXcYX
XbcnY
Tabela 10.8 – Elementos para o cálculo do ajuste exponencial
Os valores para o cálculo da equação exponencial de ajuste, são:
Mês X
Y Venda
s
x 1000
2X Yln
YX ln
2)( YY
Variaçã
o Total
'Y
Projeçã
o
2)'( YY
Variação
Não
Explicada
2)'( YY
Variação
Explicada
JAN -3 8 9 2,08 -6,24
48,29
)43,138( 2
21,9
12,1936,12
x
46,1
)21,98( 2
81,17
)43,1321,89( 2
FEV -2 10 4 2,30 -4,60 11,76 10,31 0,10 9,73
MAR -1 15 1 2,71 -2,71 2,46 11,55 11,90 3,53
ABR 0 12 0 2,48 0 2,04 12,94 0,88 0,24
MAI 1 14 1 2,64 2,64 0,32 14,49 0,32 1,12
JUN 2 19 4 2,94 5,88 31,02 16,22 7,73 7,78
JUL 3 16 9 2,77 8,31 6,60 18,17 4,71 22,47
0 94 28
17,9
2
3,28 83,68
*********
*
27,10 62,68
Tabela 10.9- Ajuste Exponencial: cálculo da Variação Explicada e Não-Explicada
Tabela 10.10 – Elementos para o cálculo do ajuste exponencial
2
lnln)ln(
ln)(ln)(ln
XbXcYX
XbcnY
bc
bc
ln280ln28,3
0ln)(ln792,17
128
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
128
Assim, teremos, 936,12
7
92,17
ln cc e 12,1
28
28,3
ln bb
Logo, a equação poderá ser escrita como
xY 12,1936,12'
Note que a variação não-explicada assume valores próximos ao do ajuste pela Reta e pela Parábola,
porém, o ajustamento pela equação Exponencial, produziu neste exemplo, um valor da Variação Não
Explicada maior (27,10) que aquele obtido pela equação da Reta (23,68) e o obtido pela equação da
parábola (20,97).
Esta relação entre as Variações não-explicadas, reflete-se, também, no coeficiente de variação,
definido por Pearson.
Coeficiente de Variação
Karl Pearson definiu o coeficiente de variação, como sendo a porcentagem das variações totais que
podem ser detectadas pelas Variações Explicadas.
Note-se que Pearson baseou-se no estimador Variação Explicada, enquanto o Método dos Mínimos
quadrados, baseia-se na Variação Não-Explicada. Denominou este coeficiente de
2R sendo este, portanto,
a razão entre a variação Explicada e a Variação total do ajuste.
2
2
2
)(
)'(
YY
YY
R
ou
TotalVariaçãoExplicadaVariação
R
_
_2
Note a constatação feita anteriormente, nos três tipos de ajustes, o ajustamento pela Equação da
Parábola produziu a menor variação não-explicada, produziu também o maior Coeficiente de Variação.
Tabela 10.11 - Determinação do Coeficiente de Variação
Portanto, concluímos que a equação da parábola é a que melhor representa a correlação, pois é a
que apresenta a menor variação não-explicada, e o maior coeficiente de correlação.
Equação de Custos
Horngreen (1985:179p) exemplifica que “o método dos mínimos quadrados é o instrumento mais
exato para a determinação do comportamento passado de um custo misto”.
Exercício resolvido
2-) Seja a tabela a seguir, onde estão representadas as variáveis, horas de mão de obra e o custo
misto total para o intervalo mensal de agosto a abril, segundo exemplo proposto por Horngreen. Pede-se
determinar o ajustamento, pela equação da reta, para determinar a equação que representa as “despesas
totais para reparos externos em equipamentos vendidos”. Chamamos a atenção que não podemos garantir
que o ajustamento, pela reta, seja o melhor, sem usar as ferramentas Estatísticas adequadas.
Mês Mão-de-obra (x) Custo Misto Total (Y) X.Y X2
Ago 2 200 2 300 5 060 000 4 840 000
Set 2 300 2 500 5 750 000 5 290 000
Out 1 900 2 000 3 800 000 3 610 000
Nov 1 200 2 000 2 400 000 1 440 000
Dez 1 200 2 000 2 400 000 1 440 000
Jan 900 1 500 1 350 000 810 000
Fev 700 1 400 980 000 490 000
Mar 1 100 1 400 1 540 000 1 210 000
Abr 1 400 1 600 2 240 000 1 960 000
Total 12 900 16 700 25 520 000 21 090 000
Tabela 10.12 – Variáveis consideradas para estudo: Mão-de-obra e Custo misto total
Função
Variação
Não Explicada
Variação
Explicada
Coeficiente de Variação
Reta 23,58 59,68 7132,0
68,83
68,592 R
Parábola 21,03 62,75 7499,0
68,83
75,622 R
Exponencial 27,00 62,68 7490,0
68,83
68,622 R
129
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
129
Com as somatórias do quadro anterior, o leitor tem condições para desenvolver o método, utilizando-
se das equações de ajustamentos pela reta.
2)( XbXcYX
XbcnY
bc
bc
210900001290025520000
12900916700
Note o leitor que trata-se de resolver um sistema de equações do primeiro grau.
Existem diversos métodos possíveis: o da adição, o da substituição e o da redução ao mesmo
denominador, entre outros.
Para diferenciar do método adotado por Horngreen, adotaremos o método da redução ao mesmo
coeficiente, isto é, encontraremos o valor de uma em função da outra e, a seguir, igualaremos as duas.
16 700 = 9c + 12 900b 25 520 000 = 12 900c + 21 090 000b
16 700 – 12 900b = 9c 25 520 000 – 21 090 000b = 12 900c
c
b
c
b
90012
0000902100052025
9
9001270016
Ora se duas quantidades são iguais a uma terceira, então, elas serão iguais entre si. Desta forma,
podemos igualar as duas expressões expressas pelo termo em “c”.
90012
0000902100052025
9
9001270016 bb
Multiplicando-se em cruz (é o mesmo que encontrar o Mínimo Múltiplo comum dos denominadores)
teremos:
12 900.(16 700 – 12 900b) = 9.(25 520 000 – 21 090 000b)
215 430 000 – 166 410 000b = 229 680 000 – 189 810 000
23 400 000b = 14 250 000
b = 0,608974
Substituindo-se este valor de b, encontrado na outra expressão, encontraremos, o valo de c.
16 700 = 9c + 12 900.(0,608974)
16 700 – 7 855,76 = 9c
c = 982,6928
A equação que relaciona horas de mão de obra, com custo misto total, encontrada será:
Y’ = 982,69 + 0,608974.X
Esta fórmula deve ser interpretada da seguinte maneira: a variável X, conforme inserida na tabela, foi
“horas de mão de obra”. Desta forma, as despesas totais, para reparos em equipamentos vendidos, serão
iguais a R$ 982,69 (custo fixo, pois é a variável independente c), somados 0,608974 vezes o número X (que
representa as horas de mão-de-obra).
Como desafio, para o leitor e trabalhos para as aulas, deixa-se aqui a tarefa de provar se o ajuste
pela equação da reta produz a menor das variações não-explicadas, conforme teoria já vista.
Exemplo resolvido
3-) Na teoria sobre regressão, neste capítulo, verificou-se que no exemplo escolhido, o
comportamento das vendas, no período de Janeiro a Julho, foram mais bem explicadas pela equação da
parábola.
Segundo a mesma teoria, uma vez que isto aconteça, deve-se confiar nesta equação de ajuste
para estimar o comportamento futuro dessas variáveis.
Assim, pede-se, estimar as vendas para o mês de Agosto, com base no comportamento passado
destas variáveis.
Para tanto, reproduz-se a tabela 10.7, com os dados necessários.
130
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
130
Mês X
Y
Vend
as
x
1000
YX 2X 3X 4X
YX 2
'Y Projeção
JAN -3 8 -24 9 -27 81 72 14,8143,14)3.(4643,1)3.(1786,0
2
FEV -2 10 -20 4 -8 16 40 10,50
MAR -1 15 -15 1 -1 1 15 12,50
ABR 0 12 0 0 0 0 0 14,14
MAI 1 14 14 1 1 1 14 15,43
JUN 2 19 38 4 8 16 76 16,36
JUL 3 16 48 9 27 81 144 16,93
0 94 41 28 0 196 361 **********
Tabela 10.13 - Ajuste pela equação da Parábola
Na sequência especifica para o mês de agosto, este seria representado por x = 4, na equação de
ajuste, encontraremos a venda projetada: y´= -0,1786.(4)2+1,4643.(4) + 14,143 = 17,1426, ou seja as
vendas serão de aproximadamente 17 142,6 unidades.
Recomenda-se que, para esta prática de previsão, seja feito o ajuste mensal, pois o
distanciamento, entre a data a ser estimada e a amplitude das variáveis colhidas, tendem a distorcer o
resultado, afastando-o, cada vez mais, da realidade. É aconselhável, também, determinar-se a equação
de ajuste com variáveis, colhidas ao longo de um ano, pelo menos, pois desta forma estariam sendo
levados em conta aumentos ou retrações em vendas ou custos, decorrentes da estação de alta ou de
baixa nas vendas. Para o caso de previsão de custos o procedimento é semelhante.
Exercícios propostos
1) Defina o significado da Técnica de regressão, segundo o texto e qual a aplicação destas técnicas em
geral.
2) Num levantamento de gastos, com transportes de mercadorias, verificam-se os seguintes valores, de
custo médio por mercadoria nos meses de janeiro a dezembro do ano passado.
Custo médio por mercadoria {170, 165, 180, 172, 174, 186, 193, 173, 176, 165, 167, 160}
Pede-se, determinar a equação de melhor ajustamento, entre a reta e a quadrática.
3) Determinar os coeficientes de variação do exercício 2.
4) Os valores mensais, com vendas, de um determinado produto, estão relacionados a seguir. Pede-se,
determinar o valor da venda projetada, para os dois meses seguintes, utilizando-se a melhor equação de
ajuste entre a reta e a exponencial.
Mês X Y X.Y X2 Y’
2)'( YY lnY X.lnY 2)'( YY
JAN 25
FEV 39
MAR 22
ABR 53
MAI 52
JUN 65
JUL 60
131
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
131
5) Dada a tabela a seguir, contendo o ICV% (Índice do Custo de Vida do Dieese) entre março e Setembro de
determinado ano, pede-se, calcular, pelo método dos mínimos quadrados, os valores para os ajustamentos
pela RETA e EXPONENCIAL, e indicar qual o melhor entre os dois ajustamentos. Pede-se informar qual será
o índice projetado do ICV para o mês de outubro.(use 4 casas decimais)
Mê
s
X Y % X.Y X2 Y’
2)'( YY lnY X.lnY Y’’
2)''( YY 2)( YY
Mar 0,48
Abr 0,39
Mai 0,22
Jun 1,53
Jul 2,12
Ago 0,65
Set 0,60
6) Dados as distribuições a seguir, calcule a equação ajustada da reta e o coeficiente de variação:
a) Pontuação em dois testes de Matemática e EstatísticaMAT. (X) EST.(Y) X.Y X 2 Y ´ ( YY ) 2 ( YY ´ ) 2 2´ YY
9,0 10,0
8,0 9,0
10,0 9,0
2,0 6,0
3,0 5,0
6,0 8,0
6,0 7,0
7,0 8,0
5,0 7,0
4,0 6,0
b) Quantidades de produtos similares que são vendidos em determinado Supermercado.
(X) (Y) X.Y X 2 Y ´ ( YY ) 2 ( YY ´ ) 2 2´ YY
4 12
6 10
8 8
10 12
12 14
c) A tabela apresenta a produção de uma certa indústria.
ANOS X Quant. (t) X.Y X 2 Y ´ ( YY ) 2 ( YY ´ ) 2 2´ YY
1980 34
1981 36
1982 36
1983 38
1984 41
1985 42
1986 43
1987 44
1988 46
132
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
132
d) Feito um levantamento sobre o número de produtos vendidos em 7 unidades de venda em uma feira
para verificar a projeção do produto B em função do produto A, obteve-se a tabela:
PROD. A PROD. B X.Y X 2 Y ´ Y 2 ( YY ) 2 ( YY ´ ) 2 2´ YY
18 10
30 23
42 33
62 60
73 91
97 98
120 159
7) Dados as distribuições a seguir, calcule a equação exponencial.
a) Pontuação em dois testes de Matemática e Estatística
MAT. (X) EST.(Y) X 2 LN Y X.LN Y
9,0 10,0
8,0 9,0
10,0 9,0
2,0 6,0
3,0 5,0
6,0 8,0
6,0 7,0
7,0 8,0
5,0 7,0
4,0 6,0
b) Quantidades de produtos similares, que são vendidos em determinados Supermercados.
(X) (Y) X 2 LN Y X.LN Y ´
4 12
6 10
8 8
10 12
12 14
c) A tabela apresenta a produção de uma certa indústria.
ANOS X QUANT. (t) X 2 LN Y X.LN Y
1980 34
1981 36
1982 36
1983 38
1984 41
1985 42
1986 43
1987 44
1988 46
133
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
133
d) Feito um levantamento, sobre o número de produtos vendidos em 7 unidades de venda, em uma feira
para verificar a projeção do produto B em função do produto A, obteve-se a tabela:
PROD. A PROD. B X 2 LN Y X.LN Y
18 10
30 23
42 33
62 60
73 91
97 98
120 159
8) Dados as distribuições a seguir, calcule a equação quadrática.
a) Pontuação em dois testes de Matemática e Estatística
MAT. (X) EST.(Y) X.Y X 2 X3 X4 X2.Y
2 2
3 4
5 6
6 5
7 7
7 8
8 6
8 9
9 8
10 10
b) Quantidades de produtos similares, que são vendidos em determinado Supermercado.
(X) (Y) X.Y X 2 X3 X4 X2.Y
4 12
6 10
8 8
10 12
12 14
c) A tabela apresenta a produção de uma certa indústria.
ANOS X QUANT. (t) X.Y X 2 X3 X4 X2.Y
1980 34
1981 36
1982 36
1983 38
1984 41
1985 42
1986 43
1987 44
1988 46
134
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
134
Apêndice
1 Tabela Z normal padronizada
Área entre 0 e Z Normal Padronizada
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389
1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621
1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015
1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177
1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319
1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441
1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767
2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857
2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936
2.5 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964
2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974
2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981
2.9 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986
3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990
135
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
135
2 Tabela t-student
Tabela “t” probabilidade unicaudal à direita
gl\p 0.40 0.25 0.10 0.05 0.025 0.01 0.005 0.0005
1 0.324920 1.000000 3.077684 6.313752 12.70620 31.82052 63.65674 636.6192
2 0.288675 0.816497 1.885618 2.919986 4.30265 6.96456 9.92484 31.5991
3 0.276671 0.764892 1.637744 2.353363 3.18245 4.54070 5.84091 12.9240
4 0.270722 0.740697 1.533206 2.131847 2.77645 3.74695 4.60409 8.6103
5 0.267181 0.726687 1.475884 2.015048 2.57058 3.36493 4.03214 6.8688
6 0.264835 0.717558 1.439756 1.943180 2.44691 3.14267 3.70743 5.9588
7 0.263167 0.711142 1.414924 1.894579 2.36462 2.99795 3.49948 5.4079
8 0.261921 0.706387 1.396815 1.859548 2.30600 2.89646 3.35539 5.0413
9 0.260955 0.702722 1.383029 1.833113 2.26216 2.82144 3.24984 4.7809
10 0.260185 0.699812 1.372184 1.812461 2.22814 2.76377 3.16927 4.5869
11 0.259556 0.697445 1.363430 1.795885 2.20099 2.71808 3.10581 4.4370
12 0.259033 0.695483 1.356217 1.782288 2.17881 2.68100 3.05454 4.3178
13 0.258591 0.693829 1.350171 1.770933 2.16037 2.65031 3.01228 4.2208
14 0.258213 0.692417 1.345030 1.761310 2.14479 2.62449 2.97684 4.1405
15 0.257885 0.691197 1.340606 1.753050 2.13145 2.60248 2.94671 4.0728
16 0.257599 0.690132 1.336757 1.745884 2.11991 2.58349 2.92078 4.0150
17 0.257347 0.689195 1.333379 1.739607 2.10982 2.56693 2.89823 3.9651
18 0.257123 0.688364 1.330391 1.734064 2.10092 2.55238 2.87844 3.9216
19 0.256923 0.687621 1.327728 1.729133 2.09302 2.53948 2.86093 3.8834
20 0.256743 0.686954 1.325341 1.724718 2.08596 2.52798 2.84534 3.8495
21 0.256580 0.686352 1.323188 1.720743 2.07961 2.51765 2.83136 3.8193
22 0.256432 0.685805 1.321237 1.717144 2.07387 2.50832 2.81876 3.7921
23 0.256297 0.685306 1.319460 1.713872 2.06866 2.49987 2.80734 3.7676
24 0.256173 0.684850 1.317836 1.710882 2.06390 2.49216 2.79694 3.7454
25 0.256060 0.684430 1.316345 1.708141 2.05954 2.48511 2.78744 3.7251
26 0.255955 0.684043 1.314972 1.705618 2.05553 2.47863 2.77871 3.7066
27 0.255858 0.683685 1.313703 1.703288 2.05183 2.47266 2.77068 3.6896
28 0.255768 0.683353 1.312527 1.701131 2.04841 2.46714 2.76326 3.6739
29 0.255684 0.683044 1.311434 1.699127 2.04523 2.46202 2.75639 3.659430 0.255605 0.682756 1.310415 1.697261 2.04227 2.45726 2.75000 3.6460
Inf 0.253347 0.674490 1.281552 1.644854 1.95996 2.32635 2.57583 3.2905
136
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
136
RERÊNCIAS BIBLIOGRÁFICAS
ALTMAN, Edward. Financial Ratios, Discriminant Analysis and the Prediction of Corporate Backruptancy.
Journal of Finance, Boston, v.23, p. 586 - 609. 1968.
ALTMAN, Edward; CAOUETTE, J.B; NARANAYAN, P. Gestão do Risco de Crédito. Rio de Janeiro:
Qualitymark – Serasa, 1999.
AMARAL, Fábio Muniz do, Entendendo as Medidas resumo da Estatística Descritiva – 1ª ed. Berlin: NEA,
2015.
ASSAF NETO, Alexandre. Estrutura e Análise de Balanços: um enfoque econômico-financeiro. São Paulo:
Atlas, 2001.
ANDERSON, Rolph; BLACK, William C.; TATHAM, Ronald; HAIR Jr, Joseph. Multivariate Data Analysis.
New Jersey: Prentice Hall, 1998.
BEAVER, William. Financial Ratios as Predictors of Failure. Journal of Accounting Research, Chicago,
Suplement of Selected Studies, p. 77-111. 1966.
BREALEY, Richard; MYERS, Stewart. Principles of Corporate Finance. 5.ed. Chapter 25 Analyzing
Financial Performance. New York: McGraw-Hill, 1986.
BRITANNICA INTERNET STATE AWARD. Disponível em: <http://www.statsoft.com> Electronic Text Book,
2001.
BUSSAB, Wilton de O.; MORETTIN, Pedro A. Estatística Básica – 5. Ed, - São Paulo: Saraiva, 2002.
COSTA NETO, Pedro Luiz. Estatística, Correlação e Regressão. São Paulo: Edgard Blücher, 1977.
DOWNING, Douglas; CLARK, Jeffrey. Estatística Aplicada. Tradução de Alfredo Alves de Farias.- 2ª. Ed. –
São Paulo; Saraiva, 2005
ELISABETSKY, Roberto. Um Modelo Matemático para Decisões de Crédito no Banco Comercial. São
Paulo, 1976. Dissertação (Mestrado) - Instituto Politécnico da USP.
FAMÁ, Rubens; BRUNI, A; MURRAY, A. Modelos Brasileiros Preditivos de Risco de Crédito: um estudo
exploratório atual sobre suas eficácias. TEMA, São Paulo: Faculdades Teresa Martin, n. 32, jan. / jun. 1998.
GITMAN, Lawrence J. Princípios de Administração Financeira. São Paulo: Harbra, 1997.
HINTZE, Jerry. NCSS Number Cruncher Statistical Software, Kaysville, Uta.
HOFMANN, Rodolfo. Estatística para Economistas. 3.ed. São Paulo: Pioneira, 2001.
HORNEGREEN, Charles, Introdução à Contabilidade Gerencial, Prentice Hall do Brasil, São Paulo 1985.
JOHNSON, Richard; WICHERN, Dean.W. Applied Multivariate Statiscal Analysis, 4.ed. New Jersey:
Prentice Hall, 1998.
MAGALHÃES, Marcos Nascimento, LIMA, Carlo Pedroso de. Noções de Probabilidades e Estatística. – 5
ed. – São Paulo: Editora da Universidade de São Paulo, 2002. (Acadêmica; 40).
MATARAZZO, Dante. Análise Financeira de Balanços. São Paulo: Atlas, 1995.
MATIAS, Alberto. Contribuição às Técnicas de Análise Financeira: um modelo para a concessão de
crédito. São Paulo, 1978. (Trabalho apresentado ao Departamento de Administração da FEA-USP).
NOVAES, Diva Valéria, COUTINHO, Cileda de Queiroz e Silva, Estatística para educação profissional,
Atlas, 2009.
PAULA LEITE, Helio de; HOPP, João Carlos. O Mito da Liquidez. Revista de Administração de Empresas,
São Paulo, out./dez. 1989.
ROSS, Stephen; WESTERFIELD, Randolph; JAFFE, Jefrey. Administração Financeira. São Paulo: Atlas,
1995.
http://www.statsoft.com/
137
Prof. MSc. Fábio Muniz do Amaral ESTATÍSTICA_e_PROBABILIDAES
137
SANVICENTE, Antonio Zorato; MELLAGI FILHO, Armando. Mercado de Capitais e Estratégias de
Investimento. São Paulo: Atlas, 1996.
SECURATO, José Roberto. Decisões Financeiras em Condições de Risco. São Paulo: Atlas, 1996.
SICSÚ, Abraham. Análise Discriminante. São Paulo, 1975. (Mestrado em Matemática) – Universidade de
São Paulo, São Paulo.
SILVA, José Pereira da. Administração de Crédito e Previsão de Insolvência, São Paulo: Atlas, 1983.
SILVER, Mick. Estatística para Administração, São Paulo: Atlas, 2000.
SPIEGEL, Murray R. Estatística. São Paulo: Makron Books, 1993.
TORRES, Rosane R.. Estudo sobre os planos Amostrais das Dissertações e Teses em Administração
da Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo e da Escola
de Administração da Universidade Federal do Rio Grande do Sul: uma contribuição crítica. 2000. 1 v.
Dissertação (Mestrado) - Curso de Administração, Departamento de Administração Usp, Usp - Universidade
de São Paulo, São Paulo, 2000. Cap. 1.
THURMAN, Paul W.; Estatística. ; Tradução Luciano Antonio Gomide – 1ª ed. - São Paulo: Saraiva, 2012.
VIRGILLITO, Salvatore B.. Estatística Aplicada. 1ª São Paulo: Alfa Omega, 2004. 481 p.
VIRGILLITO, Salvatore B.. Princípios de Matemática Financeira e Análise de Investimentos. 1ª São Paulo:
Edicon, 2004. 221 p.
VIRGILLITO, Salvatore Benito. Uma Abordagem Estatística Estruturada na Construção de Modelos para
Análise do Risco de Crédito e Previsão de Insolvência de Empresas. São Paulo, 2001. (Dissertação
apresentada ao Departamento de Pós-graduação em Administração de Empresas da FEA-PUC)
VIRGILLITO, Salvatore B.; FAMÁ, Rubens. Administração do Risco: Uma Abordagem Estatística
Estruturada na Costrução de Modelos para Análise de Risco de Crédito e Previsão de Insolvência de
Empresas. 1ª São Paulo: Edicon, 2005. 158 p. CD-ROM.
VIRGILLITO, Salvatore B.. Estatística Aplicada. 3ª São Paulo: Edicon, 2006. 590 p. CD-ROM.