Buscar

Apostila Prob

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 91 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 91 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 91 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
CURSO DE ESTATÍSTICA BÁSICA APLICADA E 
CEP 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Prof. Cezar Augusto Cerqueira 
 
 2
 
 
 
SUMÁRIO 
 
 
1 - ESTATÍSTICA: NOÇÕES GERAIS ..................................................................................................................................... 3 
2 – APRESENTAÇÃO DE DADOS........................................................................................................................................... 9 
2.1 DISTRIBUIÇÃO DE FREQUÊNCIAS ..............................................................................................................10 
2.2 REPRESENTAÇÃO GRÁFICA ..........................................................................................................................11 
3–MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS .............................................................................................. 18 
 3.1 MEDIDAS DE TENDÊNCIA CENTRAL (locação): média aritmética,.................................................................18 
 3.2 MEDIDAS DE VARIABILIDADE ....................................................................................................................... 20 
3.3 ASSIMETRIA .................................................................................................................................................... 24 
3.4 - O ESQUEMA DOS CINCO NÚMEROS E O GRÁFICO BOX PLOT...............................................................26 
4 NOÇÕES DE PROBABILIDADE ......................................................................................................................................... 28 
5. VARIÁVEIS ALEATÓRIAS ................................................................................................................................................. 31 
5.1CASO DISCRETO ............................................................................................................................................. 31 
5.2 CASO CONTÍNUO ........................................................................................................................................... 32 
6. MODELOS DISCRETOS .................................................................................................................................................... 34 
6.1 .DISTRIBUIÇÃO DE BERNOULLI .................................................................................................................... 34 
6.2 DISTRIBUIÇÃO BINOMIAL ............................................................................................................................. 34 
6.3 MODELO DE POISSON ................................................................................................................................... 35 
6.4 MODELO HIPERGEOMÉTRICO ...................................................................................................................... 35 
7. MODELOS CONTÍNUOS ................................................................................................................................................... 37 
7.1 DISTRIBUIÇÃO NORMAL ............................................................................................... .............................. 37 
8- DISTRIBUIÇÕES AMOSTRAIS .......................................................................................................................................... 41 
8.1 DISTRIBUIÇÃO AMOSTRAL DE MÉDIAS ....................................................................................................... 41 
8.2-DISTRIBUIÇÕES AMOSTRAL DE PROPORÇÕES .........................................................................................45 
9 ESTIMAÇÃO: NOÇÕES GERAIS ........................................................................................................................................ 46 
10. TESTES DE HIPÓTESES ................................................................................................................................................. 50 
11. CORRELAÇÃO ................................................................................................................................................................ 58 
11.1 DIAGRAMA DE DISPERSÃO ......................................................................................................................... 58 
11.2 COEFICIENTE DE CORRELAÇÃO LINEAR .................................................................................................. 60 
12 – REGRESSÃO ..................................................................................................................................................................61 
13 – NOÇÕES DE CONTROLE ESTATÍSTICO DE PROCESSOS ........................................................................................63 
14 NOÇÕES DE ESTATÍSTICA NO EXCEL ...........................................................................................................................70 
BIBLIOGRAFIA ........................................................................................................................................................................88
 3
 
1 - ESTATÍSTICA: NOÇÕES GERAIS 
 
 A ESTATÍSTICA é a ciência que trata da coleta, processamento e análise 
de dados, sendo uma ferramenta fundamental no processo de resolução de 
problemas e tomada de decisões. O uso da estatística é de fundamental 
importância na identificação de problemas, na determinação do tipo de dados 
pertinentes à análise destes, sua coleta, tratamento e posterior tomada de 
decisões, a partir das conclusões estabelecidas, contribuindo na elaboração de 
um plano de ação para a resolução do problema em questão. 
 
• A estatística, portanto reúne métodos para: 
 
 
- Coleta 
- Processamento 
- Análise e interpretação de dados 
 
 
• Informações numéricas analisadas servem de base para tomada de 
decisões; 
• As estatísticas nos auxiliam a entender melhor os fenômenos em geral; 
 
 
EM GERAL, CONHECEMOS ESTATÍSTICAS: 
 
 
- Demográficas 
- Econômicas 
- De saúde 
- Educacionais 
- Empresariais, etc. 
 
 
• A obtenção das estatísticas é apenas uma das faces do problema; 
• É preciso aprofundar a análise 
• Números não foram feitos apenas para serem exibidos ou armazenados 
 
ALGUMAS RAZÕES PARA SE CONHECER ESTATÍSTICA: 
 
• Para saber como apresentar e descrever informações de forma apropriada 
• Para saber como tirar conclusões a partir de grandes populações, com 
base somente na informação obtida em amostras. 
• Para saber como melhorar processos 
• Para saber como obter previsões confiáveis. 
 
 4
 
 
 
UMA PALAVRA SOBRE FONTES DE DADOS 
 
 LEVINE ET AL (2005) destacam quatro fontes-chave no processo de coleta 
de dados: 
 
1. Obter dados já publicados por fontes governamentais, industriais ou 
individuais. 
2. Planejar e executar um experimento para obter os dados necessários. 
3. Planejar e executar uma pesquisa ou levantamento de campo. 
4. Realizar uma análise através de um estudo observacional. 
 
No Brasil o governo é o principal produtor de dados sócio-econômicos e 
demográficos e o IBGE seu órgão oficial de estatística, que planeja e executa uma 
ampla gama de pesquisas, tendo como carro-chefe o Censo Demográfico, 
realizado a cada dez anos e que produz informações populacionais, que 
possibilitam uma investigação sobre os componentes da dinâmica demográfica 
brasileira, com destaque para dados sobre a composição da população por 
estrutura etária, sexo, educação, trabalho e rendimento, além de aspectos ligados 
à mortalidade, fecundidade e migração,entre outros. 
O IBGE produz ainda, em suas diversas pesquisas, dados sobre a evolução da 
produção industrial, comercial do setor de serviços; sobre emprego e desemprego, 
registro civil, taxas de inflação; além de dados sobre a realidade dos municípios do 
país, sobre o setor de saúde, entre outros. Os governos estaduais e municipais 
também produzem uma ampla série de informações de nível de agregação mais 
localizado, complementando o chamado sistema estatístico nacional. 
A segunda fonte de dados mencionada é a experimentação, técnica na qual 
um controle rigoroso é exercido no tratamento dado aos participantes. Nesse tipo 
de levantamento geralmente são utilizados procedimentos estatísticos mais 
sofisticados, como testes de hipóteses e análise de variância, entre outros. 
A terceira fonte de obtenção de dados é a realização de pesquisas, 
procedimento no qual nenhum controle é exercido sobre os participantes, no que 
tange ao seu comportamento. A população é indagada sobre questões relativas a 
crenças, valores, atitudes, características pessoais, entre outras. As respostas 
obtidas são devidamente tratadas para posterior análise. 
Na análise observacional o pesquisador observa diretamente o comportamento 
de seu objeto de estudo, geralmente em seu ambiente natural. Este tipo de 
levantamento, em geral, se aplica a situações onde pesquisas são impraticáveis 
ou de difícil execução. Tais estudos coletam informações, na forma de grupo, para 
auxiliar em processos de tomadas de decisão. Uma técnica bastante utilizada é o 
grupo focal, empregada para estruturar questões em aberto. Outros tipos de 
levantamentos observacionais são ainda utilizados, em diversas situações, entre 
os quais destacamos dinâmicas de grupo, “brainstorming”, etc. 
 
 
 5
GRANDES ÁREAS EM ESTATÍSTICA: 
 
 A trabalho com dados estatísticos pode ser visualizada em três grandes 
áreas: | 
 
• Estatística Descritiva 
• Probabilidades 
• Inferência estatística 
 
 
 
ESTATÍSTICA DESCRITIVA 
 
•
 
Utilizada na etapa inicial de análise 
•
 
Conjunto de técnicas destinadas a descrever e resumir os dados. 
 
 
 
 
 
 
 
 
 
 
 
 
Algumas estatísticas descritivas: 
 
- Taxas de inflação 
- Taxas de desemprego 
- Taxas de mortalidade infantil 
- Renda per capta 
- Taxa de alfabetização 
- Índice de leitos por habitantes, etc. 
 
• As estatísticas descritivas tornam o dado mais compreensível 
 
 
 
 
 
 
 
 
Descrição 
 
Organização 
 
Resumo 
Tabelas 
 
Gráficos 
 
Medidas 
 
Técnicas Visuais 
 6
 
PROBABILIDADE 
 
• Teoria matemática utilizada para se estudar a incerteza, oriunda de 
fenômenos de caráter aleatório. 
 
 
INFERÊNCIA ESTATÍSTICA: 
 
 
• Trata da análise e interpretação de dados amostrais 
• O principio básico é tirar conclusões sobre a população a partir de uma 
amostra de dados obtida da mesma. 
 
APLICAÇÃO 
 
a) Uma montadora de automóveis compra amortecedores de outra indústria, 
em lotes de 100 peças. De cada lote é retirada uma amostra, com base na 
proporção de defeituosos contidos nessa amostra é tomada uma decisão 
quanto à aceitação ou não do lote. 
b) Um jornal investigou 900 pessoas residentes na capital sobre qual o fato 
de terem ou não um plano de saúde; cerca de 400 disseram que o 
possuem. 
 
 
 
O processo de coleta/ interpretação dos dados pode ser resumido no esquema 
abaixo: 
 
 
População Amostra Descrição Análise/da 
amostra inferência 
 
 
 
 
 
 
 
 
 
 
 
 
 
Decisão 
 7
NOÇÕES DE AMOSTRAGEM 
 
 
Os dados representam a base para a tomada de decisões confiáveis. Na 
área de qualidade, por exemplo, quando coletamos dados, nosso propósito 
primordial é obter informações sobre lotes de produtos, sobre a estabilidade de 
processos, sobre a capacidade de um processo atender às especificações e 
sobre resultados obtidos sob alterações que visem melhorar a qualidade do 
processo. Nesse sentido cabe destacar os conceitos de: 
 
• POPULAÇÃO – Conjunto de elementos de um universo, com pelo menos uma 
característica em comum, sobre o qual desejamos estabelecer conclusões ou 
implementar ações. 
• AMOSTRA – Parte ou subconjunto da população a ser estudada. 
 
POR QUE USAR AMOSTRAGEM? 
 
• Estudo de grandes populações. 
• Redução de custos. 
• Resultados mais precisos em menor espaço de tempo. 
 
 
 
 
 Aleatória simples 
 Estratificada 
 PROBABILÍSTICA Sistemática 
 Grupos (cluster) 
 Multifásica 
 
 
AMOSTRAGEM 
(Tipos) 
 
 
 
 
 
 NÃO PROBABILÍSTICA 
 
 
 8
Amostra Aleatória Simples – cada sujeito ou item tem a mesma chance 
de seleção. Denota-se por “n” o tamanho da amostra e “N” o tamanho da 
população. Cada item da população é numerado de 1 a N. A chance de 
seleção de cada elemento é dada por 1/N. As amostras podem ser 
escolhidas com ou sem reposição. O sorteio geralmente é feito com o 
auxílio de tabelas de números aleatórios. 
 
Amostra Sistemática – Os N elementos da população são divididos em “k” 
grupos, onde k=N/n. O primeiro elemento é sorteado por um número 
aleatório entre 1 e k, sendo o restante da amostra obtido pela seleção de 
cada k-ésimo elemento respectivo na população. 
 
Amostra Estratificada – a estratificação consiste na divisão de um grupo 
original em diversos subgrupos, com base em determinados fatores. Na 
área de qualidade os fatores geralmente são equipamentos, fabricante, 
operadores, métodos de produção, determinadas condições ambientais de 
produção, entre outros. 
 
Amostras de grupos ou clusters – nesse caso, os N elementos são 
divididos em grupos ou clusters. Uma amostra aleatória de grupos é obtida 
e todos os elementos do grupo são investigados. Em algumas situações 
uma sub-amostra dentre de cada gruo inicialmente sorteado pode também 
ser adotada. Os grupos podem ser tomados como municípios, bairros, 
quarteirões, setores censitários, condomínios, etc. 
 9
 
 
2 – APRESENTAÇÃO DE DADOS 
 
No processo de análise de dados, o pesquisador tem à sua mão uma série 
de informações relativas a uma população ou uma amostra, e necessita resumir 
tais dados para torna-los informativos, para compará-los com outros resultados ou 
verificar sua adequação a um modelo teórico. Portanto, antes de passar a análise 
descritiva propriamente dita, que antecede a etapa de inferência, é conveniente 
observar alguns procedimentos de resumo de dados e sua apresentação na forma 
tabular ou gráfica. 
 
• Dados brutos desorganizados, não trazem informação! 
• Ë importante organizar e resumir os dados 
• Obter dos dados a maior quantidade de informação 
 
TIPOS DE VARIÁVEIS 
 
Os dados coletados no trabalho de pesquisa, gerenciamento de processos, 
controle de qualidade de produtos e serviços, em geral podem ser de natureza 
qualitativa ou quantitativa. Variáveis como sexo, educação, estado civil, nível de 
qualidade de uma peça (perfeita ou defeituosa), são de natureza qualitativa. Tais 
variáveis ainda podem ser classificadas como nominais, quando não existe 
nenhuma ordenação nas categorias (p/ex: sexo, estado civil), ou ordinais, quando 
apresentam alguma ordenação (p/ex: grau de instrução). As variáveis quantitativas 
podem ser classificadas como discretas ou contínuas. As discretas resultam 
geralmente de contagens do número de ocorrências de determinada característica 
de interesse. As variáveis contínuas são aquelas cujos valores possíveis formam 
um intervalo de números reais e resultam normalmente de mensurações. São 
apresentados a seguir alguns exemplos de variáveis discretas e contínuas: 
 
 Discretas-número de filhos de um casal 
 -número de defeitos em uma chapa de aço 
 -número de acidentes de trabalho em uma semana em certa 
 fábrica. 
 
 Contínuas -Peso ou altura de um indivíduo 
 -Espessura de uma peça 
 -Tempo de vida de uma lâmpada, etc 
 
IMPORTANTE!: A técnica estatística a ser utilizada na análise dos dados depende 
do tipo de variável com que se trabalha. 
 
 
 
 
 10
2.1 DISTRIBUIÇÃO DE FREQUÊNCIAS 
 
• Após coletar, deve-se organizar os dados. 
• Para conhecer melhor a distribuição das variáveis de interesse procura-se 
dispor os dados em tabelas e gráficos. 
• Objetiva-se obter uma melhor visualização do fenômeno. 
 
CASO DE VARIÁVEIS NOMINAIS OU ORDINAIS 
 
Exemplo: 
 
 A Tabela 2.1 apresenta a distribuição dos empregados do setor de 
produção de certa empresa segundo o seu grau de instrução. 
 
Tabela 2.1 
Empregados do setor de produção, segundo o grau de instrução, 2005. 
GRAU DE INSTRUÇÃO Freqüência (fi) 
Primeiro Grau 15 
Segundo Grau 25 
Superior 10 
TOTAL 50 
FONTE: Pesquisa direta 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 11
 
2.2 REPRESENTAÇAO GRÁFICA: 
 
GRÁFICO DE SETORES: 
 
 Útil na representação de variáveis de natureza qualitativa. 
 
Empregados do Setor de Produção, segundo grau de 
instrução - 2000
30%
50%
20%
Primeiro Grau
Segundo Grau
Superior
 
 
 
 
CASO DE VARIÁVEIS DISCRETAS 
 
 Para ilustrar, considere os dados abaixo representando a distribuição da 
variável número de filhos dos empregados do setor de produção. 
 
Tabela 2.2 
Distribuição do número de filhos dos empregados do setor de produção 
NÚMERO DE FILHOS Freqüência ( fi) 
0 5 
1 10 
2 20 
3 9 
4 6 
 
 
 
 
 12
 
REPRESENTAÇÃO GRÁFICA: Gráfico de Colunas 
 
 
0
2
4
6
8
10
12
14
16
18
20
freq.
0 1 2 3 4
filhos
 Número de filhos
 
 13
 
CASO DE VARIÁVEIS CONTÍNUAS 
 
 Foram obtidas as rendas mensais, em salários mínimos, dos empregados 
do setor de produção. 
 
 
Tabela 2.3 
Distribuição de freqüências das rendas dos empregados 
do setor de produção 
 
CLASSE DE 
RENDA(sal.min.) 
Freq. 
simples(fi) 
Freq. 
Relativa Freq. Acumulada (Fi) 
4 |----- 8 7 14,0 7
8 |----- 12 8 16,0 15
12 |----- 16 20 40,0 35
16 |----- 20 10 20,0 45
20 |----- 24 5 10,0 50
TOTAL 50 100,0 -
 
 
REPRESENTAÇÃO GRÁFICA (Histograma): 
 
 
Distribuição dos salários dos empregados do setor de produção
0
5
10
15
20
25
6 10 14 18 22
sal.min.
fre
q.
 
sim
pl
es
 
 
 
 
 14
A DISPOSIÇÃO RAMO-E-FOLHA 
 
 
Consiste de uma outra ferramenta valiosa para organizar um conjunto de 
dados e ao mesmo tempo, compreender a maneira com os valores se distribuem e 
se agrupam ao longo da amplitude de observação no conjunto de dados. 
 
• Cada observação é dividida em: ramo (dígitos iniciais) e folha (dígitos 
restantes). 
• Devemos escolher poucos ramos em relação ao total de observações 
(entre 5 e 20). 
 
 
Exemplo: Considere os dados abaixo representando a resistência à compressão 
de uma amostra de 80 corpos de prova de liga de alumínio: 
 
105 221 183 186 121 181 180 143
97 154 153 174 120 168 167 141
245 228 174 199 181 158 176 110
163 131 154 115 160 208 158 133
207 180 190 193 194 133 156 123
134 178 76 167 184 135 229 146
218 157 101 171 165 172 158 169
199 151 142 163 145 171 148 158
160 175 149 87 160 237 150 135
196 201 200 176 150 170 118 149
 
 
Como ramos consideraremos os valores 7,8,9,...24, o gráfico encontra-se a seguir: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 15
 
 
Gráfico Ramo-e-Folha – Resistência à compressão de 80 corpos de prova. 
Ramo Folha Frequencia
7 6 1
8 7 1
9 7 1
10 51 2
11 580 3
12 103 3
13 413535 6
14 29583169 8
15 471340886808 12
16 3073050879 10
17 8544162106 10
18 361410 7
19 960934 6
20 7108 4
21 8 1
22 189 3
23 7 1
24 5 1
 
 
 
 
O GRÁFICO DE PARETO 
 
Consiste de um gráfico de barras verticais que dispõem a informação, de 
forma a tornar evidente e visual a priorização de temas. 
O princípio de Pareto estabelece que os problemas relacionados à 
qualidade se traduzem na forma de perdas e podem ser classificados em duas 
categorias: “ os poucos vitais” e os “muitos triviais”. 
 
Exemplo: Uma indústria fabricante de lentes iniciou o ciclo de melhoria da 
qualidade, com o objetivo de resolver o seguinte problema: aumento no número de 
lentes defeituosas produzidas pela empresa, a partir de fevereiro de 2004. Em 
uma etapa de observação, a empresa classificou uma amostra de lentes 
produzidas, de acordo com os tipos de defeitos encontrados, tendo obtido os 
resultados da Tabela 2.4, a seguir. 
 
 
 
 16
 
 
 
Tabela 2.4 – Defeitos encontrados em uma amostra de lentes fabricadas pela 
indústria 
 
Tipo de Defeito 
Freqüência de 
defeitos 
Total 
Acumulado 
Freqüência 
relativa (%) 
Percentual 
Acumulado 
Revest. Inadequado 55 55 43,3 43,3 
Trinca 41 96 32,3 75,6 
Arranhão 12 108 9,4 85,0 
Espessura inadequada 11 119 8,7 93,7 
Mal-acabada 5 124 3,9 97,6 
outros 3 127 2,4 100,0 
 
Total 127 - 100,0 - 
 FONTE: Indústria de lentes 
 
 
Gráfico de Pareto para os defeitos das lentes 
 
 
 
 
 
0
10
20
30
40
50
60
R
e
ve
st
.
In
ad
eq
u
ad
o
T
rin
ca
A
rra
nhã
o
E
sp
e
ssu
ra
in
ad
eq
u
ad
a
M
al
-a
cab
ad
a
o
utro
s
0,0
20,0
40,0
60,0
80,0
100,0
defeitos
% Acum
 17
O Gráfico de Pareto pode ter ainda grandes aplicações na área de qualidade, 
destacando-se: 
 
• Gráfico de Pareto para causas, envolvendo, geralmente, as seguintes 
categorias: equipamentos, insumos, informação do processo ou medidas, 
condições ambientais, pessoas, métodos ou procedimentos. 
• Gráfico de Pareto para efeitos, envolvendo, geralmente, as categorias: 
qualidade, custo, entrega, segurança, etc. 
• Gráfico de Pareto expresso em unidades monetárias 
• Gráfico de Pareto estratificado (por operador, etc) 
• Comparações tipo antes e depois 
• Desdobramento de gráficos de Pareto (causas e sub-causas) 
 
 18
3–MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS 
 
 O resumo dos dados na forma de tabelas, bem como a visualização da sua 
distribuição, na forma de gráficos, são importantes elementos na análise dos 
mesmos. Entretanto, é fundamental que se disponha de um sumário dos dados na 
forma numérica. 
 São apresentadas a seguir as principais medidas utilizadas para se 
quantificar os valores centrais da distribuição dos dados (locação), bem como o 
grau de dispersão dos dados em torno dos valores centrais (variabilidade). 
 
3.1 MEDIDAS DE TENDÊNCIA CENTRAL (locação): média aritmética, 
mediana 
 
 
CÁLCULO DE MEDIDAS DE LOCAÇÃO 
 
 A média aritmética é a medida mais comumente utilizada para representar 
um conjunto de dados. No caso de dados brutos, seu cálculo pode ser feito 
através da fórmula: 
 
 
 
 A mediana corresponde ao valor central de uma distribuição. No caso de 
dados brutos, sendo o tamanho da amostra (n) ímpar, basta tomar, a partir dos 
dados dispostos em ordem crescente, o elemento de ordem X([n+1/2]) . No caso de 
n ser par, a mediana é obtida como a média aritmética dos dois valores centrais 
da distribuição dos dados em ordem crescente, ou seja: 
 
 
 
 Caso os dados estejam dispostos em uma tabela de freqüências os 
cálculos são efetuados através das expressões a seguir. No caso da média 
aritmética:n
Xi
X
n
i
∑
=
=
1
2
)1]2/([)2/( ++
=
nn
e
XX
M
n
fX
X
k
i
ii∑
=
=
1
 19
 No caso da mediana, tem-se: 
 
 
 
Onde: 
 
Li = limite inferior da classe mediana; 
Fant = freqüência acumulada até a classe anterior 
fMe = freqüência simples na classe mediana 
c = amplitude da classe mediana. 
 
OUTRAS MEDIDAS DE LOCAÇÃO 
 
 A distribuição dos dados pode ser divida em mais de duas partes. No caso 
de dividi-la em quatro partes iguais, os pontos de corte correspondentes são 
chamados de Quartis e representam medidas estratégicas na distribuição. O 
primeiro quartil (Q1) é um valor que tem aproximadamente um quarto (25%) das 
observações abaixo de si. O segundo quartil tem aproximadamente 50% das 
observações abaixo de seu valor e corresponde à mediana, medida anteriormente 
estudada. Já o terceiro quartil (Q3) reúne abaixo de si cerca de 75% das 
observações. 
 Para dados não agrupados o primeiro quartil é calculado como a [(n+1)/4]ª 
observação ordenada e o terceiro como a [3(n+1)/4]ª observação ordenada. As 
regras a seguir são úteis para o cálculo dos quartis (LEVINE ET AL., 2005): 
 
1) Se o ponto de posicionamento resultante for um numero inteiro, a 
observação numérica correspondente àquele ordinal será o valor do 
quartil. 
2) Se o ponto de posicionamento estiver entre dois números inteiros, a 
média de seus respectivos valores será tomada como o quartil. 
3) Se o ponto de posicionamento resultante não se tratar de um número 
inteiro, nem correspondente á metade do intervalo entre dois inteiros, 
uma regra a ser aplicada pode ser a de arredondar para o inteiro 
mais próximo e selecionar o valor numérico relativo à observação 
correspondente. 
4) Uma outra regra a ser adotada na situação 3 pode ser interpolar 
entre os valores correspondentes. 
 
 
 
 
 
 
 
cf
Fn
LiMe
Me
ant
.
])5,0[( −
+=
 20
Como exemplo, vamos calcular os quartis para a série de dados abaixo: 
 
9,8 11,3 12,5 13,5 16,5 17,5 18 18,1 18,7 19 20 
21,5 25 38,9 
 
 
Q1 = (n+1)/4 = (14+1)/4 = 3,75 
Assim, pela regra 3 o primeiro quartil corresponde à quarta observação 
ordenada, ou seja, Q1 = 13,5. Por outro lado, 
 
Q3 = 3(n+1)/4 = 11,25, logo o valor de Q3 é aproximado pela décima 
primeira observação ordenada, ou seja, Q3 = 20. 
 
 
3.2 MEDIDAS DE VARIABILIDADE 
 
 A variabilidade está presente em todo e qualquer processo produtivo de 
bens ou serviços. De modo geral, pode-se dizer que a variabilidade é resultado de 
uma série de alterações nas condições sob as quais as observações são tomadas. 
Segundo WERKEMA (1995), tais alterações podem refletir diferenças entre 
matérias-primas, condições de equipamentos, métodos de trabalho, condições 
ambientais e operadores envolvidos no processo. A redução da variabilidade de 
processos permite que a produção de itens cuja característica de interesse esteja 
próxima de um valor alvo desejado e dentro de limites especificados. 
 
 
 
 CÁLCULO DE MEDIDAS DE VARIABILIDADE 
 
 A discrição dos dados através de medidas de locação pode esconder 
importantes informações com respeito variabilidade dos dados. Como exemplo 
ilustrativo, suponha que 3 grupos de alunos submeteram-se a um teste, obtendo-
se os valores abaixo: 
 
GRUPO A 3 4 5 6 7 
GRUPO B 1 3 5 7 9 
GRUPO C 5 5 5 5 5 
 
 Observa-se que a média dos 3 grupos é igual a 5, portanto, estes não 
apresentam diferenças quanto ao aspecto de locação; entretanto a variabilidade 
dos resultados difere bastante entre os 3 grupos, sendo necessária uma medida 
que sumarize esse aspecto. 
Uma medida, de caráter preliminar, de abordagem da dispersão é a 
chamada amplitude do conjunto de dados, correspondente à diferença entre o 
valor máximo e o valor mínimo. No caso dos dados acima, a amplitude do grupo A 
 21
seria: Xmax-Xmin= 7-3 = 4. Para o grupo B seria de 8 (9-1) e para o gruo C seria 
igual a 0 (zero). 
Embora a amplitude seja uma medida simples da variação total nos dados, 
ela não leva em consideração o modo como os dados estão distribuídos entre os 
valores extremos. 
O grau de dispersão ou variabilidade dos dados em torno da média pode 
ser avaliado através de medidas como a variância, o desvio padrão e o coeficiente 
de variação. O princípio básico é medir o desvio das observações (di), em relação 
à média do grupo. No caso dos dados do grupo A acima, teríamos os seguintes 
valores para os di: -2, -1, 0, 2, 2. A variabilidade poderia ser pensada como a 
soma desses desvios, porém essa não é uma boa alternativa porque tal soma é 
igual a zero para qualquer conjunto de dados. Uma alternativa, portanto é 
trabalhar com a soma dos quadrados desses desvios e em seguida obter um 
desvio médio. Desse modo a fórmula para o cálculo da variância populacional de 
um conjunto de dados pode ser expressa como: 
 
 
 Alternativamente, pode-se mostrar que tal expressão pode ser escrita como: 
 
 
 
Ao se trabalhar com amostras, pode-se utilizar a fórmula abaixo, que 
apresenta algumas propriedades interessantes, como representante da variância 
de uma população, lembrando que a diferença entre as duas fórmulas diminui à 
medida que o tamanho da amostra aumenta. 
 
 
 
 
 
Considerando os dados relativos às notas dos alunos do grupo A, temos que: 
 
 
 
n
XX
n
i
i∑
=
−
=
1
2
2
)(
σ
])([1
2
22
n
X
X
n
i
i
∑
∑ −=σ
])([
1
1 222
n
X
X
n
s
i
i
∑
∑ −
−
=
1352 =∑ iX
 22
 
 
Desse modo, aplicando-se a expressão acima, pode-se ver que a variância das 
notas será dada por: 
 
S2 = ¼(135 – 125) = 2,5. 
 
 
No caso de tabelas de freqüência, o cálculo da variância pode ser feito através da 
expressão: 
 
 
 
 
 
Para ilustrar considere o cálculo da variância dos salários dos empregados, a 
partir da Tabela 4: 
 
 
Cálculo da variância dos dados da Tabela 4 (salários dos empregados) 
 
CLASSE DE 
RENDA(sal.min.) 
Freq. 
simples(fi) 
Freq. 
Relativa 
Freq. 
Acumulada (Fi) 
 
Ponto 
médio(Xi) 
 
 
Xifi 
 
 
Xi2fi 
4 |----- 8 7 14,0 7 6 42 252
8 |----- 12 8 16,0 15 10 80 800
12 |----- 16 20 40,0 35 14 280 3920
16 |----- 20 10 20,0 45 18 180 3240
20 |----- 24 5 10,0 50 22 110 2420
TOTAL 50 100,0 - 692 10632
 
 
Desse modo, tem-se que: 
 
 
 
Imagine agora que nosso objetivo fosse avaliar, dentro de um mesmo 
grupo, por exemplo, se há maior grau de dispersão com relação ao peso dos 
])([
1
1 222
n
fXfX
n
s
ii
ii
∑∑ −
−
=
525,21]
50
692632.10[
49
1 22
=−=s
25=∑ iX
 23
indivíduos ou com relação à sua altura, ou, em outro caso, se desejássemos 
comparar o grau de dispersão de grupos com médias bastante distintas. Em tais 
casos não seria aconselhável utilizar o desvio padrão, sendo necessário o uso de 
uma medida de dispersão relativa, adimensional, que é o caso do COEFICIENTE 
DE VARIAÇÃO, cuja expressão corresponde à relação entre o desvio padrão e a 
média aritmética dos dados, sendo portanto escrito como: 
 
 
 
 
 
Uma outra medida de dispersão que pode ser empregada é a 
chamada amplitude interqualtil, representada pela diferença entre o terceiro 
e o primeiro quartis, ou seja: 
 
J = Amplitude Interquartil = Q3-Q1. 
 
Esta medida considera a dispersão nos dados que estão entre os 
50% de observações centrais, não sendo, portanto, influenciada pelas 
observações extremas. 
 
X
s
=γ
 24
3.3 ASSIMETRIA 
 
 Um outro aspecto de interesse na análise de um conjunto de dados refere-
se ao seu formato, ou o grau de assimetria, que está associado com a forma com 
que se distribuem os dados em torno dos valores centrais. Desse modo,pode-se 
encontrar distribuições com os seguintes aspectos: 
No caso da Companhia A tem-se uma distribuição SIMÉTRICA dos 
salários, ou com grau de assimetria zero. Nesse caso a média coincide com a 
mediana. 
 
 
Distribuição dos salários dos empregados do setor de produção da 
Companhia A
0
5
10
15
20
25
30
6 10 14 18 22
sal.min.
fre
q.
 
si
m
pl
es
 25
A Companhia B apresenta uma distribuição com uma ASSIMETRIA 
POSITIVA, ou seja, uma cauda mais acentuada no lado direito da distribuição e 
uma maior concentração em valores mais baixos. Nesse caso, a média é 
aumentada em função de alguns valores elevados incomuns, sendo maior que a 
mediana. 
 
 
 
A distribuição dos salários da Companhia C apresente uma ASSIMETRIA 
NEGATIVA, ou seja, uma concentração mais acentuada nos valores mais 
Distribuição dos salários dos empregados do setor de produção da 
Companhia B
0
2
4
6
8
10
12
14
16
6 10 14 18 22
sal.min.
fre
q.
 
si
m
pl
e
s
Distribuição dos salários dos empregados do setor de produção da 
Companhia C
0
2
4
6
8
10
12
14
16
6 10 14 18 22
sal.min.
fre
q.
 
si
m
pl
e
s
 26
elevados da distribuição. No caso a média é reduzida em função de alguns valores 
mais baixos, sendo inferior à mediana. 
 
E agora se você gostaria de trabalhar em qual das companhias? 
 
 
3.4 - O ESQUEMA DOS CINCO NÚMEROS E O GRÁFICO BOX PLOT 
 
 Tanto a média como o desvio-padrão podem ser bastante afetados por 
observações extremas e não fornecem informação sobre o grau de assimetria da 
distribuição. Para tentar contornar tais dificuldades, TUCKEY (1977) propôs o uso 
de cinco medidas, conhecido como o esquema dos cinco números, que são: a 
Mediana, o primeiro e terceiro Quartis e os valores Extremos do conjunto de 
dados. O esquema pode ser visualizado na figura abaixo: 
 
 Me 
 Q1 Q3 
 Min Max 
 
 O Box Plot é uma representação gráfica que procura descrever, de forma 
simultânea, diversas características importantes de um conjunto de dados, tais 
como tendência central, variabilidade, assimetria e valores extremos ou “outliers”. 
Seu desenho tem como base o esquema dos 5 números, tomando os valores 
extremos como um múltiplo da amplitude interquartil, geralmente considera-se o 
valor de 1,5 vezes a amplitude interquartil. Uma observação a mais de 3 
amplitudes interquartis é considerada um “outlier" “extremo”. O Box Plot é 
representado pela figura abaixo, onde a linha central da caixa corresponde à 
mediana dos dados, com o canto esquerdo (ou inferior) no primeiro quartil e o 
canto direito (ou superior) no terceiro quartil. Os valores de E1 e E2 podem ser os 
valores mínimo e máximo do conjunto de dados ou, alternativamente, obtidos 
como: E1 = Q1 – 1,5 J e E2 = Q3 +1,5 J. 
 
 
E1 Q1 Me Q3 E2 
 
 
 
 
 
 
 
 
 27
 
EXEMPLO: Os dados a seguir representam os retornos anuais para três anos de 
uma amostra de 14 fundos de baixo risco. 
 
 
Tabela 3.1 – Retorno em 3 anos de fundos mútuos de baixo risco 
Fundo Retorno 3Anos
BRINSON Global equity 9,77
Phoenix-Zweig Managed asset C 11,35
AIM Global Gr In A 12,46
MFS Global Tot Ret A 13,8
Fremont Global 15,47
Scudder Global 17,48
Van Kampen Global eq All B 18,37
Fidelity Global balanced 18,47
Tweedy Browne Global Value 18,61
MERRILL LYNCH Gbl Value D 20,72
MORG STAN DW European Growth 21,49
DREYFUS PREMIER Worldwide Gr A 22,47
ACORN Int 31,5
JANUS Worldwide 38,16
 
 FONTE: LEVINE ET AL. 2005
 
 
 A mediana dos dados corresponde à média aritmética entre a 7ª e a 8ª 
observações, ou seja, 18,37 e 18,47, logo, Me = (18,37+18,47)/2 = 18,42. O 
primeiro quartil corresponde à observação (n+1)/4 = 3,75, aproximada pela 4ª 
observação, logo Q1 = 13,8. O terceiro quartil é aproximado pela observação 
(3n+1)/4 = 3(14+1)/4 = 11,25, ou 11ª observação, ou seja, Q3 = 21,49. A amplitude 
interquartil é dada por: J=Q3-Q1=21,49-13,8=7,69. Desse modo, os valores 
extremos podem ser obtidos como: E1= 13,8 - 1,5(7,69) = 2,26 e E3 = 21,49 + 
1,5(7,69) = 33,02. 
 
 28
4 NOÇÕES DE PROBABILIDADE 
 
 
O primeiros estudos começaram com problemas formulados pelo Barão de 
Méré e discutidos por matemáticos como Pascal e Fermat (1654), geralmente 
envolvendo jogos de azar. A teoria de probabilidades se aplica a experimentos 
aleatórios, que são aqueles cujo resultado não podem ser previstos com certeza. 
A despeito do caráter casual que envolve o resultado de um experimento 
aleatório, é possível construir um modelo que o reproduza, sem que seja 
necessária a sua observação. Como exemplo ilustrativo, poderíamos considerar 
um experimento simples como o lançamento sucessivo de um dado. Os resultados 
possíveis e respectivas probabilidades podem ser escritos como: 
 
 
Resultado 1 2 3 4 5 6 
Probabilidade 1/6 1/6 1/6 1/6 1/6 1/6 
 
Ainda como ilustração, considere um lote contendo 50 peças, das quais 10 
são defeituosas e que seja retirada ao acaso uma peça deste lote. Os resultados 
possíveis e respectivas probabilidades podem ser escritos como: 
 
Resultado Perfeita(P) Defeituosa(D) 
Probabilidade 4/5 1/5 
 
 Um modelo probabilístico associado a um experimento aleatório, conforme 
observado acima, pode ser especificado por um espaço amostral (S), que consiste 
no conjunto dos resultados possíveis e por uma probabilidade. Os subconjuntos 
do espaço amostral são denominados de eventos, geralmente denotados por 
letras latinas maiúsculas A,B,C, ou A1, A2, etc. 
 
 
DEFINIÇÕES DE PROBABILIDADE 
 
Uma probabilidade pode ser atribuída com base nas características teóricas 
da realização do experimento, como é o caso do exemplo do lançamento do dado, 
visto anteriormente. No caso, a probabilidade clássica a priori é baseada no 
conhecimento prévio sobre o experimento. No caso mais simples, em que cada 
resultado é igualmente provável (equiprovável), a probabilidade de ocorrência do 
evento é dada pela expressão: 
 
veiscasospossí
favoráveiscasosP = 
 
Uma probabilidade também pode ser obtida de forma empírica, através da 
freqüência relativa. Pode-se verificar que à medida que o número de realizações 
do experimento aumenta, a freqüência relativa de um evento de interesse tende a 
 29
se estabilizar em um valor que representa a sua verdadeira probabilidade. Os 
resultados são baseados em dados observados e não no conhecimento prévio 
sobre o fenômeno investigado. Tal definição de probabilidade pode ser aplicada 
para calcular, por exemplo, a percentagem de indivíduos fumantes em uma 
escola, a proporção de votos de um candidato político ou ainda o percentual de 
analfabetos em uma comunidade. 
Uma probabilidade pode ser definida como uma função que satisfaz os 
seguintes axiomas: 
 
1) P(A) ≥ 0 
 
2) P(S) = 1 
 
 
Onde os Aj , j= 1,2,...n são disjuntos ou excludentes, ou seja, ( Ai ∩ Aj) = ∅ 
 
 
 
ALGUMAS PROPRIEDADES 
 
 1) Seja A um evento qualquer, então 0 ≤ P(A) ≤ 1. 
 2) Seja Ac o chamado evento complementar de A, então P(Ac) = 1 – P(A). 
 3) P(A ∪ B) = P(A) + P(B) – P(A ∩ B), sendo A e B eventos quaisquer. 
 
PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA 
 
 Em muitas situações, o cálculo da probabilidade de um evento pode ser 
feito com base em alguma informação adicional fornecida, sendo o espaço 
amostral atualizado. Essa nova probabilidade recalculada pode ser chamada 
probabilidade condicional. 
 
Definição: dados dois eventos A e B, diz-se que a probabilidade condicional de B 
ocorrer, dado que o evento A ocorreu é dada por: 
 
 
onde P(A) ≥ 0. 
 
Definição: dois eventos A e B são independentes se a informação da ocorrênciade A não altera a chance da ocorrência de B, ou seja: 
 
 P(B|A) = P(B) 
)()()3
11
∑
==
=
n
j
j
n
j
j APAP U
)(
)()|(
AP
BAPABP ∩=
 30
 
Ou seja, 
 
 P(A ∩ B) = P(A).P(B) 
APLICAÇÃO 
 
 A tabela abaixo apresenta o número de alunos matriculados no 
Departamento de Matemática de certa universidade: 
 
CURSO MASC. (M) FEM (F) 
Matemática (A) 60 30 
Física (F) 15 10 
Informática (C) 10 15 
Estatística (D) 15 5 
 
 
Uma pessoa é escolhida ao acaso, calcule as probabilidades seguintes: 
 
a) P(A) 
b) P(D) 
c) P(H) 
d) P(A ∪ M) 
e) P(B ∩ F) 
f) P(M | C). 
 
 
 
 
 31
5. VARIÁVEIS ALEATÓRIAS 
 
Variáveis aleatórias são variáveis numéricas cujos resultados podem variar de 
uma realização para outra do experimento. Podem ser classificadas de acordo 
com o esquema abaixo: 
 
 
 
 DISCRETA 
 Surgem através de um processo de contagem 
Ex: Número de filhos de um casal, Número de 
defeitos em uma chapa metálica, etc 
 
 
 
VARIÁVEL ALEATÓRIA 
 
 
 
 
 
 CONTÍNUA 
Resulta de um processo de medição, assumindo 
valores num conjunto infinito não enumerável 
 Ex: Peso, Altura, Renda, etc. 
 
 
 
 
 
5.1. CASO DISCRETO: 
 
• A variável aleatória assume valores X1, X2, ...... Xn 
• A cada valor se associa uma probabilidade respectiva: p1, p2, ...... pn 
• Pode–se definir uma função de probabilidades, f (x), tal que: 
 
 
 
e 
 
 
Em resumo tem-se: 
0)( ≥xf
∑ === 1)()( xXPxf
 32
 
 
 
 X X1 X2 X3 ...... XN 
 
 
 P ( X = x ) P1 P2 P3 ...... PN 
 
 
 
 
MÉDIA E VARIÂNCIA DE UMA VARIÁVEL DISCRETA: 
 
 
Média: E ( X ) = ∑ Xi . P ( X = xi ) 
 
 
Variância: V ( X ) = E (X2 ) – E2 ( X ) 
 
 Onde: E ( X2 ) = ∑ 2X . P ( X = x ) 
 
 
 
5.2. CASO CONTÍNUO: 
 
• A Variável assume valores em intervalos 
• Pode–se definir a função de densidade de Probabilidades, )(xf , tal que: 
1. 0)( ≥xf 
2. ∫
+∞
∞−
=1)( dxxf
 
3. ∫=<<
b
a
dxxfbXaP )()(
 
 
Distribuição de 
Probabilidades 
 33
APLICAÇÃO: 
 
1) Um lote contém 10 peças, sendo 3 defeituosas. Duas peças são retiradas ao 
acaso, sem reposição. 
 Seja X V.A representando o número de defeituosas. 
a) Determinar o espaço amostral do experimento e suas respectivas 
probabilidades. 
b) Obtenha a distribuição de probabilidades da variável X. 
c) Calcule E ( X ) e V ( X ). 
 
2) Repetir o exercício acima usando amostragem com reposição. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 34
6. MODELOS DISCRETOS: 
 
6.1. DISTRIBUIÇÃO DE BERNOULLI 
 
Seja um experimento com apenas dois resultados possíveis: Sucesso e 
Fracasso. 
Define-se a Variável: X = 1 se ocorre sucesso, com probabilidade p e X = 0, caso 
contrário. 
 
Tem-se então a seguinte distribuição de probabilidades para tal variável: 
 
 
 
 X 0 1 
 
 
 P ( X = x ) ( 1 – P ) P 
 
 
 
É fácil ver que E( X ) = p e V ( X ) = p (1 – p) = pq 
 
 
6.2. DISTRIBUIÇÃO BINOMIAL 
 
 
• Tem-se n realizações independentes de um experimento tipo Bernoulli. 
• A Probabilidade de sucesso “p” é constante. 
• Deseja-se obter a chance de ocorrerem k sucessos nas n realizações. 
 
Seja X Variável aleatória definida como o número de sucessos nas n realizações. 
Então: 
 
P (X = K ) = )( NK . pk. ( 1- p)n-k 
 
 
Verifica-se que, no caso da Distribuição Binomial, temos: 
 
 Média = np e VARIÂNCIA = npq 
 
 
 
 PARÂMETROS 
 
Função de Probabilidades 
Binomial 
 35
 
6.3. MODELO DE POISSON: 
 
Distribuição de probabilidades discreta com importantes aplicações, em 
casos que envolvem contagem de eventos que ocorrem em intervalos de tempo, 
volume, superfície. 
 
APLICAÇÕES: 
 
• Chegada de clientes numa fila 
• Ocorrência de falhas por metro quadrado de tecido produzido 
• Número de chamadas telefônicas que chegam numa central 
• Limite da Distribuição Binomial 
 
Formula: P )( kX = = 
!
)(
k
te Kt λλ−
 
 
Onde: 
 λ = taxa de ocorrências. 
 
 t = n.º de unidades de tempo ou espaço. 
 
 
6.4. MODELO HIPERGEOMÉTRICO 
 
Considere uma população de N elementos, dos quais r têm uma certa 
característica. Retira-se dessa população uma amostra de n elementos. Define-se 
X como o nº de sucessos ( nº de elementos com a característica citada ) na 
amostra. Deseja-se calcular P(X=k), que é dado por: 
 
 
 
 
 
 
 
 
 
 
 
 
)(
))(()( N
n
rN
kn
r
kkXP
−
−
==
 36
APLICAÇÃO: 
 
1. Cerca de 10% das peças produzidas por certa indústria, são defeituosas. 
Numa amostra de 10 peças obtidas ao acaso, determinar a probabilidade de se 
ter: 
a) Exatamente 2 defeituosas 
b) No máximo, uma perfeita 
 
 
 
2. Na fila de certa Agência Bancária, chegam, em média, 5 clientes por minuto. 
a) Nenhum cliente em intervalo de 01 minuto. 
b) Exatamente 06 clientes em 02 minutos. 
 
 
3. Pequenos motores são guardados em caixas com 50 unidades. Um inspetor de 
qualidade examina cada caixa testando 5 motores. Se nenhum deles for 
defeituoso a caixa é aceita. Se houver ao menos um defeituoso toda a caixa é 
testada. Sabendo que há 6 motores com defeito numa caixa, calcule a 
probabilidade desta ser examinada por completo. 
 
 
 
 
 37
7. MODELOS CONTÍNUOS 
 
7.1. DISTRIBUIÇÃO NORMAL 
 
• O exame dos gráficos de freqüência sugere a curva representativa da 
distribuição da variável. 
• As curvas de distribuição permitem o cálculo de probabilidades sobre a 
Variável estudada. 
• A curva normal é uma das mais importantes e utilizadas na Estatística. 
• Muitas variáveis, na prática, seguem o modelo normal. 
• O Modelo Normal possui dois parâmetros: a média (µ) e o desvio padrão 
(σ). 
• Notação X~N( µ,σ ) 
 
GRÁFICO DA CURVA NORMAL: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Do gráfico acima, observa-se algumas importantes propriedades da curva 
normal: 
 
1) A área sob a curva é igual a 1. 
2) A curva é simétrica em relação à sua média. 
3) A curva possui dois pontos de inflexão em (µ + σ) e (µ - σ). 
4) A curva possui um ponto máximo em x = µ. 
 
 
 
 
 
 
 
 
 
 
µ µ + σ µ - σ 
68% 
 38
 
USO DA TABELA NORMAL 
 
Para se calcular probabilidades associadas à curva normal, deve ser utilizar 
p chamado escore padrão, definido como: Z = 
σ
µ−X
. 
A tabela normal aqui utilizada apresenta a área entre 0 (zero) e o escorre 
de interesse: 
 
 
 
 
 
 
 
 
 
 
 
 
Como exemplo, vamos obter as seguintes áreas: 
 
1) P ( 0 < Z < 1 ) = 0,3413 
 
 
 
 
 
 
 
 
 
 
 
 
 
2) P ( Z > 1 ) = 0,50 – 0,3413 
 
 
 
 
 
 
 
 
 
0 z 
0 1 
1 
 39
 
 
 
3) P ( Z > -1 ) = 0,50 + 0,3413 = 0,8413 
 
 
 
 
 
 
 
 
 
 
 
 
 
• A Tabela Normal também pode ser usada no sentido inverso, ou seja: 
Dada uma determinada área, qual o escorre corresponde? 
Considere a situação abaixo: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
-1 0 
z=1,64 
0 z 
5% 
 
 
=5%
 
z = 1,96, 
z 0 - z 
2,5% 
 40
APLICAÇÃO: 
 
Diâmetro de parafusos produzidos por certa indústria,segue o modelo 
normal, com média de 172mm e desvio padrão de 5mm. 
 
a) Qual a proporção de parafusos com diâmetro inferior a 177mm? 
b) Qual a proporção de parafusos com diâmetro entre 167 e 177mm? 
c) Qual o valor acima do qual estão 2,5% dos diâmetros? 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 41
8. DISTRIBUIÇÕES AMOSTRAIS 
 
 
As características de uma população podem ser descritas através de 
estatísticas populacionais, conhecidas como parâmetros, que podem então 
ser definidos como medidas numéricas que descrevem características de 
uma população. Os parâmetros são quantidades desconhecidas que 
precisam ser estimadas com o uso de uma amostra extraída da população. 
Uma importante etapa no trabalho de análise de dados é a inferência 
estatística, onde estatísticas amostrais tais como a média aritmética, o 
desvio padrão ou a proporção, são utilizadas para estimar os parâmetros 
populacionais correspondentes. 
 As distribuições amostrais podem ser vistas como: 
 
• Distribuição de probabilidades de uma estatística amostral 
• Indicam como variam as estatísticas devido a variações no processo de 
amostragem. 
 
Onde está a Variabilidade? 
 
• Na própria estatística 
• Na distribuição da população em estudo 
• Tem relação inversa com o tamanho da amostra 
 
8.1 DISTRIBUIÇÃO AMOSTRAL DE MÉDIAS 
 
Para introduzir a idéias da distribuição amostral de médias, considere o 
exemplo a seguir. 
 
EXEMPLO 8.1: Suponha que nossa população de estudo é formada 
pelo número de defeitos encontrados em quatro chapas metálicas 
produzidas por certa indústria, cujos valores são: 3, 4 e 5. A média 
populacional é dada por: 
 
µ = (3+4+5)/4 = 4 defeitos por chapa. 
 
A variância populacional do número de defeitos é dado por: 
 
6666,0
3
)45()44()43( 2222
=
−+−+−
=σ 
 
Vamos agora selecionas amostras de tamanho 2 dessa população 
que, no total são 32 = 9 amostras possíveis, cujos resultados encontram-se 
na tabela abaixo: 
 
 
 42
 
 
 
Tabela 8.1 - Possíveis amostras de tamanho 2 que podem ser 
extraídas da população do exemplo 8.1 
Amostra Média 
Amostral 
(3,3) 3 
(3,4) 3,5 
(3,5) 4 
(4,3) 3,5 
(4,4) 4 
(4,5) 4,5 
(5,3) 4 
(5,4) 4,5 
(5,5) 5 
 
 
 Como cada uma das 9 amostras tem a mesma chance de ocorrência, a 
distribuição de probabilidades da média amostral é dada por: 
 
 
Tabela 8.2 – Distribuição da média amostral para o exemplo 8.1 
Valor da média Probabilidade 
3 1/9 
3,5 2/9 
4 3/9 
4,5 2/9 
5 1/9 
 
 
 A média da distribuição amostral de médias pode ser obtida como: 
 
4
9
1
.5
9
2
.5,4
9
3
.4
9
2
.5,3
9
1
.3 =++++=
x
µ 
 
 Portanto a média da distribuição amostral de médias é igual à média 
populacional, anteriormente calculada. Por outro lado, a variância da distribuição 
amostral de médias pode ser calculada por: 
 
)()( 222 XEXE
x
−=σ , onde 
 
333,16
9
15
9
2
.5,4
9
3
.4
9
2
.5,3
9
1
.3)( 222222 =++++=XE , portanto: 
333,04333,16)()( 2222 =−=−= XEXE
x
σ 
 43
 
 
 Portanto, a variância da distribuição amostral de médias poderia ser obtida 
como: 
 
3333,0
2
6666,022
===
nx
σ
σ . 
 
 Em resumo, a média da distribuição amostral de médias coincide com a 
média populacional, µµ =
x
, enquanto a variância da distribuição amostral de 
médias equivale a 
n
x
2
2 σσ = , cujo desvio-padrão é dado por 
n
x
σ
σ = . 
 
 
AMOSTRAGEM A PARTIR DE POPULAÇÕES COM DISTRIBUIÇÃO NORMAL 
 
 No caso de populações normalmente distribuídas, com média aritmética µ e 
desvio padrão σ, pode-se mostrar que a distribuição amostral de médias também 
será normalmente distribuída com média µ e desvio padrão 
n
σ
 . A estatística: 
 
σ
µ
σ
µ nxx
z
x
)()( −
=
−
= , 
tem distribuição Normal com media 0 (zero) e desvio padrão 1 (hum). 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 44
 
 
 
 Em resumo, podemos afirmar sobre a distribuição amostral de médias que: 
 
• É obtida a partir da média aritmética de uma série de amostras de 
tamanho n, extraída de uma população que tem média µ e desvio 
padrão σ. 
• A média da distribuição amostral de médias é igual à média populacional 
• A variância da distribuição amostral de médias é dada por: 
 
n
2σ
 
 
• O desvio padrão da distribuição amostral de médias (erro-padrão da 
média) é dado por: 
 
n
σ
 
 
• Para um tamanho de amostra suficientemente grande, a distribuição 
amostral de médias é aproximadamente normal. 
 
• A estatística correspondente à equação abaixo é aproximadamente 
N(0,1). 
 
 
σ
µ nxZ )( −= 
 
 
APLICAÇÃO: 
 
1. Uma indústria de lâmpadas afirma que o tempo de vida de seu produto é de 
100 dias com desvio padrão de 8 dias. Tomando-se uma amostra de 36 
lâmpadas ao acaso, pergunta-se; 
 
 
a) Qual média e desvio padrão da distribuição amostral de médias? 
b) Que percentual de lâmpadas terá vida média superior a 99 dias? 
c) Que percentual de lâmpadas terá vida média entre 99 e 101 dias? 
 
n
Z
z
σ
(
=
 45
8.2 DISTRIBUIÇÕES AMOSTRAL DE PROPORÇÕES 
 
 
Em muitas situações trabalhamos com variáveis de natureza categórica, 
onde cada elemento é classificado como possuidor ou não de certa 
característica, ou variáveis tipo zero-um. Uma determinada peça pode ser 
classificada como defeituosa ou perfeita; um indivíduo pode ser classificado 
como a favor ou contra a pena de morte, etc. Nesses casos é importante 
estimar a proporção de sucessos em uma amostra, obtida como: 
P= X/n, onde X é o número de ocorrências (sucessos) na amostra e n é 
o tamanho da amostra. De forma semelhante ao que foi tratado na 
distribuição amostral de médias podemos resumir, no caso de proporções, 
que: 
 
 
• A média da distribuição amostral de proporções é igual à proporção 
populacional 
• O desvio padrão da distribuição amostral de proporções é dado por: 
 
N
pp
p
)1( −
=σ
 
 
 
• Para amostras suficientemente grandes a distribuição amostral de 
proporções segue o modelo normal. 
• A estatística da equação abaixo é aproximadamente N(0,1). 
 
 
APLICAÇÃO: 
 
1. Cerca de 5% das peças produzidas por certa indústria apresentam defeito de 
fabricação. 
Num lote de 100 peças, qual a probabilidade de se ter 10% ou mais de 
defeituosas? 
σ p
Pp
z
−
=
 46
9. ESTIMAÇÃO: NOÇÕES GERAIS 
 
Vimos que a inferência estatística é o campo da estatística no qual são 
tomadas decisões sobre populações, com base na informação extraída de uma 
amostra. Nesse processo são produzidas estimativas sobre os parâmetros 
populacionais de interesse ou formuladas testes de hipóteses sobre os 
mesmos. Tais estimativas podem ser obtidas de forma pontual ou por 
intervalos. 
 Um gerente de uma empresa de produtos automotivos pode, por exemplo, 
estar interessado em verificar como se comporta a resistência à tração de 
determinado componente, produzido sob diferentes variações na tensão 
elétrica. Inicialmente ele pode estar interessado em estimar a resistência média 
à tração, sob determinada tensão. Nesse caso ele poderá obter uma estimativa 
pontual ou um intervalo de confiança para a resistência média populacional, 
com base em uma amostra obtida. 
 Em uma outra situação ele poderia estar interessado em verificar como se 
comporta a resistência média à tração, sob duas diferentes tensões elétricas 
no momento da produção, para testar se há diferenças estatisticamente 
significativas nesse parâmetro, sob as diferentes condições de produção. 
Nesse caso, eleestaria diante de um problema de decisão, que pode ser 
resolvido via testes de hipóteses estatísticas. A hipótese seria de que a 
resistência média à tração sobre a tensão t1 seria, por exemplo, superior à 
resistência média à tração em peças produzidas sob a tensão t2. 
 
Em resumo, podemos afirmar que: 
 
• Resultados extraídos de uma amostra podem ser usados para produzir 
inferências sobre a população. 
• Parâmetro: medida numérica que descreve alguma característica da 
população. 
• Estatísticas: funções de valores amostrais. 
• A estimação pode ser pontual ou por intervalos 
• Tomadas de decisões sobre parâmetros podem, ser obtidas através do uso de 
testes de hipóteses estatísticas. 
 
O processo de inferência sobre dados estatísticos pode ser sumarizado no 
esquema a seguir: 
 47
 
Pontual – a partir de 
observações calcula-se uma 
estimativa. 
 
ESTIMAÇÃO 
Por intervalo - fixação de 
dois valores com 
probabilidade (1-∝) de conter 
o verdadeiro valor do 
parâmetro. 
AMOSTRAGEM 
 
 
 
 
TESTES DE HIPÓTESES – permite decidir por um 
valor do parâmetro ou por sua modificação, com um 
risco conhecido. 
 
 
A média amostral é um estimador pontual natural da média populacional. 
Com o uso de resultados do chamado Teorema do Limite Central, podemos 
encontrar e expressão para a construção de um intervalo de confiança para a 
verdadeira média populacional. Tal intervalo pode ser obtido pela expressão: 
 
n
Zx σα
2
± , onde: 
 
x Corresponde à média amostral, 
 
 Zα/2 corresponde ao valor tabelado, obtido na tabela da distribuição 
normal, 
 
 α Corresponde ao nível de significância adotado e 
 
 48
 
n
σ
 Corresponde ao desvio-padrão da distribuição amostral da média. 
Para uma probabilidade de 95% de confiança, tal intervalo fica: 
 
n
x
σ96,1± 
 
 O que significa que, construídos dessa forma, cerca de 95% dos intervalos 
conterão o verdadeiro valor do parâmetro µ (média populacional). 
Quando o desvio padrão populacional é desconhecido, o mesmo deve ser 
substituído pela sua estimativa amostral, utilizando-se nesse caso a distribuição t 
de Student em lugar da distribuição Normal. No caso de uma amostra como temos 
que estimar o desvio padrão e o mesmo necessita da estimação prévia da média, 
perde-se um grau de liberdade. Portanto a valor t corresponde a (n-1) graus de 
liberdade. No caso de duas amostras (diferença de médias) tal valor corresponde 
a (n1+n2-2) graus de liberdade. 
 
Estimadores pontuais e por intervalos de alguns parâmetros populacionais 
mais freqüentemente usados, tais como médias, proporções e diferenças de 
médias são resumidos no quadro abaixo: 
 
Quadro 9.1 – Estimador pontual e por intervalo para alguns parâmetros 
populacionais 
 
PARÂMETRO 
 
 
 
ESTIMADOR 
PONTUAL 
 
ESTIMADOR POR INTERVALO 
 
Média 
(com variância conhecida) 
 
___
X 
N
ZX σα 2/
___
/−+
 
 
Média 
 (com variância desconhecida) 
 
___
X 
n
S
tX 2/
___
/ α−+ 
 
Proporção 
^
P 
n
PPZP )1(/ 2/
^
−
−+ α 
 
Diferenças de Médias 
(variâncias conhecidas) 
 2
__
1
__
XX − 
2
2
2
1
2
1
2/2
__
1
__
/)(
nn
ZXX σσα +−+− 
 
Diferenças de Médias 
(variâncias desconhecidas) 
 
2
__
1
__
XX − 
21
2/2
__
1
__ 11/)(
nn
StXX c +−+− α 
 49
 
 
 
 
APLICAÇÃO: 
 
Uma empresa, que enche latas de tinta, tenta manter o peso especificado para o 
produto. Foi selecionada uma amostra de 25 latas que produziu um peso médio de 
5,0Kg e desvio padrão de 1,5Kg, construir um intervalo de confiança para média 
populacional. 
 
 
Uma amostra de 50 componentes eletrônicos, extraída de um grande lote, 
apresenta 5 componentes defeituosos. Construir um intervalo de confiança para a 
proporção de defeituosos no lote. 
 
 50
 
10. TESTES DE HIPÓTESES 
 
10.1 – CONSIDERAÇÕES GERAIS 
 
Testes de hipóteses constituem uma outra face do trabalho de inferência 
estatística e, a exemplo da estimação por intervalos, também fazem uso da 
informação contida em uma amostra. 
Uma hipótese estatística geralmente é uma afirmação sobre parâmetros 
populacionais e o teste de hipóteses um processo de decisão relativo a uma 
hipótese particular. 
A informação de uma amostra aleatória é utilizada para avaliar a 
plausibilidade da hipótese formulada. Se tal informação for consistente com a 
hipótese tenderemos a concluir que não há evidências que favoreçam sua 
rejeição, pois o fato de utilizar apenas uma amostra não nos permite concluir com 
certeza sobre a veracidade ou não de uma hipótese formulada. 
Exemplo 10.1 - Para ilustrar, suponha que uma empresa produtora de 
detergente deseja avaliar se a máquina que enche as garrafas plásticas está 
adequadamente regulada, para o valor especificado de 5 litros, por garrafa e que o 
desvio padrão do processo seja da ordem de 0,5 litros. Caso a máquina esteja 
devidamente regulada, espera-se que o valor médio de uma amostra de garrafas 
concorde com um valor médio de 5 litros. Formula-se então a chamada hipótese 
nula (H0) como sendo: 
 
H0: µ = 5. 
 
Observe que a formulação de tal hipótese leva em conta o parâmetro 
populacional µ, uma vez que o interesse não reside apenas na amostra a ser 
investigada, mas sim na população de todas as garrafas submetidas ao processo 
de enchimento. 
Para contrastar com a hipótese nula, uma outra hipótese deve ser 
enunciada, estabelecendo ou não um sentido para a diferença entre ambas. A 
chamada hipótese alternativa, geralmente é denotada por H1. No caso, suponha 
que tal hipótese seja definida como: 
 
H1: µ ≠ 5. 
 
Caso a hipótese nula seja verdadeira, naturalmente espera-se que a mostra 
investigada forneça um valor médio próximo do especificado pela mesma. Porém, 
devido às variações decorrentes do processo amostral, mesmo que a hipótese 
nula seja verdadeira, é possível que valores diferentes da mesma sejam obtidos. 
Se a média da amostra fornecer um valor muito distante do valor estabelecido na 
hipótese nula, ou seja, 5, seremos levados a concluir que a mesma teria muito 
pouca chance de ser verdadeira e, conseqüentemente, pela irregularidade na 
máquina de enchimento. A metodologia dos testes de hipóteses nos vai fornecer 
 51
elementos claros para melhor aquilatar essas diferenças e conseqüentemente 
tomar uma decisão, com base em critérios probabilísticos. 
Após a formulação das hipóteses, deve ser estabelecida uma estatística do 
teste e investigada sua distribuição amostral, que deve ser conhecida. Em 
seguida, a distribuição amostral da estatística do teste é dividida em duas regiões: 
uma região de aceitação da hipótese nula e uma região de rejeição, também 
conhecida como região crítica, que consiste em valores improváveis de ocorrer 
para a estatística do teste, caso a hipótese nula seja verdadeira. 
Em qualquer processo decisório estamos sujeitos a cometer erros e no 
caso de testes de hipóteses não é diferente. Dois tipos de erros são então 
observados: 
O erro do tipo I que consiste em rejeitar a hipótese nula quando a mesma é 
verdadeira. 
O erro do tipo II que consiste em não rejeitar a hipótese nula quando a 
mesma é falsa. 
A probabilidade de ocorrência do erro do tipo I, denotada por α, é chamada 
de nível de significância do teste. A fixação de um nível de significância determina 
uma região de rejeição de um teste, estabelecendo uma regra de decisão para o 
processo. Usualmente, estes valores são fixados em 1%, 5% ou 10%. 
De forma resumida, o processo de decisão, baseado em um teste de 
hipóteses, pode ser visualizado no seguinte esquema: 
 
 
• Formula-seuma hipótese sobre a Média populacional desconhecida 
• Com base numa amostra de tamanho n procura-se decidir sobre essa 
hipótese 
 
 
 
 
 
 
 Rejeitar a hipótese formulada 
• Toma-se, então, uma decisão 
 
 
 
 
 Não rejeitar a hipótese formulada 
 
 São definidas as Hipóteses: 
 
 H0: 0µµ = (hipótese nula) 
 
 
 H1: 0µµ ≠ (hipótese alternativa) 
EVIDÊNCIAS 
DA 
AMOSTRA 
 52
 
 
 
• Supondo que H0 seja verdade: Qual a probabilidade de se obter, para uma 
amostra n observações, um valor amostral tão ou mais discrepante que a 
média observada? 
• Se tal probabilidade for muito pequena, a média amostral observada não é 
compatível com a hipótese H0. Logo a hipótese formulada tende a ser 
rejeitada. 
• Um teste de hipóteses procura responder a questão: 
 
 
 
 
 
 
 
 
 
• Em geral a regra de decisão para um teste envolve: 
 
- Uma amostra aleatória 
- Uma estatística amostral 
- Uma distribuição amostral da estatística 
- Definição de erros na forma de probabilidades de significância 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
A diferença entre o valor 
amostral e o parâmetro é 
devido apenas ao acaso? 
(variação amostral) 
Resultado 
amostral 
Significativo Rejeição de 
H0 
Variação 
não casual 
Variação 
casual 
Não 
significativo 
Não rejeita 
H0 
 53
 
 
 
 
 
Erros envolvidos num teste de hipóteses: 
 
 
 
CONCLUSÃO DO TESTE 
 
SITUAÇÃO REAL 
 
H0 VERDADE 
 
H0 FALSA 
 
Não Rejeitar H0 
 
Certo 
 
Erro tipo II ( β ) 
 
Rejeitar H0 
 
Erro tipo I (α ) 
 
 
Certo 
 
 
CUIDADO! 
 
• Resultado não significante não prova que, H0 é verdade mas, sim, que os 
dados não forneceram evidência suficiente para rejeita-la. 
• Procurar afastar, na medida do possível, fatores externos que perturbem as 
conclusões. 
 54
10.2 – TESTE DE HIPÓTESE PARA A MÉDIA COM DESVIO PADRÃO 
CONHECIDO 
 
 
 Considere o exemplo 10.1, relativo à máquina de enchimento de 
detergente. O gerente precisa decidir se a máquina está devidamente regulada, 
para um valor médio de 5 litros. Suponha que foi tomada uma amostra de 25 
garrafas, sendo obtido um valor médio de 4,75 litros. 
Foram formuladas as seguintes hipóteses: 
 
H0: µ = 5. 
H1: µ ≠ 5. 
 
No caso o desvio padrão populacional (σ) é conhecido, sendo σ = 0,5. 
A distribuição amostral da média segue o modelo Normal, com média igual 
à média populacional, ou seja, µ, e desvio padrão igual a 
n
σ
. Desse modo, a 
estatística do teste é dada por: 
σ
µ nxZ )( −= . (Quadro 10.1). 
 Fixando um nível de significância de 5%, o tamanho da região crítica é de 
0,05 e os valores críticos da distribuição normal podem ser determinados, uma vez 
que o desvio-padrão é conhecido. Tais valores críticos podem ser colocados na 
forma de unidades de desvio-padrão, chamadas de valor Zcal. Levado em conta 
que o teste aqui exemplificado é bi-lateral, a região crítica é divida em duas partes 
iguais a α/2, no caso 0,05/2 = 0,025. De acordo com a tabela da distribuição 
normal os valores críticos correspondestes a tal área são –1,96 e 1,96, conforme 
ilustrado na figura abaixo: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Uma etapa fundamental nessa abordagem de testes de hipóteses é a 
fixação de uma regra de decisão, que no caso pode ser formulado como rejeitar a 
hipótese nula (H0) se: 
 
Zcal > 1,96 ou se Zcal < -1,96. 
 
 
 
=5%
 
z = 1,96, 
z 0 - z 
2,5% 
 55
 Portanto, no exemplo em questão, tivemos Zcal= -2,5, portanto <-1,96, valor 
na área de rejeição, o que nos permite concluir pela rejeição de H0, indicando que 
há evidências de que a máquina estaria realmente mal regulada. 
 
 5,2
05,0
25)575,4()( 0
−=
−
=
−
=
σ
µ nx
Z cal 
 
 
O NÍVEL DESCRITIVO (valor-p) DE UM TESTE DE HIPÓTESES 
 
 Na abordagem anterior de um teste de hipóteses, partíamos de um valor α 
pré-fixado, entretanto, com a profusão de pacotes estatísticos computacionais, o 
chamado método de valor-p (nível observado de significância) tem assumido 
crucial importância. Tal método consiste na verdade em uma alternativa, que deixa 
a critério do pesquisador que realiza o teste de hipóteses, a possibilidade de 
calcular o nível observado de significância, que representa o menor nível a partir 
do qual a hipótese nula pode ser rejeitada (valor-p). A regra de decisão do nível 
descritivo fica a seguinte: 
 
• Rejeitar H0 se o valor-p for menor que o nível pré-fixado (α), ou 
• Não rejeitar H0 se o valor-p for maior ou igual a α. 
 
Consideremos o exemplo 10.1, abordado agora por este método. Como o 
teste é bi-lateral, teremos que encontrar a probabilidade de que a probabilidade da 
estatística Z do teste seja tão extrema quanto a que foi observada, ou seja, 
precisamos encontrar a probabilidade de que tal estatística seja inferior a –2,50 ou 
superior a 2,50. Consultando a tabela da distribuição normal, chegamos à 
conclusão de que a probabilidade de que o valor de Z ser inferior a –2,5 é de 
0,0062, que pela propriedade de simetria, é igual à probabilidade de que tal 
estatística ser superior a 2,5, logo, o valor-p, ou probabilidade de significância 
observada deste teste é da ordem de 0,0062+0,0062= 0,0124 (1,24%), conforme 
ilustrado na figura abaixo. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
=1,24%
 
z = -2,5 
z 0 - z 
 
0,62% 
 56
 
 Como o valor-p obtido, αp = 1,24% é inferior ao anteriormente fixado (5%), 
chega-se à mesma conclusão da abordagem anterior,ou seja, conclui-se pela 
rejeição da hipótese H0. 
 Convém ressaltar que a hipótese alternativa (H1) ode ser definida em 
termos de valores unilaterais, ou seja: 
 H1: µ < µ0 ou ainda H1: µ > µ0. 
 
O quadro abaixo apresenta um resumo das estatísticas e distribuições 
utilizadas nos principais testes de hipótese: 
 
Quadro 10.1 – Estatísticas associadas a alguns testes de hipóteses 
 
TESTE 
 
 
DISTRIBUIÇÃO 
 
ESTATÍSTICA 
 
Média com desvio padrão conhecido 
 
 
Normal 
 
NXZ d σ
µ )( 0
__
−
= 
 
Média com desvio padrão desconhecido 
 
t com (N-1)G.L. 
S
NX
t d
)( 0
__
µ−
= 
 
Diferença de médias: amostras pareadas 
 
t com (N-1)G.L. 
St dd
ND 0
__
= 
 
Diferença de médias: amostras 
independentes 
Desvio padrão conhecido 
 
Normal 
2
2
2
1
2
1
2
__
1
__
NN
XXZ d
σσ
+
−
= 
 
Diferença de médias: amostras 
independentes 
Desvio padrão desconhecidos e iguais 
 
t com (N+N-2)G.L. 
)11(
21
2
2
__
1
__
NN
XX
S
t
c
d
+
−
=
 
 
Proporção 
 
Normal 
nPP
PPZ d /1( 00
0
−
−
= 
 
 
 
 
 
OBS: 
2
)1()1(
21
2
22
2
112
−+
−+−
=
NN
SNSNS c 
 
VARIÂNCIA 
COMBINADA 
 57
APLICAÇÃO: 
1. Um fabricante de lajotas de cerâmica sabe que a resistência de seu produto 
segue o modelo Normal com media de 206kg e desvio padrão de 12kg. Retira-
se uma amostra de 30 lajotas obtendouma resistência média (x ) de 210kg. Ao 
nível de 10% pode-se aceitar que a resistência média tenha aumentado? 
 
 
 
 
2. Certa indústria automobilística afirma que seu carro consome em média 12Km/l 
de gasolina. 
Um teste com 5 automóveis revelou os seguintes valores: 10,0 11,5 12,0 11,8 
11,6. Com base nesses resultados o que se pode concluir quanto à afirmação 
do fabricante? 
 
 
3. Uma grande rede de supermercados deseja saber se o gasto médio por 
cliente, na filial de Boa Viagem, é estatisticamente superior à filial de 
Encruzilhada. Para isto tomou amostras de clientes em ambas as lojas, 
obtendo os seguintes resultados: 
 
 
 
BAIRRO 
 
 
N.º DE ELEMENTOS 
 
MÉDIA 
 
DESVIO PADRÃO 
 
Boa Viagem 
 
 
15 
 
80 
 
6 
 
Encruzilhada 
 
 
10 
 
72 
 
9 
 
Qual a sua conclusão sobre o experimento? 
 58
11. CORRELAÇÃO 
 
Coeficientes de correlação têm como objetivo principal avaliar o tipo de 
intensidade da relação entre duas variáveis. 
 
11.1. DIAGRAMA DE DISPERSÃO 
 
• Gráfico que representa no plano cartesiano duas variáveis quantitativas 
• Ferramenta simples que permite aprofundar o estudo da associação entre 2 
variáveis. 
 
Exemplo: 
 
Na tabela abaixo, estão representadas o tempo de serviço e o volume de 
vendas semanais de uma amostra de 5 vendedores de determinado produto: 
 
 
VENDEDOR TEMPO DE 
SERVIÇO 
VENDAS 
(Anos) ( Unidades) 
A 1 35 
B 3 40 
C 4 42 
D 6 50 
E 8 55 
 
 
 
Diagrama de dispersão correspondente: 
 
 
 
0 1 2 3 4 5 6 7 8 9
3 5
4 0
4 5
5 0
5 5
Y 
ve
n
da
s
X te m p o
 59
INTERPRETAÇÃO DO DIAGRAMA DE DISPERSÃO: 
 
 
De acordo com o exame do diagrama de dispersão, podemos ter as seguintes 
situações: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Correlação 
Forte 
Positiva 
rxy → 1 
x 
y 
Correlação Forte 
Negativa 
rxy→ -1 
y 
x 
Correlação 
Perfeita Positiva 
rxy= 1 
x 
y 
Correlação 
Perfeita 
Negativa 
rxy= - 1 
y 
x 
Ausência de 
Correlação 
rxy→ 0 
x 
y 
Correlação 
Não Linear 
y 
x 
 60
 
 
• Quando as variáveis crescem no mesmo sentido temos o caso de correlação 
positiva. 
• Quando as variáveis crescem em sentidos opostos temos uma correlação 
negativa. 
• Se os dados estão perfeitamente alinhados sobre uma reta temos uma 
correlação perfeita. 
• Quando o crescimento de uma variável é acompanhado de variações casuais 
da outra variável a correlação é nula. 
 
 
11.2. COEFICIENTE DE CORRELAÇÃO LINEAR 
 
 
Para medir o grau da associação linear entre duas variáveis 
quantitativas usamos o coeficiente de correlação linear cuja fórmula é: 
 
YYXX
XY
XY SS
S
r = , onde 
 
 
∑ ∑ ∑−=
n
YX
XYS XY 
 
∑
∑
−=
n
X
XS XX
2
2 )(
 
 
 
∑
∑
−=
n
Y
YSYY
2
2 )(
 
 
 
 
 
CUIDADO! 
 
• Correlação não implica em relação de causa efeito. 
• Podemos, por exemplo, encontrar uma alta correlação entre o n. º de 
internações por desidratação e a venda de sorvetes, e a verdadeira 
causa pode ser o aumento da temperatura. 
 
 61
O coeficiente de correlação linear rxy varia entre -1 e 1. Quanto mais 
próximo de 1 maior o grau de associação linear positiva entre as variáveis e 
quanto mais próximo de –1 maior o grau de associação negativa. 
 
 
12 - REGRESSÃO LINEAR SIMPLES 
 
 
O diagrama de dispersão pode revelar importantes informações acerca da 
relação entre duas variáveis X e Y, que pode assumir a forma de funções 
matemáticas simples ou mais complicadas. Quando os pontos traçados no 
diagrama de dispersão se agrupam em torno de uma reta, podemos obter a 
equação dessa reta e assim determinar um modelo matemático para a relação 
entre as variáveis. Tal modelo tem a seguinte forma: 
 
Yi = A + BXi + ei, onde: 
 
Yi = variável dependente ou variável resposta. 
Xi = variável explicativa 
A = coeficiente linear da reta ou ponto de interseção de Y 
B = coeficiente angular da reta ou inclinação. 
 
O coeficiente linear da reta corresponde ao ponto onde a mesma corta o 
eixo-Y, ou seja, o ponto onde o valor da variável explicativa X é zero. A inclinação 
indica o quanto varia a média da variável Y para o aumento de uma unidade na 
variável X. 
Este modelo tem uma série de hipóteses que permitem estimar seus 
parâmetros e proceder a inferências sobre os mesmos (BUSSAB, 1986). A reta 
que melhor se aproxima dos dados, chamada reta de mínimos quadrados, 
representada pela expressão: 
 
ii bXaY +=
)
 , que pode ser obtida a partir da minimização da soma dos 
quadrados dos desvios, que representam as diferenças entre valores observados 
e estimados para a variável dependente Y, ou seja, minimizando a expressão: 
 
 
∑∑ +−=−= 22 )]([)( iiii bXaYYYF
)
 
 
Os valores dos coeficientes linear e angular resultantes desse processo de 
minimização podem ser escritos como: 
 
xbyae
S
Sb
XX
XY
−== 
 
 62
 Quando os desvios ou resíduos são valores pequenos é sinal de que o 
modelo está produzindo resultados compensadores. Para uma avaliação da 
capacidade preditiva da variável explicativa no contexto do modelo linear ajustado, 
diversas alternativas podem ser utilizadas. Inicialmente podemos obter uma 
medida, chamada soma de quadrados total, que corresponde à variação 
quadrática os valores de Y em torno de sua média aritmética, ou seja: 
 
 ∑ −= 2)( YYSQTOTAL i 
 
 Tal soma de quadrados pode ser desmembrada um duas outras somas: 
uma que corresponde à soma dos quadrados dos desvios da regressão e a outra 
que corresponde à variação explicada pelo modelo ou soma dos quadrados da 
regressão, ou seja: 
 
 ∑∑ −+−= 22 )ˆ()ˆ( YYYYSQTOTAL iii , ou seja, 
 
 SQTOTAL = SQRESIDUAL + SQREGRESSÃO. 
 
 A relação entre a variação explicada pelo modelo ajustado 
(SQREGRESSÂO) e a variação total (SQTOTAL) mede o potencial explicativo do 
modelo ajustado, ou o percentual de variação explicada. Tal relação é conhecida 
como coeficiente de variação R2, ou seja: 
 
 
SQTOTAL
OSQREGRESSAR =2 
 
 O valor de R2 varia no intervalo de zero a 1, ou de zero a 100% e 
naturalmente quanto mais próximo de 100% maior o poder explicativo do modelo 
ajustado. 
 Pode-se mostrar que o cálculo da SQREGRESSAO pode ser feito com o 
uso de: 
 
 SQREGRESSAO = bSxy. 
 
 
APLICAÇÃO: 
 
Com os dados da tabela, sobre o tempo de serviço e vendas, obtenha: 
a) Coeficiente de correlação entre as variáveis 
b) A reta de regressão 
c) Qual o valor das vendas semanais para um empregado com 7 anos de 
experiência? 
 63
NOÇÕES DE CONTROLE ESTATÍSTICO DE PROCESSOS (CEP) 
 
A qualidade de produtos e serviços tem se tornado um fator crucial no mundo dos 
negócios, independente se o consumidor seja um sujeito ou empresa. O nível de 
exigência e a competitividade tem acentuado ainda mais a busca por produtos de 
melhor qualidade, considerando que este termo está diretamente associado ao 
que se denomina pela “adequação ao uso” 
Os métodos estatísticos desempenham um papel fundamental nos processos de 
melhoria da qualidade de produtos e de serviços e estão diretamente associados a 
fatores tais como: aumento na competitividade; eliminação de desperdícios; 
redução na necessidade de inspeção, além do aumento no grau de satisfação dos 
clientes. 
O Controle Estatístico de Processos (CEP) consiste em um conjunto de 
ferramentas cuja função primordial é buscar a estabilidade de um processo e 
melhorar a sua capacidade,

Outros materiais