Buscar

Apostila de Probabilidade E Estatística

Prévia do material em texto

Universidade de São Paulo
Disciplina: Climatologia II – ACA 0226
Introdução à Estatística Aplicada à Climatologia
Parte II – Distribuições de Probabilidades
Projeto PAE
Bolsista: Michelle S. Reboita
2
São Paulo, 2005.
Projeto PAE – Bolsista: Michelle S. Reboita
Sumário
1	Introdução à Distribuição de Probabilidades	3
2	Definições	4
2.1	Variável Aleatória	4
2.2	Distribuição de Probabilidades	5
2.2.1 Noções Iniciais	5
2.2.2 Distribuição Teórica	8
2.2.3 Parâmetros e Estatísticas	8
 2.2.4	Distribuição Discreta e Contínua	9
3	Distribuições Contínuas	9
3.1	Distribuição Normal	11
3.2	Distribuição Gamma	21
3.3	Distribuição de Valores Extremos	27
3.4	Distribuição Exponencial	34
4 	Distribuições Discretas	36
4.1 Distribuição Binomial	37
4.2 Distribuição de Poisson	39
4.3	Distribuição Geométrica	42
5	Referências	46
Introdução à Distribuição de Probabilidades
Um erro muito comum em análise de dados climatológicos é desprezar as características da distribuição de probabilidades mais adequada para os dados em estudo. O mais freqüente é adotar-se, a priori, a distribuição normal o que pode resultar, se os dados não seguem essa distribuição, em conclusões erradas. Isso ocorre, provavelmente, porque a distribuição normal foi a primeira distribuição de probabilidades estudada e pelo fato de existir facilidade na estimativa dos seus parâmetros e das probabilidades (Assis et al., 1996).
	Contudo, os procedimentos para se determinar qual a distribuição de probabilidade mais adequada para um certo conjunto de informações é relativamente simples e, uma única distribuição pode ter um vasto espectro de aplicação. Por exemplo: os totais anuais de precipitação têm distribuição aproximadamente normal; os totais mensais da mesma variável têm distribuição fortemente assimétrica e a de totais diários de chuva é mais assimétrica ainda. Entretanto, todos esses conjuntos de dados podem ser adequadamente ajustados à distribuição de probabilidades gamma.
	Na figura 1 é apresentado os tipos mais comuns de distribuições de probabilidades encontrados em climatologia. A figura 1 A representa uma distribuição simétrica, típica da distribuição normal de probabilidades que, geralmente, se ajusta bem aos dados de temperatura horária; o histograma da figura 1 B é de uma distribuição com forte assimetria, com forma de Jota invertido, forma típica da distribuição dos totais diários de chuva; a figura 1 C representa uma forma de distribuição típica de dados que variam no intervalo (0,1), como umidade relativa, razão de insolação e índice de seca; a figura 1 D mostra uma distribuição cujo histograma de freqüências sugere a forma da letra U, a qual é comumente encontrada nos dados de insolação diária; a distribuição da figura 1 F representa uma distribuição uniforme, um caso da distribuição beta com dois parâmetros iguais à unidade.
Neste material abordaremos os conceitos de variável aleatória, distribuição de probabilidades e processos para cálculo da esperança e variância de uma distribuição de probabilidades. 
Figura 1. Tipos de distribuições mais comuns em climatologia (Assis, et al., 1996, pg. 36). 
Definições
Variável Aleatória
A variável aleatória é uma variável que tem um valor único (determinado aleatoriamente) para cada resultado de um experimento. A palavra aleatória indica que em geral só conhecemos aquele valor depois do experimento ser realizado (Triola, 1998).
Exemplos de variáveis aleatórias:
número de alunos que não compareceram a aula de estatística num determinado dia;
altura de um adulto do sexo masculino selecionado aleatoriamente.
No material correspondente a Parte I foi realizada uma distinção entre dados discretos e dados contínuos. As variáveis aleatórias também podem ser discretas ou contínuas.
Variável aleatória discreta: é aquela que assume valores inteiros e finitos.
Variável aleatória contínua: é aquela que pode assumir inúmeros valores num intervalo de números reais e é medida numa escala contínua. 
Distribuição de Probabilidades
2.2.1 Noções Iniciais
Além de identificar os valores de uma variável aleatória, freqüentemente podemos atribuir uma probabilidade a cada um desses valores. Quando conhecemos todos os valores de uma variável aleatória juntamente com suas respectivas probabilidades, temos uma distribuição de probabilidades. 
A distribuição de probabilidades associa uma probabilidade a cada resultado numérico de um experimento, ou seja, dá a probabilidade de cada valor de uma variável aleatória. Por exemplo, no lançamento de um dado cada face tem a mesma probabilidade de ocorrência que é 1/6.
Como os valores das distribuições de probabilidades são probabilidades, e como as variáveis aleatórias devem tomar um de seus valores, temos as duas regras a seguir que se aplicam a qualquer distribuição de probabilidades: 
1. A soma de todos os valores de uma distribuição de probabilidades deve ser igual a 1
P(x) = 1, onde x toma todos os valores possíveis
2. A probabilidade de ocorrência de um evento deve ser maior do que zero e menor do que 1
0 P (x) 1 para todo x
	
	No exemplo do lançamento de um dado, como todas as faces têm a mesma probabilidade de ocorrência que é 1/6 ao somá-las obtemos o valor 1, que corresponde a primeira regra citada acima. O valor 1/6 é maior do que zero e menor do que 1, assim satisfaz a segunda regra acima.
A distribuição de probabilidades pode ser representada por um histograma de probabilidades. Este se assemelha ao histograma de freqüências apresentado na Parte I, entretanto a escala vertical representa probabilidades, em lugar das freqüências relativas. 
O histograma de probabilidades nos permite visualizar a forma da distribuição. A média, a variância e o desvio-padrão traduzem outras características. Para uma distribuição de probabilidades, essas medidas podem ser determinadas usando as expressões mostradas na tabela 1.
Tabela 1. Expressões para cálculo da média, variância e desvio-padrão das distribuições de probabilidades.
	Média
	=x P(x)
	Variância
	2=[(x-)2 P(x)]
	Variância
	2=[x2 P(x)] - 2
	Desvio-Padrão
	=([x2 P(x)] - 2)1/2
 
Ao calcularmos a média de uma distribuição de probabilidades, obtemos o valor médio que esperaríamos ter se pudéssemos repetir as provas indefinitivamente. Não obtemos o valor que esperamos ocorrer com maior freqüência. Já o desvio-padrão nos dá uma medida de quanto a distribuição de probabilidades se dispersa em torna da média. Um grande desvio-padrão reflete dispersão considerável, enquanto que um desvio-padrão menor traduz menor variabilidade, com valores relativamente mais próximos da média. Estas fórmulas podem ser utilizadas para qualquer distribuição de probabilidades, entretanto, veremos mais adiante que elas podem ser simplificadas dependendo do tipo de distribuição.
	A média de uma variável aleatória discreta é o resultado médio teórico de um número infinito de provas. Podemos encarar essa média como o valor esperado no sentido de que é o valor médio que esperaríamos obter se as provas se prolongassem indefinitivamente. As aplicações do valor esperado (também chamado esperança ou esperança matemática) são extensas e variadas e o mesmo desempenha um papel de extrema importância em uma área de aplicação chamada teoria da decisão.
	O valor esperado de uma variável aleatória discreta é denotado por E e representa o valor médio dos resultados:
	E = x P(x)
	(1)
Observamos que E=. Isto é, a média de uma variável aleatória discreta coincide com seu valor esperado.
Exemplo (extraído de Triola, 1998, pag 96): Na tabela abaixo são fornecidas as probabilidades de ocorrências de um determinado evento. Entretanto, o objetivo da mesma é enfatizar o cálculo da média, da variância e do desvio-padrão. Juntamente com a tabela será mostrado o histograma de probabilidades. 
Tabela 2. Cálculo da média, variânciae desvio-padrão para uma distribuição de probabilidades.
	X
	P(x)
	x P(x)
	x2
	x2 P(x)
	0
	0,210
	0,000
	0
	0,000
	1
	0,367
	0,367
	1
	0,367
	2
	0,275
	0,550
	4
	1,100
	3
	0,115
	0,345
	9
	1,035
	4
	0,029
	0,116
	16
	0,464
	5
	0,004
	0,020
	25
	0,100
	6
	0
	0,000
	36
	0,000
	7
	0
	0,000
	49
	0,000
	Total
	1,000
	1,398
	-
	3,066
=x P(x) = 1,398 = 1,4
2=[x2 P(x)] - 2 = 3,066-1,3982 =1,111596 = 1,1
=(1,111596)1/2 = 1,054323 = 1,1
Figura 2. Histograma de probabilidades.
	As distribuições de freqüências construídas a partir de observações podem ser representadas através de formas matemáticas. Então, as formas matemáticas utilizadas para a idealização dos dados reais são referidas como distribuições teóricas.
	As distribuições teóricas representam os dados aproximadamente, embora em muitos casos a aproximação pode ser muito boa. Basicamente, há três aspectos em que o emprego das distribuições de probabilidade teóricas podem ser útil (Wilks, 1995):
Compacidade: é trabalhoso lidar com grandes conjuntos de dados brutos, sendo que às vezes, também pode haver limitações para a análise. Uma distribuição teórica bem ajustada à série de dados reduz o número de trabalho exigido para a caracterizar as propriedades da mesma.
Alisamento e interpolação: os dados reais estão sujeitos a variações na amostragem que podem levar a falha de dados ou a dados errôneos nas distribuições empíricas. Por exemplo, numa amostra de dados de temperatura máxima de uma cidade, localizada na região tropical, não foram observadas temperaturas máximas entre 30 e 35ºC no verão, embora certamente temperaturas máximas nesta faixa podem ocorrer. A imposição de uma distribuição teórica sobre estes dados representaria a possibilidade dessas temperaturas ocorrerem, tanto quanto permitiria estimar a suas probabilidades de ocorrência.
Extrapolação: estimar a probabilidade de eventos extremos a variação de um conjunto de dados particular exige a suposição de eventos ainda não observados. Isso pode ser realizado com a imposição de um modelo de probabilidade (isto é, uma distribuição teórica) ajustado a série de dados.
2.2.2 Distribuição Teórica
	Uma distribuição teórica é um modelo matemático. A natureza específica de uma distribuição teórica é determinada por valores particulares através de uma entidade chamada parâmetros da distribuição. As distribuições teóricas também são chamadas de distribuições paramétricas, porque seus atributos específicos dependem dos valores numéricos de seus parâmetros. 
2.2.3 Parâmetros e Estatísticas
	É comum a confusão entre parâmetros da distribuição e estatísticas da amostra. Os parâmetros da distribuição são as características de uma distribuição teórica particular. Eles representam sucintamente as propriedades fundamentais de uma população. Já as estatísticas são quantidades calculadas a partir de uma amostra de dados. A confusão entre eles pode ser devido a algumas distribuições teóricas comuns onde estatísticas são bons estimadores para os parâmetros da população. Por exemplo, o desvio-padrão da amostra, s, pode ser confundido com o parâmetro da distribuição Gaussiana porque os dois são iguais quando a distribuição Gaussiana representa bem os dados amostrais. Para esta distribuição a média da amostra é igual ao parâmetro e o desvio-padrão é igual ao parâmetro . É importante ressaltar que nem sempre os parâmetros das distribuições são encontrados usando estatísticas das amostras. Normalmente, a notação para estatísticas da amostra envolve letras romanas e para os parâmetros envolve letras gregas.
Distribuição Discreta e Contínua
Há dois tipos de distribuições teóricas que correspondem a diferentes tipos de dados ou variáveis aleatórias: a distribuição discreta e a distribuição contínua.
A distribuição discreta descreve quantidades aleatórias (dados de interesse) que podem assumir valores particulares e os valores são finitos. Por exemplo, uma variável aleatória discreta pode assumir somente os valores 0 e 1, ou qualquer inteiro não negativo, etc. Um exemplo de variável climatológica discreta são as tempestades com granizo. 
A distribuição contínua representa quantidades aleatórias contínuas que podem tomar qualquer valor dentro de um intervalo especificado dos números reais. Por exemplo, uma variável aleatória contínua deve ser definida entre os números reais 0 e 1, ou números reais não negativos ou, para algumas distribuições, qualquer número real. A temperatura, a pressão, a precipitação ou qualquer elemento medido numa escala contínua é uma variável aleatória contínua.
Existem várias distribuições discretas e contínuas, algumas delas serão mostradas abaixo. As explicações iniciarão com as distribuições contínuas.
Distribuições Contínuas
	A maioria das variáveis atmosféricas podem assumir valores contínuos. A temperatura, a precipitação, a altura geopotencial, a velocidade do vento, e outras quantidades não estão restritas a valores inteiros de unidades físicas em que são medidas. Embora a natureza da medição e os sistemas de relatos é tal que as medidas atmosféricas são arredondadas para valores discretos, mas o conjunto de valores observados normalmente é grande o suficiente para que a maioria das variáveis possam ainda ser tratadas como quantidades contínuas. 
	Existem duas funções associadas a cada variável contínua X: a função densidade de probabilidade, simbolizada por f(X), e a função cumulativa de probabilidade, ou função de distribuição de probabilidade representada por F(X). A função f(X) é aquela cuja integral de X = a até X = b (b a) dá a probabilidade de que X assuma valores compreendidos no intervalo (a, b), ou seja,
	
	(2)
A função cumulativa de probabilidade F(b) é tal que:
	
	(3)
A distribuição exponencial, por exemplo, tem a seguinte função densidade de probabilidade:
	
	(4)
com x 0. A sua função cumulativa de probabilidade é do tipo:
	
	(5)
	Qualquer função definida no campo real só pode ser considerada como uma função densidade de probabilidade se forem satisfeitas as seguintes condições:
	
	(6)
para todo X e
	
	(7)
	A probabilidade de que a variável X assuma valores no intervalo (a, b) é dada por:
	
	(8)
e a probabilidade de que a variável contínua X assuma um valor em particular, b, por exemplo, é:
	
	(9)
Há muitas distribuições teóricas contínuas. Algumas das mais usadas em ciências atmosféricas são: distribuição normal, distribuição gamma, distribuição de valores extremos e distribuição exponencial. Neste material vamos tratar dos modelos probabilísticos citados, que têm importância prática na investigação científica, abordando as formas das funções densidade de probabilidade, bem como a esperança e a variância.
	Distribuição Normal
	A distribuição de probabilidade contínua mais importante e mais utilizada é a distribuição normal, geralmente citada como curva normal ou curva de Gauss. Sua importância em análise matemática resulta do fato de que muitas técnicas estatísticas, como análise de variância, de regressão e alguns testes de hipótese, assumem e exigem a normalidade dos dados. Além disso, a ampla aplicação dessa distribuição vem em parte devido ao teorema do limite central. Este teorema declara que na medida em que o tamanho da amostra aumenta, a distribuição amostral das médias amostrais tende para uma distribuição normal (Triola, 1998). Esta explicação parece um pouco complicada, portanto segue uma abordagem mais detalhada sobre a mesma.
3.1.1 Teorema do Limite Central
	A capacidade de usar amostras para fazer inferências sobre parâmetros populacionais depende do conhecimento da distribuição amostral. Para obtermos uma distribuição amostral é necessário repetir n vezes um experimento e após calcular a média das amostras. Este procedimento fornece um novo conjunto de dados que é denominado de distribuiçãoamostral. Na verdade o que o teorema do limite central quer dizer é que se uma população tem distribuição normal, a distribuição das médias amostrais extraídas da população também terá distribuição normal, para qualquer tamanho de amostra. Além disso, mesmo no caso de uma distribuição não-normal, a distribuição das médias amostrais será aproximadamente normal, desde que a amostra seja grande. Este é um resultado notável, na verdade, pois nos diz que não é necessário conhecer a distribuição de uma população para podermos fazer inferência sobre ela a partir de dados amostrais. A única restrição é que o tamanho da amostra seja grande. Uma regra prática muito usada é que a amostra deve consistir de 30 ou mais observações. 
	Estes resultados são conhecidos como o Teorema do Limite Central e representam talvez o conceito mais importante na inferência estatística (Stevenson, 1981).
	Agora será mostrado um exemplo ilustrativo adaptado de Triola (1998, pg. 126). Vamos realizar quatro amostragens para identificar o último algarismo do Número do Seguro Social (NSS) de estudantes de uma determinada cidade. Ou seja, selecionaremos na primeira amostragem 50 estudantes e verificamos o último algarismo do NSS, repetimos por mais três vezes esse procedimento e como resultado obtemos a tabela 3. Nesta tabela se combinarmos as amostras numa grande coleção de duzentos números, obtemos uma média e um desvio-padrão s = 2,8 e, uma distribuição aproximadamente uniforme como mostra o gráfico da figura 3. Entretanto, se calcularmos as médias das amostras (linhas da tabela), obtemos as médias amostrais e estas possuem uma distribuição normal (figura 4). Conclui-se que embora a coleção original de dados tenha uma distribuição aproximadamente uniforme, as médias amostrais têm distribuição aproximadamente normal. O conjunto original de 200 números tem distribuição uniforme (porque os algarismos 0-9 ocorrem aproximadamente com a mesma freqüência), mas as 50 médias amostrais têm distribuição normal. É um fenômeno verdadeiramente fascinante e intrigante na estatística que, extraindo amostras de qualquer distribuição, possamos criar uma distribuição normal ou, ao menos, aproximadamente normal.
	Em geral, a distribuição amostral das médias amostrais é a distribuição das médias amostrais quando extraímos repetidas amostras de mesmo tamanho, da mesma população. Em outras palavras, se extrairmos amostras de mesmo tamanho da mesma população, calculamos suas médias e construímos um histograma destas médias, esse histograma tende para a forma de um sino de uma distribuição normal. Isto é verdade independentemente da forma da distribuição da população original.
	Suponhamos que a variável x represente notas que podem ter, ou não, distribuição normal, e que a média dos valores x seja e o desvio-padrão seja . Suponha que coletemos amostras de tamanho n e calculemos as médias amostrais. O que sabemos sobre a coleção de todas as médias amostrais que obtemos repetindo esse experimento? O Teorema do Limite Central nos diz que, na medida em que o tamanho n da amostra aumenta, a distribuição amostral das médias amostrais tente para uma distribuição normal com média e desvio-padrão . A distribuição das médias amostrais tende para uma distribuição normal no sentido de que, quando n aumenta, a distribuição das médias amostrais se aproxima de uma distribuição normal. Essa conclusão não é obvia intuitivamente; foi obtida após extensa pesquisa de análise. 
	Embora a demonstração formal rigorosa exija recursos da matemática avançada, ultrapassando o âmbito deste material, podemos encontrar uma certa justificativa com base nos dados da tabela 3. Se selecionamos aleatoriamente amostras de algarismos de uma população distribuída uniformemente com média = 4,5, as médias amostrais resultantes também tenderão a centrar-se em torno de 4,5, de modo que as médias amostrais também têm média 4,5; a média das 50 médias amostrais da tabela 3 é, de fato, 4,5. inspecionando visualmente os 200 algarismos da tabela 3, vemos que eles variam de 0 a 9, mas as 50 médias amostrais acusam menor variação indo de 1,75 a 8,25. O conjunto original de 200 algarismos tem desvio-padrão de 2,8, mas as 50 médias amostrais têm um desvio-padrão de 1,4, que é menor, conforme esperado. 
Tabela 3. Amostragens do Número do Seguro Social de estudantes de uma determinada cidade.
 
	Amostra I
	Amostra II
	Amostra III
	Amostra IV
	Média
	1
	8
	6
	4
	4,75
	5
	3
	3
	6
	4,25
	9
	8
	8
	8
	8,25
	5
	1
	2
	5
	3,25
	9
	3
	3
	5
	5,00
	4
	2
	6
	2
	3,50
	7
	7
	1
	6
	5,25
	9
	1
	5
	4
	4,75
	5
	3
	3
	9
	5,00
	7
	8
	4
	1
	5,00
	0
	5
	6
	1
	3,00
	9
	8
	2
	2
	5,25
	6
	1
	5
	7
	4,75
	8
	1
	3
	0
	3,00
	5
	9
	6
	9
	7,25
	6
	2
	3
	4
	3,75
	7
	4
	0
	7
	4,50
	5
	7
	5
	6
	5,75
	4
	1
	5
	7
	4,25
	1
	2
	0
	6
	2,25
	4
	0
	2
	8
	3,50
	3
	1
	2
	5
	2,75
	0
	3
	4
	0
	1,75
	1
	5
	1
	0
	1,75
	9
	7
	4
	0
	5,00
	7
	3
	1
	1
	3,00
	9
	1
	1
	3
	3,50
	8
	6
	5
	9
	7,00
	5
	6
	4
	1
	4,00
	9
	3
	9
	5
	6,50
	6
	0
	7
	3
	4,00
	8
	2
	9
	6
	6,25
	0
	2
	8
	6
	4,00
	2
	0
	9
	7
	4,50
	5
	8
	9
	0
	5,50
	6
	5
	4
	9
	6,00
	4
	8
	7
	6
	6,25
	7
	1
	2
	0
	2,50
	2
	9
	5
	0
	4,00
	8
	3
	2
	2
	3,75
	2
	7
	1
	6
	4,00
	6
	7
	7
	1
	5,25
	2
	3
	3
	9
	4,25
	2
	4
	7
	5
	4,50
	5
	4
	3
	7
	4,75
	0
	4
	3
	8
	3,75
	2
	5
	8
	6
	5,25
	7
	1
	3
	4
	3,75
	8
	3
	7
	0
	4,50
	5
	6
	6
	7
	6,00
 
Figura 3. Distribuição de 200 algarismos.
 
Figura 4. Distribuição das 50 médias amostrais.
3.1.2 Parâmetros da Distribuição Normal
	A distribuição normal é uma distribuição de dois parâmetros (média) e (desvio-padrão) . A densidade de probabilidade desta distribuição tem a seguinte forma:
	
 
	(10)
onde e são a média e o desvio-padrão da população, respectivamente. é estimado por e por s, que são obtidos através das relações:
	
	(11)
	
	(12)
	Uma notação bastante empregada para designar que uma variável tem distribuição normal com média e variância s2 (s é a representação de e de de uma amostra) é . Se uma amostra de dados tem realmente distribuição normal a seguinte relação é válida: A = (K-3) = 0. A curtose da distribuição normal é igual a 3 e a assimetria é nula.
	O histograma de freqüências da distribuição normal tem a forma de sino ou parecida. Com a média constante e a variância variável, o gráfico da curva normal assume diferentes formas de sino: de alongada a achatada.
A probabilidade de que X assuma valores menores ou iguais a um dado x quando X é N(,s2) é estimada por:
	
	(13)
Mas essa equação não pode ser resolvida analiticamente sem o uso de métodos de integração aproximada. Por essa razão usa-se a transformação e com isso a variável Z tem N(0,1).
	A variável Z é chamada variável reduzida e a curva
	
	(14)
é a curva normal reduzida.
	F(Z) na forma da equação (14) é tabulada. Como a curva normal reduzida é simétrica, essa propriedade é geralmente utilizada na tabulação de apenas valores positivos de Z. Mas algumas tabelas, como a tabela 4, também mostram valores negativos de Z. As tabelas de F(Z) tanto podem indicar a Prob(Z z), bem como as Prob(0 Z z). Por isso, a escolha da tabela e sua utilização deve ser feita com muito cuidado. A tabela utilizada aqui fornece Prob(Z z). Mas nas tabelas que fornecem apenas os valores positivos da variável reduzida faz-se uso da propriedade de simetria da curva normal reduzida de modo que: P(-X Z 0) = P(0 Z X).
Tabela 4. Valores da distribuição normal padrão.
Exemplo 1
Como exemplo de uso da tabela acima, considera-se uma variável X com N(15,25). Qual a probabilidade de que X assumaos valores (16 X 20)?
	A probabilidade desejada pode ser obtida, utilizando-se a variável transformada (Z). Assim:
Para X = 16 
Para X = 20 
P(0,04 Z 0,20) = P(Z 0,2)-P(Z 0,04)
Com o uso da tabela, tem-se:
P(Z 0,2) = 0,5793 
P(Z 0,04) = 0,5160
Portanto, a probabilidade desejada é 0,5793 – 0,5160 = 0,0633 ou 6,33%.
Exemplo 2
Tabela 5. Valores totais da chuva anual em Pelotas – RS (1895-1994).
	Ano
	Prec.
	Ano
	Prec.
	Ano
	Prec.
	Ano
	Prec.
	1895
	923
	1920
	1300
	1945
	864
	1970
	1040
	1896
	973
	1921
	1054
	1946
	1307
	1971
	1090
	1897
	1258
	1922
	1326
	1947
	919
	1972
	1344
	1898
	1695
	1923
	1360
	1948
	1443
	1973
	1110
	1899
	1066
	1924
	931
	1949
	1114
	1974
	1355
	1900
	1334
	1925
	1377
	1950
	1225
	1975
	1048
	1901
	952
	1926
	1099
	1951
	926
	1976
	1361
	1902
	1746
	1927
	1160
	1952
	1270
	1977
	1654
	1903
	1320
	1928
	1144
	1953
	1112
	1978
	1179
	1904
	1510
	1929
	1321
	1954
	1373
	1979
	1137
	1905
	1501
	1930
	1350
	1955
	890
	1980
	1555
	1906
	1212
	1931
	1298
	1956
	1191
	1981
	1352
	1907
	1166
	1932
	1780
	1957
	1220
	1982
	1342
	1908
	1305
	1933
	998
	1958
	1232
	1983
	1543
	1909
	1198
	1934
	1535
	1959
	1778
	1984
	1694
	1910
	1004
	1935
	1496
	1960
	1331
	1985
	1178
	1911
	1323
	1936
	1995
	1961
	1372
	1986
	1656
	1912
	1539
	1937
	1718
	1962
	856
	1987
	1815
	1913
	885
	1938
	1311
	1963
	1582
	1988
	890
	1914
	2338
	1939
	1297
	1964
	832
	1989
	857
	1915
	1455
	1940
	1724
	1965
	1255
	1990
	1423
	1916
	1011
	1941
	1945
	1966
	1605
	1991
	1330
	1917
	689
	1942
	1237
	1967
	1271
	1992
	1435
	1918
	1510
	1943
	680
	1968
	1049
	1993
	1390
	1919
	1138
	1944
	1153
	1969
	982
	1994
	1265
Consideramos os dados de chuva anual da tabela acima, cuja distribuição de freqüência é reproduzida na tabela 6, na qual se tem:
s = 294,83
Tabela 6. Distribuição de freqüências dos totais anuais de chuva de Pelotas – RS, no período de 1895 a 1994. Ajuste à distribuição normal.
	Classes
	Ponto Médio (X)
	f
	Zi
	F(Zi)
	F(Xi)
	fe
	679 - 887
	783
	7
	-1,39
	0,0823
	0,0823
	8,2
	887 – 1095
	991
	18
	-0,68
	0,2483
	0,1660
	16,6
	1095 – 1303
	1199
	27
	0,02
	0,5080
	0,2597
	26,0
	1303 – 1511
	1407
	29
	0,73
	0,7673
	0,2593
	26,0
	1511 1719
	1615
	11
	1,43
	0,9236
	0,1563
	15,6
	1719 -1927
	1823
	5
	2,14
	0,9838
	0,0602
	6,0
	1927 – 2135
	2031
	2
	2,84
	0,9977
	0,0139
	1,4
	2135 – 2343
	2239
	1
	3,55
	1,0000
	0,0023
	0,2
	Totais
	-
	100
	-
	-
	1,0000
	100,0
	Calcula-se a variável reduzida para cada classe, considerando-se o limite superior da classe. Assim
Z1 = (887 – 1296,8)/294,3 = -1,39 F(Z1) = 0,0823
Z2 = (1095 – 1296,8)/294,3 = -0,68 F(Z2) = 0,2483
Z3 = (1303 – 1296,8)/294,3 = 0,02 F(Z3) = 0,5080
Z4 = (1511 – 1296,8)/294,3 = 0,73 F(Z4) = 0,7673
Z5 = (1719 – 1296,8)/294,3 = 1,43 F(Z5) = 0,9236
Z6 = (1927 – 1296,8)/294,3 = 2,14 F(Z6) = 0,9838
Z7 = (2135 – 1296,8)/294,3 = 2,84 F(Z7) = 0,9977
Z8 = (2343 – 1296,8)/294,3 = 3,55 F(Z8) = 1,0000
Como F(Zi) é acumulada, a F(X), ou seja, a probabilidade de que ocorra um valor de chuva menor ou igual ao da classe, é calculada subtraindo-se do valor de F(Z) de cada classe o valor de F(Z) da classe anterior, como indicado na tabela 6.
	As freqüências esperadas (fe) em cada classe, (a última coluna da tabela 6) são obtidas, multiplicando-se o valor de F(X) pela soma de todas as freqüências, ou seja:
fe1 = 0,0823 x 100 = 8,2
fe2 = 0,1660 x 100 = 16,6
fe3 = 0,2597 x 100 = 26,0
fe4 = 0,2593 x 100 = 26,0
fe5 = 0,1563 x 100 = 15,6
fe6 = 0,0602 x 100 = 6,0
fe7 = 0,0139 x 100 = 1,4
fe8 = 0,0023 x 100 = 0,2
	A soma das freqüências esperadas (fe) deve ser igual a soma das freqüências observadas (f).
	A representação gráfica do ajuste acima é indicada na figura 5.
Figura 5. Totais anuais de chuva de Pelotas (RS), no período de 1895 a 1994, ajustada à distribuição normal (Assis et al., 1996, pg. 49).
Distribuição Gamma
Muitas variáveis atmosféricas possuem assimetria positiva, ou seja, são distorcidas à direita. Freqüentemente a distorção ocorre quando há um limite físico à esquerda que é relativamente próximo a variação dos dados (Wilks, 1995). Exemplos comuns desta situação são as quantias de precipitação e a velocidade do vento que são fisicamente não negativas. Há uma variedade de distribuições contínuas que são limitas à esquerda por zero. Entretanto, a distribuição gamma é comumente usada para representar dados de precipitação. 
A freqüência ou função densidade de probabilidade da distribuição gamma é:
	
	(15)
onde é um parâmetro de escala, é o parâmetro de forma e () é a função gamma ordinária de . A função gamma tem as seguintes propriedades:
	
	(16)
para todo X > 0
	O valor de (X) pode ser obtido, com boa aproximação, através da seguinte relação:
	
	(17)
onde:
	
	(18)
	A tabela 7 fornece os valores de (X), com base nestas relações.
	A média, a variância e o coeficiente de assimetria (A) da distribuição gamma podem ser obtidos por:
	
	(19)
	
	(20)
	
	(21)
	A distribuição gamma tem assimetria positiva com o parâmetro diminuindo e o parâmetro aumentando. Variando-se , com constante, muda-se a escala da distribuição, enquanto variando-se , com constante, muda-se a sua forma.
Tabela 7. Função gamma de Y.
	Pode-se concluir, com base na equação (21), que, quando tende para infinito A 0, ou seja, a distribuição gamma, neste caso, tende a ser simétrica.
	As estimativas dos parâmetros e resultam da solução das equações (19) e (20). Mas essas estimativas não são adequadas, preferindo-se as estimativas descritas em Thom (1966):
	
	(22)
	
	(23)
sendo
	
	(24)
onde
	
	(25)
é a média aritmética e
	
	(26)
é a média geométrica das observações, ou alternativamente, segundo Greenwood e Durand (1960) dada por:
	
	(27)
quando 0 Z 0,5772 e por
	
	(28)
quando 0,5772 < Z < 7,0, onde
	
	(29)
	Neste caso o parâmetro continua sendo calculado como na equação (23).
	A função cumulativa de probabilidade é:
	
	(30)
Esta equação não tem solução imediata, exigindo tabelas ou técnicas de integração numérica como expansão em série e a fórmula de Simpson, por exemplo. A série normalmente utilizada é a seguinte:
	
	(31)
Na equação (29), fazendo-se ; X=t; dx=dt, chega-se a equação (31).
A probabilidade de ocorrer um valor de X t é F(t).
Exemplo
	Considere-se os 95 valores mensais de chuva do mês de janeiro em Pelotas, RS, na tabela 8, cuja distribuição de freqüências é mostrada na tabela 9. Considerando-se a tabela 9, tem-se:
Tabela 8. Chuva mensal de janeiro em Pelotas, RS, no período de 1895 a 1989.
	Ano
	0
	1
	2
	3
	4
	5
	6
	7
	8
	9
	189...
	
	
	
	
	
	112,6
	32,1
	129,9
	183,1
	63,4
	190...
	68,3
	77,5
	113,3
	35,8
	145,6
	22,3
	20,2
	15,5
	121,4
	148,5
	191...
	203,6
	117,8
	81,3
	50,1
	197,7
	132,6
	130,1
	72,8
	86,6
	23,1
	192...
	81,5
	65,7
	159,0
	182,0
	28,8
	129,6
	33,4
	82,7
	59,3
	119,7
	193...
	97,0
	239,6
	31,5
	59,0
	151,7
	45,7
	64,5
	64,5
	232,0
	92,4
	194...
	269,0
	271,3
	68,3
	25,1
	244,7
	44,1
	113,4
	101,8
	340,3
	87,6
	195...
	10,4
	84,9
	62,8
	144,4
	160,1
	22,1
	210,9
	58,4
	162,0
	134,5
	196...
	143,5
	106,6
	64,5
	151,1
	11,5
	48,1
	107,8
	84,4
	191,3
	105,2
	197...
	83,9
	148,1
	178,1
	213,9
	127,0
	129,8
	140,1
	119,772,5
	14,7
	198...
	59,6
	85,4
	71,0
	135,9
	246,8
	78,6
	166,0
	82,7
	149,5
	209,4
Tabela 9. Distribuição de freqüências dos totais mensais de chuva de janeiro em Pelotas – RS. Ajuste à distribuição gamma.
	Classes
	Ponto Médio (X)
	f
	FX
	FX2
	ln(X) f
	10,1 – 52,1
	31,1 
	18
	559,8
	17.409,78
	61,8697
	52,1 – 94,1
	73,1
	28
	2.046,8
	149.621,08
	120,1712
	94,1 – 136,1
	115,1
	20
	2.302,0
	264.960,20
	94,9160
	136,1 – 178,1
	157,1
	13
	2.042,3
	320.846,33
	65,7395
	178,1 – 220,1
	199,1
	9
	1.791,9
	356.767,29
	47,6443
	220,1 – 262,1
	241,1
	4
	964,4
	232.516,84
	21,9408
	262,1 - 304,1
	283,1
	2
	566,2
	160.291,22
	11,2916
	304,1 – 346,1
	325,1
	1
	325,1
	105.609,01
	5,7841
	Totais
	-
	95
	10.598,5
	1.608.101,75
	429,3573
 é estimada pela equação (17), na qual
	As estimativas dos parâmetros com base nas equações (19) e (20) a fim de comparações, fica como exercício.
	Com os parâmetros e estimado tem-se, então, a função densidade de probabilidade, na forma da equação (15),
e a função cumulativa de probabilidade (equação 30) será:
	A solução dessa equação exige o emprego de técnicas de integração numérica ou uso de tabelas específicas. Adotou-se aqui a expansão em série na forma da equação (31), cuja reprodução de todos os cálculos é praticamente impossível de ser apresentada aqui. Mas, considerando apenas a primeira classe, a título de exemplo, tem-se:
Tabela 10. Distribuição de freqüências dos totais mensais de chuva de janeiro em Pelotas – RS, ajustados à distribuição gamma de probabilidade.
	Classes
	Ponto Médio (X)
	f
	FX
	fe
	10,1 – 52,1
	31,1 
	18
	0,1838
	17
	52,1 – 94,1
	73,1
	28
	0,4734
	28
	94,1 – 136,1
	115,1
	20
	0,7052
	22
	136,1 – 178,1
	157,1
	13
	0,8489
	14
	178,1 – 220,1
	199,1
	9
	0,9272
	7
	220,1 – 262,1
	241,1
	4
	0,9663
	4
	262,1 - 304,1
	283,1
	2
	0,9849
	2
	304,1 – 346,1
	325,1
	1
	0,9934
	1
	Totais
	-
	95
	-
	95
	O histograma de freqüências deste exemplo é mostrado na figura 6. 
Figura 6. Totais de chuva mensal de janeiro em Pelotas, RS, ajustados a distribuição gamma (Assis et al., 1996, pg. 59).
Distribuição de Valores Extremos
Obras de construção civis como barragens, torres de alta tensão, entre outras, são projetadas para suportar o limite máximo (ou mínimo) conhecido dos eventos meteorológicos da região. A idéia posta em prática é que se determinada estrutura suporta o valor extremo de um evento ela está em segurança para os valores correntes. A distribuição de probabilidade que trata dessa questão: valores máximos ou mínimos de eventos climatológicos que servem de subsídios para projetos de engenharia é a distribuição de valores extremos, ou distribuição tipo I de Fisher-Tippet ou, ainda, distribuição de Gumbel. Sua função densidade de probabilidade tem a forma:
	
	(32)
	
	(33)
	O duplo sinal no segundo expoente da equação (33) refere-se aos valores extremos máximo (sinal negativo) e mínimo (sinal positivo).
	As estimativas dos parâmetros e podem ser obtidas por diferentes métodos como por exemplo: o método dos momentos, o método da regressão, o método de Lieblein e o método da máxima verossimilhança (Assis et al., 1996). Entretanto, aqui, serão descritos o método dos momentos, o método da regressão e o método da máxima verossimilhança, através do exemplo a seguir. O método de Lieblein pode ser encontrado em detalhes em Thom (1966) e Assis et al. (1996).
Exemplo
Considerem-se os 72 valores anuais de chuva máxima de 24 horas de Piracicaba, SP, apresentados na tabela 11.
Tabela 11. Chuva máxima de 24 horas de Piracicaba, SP, no período de 1917 a 1988.
	Ano
	0
	1
	2
	3
	4
	5
	6
	7
	8
	9
	191...
	
	
	
	
	
	
	
	65,0
	68,0
	65,0
	192...
	64,0
	65,0
	55,0
	64,0
	60,0
	57,0
	66,5
	64,0
	50,0
	59,2
	193...
	86,5
	93,0
	69,0
	65,0
	83,0
	50,0
	64,4
	58,8
	58,0
	109,5
	194...
	83,3
	77,9
	104,9
	97,7
	111,2
	95,3
	64,4
	75,2
	46,8
	108,4
	195...
	55,5
	62,4
	73,9
	54,4
	57,8
	80,1
	39,9
	59,1
	80,0
	78,4
	196...
	83,8
	55,5
	82,9
	52,0
	48,3
	80,4
	70,7
	49,1
	63,0
	73,7
	197...
	71,6
	68,5
	80,4
	99,5
	68,6
	76,0
	72,7
	71,8
	46,4
	63,4
	198...
	50,7
	59,2
	68,6
	114,0
	51,1
	70,4
	62,0
	103,2
	86,7
	
 = 17,22

Continue navegando