Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade de São Paulo Disciplina: Climatologia II – ACA 0226 Introdução à Estatística Aplicada à Climatologia Parte II – Distribuições de Probabilidades Projeto PAE Bolsista: Michelle S. Reboita 2 São Paulo, 2005. Projeto PAE – Bolsista: Michelle S. Reboita Sumário 1 Introdução à Distribuição de Probabilidades 3 2 Definições 4 2.1 Variável Aleatória 4 2.2 Distribuição de Probabilidades 5 2.2.1 Noções Iniciais 5 2.2.2 Distribuição Teórica 8 2.2.3 Parâmetros e Estatísticas 8 2.2.4 Distribuição Discreta e Contínua 9 3 Distribuições Contínuas 9 3.1 Distribuição Normal 11 3.2 Distribuição Gamma 21 3.3 Distribuição de Valores Extremos 27 3.4 Distribuição Exponencial 34 4 Distribuições Discretas 36 4.1 Distribuição Binomial 37 4.2 Distribuição de Poisson 39 4.3 Distribuição Geométrica 42 5 Referências 46 Introdução à Distribuição de Probabilidades Um erro muito comum em análise de dados climatológicos é desprezar as características da distribuição de probabilidades mais adequada para os dados em estudo. O mais freqüente é adotar-se, a priori, a distribuição normal o que pode resultar, se os dados não seguem essa distribuição, em conclusões erradas. Isso ocorre, provavelmente, porque a distribuição normal foi a primeira distribuição de probabilidades estudada e pelo fato de existir facilidade na estimativa dos seus parâmetros e das probabilidades (Assis et al., 1996). Contudo, os procedimentos para se determinar qual a distribuição de probabilidade mais adequada para um certo conjunto de informações é relativamente simples e, uma única distribuição pode ter um vasto espectro de aplicação. Por exemplo: os totais anuais de precipitação têm distribuição aproximadamente normal; os totais mensais da mesma variável têm distribuição fortemente assimétrica e a de totais diários de chuva é mais assimétrica ainda. Entretanto, todos esses conjuntos de dados podem ser adequadamente ajustados à distribuição de probabilidades gamma. Na figura 1 é apresentado os tipos mais comuns de distribuições de probabilidades encontrados em climatologia. A figura 1 A representa uma distribuição simétrica, típica da distribuição normal de probabilidades que, geralmente, se ajusta bem aos dados de temperatura horária; o histograma da figura 1 B é de uma distribuição com forte assimetria, com forma de Jota invertido, forma típica da distribuição dos totais diários de chuva; a figura 1 C representa uma forma de distribuição típica de dados que variam no intervalo (0,1), como umidade relativa, razão de insolação e índice de seca; a figura 1 D mostra uma distribuição cujo histograma de freqüências sugere a forma da letra U, a qual é comumente encontrada nos dados de insolação diária; a distribuição da figura 1 F representa uma distribuição uniforme, um caso da distribuição beta com dois parâmetros iguais à unidade. Neste material abordaremos os conceitos de variável aleatória, distribuição de probabilidades e processos para cálculo da esperança e variância de uma distribuição de probabilidades. Figura 1. Tipos de distribuições mais comuns em climatologia (Assis, et al., 1996, pg. 36). Definições Variável Aleatória A variável aleatória é uma variável que tem um valor único (determinado aleatoriamente) para cada resultado de um experimento. A palavra aleatória indica que em geral só conhecemos aquele valor depois do experimento ser realizado (Triola, 1998). Exemplos de variáveis aleatórias: número de alunos que não compareceram a aula de estatística num determinado dia; altura de um adulto do sexo masculino selecionado aleatoriamente. No material correspondente a Parte I foi realizada uma distinção entre dados discretos e dados contínuos. As variáveis aleatórias também podem ser discretas ou contínuas. Variável aleatória discreta: é aquela que assume valores inteiros e finitos. Variável aleatória contínua: é aquela que pode assumir inúmeros valores num intervalo de números reais e é medida numa escala contínua. Distribuição de Probabilidades 2.2.1 Noções Iniciais Além de identificar os valores de uma variável aleatória, freqüentemente podemos atribuir uma probabilidade a cada um desses valores. Quando conhecemos todos os valores de uma variável aleatória juntamente com suas respectivas probabilidades, temos uma distribuição de probabilidades. A distribuição de probabilidades associa uma probabilidade a cada resultado numérico de um experimento, ou seja, dá a probabilidade de cada valor de uma variável aleatória. Por exemplo, no lançamento de um dado cada face tem a mesma probabilidade de ocorrência que é 1/6. Como os valores das distribuições de probabilidades são probabilidades, e como as variáveis aleatórias devem tomar um de seus valores, temos as duas regras a seguir que se aplicam a qualquer distribuição de probabilidades: 1. A soma de todos os valores de uma distribuição de probabilidades deve ser igual a 1 P(x) = 1, onde x toma todos os valores possíveis 2. A probabilidade de ocorrência de um evento deve ser maior do que zero e menor do que 1 0 P (x) 1 para todo x No exemplo do lançamento de um dado, como todas as faces têm a mesma probabilidade de ocorrência que é 1/6 ao somá-las obtemos o valor 1, que corresponde a primeira regra citada acima. O valor 1/6 é maior do que zero e menor do que 1, assim satisfaz a segunda regra acima. A distribuição de probabilidades pode ser representada por um histograma de probabilidades. Este se assemelha ao histograma de freqüências apresentado na Parte I, entretanto a escala vertical representa probabilidades, em lugar das freqüências relativas. O histograma de probabilidades nos permite visualizar a forma da distribuição. A média, a variância e o desvio-padrão traduzem outras características. Para uma distribuição de probabilidades, essas medidas podem ser determinadas usando as expressões mostradas na tabela 1. Tabela 1. Expressões para cálculo da média, variância e desvio-padrão das distribuições de probabilidades. Média =x P(x) Variância 2=[(x-)2 P(x)] Variância 2=[x2 P(x)] - 2 Desvio-Padrão =([x2 P(x)] - 2)1/2 Ao calcularmos a média de uma distribuição de probabilidades, obtemos o valor médio que esperaríamos ter se pudéssemos repetir as provas indefinitivamente. Não obtemos o valor que esperamos ocorrer com maior freqüência. Já o desvio-padrão nos dá uma medida de quanto a distribuição de probabilidades se dispersa em torna da média. Um grande desvio-padrão reflete dispersão considerável, enquanto que um desvio-padrão menor traduz menor variabilidade, com valores relativamente mais próximos da média. Estas fórmulas podem ser utilizadas para qualquer distribuição de probabilidades, entretanto, veremos mais adiante que elas podem ser simplificadas dependendo do tipo de distribuição. A média de uma variável aleatória discreta é o resultado médio teórico de um número infinito de provas. Podemos encarar essa média como o valor esperado no sentido de que é o valor médio que esperaríamos obter se as provas se prolongassem indefinitivamente. As aplicações do valor esperado (também chamado esperança ou esperança matemática) são extensas e variadas e o mesmo desempenha um papel de extrema importância em uma área de aplicação chamada teoria da decisão. O valor esperado de uma variável aleatória discreta é denotado por E e representa o valor médio dos resultados: E = x P(x) (1) Observamos que E=. Isto é, a média de uma variável aleatória discreta coincide com seu valor esperado. Exemplo (extraído de Triola, 1998, pag 96): Na tabela abaixo são fornecidas as probabilidades de ocorrências de um determinado evento. Entretanto, o objetivo da mesma é enfatizar o cálculo da média, da variância e do desvio-padrão. Juntamente com a tabela será mostrado o histograma de probabilidades. Tabela 2. Cálculo da média, variânciae desvio-padrão para uma distribuição de probabilidades. X P(x) x P(x) x2 x2 P(x) 0 0,210 0,000 0 0,000 1 0,367 0,367 1 0,367 2 0,275 0,550 4 1,100 3 0,115 0,345 9 1,035 4 0,029 0,116 16 0,464 5 0,004 0,020 25 0,100 6 0 0,000 36 0,000 7 0 0,000 49 0,000 Total 1,000 1,398 - 3,066 =x P(x) = 1,398 = 1,4 2=[x2 P(x)] - 2 = 3,066-1,3982 =1,111596 = 1,1 =(1,111596)1/2 = 1,054323 = 1,1 Figura 2. Histograma de probabilidades. As distribuições de freqüências construídas a partir de observações podem ser representadas através de formas matemáticas. Então, as formas matemáticas utilizadas para a idealização dos dados reais são referidas como distribuições teóricas. As distribuições teóricas representam os dados aproximadamente, embora em muitos casos a aproximação pode ser muito boa. Basicamente, há três aspectos em que o emprego das distribuições de probabilidade teóricas podem ser útil (Wilks, 1995): Compacidade: é trabalhoso lidar com grandes conjuntos de dados brutos, sendo que às vezes, também pode haver limitações para a análise. Uma distribuição teórica bem ajustada à série de dados reduz o número de trabalho exigido para a caracterizar as propriedades da mesma. Alisamento e interpolação: os dados reais estão sujeitos a variações na amostragem que podem levar a falha de dados ou a dados errôneos nas distribuições empíricas. Por exemplo, numa amostra de dados de temperatura máxima de uma cidade, localizada na região tropical, não foram observadas temperaturas máximas entre 30 e 35ºC no verão, embora certamente temperaturas máximas nesta faixa podem ocorrer. A imposição de uma distribuição teórica sobre estes dados representaria a possibilidade dessas temperaturas ocorrerem, tanto quanto permitiria estimar a suas probabilidades de ocorrência. Extrapolação: estimar a probabilidade de eventos extremos a variação de um conjunto de dados particular exige a suposição de eventos ainda não observados. Isso pode ser realizado com a imposição de um modelo de probabilidade (isto é, uma distribuição teórica) ajustado a série de dados. 2.2.2 Distribuição Teórica Uma distribuição teórica é um modelo matemático. A natureza específica de uma distribuição teórica é determinada por valores particulares através de uma entidade chamada parâmetros da distribuição. As distribuições teóricas também são chamadas de distribuições paramétricas, porque seus atributos específicos dependem dos valores numéricos de seus parâmetros. 2.2.3 Parâmetros e Estatísticas É comum a confusão entre parâmetros da distribuição e estatísticas da amostra. Os parâmetros da distribuição são as características de uma distribuição teórica particular. Eles representam sucintamente as propriedades fundamentais de uma população. Já as estatísticas são quantidades calculadas a partir de uma amostra de dados. A confusão entre eles pode ser devido a algumas distribuições teóricas comuns onde estatísticas são bons estimadores para os parâmetros da população. Por exemplo, o desvio-padrão da amostra, s, pode ser confundido com o parâmetro da distribuição Gaussiana porque os dois são iguais quando a distribuição Gaussiana representa bem os dados amostrais. Para esta distribuição a média da amostra é igual ao parâmetro e o desvio-padrão é igual ao parâmetro . É importante ressaltar que nem sempre os parâmetros das distribuições são encontrados usando estatísticas das amostras. Normalmente, a notação para estatísticas da amostra envolve letras romanas e para os parâmetros envolve letras gregas. Distribuição Discreta e Contínua Há dois tipos de distribuições teóricas que correspondem a diferentes tipos de dados ou variáveis aleatórias: a distribuição discreta e a distribuição contínua. A distribuição discreta descreve quantidades aleatórias (dados de interesse) que podem assumir valores particulares e os valores são finitos. Por exemplo, uma variável aleatória discreta pode assumir somente os valores 0 e 1, ou qualquer inteiro não negativo, etc. Um exemplo de variável climatológica discreta são as tempestades com granizo. A distribuição contínua representa quantidades aleatórias contínuas que podem tomar qualquer valor dentro de um intervalo especificado dos números reais. Por exemplo, uma variável aleatória contínua deve ser definida entre os números reais 0 e 1, ou números reais não negativos ou, para algumas distribuições, qualquer número real. A temperatura, a pressão, a precipitação ou qualquer elemento medido numa escala contínua é uma variável aleatória contínua. Existem várias distribuições discretas e contínuas, algumas delas serão mostradas abaixo. As explicações iniciarão com as distribuições contínuas. Distribuições Contínuas A maioria das variáveis atmosféricas podem assumir valores contínuos. A temperatura, a precipitação, a altura geopotencial, a velocidade do vento, e outras quantidades não estão restritas a valores inteiros de unidades físicas em que são medidas. Embora a natureza da medição e os sistemas de relatos é tal que as medidas atmosféricas são arredondadas para valores discretos, mas o conjunto de valores observados normalmente é grande o suficiente para que a maioria das variáveis possam ainda ser tratadas como quantidades contínuas. Existem duas funções associadas a cada variável contínua X: a função densidade de probabilidade, simbolizada por f(X), e a função cumulativa de probabilidade, ou função de distribuição de probabilidade representada por F(X). A função f(X) é aquela cuja integral de X = a até X = b (b a) dá a probabilidade de que X assuma valores compreendidos no intervalo (a, b), ou seja, (2) A função cumulativa de probabilidade F(b) é tal que: (3) A distribuição exponencial, por exemplo, tem a seguinte função densidade de probabilidade: (4) com x 0. A sua função cumulativa de probabilidade é do tipo: (5) Qualquer função definida no campo real só pode ser considerada como uma função densidade de probabilidade se forem satisfeitas as seguintes condições: (6) para todo X e (7) A probabilidade de que a variável X assuma valores no intervalo (a, b) é dada por: (8) e a probabilidade de que a variável contínua X assuma um valor em particular, b, por exemplo, é: (9) Há muitas distribuições teóricas contínuas. Algumas das mais usadas em ciências atmosféricas são: distribuição normal, distribuição gamma, distribuição de valores extremos e distribuição exponencial. Neste material vamos tratar dos modelos probabilísticos citados, que têm importância prática na investigação científica, abordando as formas das funções densidade de probabilidade, bem como a esperança e a variância. Distribuição Normal A distribuição de probabilidade contínua mais importante e mais utilizada é a distribuição normal, geralmente citada como curva normal ou curva de Gauss. Sua importância em análise matemática resulta do fato de que muitas técnicas estatísticas, como análise de variância, de regressão e alguns testes de hipótese, assumem e exigem a normalidade dos dados. Além disso, a ampla aplicação dessa distribuição vem em parte devido ao teorema do limite central. Este teorema declara que na medida em que o tamanho da amostra aumenta, a distribuição amostral das médias amostrais tende para uma distribuição normal (Triola, 1998). Esta explicação parece um pouco complicada, portanto segue uma abordagem mais detalhada sobre a mesma. 3.1.1 Teorema do Limite Central A capacidade de usar amostras para fazer inferências sobre parâmetros populacionais depende do conhecimento da distribuição amostral. Para obtermos uma distribuição amostral é necessário repetir n vezes um experimento e após calcular a média das amostras. Este procedimento fornece um novo conjunto de dados que é denominado de distribuiçãoamostral. Na verdade o que o teorema do limite central quer dizer é que se uma população tem distribuição normal, a distribuição das médias amostrais extraídas da população também terá distribuição normal, para qualquer tamanho de amostra. Além disso, mesmo no caso de uma distribuição não-normal, a distribuição das médias amostrais será aproximadamente normal, desde que a amostra seja grande. Este é um resultado notável, na verdade, pois nos diz que não é necessário conhecer a distribuição de uma população para podermos fazer inferência sobre ela a partir de dados amostrais. A única restrição é que o tamanho da amostra seja grande. Uma regra prática muito usada é que a amostra deve consistir de 30 ou mais observações. Estes resultados são conhecidos como o Teorema do Limite Central e representam talvez o conceito mais importante na inferência estatística (Stevenson, 1981). Agora será mostrado um exemplo ilustrativo adaptado de Triola (1998, pg. 126). Vamos realizar quatro amostragens para identificar o último algarismo do Número do Seguro Social (NSS) de estudantes de uma determinada cidade. Ou seja, selecionaremos na primeira amostragem 50 estudantes e verificamos o último algarismo do NSS, repetimos por mais três vezes esse procedimento e como resultado obtemos a tabela 3. Nesta tabela se combinarmos as amostras numa grande coleção de duzentos números, obtemos uma média e um desvio-padrão s = 2,8 e, uma distribuição aproximadamente uniforme como mostra o gráfico da figura 3. Entretanto, se calcularmos as médias das amostras (linhas da tabela), obtemos as médias amostrais e estas possuem uma distribuição normal (figura 4). Conclui-se que embora a coleção original de dados tenha uma distribuição aproximadamente uniforme, as médias amostrais têm distribuição aproximadamente normal. O conjunto original de 200 números tem distribuição uniforme (porque os algarismos 0-9 ocorrem aproximadamente com a mesma freqüência), mas as 50 médias amostrais têm distribuição normal. É um fenômeno verdadeiramente fascinante e intrigante na estatística que, extraindo amostras de qualquer distribuição, possamos criar uma distribuição normal ou, ao menos, aproximadamente normal. Em geral, a distribuição amostral das médias amostrais é a distribuição das médias amostrais quando extraímos repetidas amostras de mesmo tamanho, da mesma população. Em outras palavras, se extrairmos amostras de mesmo tamanho da mesma população, calculamos suas médias e construímos um histograma destas médias, esse histograma tende para a forma de um sino de uma distribuição normal. Isto é verdade independentemente da forma da distribuição da população original. Suponhamos que a variável x represente notas que podem ter, ou não, distribuição normal, e que a média dos valores x seja e o desvio-padrão seja . Suponha que coletemos amostras de tamanho n e calculemos as médias amostrais. O que sabemos sobre a coleção de todas as médias amostrais que obtemos repetindo esse experimento? O Teorema do Limite Central nos diz que, na medida em que o tamanho n da amostra aumenta, a distribuição amostral das médias amostrais tente para uma distribuição normal com média e desvio-padrão . A distribuição das médias amostrais tende para uma distribuição normal no sentido de que, quando n aumenta, a distribuição das médias amostrais se aproxima de uma distribuição normal. Essa conclusão não é obvia intuitivamente; foi obtida após extensa pesquisa de análise. Embora a demonstração formal rigorosa exija recursos da matemática avançada, ultrapassando o âmbito deste material, podemos encontrar uma certa justificativa com base nos dados da tabela 3. Se selecionamos aleatoriamente amostras de algarismos de uma população distribuída uniformemente com média = 4,5, as médias amostrais resultantes também tenderão a centrar-se em torno de 4,5, de modo que as médias amostrais também têm média 4,5; a média das 50 médias amostrais da tabela 3 é, de fato, 4,5. inspecionando visualmente os 200 algarismos da tabela 3, vemos que eles variam de 0 a 9, mas as 50 médias amostrais acusam menor variação indo de 1,75 a 8,25. O conjunto original de 200 algarismos tem desvio-padrão de 2,8, mas as 50 médias amostrais têm um desvio-padrão de 1,4, que é menor, conforme esperado. Tabela 3. Amostragens do Número do Seguro Social de estudantes de uma determinada cidade. Amostra I Amostra II Amostra III Amostra IV Média 1 8 6 4 4,75 5 3 3 6 4,25 9 8 8 8 8,25 5 1 2 5 3,25 9 3 3 5 5,00 4 2 6 2 3,50 7 7 1 6 5,25 9 1 5 4 4,75 5 3 3 9 5,00 7 8 4 1 5,00 0 5 6 1 3,00 9 8 2 2 5,25 6 1 5 7 4,75 8 1 3 0 3,00 5 9 6 9 7,25 6 2 3 4 3,75 7 4 0 7 4,50 5 7 5 6 5,75 4 1 5 7 4,25 1 2 0 6 2,25 4 0 2 8 3,50 3 1 2 5 2,75 0 3 4 0 1,75 1 5 1 0 1,75 9 7 4 0 5,00 7 3 1 1 3,00 9 1 1 3 3,50 8 6 5 9 7,00 5 6 4 1 4,00 9 3 9 5 6,50 6 0 7 3 4,00 8 2 9 6 6,25 0 2 8 6 4,00 2 0 9 7 4,50 5 8 9 0 5,50 6 5 4 9 6,00 4 8 7 6 6,25 7 1 2 0 2,50 2 9 5 0 4,00 8 3 2 2 3,75 2 7 1 6 4,00 6 7 7 1 5,25 2 3 3 9 4,25 2 4 7 5 4,50 5 4 3 7 4,75 0 4 3 8 3,75 2 5 8 6 5,25 7 1 3 4 3,75 8 3 7 0 4,50 5 6 6 7 6,00 Figura 3. Distribuição de 200 algarismos. Figura 4. Distribuição das 50 médias amostrais. 3.1.2 Parâmetros da Distribuição Normal A distribuição normal é uma distribuição de dois parâmetros (média) e (desvio-padrão) . A densidade de probabilidade desta distribuição tem a seguinte forma: (10) onde e são a média e o desvio-padrão da população, respectivamente. é estimado por e por s, que são obtidos através das relações: (11) (12) Uma notação bastante empregada para designar que uma variável tem distribuição normal com média e variância s2 (s é a representação de e de de uma amostra) é . Se uma amostra de dados tem realmente distribuição normal a seguinte relação é válida: A = (K-3) = 0. A curtose da distribuição normal é igual a 3 e a assimetria é nula. O histograma de freqüências da distribuição normal tem a forma de sino ou parecida. Com a média constante e a variância variável, o gráfico da curva normal assume diferentes formas de sino: de alongada a achatada. A probabilidade de que X assuma valores menores ou iguais a um dado x quando X é N(,s2) é estimada por: (13) Mas essa equação não pode ser resolvida analiticamente sem o uso de métodos de integração aproximada. Por essa razão usa-se a transformação e com isso a variável Z tem N(0,1). A variável Z é chamada variável reduzida e a curva (14) é a curva normal reduzida. F(Z) na forma da equação (14) é tabulada. Como a curva normal reduzida é simétrica, essa propriedade é geralmente utilizada na tabulação de apenas valores positivos de Z. Mas algumas tabelas, como a tabela 4, também mostram valores negativos de Z. As tabelas de F(Z) tanto podem indicar a Prob(Z z), bem como as Prob(0 Z z). Por isso, a escolha da tabela e sua utilização deve ser feita com muito cuidado. A tabela utilizada aqui fornece Prob(Z z). Mas nas tabelas que fornecem apenas os valores positivos da variável reduzida faz-se uso da propriedade de simetria da curva normal reduzida de modo que: P(-X Z 0) = P(0 Z X). Tabela 4. Valores da distribuição normal padrão. Exemplo 1 Como exemplo de uso da tabela acima, considera-se uma variável X com N(15,25). Qual a probabilidade de que X assumaos valores (16 X 20)? A probabilidade desejada pode ser obtida, utilizando-se a variável transformada (Z). Assim: Para X = 16 Para X = 20 P(0,04 Z 0,20) = P(Z 0,2)-P(Z 0,04) Com o uso da tabela, tem-se: P(Z 0,2) = 0,5793 P(Z 0,04) = 0,5160 Portanto, a probabilidade desejada é 0,5793 – 0,5160 = 0,0633 ou 6,33%. Exemplo 2 Tabela 5. Valores totais da chuva anual em Pelotas – RS (1895-1994). Ano Prec. Ano Prec. Ano Prec. Ano Prec. 1895 923 1920 1300 1945 864 1970 1040 1896 973 1921 1054 1946 1307 1971 1090 1897 1258 1922 1326 1947 919 1972 1344 1898 1695 1923 1360 1948 1443 1973 1110 1899 1066 1924 931 1949 1114 1974 1355 1900 1334 1925 1377 1950 1225 1975 1048 1901 952 1926 1099 1951 926 1976 1361 1902 1746 1927 1160 1952 1270 1977 1654 1903 1320 1928 1144 1953 1112 1978 1179 1904 1510 1929 1321 1954 1373 1979 1137 1905 1501 1930 1350 1955 890 1980 1555 1906 1212 1931 1298 1956 1191 1981 1352 1907 1166 1932 1780 1957 1220 1982 1342 1908 1305 1933 998 1958 1232 1983 1543 1909 1198 1934 1535 1959 1778 1984 1694 1910 1004 1935 1496 1960 1331 1985 1178 1911 1323 1936 1995 1961 1372 1986 1656 1912 1539 1937 1718 1962 856 1987 1815 1913 885 1938 1311 1963 1582 1988 890 1914 2338 1939 1297 1964 832 1989 857 1915 1455 1940 1724 1965 1255 1990 1423 1916 1011 1941 1945 1966 1605 1991 1330 1917 689 1942 1237 1967 1271 1992 1435 1918 1510 1943 680 1968 1049 1993 1390 1919 1138 1944 1153 1969 982 1994 1265 Consideramos os dados de chuva anual da tabela acima, cuja distribuição de freqüência é reproduzida na tabela 6, na qual se tem: s = 294,83 Tabela 6. Distribuição de freqüências dos totais anuais de chuva de Pelotas – RS, no período de 1895 a 1994. Ajuste à distribuição normal. Classes Ponto Médio (X) f Zi F(Zi) F(Xi) fe 679 - 887 783 7 -1,39 0,0823 0,0823 8,2 887 – 1095 991 18 -0,68 0,2483 0,1660 16,6 1095 – 1303 1199 27 0,02 0,5080 0,2597 26,0 1303 – 1511 1407 29 0,73 0,7673 0,2593 26,0 1511 1719 1615 11 1,43 0,9236 0,1563 15,6 1719 -1927 1823 5 2,14 0,9838 0,0602 6,0 1927 – 2135 2031 2 2,84 0,9977 0,0139 1,4 2135 – 2343 2239 1 3,55 1,0000 0,0023 0,2 Totais - 100 - - 1,0000 100,0 Calcula-se a variável reduzida para cada classe, considerando-se o limite superior da classe. Assim Z1 = (887 – 1296,8)/294,3 = -1,39 F(Z1) = 0,0823 Z2 = (1095 – 1296,8)/294,3 = -0,68 F(Z2) = 0,2483 Z3 = (1303 – 1296,8)/294,3 = 0,02 F(Z3) = 0,5080 Z4 = (1511 – 1296,8)/294,3 = 0,73 F(Z4) = 0,7673 Z5 = (1719 – 1296,8)/294,3 = 1,43 F(Z5) = 0,9236 Z6 = (1927 – 1296,8)/294,3 = 2,14 F(Z6) = 0,9838 Z7 = (2135 – 1296,8)/294,3 = 2,84 F(Z7) = 0,9977 Z8 = (2343 – 1296,8)/294,3 = 3,55 F(Z8) = 1,0000 Como F(Zi) é acumulada, a F(X), ou seja, a probabilidade de que ocorra um valor de chuva menor ou igual ao da classe, é calculada subtraindo-se do valor de F(Z) de cada classe o valor de F(Z) da classe anterior, como indicado na tabela 6. As freqüências esperadas (fe) em cada classe, (a última coluna da tabela 6) são obtidas, multiplicando-se o valor de F(X) pela soma de todas as freqüências, ou seja: fe1 = 0,0823 x 100 = 8,2 fe2 = 0,1660 x 100 = 16,6 fe3 = 0,2597 x 100 = 26,0 fe4 = 0,2593 x 100 = 26,0 fe5 = 0,1563 x 100 = 15,6 fe6 = 0,0602 x 100 = 6,0 fe7 = 0,0139 x 100 = 1,4 fe8 = 0,0023 x 100 = 0,2 A soma das freqüências esperadas (fe) deve ser igual a soma das freqüências observadas (f). A representação gráfica do ajuste acima é indicada na figura 5. Figura 5. Totais anuais de chuva de Pelotas (RS), no período de 1895 a 1994, ajustada à distribuição normal (Assis et al., 1996, pg. 49). Distribuição Gamma Muitas variáveis atmosféricas possuem assimetria positiva, ou seja, são distorcidas à direita. Freqüentemente a distorção ocorre quando há um limite físico à esquerda que é relativamente próximo a variação dos dados (Wilks, 1995). Exemplos comuns desta situação são as quantias de precipitação e a velocidade do vento que são fisicamente não negativas. Há uma variedade de distribuições contínuas que são limitas à esquerda por zero. Entretanto, a distribuição gamma é comumente usada para representar dados de precipitação. A freqüência ou função densidade de probabilidade da distribuição gamma é: (15) onde é um parâmetro de escala, é o parâmetro de forma e () é a função gamma ordinária de . A função gamma tem as seguintes propriedades: (16) para todo X > 0 O valor de (X) pode ser obtido, com boa aproximação, através da seguinte relação: (17) onde: (18) A tabela 7 fornece os valores de (X), com base nestas relações. A média, a variância e o coeficiente de assimetria (A) da distribuição gamma podem ser obtidos por: (19) (20) (21) A distribuição gamma tem assimetria positiva com o parâmetro diminuindo e o parâmetro aumentando. Variando-se , com constante, muda-se a escala da distribuição, enquanto variando-se , com constante, muda-se a sua forma. Tabela 7. Função gamma de Y. Pode-se concluir, com base na equação (21), que, quando tende para infinito A 0, ou seja, a distribuição gamma, neste caso, tende a ser simétrica. As estimativas dos parâmetros e resultam da solução das equações (19) e (20). Mas essas estimativas não são adequadas, preferindo-se as estimativas descritas em Thom (1966): (22) (23) sendo (24) onde (25) é a média aritmética e (26) é a média geométrica das observações, ou alternativamente, segundo Greenwood e Durand (1960) dada por: (27) quando 0 Z 0,5772 e por (28) quando 0,5772 < Z < 7,0, onde (29) Neste caso o parâmetro continua sendo calculado como na equação (23). A função cumulativa de probabilidade é: (30) Esta equação não tem solução imediata, exigindo tabelas ou técnicas de integração numérica como expansão em série e a fórmula de Simpson, por exemplo. A série normalmente utilizada é a seguinte: (31) Na equação (29), fazendo-se ; X=t; dx=dt, chega-se a equação (31). A probabilidade de ocorrer um valor de X t é F(t). Exemplo Considere-se os 95 valores mensais de chuva do mês de janeiro em Pelotas, RS, na tabela 8, cuja distribuição de freqüências é mostrada na tabela 9. Considerando-se a tabela 9, tem-se: Tabela 8. Chuva mensal de janeiro em Pelotas, RS, no período de 1895 a 1989. Ano 0 1 2 3 4 5 6 7 8 9 189... 112,6 32,1 129,9 183,1 63,4 190... 68,3 77,5 113,3 35,8 145,6 22,3 20,2 15,5 121,4 148,5 191... 203,6 117,8 81,3 50,1 197,7 132,6 130,1 72,8 86,6 23,1 192... 81,5 65,7 159,0 182,0 28,8 129,6 33,4 82,7 59,3 119,7 193... 97,0 239,6 31,5 59,0 151,7 45,7 64,5 64,5 232,0 92,4 194... 269,0 271,3 68,3 25,1 244,7 44,1 113,4 101,8 340,3 87,6 195... 10,4 84,9 62,8 144,4 160,1 22,1 210,9 58,4 162,0 134,5 196... 143,5 106,6 64,5 151,1 11,5 48,1 107,8 84,4 191,3 105,2 197... 83,9 148,1 178,1 213,9 127,0 129,8 140,1 119,772,5 14,7 198... 59,6 85,4 71,0 135,9 246,8 78,6 166,0 82,7 149,5 209,4 Tabela 9. Distribuição de freqüências dos totais mensais de chuva de janeiro em Pelotas – RS. Ajuste à distribuição gamma. Classes Ponto Médio (X) f FX FX2 ln(X) f 10,1 – 52,1 31,1 18 559,8 17.409,78 61,8697 52,1 – 94,1 73,1 28 2.046,8 149.621,08 120,1712 94,1 – 136,1 115,1 20 2.302,0 264.960,20 94,9160 136,1 – 178,1 157,1 13 2.042,3 320.846,33 65,7395 178,1 – 220,1 199,1 9 1.791,9 356.767,29 47,6443 220,1 – 262,1 241,1 4 964,4 232.516,84 21,9408 262,1 - 304,1 283,1 2 566,2 160.291,22 11,2916 304,1 – 346,1 325,1 1 325,1 105.609,01 5,7841 Totais - 95 10.598,5 1.608.101,75 429,3573 é estimada pela equação (17), na qual As estimativas dos parâmetros com base nas equações (19) e (20) a fim de comparações, fica como exercício. Com os parâmetros e estimado tem-se, então, a função densidade de probabilidade, na forma da equação (15), e a função cumulativa de probabilidade (equação 30) será: A solução dessa equação exige o emprego de técnicas de integração numérica ou uso de tabelas específicas. Adotou-se aqui a expansão em série na forma da equação (31), cuja reprodução de todos os cálculos é praticamente impossível de ser apresentada aqui. Mas, considerando apenas a primeira classe, a título de exemplo, tem-se: Tabela 10. Distribuição de freqüências dos totais mensais de chuva de janeiro em Pelotas – RS, ajustados à distribuição gamma de probabilidade. Classes Ponto Médio (X) f FX fe 10,1 – 52,1 31,1 18 0,1838 17 52,1 – 94,1 73,1 28 0,4734 28 94,1 – 136,1 115,1 20 0,7052 22 136,1 – 178,1 157,1 13 0,8489 14 178,1 – 220,1 199,1 9 0,9272 7 220,1 – 262,1 241,1 4 0,9663 4 262,1 - 304,1 283,1 2 0,9849 2 304,1 – 346,1 325,1 1 0,9934 1 Totais - 95 - 95 O histograma de freqüências deste exemplo é mostrado na figura 6. Figura 6. Totais de chuva mensal de janeiro em Pelotas, RS, ajustados a distribuição gamma (Assis et al., 1996, pg. 59). Distribuição de Valores Extremos Obras de construção civis como barragens, torres de alta tensão, entre outras, são projetadas para suportar o limite máximo (ou mínimo) conhecido dos eventos meteorológicos da região. A idéia posta em prática é que se determinada estrutura suporta o valor extremo de um evento ela está em segurança para os valores correntes. A distribuição de probabilidade que trata dessa questão: valores máximos ou mínimos de eventos climatológicos que servem de subsídios para projetos de engenharia é a distribuição de valores extremos, ou distribuição tipo I de Fisher-Tippet ou, ainda, distribuição de Gumbel. Sua função densidade de probabilidade tem a forma: (32) (33) O duplo sinal no segundo expoente da equação (33) refere-se aos valores extremos máximo (sinal negativo) e mínimo (sinal positivo). As estimativas dos parâmetros e podem ser obtidas por diferentes métodos como por exemplo: o método dos momentos, o método da regressão, o método de Lieblein e o método da máxima verossimilhança (Assis et al., 1996). Entretanto, aqui, serão descritos o método dos momentos, o método da regressão e o método da máxima verossimilhança, através do exemplo a seguir. O método de Lieblein pode ser encontrado em detalhes em Thom (1966) e Assis et al. (1996). Exemplo Considerem-se os 72 valores anuais de chuva máxima de 24 horas de Piracicaba, SP, apresentados na tabela 11. Tabela 11. Chuva máxima de 24 horas de Piracicaba, SP, no período de 1917 a 1988. Ano 0 1 2 3 4 5 6 7 8 9 191... 65,0 68,0 65,0 192... 64,0 65,0 55,0 64,0 60,0 57,0 66,5 64,0 50,0 59,2 193... 86,5 93,0 69,0 65,0 83,0 50,0 64,4 58,8 58,0 109,5 194... 83,3 77,9 104,9 97,7 111,2 95,3 64,4 75,2 46,8 108,4 195... 55,5 62,4 73,9 54,4 57,8 80,1 39,9 59,1 80,0 78,4 196... 83,8 55,5 82,9 52,0 48,3 80,4 70,7 49,1 63,0 73,7 197... 71,6 68,5 80,4 99,5 68,6 76,0 72,7 71,8 46,4 63,4 198... 50,7 59,2 68,6 114,0 51,1 70,4 62,0 103,2 86,7 = 17,22
Compartilhar