Baixe o app para aproveitar ainda mais
Prévia do material em texto
Revisão de conceitos de probabilidades e estatística 3-1 Manual de Hidrologia 3 REVISÃO DE CONCEITOS DE PROBABILIDADES E ESTATÍSTICA 3.1 DEFINIÇÕES Uma variável aleatória χ é um variável que toma valores não resultantes de processos e leis físicas ou relações matemáticas bem determinadas, sendo por isso atribuídos à sorte (acaso). Por exemplo: o número de pontos no lançamento dum dado. Uma variável aleatória pode ser discreta ou contínua. É discreta se só pode tomar valores descontínuos, por exemplo, o número de dias de chuva num ano. A variável aleatória diz-se contínua quando, num determinado intervalo de valores, limitado ou não, puder tomar qualquer valor desse intervalo, por exemplo, a precipitação anual. A população Ω é o conjunto de todos os valores que podem ser assumidos por uma variável aleatória. Designa-se por amostra a parte observada da população. Um acontecimento Ai é qualquer subconjunto da população. A frequência (ou frequência relativa) dum acontecimento Ai é definida por f = n/N em que n é o número de vezes em que o acontecimento Ai ocorre e N o tamanho da amostra. Por exemplo, se há um registo de 10 anos de precipitação e se considera o acontecimento de Pano > 1200 mm, pode acontecer que tal acontecimento ocorra 2 vezes na amostra, então f = 2/10 = 0.2. A probabilidade P dum acontecimento Ai é P(Ai) = limN→∞f A moderna teoria das probabilidades baseia-se numa axiomática desenvolvida por Kolmogorov da qual se deduzem as seguintes consequências: P(Ai) ≥ 0; P(Ω) = 1; P(A ∪ B) = P(A) + P(B) - P(A ∩ B); P(A ∩ B) = P(A | B) x P(B) = P(B|A) x P(A); Se P(A ∩ B) = P(A) x P(B), os acontecimentos são independentes. 3.2 FUNÇÕES DE DISTRIBUIÇÃO, DURAÇÃO E DENSIDADE DE PROBABILIDADE Considere-se uma amostra de N valores duma variável aleatória e classifique-se essa amostra por ordem crescente: x1 ≤ x2 ≤ ... ≤ xN A probabilidade de que a variável aleatória χ assuma um valor não superior a xi é Revisão de conceitos de probabilidades e estatística 3-2 Manual de Hidrologia P (χ ≤xi) = i/N = F(xi) F(xi) é a função de distribuição empírica (FDE). Se se classificar a amostra por ordem decrescente: x1 ≥ x2 ≥ ... ≥ xN A probabilidade de que a variável aleatória χ assuma um valor não inferior a xi é P (χ ≥xi) = i/N = G(xi) G (xi) é a função de duração. Note-se que P(χ ≤xi) + P (χ ≥xi) = P (χ ≤xi) + P(χ >xi) + P(χ =xi) = 1 + P (χ = xi) = F(xi) + G(xi) Para variáveis aleatórias contínuas, P (χ =xi) = 0 ⇒ F(x) + G(x) = 1 Para variáveis aleatórias discretas, F(x) + G(x) = 1 + P(χ =xi) Para uma variável aleatória contínua, define-se a função densidade de probabilidade f(x): dx dF(x) = f(x) ) 22 (Pr)( dxxdxxobxf +≤≤−= χ Há definições paralelas para as variáveis aleatórias discretas. Figura 3.1 - Funções de distribuição, duração e densidade de probabilidade Revisão de conceitos de probabilidades e estatística 3-3 Manual de Hidrologia A figura 3.1 ilustra as relações entre F(x), G(x) e f(x) para uma variável aleatória contínua. Pode verificar-se teoricamente que o estimador i/N para a probabilidade do acontecimento (χ ≤ xi) é um estimador com viez, i.e., quando a dimensão da amostra cresce indefinidamente o valor do estimador não tende para o valor correcto da probabilidade. Assim, é preferível utilizar para as funções de distribuição e de duração. F (xi) = Prob (x ≤xi) = i/N+1 G (xi) = Prob (x ≥xi) = i/N+1 3.3 PERÍODO DE RETORNO E RISCO HIDROLÓGICO Considere-se uma série de 50 valores, por exemplo de precipitação anual, ordenados por ordem crescente. O valor de ordem i = 41 é igualado ou excedido 10 vezes na série correspondendo-lhe uma probabilidade de não excedência F = 0.804. O intervalo médio entre ocorrências sucessivas do acontecimento (χ ≥x41) seria então de cerca de 5 anos. Este intervalo médio entre ocorrências sucessivas dum acontecimento é designado por período de retorno T. O período de retorno do acontecimento (χ ≥xi) relaciona-se com a probabilidade de excedência, G(xi), ou de não excedência, F(xi), pelas expressões: T(xi) = 1 / G(xi) = 1 / {1-F(xi)} Assim, no exemplo anteriormente referido, ter-se-ia F(x41) = P(χ ≤x41) = 0.804 G(x41) = P(χ ≥x41) = 0.196 T(x41) = 1 / 0.196 ≈ 5 anos Importa deixar bem claro que o conceito de período de retorno não está associado a qualquer ideia de repetição cíclica e regular do acontecimento. Se, por exemplo, um acontecimento tem um período de retorno de 10 anos, isso não quer dizer que tal acontecimento ocorre regularmente de 10 em 10 anos: ele pode ocorrer em dois anos consecutivos assim como pode não ocorrer durante trinta anos. Se, porém, dispusermos duma série suficientemente longa, então o intervalo médio entre ocorrências consecutivas do acontecimento seria de 10 anos. Considere-se agora o acontecimento (χ ≥x) com uma probabilidade de ocorrência G(x) relativamente baixa. A probabilidade de não ocorrência do acontecimento em 2 anos sucessivos será [F(x)]2 e a de não ocorrência em N anos sucessivos será [F(x)]N. Então, a probabilidade de que o acontecimento ocorra pelo menos uma vez em N anos sucessivos será dada por 1-[F(x)]N. Essa probabilidade designa-se por risco hidrológico R(x, N), conceito com bastante interesse prático como se pode ver pelos exemplos seguintes. Revisão de conceitos de probabilidades e estatística 3-4 Manual de Hidrologia 1º Exemplo) Uma barragem levará 6 anos a ser construída. A sua construção far-se-á com a protecção de ensecadeiras e desvio do rio através de galerias (como se fez, por exemplo, com a barragem de Cahora-Bassa). Se adoptar como caudal de dimensionamento das galerias o correspondente a uma cheia com o período de retorno T = 20 anos, qual é a probabilidade das ensecadeiras serem galgadas durante a construção? A probabilidade de galgamento durante a construção corresponde à situação de insuficiência das galerias de desvio para passagem o caudal afluente. A probabilidade pedida é, pois, o risco hidrológico do acontecimento (Qafl > Q20) para N = 6: R = 1 - F(x)6 = 1 - [1 - G(x)]6 = 1 - [1 - 1/T(x)]6 Como T = 20, R = 0.265. A probabilidade de galgamento durante a construção é de 0.265, ou seja, aproximadamente 1 possibilidade em 4. 2º Exemplo) Se no exemplo anterior se pretender que a probabilidade de galgamento das ensecadeiras durante a construção (i.e., o risco hidrológico) não exceda 10%, qual deverá ser o caudal de dimensionamento das galerias? R = 0.10 = 1 - [1 - 1/T(x)]6 ⇒ T = 57.4 ≈ 60 anos. As galerias deveriam ser dimensionadas para um caudal com um período de retorno de cerca de 60 anos. 3.4 PARÂMETROS ESTATÍSTICOS DA POPULAÇÃO E DA AMOSTRA 3.4.1 Introdução Na Estatística, a população ou a amostra com que se está a lidar são representadas por um número relativamente pequeno de parâmetros estatísticos. Trata-se de uma forma sintética de apresentar as principais características da população ou da amostra, em relação às quais interessa definir: - a tendência central; - a dispersão; - a assimetria; - os quantis. Revisão de conceitos de probabilidades e estatística 3-5 Manualde Hidrologia 3.4.2 Momentos da população e da amostra Define-se momento de ordem r em relação à origem como dxxfx = r - + r )( ' ⋅∫ ∞ ∞ µ para a população N i r ir x N = m ∑ =1 ' 1 para a amostra A média da população, µ, ou da amostra, x , são os momentos de ordem 1 em relação à origem: '1µµ = '1mx = Define-se momento centrado de ordem r como o momento de ordem r tomando a média como origem: dxf(x) )-(x = r - + r ⋅∫ ∞ ∞ µµ para a população N )x-x( = m r i N 1=i r ∑ para a amostra 3.4.3 Tendência central Os parâmetros que caracterizam a tendência central indicam à volta de que valor se distribuem os valores da população ou da amostra. Os parâmetros mais utilizados são a média µ ou x e a mediana, xm . A média da população e da amostra são dadas respectivamente por dx f(x) x = + - ∫ ∞ ∞ µ ∑ = N i ix N = x 1 1 Revisão de conceitos de probabilidades e estatística 3-6 Manual de Hidrologia A mediana é o valor que divide a população ou a amostra em duas partes de igual probabilidade acumulada. Para uma população, a mediana é definida tal que: 0.5 = dx f(x)=dx f(x) - ∫∫ ∞ ∞ µ µ Para uma amostra a mediana, xm é definida tal que (amostra ordenada) - se N ímpar, m = int(N/2) + 1 por exº: N=25 ⇒ m=13 - se N par: )x+(x 2 1=x NNm 1 2 2 + por exemplo, se N=24, xm = (x12 + x13)/2 3.4.4 Dispersão Os parâmetros que caracterizam a dispersão indicam se os elementos da população ou da amostra estão muito ou pouco concentrados em torno da média. Os parâmetros mais utilizados são: - Variância σ2, s2; - Desvio padrão σ, s; - Coeficiente de variação ηv, cv. A variância é o momento centrado da 2ª ordem: f(x)dx )-(x = 2 - + 2 µσ ∫ ∞ ∞ 1-N )x-x( = 1-N N * N )x-x( = s 2 i N 1=i 2 i N 1=i2 ∑∑ N/N-1 é um factor de correcção do viez. Diz-se que um estimador dum parâmetro apresenta viez quando o seu valor não tende para o valor correspondente da população quando a dimensão da amostra cresce indefinidamente. O desvio padrão é a raiz quadrada da variância. Note-se que o desvio padrão é expresso nas mesmas unidades que a média e que os elementos da amostra ou da população. O coeficiente de variação é a relação entre o desvio padrão e a média: Revisão de conceitos de probabilidades e estatística 3-7 Manual de Hidrologia x s=c = vv µ σ η É um parâmetro adimensional. A figura 3.2 apresenta duas séries com as mesmas médias mas com diferentes desvios padrão. Figura 3.2 Distribuições do mesmo tipo, com as mesmas médias e variâncias diferentes 3.4.5 Assimetria As populações e as amostras (e as distribuições que as caracterizam) podem ser simétricas (assimetria nula) ou assimétricas (assimetria positiva ou negativa). A figura 3.3 apresenta três distribuições com assimetria nula, negativa e positiva. Figura 3.3 Distribuições com diferentes assimetrias Quando a assimetria é nula, a média e a mediana coincidem; quando a assimetria é positiva, a média é superior à mediana e, quando é negativa, a média é inferior à mediana. A média é muito mais influenciada pelos valores extremos que a mediana. Revisão de conceitos de probabilidades e estatística 3-8 Manual de Hidrologia O parâmetro que caracteriza a assimetria é o coeficiente de assimetria, γ ou g, que é o momento centrado de 3ª ordem transformado em parâmetro adimensional pela divisão por σ3. σ µ γ 3 3 + - dx f(x) )-(x = ∫ ∞ ∞ 2)-1)(N-(N N * s )x-x( = 2)-1)(N-(N N * s N )x-x( = g 3 3 i N 1=i 2 3 3 i N 1=i ∑∑ N2/{(N-1)(N-2)} é o factor de correcção do viez. 3.4.6 Quantis O quantil da ordem p é o valor ξp ou xp definido por: p = dx f(x) = p - p ∫ ∞ ξ ξ Numa amostra ordenada o quantil xp é o valor de ordem j = N * p. 0 ≤ p ≤ 1 A mediana é o quantil de ordem 0.5. 3.5 AJUSTAMENTO DUMA AMOSTRA A UMA DISTRIBUIÇÃO TEÓRICA 3.5.1 Metodologia A partir duma dada amostra é possível definir a sua função de distribuição empírica. A FDE é, no entanto, afectada pela dimensão limitada da amostra e, por outro lado, não permite extrapolar para períodos de retorno superiores à duração da amostra. Por essa razão, faz-se o ajustamento da amostra a uma função de distribuição teórica (ou lei de probabilidades ou simplesmente distribuição), procurando-se de entre as várias que têm sido propostas aquela que melhor se adapte à FDE. A sequência de cálculo que se adopta para a extrapolação de valores com altos períodos de retorno, necessários para o dimensionamento de obras hidráulicas, é então a seguinte: - selecção de uma de entre as distribuições teóricas; - especificação ou ajustamento da distribuição; Revisão de conceitos de probabilidades e estatística 3-9 Manual de Hidrologia - avaliação do ajustamento; - utilização da distribuição para a previsão de valores (extrapolação). As distribuições teóricas mais utilizadas em Hidrologia são a Normal (ou de Gauss), a Log- Normal de 2 parâmetros (Lei de Galton), a Log-Normal de 3 parâmetros, a de Gumbel, a Gama, a Pearson tipo III e a Log-Pearson tipo III. Neste capítulo apenas se estudará a distribuição Normal, estudando-se algumas das restantes no capítulo dedicado às cheias. A especificação ou ajustamento da distribuição consiste na estimação dos respectivos parâmetros a partir da informação contida na amostra. Existem diversos métodos para fazer o ajustamento sendo os mais correntes o método dos momentos, o método da máxima verosimilhança e o método dos mínimos quadrados. Embora nem sempre seja o mais eficiente, ir-se-á estudar apenas o método dos momentos que é o de mais simples aplicação. A estimação pelo método dos momentos consiste em seleccionar os valores dos m parâmetros da distribuição por forma a que os primeiros m momentos da distribuição sejam iguais aos correspondentes momentos da amostra. 3.5.2 Distribuição Normal ou de Gauss A distribuição Normal é a lei de probabilidades que melhor tem sido estudada do ponto de vista teórico. Tem um enorme campo de aplicação não apenas em Hidrologia mas em muitas outras áreas de Engenharia como a caracterização de solicitações em estruturas ou o controle de qualidade dos materiais. A função densidade é: e 2a 1 = f(x) a2 )b--(x 2 2 π A função de distribuição é: dx dF(x) = f(x) dx f(x) = F(x) x - ∫ ∞ A distribuição é simétrica, não sendo integrável analiticamente. F(x) é obtida por integração numérica e dada em tabelas. A distribuição tem 2 parâmetros: a, b. Os momentos da distribuição são obtidos em função dos parâmetros: - média µ = b; - variância σ2 = a2; - coeficiente de assimetria γ = 0. Revisão de conceitos de probabilidades e estatística 3-10 Manual de Hidrologia Por tal razão, é frequente escrever a expressão de f(x) substituindo a, b, por σ e µ: e 2 1 = f(x) 2 )--(x 2 2 σ µ πσ Demonstra-se que a distribuição Normal goza da propriedade de invariância linear: Se x é uma variável aleatória com distribuição Normal, média µx e desvio padrão σx, então y = c1x+ c2 é também uma variável aleatória normal, com média µy = c1µx + c2 e desvio padrão σy= c1σx. As tabelas da distribuição Normal são construídas para uma variável z, variável normal reduzida, definida por z = (x – µx)/σx Com esta definição e atendendo à propriedade da invariância linear da distribuição Normal, é imediato que µz = 0 e σz = 1. Diz-se então que z é uma variável N(0,1). A tabela 3.1, reproduzida de Lencastre e Franco (1984), dá os valores de F(z) para z de 0.00 a 3.49 em intervalos de 0.01. Atendendo à simetria da distribuição, a tabela permite obter valores de F(z) para –3.49 ≤ z ≤ 0. Revisão de conceitos de probabilidades e estatística 3-11 Manual de Hidrologia Lei Normal ou de Gauss Função de distribuição (µ=0; σ= 1) Tabela 3.1 – Função de distribuição Normal ou de Gauss Esta tabela pode ser utilizada para qualquer distribuição Normal mesmo que não tenha µ=0 e σ=1, bastando para isso fazer a transformação (x-µx)/σx. Da tabela tira-se que as probabilidades de x estar entre µ+σ e µ-σ; µ+2σ e µ-2σ; µ+3σ e µ-3σ são respectivamente de 68.3%, 95.4% e 99.7%. As probabilidades de 90%, 95% e 99% correspondem aos intervalos µ ± 1.645σ, µ ± 1.96σ, µ ± 2.575σ. Revisão de conceitos de probabilidades e estatística 3-12 Manual de Hidrologia Existem métodos analíticos para testar se o ajustamento duma série à Distribuição Normal (ou a outra distribuição teórica) é aceitável. Estes métodos, como o teste do qui-quadrado e o de Kolmogorov-Smirnov, serão vistos no capítulo dedicado à estatística de cheias. Um processo também muito utilizado para verificar se o ajustamento é aceitável é a utilização de papel de probabilidade, papel com os eixos construídos de tal maneira que, se uma série se ajusta bem à distribuição representada nesse papel, os seus pontos alinham-se aproximadamente segundo uma recta. Os pontos têm coordenadas (F(xi), Yi) em que F(xi) é o probabilidade de não excedência do valor i da série ordenada em ordem crescente ("plotting position") e Yi o valor i da série. Existem muitas expressões para o cálculo da "plotting position": - Califórnia i/N; - Hazen (2i-1)/2N; - Weibull i/(N+1); - Chegadayev (i-0.3)/(N+0.4); - Blom (i-0.375)/(N+0.25); - Tukey (3i-1)/(3N+1). A fórmula mais eficiente e a mais utilizada é a de Weibull. 3.6 CORRELAÇÃO E REGRESSÃO LINEARES 3.6.1 Correlação e regressão linear simples A correlação e regressão lineares constituem uma das ferramentas mais utilizadas em Hidrologia, essencialmente para: - preencher falhas numa série de registos; - estender uma série hidrológica a partir de outras mais longas. A figura 3.4 representa genericamente o domínio das variáveis aleatórias x e y com funções de distribuição de probabilidade respectivamente f(x) e g(y). Figura 3.4 - Correlação entre duas variáveis aleatórias Revisão de conceitos de probabilidades e estatística 3-13 Manual de Hidrologia Ter-se-á então: f(x)dx = P(x) = ) 2 dx+x x 2 dx-P(x ≤≤ g(y)d(y) = P(y) dyf(x)g(x)dx = y)P(x, = ) 2 dy+y y 2 dy-y 2 dx+x x 2 dx-P(x ≤≤∩≤≤ se os acontecimentos forem independentes. Se os acontecimentos não forem independentes, diz-se que há entre as varáveis uma dependência estocástica. Quando essa dependência é linear, ela é medida pelo coeficiente de correlação linear ρxy: σσ µµ ρ yx yx x y xy dxdy f(x)g(y) )-)(y-(x = ∫∫ para a população; s s 1)-(N yxN - yx = s s 1)-(N )y-y)(x-x( = r yx ii N 1=i yx ii N 1=i xy ∑∑ para a amostra. Demonstra-se que ⎮rxy⎮, ⎮ρxy⎮ ≤ 1. Quando o coeficiente de correlação iguala a unidade, a correlação é perfeita e os pontos (x,y) alinham-se segundo uma recta. Quando a apresentação dos pontos (x,y) sugere uma "nuvem" (figura 3.5), o coeficiente de correlação aproxima-se de zero. Figura 3.5 - Coeficiente de correlação Revisão de conceitos de probabilidades e estatística 3-14 Manual de Hidrologia O coeficiente de correlação exprime o grau de associação, mais ou menos elevado, entre duas variáveis aleatórias. Quando a correlação é elevada, pode estabelecer-se uma regressão linear duma variável (dependente) sobre a outra (independente), isto é, tentar explicar a variação da variável dependente como uma função linear da variação da variável independente. Por exemplo, pode tentar-se estabelecer uma regressão linear do escoamento anual numa bacia em função da precipitação ponderada sobre a bacia. Figura 3.6 - Regressão linear A expressão da regressão linear é y = ax + b em que a,b são os coeficientes da regressão (figura 3.6), determinados pelo método dos mínimos quadrados. Como se sabe, o método dos mínimos quadrados determina os coeficientes por forma a minimizar a soma dos quadrados dos desvios. Designando por y) a estimativa de y fornecida pela regressão linear, ter-se-á: Z = Σi (yi – y ) i)2 = Σi [yi – (axi + b)]2 = Σi [yi2 – 2 axiyi – 2 byi + (axi + b)2] = Σi [yi2 – 2 axiyi – 2 byi + a2xi2 + 2axib + b2] Escolhe-se a e b para ter o Zmínimo Zmin. ⇒ δZ/δa = 0 e δZ/δb = 0. 1007 δZ/δa = - 2 Σi xiyi + 2 Σi axi2 + 2 Σi b xi = 0; e δZ/δb = - 2 Σi yi + 2 Σi axi + 2 Σi b = 0, chegando-se às equações normais. xN - x yxN - yx =a 2 i 2 N 1=i ii N 1=i ∑ ∑ xa - y = b Revisão de conceitos de probabilidades e estatística 3-15 Manual de Hidrologia É fácil de ver que a = rxy sy/sx. Chama-se erro padrão da estimativa, se, ao desvio padrão dos resíduos y-y=e iii ˆ Como 0.=e ,y=ŷ Pode verificar-se a seguinte relação entre sy e se: se2 = sy2 (1-rxy2) Esta relação evidencia como a variância residual varia com o coeficiente de correlação. Quando a correlação é perfeita, r=1, os pontos alinham-se todos segundo uma recta e a variância residual ou variância não explicada pela regressão é nula. À medida que r diminui, se2 vai tendendo para sy2, ie, a regressão “explica” cada vez menos a variância de y. Na expressão de se2 é conveniente introduzir um factor de correcção do viez: se2 = (1-r2) sy2 (N-1)/(N-2). A variância explicada pela regressão é rs=s 2y 2 y 2 ˆ Se, por exemplo, r = 0.80, a regressão explica 64% da variância total de y. O coeficiente de determinação, cd, dá a percentagem da variância total que é explicada pela regressão. Então cd = r2. Importa notar que, normalmente, a regressão de y sobre x não coincide com a regressão de x sobre y. Isso só acontece se sy = sx. Por outro lado, interessa ter uma regra prática que indique quando é que vale a pena utilizar regressão linear, ou seja, qual o limite inferior para o coeficiente de correlação. Chow (1964) sugere que se pode usar regressão linear quando ⎮r⎮ > 0.60, o que corresponde a explicar cerca de 1/3 da variância de y através da regressão. Talvez seja preferível, no entanto, adoptar como limite inferior para ⎮r⎮ um valor um pouco mais alto como 0.70 (cerca de metade da variância de y explicada pela regressão) ou 0.80 (variância explicada é cerca de 2/3 da variância total). Para além disso, importa sempre ver se há uma base física parao estabelecimento da regressão afim de evitar as correlações espúrias (fruto do acaso, do tamanho limitado da amostra ou da transformação de variáveis). Revisão de conceitos de probabilidades e estatística 3-16 Manual de Hidrologia Exemplo: Considerem-se as séries de precipitações anuais nos postos udométricos P621 e P705, ambos situados na bacia do rio Monapo. Pretende-se estender as duas séries. Ano 1 2 3 4 5 6 7 8 9 10 P621 (mm) 1162 1069 957 1058 1108 1155 805 936 921 732 P705 (mm) - - - - - - - - - 600 Ano 11 12 13 14 15 16 17 18 19 20 P621 (mm) 858 1094 1027 1139 1047 972 1212 1354 876 - P705 (mm) 923 1087 1166 1064 1298 931 1121 1249 697 976 Ano 21 22 23 24 25 26 27 28 P621 (mm) - - - - - - - - P705 (mm) 1316 766 1129 1187 794 1125 890 880 A série P621 tem 19 valores e a P705 também tem 19 valores, sendo o período comum de 10 anos. Pretende-se estender a série P705 para os primeiros nove anos por regressão sobre P621 e estender esta para os últimos nove anos por regressão sobre P705. Tomando o período de 10 anos comuns (anos 10 - 19), obtem-se: variável x (P621): x = 1031 mm; sx = 183 mm. variável y (P705): x = 1014 mm; sy = 227 mm. 0.64 = c ; 0.80 =r d Então a regressão irá explicar 64% de sy2 A regressão linear de y sobre x dá a seguinte equação: y = 1.01x – 28, donde se podem obter os valores de y (≡ P705) para os primeiros 9 anos: 1146 / 1052 / 939 / 1041 / 1091 / 1139 / 785 / 917 / 902. A variância residual é se2 = sy2 (1-r2) = 18,550 ⇒ se = 136. Para estender agora a série P621 para os últimos 9 anos, estabelece-se uma outra regressão linear: x = cy + d, mantendo-se x ≡ P621 e y ≡ P705. Revisão de conceitos de probabilidades e estatística 3-17 Manual de Hidrologia O coeficiente de correlação é obviamente o mesmo. Obtem-se x = 0.65y + 372 (note-se o afastamento entre as duas rectas de regressão na figura 8.7). Os valores de P621 para os últimos 9 anos serão: 1007 / 1228 / 870 / 1106 / 1144 / 888 / 1104 / 951 / 944 A variância residual é se2 = 1832(1- 0.82) = 12,056 ⇒ se = 110. Figura 3.7 Exemplo de regressão linear simples Um aspecto importante a notar quando se utiliza regressão linear para estimar um número grande de valores em falta é que a variância da série estendida se reduz em relação à série original, devido ao facto da regressão não entrar com a variância residual (os valores estimados situam-se sobre a recta de regressão e não à volta dela). Por exemplo, para a série P705 o desvio padrão da série original (19 valores) é 205 enquanto a série estendida é 180. A média praticamente não varia (de 1010 para 1008). Assim as características estatísticas da série mudam, o que não é desejável. Para obviar a esse inconveniente, pode-se modificar a expressão da regressão linear para: z r-1 s+ b + ax =z s+ b + ax =y 2ye Revisão de conceitos de probabilidades e estatística 3-18 Manual de Hidrologia A nova parcela é uma componente aleatória, obtida por multiplicação do erro padrão da estimativa por uma variável aleatória z ≡ N(0,1). É possível obter sucessivos valores de z recorrendo a uma tabela de números aleatórios ou utilizando rotinas de computador (gerador de números aleatórios). Esta parcela adicional faz com que a variância de y se mantenha (coloca os pontos fora da recta de regressão). Não é possível nestas notas introdutórias aprofundar este tema que é, no entanto, extremamente importante por ser a base dos chamados modelos autoregressivos de geração sintética. 3.6.2 Transformação de variáveis Considere-se o exemplo representado na figura 3.8. O coeficiente de correlação anteriormente definido é uma medida da associação linear entre x e y. Se se fizesse a sua determinação para o exemplo da figura 3.8, obter-se-ia um valor baixo embora o gráfico evidencie que x e y estão fortemente associados. Figura 3.8 - Correlação e regressão não lineares Em situações como esta, uma transformação das variáveis x e y permite mudar uma associação não linear para uma associação linear a que se podem aplicar as técnicas de correlação e regressão lineares descritas no tópico anterior. A transformação mais correntemente utilizada em Hidrologia é a logarítmica que pressupõe que x e y estariam ligados por uma relação do tipo: y = axb, que, logaritmizada, origina: ln(y) = ln(a) + b ln(x), ou seja, uma relação linear entre os logaritmos de x e y. Pode dar-se como exemplo a equação da curva de recessão dum rio alimentado por um aquífero, Qt = Qo e -αt. Revisão de conceitos de probabilidades e estatística 3-19 Manual de Hidrologia 3.6.3 Correlação e regressão lineares múltiplas Quando se considera a associação apenas entre duas variáveis, x e y, a correlação e regressão linear dizem-se simples. É possível, no entanto, generalizar o conceito para a associação entre uma variável dependente, y, e m variáveis independentes x1, x2, x3, ......., xm. A expressão da regressão linear múltipla é: y = c0 + c1x1 + c2x2 + .... + cmxm. Se o número de valores da amostra for N, m deve ser bastante inferior a N, não devendo como regra prática exceder N/5. Pode-se então escrever: y1 = c0 + c1x11 + c2x21 + .... + cmxm1 y2 = c0 + c1x12 + c2x22 + .... + cmxm2 ................. etc. yN = c0 + c1x1N + c2x2N + .... + cmxmN Assim temos N equações com m+1 incógnitas (N > m+1), nomeadamente c0, c1, c2, ...., cm. Determinam-se os coeficientes c0, c1, c2, ...., cm de tal maneira que a soma dos quadrados dos desvios entre y e a estimativa de y seja minimizada (método dos mínimos quadrados). Da mesma maneira que no caso da regressão linear simples, minimiza-se o valor de Σi (yi -y,^ i)2 = Σi [yi - (c0 + c1x1i + c2x2i + .... + cmxmi)]2. Assume-se que f(x1,x2,....,xm) = c0 + c1x1 + c2x2 + .... + cmxm. Assim deve-se minimizar o valor de z = Σi [yi - f(x1i,x2i,....,xmi)]2. A minimização de z implica que as derivadas parciais de z em ordem aos ci se anulem. Obtem-se assim m+1 equações lineares com m+1 incógnitas, as equações normais da regressão linear múltipla. A sua resolução permite calcular os valores dos coeficientes da regressão. As medidas de correlação linear múltipla mais utilizadas são o erro padrão dos resíduos, o coeficiente de correlação múltipla, o coeficiente de determinação e os coeficientes de correlação parciais. Erro padrão dos resíduos O erro padrão dos resíduos calcula-se da mesma forma que para a regressão linear simples: 0 = e ,y- y = e iii ˆ Revisão de conceitos de probabilidades e estatística 3-20 Manual de Hidrologia ∑ =−⋅− − N i ie emNN N = s 1 22 )()1( 1 em que (N-1)/(N-m) é um factor de correcção do viez. se2 dá a variançia residual ou não explicada. Coeficiente de correlação múltipla O coeficiente de correlação múltipla, R, é definido como s s = R y ŷ Verifica-se imediatamente que se2 = (1-R2) sy2. Coeficiente de determinação O coeficiente de determinação, Cd = R2 dá a variância explicada em percentagem da variância total de y. Coeficientes de correlação parciais Os coeficientes de correlação parciais ri medem o grau de associação de y com cadauma das variáveis xi e determinam a parte da variância de y explicada por cada xi. Para calcular um dado ri, começa-se por se determinar o coeficiente de correlação múltipla, R-i, obtido sem incluir xi na regressão. Então: R-1 R-R = r i- 2 i- 22 i 2 R2 - R-i2 dá o acréscimo da variância explicada originado pela inclusão de xi na regressão. Quanto maior for, maior será ri e mais importante a inclusão de xi na regressão. A obtenção dos coeficientes de correlação parciais é trabalhosa mas bastante útil pois permite excluir da regressão variáveis que não ajudam a aumentar a variância explicada. Revisão de conceitos de probabilidades e estatística 3-21 Manual de Hidrologia EXERCÍCIOS 1) Calcule a média e o desvio padrão das seguintes séries de precipitações anuais (em 2 zonas diferentes). Série 1: 805 903 875 867 912 849 815 882 Série 2: 1014 1209 480 720 545 512 984 1444 Comente os resultados. 2) Reactores nucleares, grandes barragens, diques altos, etc. devem ser projectados de tal maneira que a probabilidade da sua danificação / galgamento seja da ordem de 1 vez em 10,000 anos (período de retorno de 10,000 anos). a) Calcule o risco de danos num reactor nuclear assim dimensionado nos primeiros 50 anos do seu funcionamento. b) Repita o cálculo para um período de retorno de 1000 anos. 3) Qual é o risco que um acontecimento com período de retorno de N anos ocorra (pelo menos uma vez) em N anos. 4) O valor da precipitação anual numa zona pode ser caracterizada pela distribuição Normal. A precipitação anual média é de 723 mm. O desvio padrão é de 212 mm. a) Calcule a probabilidade duma precipitação anual maior que 1000 mm. b) Calcule a probabilidade duma precipitação anual menor que 300 mm. c) Determine a precipitação com probabilidade de excedência de 1 e 10 %. d) Determine a precipitação com probabilidade de não-excedência de 1 e 10 %. e) Determine a precipitação com probabilidade de não-excedência de 50 %. f) Determine a precipitação com período de retorno de 30 anos. 5) Dada a seguinte série de 23 valores de precipitação anual num posto udométrico, expressa em mm, a) Ajuste a distribuição Normal à série dada. Trace o gráfico em papel de probabilidade. b) Calcule a precipitação anual correspondente aos períodos de retorno de 10 e 50 anos. c) Determine os períodos de retorno teóricos a que correspondem as precipitações anuais de 1000 mm e 2015 mm (maior valor da série). Série: 1803 1295 1118 1626 1120 1116 1473 1194 1016 1372 2015 1662 1549 1448 1753 1914 1422 1346 1092 1489 1397 1245 1219
Compartilhar