Buscar

MAN-CAP3

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Revisão de conceitos de probabilidades e estatística 3-1 
 
 
Manual de Hidrologia 
 
3 REVISÃO DE CONCEITOS DE PROBABILIDADES E 
ESTATÍSTICA 
 
3.1 DEFINIÇÕES 
 
Uma variável aleatória χ é um variável que toma valores não resultantes de processos e leis 
físicas ou relações matemáticas bem determinadas, sendo por isso atribuídos à sorte (acaso). Por 
exemplo: o número de pontos no lançamento dum dado. 
 
Uma variável aleatória pode ser discreta ou contínua. É discreta se só pode tomar valores 
descontínuos, por exemplo, o número de dias de chuva num ano. A variável aleatória diz-se 
contínua quando, num determinado intervalo de valores, limitado ou não, puder tomar qualquer 
valor desse intervalo, por exemplo, a precipitação anual. 
 
A população Ω é o conjunto de todos os valores que podem ser assumidos por uma variável 
aleatória. Designa-se por amostra a parte observada da população. 
 
Um acontecimento Ai é qualquer subconjunto da população. 
 
A frequência (ou frequência relativa) dum acontecimento Ai é definida por f = n/N em que n é 
o número de vezes em que o acontecimento Ai ocorre e N o tamanho da amostra. Por exemplo, 
se há um registo de 10 anos de precipitação e se considera o acontecimento de Pano > 1200 mm, 
pode acontecer que tal acontecimento ocorra 2 vezes na amostra, então f = 2/10 = 0.2. 
 
A probabilidade P dum acontecimento Ai é P(Ai) = limN→∞f 
 
A moderna teoria das probabilidades baseia-se numa axiomática desenvolvida por Kolmogorov 
da qual se deduzem as seguintes consequências: 
 
 P(Ai) ≥ 0; 
 P(Ω) = 1; 
 P(A ∪ B) = P(A) + P(B) - P(A ∩ B); 
 P(A ∩ B) = P(A | B) x P(B) = P(B|A) x P(A); 
 Se P(A ∩ B) = P(A) x P(B), os acontecimentos são independentes. 
 
 
 
3.2 FUNÇÕES DE DISTRIBUIÇÃO, DURAÇÃO E DENSIDADE DE PROBABILIDADE 
 
Considere-se uma amostra de N valores duma variável aleatória e classifique-se essa amostra por 
ordem crescente: 
 x1 ≤ x2 ≤ ... ≤ xN 
 
A probabilidade de que a variável aleatória χ assuma um valor não superior a xi é 
 
Revisão de conceitos de probabilidades e estatística 3-2 
 
 
Manual de Hidrologia 
 
P (χ ≤xi) = i/N = F(xi) 
 
F(xi) é a função de distribuição empírica (FDE). 
 
Se se classificar a amostra por ordem decrescente: 
 
 x1 ≥ x2 ≥ ... ≥ xN 
 
A probabilidade de que a variável aleatória χ assuma um valor não inferior a xi é 
 
 P (χ ≥xi) = i/N = G(xi) 
 
G (xi) é a função de duração. 
 
Note-se que P(χ ≤xi) + P (χ ≥xi) = P (χ ≤xi) + P(χ >xi) + P(χ =xi) = 1 + P (χ = xi) = F(xi) + G(xi) 
 
Para variáveis aleatórias contínuas, P (χ =xi) = 0 ⇒ F(x) + G(x) = 1 
Para variáveis aleatórias discretas, F(x) + G(x) = 1 + P(χ =xi) 
 
Para uma variável aleatória contínua, define-se a função densidade de probabilidade f(x): 
 
dx
dF(x) = f(x) 
 
 )
22
(Pr)( dxxdxxobxf +≤≤−= χ 
 
Há definições paralelas para as variáveis aleatórias discretas. 
 
 
 
 
Figura 3.1 - Funções de distribuição, duração e densidade de probabilidade 
 
Revisão de conceitos de probabilidades e estatística 3-3 
 
 
Manual de Hidrologia 
 
A figura 3.1 ilustra as relações entre F(x), G(x) e f(x) para uma variável aleatória contínua. 
 
Pode verificar-se teoricamente que o estimador i/N para a probabilidade do acontecimento (χ ≤ 
xi) é um estimador com viez, i.e., quando a dimensão da amostra cresce indefinidamente o valor 
do estimador não tende para o valor correcto da probabilidade. Assim, é preferível utilizar para 
as funções de distribuição e de duração. 
 
 F (xi) = Prob (x ≤xi) = i/N+1 
 G (xi) = Prob (x ≥xi) = i/N+1 
 
 
 
3.3 PERÍODO DE RETORNO E RISCO HIDROLÓGICO 
 
Considere-se uma série de 50 valores, por exemplo de precipitação anual, ordenados por ordem 
crescente. O valor de ordem i = 41 é igualado ou excedido 10 vezes na série correspondendo-lhe 
uma probabilidade de não excedência F = 0.804. O intervalo médio entre ocorrências 
sucessivas do acontecimento (χ ≥x41) seria então de cerca de 5 anos. Este intervalo médio entre 
ocorrências sucessivas dum acontecimento é designado por período de retorno T. 
 
O período de retorno do acontecimento (χ ≥xi) relaciona-se com a probabilidade de excedência, 
G(xi), ou de não excedência, F(xi), pelas expressões: 
 
 T(xi) = 1 / G(xi) = 1 / {1-F(xi)} 
 
Assim, no exemplo anteriormente referido, ter-se-ia 
 
 F(x41) = P(χ ≤x41) = 0.804 
 G(x41) = P(χ ≥x41) = 0.196 
 T(x41) = 1 / 0.196 ≈ 5 anos 
 
Importa deixar bem claro que o conceito de período de retorno não está associado a qualquer 
ideia de repetição cíclica e regular do acontecimento. Se, por exemplo, um acontecimento tem 
um período de retorno de 10 anos, isso não quer dizer que tal acontecimento ocorre regularmente 
de 10 em 10 anos: ele pode ocorrer em dois anos consecutivos assim como pode não ocorrer 
durante trinta anos. Se, porém, dispusermos duma série suficientemente longa, então o intervalo 
médio entre ocorrências consecutivas do acontecimento seria de 10 anos. 
 
Considere-se agora o acontecimento (χ ≥x) com uma probabilidade de ocorrência G(x) 
relativamente baixa. A probabilidade de não ocorrência do acontecimento em 2 anos sucessivos 
será [F(x)]2 e a de não ocorrência em N anos sucessivos será [F(x)]N. 
 
Então, a probabilidade de que o acontecimento ocorra pelo menos uma vez em N anos 
sucessivos será dada por 1-[F(x)]N. Essa probabilidade designa-se por risco hidrológico R(x, N), 
conceito com bastante interesse prático como se pode ver pelos exemplos seguintes. 
Revisão de conceitos de probabilidades e estatística 3-4 
 
 
Manual de Hidrologia 
 
 
1º Exemplo) Uma barragem levará 6 anos a ser construída. A sua construção far-se-á com a 
protecção de ensecadeiras e desvio do rio através de galerias (como se fez, por exemplo, com a 
barragem de Cahora-Bassa). Se adoptar como caudal de dimensionamento das galerias o 
correspondente a uma cheia com o período de retorno T = 20 anos, qual é a probabilidade das 
ensecadeiras serem galgadas durante a construção? 
 
 
A probabilidade de galgamento durante a construção corresponde à situação de insuficiência das 
galerias de desvio para passagem o caudal afluente. A probabilidade pedida é, pois, o risco 
hidrológico do acontecimento (Qafl > Q20) para N = 6: 
 
 R = 1 - F(x)6 = 1 - [1 - G(x)]6 = 1 - [1 - 1/T(x)]6 
 
Como T = 20, R = 0.265. 
 
A probabilidade de galgamento durante a construção é de 0.265, ou seja, aproximadamente 1 
possibilidade em 4. 
 
2º Exemplo) Se no exemplo anterior se pretender que a probabilidade de galgamento das 
ensecadeiras durante a construção (i.e., o risco hidrológico) não exceda 10%, qual deverá ser o 
caudal de dimensionamento das galerias? 
 
 R = 0.10 = 1 - [1 - 1/T(x)]6 ⇒ T = 57.4 ≈ 60 anos. 
 
As galerias deveriam ser dimensionadas para um caudal com um período de retorno de cerca de 
60 anos. 
 
 
 
3.4 PARÂMETROS ESTATÍSTICOS DA POPULAÇÃO E DA AMOSTRA 
 
3.4.1 Introdução 
 
Na Estatística, a população ou a amostra com que se está a lidar são representadas por um 
número relativamente pequeno de parâmetros estatísticos. Trata-se de uma forma sintética de 
apresentar as principais características da população ou da amostra, em relação às quais interessa 
definir: 
 
 - a tendência central; 
 - a dispersão; 
 - a assimetria; 
 - os quantis. 
 
 
 
Revisão de conceitos de probabilidades e estatística 3-5 
 
 
Manualde Hidrologia 
 
3.4.2 Momentos da população e da amostra 
 
Define-se momento de ordem r em relação à origem como 
 dxxfx = r
-
+
r )(
' ⋅∫
∞
∞
µ para a população 
 
 
N
i
r
ir x N
= m ∑
=1
' 1 para a amostra 
 
A média da população, µ, ou da amostra, x , são os momentos de ordem 1 em relação à origem: 
 
 '1µµ = 
 
 '1mx = 
 
Define-se momento centrado de ordem r como o momento de ordem r tomando a média como 
origem: 
 dxf(x) )-(x = r
-
+
r ⋅∫
∞
∞
µµ para a população 
 
N
)x-x(
 = m
r
i
N
1=i
r
∑
 para a amostra 
 
 
 
3.4.3 Tendência central 
 
Os parâmetros que caracterizam a tendência central indicam à volta de que valor se distribuem os 
valores da população ou da amostra. 
 
Os parâmetros mais utilizados são a média µ ou x e a mediana, xm . 
 
A média da população e da amostra são dadas respectivamente por 
 dx f(x) x = 
+
-
∫
∞
∞
µ 
 
 
 
 
 
∑
=
N
i
ix N
= x
1
1
 
Revisão de conceitos de probabilidades e estatística 3-6 
 
 
Manual de Hidrologia 
 
A mediana é o valor que divide a população ou a amostra em duas partes de igual probabilidade 
acumulada. Para uma população, a mediana é definida tal que: 
 0.5 = dx f(x)=dx f(x)
-
∫∫
∞
∞ µ
µ
 
 
Para uma amostra a mediana, xm é definida tal que (amostra ordenada) 
 
- se N ímpar, m = int(N/2) + 1 
 
 por exº: N=25 ⇒ m=13 
 
- se N par: 
 )x+(x
2
1=x NNm 1
2
2 +
 
 
por exemplo, se N=24, xm = (x12 + x13)/2 
 
3.4.4 Dispersão 
 
Os parâmetros que caracterizam a dispersão indicam se os elementos da população ou da 
amostra estão muito ou pouco concentrados em torno da média. Os parâmetros mais utilizados 
são: 
 
 - Variância σ2, s2; 
 - Desvio padrão σ, s; 
 - Coeficiente de variação ηv, cv. 
 
A variância é o momento centrado da 2ª ordem: 
 f(x)dx )-(x = 2
-
+
2 µσ ∫
∞
∞
 
 
1-N
)x-x(
 = 
1-N
N * 
N
)x-x(
 = s
2
i
N
1=i
2
i
N
1=i2
∑∑
 
 
N/N-1 é um factor de correcção do viez. Diz-se que um estimador dum parâmetro apresenta viez 
quando o seu valor não tende para o valor correspondente da população quando a dimensão da 
amostra cresce indefinidamente. 
 
O desvio padrão é a raiz quadrada da variância. Note-se que o desvio padrão é expresso nas 
mesmas unidades que a média e que os elementos da amostra ou da população. 
 
O coeficiente de variação é a relação entre o desvio padrão e a média: 
Revisão de conceitos de probabilidades e estatística 3-7 
 
 
Manual de Hidrologia 
 
 
x
s=c = vv µ
σ
η 
 
É um parâmetro adimensional. 
 
A figura 3.2 apresenta duas séries com as mesmas médias mas com diferentes desvios padrão. 
 
 
Figura 3.2 Distribuições do mesmo tipo, com as mesmas médias e variâncias 
diferentes 
 
 
3.4.5 Assimetria 
 
As populações e as amostras (e as distribuições que as caracterizam) podem ser simétricas 
(assimetria nula) ou assimétricas (assimetria positiva ou negativa). A figura 3.3 apresenta três 
distribuições com assimetria nula, negativa e positiva. 
 
 
Figura 3.3 Distribuições com diferentes assimetrias 
 
Quando a assimetria é nula, a média e a mediana coincidem; quando a assimetria é positiva, a 
média é superior à mediana e, quando é negativa, a média é inferior à mediana. A média é muito 
mais influenciada pelos valores extremos que a mediana. 
 
Revisão de conceitos de probabilidades e estatística 3-8 
 
 
Manual de Hidrologia 
 
O parâmetro que caracteriza a assimetria é o coeficiente de assimetria, γ ou g, que é o momento 
centrado de 3ª ordem transformado em parâmetro adimensional pela divisão por σ3. 
 
σ
µ
γ 3
3
+
-
dx f(x) )-(x
 = 
∫
∞
∞ 
 
2)-1)(N-(N
N * 
s
)x-x(
 = 
2)-1)(N-(N
N * 
s N
)x-x(
 = g
3
3
i
N
1=i
2
3
3
i
N
1=i
∑∑
 
 
N2/{(N-1)(N-2)} é o factor de correcção do viez. 
 
 
 
3.4.6 Quantis 
 
O quantil da ordem p é o valor ξp ou xp definido por: 
 p = dx f(x) = 
p
-
p ∫
∞
ξ
ξ 
Numa amostra ordenada o quantil xp é o valor de ordem j = N * p. 
 
 0 ≤ p ≤ 1 
 
A mediana é o quantil de ordem 0.5. 
 
 
 
3.5 AJUSTAMENTO DUMA AMOSTRA A UMA DISTRIBUIÇÃO TEÓRICA 
 
3.5.1 Metodologia 
 
A partir duma dada amostra é possível definir a sua função de distribuição empírica. A FDE é, no 
entanto, afectada pela dimensão limitada da amostra e, por outro lado, não permite extrapolar 
para períodos de retorno superiores à duração da amostra. 
 
Por essa razão, faz-se o ajustamento da amostra a uma função de distribuição teórica (ou lei de 
probabilidades ou simplesmente distribuição), procurando-se de entre as várias que têm sido 
propostas aquela que melhor se adapte à FDE. 
 
A sequência de cálculo que se adopta para a extrapolação de valores com altos períodos de 
retorno, necessários para o dimensionamento de obras hidráulicas, é então a seguinte: 
 
- selecção de uma de entre as distribuições teóricas; 
- especificação ou ajustamento da distribuição; 
Revisão de conceitos de probabilidades e estatística 3-9 
 
 
Manual de Hidrologia 
 
- avaliação do ajustamento; 
- utilização da distribuição para a previsão de valores (extrapolação). 
 
As distribuições teóricas mais utilizadas em Hidrologia são a Normal (ou de Gauss), a Log-
Normal de 2 parâmetros (Lei de Galton), a Log-Normal de 3 parâmetros, a de Gumbel, a Gama, 
a Pearson tipo III e a Log-Pearson tipo III. Neste capítulo apenas se estudará a distribuição 
Normal, estudando-se algumas das restantes no capítulo dedicado às cheias. 
 
A especificação ou ajustamento da distribuição consiste na estimação dos respectivos 
parâmetros a partir da informação contida na amostra. Existem diversos métodos para fazer o 
ajustamento sendo os mais correntes o método dos momentos, o método da máxima 
verosimilhança e o método dos mínimos quadrados. Embora nem sempre seja o mais eficiente, 
ir-se-á estudar apenas o método dos momentos que é o de mais simples aplicação. 
 
A estimação pelo método dos momentos consiste em seleccionar os valores dos m parâmetros 
da distribuição por forma a que os primeiros m momentos da distribuição sejam iguais aos 
correspondentes momentos da amostra. 
 
 
3.5.2 Distribuição Normal ou de Gauss 
 
A distribuição Normal é a lei de probabilidades que melhor tem sido estudada do ponto de vista 
teórico. Tem um enorme campo de aplicação não apenas em Hidrologia mas em muitas outras 
áreas de Engenharia como a caracterização de solicitações em estruturas ou o controle de 
qualidade dos materiais. 
 
A função densidade é: 
 
 e 
2a
1 = f(x) a2
)b--(x
2
2
π
 
 
A função de distribuição é: 
 
 
dx
dF(x) = f(x) dx f(x) = F(x)
x
-
∫
∞
 
 
A distribuição é simétrica, não sendo integrável analiticamente. F(x) é obtida por integração 
numérica e dada em tabelas. A distribuição tem 2 parâmetros: a, b. 
 
Os momentos da distribuição são obtidos em função dos parâmetros: 
 
- média µ = b; 
- variância σ2 = a2; 
- coeficiente de assimetria γ = 0. 
 
Revisão de conceitos de probabilidades e estatística 3-10 
 
 
Manual de Hidrologia 
 
Por tal razão, é frequente escrever a expressão de f(x) substituindo a, b, por σ e µ: 
 
 e 
2
1 = f(x) 2
)--(x
2
2
σ
µ
πσ
 
 
Demonstra-se que a distribuição Normal goza da propriedade de invariância linear: Se x é uma 
variável aleatória com distribuição Normal, média µx e desvio padrão σx, então y = c1x+ c2 é 
também uma variável aleatória normal, com média µy = c1µx + c2 e desvio padrão σy= c1σx. 
 
As tabelas da distribuição Normal são construídas para uma variável z, variável normal 
reduzida, definida por 
 
 z = (x – µx)/σx 
 
Com esta definição e atendendo à propriedade da invariância linear da distribuição Normal, é 
imediato que µz = 0 e σz = 1. Diz-se então que z é uma variável N(0,1). 
 
A tabela 3.1, reproduzida de Lencastre e Franco (1984), dá os valores de F(z) para z de 0.00 a 
3.49 em intervalos de 0.01. Atendendo à simetria da distribuição, a tabela permite obter valores 
de F(z) para –3.49 ≤ z ≤ 0. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Revisão de conceitos de probabilidades e estatística 3-11 
 
 
Manual de Hidrologia 
 
Lei Normal ou de Gauss Função de distribuição 
(µ=0; σ= 1) 
 
Tabela 3.1 – Função de distribuição Normal ou de Gauss 
 
Esta tabela pode ser utilizada para qualquer distribuição Normal mesmo que não tenha µ=0 e 
σ=1, bastando para isso fazer a transformação (x-µx)/σx. Da tabela tira-se que as probabilidades 
de x estar entre µ+σ e µ-σ; µ+2σ e µ-2σ; µ+3σ e µ-3σ são respectivamente de 68.3%, 95.4% e 
99.7%. As probabilidades de 90%, 95% e 99% correspondem aos intervalos µ ± 1.645σ, µ ± 
1.96σ, µ ± 2.575σ. 
Revisão de conceitos de probabilidades e estatística 3-12 
 
 
Manual de Hidrologia 
 
Existem métodos analíticos para testar se o ajustamento duma série à Distribuição Normal (ou a 
outra distribuição teórica) é aceitável. Estes métodos, como o teste do qui-quadrado e o de 
Kolmogorov-Smirnov, serão vistos no capítulo dedicado à estatística de cheias. Um processo 
também muito utilizado para verificar se o ajustamento é aceitável é a utilização de papel de 
probabilidade, papel com os eixos construídos de tal maneira que, se uma série se ajusta bem à 
distribuição representada nesse papel, os seus pontos alinham-se aproximadamente segundo uma 
recta. Os pontos têm coordenadas (F(xi), Yi) em que F(xi) é o probabilidade de não excedência 
do valor i da série ordenada em ordem crescente ("plotting position") e Yi o valor i da série. 
 
Existem muitas expressões para o cálculo da "plotting position": 
 
 - Califórnia i/N; 
 - Hazen (2i-1)/2N; 
 - Weibull i/(N+1); 
 - Chegadayev (i-0.3)/(N+0.4); 
 - Blom (i-0.375)/(N+0.25); 
 - Tukey (3i-1)/(3N+1). 
 
A fórmula mais eficiente e a mais utilizada é a de Weibull. 
 
 
3.6 CORRELAÇÃO E REGRESSÃO LINEARES 
 
3.6.1 Correlação e regressão linear simples 
 
A correlação e regressão lineares constituem uma das ferramentas mais utilizadas em Hidrologia, 
essencialmente para: 
 
 - preencher falhas numa série de registos; 
 - estender uma série hidrológica a partir de outras mais longas. 
 
A figura 3.4 representa genericamente o domínio das variáveis aleatórias x e y com funções de 
distribuição de probabilidade respectivamente f(x) e g(y). 
 
Figura 3.4 - Correlação entre duas variáveis aleatórias 
 
Revisão de conceitos de probabilidades e estatística 3-13 
 
 
Manual de Hidrologia 
 
Ter-se-á então: 
 
 f(x)dx = P(x) = )
2
dx+x x 
2
dx-P(x ≤≤ 
 g(y)d(y) = P(y) 
 dyf(x)g(x)dx = y)P(x, = )
2
dy+y y 
2
dy-y 
2
dx+x x 
2
dx-P(x ≤≤∩≤≤ se os 
acontecimentos forem independentes. 
 
Se os acontecimentos não forem independentes, diz-se que há entre as varáveis uma dependência 
estocástica. Quando essa dependência é linear, ela é medida pelo coeficiente de correlação 
linear ρxy: 
 
σσ
µµ
ρ
yx
yx
x
 
y
 
xy 
dxdy f(x)g(y) )-)(y-(x
 = 
∫∫
 para a população; 
 
s s 1)-(N
yxN - yx 
 = 
s s 1)-(N
)y-y)(x-x(
 = r
yx
ii
N
1=i
yx
ii
N
1=i
xy
∑∑
 para a amostra. 
 
Demonstra-se que ⎮rxy⎮, ⎮ρxy⎮ ≤ 1. Quando o coeficiente de correlação iguala a unidade, a 
correlação é perfeita e os pontos (x,y) alinham-se segundo uma recta. Quando a apresentação 
dos pontos (x,y) sugere uma "nuvem" (figura 3.5), o coeficiente de correlação aproxima-se de 
zero. 
 
 
Figura 3.5 - Coeficiente de correlação 
 
Revisão de conceitos de probabilidades e estatística 3-14 
 
 
Manual de Hidrologia 
 
O coeficiente de correlação exprime o grau de associação, mais ou menos elevado, entre duas 
variáveis aleatórias. Quando a correlação é elevada, pode estabelecer-se uma regressão linear 
duma variável (dependente) sobre a outra (independente), isto é, tentar explicar a variação da 
variável dependente como uma função linear da variação da variável independente. Por exemplo, 
pode tentar-se estabelecer uma regressão linear do escoamento anual numa bacia em função da 
precipitação ponderada sobre a bacia. 
 
 
Figura 3.6 - Regressão linear 
 
A expressão da regressão linear é y = ax + b em que a,b são os coeficientes da regressão (figura 
3.6), determinados pelo método dos mínimos quadrados. 
 
Como se sabe, o método dos mínimos quadrados determina os coeficientes por forma a 
minimizar a soma dos quadrados dos desvios. Designando por y) a estimativa de y fornecida 
pela regressão linear, ter-se-á: 
 
 Z = Σi (yi – y
)
i)2 = Σi [yi – (axi + b)]2 
 = Σi [yi2 – 2 axiyi – 2 byi + (axi + b)2] 
 = Σi [yi2 – 2 axiyi – 2 byi + a2xi2 + 2axib + b2] 
 
Escolhe-se a e b para ter o Zmínimo 
 
 Zmin. ⇒ δZ/δa = 0 e δZ/δb = 0. 
 
1007 δZ/δa = - 2 Σi xiyi + 2 Σi axi2 + 2 Σi b xi = 0; 
 e δZ/δb = - 2 Σi yi + 2 Σi axi + 2 Σi b = 0, 
 
chegando-se às equações normais. 
 
xN - x 
yxN - yx 
 =a 
2
i
2
N
1=i
ii
N
1=i
∑
∑
 
 
 xa - y = b 
 
Revisão de conceitos de probabilidades e estatística 3-15 
 
 
Manual de Hidrologia 
 
 
É fácil de ver que a = rxy sy/sx. 
 
Chama-se erro padrão da estimativa, se, ao desvio padrão dos resíduos 
 y-y=e iii ˆ 
 
 Como 0.=e ,y=ŷ 
 
Pode verificar-se a seguinte relação entre sy e se: 
 
 se2 = sy2 (1-rxy2) 
 
Esta relação evidencia como a variância residual varia com o coeficiente de correlação. Quando 
a correlação é perfeita, r=1, os pontos alinham-se todos segundo uma recta e a variância residual 
ou variância não explicada pela regressão é nula. À medida que r diminui, se2 vai tendendo para 
sy2, ie, a regressão “explica” cada vez menos a variância de y. 
 
Na expressão de se2 é conveniente introduzir um factor de correcção do viez: 
 
 se2 = (1-r2) sy2 (N-1)/(N-2). 
 
A variância explicada pela regressão é 
 rs=s 2y
2
y
2
ˆ 
 
 Se, por exemplo, r = 0.80, a regressão explica 64% da variância total de y. 
 
O coeficiente de determinação, cd, dá a percentagem da variância total que é explicada pela 
regressão. Então cd = r2. 
 
Importa notar que, normalmente, a regressão de y sobre x não coincide com a regressão de x 
sobre y. Isso só acontece se sy = sx. 
 
Por outro lado, interessa ter uma regra prática que indique quando é que vale a pena utilizar 
regressão linear, ou seja, qual o limite inferior para o coeficiente de correlação. Chow (1964) 
sugere que se pode usar regressão linear quando ⎮r⎮ > 0.60, o que corresponde a explicar cerca 
de 1/3 da variância de y através da regressão. Talvez seja preferível, no entanto, adoptar como 
limite inferior para ⎮r⎮ um valor um pouco mais alto como 0.70 (cerca de metade da variância 
de y explicada pela regressão) ou 0.80 (variância explicada é cerca de 2/3 da variância total). 
Para além disso, importa sempre ver se há uma base física parao estabelecimento da regressão 
afim de evitar as correlações espúrias (fruto do acaso, do tamanho limitado da amostra ou da 
transformação de variáveis). 
 
Revisão de conceitos de probabilidades e estatística 3-16 
 
 
Manual de Hidrologia 
 
Exemplo: Considerem-se as séries de precipitações anuais nos postos udométricos P621 e P705, 
ambos situados na bacia do rio Monapo. Pretende-se estender as duas séries. 
 
Ano 1 2 3 4 5 6 7 8 9 10 
P621 (mm) 1162 1069 957 1058 1108 1155 805 936 921 732 
P705 (mm) - - - - - - - - - 600 
Ano 11 12 13 14 15 16 17 18 19 20 
P621 (mm) 858 1094 1027 1139 1047 972 1212 1354 876 - 
P705 (mm) 923 1087 1166 1064 1298 931 1121 1249 697 976 
Ano 21 22 23 24 25 26 27 28 
P621 (mm) - - - - - - - - 
P705 (mm) 1316 766 1129 1187 794 1125 890 880 
 
A série P621 tem 19 valores e a P705 também tem 19 valores, sendo o período comum de 10 
anos. Pretende-se estender a série P705 para os primeiros nove anos por regressão sobre P621 e 
estender esta para os últimos nove anos por regressão sobre P705. 
 
Tomando o período de 10 anos comuns (anos 10 - 19), obtem-se: 
 
 variável x (P621): x = 1031 mm; sx = 183 mm. 
 variável y (P705): x = 1014 mm; sy = 227 mm. 
 
 0.64 = c ; 0.80 =r d 
 
Então a regressão irá explicar 64% de sy2 
 
A regressão linear de y sobre x dá a seguinte equação: 
 
 y = 1.01x – 28, 
 
donde se podem obter os valores de y (≡ P705) para os primeiros 9 anos: 
 
 1146 / 1052 / 939 / 1041 / 1091 / 1139 / 785 / 917 / 902. 
 
A variância residual é se2 = sy2 (1-r2) = 18,550 ⇒ se = 136. 
 
Para estender agora a série P621 para os últimos 9 anos, estabelece-se uma outra regressão 
linear: 
 
 x = cy + d, mantendo-se x ≡ P621 e y ≡ P705. 
 
Revisão de conceitos de probabilidades e estatística 3-17 
 
 
Manual de Hidrologia 
 
O coeficiente de correlação é obviamente o mesmo. Obtem-se x = 0.65y + 372 (note-se o 
afastamento entre as duas rectas de regressão na figura 8.7). 
 
Os valores de P621 para os últimos 9 anos serão: 
 
 1007 / 1228 / 870 / 1106 / 1144 / 888 / 1104 / 951 / 944 
 
A variância residual é se2 = 1832(1- 0.82) = 12,056 ⇒ se = 110. 
 
 
 
Figura 3.7 Exemplo de regressão linear simples 
 
Um aspecto importante a notar quando se utiliza regressão linear para estimar um número grande 
de valores em falta é que a variância da série estendida se reduz em relação à série original, 
devido ao facto da regressão não entrar com a variância residual (os valores estimados situam-se 
sobre a recta de regressão e não à volta dela). Por exemplo, para a série P705 o desvio padrão da 
série original (19 valores) é 205 enquanto a série estendida é 180. A média praticamente não 
varia (de 1010 para 1008). Assim as características estatísticas da série mudam, o que não é 
desejável. 
 
Para obviar a esse inconveniente, pode-se modificar a expressão da regressão linear para: 
 z r-1 s+ b + ax =z s+ b + ax =y 2ye 
 
Revisão de conceitos de probabilidades e estatística 3-18 
 
 
Manual de Hidrologia 
 
A nova parcela é uma componente aleatória, obtida por multiplicação do erro padrão da 
estimativa por uma variável aleatória z ≡ N(0,1). É possível obter sucessivos valores de z 
recorrendo a uma tabela de números aleatórios ou utilizando rotinas de computador (gerador de 
números aleatórios). Esta parcela adicional faz com que a variância de y se mantenha (coloca os 
pontos fora da recta de regressão). 
 
Não é possível nestas notas introdutórias aprofundar este tema que é, no entanto, extremamente 
importante por ser a base dos chamados modelos autoregressivos de geração sintética. 
 
 
3.6.2 Transformação de variáveis 
 
Considere-se o exemplo representado na figura 3.8. O coeficiente de correlação anteriormente 
definido é uma medida da associação linear entre x e y. Se se fizesse a sua determinação para o 
exemplo da figura 3.8, obter-se-ia um valor baixo embora o gráfico evidencie que x e y estão 
fortemente associados. 
 
 
Figura 3.8 - Correlação e regressão não lineares 
 
Em situações como esta, uma transformação das variáveis x e y permite mudar uma associação 
não linear para uma associação linear a que se podem aplicar as técnicas de correlação e 
regressão lineares descritas no tópico anterior. A transformação mais correntemente utilizada em 
Hidrologia é a logarítmica que pressupõe que x e y estariam ligados por uma relação do tipo: 
 
 y = axb, 
 
que, logaritmizada, origina: 
 
 ln(y) = ln(a) + b ln(x), 
 
ou seja, uma relação linear entre os logaritmos de x e y. Pode dar-se como exemplo a equação da 
curva de recessão dum rio alimentado por um aquífero, Qt = Qo e -αt. 
 
Revisão de conceitos de probabilidades e estatística 3-19 
 
 
Manual de Hidrologia 
 
 
3.6.3 Correlação e regressão lineares múltiplas 
 
Quando se considera a associação apenas entre duas variáveis, x e y, a correlação e regressão 
linear dizem-se simples. É possível, no entanto, generalizar o conceito para a associação entre 
uma variável dependente, y, e m variáveis independentes x1, x2, x3, ......., xm. 
 
A expressão da regressão linear múltipla é: 
 
 y = c0 + c1x1 + c2x2 + .... + cmxm. 
 
Se o número de valores da amostra for N, m deve ser bastante inferior a N, não devendo como 
regra prática exceder N/5. Pode-se então escrever: 
 
 y1 = c0 + c1x11 + c2x21 + .... + cmxm1 
 y2 = c0 + c1x12 + c2x22 + .... + cmxm2 
 ................. etc. 
 yN = c0 + c1x1N + c2x2N + .... + cmxmN 
 
Assim temos N equações com m+1 incógnitas (N > m+1), nomeadamente c0, c1, c2, ...., cm. 
Determinam-se os coeficientes c0, c1, c2, ...., cm de tal maneira que a soma dos quadrados dos 
desvios entre y e a estimativa de y seja minimizada (método dos mínimos quadrados). Da mesma 
maneira que no caso da regressão linear simples, minimiza-se o valor de 
 
 Σi (yi -y,^ i)2 = Σi [yi - (c0 + c1x1i + c2x2i + .... + cmxmi)]2. 
 
Assume-se que f(x1,x2,....,xm) = c0 + c1x1 + c2x2 + .... + cmxm. 
 
Assim deve-se minimizar o valor de 
 
 z = Σi [yi - f(x1i,x2i,....,xmi)]2. 
 
A minimização de z implica que as derivadas parciais de z em ordem aos ci se anulem. Obtem-se 
assim m+1 equações lineares com m+1 incógnitas, as equações normais da regressão linear 
múltipla. A sua resolução permite calcular os valores dos coeficientes da regressão. 
 
As medidas de correlação linear múltipla mais utilizadas são o erro padrão dos resíduos, o 
coeficiente de correlação múltipla, o coeficiente de determinação e os coeficientes de 
correlação parciais. 
 
Erro padrão dos resíduos 
 
O erro padrão dos resíduos calcula-se da mesma forma que para a regressão linear simples: 
 0 = e ,y- y = e iii ˆ 
Revisão de conceitos de probabilidades e estatística 3-20 
 
 
Manual de Hidrologia 
 
 ∑
=−⋅−
− N
i
ie emNN
N = s
1
22
)()1(
1 
 
em que (N-1)/(N-m) é um factor de correcção do viez. 
 
se2 dá a variançia residual ou não explicada. 
 
Coeficiente de correlação múltipla 
 
O coeficiente de correlação múltipla, R, é definido como 
 
s
s = R
y
ŷ 
 
Verifica-se imediatamente que se2 = (1-R2) sy2. 
 
Coeficiente de determinação 
 
O coeficiente de determinação, Cd = R2 dá a variância explicada em percentagem da variância 
total de y. 
 
Coeficientes de correlação parciais 
 
Os coeficientes de correlação parciais ri medem o grau de associação de y com cadauma das 
variáveis xi e determinam a parte da variância de y explicada por cada xi. 
 
Para calcular um dado ri, começa-se por se determinar o coeficiente de correlação múltipla, R-i, 
obtido sem incluir xi na regressão. Então: 
 
R-1
R-R = r
i-
2
i-
22
i
2 
 
R2 - R-i2 dá o acréscimo da variância explicada originado pela inclusão de xi na regressão. 
Quanto maior for, maior será ri e mais importante a inclusão de xi na regressão. 
 
A obtenção dos coeficientes de correlação parciais é trabalhosa mas bastante útil pois permite 
excluir da regressão variáveis que não ajudam a aumentar a variância explicada. 
 
Revisão de conceitos de probabilidades e estatística 3-21 
 
 
Manual de Hidrologia 
 
EXERCÍCIOS 
 
1) Calcule a média e o desvio padrão das seguintes séries de precipitações anuais (em 2 
zonas diferentes). 
 
 Série 1: 805 903 875 867 912 849 815 882 
 Série 2: 1014 1209 480 720 545 512 984 1444 
 
Comente os resultados. 
 
2) Reactores nucleares, grandes barragens, diques altos, etc. devem ser projectados de tal 
maneira que a probabilidade da sua danificação / galgamento seja da ordem de 1 vez em 10,000 
anos (período de retorno de 10,000 anos). 
 
a) Calcule o risco de danos num reactor nuclear assim dimensionado nos primeiros 50 anos 
do seu funcionamento. 
b) Repita o cálculo para um período de retorno de 1000 anos. 
 
3) Qual é o risco que um acontecimento com período de retorno de N anos ocorra (pelo 
menos uma vez) em N anos. 
 
4) O valor da precipitação anual numa zona pode ser caracterizada pela distribuição 
Normal. A precipitação anual média é de 723 mm. O desvio padrão é de 212 mm. 
 
a) Calcule a probabilidade duma precipitação anual maior que 1000 mm. 
b) Calcule a probabilidade duma precipitação anual menor que 300 mm. 
c) Determine a precipitação com probabilidade de excedência de 1 e 10 %. 
d) Determine a precipitação com probabilidade de não-excedência de 1 e 10 %. 
e) Determine a precipitação com probabilidade de não-excedência de 50 %. 
f) Determine a precipitação com período de retorno de 30 anos. 
 
5) Dada a seguinte série de 23 valores de precipitação anual num posto udométrico, 
expressa em mm, 
 
a) Ajuste a distribuição Normal à série dada. Trace o gráfico em papel de probabilidade. 
b) Calcule a precipitação anual correspondente aos períodos de retorno de 10 e 50 anos. 
c) Determine os períodos de retorno teóricos a que correspondem as precipitações anuais de 
1000 mm e 2015 mm (maior valor da série). 
 
Série: 1803 1295 1118 1626 1120 1116 1473 1194 1016 1372 2015 1662 1549 1448 
1753 1914 1422 1346 1092 1489 1397 1245 1219

Outros materiais