Baixe o app para aproveitar ainda mais
Prévia do material em texto
TOPICOS AVANÇADOS EM TRATAMENTO ESTATÍSTICO DE DADOS EM FÍSICA EXPERIMENTAL Vito R. Vanin & Philippe Gouffon Laboratório do Acelerador Linear - Instituto de Física Universidade de São Paulo Edição Preliminar LAL-IFUSP 1996 Prefácio Este texto é consequência de um esforço sistemático, desenvolvido por alguns professores do Laboratório do Acelerador Linear, de introduzir um maior rigor no tratamento estatístico de dados em tísica experimental entre estudantes e pesquisadores. Esse esforço, iniciou-se por volta de 1980 sendo que naquele ano foi oferecida, pela primeira vez, uma disciplina de graduação sobre Métodos Estatísticos em Física Experimental, cujas notas de aula sairam em livro no ano de 1981. Posteriormente, em 1989, foi oferecida uma disciplina mais avançada em nível de pós-graduação, sobre o mesmo assunto. As origens deste livro encontram-se nas notas de aula da disciplina Tópicos Avançados em Tratamento Estatístico de Dados em Física Experimental, do curso de Pós-Graduação do Instituto de Física da Universidade de São Paulo, ministrada pelo Prof Vito R. Vanin em 1991, A disciplina permitiu a difusão do conhecimento acumulado sobre o assunto nas atividades de pesquisa realizadas principalmente no Laboratório do Acelerador Linear, A aceitação da disciplina, traduzida em número de alunos matriculados, foi muito boa, fazendo com que ela fos^ ministrada em anos subsequentes. Problenuis de caráter mais geral tomaram o texto mais rico, graças ao interesse demonstrado por alunos de outras áreas de pesquisa. Esta versão é baseada na revisão realizada pelo Prof Philippe GoufFon, no segundo semestre de 1994, quando ministrou a disciplina. Paulo R. Pascholati Agosto 1996 ín d ic e Conceitos Gercds. 1 1.1 Os Conceitos de Probabilidade e Aleatoriedade............................. 2 1.2 Erros estatísticos e erros sistemáticos.............................................. 6 1.3 Valor verdadeiro de uma grandeza. Erro. Incerteza...................... 8 1.4 Estatística e o problema da estimação.................................................11 1.5 A função densidade de probabilidade.................................................. 12 1.6 Teoria da Probabilidade e Estatística..................................................15 1.7 Média, mediana, moda e desvio-padrão...............................................16 1.8 Estimativa do valor verdadeiro (paramétrica, modelo normal). . 18 1.9 Estimativa não -paramétrica do valor verdadeiro. .......................18 Exercicios.......................................................................................................21 As funções de probabilidade mais comuns. 25 2.1 A função de probabilidade binomial.................................................... 25 2.2 A função de probabilidade de Poisson................................................. 30 2.2.1 A Poisson como limite da B inom ial......................................30 2.2.2 A Poisson a partir de principios básicos............................. 34 2.2.3 Soma de eventos tipo P o isso n .................................... 36 2.3 A fdp Normal ou Gaussiana ‘. ........................................................... 37 2.4 Função Característica............................................................................ 38 2.5 A fdp da média de dados gaussianos ............................................... 39 2.6 Tranformação de variável aleatória......................................................40 2.7 A fdp de (qui-quadrado) ...................... 44 2.7.1 Caso N = l .................................................................................45 2.7.2 CasoiV = 2 ..............................................................................45 2.7.3 Caso N = 3 .......................................................................... 46 2.7.4 Caso Geral ..............................................................................47 índice 2.8 A fdp de ............................................................................................ 50 2.9 Tendência à normalidade das fps e fdps..............................................53 2.9.1 Binomial................................................................................... 54 2.9.2 Poisson ................................................................................... 55 2.9.3 Chi-quadrado.......................................................................... 56 2.10 A fdp uniforme.............................................................................,. . 56 Exercicios....................................... 57 Análise de M edidas Simples. 61 3.1 Fórmula aproximada para a variância...............................................61 3.2 Covariáncia - um exemplo.................................................................... 66 3.3 A fdp de t de Student........................................................................... 70 3.4 Intervalos de Confiança......................................................................... 75 3.5 Critérios de arredondamento................................................................ 76 Elxercicios...................................................................................................... 78 A juste de Funções Lineares. 83 4.1 0 Método da Máxima Verossimilliança.............................................. 83 4.2 Estimativa da média e de í t .............................................................. 86 4.3 Tendenciosidade do estimador do desvio p a d rã o ............................ 87 4.4 O método dos Mínimos Quadrados. .........................................89 4.5 Ajuste de funções a dados gaussianos........................................ 92 4.6 Propriedades das estimativas dos parâmetros da reta ajustada . 93 4.7 Funções lineares - caso g e ra l ........................... 95 4.8 Cálculo dos desvios-padrões das estimativas...................................... 97 4.9 Desvio padraão dos parâmetros da r e t a ............................................99 4.10 Interpretação estatística dos parâmetros ajustados......................... 100 4.11 Análise de previsão................. 104 4.12 Análise de previsão para uma r e ta ................................................... 105 Exercicios............................................................................................ ". . 106 Inferência Estatística. Teste de H ipótese. 111 5.1 O teste t .............................................................................................. 112 5.2 Erro Tipo I e erro Tipo II...................................................................116 5.3 Comparação de duas médias. Ainda o teste t .................................. 119 5.4 A fdp de F de F ish er.........................................................................121 5.5 Comparação de duas variâncias estimadas. O teste F .................... 125 índice 5.6 Um teste qualitativo do ajuste de uma função................................. 127 5.7 O teste de ......................................................................................129 5.8 Teste para x* a l to ............................................................................... 131 5.9 Teste para x* baixo ............................................................................ 133 5.10 Teste de x^: mVel de signiíicãncia................................. 134 5.11 Utilização do qui-quadrado reduzido................................................. 136 Teoria da probabilidade. 143 6.1 Noções Primitivas. Espaço Amostrai e Evento.................................143 6.2 Relações entre eventos......................................................................... 147 6.3 Probabilidade - regras e propriedades................................................148 6.4 Probabilidade Condicional..................................................................150 6.5 Independência Estatística....................................................................151 6.6 Variveis aleatórias.................................................................................154 6.7 Funções densidade de probabilidade................................................ 156 6.8 Distribuição Cumulativa de Probabilidade........................................156 6.9 Funções de duas variáveis aleatórias................................................ 157 6.10 Valor Esperado de uma variável aleatória....................................... 158 6.11 Momentos de uma fdp......................................................................... 159 6.12 Momentos de funções de várias variáveis........................................ 161 6.13 Função Geratriz.................................................................................... 163 6.14 Função Característica. Cumulantes....................................... 168 6.15 Desigualdade de Chebyshev................................................................ 170 Probabilidade e Inferência Estatística 173 7.1 Algumas cojistruções possíveis...........................................................173 7.1.1 Eventos Equiprováveis..........................................................173 7.1.2 Probabilidade como frequência re la tiv a ..............................175 7.1.3 Probabilidade como grau de confiança ou crença relativa 175 7.2 A lei dos grandes números...................................................................176 7.3 O Teorema Central do Limite............................................................ 177 7.4 O Teorema de Bayes e o Postulado de Bayes................................... 181 7.5 Procedimento que adotaremos..................... 183 Estimação. 185 8.1 Introdução............................................................................................. 186 8.2 O Critério da Consistência..................................................................189 índice 8.3 0 Estimador Consistente não é único............................................... 189 8.4 0 critério da não-tendenciosidade......................................................191 8.5 Eficiência...............................................................................................192 8.6 Limite Mínimo de Variância...............................................................193 8.7 Limite Mínimo de Vcuiância quando r[6) = 0..................................196 8.8 Existe um único r(^) para o qual pode-se construir iim esti- mador cuja variância atinge o LMV/.............................................. 198 8.9 Quais fdps permitem estimadores com variância igual ao LMV? 200 8.10 Unicidade do estimador com variância igual ao LMV.....................200 8.11 Critério da Eficiência.......................................................................... 202 8.12 Estatística Suficiente........................... 204 8.13 Teoria da Informação e Mecânica Quântica..................................... 205 O Método dos Mínimos Quadrados 207 9.1 O Modelo L in e a r .............................................................................. 208 9.2 Exemplos.............................................................................................. 210 9.2.1 Exemplo A. Determinação do volume específico v a par tir da medida de volume e massa de fragmentos............... 211 9.2.2 Exemplo B. Ajuste de uma função yi — a^Zi a2Xi. . . . 212 9.2.3 Exemplo C. Ajuste de reta = ai -f a2Xi....................... ... 212 9.3 O estimador de mínimos quadrados não é tendencioso no modelo linear..................................................................................................... 214 9.4 As variâncias das estimativas.............................................................215 9.5 Exemplos. Veiriâncias dos parâmetros. 216 9.6 Mínimos Quadrados é o estimador de Variância Mínima..............217 9.7 A média como estimativa linear de Variância M ín im a.................220 9.8 Variâncias iguais, mas de valor desconhecido...................................222 9.9 Exemplos. Estimativa da variância dos dados................................. 225 9.10 Generalização do modelo. Dados covariantes...................................229 9.11 Interpretação do resultado..................................................................229 9.11.1 Fdp dos dados gaussiana...................................................... 229 9.11.2 Fdp dos dados não gaussiana ........................................... 230 9.11.3 Fdp dos dados não gaussiana e desconhecida e poucos dados .....................................................................................231 9.12 Teste de ........................................................................................ 231 9.13 A inversão de X*V“^X. Consideração prática.................................232 9.14 Exemplo. Dados com correlação p.....................................................233 9.15 Ebcemplos de aplicação. Dados correlacionados.............................. 236 9.15.1 Média de dois dados correlacionados ............................... 236 9.15.2 A medida de uma grandeza pode alterar as estimativas de outras grandezas com as quais é covariante................239 9.16 Elxemplo de aplicação. Vínculos entre parâmetros.......................... 240 9.17 Vínculo a priori ou a posteriori.......................................................... 246 9.18 Artigos de periódicos onde utilizam-se as covariâncias................... 247 E xerc idos.....................................................................................................248 10 O M étodo da Máxima Verossimilhança 251 10.1 Consistência do estimador de Máxima Verossimilhança...................252 10.2 Exemplo. Cálculo de uma ftmção verossimilhança no limite assintótico............................. 254 10.3 Tendência à Normal da estimativa de Máxima Verossimilhança. 256 10.4 Eficiência assintótica. ................................................................. 257 10.5 Ajuste de fimção pelo Método da Máxima Verossimilhança . . . 257 10.6 Fdp dos dados gaussiana.....................................................................259 10.7 O método de Gauss..............................................................................260 10.8 O método de G auss-M arquardt...................................................... 262 10.9 Exemplo de ajuste de função não linear a dados gaussianos . . . 264 lO.lOEstimativa dos intervalos de confiança através de l n £ .................. 268 10.11 Exemplo. Função Verossimilhança no ajuste de mínimos quadra dos............................................................................................... . . . 270 índice V Bibliografia índice Remissivo 272 277 ín d ic e C ap ítu lo 1 C on ceitos G erais. A idéia básica no tratamento estatístico de dados é que os erros intervenientes no processo de medida são aleatórios mas podem ser descritos por funções muito bem deíinideis, as funções de probabilidade. Qualquer semelhança com a Mecânica Quântica não é coincidência, o espírito da teoria é exãtamente o mesmo. Aqui, porém, as incertezas estão localizadas no instrumento de medida, na M.Q., estão no próprio objeto quântico. Os conceitos que reveremos inicialmente são os de: probabilidade; aleato- riedade; erros estatísticos e erros sistemáticos; incerteza; o que é o valor ver dadeiro de uma grcindeza; estimativa da grandeza, incerteza associada à es timativa; o que é uma estatística; o procedimento geral da estimação\ o que é uma função densidade de probabilidade (fdp); como podem ser tratadas grandezas que não têm um valor verdadeiro; distinção entre a Estatística e a Teoria da Probabilidade. Em seguida, lidaremos com a situação em que busca-se estimar uma grandeza que tem umvalor verdadeiro por meio de tim experimento de observação direta da grandeza - definiremos média, mediana, desvio-padrão de um conjunto de dados e faremos estimativas paramétrica e não-paramétrica do valor verdadeiro da grandeza e do intervalo de coníisuiça. 2 CAPÍTULO 1. CONCEITOS GERAIS. > 1.1 Os Conceitos de Probabilidade e Aleato- riedade. Num experimento em que procura-se medir uma grandeza, é muito comum que observações distintas da grandeza forneçam resultados diferentes, embora a grandeza tenha um valor bem definido e constante durante o experimento. A figura 1.1, obtida do artigo [Birge], apresenta os resíduos de 500 observações de uma linha espectral. O resíduo é definido como a diferença entre o valor experimental particular e a média de todos os 500 valores obtidos. Essa variação no valor do dado obtido é devida a flutuações incontroláveis do instrumento de medida ou, mais geralmente, do processo de medida. A essas variações incontroláveis damos o nome de flutuação estatística e procuraremos, neste curso, extrair o máximo de informação contida nos dados obtidos exata mente nessa situação. Quando a observação de uma grandeza está sujeita à flutuação estatística, não há nenhuma maneira de antecipar o valor de um dado. No entanto, pode mos falar da probabilidade de obter um dado numa certa faixa, se conhecemos o valor da grandeza e a incerteza experimental. Para dar a definição de probabilidade, vamos nos fixar num exemplo onde a variável aleatória é uma variável discreta. Uma maneira de recobrir plástico com um metal consiste em evaporar o metal sobre uma folha de plástico. A figura 1.2 esquematiza o arrranjo. Neste exemplo, suporemos que os átomos empilham-se da maneira mostrada na figura 1.2, ou seja, com seus centros alinhados numa perpendicular à folha. A per- gimta a que desejamos responder, ao fim do exemplo, é ”que fração da área da folha está recoberta por um átomo? por dois? . . . ? por nenhum?” Começamos atacando o problema pela construção do histograma do número de átomos em pilhados na pequena região da folha, no plano deste papel, que está desenhada muito ampliada na figura 1.2. Vamos supor que a área da folha ocufiada por cada pilha é 5^ , ou seja, o diâmetro dos átomos do metal é b. A figura 1.3 exibe este histograma. Não é possível saber previamente quantos átomos vão ficar grudados numa determinada área da folha. Olhando para o histograma da figura 1.3 (ou para a figura 1.2) avaliamos que 1 ou 2 é mais provável^ sendo que a probabilidade da área ficar descoberta ou ser recoberta por 5 átomos é pequena.V)a prática de realizar experimentos sabemos que a conclusão acima, a partir de tão poucos LL OS CONCEITOS DE PROBABILIDADE E ALEATORIEDADE. 3 espectral, em relação ao valor médio obtido. A abscissa representa o resíduo, em fim, A ordenada representa o número de vezes que aquele resíduo foi observado. folha átomos grudados átomos evaporados barra do metal fonte de calor para a evaporação Figura 1.2: £sboço do dispositivo utilizado para metalizar um material. O vácuo dentro da câmara facilita o trânsito dos átomos da barra de metal até a folha que serve de alvo. CAPÍTULO 1. CONCEITOS GERAIS. frequência 5 - 4 - 3 - 2 - 1 - 0 - 6 - número de átomos empilhados, m Figura 1.3: HiBtograxna do número de átomos empilhados sobre uma área da folha. Corresponde ao que se vê na figura 1.2. dados, é bastante arriscada. Normalmente, prefeririamos tomar mais dados para confirmar que o histograma tem a aparência daquele da hgura 1.3, antes de avançar tuna conclusão. Assim, o que entendemos por probabilidade? Para ensaiar uma definição matemática, vamos chamar de N" o número total de eventos observados {N = 15 na figura 1.2) e de n, o número de eventos de um tipo definido, por exemplo, n é o número de regiões de área da folha revestidas por 2 átomos. Utilizare mos como definição da probabilidade p de vima certa área b* ser recoberta por 2 átomos, o limite da razão n /N quando JV —> oo. p = lim — N-*oo N (1.1) Infelizmente, esta definição não é rigorosa porque a convergência ao limite não é uniforme, tudo que pode acontecer é uma convergência em probabilidade, mas aí estamos fazendo uma definição em círculo. Imagine uma situação simples onde a variável aleatória seja a projeção num certo eixo Oz do spin de um elétron, 3g. Para fixar as idéias, suponha que estamos interessados nos elétrons de um feixe de elétrons numa válvula termoiônica, onde argumentos de isotropia sugerem = 1/2) = 0,5. Escolhendo n como o número de elétrons com Sg = 1/2, suponhamos que, dentre os primeiros 20000 elétrons, exatamente 10000 tenham Sg = 1/2, resultando num quociente nfN = 0,5000. Ao observarmos os spins dos próximos 20 elétrons, os números de elétrons com Sg = 1/2 e = -1/2 podem ser: 10 e 10, respectiva mente; 9 e 11; 11 e 9; 8 e 12; . . . ; 20 e 0. A razão n/N pode, então, chegar a 0,501. Se observássemos mais 100 elétrons, também poderia acontecer desses 100 elétrons terem Sg = 1/2, o que resultaria em p=0,505. Como o resultado da observação dos spins dos próximos elétrons é independente do resultado da observação dos primeiros elétrons, não é possível garantir que, com o aumento do número de dados, a razão n/N aproxime-se de um certo valor com uma diferença menor que uma certa tolerância. Esta é a interpretação da frase a convergência ao limite não é uniforme. Sabemos que, se p (j, = 1/2) = 0,5, há pouca chance de observarmos 190 elétrons em seguida com Sg = 1/2, o que abre a possibilidade de definirmos convergência em probabibilidade. Mas aí estamos fazendo uso da definição pretendida! 1.1. o s CONCEITOS DE PROBABILIDADE E ALEATORIEDADE. No entanto, o espírito desta definição é claro - chamamos de probabil idade à frequência relativa de ocorrência do evento em questão, quando o número de eventos observados é suficientemente grande para que a flutuação estatística seja, em termos relativos, pequena. Assim, em 15 eventos observou- se apenas uma ”casa” de área vazia - se vimos somente uma, é cléiro que poderiamos não ter visto nenhuma e dizer que a probabilidade é 1/15 parece uma afirmação grosseira. Porém, se em 1500000 de eventos vemos 75000 casas v2Lzias, afirmamos com muita convicção que a probabilidade duma casa ficar vazia é 75000/1500000 = 1/20, o que nos diz que temos uma chance razoável de encontrar uma casa vazia em 20 observações, ou mesmo em 15 - mas temos uma chance pequena de, numa única observação, encontrar a casa vazia. A definição acima tem ainda um outro defeito - nem toda a grandeza cuja frequência tem um limite é uma probabilidade. É necessário que o evento seja aleatório, portanto, resulte de fatores incontroláveis pelo observador. Vamos dar um exemplo que está detalhado no livro já citado de von Mises [Mises]. Imagine que todas as estradas que ligam as cidades brasileiras tenham marcos de qmlometragem de 0,1 em 0,1 km. A frequência relativa com que observaríamos o dígito 2 depois da vírgula tenderia, rápida e precisamente. paxa o valor 1/10. No entanto, esse número ”2” não está distribuído ao acaso nas estradas. Se selecionássemos as observações com o critério o dígito depois da vírgula que observamos nas placas que seguem às placas de quilometragem indicando um número inteiro de hm ^descobririamos que a frequência do dígito 2 seria exatamente nula! Já se selecionássemos as placas seguintes àquelas que tem o dígito 1 depois da vírgula, concluiriamos que a frequência do dígito 2 é 100% ... .^ Assim, a interpretação frequencista da probabilidade só tem sentido quando aplicada a eventos aleatórios, para os quais qualquer seleção aplicada aos eventos observados (exceto, é claro, utilizando-se critérios de incluir ou ex cluir o próprio dado em questão)não a ltera o resultado. Por exemplo, o histograma do número de átomos empilhados que estão ao lado esquerdo de uma casa onde há dois átomos continua tendo a mesma aparência geral daquele da figura 1.3 se o processo é aJeatório, ou seja, o fato de haverem dois átomos à direita não implica em qualquer mudança na probabilidade daquela casa ter nenhum ou 1, 2, 3, . . . , n átomos. O conceito de aleatório contrapõe-se ao de determinado - não pode haver qualquer regra que permita certeza acerca do resultado. O que usaremos adiante da definição resumida pela expressão (1>1) e discu tida acima corresponde principalmente às suas consequências: jamais chegare mos a conhecer o valor exato de qualquer probabilidade, em função da im possibilidade de observar-se uma infinidade de eventos, por mais simples que ele seja; estimaremos as probabilidade pela razão n /N - que mais poderiamos fazer? - e, finalmente, se avaliamos a partir de outras informações que a prob abilidade de observarmos um certo evento é p, estimamos o número provável desses eventos, num conjxmto de N observações, como Np. 6 CAPÍTULO 1. CONCEITOS GERAIS. 1.2 Erros estatísticos e erros sistemáticos. Erros estatísticos são aqueles causados por variações incontroláveis e aleatórias no processo de medida, o que inclui o sistema de medida e as grandezas in- ^Apesar do digito da placa não ser aleatório, é possível tornar o número lido aleatório usando uma amostragem ao acaso. Por exemplo, se registrarmos a primeira placa encontrada a cada hora, com a velocidade do carro variando aleatóriamente, o número lido terá uma distribuição "uniforme” e um digito não sofrerá as restrições das seleções feitas no exemplo. 1.2. ERROS ESTATÍSTICOS E ERROS SISTEMÁTICOS. tervenientes nos processos. Devemos incluir os instrumentos utilizados direta mente bem como aqueles usados indiretamente e os processos que controlamos e também os que não controlamos. Como exemplos de interferências indiretas e frequentemente incontroláveis, podemos citar a tensão da rede de alimentação dos aparelhos elétricos e eletrônicos, que pode interferir no funcionamento dos instrumentos, e a umidc^e do ar, que pode alterar as características físicas dos materiais através de reações que ignoramos. O ca rá te r aleatório da parcela de erro in troduzida por um a fonte é que a qualifica como um a fonte de erro estatístico . Já um erro sistemático está relacionado a equipamentos mal ajustados ou calibrados ou duo uso de procedimentos incorretos de medida. Pode ser devido, ainda, a desprezar-se algum processo interveniente que provoque alterações relevantes na medida. O ca rá te r não aleatório da parcela de erro in tro duzida por um a fonte é que a qualifica como um a fonte de erro sis tem ático .. Erros sistemáticos podem ser introduzidos por métodos de análise inadequados, como por exemplo critérios de seleção tendenciosos, ou por mod elos teóricos incompletos, por exemplo, medir a aceleração da gravidade g por queda livre desprezando o atrito do ar, o que leva a valores sempre inferiores ao verdadeiro. A mesma fonte de erro pode dar origem a erros sistemáticos ou a erros estatísticos quando utilizam-se procedimentos diferentes. Uma régua, utilizada diversas vezes em medidas de comprimento, fornece resultados afetados de um erro sistemático devido a problemas de calibração da escala. Já a utilização de muitas réguas diferentes (de fabricantes distintos, inclusive) na observação, determina erros estatísticos no conjunto dos dados. Um exemplo interessante deste fato pode ser visto no 2utigo 0 que é uma medida? [Helene 91]. Em princípio, erros sistemáticos introduzidos por instrumentos não po dem ser tratados pela Estatística. Já os erros sistemáticos provenientes dos métodos de análise estatística (é, infelizmente em muitas situações de inter esse prático, as análises que fazemos produzem resultados afetados de erros sistemáticos.. .) podem ser contornados dentro da Estatística e serão objeto do nosso curso. Assim, devemos procurar minimizar o erro sistemático, ou seja, tomá-lo desprezível frente ao erro estatístico e escolher processos de medida que permitam uma análise estatística livre de erros sistemáticos ou que forneçam erros sistemáticos desprezíveis frente aos inevitáveis erros estatísticos. Uma fonte de erro que introduz um erro sistemático num experimento, o mesmo erro em outro mas se comporta aleatoriamente, no conjunto de experimentos em que o valor quadrático médio desse erro é medido, pode e deve ser tratada como fonte de correlações nas situações em que os resultados dos dois experimentos forem considerados. Esta discussão será detalhada posteriormente, quando discutiremos as covariâncias. Na seção seguinte formalizaremos uín pouco estes conceitos de erros es tatísticos e sistemáticos. 8 CAPÍTULO 1. CONCEITOS GERAIS. 1.3 Valor verdadeiro de uma grandeza. Erro. Incerteza. Quando a variação da grandeza é pequena comparada aos erros estatísticos na sua observação, dizemos que a grandeza possui um valor verdadeiro. Por exemplo, a carga de um elétron, o valor da constante de Planck, etc, são grandezas que possueii^ um valor verdadeiro. Nestes casos é bastante fácil formalizar os conceitos de erro e incerteza. Suponhamos uma grandeza que possui um valor verdadeiro xo e que pode mos observar através de um processo de medida que fornece valores x», com Xi = Xo- Neste caso, chamamos de erro ti à diferença entre o dado particular e o valor verdadeiro, Xi = XQ-\-ti. (1.2) Veja que o erro associado a um dado JAMAIS será conhecido, porque conhecê- lo corresponde a conhecer o valor verdadeiro, basta calcular xq a partir da equação acima... (Antes de perguntar para que serve a fórmula 1.2, leia a próxima frase.) Tudo o que poderemos saber acerca do erro são o seu valor médio, < C i> e o seu valor quadrático médio, a que damos o nome de variãncia, simbolizado por a*, 1.3. VALOR VERDADEIRO DE UMA GRANDEZA. ERRO. INCERTEZA.9 (7» = < e? > (1.3) onde o símbolo < a > signiAca o valor médio da grandeza a quando tomamos uma infinidade de dados. Âo valor médio do erro associamos a idéia de erro sistemático. Assim, quando < Ci > = 0, dizemos que não há erro sistemático. Já se < c* 0, dizemos que há um erro sistemático na medida. Ao invés de elaborarmos a idéia por trás da definição da variância, prefer imos interpretar uma grandeza análoga, o desvio padrão, que é simplesmente a raiz quadrada do erro quadrático médio. • = = \ /< : (1.4) A idéia associada a a é a de incerteza. Ao contrário do erro, o desvio-padrão pode ser estimado, ou, numa linguagem mais qualitativa, a incerteza pode ser estimada. Na prática, é demais exigir que o valor médio do erro seja nulo para considerar a medida isenta de erro sistemático. Basta que o valor médio do erro seja bem menor que o desvio-padrão do resultado finai No caso particular da medida direta de uma grandeza, onde a melhor estimativa da grandeza é a média e o desvio-padrão da média é / N, esta condição fica < c* X a/N Falando um pouco simplistaunente, podemos dizer que metade do nosso curso será dispendido buscando estimar o valor verdadeiro, a outra metade, buscando, estimar a incerteza. Juntando a incerteza à estimativa do valor verdadeiro, poderemos estimai intervalos de confiança, que são intervalos que têm uma 10 CAPÍTULO 1. CONCEITOS GERAIS. probabilidade deímida de englobar o valor verdadeiro - o máximo que é fisica mente possível obter de uma medida! Uma das questões mal elaboradas nesta imagem simplista do curso refere-se à questão do teste de hipótese, que estará sempre subjacente nas discussões que efetuaremos - os métodos estatísticos sempre devem permitir testar uma hipótese completamente objetiva acerca da grandeza medida por meio das estimativasobtidas. Podemos agora voltar à questão do erro sistemático. Calculando o valor médio do dado experimental a partir da fórmula (1.2), obtemos < Xi >=< Io + Ct > = < aJo > + < > = io+ < €i> . Dizemos que há erro sistemático quando < 0, ou seja, obtemos dados que em média diferem do valor verdadeiro. Note, porém, a dificuldade conceituai - como saber que houve erro sistemático se jamais saberemos o valor verdadeiro? E as grandezas que variam mais que a incerteza de medida? Por exem plo, a energia cinética das moléculas de um gás varia de 0 até algumas vezes kT, assim não existe um valor verdadeiro para a grandeza "energia cinética de uma moléciila em um gás*”. Entretanto, há uma probabilidéide definida da energia cinética estar numa certa faixa e essa função de probabilidade de pende de uns poucos parâmetros que, eles sim, possuem valores verdadeiros que podem ser determinados. O problema termina recaindo, portanto, na de terminação de valores verdadeiros destes parâmetros. E claro que, quando as variações intrínsecas da grandeza observada (neste caso, a velocidcide de uma molécula do gás, que obedece à distribuição de MaxweU) são de mesma or dem de grandeza das incertezas experimentais na sua observação (neste caso, a incerteza na determinação da velocidade de uma moléciila por meio do in strumento utilizado), o problema fica bem difícil. Outro exemplo onde tanto a grandeza quanto a observação podem es tar sujeitas a flutuações estatísticas corresponde ao da medida da vazão de um fluido. Se a vazão é inconstante, talvez pelo fluxo ser turbulento, e o aparelho tem boa precisão, a flutuação dos dados obtidos reflete pincipal- mente a flutuação da vazão. Noutro extremo, quando a vazão é constante. energia de uma molécula isoladamente pode ser medida e existe. Porém aqui cada molécula do gás tem uma energia distinta. É neste sentido que se pode afirmar que a grandesa não está bem definida ou não tem valor verdadeiro. 1.4. ESTATÍSTICA E O PROBLEMA DA ESTIMAÇÃO. 11 a flutuação dos dados reflete as limitações do instrumento de medida. No caso intermediário, quando os desvios-padrões da vazão e de medida pelo aparelho são comparáveis, os dados tem uma função de probabilidade que corresponde à convoluçãaidas funções de probabilidade da vazão e da ob servação pelo instrumento. 1.4 Estatística e o problema da estimação. A o8 poucos, estamos definindo uma linguagem : um dado é o resultado de uma única observação da grandeza e medida é um conjunto de dados, por exemplo = 1,2, . . . , jV com N E N*}. A medida da grandeza pode ser apresentada em forma reduzida^ por exemplo, através da média e do desvio- padrão da média. Veremos adiante que, se a função de probabilidade que governa a me dida é gaussiana, a média e o desvio padrão da média resumem toda a informação contida em {zt}i quando o número de dados, N, é grande. Estatística é um substantivo que tem dois significados distintos, embora relacionados. Por um lado é o nome da ciência que procura extrair informações objetivas de experimentos, utilizando-se para isso de estimativas de parâmetros e grandezas relacionadas aos dados experimentais. Por outro lado, definimos estatística como uma fimção dos dados. Por exemplo, sendo {xj} uma medida direta de uma grandeza que tem um valor verdadeiro, xo, costumamos estimar Xo através da estatística , que é a função 1 ^ (1.5) a já conhecida média. Uma estatística depende apenas dos dados e, even tualmente, de parâmetros conhecidos, no sentido de não estarem sujeitos a variações aleatórias. Exprimindo esta definição de outra maneira, uma es tatística é uma função que tem os dados da medida como únicas variáveis aleatórias. A dispersão dos dados experimentais - que mede essencialmente a precisão do instrumento de medida - é estimada por outra estatística. 12 CAPÍTULO 1. CONCEITOS GERAIS. (1.6) conliecida como variância. Também é usual descrever-se a precisão do in strumento através de a, a raiz quadrada da variância estimada, chamada de desvio-padrão da série ou, simplesmente, desvio-padrãOj veja fórmtila (1.4). Da variância ou do desvio-padrão da série extrai-se o desmo-padrão da média, (^ m = ctI^ /N (1.7) que é obviamente outra estatística. Assim, o problema geral da estimação de uma grandeza corresponderá à busca de uma estatística que a represente. Nosso estudo concentrar-se-á em descobrir £is propriedades dessas estatísticas. Estudaremos algims métodos padronizados de obter estatísticas que aplicam-se a muitos casos. Chamamos esses métodos de estimadores. 1.5 A função densidade de probabilidade. Suporemos sempre estar lidando com variáveis aleatórias que obedecem regras fixas. E^sas regras consubstanciam-se como funções de probabilidade no caso de variáveis discretas, tais como a função de probabilidade do item 1.1, cujo significado estatístico é imediato - a função de probabilidade P{m) dá direta mente a probabilidade de encontrar-se m átomos grudados nxima região da folha, sendo, portanto, normalizada no sentido que meS (1.8) onde S é.o espaço amostrai, ou seja, o conjunto de todos os valores de m possíveis de serem observados. Para determinar-se quantas vezes um certo m é mais provável de ser observado que m' calcula-se a razão P{m) Pimf) (1.9) No caso de variáveis contínuas, muito comum na física, vamos precisar de uma função para descrever as probabihdades de observar os diferentes valores. A 1.5. A FUNÇÃO DENSIDADE DE PROBABILIDADE. 13 figtira 1.1 insinua que, se aumentarmos o número N de observações de uma grandeza representada por uma variável contínua x e reduzirmos a largura Ax do canal de histogramação, obteremos eventualmente no limite em que N oo e Ax —> 0 uma função contínua como a representada na figura. Define-se então a função densidade de probabilidade f{x) através da propriedade P(xi < X < X2) = / f{x)dx Jxi (1.10) onde P(xi < x < X2) representa a probabilidade de obter-se um dado no intervalo [xi,X2]. A propriedade / ( x ) > 0 , V x 6 S , (1.11) é imediata. Convenciona-se definir a probabilidade de observar-se um evento qualquer como 1, ou seja, a certeza de um resultado é considerada como prob abilidade 1, o que fornece j^ f{x )d a = X ( 1.12) Da definição (1.10) e do fato da probabilidade ser uma grandeza adimension2Ll, resulta que a fdp tem dimensão igual à de 1/x. Note também que a fimção contínua desenhada na figura 1.1 é N f{x )A x com Ax = 1, sendo que a sua integral num certo intervalo dá o número-provável de dados a serem obtidos nesse intervalo. Uma complicação aparece quando tenta-se verificar a probabilidade relativa entre dois valores distintos de x,xi e Xq. E imediato que P(x = xi) = P(x = X2) = 0. já que há infinitos valores possíveis de x. Entretanto, não é esse o espírito de comparar-se as probabilidades de obtefem-se estes dois valores. Note que, ao considerarmos um intervalo Ax, pequeno mas finito, podemos estimar ^xi+Ax P(xi < X < Xi -1- Ax) = / f{x)dx = /(xi)A x. - Jxi, De fato podemos comparar P (x i < X < xi -i- A x) ^ /( x i) A x _ /( x i) P(X2 < X < X2 + A x) / ( x 2)A x (1.13) 14 CAPÍTULO 1. CONCEITOS GERAIS. independente de Az, portanto. A partir da fdp podem ser dediizidas diversas grandezas. Por enquanto, nos limitaremos a definir a média, zo, *0 = J ^ x f{ x )d x , (1.14) O segundo momento, que é a média de z*, í4 = / x^f{x)dx (1.15) J-QO e a variância, que é a média quadrática dos desvios, ^ 0 = J - xoYf{x)dx (1.16) A rigor, nas expressões (1.14) a (1.16), deveriamos integrar em S ao invés de ] — oo, oo[. Na prática, esta questão é resolvida definindo /(z ) = 0 para z ^ S, nós a discutiremos em detalhes no capítulo VI. A notação < t > é usada para o valor médio da função t(z) calculado utilizando a fdp como peso, < í(z)> = í t{x)f{x)dx J-OO (1.17) Note que /(z ) é normalizada como na expressão (1.12), portanto, dividir o membro direito desta última definição pela integral da fimção peso não resulta numa expressão diferente. As definições anteriores podem ser reescritas Zo = < z > -2 ./4 = < Z > C <^0 = < (® — > Q l.l Mostre que < (ar - aro) ^ > = < ar* > - x * . (1.18) L6. TEORIA DA PROBABILIDADE E ESTATÍSTICA. 15 £m geral, as propriedades das estatísticas estão ligadas à fdp dos dados. Na abordagem paramétrica que estamos discutindo, é necessário conhecer ao menos a forma da fdp para definir o comportamento das estimativas obtidas. Por exemplo, se a fdp dos dados de uma medida {xj, i = 1,2,. . . JV com N > 10} duma grandeza de valor verdadeiro xq é gaussiana centrada em xq com desvio padrão ao, então a média do conjunto dos dados, x, tem fdp gaussiana de média xq e desvio-padrão <Tm = e o par de valores x e a,» resume toda a informação contida no conjunto de dados originais. A dificuldade habitual vem do desconhecimento de ao, sendo normalmente necessário estimar-se ao = a e aí a propriedade apresentada na frase anterior vale apenas como aproximação. Veremos logo no próximo capítulo, porém, que o problema de uma medida com dados que seguem a fdp gaussiana têm uma solução completa e exata. 1.6 Teoria da Probabilidade e Estatística. A figura 1.4 ilustra os dois tipos de raciocínio que faremos ao longo do curso. O caminho B pode ser trabalhado de maneira dedutiva e sua fundamentação é bem conhecida há um par de séculos, embora tenha havido discussão acerca dela até uns 50 anos atrás. Sobre as questões históricas veja o livro [Mises]. Já o caminho A é o que os físicos trilham mais frequentemente, desde que este é o procedimento das ciências experimentais - um experimento é uma interrogação à natureza, e a física procura exprimir quantitativamente, através duma linguagem matemática, as conclusões obtidas. Por muito tempo, resistiu-se a usar os métodos da Teoria da Probabilidade na avaliação de resultados experimentais, mas hoje é isto que fazemos e que faremos no curso, ou seja, a linguagem matemática escolhida paira exprimir o resultado de um experimento é a da Teoria da Probabilidade. Estimare mos a grandeza medida e a incerteza devida ao comportamento aleatório dos erros intervenientes no processo experimental por meio de estimadores, cujo comportamento estudaremos na Estatística, e a partir daí, avaliaremos a prob abilidade de uma hipótese específica estar correta ou falsa. Um exemplo de hipótese na qual estamos frequentemente interessados é a do valor verdadeiro da grandeza estar contido num certo intervalo, tal como [x — (7^ 5 -|- am]- Embora também as bases da Estatística tenham sido lançadas ainda no século XVIII, esta teoria não parece ter se desenvolvido no século XIX, só 16 CAPÍTULO 1. CONCEITOS GERAIS. A Figura 1.4: Relação entre Teoria da Probabilidade (caminho B) e Estatística (caminho A). atingindo maturidade em tomo de 1950. 1.7 Média, mediana, moda e desvio-padrão. Já apresentamos e discutimos um pouco o que é e como se interpreta a média de um conjunto de dados {®i} nas seções 1.4 e 1.5. Além da média, há outros parâmetros da fdp que são importantes, sendo que definiremos aqui a mediana e a moda. Chamamos mediana de uma variável aleatória ao valor tal que P{x < Xm) = P[x > Xm), (1.19) onde P simboliza Probabilidade. A mediana é, portanto, o ponto que divide a fdp /(x ) em 2 partes de mesma área. r f{x)dx = f f{x)dx = )■ J-CO ^ 1.7. MEDIA, MEDIANA, MODA E DESVIO-PADRÃO. 17 Chamamos de moda ao ponto em que f (x) tem um máximo local, ou seja, é um ponto Xmoda tal que f(xmoda) > f{x) para x e [x„oda - «moda + S] com í > 0 (1.20) Uma fdp é unimodal quando tem apenas uma moda e, neste curso, trataremos apenas de fdps deste tipo. Pode-se mostrar que, para fdps unimodais, a média, a mediana e a moda ordenam-se nessa ordem ou na ordem inversa, aio < 2m < X „,o d a ou X ^ o d a < < ^o, (1.21) portanto, ou em ordem alfabética dos nomes ou na ordem inversa. A iigura 1.5 mostra a média, mediana e moda para uma distribuição assimétrica (x^ Figura 1.5: Moda, mediana e média de uma distribuição assimétrica, no caso, a dis tribuição de com 5 graus de liberdade. p2Lra 5 graus de liberdade) O desvio-padrão é uma medida da largura da fdp. Pode-se mostrar também que a estimativa usual da variância (quadrado do desvio-padrão, dada pela estatística definida pela expressão (1.6)) é exatamente igual ao valor médio do quadrado das distâncias entre pares de pontos X{,Xj, tomando-se apenas os pares independentes sendo, portanto, uma medida da largura do histograma dos dados experimentais. 18 CAPÍTULO 1. CONCEITOS GERAIS. 1.8 Estimativa do valor verdadeiro (paramétrica, modelo normal). Para um conjimto de dados = 1,2, . . . , > 10}, supondo-se a fdp dos dados, f(x), normal, pode-se mostrar que P{^ - í^ m < i + <^ fn) = 68% , (1.22) P{x - 2(Tm <X q <X-\- 2(Tni) — 96% (1.23) onde am = a/y/N . Outros intervalos podem ser determinados consultando tabelas da integral da gaussiana. A estimativa da média dada pela expressão (1.5) tem fdp normal de média Xo e desvio-padrão aproximadamente igual Q l.2 O comprimento de um objeto pode ser medido por meio de 2 instru mentos, A e B, com preásões e gb, respectivamente, diferentes e tais que as = 2<7a * Aqui, o representa o desvio-padrão (da série de dados). Demorar se 3 minutos para efetuar-se uma observação com o instrumento A e 1 minuto, com o instrumento B. Numa medida que demore 60 minutos, qual instrumento fornecerá a estimativa do com primento de melhor precisão? As aproximações das relacções acima são tão melhores quanto maior for o número de dados, N. Para valores N < 10 essas aproximações tomam-se ruins. Neste caso e também quando pretende-se eliminar o "aproximadamente igual” das equações acima, devémos recorrer à fdp da variável aleatória t de Student, que leva em conta tanto a flutuação estatística de x quanto a de íTm. Ou seja, neste caso onde a fdp dos dados é a norm al, com um pouco mais de trabalho é possível eliminar a restrição iV > 10 e a aproximação efetuada. Véremos os detalhes um pouco mais adiante, seção 3.3. 1.9 Estimativa não -peiramétrica do valor ver dadeiro. Ao contrário da estimativa paramétrica que objetiva estimar a média, aqui procuraremos estimar a mediana. Em certas situações onde a fdp dos dados é desconhecida, é possível estimar-se tanto a mediana quanto intervalos para os quais pode-se calcular a probabilidade mínima de conterem a mediana. O método não-paramétrico de estimar a mediana é mais simples que o utilizado para estimar a média. Ele é exposto mais claramente através de um exemplo. Suponha que obtivemos o seguinte conjunto de dados: medida = {11,2; 11,3; 12,1; 10,1; 10,9; 10,9; 11,6; 9,4; 10,4}. Ordenamos os dados em ordem numérica crescente, 9,4; 10,1; 10,4; 10,9; 10,9; 11,2; 11,3; 11,6; 12,1, e denominamos os dados por 2[i],X[a],2[y],Z[jv]} eni ordem crescente de valor numérico. Escolhemos o dado na posição m édia {N -{-1)/2, que, neste caso em que N=9, é o quinto dado, X[5] = 10,9. A estimativa da mediana é, portanto. 1.9. ESTIMATIVA NAO -PARAMETRICA DO VALOR VERDADEIR0.19 No caso. “ ^[N/2] para N ímpar. (1.24) onde a ”linha” ' distingue a estimativa da mediana do valor verdadeiro da mediana, Xm definida em (1.19). Se o número de dados é par, estima-se a mediana simplesmente como .paraiy^par. (1.25) No caso paramétrico, havíeunos estimado na seção 1.8 não só o valor médio {estimativa de ponto) mas também intervalos com probabilidades definidas de conterem o valor verdadeiro, utilizando-nos do parâmetro desvio padrão da média. Na abordagem não-paramétrica pode-se também estimarintervalos facilmente. 'Como primeiro exemplo, estimaremos um limite superior da probabilidade da mediana ser maior que = 12,1, ( correspondente ao intervalo [12,1; oo[). A probabilidade de um dado ser menor que a mediana é 1/2 e, como os N dados são independentes, a probabilidade de todos eles serem menores que a mediana é (1/2)^, no caso 1/512, ou seja. 20 CAPÍTULO 1. CONCEITOS GERAIS. i (^®m > X[N]) = (1 /2 ^ (1.26) Analogamente, calculamos como (1/2)^ a probabilidade da mediana ser menor que o menor dos valores, X[ij = 9,4, < X[1)) = ( l / 2 f . (1.27) Assim, podemos estimar a probabilidade im'nima do intervalo [x[i], conter a mediana como o complemento paxa 1 da probabilidade da mediana estar fora do intervalo, ou seja, utilizando (1.26) e (1.27), que no caso fica í*(x[ll < Xm < X(J»]) = 1 - 2 • ( 1 /2 )^ , P {9,i <Xm< 12,1) = 0,996 = 99,( (1.28) £m palavras, lemos a equação acima como ”a probabilidade da mediana estar contida no intervalo entre 9,4 e 12,1 é 99,6%”. Para definir um intervalo menor para a mediana, estima-se primeiro a prob abilidade da mediana estar entre os dados X[i] e X[3], que exige N — 1 dados maiores que a mediana e um, menor, sendo que há N maneiras disso ocorrer - lembre-se que nós ordenamos os dados, eles são obtidos em ordem aleatória! Assim, (1.29) (1.30) P(x[i) < x„ < x(,]) = N ■ (1/2) • ( l/ 2 )^ - ‘ . Reunindo este resultado com o da equação (1.27), calcula-se i ’(x™ < X(,j) = (1 / 2 ) ''+ JV (l/2)'' Utilizando o mesmo procedimento do complemento para 1 utilizado para de duzir (1.28), obtém-se finalmente Í'(X[,1 < x„ < X[;í _i,) = 1 - 2 • (1/2)'' - 2 N - (1/2)", (1.31) que no caso fica P (1 0 ,l < x „ < 11,6) = 96% No próximo capítulo discutiremos como generalizar estes cálculos.' Cometemos \im erro, porém, nestes cálculos. Veja que estamos atribuindo uma mesma probabilidade para um dado ser menor (ou maior) que a medi ana, independente dele estar no extremo do conjimto ordenado ou no centro. Como esta probabilidade corresponde ao valor máximo que ela pode ter, esta mos exagerando no cálculo das probabilidades em (1.26) e (1.30) e, portanto, subestimando as probabilidades em (1.28) e (1.31). Assim, o modo correto de ler-se a equação (1.28) é ”a probabilidade da mediana estar contida no intervalo entre 9,4 e 12,1 é maior que 99,6%”. Em particular, se a fdp dos dados é a normal, é possível calcular as probabilidades associadas a estes in tervalos e verificar-se que são maiores (as probabilidades). É característico dos métodos não paramétricos fornecerem intervalos conservadores. Seu grande mérito é o de aplicarem-se a situações onde desconhecemos a forma da fdp dos dados. Alguns autores chamam as estimativas pouco sensíveis à forma da fdp de estimativas robustas. Este assimto é discutido em [Noetherj. 1.9. ESTIMATIVA NAO -PARAMETRICA DO VALOR VERDADEIR0.21 São relativamente raras na Física as situações onde não se possa es colher uma função de probabilidade que aproxime suficientemente bem a função de probabilidade dos dados. Já nas áreas de pesquisa ligadas a CiêncÍ9s Humanas, Sociais e Biológicas, frequentemente é impossível fazer hipóteses razoáveis acerca da função de probabilidade dos dados. Nesses campos, portanto, a estatística preferida é a não paramétrica. exercícios 1.1. Identifique como aleatório ou não os eventos: (a) obter-se a face dois no jogo de dado ; (b) um dia ser domingo ; (c) obter, em um experimento, um resultado para a medida da acel eração da gravidade superior ao seu valor local verdadeiro; (d) encontrar todo os semáforos fechados em um percurso; (e) o ponteiro da hora superpor-se ao dos minutos, n^lm relógio, (f) olhar o relógio e verificar que os ponteiros estão superpostos. 22 CAPÍTULO L CONCEITOS GERAIS. 1.2. Mediu>se a densidade de um Kquido utilizando-se o seguinte procedi mento: a) o volume de uma amostra do Kquido foi observado uma única vez com uma pipeta; b) a massa dessa amostra, transferida para outro recipiente, foi medida utilizando-se diversas balanças calibradas indepen dentemente, sendo cada balança operada por um observador diferente e c) calculou-se a densidade como o quociente entre a massa e o volume. Entre as fontes de erro abaixo, identifique aquelas que originam erro sistemático e erro estatístico: i) a graduação da pipeta ; ii) a transferência do Kquido para o recipiente de pesagem; iii) as caKbrações das balanças; iv) operação da balança, v) trepidação do solo e correntes de ar durante a utiKzação das balanças. 1.3. Mostre que a estimativa do desvio-padrão (7*= ^ »=1 pode ser calculada como ' ■ - i é T (•■-*■) (1.S2) onde definimos Veja que esta forma pode ser calculada em linha, sem necessaidade de quardar todos os valores, o que torna este algoritmo util para cálculos por meio de computadores. A idéia é calcular 3 variáveis, por exemplo 50, 51, e 52, one 50 = ^ 1 51 = 5 ^ 1 e 52 = 5 ^ 1 * Ao final da tomada de dados, 50 vale N, 51/50 é x e 52/50 é x^. A partir desses valores pode-se, então, calcular a e, claro, 1.9. ESTIMATIVA NÃO -PARAMÉTRICA DO VALOR VERDADEIR0.23 24 CAPÍTULO 1. CONCEITOS GERAIS. C ap ítu lo 2 A s fun ções de prob ab ilid ad e m ais com uns. Embora seja muito raro conhecermos a verdadeira função de probabilidade que governa uma medida, existem algumas funções que fornecem aproximações ad equadas a muitos experimentos. Descreveremos aqui as funções de probabili dade Binomial e de Poisson, de variável discreta, e as funções densidade de probabilidade Norm al, de e Uniforme, de variável contínua. Neste capítulo, definiremos a função característica de uma fdp e veremos também como altera-se a fdp por uma transformação de variáveis aleatórias. Utilizando esses recursos, calcularemos as fdps das estimativas da média e da variância, quando os dados seguem a Normal. Começamos, então, a abor dar a questão do comportamento estatístico das estimativas que utilizamos comumente. 2.1 A função de probabilidade binomial. Já vimos duas situações onde a probabilidade de observar-se n eventos de um certo tipo, em N observações, é dada pela f.p. Binomial, (2.1) onde p é a probabilidade de observção do evento do tipo em que estamos interessados. 0 símbolo 25 26 CAPÍTULO 2. AS FUNÇÕES DE PROBABILIDADE MAIS COMUNS. o - Nl _ N - ( N - l ) ‘^ ^ ( N - n + l) nl(N — n)! 1 • 2 • ■ • n ’ corresponde ao número de combinações de N objetos n a n. Na expansão do binômio de Newton, (p + é o coeficente do termo de onde vem o nome de ”binomial”.^As duas situações já estudadas neste curso a que esta fp se aplica correspondem à da evaporação de metal sobre plástico (seção 1 .1 ) e à do cálculo de certas probabilidades em intervalos construídos por métodos não paramétricos (seção 1.9). As hipóteses que conduzem à f.p. binomial são: i) há apenas dois tipos de eventos, mutuamente exclusivos e exaustivos; ii) a probabilidade de cada xim dos tipos de evento é fixa, independente das demais observações e iii) o número total de observações é fixo e conhecido, ou seja, ele não é uma variável aleatória. Representando por q a probabilidade do evento não ser do tipo em que estamos interessados, a hipótese i) acima corresponde a p + ç = l (2.2) A partir da função de probabilidade, podemos calcular (veja quadro na página seguinte) o valor médio da variável aleatória. no = < n > = 5^ n • Ptrj,{n) = Np (2.3) Quase sempre < n > não é inteiro. Com um pouco de reflexão é possível convencei-se que não há qualquer motivo pzu-a < n > pertencer ao espaço amostrai. Aliás, se lembrarmos que ele é a média ponderada de números in- teiros com pesos fracionários, dados pela função de probabilidade, concluiremos que < n > só será inteiro acidentalmente. A variância também podeser calculada a pzu^ tir da fp , dando al -< (n - no)* > = ^^(n - no)* ■ i ’wj,(n) = Npq, (2.4) n=0 donde calculamos o desvio-padrão 2.1, A FUNÇÃO DE PROBABILIDADE BINOMIAL. 27 cr = y / N ^ = y /N p { l-p ) (2.4') A propriedade de normalização da fp binomial é facilmente demonstrada, í : W n ) = E ( ^ ) = ip + ç)^ = ! '' = ! n=0 n=0 ^ ' através da utilização do binômio de Newton e da identidade (2.2). 0 valor médio de n é calculado como N N ^riqN-n (n-l)!(JV-n)!' onde, na última expressão, explicitou-se que a somatória começa em n = 1 porque a fator n anula ò termo n = 0 da soma. Fazendo a mudança de variável n' = n — 1 e definindo N ' = N - Na somatória acima, podemos fatorar N e p, porque independem dé n'. Com essa fatoração, obtém-se N' ”o = l f p í)'^ ' = f f p A fórmula (2.4) pode ser deduzida de maneira semelhante, com um pouco mais de trabalho, ficando para o exercício 1. Vamos detalliar um exemplo, que ocorre frequentemente nos experimentos. Suponha que estamos observando uma grandeza x com valor verdadeiro Xq, sendo /(x ) a fdp das observações. A partir da medida {x,-,z = l,...,A f} construímos o histograma dos dados. Podemos perguntar : quantos dados esperamos obter no intervalo Jx», x j ? Esta pergunta é fácil de responder. A probabilidade de um dado cair no intervalo jxajxJ, p, é determinada pela fdp /(x ), 28 CAPÍTULO 2. AS FUNÇÕES DE PROBABILIDADE MAIS COMUNS. ’ = / * f{x)dx A partir desta probabilidade, pode-se estimar que, dentre N dados, cerca de Np cairão nesse canal E imediato que, embora o número de dados nesse canal, n, possa ser o inteiro mais próximo a Np^ o valor obtido pode ser diferente e existe uma barra de incerteza associada. Para calcular essa barra de incerteza é preciso determinar a í.p. dessa variável aleatória, n. Provaremos que a f.p. de n é a binomial, verificando as hipóteses i), ii) e iii). A hipótese i) é verificada, desde que cada dado ou pertence a ]xat Zfr] ou está fora deste intervalo, havendo portanto dois eventos possíveis que se excluem mutuamente - a ocorrência de um deles garante que o outro não ocorre. Além disto, o dado é obrigatoriamente um número real e a união dos dois intervalos corresponde ao espaço amostrai - são, portanto, eventos exaustivos, no sentido que qualquer evento pode ser encaixado em um dos dois eventos definidos, não havendo necessidade de definir um terceiro para encaixar qualquer evento par ticular. Costumamos chamar de p a probabilidade do evento que nos interessa (por isto, habitualmente chamado de sucesso) e de 9 a probabilidade do evento que não nos interessa, isto é, x < Xa ou x > Xt. A condição ii] depende apenas da constância de /(z ) ao longo da medida, hipótese que sempre fazemos ao analisar dados deste tipo. £ essencial que usemos instrumentos e processos que não variem durante a medida . . . Poder-se-ia apontar o decaimento radioativo como iim exemplo de uma grandçza que flutua e cujo valor muda com o tempo, portanto em contradição com a imposição de um processo que nao varia no tempo. De fato, a ativi dade pode mudar durante a tomada de dados se o tempo de medida não for desprezível comparado com a meia vida. Neste caso, a grandeza que interessa não é a que é medida diretamente, isto é, a contagem, que varia com o tempo, mas a meia vida da fonte, que é supostamente constante no tempo mas que é determinada indiretamente. O item iii) também é verificado neste exemplo, o número de observações efetuadas corresponde ao número de dados obtidos, ou seja, é o número total de dados no histograma. Note que este número de dados deve ser fixado ANTES de começarmos a medida. Se escolhermos como critério : interrompe-se a medida quando o número de dados no intervalo ]z(,, x^ for igual a M, a f.p. do número de dados no intervalo ]zo, não será mais binomial! 2.1. A FUNÇÃO DE PROBABILIDADE BINOMIAL. 29 Assim, o número médio de dados em ]xat xs] é, simplesmente, o valor médio de n, Npy e a barra de incerteza, que usualmente corresponde ao desvio-padrão a, é dada pela expressão 2.4*, a = [Np{l — Q2 .1 Mostre que a barra de incerteza no número de dados obtidos em um canal, n, nos histogramas com uma grande quantidade de canais que construímos habitualmente, é dada aproximadamente por sendo que normalmente a aproximação é tanto melhor quanto maior o número de canais. Em que situação esta aproximação pode falhar e, nesses casos, como corrigi-la? EXEMPLO NUMÉRICO Vamos considerar o histograma da figura 1.3, seção 1.1. Queremos avaliar a barra de incerteza associada ao número de casas de área igual a que foram observadas recobertas por 2 átomos. Naquele caso, a variável observada, m, era discreta, mas é fácil adaptar a discussão acima. Cada canal de histogramação corresponde a um valor inteiro do número de átomos que recobrem uma casa da folha e tudo que precisamos fazer para que valha toda a discussão acima é interpretar p como a probabilidade de observar m = 2, p = P{m = 2). Vamos tomar a probabilidade P{m — 2) = 0,27, que é uma estimativa melhor que o valor estimado diretamente do número de casas com m = 2 observado no histograma (5/15=0,33), por razões que serão detalhadas na próxima seção. Chamando de n o número de casas com m = 2, a função de probabilidade de n é a binomial com N = Ib (número total de eventos observados) e p = 0,27. 0 número médio esperado é 15 0,27 = 4,1, com desvio-padrão (15 0,27 • 0,73)'/* = 1,5 O U, em notação resumida, escrevendo entre parênteses o desvio-padrão em unidades do último algarismo da média, n^=2 = 4,1(15). Este resultado pode ser interpretado qualitativamente da maneira que segue. ^ Na situação descrita na seção 1.1, quando 15 eventos são observados, o evento m = 2 ocorre provavelmente 3 ; 4 ou 5 vezes. n = l ; 2 ; 6 e 7 serão observados muitas vezes, embora com menor frequência; n=0 ; 8 e 9, podem acontecer, mas raramente, e, finaimente, n=10 ou mais é prati camente impossível. Esta descrição qualitativa, baseada na idéia de que eventos dentro de um desvio-padrão são os mais comuns, entre 1 e 2 acon tecem, entre 2 e 3 são raros e a mais que 3 desvios-padrões da média não acontecem praticamente, pode ser substituída por uma descrição precisa, porque conhece-se a fp da grandeza, veja />(n = 0) = (1 -0 ,2 7 )“ = 0,009 = 0,9% i>(n = l ) = 1 5 -0 ,2 7 -(1 -0 ,2 7 )“ = 0,049 = 4,9% P(n = 4) = ^ • 0,27^ • (1 - 0,27)“ = 0,228 = 22,8% 1 • 2 • u • 4 30 CAPÍTULO 2. AS FUNÇÕES DE PROBABILIDADE MAIS COMUNS. etc. 2.2 A função de probabilidade de Poisson. 2.2.1 A Poisson como limite da Binomial A função de probabilidade de Poisson corresponde ao caso limite da função de probabilidade binomial em que o número de observações, tende a infinito e a probabilidade de um sucesso, p, tende a zero, com o número médio de sucessos, Np, tendendo a uma constante, a. Já vimos uma situação em que esta condição limite ocorre, que é o caso da metalização explorado na seção 1.1. Nesse caso, o número de átomos evaporados N é muito grande e a probabilidade de cada átomo evaporado grudar numa certa casa em particular é muito pequena, mas o número médio de átomos grudados numa casa é finito. Este exemplo será detalhado no corpo do texto, adiante. A função de probabilidade de Poisson de média a é a"e-“ A (n) = n! (2.5) Passando ao limite as expressões da média e da variáncia, fórmulas (2.3) e (2.4), deduzimos que a média duma grandeza cuja /p é a Poisson é no = < n > = a (2.6) e a vanancia e 2.2. A FUNÇÃO DE PROBABILIDADE DE POISSON. 31 a^ = a (2.7) As condições de validade da função de probabilidade de Poisson são: i) número total de eventos muito maior que o número de sucessos e ii) os eventos são independentes e tem todos a mesma probabilidade de sucesso.Q2.2 Mostre que quando N oo e p 0 com Np = a, a função de probabilidade binomial tende à íúnção de probabilidade de Poisson. Q2.S Mostre que a função de probabilidade dada pela expressão (2.5) está corretamente normalizada. Deduza o resultado (2.6) calculando a média do número de eventos observados por meio de < » > = $ : nf Para calcular a variâncía a partir da fp da expressão (2.5) e da definição, usamos a identidade = < (n - no) ^> = < > - tiJ que é a expressão (1.18) da seção 1.5. Você a deduziu na questão 1 da seção 1.5 para variáveis aleatórias contínuas mas ela vale também para variáveis aleatórias discretas, como é fácil verificar. Calculamos - n - —a ° ° g,—a n=0 n '= 0 * utilizando procedimentos semelhantes aos utilizados para calcular o valor médio de n com a fp binomial na seção precedente. Em particular, efe tuamos a transformação de variável n* = n - 1. Agora, fatorando a e distribuindo o termo n' 4* 1, *** -n - —o ^ -i» n’=0 ” ' «'=0 ' o primeiro somatório é <n* >= a, expressio (2.6) acima, e o segundo é a expansão em série de potências de e". Então < tP > = o’ + o Com este resultado calculamos finalmente =< > - n j = -|- a - a* = o 0 exemplo da metalização da seção 1 .1 satisfaz a ambas as condições. Por menor que seja a massa^de material evaporado, o número de Avogadro é tão grande - 6 • 10 ^^ átomos por mol - que o número total de átomos evaporados é muito grande, satisfazendo a condição i) acima. A probabilidade do átomo grudar numa casa de área 6^ específica é muito pequena dada a pequenez de ò, da ordem de alguns Â, comparada com a dimensão da placa: uma placa de alguns mm^ conterá da ordem de 10^^ casas, garantindo uma probabilidade menor que 10 “^^ de um átomo grudar numa casa determinada. Assim, a condição ii acima também é satisfeita, supondo que um átomo depositado não altere a probabilidade de outro átomo se depositar nas vizinhanças.. Para estimar a fp que governa o histograma da figura 1.3, precisamos esti mar um único parâmetro, a média, que simbolizamos por a. Somando o número total de átomos grudados, ^íy representados naquele histograma, obtemos A/' = l* 0 - |-5 - H -5 - 2 + 3- 3 + l - 4 = 28 átomos e o número de casas consideradas, N, é iV = l- |-5+ 5-}-3 + l = 15 casas, o número médio de átomos ocupando \ima casa é, simplesmente, a =AT/Ar = 28/15 = 1,87. Utilizamos o símbolo á para a estimativa do valor verdadeiro da média, a, para relembrar a diferença entre estimativa e valor verdadeiro da grandeza. A figura 2.1 apresenta, em linha tracejada, a fp de Poisson de média 1,87, multiplicada por comparada aos dados experimentais da figura 1.3, em linha cheia. A multiplicação por N é necessária para a comparação porque o histograma corresponde ao número de casas onde foi observado um número 32 CAPÍTULO 2. AS FUNÇÕES DE PROBABILIDADE MAIS COMUNS. 2.2. A FUNÇÃO DE PROBABILIDADE DE POISSON. 33 particular de átomos grudados e não à probahüidade de ocupação. Estamos, então, utilizando a relação entre essas duas grandezas válida para a binomial, no = Npy relação (2.4) acima. O histograma calculado, 15Pa{n), não é idêntico ao histograma experimen tal, e nem podería, devido à flutuação estatística. Em princípio, tanto à como o número de casa ocupadas por um número definido de átomos são afetados por incertezas. Porém, a estimativa â é bastante mais precisa que o número de casas que foram observadas ocupadas por um número definido de átomos, por basear-se no número total de casas ( e de átomos ), que é bem maior. Assim, você pode utilizar a discussão da seção 2.1 acima, supondo a curva tracejada exata (ao menos, ela tem uma imprecisão menor que a curva cheia) para veri ficar que a diferença entre a curva cheia e a tracejada está quase sempre dentro de uma barra de incerteza do valor experimental. Note que a discussão efetu ada na seção 2 .1 vale para qualquer histograma e, portanto, também para este em particular. n ú m e r o d e 6 5 4 3 2 1 H 0 F igu ra 2.1: Histograma do número de átomos empilhados sobre uma área da folha, de acordo^ com a discussão da seção 1.1. £m linha cheia, o resultado experimental de iV = 15 observações, correspondendo ao que se vê na figura 1.2 da seção 1.1. Em linha tracejada, o produto do número de observações pela fp de Poisson (fórmula 2.5) de média a = 1,87, calculada de acordo com o texto. s 34 CAPÍTULO 2. AS FUNÇÕES DE PROBABILIDADE MAIS COMUNS. 2.2.2 A Poisson a partir de princípios básicos A distribuição de Poisson pode ser deduzida a partir da definição de um evento tipo Poisson: eventos independentes que tem uma probabilidade constante de acontecer num intervalo (tempo, distância, etc...), independente da origem escolhida. Vamos, supor que o intervalo seja tempo, para efeito de cálculo. Nesta situação, a probabilidade de encontrar um evento entre < e í+ á t é proporcional a 6t: Pi = \S t P\ independe de t, característica do evento tipo Poisson. Vamos supor 6t muito pequeno, de modo que a probabilidade de ter mais de um evento durante o intervalo 6t seja desprezível. A probabilidade de ter n > 1 eventos entre 0 e t + át é a soma de duas possibilidades: A: n eventos entre 0 e t , nenhum entre t et-{- St B: n — 1 eventos entre 0 e í , 1 entre t e t + St o que pode ser escrito como: PA = P {n ,t){ l-X S t) Ps = P { n - l ,t )X S t onde P (n ,t) indica a probabilidade de se observar n eventos entre 0 e í. A probabilidade de se observar n eventos entre 0 e t -f át é portanto a soma de Pa e Pb ' P (n ,t-{- St) = P (n ,t)(l - XSt) + P{n — lyt)XSt o que pode ser re-escrito como P(n, t +. St) — P(n, t) St = A ( P ( n - l , í ) - P ( n , í ) ) No limite Si-* 0 o primeiro termo toma-se uma derivada: dP{n,t) dt = A ( P ( n - l , í ) - P ( n , í ) ) o que leva à equação diferencial dP{n,t) 2.2. A FUNÇÃO DE PROBABILIDADE DE POISSON. 35 dt + AP(n, t) = AP(n — 1 , t) Observando que obtem-se (e*‘P (n ,í)) = A/>(n - l , t ) O que leva à relação de recorrência P (n .í) = e ~ ^ J Ae*‘P(n - l,t)d t Precisamos de P(0,t). Como usando o limite acima, obtem-Se P (0,t) = A partir de P(0, t), chega-se à solução: - Se lembrarmos que A é a probabilidade de se observar um evento por unidade de tj então At é o número médio de eventos no intervalo de 0 a t. Se escrevermos fi = At, temos a fórmula da Poisson (2.5) Esta dedução mostra uma série de aspectos interessantes de processos tipo Poisson. Em primeiro lugar, o fato da probabilidade de se observar um evento não depender da origem escolhida. Se depender, o evento não é Poisson. Uma segunda curiosidade é da probabilidade de não se observar um evento P(0,t) ser uma exponencial. Isto tem uma consequência imedi ata: eventos tipo Poisson tendem a vir em grupos, separados por longos intervalos de modo a manter o intervalo médio constante Esta característica pode ser observada num osciloscópio na distribuição dos pulsos de um Geiger, na tendência de carros se agruparem numa estrada livre, ou de vários problemas acontecerem ao mesmo tempo (lei de Murphy). Esta aglutinação de eventos, no caso de um contador Geiger, que tem sempre um tempo morto, explica porque a distribuição do número de even tos por unidade de tempo não segue precisamente uma Poisson, embora seja sempre utilizado como exemplo! 2.2.3 Soma de eventos tipo Poisson Uma propriedade interess2mte das variáveis aleatórias que seguem a fp de Pois son é que sua soma também segue uma fp de Poisson. Chamando n a uma variável aleatória distribuída conforme a fp de Poisson de média a, Pa{n)t e n ' uma variável aleatória distribuída conforme a fp de Poisson de média a\ Pa'(n')y a variável aleatória m = n-\-n* (2 .8) tem a fp =£ Ê ^ .(" ) • Pa'(n’) = È È n=0 n '= 0 n=0 n '=0 ^a(n) ■ Pa'(m - n) n=0 (Atenção, m da fórmula (2.8) acima não tem nada a ver com .a variável m do histograma da figura 2 .1 , infelizmente estamos habituados a chamar as variáveis aleatórias inteiras de n ou de m, de maneira que é inevitável começar a repetir símbolos em algum momento...) Na expressão acima, o símbolo " após a segunda somatória lembra que deve-se somar apenas os termos que obedecem à restrição (2.8). Esta restrição pode ser explicitada pelo delta de Kronecker e conduz iinalmente à expressão com uma única somatória. Explicitando as fps, 36 CAPÍTULO 2. AS FUNÇÕES DE PROBABILIDADE MAIS COMUNS. " a^e-* „=o í n!(m — n)! 2.3. A FDP NORMAL OU GAUSSIANA Multiplicando por m!/m!, definindo >4 = a -I- a' e agáipando os termos de maneira conveniente, obtém-se 37 -n-/(•»-») ^ e = ^ ( a + a ' r = H - ^ " ‘ml ml ^uc c a fp dc Pcisscn dc uicdia igual a soma das laicdias das duas vcuiaveis aleatórias. Além do exemplo já citado, o decaimento radioativo obedece à fp de Poisson: o número de átomos radioativos numa fonte é muito grande; a probabilidade de um átomo desintegrar-se é constante no tempo e não depende do átomo particular; e a desintegração de um átomo não interfere nos demais. Porém, se a fonte radioativa é observada durante muito tempo, isto é, num intervalo de tempo. T , comparável à meia-vida do nuclídeo, 7i /3. o número de átomos radioativos vai reduzindo-se, o que altera o número médio de desintegrações por unidade de tempo, sugerindo que pára intervalos longos de tempo o número de decaimentos não é distribuído como uma Poisson. Podemos, entretanto, dividir T em muitos intervalos At, com At < Tif2 , de maneira que para cada intervalo pequeno a fp seja Poisson. A média de desintegrações no primeiro intervalo pequeno será diferente daquela do último, mas, de acordo com a demonstração acima, a soma dos números de desintegrações nos pequenos intervalos At - que é o número de desintegrações no intervalo T - será distribuída de acordo com a fp de Poisson. 2.3 A função densidade de probabilidade Nor mal ou Gaussiana. Os dados obtidos em muitos experimentos seguem a fdp gaussiana, 38 CAPÍTULO 2. AS FUNÇÕES DE PROBABILIDADE MAIS COMUNS. o parâmetro xq é a média, fOO xo= I xN{x;xojao)dx J-oo que aqui coincide com a moda e a mediana. O parâmetro al corresponde à variância, uma medida da largura quadrática média da fdp, Tq = f (x - xqYN {x; Xo, ao)dx J —oo Adiante daremos a razão desta fdp ser muito comum. Entretanto, o fato de ser possível determinar as fdps das estatísticas associadas à média e à variância para dados gaussianos ajudou a difundir sua utilização. Â frase jocosa a re speito da aparente imiversalidade da gaussiana foi elaborada ainda no século XVlII pelo astrônomo Lippman [Benzécri]: ”. .. lei em que todos creem. Os experimentais pensam que é um teorema matemático e os matemáticos que é um fato experimental” Veremos no curso que nem a gaussiana é tão universal nem podemos dispen sar um pouco de reflexão antes de utilizá-la, mas mostraremos que há alguns teoremas que justiflcam sua utilização em muitos casos. 2.4 Função Característica. No estudo teórico das fdps, as suas transformadas de Fourier desempenham um papel importante. Chama-se função característica da fdp /(x ) à transformada de Fourier F(t), F{t) = í exp{ixt)f{x)dx (2.10) J—oo A fdp pode ser recuperada calculando a anti-transformada de Fourier, /(* ) = A função característica da gaussiana é ixo t---- 1 - > (2.11) (2.12) Q2.4 Mostre que a função característica da gaussiana é aquela dada na ex pressão (2.12) acima. 2.5. A FDP DA MEDIA DE DADOS GAUSSIANOS 39 2.5 A função densidade de probabilidade da média de dados gaussianos. A fdp da média de um conjunto de dados i = onde a fdp dos dados é a N{xi;xojCro), pode ser calculada de várias maneiras. Aqtii, escolhemos o método baseado na função característica pela sua simplicidade. Primeiro, construímos a fdp da medida, h(xi,a;2, •. • que é simples mente o produto das fdps para cada dado, uma vez que supomos os dados independentes, ou seja. h{xij. . . , xat) = ( í (»1 - (gN -go)M1 2 al 2 a l J A fdp da média x, com (2.13) x^ -h X2 -h ' ” -h N corresponde à integral de h, em todas as suas N dimensões mas sujeita ao vínculo acima, que resulta numa integral em N — 1 dimensões pela imposição do vínculo. Referindo-nos à variável x como z, para facilitar a notação, e escrevendo C para a constante multiplicativa que aparece em /i, obtemos 2(7? X i -h X2 -h • ’ • -i- X j / N d x i. . . dxjif Todos os limites de integração são — oo, -foo e utilizamos a, função 6 para impor a restrição z = = x. Ao invés de efetuarmos a integral, calculamos a função característica de ^(z), que definimos em (2 .10) como (j(t) = J exp{izt)g{z)dz G{i) r f / r i m í r i r n f (® ]= ------ 2^ 1 - “ P I -------2 ^ |— 1 • • exp por causa da integral em dz da função 6. Esta expressão pode ser fatorada como 0 (1) = o / « p { - ! a ^ } « p ( !S £ ) 40 CAPÍTULO 2. AS FUNÇÕES DE PROBABILIDADE MAIS COMUNS. A única diferença entre cada uma das integrais acima e aquela utilizada na dedução da fórmula (2 .12 ) é a troca de i por t/N . Assim, adaptando a função da fórmula (2 .12 ), calculamos a função característica da média como G ( í ) = [ e x p { ^ - | ^ } ] = « c p { » * o í - ^ } que pode ser reconhecida, novamente através da fórmula (2 .12 ), como a função característica de uma gaussiana de média Xo mas com desvio-padrão (TqI N , ou seja, y/N __ f N [x - xoY ]g{x) = - exp (2.14) onde 0*0 é o desvio-padrão dos dados. Não deixe de perceber o alcance do resultado acima, que vai além de demon strar que o desvio-padrão da média, <7^ , é <Tm = Se os dados são gaussianos, a fdp da estatística x, com a qual normalmente estimamos o valor verdadeiro, é a gaussiana. Ê este resultado que nos leva a atribuir probabilidades aos intervalos de confiança de largura 2<7m,4<7m, • • •, construídos em tomo da média iguais às probabilid^es de obter-se dados nos intervalos de larguras 2<r, 4(7, e etc. Fica claro que essa coincidência depende da fdp dos dados, obrigatoriamente a gaussiana. 2.6 Tranformação de variável edeatória. Suponha que conhecemos a fdp da variável aleatória x, /(x ), e desejamos calcular a fdp da variável aleatória v(x), g{v). Para fixar idéias, chamemos de X o raio de um disco e suponhamos que f{x ) seja gaussiana, Procuremos calcular a fdp da área v = irx^. Se v (x) é uma função crescente de X, ao intervalo [xi,X2] corresponde um intervalo [v(xi),v(x2)) = [ 1^ ,^2]- Assim, a probabilidade de obter um dado no intervalo [xi,X2] é a mesma de obter um dado no intervalo [vi,V2], ou seja í ^f{x)dx = r g{v)dv Jxi Jvi Passando ao limite em que X2 —► Xi, obtemos |/(ii)dx| = Trocando x i por x' e chamando de v* o ponto correspondente v(x'), podemos resumir o resultado como = i'i r = "(*') 2.6. TRANFORMAÇAO DE VARIAVEL ALEATÓRIA. 41 Normalmente não há necessidade de utilizar uma notação tão detalhada e costumamos escrever simplesmente (2.15) A derivada deve ser tomada em módulo para garantir que g seja definida posi tiva quando escolhermos uma transformação u(x) decrescente com x crescente. No exemplo do disco, onde a variável aleatória x é definida positiva tornando a relação v(x) = x ^monótona, temos g{v) = 1 2\/2v7rí7o e x p < - - y/vol^Kf 2 al onde definimos Vo = xxj. 42 CAPÍTULO 2. AS FUNÇÕES DE PROBABILIDADE MAIS COMUNS. Note que g é uma função de forma muito diferente da gaussiana. Entretanto, se V = Vo, é possível aproximar g pela gaussiana ^(v;vo,o-v) = N {v ;rx l,2 irx^o) na notação da fórmula (2.9). (2.16) Q2.5 Demonstre
Compartilhar