Buscar

Apostila_2_2018 2

Prévia do material em texto

Universidade Federal de Pernambuco
Departamento de F́ısica – CCEN
F́ısica Experimental 1
Apostila 2: Incerteza e estat́ıstica
Resumo
Damos continuidade à familiarização com o conceito de erro experimental. Discutimos os
tipos de erro que podem influenciar um experimento, em especial erros sistemáticos e aleatórios.
Introduzimos gráficos tipo histograma como forma de analisar distribuições associadas a medidas
repetitivas. Fazemos a conexão entre incerteza e distribuições estat́ısticas gaussianas.
Sumário
1 Acurácia e precisão 2
2 Tipos de erros experimentais 3
3 Análise estat́ıstica de um conjunto de medidas 5
3.1 Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.2 Desvio padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.3 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4 Distribuição Gaussiana 10
5 Associando parâmetros da gaussiana a grandezas f́ısicas 13
5.1 Valor mais confiável e incerteza estat́ıstica de uma grandeza . . . . . . . . . . . . . . 13
5.2 Incerteza nos parâmetros de um histograma . . . . . . . . . . . . . . . . . . . . . . . 15
6 Análise estat́ıstica na presença de diversas fontes de erro 16
7 Dicas para confecção de gráficos e histogramas 17
F́ısica Experimental 1
1 Acurácia e precisão
A f́ısica clássica pressupõe a existência de um valor verdadeiro para toda grandeza f́ısica, inde-
pendente de observação. A medida é uma forma de extrair essa informação dispońıvel no objeto.
O objetivo da medida é ser o mais fiel posśıvel na determinação desse valor. No entanto, di-
versas fontes de incerteza inexoravelmente afetam o resultado de medida. Fazemos aqui um estudo
sistemático das formas como isso pode ocorrer.
A figura 1 ilustra o que se busca obter com uma medida. Imagine, seguindo a figura, um alvo
simbolizando o valor verdadeiro da grandeza que se quer determinar, e medidas, representadas pelos
ćırculos vermelhos da figura, como dardos a mirar o centro do alvo.
Figura 1: Ilustração de diversos cenários de medidas com incerteza. (A) Baixas precisão e acurácia.
(B) Baixa precisão e alta acurácia. (C) Alta precisão e baixa acurácia. (D) Altas precisão e acurácia.
É posśıvel descrever cada conjunto de medidas dos quadros acima segundo dois critérios.
• A precisão da medida diz respeito à dispersão do conjunto. Alta precisão significa que medidas
independentes fornecem valores similares se repetidas várias vezes.
• A acurácia se refere ao quanto as medidas, tomadas como conjunto ou não, se aproximam do
valor verdadeiro da grandeza.
Quatro cenários diferentes podem emergir nesse caso, ilustrados na Fig. 1.
Em (A), o conjunto de medidas fornece valores bem diferentes (baixa precisão) e, quando consi-
derada sua média (ćırculo destacado), obtemos como resultado algo que ainda se desvia substanci-
almente do valor verdadeiro (baixa acurácia). No outro extremo, o cenário (D) mostra uma série de
medidas que concordam bem entre si (alta precisão) e com o valor verdadeiro (alta acurácia).
Dois outros cenários podem ocorrer ainda. Em (C), as medidas concordam bem entre si (alta
precisão), mas divergem consideravelmente do valor verdadeiro (baixa acurácia). Em (B), o oposto
2
Apostila 2: Incerteza e estat́ıstica
ocorre, i.e. medidas com dispersão maior (baixa precisão), porém em média bem próximas do valor
verdadeiro buscado (alta acurácia).
A precisão de uma medida é, portanto, algo relativamente simples de ser verificado, bastando
repetir a medida várias vezes. A acurácia, pelo contrário, não é simples de se determinar, pois o
valor verdadeiro da grandeza é em geral desconhecido. A forma mais comum de se determinar a
acurácia de um instrumento ou procedimento é utilizá-lo para medir algo conhecido de antemão,
numa espécie de calibração.
2 Tipos de erros experimentais
Diversas fontes de erro influenciam a incerteza de medida. Na Apostila 1, focamos na incerteza
instrumental. E embora várias dessas fontes possam ser previstas de antemão por bons experimen-
tadores, a quantificação de sua influência no resultado de medida só pode ser determinada pelo
experimento em si.
Erros experimentais podem ser classificados em três categorias gerais: grosseiros, sistemáticos
e aleatórios.
Erros grosseiros são decorrentes de falhas humanas, como leitura errada de um instrumento de
medida, erros de cálculo, utilização de equipamento desligado e até mesmo total falta de noção sobre
o experimento.
Esse tipo de erro vem muitas vezes acompanhado de vergonha e embaraço por parte do experimen-
tador, sendo por isso facilmente reconhećıvel! É aceitável que ocorra no ińıcio do experimento, mas
se ocorrer também em outras etapas pode representar um péssimo sinal acerca de sua compreensão
das coisas. Os erros grosseiros podem ser corrigidos repetindo-se o experimento com modificações
adequadas
Erros sistemáticos são os mais freqüentes e requerem um estudo cuidadoso das condições ex-
perimentais, para que possam ser caracterizados e corrigidos.
Eles têm esse nome porque estão sistematicamente associados a um determinado instrumento ou
técnica de medida, ou seja, ficam embutidos no próprio procedimento de medida, de forma que não
podem ser reconhecidos pela simples repetição do experimento.
Erros sistemáticos causam inacurácia, erodindo a confiança nos resultados de medida. Por isso,
erros sistemáticos podem afetar de forma grave as conclusões do experimento. Alguns erros sis-
temáticos são muito comuns, sendo praxe adotarem-se alguns procedimentos anteriores ao ińıcio do
experimento para evitá-los.
Por exemplo, um erro na calibração da marcação do zero do instrumento levará a erro sistemático,
algo comum de se ocorrer no uso do micrômetro: nesse caso, todas as medidas subestimarão ou
superestimarão por um mesmo valor constante as grandezas medidas. Para evitá-lo, basta checar o
3
F́ısica Experimental 1
aparato antes da medida, recalibrando a marcação do zero do instrumento.
Outro erro sistemático comum ocorre pela má calibração da escala do instrumento de medida,
tal como um termômetro que indicasse as temperaturas 0oC na transição de fases sólida-ĺıquida
para água, e 110oC na transição ĺıquida-gasosa (supondo CNTP). Se utilizado para medir outras
temperaturas, esse termômetro apresentaria valores que variariam sistematicamente de uma forma
linear com a temperatura em Celsius (em primeira aproximação). A única maneira de eliminar esse
erro é recalibrar o instrumento.
Os erros sistemáticos ocorrem frequentemente em experimentos. Não há um prinćıpio geral de
como evitá-los. Somente a verificação criteriosa do procedimento e interpretação cuidadosa dos
resultados podem apontá-los. A boa not́ıcia é que, por não variarem no tempo, podem muitas vezes
ser removidos se bem caracterizados, mesmo a posteriori.
Erros aleatórios são produzidos por variações impreviśıveis na situação experimental, regidas
pelo acaso. Essas podem ser causadas pelo próprio experimentador, e.g. ao introduzir erro variável na
leitura ou manipulação do instrumento de medida, ou por causas externas, como vibrações mecânicas,
variações da tensão da rede elétrica etc.
Contrariamente ao que ocorre com os erros sistemáticos, os erros aleatórios não são reprodut́ıveis,
apresentando por definição igual probabilidade de aumentar ou reduzir o valor da grandeza f́ısica
medida1. Erros aleatórios tendem a modificar a dispersão das medidas como conjunto e, com isso,
afetar a precisão da medida.
Se perfeitamente aleatórios, observa-se que esses erros se distribuem segundo uma função univer-
sal, a distribuição gaussiana, tornando-se desse modo posśıvel o uso de métodos estat́ısticos para
tratá-los e minimizarsua influência sobre os resultados de medida.
Um exemplo simples de erro aleatório pode decorrer do tempo humano de reflexo. Considere
um experimentador que busque medir o peŕıodo de oscilação de um pêndulo simples observando seu
movimento periódico. O experimentador aciona o cronômetro a cada vez que o pêndulo atinge um
determinado ponto da oscilação. Se o movimento do pêndulo for muito rápido (quanto comparado
ao tempo t́ıpico de reação do ser humano), o experimentador irá ora subestimar, ora superestimar,
o instante de acionamento do cronômetro, introduzindo fonte de erro aleatório na medida.
Erros aleatórios não alteram de forma sistemática o valor médio do conjunto de medidas. Com
isso, obtemos uma forma estat́ıstica de reduzir seus efeitos tanto quanto queiramos : observando
propriedades de um conjunto de medidas e associando-as às grandezas de interesse.
1Caso não seja assim, e o erro possua portanto viés num sentido, ele também possui componente sistemática.
4
Apostila 2: Incerteza e estat́ıstica
3 Análise estat́ıstica de um conjunto de medidas
A análise estat́ıstica de dados se torna interessante quando o valor medido sofre erro
aleatório. Nesse caso, uma única medida passa a ter um grau de confiança claramente menor que
apenas instrumental. Imagine você tentando medir o comprimento de uma mesa com uma trena ao
mesmo tempo em que alguém a chacoalha! Como aumentar o grau de confiança dessa medida?
A resposta é buscar diminuir a influência de fontes de erros aleatórios pela repetição de medidas.
Em vez de confiarmos no resultado de uma única medida, passamos a pensar diferente e a querer
entender se existe algum comportamento geral em um conjunto de medidas.
Portanto, em vez de buscar medir o valor mais confiável diretamente, vamos tentar levantar a
distribuição estat́ıstica a que medidas repetitivas obedecem. Se a fonte de incerteza for verdadeira-
mente aleatória, esses valores seguem uma distribuição de probabilidade universal: a distribuição
gaussiana.
Nesse caso, a missão do(a) experimentador(a) passa a ser determinar com maior precisão posśıvel
essa distribuição. Claro que nunca conseguiremos determiná-la perfeitamente: essa distribuição
cont́ınua só existe como um limite para um número infinito de medidas. Mas podemos chegar tão
próximos da distribuição verdadeira quanto necessário, aumentando o número de medidas.
O passo final e crucial é associar quantidades dessa função aos objetos que queremos determinar:
valor mais confiável e incerteza. O valor mais confiável da grandeza passa a ser fornecido por alguma
propriedade da distribuição estat́ıstica, tal como a média do conjunto ou o valor mais provável da
distribuição. Sua incerteza está associada à dispersão do conjunto das medidas, conforme veremos
de forma mais rigorosa a seguir.
O tratamento estat́ıstico traz uma nova forma de interpretar resultados de medida em geral, que
passam a ser entendidos em termos de distribuições de probabilidade.
3.1 Média
Considere um conjunto de valores mk (k = 1, 2, . . . , N) obtidos a partir de N medidas indepen-
dentes. Uma forma de estimar o valor mais confiável M da grandeza é utilizar todas as medidas
realizadas, atribuindo-lhe a média simples das mesmas,
M =
m1 +m2 + · · ·+mN
N
=
1
N
N∑
k=1
mk = 〈m〉, (1)
em que a notação 〈m〉 denota a média das medidas mk. Também é comum utilizar a notação
m = 〈m〉.
Se o número de medidas se torna muito grande (N → ∞), M converge ao valor verdadeiro da
grandeza se apenas erros aleatórios estiverem presentes.
5
F́ısica Experimental 1
3.2 Desvio padrão
A dispersão do conjunto de medidas está relacionada ao desvio δmk de cada ponto com relação
à média, dado por
δmk = mk − 〈m〉. (2)
Definir a dispersão como a média dos desvios não funcionaria, pois 〈δmk〉 = 0 por construção, uma
vez que
〈δm〉 = 1
N
N∑
k=1
(mk − 〈m〉) =
1
N
N∑
k=1
mk − 〈m〉
1
N
N∑
k=1
1 = 〈m〉 − 〈m〉 1
N
·N = 0, (3)
em que tiramos constantes como 〈m〉 de dentro do somatório e usamos tanto a igualdade
∑N
k=1 1 = N
quanto a Eq. (1) para definição da média.
Uma forma de evitar esse problema é tomar os quadrados dos desvios, obtendo apenas números
positivos, e somente após esse passo tomar a média. Com isso, obtemos a variância σ2 do conjunto
como um quantificador da dispersão,
σ2 = 〈δm2〉 = 1
N
N∑
k=1
(mk − 〈m〉)2 . (4)
A fim de comparar esse quantificador com a média, devemos tomar sua raiz quadrada, até mesmo
por motivos de compatibilizar unidades de medida. Definimos assim o desvio quadrático médio
ou desvio padrão σ do conjunto de valores mk.
A variância é, portanto, igual ao quadrado do desvio padrão.
A expressão para a variância pode ainda ser escrita de outra forma. Calculando explicitamente
o quadrado que aparece no segundo membro da Eq. (4), obtemos
σ2 =
1
N
N∑
k=1
(
m2k − 2〈m〉mk + 〈m〉2
)
=
1
N
N∑
k=1
m2k − 2〈m〉
1
N
N∑
k=1
mk + 〈m〉2
1
N
N∑
k=1
1
= 〈m2〉 − 2〈m〉〈m〉+ 〈m〉2, (5)
Obtemos finalmente
σ2 = 〈m2〉 − 〈m〉2. (6)
Essa forma de expressar a variância mostra que ela pode ser calculada como a diferença entre a
média dos quadrados das medidas individuais e o quadrado da média. Para conjuntos com média nula,
como é o caso dos desvios δmk, a variância é simplesmente a média dos quadrados, σ
2 = 〈(δm)2〉,
conforme dado pela Eq. (4).
6
Apostila 2: Incerteza e estat́ıstica
Para conjuntos de medidas compostos por alguns poucos valores, portanto muito distantes da
idealização estat́ıstica do limite N → ∞, é conveniente estimar a dispersão pelo desvio padrão
amostral σA, definido através da variância amostral σ
2
A como
σ2A =
1
N − 1
N∑
k=1
(mk − 〈m〉)2 . (7)
A única diferença com relação ao desvio padrão ‘normal’ é a subtração de 1 no denominador, de
forma a quantificar mais adequadamente a dispersão de amostras pequenas. Ambas as expressões
fornecem o mesmo resultado para um conjunto com grande número de amostras (N →∞).
Daqui em diante nos referiremos a σA e σ de forma indistinta como provendo a dispersão do
conjunto de medidas, ficando a seu critério utilizar a definição mais apropriada à sua situação expe-
rimental.
3.3 Histograma
O gráfico em histograma é uma forma de representar a frequência de medidas com valores simi-
lares a fim de extrair significado estat́ıstico do conjunto. O histograma é uma ferramenta de
visualização. Seu objetivo é desvendar o perfil da distribuição aleatória de valores medidos.
Nesse tipo de gráfico, representamos no eixo x intervalos compat́ıveis com valores do conjunto
de medidas, e no eixo y a frequência com que aparecem. O procedimento para a confecção de um
histograma segue os seguintes passos:
• Escolhemos um intervalo do eixo x capaz de conter todos os valores medidos e o dividimos em
n intervalos menores de igual tamanho, chamados “caixas” (“células”).
• O número n é tipicamente escolhido como ‘algumas vezes menor’ que o número N de medidas
no conjunto. A ideia é que cada caixa contenha um número apreciável de medidas, evitando a
ocorrência de caixas vazias no meio do intervalo.
• Organizamos o conjunto de dados contabilizando quantos eventos do conjunto se enquadram
em cada caixa. Esse número f é a chamada frequência absoluta de ocorrência associada a
cada intervalo, denotada no eixo y do histograma.
Assim, o histograma é um gráfico composto por retângulos justapostos em que a base de cada
um corresponde à caixa e a altura, à frequência (Fig. 2). O histograma é um importante indicador
da distribuição de dados.
Tomemos um exemplo. Consideremos uma classe com N = 21 estudantes da qual se queira
inferir algo sobre o ńıvel de entendimento da turma sobre a matéria dada, e que uma prova com nota
máxima igual a 3 seja aplicada para ‘medir’ isso.
7
F́ısica Experimental 1
Suponhamos que muitas variáveis fora de nosso controle afetem o desempenhodessa turma to-
talmente hipotética, e que portanto o medidor de compreensão da classe possua grande dispersão.
Ao final da prova, o conjunto de notas da Tab. 1 é obtido.
2,65 2,55 1,70 1,70 1,75 1,45 0,45 2,30 1,08 1,39 2,30
1,70 1,38 2,13 1,73 1,23 2,00 2,13 1,53 1,40 1,70
Tabela 1: Conjunto de notas dos 21 estudantes da turma.
Podemos esperar uma distribuição de notas com vários estudantes concentrados em torno de
uma nota t́ıpica e alguns poucos sobressaindo-se (tanto no sentido negativo quanto positivo). Para
representar essa distribuição em forma de histograma, buscamos discretizar intervalos com o obje-
tivo de tornar bem evidente o formato global da distribuição. Isso certamente não será verdade se
escolhermos caixas muito pequenas, caso em que haverá apenas uma nota por caixa; o mesmo vale
para caixas muito grandes, pois então todos os estudantes pertencerão à mesma caixa.
Intervalo Valor mediano xj Frequência absoluta fj Probabilidade pj = fj/N
[0,05; 0,45[ 0,25 0 0,00
[0,45; 0,85[ 0,65 1 0,05
[0,85; 1,25[ 1,05 2 0,10
[1,25; 1,65[ 1,45 5 0,24
[1,65; 2,05[ 1,85 7 0,33
[2,05; 2,45[ 2,25 4 0,19
[2,45; 2,85[ 2,65 2 0,10
[2,85; 3,25[ 3,05 0 0,00
Tabela 2: Notas da tabela 1 organizadas para construção do histograma da figura 2.
Para encontrar o melhor tamanho de caixa, consideremos primeiramente tanto a maior quanto a
menor nota do conjunto, e escolhamos valores nessas proximidades. Por exemplo, tomemos xmin =
0,05 e xmax = 3,25 como intervalo total de existência do histograma.
O passo mais delicado consiste na escolha do tamanho de cada caixa ou, equivalentemente, do
número n de caixas. Tomemos como base o número total de dados N = 21, que nos fornece
grosseiramente um limite superior para o número de caixas, para escolher o número médio de entradas
por caixa em torno da unidade. Escolhendo o número de caixas como n = 8, de forma a termos algo
como 2 entradas por caixa em média. Nesse caso, o intervalo ∆x ocupado por cada caixa deve ser
∆x = (xmax − xmin)/n = 0,4.
8
Apostila 2: Incerteza e estat́ıstica
É interessante escolher ∆x como um número de fácil memorização, para facilitar a
compreensão visual do histograma
A tabela 2 mostra em sua primeira coluna os intervalos resultantes dessas escolhas. O primeiro
intervalo, por exemplo, é [0,05; 0,45[, em que a notação indica ser o intervalo fechado à esquerda e
aberto à direita (i.e. medida com valor no extremo inferior é contada dentro do intervalo, enquanto
no valor extremo superior, não).
A contagem do número de entradas da tabela 1 dentro de cada intervalo nos fornece as frequências
absolutas fj (j = 1, 2, . . . , n) denotadas na Tab. 2. O histograma resultante é mostrado na figura 2.
Vemos que o intervalo de notas com maior frequência, entre 1,65 e 2,05, contém 7 estudantes. Além
disso, apenas 2 estudantes obtiveram nota entre 2,45 e 2,85, e nenhum obteve nota superior a 2,85.
A representação gráfica em histograma nos permite visualizar propriedades estat́ısticas
gerais do conjunto de medidas, como média e dispersão, e também analisar seu perfil,
se compat́ıvel ou não com uma distribuição gaussiana.
Figura 2: Histograma de notas constrúıdo a partir do conjunto da tabela 1.
Podemos utilizar os valores do histograma também para facilitar cálculos de média e variância
de forma ponderada. Definimos para isso a fração de medidas que recai em cada intervalo, i.e. a
frequência relativa ou probabilidade pj = fj/N . Note que 0 ≤ pj ≤ 1.
Os valores pj do exemplo acima aparecem na última coluna da Tab. 2. Note que
∑
j pj = 1 dentro
da precisão permitida pelo número de pontos.
Para representar o valor aproximado de cada intervalo em cálculos estat́ısticos, utilizamos o valor
mediano xj, representado na segunda coluna da tabela. Realizamos por fim os cálculos utilizando pj
como pesos para ponderação.
9
F́ısica Experimental 1
A média ponderada calculada da forma como você deve conhecer,
〈x〉 = f1 · x1 + f2 · x2 + · · ·+ fn · xn
N
=
1
N
n∑
j=1
fj · xj. (8)
também pode ser calculada diretamente pelas probabilidades,
〈x〉 = p1 · x1 + p2 · x2 + · · ·+ pn · xn =
n∑
j=1
pj · xj. (9)
O cálculo da variância σ2 segue a mesma lógica. Utilizando a Eq. (9), porém com x2j no lugar de
xj, uma vez que queremos determinar 〈x2〉, obtemos
〈x2〉 = 1
N
n∑
j=1
fj · x2j =
n∑
j=1
fj
N
· x2j =
n∑
j=1
pj · x2j . (10)
O desvio padrão, dado pela Eq. (6), é calculado como σ =
√
〈x2〉 − 〈x〉2.
Para a média de qualquer função f(x), as expressões acima se generalizam como
〈f(x)〉 = p1 · f(x1) + p2 · f(x2) + · · ·+ pn · f(xn) =
n∑
j=1
pj · f(xj). (11)
Para o cálculo de 〈x〉, tomamos f(x) = x; para o cálculo de σ2, f(x) = (x−〈x〉)2, e assim por diante.
Para o exemplo da tabela 2, obtemos 〈x〉 = 1,73 e σ = 0, 53. Esses valores são denotados
graficamente no histograma da Fig. 2. A posição do valor médio no histograma, demarcada pela
linha vertical, fornece seu ‘centro de gravidade’.
A região denotada por setas e delimitada por linhas verticais representa a fração das notas que
distam menos de 1 desvio padrão da média, i.e. notas xj tais que 〈x〉 − σ < xj < 〈x〉 + σ. Aproxi-
madamente 70% dos estudantes da turma se encontram nessa região. Vejamos o porquê.
4 Distribuição Gaussiana
A tática de repetir medidas para diminuir a influência de erros aleatórios pode ser levada ao
extremo. Consideramos agora o que ocorreria se o número de medidas aumentasse enormemente,
tendendo ao limite matemático do infinito.
Nesse limite, o tamanho da caixa do histograma pode tender a zero sem o risco de ficar vazia,
tornando-se cont́ınua a distribuição de frequências. A função assim obtida recebe o nome de den-
sidade de probabilidade, e fornece a fração de medidas dentro de um intervalo infinitesimal de
valores.
10
Apostila 2: Incerteza e estat́ıstica
O objetivo de tomar um conjunto de medidas é obter uma boa aproximação discreta (histograma)
dessa função cont́ınua, para dela extrair informação sobre as grandezas f́ısicas de interesse. Feliz-
mente, essa função não possui um formato qualquer; se assim fosse, a possibilidade de determiná-la
com um número finito de medidas seria bem baixa.
Um importante teorema matemático, chamado ‘teorema central do limite’, nos garante que, para
processos totalmente aleatórios e independentes, a função densidade de probabilidade do processo
tenderá sempre a uma distribuição gaussiana para N →∞.
Figura 3: Distribuição gaussiana G(x), com áreas abarcadas por múltiplos de σ realçadas.
Você talvez já tenha visto a função gaussiana aparecer em outros contextos da f́ısica ou da
matemática. No contexto de uma distribuição de probabilidade, sua expressão é
G(x) =
1√
2πσ2
exp
(
−(x− 〈x〉)
2
2σ2
)
. (12)
Nesse caso, G(x)dx fornece a probabilidade de se obter como resultado de uma medida um valor
entre x e x+ dx.
O nome ‘densidade de probabilidade’ advém do fato de que essa função precisa ser multiplicada
por dx para fornecer uma probabilidade leǵıtima. Assim, a probabilidade infinitesimal dP (x) de se
obter um valor entre x e x+ dx se escreve como dP (x) = G(x)dx. Para intervalos não infinitesimais,
a probabilidade P (x1, x2) de se obter um valor entre x1 e x2 se calcula somando os dP (x) a partir
da integral,
P (x1, x2) =
∫ x2
x1
dP (x) =
∫ x2
x1
G(x) dx, (13)
expressão que na maioria das vezes só pode ser resolvida numericamente.
Em especial, como todas as medidas são obrigadas a fornecer valores no intervalo de −∞ a ∞, a
distribuição de probabilidade obedece à condição∫ ∞
−∞
G(x)dx = 1. (14)
11
F́ısica Experimental 1
A normalização escolhida na Eq. (12) garante a validade dessa expressão (verifique!).
Além da normalização correta, a forma da Eq. (12) contém também a média e a variância da
distribuição denotadas explicitamente.
Para ver isso, generalizamos primeiro o cálculo de médias, dado pelaEq. (11), para distribuições
cont́ınuas. No lugar dos pesos pj do caso discreto, utilizamos agora as probabilidades dP (x) como
peso para cada valor x posśıvel de medida. Por exemplo, a média de f(x) ponderada pelo ‘peso’
dP (x) fica
〈f(x)〉 =
∫ ∞
−∞
f(x) dP (x) =
∫ ∞
−∞
f(x)G(x) dx. (15)
Com isso, podemos mostrar usando a Eq. (12) as relações
〈x〉 =
∫ ∞
−∞
xG(x) dx, (16)
σ2 =
∫ ∞
−∞
(x− 〈x〉)2G(x) dx. (17)
Os parâmetros 〈x〉 e σ são, na verdade, os únicos necessários para determinar a distribuição gaussiana.
Momentos de mais alta ordem (e.g. 〈x4〉), são funções destes (demonstre!).
O desvio padrão σ da gaussiana determina a região no entorno da média na qual ≈ 68% da
área da gaussiana se encontra. Isso significa que a probabilidade de uma medida fornecer valor no
intervalo de 1σ em torno da média é ≈ 68%. De forma matemática, isso se expressa como
P (〈x〉 − σ, 〈x〉+ σ) =
∫ 〈x〉+σ
〈x〉−σ
G(x)dx ≈ 0,68. (18)
Para o intervalo de 2σ em torno da média, a probabilidade aumenta para 95%. Já para 3σ,
a chance de estar no interior da região é de 99,7%. Assim, para conjuntos pequenos (N ≤ 100)
espera-se a totalidade das medidas dentro de 3σ.
Essa nomenclatura em termos de ‘distâncias σ’ é muito utilizada no contexto de f́ısica experimental
de part́ıculas e altas energias. A descoberta de uma nova part́ıcula num acelerador de part́ıculas
só ocorre por definição se a incerteza estat́ıstica no resultado ultrapassar a marca de 5σ, i.e. a
probabilidade de ser um evento real deve ser maior do que 99,99994% (ou 0,00006% de chance de ser
um evento ao acaso).
Outro contexto em que ela é utilizada é no controle de qualidade de componentes industriais. Por
exemplo, chips eletrônicos vitais para a segurança de um automóvel precisam ser confiáveis dentro de
6σ, i.e. funcionar perfeitamente em mais do que 99,9999998% das vezes; assim, a tolerância máxima
de falha é de 1 em 500 milhões de componentes.
A função gaussiana é portanto bem localizada em torno de seu valor médio. O motivo disso é seu
decréscimo de forma exponencial a partir desse valor. Outra caracteŕıstica importante da gaussiana
é o fato de que seu valor médio coincide com seu valor mais provável, i.e. o máximo de G(x) ocorre
no ponto xmax = 〈x〉 (demonstre!).
12
Apostila 2: Incerteza e estat́ıstica
5 Associando parâmetros da gaussiana a grandezas f́ısicas
Vimos que na presença de erros aleatórios, a tática do bom experimentador muda: em vez de
acreditar que cada medida lhe forneça o valor mais confiável da grandeza de interesse, ele passa a
buscar determinar a forma da curva que lhe dá a probabilidade de obter certo valor de medida.
Nessa forma de pensar, um histograma é apenas uma aproximação da distribuição gaussiana
subjacente ao processo aleatório. A expectativa tácita é: repetindo-se a mesma medida de forma
independente e por um número suficiente de vezes, pode-se sempre determinar essa gaussiana com
precisão arbitrária.
Determinar a gaussiana significa obter seus parâmetros (média e desvio padrão) a partir do
conjunto de valores medidos. Vamos agora atribuir interpretação f́ısica a esses parâmetros para
relacioná-los à grandeza f́ısica de interesse e sua incerteza.
5.1 Valor mais confiável e incerteza estat́ıstica de uma grandeza
Lembremos: o valor mais confiável de uma grandeza é aquele com maior probabilidade de ser igual
ao valor verdadeiro. Existem várias formas de se estimar o valor mais confiável a partir de medidas
apresentando erro aleatório. Vejamos duas formas mais comuns.
Utilização do conjunto completo de dados
Se a ideia é utilizar toda a informação do conjunto de dados, podemos interpretar suas propriedades
estat́ısticas, em especial a média e o desvio padrão, como estimadores da gaussiana ideal subjacente
ao processo aleatório, e dela estimar a grandeza de interesse e sua incerteza.
Por serem propriedades do conjunto, e não de medidas individuais, essas quantidades devem
atingir maior grau de precisão. Dáı a vantagem em utilizar a análise estat́ıstica.
Para distribuições gaussianas, existe a simplificação de que o valor mais provável da distribuição
é igual a seu valor médio. Por isso, podemos diretamente adotar a média dos valores medidos
como o valor mais confiável da grandeza de interesse. Nesse caso, a incerteza da grandeza
será igual à incerteza do próprio valor médio. Escrevemos:
x = 〈x〉 ± σ〈x〉, (19)
em que X = 〈x〉 é o valor mais confiável da grandeza x e σ〈x〉, a incerteza da média do conjunto.
Lembremos que a distribuição gaussiana associada a um conjunto de medidas com erros aleatórios
pode ser determinada de forma perfeita no limite ideal de infinitas medidas. Isso significa que a
incerteza em seus parâmetros (média e desvio padrão) deve depender do número N de medidas no
conjunto, e tender a zero para N →∞.
13
F́ısica Experimental 1
Para estimar a incerteza do valor médio 〈x〉, utilizamos o mesmo tipo de racioćınio estat́ıstico.
Consideramos um conjunto de distribuições gaussianas obtidas pela repetição de conjuntos indepen-
dentes de medidas e buscamos determinar a dispersão de seus parâmetros (média e desvio padrão).
A resposta encontrada após cálculos formais é que os próprios parâmetros da gaussiana obedecem
a distribuições gaussianas (consequência do ‘teorema central do limite’). A dispersão t́ıpica σ〈x〉
dessas distribuições depende do número N de medidas de cada conjunto da seguinte forma:
σ〈x〉 =
σ√
N
, (20)
ou seja, a dispersão da média dos valores no conjunto é menor que a dispersão σ esperada
para cada valor por um fator
√
N .
Vemos que a dispersão na média tende a zero no limite N → ∞, conforme esperávamos. Além
disso, ela depende diretamente da dispersão σ do conjunto de valores medidos. Quanto menor a
dispersão da distribuição, proporcionalmente menor a dispersão σ〈x〉 em sua média.
Exemplo 1: Um aluno realizou três medições consecutivas do peŕıodo de um pêndulo (considere
que a incerteza instrumental é despreźıvel em relação às outras fontes de erro) obtendo assim os
valores T1 = 2, 843 s, T2 = 2, 837 s e T3 = 2, 880 s. Se associarmos o valor mais confiável da medida
à média do conjunto, a incerteza estat́ıstica dessa medida será dada pelo desvio da média. Usando
as Eqs. (1) e (6), obtemos 〈T 〉 = 2, 853 s e 〈T 2〉 = 8, 143 s2. Portanto, o desvio da média pode
ser facilmente calculado σ〈T 〉 =
σT√
3
= 0, 01 s. Sendo assim, o valor mais confiável da medida seria
denotado por T = 2, 85± 0, 01 s.
Utilização de uma única medida
Existe outra forma de se estimar o valor mais confiável da grandeza de interesse, utilizando uma
única medida.
Como vimos, a ideia de incerteza de uma medida individual xi é apontar a magnitude do desvio
t́ıpico entre o valor obtido e o valor verdadeiro. Para um conjunto de medidas, esse desvio já é o
próprio desvio padrão σ, pois nos fornece o valor t́ıpico de dispersão de cada medida. Escrevemos
nesse caso:
x = xi ± σ. (21)
em que X = xi é o valor mais confiável obtido a partir de uma única medida e σ, o desvio padrão
do conjunto.
Ainda que utilizemos apenas 1 medida, é sempre necessário levantar a distribuição
estat́ıstica associada ao erro aleatório, para determinarmos σ.
Pode parecer um contra-senso se dar ao trabalho de medir todo um conjunto de medidas para,
ao final, utilizar apenas 1 delas para estimar o valor mais confiável da grandeza. Na verdade, essa
situação pode ocorrer quando queremos estudar a dependência da grandeza com algum parâmetro
controlável que não influencie o erro estat́ıstico.
14
Apostila 2: Incerteza e estat́ıstica
Por exemplo, suponha que uma experimentadora queira estudar a relação entre o peŕıodo de um
pêndulo e seu comprimento. Se o erro estat́ıstico depende simplesmente de seu tempo de reação no
momento de ligar e desligar o cronômetro, é de se esperar que elenão dependa do peŕıodo em si.
A experimentadora separa então o problema em duas partes: na primeira, ela repete várias
medidas de peŕıodo (para um comprimento qualquer do pêndulo) a fim de determinar a dispersão
t́ıpica do conjunto, e com isso o valor de σ. Na segunda parte, ela varia o comprimento do pêndulo
e realiza apenas 1 medida de peŕıodo por valor de comprimento, e lhe atribui incerteza σ. Com isso,
a experimentadora evita a repetição de um grande conjunto de medidas para cada comprimento do
pêndulo, simplificando o processo de medida.
Exemplo 2: No exemplo anterior, associmos o valor mais confiável da medida à média do conjunto
de dados. Considere agora que queiramos escolher apenas um dos três valores de peŕıodo para
representar a medida mais confiável. Deste modo, a incerteza estat́ıstica será dada pelo desvio padrão
do conjunto, isto é, σT = 0, 02 s. Escolhendo T = T2, a medida seria escrita como T = 2, 84± 0, 02 s.
Erro estat́ıstico e desvio padrão
Tomar o desvio padrão como exatamente igual ao erro é, no fundo, mera convenção. Devemos
sempre nos ater ao sentido do que se quer comunicar. Ao se escolher σ como igual ao erro estat́ıstico,
estamos implicitamente sugerindo um processo gaussiano com as propriedades discutidas.
É posśıvel ainda escolher critério diferente para quantificar o erro estat́ıstico, se igual a 2σ, 3σ
etc. Em certas aplicações, pode ser conveniente adotar margem de confiança altamente conservadora,
aumentando a definição de erro para 5σ ou mesmo 6σ. O mais comum na literatura é tomá-la como
1σ ou 3σ.
Devemos lembrar, no entanto, que sempre haverá alguma chance de erro, ainda que infinitesimal.
De fato, argumentos estat́ısticos podem ser invocados para defender que um macaco-prego batendo
teclas ao acaso poderia ser o verdadeiro autor de grandes obras da literatura brasileira como “Dom
Casmurro” ou “Brejal dos Guajas”. Você saberia estimar essas probabilidades? Você verá que são
quase sempre despreźıveis, embora não-nulas. No final, fica a critério do leitor decidir.
5.2 Incerteza nos parâmetros de um histograma
O histograma é constrúıdo com número finito de medidas, e, por isso, esperamos que as próprias
frequências de cada caixa apresentem flutuações aleatórias. Em outras palavras, repetir o conjunto
de medidas deve fornecer novo histograma ligeiramente diferente do primeiro.
Quão diferente? Como vimos acima, flutuações estat́ısticas em quantidades coletivas de um
conjunto de medidas tendem a ser
√
N menores do que flutuações a afetar apenas uma única medida.
Utilizamos esse prinćıpio para estimar a flutuação da frequência de cada caixa.
15
F́ısica Experimental 1
Por exemplo, vimos que para N →∞ esperamos que um número ≈ 0,68N de pontos se encontre
dentro do intervalo 1σ no entorno da média. O número ≈ 68% representa o valor mais provável da
fração de medidas que deve pertencer a esse intervalo caso construamos muitos histogramas a partir
de vários conjuntos independentes de medidas.
Para apenas 1 histograma, podemos esperar um desvio t́ıpico de ≈
√
0,68N desse valor. Ou seja,
para N medidas, teremos tipicamente ≈ 0,68N ±
√
0,68N valores nesse intervalo. Para N = 100,
isso daria 68 medidas tipicamente, sendo facilmente tolerável que algo entre 60 e 76 medidas tenham
na verdade sido áı observadas, pois
√
68 ≈ 8.
Esse racioćınio vale para qualquer intervalo. Portanto, o número de medidas Ni observadas em
uma caixa do histograma deve ser entendido como algo do tipo ≈ Ni±
√
Ni. Por exemplo, se apenas
Ni = 10 medidas são observadas numa caixa, isso significa que esse valor poderia ser facilmente algo
entre 7 e 13 se repet́ıssemos o conjunto de medidas, pois
√
10 ≈ 3.
Note que a incerteza relativa no número de medidas em determinado intervalo decresce com N ,
pois
√
N/N = 1/
√
N . Para N →∞, cada caixa do histograma (quando normalizado), tornada cada
vez mais estreita, deve tender ao valor prescrito pela gaussiana.
6 Análise estat́ıstica na presença de diversas fontes de erro
Na maioria das situações experimentais, fontes aleatórias de erro se combinam ao erro instrumental
para formar a incerteza total da medida. Veremos nessa seção como compor essas duas fontes de
incerteza.
Analisemos primeiramente o que esperar de casos extremos. Quando uma fonte de erro for muito
mais importante em magnitude que a outra, vimos anteriormente que a incerteza total deve provir
essencialmente da primeira, seja ela instrumental ou estat́ıstica.
A diferença principal entre esses tipos de erro é que o erro estat́ıstico pode ser tornado tão
pequeno quanto se queira. O mesmo não vale para o erro instrumental, por conta de seu significado:
o instrumento é incapaz de medir com maior precisão do que sua construção permite. Seu erro é
herdado por toda medida tomada com ele.
Tomemos um exemplo. Queremos medir a espessura de uma placa usando uma régua milimetrada,
com incerteza instrumental σinstr = 0,5 mm. A medida é tomada por N = 5 vezes em pontos
diferentes, e a cada vez encontra-se o mesmo valor L = 12,7 ± 0, 5 mm. Podemos dizer que a
incerteza na média do conjunto é σ = σinstr/
√
N = 0,5/
√
5?
Não! Essa regra só vale para incertezas de origem estat́ıstica! Como podemos ver, o
conjunto de medidas possui desvio padrão nulo, ou seja, incerteza de origem estat́ıstica igual a zero.
Como o erro aleatório de medida não está presente, não é posśıvel diminuir a incerteza experimen-
tal por repetição da medida. Cada medida possui incerteza dada apenas pela precisão do instrumento,
16
Apostila 2: Incerteza e estat́ıstica
assim como o conjunto como um todo.
A forma correta de interpretar o conjunto de medidas acima é notar que o erro instrumental é
tão grande que não permite verificar a existência de qualquer fonte de erro estat́ıstico σest. Se ela
existir, seu desvio padrão deve ser muito menor que a precisão instrumental, e por isso aparece como
nulo a esse instrumento grosseiro.
A incerteza total da medida deve ser nesse caso igual à instrumental, sendo o erro estat́ıstico
desprovido de contribuição para a incerteza total: a espessura da placa parece perfeitamente uniforme
(dentro da precisão do instrumento!) se medida com uma régua.
Utilizemos agora um paqúımetro na medida, com incerteza instrumental σinstr = 0,05 mm. Nesse
caso, variações entre medidas diferentes passam a ser observadas. Após 5 medidas, chega-se a um
conjunto com média L = 12,75 mm e desvio padrão σ = 0,16 mm. A incerteza na média estat́ıstica
é nesse caso σL = σ/
√
5 = 0,07 mm.
Devemos então incluir a incerteza instrumental a essa fonte aleatória de incerteza, pois afeta
todos os dados. Podemos usar a regra de propagação de incertezas independentes para escrever um
único erro total σtot no valor mais confiável, composto pelos erros intrumental σinst e estat́ıstico σest
pela regra já conhecida
σtot =
√
σ2inst + σ
2
est, (22)
com o que obtemos L = 12,75± 0,09 mm.
A Eq. (22) implica que o erro total não pode ser menor do que o erro instrumental, uma vez que
apenas a parte aleatória do erro pode ser anulada pela repetição de medidas.
7 Dicas para confecção de gráficos e histogramas
O objetivo do gráfico é transmitir informação de forma simples e direta, também para outras
pessoas, auxiliando a análise do conjunto de dados. Seguem abaixo algumas regras básicas para
aumentar a clareza de gráficos experimentais.
• Em um espaço livre, na parte superior da folha, escreva o t́ıtulo do gráfico.
• Escreva o nome ou letra a denotar a grandeza em cada eixo. Coloque entre parênteses a
unidade correspondente.
• Deve-se tentar distribuir bem os pontos experimentais dentro do espaço dispońıvel para
o gráfico, mediante escolha de uma escala adequada. Evite amontoar todos os pontos num
espaço pequeno de dif́ıcil leitura.
• A escala deve ser simples e de fácil leitura. Procure adotar múltiplosde números inteiros
que sejam bons divisores. Exemplos de escalas desejáveis são 0,1; 0,2; 0,5; 1; 2; 5; 10 ; 20 ; 50
etc. Evite a utilização de números primos como 3, 7, 11 etc.
17
F́ısica Experimental 1
• Ao trabalhar com números muito grandes ou pequenos, use notação cient́ıfica. Denote
potências de 10 juntamente com as unidades entre parênteses.
• O intervalo dos eixos pode ser escolhido também por razões teóricas. Por exemplo, se os
dados experimentais precisam ser comparados com um modelo que prevê um valor de grande
importância (por exemplo, o ponto triplo da água), o gráfico deve apresentar esse ponto mesmo
que os dados experimentais não cubram essa região.
• Os pontos experimentais devem ser marcados no gráfico usando śımbolos de fácil visua-
lização. Nada de coraçõezinhos ou smileys.
• Após a colocação dos pontos no gráfico, não escreva nos eixos os valores relativos a cada
ponto. Isso afeta a clareza do gráfico ao tumultuar sua leitura.
• Para ajustar visualmente uma curva aos pontos experimentais, tente fazê-la de forma suave e
cont́ınua. A curva de ajuste não precisa tocar nenhum ponto experimental espećıfico, bastando
ajustar bem o conjunto inteiro.
• Não una pontos do gráfico por linhas sem significado! Cada detalhe do que se apresenta
num gráfico deve possuir significado claro ao leitor.
• Geralmente, uma folha de papel milimetrado tem tamanho de 280 mm por 180 mm, sendo que
podemos usá-la na posição ‘retrato’ ou ‘paisagem’. A escolha deve ter como objetivo otimizar
a visualização do gráfico.
• Para quaisquer dúvidas que possam surgir na apresentação do gráfico, lembre-se do objetivo
do gráfico: servir como śıntese visual dos resultados experimentais.
Este roteiro foi inicialmente elaborado por Erivaldo Montarroyos, sucessivamente reformulado
por Wilson Barros e Alessandro Villar e continuamente aprimorado pelos docentes responsáveis pela
disciplina em cada semestre.
Questões sobre o material didático devem ser endereçadas no momento à coordenação da disci-
plina, no e-mail fisicaexp1ufpe@gmail.com.
18

Continue navegando