Baixe o app para aproveitar ainda mais
Prévia do material em texto
Trabalho de distribuição normal Em 1733, Abraham De Moivre desenvolveu a equação matemática da curva normal. Ele forneceu uma base a partir da qual grande parte da teoria de estatísticas indutivas é fundamentada. A distribuição normal é muitas vezes referida como a distribuição de Gauss, em homenagem a Karl Friedrich Gauss que também derivou sua equação. A distribuição normal é denominada normal reduzida de média zero e variância. As probabilidades associadas à distribuição normal reduzida são facilmente obtidas em tabelas. Daí o interesse em estudar esse tipo de probabilidade. A mais importante distribuição de probabilidade contínua em todo o domínio da estatística é a distribuição normal. A equação matemática para a distribuição de probabilidade da variável normal depende de dois parâmetros, μ e σ, a sua média e desvio padrão, respectivamente. Para entender o que é distribuição normal, é necessário, primeiramente, definir evento aleatório. Trata-se de evento cuja ocorrência individual não obedece a regras ou padrões que permitam fazer previsões acertadas, como, por exemplo, qual face de um dado lançado cairá para cima. A estatística mostra que, apesar de a ocorrência individual destes eventos aleatórios ser imprevisível objetivamente, é possível tirar algumas conclusões a partir de um conjunto suficientemente grande deles. Muitos dos conjuntos de eventos aleatórios apresentam padrões que não são identificáveis em cada evento isoladamente, como a tendência de os eventos se concentrarem próximos a uma posição que representa uma média matemática deles. Assim, a quantidade de eventos diminui constante e gradativamente à medida que nos afastamos da média. Um levantamento das estaturas de homens adultos, em uma amostragem significativa, tende a posicionar a maioria das medidas na chamada estatura mediana, entre 1,70 e 1,80m. Já as estaturas entre 1,40 e 1,50m e entre 2,00 e 2,10m tendem a apresentar poucas ocorrências. Figura 1: Curva de distribuição normal de uma amostragem de estaturas de homens adultos Um exemplo bastante próximo de todos sobre como a curva de distribuição normal ajuda a definir padrões esperados é a pressão arterial. Quando o médico infla a almofada em nosso braço, lê o manômetro e nos informa que o resultado é 12 por 8, nos sentimos aliviados. Alguém já se perguntou, porém, por que 12/8 e não qualquer outro resultado é considerado padrão de normalidade deste parâmetro médico? A resposta é simples: as curvas de distribuição normal para a pressão arterial sistólica e diastólica tendem a concentrar seus resultados em torno de 120 e 80 mmHg, respectivamente. Figura 2: Curva de distribuição normal de resultados de pressão arterial diastólica 68,26% => 1 desvio 95,44% => 2 desvios 99,73% => 3 desvios Na figura acima, tem as barras na cor marrom representando os desvios padrões. Quanto mais afastado do centro da curva normal, mais área compreendida abaixo da curva haverá. A um desvio padrão, temos 68,26% das observações contidas. A dois desvios padrões, possuímos 95,44% dos dados compreendidos e finalmente a três desvios, temos 99,73%. Podemos concluir que quanto maior a variabilidade dos dados em relação à média, maior a probabilidade de encontrarmos o valor que buscamos embaixo da normal. Propriedade 1: "f(x) é simétrica em relação à origem, x = média = 0; Propriedade 2: "f(x) possui um máximo para z=0, e nesse caso sua ordenada vale 0,39; Propriedade3: "f(x) tende a zero quando x tende para + infinito ou - infinito; Propriedade4: "f(x) tem dois pontos de inflexão cujas abscissas valem média + DP e média - DP, ou quando z tem dois pontos de inflexão cujas abscissas valem +1 e -1. Tabela normal (distribuição z) Para se obter a probabilidade sob a curva normal, utilizamos a tabela de faixa central. Exemplo: O peso de recém-nascidos é uma variável aleatória contínua. A Figura 31 e Figura 32 abaixo mostram a distribuição de frequências relativas de 100 e 5000 pesos de recém-nascidos com intervalos de classe de 500g e 125g, respectivamente. Figura 31: Histograma de frequências relativas a 100 pesos de recém-nascidos com intervalo de classe de 500g Figura 32: Histograma de frequências relativas a 5000 pesos de recém-nascidos com intervalo de classe de 125g O segundo histograma é um refinamento do primeiro, obtido aumentando-se o tamanho da amostra e reduzindo-se a amplitude dos intervalos de classe. Ele sugere a curva na Figura 33, que é conhecida como curva normal ou Gaussiana. Figura 33: Função de densidade de probabilidade para a variável aleatória contínua X=peso do recém-nascido (g) A variável aleatória considerada neste exemplo e muitas outras variáveis da área biológica podem ser descritas pelo modelo normal ou Gaussiano. A equação da curva Normal é especificada usando 2 parâmetros: a média , e o desvio padrão . Denotamos N() à curva Normal com média e desvio padrão . A média refere-se ao centro da distribuição e o desvio padrão ao espalhamento (ou achatamento) da curva. A distribuição normal é simétrica em torno da média o que implica que e média, a mediana e a moda são todas coincidentes. Para referência, a equação da curva é Felizmente, você não tem que memorizar esta equação. O importante é que você entenda como a curva é afetada pelos valores numéricos de e . Isto é mostrado no diagrama da Figura 34. Figura 34: distribuições normais com mesma média e vários valores de A área sob a curva normal (na verdade abaixo de qualquer função de densidade de probabilidade) é 1. Então, para quaisquer dois valores específicos podemos determinar a proporção de área sob a curva entre esses dois valores. Para a distribuição Normal, a proporção de valores caindo dentro de um, dois, ou três desvios padrão da média são: Range Proportion 68.3% 95.5% 99.7% Exemplo: Suponhamos que no exemplo do peso do recém-nascidos e . Então: Usando este modelo podemos dizer que cerca de 68% dos recém-nascidos pesam entre 2300g e 3300g. O peso de aproximadamente 95% dos recém-nascidos está entre 1800g e 3800g. Praticamente todos os bebês desta população nascem com peso no intervalo (1300,4300). Na prática desejamos calcular probabilidades para diferentes valores de e . Para isso, a variável cuja distribuição é é transformada numa forma padronizada com distribuição (distribuição normal padrão) pois tal distribuição é tabelada. A quantidade é dada por Exemplo: A concentração de um poluente em água liberada por uma fábrica tem distribuição N(8,1.5). Qual a chance, de que num dado dia, a concentração do poluente exceda o limite regulatório de 10 ppm? A solução do problema resume-se em determinar a proporção da distribuição que está acima de 10 ppm, ie . Usando a estatística temos: Portanto, espera-se que a água liberada pela fábrica exceda os limites regulatórios cerca de 9% do tempo.
Compartilhar