Baixe o app para aproveitar ainda mais
Prévia do material em texto
Distribuição Normal ou Gaussiana Variáveis Aleatórias Contínuas: são geralmente obtidas através de medições ou de leituras de um aparelho e podem assumir valores em um intervalo de números reais. A variável aleatória Normal ou Gaussiana é uma das mais importantes variáveis aleatórias contínuas, não só pelo fato de se ajustar bem aos resultados de um grande número de experimentos aleatórios, como também por desempenhar um papel fundamental no desenvolvimento da inferência estatística. Exemplo: A glicemia é uma variável aleatória contínua. As figuras abaixo mostram a distribuição de freqüências relativas percentuais de 100, 5000 e 50000 indivíduos normais, com amplitude de classe 3, 1 e 0,5 mg/dl, respectivamente Análise Exploratória de Dados 99969390878481 35 30 25 20 15 10 5 0 Glicemia (mg/dl) P o rc en ta g em Figura 1: Glicemia de 100 indivíduos normais com amplitude de classe de 3 mg/dl 1051009590858075 8 7 6 5 4 3 2 1 0 Glicemia (mg/dl) P o rc en ta g em Figura 2: Glicemia de 5000 indivíduos normais com amplitude de classe 1 mg/dl 104,599,093,588,082,577,071,5 4 3 2 1 0 Glicemia (mg/dl) P or ce n ta ge m Figura 3: Histograma da glicemia de 50000 indivíduos normais com amplitude de classe de 0,5 mg/dl Observa-se que o segundo e o terceiro histograma é um refinamento do primeiro, que foram obtidos aumentando-se o tamanho da amostra e reduzindo-se a amplitude das classes. A variável aleatória considerada neste exemplo e muitas outras variáveis da área biológica podem ser descritas pelo modelo normal ou Gaussiano. A curva em azul, denominada função densidade de probabilidade, é conhecida como curva normal ou Gaussiana. Análise Exploratória de Dados A função densidade de probabilidade do modelo normal possui as seguintes características: - Tem forma de sino, com caudas assintóticas ao eixo x. Isto significa que, teoricamente, os valores de x podem variar de menos infinito (-∞) a mais infinito (+∞). - É simétrica em x = µ → média = mediana = moda - A área total sob a curva é 1 ou 100%. Cada distribuição pode ser completamente especificada por sua média µ e seu desvio padrão σ, isto é, estes parâmetros definem precisamente a curva que descreve a distribuição. Análise Exploratória de Dados Denota-se uma distribuição normal por N(µ, σ). O achatamento da curva é caracterizado pelo desvio padrão, σ. Distribuições normais com médias diferentes e variâncias iguais. Análise Exploratória de Dados Distribuições normais com médias iguais e variâncias diferentes Análise Exploratória de Dados Os intervalos µ ± σ, µ ± 2σ e µ ± 3σ são importantes na caracterização da distribuição normal. 9974,0)33( 9544,0)22( 6826,0)( XP XP XP Análise Exploratória de Dados Admita, por exemplo, que a glicemia tem distribuição N(90, 5) na população de pessoas sadias. Pode-se, então, concluir que: -Aproximadamente 68% dos indivíduos sadios possuem valores de glicemia entre (µ - σ) = 90 – 5 = 85 mg e (µ + σ) = 90 + 5 = 95 mg. - A glicemia de aproximadamente 95% das pessoas sadias está entre (µ - 2σ) = 90 – 10 = 80 e (µ + 2σ) = 90 + 10 = 100 mg. - Praticamente todos os indivíduos sadios têm valores de glicemia entre (µ - 3σ) = 90 – 15 = 75 e (µ + 3σ) = 90 + 15 = 105 mg. O cálculo de probabilidades é feito através do cálculo da área sob a curva normal. Análise Exploratória de Dados O cálculo de probabilidades torna-se mais simples se utilizarmos uma distribuição padronizada, que independe dos parâmetros µ e σ. Se a variável aleatória X ~ N(µ, σ), para calcular a P(a ≤ X ≤ b) padroniza-se X, isto é, calcula-se a variável aleatória Z da seguinte forma: Análise Exploratória de Dados Z é uma variável aleatória normal reduzida ou padronizada e tem média 0 e desvio padrão 1. Observe que calcular a probabilidade de a ≤ X ≤ b na curva equivale a calcular a probabilidade de z1 ≤ Z ≤ z2 . Essa equivalência pode ser observada na figura a seguir: Análise Exploratória de Dados bzaz 21 e 21)( zZzP bZaPbXaP Existem diversas tabelas que fornecem áreas sob a curva N(0, 1). A tabela a seguir fornece a área entre a média 0 e um valor qualquer de z. P(0 ≤ Z ≤ z) Análise Exploratória de Dados P(0 ≤ Z ≤ 1,00) = 0,3413 P(0 ≤ Z ≤ 0,57) = 0,2157 P(-2,00 ≤ Z ≤ 0) = 0,4772 A distribuição é simétrica, logo a P(0 ≤ Z ≤ z) = P(-z ≤ Z ≤ 0) A área total é igual a 1 e abaixo de 0 é igual a 0,5 Análise Exploratória de Dados Exemplos do uso da tabela: 1) P(Z ≤ 0,32) = P(0 ≤ Z ≤ 0,32) + 0,5 = 0,1255 + 0,5 = 0,6255 tabela 0,5 2) P(1,32 ≤ Z ≤ 1,79) = P(0 ≤ Z ≤ 1,79) – P(0 ≤ Z ≤ 1,32) = 0,4633 – 0,4066 = 0,0567 Análise Exploratória de Dados 3) P(Z > 1,5) = 0,5 – P(0 < Z < 1,5) = 0,5 – 0,4332 = 0,0668 Tabela Área = 0,5 4) P(-1 < Z < 1) = P(-1 < Z < 0) + P(0 < Z < 1) = 2 P(0 < Z < 1) = 2 . 0,3413 = 0,6826 Pela simetria P(-1 < Z < 0) = P(0 < Z < 1) Análise Exploratória de Dados 5) P(-1 < Z < 2) = P(-1 < Z < 0) + P(0 < Z < 2) = 0,3413 + 0,4772 = 0,8185 6) Qual deve ser o valor de Z tal que, P(Z < z) = 0,975 0,5 0,975 – 0,5 = 0,475 P(0 < Z < z) = 0,475, pela tabela z = 1,96 Análise Exploratória de Dados Suponha que o nível de colesterol (mg/dl) em pessoas sadias de uma população tenha distribuição N(225; 37,5). 1) Calcule a probabilidade de se encontrar uma pessoa com nível de colesterol a) inferior a 300 mg/dl b) superior a 200 mg/dl c) entre 150 e 300 mg/dl 2) Qual a taxa que deixa abaixo dela 95% dos valores de nível de colesterol de pessoas sadias? Solução: Seja a v.a X X: nível de colesterol em pessoas sadias X ~N(225; 37,5) 9772,04772,05,0)2( 5,37 225300)300() ZPZPXPa 7486,02486,05,0)67,0( 5,37 225200)200() ZPZPXPb 9544,04772,02)22( 5,37 225300 5,37 225150)300150() ZPZPXPc Análise Exploratória de Dados 2) A taxa que deixa abaixo de si 95% dos valores é o valor x tal que a P(X < x) = 0,95 ou, P(Z < z) = 0,95. 0,95 -0,5 = 0,45 = P(0 < Z <z) Consultando a tabela encontra-se z = 1,64. 5,286 5,37 22564,1 xxxz
Compartilhar