Prévia do material em texto
Estatística 1ª edição 2017 Estatística 8 3 Unidade de estudo 8 Distuibuição Normal Para iniciar seus estudos Por fim chegamos à última unidade dos nossos estudos. Na unidade ante- rior estudamos o principal tipo de distribuição de probabilidades para uma variável aleatória discreta. Nesta unidade estudaremos a mais utilizada entre todos os tipos de distribuição de probabilidade, em particular den- tre as variáveis contínuas: a distribuição normal. Tal tipo de distribuição é tão útil que até mesmo variáveis com distribuição binomial (discretas) podem ser aproximadas por uma distribuição normal em determinadas circunstâncias. São inúmeras as utilidades práticas da distribuição normal para a modelagem de variáveis, como veremos nesta unidade. Atentos à riqueza oferecida pela distribuição normal ao nosso processo de aprendi- zagem, fechemos com chave de ouro nossos estudos introdutórios sobre Estatística. Bons estudos! Objetivos de Aprendizagem • Definir formalmente a distribuição normal de uma variável con- tínua. • Analisar o gráfico “de sino” e as principais características da distri- buição normal. • Fazer exemplos práticos com o uso de tabelas e/ou ferramentas digitais. Tópicos de estudo: • 8.1 A distribuição normal • 8.2 A distribuição normal padrão • 8.3 Aplicações da distribuição normal 4 Estatística | Unidade de Estudo 8 – Distribuição Normal 8.1 A distribuição normal A mais utilizada entre as distribuições de probabilidade é a distribuição normal, assunto desta unidade. Ela é importante porque modela inúmeros fenômenos, como: a altura média das pessoas, clima e tempo, medições de produtos manufaturados, entre outros. A distribuição normal também ganha destaque por conta do cha- mado Teorema do Limite Central de Abraham De Moivre (1733). Este teorema que prova que a variável que mede o resultado médio de um mesmo experimento realizado várias vezes pode ser modelado pela distribuição normal. Por exemplo: Considere que iremos retirar, de tempos em tempos, um pacote dentre todos os pacotes produzi- dos de um determinado produto em uma fábrica. A variável que mede o peso médio desses pacotes retirados de tempos em tempos pode ser modelada pela distribuição normal. Para saber mais sobre os assuntos abordados até aqui, leia seção 4-6 do livro: MONTGO- MERY, Douglas C., RUNGER, George C. Estatística aplicada e probabilidade para engenheiros. Rio de Janeiro: LTC Ed., 2009. Nessa leitura você irá ver a aplicação do Teorema do Limite Central em alguns outros exemplos. Vejamos algumas definições: Definição 8.1: Dizemos que uma variável aleatória contínua X tem distribuição normal com parâmetros μ e 2ó 2 se a sua função de densidade de probabilidade for dada por: ( ) ( )2 221 , . 2 − − = ∈ xì óf x e x ó ð Em que π é número “pi” (comprimento dividido pelo diâmetro de qualquer circunferência) e e é o número de Neper. Nesse caso, denotamos ( ) 2,X N µ σ A distribuição normal também costuma ser chamada de distribuição gaussiana, devido aos estudos de Gauss no século XIX, muitos dos quais já haviam sido feitos por De Moivre no século anterior, mas que eram desconhecidos por Gauss. A expressão dada na definição de distribuição normal é um tanto quanto esquisita para uma primeira impressão. No entanto, seu gráfico é dado por uma figura muito interessante: 5 Estatística | Unidade de Estudo 8 – Distribuição Normal Figura 8.1 - Gráfico da função de densidade de probabilidade de Legenda: O traço em forma de “sino” é o gráfico da função de densidade de probabilidade de ( ) 2,X N µ σ . Na figura estão indicados os pontos μ, que corresponde ao ponto máximo do gráfico, e os pontos μ±3σ . Fonte: Wikimedia Commons. Como podemos perceber na figura 8.1, o gráfico de uma distribuição normal tem forma de sino. Essa curva é usualmente chamada de curva normal ou curva gaussiana. Observe alguns fatores importantes a respeito desta curva: • O ponto máximo da curva normal se dá em μ, indicando que a moda da distribuição normal é μ; • A curva é simétrica em relação do eixo determinado por μ, o que nos leva a concluir que μ é a mediana de ( )2,X N µ σ e que a distribuição normal é perfeitamente simétrica; • À medida em que os pontos no eixo X se afastam de μ o valor da função diminui abruptamente, de maneira mais acentuada a partir dos pontos μ±σ ; • A“área” abaixo da curva normal e acima do eixo x é igual a 1 (seria melhor se disséssemos que tende a 1), o que justifica o fato de que a f(x) seja, de fato, uma função de densidade de probabilidade; • Entre os pontos μ-σ e μ+σ a área sob o gráfico (ou seja, a probabilidade nesse intervalo) corresponde a aproximadamente 0,68, entre os pontos μ-2σ e μ+3σ esse valor chega a mais de 95%, e entre os pontos μ-3σ e μ+3σ ele passa de 99% (veja a figura 8.2). 6 Estatística | Unidade de Estudo 8 – Distribuição Normal Figura 8.2 - Gráfico da distribuição normal com 0, 48e 0,31µ σ= ≅ Legenda: Na figura é indicada a porcentagem da área abaixo do gráfico em determinados intervalos kµ σ± Fonte: Wikimedia Commons Se X é uma variável aleatória com distribuição normal com parâmetros μ e 2ó então a esperança de X é dada por μ e a variância é dada por 2ó . É por isso que costumamos dizer que X é uma variável aleatória com distribuição normal com média μ e variância 2ó Figura 8.3 - Gráfico da função de densidade de probabilidade de ( ) 2,X N µ σ para alguns valores de μ e 2ó . Legenda: Notamos nesta figura que o gráfico de uma distribuição normal pode ser mais concentrado em torno da média (se a variância é pequena) ou pode ser mais distribuído (se a variância é alta). Fonte: Wikimedia Commons. 7 Estatística | Unidade de Estudo 8 – Distribuição Normal A seguir vemos o gráfico da função de distribuição acumulada de X em cada um dos casos da figura 8.3: Figura 8.4 - Gráfico da função de distribuição acumulada de ( ) 2,X N µ σ em alguns casos. Legenda: O gráfico da função de distribuição acumulada nos permite obser- var que há um intervalo onde o crescimento é acentuado. Fonte: Wikimedia Commons. Exemplo 8.1: Seja X a variável que mede o tamanho de parafusos em uma amostra, a qual tem média 3 cm e vari- ância 0,5 cm. Assim, podemos admitir que ( )3;0,5X N∼ . A esperança de X é 3 (e coincide com a mediana e a moda dessa amostra) e o desvio padrão é 0,5=ó . Assim, a função de densidade de probabilidade de X é dada por: ( ) ( ) 231 ,− −= ∈ xf x e x ð O gráfico dessa função e também o gráfico da função de distribuição acumulada de X estão dados abaixo: 8 Estatística | Unidade de Estudo 8 – Distribuição Normal Figura 8.5 - Gráfico da função de densidade de probabilidade de ( )3;0,5X N∼ Legenda: Gráfico da função de densidade de probabilidade de X no exem- plo 8.1, obtido no software R utilizando os seguintes comandos: > x <- seq(0, 6, len=100) > fx <- dnorm(x, 3, sqrt(0.5)) > plot(x, fx, type=’l’) Fonte: Gráfico obtido no software R. 9 Estatística | Unidade de Estudo 8 – Distribuição Normal Figura 8.6 - Gráfico da função de distribuição acumulada de ( )3;0,5X N∼ Legenda: Gráfico da função de densidade de probabilidade de X no exem- plo 8.1, obtido no software R utilizando os seguintes comandos: > x <- seq(0, 6, len=100) > fx <- pnorm(x, 3, sqrt(0.5)) > plot(x, fx, type=’l’) Fonte: Gráfico obtido no software R. A probabilidade de uma variável aleatória ( )3;0,5X N∼ admitir valores em um intervalo [ ]1 2,x x é dada pela área abaixo do gráfico da função de densidade de probabilidade de X entre os extremos 1x e 2x , conforme indica a figura seguinte. Calcular essa probabilidade utilizando a função de densidade de probabilidade é algo não recomendado. O cál- culo da integral dessa função é inviável.Observe que 1 x e 2x podem assumir valores de -∞ e +∞ (mas nesse caso o conceito de “área” deve ser entendido no sentido assintótico). 10 Estatística | Unidade de Estudo 8 – Distribuição Normal Figura 8.7 - Representação gráfica de ( )1 2≤ ≤P x X x , quando ( ) 2,X N µ σ . Legenda: A região em vermelho tem área igual à probabilidade de ( ) 2,X N µ σ assumir valores entre 1 x e 2 x . Fonte: Wikimedia Commons. 8.2 A distribuição normal padrão Já vimos que o cálculo da probabilidade de uma variável com distribuição normal em um determinado intervalo é inviável de ser feito utilizando a integral da função de densidade de probabilidade. Porém, computacionalmente é possível calcular essa probabilidade. Isso nos indica que devemos, mais do que nunca, recorrer a tabelas ou sof- twares em nossos cálculos. As tabelas e softwares disponíveis, em geral, calculam valores de probabilidades para uma variável com distribuição binomial com parâmetros 0=ì 2 1=ó : Definição 8.2: A distribuição normal N(0,1) é chamada de distribuição normal padrão. A maior parte das tabelas de distribuição normal disponíveis em livros e a maior parte dos softwares estatísticos dão valores de probabilidades para variáveis com distribuição normal que seja padrão. Quando a variável não tem distribuição padrão, precisamos convertê-la em uma que seja, a fim de calcular a probabilidade desejada. O fato importante aqui é que, se X é uma variável aleatória com distribuição ( ) 2,N µ σ então a variável X µ σ − tem distribuição normal padrão. É esse fato que nos permite calcular probabilidades utilizando tabelas ou softwares. A tabela de distribuição da normal de P(0≤Z≤z) é: 11 Estatística | Unidade de Estudo 8 – Distribuição Normal Tabela 8.1: Tabela de distribuição normal No software Excel, que vamos usar como base para os cálculos nesta seção, você pode utilizar a função dist.normp, que dá a função de distribuição acumulada da distribuição normal padrão em um ponto z, ou seja, P(X≤z). Se você prefere utilizar outro software, informe-se sobre quais recursos pode utilizar para calcular probabilidades de uma variável com distribuição normal padrão. Quando uma variável segue uma distribuição (binomial, exponencial, gama, geométrica, etc), nem sempre ela é considerada distribuição normal padrão (que possui 20 e 1= =ì ó ). Sendo assim, devemos utilizar um mecanismo 12 Estatística | Unidade de Estudo 8 – Distribuição Normal para transformar essa variável em normal padrão, visto que a tabela que conhecemos, que é a tabela de distribui- ção da variável normal padrão, utiliza valores padrões para a variável aleatória normal. As tabelas para a variável normal padronizada podem ser do tipo P(∞<Z≤z) ou P(0≤Z≤z). No primeiro caso, os valores negativos para Z estão inclusos no cálculo da probabilidade. No segundo caso esses valores não estão incluídos. Você deve estar atento a qual tipo de tabela que você está analisando. Para calcular as probabilidades associadas à distribuição normal, devemos utilizar o seguinte artifício. x µ σ − =Z Dessa forma, com os valores de média μ e desvio padrão σ fornecidos, com o x relatado no enunciado do exercí- cio, encontramos o valor para a variável normal padronizada. Feito isso, precisamos recorrer à tabela de distribui- ção da variável normal padrão e utilizar o valor de Z encontrado. Geralmente, as tabelas nos dão a probabilidade P(Z≤z), que possui o mesmo significado que P(∞<Z≤z), abrangendo também os valores negativos de z. Por fim, caso queiramos encontrar a probabilidade de obtermos valores superiores àquele x fornecido no exercício, deve- mos utilizar o artificio 1-P(Z≤z). No entanto, se estivermos interessados em calcular a probabilidade de valores inferiores ou iguais a x, utilizamos a probabilidade fornecida por P(Z≤z). Mas você pode estar se perguntando: qual é a utilidade da utilização de uma variável normal padronizada Z? Não seria mais fácil calcular diretamente a probabilidade pela função densidade de probabilidade da variável que estou analisando? A grande utilidade do artifício acima é evitar cálculos dispendiosos de probabilidade. Você pode padronizar as variáveis aleatórias e encontrar o valor referente a variável normal padrão e obter a probabilidade de maneira extremamente rápida. Mas lembre-se, você precisará ter ao seu alcance a tabela de distribuição da variável nor- mal padronizada para encontrar os valores de probabilidade que foram pedidos. É extremamente importante que você veja como é a tabela fornecida, se ela fornece valores P(∞<Z≤z) ou P(0≤Z≤z). E não, não é mais fácil calcular diretamente a probabilidade pela função densidade de probabilidade da variável. Para calcularmos as probabilidades por meio do uso de funções densidades de probabilidades, precisamos cal- cular os valores das integrais, sendo que algumas são de complexa resolução. O Exemplo a seguir irá esclarecer o conceito de padronização de variável aleatória normal e você verá o quão simples e rápidos são os cálculos de probabilidades. Exemplo 8.2: Uma determinada variável aleatória normal possui os seguintes parâmetros μ=1 e σ =2. Sendo assim, faça o que se pede: a) Qual é a probabilidade de encontrarmos valores menores ou iguais a 3? Primeiro precisamos encontrar qual é o valor da variável normal padrão para o caso em questão. Temos a seguinte expressão: 3 1 2 1 x Z µ σ − = − = = Z Z Agora precisamos recorrer à tabela da variável normal padronizada. 13 Estatística | Unidade de Estudo 8 – Distribuição Normal A tabela é: Tabela 8.2: Tabela da variável normal padronizada Legenda: Tabela da Variável normal padronizada Fonte: Adaptada de Bussab e Morettin (2012, p 511) Temos que o valor fornecido para P(0≤Z≤1) é 0,3413. Devemos somar 0,5 da probabilidade P(-∞<Z≤0), porque essa tabela fornece apenas P(0≤Z<∞). Assim, podemos dizer que a probabilidade de encontrarmos valores menores ou iguais a 3 é igual a 0,8413 ou 84,13%. b) Qual é a probabilidade de encontrarmos valores maiores do que 4? A expressão para encontrar a variável normal padronizada é: 4 1 2 1,5 x Z µ σ − = − = = Z Z 14 Estatística | Unidade de Estudo 8 – Distribuição Normal A tabela é: Tabela 8.3: Variável normal padronizada Legenda: Tabela da Variável normal padronizada Fonte: Adaptada de Bussab e Morettin (2012, p 511) Temos que o valor fornecido para P(0≤Z≤1,5) é 0,4332. Devemos somar 0,5 da probabilidade P(-∞<Z≤0), porque essa tabela fornece apenas P(0≤Z<∞). Desse modo, temos que P(Z≤1,5) é 0,9332. No entanto estamos interessados em calcular a probabilidade de valores maiores dou que 4. Logo, devemos utilizar 1-P(Z≤1,5), que é 0,0668 ou 6,68%. c) Qual é a probabilidade de encontrarmos valores entre 1 e 3? Primeiro vamos encontrar a probabilidade de serem encontrados valores menores ou iguais a 3. A expressão para a variável normal padronizada é: 1 1 3 1 2 1 x Z µ σ − = − = = Z Z 15 Estatística | Unidade de Estudo 8 – Distribuição Normal Veja na tabela: Tabela 8.4: Variável normal padronizada Legenda: Tabela da Variável normal padronizada Fonte: Adaptada de Bussab e Morettin (2012, p 511) Temos que o valor fornecido para P(0≤Z≤1) é 0,3413. Devemos somar 0,5 da probabilidade P(-∞<Z≤0), porque essa tabela fornece apenas P(0≤Z<∞). Logo, temos que P(Z_1≤1) é 0,8413. Agora vamos encontrar a probabilidade de valores menores ou iguais a 1. A expressão para a variável normal padronizada é: 2 2 1 1 2 0 x Z µ σ − = − = = Z Z 16 Estatística | Unidade de Estudo 8 – Distribuição Normal Veja na tabela: Tabela 8.5: Variável normal padronizada Legenda: Tabela da Variável normal padronizada Fonte:Adaptada de Bussab e Morettin (2012, p 511) Temos que o valor fornecido para P(Z=0) é 0,0000. Devemos somar 0,5 da probabilidade P(-∞<Z≤0), porque essa tabela fornece apenas P(0≤Z<∞). Logo, temos que P(Z_2≤0) é 0,5. Agora é necessário que façamos a subtração das probabilidades encontradas, pois queremos encontrar valores que se situam entre os dois limites que foram fornecidos. Assim, a probabilidade de encontrarmos valores situados entre 1 e 3 é dada pela diferença dos valores encontra- dos, ou seja P(1≤x≤3)=0,8413-0,5=0,3413 ou 34,13%. Veja como foram simples os cálculos. Caso você queira fazer as contas por meio das funções densidades de pro- babilidade, elas seriam bem mais complexas e apresentariam resultados semelhantes a esses encontrados. Os exemplos a seguir irão mostrar como realizar esses cálculos utilizando o Excel. Exemplo 8.3: Considere uma variável X com distribuição N(10,4). Assim, como 2 4σ = , então 2σ = (pois σ deve ser sempre positivo). Considere a variável 10 . 2 X X− − = = ìY ó Pelo que dissemos acima, ( )0,1∼Y N . Vamos calcular algumas probabilidades envolvendo X: a) Qual é a probabilidade de X ser maior do que 10? Note que 10 é a média de X. Neste caso, basta observar o gráfico da função de densidade de probabilidade de X para ver que P(X>10)=0,5, já que o gráfico é simétrico e metade do gráfico se encontra à direita de 10: 17 Estatística | Unidade de Estudo 8 – Distribuição Normal Figura 8.8 - Gráfico da função de densidade de probabilidade de ( )0,1∼Y N . Legenda: A figura indica a região delimitada pelo gráfico a partir de X=10. Fonte: Gráfico obtido no software R. a) Qual é a probabilidade de X ser menor do que 12? O que queremos, neste caso, é calcular P(X≤12). Porém, vamos utilizar Y como auxiliar. Precisamos “trocar” X por Y na expressão acima. Para isso, devemos subtrair μ de ambos os lados da desigualdade e dividir por σ : ( ) ( )10 12 1012 1 . 2 2 − − ≤ = ≤ = ≤ XP X P P Y Portanto, calcular P(X≤12) é o mesmo que calcular P(Y≤1). Porém P(Y≤1) é a função de distribuição acumulada de uma distribuição normal padrão calculada no ponto z=1. Utilizando a função dist.normp(z) no Excel aplicada em z=1, obtemos: ( ) ( )12 1 0,8413.≤ = ≤ ≅P X P Y Portanto, a probabilidade de X ser menor do que 12 é de aproximadamente 84%. c) Qual é a probabilidade de X estar entre 7 e 11? O que queremos é calcular P(7≤X≤11). Para isso, vamos trocar X por Y, subtraindo μ em todos os termos da desi- gualdade e dividindo por σ : ( ) 7 10 10 11 10 3 17 11 2 2 2 2 2 − − − ≤ ≤ = ≤ ≤ = − ≤ ≤ XP X P P Y Agora o que precisamos é calcular P(-3/2≤Y≤1/2). Para isso, vamos utilizar a função de distribuição acumulada de Y, denotada por F: 3 1 1 3 2 2 2 2 − ≤ ≤ = − − P Y F F 18 Estatística | Unidade de Estudo 8 – Distribuição Normal pois a probabilidade de uma variável em um intervalo é sempre igual à diferença entre a função de distribui- ção acumulada calculada no extremo superior menos a função de distribuição acumulada calculada no extremo inferior. Note que F(z) é dada exatamente pela função dist.normp(z) no Excel. Utilizando esse software, vemos que 1 0,6915 2 ≅ F e que 3 0,0668 2 − = F . Logo, 3 1 0,6915 0,0668 0,6247 2 2 − ≤ ≤ ≅ − = P Y ou seja, a probabilidade de X entre 7 e 11 é igual a aproximadamente 62,47%. Exemplo 8.4: Seja X a variável aleatória correspondente ao “peso” de recém-nascidos, em gramas. Suponha que X tenha uma distribuição normal N(2800,250000), ou seja, μ=2800 e σ =√250000=500. a) Vamos calcular a probabilidade de um recém-nascido pesar menos de 3000 quilos, isto é P(X≤3000). Seja 2800 (0,1) 500 Y −= ∼X N . Então, sendo F(z)=P(Y≤z) a função de distribuição acumulada de Y, temos: ( ) 2800 3000 2800 2 23000 0,6554. 500 500 5 5 P − − ≤ = ≤ = ≤ = ≅ XX P P Y F Portanto, a probabilidade de um recém-nascido peso menos de 3000 quilos é de 65,54% aproximadamente. b) Vamos calcular a probabilidade de um recém-nascido pesar entre 2500 quilos e 3000 quilos, isto é, P(2500≤X≤3000). Assim, ( ) ( ) ( ) ( ) 8 10 810 1 10 1 2 2 1 1 1 1 1 0,84134 0,15866 − − > = − ≤ = − ≤ = = − ≤ = − ≅ − = XP X P X P P Y F Portanto, a probabilidade de que o limite regulatório seja extrapolado é de aproximadamente 16%. Em certas ocasiões pode ser necessário que apliquemos esse processo de maneira reversa. Suponha que você deseja saber um intervalo em torno da média de uma variável com distribuição normal que contenha determi- nada probabilidade. Isso significa que você quer descobrir valores x_1 e x_2 tais que P(x_1≤X≤x_2 )=p, onde p é a probabilidade que você deseja. O exemplo a seguir elucida este fato: Exemplo 8.6: Seja (0,1)X ∼ N . Desejamos encontrar um intervalo que contenha 95% de probabilidade de ocorrên- cia, ou seja, [a,b] tal que P(a≤X≤b)=0,95. Sendo F(z)=P(X≤z) a função de distribuição acumulada de X, então o que queremos é descobrir [a,b] tal que F(b)-F(a)=0,95. Tomemos, por exemplo, valores a e b que sejam simétricos em torno da média μ=0, ou seja, a=-b. Logo, devido à simetria da curva normal, 1-F(a)=F(b), isto é, ( ) ( ) ( ) 0,050,95 0,02 2 1 5− − = ⇔ = =F a F a F a Isso significa que 2,5% do gráfico está abaixo de a, 2,5% do gráfico está acima de b e, logo, os outros 95% estão entre a e b. A figura a seguir esclarece este fato: 19 Estatística | Unidade de Estudo 8 – Distribuição Normal Figura 8.9 - Gráfico da função de densidade de probabilidade de X no exemplo 8.7. Legenda: 47,5% do gráfico está entre a e μ=0, enquanto 47,5% do gráfico está entre μ=0 e b. Fonte: Wikimedia Commons. Logo, o que precisamos descobrir é o valor de a<0 tal que F(a)=0,025. Isso significa que precisamos da inversa de F, denotada por 1−F , e do valor 1(0,025)−=a F . No software Excel, essa inversa é dada pela função inv.normp. Podemos também utilizar as tabelas presentes nos livros para esse cálculo. Por exemplo, pela tabela de Estatística Básica. 7. ed. (BUSSAB & MORETTIN, 2012, p. 511).. Perceba que a=-1,96, já que P(0≤X≤1,96)=0,475=1-0,025. Por sua vez, utilizando o Excel, calculamos a função inv.normp(0,025) que resulta em: ( )1 0,025 1,96.−= ≅ −a F Portanto, o intervalo [a,b]=[-1,96;1,96] tem probabilidade de 95% de ocorrência da variável X. Exemplo 8.7: Seja (15,9)∼X N . Vamos encontrar um intervalo em que a probabilidade de ocorrência de X seja de 90%. Ao invés de acharmos um intervalo simétrico, como fizemos no exemplo anterior, podemos encontrar um valor a tal que o intervalo ]-∞,a] tenha probabilidade de 90% de ocorrência. Assim, basta-nos encontrar a tal que P(X≤a)=90%. Porém, como X não é padrão, precisamos convertê-la para 15 15 (0,1) 39 − − = = ∼ X XY N . Assim: ( ) 15 15 15 0,9. 3 3 3 − − − ≤ = ≤ = ≤ = X a aP X a P P Y Denotemos b=(a-15)/3. Assim, queremos b tal que F(b)=P(Y≤b)=0,9, em que F é a função de distribuição acu- mulada de ( )0,1 .Y ∼ N . Calculando inv.normp(0,9) no Excel, obtemos ( )1 0,9 1,28.−= ≅b F 20 Estatística | Unidade de Estudo 8 – Distribuição Normal Daí, encontramos a: 15 3 15 18,84 3 − = ⇔ = + ⇔ = ab a b a Logo, o intervalo ]-∞;18,84] tem probabilidade de 90% de ocorrência para a variável X. Figura 8.10 - Gráfico da função de densidade de probabilidade de X no exemplo 8.7. Legenda: 90% da área abaixo do gráfico encontra-se até 18,84. Fonte: Gráfico obtido no software R. Seja (3;0,5)X N∼ Encontre um intervalo com 97% de probabilidade de ocorrência de X 21 Estatística | Unidade de Estudo 8 – Distribuição Normal 8.3 Aplicações da distribuição normal A distribuição normal pode ser aplicada ainúmeros contextos. A seguir faremos alguns exemplos que nos aju- dam a entender essa imensa aplicabilidade: Exemplo 8.8: A altura média dos alunos de uma certa sala de aula pode ser modelada por uma variável (168,50)X N∼ já que a média é 168 cm e o desvio padrão é de √50 cm. Vamos calcular a probabilidade de essa sala ter um aluno com mais de 1,80 m de altura. Para isso, vamos usar a variável auxiliar 168 (0,1) 50 − = ∼ XY N , cuja função de distri- buição acumulada é denotada por F. Assim, ( ) ( ) ( ) ( ) 168 180 168180 1 180 1 50 50 121 1 1,697 1 1,697 1 0,955 0,045. 50 − − > = − ≤ = − ≤ = = − ≤ = − ≤ = − ≅ − = XP X P X P P Y P Y F Portanto, a probabilidade de haver um aluno com mais de 1,80 m nessa sala de aula é de 4,5%. Exemplo 8.9: Uma determinada fábrica produz rolamentos com diâmetros em média de 15 mm e desvio padrão de 1 mm. Segundo especificações de órgãos reguladores, esse tipo de rolamento deve ter entre 14,5 e 15,5 mm. De uma produção de 1000 rolamentos, calculemos quantos deles, em média, serão descartados por estarem fora dessa especificação. Para resolver esse problema, primeiramente vamos considerar X a variável que mede o diâmetro dos rolamentos dessa fábrica. Segundo as informações, podemos considerar X uma variável com distribuição normal N(15,1). Precisamos calcular a probabilidade de X estar fora do intervalo entre 14,5 e 15,5 mm, ou seja, 1-P(14,5≤X≤15,5). Considere 15 (0,1) 1 − = ∼ XY N e F sua função de distribuição acumulada. Assim, ( ) ( ) ( ) ( ) ( ) 14,5 15,5 14,5 15 15 15,5 15 0,5 0,5 0,5 0,5 0,6915 0,3085 0,383 ≤ ≤ = − ≤ − ≤ − = = − ≤ ≤ = − − ≅ − = P X P X P Y F F e daí, ( )1 14,5 15,5 1 0,383 0,617− ≤ ≤ ≅ − =P X donde concluímos que 61,7% dos rolamentos estão fora da especificação. Logo, de uma produção de 1000 rola- mentos, aproximadamente 617 serão descartados. Exemplo 8.10: Para uma instalação elétrica, será utilizado um tipo de fio cuja corrente elétrica suportada seja em média de 28 ampères e desvio padrão de 3 ampères. Assim, podemos supor que a variável que mede a cor- rente suportada por esse tipo de fio seja ( )28,9 .X ∼ N . Se nessa instalação, o fio utilizado suportar menos de 26 ampères, haverá um problema elétrico que se deseja evitar. Vamos calcular a probabilidade de que um fio do referido tipo, selecionado ao acaso, suporte menos de 26 ampères. Para isso, vamos considerar a variável auxiliar 28 (0,1) 3 Y −= ∼X N , cuja função de distribuição acumulada é denotada por F. Logo, ( ) 28 26 28 2 226 0,2525. 3 3 3 3 − − ≤ = ≤ = ≤ − = − ≅ XP X P P Y F Portanto, a probabilidade de obter um fio com menos de 26 ampères é de 25,25% aproximadamente. 22 Estatística | Unidade de Estudo 8 – Distribuição Normal Exemplo 8.11: O tempo de viagem que uma certa mulher demora de sua casa até seu trabalho é calculado por uma variável aleatória X. Como, em média, ela demora 15 minutos, com desvio padrão de 2 minutos, podemos dizer que (15,4)∼X N . Em um determinado dia, ela precisa chegar no seu trabalho em menos de 16 minutos. Cal- culemos a probabilidade dela conseguir isso. Para tal cálculo, definamos 15 (0,1) 4 Y −= ∼X N , cuja função de distribui- ção de probabilidade é denotada por F. Assim, ( ) 15 16 15 1 116 0,6915. 2 2 2 2 P − − < = < = < = ≅ XX P P Y F Assim, a probabilidade de essa mulher conseguir chegar no seu trabalho em menos de 16 minutos é de quase 70%. Figura 8.11 - Gráficos relacionados à variável X do exemplo 8.12. Legenda: Gráficos da f.d.p. e da f.d.a. de (15, 9).NX ∼ Fonte: Gráfico obtido no software R. A vida útil de um certo motor é, em média, de 50 anos, com desvio padrão de 4 anos. Calcule a probabilidade de que esse motor tenha vida útil de mais de 55 anos 23 Estatística | Unidade de Estudo 8 – Distribuição Normal A distribuição normal também pode ser usada para modelar uma variável que calcula a média de certo experi- mento, conforme comentado no início desta unidade. Além dessa, outra aplicação da distribuição normal é o fato de podermos aproximar a distribuição binomial por uma normal. Falemos um tiquinho sobre isso. Quando uma variável aleatória discreta (um num espaço amostral discreto) tem uma distribuição simétrica, geralmente a distribuição normal pode ser uma boa aproximação para essa variável. O teorema a seguir nos dá uma relação clara entre as distribuições normal e binomial, que apesar de serem de naturezas distintas, podem ser oportunamente bem relacionadas: Teorema 8.1: Seja ( );∼X Bin n p . Assim, − = X npY npq converge a ter uma distribuição N(0,1) à medida em que n cresce, sendo q=1-p. Como podemos ver no Teorema 8.1, há uma enorme vantagem em aproximar uma variável com distribuição binomial por uma com distribuição normal quando n grande, já que os cálculos da binomial nesses casos tendem a ser muito custosos, enquanto os cálculos da normal padrão são fáceis de serem relacionados computacional- mente. Figura 8.12 - Comparação entre o histograma de uma variável com uma distribuição binomial e o gráfico da função de distribuição de probabilidade de uma variável com distribuição normal. Legenda: O histograma da figura refere-se a uma variável com distribuição binomial com esperança apro- ximadamente igual a 3, a qual é bem aproximada por uma distribuição normal com μ=3. Fonte: Wikimedia Commons. 24 Estatística | Unidade de Estudo 8 – Distribuição Normal Exemplo 8.12: Uma prova contém 90 questões, cada uma com cinco alternativas, das quais apenas uma é cor- reta. Se um estudante chutar todas as questões dessa prova, calculemos a probabilidade dele acertar mais do que 30 questões. Para isso, seja X a variável que conta o número de acertos desse estudante. Como a chance de acertar cada questão é de 1 0,2 5 = =p , então (90;0,2)∼X Bin . Queremos calcular P(X>30). Note que utilizando a função de probabilidade de X essa expressão envolverá cálculos muito cansativos para serem feitos “à mão”. No entanto, vamos aproximar X pela variável aleatória contínua ( )90.0,2 18 0,1 . 3,890.0,2.0,8 X XY N− −= ≅ ∼ Logo, sendo F a função de distribuição acumulada de Y, então ( ) ( ) ( ) 18 30 1830 3,158 3,8 3,8 1 3,158 1 0,999 0,001 − − > = > ≅ > = = − ≤ ≅ − = XP X P P Y P Y Portanto, a probabilidade do aluno acertar mais do que 30 questões é de aproximadamente 0,1%. Um dado será lançado 2000 vezes sucessivamente. Calcule a probabilidade de que em no máximo 400 vezes o resultado seja um número quadrado perfeito. A aproximação de uma distribuição binomial por uma distribuição normal é recomendada quando o número n de realizações dos experimentos dicotômicos seja grande. Quando n é pequeno, essa aproximação pode incorrer num erro alto. Sua ultima tarefa do Desafio é, junto com seu grupo, utilizando os conhecimentos adqui- ridos sobre variáveis contínuas, calcular alguma probabilidade de interesse sobre uma de suas variáveis contínuas que tenha distribuição próxima à de uma normal. Poste no fórum e interaja com os outros grupos. 25 Considerações finais Nesta última unidade deste curso, estudamos a distribuição normal, a mais largamente utilizada entre todos os tipos de distribuição. Ao longo da unidade, vimos: • A definição de distribuição normal a partir da sua função de den- sidade de probabilidade. • O gráfico de uma distribuição normal, que é a curva gaussiana, e suas particularidades. • A esperança e a variância de uma variável com distribuição nor- mal. • A definição de distribuição normal padrão e as vantagens de sua utilização no cálculo de probabilidades. • A utilização da função de distribuição acumulada para o cálculo de probabilidadesde variáveis com distribuição normal padrão; • Exemplos práticos da utilização da distribuição normal para modelar problemas reais. • Como aproximar uma variável aleatória binomial com grande número de realizações de experimentos dicotômicos por uma variável aleatória com distribuição normal padrão. Referências bibliográficas 26 MONTGOMERY, Douglas C., RUNGER, George C. Estatística aplicada e pro- babilidade para engenheiros. Rio de Janeiro: LTC Ed., 2009. BUSSAB, Wilton de O.; MORETTIN, Pedro A. Estatística Básica. 7. ed. São Paulo: Saraiva, 2012, p. 540.