Prévia do material em texto
CEDERJ – CENTRO DE EDUCAÇÃO SUPERIOR A DISTÂNCIA DO ESTADO DO RIO DE JANEIRO DISCIPLINA: Estatística Aplicada à Segurança Pública CONTEUDISTA: Doriam Borges Aula 9 – Distribuição Normal Metas Apresentar a Distribuição Normal aos alunos, bem como as suas propriedades. Mostrar a possibilidade de transformar uma variável Normal em uma Normal Padrão, e quais as vantagens ao fazer isso. Além disso, verificar como encontrar a probabilidade de um valor quando a distribuição de uma variável é Normal. Objetivos Ao final desta aula, você deverá ser capaz de: 1. Definir a distribuição da Normal Padrão 2. Localizar a proporção da área abaixo de qualquer curva Normal, acima ou abaixo da média, ou entre dois valores. 1 - UM POUCO DE HISTÓRIA Na segunda metade do século XVII, Galileu Galilei (1564-1642) percebeu que os erros nas observações astronômicas não eram totalmente aleatórios. Em vez disso, não só havia uma concentração nos valores médios, mas também os erros tendiam a se distribuir simetricamente em torno de um valor central. Na primeira década do século XIX, os matemáticos Adrien-Marie Legendre (1752-1833) e Carl Friedrich Gauss (1777-1855) elaboraram uma fórmula matemática precisa, e Gauss demonstrou que esta curva ou distribuição, em formato de sino, tinha um bom ajuste para a distribuição empírica dos erros de observação. Como consequência, o termo passou a ser frequentemente usado como “Curva Normal", "Curva de Sino" (por conta do formato, como você verá em seguida) ou “Curva de Gauss”. A coleta sistemática de estatísticas de população começou nos séculos XVIII e XIX como resposta às transformações sociais da época e a preocupação com a compreensão da dinâmica do comportamento de massa. Os primeiros sociólogos que realizaram este tipo de levantamento não estavam preocupados com a teologia, tema de grande repercussão na época, mas foram buscar a prova da regularidade da sociedade. Baseando-se no prestígio Gauss como matemático, eles tentaram utilizar a Curva ou Distribuição Normal para verificar a existência de ordem no mundo social, aparentemente caótico. Houve divergência desse tipo de resultado, uma vez que os matemáticos entendiam que as fórmulas de Gauss foram baseadas em suposições e não se reuniam no mundo empírico, e não sentiam que o empirismo era o seu domínio. Adolph Quetelet, o pai da ciência social quantitativa, foi o primeiro a afirmar que a Curva Normal além de poder ser aplicada a erros aleatórios, também poderia ser utilizada para explicar fenômenos sociais. O mito da “curva de sino” fazia parte da teoria do “homem médio” de Quetelet, ou seja, o estudo de vários casos representativos de uma população poderia gerar o valor central das características físicas, intelectuais e morais. Isso significa que em qualquer distribuição de fenômenos humanos era para ele não apenas uma ferramenta descritiva, mas uma declaração do ideal. Os extremos em todas as distribuições (ou gráficos) eram desvios indesejáveis. Outro grande entusiasta da curva Normal foi Francis Galton. Galton foi além de Quetelet, não só em seu entusiasmo, mas também em sua tentativa de reunir dados para demonstrar a aplicabilidade geral da curva de sino, sobretudo em sua teoria de eugenia (a ciência que estuda os fatores capazes de aprimorar as qualidades hereditárias da raça humana). Ele obteve dados sobre o número de traços físicos que ele estava interessado em melhorar, tais como altura, peso, a força dos braços e do aperto de mãos, rapidez do golpe, e agudeza de visão. As variáveis tenderam a ter distribuição aproximadamente normal (no gráfico, obteve uma curva de sino), mas o ajuste não foi perfeito. Ele, consequentemente, converteu seus dados em um tipo de pontuação padrão de média com escores (ou valores) padronizados. Estes escores padronizadores encaixaram o ajuste da curva normal muito bem, como era de se esperar, uma vez que ele criou uma pontuação média que refletia um pouco mais a distribuição do que o erro aleatório. Nesta aula vamos trabalhar com esta Curva Normal, com a pradronização dos escores ou valores, e verificar a sua aplicabilidade nos fenômenos sociais. Você verá que várias ações do seu cotidiano podem ser representadas por curvas Normais. Nesse sentido, é importante começar com uma apresentação das possíveis aplicações desta curva ou distribuição. 2 - APLICAÇÕES Embora a distribuição normal tenha sido aplicada pela primeira vez para descrever erros de medição, os cientistas, mais tarde, começaram a perceber que também esta ferramenta poderia ser útil para analisar a variação de fenômenos sociais independentes de erros de medição. Em 1835, Adolphe Quetelet (1796-1874) aplicou a distribuição normal para atributos físicos, como altura, e, em 1869, Francis Galton (1822-1911) estendeu a mesma distribuição para cobrir as diferenças individuais de capacidade humana. Galton utilizou instrumentos psicométricos em um grupo de pessoas e fez testes para verificar se a distribuição de sua amostra era realmente definida de acordo com uma distribuição normal. Entre os resultados encontrados por Galton, destacamos os escores de QI. Na maioria dos testes de inteligência (quociente de inteligência), os escores foram encontrados no meio da distribuição. Assim, sob o pressuposto de que o QI tem uma média de 100 e um desvio padrão de 15, uma pontuação de 130 iria colocar o indivíduo no 2% superior da população na capacidade intelectual. De fato, o conceito da distribuição normal tornou-se tão universal que proporcionou a base de quase todos os métodos estatísticos. Por exemplo, nos testes de hipótese (veremos na Aula 12) ou na análise de regressão (veremos na Aula 15) a distribuição normalmente é imprescindível. Dado o lugar de destaque da distribuição normal nas ciências sociais, é essencial reconhecer que nem todos os atributos humanos ou eventos comportamentais são normalmente distribuídos. Por exemplo, muitos fenômenos exibem distribuições extremamente distorcidas com caudas longas superiores. Alguns exemplos incluem a distribuição de renda anual entre as famílias, o desempenho de bilheteria de filmes, a saída de artigos de periódicos por cientistas, e o número de atos violentos cometidos por adolescentes do sexo masculino. Às vezes, esses desvios de normalidade podem ser corrigido usando uma transformação adequada. 3 - O que é a distribuição de uma variável? Quando os resultados de uma pesquisa ou de um experimento são registrados, os resultados costumam variar. A maioria ou todos os resultados para cada variável ocorrem, em geral, com frequências diferentes. Reconhecer os padrões dessas frequências é na verdade uma das metas da estatística. A distribuição de uma variável refere-se ao conjunto de todos os valores possíveis da variável e as frequências ou probabilidades associadas a ela. O gráfico histograma é uma forma de visualizar uma distribuição (ver a Aula 4), através da frequência dos valores da variável. Quais são os eixos quando um conjunto de dados é representado graficamente através de um histograma? O que seria uma distribuição de renda em uma empresa X? Gráfico 1 – Histograma da Renda (em faixa) dos funcionários de uma empresa X 0% 2% 4% 6% 8% 10% 12% 14% A té 7 0 0 R e a is 7 0 0 - 9 0 0 R e a is 9 0 1 - 1 1 0 0 R e a is 1 1 0 1 - 1 4 0 0 R e a is 1 4 0 1 - 1 7 0 0 R e a is 1 7 0 1 - 1 9 0 0 R e a is 1 9 0 1 - 2 1 0 0 R e a is 2 1 0 1 - 2 3 0 0 R e a is 2 3 0 1 - 2 5 0 0 R e a is 2 5 0 1 - 2 7 0 0 R e a is 2 7 0 1 - 2 9 0 0 R e a is 2 9 0 1 - 3 1 0 0 R e a is 3 1 0 1 - 3 3 0 0 R e a is 3 3 0 1 - 3 5 0 0 R e a is 3 5 0 1 - 3 7 0 0 R e a is 3 7 0 1 - 3 9 0 0 R e a is 3 9 0 1 - 4 1 0 0 R e a is 4 1 0 1 - 4 3 0 04 3 0 1 - 4 5 0 0 4 5 0 1 - 4 7 0 0 4 7 0 1 - 4 9 0 0 4 9 0 1 - 5 1 0 0 M a is 5 1 0 1 R e a is P e rc e n tu al d e In d iv íd u o s Esse gráfico apresenta a distribuição da renda dos funcionários da empresa X. A partir desta figura, você pode verificar a dispersão dos dados, bem como se há uma concentração em um determinado valor. Para a leitura do histograma, é importante saber o significado dos eixos: Eixo vertical: Variável estudada (renda dos funcionários) Eixo horizontal: Percentual do número de pessoas (funcionários). Formato: O lado direito enviesado, ou seja, existe uma quantidade maior de funcionários com salários mais baixos. 3.1 - Curva de densidade: Como retratar a distribuição de uma variável contínua O gráfico abaixo representa o histograma mostrando a distribuição dos pesos em kg dos habitantes adultos de uma cidade Y, selecionados aleatoriamente da população. Gráfico 2 – Histograma do peso de 5.000 habitantes adultos de uma cidade Y 30 40 50 60 70 80 90 100 0.000 0.015 0.030 P eso D e n s id a d e Os valores no eixo vertical indicam a frequência ou número de casos em percentual. Os valores no eixo horizontal são os pesos dos habitantes da cidade Y. Com o histograma é possível verificar a distribuição do peso dessa população. É possível verificar que a distribuição dos valores é simétrica em torno de 70kg, e que a maioria dos valores (88%) estão no intervalo entre 55kg e 85kg. Além disso, é possível visualizar que há um pequeno percentual de valores abaixo de 48kg (1,2%) e acima de 92kg (1,0%). Para uma variável contínua com muitos valores o número de barras será muito grande, e vai se parecer com uma curva suave contínua. Esta curva é chamada de curva de densidade ou distribuição de probabilidade. A curva descreve a forma da distribuição e depende da média e do desvio padrão da população em estudo. Uma variável contínua pode ser caracterizada por uma função de densidade de probabilidade f(X) com as seguintes propriedades: Supondo o seguinte gráfico: Figura 1 – Distribuição de X a b X f(X) As propriedades da distribuição Normal são: 1) A área sob a curva de densidade é igual a 1; 2) P(a X b) = área sob a curva da densidade f(x) e acima do eixo X, entre os pontos a e b; 3) f(x) 0, para todo X; 4) P(X = x0) = 0, para x0 fixo. Dessa forma, P(a < X < b) = P(a X < b) = P(a < X b) = P(a X b). As probabilidades de uma distribuição são encaradas como área, como proporções de uma figura que tem sempre área igual à unidade. Assim, calcular uma probabilidade é investigar o tamanho da sua correspondente área na figura. Se tiver área zero, tem probabilidade nula de ocorrência. Quanto maior a área, maior a probabilidade associada. Neste sentido, a probabilidade de uma variável X assumir exatamente um valor será sempre igual a zero, uma vez que apenas um valor está associada a uma área nula. As probabilidades, então, serão calculadas sempre para intervalos de variação de X, por exemplo: P(a X b), P( X c), P(X < b), etc. 3.2 – A distribuição Normal A Normal é a distribuição mais importante nas ciências sociais. Ela é descrita pela curva em forma de sino definido pela função de densidade de probabilidade. A curva resultante é mostrada na Figura 2, em que o eixo horizontal indica o valor de X, em termos de valores inteiros positivos e negativos do desvio padrão (), e o eixo vertical é uma função de X (f(X)) que vai representar a distribuição da variável (em %). A forma de sino da curva é típica de variáveis de distribuição normal, mesmo quando elas têm diferentes médias e variâncias. Figura 2 – Curva Normal A distribuição normal tem duas características significativas: 1) a curva é perfeitamente simétrica em relação à média da distribuição. Como resultado, a distribuição média é idêntica para as duas medidas alternativas de tendência central, ou seja, a moda (o valor mais frequente dos X) e a mediana. 2) a função matemática (f(X)) fornece a base para especificar o número de observações que devem ser abrangidas dentro da curva. Em particular, cerca de 68,3% das observações provavelmente caem dentro de 1 desvio padrão () da média (µ). Além disso, cerca de 95,4% das observações caem dentro de 2 desvios padrão (2) acima e abaixo da média (µ), e cerca de 99,7% caem dentro de 3 desvios padrão (3) abaixo e acima da média (µ). A notação desse modelo é: X ~ N(, 2) Ou seja, a variável aleatória X tem distribuição aproximadamente Normal, com média e variância 2. Sendo a variância o desvio padrão () ao quadrado. A média (µ) é, como visto na Aula 5, uma medida de posição, portanto determina onde se localiza o ponto representativo do seu conjunto de valores dentro do conjunto dos números reais. Mudar a média de uma curva normal significa deslocar o seu centro ao longo do eixo dos números reais, conforme pode ser visto na Figura 3. Neste modelo, a média, a mediana e a moda coincidem. Figura 3 – Curvas Normais com mesma Variância (2) e Médias diferentes (µ2 > µ1) 1 2 N( 1 ; 2) N( 2 ; 2) x Já a variância (2) é uma medida da dispersão e, portanto, os valores daquela variável variam muito (e se distanciam muito entre si) ou pouco. Assim, como a área sob a curva é sempre igual a 1, a variância determina a forma da curva: quanto maior a variância, maior a variabilidade dos valores e a curva deve ser mais achatada, esticando suas pontas. Se a variância (variabilidade) for pequena, a curva deve se concentrar mais em torno da média. Observe o exemplo na Figura 4. Figura 4 – Curvas Normais com mesma Média (µ) e Variâncias diferentes (22 > 2 1) N(;1 2) N(;2 2) 2 2 > 1 2 3.3 – Normal Padronizada O cálculo matemático das probabilidades em uma distribuição Normal não é muito simples, envolvendo noções matemáticas mais complexas. Mas existe uma maneira mais simples de achar a probabilidade ou a área sob a curva de densidade: através da curva Normal Padrão e de seus valores tabelados, ou seja, aquela onde Z ~ N(0,1) com média zero e variância (ou desvio padrão) igual à unidade. O problema é como calcular probabilidades de uma distribuição Normal qualquer, X ~ N(,2) , a partir dos valores tabelados para Z ~ N(0,1), a normal padrão. Isso é feito através do processo de padronização, onde: )1,0(~N X Z Assim, tirando de X a sua média e dividindo por seu desvio padrão, teríamos Z como uma distribuição normal padrão, cuja probabilidade pode ser retirada de uma tabela especialmente desenvolvida para ela. 3.3.1 – A Tabela de Probabilidades da Normal Padrão Para obter a probabilidade de X estar em um intervalo, você pode trabalhar com os valores mais precisos a partir da tabela que está no Anexo desta aula. Essa tabela mostra os valores da probabilidade encontrados na área da curva de densidade de uma N(0,1) variando de 0 a Z, conforma e a Figura 5. Figura 5 – Curva Normal Padronizada 0 z Z Onde o eixo horizontal é o valor de Z após o processo de padronização, visto acima, e a área sombreada é igual a P(0 Z < z), que representa a probabilidade de Z estar neste intervalo. Exemplo 1: Na curva normal padrão para a direita, a média é de 0 e o desvio padrão é 1. A área sombreada no gráfico representa a área que está dentro de 1,45 desvios padrão acima da média. 0 1,45 Z Para obter esta área (ou a probabilidade), lemos os dois primeiros dígitos do desvio padrão (o número inteiro e o primeiro número depois do ponto decimal, neste caso 1,4) para o lado esquerdo da tabela, procurando este número (1,4) na primeira coluna da tabela, descobrirá a linha de interesse. Em seguida, procuramos na linhasuperior, que representa a segunda casa decimal do desvio padrão que estamos interessados, o restante do número e a coluna de interesse, neste caso o "0,05". Tendo achado a linha e a coluna de interesse, nós achamos a probabilidade desejada. Assim, a área desta parte sombreada é 0,4265 (ou 42,65% da área total sob a curva). Logo, P(0 Z < 1,45) = 0,4265 ATIVIDADE 1 (Atende ao objetivo 1) Supondo que a variável Z possua uma distribuição normal padrão, então encontre as seguintes probabilidades: a) P(Z > 1) b) P(Z < 1) c) P(1 < Z<1,5) RESPOSTA DA ATIVIDADE 1 A primeira informação a ser considerada para o cálculo da probabilidade é a distribuição da variável Z. Neste caso, Z ~ N(0,1), ou seja, é uma normal padrão. Tendo Z essa distribuição, então será possível utilizar a Tabela de Probabilidades da Normal Padrão. a) P(Z > 1) 0 1 Z ? A Tabela mostra os valores da probabilidade no intervalo entre 0 e z. Para achar o valor desejado (maior do que 1), temos que encontrar a área de 0 a 1, isto é, a P(0<Z<1) na Tabela de Probabilidades da Normal Padrão. Considerando que toda a área do gráfico é igual a 1, e que o gráfico é simétrico em torno da média, neste caso o zero (0), então, a área acima de 0, ou seja, a P(Z>0) será igual a 0,5 (bem como a área abaixo de 0). Tendo essas informações, poderemos encontrar a probabilidade desejada. P(0<Z<1) = 0,3413 P(Z>0) = 0,5 Logo, P(Z>1) = P(Z>0) – P(0<Z<1) = 0,5 – 0,3413 = 0,1587 b) P(Z < 1) 0 1 Z Seguindo a mesma lógica da letra a), temos que encontrar a probabilidade que representa a área do gráfico abaixo do valor 1, ou seja, P(Z<1). Para tanto, já sabemos que a Tabela nos disponibiliza a área no intervalo P(0<Z<1), e que a P(Z<0) é igual a 0,5. Então, já podemos calcular a probabilidade pedida. P(0<Z<1) = 0,3413 P(Z<0) = 0,5 Logo, P(Z<1) = P(Z<0) + P(0<Z<1) = 0,5 + 0,3413 = 0,8413 c) P(1 < Z<1,5) 0 1 Z ? 1,5 Agora a área de interesse encontra-se em um intervalo em que teremos um pouco mais de trabalho para encontrar a probabilidade. De qualquer forma, continuamos a trabalhar com áreas. Lembre-se que a Tabela só nos disponibiliza os valores da probabilidade ou da área no intervalo de 0 a z. Então, para encontrar a área entre 1 e 1,5, teremos que primeiro achar a área de 0 a 1,5, ou seja, P(0<Z<1,5). Em seguida, buscaremos a área do intervalo entre 0 a 1, P(0<Z<1). Se pensarmos graficamente, há uma sobreposição nos dois intervalos que acabamos de citar, ou seja, entre os valores de 0 a 1. Como o nosso objetivo é obter apenas a área de 1 a 1,5, então eliminamos a sobreposição desses valores, subtraindo essas duas probabilidades. Com isso, o valor restante será a área que corresponde a probabilidade de Z estar entre 1 e 1,5. P(0<Z<1,5) = 0,4332 P(0<Z<1) = 0,3413 Logo, P(1<Z<1,5) = P(0<Z<1,5) - P(0<Z<1) = 0,4332 - 0,3413 = 0,0919 FIM DA ATIVIDADE 1 Muitas das variáveis analisadas em pesquisas correspondem à distribuição normal ou dela se aproximam. Quando temos em mãos uma variável com distribuição normal, nosso principal objetivo é obter a probabilidade dessa variável assumir um valor em um determinado intervalo. As variáveis com distribuição normal na vida prática podem assumir todo e qualquer valor real, e em geral não são padronizadas. Isso significa que para acharmos as suas probabilidades, temos que fazer uma transformação na variável, conforme vimos acima, a partir da seguinte fórmula: )1,0(~N X Z Dessa forma, sempre que tivermos uma variável X~ N(,2), e precisarmos calcular a probabilidade de uma área (ou intervalo), aplicamos a fórmula acima, e transformamos cada valor de X no intervalo interessado em Z (normal padronizada). Tendo encontrado os respectivos Zs, podemos consultar a Tabela da Normal e localizar a probabilidade e realizar o cálculo da área. Exemplo 2 Suponha que X possua uma distribuição normal com média 5 e desvio padrão 2. Encontre a P(1 < X < 8) Primeiro temos que transformar a variável original X na variável padronizada Z: 2 2 4 2 51 1 z 5,1 2 3 2 58 2 z Agora sabemos que: P(1<X<8) = P(-2<Z<1,5) 51 8 0 X Z ? -2 1,5 Após a transformação, podemos procurar os valores da área na Tabela. Como você já sabe, a Tabela só disponibiliza as probabilidades da variável Z no intervalo de 0 a z. Neste caso, temos dois intervalos, um que vai de -2 a 0, e outro que vai de 0 a 1,5. Se você olhar a Tabela, não vai encontrar nenhum valor negativo, mas como uma das propriedades da Normal é ser simétrica em torno da média, então, o intervalo que vai de -2 a 0 é igual ao intervalo entre 0 e 2, ou seja, P(-2<Z<0) = P(0<Z<2). Assim, P(-2<Z<0) = P(0<Z<2) = 0,4773 P(0<Z<1,5) = 0,4332 P(1<X<8) = P(-2<Z<1,5) = P(-2<Z<0) + P(0<Z<1,5) = 0,4773 + 0,4332 = 0,9105 Exemplo 2 Imagine uma população em que o peso dos indivíduos seja distribuído normalmente com média 68 kg e desvio padrão 4 kg. Determine a proporção de indivíduos a) abaixo de 66 kg P (X<66) = ? Começamos fazendo a transformação da variável X para Z. 5,0 4 2 4 6866 1 z Agora sabemos que: P(X<66) = P(Z<-0,5) 6866 0 X Z ? -0,5 Considerando o valor de Z e o intervalo desejado, podemos encontrar a área da curva. Tendo em vista que a probabilidade de Z estar abaixo de 0 é igual a 0,5, já que a curva Normal é simétrica em torno da média, então podemos achar a probabilidade desejada: P(Z<0) = 0,5 P(-0,5<Z<0) = P(0<Z<0,5) = 0,1915 P(X<66) = P(Z<-0,5) = P(Z<0) – P(-0,5<Z<0) = 0,5 – 0,1915 = 0,3085 b) acima de 72 kg P(X>72) = ? Primeiro vamos fazer a transformação da variável X em Z: 1 4 4 4 6872 1 z Agora sabemos que: P(X>72) = P(Z>1) 68 72 X ? Z0 1 Tendo o valor de Z, podemos consultar a Tabela Normal e encontrar a área da curva. P(Z>0) = 0,5 P(0<Z<1) = 0,3413 P(X>72) = P(Z>1) = P(Z>0) – P(0<Z<1) = 0,5 – 0,3413 = 0,1587 c) entre 66 e 72 kg P(66<X<72) Começamos achando os valores de Z 5,0 4 2 4 6866 1 z 1 4 4 4 6872 2 z P(66<X<72) = P(-0,5<Z<1) 6866 72 0 X Z ? -0,5 1 Para achar o valor da área da curva é preciso localizar as probabilidades na Tabela e soma-las. P(-0,5<Z<0) = P(0<Z<0,5) = 0,1915 P(0<Z<1) = 0,3413 P(66<X<72) = P(-0,5<Z<1) = P(-0,5<Z<0) + P(0<Z<1) = 0,1915 + 0,3413 = 0,5328 ATIVIDADE 2 (Atende aos objetivos 1 e 2) Cada ano milhares de estudantes universitários americanos fazem o Graduate Record Examination (GRE) para poderem ter acesso à pós-graduação (se você pretende estudar nos EUA, prepare-se para esse tormento). Os escores desse exame são transformados de forma a terem sempre média 500 e desvio-padrão 100. Além disso, sabe-se que esses escores são distribuídos como uma Normal. Determinar a probabilidade de estudantes que tem escore: a) entre 350 e 625; b) entre 550 e 700; c) 375 ou mais. RESPOSTA DA ATIVIDADE 2 a) P(350<X<625)=? 5,1 100 150 100 500350 1 z 25,1 100 125 100 500625 2 z P(350<X<625) = P(-1,5<Z<1,25) 500350 625 0 X Z ? -1,5 1,25 Utilizando a Tabela, temos: P(-1,5<Z<0) = (0<Z<1,5) = 0,4332 P(0<Z<1,25) = 0,3944 P(350<X<625) = P(-1,5<Z<1,25) = 0,4332 + 0,3944 = 0,8276 b) entre 550 e 700; P(550<X<700)=? 5,0 100 50 100 500550 1 z 2 100 200 100 500700 2 z P(550<X<700) = P(0,5<Z<2) 500 550 700 0 X Z ? 0,5 2 Utilizando a Tabela da Normal Padrão temos: P(0<Z<0,5) = 0,1915 P(0<Z<2) = 0,4773 P(550<X<700) = P(0,5<Z<2) = P(0<Z<2) – P(0<Z<0,5) = 0,4773 – 0,1915 = 0,2858 c) 375 ou mais P(X>375)=? 25,1 100 125100 500375 1 z P(X>375) = P(Z>-1,25) 375 550 0 X Z ? -1,25 Localizando as probabilidades na Tabela, podemos calcular a área da curva. P(-1,25<Z<0) = P(0<Z<1,25) = 0,3944 P(Z>0) = 0,5 P(X>375) = P(Z>-1,25) = P(-1,25<Z<0) + P(Z>0) = 0,3944 + 0,5 = 0,8944 FIM DA ATIVIDADE 1 Conclusão Entre os estatísticos e os pesquisadores se falam muito sobre a distribuição Normal, mas o que exatamente isso significa? Uma distribuição normal é uma ideia teórica que é baseada na distribuição de dados reais. A distribuição Normal é, em geral, o tipo ideal de dado a ser trabalhado em uma pesquisa, devido as suas propriedades e a facilidade no cálculo das probabilidades. A Normal possui uma curva em formato de sino, simétrica em torno da média. A média, a mediana e a moda são iguais e coincidem com o pico da curva. As frequências diminuem gradualmente em ambas as extremidades da curva. Uma das características mais notáveis da distribuição Normal é a sua forma e simetria perfeita. Note que se você dobrar o gráfico da distribuição Normal exatamente ao meio, você terá uma imagem de espelho, uma vez que as duas metades são iguais. Resumo O modelo Normal define que uma certa variável assumirá valores em todo o conjunto dos números reais, ou seja, desde menos infinito até mais infinito. Este modelo segue algumas propriedades: - A variável aleatória X pode assumir todo e qualquer valor real; - A representação gráfica da distribuição normal é uma curva em forma de sino, simétrica em torno da média , que recebe o nome de Curva Normal; - A área total limitada pela curva e pelo eixo das abscissas é igual a 1, já que essa área corresponde à probabilidade de a variável X assumir qualquer valor real; - Como a curva é simétrica em torno de , a probabilidade de ocorrer valor maior do que a média é igual à probabilidade de ocorrer valor menor do que a média, isto é, ambas as probabilidades são iguais a 0,5. P(X>) = P(X<)=0,5 Para facilitar o cálculo das probabilidades, é possível transformar a variável original X na variável padronizada Z. )1,0(~N X Z A distribuição Normal padrão Z tem uma média igual a 0 e uma variância e desvio padrão igual a 1. Os escores padronizados também são chamados de escores z. A distribuição Z ou distribuição Normal Padrão tem sido extensivamente utilizada por possuir suas probabilidades tabuladas. Nessa tabela: i) os z são representados por pontos sobre o eixo horizontal. ii) a área sob a curva representa a proporção de pontuação dentro de um intervalo, ou a porcentagem dos escores dentro de um intervalo, ou a probabilidade de selecionar pontuações dentro de um intervalo. Leitura Recomendada AGRESTI, Alan; Barbara FINLAY. Métodos Estatísticos para Ciências Sociais. Ed. Penso, 2012 BARBETTA, Pedro Alberto. Estatística aplicada às ciências sociais. Ed. UFSC, 2008. Informações sobre a próxima aula Na próxima aula você aprenderá sobre distribuição amostral e intervalo de confiança. Você vai aprender a calcular estimativas intervalares, com erros para baixo e para cima. Serão apresentados alguns exemplos de intervalos de confiança para discussão.