Baixe o app para aproveitar ainda mais
Prévia do material em texto
Probabilidade Probabilidade ee DistribuicoesDistribuicoes Prof. Tania Guillén de Torres E-mail: tguillen@iesc.ufrj.br ProbabilidadesProbabilidades:: A probabilidade de um evento A mede de alguma maneira, quão verossímel é a ocorrência do evento A. Probabilidade ClProbabilidade Cláássicassica É aplicada quando o espaço amostral Ω é finito e os eventos elementares são equiprováveis; isto é, eles têm a mesma probabilidade de ocorrer. Seja A um evento qualquer do espaço amostral Ω. Define-se a probabilidade de A como a razão entre o número de resultados favoráveis ao evento e o número total de resultados possíveis, onde todos os resultados possíveis têm a mesma chance de ocorrer. Essa interpretação é difícil de ser utilizada como regra geral, até pela dificuldade de garantir que os resultados tenham a mesma chance de ocorrência. possíveis resultados de número A de ocorrência à favoráveis resultados de número)( =AP Probabilidade Probabilidade FreqFreqüüentistaentista Em situações onde os elementos do espaço amostral não são igualmente prováveis, a probabilidade de ocorrer o evento A pode ser calculada através da noção de freqüência relativa. Se um experimento E for repetido um grande número de vezes, n, e se algum evento A ocorre nA vezes, a freqüência relativa do evento A é definida por: oexperiment do repetições de totalNº ocorreuA que vezesNº =f A ProbabilidadesProbabilidades:: Exemplo: estimar a P(Recem nascido ser do sexo masculino) Total Região N p N p N São José de Ubá 43 0,5375 37 0,4625 80 Masculino Feminino Total Região N p N p N São Sebastião do Alto 53 0,48624 56 0,51376 109 Masculino Feminino Total Região N p N p N São José de Ubá 43 0,5375 37 0,4625 80 Comendador Levy Gasparian 54 0,54545 45 0,45455 100 São Sebastião do Alto 53 0,48624 56 0,51376 109 Macuco 57 0,50893 55 0,49107 112 Rio das Flores 48 0,43243 63 0,56757 113 Paraíba do Sul 267 0,55165 217 0,44835 490 Saquarema 509 0,52746 456 0,47254 965 330330 Niterói 3159 0,51441 2982 0,48559 6152 Municipio de Rio de Janeiro 44603 0,50971 42904 0,49029 87909 Estado de Rio de Janeiro 118350 0,51099 113259 0,48901 232255 Região Sudeste 604187 0,51198 575907 0,48802 1181131 Total 1554918 0,51251 1479019 0,48749 3038251 Masculino Feminino ProbabilidadesProbabilidades: : P(Recem nascido ser do sexo masculino) À medida que o número de repetições do experimento aumenta, a freqüência relativa de ocorrência de algum evento A tende a se estabilizar e será igual à probabilidade de ocorrência de A. Esta característica é conhecida como regularidade estatística. ERJ - Frequencia relativa do recem nascido sexo masculino por número de nascidos vivos. 0,49 0,50 0,51 0,52 0,53 0,54 0,55 0 50000 100000 150000 200000 250000 ( % ) 0 . 2 . 4 . 6 . 8 1 D e n s i t y 0 2 4 6 8 Peso em Kgr 0 . 2 . 4 . 6 . 8 1 D e n s i t y 1 2 3 4 5 Peso em Kgr 0 . 2 . 4 . 6 . 8 D e n s i t y 1 2 3 4 5 Peso em Kgr Distribuição do Peso ao nascer para diferentes tamanhos de amostra n = 80 n = 800 n = 80 000 Probabilidade SubjetivaProbabilidade Subjetiva Esta interpretação expressa na probabilidade a confiança que determinado indivíduo tem acerca da verdade de uma proposição, incorporando o conhecimento que ele dispõe sobre o evento. Exemplo: Pela sua experiência, um cirurgião pode tranqüilizar os familiares de um paciente que será submetido a uma cirurgia delicada, com base na sua confiança no sucesso. Exemplo: Foi realizado um estudo prospectivo de um ano, de 477 pacientes tratados por acidentes com corpos estranhos (CE) otorrinolaringológicos pelo serviço de ORL / EPO– HMSA / RJ, observando-se a seguinte distribuição: Qual a probabilidade de que um paciente escolhido ao acaso seja tratado por um acidente com CE auricular (CE-A), sabendo que ele é do sexo masculino? E se for do sexo feminino? Tipo de Corpo Sexo Extranho Masculino Femenino Total Nasal 130 99 229 Auricular 71 75 146 Faríngeo 47 55 102 Total 248 229 477 Probabilidade CondicionalProbabilidade Condicional A probabilidade de um evento A ocorrer, dado que se sabe que um outro evento B ocorreu, é chamada de probabilidade condicional do evento A dado B. Ela e denotada por )( )()|( BP BAPBAP ∩= Tipo de Corpo Sexo Extranho Masculino Femenino Total Nasal 130 99 229 Auricular 71 75 146 Faríngeo 47 55 102 Total 248 229 477 Exemplo: Foi realizado um estudo prospectivo de um ano, de 477 pacientes tratados por acidentes com corpos estranhos (CE) otorrinolaringológicos pelo serviço de ORL / EPO– HMSA / RJ, observando-se a seguinte distribuição: Qual a probabilidade de que um paciente escolhido ao acaso seja tratado por um acidente com CE auricular (A), sabendo que ele é do sexo masculino (M)? E se for do sexo feminino? ( )( ))()|( MP MAPMAP ∩= 29.0 477/248 477/71 == Probabilidade CondicionalProbabilidade Condicional A probabilidade de um evento A ocorrer, dado que se sabe que um outro evento B ocorreu, é chamada de probabilidade condicional do evento A dado B. Ela e denotada por )( )()|( BP BAPBAP ∩= ( ( )()|() )()|() APAMPMAP ou MPMAPMAP ×=∩ ×=∩ Observe que a partir desta definição a probabilidade da interseção A ∩ B pode ser expressa como: ESTUDOS DE COORTE Seleciona expostos e não expostos e compara a ocorrência do desfecho depois de um período de seguimento Presente Futuro Expostos Não Expostos Doentes? anodoinicionovivosdenúmero anonoDoentesdenúmeroRDoença=Risco de doença Aplicações do Conceito de Probabilidades CondicionaisAplicações do Conceito de Probabilidades Condicionais N IRiscoR == 42,1 0065,0 0092,0 min /: === R R RR morte morte inofe masculino femmascmorte Estudo de Coorte anodoinicionovivosdenúmero anonomortesdenúmero RMorte= Sexo Óbitos Pop_Resident Probabilidade de Morte Razao de Prob Masc 65934 7136931 0.009238425 1.421702489 Fem 50310 7742213 0.006498142 Total 116318 14879144 0.00781752 ERJ – Probabilidade de Morte por todas as causas segundo o sexo - 2003 0092,0 7136931 65934 ==Rmortemasculino 0065,0 7742213 50310 min ==Rmorte inofe Razão de Riscos: Probabilidade Idade Masculino Feminino RR Menor 1 ano 0.018031028 0.014716583 1.225218341 1 a 4 anos 0.000727395 0.000613201 1.186226949 5 a 9 anos 0.000361247 0.000234514 1.540407538 10 a 14 anos 0.000485368 0.000256744 1.890472989 15 a 19 anos 0.002821425 0.00053035 5.319928537 20 a 29 anos 0.004154793 0.000826367 5.027782956 30 a 39 anos 0.003988123 0.001491504 2.673893031 40 a 49 anos 0.007289989 0.003555948 2.050083484 50 a 59 anos 0.014945402 0.007884982 1.895426295 60 a 69 anos 0.029601933 0.016255489 1.821042227 70 a 79 anos 0.063303795 0.039493554 1.602889291 80 anos e mais 0.140738117 0.116693236 1.206052052 ERJ – Razão de Probabilidade de Morte por todas as causas, por sexo segundo faixa etária - 2003 ESTUDOS CASO-CONTROLE Seleciona casos com doença doença e controles sem doença e compara a freqüência da exposição PresentePassado Casos Controles � Expostos � Não Expostos Aplicações do Conceito de ProbabilidadesAplicações do Conceito de Probabilidades 0091,0 009,01 009,0 )(1 )( = − = − = + + D D P P odds 4217,1 006,01 006,0 009,01 009,0 )|(1 )|( )|(1 )|( = − − = − − == −+ −+ ++ ++ − + eD eD eD eD odds odds P P P P e eOR Estudos Caso-Controle Sexo Óbitos Pop_Resident Probabilidade de Morte OR Masc 65934 7136931 0.009238425 1.421702489 Fem 50310 7742213 0.006498142 Total 116318 14879144 0.00781752 ERJ – Probabilidade de Morte por todas as causas - 2003 Odds = Chance OR -Razão de Chances Aplicações do Conceito de ProbabilidadesAplicações do Conceito de Probabilidades )( )( )(1 )( − + = +− + = + FP FP FP FP odds F 11.0048 9167,0 0833,0 5000,0 5000,0 )|( )|( )|( )|( ==== −− −+ +− ++ + + − + + CaF CaF CaF CaF odds odds OR P P P P F F F Ca Ca Odds de Fumo ERJ – Probabilidade de Fumar nos grupos com e sem Ca. Laringe n p n p n % Não (CA-) 330 0,9167 30 0,0833 3600,50 Sim (Ca+) 180 0,50 180 0,50 360 0,50 Total 510 0,7083 210 1.00 720 1,00 Cancer de Laringe - Ca Fumo (F) Total Não (F-) Sim (F+) Estudos Caso-Controle Aplicações do Conceito de ProbabilidadesAplicações do Conceito de Probabilidades ERJ – Probabilidade de Ca. Laringe nos grupos fuma e não fuma n % n % n % Não 330 64,71 30 14,29 360 50 Sim 180 35,29 180 85,71 360 50 Total 510 100,00 210 100,00 720 100 Cancer de Laringe Fumo Total Não Sim )(1 )( Ca Ca odds P P Ca + + − = + 11.0048 6471,0 3529,0 1429,0 8571,0 )|( )|( )|( )|( / / ==== −− −+ +− ++ + + + − + FCa FCa FCa FCa odds odds OR P P P P Ca Ca Ca F F Estudos Caso-Controle Odds de Câncer de Laringe: Razão de Odds de Câncer de Laringe: INQUINQUÉÉRITO OU ESTUDO SECCIONALRITO OU ESTUDO SECCIONAL Estimam a prevalência da doença na população total, ou em estratos dessa população. Disfonia em professores do ensino municipal: prevalência e fatores de risco A disfonia é um sintoma muito freqüente em professores, profissionais para os quais a voz é elemento indispensável. Objetivos: � Observar a prevalência deste sintoma em professores de pré-escola e da escola primária. Casuística e Método: • Estudo transversal consistindo de questionários respondidos por 451 professores (pré-escola e quatro primeiras séries do ensino fundamental) de 66 escolas municipais de Mogi das Cruzes Disfonia em professores do ensino municipal: prevalência e fatores de risco Resultados: 80,7% dos professores referiram algum grau de disfonia. Não observamos relação entre idade, tempo de profissão e classe atendida e freqüência referida de disfonia. n p n p n p Pré-escola 40 0,20 228 0,80 268 0,61 EnsinoFund. 42 0,25 129 0,75 171 0,39 Total 82 0,19 357 0,81 439 1,00 Cancer de Laringe Disfonia Total Não Sim 07,1 75,0 80,0Pr === − P P RP Disf Disf Disf EnsinoFund escolaéP = Prevalência da doença RP = Razão de Prevalência Exemplo de Dependência Estatística: As probabilidades de morte por câncer de pulmão podem ser melhor preditas, se são conhecidos os hábitos de fumo dos indivíduos. Suponha que as probabilidades são de 0.015 para os fumantes e 0.005 para os não fumantes, então essas probabilidades são condicionais e dependentes ao tabagismo (exposição). Fuma Morte Sobrevida Total E + (sim) 0.006 0.394 0.4 E - (não) 0.003 0.597 0.6 Total 0.009 0.991 1 Exemplo de Dependência Estatística: Fuma Morte Sobrevida Total E + (sim) 0.006 0.394 0.4 E - (não) 0.003 0.597 0.6 Total 0.009 0.991 1 No exemplo, a probabilidade de morte difere de acordo com a exposição ou não ao fumo. P(M|E+) = 0,015 ≠≠≠≠ P(M|E-) = 0,005) � logo os eventos “Morte” e “Fumo” são eventos dependentes. Independência Estatística: Se a probabilidade de morte é a mesma se o indivíduo está exposto ou não a algum fator, diz-se que a morte e o fator de exposição são estatisticamente independentes. Dois eventos são independentes se a ocorrência ou não ocorrência de um deles não afeta a probabilidade de ocorrência ou não ocorrência do outro. Exemplo: Suponha agora o estudo de câncer (M = morte, S = sobrevida) e cor dos cabelos (L = louro, NL = não louro). Obs: Câncer e cor natural dos cabelos seriam eventos independentes, pois P(M|L) = P(M|NL) = 0,009 Teorema de Bayes e Testes Diagnósticos Uma aplicação muito útil e freqüente envolvendo probabilidade condicional é o Teorema de Bayes. Para entendê-lo melhor, primeiro será feita uma aplicação prática para então formalizá-lo. Suponha um teste com os valores de sensibilidade e especificidade conhecidos. Sensibilidade = S = P (ΤΤΤΤ++++||||D++++) ���� Probabilidade do teste ser + no grupo de D+ Especificidade = E = P (ΤΤΤΤ −−−− | | | | D −−−− ) ���� Probabilidade do teste ser - no grupo de D- Prevalência = p = P (D++++) ���� (probabilidade de doença ou probabilidade a priori) A pergunta é: Dado que o teste teve um resultado positivo, qual a probabilidade de estar doente efetivamente? Chama-se esta probabilidade de valor preditivo positivo (VPP). VPP = Valor preditivo positivo = P (D++++|T++++) Pela definição de probabilidade condicional, P (D++++|T++++) = P (D++++ ∩∩∩∩ T++++) / P (T++++). Probabilidade do teste ser positivo, P(T++++) = P(T++++∩∩∩∩ D++++) + P(T++++ ∩∩∩∩ D−−−−) = P(T++++|D++++)××××P(D++++) + P(T++++|D−−−−)××××P(D−−−−) = p ×××× S + (1 – p) ×××× (1 – E) Aplicando a lei da multiplicação no numerador da relação acima, P (D+ + + + ∩∩∩∩ T++++) = P (T++++|D++++) ×××× P (D++++) = p ×××× S = Sensibilidade x Prevalência da doença. Agora, com todos os termos conhecidos, pode-se reescrever ou DPDTPDPDTP DPDTP TP TDPTDPVPP )( )|()( )|( )( )|( )( )()|( −−−−−−−−++++++++++++++++ ++++++++++++ ++++ ++++++++ ++++++++ ++++ ==== ∩∩∩∩ ======== )1).(1(. .)|( pEpS pSTDPVPP −−−−−−−−++++ ======== ++++++++ )1()1( )1()|( SpEp EpTDPVPN −−−−××××++++××××−−−− ××××−−−− ====−−−−−−−−==== De forma análoga podemos obter uma expressão para o valor de predição negativo Decisões Incorretas: Probabilidade de Falso Positivo: PFP = P(D - | T+) = 1 - P(D+ | T+) = 1 – VPP Probabilidade de Falso Negativo: PFN = P(D+ | T-) = 1 - P(D - | T-) = 1 – VPN Exemplo: Exemplo: Teste ELISA para detecTeste ELISA para detecçãção do HIVo do HIV (Ref. F. Soares) Durante o mês de julho de 1985, a imprensa, através de editoriais, tratou freqüentemente do assunto Aids. Um dos pontos em questão era o teste que detecta a presença do vírus HIV. A versão do laboratório Abbott do teste produziu 37 resultados positivos em 17420 amostras de sangue de pessoas sadias; e 123 positivos em 129 pacientes, comprovadamente, com Aids. Calcule a sensibilidade e a especificidade do teste. S = P(T++++|D++++) = 123/129 = 0,9535, e E = P (ΤΤΤΤ −−−− | | | | D −−−− ) = (17420-37)/ 17420 = 17383/17420 = 0,9979 Se a prevalência da Aids fosse de 15/100000, qual seria o valor de predição positiva do teste? E o valor de predição negativa do teste? Doença Resultado do Teste D+ D- Total T+ 0,000143025 0,000006975 0,00224271 T - 0,002099685 0,997750315 0,99775729 P(T+) = P(T+ ∩ D+) + P(T+ ∩ D-) = 0,000143025+ 0,002099685 = 0,00224271 VPP = P(D+ | T+) = 06377,00,00224271 50,00014302 )( )( ======== ++++ ++++∩∩∩∩++++ TP DTP P(T-) = P(T- ∩ D+) + P(T- ∩ D -) = 0,000006975+ 0,997750315= 0,99775729 VPN = P(D- | T-) = 99999,0 0,99775729 50,99775031 )( )( ======== −−−− −−−−∩∩∩∩−−−− TP DTP Doença Resultado do Teste D+ D- Total T+ 0,000143025 0,000006975 0,00224271 T - 0,002099685 0,997750315 0,99775729 Exemplo: Teste ELISA para detecExemplo: Teste ELISA para detecçãção do HIV cont...o do HIV cont... Valores de Predição (VPP E VPN) e proporção de falsos resultados (PFP e PFN) e proporção de falsos resultados (PFP e PFN) do teste Elisa para detecção do HIV, versão ABBOTT, para diferentes possíveis valores da prevalência (Ref. Fco. Soares, 1995). Prevalência VPP(%) VPN(%) PFP(%) PFN(%) 1/100000 0,47 100,00 99,53 0,00 1/10000 4,54 100,00 95,46 0,00 1/1000 32,21 99,99 67,79 0,01 1/500 48,77 99,99 51,23 0,01 1/200 70,47 99,99 29,53 0,01 1/100 82,75 99,99 17,25 0,01 1/50 90,65 99,89 9,35 0,11 HIV/AIDS: Doença de prevalência pequena Valor de Predição Positiva é pequena Valor de Predição Negativa é alto Uso do teste em larga escala poderia resultar em testes falsos positivos Resultado positivo deve ser reconfirmado através de teste baseado em tecnologia diferente do ELISA. VariVariááveis Aleatveis Aleatóórias e Distribuirias e Distribuiçõções de Probabilidadeses de Probabilidades A partir da realização de um experimento, pode-se estar interessado não apenas no resultado observado, como também em alguma função do espaço amostral em questão. Essas funções definidas no espaço amostral são chamadas de variáveis aleatórias. Exemplo: Num estudo sobre obesidade em adultos, um experimento consiste em observar o peso ea altura dos indivíduos. Se I for o Índice de Massa Corporal ( ), então I é uma variável aleatória que pode assumir qualquer valor real maior que zero. Como os valores de uma variável aleatória são determinados pelo resultado de um experimento, pode-se associar probabilidades aos valores possíveis de um variável aleatória. As variáveis aleatórias podem ser classificadas como discretasdiscretasdiscretasdiscretas ou contcontcontcontíííínuasnuasnuasnuas. É desejado prever, de alguma forma, o valor que a variável aleatória X irá assumir (ou conhecer o comportamento da distribuição), embora essa predição envolva um grau de incerteza. Diante disso, relaciona-se os valores de uma variável aleatória e a probabilidade de suas ocorrências. Duas funções são utilizadas para este fim: a função de densidade de probabilidade e a função de distribuição acumulada. No caso de variáveis aleatórias discretas, a função de densidade chama-se simplesmente distribuição de probabilidades e mede a probabilidade de que a v. a. X assuma um valor específico x ( P(X = x) ). Suponha X = número de crianças por família em uma amostra de 50 famílias. A tabela a seguir especifica todos os valores possíveis para X e as respectivas probabilidade de ocorrência e função de distribuição acumulada, estimadas a partir das freqüências relativas na amostra observada. X Freqüência observada P(X = x) P(X <= x) 0 3 0,06 0,06 1 10 0,20 0,26 2 18 0,36 0,62 3 8 0,16 0,78 4 5 0,10 0,88 5 2 0,04 0,92 6 3 0,06 0,98 8 1 0,02 1,00 50 1,00 DistribuiDistribuiçãção Binomialo Binomial Uma das distribuições de probabilidade mais largamente aplicadas é a distribuição binomial. Ela tem por base o ensaio de Bernoulli, que é um experimento que apresenta apenas dois resultados possíveis, mutuamente excludentes, tais como morrer ou sobreviver, masculino ou feminino, sucesso ou fracasso. Suponha que determinada cirurgia apresente 80% de probabilidade de sucesso. A variável de interesse X é número de sucessos. Então, para um paciente, tem-se: ⇒⇒⇒⇒ Ω =Ω =Ω =Ω = { F , S } w X P ( X = x ) F 0 q = 1-p = 0,2 S 1 p = 0,8 Ω =Ω =Ω =Ω = { FF, FS, SF, SS }⇒⇒⇒⇒ w X P ( X = x )FF 0 P(F∩F) = P(F) P(F) = (1-p)2 = 0.22 FS ou SF 1 P(F∩S) + P(S∩F) = 2 p (1-p) = 2 . 0.81 .0.21 SS 2 P(S∩S) = p2 = 0.82 De forma geral, assumindo que: 1. tem-se n ensaios de Bernoulli 2. os ensaios são independentes 3. a probabilidade de sucesso é igual a p em qualquer ensaio, a distribuição Binomial estabelece que: xnx pp x n xXP −− == )1( )( w X P ( X = x ) FFF 0 1. 0,80. 0,23 FFS ou FSF ou SFF 1 3. 0,81. 0,22 FSS ou SFS ou SSF 2 3. 0,82. 0,21 SSS 3 1. 0,83. 0,20 Distribuição de Probabilidades do número de sucessos quando n = 3 Dados os parâmetros da distribuição binomial (n e p), a média e a variância de uma variável aleatória com essa distribuição são dadas por np e np(1-p), respectivamente. Média (X) = µµµµ = n p Variância (X) = σσσσ2222 = n p (1-p) Exemplo:Exemplo: Suponha que 30% de uma população é imune a uma certa doença. Qual a probabilidade de, num grupo de 5 pessoas desta população, encontrarmos: 3 imunes? a) Seja X = número de pessoas imunes a doença n = 5 pessoas observadas p = 0,30 é a probabilidade de uma pessoa ser imune a doença evento de interesse: [x = 3], logo ( ) ( ) 1323,0,70 ,3010)3,01( ,30 3 5)3( 23353 =×=− == −XP P(X = x | p = 0.3) 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0 1 2 3 4 5 P(X=3) quando: n=5 e p = 0,30 n x P( X = x | p = 0.3 ) 0 0.16807 1 0.36015 2 0.30870 3 0.13230 4 0.02835 5 0.00243 Distribuição de Probabilidade Binomial quando: n = 5 e p = 0,3 P(X = x | p = 0.3) 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0 1 2 3 4 5 b) Qual seria o valor com maior probabilidade de acontecer? c) Qual a Probabilidade do número de imunes variar entre 3 e 5 inclusive? P( 3 ≤ X ≤ 5) = P(X = 3) + P(X = 4) + P(X = 5) = 0,13230 + 0,02835 + 0,00243 = 0,16308 Distribuição de Poisson � Outra distribuição utilizada para modelar variáveis do tipo quantitativo discreta é a distribuição de Poisson, � Empregada para modelar a ocorrência de eventos raros (eventos com probabilidade de ocorrência muito pequena). Exemplos: 1. Número de chegadas a um pronto-socorro durante a madrugada 2. Número de pessoas com leucemia numa cidade 3. Número de acidentes de carro na Ponte Rio-Niterói por dia 4. Número de metamielócitos no sangue de pessoas sadias Distribuição de Poisson � A distribuição de Poisson geralmente está associada a um processo aleatório, que objetiva estudar o número de eventos de interesse e o tempo entre a ocorrência de dois eventos seguidos. � Este processo é chamado de Processo de Poisson e apresenta as seguintes características: � O número de eventos que ocorrem num determinado intervalo de tempo (ou espaço) é independente do número de eventos que ocorrem num outro intervalo de tempo (ou espaço) disjunto do primeiro. � Os eventos de interesse (falhas) ocorrem com alguma taxa média de ocorrência λλλλ, que é constante para todo intervalo de tempo (ou espaço). � Quanto menor for o intervalo de tempo considerado, menor será a probabilidade de que aconteça mais de um evento de interesse nesse intervalo. � Proporciona as probabilidades do número de "falhas" que acontecem num determinado período de tempo ou espaço (ou volume de matéria). Para X = Número de Falhas A probabilidade de X assumir um valor igual a k é dada por: onde : X = número de eventos λ = taxa média do processo k = 0,1,2, ... e = 2.7182818.. (número de Euler) L,2,1,0, ! )( === − k k kXP e k λλ Distribuição de Poisson Na distribuição de Poisson, a média e a variância são iguais a αααα. Média (X) = µµµµ = λλλλ Variância (X) = σσσσ2 = λλλλ Desvio Padrão = σσσσ = √√√√ λλλλ λ = 1 0.00 0.10 0.20 0.30 0.40 0 1 2 3 4 5 6 7 8 9 λ = 4 0.00 0.05 0.10 0.15 0.20 0.25 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 λ = 10λ = 10λ = 10λ = 10 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Exemplo: Um hospital recebe em média quatro chamadas de urgência por dia. Desejando melhor equipa-lo para suas funções, necessita-se conhecer qual a probabilidade de que o hospital receba: a) Oito chamadas? X = número de chamadas de urgência num dia 03.0 !8 )8( 484 === − eXP b) Três ou menos chamadas num dia? P(X ≤ 3) = P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) = 0,018 + 0,073 + 0,147 + 0,195 = 0,433 DistribuiDistribuiçãção de Poisson como Aproximao de Poisson como Aproximaçãção da Distribuio da Distribuiçãção Binomialo Binomial Quando: � o número de realizações de um experimento binomial (n) é grande e � a probabilidade de sucesso (p) é muito pequena de modo que np ≤ 7, � a distribuição binomial pode ser aproximada pela distribuição de Poisson com α = n × p DistribuiDistribuiçãção de Poisson como Aproximao de Poisson como Aproximaçãção da Distribuio da Distribuiçãção Binomialo Binomial Exemplo: A probabilidade de uma pessoa sofrer intoxicação alimentar na lanchonete de um parque de diversões é 0,001. Qual a probabilidade de que em 2.000 pessoas que passam o dia no parque, duas sofram de intoxicação alimentar? α = n p = 2000 x 0,001 = 2 � P(X = 2) = 0,2707 x P(X=k) 0.0000 0.1353 1.0000 0.2707 2.0000 0.2707 3.0000 0.1804 4.0000 0.0902 5.0000 0.0361 6.0000 0.0120 7.0000 0.0034 8.0000 0.0009 9.0000 0.0002 DistribuiDistribuiçãçãoo NormalNormal ou Gaussianaou Gaussiana Tem sua origem associada ao eminente matemático alemão Gauss que ao utilizá-la na construção da teoria dos erros, mostrou sua importância, porém ela foi primeiramente estudada por Abraham de Moivre. A distribuição Normal (ou Gaussiana) também é associada às medidas biológicas e às medidas de produtos fabricados em série. A distribuição Normal de uma variável aleatória contínua tem a seguinte função de densidade: onde µµµµ (média) e σσσσ (desvio padrão) são os parâmetrosda distribuição. ( )e xxf µσpiσ −−= 2 22 1 2 1)( Algumas características da distribuição Normal: 1. A variável aleatória pode assumir qualquer valor (- ∞ < x < + ∞). 2. Α expressão: X ~ N ( µ , σ 2 ) denota que a variável aleatória X tem distribuição Gaussiana ou Normal com média µ e desvio-padrão σ. 3. Na distribuição Normal a Média, Mediana e a Moda são iguais a µ . 4. A área total sob a curva e acima do eixo horizontal é igual a 1. Área = 1 Distribuições Normais com o mesmo desvio-padrão e diferentes médias (µ1 ≠ µ2 ), possuem a mesma forma mas diferem quanto a localização. Isto é, quanto maior o valor da média mais à direita estará a curva. Observe na figura que a distribuição em vermelho apresenta maior valor para a média. Para um mesmo valor de média e valores diferentes de desvio-padrão, a distribuição com desvio-padrão de maior valor é mais “achatada”, acusando maior variabilidade em torno da média. Aquela que tem menor desvio-padrão, apresenta um pico e tem menor dispersão em torno da média. A A áárea sob a curva normalrea sob a curva normal µ ± 1 σ � 68,26% µ ± 1,96 σ � 95,00% µ ± 2,58 σ � 99,00% DistribuiDistribuiçãção Normal Padro Normal Padrããoo Uma distribuição Normal com média µ = 0 e desvio-padrão σ = 1, é chamada de distribuição Normal padrão. Uma variável aleatória com distribuição Normal padrão é usualmente identificada pela letra Z, e representada por: Z ~ N ( 0 , 1 ) DistribuiDistribuiçãção Normal Padro Normal Padrããoo Z é uma variável continua logo P(Z = a) = 0, para qualquer valor de a. Para o caso: média µ = 0 e desvio-padrão σ = 1 foram calculadas probabilidades da variável aleatória assumir valores menores ou iguais a z0 i.e. P(Z ≤ z0), disponibilizadas em tabelas ou em pacotes computacionais. P(Z ≤ 2,58) = 0,9951 P(Z ≤ 2,00) = 0,9772 P(Z ≤ - 2,58) = 0,0049 P(Z ≤ - 0,74) = 0,2296 P(Z > 2) Calculo de Probabilidades do tipo Calculo de Probabilidades do tipo P(P(Z Z >> zz00),), P(Z > 2) = 1 - P(Z ≤ 2) = 1 - 0,9772 = 0.0228 = - = 1 - P(Z > -1) = 1 - P(Z ≤ -1) = 1 - 0,1587 = 0.8413 Calculo de Probabilidades do tipo: P(a < Z ≤≤≤≤ b) = - P(-1,96 < Z ≤ 1,96) = P(Z ≤ 1,96) - P(Z ≤ - 1,96) = 0,9750 - 0.02499 = 0,95 P(-1,96 < Z ≤ 1,96) P(-2,58 < Z ≤ 2,58) P(-2,58 < Z ≤ 2,58) = P(Z ≤ 2,58) - P(Z ≤ - 2,58) = 0,0.995 - 0.005 = 0,990 Calculo de Probabilidades do tipo: P(a < Z ≤≤≤≤ b) = - PadronizaPadronizaçãção:o: Quando uma variável aleatória tem distribuição normal � com média µ ≠ 0 e σ ≠ 1 � deve-se padronizar a variável através da seguinte transformação: Z = A variável Z tem agora distribuição normal padrão (µ = 0 e σ = 1) σ µ−x Escore padronizado Escore padronizado Escore padronizado Escore padronizado Diferentemente do Coeficiente de Variação, o escore padronizado, é útil para comparação dos resultados indivíduais. Os escores padronizados são muito úteis na comparação da posição relativa da medida de um indivíduo dentro do grupo ao qual pertence, o que justifica sua grande aplicação como medida de avaliação de desempenho. Fonte: http://leg.ufpr.br/~silvia/CE055/node27.html nixz ii ,...,2,1, = − = σ µ Escore padronizado Escore padronizado Escore padronizado Escore padronizado Exemplo: Os escores padronizados são amplamente utilizados em teste de aptidão física. Mathews (1980) compara testes de aptidão física e conhecimento desportivo. Fonte: http://leg.ufpr.br/~silvia/CE055/node27.html Tabela 10: Resultados obtidos por duas alunas do curso secundário, média e desvio padrão da turma em teste de aptidão física e conhecimento desportivo. Teste µ σ x z Maria Joana Maria Joana abdominais em 2 min 30 6 42 38 2,00 1,33 salto em extensão (cm) 155 23 102 173 -2.33 0,78 suspensão braços flexionados (seg) 50 8 38 71 -1.50 2,63 correr/andar em 12 min (m) 1829 274 2149 1554 1,17 -1,00 conhecimento desportivo 75 12 97 70 1,83 -0,42 Escore padronizado Escore padronizado Escore padronizado Escore padronizado Maria apresentou um desempenho muito acima da média em força abdominal (dois desvios padrão acima da média); sua capacidade aeróbica (corrida/caminhada) está acima da média mas não é notável e ela tem um conhecimento desportivo bastante bom comparado com o grupo. No salto de extensão e na suspensão com flexão do braço sobre antebraço, Maria obteve escores abaixo das respectivas médias do grupo, sendo que o desempenho de Maria para salto em extensão é bastante ruim. Descreva o desempenho de Joana. Fonte: http://leg.ufpr.br/~silvia/CE055/node27.html Exemplo:Exemplo: O conteúdo de glicose no sangue em pessoas adultas pode ser considerado normalmente distribuído com média 100mh/100ml e desvio padrão 10mg/100ml. Suponha que 500 indivíduos da população são escolhidos ao acaso. Se os indivíduos com um conteúdo de glicose igual ou maior que 120mg/100ml são considerados diabéticos, qual o número esperado de diabéticos entre os 500 indivíduos escolhidos? Seja X = conteúdo de glicose com distribuição X ~ N ( µµµµ = 100 , σσσσ = 10 ) P( X > 120 ) = P ( ) = P(Z > 2 ) = 1 - P( Z ≤ 2 ) = = 1 - 0,9772 = 0,0227 N°esperado de diabéticos = 0,0227 × 500 = 11,35 10 100120 10 100 − > −X X ~ N ( 100 , 10 2 ) X ~ N ( 0 , 1 ) Faixas de Referencia ou Faixas de Referencia ou valores de refervalores de referêênciancia A construção da Faixa de referência é um procedimento que permite a caracterização do que é típico em uma determinada população. É empregado largamente em Ciências da Saúde, por exemplo, nos resultados de exames de laboratório � na determinação dos valores de referência para a Hemoglobina, Hematócrito, Hematias, etc. Outras aplicações: - determinação de níveis toleráveis de barulho - caracterização dos níveis de poluição em uma região. Fonte: Nogueira et al. 1996 MMéétodo da curva de Gauss todo da curva de Gauss Este método pressupõe que a variável de interesse tem distribuição Gaussiana (normal). Portanto, antes de utilizá-lo, é necessário verificar se as observações dos indivíduos sadios provém de uma distribuição normal ou aproximadamente normal. Uma faixa de referência, usual considera aproximadamente 95% dos indivíduos sadios. Cujos limites, conforme vimos são: µµµµ ±±±± 1,96 σσσσ De maneira análoga, podem ser obtidas outras faixas de referência compreendendo outras porcentagens de indivíduos sadios, tais como: 90% � µ ± 1,64 σ 99%, � µ ± 2,58 σ etc. Exemplo:Exemplo: Sabendo-se que a taxa de hemoglobina (g%) em mulheres sadias tem distribuição N(14,2), construiremos faixas de referência que englobem: 95% das taxas de hemoglobina � µ ± 1,96 σ � 14 ± 1,96 *2 � 10.08, 17.92 90% das taxas de hemoglobina � µ ± 1,64 σ � 14 ± 1, 64 *2 � 10.71, 17.29 Faixas de ReferenciaFaixas de Referencia X = conteúdo de glicose com distribuição e X ~ N ( 100 , 10 2 ) -1,96 < Z < 1,96 80,4 < Glicose ≤ 119,6) 95 %95 % -2,58 < Z ≤ 2,58 74,2 < Glicose ≤ 125,8) 99 %99 % P(-1,96 < Z ≤ 1,96) = 0.95 P(-2,58 < Z ≤ 2,58) = 0.99 Distribuição Distribuição QuiQui--quadradoquadrado Se forem , k distribuições normais padronizadas (ou seja, média 0 e desvio padrão 1) independentes, então a soma de seus quadrados é uma distribuição Chi-quadrado com k graus de liberdade: A distribuição chi-quadrado (χ2), é uma das mais usadas em processos de inferência estatística. Assume valores não-negativos e é assimétrica. Distribuição Distribuição QuiQui--quadradoquadrado Distribuição T de Student A distribuição t de Student, desenvolvida por William Sealy Gosset. A distribuição t é uma distribuição de probabilidade teórica. É simétrica, semelhante à curva normal padrão, porém com caudas maislargas, ou seja, uma simulação da t de Student pode gerar valores mais extremos que uma simulação da normal. O único parâmetro v que a define e caracteriza a sua forma é o número de graus de liberdade. Quanto maior for esse parâmetro, mais próxima da normal ela será. A distribuição t de Student aparece naturalmente no problema de se determinar a distribuição da média de uma população (que segue uma distribuição Normal), a partir de uma amostra. Neste problema, não se conhecee qual é a média ou o desvio padrão da distribuição. Supondo que o tamanho da amostra n seja muito menor que o tamanho da população, temos que a amostra é formada por n variáveis aleatórias normais, independentes X1, X2, ..., Xn, cuja média amostral : é o melhor estimador para a média da população (µ), e se a variância amostral é dada pela seguinte expressão: A variável aleatória dada por Segue uma distribuição t de Student com ν = n-1 graus de liberdade. Distribuição TDistribuição T Distribuição F Distribuição F Também denominada distribuição F de Snedecor ou distribuição Fisher-Snedecor, encontra aplicações em alguns testes estatísticos. Consideram-se as variáveis aleatórias U e V tais que • U e V são independentes. • U tem distribuição χ2 com α graus de liberdade. • V tem distribuição χ2 com β graus de liberdade. Define-se uma nova variável aleatória X tal que X = (U / α) / (V / β) Então X é tem distribuição F com α e β graus de liberdade ou X ~F(α, β). Fonte:http://www.mspc.eng.br/matm/prob_est358.shtml A Figura abaixo apresenta curvas aproximadas das funções de distribuição acumulada e de densidade de probabilidades para α = 5 e β = 2 Média da distribuição F: E(X) = se β > 2 Variância da distribuição F: Var(X) = 2−β β ( )4 )2(2 )2( 2 2 − −+ − β βα βα β Algumas propriedades 01) Se X tem distribuição t-student com ν graus de liberdade, então X2 ~F(1, ν). 03) Sejam as seguintes amostras: X1, X2, ... , Xm de uma população com distribuição normal de média µ1 e variância σ12.Y1, Y2, ... , Yn de uma população com distribuição normal de média µ2 e variância σ22. As variâncias das amostras são: Então a variável definida por Z = s12 / s22 tem distribuição F com m e n graus de liberdade. Esta propriedade pode ser usada para testar a igualdade de variância entre as duas populações. ( ) 1 2 2 1 − = ∑ − m i xxS ( ) 1 2 2 2 − = ∑ − n i yyS
Compartilhar