Baixe o app para aproveitar ainda mais
Prévia do material em texto
Curso DSc Conhecimento tem marca. Engenharia / BNDES Estatística e Probabilidade Professor Aldo Ferreira Estatística Introdução Em alguma fase de seu trabalho, o pesquisador depara com o problema de analisar e entender um conjunto de dados relevante ao seu particular objeto de estudos. Página 6 da apostila julgar sua adequação a alguma teoria Estatística Introdução O pesquisador necessitará trabalhar os dados para: i) transformá-los em informações: qual a média salarial da população da Cidade do Rio de Janeiro? ii) para compará-los com outros resultados: dentre duas drogas em estudo, qual a mais eficaz no combate a uma determinada doença? iii) julgar sua adequação a alguma teoria: o modelo de Poisson é adequado para modelar o número de ligações recebidas pelo call center de um determinada empresa? Estatística Introdução Inicialmente, estaremos interessados na redução, análise e interpretação dos dados sob consideração, adotando um enfoque que chamaremos de análise exploratória dos dados (AED). Nessa abordagem tentaremos obter dos dados a maior quantidade possível de informação, que indique modelos plausíveis a serem utilizados numa fase posterior, a análise confirmatória dos dados (ou inferência estatística). Estatística Introdução População e amostra - Essas propriedades podem ser: o resultado de uma medição, um atributo qualitativo, um índice, etc. Por exemplo: estatura, cor dos olhos, tempo de reação, etc. População é o conjunto de todos os elementos (pessoas ou objetos) cujas propriedades o pesquisador está interessado em estudar. Estatística Introdução População e amostra - Em termos do número dos elementos que compõem a população, ela pode ser classificada como finita e infinita. - Nas situações mais concretas do mundo real, estamos sempre lidando com populações finitas. Estatística Introdução População e amostra - Se uma população é infinita, ou finita, mas muito grande, torna-se impossível ou impraticável a realização do censo. Em tais casos, em vez disso, examina-se somente uma pequena parte da população que chamamos de amostra. - Uma amostra é dita representativa da população se a partir de sua análise podem ser obtidas conclusões sobre a população. Para tanto é necessário que a amostra seja extraída de acordo com regras bem definidas. Estatística Introdução População e amostra - Ler “Tipologia das Variáveis”, página 5 da apostila. Estatística Resumo de Dados Distribuições de Frequências Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o comportamento dessa variável, analisando a ocorrência de suas possíveis realizações. Vamos estudar uma maneira de se dispor um conjunto de realizações, para se ter uma ideia global sobre elas, ou seja, de sua distribuição. Estatística Resumo de Dados Distribuições de Frequências - As proporções são muito úteis quando se quer comparar resultados de duas pesquisas distintas. Estatística Resumo de Dados Distribuições de Frequências Estatística Resumo de Dados Distribuições de Frequências Variáveis quantitativas contínuas: seus valores possíveis podem ser expressos através de números reais e varrem uma escala contínua de medição. - A construção de tabelas de freqüências para variáveis contínuas necessita de certo cuidado. Por exemplo, a construção de uma tabela de freqüências para a variável salário, usando o procedimento anterior, para a 1ª empresa, não resumirá as 36 observações (referentes aos funcionários da seção de orçamento da empresa) num grupo menor, pois não existem observações iguais. A solução empregada é agrupar os dados por faixas de salário. Estatística Resumo de Dados Distribuições de Frequências Estatística Resumo de Dados Distribuições de Frequências - Procedendo-se desse modo, ao resumir os dados referentes a uma variável contínua, perde-se alguma informação. - Note que estamos usando a notação a ├ b para o intervalo de números contendo o extremo a, mas não contendo o extremo b. Podemos também usar a notação [a,b) para designar o mesmo intervalo a ├ b. Estatística Resumo de Dados Gráficos - Ler “Gráficos”, página 10 da apostila. Estatística Medidas Resumo Medidas de Posição - Vimos que o resumo de dados por meio de tabelas de freqüências fornece muito mais informações sobre comportamento de uma variável do que a própria tabela original de dados. - Muitas vezes, queremos resumir ainda mais estes dados, apresentando um ou alguns valores que sejam representativos da série toda. Estatística Medidas Resumo Medidas de Posição - Quando usamos um só valor, obtemos uma redução drástica dos dados. Usualmente, emprega- se uma das seguintes medidas de posição (ou localização) central: moda, mediana ou média. Estatística Medidas de Posição Moda - A moda é definida como a realização mais freqüente do conjunto de valores observados. Estatística Medidas de Posição Mediana - A mediana é a realização que ocupa a posição central da série de observações, quando estão ordenadas em ordem crescente. - Consideremos, agora, as observações ordenadas em ordem crescente. Vamos denotar a menor observação por x(1), a segunda por x(2), e assim por diante, obtendo-se Estatística Medidas de Posição Mediana - Por exemplo, se x1=3, x2=-2, x3=6, x4=1, x5=3, então -2 ≤ 1 ≤ 3 ≤ 3 ≤ 6, de modo que x(1) = - 2, x(2) = 1, x(3) = 3, x(4) = 3 e x(5) = 6. - As observações ordenadas como em (1) são chamadas estatísticas de ordem. Nota) ROL: é a tabela obtida após a ordenação dos dados (ordem crescente ou decrescente). Por exemplo, 41, 41, 41, 42, 42 43, 44, 45 ,46, 46, 50, 50, 51, 52, 54, 57, 58, 58, 60, 60. Estatística Medidas de Posição Mediana - Com esta notação, a mediana da variável X pode ser definida como Estatística Medidas de Posição Mediana Exemplos - Se as cinco observações de uma variável forem 3, 4, 7, 8 e 8, a mediana é o valor 7, correspondendo à terceira observação. - Acrescentando o valor 9 à série acima, a mediana será (7+8)/2 = 7,5. Estatística Medidas de Posição Média - A média (aritmética) é a soma das observações dividida pelo número delas. - Por exemplo, a média aritmética de 3, 4, 7, 8 e 8 é (3+4+7+8+8)/5 = 6. Estatística Medidas de Posição Média Estatística Medidas de Posição Variáveis Contínuas - A determinação das medidas de posição para uma variável quantitativa contínua, através de sua distribuição de freqüências, exige aproximações, pois perdemos a informação dos valores das observações. - Uma aproximação razoável é supor que todos os valores dentro de uma classe tenham seus valores iguais ao ponto médio desta classe. Este procedimento nos deixa na mesma situação do caso discreto, onde as medidas são calculadas usando-se os pares (xi, ni) ou (xi, fi), como nas expressões para o cálculo da média dadas na transparência anterior. Estatística Medidas de Posição Variáveis Contínuas (Exemplo) Estatística Medidas de Posição Variáveis Contínuas (Exemplo) Moda 10 Mediana 10 Nota) Ao usarmos esta metodologia, os valores obtidos para as medidas de posição são, na verdade, aproximações dos valores reais e, portanto, o sinal mais adequado é . Estatística Medidas de Dispersão O resumo de um conjunto de dados por uma única medida representativa de posição central esconde toda a informação sobre a variabilidade do conjunto deobservações. Por exemplo, para os dados grupo A (variável X): 3, 4, 5, 6, 7 grupo B (variável Y): 1, 3, 5, 7, 9 grupo C (variável Z): 5, 5, 5, 5, 5 grupo D (variável W): 3, 5, 5, 7 grupo E (variável V): 3, 5, 5, 6, 6 temos todas as médias iguais a 5. Estatística Medidas de Dispersão - Notamos, então, a conveniência de serem criadas medidas que sumarizem a variabilidade de um conjunto de observações e que nos permita, por exemplo, comparar conjuntos diferentes de valores, como os dados acima, segundo algum critério estabelecido. - Um critério frequentemente usado para tal fim é aquele que mede a dispersão dos dados em torno de sua média, e duas medidas são as mais usadas: desvio médio e variância. O princípio básico é analisar os desvios das observações em relação à média dessas observações. Estatística Medidas de Dispersão - O desvio médio (dm) e a variância (var) são definidos por respectivamente. Para o grupo A temos dm(X) = 6/5 = 1,2, var(X) = 10/5 = 2,0, enquanto para o grupo D temos dm(W) = 4/4 = 1,0, var(W) = 8/4 = 2,0. Estatística Medidas de Dispersão - Podemos dizer, então, que, segundo o desvio médio, o grupo D é mais homogêneo que A, enquanto ambos são igualmente homogêneos, segundo a variância. - Sendo a variância uma medida de dimensão igual ao quadrado da dimensão dos dados (por exemplo, se os dados são expressos em cm, a variância será expressa em cm2), pode causar problemas de interpretação. Costuma-se usar, então, o desvio padrão, que é definido como a raiz quadrada positiva da variância. Estatística Medidas de Dispersão - Para o grupo A o desvio padrão é - Suponha que observemos n1 vezes o valor x1 etc., nk vezes o valor xk da variável X. Então, Estatística Medidas de Dispersão Uma maneira computacionalmente mais eficiente de calcular a variância é Estatística Medidas Resistentes - Tanto a média como o desvio padrão podem não ser medidas adequadas para representar um conjunto de dados, pois: (a) são afetadas, de forma, exagerada, por valores extremos; (b) apenas com estes dois valores não temos idéia da simetria ou assimetria da distribuição dos dados. - Dizemos que uma medida de localização ou dispersão é resistente quando for pouco afetada por mudanças de uma pequena porção dos dados. A mediana é uma medida resistente, ao passo que a média não é. Estatística Quantis - Vimos que a mediana é um valor que deixa metade dos dados abaixo dela e metade acima. De modo geral, podemos definir uma medida, chamada quantil de ordem p, ou p-quantil, indicada por q(p), onde p é uma proporção qualquer, 0 < p < 1, tal que 100p% das observações sejam menores do que q(p). Estatística Quantis - Indicamos, abaixo, alguns dos quantis e seus nomes particulares. q(0,25): 1º Quartil = 25º Percentil q(0,50): Mediana = 5º Decil = 50º Percentil q(0,75): 3º Quartil = 75º Percentil q(0,40): 4º Decil q(0,95): 95º Percentil Estatística Quantis - Uma medida de dispersão alternativa ao desvio padrão é a distância interquartil, denotada por dq, definida como a diferença entre o terceiro e o primeiro quartis, ou seja, dq = q(0,75) – q(0,25). Análise Bidimensional - Frequentemente estamos interessados em analisar o comportamento conjunto de duas ou mais variáveis aleatórias. - Um dispositivo bastante útil para se verificar a associação entre duas variáveis quantitativas, ou entre dois conjuntos de dados, é o gráfico de dispersão. Análise Bidimensional - Suponha as variáveis X e Y extraídas de um estudo da carteira de clientes de uma companhia de seguros. X: número de anos de serviço de um agente da companhia de seguros Y: número de clientes atendidos por um agente da companhia de seguros. Análise Bidimensional Análise Bidimensional - Existem muitos tipos de associações possíveis; estudaremos somente o tipo de relação mais simples, que é a linear. - Definiremos uma medida que avalia o quanto a nuvem de pontos no gráfico de dispersão aproxima-se de uma reta. - Esta medida será definida de modo a variar num intervalo finito, especificamente, de -1 a +1. Análise Bidimensional - O coeficiente de correlação (linear) entre duas variáveis é a medida do grau de associação (linear) entre elas e também da proximidade dos dados a uma reta. Análise Bidimensional Definição. Dados n pares de valores (x1, y1), (x2, y2),, (xn, yn), chamaremos de coeficiente de correlação entre as duas variáveis X e Y a Análise Bidimensional - Definição. Dados n pares de valores (x1, y1), (x2, y2),, (xn, yn), chamaremos de covariância entre as duas variáveis X e Y a ou seja, a média dos produtos dos valores centrados das variáveis. - Com essa definição, o coeficiente de correlação pode ser visto como Conjuntos e Operações com Conjuntos Noções Probabilidades - Nosso objetivo é criar um modelo teórico que reproduza de maneira razoável a distribuição das freqüências, quando o fenômeno é observado diretamente. - Tais modelos são chamados modelos probabilísticos. Probabilidades Exemplo) Lançamento de um dado perfeitamente equilibrado. Exemplo) De um grupo de duas mulheres (M) e três homens (H), uma pessoa será sorteada para presidir uma reunião. Queremos saber as probabilidades de o presidente ser do sexo masculino ou feminino. Probabilidades - Todo experimento ou fenômeno que envolve um elemento casual terá seu modelo probabilístico especificado quando estabelecermos: i) um espaço amostral, Ω, que consiste, no caso discreto, da enumeração (finita ou infinita) de todos os resultados possíveis do experimento em questão: Ω = {ω1, ω2, …,ωn, …} (os elementos de Ω são os pontos amostrais ou eventos elementares); ii) uma probabilidade, P(ω), para cada ponto ω amostral, de tal sorte que seja possível encontrar a probabilidade P(A) de qualquer subconjunto A de Ω, isto é, a probabilidade do que chamaremos de um evento aleatório ou simplesmente evento. Probabilidades Exemplo) Lançamos uma moeda duas vezes. Se C indicar cara e R indicar coroa, então um espaço amostral será Ω = {ω1, ω2, ω3, ω4} onde ω1 = (C,C), ω2 = (C,R), ω3 = (R,C), ω4 = (R,R). É razoável supor que cada ponto ωi tenha probabilidade ¼, se a moeda for perfeitamente simétrica e homogênea. - Se designarmos por A o evento que consiste na obtenção de faces iguais nos dois lançamentos, então P(A) = P{ ω1, ω4} = ¼ + ¼ = 1/2 . Probabilidades De modo geral, se A for qualquer evento de Ω, então onde a soma é estendida a todos os pontos amostrais. Exemplo) Uma fábrica produz determinado artigo. Da linha de produção são retirados três artigos, e cada um é classificado como bom (B) ou defeituoso (D). Um espaço amostral do experimento é Ω = {BBB, BBD, BDB, DBB, DDB, DBD, BDD, DDD}. Se A designar o evento que consiste em obter dois artigos defeituosos, então A = {DDB, DBD, BDD} e P(A) = P(DDB) + P(DBD) + P(BDD) Estatística Exemplos de operações com conjuntos Considere os conjuntos Ω = {1, 2, 3, 4, 5, 6}, A = {2, 4, 6} e B = {1, 3, 5}. Então AC = {1, 3, 5} BC = {2, 4, 6} A ∩ B = 𝛟 A U B = {1, 2, 3, 4, 5, 6} Probabilidades Algumas propriedades - Para qualquer evento A: 0 ≤ P(A) ≤ 1. - Será útil considerar o espaço todo Ω e o conjunto vazio 𝛟 como eventos. O primeiro é denominado evento certo e o segundo, evento impossível, e temos P (Ω) = 1 e P (Ø) = 0. Probabilidades Algumas propriedades Exemplo - Dadosreferentes a alunos matriculados em quatro cursos de uma universidade em dado ano. P(E) = 30/200 P(H) = 115/200 P(A ∩ H) = 15/200 P(A U C) = 60/200 = P(A) + P(C) Probabilidades Algumas propriedades Exemplo - Dados referentes a alunos matriculados em quatro cursos de uma universidade em dado ano. Regra da Adição de Probabilidades P(A U H) = P(A) + P(H) – P(A ∩ H ) P(A U H) = 130/200 Algumas propriedades Exemplo - Dados referentes a alunos matriculados em quatro cursos de uma universidade em dado ano. Seja B = M U E U C. A ∩ B = Ø => mutuamente exclusivos (disjuntos) A U B = Ω e A ∩ B = Ø => A e B são complementares e, portanto, P(A) + P(B) = 1. Probabilidades Algumas propriedades i) P(A) + P(Ac) = 1 ii) A ∩ Ø = Ø A ∩ Ω = A iii) Øc= Ω, Ωc = Ø iv) A U Ac = Ω A U Ø = A v) A U Ω = Ω Probabilidades Condicional e Independência Dado que um estudante, escolhido ao acaso, esteja matriculado no curso de Estatística, a probabilidade de que seja mulher é 20/30 = 2/3. P (mulher / Estatística) = 2/3 Probabilidades Condicional e Independência Para dois eventos quaisquer A e B, sendo P(B) > 0, definimos a probabilidade condicional de A dado B, P(A/B), como sendo Regra do Produto de Probabilidades Probabilidades Condicional e Independência Exemplo Uma urna contém duas bolas brancas (B) e três vermelhas (V). Suponha que são sorteadas duas bolas ao acaso, sem reposição EVENTOS DEPENDENTES. Probabilidades Condicional e Independência Exemplo Imagine, agora, que as duas extrações são feitas da mesma urna do exemplo anterior, mas a primeira bola é reposta na urna antes da extração da segunda EXTRAÇÕES INDEPENDENTES P(branca na 2ª / branca na 1ª) = 2/5 = P(branca na 2ª) Probabilidades Condicional e Independência Exemplo (continuação) - Se indicarmos por A e B os eventos “bola branca na 2ª extração” e “bola branca na 1ª extração”, respectivamente, então P(A/B) = P(A). Nesse caso, dizemos que o evento A independe do evento B e, usando a Regra do Produto de Probabilidades, temos - Dizemos que A e B são independentes se, e somente se, a relação acima é válida. - Se A independe de B, então B independe de A. Estatística Teorema de Bayes - A versão mais simples do Teorema de Bayes é dada pela fórmula Estatística Teorema de Bayes - Dizemos que {C1, C2, ..., Cn} é uma partição do espaço-amostral Ω se Estatística Teorema de Bayes - Teorema (Bayes). A probabilidade de ocorrência do evento Ci, supondo-se a ocorrência do evento A, é dada por: Estatística Variáveis Aleatórias Discretas - Tabela: Extrações sem reposição de urna com duas bolas brancas e três bolas vermelhas, onde a variável aleatória X indica o número de bolas vermelhas obtidas nas duas extrações. -Tabela: Distribuição de probabilidades da v.a. X = número de bolas vermelhas. Estatística Variáveis Aleatórias Discretas - Tabela: Lançamento de duas moedas, onde a variável aleatória Y fornece o número de caras obtidas nos dois lançamentos. -Tabela: Distribuição de probabilidades da v.a. Y = número de caras. Estatística Média e variância de uma Variável Aleatória - Definição. Dada a v.a. X discreta, assumindo os valores x1, …, xn, chamamos valor médio ou esperança matemática de X ao valor - Definição. Chamamos de variância da v.a. X o valor Estatística Média e variância de uma Variável Aleatória - Propriedades - Estatística Função de Distribuição Acumulada - Considere a distribuição de uma v.a. X. - Chamaremos de função de distribuição acumulada (f.d.a.), ou simplesmente função de distribuição (f.d.) F à função x -5 5 10 15 TOTAL p(x) 0,19 0,02 0,23 0,56 1 Estatística Função de Distribuição Acumulada De modo geral, P(X = xi) = F(xi) – F(xi-). Limite à esquerda Estatística FDA (Estatística Básica – A Arte de Trabalhar com os Números) Exemplo 4.3 / Pág. 99) Em um determinado condomínio residencial: a) 30% das famílias não têm filhos; b) 40% das famílias têm 1 filho; c) 20% das famílias têm 2 filhos; d) 10% das famílias têm 3 filhos. Estatística FDA (Estatística Básica – A Arte de Trabalhar com os Números) Estatística Distribuição Uniforme Discreta Definição. A v.a discreta X, assumindo os valores x1, ..., xk, tem distribuição uniforme se, e somente, P(X = xi) = p(xi) = p = 1/k, para todo i = 1, 2, ..., k. Estatística Distribuição de Bernoulli Muitos experimentos são tais que os resultados apresentam ou não uma determinada característica. Por exemplo: 1) uma moeda é lançada: o resultado ou é cara ou não (ocorrendo, então, coroa); 2) um dado é lançado: ou ocorre face 5 ou não (ocorrendo, então, uma das faces 1, 2, 3, 4, 5 ou 6); Estatística Distribuição de Bernoulli 3) uma pessoa escolhida ao acaso dentre 1.000 é ou não do sexo masculino; 4) uma pessoa é escolhida ao acaso entre os moradores de uma cidade e verifica-se se ela é favorável ou não a um projeto municipal. Estatística Distribuição de Bernoulli - Em todos esses casos, estamos interessados na ocorrência de sucesso (cara, face 5, etc.) ou fracasso (coroa, face diferente de 5, etc.). Essa terminologia (sucesso e fracasso) será usada frequentemente. - Para cada um dos experimentos anteriores, podemos definir uma v.a. X, que assume apenas dois valores: 1, se ocorrer sucesso, e 0, se ocorrer fracasso. Indicaremos por p a probabilidade de sucesso, isto é, P(sucesso) = P(S) = p, 0 < p < 1. Estatística Distribuição de Bernoulli - Definição. A variável aleatória X, que assume apenas os valores 0 e 1, com função de probabilidade (x, p(x)) tal que p(0) = P(X = 0) = 1-p, p(1) = P(X = 1) = p, é chamada variável aleatória de Bernoulli. E(X) = p; Var(X) = p – p2 = p(1 – p), Estatística Distribuição Binomial - Imagine, agora, que repetimos um ensaio de Bernoulli n vezes. Por exemplo: (1’) uma moeda é lançada três vezes; qual é a probabilidade de se obter duas caras? (2’) um dado é lançado cinco vezes; qual é a probabilidade de se obter face 5 no máximo três vezes? (3’) dez peças são extraídas, ao acaso, com reposição, de um lote contendo 500 peças; qual é a probabilidade de que todas sejam defeituosas, sabendo-se que 10% das peças do lote são defeituosas? Estatística Distribuição Binomial (4’) cinco pessoas são escolhidas ao acaso entre 1.000; qual é a probabilidade de que duas sejam do sexo masculino? (5’) sabe-se que 90% das pessoas de uma cidade são favoráveis a um projeto municipal. Escolhendo-se 100 pessoas ao acaso entre os moradores, qual é a probabilidade de que pelo menos 80 sejam favoráveis ao projeto? - Nos caso (4’) e (5’), o fato de estarmos extraindo indivíduos de um conjunto muito grande implica que podemos supor que as extrações sejam praticamente independentes. Estatística Distribuição Binomial Definição. Chama-se de experimento binomial ao experimento i) que consiste em n ensaios de Bernoulli; ii) cujos ensaios são independentes; e iii) para o qual a probabilidade de sucesso em cada ensaio é sempre igual a p, 0 < p < 1. Definição. A variável aleatória X, correspondente ao número de sucessos num experimento binomial, tem distribuição binomial b(n, p) com função de probabilidade Estatística Distribuição BinomialDefinição. A variável aleatória X, correspondente ao número de sucessos num experimento binomial, tem distribuição binomial b(n, p) com função de probabilidade - A média e a variância da v.a. X é dada por E(X) = n x p, Var(X) = n x p x q. Estatística Distribuição Hipergeométrica - Essa distribuição é adequada quando consideramos extrações casuais feitas sem reposição de uma população dividida em dois atributos. - Para ilustrar, considere uma população de N objetos, r dos quais têm atributo A e N-r têm atributo B. Um grupo de n elementos é escolhido ao acaso, sem reposição. Estamos interessados em calcular a probabilidade de que esse grupo contenha k elementos com atributo A. Pode-se ver, utilizando o princípio multiplicativo, que essa probabilidade é dada por: Estatística Distribuição Hipergeométrica - A probabilidade é dada por: - A média e a variância são dadas por: onde p = r/N é a probabilidade de se obter uma peça defeituosa numa única extração. Estatística Distribuição Hipergeométrica -Exemplo - Em problemas de controle de qualidade, lotes com N itens são examinados. O número de itens com defeito (atributo A), r, é desconhecido. Colhemos uma amostra de n itens e determinamos k. Somente para ilustrar, suponha que num lote de N = 100 peças, r = 10 sejam defeituosas. Escolhendo n = 5 peças sem reposição, a probabilidade de não se obter peças defeituosas é Estatística Distribuição Hipergeométrica -Exemplo - - A probabilidade de se obter pelo menos uma defeituosa é Estatística Distribuição de Poisson A distribuição de Poisson é largamente empregada quando se deseja contar o número de eventos de certo tipo que ocorrem num intervalo de tempo, ou superfície ou volume. (a) número de chamadas telefônicas recebidas por um PBX durante cinco minutos; (b) número de falhas de um computador num dia de operação; e (c) número de relatórios de acidentes enviados a uma companhia de seguros numa semana. Estatística Distribuição de Poisson De modo geral, dizemos que a v.a. N tem uma distribuição de Poisson com parâmetro λ > 0 se Temos que E(N) = Var(N) = λ; logo, λ representa o número médio de eventos ocorrendo no intervalo considerado. Exemplo) Um PBX recebe, em média, cinco chamadas por minuto. Supondo que a distribuição de Poisson seja adequada nessa situação, obter a probabilidade de que não receba chamadas durante um intervalo de um minuto. Estatística Distribuição de Poisson E se quisermos a probabilidade de obter no máximo duas chamadas em quatro minutos? = 5 x 4 = 20 chamadas em 4 minutos. Esse exemplo nos mostra que a probabilidade de k ocorrências num intervalo fixo de comprimento t pode ser escrita como onde representa o número médio de ocorrências naquele intervalo. Estatística Distribuição Geométrica Suponha que, ao realizar um experimento, ocorra o evento A com probabilidade p ou não ocorra o evento A (ou seja, ocorre Ac com probabilidade 1-p). Repetimos o experimento de forma independente até que o evento A ocorra pela primeira vez. Seja X = número de repetições do experimento até que se obtenha A pela primeira vez. Então, Temos que E(X) = 1/p e Var(X) = (1 – p)/p2. Estatística Distribuição Normal Definição. Dizemos que a v.a. X tem distribuição normal com parâmetros μ e σ2, - ∞ < μ < + ∞ e 0 < σ2 < +∞, se sua densidade é dada por A média e a variância são dadas por: E(X) = μ e Var (X) = σ2. Simbolicamente, escrevemos X ~ N(μ,σ2). Estatística Distribuição Normal Gráfico da Função Densidade de Probabilidade Estatística Distribuição Normal Gráfico da Densidade Quando μ = 0 e σ2 = 1, temos uma distribuição padrão (distribuição normal padrão) ou reduzida, ou brevemente N(0,1). Para essa a função densidade reduz-se a Estatística Distribuição Normal Cálculo de Probabilidades Exemplos 0) P(Z ≥ 0) = 0,5 = P(Z ≤ 0) (A normal é simétrica) a) P(0 ≤ Z ≤ 1,73) = 0,4582. b) P(Z ≥ 1,73) = 0,5 – 0,4582 = 0,0418 c) P(-1,73 ≤ Z ≤ 0) = 0,4582 d) P(0,47 ≤ Z ≤ 1,73) = 0,4582 – 0,1808 = 0,2774 e) P(Z > 0,75) = 0,5 – 0,27337 = 0,226630 f) P(Z<-0,66) = 0,5 – P(Z< 0,66) = 0,5 – 0,24537 = 0,25463 g) P(Z > - 1,23) = P(Z < 1,23) = 0,5 + 0,39065 = 0,89065 h) P(-0,39 < Z < 0,72) = P(0<Z<0,39) + P(0<Z<0,72) = 0,415970 i) P(|Z| > 0,58) = 2 x P(Z > 0,58) = 0,561920 Estatística Distribuição Normal Cálculo de Probabilidades Estatística Distribuição Normal Cálculo de Probabilidades Se X ~ N(μ,σ2), então a v.a. definida por terá distribuição normal padrão. Exemplos j) P(2 ≤ X ≤ 5) = 0,2902, para μ = 3 e σ2 = 16. Estatística Amostragem AED: resumo descritivo das variáveis associadas a um conjunto de dados. Modelos teóricos (probabilísticos), identificados por parâmetros, capazes de representar adequadamente o comportamento de algumas variáveis. O próximo objetivo é apresentar os argumentos estatísticos para fazer afirmações sobre as características da população, com base em informações dadas por amostras. Estatística Amostragem - Na prática, frequentemente o pesquisador tem alguma idéia sobre a forma da distribuição, mas não dos valores exatos dos parâmetros que a especificam. - Por exemplo, parece razoável supor que a distribuição das alturas dos brasileiros adultos possa ser representada por um modelo normal (embora as alturas não possam assumir valores negativos). - Mas essa afirmação não é suficiente para determinar qual a distribuição normal correspondente: precisaríamos conhecer os parâmetros (média e variância) dessa normal para que ela ficasse completamente especificada. Estatística Amostragem Nota) Em muitos casos, não existe claramente um conjunto de todos os elementos para os quais pudéssemos encontrar os parâmetros populacionais. Recorrer a modelos para descrever o todo (população) facilita a identificação e solução do problema. Estatística Amostragem - O propósito do pesquisador seria, então, descobrir (estimar) os parâmetros da distribuição (população) para sua posterior utilização. Nota) Se pudéssemos medir a altura de todos os brasileiros adultos, teríamos meios de obter sua distribuição exata e, daí, produzir os correspondentes parâmetros. Nota) Raramente se consegue obter a distribuição exata de alguma variável, ou porque é muito dispendioso, ou muito demorado ou às vezes porque consiste num processo destrutivo. Estatística Amostragem Exemplo) Consideremos uma pesquisa para estudar os salários dos 500 funcionários da Companhia MB. Seleciona-se uma amostra de 36 indivíduos, e anotam- se os seus salários. Nota) Na realidade, estamos interessados nos salários, portanto, para sermos mais precisos, devemos considerar como a população os 500 salários correspondentes aos 500 funcionários. Consequentemente, a amostra será formada pelos 36 salários dos indivíduos selecionados. Estatística Amostragem Exemplo) Queremos estudar a proporção de indivíduos na cidade A que são favoráveis a certo projeto governamental. Uma amostra de 200 pessoas é sorteada, e a opinião de cada uma é registrada como sendo a favor ou contra o projeto. A população consiste de todos os moradores da cidade, a amostra é formada pelas 200 pessoas selecionadas. Estatística Amostragem Nota) Em alguns casos, fazemos suposições mais precisas sobre a população (ou sobre a variável definida para os elementos da população). Exemplo) Suponha que X represente o peso real de pacotes decafé, enchidos automaticamente por uma máquina. Suponhamos X ~ N(μ, σ2), com parâmetros desconhecidos. Sorteamos 100 pacotes e medimos seus pesos. População => o conjunto de todos os (pesos dos) pacotes enchidos ou que virão a ser enchidos pela máquina, e que a distribuição de X pode ser suposta como normal. Amostra => 100 medidas obtidas dos pacotes selecionados, que pode ser pensada como constituída de 100 observações feitas de uma distribuição normal. Estatística Amostragem Exemplo) Para investigar a “honestidade” de uma moeda, nós a lançamos 50 vezes e contamos o número de caras observadas. A população pode ser considerada como tendo a distribuição da variável aleatória X, assumindo o valor 1, com probabilidade p, se ocorrer cara, e assumindo o valor 0, com probabilidade 1 - p, se ocorrer coroa => população com distribuição de Bernoulli com parâmetro p. A variável ficará completamente especificada quando conhecermos p. População => distribuição de Bernoulli com parâmetro p. Amostra => sequência de 50 números zeros ou uns. Estatística Amostragem Nota) Os dois últimos exemplos mostram uma ampliação do conceito definido de população, ou seja, designamos agora a população como sendo a função probabilidade ou função densidade de probabilidade (f.d.p.) de uma v.a. X, modelando a característica de interesse. Nota) Nesses casos, simplificaremos a linguagem, dizendo “seja a população f(x)”. Por exemplo, “considere a população das alturas X ~ N(μ,σ2)”. Estatística Problemas de Inferência Nota) O objetivo da Inferência Estatística é produzir afirmações sobre dada característica da população, na qual estamos interessados, a partir de informações colhidas de uma parte dessa população. Variável aleatória => Característica de interesse da população. - Se tivéssemos informação completa sobre a função de probabilidade no caso discreto, ou sobre a função de densidade de probabilidade, no caso contínuo, da variável em questão, não teríamos necessidade de escolher uma amostra. Toda a informação desejada seria obtida por meio da distribuição da variável, usando-se a teoria estudada anteriormente. Estatística Problemas de Inferência Nota) Isso raramente acontece. Ou não temos qualquer informação a respeito da variável ou ela é apenas parcial. No exemplo das alturas de brasileiros adultos, suposta normal, desconhecemos os parâmetros (média e variância). Nota) Em outros casos, podemos ter uma idéia desses parâmetros, mas desconhecemos a forma da curva. Ou ainda, o que é muito freqüente, não possuímos informações sobre os parâmetros, nem sobre a forma da curva. Nota) Em todos os casos, o uso de uma amostra nos ajudaria a formar uma opinião sobre o comportamento da variável (população). Estatística Problemas de Inferência Exemplo) (Lançamento da moeda) (continuação). Seja X o número de caras obtidas depois de lançar a moeda 50 vezes: X ~ b(50,p). Nota) O modelo binomial é válido, admitindo-se ou não a “honestidade” da moeda, isto é, sendo ou não p = 1/2. Lançada a moeda, vamos supor que tenham ocorrido 36 caras. Esse resultado traz evidência de que a moeda seja “honesta”? Estatística Problemas de Inferência - Para tomarmos uma decisão, podemos partir do princípio de que a moeda não favorece nem cara e nem coroa, isto é, p = 1/2. - Com esta informação e com o modelo binomial, podemos encontrar qual a probabilidade de se obterem 36 caras ou mais, e esse resultado nos ajudaria a tomar uma decisão. (Transparência 105) - Suponha que a decisão foi rejeitar a “honestidade” da moeda: qual é a melhor estimativa para p, baseando- se no resultado observado? - Descrevemos aí os dois problemas básicos da Inferência Estatística: o primeiro é chamado de teste de hipóteses, e o segundo, estimação. Estatística Problemas de Inferência Exemplo) (continuação). Digamos que a máquina de encher pacotes de café automaticamente esteja regulada para enchê-los segundo uma distribuição normal com média 500 gramas e desvio padrão de 100 gramas, isto é, X ~ N(500,1002). Sabemos também que, às vezes, a máquina desregula-se e, quando isso acontece, o único parâmetro que se altera é a média, permanecendo a mesma variância. Para manter a produção sob controle, iremos colher uma amostra de 100 pacotes e pesá-los. Como essa amostra nos ajudará a tomar uma decisão? Média da Amostra: Estatística Problemas de Inferência Exemplo) (continuação). Mesmo que a máquina esteja regulada, dificilmente será igual a 500 gramas, dado que os pacotes apresentam certa variabilidade no peso. Mas se não se afastar muito de 500 gramas, não existirão razões para suspeitarmos da qualidade do procedimento de produção. Só iremos pedir uma revisão da máquina se - 500, em valor absoluto, for “muito grande”. O problema que se apresenta agora é o de decidir o que é próximo ou distante de 500 gramas. Estatística Problemas de Inferência Exemplo) (continuação). Se o mesmo procedimento de colher a amostra de 100 pacotes fosse repetido um número muito grande de vezes, sob a condição de a máquina estar regulada, teríamos idéia do comportamento da variável aleatória, e saberíamos dizer se aquele valor observado é ou não é um evento raro de ocorrer. Caso o seja, é mais fácil suspeitar da regulagem da máquina do que do acaso. Importância de se conhecer as propriedades da distribuição da variável . Estatística Problemas de Inferência Nota) Repetir um mesmo experimento muitas vezes, sob as mesmas condições, nem sempre é possível, mas em determinadas condições é possível determinar teoricamente o comportamento de algumas medidas feitas na amostra, como, por exemplo, a média. Estatística Amostragem Aleatória Simples (AAS) Podemos ter uma AAS com reposição, se for permitido que uma unidade possa ser sorteada mais de uma vez, e sem reposição, se a unidade sorteada for removida da população. Na apostila e no concurso => Amostragem Aleatória Simples com Reposição. Definição. As variáveis X e Y, assumindo os valores x1, x2, ... e y1, y2, ..., respectivamente, são independentes se, e somente se, para todo par de valores (xi, yi) de X e Y, tivermos que P(X = xi, Y = yj) = P(X=xi)P(Y=yj). Estatística Amostragem Aleatória Simples (AAS) Exemplo) Consideremos a população {1, 3, 5, 5, 7}. Defina a variável X: valor assumido pelo elemento na população. Indicando por X1 o número selecionado na primeira extração e por X2 o número selecionado na segunda extração, vimos que é possível escrever a distribuição conjunta do par (X1, X2). Estatística Amostragem Aleatória Simples (AAS) Definição. Uma amostra aleatória simples de tamanho n de uma variável aleatória X, com dada distribuição, é o conjunto de n variáveis aleatórias independentes X1, X2, ..., Xn, cada uma com a mesma distribuição de X. - Ou seja, a amostra será a n-upla ordenada (X1, X2, ..., Xn), onde Xi indica a observação do i-ésimo elemento sorteado. Estatística Estatísticas Definição. Uma estatística é uma característica da amostra, ou seja, uma estatística T é uma função de X1, X2, ..., Xn. Estatística Estatísticas Definição. Um parâmetro é uma medida usada para descrever uma característica da população. Estatística Distribuições Amostrais A distribuição da estatística T é obtida quando (X1, X2, ..., Xn) assume todos os valores possíveis. Essa distribuição é chamada distribuição amostral da estatística T e desempenha papel fundamental na teoria da inferência estatística. Nota) Para cada amostra, calculamos o valor t da estatística T. Os valoresde t formam uma nova população, cuja distribuição recebe o nome de distribuição amostral de T. Estatística Distribuições Amostrais Exemplo) (continuação) No caso do lançamento de uma moeda 50 vezes, usando como estatística X = número de caras obtidas, a obtenção da distribuição amostral, que já foi vista, é feita por meio do modelo binomial b(50, p), qualquer que seja p = probabilidade de ocorrência de cara num lançamento, 0 < p < 1. Se estivermos interessados em julgar a “honestidade” da moeda, queremos verificar se p = 0,5. Nessas condições, P(X≥36/n = 50, p = 0,5) = 0,0013 = 0,13%. Nota) Portanto, caso a moeda seja honesta, em 50 lançamentos, a probabilidade de se obterem 36 ou mais caras é da ordem de 1 por 1.000. Ou seja, há evidências de que p não deve ser igual a 0,5. Estatística Distribuições Amostrais Exemplo) Voltemos ao Exemplo da Transparência 116, no qual selecionamos todas as amostras de tamanho 2, com reposição, da população {1, 3, 5, 5, 7}. Estatística Distribuição Amostral da Média Teorema) Seja X uma v.a. com média μ e variância σ2, e seja (X1, X2, ..., Xn) uma AAS de X. Então E( ) = μ e Var( ) = σ2/n. Estatística Teorema Central do Limite (TCL) O Teorema Central do Limite abreviadamente (TCL) diz respeito ao comportamento da média amostral à medida que o tamanho n da amostra cresce indefinidamente. Exemplo) (A distribuição de renda e o TCL) É um fato conhecido que a distribuição de renda pessoal dos habitantes de um país é usualmente muito desigual, ou seja, muitos ganham pouco e poucos ganham muito. Se forem sorteados 200 habitantes desse país e, com base nas suas rendas mensais, construirmos um histograma, ele terá o seguinte aspecto. Estatística Teorema Central do Limite (TCL) Figura: A distribuição da renda individual mensal (em salários mínimos) em determinado país. Estatística Teorema Central do Limite (TCL) Figura: Histograma da média amostral de renda n, para n = 2. Estatística Teorema Central do Limite (TCL) Figura: Histograma da média amostral de renda n, para n = 30. Como pode ser facilmente observado, no caso de n = 2, o histograma de aproxima mais de uma curva Normal do que no caso n = 1. E no caso n = 30, a semelhança do histograma com uma curva Normal é ainda maior. Estatística Teorema Central do Limite (TCL) Teorema 8.2) Para amostras aleatórias simples (X1, X2, ..., Xn), retiradas de uma população com média μ e variância σ2 finita, a distribuição amostral da média ( ) aproxima-se, para n grande, de uma distribuição normal, com média μ e variância σ2/n. Nota) Observamos que, se a população for normal, então terá distribuição exata normal. Este resultado segue do fato de que a distribuição de uma combinação linear de v.a.’s normais independentes tem ainda distribuição normal. Estatística Teorema Central do Limite (TCL) Exemplo) (Continuação) Suponha que a máquina de café encha os pacotes cujos pesos seguem uma distribuição N(500, 100). Colhendo-se uma amostra de n = 100 pacotes e pesando-os, pelo que foi dito acima, terá uma distribuição normal com média 500 e variância 100/100 = 1. Logo, se a máquina estiver regulada, a probabilidade de encontrarmos a média de 100 pacotes diferindo de 500g de menos de 2 gramas será P(| - 500| < 2) = P(498 < < 502) = P(-2 < Z < 2) ≈ 95%. Nota) Dificilmente 100 pacotes terão uma média fora do intervalo (498, 502). Caso 100 pacotes apresentem uma média fora desse intervalo, podemos considerar como um evento raro, e será razoável supor que a máquina esteja desregulada. Estatística Teorema Central do Limite (TCL) Corolário) Se (X1, X2, ..., Xn) for uma amostra aleatória simples da população X, com média μ e variância σ2 finita, e = (X1 + X2 + ... + Xn)/n, então Corolário 8.2) A distribuição de e (erro amostral da média) aproxima-se de uma distribuição normal com média 0 e variância σ2/n, isto é, Estatística Distribuição Amostral de uma Proporção Vamos considerar uma população em que a proporção de elementos portadores de certa característica é p. Logo, podemos definir uma v.a. X da seguinte maneira: Logo, μ = E(X) = p e σ2 = Var (X) = p(1 – p). Retirada uma AAS dessa população, e indicando por Yn o total de indivíduos portadores da característica na amostra, Yn ~ b(n, p), Estatística Distribuição Amostral de uma Proporção - Seja a proporção de indivíduos portadores da característica na amostra, isto é, Então ou seja, a distribuição amostral de é obtida da distribuição de Yn: Estatística Distribuição Amostral de uma Proporção Exemplo) Suponha que p = 30% dos estudantes de uma escola sejam mulheres. Colhemos uma AAS de n = 10 estudantes e calculamos = proporção de mulheres na amostra. Qual a probabilidade de que difira de p em menos de 0,01? Temos que essa probabilidade é dada por P(| - p| < 0,01) = P(-0,01 < - p < 0,01). Mas – p ~ N(0, p(1 – p)/n) , e como p = 0,3, temos que Var( ) = (0,3)(0,7)/10 = 0,021, E, portanto, a probabilidade pedida é igual a Estatística Determinação do Tamanho da Amostra Em nossas considerações anteriores fizemos a suposição de que o tamanho da amostra, n, era conhecido e fixo. Podemos, em certas ocasiões, querer determinar o tamanho da amostra a ser escolhida de uma população, de modo a obter um erro de estimação previamente estipulado, com determinado grau de confiança. Por exemplo, suponha que estejamos estimando a média μ e para tal usaremos a média amostral, , baseada numa amostra de tamanho n. Suponha que se queira determinar o valor n de modo que com 0 < < 1 e é o erro amostral da média máximo que podemos suportar, ambos valores fixados. Estatística Determinação do Tamanho da Amostra Estatística Determinação do Tamanho da Amostra (Proporções) Como não conhecemos p, a verdadeira proporção populacional, podemos usar o fato de que p(1-p) ≤ ¼, para todo p, a equação da transparência anterior fica Por outro lado, se tivermos alguma informação sobre ou pudermos estimá-lo usando uma amostra piloto, basta substituir esse valor estimado em n = Estatística Determinação do Tamanho da Amostra (Proporções) Teste de Hipóteses - Vimos que um dos problemas a serem resolvidos pela Inferência Estatística é o de testar uma hipótese. Isto é, feita determinada afirmação sobre uma população, usualmente sobre um parâmetro dessa, desejamos saber se os resultados experimentais provenientes de uma amostra contrariam ou não tal afirmação. - O objetivo do teste estatístico de hipóteses é, então, fornecer uma metodologia que nos permita verificar se os dados amostrais trazem evidências que apóiem ou não uma hipótese (estatística) formulada. 138 Teste de Hipóteses Exemplo) Uma indústria usa, como um dos componentes da máquina que produz, uma parafuso importado, que deve satisfazer a algumas exigências. Uma dessas é a resistência à tração. Esses parafusos são fabricados por alguns países, e as especificações técnicas variam de país para país. Por exemplo, o catálogo do país A afirma que a resistência média à tração de seus parafusos é de 145 kg, com desvio padrão de 12 kg. Já para o país B, a média é de 155 kg e desvio padrão 20kg. 139 Teste de Hipóteses Exemplo) (Continuação) Um lote desses parafusos, de origem desconhecida, será leiloado a um preço muito convidativo. Para que a indústria saiba se faz ou nãouma oferta, ele necessita saber qual país produziu tais parafusos. O edital do leiloeiro afirma que, pouco antes do leilão, será divulgada a resistência média de uma amostra de 25 parafusos do lote. Qual regra de decisão deve ser usada pela indústria para dizer se os parafusos são do país A ou B? 140 Teste de Hipóteses Uma resposta que ocorre imediatamente é a que considera como país produtor aquele para o qual a média da amostra mais se aproximar da média da população. Assim, uma possível regra de decisão seria: 141 Teste de Hipóteses Suponha que, no dia do leilão, fôssemos informados de que = 148; de acordo com nossa regra de decisão, diríamos que os parafusos são de origem A. Podemos estar enganados nessa conclusão? Ou, em outras palavras, é possível que uma amostra de 25 parafusos de origem B apresente média = 148? Sim é possível. Para melhor entendermos a regra de decisão adotada, é interessante estudarmos os tipos de erros que podemos cometer e as respectivas probabilidades. Podemos cometer dois tipos de erros, e vamos numerá-los para facilitar a linguagem: 142 Teste de Hipóteses Erro de Tipo I: dizer que os parafusos são de A quando na realidade são de B. Isso ocorre quando uma amostra de 25 parafusos de B apresenta média inferior ou igual a 150 kg. Erro do Tipo II: dizer que os parafusos são de B, quando na realidade eles são de A. Isso ocorre quando uma amostra de 25 parafusos de A apresenta média superior a 150 kg. 143 Teste de Hipóteses Para facilitar ainda mais, vamos definir duas hipóteses também numeradas: H0: os parafusos são de origem B. Isso equivale a dizer que a resistência X de cada parafuso segue uma distribuição com média μ = 155 e desvio padrão σ = 20. H1: os parafusos são de A, isso é, a média μ = 145 e desvio padrão σ = 12. 144 Teste de Hipóteses - Vamos indicar por RC a região correspondente aos valores menores que 150. - Com as notações indicadas acima, a probabilidade de se cometer cada um dos erros pode ser escrita: P (erro I) = P( Є RC / H0 é verdadeira) = α e P (erro II) = P( Є RC / H1 é verdadeira) = β. 145 Teste de Hipóteses - Quando H0 for verdadeira, isto é, os parafusos forem de B, sabemos do TLC que terá distribuição aproximadamente normal, com média 155 e desvio padrão 4, isto é, ~ N(155, 16). 146 Teste de Hipóteses 147 Teste de Hipóteses 148 Teste de Hipóteses 149 Teste de Hipóteses Teste de Hipóteses Do exposto acima constatamos que, escolhido , podemos achar as probabilidades de α e β de cometer cada tipo de erro. Mas também podemos proceder de modo inverso: fixar um dos erros, digamos α, e encontrar a regra de decisão que irá corresponder à probabilidade de erro de tipo I igual a α. 151 Teste de Hipóteses 152 Teste de Hipóteses 153 Teste de Hipóteses - Esse segundo tipo de procedimento é bastante utilizado, porque usualmente a decisão que devemos tomar não é apenas entre duas possíveis populações. Os parafusos poderiam ser produzidos por outros países além daqueles citados e, portanto, com outras características quanto à resistência média. Suponha, ainda, que interessa à indústria fazer uma proposta apenas no caso de o parafuso ser de origem B. Qual a regra de decisão que deve adotar? 154 Teste de Hipóteses - A hipótese que nos interessa agora é: H0: os parafusos são de origem B (μ = 155 e σ = 20) Caso essa não seja a hipótese verdadeira, a alternativa é muito mais ampla e pode ser expressa como: H1: os parafusos não são de origem B (μ e σ desconhecidos). Nota) Aqui não podemos especificar os parâmetros sob a hipótese alternativa H1, pois se não forem de origem B, os parafusos põem ser de vários outros países, cada um com suas próprias especificações. 155 Teste de Hipóteses - Vamos admitir que a indústria do país B para esse caso seja a mais desenvolvida, e nenhum outro país possa produzir uma resistência média superior à dela. Então, nossa hipótese alternativa seria mais explícita: H1: os parafusos não são de origem B (μ < 155 e σ qualquer). 156 Teste de Hipóteses - Isso significa que só iremos desconfiar de H0 se for muito menor do que 155. Se for superior a 148,42, diremos que o lote é de origem B; caso contrário, diremos que não é de origem B. 157 Teste de Hipóteses - Com essa regra de decisão e com a hipótese alternativa mais ampla, não podemos encontrar β, pois não temos um único parâmetro μ como alternativa e nada sabemos sobre σ. - Teste H0: μ = 155 vs H1: μ < 155, com RC = . 158 Teste de Hipóteses 159 Teste de Hipóteses - O cálculo de β depende do valor μ, que não é especificado. Definição. A função característica de operação (função CO) do teste acima é definida como β (μ)=P(aceitar H0 / μ) = P( > 148,42 / μ) Ou seja, β (μ) é a probabilidade de aceitar H0, considerada como uma função de μ. Usualmente, considera-se a função π(μ) = 1 – β(μ), que é a probabilidade de se rejeitar H0, como função de μ. Essa função é chamada de função poder do teste. 160 Teste de Hipóteses - Poder de um Teste – - Vimos que, na construção de um teste de hipóteses, procuramos controlar o erro de tipo I, fixando sua probabilidade de ocorrência, α, e construindo a região crítica de modo que P(RC / H0 verdadeira) = α. - Por outro lado, a probabilidade do erro do tipo II, na maioria dos casos, não pode ser calculada, pois a hipóteses alternativa usualmente especifica um conjunto de valores para o parâmetro. Voltemos ao exemplo da seção anterior. 161 Teste de Hipóteses - Poder de um Teste – - Exemplo) Uma máquina automática para encher pacotes de café enche-os segundo uma distribuição normal, com média μ e variância sempre igual a 400 g2. A máquina foi regulada para μ = 500g. Desejamos, periodicamente, colher uma amostra de 16 pacotes e verificar se a produção está sob controle, isto é, se μ = 500 ou não. Se uma dessas amostras apresentasse uma média = 492 g, você pararia ou não a produção para regular a máquina? H0: μ = 500 g e H1: μ ≠ 500 g. 162 Teste de Hipóteses - Poder de um Teste – - Exemplo) Uma máquina automática para encher pacotes de café enche-os segundo uma distribuição normal, com média μ e variância sempre igual a 400 g2. A máquina foi regulada para μ = 500g. Desejamos, periodicamente, colher uma amostra de 16 pacotes e verificar se a produção está sob controle, isto é, se μ = 500 ou não. Se uma dessas amostras apresentasse uma média = 492 g, você pararia ou não a produção para regular a máquina? H0: μ = 500 g e H1: μ ≠ 500 g. 163 Teste de Hipóteses - Poder de um Teste – - Exemplo) (continuação) Pela afirmação do problema, σ2 = 400 será sempre a mesma; logo, para todo μ, a média de 16 pacotes terá distribuição N(μ, 400/16), de modo que o desvio padrão (ou erro padrão) de é igual a 5. Em particular, se H0 for verdadeira, ~ N(500, 25). - Vamos fixar α = 1%; pela hipótese alternativa, vemos que H0 deve ser rejeitada quando o valor assumido por for muito pequena ou muito grande (dizemos que temos um teste bilateral). 164 Teste de Hipóteses 165 Teste de Hipóteses 166 Teste de Hipóteses 167 Teste de Hipóteses 168 Teste de Hipóteses 169 Teste de Hipóteses 170 FIM 171
Compartilhar