Baixe o app para aproveitar ainda mais
Prévia do material em texto
Intervalos de Confiança para uma amostra Sandro Bruno do Nascimento Lopes Universidade Federal do Rio Grande do Norte 27 de maio de 2015 Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 1 / 74 Sumário 1 Estimativa pontual 2 Intervalo de confiança Nível de confiança 3 Intervalo de Confiança para a média populacional 4 Intervalo de Confiança da média populacional com desvio-padrão populacional desconhecido Caso em que o número de amostras é grande Caso em que o número de amostras é pequeno Distribuição t de Student Intervalo de Confiança com desvio-padrão populacional desconhecido 5 Intervalo de Confiança para a proporção populacional 6 Definição do tamanho mínimo da amostra Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 2 / 74 Motivação O objetivo de extrair amostras de uma população é poder verificar informações de interesse da população em si; Geralmente deseja-se apresentar informações sobre os parâmetros da população envolvida; Isto caracteriza uma inferência estatística; A questão é que esta inferência apresenta erros pela limitação dos dados disponíveis, que são referentes a uma amostra e não a população; Dois parâmetros, em particular, são estudados: A média populacional µ; A proporção populacional p; Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 3 / 74 Sumario 1 Estimativa pontual 2 Intervalo de confiança Nível de confiança 3 Intervalo de Confiança para a média populacional 4 Intervalo de Confiança da média populacional com desvio-padrão populacional desconhecido Caso em que o número de amostras é grande Caso em que o número de amostras é pequeno Distribuição t de Student Intervalo de Confiança com desvio-padrão populacional desconhecido 5 Intervalo de Confiança para a proporção populacional 6 Definição do tamanho mínimo da amostra Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 4 / 74 Definição Uma estimativa pontual para um parâmetro é um único valor que é assumido como um valor coerente para um parâmetro; Uma estiva pontual é obtida através do cálculo do valor de uma estatística representativa através dos dados de uma amostra; Uma estatística é considerada representativa se está relaciona diretamente com o parâmetro em questão; Para a média populacional µ, por exemplo, a estimativa pontual usada é o valor x para a média amostral X ; Para a proporção populacional p, a estimativa pontual é o valor da proporção amostral pˆ; Para a variância amostral σ2, a estimativa pontual usada é o valor s2 da variância amostral S; A estatística utilizada para calcular uma estimativa pontual de um parâmetro é denominada de estimador pontual; Para a estimativa pontual, é preciso levar em consideração que cada amostra pode apresentar uma estimativa pontual diferente, ou seja, existem variações nas amostras possíveis; Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 5 / 74 Definição Para um parâmetro, há várias formas de calcular uma estimativa pontual: Para a média populacional µ, por exemplo, é possível atribuir como estimadores pontuais de uma amostra {X1,X2, · · · ,Xn}: A média amostral X ; A mediana amostral Xˆ ; A média dos valores extremos da amostra, dada por max(Xi ) +min(Xi ) 2 ; Para cada amostra, obtém-se uma estimativa pontual diferente: Para uma população cuja variável aleatória X associada possui valores {1, 5, 10, 20, 50, 100}, com igual probabilidade de ocorrer, ou seja, probabilidade de 16 , o valor real da média é µ = 31; Tomadas quatro possíveis amostras compostas por três elementos cada, tem-se que: Amostra 1: {5, 20, 50}; valor da média amostral: x = 25; Amostra 2: {1, 10, 100}; valor da média amostral: x = 37; Amostra 3: {1, 5, 20}; valor da média amostral: x ≈ 8, 667; Amostra 4: {20, 50, 100}; valor da média amostral: x ≈ 56, 667. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 6 / 74 Definição O exemplo da média amostral da população mostrou que os valores das estimativas pontuais variam de acordo como o tamanho da amostra; No entanto, nenhum dos valores observados coincidiu com o valor da média populacional real; Isto ocorre porque está se utilizando uma parcela pequena da população. Uma parcela pequena, muitas vezes, não consegue englobar todas as características da população, ocasionando estimativas muito distantes do verdadeiro valor do parâmetro; Quanto maior o número de amostras selecionadas, tem-se mais informações sobre a população e, consequentemente, mais próximas do valor real serão as estimativas; Tomada a diferença entre o valor da média x i obtida para cada amostra e média populacional µ, tem-se que: Amostra 1: x − µ = 25− 31 = −6; Amostra 2: x − µ = 37− 31 = 6; Amostra 3: x − µ = 8, 667− 31 = −22, 333; Amostra 4: x − µ = 56, 667− 31 = 25, 667. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 7 / 74 Definição É possível perceber que a variação entre o valor da média obtida para cada amostra e média populacional para as duas primeiras amostras é menor (−6 e 6, respectivamente) do que para as duas últimas (−22, 333 e 25, 667); Se for tomada uma tolerância de ±10 a partir do valor da média amostral calculado, apenas o intervalo estabelecido para as duas primeiras amostras conteria a média populacional; Para que todas as amostras contenham a média populacional, a tolerância que deve ser assumido de ser de ±26; O estudo de intervalos de confiança irá permitir definir quais os valores de tolerância que podem ser utilizados para estabelecer estes intervalos para as amostras. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 8 / 74 Sumario 1 Estimativa pontual 2 Intervalo de confiança Nível de confiança 3 Intervalo de Confiança para a média populacional 4 Intervalo de Confiança da média populacional com desvio-padrão populacional desconhecido Caso em que o número de amostras é grande Caso em que o número de amostras é pequeno Distribuição t de Student Intervalo de Confiança com desvio-padrão populacional desconhecido 5 Intervalo de Confiança para a proporção populacional 6 Definição do tamanho mínimo da amostra Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 9 / 74 Definição A estimativa pontual não fornece por si só qualquer valor sobre o grau de precisão e confiabilidade da estimativa; Um intervalo de confiança (abreviadamente IC) fornece um conjunto de valores que podem ser considerados coerentes para o parâmetro em questão; Um intervalo de confiança leva em consideração os seguintes fatores: A estimativa pontual utilizada; A margem de erro e, que é equivalente a tolerância, e está associada a variabilidade das amostras e ao nível de confiança atribuído ao valor da estimativa pontual; Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 10 / 74 Sumario 1 Estimativa pontual 2 Intervalo de confiança Nível de confiança 3 Intervalo de Confiança para a média populacional 4 Intervalo de Confiança da média populacional com desvio-padrão populacional desconhecido Caso em que o número de amostras é grande Caso em que o número de amostras é pequeno Distribuição t de Student Intervalo de Confiança com desvio-padrão populacional desconhecido 5 Intervalo de Confiança para a proporção populacional 6 Definição do tamanho mínimo da amostra Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 11 / 74 Nível de confiança Cada amostra irá definir valores de estimativa pontual distintos, fazendo com que os intervalos de confiança também variem; Nem todos os intervalos construídos incluirão o parâmetro, apenas uma parceladeles. Ou seja, nunca é possível definir com 100% de precisão que o parâmetro estará no intervalo de confiança especificado. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 12 / 74 Nível de confiança Denomina-se de nível de confiança o grau de confiança de que o intervalo contenha o valor real do parâmetro; Interpretação do nível de confiança: se forem feitas amostragens um número muito grande de vezes, a probabilidade dos intervalos construídos incluírem o parâmetro em questão pode ser definida; Cada nível de confiança estabelece limites inferiores e superiores diferentes para o intervalo de uma mesma amostra; Notação: Para um intervalo com nível de confiança (1− α) ∗ 100%, tem-se que: O valor 1− α é denominado coeficiente de confiança; O valor de α é chamado de nível de significância; Como exemplo, para um intervalo com 95% de confiança, tem-se que: Coeficiente de confiança 1− α = 0, 95; Nível de significância α = 0, 05. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 13 / 74 Definição Para cada amostra, irá ser definido um valor um limite superior e inferior para o intervalo de confiança associado. Estes serão denominados por l e u, respectivamente; O objetivo, então, é definir os valores de l e u para que o nível de confiança de que o intervalo definido para a amostra inclui o parâmetro seja igual a um valor desejado (entre 0 e 1); Geralmente os intervalos de confiança definidos são simétricos em relação a estimação pontual. Ou seja, serão compostos pelo estimativa pontual a mais ou menos da margem de erro. Então, definir os limites l e u do intervalo torna-se equivalente a definir a margem de erro e para o intervalo. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 14 / 74 Sumario 1 Estimativa pontual 2 Intervalo de confiança Nível de confiança 3 Intervalo de Confiança para a média populacional 4 Intervalo de Confiança da média populacional com desvio-padrão populacional desconhecido Caso em que o número de amostras é grande Caso em que o número de amostras é pequeno Distribuição t de Student Intervalo de Confiança com desvio-padrão populacional desconhecido 5 Intervalo de Confiança para a proporção populacional 6 Definição do tamanho mínimo da amostra Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 15 / 74 Motivação Um dos parâmetros mais importantes a ser estimado é a media populacional µ; Foi visto que para se definir um intervalo de confiança adequado ao nível de confiança desejado, é necessário definir os limites inferior l e superior u do intervalo; Geralmente deseja-se definir um intervalo cuja nível de confiança do verdadeiro valor do parâmetro estar contido nele seja alta (igual ao coeficiente de confiança 1− α desejado); Matematicamente, tem-se que: P(µ ∈ IC(µ, 1− α)) = P(l ≤ µ ≤ u) = 1− α Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 16 / 74 Motivação Foi visto que a média amostral X n possui relação com a média populacional µ dada por: X n ∼ N ( µ, σ2 n ) Se a população for normal, esta relação é válida para qualquer de n; Se a população não for normal, esta relação é válida apenas se n for suficientemente grande (de acordo com o Teorema do Limite Central); Utilizando o valor da média amostral como estimativa pontual e sabendo que a distribuição da média amostral é simétrica, busca-se determinar o valor da margem de erro e tal que: P(|X n − µ| ≤ e) = 1− α Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 17 / 74 Interpretação Para um intervalo de confiança de (1− α) ∗ 100% da média populacional µ, tomada a média amostral X n, o intervalo [l ; u] é tal que: xl u 1-α Consequentemente: xl u α Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 18 / 74 Interpretação Como cada parcela mostrada possui área igual, então: xl u α_ 2 α_ 2 Portanto, P(X < l) = α2 e P(X > u) = 1− P(X < u) = α 2 ou: P(X < l) = α2 ; P(X < u) = 1− α2 . Portanto, l será igual ao α2−percentil, e u será o ( 1− α2 ) −percentil. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 19 / 74 Interpretação Como se trata de um variável normal padrão, a média amostral X pode ser associada a uma variável aleatória Z padrão, através da seguinte fórmula: Z = X − µ( σ√n ) O problema agora pode ser visto como: P(X < zl) = α 2 ; P(X < zu) = 1− α2 . Através da tabela, é possível afirmar que zl = zα2 e zu = z1−α2 ; De acordo com uma propriedade da distribuição padrão, zα 2 = −z1−α2 ; Logo, zl = −z1−α2 . Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 20 / 74 Interpretação Desta forma, pode-se afirmar que P(−z1−α2 ≤ Z ≤ z1−α2 ) = 1− α; Como Z = X − µ( σ√n ) , então P −z1−α2 ≤ X − µ( σ√n) ≤ z1−α2 = 1− α; Desenvolvendo apenas o intervalo, tem-se que: − z1−α2 ≤ X − µ( σ√n ) ≤ z1−α2 → −z1−α2 ( σ√n ) ≤ X − µ ≤ z1−α2 ( σ√n ) → − X − z1−α2 ( σ√n ) ≤ −µ ≤ −X + z1−α2 ( σ√n ) → X + z1−α2 ( σ√n ) ≥ µ ≥ X − z1−α2 ( σ√n ) → X − z1−α2 ( σ√n ) ≤ µ ≤ X + z1−α2 ( σ√n ) Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 21 / 74 Interpretação Logo, P ( X − z1−α2 ( σ√n ) ≤ µ ≤ X + z1−α2 ( σ√n )) = 1− α. Isto significa que l = X − z1−α2 ( σ√n ) ; u = X + z1−α2 ( σ√n ) ; O intervalo desejado é [ X − z1−α2 ( σ2 n ) ;X + z1−α2 ( σ√n )] , e a margem de erro é dada por e = z1−α2 ( σ√n ) . Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 22 / 74 Definição do valor crítico Como o valor crítico está estritamente associado ao níveis de confiança desejado para o intervalo, então eles podem ser definidos a priori, como mostrado abaixo: nível de confiança coeficiente de confiança valor crítico z1−α2 80% 0, 8 1, 28 90% 0, 9 1, 645 95% 0, 95 1, 96 98% 0, 98 2, 33 99% 0, 99 2, 58 99, 8% 0, 998 3, 08 99, 9% 0, 999 3, 27 Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 23 / 74 Metodologia Então, quando for necessário definir um intervalo para o valor da média populacional µ a partir da média amostral X n com nível de confiança de (1− α) ∗ 100%, segue-se as seguintes etapas: Define-se os valores do coeficiente de confiança 1− α e do nível de significância α; Define-se o valor de 1− α2 ; Calcula-se o valor crítico z1−α2 , para o qual Φ(z1−α2 ) = 1− α 2 ; Calcula-se os limites inferior l e inferior u através das seguinte fórmulas: l = X n − z1−α2 ( σ√n ) ; u = X n + z1−α2 ( σ√n ) ; O intervalo de confiança será dado por [l ; u], e a margem de erro será e = z1−α2 ( σ√n ) . Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 24 / 74 Exemplo Assuma que a porosidade do hélio (em porcentagem) das amostras de carvão tiradas de qualquer junta específica seja normalmente distribuída com desvio padrão de 0, 75. Determine: 1 O intervalo de confiança de 95% da porosidade média real de uma junta, caso a porosidade média de 20 da seus espécimes seja 4, 85; 2 O intervalo de confiança de 95% da porosidade média real de uma junta, caso a porosidade média de 16 da seus espécimes seja 4, 85; 3 O intervalo de confiança de 98% da porosidade média real de uma junta, caso a porosidade média de 20 da seus espécimes seja 4, 85. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 25 / 74 Exemplo Primeira questão: A variável aleatória associada a população é X = { Porosidade do hélio de uma junta específica }, onde se conheceo desvio-padrão da população, 0, 75; Foram obtidas 20 amostras cuja média amostral é de 4, 85; Deseja-se definir o intervalo de confiança de 95% para a média populacional, ou seja, IC(µ, 0, 95); De acordo com a definição do intervalo de confiança para este caso, tem-se que: IC(µ, 0, 95) = X n ± zα2 ( σ√n ) = 4, 85± z 0,05 2 ( 0, 75√ 20 ) = 4, 85± z0,025 ( 0, 75√ 20 ) = 4, 85± 1, 96 ( 0, 75√ 20 ) = 4, 85± 0, 3287 = (4, 5213; 5, 1787) Logo, o intervalo de confiança IC(µ, 0, 95) obtido é dado por [4, 5213; 5, 1787]. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 26 / 74 Exemplo Segunda questão: Foram obtidas 16 amostras cuja média amostral é de 4, 85; Deseja-se definir o intervalo de confiança de 95% para a média populacional, ou seja, IC(µ, 0, 95); De acordo com a definição do intervalo de confiança para este caso, tem-se que: IC(µ, 0, 95) = X n ± zα2 ( σ√n ) = 4, 85± z 0,05 2 ( 0, 75√ 16 ) = 4, 85± z0,025 ( 0, 75 4 ) = 4, 85± 1, 96 ( 0, 75 4 ) = 4, 85± 0, 3675 = (4, 4825; 5, 2175) Logo, o intervalo de confiança IC(µ, 0, 95) obtido é dado por [4, 4825; 5, 2175]. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 27 / 74 Exemplo Terceira questão: Foram obtidas 20 amostras cuja média amostral é de 4, 85; Deseja-se definir o intervalo de confiança de 98% para a média populacional, ou seja, IC(µ, 0, 98); De acordo com a definição do intervalo de confiança para este caso, tem-se que: IC(µ, 0, 98) = X n ± zα2 ( σ√n ) = 4, 85± z 0,02 2 ( 0, 75√ 20 ) = 4, 85± z0,01 ( 0, 75√ 20 ) = 4, 85± 2, 33 ( 0, 75√ 20 ) = 4, 85± 0, 3907 = (4, 4593; 5, 2407) Logo, o intervalo de confiança IC(µ, 0, 98) obtido é dado por [4, 4593; 5, 2407]. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 28 / 74 Exemplo De acordo com o exemplo, é possível concluir: Quanto maior o tamanho da amostra, menor a amplitude do intervalo de confiança; Quanto maior o nível de confiança, maior é a amplitude do intervalo de confiança. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 29 / 74 Sumario 1 Estimativa pontual 2 Intervalo de confiança Nível de confiança 3 Intervalo de Confiança para a média populacional 4 Intervalo de Confiança da média populacional com desvio-padrão populacional desconhecido Caso em que o número de amostras é grande Caso em que o número de amostras é pequeno Distribuição t de Student Intervalo de Confiança com desvio-padrão populacional desconhecido 5 Intervalo de Confiança para a proporção populacional 6 Definição do tamanho mínimo da amostra Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 30 / 74 Metodologia Foi visto um método para estimar a média populacional a partir da média amostral; Neste método, é possível perceber que existem quatro variáveis necessárias para definir os valores do intervalo de confiança: z1−α2 , que pode ser obtido por tabela, a partir da equação P(z1−α2 ) = α 2 . O valor de α é definido a partir do nível de confiança desejado; Uma estimativa pontual xn da média amostral X n n, tamanho da amostra, que é fornecido para a média amostral; σ, o desvio-padrão populacional; Em quase todos os problemas reais, o valor de σ (ou de σ2, a variância populacional é desconhecido; Isto implica que o método desenvolvido não é aplicável na maioria dos casos. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 31 / 74 Motivação Sabe-se que a média amostral X n possui relação com a média populacional µ dada por: X n ∼ N ( µ, σ2 n ) Como o valor do desvio-padrão populacional é desconhecido, necessita-se utilizar um valor relacionado; geralmente uma estimativa pontual do desvio-padrão; Uma estimativa pontual frequentemente utilizada para o desvio-padrão populacional é o desvio-padrão amostral, denominado S e dado por: S = √∑n i=1(Xi − X ) n − 1 (1) Então, a média amostral X n possui relação com a média populacional µ dada por: X n ∼ N ( µ, S2 n ) Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 32 / 74 Motivação Esta interpretação terá impacto direto na definição da variável equivalente Z , que passaria a ser escrita como: Z = X − µ( S√n ) O problema agora é que variável Z passa a depender de duas estimativas, a de X e a de S, e não mais de uma, como visto; Existem dois casos que precisam ser considerados, neste caso: Quando o número de amostras n é grande; Quando o número de amostras n é pequeno. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 33 / 74 Sumario 1 Estimativa pontual 2 Intervalo de confiança Nível de confiança 3 Intervalo de Confiança para a média populacional 4 Intervalo de Confiança da média populacional com desvio-padrão populacional desconhecido Caso em que o número de amostras é grande Caso em que o número de amostras é pequeno Distribuição t de Student Intervalo de Confiança com desvio-padrão populacional desconhecido 5 Intervalo de Confiança para a proporção populacional 6 Definição do tamanho mínimo da amostra Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 34 / 74 Definição No caso em que o número de amostras é grande, o uso do desvio-padrão amostral S apresenta pouca variabilidade com relação ao desvio-padrão populacional σ; Isto significa que s ≈ σ; Desta forma, a distribuição Z pode ser definida como uma variável aleatória com distribuição normal padrão, ou seja: Z = X − µ( S√n ) ∼ N(0, 1) A metodologia para determinar o Intervalo de Confiança, neste caso, é semelhante ao viso para a média populacional com desvio-padrão populacional conhecido, substituindo o valor de σ pelo valor do desvio-padrão amostral s. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 35 / 74 Metodologia Então, quando for necessário definir um intervalo para o valor da média populacional µ a partir da média amostral X n com nível de confiança de (1− α) ∗ 100% e número de amostras n suficientemente grande, onde é possível definir apenas o desvio-padrão amostral s (o desvio-padrão populacional σ é desconhecido), segue-se as seguintes etapas: Define-se os valores do coeficiente de confiança 1− α e do nível de significância α; Define-se o valor de 1− α2 ; Calcula-se o valor crítico z1−α2 , para o qual Φ(z1−α2 ) = 1− α 2 ; Calcula-se os limites inferior l e inferior u através das seguinte fórmulas: l = X n − z1−α2 ( s√n ) ; u = X n + z1−α2 ( s√n ) ; O intervalo de confiança será dado por [l ; u], e a margem de erro será e = z1−α2 ( s√n ) . Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 36 / 74 Sumario 1 Estimativa pontual 2 Intervalo de confiança Nível de confiança 3 Intervalo de Confiança para a média populacional 4 Intervalo de Confiança da média populacional com desvio-padrão populacional desconhecido Caso em que o número de amostras é grande Caso em que o número de amostras é pequeno Distribuição t de Student Intervalo de Confiança com desvio-padrão populacional desconhecido 5 Intervalo de Confiança para a proporção populacional 6 Definição do tamanho mínimo da amostra Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 37 / 74 Definição No caso em que o número de amostras é pequeno, o uso da variância amostral S apresenta variabilidade significativa com relação ao desvio-padrão populacional σ; Isto significa que s é muito diferente de σ, fazendo com que o desvio-padrão amostral tenha que ser considerado uma variável aleatória dentro da definição da variávelZ : Z = X − µ( S√n ) � N(0, 1) Neste caso, a distribuição de Z não será mais uma distribuição normal padrão, mas ou outro tipo de distribuição. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 38 / 74 Definição O teorema abaixo define a distribuição da variável Z : Definição Se X é a média amostral aleatória de tamanho n de uma distribuição normal com média µ, a variável aleatória T , dada por: T = X − µ( S√n ) Possui uma distribuição denominada t de Student com n − 1 graus de liberdade. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 39 / 74 Definição A distribuição t de Student (também conhecida apenas como distribuição “t”) depende de um parâmetro chamado graus de liberdade (cujo valor será denominado por gl); Para o caso da estimação da media populacional, este parâmetro é o número de observações n que variam livremente uma vez que a média amostral for calculada: gl = n − 1 Cada curva da distribuição t possui formato de sino e está centrada em zero; Toda curva t é mais dispersa que a curva normal padronizada, ou seja, possui caudas mais distantes de zero (mais “pesadas”); A medida que gl aumenta, a dispersão da curva t correspondente diminui; A medida que gl →∞, a sequência das curvas t se aproxima da curva normal padronizada (de modo que a distribuição normal padrão é um caso particular da distribuição t com gl =∞). Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 40 / 74 Função densidade de probabilidade da distribuição t de Student Definição A função densidade de probabilidade de uma distribuição t de Student com ν graus de liberdade t(x , ν) é definida como: f (x) = t(x , v) = Γ ( ν−1 2 ) √ νpiΓ ( ν−1 2 ) (1 + x2 ν )−( ν−12 ) Onde Γ(z) é a função Gama, dada por: Γ(z) = ∫ ∞ 0 tz−1e−tdz Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 41 / 74 Função densidade de probabilidade da distribuição t de Student Disposição gráfica (o valor de ν é o número de graus de liberdade): Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 42 / 74 Média e variância da distribuição t de Student Definição Dada uma variável aleatória X que possui distribuição t de Student com ν graus de liberdade, ou seja, X ∼ t(x , ν), o valor esperado da variável X , E (X ), é dada por: E (X ) = { 0, para ν > 1; indefinido, caso contrário . E a variância da variável X , V (X ), é dada por: V (X ) = ν ν − 2 , para ν > 2; ∞, para 1 < ν ≤ 2; indefinido, caso contrário . Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 43 / 74 Distribuição t de Student Valores tabelados: A distribuição t de Student possui valores tabelados, como a distribuição Normal padrão. No entanto, a leitura da tabela é feita de forma diferente; Na tabela de uma distribuição t de Student, o que se deseja procurar é o valor crítico associado aos graus de liberdade e ao valor de α2 associado; Então, para definir o valor de tα 2 ,gl , tem-se que: Nas linhas, são listados os valores de graus de liberdade gl ; Nas colunas, os valores para o qual P(T ≥ tα 2 ,gl) = α 2 (ou seja, os valores a probabilidade da variável associada T estar acima de α2 ); O valor da célula correspondente é o valor de tα 2 ,gl . Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 44 / 74 Distribuição t de Student Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 45 / 74 Sumario 1 Estimativa pontual 2 Intervalo de confiança Nível de confiança 3 Intervalo de Confiança para a média populacional 4 Intervalo de Confiança da média populacional com desvio-padrão populacional desconhecido Caso em que o número de amostras é grande Caso em que o número de amostras é pequeno Distribuição t de Student Intervalo de Confiança com desvio-padrão populacional desconhecido 5 Intervalo de Confiança para a proporção populacional 6 Definição do tamanho mínimo da amostra Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 46 / 74 Definição do intervalo de confiança O raciocínio para estimar os intervalos utilizando a distribuição t é idêntico ao utilizado para a distribuição normal padrão; A única diferença é que, ao invés de utilizar como valor crítico z1−α2 , será utilizado tα 2 ,n−1 (o valor para a distribuição t com n − 1 graus de liberdade, onde P(T ≥ tα 2 ,n−1) = α 2 ); Desta forma, pode-se afirmar que P(−tα 2 ,n−1 ≤ T ≤ tα2 ,n−1) = 1− α; Como T = X − µ( S√n ) , então P −tα 2 ,n−1 ≤ X − µ( S√n ) ≤ tα 2 ,n−1 = 1− α; Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 47 / 74 Definição do intervalo de confiança Desenvolvendo apenas o intervalo, tem-se que: − tα 2 ,n−1 ≤ X − µ( S√n ) ≤ tα 2 ,n−1 → − tα 2 ,n−1 ( S√n ) ≤ X − µ ≤ tα 2 ,n−1 ( S√n ) → − X − tα 2 ,n−1 ( S√n ) ≤ −µ ≤ −X + tα 2 ,n−1 ( S√n ) → X + tα 2 ,n−1 ( S√n ) ≥ µ ≥ X − tα 2 ,n−1 ( S√n ) → X − tα 2 ,n−1 ( S√n ) ≤ µ ≤ X + tα 2 ,n−1 ( S√n ) Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 48 / 74 Interpretação Logo, P ( X − tα 2 ,n−1 ( S√n ) ≤ µ ≤ X + tα 2 ,n−1 ( S√n )) = 1− α. Isto significa que l = X − tα 2 ,n−1 ( S√n ) ; u = X + tα 2 ,n−1 ( S√n ) ; O intervalo desejado é [ X − tα 2 ,n−1 ( S√n ) ;X + tα 2 ,n−1 ( S√n )] , e a margem de erro é dada por e = tα 2 ,n−1 ( S√n ) . Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 49 / 74 Metodologia Então, quando for necessário definir um intervalo para o valor da média populacional µ a partir da média amostral X n com nível de confiança de (1− α) ∗ 100%, segue-se as seguintes etapas: Define-se os valores do coeficiente de confiança 1− α e do nível de significância α; Define-se o valores de α2 e n − 1 (graus de liberdade); Calcula-se o valor crítico tα 2 ,n−1, para o qual P(T ≥ tα2 ,n−1) = α 2 ; Calcula-se os limites inferior l e inferior u através das seguinte fórmulas: l = X n − tα2 ,n−1 ( S√n ) ; u = X n + tα2 ,n−1 ( S√n ) ; O intervalo de confiança será dado por [l ; u], e a margem de erro será e = tα 2 ,n−1 ( S√n ) . Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 50 / 74 Exemplo Uma amostra aleatória tem média amostral X n = 50 e desvio-padrão amostral S = 8. Construa o intervalo de confiança de 95% para a média populacional µ: 1 Com o número de amostras é n = 15. 2 Com o número de amostras é n = 51. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 51 / 74 Exemplo Primeira questão: Como não conhecemos o desvio-padrão populacional σ, este é estimado pelo desvio-padrão da amostra S. Como o tamanho da amostra n é pequena (n = 15 < 30), utiliza-se o seguinte intervalo de confiança: P(µ ∈ IC(µ, 1− α)) = X ± tα 2 ,n−1 ( S√n ) O número de graus de liberdade é gl = n− 1 = 15− 1 = 14, então da tabela (ver página a seguir), t0,025,14 = 2, 145; O intervalo de confiança será dado por: IC(µ, 0, 95) = X 15 ± t0,025,14 S√n = 50± 2, 145 ∗ 8√ 15 ≈ 50± 4, 4307 = [45, 5963; 54, 4307] Logo, o intervalo de confiança de interesse é [46, 568; 53, 432]; Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 52 / 74 Exemplo Segunda questão: Como não conhecemos o desvio-padrão populacional σ, este é estimado pelo desvio-padrão da amostra S. Como o tamanho da amostra é grande (n = 51 ≥ 30), utiliza-se o seguinte intervalo de confiança: P(µ ∈ IC(µ, 1−α)) = X ± z1−α2 ( S√n ) De acordo com a tabela, z1−α2 = z0,975 ≈ 1, 96 O intervalo de confiança será dado por: IC(µ, 0, 95) = X 51 ± z0,975 S√n = 50± 1, 96 ∗ 8√ 51 ≈ 50± 2, 1956 = [47, 8044; 52, 1956] Logo, o intervalo de confiança de interesse é [47, 8044; 52, 1956]; Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 53 / 74 Exemplo Uma forma alterativa é utilizar a definição do intervalo por meio da distribuição t de Student, da seguinte forma: P(µ ∈ IC(µ, 1− α)) = X ± tα 2 ,n−1 ( S√n ) O número de graus de liberdade é gl = n− 1 = 51− 1 = 50, então da tabela (ver página a seguir), t0,025,50 = 2, 009; O intervalo de confiança será dado por: IC(µ, 0, 95) = X 51 ± t0,025,50 S√n = 50± 2, 009 ∗ 8√ 51 = 50± 2, 009 ∗ 8√ 51 = 50± 2, 2505 = [47, 7495; 52, 2505] Logo, o intervalo de confiança de interesse é [47, 7495; 52, 2505]; Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 54 / 74 Exemplo Como é possível perceber, para n = 51, o Intervalo de Confiança obtido pela distribuição normal padrão difere do intervalo obtido pela distribuição t de Student por 0, 1098 (0, 0549 para o limite superior e 0, 0549 para o limite superior direito); Logo, para o caso em que se deseja um Intervalo de Confiança o desvio-padrão populacional desconhecido e número de amostras grandes, as duas técnicas podem ser utilizadas. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 55 / 74 Sumario 1 Estimativa pontual 2 Intervalo de confiança Nível de confiança 3 Intervalo de Confiança para a média populacional 4 Intervalo de Confiança da média populacional com desvio-padrão populacional desconhecido Caso em que o número de amostras é grande Caso em que o número de amostras é pequeno Distribuição t de Student Intervalo de Confiança com desvio-padrão populacional desconhecido 5 Intervalo de Confiança para a proporção populacional 6 Definição do tamanho mínimo da amostra Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 56 / 74 Motivação Assim como foi fito para a média populacional, é possível definir um intervalo de confiança para a proporção populacional, denominado por p; Uma estimativa de intervalo para a proporção populacional (p) pode ser calculada ao adicionamos uma quantidade de incerteza à proporção amostral (pˆ); Foi visto que, para amostras significativamente grandes ou oriundas de um população normal, a proporção amostral pˆ possui distribuição normal, com média p e variância p(1− p)n . Ou seja: pˆ ∼ N ( p, p(1− p)n ) Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 57 / 74 Definição do intervalo de confiança O raciocínio para estimar intervalos para a proporção populacional será semelhante ao que tem sido adotado para a média amostral, assumindo a média como p e o desvio-padrão como σ = √ p(1− p) n (que são valores desconhecidos); Desta forma, pode-se afirmar que P(−z1−α2 ≤ pˆ ≤ z1−α2 ) = 1− α; Como Zpˆ = pˆ − p√ p(1− p) n , então P −z1−α2 ≤ pˆ − p√ p(1−p) n ≤ z1−α2 = 1− α; Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 58 / 74 Definição do intervalo de confiança Desenvolvendo apenas o intervalo, os seus limites inferior l e superior u são: l = pˆ + z21−α2 2n − z1−α2 √ pˆ(1− pˆ) n + z21−α2 4n2 1+ z21−α2 2n u = pˆ + z21−α2 2n + z1− α 2 √ pˆ(1− pˆ) n + z21−α2 4n2 1+ z21−α2 2n ; Considerando o fato de lidar-se com amostras grandes, z21−α2 2n é desprezível comparado a pˆ, z21−α2 4n2 é desprezível com relação a √ pˆ(1− pˆ) n e z21−α2 n é desprezível comparado a 1; Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 59 / 74 Interpretação Logo, desconsiderando os termos desprezíveis, os intervalos passam a ser: l = pˆ − z1−α2 √ pˆ(1− pˆ) n u = pˆ + z1−α2 √ pˆ(1− pˆ) n ; Isto implica em P ( pˆ − z1−α2 √ pˆ(1− pˆ) n ≤ p ≤ pˆ + z1−α2 √ pˆ(1− pˆ) n ) = 1− α; O intervalo desejado é [ pˆ − z1−α2 √ pˆ(1− pˆ) n ; pˆ + z1− α 2 √ pˆ(1− pˆ) n ] , e a margem de erro é dada por e = z1−α2 √ pˆ(1− pˆ) n . Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 60 / 74 Interpretação Uma outra forma de ver a definição de intervalo é assumindo o desvio-padrão a estimativa pontual do desvio-padrão amostral S, dada como S = √ pˆ(1− pˆ) n ; A estimativa do desvio-padrão, usando uma amostra é conhecida também como erro-padrão; Isto é possível porque assume-se que o número de amostras é grande ou a população é conhecida por ter distribuição normal; Desta forma, a distribuição da proporção amostral será normal com média pˆ e desvio-padrão √ pˆ(1− pˆ) n ; Consequentemente, o Intervalo de Confiança é tal que P −z1−α2 ≤ pˆ − p√ pˆ(1−pˆ) n ≤ z1−α2 = 1− α; Fazendo desenvolvimento semelhante ao feito para a média amostral, o intervalo obtido será igual ao intervalo obtido anteriormente. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 61 / 74 Metodologia Então, quando for necessário definir um intervalo para a proporção populacional p a partir da proporção amostral pˆn com nível de confiança de (1− α) ∗ 100%, segue-se as seguintes etapas: Define-se os valores do coeficiente de confiança 1− α e do nível de significância α; Calcula-se o valor de 1− α2 ; Calcula-se o valor crítico z1−α2 , para o qual P(Z > z1−α2 ) = 1− α 2 ; Calcula-se os limites inferior l e inferior u através das seguinte fórmulas: l = pˆn − z1−α2 √ pˆn(1− pˆn) n ; u = pˆn + z1−α2 √ pˆn(1− pˆn) n ; O intervalo de confiança será dado por [l ; u], e a margem de erro será e = z1−α2 √ pˆn(1− pˆn) n . Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 62 / 74 Exemplo Em uma amostra aleatória de 100 pessoas, 25 se declararam canhotos. Construa um intervalo de confiança de 95% para a real proporção de pessoas que são canhotas na população. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 63 / 74 Exemplo Assume-se como evento da população a variável aleatória X ={ Uma pessoa ser canhota }; Seja a proporção p = { Real proporção de canhotos na população }; Deseja-se definir o intervalo de confiança IC para a proporção populacional p com nível de confiança de 95%, ou seja, IC(pˆ, 0, 95). Este intervalo pode ser definido como: IC(p, 0, 95) = pˆ ± z1− 0,052 √ pˆ(1− pˆ) n Sabe-se que n = 100, a proporção amostral pˆ = 25100 = 0, 25 e que z1− 0,052 = z0,975 = 1, 96. Logo: IC(p, 0, 95) = pˆ ± z1− 0,952 √ pˆ(1− pˆ) n = 0, 25± z0,975 √ 0, 25(1− 0, 25) 100 = 0, 25± 1, 96 √ 0, 25(0, 75) 10 = 0, 25± 1, 96 √ 0, 1875 10 ≈ 0, 25± 1, 96 ( 0, 4330 10 ) = 0, 25± 1, 96(0, 04330) Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 64 / 74 Exemplo Consequentemente: IC(p, 0, 95) = 0, 25± 1, 96(0, 04330) ≈ 0, 25± 0, 0849 = [0, 1651; 0, 3349] Portanto, o intervalo de confiança definido para este caso é [0, 1651; 0, 3349]. Interpretação do resultado: Tem-se 95% de certeza de que o verdadeiro percentual de canhotos na população está entre 16.51% e 33.49%; Apesar de o intervalo de 0, 1651 a 0, 3349 poder ou não conter a verdadeira proporção, 95% dos intervalos formados com amostras de tamanho 100 desta maneira conterão a verdadeira proporção de canhotos na população. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 65 / 74 Sumario 1 Estimativa pontual 2 Intervalo de confiança Nível de confiança 3 Intervalo de Confiança para a média populacional4 Intervalo de Confiança da média populacional com desvio-padrão populacional desconhecido Caso em que o número de amostras é grande Caso em que o número de amostras é pequeno Distribuição t de Student Intervalo de Confiança com desvio-padrão populacional desconhecido 5 Intervalo de Confiança para a proporção populacional 6 Definição do tamanho mínimo da amostra Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 66 / 74 Motivação Até agora foi visto como definir um intervalo de confiança a partir de dados obtidos da da amostra; Como as estimativas pontuais eram feitas sobre distribuição de probabilidade simétricos, o problema de definir um intervalo de confiança é equivalente a definir a margem de erro e para o intervalo de confiança; O objetivo é definir um valor mínimo para o número de amostras que seja suficiente para que a margem de erro tenha um valor e definido; Neste caso, assume-se que o tamanho da amostra seja grande o suficiente para que a distribuição do estimador pontual seja aproximada por uma distribuição normal. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 67 / 74 Definição Para tanto serão utilizadas definições da margem de erro para três casos relatados: Estimação da média populacional µ a partir da média amostral X , com desvio-padrão σ conhecido: e = z1−α2 ( σ√n ) Estimação da média populacional µ a partir da média amostral X , com desvio-padrão σ desconhecido (desvio-padrão S conhecido): e = z1−α2 ( s√n ) Estimação da proporção populacional p a partir da proporção amostral pˆ: e = z1−α2 (√ pˆ(1− pˆ) n ) Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 68 / 74 Definição A número mínimo de amostras n será obtido isolando os valor de n. Desta forma, obtém-se: Estimação da média populacional µ a partir da média amostral X , com desvio-padrão σ conhecido: n = z21−α2 σ 2 e2 Estimação da média populacional µ a partir da média amostral X , com desvio-padrão σ desconhecido (desvio-padrão amostral S conhecido): n = z21−α2 s 2 e2 Estimação da proporção populacional p a partir da proporção amostral pˆ: n = z21−α2 pˆ(1− pˆ) e2 Observação: Como o número mínimo de amostras é um valor inteiro então, em caso de valores fracionados, toma-se o menor inteiro acima do valor obtido (arredonda-se para cima). Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 69 / 74 Definição Como é preciso levar em consideração os valores do desvio-padrão amostral S da proporção amostral pˆ (que, a princípio, não são conhecidos), considera-se as seguintes opções: Para o desvio-padrão amostral S: Utilizar um valor conhecido de experiências passadas. Equivale a estabelecer um valor σ̂ que se espera ser ao menos tão grande quanto o verdadeiro valor de σ; Definição de uma amostra piloto para estimar σ com o desvio-padrão amostral S; Para a proporção amostral pˆ: Definir uma amostra piloto para estimar p com a proporção amostral pˆ; Utilizar p = 0, 5. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 70 / 74 Exemplo Determine: 1 Se σ = 45, que tamanho de amostra é necessário para estimar a média com 90% confiança e margem de erro igual a 5?; 2 O quão grande deve ser a amostra para estimar a verdadeira proporção de itens defeituosos em uma população grande com ±3% de margem de erro e 95% de confiança: 1 Assumindo que uma amostra piloto indicou pˆ = 0, 12; 2 Sem amostra piloto. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 71 / 74 Exemplo Primeira questão: Pede-se para definir o tamanho da amostra n para estimar a média com nível de confiança de 90%, desvio-padrão σ = 45 e margem de erro e = 5. Logo: n = z21−α2 σ 2 e2 = z21− 0,12 45 2 52 = z20,952025 25 = 1, 645 2 ∗ 81 ≈ 2, 7060 ∗ 81 = 219, 186 ≈ 220 Logo, o tamanho da amostra deve ser n = 220 (sempre deve-se arredondar para cima). Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 72 / 74 Exemplo Segunda questão, primeiro item: Pede-se para definir o tamanho da amostra n para estimar a proporção com nível de confiança de 95%, margem de erro e = 0, 03 e valor estimado de proporção amostral pˆ = 0, 12. Logo: n = z21−α2 pˆ(1− pˆ) e2 = z21− 0,052 0, 12(1− 0, 12) 0, 032 = z20,9750, 12(0, 88) 0, 0009 = 1, 962 ∗ 0, 1056 0, 0009 ≈ 3, 8416 ∗ 117, 3333 = 450, 7476 ≈ 451 Logo, o tamanho da amostra deve ser n = 451. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 73 / 74 Exemplo Segunda questão, segundo item: Pede-se para definir o tamanho da amostra n para estimar a proporção com nível de confiança de 95%, margem de erro e = 0, 03; Como não é fornecido nenhum valor estimado de proporção amostral, assume-se pˆ = 0, 5. Logo: n = z21−α2 pˆ(1− pˆ) e2 = z21− 0,052 0, 5(1− 0, 5) 0, 032 = z20,9750, 5(0, 5) 0, 0009 = 1, 962 ∗ 0, 25 0, 0009 ≈ 3, 8416 ∗ 277, 7778 = 1067, 1112 ≈ 1068 Logo, o tamanho da amostra deve ser n = 1068. Sandro Bruno (UFRN) Intervalos de Confiança para uma amostra 27 de maio de 2015 74 / 74 Estimativa pontual Intervalo de confiança Nível de confiança Intervalo de Confiança para a média populacional Intervalo de Confiança da média populacional com desvio-padrão populacional desconhecido Caso em que o número de amostras é grande Caso em que o número de amostras é pequeno Intervalo de Confiança com desvio-padrão populacional desconhecido Intervalo de Confiança para a proporção populacional Definição do tamanho mínimo da amostra
Compartilhar