Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 ECO 1721 - Introdução à Estatística Econômica 8- Conceitos Fundamentais de Inferência Estatística e de Estimação Resumo Teórico Professores: Thadeu Keller Filho e Juarez Figueiredo 8.1 População Chama-se população qualquer conjunto que é objeto de um estudo estatístico. Os elementos de uma população são denominados objetos elementares ou, simples- mente, elementos da população (ou populacionais) O número de elementos (objetos elementares) de uma população denomina-se ta- manho da população. Quanto ao tamanho, uma população pode ser finita ou infini- ta; quanto à natureza dos seus elementos (objetos elementares), uma população po- de ser concreta (finita) ou abstrata (finita ou infinita). Uma população genérica será aqui denotada por: (i) 1 2 3 NC {c ,c ,c ,...,c } se for fini- ta, de tamanho N; e (ii) 1 2 3 NC {c ,c ,c ,...,c ,...} se for infinita. 8.2 Característica e População Matriz Denomina-se característica um aspecto particular, qualitativo (atributo) ou quantita- tivo (grandeza mensurável), associado aos elementos de uma população e que pos- sui interesse para fins de estudo estatístico. Pode-se então definir uma regra de as- sociação de valores da característica de interesse aos elementos da população, de tal forma que a cada elemento da população (objeto elementar) corresponda um único valor dessa característica. O conjunto formado por esses valores é denominado po- pulação matriz. Assim, do ponto de vista formal, pode-se conceber a característica como uma função que associa a cada elemento da população o seu correspondente valor na população matriz. Serão adotadas aqui as seguintes notações: a) População matriz: 1 2 3 NW {w ,w ,w ,...,w ,...} b) Característica: G – a função i i g: C W c w , para i =1,2,3,..., N,... 8.3 Universo Seja X a variável aleatória que representa o valor eventual de uma característica numérica associada a um elemento (objeto elementar) escolhido ao acaso de uma população C. A variável aleatória X denomina-se universo associado a C pela ca- 2 racterística G. A distribuição de probabilidade de X é denominada, genericamente, distribuição de probabilidade do universo e é, em geral, desconhecida. Em uma população finita C, a expressão “escolha ao acaso” significa a seleção de um elemento (objeto elementar) da população utilizando probabilidades iguais de escolha. Se C é infinita, a expressão “escolha ao acaso” significa a seleção de um elemento (objeto elementar) da população em condições iguais de oportunidade de escolha. Vale observar que, neste caso, o conceito de escolha não faz referência às probabilidades de seleção. 8.4 Amostra Aleatória Considere-se um universo X e seja 1 2 3 nX ,X ,X ,...,X a variável aleatória n- dimensional cujas componentes iX (i = 1, 2, 3, ... , n) correspondem a n observa- ções (determinações) de X. A variável aleatória n-dimensional 1 2 3 nX ,X ,X ,...,X denomina-se amostra aleatória de tamanho n do universo X. Deve-se destacar que, sendo as componentes da amostra observações do universo X, então todas as variá- veis iX (i = 1, 2, 3, ... , n) possuem a mesma distribuição do universo. A distribui- ção de probabilidade conjunta da variável aleatória 1 2 3 nX ,X ,X ,...,X é denomi- nada distribuição de probabilidade da amostra, sendo geralmente desconhecida. Convém ainda ressaltar que o conceito de amostra aleatória é abstrato e correspon- de à definição de uma variável aleatória que pode assumir determinações distintas em cada observação possível. Há dois tipos de amostra a serem considerados. 8.4.1 Amostra Aleatória Simples (AAS) Denomina-se amostra aleatória simples uma amostra 1 2 3 nX ,X ,X ,...,X na qual as componentes são independentes. Portanto, a amostra aleatória simples caracteriza- se por ter as componentes iX (i = 1, 2, 3, ... , n) independentes e identicamente dis- tribuídas. O processo de obtenção de uma amostra desse tipo é denominado esque- ma de amostragem aleatória simples. A amostra aleatória simples é indicada abre- viadamente por AAS. 8.4.2 Amostra Sem Reposição (ASR) Quando a população considerada é finita, em geral a seleção de seus elementos para observação da amostra é realizada sem reposição. Nessas condições, se a caracterís- tica de interesse é fixa (para cada elemento da população) e a seleção dos elementos populacionais é realizada com igual probabilidade de escolha de cada um, tem-se então uma amostra 1 2 3 nX ,X ,X ,...,X em que as variáveis iX (i = 1, 2, 3, ... , n) são identicamente distribuídas mas não são independentes. Essa amostra é denomi- nada amostra aleatória sem reposição. O processo de obtenção de uma tal amostra é 3 denominado esquema de amostragem sem reposição. A amostra aleatória sem repo- sição ou simplesmente amostra sem reposição é indicada abreviadamente por ASR. Cabe observar que se uma população tiver as características descritas anteriormente mas a seleção de seus elementos for realizada com reposição tem-se uma amostra aleatória simples, pois nesse caso há independência na seleção de seus elementos. Porém, na prática, não se utiliza a reposição de elementos observados. 8.4.3 Determinação da Amostra (ou Amostra Efetiva) Seja 1 2 3 nX ,X ,X ,...,X uma amostra aleatória de tamanho n de um universo X e represente-se por 1 2 3 nx ,x ,x ,..., x uma particular observação (determinação) dessa amostra. Esse vetor de números reais denomina-se determinação da amostra ou, ainda, amostra efetiva. 8.5 Parâmetros Populacionais e Distribuições do Universo e da Amostra Entre os conceitos básicos centrais da Inferência Estatística tem-se aqueles de pa- râmetros populacionais, de distribuição do universo e dos parâmetros do universo. Na definição dos parâmetros populacionais há dois casos a considerar, conforme a população seja finita ou infinita. 8.5.1 Parâmetros de uma população finita Sejam 1 2 3 NC {c ,c ,c ,...,c } uma população finita de tamanho N e G a característica de interesse, cujos valores são admitidos fixos. Represente-se agora por 1 2 3 NW {a ,a ,a ,...,a } a população matriz associada a C pela característica G. Nesse caso, definem-se certos parâmetros populacionais, como a média e a variância dos valores dessa característica para todos os elementos da população. Os principais pa- râmetros considerados são: a média, a variância e o total. Mas é útil tratar separa- damente dois casos, conforme o tipo da característica: (i) quantitativa (isto é, numé- rica); e (ii) qualitativa (isto é categórica ou atributo). a) Característica quantitativa ou numérica Sendo numérica a característica, definem-se os parâmetros a seguir. Média da População A média da população é definida por N i i=1 1 μ a N Variância da População A variância da população é definida por 4 2N N 2 2 2 i i i=1 i=1 1 1 σ a -μ a μ N N Total da População O total da população é definido por N i i=1 τ a e portanto está relacionado com a média populacional, como é mostrado a seguir. N N i i i=1 i=1 1 τ a N a Nμ N b) Característica qualitativa ou categórica – para atributo dicotômico Nesse caso, é comum definir-se a característica por meio de uma variável binária indicadora que assume os valores 0 ou 1, conforme indiquem a ausência ou a pre- sença do atributo no elemento populacional. Desse modo, definem-se os parâmetros a seguir. Proporção de elementosna população que possuem certo atributo A A proporção de elementos da população que possuem o atributo A é definida por A A N p N que equivale à média populacional para a variável indicadora onde AN representa o número de elementos da população que possuem o atributo A e N é o tamanho da população. Variância A variância da população é definida por 2 A A A A N N σ p (1 p ) 1 N N que equivale à variância populacional para a va- riável indicadora Número de elementos na população que possuem certo atributo A O número de elementos da população que possuem o atributo A é A Aη N que equivale ao total populacional para a variável indicadora 8.5.2 Distribuição do universo associado a uma população finita Somente será aqui considerado o caso de seleção equiprovável dos elementos da população. 5 Distribuição do Universo Nessas condições, admitindo-se conhecido o tamanho da população, N, a distribui- ção do universo é determinada pela seguinte função de probabilidade: 1 2 3 N 1 p(x) , para x a ,a ,a ,...,a N Deve-se destacar que a distribuição de probabilidade do universo é desconhecida, porquanto mesmo no caso em que se conhecem as probabilidades de seleção (como no caso ora tratado), os valores da característica são desconhecidos. Na determinação dos principais parâmetros do universo é conveniente tratar sepa- radamente os dois casos, conforme o tipo da característica – quantitativa ou qualita- tiva. a) Característica quantitativa ou numérica Média e Variância do Universo A média (expectância) do universo X é X N N X i i x R i=1 i=1 1 1 μ E(X) x p(x) a a μ N N e a variância do universo é N N N 2 2 22 2 X i i i i=1 i=1 i=1 1 1 σ V(X) a E(X) p(x) a μ a μ σ N N A expressão acima pode ser reescrita como N 2 2 2 2 X i i=1 1 σ V(X) a μ σ N da qual resulta N 2 2 2 i i=1 a N σ μ Portanto, a média (expectância) e a variância do universo coincidem com aqueles parâmetros de mesma denominação definidos para a população; isto é são iguais, respectivamente, à média e à variância populacionais. Isso faz com que os trata- mentos matemáticos dos casos de população finita e infinita (este último será visto mais adiante) sejam, no plano teórico, formal, inteiramente similares, apesar da di- ferença conceitual que existe entre ambos. b) Característica qualitativa ou atributo Se a característica corresponde a um atributo dicotômico, representada por uma va- riável indicadora binária, o universo tem distribuição de Bernoulli e portanto tem-se 6 Média e Variância do Universo A média (expectância) do universo X é X N N X i i x R i=1 i=1 1 1 μ E(X) x p(x) a a μ p N N e a variância do universo é N N N 2 2 22 2 X i i i i=1 i=1 i=1 1 1 σ V(X) a E(X) p(x) a μ a μ σ N N A expressão acima pode ser reescrita como N 2 2 2 2 X i i=1 1 σ V(X) a μ σ p(1 p) pq N 8.5.3 Distribuição da amostra de uma população finita com seleção equiprovável Seja 1 2 3 nX ,X ,X ,...,X uma amostra aleatória de tamanho n do universo X deter- minado pela escolha ao acaso em uma população finita. Na determinação da distri- buição da amostra é necessário considerar os dois casos possíveis – seleção com re- posição e sem reposição. a) Seleção com reposição Nesse caso, as componentes da amostra são independentes e a amostra é aleatória simples (AAS). Portanto, tem-se: a-i) a distribuição marginal de uma componente da amostra é determinada pela se- guinte função de probabilidade: jX j j 1 2 3 N 1 p (x ) , para x a ,a ,a ,...,a N a-ii) a distribuição conjunta da amostra é determinada pela seguinte função de pro- babilidade conjunta: 1 2 nX X ...X 1 2 n i 1 2 3 Nn n N 1 1 p (x ,x ,..., x ) , para x a ,a ,a ,...,a e i =1,2,..., n AR N Nesse caso, a distribuição conjunta de duas componentes quaisquer da amostra iX e jX , é determinada pela seguinte função de probabilidade bidimensional: i jX X i j i j 1 2 3 N2 1 p (x ,x ) , para x , x a ,a ,a ,...,a , com i, j 1,2,..., n N b) Seleção sem reposição Nesse caso as componentes não são independentes e a amostra é do tipo aleatória sem reposição (ASR). 7 b-i) a distribuição marginal de uma componente da amostra é determinada pela se- guinte função de probabilidade: jX j j 1 2 3 N 1 p (x ) , para x a ,a ,a ,...,a ; com j 1,2,...,n N b-ii) considerando a ordem de seleção, a distribuição da amostra é determinada pela seguinte função de probabilidade conjunta n-dimensional: 1 2 nX X ...X 1 2 n i 1 2 3 Nn N 1 2 n 1 1 p (x ,x ,..., x ) , para x a ,a ,a ,...,a A N(N-1)(N-2)...(N-n 1) com i 1,2,..., n , sendo x x ... x Além disso, nesse caso a distribuição conjunta de duas componentes quaisquer da amostra, iX e jX , é determinada pela seguinte função de probabilidade bidimensi- onal: i jX X i j i j 1 2 3 N i j 1 p (x ,x ) , para x , x a ,a ,a ,...,a , com i, j 1,2,..., n , e i j ; N(N-1) sendo x x Covariância entre duas componentes da amostra No caso de população finita, convém ainda determinar a covariância entre pares de variáveis componentes da amostra. Sejam iX e jX duas componentes distintas da amostra aleatória. A covariância entre elas é calculada pela expressão i j ij i j i jCov X ,X σ E X X E X E X Mas i N N X k k k =1 k =1 1 1 μ E(X) a a μ N N e também j N N X k k k =1 k =1 1 1 μ E(X) a a μ N N Por outro lado, i j i X j Xi j i j i j X X i j x R x R E X X x x p (x ,x ) No cálculo dessa expressão, desenvolvido a seguir, deve-se considerar os dois casos de amostragem – com e sem reposição. a) seleção com reposição 8 Nesse caso, a soma se estende a todos os valores possíveis de ix e jx , inclusive quando são iguais, logo i j i X j Xi j N N N N i j i j X X i j i j i j2 x R x R i=1 j=1 i=1 j=1 1 1 1 E X X x x p (x ,x ) a a a a N N N donde 2i jE X X μ b) seleção sem reposição Nesse outro caso, a soma se estende a todos os valores possíveis de ix e jx , consi- derados conjuntamente, que devem portanto ser diferentes; logo i j i X j Xi j j i N N i j i j X X i j i j x R x R i=1 j=1 j ix x 1 E X X x x p (x ,x ) a a N(N-1) Assim, tem-se N N i j i j i=1 j=1 j i 1 E X X a a N(N-1) que equivale a N N N 2 i j i j i i j i=1 j=1 i=1 1 E X X a a a , agora incluindo também a a N(N-1) Logo N N N 2 i j i j i i j i=1 j=1 i=1 1 E X X a a a , inclusive com a a N(N-1) Agora, notando que na expressão acima tem-se N N i j i=1 j=1 a Nμ a e que N 2 2 2 i i=1 a N σ μ Segue, por substituição dos resultados acima na expressão de i jE X X , que 2 2 2 2 2 2i j 1 1 E X X Nμ N σ μ N Nμ σ μ N(N-1) N(N-1) ou seja 9 2 2 2 2i j 1 1 E X X N 1 μ σ μ σ N-1 N-1 Portanto, finalmente, tem-se: a) no caso de seleção com reposição: 2 2i j ij i j i jCov X ,X σ E X X E X E X μ -μ 0 A covariância é nula, como era de se esperar, pois as componentes da amostra são independentes e assim a amostra é do tipo aleatória simples. e b) no caso de seleção sem reposição: 2 2 2i j ij i j i j 1 Cov X ,X σ E X X E X E X μ - σ -μ N-1 logo 2i j 1 Cov X ,X σ N-1 A covariância não é nula, devido à interdependência das componentes da amostra. Mas é interessante notar que quando o tamanho da população aumenta indefinida- mente a covariância se aproxima de zero (isto é, tende a zero no limite quando n tende a infinito). 8.5.4 Parâmetros de uma população infinita Sejam 1 2 3 NC {c ,c ,c ,...,c ,...} uma população finita e G a característica de interesse. Nesse caso, a população matriz associada à população por meio da característica G pode ser representada por: i) 1 2 3 kW {a ,a ,a ,...,a } se somente existir um número finito k de valores possíveis para G; ii) 1 2 3 NW {a ,a ,a ,...,a ,...} se existir um número infinito enumerável de valores possíveis para G; iii) WW R no caso de existir uma infinidade não enumerável de valores possíveis para G, onde WR indica um subconjunto adequado dos números reais. No caso de uma população infinita, os parâmetros “populacionais” são, a rigor, pa- râmetros da distribuição de probabilidade do universo a ela associado. Assim, a média e a variância da população são a média e a variância da distribuição do uni- verso. 10 8.5.5 Distribuição do universo associado a uma população infinita e parâmetros No caso de população infinita, a distribuição do universo é, em geral, totalmente desconhecida, embora por vezes seja possível conhecer algumas de suas caracterís- ticas, como o tipo de distribuição, com base em informações anteriores disponíveis sobre o mesmo ou mesmo por meio de considerações de natureza teórica. De fato, nessas condições muitas vezes é possível supor um particular modelo probabilístico para a distribuição do universo. Distribuição do Universo No caso de populações infinitas, a distribuição do universo pode ser tratada de for- ma abstrata. Seja XR o conjunto de valores admissíveis para o universo X. Seja, ainda, Xp (x) a sua função de probabilidade ou Xf (x) a sua função de densidade de probabilidade, conforme o caso do universo ser de natureza discreta ou contínua, respectivamente. Tem-se então as seguintes definições para os parâmetros do uni- verso. Parâmetros – Média e Variância do Universo (i) Se X for discreto A média (expectância) do universo X é X X X x R μ E(X) x p (x) e a variância do universo é X X 2 22 X X X x R x R σ V(X) x E X p (x) x μ p (x) A expressão acima pode ser reescrita como X X 2 2 2 2 2 X X X x R x R σ V(X) x p (x) E X x p (x) μ (ii) Se X for contínuo A média (expectância) do universo X é X X X R μ E(X) x f (x)dx e a variância do universo é X X 2 22 X X X R R σ V(X) x E X f (x) dx x μ f (x) dx A expressão acima pode ser reescrita como 11 X X 2 2 2 2 2 X x x x R x R σ V(X) x f (x)dx E X x f (x)dx μ Os parâmetros populacionais coincidem com esses parâmetros do universo. Obs: Não tem sentido, no caso de população infinita, o parâmetro total populacio- nal. Dois casos particulares de modelos teóricos de distribuição de probabilidade do universo que tem importantes aplicações são apresentados a seguir. a) Universo com distribuição normal Se o universo X tem distribuição normal de média μ e variância 2σ então a função de densidade de probabilidade do universo é 2 2 (x-μ) 2σ1f(x) , para x 2π e b) Universo com distribuição de Bernoulli Se o universo X tem distribuição de Bernoulli de parâmetro p , então a função de probabilidade do universo é x 1 x x 1 x Xp (x) p (1 p) p q , para x 0,1 8.5.6 Distribuição da amostra de uma população infinita Sejam X um universo e 1 2 3 nX ,X ,X ,...,X uma amostra aleatória de tamanho n de X. Então tem-se: i) a distribuição do universo é genericamente expressa por Xf (x) , onde Xf (.) deno- ta (propriamente, com é usual) a função de densidade, se X for do tipo contínuo, ou a função de probabilidade (usualmente denotada por Xp (.) ), se X for do tipo dis- creto. ii) a distribuição marginal de uma componente da amostra (seja, no caso, a i-ésima) é expressa por iX i f (x ) , para i = 1,2,3,...,n , sendo iX i f (x ) uma função do mesmo tipo da distribuição do universo f(x) iii) a distribuição conjunta da amostra é expressa por: 1 2 n i n X X ...X 1 2 n X i i 1 f (x , x ,..., x ) f (x ) 12 Portanto, especificando um modelo de distribuição para o universo é possível de- terminar tanto as distribuições marginais quanto a distribuição conjunta da amostra. Serão considerados apenas dois dos casos particulares de distribuição do universo – o que corresponde à distribuição normal e aquele correspondente à distribuição de Bernoulli –, por serem os mais importantes. Para esses modelos serão apresentados alguns resultados referentes a distribuições das estatísticas importantes na prática. a) Distribuição da amostra quando o universo tem distribuição normal Se o universo X tem distribuição normal de média μ e variância 2σ e a amostra 1 2 3 nX ,X ,X ,...,X é aleatória simples (AAS), de tamanho n, então a distribuição da amostra é normal multivariada de componentes independentes. Logo, tem-se as se- guintes funções de densidade de probabilidade: i) distribuição do universo: 2 2 (x-μ) 2σ1f(x) , para x 2π e ii) distribuições marginais das componentes da amostra 2 i 2 i (x -μ) 2σ X i i 1 f (x ) , para x , e i = 1,2,3,..., n 2π e iii) distribuição conjunta da amostra: 2 i 2 1 2 n (x -μ) n 2σ X X ...X 1 2 n i i 1 1 f (x , x ,..., x ) , para x , i 1,2,..., n 2π e Como será visto posteriormente, esse modelo de distribuição permite a determina- ção de distribuições exatas para as principais estatísticas empregadas nas inferên- cias. b) Distribuição da amostra quando o universo tem distribuição de Bernoulli Se o universo X tem distribuição de Bernoulli de parâmetro p , e a amostra 1 2 3 nX ,X ,X ,...,X é aleatória simples (AAS), de tamanho n,então tem-se as se- guintes funções de probabilidade: i) distribuição do universo x 1 x x 1 x Xp (x) p (1 p) p q , para x 0,1 ii) distribuições marginais das componentes da amostra i i i i i x 1 x x 1 x X i ip (x ) p (1 p) p q , para x 0,1 com i 1,2,3,...,n iii) distribuição conjunta da amostra: 13 i i i i 1 2 n i n n x 1 x x 1 x X X ...X 1 2 n X i i i 1 i 1 p (x ,x ,...,x ) p (x ) p (1 p) p q , para x 0,1 8.6 Estatísticas Seja 1 2 nX ,X …,X uma amostra aleatória de tamanho n de um universo X e re- presente-se por 1 2 nY= h X ,X ,…,X uma função dos elementosda amostra. Se essa função for observável e não depender de parâmetros desconhecidos, ela recebe o nome de Estatística. Note-se que toda estatística é uma variável aleatória real. A distribuição de uma estatística recebe o nome de distribuição amostral (ou distribuição por amostra- gem) Algumas Estatísticas Importantes (i) Média da Amostra (ou Média Amostral) n n j j=1 1 X = X n (ii) Segundo Momento Ordinário da Amostra n 2 2 j j=1 1 M = X n (iii) k-ésimo Momento Ordinário da Amostra n k k j j=1 1 M = X n (iv) Segundo Momento Central da Amostra n 2 2 j n j=1 1 M X X n É fácil provar que 2M pode ser escrito na forma: 2 n n n 2 2 2 2 j j j j=1 j=1 j=1 1 1 1 M X X X X n n n que se lê “Média dos Quadrados Menos o Quadrado da Média”. (v) Variância da Amostra (ou Variância Amostral) n 22 j n j=1 1 S X X n 1 14 Observe-se que 2 2 n S = M n 1 (vi) Estatística de Ordem k da Amostra Considerando os valores da amostra 1 2 nX ,X …,X dispostos em ordem crescente (1) (2) (k) (n)X X .... X ... X denota-se por (k)X o k-ésimo valor assim defi- nido que é denominado estatística de ordem k (vii) Mínimo da Amostra (1) 1 2 nX Min X ,X …,X (viii) Máximo da Amostra (n) 1 2 nX Max X ,X …,X (ix) Amplitude da Amostra n 1 2 n 1 2 nA Max X ,X …,X Min X ,X …,X (x) Média Geométrica da Amostra 1/nn 1 2 n-1 nG = X X …X X Distribuição Amostral de uma Estatística Toda estatística é uma variável aleatória real e a sua distribuição de probabilidade relaciona-se com a distribuição da amostra. A distribuição de uma estatística recebe o nome de distribuição amostral (ou distribuição por amostragem) e torna-se impor- tante estudar tais distribuições porque elas possuem um importante papel na Infe- rência Estatística. Esse estudo será apresentado mais adiante, na seção 8.20, por- quanto somente após essa seção serão abordadas as aplicações das distribuições amostrais das estatísticas. 8.7 Estimador Seja 1 2 nX ,X …,X uma amostra aleatória de um universo X cuja distribuição de- pende de um parâmetro desconhecido θ . Chama-se estimador de θ qualquer esta- tística utilizada para se estimar esse parâmetro. Um estimador do parâmetro θ é re- presentado por θˆ , onde 1 2 3 nθˆ h X ,X ,X ,...,X é uma função da amostra. 15 8.8 Estimativa Pontual Chama-se estimativa pontual do parâmetro θ cada determinação que θˆ assume em uma determinação da amostra (amostra efetiva). Uma estimativa pontual de θ é re- presentada por *θˆ . Assim, *θˆ é um número real, função da determinação da amostra aleatória: *θˆ = 1 2 nh x ,x ,...,x 8.9 Tendenciosidade (ou Viés) de um Estimador Chama-se tendenciosidade do estimador θˆ a diferença entre sua expectância e o valor do parâmetro a ser estimado: ˆ ˆθ = E θ θt Se ˆE θ =θ, a tendenciosidade é nula e o estimador é denominado não tenden- cioso. 8.10 Erro Quadrático Médio de um Estimador A cada estimador θˆ, dotado de variância, corresponde uma medida denominada erro quadrático médio, definida por 2 ˆ ˆEQM θ E θ θ O erro quadrático médio expressa o grau de concentração da distribuição do esti- mador em torno do parâmetro a ser estimado. Quanto maior for essa concentração menor será o valor do erro quadrático médio. 8.11 Decomposição de Erro Quadrático Médio Prova-se que 2 ˆ ˆ ˆEQM θ = Var θ + θt Da expressão anterior verifica-se que o erro quadrático médio de um estimador so- mente será pequeno se tanto a variância do estimador quanto sua tendenciosidade possuírem valores pequenos. 8.12 Estimador Assintoticamente não Tendencioso Dizemos que um estimador θˆ é assintoticamente não tendencioso se for 16 n ˆlim θ 0t ou, equivalentemente, n ˆlim E θ = θ 8.13 Convergência ou Consistência em Probabilidade Diz-se que o estimador θˆ é convergente ou consistente em Probabilidade se n ˆlim P θ θ 1 qualquer que seja 0ε ε Neste caso, escreve-se: ˆplim θ θ 8.14 Convergência ou Consistência em Média Quadrática Diz-se que o estimador θˆ é convergente ou consistente em média quadrática se for n ˆlim EQM θ 0 Equivalentemente, θˆ é convergente ou consistente em média quadrática se for n ˆlim E θ = θ e n ˆlim Var θ 0 Assim, todo estimador consistente em média quadrática é assintoticamente não ten- dencioso. Se θˆ for convergente ou consistente em média quadrática, escreve-se mq θˆ θ . Demonstra-se que se mq θˆ θ, então ˆplim θ θ . Ou seja, se um estimador é con- vergente em média quadrática então ele também é convergente em probabilidade. 8.15 Eficiência Relativa Sejam 1θˆ e 2θˆ dois estimadores não tendenciosos de um parâmetro θ . Diz que 1θˆ é mais eficiente que 2θˆ se 1 2ˆ ˆV θ V θ . A medida da eficiência relativa de 1θˆ em relação a 2θˆ é expressa por 2 1 2 1 ˆV θ ˆ ˆef θ ,θ ˆV θ 17 8.16 Desigualdade de Cramer-Rao Teorema. Seja 1 2 3 nX ,X ,X ,...,X uma amostra aleatória de tamanho n de um uni- verso X cuja função de densidade de probabilidade Xf (x) (ou função de probabili- dade Xp (x) ) depende de um parâmetro desconhecido θ e satisfaz certas condições (chamadas condições de regularidade), entre as quais que o domínio da função não dependa de θ e que a derivada da função de densidade (ou de probabilidade) em re- lação ao parâmetro seja uma função continuamente diferenciável do parâmetro. Se- ja 1 2 nθˆ h X ,X ,…,X um estimador desse parâmetro θ com tendenciosidade ˆt θ . Então: i) Se X é uma variável aleatória contínua 2 2 X ˆ1 ' θ dˆ ˆ ˆEQM θ onde ' θ θ dθ n E ln f (x) θ t t t ii) Se X é uma variável aleatória discreta 2 2 X ˆ1 ' θ dˆ ˆ ˆEQM θ onde ' θ θ dθ n E ln p (x) θ t t t Corolário. Nas mesmas condições do resultado acima, se o estimador θˆ for não tendencioso, tem-se; i) Se X é uma variável aleatória contínua 2 X 1ˆV θ n E ln f (x) θ ii) Se X é uma variável aleatória discreta 2 X 1ˆV θ n E ln p (x) θ 18 O lado direito da equação acima é uma expressão conhecida como limite inferior de Cramér-Rao. Prova-se, ainda, o seguinte teorema, válido quando o estimador θˆ for não tendenci- oso. Teorema. i) Se X é uma variável aleatória contínua 2 X2 1ˆV θ n E ln f (x) θ ii) Se X é uma variável aleatória discreta 2 X2 1ˆV θ n E ln p(x) θ Esse resultado alternativo é muitas vezes útil por tornar o cálculo do limite inferi- or de Cramér-Rao mais simples. 8.17 Suficiência A idéia básica de suficiência de uma estatística está relacionada a sua capacidade de condensar e utilizar toda a informação relevante contida na amostra para efeitos de inferência. 8.17.1 Definição Seja 1 2 nX ,X ,...,X uma amostra aleatória de tamanho n de um universo X cuja dis- tribuição depende de um parâmetro θ desconhecido. Uma estatística 1 2 nθˆ h X ,X ,...,X é dita ser uma estatística suficiente se, a distribuição condicio- nada da amostra para um dado valor *θˆ de θˆ independe desse valor. Isto é, se *1 2 3 n ˆf x , x , x ,..., x |θ independe de *θˆ . O próximo teorema permite analisar se uma estatística é suficiente. 19 8.17.2 Teorema da Fatoração de Fisher-Neyman Seja 1 2 nX ,X ,...,X uma amostra aleatória de tamanho n de um universo X cuja distribuição depende de um parâmetro θ desconhecido. Uma estatística 1 2 nθˆ h X ,X ,...,X é dita ser suficiente para θ se a distribuição da amostra dado um valor *θˆ de θˆ puder ser fatorada como o produto de duas funções t(.) e g(.) tais que uma depende somente da estatística θˆ e do parâmetro θ e a outra depende só da amostra, sendo independente do parâmetro. Isto é, 1 2 3 n 1 2 3 nˆf x ,x ,x ,..., x |θ t(θ,θ) g x ,x ,x ,..., x 8.18 Métodos de Estimação Um problema importante que se coloca no campo da estimação de parâmetros é a determinação de estimadores para os parâmetros de interesse relativos à distribui- ção de um universo. A seguir serão vistos dois dos métodos mais importantes para a determinação de parâmetros: i) Método dos Momentos; ii) Método de Máxima Verossimilhança. 8.18.1 Método dos Momentos O método dos momentos baseia-se na idéia de que os momentos ordinários de uma distribuição são funções dos parâmetros dessa distribuição. Desse modo, igualando- se a expressão de um momento ordinário (teórico) de determinada ordem da distri- buição ao momento ordinário amostral correspondente (estatística) referente a uma amostra de um universo com essa distribuição fornece uma equação que, resolvida em termos do(s) parâmetro(s), permite estabelecer uma expressão para o estimador do(s) parâmetro(s). O procedimento para obtenção de estimadores por esse método é o seguinte: (1) Calculam-se, sucessivamente, os momentos ordinários do universo, de ordens j = 1, 2, 3, ... , k , onde k é a ordem do primeiro momento ordinário cuja expressão depende do parâmetro θ a ser estimado; (2) Essa expressão, denotada por kkμ E X g(θ) , é igualada ao momento amos- tral de ordem correspondente, isto é n k k k k i i 1 1 E X μ g(θ) M X n . 20 (3) Essa equação, resolvida em termos de θ , fornece a expressão 1 kθˆ g M do estimador pelo método dos momentos para o parâmetro. 8.18.2 Método de Máxima Verossimilhança O método de máxima verossimilhança baseia-se na idéia de que os parâmetros des- conhecidos da distribuição de um universo devem ser estimados pelos valores des- ses parâmetros que tornam máxima a probabilidade de se obter a determinação dis- ponível da amostra. a) Função de Verossimilhança da Amostra Considere-se um universo X, do tipo discreto ou do tipo contínuo, cuja distribuição depende de um parâmetro desconhecido θ . Represente-se por f(x,θ) a função de probabilidade de X, no caso de X ser do tipo discreto, ou a função de densidade de probabilidade de X, no caso de X ser do tipo contínuo. Seja 1 2 3 nX ,X ,X ,...,X uma amostra aleatória de tamanho n de um universo X e represente-se agora por 1 2 3 nx , x , x ,..., x uma particular determinação dessa amostra. Chama-se função de verossimilhança da amostra, associada àquela determinação da amostra, a seguinte função do parâmetro θ : 1 2 3 n i n 1 2 3 n X 1 X 2 X 3 X n X i i=1 L x , x , x ,..., x ,θ f (x ,θ) f (x ,θ) f (x ,θ)...f (x ,θ) f (x ,θ) Como a determinação da amostra por hipótese é conhecida, os valores da amostra 1 2 3 nx ,x ,x ,..., x são constantes e a expressão anterior é função apenas do parâmetro desconhecido θ . Assim, pode-se representar a função de verossimilhança da amos- tra simplesmente por L θ . b) Estimativas e Estimadores de Máxima Verossimilhança Fixada a determinação da amostra 1 2 3 nx , x , x ,..., x , chama-se estimativa de má- xima verossimilhança (ou estimativa máximo-verossímil) de θ o valor *θ desse pa- râmetro que maximiza a função de verossimilhança da amostra. Assim, a estimativa de máxima verossimilhança da amostra é dada por * *1 2 3 n θ θ h x , x , x ,..., x θ|L θ Max L θ E chama-se estimador de máxima verossimilhança de θ a variável aleatória θˆ que assume o valor * 1 2 3 nθ h x ,x ,x ,..., x para cada determinação possível da amostra 21 1 2 3 nX ,X ,X ,...,X . Portanto, a expressão do estimador de máxima verossimilhan- ça é 1 2 3 nθˆ h X ,X ,X ,...,X c) Propriedades dos Estimadores de Máxima Verossimilhança: Sob condições muito gerais e não muito restritivas (que não podem ser abordadas em um curso elementar de Estatística), os estimadores de máxima verossimilhança possuem as seguintes propriedades: i) são consistentes em média quadrática e, portanto, são consistentes em probabi- lidade; ii) são assintoticamente normais; iii) são assintoticamente eficientes, isto é, quando o tamanho da amostra tende a in- finito, apresentam um erro quadrático médio não superior ao de qualquer outro es- timador do mesmo parâmetro; iv) se existe um estimador mais eficiente que todos os demais, ele é um estimador de máxima verossimilhança; v) propriedade de invariância: seja g(θ) uma função contínua e monótona de θ ; admita-se que θˆ é um estimador de máxima verossimilhança de θ , então ˆg(θ) é um estimador de máxima verossimilhança de g(θ) ; vi) os estimadores de máxima verossimilhança nem sempre existem e nem sempre são únicos. d) Notas: i) em geral, ao invés de maximizar diretamente a função de verossimilhança da amostra, 1 2 3 nL x ,x ,x ,..., x ,θ L θ , é mais fácil maximizar uma outra função, chamada de função de log-verossimilhança, o logaritmo neperiano da função de ve- rossimilhança, definida por 1 2 3 nθ ln L x ,x ,x ,..., x ,θ ln L θl . Como o loga- ritmo é uma função contínua e monótona, o resultado encontrado na maximização da função de log-verossimilhança é igual ao que é obtido na maximização da fun- ção de verossimilhança; ii) nem sempre a maximização da função de verossimilhança pode ser obtida por meio das técnicas do cálculo diferencial; neste caso, são necessárias soluções espe- ciais que muitas vezes apresentam sérios obstáculos; 22 iii) quando as técnicas do cálculo diferencial são aplicáveis, é necessário resolver a equação d L θ 0 dθ ou, equivalentemente, a equação d θ 0 dθ l , cuja solução po- de ser difícil ou analiticamente impossível; neste último caso, devem ser emprega- das técnicas de cálculo numérico. 8.19. Estimadores dos Parâmetros Média, Total, Proporção e Variância Grande parte das aplicações práticas dos métodos da Inferência Estatística relacio- nam-se a estimação dos parâmetros média, total, proporção, número de elementos da população quepossuem um atributo A e variância. A seguir serão apresentados os estimadores desses parâmetros bem como duas de suas principais características – a média e a variância – para os dois esquemas de amostragem considerados. Em todos os casos tratados a seguir, sejam X um universo, de média de média μ e variância 2σ , e 1 2 3 nX ,X ,X ,...,X uma amostra aleatória de tamanho n de X. 8.19.1 Estimação da Média Na estimação da média é empregada a estatística média aritmética amostral n n j j=1 1 X = X n Prova-se que o estimador é convergente em média quadrática. Média (expectância) e variância da média amostral a) Expectância de nX nE X μ b) Variância de nX i) Para AAS 2 n σ V X n ii) Para ASR 2 n σ N n V X n N 1 23 8.19.2 Estimação do Total Na estimação do total é empregada a estatística n n j j=1 1 N X N X n τˆ Prova-se que o estimador é convergente em média quadrática. Média (expectância) e variância do estimador do total a) Expectância de τˆ E Nμτˆ τ b) Variância de τˆ i) Para AAS 2 2 σV N n τˆ (não tem importância prática) ii) Para ASR 2 2 σ N nV N n N 1 τˆ Obs: Como o total só é definido para uma população finita (com característica fi- xa) a expressão da variância do estimador do total para AAS só tem valor teórico, porquanto, nesse caso, para obter-se o esquema AAS a seleção de elementos deve ser realizada com reposição, o que não é feito na prática. 8.19.3 Estimação da Proporção Na estimação da proporção é empregada a estatística proporção amostral n A n j j=1 n1 pˆ X = X n n Prova-se que o estimador é convergente em média quadrática. Média (expectância) e variância da proporção amostral a) Expectância de pˆ ˆE p p b) Variância de pˆ i) Para AAS p(1 p) pq ˆV p n n 24 ii) Para ASR p(1 p) N n pq N n ˆV p n N 1 n N 1 8.19.4 Estimação do Número de Elementos da População com certo Atributo A Na estimação do número de elementos da população que possuem certo atributo A é empregada a seguinte estatística n A A n j j=1 n1 ˆ ˆη N p N X N X N n n Prova-se que o estimador é convergente em média quadrática. Média (expectância) e variância do estimador Aηˆ a) Expectância de Aηˆ A Aˆ ˆE η η Np b) Variância de Aηˆ i) Para AAS 2 2A p(1 p) pq ˆV η N N n n (não tem importância prática) ii) Para ASR 2 2A p(1 p) N n pq N n ˆV η N N n N 1 n N 1 Obs: Como o número de elementos da população que possuem certo atributo A só é definido para uma população finita (com característica fixa) a expressão da vari- ância do estimador desse parâmetro para AAS só tem valor teórico, porquanto, nesse caso, para obter-se o esquema AAS a seleção de elementos deve ser realiza- da com reposição, o que não é feito na prática. 8.19.5 Estimação da Variância Na estimação da variância é empregada a estatística variância amostral. Há duas expressões, conforme o caso – população finita ou infinita. i) população infinita n n 22 2 2 2 I j j j=1 j=1 1 n 1 σˆ S X X X X n 1 n 1 n 25 ii) população finita n n 22 2 2 2 F j j j=1 j=1 N 1 N 1 1 N 1 n 1 σˆ S X X X X N N n 1 N n 1 n Prova-se que o estimador é convergente em média quadrática. Média e variância da variância amostral a) Expectância de 2σˆ 2 2ˆE σ σ b) Variância de 2σˆ i) Para AAS 2 2 2 2 4 2 4 2 4 22 2 2 2(μ' 2μ' ) μ' 3μ'n V S μ' μ' (n 1) (n 1) n (n 1) ii) Para ASR A expressão é aqui omitida por ser muito complicada, envolvendo vários termos, e não ser muito empregada na prática. Obs: (i) se o universo X tiver uma distribuição mesocúrtica, então 4 2μ 3μ o que anula o terceiro termo; a distribuição normal é mesocúrtica e portanto a expressão da vari- ância da variância amostral de universos normal se simplifica para 2 2 2 4 2 4 22 2 2(μ' 2μ' )n V S μ' μ' (n 1) (n 1) (ii) em qualquer dos casos, é fácil verificar que para n grande pode-se, em primeira aproximação, considerar apenas o primeiro termo, desprezando os demais (essa aproximação é boa mesmo para tamanhos moderadamente grandes de n, entre 30 e 50). 8.20.1 Distribuição por Amostragem de Estatísticas As estatísticas, sendo funções da amostra, são também variáveis aleatórias e assim possuem distribuições de probabilidade. A distribuição de probabilidade de uma es- tatística costuma ser denominada distribuição por amostragem, porquanto tal distri- buição depende diretamente da distribuição da variável aleatória n-dimensional que representa a amostra aleatória. A seguir serão analisadas as distribuições por amostragem das principais estatísticas de uma amostra. Entretanto, convém ressaltar que a referida análise restringe-se a tres casos apenas: 26 i) quando o universo X possui distribuição normal, caso em que se tem resultados exatos; ii) quando o universo X possui distribuição de Bernoulli, caso em que também se tem resultados exatos. iii) quando o universo possui distribuição qualquer, nos casos em que se dispõe de resultados assintóticos. 8.20.1 Distribuição por Amostragem de Estatísticas de Universos Normais Seja 1 2 3 nX ,X ,X ,...,X uma amostra aleatória simples de tamanho n de um uni- verso X cuja distribuição é normal, de média μ e variância 2σ . Então, demonstram- se os seguintes resultados – que são exatos, válidos para qualquer tamanho, n, de amostra. A Distribuição normal da média aritmética amostral Teorema 1. A média aritmética amostral, n n j j=1 1 X X n , tem distribuição normal de média μ e variância 2σ n . Consequentemente, a transformada nX μZ σ n tem distribuição normal padronizada. Esse resultado é decorrência imediata do Teorema das Combinações Lineares de Variáveis Normais Independentes. A Distribuição de qui-quadrado da variância amostral Teorema 2. Sendo n n j j=1 1 X = X n a média amostral e n 22 j n j=1 1 S X X n 1 a va- riância amostral, então: i) a média amostral e a variância amostral são independentes; ii) a estatística n2 2 i2 2 i=1 (n 1)S 1 Q X X σ σ tem distribuição de qui-quadrado com ν n 1 graus de liberdade. Com relação à estatística Q deve-se ressaltar que sendo o universo normal e o es- quema de amostragem aleatório simples então a expressão 2n n n2 2 ii i2 2 i=1 i=1 i=1 X μ X μX X(n 1)S 1 Q X X σ σ σ σ 27 donde 2n n2 2 i i2 i=1 i=1 X μ(n 1)S X μ Q Z Z σ σ σ onde i i X μ Z σ para i=1,2,3,...,n e n in n i 1i i i 1 i 1 X n μ X μ1 1 1 1 n X n μ X μ Z Z n n σ n σ nσ σ Além disso, as variáveis iZ são independentes entre si e, também, cada uma delas é independente de Z . Desse modo, resulta que a estatística Q é uma soma de quadra- dos de variáveis normais padronizadas independentes, sendo n-1 relações indepen- dentes; portanto Q tem distribuição de qui-quadrado com ν n 1 graus de liber- dade. Em representação simbólica: n 2 2 i n 1 i 1 Q Z χ~ . Veja-se a nota didática Funções de Variáveis Aleatórias. A Distribuição T de Student da estatística razão T Teorema 3. A estatística X μ T S n , denominada razão de Student, tem distribuição T de Student com ν n 1 graus de liberdade. Com relação a essa estatística, deve-se ressaltar que ela é expressa por uma razão X μ T S n , conhecida como razão T de Student, a qual pode ser reescrita como 2 2 X μ X μ X μ X μ σ n σ n σ n T S S Q(n 1) S σn (n 1)(n 1) σ Ou seja, em termos de representação de distribuições de probabilidade, a razão en- tre uma variável aleatória com distribuição normal padronizada e a raiz quadrada de uma variável aleatória com distribuição de qui-quadrado dividida pelo seu número de graus de liberdade. Em representação simbólica 28 n 1 2 n 1 Z T T χ (n 1) ~ Portanto, T tem distribuição T de Student, com ν n 1 graus de liberdade. Veja-se a nota didática sobre funções de variáveis aleatórias. Deve-se ainda ressaltar que o cancelamento do parâmetro σ permite empregá-la ao estudo de situações em que o desvio padrão, σ , e assim também, a variância, 2σ , não é conhecido(a). A Distribuição F de Snedecor da estatística razão F Além das estatísticas examinadas até aqui, referentes a um universo com distribui- ção normal, é importante considerar o caso de uma estatística relacionada a dois universos com distribuição normal, apresentado a seguir, que também é exato, váli- do para qualquer tamanho de amostra. Sejam 1 2 3 nX ,X ,X ,...,X e 1 2 3 mY ,Y ,Y ,...,Y duas amostras aleatórias simples de tamanho n, de um universo X, e de tamanho m, de um universo Y, independentes, cujas distribuições são normais, de médias xμ e Yμ e variâncias 2 2 2 X Yσ σ σ . Então, demonstra-se o seguinte resultado. Teorema 4. A estatística X Y Q / n 1 F Q / m 1 tem distribuição F de Snedecor com 1ν n 1 e 2ν m 1 graus de liberdade, nessa ordem. Em termos de representação simbólica, tem-se 2 n-1 2 m-1 χ / n 1 F χ / m 1 8.20.2 Distribuição por Amostragem da Estatística Proporção Amostral – Univer- so com Distribuição de Bernoulli Os métodos de inferência relativos ao parâmetro proporção populacional dos ele- mentos que possuem um atributo A envolvem uma característica representada por uma função indicadora. O parâmetro proporção é: i) no caso de uma população finita – esquema de amostragem aleatória sem reposi- ção (ASR): a proporção (propriamente dita) de elementos da população que possu- em o atributo A, definida por 29 A A A N p p onde N é o número de elementos da população com o atributo A N e N é o tamanho da população. ii) no caso de uma população infinita – esquema de amostragem aleatória simples (AAS): a probabilidade de ser selecionado um elemento da população que tem o atributo A (que também é usualmente denominada proporção), definida por P(A) p Em ambos os casos o universo tem distribuição de Bernoulli com parâmetro p, sen- do então a sua função de probabilidade expressa por x 1 x Xp p (1 p) para x 0,1 Deve-se ressaltar que o parâmetro proporção coincide com a média do universo, em ambos os casos. Nos problemas sobre a proporção estatística empregada é a proporção amostral, de- finida por n A i i 1 n1 pˆ Y X n n A distribuição de probabilidade dessa estatística é apresentada nos dois resultados a seguir. As distribuições são exatas e válidas para qualquer tamanho de amostra; po- rém, como o tamanho da amostra empregada na maioria das aplicações práticas é grande, usualmente são empregadas aproximações para essas distribuições. Teorema 5. A estatística proporção amostral tem a seguinte distribuição: a) no caso de amostragem aleatória simples (AAS) y y n yY N 1 2 3 P Y y p (y) p (1 p) , para y 0, , , , ...,1 n n n C Obs: i) note-se que n i i 1 ˆn p n Y X tem distribuição binomial de parâmetros n e p. ii) a distribuição dessa estatística pode ser aproximada por uma normal b) no caso de amostragem aleatória sem reposição (ASR) A A y n y N N N Y n N C 1 2 3 P Y y p (y) , para y 0, , , , ...,1 C n n n C 30 Supondo que An N . Onde AN, N e n são, respectivamente, o tamanho da população, o número de ele- mentos da população que possuem o atributo A e o tamanho da amostra. Obs: i) note-se que n i i 1 ˆn p n Y X tem distribuição hipergeométrica de parâme- tros AN, N e n . ii) a distribuição dessa estatística pode ser aproximada por uma normal 8.20.3 Distribuição por Amostragem de Estatísticas de Universos Genéricos Base Teórica Na prática, é raro conhecer-se com exatidão a distribuição do universo. Portanto, os resultados apresentados anteriormente não tem grande amplitude no campo das aplicações. Entretanto, há alguns importantes resultados assintóticos, válidos para qualquer distribuição de probabilidade do universo. A principal sustentação teórica para as distribuições assintóticas é o Teorema do Limite Central. Em alguns casos é empregada uma extensão dos resultados assintóticos, com base no conceito de ro- bustez. Métodos Robustos Na literatura estatística o termo robustez é muito utilizado para denotar métodos es- tatísticos que possuem resultados aproximados mesmo quando as situações que se colocam na prática afastam-se dos pressupostos teóricos nos quais são deduzidos certos resultados; tais métodos são denominados robustos. Resultados Assintóticos e suas Extensões Quando o universo tem distribuição qualquer podem ser empregados os resultados assintóticos apresentados a seguir ou alguma extensão dos mesmos. Seja 1 2 3 nX ,X ,X ,...,X uma amostra aleatória de tamanho n de um universo X de distribuição qualquer de média μ e variância 2σ . Então, tem-se os seguintes resul- tados e extensões. Em todos os casos considera-se que o tamanho da amostra n, su- ficientemente grande. Distribuição Assintótica da Média Aritmética Amostral Nas aplicações relativas à media de um universo a estatística empregada é a média aritmética amostral. 31 n n j j=1 1 X = X n No que diz respeito á distribuição dessa estatística, há quatro casos a considerar, conforme a variância do universo seja conhecida ou não e o esquema de amostra- gem seja AAS ou ASR, como apresentado a seguir. Teorema 6. Seja 1 2 3 nX ,X ,X ,...,X uma amostra aleatória de tamanho n de um universo X de distribuição qualquer de média μ e variância 2σ . Então, para n sufi- cientemente grande a) Quando a variância do universo, 2σ , é conhecida: a-i) nX tem distribuição aproximadamente normal de média μ e variância 2σ n , se o esquema de amostragem é AAS; consequentementea transformada nX μZ σ n tem distribuição aproximadamente normal padronizada. a-ii) nX tem distribuição aproximadamente normal de média μ e variância 2σ N n n N 1 , se o esquema de amostragem é ASR; consequentemente a transformada nX μZ σ N n N 1n tem distribuição aproximadamente normal padronizada. Obs: estes resultados são decorrentes do Teorema do Limite Central. Método robusto b) Quando a variância do universo, 2σ , é desconhecida: Nesse caso, estima-se a variância do universo com base na amostra observada por meio da estatística variância amostral, utilizando-se uma das seguintes expressões, conforme o caso: i) se o esquema de amostragem é AAS n n 22 2 2 2 I j j j=1 j=1 1 n 1 σˆ S X X X X n 1 n 1 n ii) se o esquema de amostragem é ASR 32 n n 22 2 2 2 F j j j=1 j=1 N 1 N 1 1 N 1 n 1 σˆ S X X X X N N n 1 N n 1 n Emprega-se a estatística transformada da média amostral, conhecida por razão T, expressa por nX μT S n , onde 2 ˆS S σ Considera-se que a estatística T possui distribuição: b-i) aproximadamente T de Student, com ν n 1 graus de liberdade, se o esque- ma de amostragem é AAS; sendo a variância do universo estimada por n n 2 2 2 2 2 I j j j=1 j=1 1 n 1 ˆ ˆσ S σ S X X X X n 1 n 1 n b-ii) aproximadamente T de Student, com ν n 1 graus de liberdade, se o esque- ma de amostragem é ASR; sendo a variância do universo estimada por n n 2 2 2 2 2 F j j j=1 j=1 N 1 N 1 1 N 1 n 1 ˆ ˆσ S σ S X X X X N N n 1 N n 1 n Obs: Nestes dois últimos casos não há resultados teóricos propriamente ditos para embasar os procedimentos; de fato, eles são decorrentes em parte do Te- orema do Limite Central mas, também, e principalmente, da robustez do mé- todo, que é constatada empiricamente (particularmente quando o universo não é muito assimétrico). Distribuição Assintótica do Estimador do Total Nas aplicações envolvendo o total é empregada a seguinte estatística, relacionada à média aritmética amostral, definida como proporcional a esta n n j j=1 1 N X N X n τˆ Por essa razão, a princípio, todas as considerações e resultados apresentados para a distribuição da média amostral, aplicam-se, de forma análoga, à distribuição dessa estatística. Entretanto, por razões de ordem prática pode-se restringir a análise ape- nas ao caso de amostragem sem reposição (ASR). Assim sendo, tem-se: 33 Teorema 7. Seja 1 2 3 nX ,X ,X ,...,X uma amostra aleatória de tamanho n de um universo X de distribuição qualquer de média μ e variância 2σ . Então, para n sufi- cientemente grande a) Quando a variância do universo, 2σ , é conhecida, n NXτˆ tem distribuição aproximadamente normal de média μ e variância 2 2 σ N nN n N 1 ; consequentemen- te, a transformada μ Z σ N n N N 1n τˆ tem distribuição aproximadamente normal padronizada. Obs: o resultado decorre do Teorema do limite Central. Método robusto b) Quando a variância do universo, 2σ , é desconhecida, a transformada denomi- nada razão de Student, μ T S N n N N 1n τˆ , onde 2 ˆS S σ tem distribuição apro- ximadamente T de Student com ν n 1 graus de liberdade. Obs: não há, nesse caso, um resultado propriamente dito mas sim um procedimento apioado na robustez do método. Distribuição Assintótica da Proporção Amostral Nas aplicações que envolvem a proporção, é empregada a estatística proporção amostral n A n j j=1 n1 pˆ X = X n n Como essa estatística consiste na média aritmética amostral de um universo particu- lar – com distribuição de Bernoulli – aplicam-se a ela, com as devidas adaptações, todos os resultados anteriormente apresentados para a média amostral. Inicialmente, convém relembrar que se o universo X tem distribuição de Bernoulli de parâmetro p então a sua média é igual p e a sua variância é igual a p(1-p)=pq. Teorema 8. Seja 1 2 3 nX ,X ,X ,...,X uma amostra aleatória de tamanho n de um universo X com distribuição de Bernoulli de média μ p e variância 2σ p(1 p) . Então, para n suficientemente grande: a) Quando a variância do universo é conhecida 34 a-i) A estatística pˆ possui distribuição aproximadamente normal de média igual a p e variância p(1 p) pq ˆV p n n , se o esquema de amostragem é AAS; conse- quentemente, a transformada ˆ ˆp p p p Z pq n pq n tem distribuição aproxima- damente normal padronizada. a-ii) A estatística pˆ possui distribuição aproximadamente normal de média igual a p e variância p(1 p) N n pq N n ˆV p n N 1 n N 1 , se o esquema de amostragem é ASR; consequentemente, a transformada pˆ p Z pq N n n N 1 tem distribuição apro- ximadamente normal padronizada. Esse caso é empregado nos testes de hipóteses sobre a proporção. b) Quando a variância do universo é desconhecida, emprega-se a estatística 2 ˆ ˆ ˆ ˆσˆ p(1 p) pq ou a estatística 2 N n N nˆ ˆ ˆ ˆσˆ p(1 p) pq N N para estimá-la. Resulta disso que a transformada (razão de Student) b-i) ˆ ˆp p p p T ˆ ˆ ˆ ˆpq n 1 pq (n 1) tem aproximadamente distribuição T de Stu- dent com ν n 1 graus de liberdade, se o esquema de amostragem é AAS. b-ii) ˆ ˆp p p p T ˆ ˆ ˆ ˆpq N n pq n 1 n 1 N n 1 N tem aproximadamente distribuição T de Student com ν n 1 graus de liberdade, se o esquema de amostragem é ASR. Esse caso é empregado na estimação por intervalo de confiança da proporção. Obs: os resultados decorrem da aproximação das estatísticas pela normal e a consequente aplicação do Teorema do Limite Central. Distribuição Assintótica da Estatística Aηˆ Assim como ocorreu no caso do estimador de um total, anteriormente visto, o esti- mador do número de elementos da população que possuem certo atributo está rela- cionado à proporção amostral sendo definido como proporcional a esta A A n ˆ ˆη N p N n 35 Analogamente, também aqui cabem todas as considerações e resultados apresenta- dos para a distribuição da proporção amostral. Ou seja, a princípio aplicam-se, ana- logamente, à distribuição dessa estatística. Entretanto, por razões de ordem prática pode-se restringir a análise apenas ao caso de amostragem sem reposição (ASR). Assim sendo, tem-se: Teorema 9. Seja 1 2 3 nX ,X ,X ,...,X uma amostra aleatória de tamanho n de um universo X com distribuição de Bernoulli de média μ p e variância 2σ p(1 p) . Então, para n suficientemente grande: a) A estatística Aηˆ possui distribuição aproximadamente normal de média igual a p e variância 2 2A p(1 p) N n pq N n ˆV η N N n N 1 n N 1 , se o esquema de amostra- gem é ASR; consequentemente, a transformada pˆ p Z pq N n N n N 1 tem distribui- ção aproximadamente normal padronizada. Esse caso é empregado nos testes de hipóteses sobre Aηˆ . b) a transformada (razão de Student) ˆ ˆp p p p T ˆ ˆ ˆ ˆpq N n pq n N N 1 n 1 N n 1 N tem aproximadamente distribuição T de Student com ν n 1 graus de liberdade, se o esquema de amostragem é ASR. Esse caso é empregado na estimação por intervalo de confiança de Aηˆ . Obs: os resultados decorrem da aproximação das estatísticas pela normal e a consequente aplicação do Teorema do Limite Central. Distribuição Assintótica dos Momentos Ordinários Amostrais Teorema 10. Seja 1 2 3 nX ,X ,X ,...,X uma amostra aleatória simples (AAS) de ta- manho n de um universo X de distribuição qualquer de média μ e variância 2σ . Então, para n suficientemente grande o momento ordinário amostral de ordem k, n k k i j=1 1 M = X n , tem distribuição aproximadamente normal de média kμ e variância 2 2k kμ μ n , onde jμ denota o momento ordinário de ordem j (teórico) da distribuição do universo X . Obs: este resultado é decorrente do Teorema do Limite Central. 36 Distribuições Assintóticas do Segundo Momento Central e da Variância Amos- tral Teorema 11. Distribuição Assintótica do Segundo Momento Central Amostral Se o esquema de amostragem for de amostra aleatória simples (AAS), para um ta- manho de amostra, n, suficientemente grande, o segundo momento central amostral, n 2 2 j n j=1 1 M X X n tem distribuição aproximadamente normal de média kμ e variância (aproximada) 2 4 2μ μ n , onde jμ denota o momento central de ordem j (teórico) da distribuição do universo X. Obs: estes resultados são decorrentes do Teorema do Limite Central, para ta- manhos de amostra suficientemente grandes; porém, em alguns casos, são em- pregadas aproximações para tamanhos de amostra moderados (da ordem de 50), com base na relativa robustez do método (particularmente quando o uni- verso é aproximadamente simétrico). Teorema 12. Distribuição Assintótica da Variância Amostral Analogamente ao caso anterior, a estatística variância amostral, no caso do esque- ma de amostragem aleatória simples (AAS) n 22 j n j=1 1 S X X n 1 possui distribuição de qui-quadrado com ν n 1 graus de liberdade, aproximada- mente, para tamanhos de amostra suficientemente grandes, Obs: estes resultados são decorrentes do Teorema do Limite Central, para ta- manhos de amostra suficientemente grandes; porém, em alguns casos, são em- pregadas aproximações para tamanhos de amostra moderados (da ordem de 50), com base na relativa robustez do método (particularmente quando o uni- verso é aproximadamente simétrico). Finalmente, é importante considerar as distribuições de probabilidade das estatísti- cas de ordem. Os principais resultados são apresentados a seguir. 37 8.20.4. Distribuições das Estatísticas de Ordem de uma Amostra Aleatória Simples de um Universo com Distribuição Qualquer Um outro tipo de função de variáveis aleatórias multidimensionais que apresenta interesse é aquele correspondente às estatísticas de ordem de uma amostra aleatória simples de um universo X. A abordagem geral é apresentada a seguir. (1) Distribuição da Estatística de Ordem k de uma Amostra Aleatória Simples Teorema 13. Sejam X um universo e 1 2 3 nX ,X ,X ,...,X uma amostra aleatória simples de tamanho n desse universo. Sejam (1) (2) (3) (n)X ,X ,X ,...,X a amostra orde- nada (em ordem crescente) e as estatísticas de ordem definidas por (k) (1) (2) (3) (n)X k ésimo valor de X ,X ,X ,...,X para k 1,2,3,..., n Seja Xf (x) a função de densidade de probabilidade de X. Então, a função de densi- dade de probabilidade de (k)X , para k 1,2,3,...,n é expressa por (k) k 1 n k X X X X n! f (x) F (x) 1 F (x) f (x) (k 1)! (n k)! (2) Distribuições do Mínimo e do Máximo de uma Amostra Aleatória Simples É importante destacar as distribuições dos casos particulares referentes ao mínimo, (1)X , e ao máximo, (n)X , da amostra. Esses dois casos de especial importância são a seguir analisados e demonstrados. Teorema 14. Seja X um universo com função de densidade de probabilidade Xf (x) e função de distribuição acumulada XF (x) e seja 1 2 3 nX ,X ,X ,...,X uma amostra aleatória simples de tamanho n desse universo. Sejam (1) (2) (3) (n)X ,X ,X ,...,X a amostra ordenada (em ordem crescente) e as estatísticas de mínimo e máximo da amostra definidas por i) (1)X = mín 1 2 3 nX ,X ,X ,...,X ii) (n)X = máx 1 2 3 nX ,X ,X ,...,X Então, as distribuições de probabilidade das duas estatísticas, expressas por meio de suas funções de distribuição e funções de densidade de probabilidade, são, respecti- vamente: 38 i) (1) (1) n n 1 X X X X XF (x) 1 1 F (x) e f (x) n 1 F (x) f (x) ii) n (n) n n 1 X X X X XF (x) F (x) e f (x) n F (x) f (x) Considerando-se distribuições de probabilidade específicas para o universo é possí- vel determinar resultados exatos para certos casos. 8.21 Estimação por Intervalos de Confiança 8.21.1 Considerações Gerais Um estimador é uma variável aleatória. Assim, as estimativas do parâmetro desco- nhecido apresentam uma variabilidade imprevisível quando se observam as possí- veis determinações de uma amostra. Por isso, é importante que se forneçam os va- lores das estimativas pontuais acrescidos de alguma informação sobre a possível variabilidade do estimador. Um procedimento usual é apresentar estimativas pontu- ais contidas em intervalos cuja amplitude permite julgar a precisão alcançada na es- timação. Esses intervalos recebem o nome de Intervalos de Confiança. Na estima- ção por intervalo de confiança é empregado um par de estatísticas - i sL e L - que representam, respectivamente, os limites inferior e superior do intervalo. Cada uma dessas estatísticas é uma função da amostra, isto é i 1 1 2 n s 2 1 2 nL h X ,X ,...,X e L h X ,X ,...,X e o par de estatísticas assim formado constitui o intervalo de confiança i sL ,L . Esse par de estatísticas deve atender à seguinte condição i s i sP θ L ,L P L θ L 1 α Na determinação do par de estatísticas i sL e L deve ser considerada, explicitamen- te, a distribuição de probabilidade dessas estatísticas. 8.21.2 Probabilidades Associadas a um Intervalo de Confiança (i) Nível de Significância Chama-se Nível de Significância da estimação a probabilidade que o intervalo de confiança não venha a conter o valor do parâmetro que está sendo estimado. O ní- vel de significância é representado por α. Assim, ˆ ˆα P θ θ ,θε ε 39 (ii) Nível de Confiança Chama-se Nível de Confiança da estimação a probabilidade que o intervalo de con- fiança venha a conter o valor do parâmetro que está sendo estimado. O nível de confiança é representado por 1 α. Tem-se, portanto, ˆ ˆ ˆ ˆ1 α P θ θ ,θ P θ θε ε ε θ ε 8.21.3 Intervalos de Confiança Simétricos Em muitos casos os intervalos de confiança são construídos simetricamente em relação aos valores possíveis do estimador. Assim, para o estimador θˆ , o intervalo de confiança é definido por ˆ ˆθ ,θ +ε ε ou seja, nesse caso, i sL θ+ε e L θ ε onde 0ε é denominado erro de amostragem. Outras denominações correntes são: tolerância nas estimativas e margem de erro. Note-se que os intervalosde confiança são aleatórios, apresentando flutuações im- previsíveis nas diversas determinações possíveis das amostras. Para cada amostra efetiva o estimador θˆ fornece uma estimativa *θˆ e o intervalo de confiança apre- senta uma única determinação, denominada estimativa por intervalo, ou intervalo de confiança efetivo: * *ˆ ˆθ ,θ ,ε ε i sl l ----------------------------------------------------------------------------------------------------------
Compartilhar