Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Federal de Mato Grosso Probabilidade e Estatística - Curso: Engenharia Civil Introdução à Inferência Estatística - ProfaEveliny 1 Introdução Vimos no início do curso como resumir descritivamente variáveis associadas a um ou mais conjunto de dados. Em seguida, construímos modelos teóricos (probabilísticos), identificados por parâmetros (por exemplo, X ∼ Bin(n; p)), capazes de representar adequadamente o comportamento de algumas variáveis. Agora veremos argumentos estatísticos para fazer afirmações sobre as características de uma população, com base em informações dadas por amostras. O uso de informações de uma amostra para concluir sobre o todo faz parte da atividade diária da maioria das pessoas. Basta observar como uma cozinheira verifica se o prato que ela está preparando tem ou não a quantidade adequada de sal. Conceitos Importantes: 1. População: Conjunto de elementos que possuem pelo menos uma característica em comum. 2. Amostra: É um subconjunto da população. 3. Amostragem: É o processo de seleção de uma amostra. 4. Parâmetro: Alguma medida descritiva (média, variância, proporção etc) dos valores x1, x2, · · · , associados à pop- ulação. 5. Estatística: Alguma medida descritiva (média, variância, proporção etc) das variáveis aleatórias X1, X2, · · · , asso- ciados à amostra. • As Estatísticas mais comuns são: X¯ = ∑n i=1 xi n Média Amostral S2 = 1n−1 × ∑n i=1(xi − x¯)2 Variância Amostral X(1) = min(X1, X2, · · · , Xn) o menor valor da amostra X(n) = max(X1, X2, · · · , Xn) o maior valor da amostra W = X(n) −X(1) Amplitude Total pˆ = N o de elementos com a característica de interesse n Proporção Amostral • Os Parâmetros mais comuns são: µ = ∑N i=1 xi N Média Populacional σ2 = ∑N i=1 (xi−µ)2 N Variância Populacional p = N o de elementos com a característica de interesse N Proporção Populacional 2 Distribuição Amostral da Média Considere uma população identificada pela variável X , cujos parâmetros média populacional µ = IE(X) e va- riância populacional σ2 = V ar(X) são supostamente conhecidos. Vamos retirar todas as possíveis amostras aleatórias simples de tamanho “n” dessa população, e para cada uma calcular a média X¯. Em seguida, consideremos a distribuição amostral e estudemos suas propriedades. Exemplo: Considere uma população de 4 ônibus de uma pequena companhia de transporte urbano. Seja X = No de vezes que o ônibus teve um defeito grave. Valores observados para X : 2, 3, 4, 5. µ = 2 + 3 + 4 + 5 4 = N∑ i=1 xi N 1 Universidade Federal de Mato Grosso Probabilidade e Estatística - Curso: Engenharia Civil Introdução à Inferência Estatística - ProfaEveliny σ2 = N∑ i=1 (xi − µ)2 N = 1 4 {(2− 3, 5)2 + (3− 3, 5)2 + (4− 3, 5)2 + (5− 3, 5)2} = 1, 25 Retirando-se uma a.a. simples de n = 2 dessa população, com reposição, temos: Amostras possíveis Valor de x¯ Probabilidade (2,2) 2,0 1/16 (2,3); (3,2) 2,5 2/16 (2,4); (3,3); (4,2) 3,0 3/16 (2,5); (3,4); (4,3); (5,2) 3,5 4/16 (3,5); (4,4); (5,3) 4,0 3/16 (4,5); (5,4) 4,5 2/16 (5,5) 5,0 1/16 Vamos calcular a média e a variância das médias: IE(X¯) = 2, 0× 1/16 + 2, 5× 2/16 + · · ·+ 5, 0× 1/16 = 3, 5 = µ V ar(X¯) = 0, 625 = σ2/n Se a amostragem for sem reposição e N não muito grande, N < 20n: V ar(X¯) = σ2 n × N − n N − 1 2.1 Teorema do Limite Central Para uma a.a simples (X1, · · · , Xn), retiradas de uma população com média µ e variância σ2 finita, a distribuição amostral da média X¯ aproxima-se, para n grande, de uma distribuição Normal, com média µ e variância σ2/n. Corolário: Se (X1, · · · , Xn) for uma a.a simples da população X , com média µ e variância σ2 finita, e X¯ = (X1 + · · ·+Xn)/n, então Z = X¯ − µ σ/ √ n ∼ N(0, 1) (1) ou Z = √ n(X¯ − µ) σ ∼ N(0, 1) (2) 2.1.1 Estimação Pontual Média: IE(X¯) = µ; Variância: V ar(X¯) = σ 2 n ; Desvio - Padrão: DP (X¯) = σ√ n Prova: Média: IE(X¯) = IE { n∑ i=1 xi n } = IE { 1 n n∑ i=1 xi } = 1 n × IE(X1 +X2 + · · ·+Xn) = 1 n × {µ+ µ+ · · ·+ µ} = n× µ n = µ. Variância: V ar(X¯) = V ar ( n∑ i=1 xi n ) = 1 n2 V ar( n∑ i=1 xi) = 1 n2 × {V ar(X1) + V ar(X2) + · · ·+ V ar(Xn)} = 1 n2 × {σ2 + σ2 · · ·σ2} = nσ2 n2 = σ2 n . Exercícios: 2 Universidade Federal de Mato Grosso Probabilidade e Estatística - Curso: Engenharia Civil Introdução à Inferência Estatística - ProfaEveliny 1) Suponha que a aceitação de um lote de 1000 peças ocorra apenas, se o comprimento médio de 10 peças, retiradas aleatoriamente do lote, estiver entre 5 e 10 cm. Sabe-se que o comprimento das peças é uma variável aleatória com distribuição Normal de média 7,5 cm e variância 20cm2. O que podemos dizer a respeito da aceitação do lote? 2) Os pesos das peças produzidas por uma máquina (produção de 5.000 peças/dia) seguem distribuição normal com uma média de 22g e desvio padrão de 12,5g. Foi coletada 50 amostras, de 16 peças cada uma. i) Determine a média e o desvio padrão da distribuição das médias amostrais; ii) Em quantas amostras pode-se esperar que a média se encontre entre 19,3 e 20,5g? e abaixo de 19g? iii) Qual a probabilidade de encontrarmos uma peça escolhida dessa produção com dimensão entre 19,3g e 20,5g? 3 Distribuição Amostral de uma Proporção Vamos considerar uma população em que a proporção de elementos portadores de certa característica é p. Logo, podemos definir uma v.a. X , da seguinte maneira: X = { 1, se o indivíduo tiver a característica de interesse 0, se o indivíduo não tiver a característica de interesse, logo, µ = IE(X) = p, σ2 = V ar(X) = p(1− p). Se retirarmos uma AAS (amostra aleatória simples) dessa população, e definirmos Yn como sendo o total de indivíduos portadores da característica na amostra, Yn = ∑n i=1Xi, logo, pˆ = Yn n Então, IP (Yn = k) = IP (Yn/n = k/n) = IP (pˆ = k/n), ou seja, a distribuição amostral de pˆ é obtida da distribuição de Yn e k é o número de elementos portadores de certa característica na amostra. Vamos mostrar que a justificativa desse fato está no TLC. Observe que Yn = X1 +X2 + · · ·+Xn onde cadaXi tem distribuição de Bernoulli, com média µ = p e variância σ2 = p(1−p), e são duas a duas independentes. Assim, Média: IE(pˆ) = IE(Yn/n) = 1 n IE(Yn) IE(pˆ) = 1 n IE(X1 +X2 + · · ·+Xn) IE(pˆ) = 1 n {IE(X1) + IE(X2) + · · ·+ IE(Xn)} como X ∼ Bernoulli(p), IE(pˆ) = 1 n {p+ p+ · · ·+ p} = n× p n = p. Variância: V ar(pˆ) = V ar(Yn/n) = 1 n2 V ar(Yn) V ar(pˆ) = 1 n2 V ar(X1 +X2 + · · ·+Xn) V ar(pˆ) = 1 n2 {V ar(X1) + V ar(X2) + · · ·+ V ar(Xn)} V ar(pˆ) = 1 n2 { σ2 + σ2 + · · ·+ σ2)} = n× σ2 n2 3 Universidade Federal de Mato Grosso Probabilidade e Estatística - Curso: Engenharia Civil Introdução à Inferência Estatística - ProfaEveliny V ar(pˆ) = σ2 n = p(1− p) n Assim como X¯ , pˆ terá, para N grande, distribuição aproximadamente Normal: pˆ ∼ N ( p, p(1− p) n ) . (3) Z = pˆ− p√ p(1−p) n . (4) Exercícios: 1. Um procedimento de controle de qualidade foi planejado para garantir um máximo de 10% de itens defeituosos na produção. A cada 6hr sorteia-se uma amostra de 20 peças e, havendo mais que 15% de defeituosas, encerra-se a produção para verificação do processo. Qual a probabilidade de uma parada desnecessária? 2. Supondo que a produção do exemplo anterior esteja sob controle, isto é, p = 10%, e que os itens sejam vendidos em caixas com 100 unidades, qual a probabilidade de que uma caixa: (a) tenha mais do que 10% de defeituosos? (b) não tenha itens defeituosos? 3. Suponha que p = 30% dos estudantes de uma escola sejam mulheres. Colhemos uma AAS de n = 10 estudantes e calculamos pˆ = proporção de mulheres na amostra.Qual a probabilidade de que pˆ difira de p em menos de 0,01? 4 Determinação do Tamanho de uma Amostra Nas considerações feitas anteriormente foi feita a suposição que o tamanho da amostra, n, era conhecido e fixo. Em determinadas situações, pode ser de interesse determinar o tamanho da amostra a ser escolhida de uma população, de modo a obter um erro de estimação previamente estipulado, com determinado grau de confiança. Média: n = σ2z2α/2 ε2 . (5) Note que em (5) conhecemos zα/2 e ε, mas σ2 é a variância desconhecida da população. Para podermos ter uma idéia sobre n devemos ter alguma informação prévia sobre σ2 ou, então, usar uma pequena amostra piloto para estimar σ2. Exemplo: Suponha que uma pequena amostra piloto de n = 10, extraída de uma população, forneceu os valores X¯ = 15 e S2 = 16. Fixando-se ε = 0, 5 e α = 0, 95, temos n = 16× (1, 96)2 (0, 5)2 ≈ 245. No caso de proporções, usando a aproximação normal apresentada na seção anterior para pˆ, é fácil ver que (5) resulta n = z2α/2p(1− p) ε2 . (6) Geralmente o valor de p, a verdadeira proporção populacional, não é conhecida, neste caso podemos usar o fato que p(1− p) ≤ 1/4, para todo p, e (6) fica n ≈ z2α/2 4ε2 . (7) Por outro lado, se tivermos alguma informação sobre p ou pudermos estimá-lo usando uma amostra piloto, basta substituir esse valor estimado em (6). Exemplo: Suponha que numa pesquisa de mercado estima-se que no mínimo 60% das pessoas entrevistadas preferirão a marca A de um produto. Essa informação é baseada em pesquisas anteriores. Se quisermos que o erro amostral de pˆ seja menor do que ε = 0, 03, com probabilidade α = 0, 95, teremos n ≈ (1, 96) 2(0, 6)(0, 4) (0, 03)2 ≈ 1.024, usa-se o fato de que p ≥ 0, 60. Exercícios: 4 Universidade Federal de Mato Grosso Probabilidade e Estatística - Curso: Engenharia Civil Introdução à Inferência Estatística - ProfaEveliny 1. Suponha que uma indústria farmacêutica deseja saber a quantos voluntários se deva aplicar uma vacina, de modo que a proporção de indivíduos imunizados na amostra difira de menos de 2% da proporção verdadeira de imunizados na população, com probabilidade 90%. Qual o tamanho da amostra escolher? 2. No problema anterior, suponha que a indústria tenha a informação de que a proporção de imunizados pela vacina seja p ≥ 0, 80. Qual o novo tamanho de amostra a escolher? Houve redução? 5 Propriedades dos estimadores Definição 1: Parâmetro As quantidades da população, em geral desconhecidas, sobre as quais temos interesse, são denominadas parâmetros e, usualmente, representadas por letras gregas tais como θ, µ, σ, entre outras. Definição 2: Estimador e Estimativa À combinação dos elementos da amostra, construída com a finalidade de representar, ou estimar, um parâmetro de interesse na população, denominamos estimador. Em geral, denotamos os estimadores por símbolos com o acento circunflexo: θˆ, µˆ, σˆ, etc. Aos valores numéricos assumidos pelos estimadores denominamos estimativas pontuais ou simplesmente estimativas. Definição 3: Vício Um estimador θˆ é não viciado ou não viesado para um parâmetro θ se IE(θˆ) = θ. Em outras palavras, um estimador é não viciado se o seu valor esperado coincide com o parâmetro de interesse. IE(θˆ) = θ Definição 4: Consistência Um estimador θˆ é consistente, se, à medida que o tamanho da amostra aumenta, seu valor esperado converge para o parâmetro de interesse e sua variância converge para zero. Ou seja, θˆ é consistente se as duas propriedades seguintes são satisfeitas: i) lim n→∞ IE(θˆ) = θ, ii) lim n→∞V ar(θˆ) = 0. Note que, na definição de consistência, usa-se implicitamente o fato que o estimador depende de n, o tamanho da amostra. Na definição do vício, o resultado deve valer para qualquer que seja n, isto é, IE(θˆ) = θ, para todo n. Na definição de consistência, o estimador necessita ser não viciado apenas para valores grandes de n. Definição 5: Eficiência Dados dois estimadores θˆ1 e θˆ2, não viciados para um parâmetro θ, dizemos que θˆ1 é mais eficiente do que θˆ2 se V ar(θˆ1) < V ar(θˆ2). Tabela 1: Estimadores para média, proporção e variância. Parâmetro Estimador Propriedades σ2 S2 = 1n−1 × ∑n i=1(xi − x¯)2 Não viciado e Consistente. µ X¯ = ∑n i=1 xi n Não viciado e Consistente. p pˆ = N o de elementos com a característica de interesse n Não viciado e Consistente. 6 Estimação por Intervalo Até agora, todos os estimadores apresentados foram pontuais, isto é, especificam um único valor para o estimador. Esse procedimento não permite julgar qual a possível magnitude do erro que estamos cometendo. Daí, surge a idéia de construir os intervalos de confiança, que são baseados na distribuição amostral do estimador pontual. 5 Universidade Federal de Mato Grosso Probabilidade e Estatística - Curso: Engenharia Civil Introdução à Inferência Estatística - ProfaEveliny 6.1 Intervalo de confiança (IC) para a média µ de uma população Normal com variância σ2 conhecida Consideremos, inicialmente, o intervalo de confiança para a média µ de uma certa população Normal, com var- iância conhecida σ2. Supondo uma amostra de tamanho n dada por (X1, · · · , Xn), vimos que a média amostral tem distribuição Normal com a mesma média µ e variância σ2/n. Assim, Z = X¯ − µ σ/ √ n ∼ N(0, 1). Assim, o intervalo de confiança para µ, com coeficiente de confiança 1− α, é dado por IP ( X¯ − zα/2 × σ√ n < µ < X¯ + zα/2 × σ√ n ) = 1− α ou IC(µ, 1− α) = [ X¯ − zα/2 × σ√ n ; X¯ + zα/2 × σ√ n ] (8) Representação Gráfica: O valor zα/2 pode ser obtido na tabela da Normal padrão, localizando o valor de (1 − α)/2 no corpo da tabela e obtendo o valor de zα/2 nas margens correspondentes. Feito isso, temos o intervalo Exercícios: 1. Calcule o intervalo de confiança para a média de uma N(µ, σ2) em cada uma dos casos abaixo: Média Amostral Tamanho da Amostra Desvio Padrão (σ) Coeficiente de Confiança 175 cm 100 15 cm 95% 165 cm 184 30 cm 85% 180 cm 225 30 cm 70% 2. De 50.000 válvulas fabricadas por uma companhia retira-se uma amostra de 400 válvulas, e obtém-se a vida média de 800 horas e o desvio padrão de 100 horas. a) Qual o intervalo de confiança de 99% para a vida média da população? b) Com que confiança dir-se-ia que a vida média é 800 ± 9,8? c) Que tamanho deve ter a amostra para que seja de 95% a confiança na estimativa 800 ± 7,84? 6.2 Intervalo de confiança (IC) para a média µ de uma população Normal com variância σ2 desconhecida O intervalo de confiança descrito em (8) somente poderá ser usado nas situações em que conhecemos o desvio padrão σ da população, o que não é comum na prática. Caso contrário, o procedimento usual é substituir σ pelo desvio padrão calculado com os dados da amostra: S = √√√√ 1 n− 1 × n∑ i=1 (xi − x¯)2 (9) 6 Universidade Federal de Mato Grosso Probabilidade e Estatística - Curso: Engenharia Civil Introdução à Inferência Estatística - ProfaEveliny Duas situações a considerar: 1. se n > 30, então usa-de a distribuição Normal com o estimador S2 de σ2; 2. se n ≤ 30, então usa-se a distribuição t-de-Student, que veremos adiante; 6.2.1 Distribuição t de Student Supondo a população com distribuição Normal, a estatística t = X¯ − µ S/ √ n (10) tem distribuição de probabilidade conhecida como distribuição t de Student, com gl = n− 1 graus de liberdade. Algumas características da distribuição t de student: • É simétrica em relação a zero; • Todas curvas tem máximo em t = 0; • Existe uma curva para cada tamanho de amostra (n) e o valor gl = n − 1 (número de graus de liberdade) é usado para obtenção de valores na tabela; • A medida que n cresce a distribuição t se aproxima da normal padrão z; Valores de probabilidade de t são obtidos em tabelas. A tabela de t informa o valor acima do qual se encontra a areaα/2, onde tα/2 é o valor encontrado na tabela da t. Exercícios: 1. Deseja-se avaliar a dureza esperada µ do aço produzido sob um novo processo de têmpera. Uma amostra de dez corpos de prova do aço produziu os seguintes resultados de dureza, em HRc: 36,4; 35,7; 37,2; 36,5; 34,9; 35,2; 36,3; 35,8; 36,6; 36,9. Construir um IC para µ, com nível de confiança de 95%. 2. Sete medidas de pH de uma solução reguladora proporcionaram os seguintes resultados: 5,12; 5,15; 5,20; 5,16; 5,19; 5,15. Calcular os limites de confiança para o verdadeiro pH médio ao nível de confiança de : i) 99%; ii)95%. 7 Universidade Federal de Mato Grosso Probabilidade e Estatística - Curso: Engenharia Civil Introdução à Inferência Estatística - ProfaEveliny 6.3 Intervalo de confiança (IC) para proporção populacional p Em muitas situações, o principal parâmetro de interesse é alguma proporção p. Por exemplo: • a proporção de itens defeituosos em uma linha de produção; • a proporção de consumidores que vão comprar certo produto; • a proporção de mensagens que chegam adequadamente a seu destino etc. Assim como X¯ , pˆ terá, para N grande, distribuição aproximadamente Normal: pˆ ∼ N ( p, p(1− p) n ) . Z = pˆ− p√ p(1−p) n . Assim, o intervalo de confiança para p, com coeficiente de confiança 1− α, é dado por IP ( pˆ− zα/2 × √ pˆ(1− pˆ) n < p < pˆ+ zα/2 × √ pˆ(1− pˆ) n ) = 1− α ou IC(p, 1− α) = [ pˆ− zα/2 × √ pˆ(1− pˆ) n ; pˆ+ zα/2 × √ pˆ(1− pˆ) n ] (11) Exercícios: 1. Para estimar a porcentagem de alunos de um curso favoráveis a modificação do currículo escolar, tomou-se uma amostra de 100 alunos, dos quais 80 foram favoráveis. a) Fazer um IC para a proporção de todos os alunos do curso favoráveis à modificação ao nível de 4%. b) Qual o valor do erro de estimação cometido em (a)? 2. Pretende-se estimar a proporção p de cura, através do uso de um certo medicamento em doentes contaminados com cercária, que é uma das formas do verme da esquitossomose. Um experimento consistiu em aplicar o medicamento em 200 pacientes, escolhidos ao acaso, e observar que 160 deles foram curados. Que podemos dizer da proporção p na população em geral? 8
Compartilhar