Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise Exploratória de Dados 1) Intervalo de Confiança para a Média 1.1) População Normal, σ conhecido Seja X ~ N(µ , σ). Como já vimos, Padronizando a variável , temos que: Vamos considerar o intervalo de valores de Z, simétrico em torno da média, tal que a probabilidade de Z assumir valor neste intervalo seja igual a (1 - ), isto é: .,~ n NX X .10 ãodistribuiç tem ) , N( n XZ 122 zZzP 0-Z Z Análise Exploratória de Dados Substituindo Z por em , temos: 22 zZzP n X 1 1 2222 2222 n zX n zXP n zX n zXP n zX n zPz n XzP Reescrevendo as desigualdades entre parênteses, obtemos: 122 n zX n zXP Análise Exploratória de Dados A expressão é o intervalo de confiança para o parâmetro µ, ao nível de confiança 1 – , quando é conhecido. Isto é, n zX n zX 22 n z 2 O erro de estimação, , mede o quanto a média amostral dista do verdadeiro valor da média populacional, , para mais ou para menos. O comprimento do intervalo será igual a dois . Quanto maior for o intervalo de confiança, mais confiantes estaremos de que o intervalo realmente contém o valor verdadeiro do parâmetro . Por outro lado, quanto maior for o intervalo, menos informação teremos a respeito do valor verdadeiro de , maior será o . O erro amostral (erro de estimação), , é definido por: SEzXSEzX n zX n zXIC 2222 ;;;1 média da padrão erro SE n Análise Exploratória de Dados Intervalo de confiança para , considerando os níveis de confiança iguais a 90%, 95% e 99%, respectivamente. n X n XIC 64,1;64,1;90,0 Z-1,64 1,640 n X n XIC 96,1;96,1;95,0 0-1,96 1,96 Z _______________________________________________________________________________________________________________________________ _______________________________________________________________________________________________________________________________ n X n XIC 58,2;58,2;99,0 Z-2,58 2,580 0,90 0,05 0,450,45 0,05 0,95 0,0250,025 0,475 0,475 0,99 0,0050,005 0,4950,495 Análise Exploratória de Dados Exemplo 1: Considere a distribuição de níveis séricos de colesterol para todos os homens hipertensos e fumantes nos Estados Unidos. Essa distribuição é aproximadamente normal com uma média desconhecida e desvio padrão = 46 mg/100ml. Estamos interessados em estimar, com 95% de confiança, o nível médio sérico de colesterol dessa população. Antes que selecionemos uma amostra aleatória, a probabilidade de que o intervalo contenha a média verdadeira da população é 0,95. Suponha que extraímos uma amostra de tamanho 16 da população de homens hipertensos e fumantes e que esses homens tenham um nível médio sérico de colesterol de 217 mg/100ml. Com base nessa amostra, um intervalo de 95% de confiança para é: Não se deve escrever P(194,46 < < 239,54) = 0,95, porque a expressão entre parênteses não contém nenhuma variável aleatória, já que é valor fixo, e, embora desconhecido, está, ou não, dentro do intervalo. Podemos dizer com 95% de confiança que o nível médio sérico de colesterol para todos os homens hipertensos e fumantes nos Estados Unidos varia entre 194,46 e 239,54 mg/100ml. n X n X 96,1;96,1 54,239;46,19454,22217;54,22217 16 4696,1217; 16 4696,1217;95,0 IC Análise Exploratória de Dados O erro de estimação , com 95% de confiança e para n = 16, foi de 22,54 mg/100ml. Isto é, o nível médio sérico de colesterol da amostra selecionada, de homens fumantes e hipertensos, difere (se afasta) do verdadeiro valor do nível médio sérico de colesterol da populacional de homens fumantes e hipertensos de mais ou menos 22,54 mg/100ml, com 95% de confiança. Dimensionamento da amostra A partir do erro de estimação , o tamanho da amostra n é determinado por n z 2 2 2 zn No exemplo, qual deve ser o tamanho da amostra de homens hipertensos e fumantes que teremos que sortear na população para que com 95% de confiança, o erro de estimação seja de no máximo 10 mg/100ml? 823,81 10 4696,1 2 nn Análise Exploratória de Dados Para um nível de confiança de 99% e erro de estimação igual a 10mg/100ml, o tamanho da amostra será: 1418,140 10 4658,2 2 nn Quanto maior o nível de confiança, mantendo-se o erro de estimação, maior deve ser o tamanho da amostra. Exemplo 2 – Por analogia a estudos similares, o conteúdo de ácido ascórbico pode ser considerado como tendo distribuição Normal com desvio padrão igual a 1,3 unidades de medida (a média é desconhecida). Uma folha de cada uma de 16 plantas sorteadas da espécie X foi analisada e o conteúdo de ácido ascórbico existente na folha foi quantificado. Os resultados foram os seguintes (em unidades de medida): 9,35; 8,68; 8,65; 9,82; 11,68; 10,29; 12,77; 10,99; 8,81; 10,76; 9,52; 10,55; 12,61; 10,43; 9,87 e 12,04. Obtenha o intervalo de 99% de confiança para o conteúdo médio de ácido ascórbico. Média = 10,4263; IC[;0,99] = [9,5891;11,2634] Podemos dizer com 99% de confiança que o conteúdo médio de ácido ascórbico em plantas da espécie X varia entre 9,5891 e 11,2634 unidades de medida. 1.2) População normal, variância populacional 2 desconhecida Um problema com a construção de tais intervalos é que não sabemos o verdadeiro desvio padrão populacional . Quando não conhecemos , usamos seu estimador S. 11 22 2 n xx S n xx S ii A substituição de por s em Z resulta em uma nova variável aleatória Se X é uma amostra aleatória de uma distribuição Normal com média e desvio padrão , a variável aleatória T acima possui distribuição t de Student com n -1 graus de liberdade. A caracterização com n – 1 graus de liberdade é necessária porque para cada tamanho de amostra temos uma distribuição t de Student diferente. n s XT Análise Exploratória de Dados A figura abaixo ilustra a distribuição N(0 , 1) e a distribuição t de Student com = 5 graus de liberdade. A forma da distribuição t é muito próxima da forma de uma distribuição N(0 , 1). Ambas são simétricas em torno de zero. A distribuição t tem caudas mais densas do que a distribuição normal, isto é, a t apresenta maior dispersão. Análise Exploratória de Dados• valores extremos são mais prováveis de ocorrer com a distribuição t do que com a normal padrão; • a forma da distribuição t reflete a variabilidade extra introduzida pelo estimador S; • para cada possível valor dos graus de liberdade, há uma diferente distribuição t; • as distribuições com menores graus de liberdade, g.l., são mais espalhadas; • conforme g.l. aumenta, a distribuição t se aproxima da distribuição normal padrão; • conforme o tamanho da amostra aumenta, s se torna uma estimativa mais confiável de ; • se n é muito grande, conhecer o valor de s é quase equivalente a conhecer Análise Exploratória de Dados43210-1-2-3-4 Normal 0 1 T com 15 g.l 43210-1-2-3-4 Normal 0 1 T com 30 g.l. Podemos observar nas figuras que, à medida que o tamanho da amostra, n, cresce, a distribuição t aproxima-se da distribuição N(0, 1), pois o desvio padrão amostral s aproxima-se do desvio padrão populacional . Quando o número de g. l. é igual a infinito, a distribuição t coincide com a distribuição N(0, 1).3210-1-2-3 Normal 0 1 T com infinitos g.l. Análise Exploratória de Dados Tabela da distribuição t de Student A tabela que iremos usar fornece os valores da abscissa t0 (positivos) para os quais com graus de liberdade (g.l), P(t > t0) = A. Como ilustra a figura. Na primeira coluna da tabela estão os valores dos g.l., n1. Da segunda à nona coluna estão os valores de A, A = P(t > t0). A intersecção da linha com a coluna fornece o valor de t0. 0 tt0 A=P(t >t0) Exemplos: Usando a tabela da distribuição t, obter o valor t0 tal que: a) com = 16 g. l. a P(t > t0) = 0,005 pela tabela t0 = 2,921, isto é, t16; 0,005 = 2,91 b) com = 8 g. l. a P(t > t0) = 0,05 pela tabela t8; 0,05 = 1,860. c) com g.l. a P(t > t0) = 0,025 pela tabela t; 0,025 = 1,960. Como a distribuição é simétrica em zero, P(t < -t0) = P(t > t0) = A. A última linha da tabela t corresponde a graus de liberdade igual a infinito, = g.l.. Neste caso, os valores de t0 da distribuição t são iguais aos valores de Z da tabela da N(0, 1). Análise Exploratória de Dados Para maior do que 30, a tabela da distribuição t fornece valores de t0 para alguns valores de g.l. (e . Porém, quando o número de g.l., , é maior do que 30, a aproximação da distribuição t pela distribuição N(0, 1) é satisfatória. Então, nestes casos vamos utilizar a tabela da distribuição Normal. O intervalo de confiança para a média Considere uma amostra aleatória de tamanho n de uma variável aleatória de uma população Normal com média e desvio padrão desconhecido. Vimos que Tem distribuição t de Student com n – 1 g.l.. Um intervalo de confiança para pode ser derivado a partir da variável aleatória T. Da distribuição de probabilidade de T, temos que n s XT 12,12,1 nn tTtP 1 - T tn -1, -tn -1, Análise Exploratória de Dados Substituindo T por em , temos: n s X 2,12,1 nn tTtP 1 1 1 2,12,1 2,12,1 2,12,12,12,1 n stX n stXP n stX n stXP n stX n stPt n s XtP nn nn nnnn Reescrevendo as desigualdades entre parênteses, obtemos: 12,12,1 n stX n stXP nn Análise Exploratória de Dados A expressão é o intervalo de confiança para o parâmetro µ, ao nível de confiança 1 – , quando é desconhecido. Isto é, n stX n stX nn 2,12,1 SEtXSEtX n stX n stXIC nnnn 2,12,12,12,1 ;;;1 O erro amostral (erro de estimação), , é definido por: n stn 2,1 Cálculo do tamanho da amostra: Fixamos o maior erro de estimação aceitável e o nível de confiança que queremos trabalhar. 2 2,1 stn n Note que precisamos de uma estimativa preliminar de s para obter o tamanho da amostra. Usualmente esse problema, nos casos em que se desconhece por completo o valor de s, uma amostra piloto é usada para calcular s, que, será usado no cálculo do tamanho da amostra necessário. média da padrão erro SE n s Análise Exploratória de Dados Exemplos.1) O tempo de reação de um novo medicamento, por analogia a produtos similares, pode ser considerado como tendo distribuição Normal. Vinte pacientes foram sorteados, receberam o medicamento e tiveram seu tempo de reação anotado. Os resultados,em minutos, foram Pede-se: Construir um intervalo de 95% de confiança para . Solução: n = 20, desconhecido, 1 – = 0,95 , = 20 – 1 = 19 g.l, t19, 0,025 = 2,093 2,9 3,4 3,5 4,1 4,6 4,7 4,5 3,8 5,3 4,9 4,8 5,7 5,8 5,0 3,4 5,9 6,3 4,6 5,5 6,2 996,0 19 745,42,6...745,44,3745,49,2 1201 745,4 20 2,6...4,39,2 20 222 20 1 2 1 2 20 11 s xx n xx s x n x X i i n i i i i n i i 211,5;279,4 20 996,0.093,2745,4; 20 996,0.093,2745,4 ;;95,0 2,12,1 n stX n stXIC nn Podemos dizer com 95% de confiança que o tempo médio de reação do novo medicamento varia entre 4,279 e 5,211 minutos Análise Exploratória de Dados 2) Um pesquisador deseja estabelecer o peso médio dos jovens entre 14 e 20 anos. Apesar de desconhecer a média e o desvio padrão da população, sabe-se por literatura da área que a distribuição dos pesos é aproximadamente normal. Retira-se uma amostra de 10 jovens obtendo peso médio de 67kg e desvio padrão de 9kg. Estabeleça o intervalo de 98% de confiança para o peso médio da população. Solução: n = 10, desconhecido, 1 – = 0,98 , n = 10 – 1 = 9 g.l, t9, 0,01 = 2,821 967 sX 029,75;971,58 10 9.821,267; 10 9.821,267 ;;98,0 2,12,1 n stX n stXIC nn Com 98% de confiança o peso médio dos jovens entre 14 e 20 anos varia entre 58,971 e 75,029 Kg. Análise Exploratória de Dados Análise Exploratória de Dados 2) Intervalo de confiança para a proporção, grandes amostras Seja X o número de elementos de uma amostra de tamanho n que apresentam a característica de interesse. Queremos estabelecer um intervalo de confiança para a proporção populacional p. Temos que: Como já foi visto, pelo Teorema Central do Limite, o estimador segue uma distribuição aproximadamente e n ppp n pppVar n Xp pp 1ˆ de padrão Desvio1)ˆ( e ˆ ˆ 2 ˆ pˆ 1) , N(0 menteaproximada ãodistribuiç uma tem n pp ppZ 1 ˆ n pppN 1; Análise Exploratória de Dados Vamos considerar o intervalo de valores de Z, simétrico em torno da média zero, tal que a probabilidade de Z assumir valor neste intervalo seja igual a (1 - ), isto é: 122 zZzP -Z Z Z Substituindo Z por em , temos: n pp pp 1 ˆ 122 zZzP 11ˆ1ˆ1ˆ1ˆ 11ˆ1 1 ˆ 2222 2222 n ppzpp n ppzpP n ppzpp n ppzpP n ppzpp n ppzPz n pp ppzP Análise Exploratória de Dados Reescrevendo as desigualdades entre parênteses, obtemos: Fixando o nível de confiança (1-)100% tal que, 0 < < 1, o intervalo de confiança para p, para amostras suficientemente grandes, é dado por: Note que, neste caso, os limites do intervalo dependem do parâmetro que queremos estimar logo, o intervalo não pode ser calculado diretamente. Umapossível solução é substituirmos por . Assim, o intervalo será: 11ˆ1ˆ 22 n ppzpp n ppzpP n ppzp n ppzppIC 1ˆ;1ˆ1; 22 pp 1 pp ˆ1ˆ 1ˆ1ˆˆ;ˆ1ˆˆ1; 22 n ppzp n ppzppIC Análise Exploratória de Dados Uma outra abordagem é baseada no fato que a expressão p(1-p) assume o valor máximo igual a 1/4 quando 0 ≤ p ≤ 1. Como mostra a figura abaixo. Logo, o intervalo se reduz a: Apresentamos duas alternativas para o cálculo do intervalo de confiança para p. A primeira, usada em (1), é usualmente denominada de abordagem otimista, pois parte da crença que o valor do estimador está suficientemente próximo do valor de . )2( 4 1ˆ; 4 1ˆ1; 22 n zp n zppIC pˆ p A segunda, usada em (2), é conhecida na literatura como abordagem conservativa, pois preferimos substituir o valor de p(1-p) pelo valor máximo que ele pode atingir. O comprimento do intervalo de confiança otimista é maior que o comprimento do intervalo conservativo. O erro amostral (erro de estimação), , é definido por: Dimensionamento da amostra Supondo que p e (1-) são conhecidos, a partir de tem –se que: Mas, para utilizar a fórmula de (3) acima, é necessário um valor (estimativa) para p. Tal valor pode ser obtido utilizando-se pesquisas anteriores ou uma amostra piloto. Uma forma alternativa, consiste em utilizar o fato de que p(1-p) atinge o valor máximo igual a 1/4 quando p = 0,5. Assim, Neste caso, possivelmente a amostra estará super dimensionada e por isto a fórmula (4) é conhecida como método conservador de dimensionamento de amostra. n ppz 12 3 1 2 2 2 ppz n 4 4 2 2 2 z n Exemplos: 1) Na observação em uma amostra de 80 produtos alimentares em supermercado quanto ao prazo de validade, obteve-se o seguinte resultado: Normal: 54 e Vencido: 26. Estimar a proporção de produtos com prazo de validade normal. Construir um intervalo de 95% de confiança para a proporção de produtos com prazo de validade normal. p = proporção populacional de produtos com prazo de validade normal n = 80 X = Número de produtos com prazo de validade normal Número de sucessos na amostra = 54 0,675 é a estimativa pontual de p. Logo, estima-se que a proporção de produtos com prazo de validade normal é de 0,675. 675,0 80 54ˆ n Xp 7776,05724,095,0; 80 675,01675,096,10; 80 675,01675,096,1675,095,0; ; ,675 pIC pIC 2) Um ensaio clínico foi realizado para determinar a preferência entre dois analgésicos, A e B, contra dor de cabeça. 100 pacientes que sofrem de dor de cabeça crônica receberam em dois tempos diferentes o analgésico A e o analgésico B. A ordem na qual os pacientes receberam os analgésicos foi determinada ao acaso. Os pacientes desconheciam esta ordem. Ao final do estudo foi perguntado a cada paciente qual analgésico lhe proporcionou maior alívio: o primeiro ou o segundo. Dos 100 pacientes, 45 preferiram A e 55 preferiram B. Baseado nestas informações podemos dizer que há preferência por algum dos analgésicos? Dizemos que não há preferência por um dos analgésicos quando a proporção dos que preferem A, pA, é igual a proporção dos que preferem B, pB. Como temos dois resultados possíveis, pA e pB são iguais quando pA = pB =0.5. Um intervalo de 95% de confiança para a verdadeira proporção de pacientes que preferem o analgésico A é: (0,35 ; 0,55) Então, com 95% de confiança, a verdadeira proporção de pacientes que preferem o analgésico A está entre 0,35 e 0,55. Observe que este intervalo contém o valor 0,5 então concluímos que não existem evidências amostrais de preferência por um dos analgésicos.
Compartilhar