Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL Instituto de Matemática Departamento de Estatística ESTATÍSTICA GERAL II MAT02215 Professor: Marco Antônio Giacomelli www.mat.ufrgs.br/~giacomo/ Porto Alegre, Agosto de 2013 2 1- INTRODUÇÃO 1.1 - Ciências Estatísticas Na medida que foi sendo colocado diante de novos desafios, decorrentes especialmente do crescimento da população – quando as atividades e as relações sócio- econômicas tornaram-se mais complexas – o homem precisou aprimorar, sistematicamente, os instrumentos existentes e/ou criar outros para continuar garantindo sua sobrevivência. Nesse processo de evolução, que perdura até os dias atuais, novas necessidades e dificuldades foram se sucedendo, sempre desafiando o ser humano a ultrapassá-las. Com a observação sistemática da realidade e a utilização dos instrumentos criados, surgiu o conhecimento científico, que permitiu ao ser humano entender explicar e explorar melhor, e mais rapidamente, o mundo em que vive. Para registrar, classificar, controlar e estudar mais adequadamente fenômenos, fatos, eventos e ocorrências foram sendo criadas, desenvolvidas e aperfeiçoadas, muitas técnicas de análise de informações e métodos quantitativos. Esses avanços facilitaram a resolução de inúmeros problemas que o homem encontrava para realizar as atividades básicas de produção, comércio, transportes, etc. Nestes últimos anos houve necessidade de aprofundar estudos, realizar experimentos e pesquisas mais específicas, inclusive para avaliar os resultados das atividades desenvolvidas. Por essa razão, os conhecimentos teóricos e os métodos de análise de dados quantitativos vêm sendo aprimorados continuamente. O conjunto de técnicas e métodos de pesquisa, experimentação e inferências mais utilizadas para alcançar esses objetivos são o que modernamente se conhece como Ciências Estatísticas, onde se destaca a seguinte gama de conhecimentos: Teoria dos Jogos, Planejamento de Experimentos, Teoria das Filas, Controle de Qualidade, Teoria das Decisões, Séries Temporais, Econometria e outras técnicas. 1.2 - Áreas de aplicação da Estatística Dentre as áreas em que a Estatística adquire maior relevância, destacamos: Economia: Planeja e desenvolve estudos prospectivos sobre o comportamento de variáveis macroeconômicas: renda, produção, comércio interno, importação, exportação, inflação, emissão de moeda, elaboração de índices para medir produtividade, realiza análises microeconômicas envolvendo a evolução das vendas, produção, custos, margem de lucro, otimização da receita, formula indicadores gerenciais para tomada de decisões, etc. 3 Ciências Sociais: estudo de fatores desencadeadores de comportamento violento, tipificação de uso de drogas, causas de criminalidade. Pesquisa de mercado: planeja e coordena a realização de pesquisa, por amostrage, para avaliar o comportamento do mercado, as reações do consumidor para lançamento de novos produtos ou para estabelecer estratégias de venda, etc. Pesquisa de opinião: planeja e coordena a realização de pesquisas sobre preferência ou opinião da população em variados temas: candidaturas eleitorais, regime político, atividades culturais. Controle de qualidade: desenvolve estudos para estabelecer padrões de qualidade e confiabilidade de produtos e serviços; realiza testes para avaliação e controle de processos, etc. Informática: elabora modelos de simulação para resolução de problemas complexos: define indicadores para amostragem de banco de dados; implanta modelos de previsão e análises estatísticas; estabelece índices e coeficientes para gerenciamento e tomada de decisões. Demografia e saúde: estuda a evolução e as características da população; estabelece tábuas de mortalidade; analisa os fluxos migratórios; estabelece níveis e padrões para testes clínicos; planeja e realiza experimentos com grupos de controle para avaliação de tratamentos. Pesquisa operacional: elabora modelos matemáticos utilizando técnicas de programação linear e programação não linear para otimizar alocação de recursos; utiliza métodos de simulação para indicar soluções ótimas, etc. Recursos Humanos: pesquisa a compatibilidade entre os conhecimentos/habilidades e as atividades desenvolvidas por funcionários; estuda curvas salariais; propõe planos de avaliação de desempenho do quadro funcional; elabora plano de previdência complementar e fundo de pensão. Agronomia e veterinária: produtividade em função do uso de fertilizantes, melhoramento genético, desempenho de variedades de plantas. 4 1.2. Divisão da Estatística Estatística Descritiva: descrição, resumo e organização das informações. Compreende o uso de tabelas, gráficos e medidas-resumo. Estatística Inferencial: através do particular (amostra) faz induções a respeito do todo (população), controlando a probabilidade de erro (por isso estudaremos a Teoria das Probabilidades). Exemplo 1: projeção da percentagem de votos para um candidato numa eleição. Exemplo 2: comparação de adubos Os três canteiros são expostos à mesma incidência de luz, tipo de solo, mas recebem adubos diferentes. No final do experimento será medida a altura das plantas. 5 1.3 – Revisão de Estatística Descritiva Medidas descritivas para dados não agrupados Média aritmética: n x n xxx X n i i n ∑ = − = +++ = 121 L Moda: a moda de um conjunto de valores, denotada por mo, é definida como o valor mais freqüente no conjunto. Convém lembrar que a moda pode não ser única, isto é, um conjunto pode ser bimodal, trimodal, etc. No caso em que todas freqüências forem iguais diremos que não há moda. Se a moda existir será denotada por Mo. Mediana: A mediana de um conjunto ordenado de valores, denotada por Med, é definida como o valor que separa o conjunto em dois subconjuntos de mesmo tamanho. Med = [ ] [ ] [ ] + + + par én se , 2 ) x (x ímpar én se , x 12 n 2 n 2 1n sendo [ ]{ }x a amostra ordenada em ordem crescente. Amplitude: 0minmax ≥−= xxh Variância: ( ) 1 2 1 2 2 − ×− = − = ∑ n Xnx S n i i Desvio padrão: 2SS = Coeficiente de variação: %100. ×= − X SVC 6 Exemplo 3: número de irmãos dos alunos da turma U - disciplina Estatística 0 1 1 6 3 1 3 1 1 0 4 5 1 1 1 0 2 2 4 1 3 1 2 1 1 1 1 5 5 6 4 1 1 0 2 1 4 3 2 2 1 0 2 1 1 2 3 0 1 0 Obtenha média aritmética, mediana, moda, variância, desvio padrão e coeficiente de variação. Solução: x f 0 1 2 3 4 5 6 7 21 8 5 4 3 2 Total 50 9,1 50 95 == − x ; Mo=1; Med=1 ( ) 6224,2 49 9,150309 22 = ×− =s ; 6194,1=s ; CV=85%. Medidas descritivas para dados agrupados em classes n fx f fx X k i ii k i ik i ii ∑ ∑ ∑ = = = − × = × = 1 1 1 1 1 2 2 2 − −× = ∑ = − n Xnfx S k i ii 2SS = ; %100. ×= − X SVC 7 Exemplo 4: vendas semanais (em mil reais) de gêneros alimentícios: 30 34 35 35,8 36,2 37,1 37,5 37,9 38 38,3 39 39,3 42,5 43,3 44,5 40 40,1 40,2 40,2 40,3 40,4 40,7 40,8 41 41,1 41,4 42 44,7 44,8 44,9 49,4 49 45,6 49,7 49,4 46 48 46,5 45,4 47,6 46,3 45,9 47,6 49,8 49,6 49,8 49,7 49,7 45,7 48,5 49,7 49,8 49,6 45,5 47,3 48,9 48,9 46,4 45,6 45 47 45,5 49,4 48,1 48,8 49,3 49,7 47,4 48,2 48,9 45,1 46,7 49,1 46 49,5 48,3 48,3 46,9 48,7 48,6 53,6 52,3 51,9 52 53,2 50,8 50,8 51,4 53,4 53,9 50,1 51,5 51,3 54,2 50,2 50,7 50,4 54,8 54 54 53,4 50,6 51,5 53,7 54,6 52,4 50,1 53,2 52,1 50,6 51,8 51 53,7 50,2 53,8 50,1 50,9 52 52,3 52,2 52,1 52,3 57,7 57,5 55,3 56,9 55,2 56,7 57,6 57,9 58,8 56,7 59,5 59,7 55,6 55,5 57,7 56,9 57,3 56,8 55 58 56 56,6 56,9 55,7 59,5 58,8 57,1 56,5 59,2 57,5 60,8 60,5 62,9 62,3 61,2 61,6 63,2 62,5 63,3 63,5 63,6 64,8 62,2 63,5 60,4 64,4 61 62,4 66 68 Tabela de distribuição de freqüências com 5 classes 02325,51 172 8776 == − X ; ( ) 82986,58 171 02325,51172457840 22 = ×− =S ; 67006,7=S , %0325,15100 02325,51 670101,7 =×=CV . Vendas ix if iF Percentual ii fx × ii fx ×2 30.0000 |— 38.0000 38.0000 |— 46.0000 46.0000 |— 54.0000 54.0000 |— 62.0000 62.0000 |— 70.0000 34 42 50 58 66 8 31 78 41 14 8 39 117 158 172 4.6512 % 18.0233 % 45.3488 % 23.8372 % 8.1395 % 272 1302 3900 2378 924 924 54684 195000 137924 60984 Total -------- 172 -------- 100% 8776 457840 8 1.4 – Revisão de Probabilidade Operações com eventos: ( )ccc BABA UI = ; ( ) UI ccc BABA = ; ( )II BABBAc −= Propriedades: (1ª) 1)(0 ≤≤ AP , para A evento no espaço amostral Ω (2ª) 1)( =ΩP (3ª) 0Ø)( =P (4ª) ∑ == = n i i n i i APAP 11 )()(U , para Ø=I ji AA , ji ≠ (5ª) )(1)( APAP c −= (6ª) )()( BPAPBA ≤⇒⊆ (7ª) ⇒⊆ BA :)()()( APBPABP −=− Regra da adição: ( ) IU )()()( BAPBPAPBAP −+= para BA, eventos quaisquer Regra do produto: I )()()( BPAPBAP ×= se A e B forem independentes Probabilidade condicional: )( )()|( BP BAP BAP I= se 0)( >BP Variáveis aleatórias discretas função massa de probabilidade (fmp): para X v.a. )()( xXPxf == 1)(0 ≤≤ xf ∑ =x xf 1)( ∑= x xxfXE )()( , ( )222 )()( EXxfxXVar x − == ∑σ , 2σσ = %100. ×= EX VC σ 9 Modelos Probabilísticos discretos Modelo Binomial Seja um experimento aleatório com dois resultados possíveis, isto é, },{ 21 ωω=Ω , com pP =)( 1ω e qpP =−= 1)( 2ω . A variável aleatória X , tal que 1)( 1 =ωX (ocorreu um sucesso) e 0)( 2 =ωX (ocorreu um fracasso) é dita modelo de Bernoulli. O que é um “sucesso” ou um “fracasso” é subjetivo. Exemplo 5: Ω ={ fator RH+ ; fator RH-} X = 1, se é RH+ = 0, se é RH- Sabe-se, da Biologia, que ( ) 85,01 ==XP e ( ) 15,00 ==XP . Sendo nXXX ,....,, 21 v.a’s. independentes e identicamente distribuídas segundo uma Bernoulli de parâmetro p , então ∑ = = n i i XX 1 é dita binomial de parâmetros n e p . Notação: ),(~ pnBinomialX fmp: xnxx n qpCpnxf −=),,( , nx .....,2,1,0= Esperança e Variância de uma v.a. Binomial npEX = ; )1( pnpVarX −= 10 Exemplo 6: suponha que 40% dos moradores de um município são favoráveis à implantação de um novo sistema de coleta e reciclagem de lixo. Se 5 pessoas forem entrevistadas (independentemente), qual a probabilidade de: (a) nenhuma ser favorável (b) no máximo 2 serem favoráveis (c) no mínimo 4 serem favoráveis (d) entre 2 (incluso) e 5 (excluso) serem favoráveis solução: vamos denotar X como o número de pessoas favoráveis ao projeto )40,0;5(~ BinomialX (a) 07776,060,040,0)0( 5005 =××== CXP (b) 68256,060,040,060,040,060,040,0 )2()1()0()2( 322 5 411 5 500 5 =××+××+××= ==+=+==≤ CCC XPXPXPXP (c) 08704,060,040,060,040,0)5()4()4( 05551445 =××+××==+==≥ CCXPXPXP (d) 6528,060,040,060,040,060,040,0 )4()3()2()52( 144 5 233 5 322 5 =××+××+×× ==+=+==<≤ CCC XPXPXPXP Exemplo 7: no exemplo anterior, se 50 pessoas forem entrevistadas, qual o número esperado de favoráveis? Solução: 2040,050)( =×=XE ; 1260,040,050)( =××=XVar , 11 Modelo de Poisson fmp: ! )(),( x te txf xt λλ λ− = , ,.......2,1,0=x sendo .....7182882,2=e , e 0>λ o número médio de “sucessos” no intervalo de comprimento 1. Notação: )(~ tPoisX λ Esperança e variância de uma Poisson: tEX λ= tXVar λ=)( . Exemplo 8: Numa central telefônica chegam 300 chamadas por hora. Qual a probabilidade de que: (a) em 1 minuto não haja nenhuma chamada? (b) em 2 minutos ocorram 8 chamadas? (c) em 0,5 minutos ocorram no mínimo 2 chamadas? Solução: ≡X ”número de chamadas em um intervalo de t minutos” 5 60 300 ==λ é o número esperado de chamadas em 1 minuto ( 1=t ) (a) ( ) 00673,0 !0 )0( 5 0 ==== −− eeXP λλ (b) ( ) 1126,0 !8 10 !8 2)8( 8 10 8 2 ==== −− eeXP λλ 12 (c) ( ) ( ) 7127,02873,01 !1 5,2 !0 5,21 )1()0(1)1(1)2(1)2( 1 5,2 0 5,2 =−= +− ==−=−=≤−=<−=≥ −− ee XPXPXPXPXP Variáveis Aleatórias contínuas Função densidade de probabilidade (fdp): 0)( ≥xf e a área sob a curva é 1 Função acumulada: F é tal que )()( xXPxF ≤= , Rx ∈ )(1)()( xFxXPxXP −=>=≥ )()()()()()( aFbFbXaPbXaPbXaPbXaP −=<<=<≤=≤<=≤≤ . pois 0)()( ==== bXPaXP Modelos Probabilísticos contínuos Modelo Uniforme contínuo Notação: ],[~ baUX ≤≤ − ∉ = bxa ab bax xf , 1 ),(,0 )( ; > ≤≤ − − < = bx bxa ab ax ax xF ,1 , ,0 )( 2 )( baEX += , 12 )()( 2abXVar −= Exemplo 9: considere um relógio circular de ponteiros. O relógio pode parar, por falta de bateria, em qualquer quadrante. Defina X o ângulo formado pelo ponteiro maior quando o relógio parar. Determinar: (a) fdp (b) fda (c) probabilidade do ponteiro pararentre -90 e 0 graus 13 Solução: (a) ≤≤− = ..,0 0360, 360 1 )( cc x xf (b) > ≤≤−+ −< = 0,1 0360, 360 360 360,0 )( x x x x xF (c) 4 1 360 36090 360 360)90()0()090( = +− −=−−=≤≤− FFXP Modelo Exponencial Este modelo possui aplicações em diversas áreas: Biologia, Engenharia, Computação. Na Teoria da Confiabilidade está associada à probabilidade de falha de componentes em um sistema. Notação: )(~ λExponX Função densidade de probabilidade: > ≤ = − 0, 0,0)( xe x xf xλλ ; 0>λ O parâmetro λ é a taxa (intensidade) de falhas Função de distribuição acumulada: >− ≤ = − 0,1 0,0)( xe x xF xλ Esperança e variância da exponencial: λ 1 =EX , 2 1)( λ =XVar Exemplo 10: o tempo de duração de um componente eletrônico é exponencial de parâmetro 500 1 =λ . Qual a probabilidade de que o componente: (a) tenha duração entre 300 e 600 horas? (b) dure mais do que a média? Solução: X denota o tempo de duração do componente em horas 14 (a) ( ) 247617,011)300()600()600300( 2,16,0300600 =−=−−−=−=≤≤ −−×−×− eeeeFFXP λλ (b) A media de X é 5001 == λµ . Assim, ( ) 367879,011)500(1)500( 1500 ==−−=−=> −×− eeFXP λ A distribuição Normal (Gaussiana) A distribuição Normal é de grande importância em Probabilidade e em Inferência Estatística. A denominação “Normal” foi adotada devido à forma simétrica desse modelo probabilístico, pois na época acreditava-se que os fenômenos da natureza estavam sempre em equilíbrio e simetria. Função densidade: a fdp tem forma de “sino” e tem dois parâmetros: R∈µ e 0>σ , 2 1 exp 2 1),,( 2 2 − −×= σ µ piσ σµ xxf +∞<<∞− x ; Notação: ),(~ σµNX . Gráfico da densidade normal 15 Tabulação da distribuição Normal padrão Seja )1;0(~ NZ . A função de distribuição acumulada de Z é denotada por )()( zZPz ≤=Φ . Propriedades de Φ (1ª) 0)(lim =Φ −∞→ zz , Φ 1)(lim =Φ+∞→ zz (2ª) 5,0)0( =Φ (3ª) )()()( abbZaP Φ−Φ=≤≤ (4ª) )(1)( bbZP Φ−=≥ (5ª) )(1)( zz Φ−=−Φ , devido à simetria da densidade (6ª) Se );(~ σµNX é preciso padronizá-la , para poder usar a tabela da normal padrão: −Φ− −Φ= −≤≤−= −≤−≤−=≤≤ σ µ σ µ σ µ σ µ σ µ σ µ σ µ abbZaPbXaPbXaP )( 16 Nota: Na figura acima, as áreas A e B têm formas diferentes, mas tem mesmo valor. Tabela de Φ : fornece )( zZP ≤ , ]59,3;59,3[−∈z , que é área hachurada na figura abaixo. No exemplo, 8980,0)27,1( =≤ZP 17 Exemplo 11: Seja )1;0(~ NZ . (a) 8413,0)1()1( =Φ=≤ZP (b) 9418,0)57,1()57,1( =Φ=≤ZP (c) 95,0025,09750,0)96,1()96,1()96,196,1( =−=−Φ−Φ=≤≤− ZP (d) 0505,09495,01)64,1(1)64,1( =−=Φ−=≥ZP (e) 012,00102,00222,0)32,2()01,2()01,232,2( =−=−Φ−−Φ=−≤≤− ZP (f) 0)4()4( =−Φ=−≤ZP e 011)4(1)4( =−=Φ−=≥ZP . Mas, pelo computador 420000316712,0)4( =−≤ZP , ou seja, na tabela a área foi arredondada para zero. Exemplo 12: As notas da disciplina de Direito Tributário de uma determinada faculdade tem distribuição segundo uma normal de média 6,4 e desvio padraõ 0,8. Os conceitos são atribuídos de acordo com a seguinte graduação: Em uma classe de 80 alunos, qual o número esperado de conceitos A,B,C e D? Solução: 0401,000401,0)8()75,1()75,18()50( =−=−Φ−−Φ=−<≤−=<≤ ZPXP 8761,00401,09162,0)75,1()38,1()5,75( =−=−Φ−Φ=<≤ XP 0832,09162,09994,0)38,1()25,3()95,7( =−=Φ−Φ=<≤ XP 0006,09994,01)25,3()5,4()109( =−=Φ−Φ=≤≤ XP Notas Conceito 50 <≤ X 5,75 <≤ X 95,7 <≤ X 109 ≤≤ X D C B A Notas Probabilidade Probabilidade N× 50 <≤ X 5,75 <≤ X 95,7 <≤ X 109 ≤≤ X 0,0401 0,8761 0,0832 0,0006 3 70 7 0 18 Tabela da Normal Padrão Inversa: 1−Φ : fornece as coordenadas tais que )(1 α−Φ=z , ou seja: α=≥ )( zZP (áreas unilaterais superiores) α×=≥ 2)|(| zZP (áreas bilaterais) Exemplo 13: Para uma normal padrão, obtenha z tal que : (a) 9750,0)( =≤ zZP (b) 90,0)( =≤≤− zZzP Solução: (a) 96,1=z 19 Também poderá utilizar a tabela da normal inversa, com a área unilateral de 0,025, como mostra a figura abaixo: (b) z=1,6445. 20 2 – ANÁLISE BIDIMENSIONAL 2.1 - Vetores aleatórios bidimensionais Definição 1 ( Função massa de probabilidade conjunta) : ( ),),( I yYxXPyxf === Xx Ω∈ e Yy Ω∈ Nota: ),( yxf é a probabilidade conjunta (simultânea) do evento ][ I yYxX == . Propriedades: (1ª) 1),(0 ≤≤ yxf , yx,∀ (2ª) ∑ ∑ ∑∑ ==x y xy yxfyxf 1),(),( Exemplo 1: suponha que se esteja interessado em estudar a composição de famílias com 3 crianças. Defina: X ≡ “número de meninos” Y = 1, se a primeira criança é menino = 0, se a primeira criança é menina 2 1)()( == MPHP ( ) ( ) 8 1 2 1 2 1 2 1)()()(00)0,0( =××=××===== MPMPMPMMMPYXPf I II ( ) ( ) 0Ø10)1,0( ===== PYXPf I ( ) ( ) ( ) 8 201)0,1( =+==== I II II HMMPMHMPYXPf 21 ( ) ( ) 8 111)1,1( ===== I II MMHPYXPf ( ) ( ) 8 102)0,2( ===== I II HHMPYXPf ( ) ( ) ( ) 8 212)1,2( =+==== I II II HMHPMHHPYXPf ( ) ( ) 0Ø03)0,3( ===== PYXPf I ( ) ( ) 8 113)1,3( ===== I II HHHPYXPf X Y 0 1 2 3 ∑ 0 1/8 2/8 1/8 0 1/2 1 0 1/8 2/8 1/8 1/2 ∑ 1/8 3/8 3/8 1/8 1 Definição 2 (Função massa de probabilidade marginal): ( ) ∑=== y X yxfxXPxf ),()( , Xx Ω∈ ( ) ∑=== x Y yxfyYPyf ),()( , Yy Ω∈ Exemplo 2: no Exemplo 1, x 0 1 2 3 ∑ )(xf X 1/8 3/8 3/8 1/8 1 X tem distribuição binomial(n=3,p=0,5) y 0 1 ∑ )(yfY 1/2 1/2 1 Y é binomial(n=1,p=0,5) 22 Definição 3 (Função massa de probabilidade condicional): ( ) ( ) )( ),( )(|)|( yf yxf yYP yYxXP yYxXPyxf Y = = == ==== I , 0)( >yfY ( ) ( ) )( ),( )(|)|( xf yxf xXP yYxXP xXyYPxyf X = = == ==== I , 0)( >xf X Exemplo 3: X ≡ “número de acidentes” Y = 1, se for motocicleta 2, se for automóvel 3, se for caminhão ou ônibus X Y 1 2 3 4 5 ∑ 1 2/48 4/48 2/48 2/48 6/48 16/48 2 1/48 2/48 1/48 1/48 6/48 11/48 3 3/48 6/48 3/48 3/48 6/48 21/48 ∑ 6/48 12/48 6/48 6/48 18/48 1 distribuições marginais y 1 2 3 ∑ )(yfY 16/48 11/48 21/48 1 x 1 3 3 4 5 ∑ )(xf X 6/48 12/48 6/48 6/48 18/48 1 distribuição condicional de )1|( =YX x 1 2 3 4 5 ∑ )1|( =yxf 2/16 4/16 2/16 2/16 6/16 1 23 Por exemplo, 16/4 48/16 48/4)1|2( ===yf Definição 4 : as variáveis aleatórias X e Y são ditas independentes se e somente se ( ) ( ) ( ) )()(),( yfxfyYPxXPyYxXPyxf YX ×==×===== I , para quaisquer yx, Exemplo 4: para o Exemplo3 temos 48 2 48 16 48 6)1()1( 48 2)1,1( =×=× = YX ff f ⇒ )1()1()1,1( YX fff ×= 48 4 48 16 48 12)1()2( 48 4)1,2( =×=× = YX ff f ⇒ )1()2()1,2( YX fff ×= 48 11 48 6)2()1( 48 1)2,1( ×=× = YX ff f ⇒ )2()1()2,1( YX fff ×≠ , logo X e Y não são independentes. Funções de vetores aleatórios discretos Uma função de um vetor aleatório ),( YX é uma transformação ),( YXTZ = . Por exemplo, YXZ += , YXW ×= . Exemplo 5 : para a distribuição conjunta abaixo, obtenha a fmp de YXT += e de YXW ×= X Y 1 2 3 4 5 ∑ 1 2/46 3/46 2/46 4/46 5/46 16/60 2 1/46 4/46 3/46 2/46 4/46 14/60 3 2/46 3/46 2/46 4/46 5/46 16/46 ∑ 5/46 10/46 7/46 10/46 14/46 1 24 t 2 3 4 5 6 7 8 ∑ )(tfT 2/46 4/46 8/46 10/46 9/46 8/46 5/46 1 Por exemplo, [ ] 46 8 46 4 46 2 46 2)2,2()1,3()3,1( )22()13()31()4()4( =++=++ ==∩==∩==∩==== fff YXYXYXPfTP T U U ),( YX YXT += YXW ×= (1,1) 2 1 (1,2) 3 2 (1,3) 4 3 (2,1) 3 2 (2,2) 4 4 (2,3) 5 6 (3,1) 4 3 (3,2) 5 6 (3,3) 6 9 (4,1) 5 4 (4,2) 6 8 (4,3) 7 12 (5,1) 6 5 (5,2) 7 10 (5,3) 8 15 25 w 1 2 3 4 5 6 8 9 10 12 15 ∑ )(wfW 2/46 4/46 4/46 8/46 5/46 6/46 2/46 2/46 4/46 4/46 5/46 1 Por exemplo, [ ] 46 4 46 3 46 1)1,2()2,1()12()21()2()2( =+=+==∩==∩==== ffYXYXPfWP W U Resultados: (a) A soma de duas v.a’s independentes com ),(~ pnBinomialX e ),(~ pmBinomialY é tal que ),(~ pmnBinomialYXT ++= . (b) A soma de duas v.a’s independentes com )(~ XPoissonX λ e )(~ YPoissonY λ é tal que )(~ YXPoissonYXT λλ ++= . (c) A soma de duas v.a’s independentes com ( )2,~ XXNX σµ e ( )2,~ YYNY σµ é tal que ( )22,~ YXYXNYXT σσµµ +++= . Exemplo 6: suponha que um jogador lança uma moeda honesta quatro vezes e o outro jogador lança outra moeda honesta cinco vezes. Qual a probabilidade de que no total dos lançamentos dos jogadores ocorram: (a) no máximo 3 caras? (b) No mínimo 7 caras? (c) Entre 4 (incluso) e 6 (incluso) caras? Solução: Seja X denotando o numero de caras obtidas pelo primeiro jogador e Y pelo segundo. Então X é binomial de parâmetros 4=n ; 5,0=p e Y é binomial de parâmetros 5=m ; 5,0=p . Uma que X e Y são v.a´s independentes, T=X+Y é binomial de parâmetros 9=+ mn e 5,0=p . (a) 2539,0)3()2()1()0()3( ==+=+=+==≤ TPTPTPTPTP (b) 08984,0)9()8()7()7( ==+=+==≥ TPTPTPTP (c) 65625,0)6()5()4()64( ==+=+==≤≤ TPTPTPTP 26 Exemplo 7: Em uma central telefônica, o número de chamadas que chegam no intervalo ];( 10 tt é Poisson de parâmetro 1λ , e o de chamadas no intervalo ];( 21 tt é Poisson de parâmetro 2λ . Sabendo-se ter havido n chamadas em ];( 20 tt , qual a probabilidade de que o número de chamadas em ];( 10 tt tenha sido x , nx ≤≤0 ? Solução: )(~ 1λPoissonX e )(~ 2λPoissonY . Como os dois intervalos são disjuntos, então X e Y são v.a´s independentes, e portanto )(~ 21 λλ ++= PoissonYXT . Segue que ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) xnx x n n xnx C n xnx nTP xnYPxXP nTP xnYxXP nTP nTxXP nTxXP − − + × + ×= = +×−− − ×− × ×− = = −=×= = = = −== = = == === 21 2 21 1 2121 2211 ! }exp{ )!( }exp{ ! }exp{ ][][][][| λλ λ λλ λ λλλλ λλλλ II ou seja, a variável aleatória condicionada [ ]nTX =| é uma binomial de parâmetros n e 21 1 λλ λ + =p . Agora suponha que ]6;0(];( 10 =tt horas, 401 =λ e ]12;6(];( 21 =tt horas, 5002 =λ . Além disso, 580=n e 60=x . Então, ( ) 00205,0 540 500 540 40580|60 52060 60 580 = × ×=== CTXP 27 Exemplo 8: a distribuição dos pesos das pessoas que moram em um edifício segue uma normal de esperança 70=µ kg e variância 162 =σ kg para homens, e 55=µ kg e variância 92 =σ kg para mulheres. Se um homem e uma mulher desse edifício entrarem no elevador vazio, qual a probabilidade de que o peso total dessas duas pessoas: (a) exceda 130 kg (b) esteja abaixo de 115 kg (c) esteja entre 120 e 135 Solução: denotemos X o peso dos homens e Y o peso das mulheres. Então ( )25;125~ 2 ==+= TTNYXT σµ . (a) =>=> )1()130( ZPTP 1 - 0,8413 = 0,1587 (b) =−<=< )2()115( ZPTP 0.0228 (c) =<<−=<< )21()135120( ZPTP 0.9772 - 0.1587 = 0,8185 Definição 5: a Covariância de duas variáveis aleatórias é definida como: ( )[ ] )()()()(),( YEXEXYEEYYEXXEYXCov ×−=−×−= , onde , ( ) ∑∑ ×= x y yxfxyXYE ),( , ( ) ∑ ×= x X xfxXE )( , ( ) ∑ ×= y Y yfyYE )( Teorema 1: para duas variáveis aleatórias independentes )()()( YEXEXYE = , e portanto 0),( =YXCov . Definição 6: o coeficiente de correlação linear de Pearson para duas variáveis aleatórias é definida como: )()( )()()( )()( ),(),( YVarXVar YEXEXYE YVarXVar YXCovYX × ×− = × =ρ , 28 Observações: Covariância tem como unidade de medida o produto das unidades de X e Y, e por isso é de difícil interpretação. Por outro lado, a correlação é uma medida relativa (sem unidade), sendo mais fácil a interpretação. Resultados: (1º) 1),(1 ≤≤− YXρ ; (2º) se Y e X tiverem uma relação linear perfeita diretamente proporcional ( bXaY += ) então 1),( =YXρ (3º) se Y e X tiverem uma relação linear perfeita inversamente proporcional ( bXaY −= ) então 1),( −=YXρ 29 (4º) se Y e X forem independentes então 0),( =YXρ . Contudo, a recíproca não vale, 0),( =YXρ não implica Y e X independentes. Exemplo 9: X Y 0 1 2 3 ∑ 0 0 0 0 1/8 1/8 1 0 0 3/8 0 3/8 2 0 3/8 0 0 3/8 3 1/8 0 0 0 1/8 ∑ 1/8 3/8 3/8 1/8 1 5,1)()( == YEXE ; 75,0)()( == YVarXVar ; 5,1)( =XYE , 75,0),( −=YXCov 1),( −=YXρ . Note que 1),( −=YXρ era de se esperar, pois YX −= 3 . Exemplo 10: lançamento de 2 dados honestos. X representa o número da face do 1º dado Y representa o número da face do 2º dado 30 x 1 2 3 4 5 6 ∑ )(xf X 1/6 1/6 1/6 1/6 1/6 1/6 1 y 1 2 3 4 5 6 ∑ )(yfY 1/6 1/6 1/6 1/6 1/6 1/6 1 X Y 1 2 3 4 5 6 ∑ 1 1/36 1/36 1/36 1/36 1/36 1/36 1/6 2 1/36 1/36 1/36 1/36 1/36 1/36 1/6 3 1/36 1/36 1/36 1/36 1/36 1/36 1/6 4 1/36 1/36 1/36 1/36 1/36 1/36 1/6 5 1/36 1/36 1/36 1/36 1/36 1/36 1/6 6 1/36 1/36 1/36 1/36 1/36 1/36 1/6 ∑ 1/6 1/6 1/6 1/6 1/6 1/6 1 5,3)()( == YEXE ; 0),()()(25,12 36 441)( =⇒×=== YXCovYEXEXYE Note que )()(),( xfxfyxf YX ×= para qualquer par ),( yx , portanto, 0),( =YXCov . 31 3 - AMOSTRAGEM E ESTIMAÇÃO DE PARÂMETROS 3.1 - Tipos de amostragem probabilística: * Simples * Sistemática * Estratificada * Por conglomerados Aqui nos concentraremos na amostragem aleatória simples (aas). Uma aas pode ser extraída de uma população de acordocom os critérios: (a) com reposição (b) sem reposição. Se a população for infinita então as retiradas com e sem reposição serão equivalentes, isto é, se a população for infinita (ou então muito grande), o fato de se recolocar o elemento retirado de volta na população não vai afetar em quase nada a probabilidade de extração do elemento seguinte. Se, no entanto, a população for finita (e pequena) será necessário fazer uma distinção entre os dois procedimentos, pois na extração com reposição as diversas retiradas serão independentes, mas no processo sem reposição haverá dependência entre as retiradas, isto é, o fato de não recolocar o elemento retirado afeta a probabilidade do elemento seguinte ser retirado. A amostragem sem reposição é mais eficiente que a amostragem com reposição e reduz a variabilidade uma vez que não é possível retirar elementos extremos mais do que uma vez. (a) Com reposição P(uma amostra de tamanho n )= nN 1 (b) Sem reposição P(uma amostra de tamanho n ) = n NC 1 , desconsiderando a ordenação na amostra n NA 1 , considerando a ordenação na amostra Exemplo 1: suponha que em um município existam 60 escolas de ensino fundamental da rede municipal. Está-se interessado em avaliar o número de matrículas durante o ano. Para tal, optou-se por uma amostragem aleatória simples sem reposição de tamanho 15. 32 Solução: População: escolas municipais de ensino fundamental Unidade amostral: escolas municipais Variável de interesse: número de matrículas N=60 n=15 P(uma escola qualquer ser escolhida no 1º sorteio)= 60 1 P(uma amostra qualquer)= 15 60 1 C 3.2 - Parâmetros e Estatísticas Definição 1: denomina-se amostra aleatória a uplan − ( )nXXX ,,, 21 L de v.a´s com mesma distribuição de probabilidade. Exemplo 2: ( )nXXX ,,, 21 L com distribuição binomial de parâmetros m e p . Definição 2: um parâmetro é uma medida usada para descrever uma característica numérica da população. Exemplo 3: 85,0=θ é a proporção de pessoas com fator RH+ Exemplo 4: a função-produção é definida como BQKY ×= , sendo Y o valor do produto e Q a quantidade produzida, K e B parâmetros. Definição 3: uma estatística (ou estimador) é uma característica numérica da amostra, isto é, uma estatística é uma função de ( )nXXX ,,, 21 L . Notação: ),....,( 21 nXXXfT = 33 Exemplo 5: n X P n i i∑ = = 1 , onde =iX 1, se for RH+ = 0, se for RH- Nota: uma vez que a estatística é função de v’as, então também será aleatória. Definição 4: uma estimativa é um valor particular assumido pelo estimador ),....,( 21 nxxxft = Observação: por convenção representamos a amostra observada (e as estimativas) por letras minúsculas. Exemplo 6: numa amostra de 30 pessoas, 25 tem RH+. Assim, 83,0 30 25 ==p . Notações usuais: Parâmetro Estimador Estimativa Média µ n Xf X k i ii∑ =− = 1 n xf x k i ii∑ =− = 1 Variância 2σ 1 2 1 2 2 − − = − = ∑ n XnXf S k i ii 1 2 1 2 2 − − = − = ∑ n xnxf s k i ii Desvio padrão σ S s Amplitude η H h Proporção θ P p Correlação ρ R r 34 3.3. Propriedades dos Estimadores: (1ª) Um estimador é dito não tendencioso ou não enviesado, se θ=)(TE , onde θ é um parâmetro populacional Exemplo 7: “a média de todas médias amostrais possíveis é igual à média populacional”, ou seja, µ= − )(XE . Exemplo 8: ( ) 22 σ=SE , mas ( ) 22 σ≠VE , onde 21 2 2 − = − = ∑ X n Xf V k i ii . (2ª) Uma seqüência { } 1≥nnT de estimadores de θ é dita consistente se: θ= ∞→ )(lim nn TE e 0)(lim =∞→ nn TVar Exemplo 9: como µ= − )(XE e 0limVarlim 2 == ∞→ − ∞→ n X nn σ , então − X é consistente. (3ª) Se T e H são dois estimadores não tendenciosos de θ e )()( HVarTVar < então dizemos que T é mais eficiente que H. 35 Exemplificação de quatro estimadores onde foram feitas 18 observações Teorema 3.3.1: Seja X v.a com esperança µ e variância 2σ , e nXXX ,...., 21 uma amostra. Então, para n X X n i i∑ =− = 1 , tem-se : (i) µ= − )(XE (ii) n XVar 2 )( σ= − se for com reposição e − − ×= − 1 )( 2 N nN n XVar σ para o caso sem reposição. (iii) − X é o estimador de variância mínima dentre os estimadores lineares não- tendenciosos. 36 Observação: o quociente − − 1N nN é dito fator de correção para população finita. Note que para N suficientemente grande, − )(XVar é próxima de n 2σ . Corolário 3.3.1: para n X P n i i∑ = = 1 , tem-se que θ=)(PE , n PVar )1()( θθ −×= se for com reposição e − − × −× = 1 )1()( N nN n PVar θθ se for sem reposição. Exemplo 10: seja uma população de 5 elementos (2 países da África e 3 asiáticos) cuja v.a. X = ” taxa de crescimento anual ” tem a seguinte distribuição de probabilidade: X 1 3 5 7 ∑ P(X=x) 1/5 1/5 2/5 1/5 1 Para uma amostra de tamanho n=2 , com reposição, construa a distribuição amostral de 2 21 XXX += − . Solução: 21, XX são iid (independentes e identicamente distribuídas) segundo a v.a X, isto é: )()()( )()()( 2121 21 yXPxXPyXxXP xXPxXPxXP =×==== ===== I 2,421 === µEXEX ; 16,4)()( 221 === σXVarXVar Como o processo é com reposição então existem 2552 = amostras possíveis. De fato: (1,1) (3,1) )5,5( )1()1( )5,5( )2()2( (7,1) (1,3) (3,3) )5,5( )2()1( )5,5( )1()2( (7,3) (1,7) (3,7) )1,5( )1( )3,5( )2( (7,7) (1, )1(5 ) (3, )1(5 ) )3,5( )1( )7,5( )2( (7, )1(5 ) (1, )2(5 ) (3, )2(5 ) )7,5( )1( )1,5( )2( (7, )2(5 ) 37 Distribuição de probabilidade conjunta de ),( 21 XX 2X 1X 1 3 5 7 ∑ 1 1/25 1/25 2/25 1/25 1/5 3 1/25 1/25 2/25 1/25 1/5 5 2/25 2/25 4/25 2/25 2/5 7 1/25 1/25 2/25 1/25 1/5 ∑ 1/5 1/5 2/5 1/5 1 Valores possíveis de − X : Amostra − x (1,1) 1 (1,3) (3,1) 2 (3,3) (1,5) (5,1) 3 (1,7) (7,1) (5,3) (3,5) 4 (5,5) (3,7) (7,3) 5 (7,5) (5,7) 6 (7,7) 7 População dos valores possíveis de − X : {1,2,3,4,5,6,7} 25 1 5 1 5 1)1()1()1( 21 =×==×=== − XPXPXP 25 5 25 1 25 2 25 2 )33()15()51()3( 212121 =++= ===+==+==== − III XXPXXPXXPXP Distribuição de probabilidade de − X : − x 1 2 3 4 5 6 7 ∑ P(− X = − x ) 1/25 2/25 5/25 6/25 6/25 4/25 1/25 1 Exemplo 11: no Exemplo 10 verifique que vale o Teorema 3.3.1 . 2,4 25 17.... 25 22 25 11)()( =×++×+×=== −−−− ∑ xXPxXE 38 2,421 === µEXEX n XExXPxXVar i 2 2222 22 2 16,4 25 17.... 25 22 25 11)()()( σ µ == =− ×++×+×= − = = −−−−− ∑ 3.4. 3.4 - Distribuições amostrais: O conjunto de todas amostras de mesmo tamanho formam uma população, que tem uma distribuição de probabilidade referente à estatística T , a qual recebe o nome de distribuição amostral da estatística T . Teorema 3.4.1: para uma amostra aleatória ( )nXXX ,,, 21 L de uma distribuição normal de parâmetros µ e σ , a estatística − X tem distribuição normal de média µ e desvio padrão n σ . Exemplo 12: Uma população tem distribuição normal de média 800 e desvio padrão 60. Determine a probabilidade de uma amostra aleatória apresentar média amostral entre 781,4 e 818,6 quando: (a) 9=n (b) 25=n 39 Solução: a variável nX XVar XEX Z × − = − = − − −− σ µ tem distribuição normal padrão. (a) ( ) ( ) 6476,01762,08238,093,093,0 9 60 8006,8189 60 8004,7816,8184,781 =−=−Φ−Φ = × −≤≤× − = ≤≤ − ZPXP (b) ( ) ( ) 8788,00606,09394,055,155,16,8184,781 =−=−Φ−Φ= ≤≤ − XP 3.5. Estimação por ponto e por intervalo Estimação por ponto: é a estimativa resultante da amostra. Estimação por intervalo: a estimação por ponto não permite julgar a magnitude do erro que estamos cometendo. Daí surge a idéia de construir os intervalos de confiança, que são fundamentados na distribuição amostral do estimador. ( ) γθ =∈ ..CIP γ é dito grau de confiança, que é a probabilidade do parâmetro pertencer ao intervalo γα −= 1 é a probabilidade de não pertencer ao intervalo Construção de intervalos de confiança: o teorema a seguir é o alicerce dos Intervalos de Confiança. Teorema 3.4.2 (Teorema Central do Limite): Para uma amostra aleatória ),....,( 1 nXX e um estimador ),....,( 1 nn XXfT = de máxima verossimilhança do parâmetro θ , tal que θ=)( nTE , tem-se: 40 } )1,0( )( )( N TVar TET Z n n nn n ∞→ → − = 3.6. Intervalos de confiança 3.6.1. IC para a média populacional µ quando o desvio padrão σ é conhecido Pelo TCL, α σµσα −≈ ×+≤≤×−⇔−≈ ≤ − ≤− −− − −− 11 n zX n zXPz XVar XEX zP tabtabtabtab , onde tabz é tal que ( ) α=Φ− )(12 tabz . Assim, o intervalo de confiança para µ , de grau %100)1( ×−= αγ , é dado por 41 ±= − εXIC , onde n ztab σ ε = é dito erro de estimação (ou erro amostral). Observação: note que o erro de estimação é a semi-amplitude do I.C. Exemplo 13: suponha que se esteja estudando a altura de pessoas numa certa população. Sabe-se que σ =15. A amostra de 100 indivíduos resultou em − x =170 . Construa intervalos de confiança para a média populacional com: (a) α−1 =0,90 (b) α−1 =0,95 (c) α−1 =0,99 Solução: (a) 4675,2=ε ; I.C= [ ]46,172;54,167 100 15645,1170; 100 15645,1170 = ×+×− (b) 94,2=ε ; I.C= [ ]94,172;06,167 100 1596,1170; 100 1596,1170 = ×+×− (c) 86625,3=ε ; I.C= [ ]85,173;14,166 100 15575,2170; 100 15575,2170 = ×+×− 42 Interpretação do Intervalo de Confiança: espera-se que %100)1( ×−α dos intervalos originados de amostras de mesmo tamanho contenham o parâmetro µ . Observações: (1ª) Não se utiliza grau de confiança igual a 100%, pois neste caso o intervalo fica a própria reta real! De fato, para que ( ) 1=≤≤− tabtab zZzP , então é preciso que +∞=tabz . (2ª) Um grau de confiança igual a 0% resulta em um intervalo degenerado (que é a própria estimativa por ponto!). De fato, para que ( ) 0=≤≤− tabtab zZzP , então é preciso que 0=tabz . (3ª) Não existe um valor ideal para o grau de confiança. Nunca se deve utilizar os extremos de 0% e 100%. Os valores mais usuais são 0,99; 0,95 e 0,90, mas não há uma justificativa formal para usá-los, são apenas valores de referência mais encontrados em artigos e livros. 43 (4ª) O desvio padrão σ influencia diretamente na amplitude do I.C., ou seja, se σ for grande, então o I.C. será amplo. O grau de confiança também é responsável pela amplitude do I.C. Mantendo γ fixado, se n aumentar então a amplitude do I.C. irá diminuir, ou seja, ficará mais preciso. 3.6.2. IC para a média populacional µ quando o desvio padrão σ é desconhecido A distribuição t-student: Foi introduzida por William Gosset, que utilizou o pseudônimo “um estudante”. Essa distribuição aparece quando substituímos o desvio padrão σ pelo respectivo estimador S . A t-student é similar à normal padrão, isto é, e simétrica em torno do zero e tem a forma de um sino, sendo mais baixa (achatada) que a normal. Além disso, a t-student converge à normal padrão. Notação: )(~ vtX , onde 0>v é o parâmetro da distribuição. Comparação entre a normal padrão e a t-student 44 Em inferência estatística esse parâmetro assume valores inteiros positivos e tem a denominação de “graus de liberdade”. O conceito de graus de liberdade (GL) é o número de valores que poderemos atribuir de maneira arbitrária. Por exemplo, suponha que temos três parcelas, cujos valores devem ser não negativos e somarem 14: 4 + 7 + = 14 Então, teremos a “liberdade” de atribuir apenas dois valores, pois o último ficará “amarrado” (determinado). A tabela da t-student é tal que se você entrar com GL e a área, você obterá a coordenada. Para GL maior que 120, utiliza-se a normal padrão. 45 Modelo de Tabela t-student ±= − n S tXIC tab , onde tabt é tal que α=≥ )|(| tabtTP , )1(~ −ntT Exemplo 14: de 1500 placas de memória fabricadas retirou-se uma amostra de 30 unidades, observando-se o tempo até a primeira falha. Obteve-se as seguintes estatísticas: 800= − x h e 100=s h. Construa um IC de 99% para a média da população. Solução: IC = [ ]31,850;68,749 30 1007564,2800; 30 1007564,2800 = ×+×− Observação: o desvio padrão amostral S influencia diretamente na amplitude do I.C. Se a variabilidade na amostra for alta, o I.C. será mais amplo. Aumentando-se a amostra o I.C. deverá ficar mais preciso. 46 3.6.3. IC para a variância populacional 2σA distribuição Qui-Quadrado: a distribuição origina-se da soma de quadrados de distribuições normais. A densidade dessa distribuição é assimétrica à direita. O nome “QUI” vem da letra grega χ . Algumas distribuições Qui-Quadrado Notação: )(~ vQuadradoQuiX − , onde 0>v é o parâmetro da distribuição. Assim como na t-student, em inferência estatística esse parâmetro assume valores inteiros positivos, e denomina-se “graus de liberdade”. A tabela da Qui-Quadrado é tal que se você entrar com GL e a área, você irá obter a coordenada. 47 Modelo de Tabela Qui-Quadrado O intervalo de confiança para a variância é: −− = inf 2 sup 2 )1( , )1( q Sn q SnIC , onde α−=≤≤ 1)( supinf qXqP ; )1(~ −− nQuadradoQuiX O intervalo de confiança para o desvio padrão é: −− = inf 2 sup 2 )1( , )1( q Sn q SnIC Exemplo 15: O setor de qualidade de uma indústria de parafusos deseja estimar a variação dos comprimentos de parafusos produzidos. Obtenha intervalo de confiança de grau 95% para σ . A amostra foi a seguinte: 12,2 12,4 12,1 12,0 12,7 12,4 14,0 13,7 13,9 14,1 13,9 13,7 13,5 12,2 12,5 13,6. Solução: 05625,13= − x 634624,02 =s 796633,0=s [ ]23295,1;58848,0 2621,6 634624,015 ; 4884,27 634624,015 = ×× =IC 48 3.6.4. IC para a proporção populacional −±= n PP zPIC tab )1( , onde P é a proporção amostral e tabz é tal que ( ) α=Φ− )(12 tabz . Exemplo 16: suponha a seguinte amostra sobre a intenção de voto em um candidato: {1; 0; 1; 1; 1; 1; 0; 0; 1; 1; 0; 0; 0; 0; 0; 1; 0; 0; 1; 0} 1 ≡ “a favor”; 0 ≡ “contra” Construa um IC de 98% para a proporção. Solução: 45,0 20 9 ==p IC = [ ]7086,0;1913,0 20 55,045,0325,245,0; 20 55,045,0325,245,0 = × ×+ × ×− 3.7. Dimensionamento de amostras Estimação da média Vimos que para a média populacional, +−= −− εε XXCI ,.. , onde n ztab σ ε ×= é o erro de estimação absoluto. Isolando n nesta última equação obtemos o tamanho da amostra: população infinita: ( ) 2 2 2 ε σ tabzn = , tabz é tal que ( ) α=Φ− )(12 tabz população finita: nN Nn m + × = . 49 Observações: (1ª) se σ for desconhecido então utiliza-se algum valor em uma pesquisa semelhante que já foi realizada, ou procede-se em uma pesquisa piloto (amostra inicial) (2ª) O tamanho da amostra n e o erro de estimação ε tem relação inversa, como mostra a figura: Exemplo 17: deseja-se estimar a renda dos moradores do bairro da Gávea , no Rio de Janeiro, sabendo-se que o desvio padrão da renda é de 300,00. Exige-se um erro absoluto máximo de 20,00 e um grau de confiança de 95%. Qual deve ser o tamanho da amostra? Solução: 86536,864 20 30096,1 2 22 ≅= × =n Supondo N=5000, 73796,736 36,8645000 36,8645000 ≅= + × =m Estimação da proporção r ε é o erro de estimação relativo população infinita: ( ) 22 )1( r tabzn ε θθ −× = , tabz é tal que ( ) α=Φ− )(12 tabz 50 população finita: nN Nn m + × = . Observações: (1ª) o erro de estimação para a proporção está em termos relativos, visto que uma proporção é uma medida relativa (sem unidade de medida). (2ª) Se θ for desconhecida, pode-se utilizar alguma estimativa de uma pesquisa anterior. Também pode-se assumir o maior valor possível 25,0)1( =−× θθ . Desta forma, ( ) 2 2 25,0 r tabzn ε × = . (3ª) Alguns autores adotam 2=tabz e 25,0)1( =−× θθ . Assim, 2 1 r n ε = Exemplo 18 : Uma amostra preliminar de 50 famílias foi selecionada de N=4000 famílias. Constatou-se que na amostra 30 famílias possuíam renda superior a 1000,00. Qual deve ser o tamanho da amostra, com grau de confiança de 99% e erro de estimação máximo de 5%? Solução: 6,0 50 30 ==p ; 575,299,0 =⇒= tabzγ ( ) 63754,636 05,0 4,06,0575,2 2 2 ≅= ×× =n ; 55015,549 54,6364000 54,6364000 ≅= + × =m Se usarmos 25,05,05,0)1( =×=−θθ , ( ) 66306,663 05,0 25,0575,2 2 2 ≅= × =n e 569≅m 51 4 – TESTES DE HIPÓTESES 4.1. Definições Hipótese conceitual: é a hipótese formulada utilizando termos específicos na área em estudo. Hipótese operacional: é a formulação matemática da hipótese conceitual Exemplo 1: o biodiesel é menos poluente que o diesel convencional Como trabalhar matematicamente com essa hipótese? Iremos comparar as médias de emissões de partículas de óxido de enxofre por cm 3 . Um grupo de veículos vai rodar com biodiesel e outro com o convencional. Vamos denotar por Bµ a média de emissão de partículas por cm 3 usando biodiesel, e por Cµ usando o diesel comum. Hipóteses : Bµ = Cµ e Bµ < Cµ Hipóteses estatísticas Em inferência estatística uma hipótese é uma suposição formulada a respeito dos parâmetros de uma distribuição de probabilidade de uma ou mais populações. Esta hipótese será testada com base em resultados amostrais, sendo aceita ou rejeitada. Ela somente será rejeitada se o resultado da amostra for improvável de ocorrer sob a suposição da hipótese ser verdadeira. Denominaremos por 0H (hipótese nula) a hipótese a ser testada, e por 1H (hipótese alternativa) a negação de 0H . Através de um teste aceitaremos ou rejeitaremos 0H . A nossa decisão terá uma probabilidade de erro. Essa probabilidade de erro é controlada (escolhida pelo pesquisador). Um pesquisador nunca poderá escrever num artigo ou relatório frases do tipo: “o teste de hipótese mostrou que....”, mas deverá apresentar qual a probabilidade de erro que ele admitiu no teste. 52 O quadro abaixo apresenta o que pode acontecer em um teste de hipóteses: Exemplo 2: suponha um julgamento num tribunal As probabilidades desses erros são chamadas α e β respectivamente, ou seja: α = P(erro tipo I) = P(rejeitar 0H | 0H é verdadeira) γ = P(aceitar 0H | 0H é verdadeira), que é o grau de confiança β = P(erro tipo II) = P(aceitar 0H | 0H é falsa) 1−β = P(rejeitar 0H | 0H é falsa) Observação: neste curso nos concentraremos na probabilidade do erro tipo I. Nível de significância de um teste: é o valor de α no teste, ou seja, é a probabilidade de rejeitar 0H , dado que é verdadeira. Os valores mais utilizados para α são: 0,01; 0,05 e 0,10. Observação: Fisher, um dos precursores da Teoria Estatística, usou o valor de 5% para facilitar o ensino da Teoria, e por isso ficou como um valor “consagrado”. 53 4.2 - Etapas de um teste de hipóteses (1ª) Formular as hipóteses estatísticas: a hipótese nula a respeito de um parâmetro θ deve conter a igualdade e alternativa pode ser bilateral ou unilateral. 0H : 0θθ = 1H : 0θθ ≠ (bilateral)0θθ < (unilateral à esquerda) 0θθ > (unilateral à direita). (2ª) Fixar o nível de significância do teste. (3ª) Calcular a estatística do teste. (4ª) Tomada de decisão: rejeitar 0H se a estatística do teste estiver na região crítica (região aonde a hipótese nula é rejeitada), caso contrário não se rejeita 0H . Observações: (3ª) Hipóteses unilaterais levam a um teste mais rigoroso (menor região de aceitação de 0H , quando comparados aos bilaterais. 54 4.3. Testes de hipóteses 4.3.1.Teste de hipóteses para a média de uma população (a) desvio padrão populacional σ conhecido 00 : µµ =H estatística do teste: nXzc − = − σ µ0 1H bilateral ( 01 : µµ ≠H ): rejeita 0H se || cz > tabz , tal que ( ) α=Φ− )(12 tabz . 1H unilateral à direita ( 01 : µµ >H ): rejeita 0H se cz > tabz , tal que α=Φ− )(1 tabz . 1H unilateral à esquerda ( 01 : µµ <H ): rejeita 0H se cz < tabz− , tal que α=Φ− )(1 tabz . 55 56 Observações: (1ª) Não rejeitar a hipótese nula significa não haver evidência suficiente para duvidar de sua validade, portanto, conclui-se que 0µµ = , ou seja, qualquer diferença observada entre a média amostral e o valor sob 0H será considerada uma ocorrência casual, e não representa uma real diferença. Contudo, existe a possibilidade de ocorrer o erro tipo II, ou seja, uma diferença que não foi reconhecida. (2ª) Rejeitar a hipótese nula significa haver evidência suficiente para duvidar da validade de 0H . A diferença entre a média amostral e o valor sob 0H é grande demais para ser explicada apenas pelo erro amostral. (3ª) se σ for grande, a estatística cz não será sensível o bastante para detectar diferença significante entre − X e 0µ . (4ª) aumentando a amostra, o teste ficará mais sensível para detectar diferenças significativas. (5ª) O teste unilateral é mais rigoroso que o bilateral. Na figura abaixo, o valor tabelado do teste unilateral é menor que no bilateral. Se )()( btabc u tab zzz << , então o teste unilateral irá rejeitar a hipótese nula, mas o bilateral não. 57 Exemplo 3: uma linha de produção fabrica parafusos cujo diâmetro tem desvio padrão 22716,1=σ . Tomou-se uma amostra de tamanho 20, cujas estatísticas foram 735,3= − x e 8756,3=s . Com 05,0=α , teste 0H : 5=µ contra (a) 1H : 5≠µ (b) 1H : 5<µ (c) para 1H : 4=µ , calcule β (d) Em relação ao item (b), apresente um α que levaria à aceitação de 0H . Solução: 61,420 22716,1 5735,3 −= − =cz (a) 96,1=tabz . Como tabc zz >|| , rejeitamos 0H . (b) 645,1−=− tabz . Como tabc zz −< , rejeitamos 0H . (c) para 05,0=α a regra de decisão é: rejeita 0H se 645,10 −< − = − n X zc σ µ . 54998,4 645,120 22716,1 5 =⇒ −<× − < − − KX KX Assim, a região crítica é 54998,4< − X . Portanto, ( ) 9772498,0)2(2 20 22716,1 454998,41 11 =Φ=<= = × − <× − = <=− − − ZP n X PHKXP σ µβ Logo, 02275,0=β . (d) Temos que encontrar um - tabz tal que tabc zz −> . Note que 65,4−=− tabz leva-nos à aceitação! Mas, 000001659,0)( =−≤= tabzZPα , que é um absurdo! 58 (b) desvio padrão populacional σ desconhecido 00 : µµ =H Estatística do teste: n S X tc − = − 0µ 1H bilateral: rejeita 0H se || ct > tabt , α=> )|(| tabtTP , )1(~ −ntT 1H unilateral à direita: rejeita 0H se ct > tabt , α=> )( tabtTP 1H unilateral à esquerda: rejeita 0H se ct < - tabt , α=> )( tabtTP 59 Exemplo 4: em relação ao Exemplo 3, vamos supor que σ era desconhecido. Use 05,0=α . Solução: 4597,120 8756,3 5735,3 −=× − =ct (a) 093,2=tabt . Como tabc tt <|| , não rejeitamos 0H . (b) 7291,1=tabt . Como tabc tt −> , não rejeitamos 0H . Nota: como %76,103%100 735,3 8756,3 =×=CV é elevado, o teste não foi sensível o bastante para detectar diferença significativa! 60 4.3.2. Teste de hipóteses para a proporção de uma população 00 : θθ =H Estatística do teste: nPzc − − = )1( 00 0 θθ θ , sendo P a proporção amostral. 1H bilateral( 0θθ ≠ ): rejeita 0H se || cz > tabz , tal que ( ) α=Φ− )(12 tabz 1H unilateral à direita( 0θθ > ): rejeita 0H se cz > tabz , tal que α=Φ− )(1 tabz . 1H unilateral à esquerda( 0θθ < ): rejeita 0H se cz < tabz− , tal que α=Φ− )(1 tabz . Exemplo 5: uma estação de TV afirma que 60% dos televisores estavam ligados no seu programa especial de sábado. Uma rede concorrente deseja contestar essa afirmação, e decide entrevistar 200 domicílios. Desses 200, 104 deram respostas afirmativas. Teste a hipóteses 6,0:0 =θH e 6,0:1 <θH , com : (a) 01,0=α (b) 05,0=α . Solução: 31,2 200 24,0 6,052,0 −= − =cz (a) 325,2−=− tabz , então não rejeitamos 0H para 1% de significância . (b) 645,1−=− tabz , logo rejeitamos 0H para 5% . 61 4.3.3. Teste de hipóteses para a variância de uma população 2 0 2 0 : σσ =H ; Estatística do teste: 2 0 2 )1( σ − = nSqc 1H bilateral( 202 σσ ≠ ): rejeita 0H se inf0 qqc << ou supqqc > , onde 2 )( sup α =≥ qXP , 2 1)( inf α −=≥ qXP , )1(~ −− nQuadradoQuiX 1H unilateral à direita( 202 σσ > ): rejeita 0H se supqqc > , onde α=≥ )( supqXP 1H unilateral à esquerda( 202 σσ < ): rejeita 0H se inf0 qqc << , onde α−=≥ 1)( infqXP 62 Exemplo 6: para o exemplo do diâmetro dos parafusos, deseja-se testar 65,0: 20 =σH contra 65,0: 21 ≠σH . Use 05,0=α . Solução: 16=n ; 634624,02 =s ; 796633,0=s 645,14 65,0 634624,015 = × =cq . Como 488,27262,6 << cq não rejeitamos 0H 4.3.4. Teste de hipóteses para a igualdade de médias de duas populações independentes (a) desvios padrões populacionais conhecidos YXH µµ =:0 63 Estatística do teste: + − = −− mn YX z YX c 22 σσ , n é o tamanho da amostra para X e m para Y 1H bilateral( YX µµ ≠ ): rejeita 0H se || cz > tabz , tal que ( ) α=Φ− )(12 tabz 1H unilateral à direita( YX µµ > ): rejeita 0H se cz > tabz , tal que α=Φ− )(1 tabz . 1H unilateral à esquerda( YX µµ < ): rejeita 0H se cz < - tabz , tal que α=Φ− )(1 tabz . Exemplo 8: Uma máquina automática enche latas com base no peso líquido, com variabilidade praticamente constante e independente dos ajustes da média, onde 5=σ g. Duas amostras retiradas em dois períodos de trabalho consecutivos,de quinze e dez latas, respectivamente, resultaram pesos líquidos médios de 188,9 e 184,6 g. Desconfia-se que a regulagem da máquina quanto ao peso médio possa ter sido modificada entre a coleta das duas amostras. Qual a conclusão ao nível de significância de 5%? Solução: YXH µµ =:0 contra YXH µµ ≠:1 10656,2 10 1 15 15 6,1849,188 = + − =cz Para teste bilateral, 96,1=tabz , levando-nos à rejeição de 0H . (b) desvios padrões populacionais desconhecidos YXH µµ =:0 Estatística do teste: + − = −− mn S YX tc 11 , 2 )1()1( 22 −+ −+− = mn SmSnS YX 64 1H bilateral ( YX µµ ≠ ): rejeita 0H se || ct > tabt , α=> )|(| tabtTP , )2(~ −+ mntT 1H unilateral à direita ( YX µµ > ): rejeita 0H se ct > tabt , α=> )( tabtTP 1H unilateral à esquerda( YX µµ < ) : rejeita 0H se ct < - tabt , α=> )( tabtTP Exemplo 9: duas técnicas de vendas são aplicadas por duas equipes de vendedores: a técnica A por 12 vendedores e a B por 15. No final de um mês obtiveram-se os seguintes resultados: Estatísticas A B Média 68 76 Variância 50 50,8 Amostra 12 15 Teste se a média do grupo B é maior que a do A, usando 05,0=α . Solução: ABH µµ =:0 contra ABH µµ >:1 . 1026,7 25 50118,5014 = ×+× =s ; 908,2 12 1 15 11026,7 6876 = +× − =ct ; 7081,1=tabt Como tabc tt > rejeitamos 0H . 4.3.5. Teste de hipóteses para a igualdade de médias de populações pareadas Quando se compara médias de duas populações pode ocorrer uma diferença significativa devido a fatores externos não-controláveis. Um modo de contornar este problema é coletar observações aos pares, de modo que os dois elementos de cada par sejam o mais homogêneos possível, exceto naquilo que se quer comparar. 65 A amostra será de pares (X1, Y1), (X2, Y2), ..., (Xn, Yn). A estatística do teste será construída através da diferença D = X – Y, que mede o efeito (diferença) entre os dois tratamentos. 0H : 0=Dµ Estatística do teste: n S D t D c ×= − , onde − D e DS são a média e o desvio padrão amostrais, respectivamente. 1H bilateral( 0≠Dµ ): rejeita 0H se || ct > tabt , α=> )|(| tabtTP , )1(~ −ntT 1H unilateral à direita( 0>Dµ ): rejeita 0H se ct > tabt , α=> )( tabtTP 1H unilateral à esquerda( 0<Dµ ): rejeita 0H se ct < - tabt , α=> )( tabtTP Exemplo 11: cinco operadores são treinados em duas máquinas de diferentes fabricantes, para verificar qual delas apresenta maior facilidade de aprendizagem. Mediu- se o tempo (em minutos) que cada um dos operadores gastou na realização de uma mesma tarefa com cada um dos dois tipos de máquinas. Os resultados foram os seguintes: operador Fabricante X Fabricante Y D 2D 1 80 75 5 25 2 72 70 2 4 3 65 60 5 25 4 78 72 6 36 5 85 78 7 49 Total 380 355 25 139 Ao nível de 10% é possível afirmar que a tarefa realizada na máquina X demora mais do que na máquina Y? Solução: 0H : YX µµ = contra 1H : YX µµ > . 5= − d e =Ds = 1,8708 ; 98,558708,1 5 =×=ct , 533,1=tabt . Como tabc tt > , rejeitamos 0H . 66 4.3.6. Teste de hipóteses para a igualdade de proporções de populações independentes YXH θθ =:0 Estatística do teste: ))1()1( m PP n PP PP z YYXX YX c − + − − = , YX PP , são as proporções amostrais 1H bilateral( YX θθ ≠ ): rejeita 0H se || cz > tabz , ( ) α=Φ− )(12 tabz 1H unilateral à direita( YX θθ > ): rejeita 0H se cz > tabz , ( ) α=Φ− )(1 tabz 1H unilateral à esquerda(( YX θθ < )): rejeita 0H se cz < - tabz , ( ) α=Φ− )(1 tabz Exemplo 12: a matriz de uma empresa de embalagens quer comparar a proporção de itens que são rejeitados pelo setor de qualidade em duas de suas filiais. As amostras resultaram no seguinte: 200=n ; 05,0=Xp e 210=m ; 052,0=Yp 092,0 210 )052,01(052,0 200 )05,01(05,0 052,005,0 −= − + −× − =cz Para teste unilateral à esquerda, com 05,0=α , aceita-se 0H , pois - 645,1−=tabz . Mas, qual valor de α levaria à rejeição de 0H ? Temos que encontrar um - tabz tal que tabc zz −< . Note que - 09,0−=tabz leva-nos à rejeição. Mas, 4641,04641,0)09,0( =⇒=−≤= αα ZP , que é um absurdo! 4.4. Considerações sobre significância estatística Um teste de hipótese leva-nos a uma decisão acerca da hipótese nula: rejeitá-la ou aceitá-la, com uma probabilidade de cometer os erros tipo I e II, respectivamente. Mas, além de simplesmente decidir, os seguintes aspectos devem ser considerados: 67 (1º) É preciso um senso crítico ao se aplicar um teste de hipóteses. É claro que, dependendo do nível de significância adotado, poderemos rejeitar ou aceitar 0H . Num teste de hipóteses, o usuário pode estar movido por uma extrema vontade de rejeitar 0H , sendo assim, ele vai encontrar um valor de α que atenda aos interesses dele, mesmo que o valor seja um absurdo, por exemplo 60,0=α . Logo, devemos ser o mais imparcial possível. (2º) A significância prática é outro aspecto a ser considerado. Suponha que se esteja fazendo um teste sobre o diâmetro médio, em centímetros, de eixos de tratores em uma linha de montagem. As hipóteses são: 10:0 =µH 10:1 ≠µH , com 05,0=α . Suponha que uma amostra de 2000 eixos resultou 01,10= − X e 2,0=S . A estatística do teste resultou em 24,22000 2,0 1001,10 = − =ct . Para 05,0=α , 96,1=tabt , levando-nos à rejeição de 0H . Mas, pensando nos aspectos práticos, o engenheiro responsável pelo setor considera que essa diferença de 0,01 cm é irrelevante, não causará problemas para o trator. Embora o teste acusou uma diferença estatisticamente significativa, essa diferença não tem importância prática. Uma vez que o engenheiro afirma que essa diferença não é relevante, poderemos adotar um valor menos rigoroso para α , por exemplo, α =0,01, cujo valor tabelado é 575,2=tabt , e assim não rejeitaríamos 0H . (3ª) Pode acontecer o contrário que em (2ª) acima. Por exemplo, suponha que se esteja realizando um teste de hipóteses sobre a receita (em milhões de reais) de um município: 1030:0 =µH 1030:1 ≠µH , com 05,0=α . Dispondo-se de uma amostra de tamanho 15, os resultados foram: 1130= − X e 720=S . A estatística do teste resultou em 54,015 720 10301130 = − =ct . Para 05,0=α , 15,2=tabt , levando-nos à não rejeição de 0H . Note que a diferença entre a média amostral e o valor sob 0H é de 100 unidades monetárias, que é considerada elevada, mas o teste não foi sensível o bastante para detectar. Isto ocorreu devido ao elevado coeficiente de variação de 63,72%. Seria necessária uma amostra maior. 68 5 – PROBABILIDADE E ESTATÍSTICA PELO COMPUTADOR Testes de hipóteses usando o computador Quando realizamos testes de hipóteses partimos de um valor fixado para α , permitindo tomar uma decisão entre 0H e 1H . Quando utilizamos o computador, o programa não irá utilizar um α pré-fixado, ou seja, o programa deixa a critério do usuário fixar o nível de significância. O computador calcula o valor-p ( ou significância amostral). De posse do valor-p comparamos com α , utilizando a seguinte regra de decisão: se valor-p < α então rejeitamos 0H . Valores pequenos do valor-p evidenciam que a hipótese nula é falsa . O conceito de pequeno é incumbência do usuário, que decide qual α utilizar. Contudo, há três interpretações freqüentemente utilizadas em trabalhos de pesquisa: • Significativa, quando p for menor que 0,05 • Muito significativa, quando p for menor que 0,01; • Altamente significativa, quando p for menor que 0,001; 69 Há diversos softwares estatísticos: SPSS, SAS, MINITAB, R, BIOESTAT e outros. O software R é um programa mais avançado, mas é de domínio público e pode ser obtido gratuitamente no site R-Project. Outra opção é o Matlab, que possui módulos de Estatística, e também o Scilab, similar ao Matlab. O Scilab é gratuito. Trabalharemos com o SPSS (Statistical Package for Social Sciences). O SPSS originalmente foi planejado para utilização em ciências sociais. Posteriormente foi amplamente difundido e foi sendo adotado por diversas áreas científicas, devido à expansão de recursos que lhe foi incorporada. A UFRGS possui licença para o SPSS, estando disponível nas suas Faculdades e Institutos. Atualmente o nome do programa SPSS passou a se chamar PASW. A entrada de dados no SPSS é do tipo planilha (similar ao Excel) de dados, ou seja, as variáveis são colocadas em colunas e as unidades amostrais em linhas. O SPSS realiza testes de hipóteses e intervalos de confiança para uma, duas ou mais amostras (de populações independentes e dependentes). A saída fornecida pelo SPSS consta de dois módulos: Estatísticas descritivas: contêm média amostral, desvio padrão, erro padrão da média, tamanho da amostra. 70 Inferência: contém estatística do teste, graus de liberdade (df), significância bilateral (valor-p) e intervalo de confiança. Caso o usuário deseje um teste unilateral, basta dividir o valor-p por 2 e comparar com α . Exemplo 1: teste a hipótese de que a receita de um município (em milhões) seja de 1229. Receita: 1230 582 576 2093 2621 1045 1439 717 1838 1359 Para executar o teste pelo SPSS você deve seguir os seguintes passos: T-Test Estatísticas para uma amostra n média Desvio padrão Erro padrão da média RECEITA 10 1350,0000 675,8246 213,7145 Teste t para uma amostra Valor do teste = 1229 t gl Signif. bilateral Diferença da média em relação ao valor Intervalo de 95% de confiança para a diferença Limite inferior Limite superior RECEITA ,566 9 ,585 121,0000 -362,4558 604,4558 Através do quadro “estatísticas para uma amostra” obtemos que %50100 1350 8246,675 =×=CV . 71 O teste t resultou na estatística ct =,566, cujo valor-p (sig) é 0,585. Se fixarmos 05,0=α não há evidências para rejeitar H0: 1229=µ . Note que embora a diferença entre a média amostral e o valor sob H0 foi de 121, o teste não foi sensível o bastante para detectar esta diferença, isto porque o coeficiente de variação é elevado. Exemplo 2: teste a hipótese de que o diâmetro médio de parafusos seja de 57 mm Diâmetro: 56,5 56,6 56,6 56,7 56,7 56,8 56,8 56,8 56,8 56,9 56,9 56,9 56,9 56,9 56,9 56,9 56,9 56,9 56,9 57 57 57 57 57 57,1 57,1 57,1 57,1 57,2 57,2 57,3 T-Test Estatísticas para uma amostra n média Desvio padrão Erro padrão da média DIAMET 31 56,9161 0,1828 3,28E-02 Teste t para uma amostra Valor do teste = 57 t gl Signif. bilateral Diferença da média em relação ao valor Intervalo de 95% de confiança para a diferença Limite inferior Limite superior DIAMET -2,555 30 ,0,016 -8,3871E-02 -,1741 6,392E- 03 %321,0100 9161,56 1828,0 =×=CV Se assumirmos 01,0=α então não rejeitaremos a hipótese nula, pois valor-p = 0,016. 72 Exemplo 3: comparar duas marcas de pneus quanto aos quilômetros percorridos. 1ª Marca : 34,00 38,00 31,00 35,00 36,00 37,00 32,00 32,00 31,00 34,00 35,00 35,00 36,00 34,00 2ª Marca : 30,00 32,00 32,00 33,00 33,00 30,00 28,00 32,00 30,00 33,00 32,00 33,00 29,00 32,00 31,00 Para executar o teste pelo SPSS você deve seguir os seguintes passos: digitar os dados na planilha em duas colunas Km Marca 34 1 38 1 31 1 35 1 36 1 37 1 32 1 32 1 31 1 34 1 35 1 35 1 36 1 34 1 30 2 32 2 32 2 33 2 33 2 30 2 28 2 32 2 30 2 33 2 32 2 33 2 29 2 32 2 31 2 73 O próximo passo é executar os comandos: T-Test Estatísticas dos grupos MARCA N Média Desvio padrão Erro padrão da média KM 1,00 14 34,2857 2,1636 ,5783 2,00 15 31,3333 1,5887 ,4102 Teste t para amostras independentes Teste t para igualdade médias Sig. t glSig.bilateral Diferenças entre médias Erro padrão da diferença KM ,326 4,209 27 0,0002 2,9524 ,7014 A estatística do teste é =ct 4,209, cujo valor-p=0. Se assumirmos 01,0=α então rejeitaremos a hipótese de igualdade de médias. Exemplo 4: um grupo de cobaias é submetido à uma determinada dieta e observa-se o peso inicial e final após um período de tempo. Queremos testar se houve aumento significativo no peso médio. Peso no início: 635,00 704,00 662,00 560,00 603,00 745,00 698,00 575,00 633,00 669,00 Peso no final: 640,00 712,00 681,00 558,00 610,00 740,00 707,00 585,00 635,00 682,00 Os dados devem ser colocados em duas colunas: 74 Peso inicial Peso final 635 640 704 712 662 681 560 558 603 610 745 740 698 707 575 585 633 635 669 682 Aqui, como as amostras são dependentes, o caminho é o seguinte: T-Test Estatísticas para as amostras pareadas Média n Desvio padrão Erro padrão da média PESO_1 648,4000 10 58,8524 18,6107 PESO_2 655,0000 10 59,2002 18,7208 Teste t para amostras pareadas Diferença dos pares t glSignif bilateral Média Desvio padrão Erro padrão da média PESO_1 - PESO_2 -6,6000 7,0427 2,2271 -2,963 9 ,016 A Estatística do teste é 963,2−=ct , cujo valor-p é 0,016. Para 018,0=α rejeitaremos a hipótese de igualdade entre os pesos inicial e final. 75 6 – PLANEJAMENTO DE EXPERIMENTOS A origem dos modelos de planejamento de experimentos vem da experimentação agrícola, mas as aplicações atuais estendem-se às mais diversas áreas: Biologia, Economia, Engenharia, etc. Definição: fator (ou tratamento) é uma variável que está sendo atribuída (ou controlada) durante o experimento, pode ser qualitativa ou quantitativa. Exemplo 1: tipo de ração para animais técnicas de vendas Definição: variável dependente (ou variável-resposta) mede o efeito do fator nas unidades experimentais Exemplo 2: ganho de pesos em animais. montantes de vendas Definição: casualização é o processo de designar aleatoriamente os tratamentos às unidades experimentais. Exemplo 3: plantas são designadas aleatoriamente entre 3 tipos de adubos Unidades experimentais: { 121110987654321 ,,,,,,,,,,, uuuuuuuuuuuu
Compartilhar